Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.14 MB, 27 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
BỘ GIÁO DỤC VÀ ĐÀO TẠO
<b>TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP. HỒ CHÍ MINH</b>
<b>1.GIỚI THIỆU...3</b>
<b>2.ĐỊNH NGHĨA...3</b>
<b>1.GIỚI THIỆU BÀI TOÁN:...5</b>
<b>2.HIỆN TRẠNG VÀ CẢI TIẾN...5</b>
<b>3.ỨNG DỤNG...5</b>
<b>4.NGUYÊN TẮC HOẠT ĐỘNG...6</b>
<b>1.XÂY DỰNG CÂY PCC_TREE...6</b>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Khai thác tập mục thường xuyên, lần đầu tiên được đề xuất bởi <i>Agrawal et al</i>, là một nhiệm vụ cơ bản và thiết yếu trong lĩnh vực khai thác dữ liệu vì nó đã được sử dụng rộng rãi trong nhiều ứng dụng khai thác dữ liệu quan trọng. Các ứng dụng này bao gồm việc khám phá các quy tắc kết hợp, quy tắc tuần tự, mối tương quan, tập, v.v. Kể từ đề xuất đầu tiên về khai thác tập mục thường xuyên, hàng trăm thuật toán đã được đề xuất trên nhiều loại tiện ích mở rộng và ứng dụng khác nhau, từ các phương pháp khai thác dữ liệu có thể mở rộng, cho đến xử lý nhiều loại dữ liệu, các tác vụ khai thác mở rộng khác nhau và nhiều ứng dụng mới .
Dựa trên DiffNodeset, chúng tơi thiết kế dFIN, một thuật tốn hiệu quả để khai thác các tập mục phổ biến. Hiệu quả cao của dFIN đạt được bằng ba kỹ thuật:
(1) các tập mục được biểu diễn bằng DiffNodesets, đây là một cấu trúc rất cô đọng và nhỏ hơn nhiều, có thể hỗ trợ rất nhiều cho quá trình khai thác các tập mục thường xuyên, (2) nó sử dụng chiến lược tìm kiếm kết hợp để tìm các tập phổ biến trong cây liệt kê tập hợp và
(3) nó liệt kê trực tiếp các tập phổ biến mà không cần tạo ứng cử viên trong một số trường hợp.
Một nghiên cứu hiệu suất sâu rộng đã được thực hiện để so sánh hiệu suất của dFIN với FIN, PrePost, FP-growth* và Eclat_g, những thuật toán khai thác hàng đầu hiện nay. Nghiên cứu thử nghiệm sâu rộng của chúng tôi cho thấy dFIN hiệu quả và luôn chạy nhanh hơn các thuật toán khác.
<b>2.ĐỊNH NGHĨA</b>
<b>Thuật toán bao gồm các thành phần:</b>
LƯU Ý :Minsup tỉ lệ nghịch đối với Frquent itemsets,với Minsup càng nhỏ thì Frequent itemsets sẽ cho ra càng nhiều vậy nên đối với người dùng như chúng ta,ta sẽ ưu tiên đặt minsup cao nhằm giảm thiểu Frquent itemsets giúp tăng tốc độ tìm kiếm và giảm thiểu bộ nhớ cần thiết để tìm kiếm Frquent itemsets. Nhưng việc tăng minsup là một phương pháp giải quyết khơng mang tính hiệu quả cao vậy nên các thuật tốn đã ra đời.
<b>DFin có thể áp dụng các kỹ thuật tối ưu hóa sau để cải thiện hiệu suất:</b>
Cắt tỉa (Pruning): Kỹ thuật cắt tỉa giúp loại bỏ các itemset không cần thiết và giảm số lượng phép tính cần thực hiện. DFin có thể sử dụng các phương pháp như cắt tỉa dựa trên ngưỡng hỗ trợ (support threshold) để loại bỏ các itemset có tần suất xuất hiện thấp hơn ngưỡng đã định trước. Điều này giúp giảm độ phức tạp tính tốn và tăng hiệu suất của thuật tốn.
Cải tiến q trình tạo frequent itemset: DFin có thể sử dụng các cải tiến trong quá trình tạo
<i>frequent itemset từ dữ liệu giao dịch. Một trong những cải tiến phổ biến là sử dụng cây FP-growth để thay thế q trình tạo frequent itemset theo thuật tốn Apriori. Cây FP-growth</i> giúp tạo frequent itemset một cách nhanh chóng và hiệu quả bằng cách sử dụng cấu trúc cây để lưu trữ thông tin về các itemset và tần suất của chúng.
DFIN là viết tắt của "Distributed Frequent Itemset Mining" (khai phá tập hợp mục phổ biến phân tán). DFIN là một thuật toán được sử dụng trong khai phá dữ liệu để tìm các tập hợp mục phổ biến trong các hệ thống phân tán.
Thuật toán DFIN được thiết kế để xử lý dữ liệu lớn và phân tán trên nhiều nút xử lý. Nó sử dụng phân chia dữ liệu và tính tốn song song để tìm kiếm các tập hợp mục phổ biến mà xuất hiện với tần suất cao trong toàn bộ tập dữ liệu.
<b>2.HIỆN TRẠNG VÀ CẢI TIẾN</b>
HIỆN TRẠNG : thuật tốn cịn dựa vào overhead liên lạc, đồng bộ hóa dữ liệu, khơng hiệu quả với dữ liệu thưa và phụ thuộc vào cấu trúc mạng phân tán.
<i>1.Overhead liên lạc: khi kích thước dữ liệu lớn và mạng phân tán có băng thơng hạn chế. Overhead </i>
liên lạc có thể làm giảm hiệu suất của thuật tốn.
<i>2.Đồng bộ hóa dữ liệu: Q trình này có thể gây ra trễ và tốn thời gian, đặc biệt là khi số lượng nút xử </i>
lý lớn và dữ liệu phân tán rộng. Đồng bộ hóa dữ liệu là một thách thức trong việc đảm bảo tính nhất quán và đúng đắn của kết quả cuối cùng.
<i>3.Không hiệu quả khi dữ liệu thưa: Các thuật toán khai phá tập hợp mục phổ biến như Apriori hoặc </i>
FP-Growth dựa trên việc xem xét các tập hợp con của các mục, dữ liệu thưa có thể dẫn đến số lượng tập hợp con lớn và tăng đáng kể thời gian xử lý.
4.Tính phân tán và mạng phân tán: Nếu mạng phân tán không được thiết kế tối ưu hoặc dữ liệu không được phân chia đều, hiệu suất của thuật tốn có thể bị giảm. Khơng đảm bảo tìm kiếm tối ưu nhất.
CẢI TIẾN: DFIN thường có hiệu suất tốt trong việc khai phá tập hợp mục phổ biến trên dữ liệu lớn. Các ưu điểm và hiệu suất.
<i>1.Xử lý dữ liệu lớn: DFIN được thiết kế để xử lý dữ liệu lớn và phân tán trên nhiều nút xử lý.2.Tính song song và phân tán: DFIN sử dụng tính tốn song song và phân tán để khai phá </i>
tập hợp mục phổ biến.
<i>3.Hiệu suất cao: DFIN sử dụng các thuật toán khai phá tập hợp mục phổ biến hiệu quả như </i>
Apriori hoặc FP-Growth để tìm kiếm các tập hợp mục phổ biến.
<i>4.Tính mở rộng được: DFIN có khả năng mở rộng để xử lý dữ liệu lớn hơn và tăng cường khả</i>
năng tính tốn bằng cách thêm nút xử lý vào hệ thống phân tán.
<b>3.ỨNG DỤNG</b>
1.Phân tích hành vi người dùng: DFIN có thể được sử dụng để khai phá tập hợp mục phổ biến trong dữ liệu hành vi người dùng, chẳng hạn như lịch sử mua hàng trực tuyến, hoạt động trên mạng xã hội, lịch sử duyệt web và nhiều hơn nữa.
2.Phân tích dữ liệu bán hàng: DFIN có thể được áp dụng trong lĩnh vực bán lẻ và phân tích dữ liệu bán hàng để khai phá tập hợp mục phổ biến.
3.Phát hiện gian lận tín dụng: DFIN có thể được sử dụng để phát hiện các mơ hình mua hàng đáng ngờ hoặc khơng bình thường để giúp trong việc phát hiện gian lận tín dụng.
4.Phân tích dữ liệu y tế: DFIN có thể được áp dụng trong lĩnh vực y tế để khai phá tập hợp mục phổ biến trong dữ liệu bệnh nhân và lịch sử điều trị.
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><b>4.NGUYÊN TẮC HOẠT ĐỘNG</b>
(1) Nó bao gồm một gốc có nhãn là "null" và một tập hợp các cây con tiền tố mục là con của gốc. (2) Mỗi nút trong cây con tiền tố mục bao gồm năm trường: tên mục, số đếm, danh sách con, thứ tự trước và thứ tự sau. tên mục đăng ký mục mà nút này đại diện. count đăng ký số lượng giao dịch được trình bày theo phần đường dẫn đến nút này. danh sách con đăng ký tất cả con của nút. pre-order là số thứ tự trước của nút và thứ tự sau là số thứ tự sau của nút.
PCC_TREE (Prefix-Compressed Compact Tree) là một cấu trúc dữ liệu quan trọng trong thuật toán DFin (Distributed Frequent Itemset Mining). Nó được sử dụng để lưu trữ và quản lý các itemset phổ biến trong quá trình khai phá dữ liệu phân tán.
Cây PPC-TREE bao gồm:
Thuộc tính 1. Đối với bất kỳ nút nào và trong cây PPC, là tổ tiên của khi và chỉ khi .pre-order .pre-order và .post-order .post-.post-order.
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">Thuộc tính 2. Đối với bất kỳ nút nào và trong cây PPC đăng ký cùng một mục .itemname .item-name), nếu .pre-order .pre-.pre-order thì .post-.pre-order .post-.pre-order .
<b>CÂY PPC-TREE:</b>
(1) Quét một lần để tìm tập hợp các mục thường xuyên. (2) Sắp xếp theo thứ tự hỗ trợ giảm dần là . (3) Tạo gốc của cây PPC và gắn nhãn là "null". (4) Foreach giao dịch trong DB Do
(5) Xóa tất cả các mục không thường xuyên và sắp xếp theo thứ tự . Đặt danh sách mục thường xuyên được sắp xếp trong Trans là , phần tử đầu tiên và là danh sách còn lại.
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">DiffNodesets <small>i i 1 2 </small>= {( x.pre-order x.count , ) | x Tập nút <small>i 1</small> y ( Tập nút , nút tương ứng với là nút tổ tiên của nút tương ứng<small>i 2 </small> y với x )}.
<b>1.1 DFin (Distributed Frequent Itemset Mining) là một thuật toán được sử dụng để khai phá</b>
và tìm kiếm các itemset phổ biến từ dữ liệu phân tán. Với tập dữ liệu lớn và phân tán trên nhiều nút xử lý, DFin cho phép khám phá các mẫu dữ liệu phổ biến một cách hiệu quả và song song trên các nút khác nhau.
DFin algorithm sẽ phân tán dữ liệu vào các nút xử lý khác nhau và thực hiện khai phá frequent itemset trên mỗi nút.
Mỗi nút sẽ tính tốn support local (support trong phạm vi của nút đó) của các item và gửi kết quả về nút gốc để tính tốn support global (support trên toàn bộ tập dữ liệu).
Dựa trên support global, DFin algorithm sẽ xác định frequent itemset và trả về kết quả.
</div>