Tf-It Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (755.56 KB, 66 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
--------------------------------------NGUYỄN ĐỨC CHUẨN

NGUYỄN ĐỨC CHUẨN

TF-IT CHO GOM CỤM VĂN BẢN DỰA TRÊN
TẬP PHỔ BIẾN
HỆ THỐNG THÔNG TIN
HỒ
CHÍ
MINH
2017

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HỒ CHÍ MINH – 2017

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
------------------------------------

NGUYỄN ĐỨC CHUẨN

TF-IT CHO GOM CỤM VĂN BẢN DỰA TRÊN
TẬP PHỔ BIẾN

Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 60.48.01.04
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. LÊ HOÀI BẮC

HỒ CHÍ MINH – NĂM 2017

i

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ công trình nào khác.

Tp. HCM, Ngày 02 tháng 06 năm 2017
Học viên thực hiện luận văn

NGUYỄN ĐỨC CHUẨN

ii

LỜI CẢM ƠN
Trước tiên, tôi gởi lời cám ơn chân thành đến PGS.TS. Lê Hoài Bắc,
Trường Đại học Khoa học Tự nhiên Đại học Quốc gia Tp.HCM, Thầy đã nhiệt tình
hướng dẫn và định hướng, giúp tôi hoàn thành luận văn này.
Đồng thời, tôi xin gởi lời cám ơn và sự tri ân sâu sắc đối với các Thầy Cô
của Học viện Công nghệ Bưu chính Viễn thông, đặc biệt là các Thầy Cô khoa Công
nghệ Thông tin đã truyền đạt vốn kiến thức quý báu cho chúng tôi trong suốt thời
gian học tập tại trường.

Cùng với đó, tôi cũng xin gửi lời cám ơn đến Ban Giám hiệu, khoa Điện tử Tin học trường Cao đẳng Kỹ thuật Cao Thắng, cũng như các đồng nghiệp ở bộ môn
Tin học đã tạo điều kiện và giúp đỡ tôi hoàn thành khóa học này.
Sau cùng, tôi gửi lời biết ơn đến gia đình, bạn bè và các bạn cùng lớp đã ủng
hộ, tạo điều kiện tốt cho tôi trong suốt khóa học.
Trong quá trình thực hiện luận văn, tôi đã cố gắng hoàn thành tốt với tất cả
nỗ lực của bản thân, nhưng chắc chắn không tránh khỏi những sai sót và hạn chế.
Rất mong nhận được sự đóng góp ý kiến của Quý Thầy Cô và các bạn để tôi học
thêm được nhiều kinh nghiệm.
Tôi xin chân thành cám ơn!

Tp. HCM, Ngày 02 tháng 06 năm 2017
Học viên thực hiện luận văn

Nguyễn Đức Chuẩn

iii

MỤC LỤC
LỜI CẢM ƠN ................................................................................................. ii
DANH MỤC CÁC KÝ HIỆU .........................................................................v
DANH MỤC CÁC BẢNG .............................................................................vi
DANH MỤC CÁC HÌNH ............................................................................. vii
MỞ ĐẦU ..........................................................................................................1
CHƯƠNG 1 - TỔNG QUAN ..........................................................................2
1.1. Tầm quan trọng .....................................................................................2
1.2. Khai thác tập phổ biến ..........................................................................3
1.3. Gom cụm dữ liệu ...................................................................................4
1.4. Mục đích và cấu trúc của luận văn........................................................5
CHƯƠNG 2 - CƠ SỞ LÝ LUẬN ....................................................................7

2.1. Các khái niệm cơ bản ............................................................................7
2.1.1. Cơ sở dữ liệu giao dịch ..................................................................7
2.1.2. Độ phổ biến ....................................................................................7
2.1.3. Tập phổ biến...................................................................................7
2.2. Một số phương pháp khai thác tập phổ biến .........................................7
2.2.1. Thuật toán Apriori..........................................................................7
2.2.2. Phương pháp IT-Tree ...................................................................14
2.2.3. Phương pháp FP-Tree ..................................................................18
2.2.4. Thuật toán MWIT-FWUI .............................................................22
2.3. Một số phương pháp gom cụm văn bản ..............................................26
2.3.1. Phương pháp gom cụm phân cấp .................................................26
2.3.2. Phương pháp gom cụm phân hoạch .............................................28

iv

2.3.3. Phương pháp phân cụm sử dụng tập phổ biến .............................29
CHƯƠNG 3 - TF-IT CHO GOM CỤM VĂN BẢN .....................................36
3.1. Bài toán gom cụm văn bản ..................................................................36
3.2. Mô hình giải quyết bài toán gom cụm theo tf-it .................................36
3.2.1. Tiền xử lý văn bản .......................................................................37
3.2.2. Tìm tập phổ biến ..........................................................................39
3.2.3. Gom cụm văn bản ........................................................................40
3.3. Ví dụ minh họa ....................................................................................42
3.3.1. Xét tập văn bản các từ như sau ....................................................42
3.3.2. Tính trọng số TF-IDF của mỗi từ ................................................43
3.3.3. Tính trọng của mỗi văn bản .........................................................47
3.3.4. Tính độ hỗ trợ của mỗi từ (wus) ..................................................47
3.3.5. Áp dụng thuật toán MC để gom cụm các văn bản .......................48
CHƯƠNG 4 - THỰC NGHIỆM VÀ ĐÁNH GIÁ ........................................51

4.1. Chuẩn bị dữ liệu ..................................................................................51
4.2. Phương pháp đánh giá .........................................................................52
4.3. Đánh giá kết quả .................................................................................53
4.3.1. Bộ ngữ liệu 1 ................................................................................53
4.3.2. Bộ ngữ liệu 2 ................................................................................54
4.3.3. Bộ ngữ liệu 3 ................................................................................55
4.4. Nhận xét và đánh giá ...........................................................................56
TÀI LIỆU THAM KHẢO..............................................................................57
Tiếng Việt...................................................................................................57
Tiếng Anh...................................................................................................57

v

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Viết tắt
CSDL
FI

minWUS

KDD

TF-IT
Wus

Tiếng Anh

Tiếng Việt

Databases

Cơ sở dữ liệu

Frequent itemsets

Tập phần tử phổ biến

Minimum weight utility

Độ hỗ trợ trọng số hữu ích tối

support

thiểu

Knowledge Discovery in
Databases

Phát hiện tri thức từ CSDL

Terms Frequent - Itemsets Tree Tuấn suất các từ - cây tập phần tử
Weight utility support

Độ hỗ trợ trọng số hữu ích

vi

DANH MỤC CÁC BẢNG

Bảng 2.1: Cơ sở dữ liệu giao dịch ............................................................................9
Bảng 2.2: Cơ sở dữ liệu áp dụng cho Apriori ...........................................................9
Bảng 2.3: Tập phổ biến L1 .....................................................................................10
Bảng 2.4: Tập ứng viên C2 .....................................................................................11
Bảng 2.5: Tập phổ biến L2 .....................................................................................11
Bảng 2.6: Tập ứng viên C3 .....................................................................................12
Bảng 2.7: Tập phổ biến L3 .....................................................................................12
Bảng 2.8: Tập ứng viên C4 .....................................................................................13
Bảng 2.9: Tập phổ biến L4 .....................................................................................13
Bảng 2.10: Tập ứng viên C5 ...................................................................................14
Bảng 2.11: Cơ sở dữ liệu định dạng theo chiều dọc ...............................................17
Bảng 3.1: Biểu diễn dữ liệu ....................................................................................39
Bảng 3.2: Tập cơ sở dữ liệu .....................................................................................42
Bảng 4.1: Bộ ngữ liệu 1 ..........................................................................................51
Bảng 4.2: Bộ ngữ liệu 2 ..........................................................................................51
Bảng 4.3. Bộ ngữ liệu 3 ..........................................................................................52
Bảng 4.4: Kết quả thực nghiệm trên bộ ngữ liệu 1 ..................................................53
Bảng 4.5: Kết quả thực nghiệm trên bộ ngữ liệu 2 ..................................................54
Bảng 4.6: Kết quả thực nghiệm trên bộ ngữ liệu 3 .................................................55

vii

DANH MỤC CÁC HÌNH

Hình 1.1: Ví dụ về tập dữ liệu được gom cụm .........................................................4
Hình 2.1: Thuật toán Apriori .....................................................................................8
Hình 2.2: Thuật toán ECLAT .................................................................................16

Hình 2.3: Cây IT-tree với minSup = 50% ..............................................................17
Hình 2.4: Thuật toán xây dựng cây FP ...................................................................19
Hình 2.5: Thuật toán FP-growth .............................................................................20
Hình 2.6: Cây FP-tree ..............................................................................................21
Hình 2.7: Thuật toán MWIT-FWUI .......................................................................24
Hình 2.8: Cây MWIT với minWUS = 0.4 ..............................................................26
Hình 2.9: Phương pháp gom cụm gộp ....................................................................27
Hình 2.10: Phương pháp gom cụm chia .................................................................27
Hình 2.11: Phương pháp gom cụm phân hoạch......................................................28
Hình 2.12: Phương pháp gom cụm dùng tập phổ biến ...........................................30
Hình 2.13: Phương pháp MC ..................................................................................31
Hình 2.14: Thuật toán MC ......................................................................................32
Hình 3.1: Mô hình giải quyết bài toán gom cụm văn bản theo tf-it .......................37
Hình 3.2: Thuật toán loại bỏ hư từ...........................................................................38
Hình 3.3: Thuật toán MWIT-FWUI ........................................................................40
Hình 3.4: Thuật toán TF-IT .....................................................................................42
Hình 3.5: Cây MWIT ..............................................................................................48
Hình 4.1: Kết quả trên bộ ngữ liệu 1 .......................................................................53
Hình 4.2: Kết quả trên bộ ngữ liệu 2 ......................................................................54
Hình 4.3: Kết quả trên bộ ngữ liệu 3 ......................................................................55

1

MỞ ĐẦU

Gom cụm văn bản là một kỹ thuật khai thác dữ liệu mạnh mẽ để phát hiện ra
chủ đề của các tài liệu văn bản. Đó là tiến trình tổ chức các đối tượng dữ liệu thành
một tập các lớp tách rời được gọi là các cụm. Các đối tượng trong cùng một cụm thì
tương tự nhau và khác với các đối tượng thuộc các cụm khác. Gom cụm văn bản là

công việc tự động tổ chức các tài liệu văn bản vào các cụm hay các nhóm có ngữ
nghĩa, nói cách khác, các tài liệu trong cùng một cụm thuộc cùng một chủ đề, và các
tài liệu trong các cụm khác nhau biểu diễn các chủ đề khác nhau.
Gom cụm văn bản có phạm vi ứng dụng rộng rãi. Các ứng dụng chính của gom
cụm văn bản gồm: tự động tóm tắt dựa trên phương pháp gom cụm văn bản, tự động
tổ chức tập băn bản, và gom nhóm kết quả tìm kiếm. Vì là một bài toán học không
giám sát, gom cụm văn bản có thể được chia thành: các phương pháp phân hoạch,
các phương pháp phân cấp, các phương pháp dựa trên lưới, các phương pháp dựa
trên mô hình, các phương pháp dựa trên mật độ,…
Xu hướng gần đây của gom cụm văn bản là sử dụng tập phổ biến. Phương
pháp này xử lý số chiều lớn của dữ liệu bằng cách chỉ xem xét các phần tử phổ biến
cho việc gom cụm. Một tập các phần tử phổ biến là một tập các từ xuất hiện thường
xuyên cùng với nhau và là những ứng viên cho việc gom cụm. Theo xu hướng này,
đã có rất nhiều công trình được đề xuất. Beil và cộng sự [4] đã giới thiệu phương
pháp Frequent Term-Based Clustering (FTC). Tầm quan trọng của FTC là tạo ra các
cụm văn bản với khả năng trùng lặp ít nhất có thể. Wen Zhang và cộng sự [9] đã
giới thiệu một phương pháp mới được gọi là Maximum Capturing cho gom cụm văn
bản sử dụng tập phổ biến và đã chứng minh tốt hơn các phương pháp được giới
thiệu trước đó.

2

CHƯƠNG 1 - TỔNG QUAN

1.1. Tầm quan trọng
Gom cụm văn bản là một trong những chức năng cơ bản trong khai thác dữ
liệu văn bản. Gom cụm văn bản là gom một tập hợp văn bản vào các nhóm loại
khác nhau để các tài liệu trong cùng nhóm mô tả thông tin cùng một chủ đề. Việc
gom cụm nhanh và chính xác đóng vai trò quan trọng trong lĩnh vực khai thác dữ

liệu văn bản và các hệ thống truy tìm thông tin tự động.
Gom cụm văn bản là một công cụ hiệu quả để quản lý thông tin trùng lặp.
Bằng cách gom các tài liệu tương tự lại với nhau, một tập hợp lớn các tài liệu có thể
nhanh chóng được duyệt qua để dễ dàng nắm bắt các chủ đề khác nhau và chúng có
thể được truy vấn hiệu quả qua nhiều ứng dụng khác nhau. Vì vậy, nó được nghiên
cứu rộng rãi. Gom cụm các tài liệu văn bản đóng vai trò quan trọng về tính hiệu quả
trong tổ chức tài liệu, tóm tắt tài liệu, rút trích chủ đề và truy tìm thông tin.
Cho đến nay, đã có rất nhiều thuật toán gom cụm văn bản đã được giới thiệu
và cùng với đó là có nhiều cách phân loại chúng. Cách phân loại phổ biến nhất là
chia thành 3 loại: phương pháp phân hoạch, phương pháp phân cấp và phương pháp
sử dụng tập phổ biến. Trong đó, phương pháp sử dụng tập phổ biến là phương pháp
được nghiên cứu gần đây và đã chỉ ra là phương pháp hiệu quả cho việc gom cụm
văn bản. Bởi vì, theo phương pháp này mỗi từ trong văn bản chỉ được xét khi nó
xuất hiện phổ biến. Do đó, kích thước của tập dữ liệu sẽ được giảm một cách tự
nhiên. Theo xu hướng này, W. Zhang và đồng sự [9] đã giới thiệu thuật toán MC.
Thuật toán MC đã cho kết quả gom cụm tốt hơn những thuật toán đã được giới thiệu
trước đó.
Phân tích thuật toán MC, chúng tôi nhận thấy độ phức tạp của thuật toán là
O(

). Với độ phức tạp này thuật toán sẽ không hiệu quả với những tập ngữ liệu có

3

số văn bản lớn. Từ đó, luận văn tập trung nghiên cứu cải thiện độ chính xác và thời
gian thực thi của thuật toán.

1.2. Khai thác tập phổ biến
Khai thác tập phổ biến là việc tìm ra sự kết hợp và mối liên hệ giữa các item

trên những tập dữ liệu lớn của các giao dịch hay quan hệ. Với kích thước dữ liệu
khổng lồ được thu thập và lưu trữ, nhiều công ty đã ứng dụng khai thác tập mẫu trên
dữ liệu của họ. Việc khám phá những mối liên hệ thú vị dựa trên các dòng dữ liệu
khổng lồ giúp đưa ra những chiến lược trong kinh doanh, hỗ trợ trong việc thiết kế
các catalog, marketing, phân tích thói quen mua sắm của khách hàng.
Một ứng dụng thường thấy trong khai thác tập item phổ biến là phân tích giỏ
hàng. Quá trình này sẽ phân tích thói quen mua hàng và tìm thấy các mối kết hợp
giữa các item mà khách hàng chọn mua. Việc khám phá quan hệ kết hợp này giúp
cho những người bán lẻ phát triển chiến lược marketing dựa trên những sản phẩm
thường được người dùng mua chung, từ đó nâng cao hiệu quả kinh doanh.
Việc khai thác dữ liệu rút ra các luật kết hợp trong mua bán hàng trực tuyến
cũng giúp cho ngành thương mại điện tử phát triển, đáp ứng nhu cầu mua hàng ngày
càng tăng với tốc độ nhanh chóng và tiện lợi
Khai thác tập phổ biến là một trong những công trình quan trọng và mất nhiều
thời gian trong quá trình khai thác luật kết hợp. Trong hầu hết các thuật toán khai
thác luật kết hợp, các tác giả đặc biệt chú ý đến vấn đề làm thể nào để khai thác
nhanh tập phổ biến. Chính vì vậy, đã có rất nhiều công trình nghiên cứu các tác giả
chỉ tập trung vào việc nghiên cứu nhằm tìm ra thuật toán hiệu quả cho bài toán khai
thác tập phổ biến (FI). Một số thuật toán tiêu biểu cho việc giải quyết bài toán này
như: thuật toán Apriori, Eclat, FP-growth, IT-Tree, … Trong đó phương phương
pháp FP-growth được cải tiến hơn với việc khai thác các FI dựa trên cây chỉ qua
duyệt CSDL hai lần.

4

1.3. Gom cụm dữ liệu
Gom cụm dữ liệu là quá trình tìm kiếm và phát hiện ra các cụm hoặc các mẫu
dữ liệu tự nhiên trong CSDL lớn. Trong thời gian gần đây, trong lĩnh vực gom cụm
dữ liệu chủ yếu tập trung vào nghiên cứu và phân tích các mô hình dữ liệu phức tạp

như dữ liệu văn bản, web, hình ảnh, …
Gom cụm văn bản là một hướng nghiên cứu của bài toán gom cụm dữ liệu nói
chung. Gom cụm văn bản là tiến trình gom nhóm các tài liệu hoặc chủ đề có nội
dung tương tự nhau vào cùng một cụm. Các tài liệu hoặc chủ đề trong cùng một
cụm thì có nội dung tương tự nhau và khác với những tài liệu hoặc chủ đề trong
những cụm khác.

Hình 1.1: Ví dụ về tập dữ liệu được gom cụm

Một số yêu cầu cho bài toán gom cụm văn bản [6]:
 Số chiều lớn: Số lượng từ (thuật ngữ) trong tập tài liệu có thể là hàng ngàn
hoặc chục ngàn. Mỗi từ (thuật ngữ) này là một chiều trong véc tơ tài liệu.
 Khả năng mở rộng: Tập dữ liệu trong thực tế có thể là hàng trăm hoặc hàng
ngàn văn bản. Nhiều thuật toán gom cụm làm việc tốt trong tập văn bản
nhỏ, nhưng lại gặp lỗi với tập văn bản lớn.

5

 Độ chính xác: Một giải pháp gom cụm tốt khi các văn bản trong cùng cụm
phải có độ tương tự nhau cao và không tương đồng với các văn bản trong
các cụm khác.
 Tham số đầu vào: Nhiều thuật toán gom cụm yêu cầu người dùng xác định
một số tham số đầu vào, ví dụ, số lượng cụm. Tuy nhiên, người dùng
thường không biết trước tri thức này. Độ chính xác gom cụm có thể giảm
đáng kể nếu một thuật toán quá nhạy cảm với các tham số đầu vào này.

1.4. Mục đích và cấu trúc của luận văn
Với luận văn này tác giả mong muốn cải thiện được tính chính xác và hiệu quả
cho bài toán gom cụm văn bản. Trong quá trình nghiên cứu, tác giả nhận thấy các

công trình đã giới thiệu đều áp dụng phương pháp Apriori để tìm tập phổ biến. Đã
có rất nhiều công trình nghiên cứu chỉ ra rằng Apriori không hiệu quả với những cơ
sở dữ liệu có kích thước lớn. Điều đó đã tạo động lực cho tác giả tập trung nghiên
cứu và thực hiện luận văn này. Đồng thời, tác giả mạnh dạn đề xuất một thuật toán
mới vào bài toán gom cụm văn bản. Luận văn đề xuất áp dụng giải thuật WIT-Tree
do Bay Vo và đồng sự [3] giới thiệu vào bài toán gom cụm văn bản, với mục tiêu
cải tiến độ chính xác và thời gian thực thi của bài toán gom cụm.
Luận văn được cấu trúc trong 4 chương.
Chương 1: Tổng quan. Chương này giới thiệu tầm quan trọng của bài toán
gom cụm văn bản. Giới thiệu một số khái niệm cơ bản trong bài toán gom cụm văn
bản, cũng như mục đích và cấu trúc của luận văn.
Chương 2: Cơ sở lý luận. Trong chương này luận văn trình bày tất cả các khái
niệm liên quan đến bài toán gom cụm văn bản sử dụng tập phổ biến. Giới thiệu về
các công trình nghiên cứu liên quan gom cụm văn bản. Dựa vào các phương pháp
gom cụm dùng tập phổ biến, luận văn giới thiệu một thuật toán gom cụm văn bản
mới để áp dụng cho bài toán gom cụm các văn bản.

6

Chương 3: TF-IT cho gom cụm văn bản. Trong chương này, luận văn trình
bày chi tiết về thuật toán gom cụm văn bản sử dụng tập phổ biến có quan tâm trến
trọng số của các từ (thuật ngữ) trong văn bản và ví dụ minh họa cho thuật toán đã đề
xuất.
Chương 4: Thực nghiệm và đánh giá. Trình bày kết quả thực nghiệm trên bộ
ngữ liệu Reuters21578.

7

CHƯƠNG 2 - CƠ SỞ LÝ LUẬN

2.1. Các khái niệm cơ bản
2.1.1. Cơ sở dữ liệu giao dịch
Cơ sở dữ liệu D gồm một bộ {I, T}, trong đó I= {I1, I2,…, In} là tập n phần tử
(item) được xét, T = {t1, t2, … , tm} là tập hợp m giao dịch được xét.

2.1.2. Độ phổ biến
Cho I = {I1, I2,….,In} là một tập các items. Cho D là bộ dữ liệu có liên quan
đến bài toán, và là một tập trong CSDL giao dịch. Mỗi giao dịch T là một tập các
items và T  I. Mỗi giao dịch có một định danh, được gọi là TID. Cho A là tập các
items. Một giao dịch T được gọi là chứa A khi và chỉ khi A  T.
Cho cơ sở dữ liệu D và tập dữ liệu X  I. Độ phổ biến của X trong D, ký hiệu

(X), được định nghĩa là số giao dịch mà X xuất hiện trong D.

2.1.3. Tập phổ biến
Tập X  I được gọi là phổ biến nếu (X) ≥ minSup (với minSup là giá trị do
người dùng chỉ định)

2.2. Một số phương pháp khai thác tập phổ biến
2.2.1. Thuật toán Apriori
Thuật toán Apriori [8] được Agrawal giới thiệu vào năm 1994 để giải quyết
bài toán tìm tập các phần tử phổ biến trong một cơ sở dữ liệu giao dịch.

2.2.1.1. Thuật toán
Thuật toán được thực hiện như sau:

8

Đầu vào: CSDL giao dịch D và ngưỡng phổ biến minSup
Đầu ra: FIs chứa tất cả các tập phổ biến của D
Thuật toán:
Gọi

Ck: Tập các ứng viên có kích thước k
Lk: Các tập phổ biến có kích thước k

L1 = {i  I: (i) ≥ minSup}
for(k = 2; Lk-1  Ø; k++)
Ck = {các ứng viên được tạo từ Lk-1}
For each t  D do
For each c ∈ Ck
if c  t then
c.count++
Lk = {c | c.count ≥ minSup}
FIs = kLk
Hình 2.1: Thuật toán Apriori

2.2.1.2. Tính chất của Apriori:
Trong khai thác tập phổ biến, chúng ta đề cập đến một tính chất quan trong về
độ phổ biến của các itemset. Mọi tập con của tập phổ biến đều phổ biến, nghĩa là

X  Y, Nếu σ (Y) ≥ minSup thì σ (X) ≥ minSup. Mọi tập cha của tập không phổ
biến đều không phổ biến, nghĩa là Y  X, nếu σ (X) < minSup thì σ (Y) <
minSup. [2]

9

Tính chất này được áp dụng rất nhiều trong các bài toán khai thác tập phổ
biến. Nó giúp phát sinh các ứng viên hiệu quả, tăng tốc độ khai thác.

2.2.1.3. Ví dụ minh họa
Xét cơ sở dữ liệu D sau:
Bảng 2.1: Cơ sở dữ liệu giao dịch
Item

A

C

D

T

W

1

2

1

0

3

2

2

0

4

2

0

3

3

1

2

0

1

2

4

1

3

3

0

1

5

3

2

3

4

3

6

0

1

2

3

0

Mã giao dịch

Thuật toán Apriori không quan tâm đến tần số xuất hiện của mỗi item trong
mỗi giao tác. Vì vậy, cơ sở dữ liệu D có thể được hiểu như sau:
Bảng 2.2: Cơ sở dữ liệu áp dụng cho Apriori
Cơ sở dữ liệu D
TID

Nội dung

1

A, C, T, W

2

C, D, W

3

A, C, T, W

10

4

A, C, D, W

5

A, C, D, T, W

6

C, D, T

Với minSup = 50% (50*6/100 = 3), có nghĩa là một item được gọi là phổ biến
nếu nó xuất hiện trong ít nhất 3 giao tác.
Tính độ phổ biến cho từng item:
σ (A) = 4, σ (C) = 6, σ (D) = 4, σ (T) = 4, σ (W) = 5
Với độ phổ biến của các item đều lớn hơn 3, do đó, tất cả các item đều phổ
biến. Ta có, tập phổ biến L1 như sau:
Bảng 2.3: Tập phổ biến L1
L1
Danh mục

Độ phổ biến

A

4

C

6

D

4

T

4

W

5

Từ tập phổ biến L1 ta phát sinh các tập ứng viên bằng cách kết hợp các item
đơn thành item đôi. Sau đó, tính độ phổ biến cho mỗi item vừa phát sinh, ta được
bảng danh sách các ứng viên cùng độ phổ biến C2 như sau:

11

Bảng 2.4: Tập ứng viên C2
C2
Danh mục

Độ phổ biến

AC

4

AD

2

AT

3

AW

4

CD

4

CT

4

CW

5

DT

2

DW

3

TW

3

Từ bảng C2 ta nhận thấy, AD và DT có độ phổ biến là 2 nhỏ hơn độ phổ biến
nhỏ nhất (minSup = 3), do đó, ta loại bỏ AD và DT khỏi tập phổ biến. Kết quả, ta có
tập phổ biến L2 được cho trong bảng 2.5
Bảng 2.5: Tập phổ biến L2
L2
Danh mục

Độ phổ biến

AC

4

12

AT

3

AW

4

CD

4

CT

4

CW

5

DW

3

TW

3

Thực hiện tương tự như trên ta có tập ứng viên C3 như sau:
Bảng 2.6: Tập ứng viên C3
C3
Danh mục

Độ phổ biến

ACT

4

ACW

3

ATW

4

CDW

4

CTW

5

Từ C3 ta có tập phổ biến L3 gồm những item có độ phổ biến lớn hơn 3, ta có
kết quả như sau:
Bảng 2.7: Tập phổ biến L3
L3
Danh mục

Độ phổ biến

13

ACT

3

ACW

4

ATW

3

CDW

3

CTW

3

CDT không có trong C3 vì DT không có trong L2.
Phát sinh tập ứng viên từ tập L3 ta được tập C4:
Bảng 2.8: Tập ứng viên C4
C4
Danh mục

Độ phổ biến

ACTW

3

Từ C4 ta suy ra được tập phổ biến L4:
Bảng 2.9: Tập phổ biến L4
L4

Danh mục

Độ phổ biến

ACTW

3

14

Phát sinh tập ứng viên từ L4:
Bảng 2.10: Tập ứng viên C5
C5 = Ø
Danh mục

Độ phổ biến

Vì không phát sinh thêm được tập ứng viên mới nên dừng thuật toán.
Tập phổ biến tìm được là: FI = {A, C, D, T, W, AC, AT, AW, CD, CT, CW,
DW, TW, ACT, ACW, ATW, CDW, CTW, ACTW}

2.2.1.4. Nhận xét
-

Tập C được tạo ra bằng cách kết hợp những tập phổ biến với những phần tử
trong giao tác, do đó phát sinh quá nhiều tập ứng viên không cần thiết.

-

Với mỗi tập ứng viên C, thuật toán phải duyệt lại toàn bộ cơ sở dữ liệu để
tính độ hỗ trợ, điều này làm tăng quá nhiều thời gian xử lý. Vì vậy, thuật
toán không đạt hiệu quả tốt đối với các cơ sở dữ liệu lớn.

2.2.2. Phương pháp IT-Tree
2.2.2.1. Kết nối Galois
Cho quan hệ hai ngôi δ ⊆ I x T chứa CSDL cần khai thác, trong đó I là tập các
từ và T là tập các văn bản. Đặt X ⊆ I và Y ⊆ T . Ta định nghĩa hai ánh xạ giữa
P(I) và P(T) như sau:
a) t : P(I)P(T), t(X) = {y  T | x  X, x  y }
b) i : P(T) P(I), i(Y) = {x  I | y  Y, x  y}
Ánh xạ t(X) là tập các văn bản trong cơ sở dữ liệu có chứa X, và ánh xạ i(Y) là
tập các từ có trong tất cả các văn bản Y.

15

Cho X, X1, X2  P(I) và Y, Y1, Y2  P(T). Kết nối Galois thỏa mãn tính chất
sau:
a) X1  X2  t(X1)  t(X2)
b) Y1  Y2  i(Y1)  i(Y2)
c) X  i(t(X)) và Y  t(i(Y))

2.2.2.2. Lớp tương đương
Cho I là tập các phần tử và X  I, p(X,k) là tiền tố có chiều dài k của X. Một
quan hệ tương đương dựa trên tiền tố θk trên tập phần tử được định nghĩa như sau:

X, Y  I, X ≡θkY  p(X, k) = p(Y, k)
Tập tất cả các phần tử có cùng tiền tố X được gọi là lớp tương đương, ký hiệu
của lớp tương đương có tiền tố X là [X].

2.2.2.3. Cấu trúc IT – tree
Mỗi nút trên IT – tree gồm 2 thành phần Itemset – Tidset: Xt(X) được gọi là
IT-pair, với X: tập các phần tử, t(X): tập các giao dịch chứa X. Các nút con của X
thuộc về lớp tương đương của X vì chúng chia sẻ chung tiền tố X.
Thuật toán khai thác tập phổ biến trên cây IT-tree được Zaki và đồng sự [10]
giới thiệu vào năm 1997, với tên gọi là thuật toán Eclat. Thuật toán được mô tả chi
tiết như hình 2.2

16

Đầu vào: Cơ sở dữ liệu D và độ hỗ trợ phổ biến minSup
Đầu ra: Cây IT – tree
ECLAT()
[Ø] = {i  I | (i) ≥ minSup}
ENUMERATE_FREQUENT([Ø])
ENUMERATE_FREQUENT([P])
For all li  [P] do
[Pi] = Ø
For all lj  [P] with j > i do
X = l i  lj
T = t(li)  t(lj)
If |T| ≥ minSup then
[Pi] = [Pi]  {XT}
ENUMERATE_FREQUENT([Pi])
Hình 2.2: Thuật toán ECLAT

2.2.2.4. Ví dụ minh họa
Áp dụng thuật toán Eclat để khai thác tập phổ biến cho cơ sở dữ liệu D đã

được trình bày trong bảng 2.1 với minSup = 50%. Phương pháp IT-tree khai thác
tập phổ biến dựa vào độ phổ biến của các item. Độ phổ biến là phương pháp không
quan tâm đến tần suất xuất hiện của các item trong các giao tác. Vì vậy, ta có thể
biểu diễn lại cơ sở dữ liệu ban đầu theo chiều dọc như sau:

Tf-It Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về