Tải bản đầy đủ (.pdf) (64 trang)

GOM NHÓM văn bản dựa TRÊN mẫu hữu ÍCH được ĐÁNH TRỌNG PHỔ BIẾN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.43 MB, 64 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


TRẦN THANH TRÂM

GOM NHÓM VĂN BẢN DỰA TRÊN
MẪU HỮU ÍCH ĐƯỢC ĐÁNH TRỌNG PHỔ BIẾN

LUẬN VĂN THẠC SĨ
NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 60480101

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. VÕ ĐÌNH BẢY

TP HỒ CHÍ MINH – NĂM 2017


LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc nhất đến với Thầy hướng dẫn của tôi, PGS. TS.
Võ Đình Bảy. Thầy đã tận tình chỉ bảo cho tôi từ những ngày đầu chập chững bước
vào con đường nghiên cứu khoa học. Tính cẩn thận, trung thực, kiên nhẫn và nghiêm
túc trong công việc của tôi có được như ngày hôm nay là một phần không nhỏ được
học và chỉ bảo từ Thầy. Một lần nữa, tôi xin gửi lời cảm ơn chân thành nhất đến Thầy.
Tôi cũng muốn bày tỏ lòng biết ơn đến với tập thể các thầy cô trường Đại học Công
nghệ Thông tin, nơi tôi học tập và nghiên cứu. Các thầy cô, anh chị trong phòng Sau
đại học của trường đã nhiệt tình hỗ trợ về mặt thủ tục cho tôi trong thời gian học tập
và làm luận văn.
Tôi cũng gửi đến lời cảm ơn chân thành đến các đồng nghiệp, bạn bè, nơi tôi học tập
và làm việc hiện nay, đã hỗ trợ cho tôi về thời gian, góp ý cho tôi về nội dung bài báo


khoa học, góp phần cho việc hoàn thành luận văn của tôi.
Cuối cùng, tôi xin gửi lời cám ơn đến ba mẹ, anh chị em và đồng nghiệp của tôi.
Không có sự giúp đỡ ủng hộ từ họ, tôi không thể hoàn thành luận văn này.


LỜI CAM ĐOAN
Tôi xin cam đoan nội dung của luận văn này là kết quả nghiên cứu của bản thân. Tất
cả tài liệu tham khảo đều được nêu rõ nguồn gốc một cách rõ ràng từ danh mục tài
liệu tham khảo. Các công trình công bố là trung thực và chưa được ai công bố trong
bất kỳ công trình nào khác.

Tác giả luận văn


MỤC LỤC

DANH MỤC CÁC KÝ HIỆU – CÁC CHỮ VIẾT TẮT ............ iii
DANH MỤC CÁC BẢNG ............................................................. iv
DANH MỤC CÁC HÌNH VẼ - ĐỒ THỊ ........................................v
MỞ ĐẦU 2
Chương 1. TỔNG QUAN ................................................................3
1.1.

Đặt vấn đề ...................................................................................................... 3

1.2.

Hướng tiếp cận của đề tài .............................................................................. 4

1.3.


Các đóng góp của luận văn ............................................................................ 5

1.4.

Cấu trúc luận văn ........................................................................................... 6

Chương 2. CƠ SỞ LÝ THUYẾT....................................................7
2.1.

Các khái niệm cơ bản .................................................................................... 7

2.1.1.

Cơ sở dữ liệu số lượng ............................................................................................... 7

2.1.2.

Trọng số của từ (TF-IDF)........................................................................................... 8

2.2.

Một số đặc điểm của tiếng Việt ..................................................................... 9

2.2.1.

Đặc điểm ngữ âm ....................................................................................................... 9

2.2.2.


Đặc điểm từ vựng ....................................................................................................... 9

2.2.3.

Đặc điểm ngữ pháp .................................................................................................. 10

2.3.

Công trình liên quan .................................................................................... 11

2.3.1.

Một số phương pháp khai thác tập phổ biến ............................................................ 11

2.3.2.

Một số phương pháp gom nhóm văn bản dựa vào tập phổ biến .............................. 22

Chương 3. GOM NHÓM VĂN BẢN TIẾNG VIỆT ..................29
3.1.

Mô hình bài toán .......................................................................................... 29

3.2.

Xử lý văn bản............................................................................................... 29

3.2.1.

Tách từ tiếng Việt..................................................................................................... 30


3.2.2.

Loại bỏ hư từ ............................................................................................................ 30

3.3.

Tìm mẫu hữu ích được đánh trọng phổ biến ............................................... 31

3.3.1.

Định nghĩa ................................................................................................................ 31

3.3.2.

Thuật toán ................................................................................................................ 31

i


3.4.

Gom nhóm văn bản...................................................................................... 33

3.5.

Ví dụ minh họa ............................................................................................ 35

3.5.1.


Khai thác mẫu hữu ích được đánh trọng phổ biến ................................................... 36

3.5.2.

Gom nhóm văn bản .................................................................................................. 41

Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................44
4.1.

Thông tin dữ liệu thực nghiệm .................................................................... 44

4.2.

Phương pháp đánh giá ................................................................................. 45

4.3.

Kết quả thực nghiệm.................................................................................... 45

Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................53
5.1.

Kết luận........................................................................................................ 53

5.2.

Hướng phát triển .......................................................................................... 54

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ.............................55
TÀI LIỆU THAM KHẢO .............................................................56


ii


DANH MỤC CÁC KÝ HIỆU – CÁC CHỮ VIẾT TẮT
Thuật ngữ/

Ý nghĩa

từ viết tắt
TF-IDF

Term Frequency – Inverse Document Frequency

MC

Maximum Capturing.

CSDL

Cơ sở dữ liệu

WIT-tree

Weighted Itemset-Tidset tree

MWIT-FWUI

Modification Weighted Itemset Tidset - Frequent Weighted
Utility Itemset


WS

Weighted Support

FUI

Frequent Utility Itemsets

FI

Frequent Itemsets

NER

Named-entity recognition

iii


DANH MỤC CÁC BẢNG
Bảng 2.1 Cơ sở dữ liệu số lượng .................................................................................7
Bảng 2.2 Trọng số của các item ..................................................................................8
Bảng 2.3. Trọng số giao dịch của các văn bản ..........................................................14
Bảng 2.4. Trọng số giao dịch hữu ích của các văn bản.............................................20
Bảng 2.5. Ma trận tương đương ................................................................................26
Bảng 2.6. Ma trận tương đương với các văn bản (1, 2, 3, 4, 6, 9) đã được gom nhóm
...................................................................................................................................27
Bảng 2.7. Ma trận tương đương với các văn bản đã được gom nhóm ......................28
Bảng 3.1. Cơ sở dữ liệu số lượng ..............................................................................35

Bảng 3.2. Cơ sở dữ liệu số lượng (TF-IDF)..............................................................37
Bảng 3.3. Trọng số hữu ích giao dịch phổ biến của các văn bản ..............................38
Bảng 3.4. Ma trận tương đương ................................................................................41
Bảng 3.5. Ma trận tương đương vơi các văn bản d3, d4, d6, d9 đã được gom nhóm ..42
Bảng 3.6. Ma trận tương đương vơi các văn bản d1, d2, d3, d4, d6, d9 đã được gom
nhóm ..........................................................................................................................42
Bảng 3.7. Ma trận tương đương với tất cả các văn bản đã được gom nhóm ............43
Bảng 4.1. Dữ liệu thực nghiệm .................................................................................44
Bảng 4.2. Kết quả độ đo F của bộ dữ liệu 1 ..............................................................46
Bảng 4.3. Kết quả độ đo F của bộ dữ liệu 2 ..............................................................48
Bảng 4.4. Kết quả độ đo F của bộ dữ liệu 3 .............................................................49

iv


DANH MỤC CÁC HÌNH VẼ - ĐỒ THỊ
Hình 2.1. Thuật toán WIT-FWI ................................................................................14
Hình 2.2. Cây mẫu được đánh trọng phổ biến với minws = 0.2 ...............................17
Hình 2.3. Thuật toán MWIT-FWUI ..........................................................................19
Hình 2.4. Cây mẫu hữu ích được đánh trọng phổ biến với minwus = 0.2 ................22
Hình 2.5. Thuật toán MC ..........................................................................................26
Hình 3.1. Mô hình bài toán gom nhóm văn bản tiếng Việt.......................................29
Hình 3.2. Ví dụ minh họa tách từ tiếng Việt .............................................................30
Hình 3.3. Ví dụ minh họa loại bỏ hư từ. ...................................................................30
Hình 3.4. Thuật toán khai thác mẫu hữu ích phổ biến từ ma trận trọng số từ. .........32
Hình 3.5. Thuật toán gom nhóm văn bản dựa trên mẫu hữu ích được đánh trọng phổ
biến ............................................................................................................................35
Hình 3.6. Cây mẫu hữu ích được đánh trọng phổ biến với min_us = 0.2 .................40
Hình 4.1. Bộ dữ liệu 1 gồm 400 văn bản tương ứng với 4 chủ đề ............................46
Hình 4.2. Số cụm được gom dùng FI – bộ dữ liệu 1.................................................47

Hình 4.3. Số cụm được gom dùng FUI – bộ dữ liệu 1 ..............................................47
Hình 4.4. Tương quan về độ đo F trên bộ dữ liệu 1 ..................................................47
Hình 4.5. Bộ dữ liệu 2 gồm 500 văn bản tương ứng với 5 chủ đề ............................48
Hình 4.6. Số cụm được gom dùng FI – bộ dữ liệu 2.................................................48
Hình 4.7. Số cụm được gom dùng FUI – bộ dữ liệu 2 ..............................................49
Hình 4.8. Tương quan về độ đo F trên bộ dữ liệu 2 ..................................................49
Hình 4.9. Bộ dữ liệu 3 gồm 700 văn bản tương ứng với 7 chủ đề ............................50
Hình 4.10. Số cụm được gom dùng FI – bộ dữ liệu 3...............................................50
Hình 4.11. Số cụm được gom dùng FUI – bộ dữ liệu 3 ............................................51
Hình 4.12. Tương quan về độ đo F trên bộ dữ liệu 3 ................................................51

v


MỞ ĐẦU
Gom nhóm văn bản là một trong những chủ đề quan trọng của khai thác dữ liệu văn
bản. Một trong những phương pháp hiệu quả để gom nhóm văn bản là dựa trên mẫu
phổ biến. Đã có nhiều thuật toán được phát triển nhằm nâng cao độ chính xác cho bài
toán gom nhóm văn bản dựa trên mẫu phổ biến. Tuy nhiên, các thuật toán này lại
không quan tâm vào trọng số của các từ trong các văn bản. Thực tế, sự xuất hiện của
các từ trong mỗi văn bản cũng có tác động rất lớn đến việc gom nhóm chúng. Luận
văn đề xuất một phương pháp mới để gom nhóm văn bản dựa vào mẫu hữu ích được
đánh trọng phổ biến. Đầu tiên, tính TF-IDF cho mỗi từ trong văn bản nhằm tạo ra
một ma trận trọng số cho tập văn bản. Kế đến, luận văn đề xuất một thuật toán để
khai thác các mẫu hữu ích phổ biến từ ma trận trọng số. Cuối cùng, dựa vào tập các
mẫu hữu ích khai thác được, tiến hành gom nhóm văn bản theo thuật toán MC
(Maximum Capturing). Luận văn đã thử nghiệm phương pháp này trên kho ngữ liệu
gồm 1.600 văn bản được chia thành 16 chủ đề khác nhau. Kết quả thử nghiệm cho
thấy phương pháp này đã cải thiện đáng kể độ chính xác của việc gom nhóm văn bản
so với phương pháp gom nhóm dựa vào mẫu phổ biến.


2


Chương 1. Tổng quan

Chương 1. TỔNG QUAN
1.1.

Đặt vấn đề

Với sự phát triển vượt bậc của công nghệ thông tin, thế giới ngày càng gần nhau, càng
phẳng hơn. Nhu cầu giao tiếp, trao đổi của người dân toàn cầu trên mọi lĩnh vực xã
hội ngày càng trở nên tất yếu. Bên cạnh đó, các hệ thống dữ liệu số hóa ngày càng
gia tăng một cách đáng kể để phục vụ cho nhu cầu lưu trữ, xử lý, tìm kiếm và trao
đổi thông tin của con người. Dữ liệu số hóa rất đa dạng, phong phú, nó có thể được
tìm thấy dễ dàng thông qua Internet và thường xuyên được cập nhật, thay đổi nhằm
phục vụ tốt cho nhu cầu tìm kiếm thông tin của con người. Tuy nhiên khi người sử
dụng muốn sắp xếp các thông tin tìm được theo nhóm văn bản thì sẽ mất rất nhiều
thời gian và công sức. Và vì vậy, người dùng muốn có một công cụ cho phép tự động
gom nhóm các văn bản có nội dung tương tự nhau vào cùng một nhóm. Từ đó bài
toán gom nhóm văn bản ra đời.


Li cùng các đồng sự đề xuất phương pháp CFWS (Clustering based on
frequent word sequence), gom nhóm dựa vào chuỗi từ phổ biến vào năm 2008
[20].




Edith cùng các đồng sự đề xuất phương pháp CMS (Document clustering
based on maximal frequent sequences), gom nhóm văn bản dựa vào chuỗi phổ
biến cực đại vào năm 2006 [10]



Beil cùng các đồng sự đề xuất phương pháp FTC (Frequent term-based
clustering), gom nhóm dựa vào thuật ngữ phổ biến vào năm 2002 [8].



Fung cùng các đồng sự đề xuất phương pháp FIHC (Frequent itemset – based
Hierarchical clustering), gom nhóm phân cấp dựa vào tập phổ biến vào năm
2003 [3].



Gần đây nhất là phương pháp MC (Maximum Capturing) được Zhang và các
đồng sự đề xuất vào năm 2010 cho bài toán gom nhóm văn bản dựa trên tập
phổ biến [19].

3


Chương 1. Tổng quan

Hiện nay, các công trình nghiên cứu về bài toán gom nhóm trên văn bản tiếng Việt
còn rất ít. Hầu hết các công trình nghiên cứu trong lĩnh vực gom nhóm trên văn bản
tiếng Việt đều sử dụng các phương pháp truyền thống điển hình như:



Phương pháp gom nhóm đồ thị [1], tác giả chọn giải pháp gom nhóm đồ thị
bằng cách sử dụng mạng Kohonen để đặc trưng văn bản và rút trích các ý
chính từ khối văn bản hỗ trợ tạo trích lược thông tin chính trong khối văn bản,
tác giả xây dựng một hệ thống gom nhóm các thông điệp trên diễn đàn thảo
luận nhằm hỗ trợ trích lược nội dung chính trong khối thông điệp.



Gom nhóm dựa trên thực thể có tên [2], tác giả đề xuất khai thác ngữ nghĩa
văn bản thống qua thực thể có tên và các mối quan hệ giữa chúng để gom
nhóm tài liệu, từ một tập dữ liệu gồm các tài liệu được phân hoạch ban đầu,
dựa vào giải thuật k-means và đặc trưng của thực thể có tên để nhóm các tài
liệu có sự tương đồng ngữ nghĩa của văn bản vào các nhóm tương ứng.

Trong quá trình nghiên cứu về bài toán gom nhóm, tôi nhận thấy hiện tại chưa có
công trình nào trong nước áp dụng phương pháp gom nhóm văn bản dựa trên tập phổ
biến. Chính vì vậy, tôi đã tập trung nghiên cứu và thực hiện luận văn này.
1.2.

Hướng tiếp cận của đề tài

Năm 2002, Beil và cộng sự đã giới thiệu một hướng tiếp cận mới cho bài toán gom
nhóm văn bản, đó là gom nhóm văn bản dựa vào mẫu phổ biến [8]. Kết quả thực
nghiệm cho thấy gom nhóm văn bản dựa vào mẫu phổ biến có độ chính xác cao hơn,
thời gian xử lý tốt hơn đối với gom nhóm văn bản dựa vào bisecting k-means [13].
Công trình này đã mở ra một hướng tiếp cận hoàn toàn mới cho bài toán gom nhóm
văn bản và là tiền đề cho rất nhiều công trình nghiên cứu sau này.
Một số các thuật toán gần đây đã giải quyết được vấn đề gom nhóm văn bản dựa trên
mẫu phổ biến như phương pháp CMS [10], phương pháp FIHC [3], và phương pháp

CFWS [20].
Trong [19], tác giả đã chỉ ra một số hạn chế của các thuật toán trên như sau:

4


Chương 1. Tổng quan

1) Việc sử dụng CFWS có thể dẫn tới việc trùng lắp các văn bản trong kết quả cuối
cùng của việc gom nhóm;
2) CMS chủ yếu hướng đến các chọn lọc đặc trưng trong nhóm văn bản để thực hiện
gom nhóm và hiệu quả của nó hoàn toàn phụ thuộc vào hiệu quả của K-means;
3) FIHC không thể giải quyết được mẫu thuẫn nhóm khi chỉ định các văn bản vào các
nhóm, dẫn tới việc văn bản có thể được chia thành nhiều nhóm khác nhau và phân
chia này có ảnh hưởng lớn tới nhóm cuối cùng được sinh ra, v.v... và tác giả đã đề
xuất thuật toán MC để cải thiện các hạn chế trên.
Tuy nhiên các phương pháp này lại không quan tâm vào trọng số của các từ trong các
văn bản, chỉ quan tâm tới tần số xuất hiện của các item trong mẫu phổ biến.
Khai thác mẫu phổ biến không quan tâm đến trọng số của các mục và vì vậy, khi áp
dụng các thuật toán khai thác mẫu phổ biến để gom nhóm văn bản, các tác giả chỉ
quan tâm đến sự xuất hiện hay không xuất hiện của mỗi từ trong văn bản. Thực tế,
các từ trong văn bản có số lần xuất hiện khác nhau và vì vậy, chúng có đóng góp khác
nhau.
Do đó, trong nghiên cứu này, luận văn đề xuất phương pháp gom nhóm văn bản tiếng
việt dựa trên trọng số (chẳng hạn TF-IDF, tần số xuất hiện, v.v…) của các từ và
phương pháp MC với mục tiêu cải tiến độ chính xác của kết quả gom nhóm.
1.3.

Các đóng góp của luận văn


Một số đóng góp trong nghiên cứu của luận văn như sau:
– Đề xuất phương pháp tạo ra ma trận trọng số của các từ trong văn bản dựa
vào TF-IDF.
– Đề xuất thuật toán khai thác mẫu hữu ích phổ biến trên ma trận trọng số.
– Sử dụng phương pháp MC trên mẫu hữu ích được đánh trọng phổ biến để gom
nhóm văn bản.

5


Chương 1. Tổng quan

– Tiến hành thực nghiệm trên bộ ngữ liệu mẫu để kiểm chứng tính hiệu quả của
mô hình đề xuất.
1.4.

Cấu trúc luận văn

Cấu trúc của luận văn bao gồm:
– Phần mở đầu: Trình bày tổng quan về công trình nghiên cứu, động cơ để thực
hiện luận văn, các mục tiêu chính của luận văn, mục đích, đối tượng, phạm vi
nghiên cứu.
– Chương 1: Trình bày giới thiệu tổng quan về luận văn, bao gồm các nội dung
như: đặt vấn đề, hướng tiếp cận của đề tài, các đóng góp chính của luận văn,
và cấu trúc của luận văn.
– Chương 2: Cơ sở lý thuyết: chương này trình bày về các vấ n đề như: các khái
niệm cơ bản liên quan đến cơ sở dữ liệu số lượng, trọng số từ và cách xác định
trọng số các từ, một số đặc điểm ngữ pháp của tiếng Việt, các công trình liên
quan đến bài toán khai thác mẫu phổ biến, các công trình nghiên cứu liên quan
tới gom nhóm văn bản dựa vào mẫu phổ biến.

– Chương 3: Chương này trình bày mô hình, phương pháp, thuật toán đề xuất
cho việc gom nhóm văn bản tiếng việt và ví dụ minh họa cho phương pháp đã
đề xuất.
– Chương 4: Thực nghiệm và đánh giá: chương này mô tả chi tiết về các thử
nghiệm đã thực hiện để đánh giá hiệu quả các cải tiến của đề tài.
– Chương 5: Trình bày phần kết luận và hướng phát triển của luận văn: chương
này trình bày tóm tắt các kết quả đạt được cũng như hướng phát triển tiếp theo
của nghiên cứu này.

6


Chương 2. Cơ sở lý thuyết

Chương 2. CƠ SỞ LÝ THUYẾT
2.1.

Các khái niệm cơ bản

2.1.1.

Cơ sở dữ liệu số lượng

Cơ sở dữ liệu số lượng được định nghĩa như sau: Cho một cơ sở dữ liệu (CSDL) D
với một tập các giao dịch T = {t1, t2,….,tm}, một tập các mặt hàng I = {i1, i2,…,in} và
một tập các trọng số W = {w1,w2,…,wn} tương ứng với mỗi mặt hàng trong I. Với
mỗi giao dịch tk = {xk1, xk2,…, xkn} mà trong đó xki là số lượng sản phẩm được mua
bởi mặt hàng thứ i trong giao dịch tk.
Ví du ̣: Cho Bảng 2.1 và Bảng 2.2 trình bày một ví dụ về CSDL số lượng. CSDL có
09 giao dịch T = {t1, t2, …, t9} và 5 item I = {A, B, C, D, E} với trọng số của mỗi

item được cho trong Bảng 2, W = {0.4, 0.2, 0.1, 0.9, 0.5}. Giao dịch t1 = {2, 0, 3, 0,
4} có thể được hiểu như sau: Khách hàng t1 mua 2 mặt hàng A, 3 mặt hàng C, 4 mặt
hàng E và không mua mặt hàng B, D.
Bảng 2.1 Cơ sở dữ liệu số lượng
ITEM

A

B

C

D

E

1
2
3
4
5
6
7
8
9

2
0
0
3

0
1
2
0
0

0
2
4
0
3
0
2
2
0

3
0
2
1
0
2
3
2
4

0
1
2
2

0
3
0
0
3

4
3
1
2
3
0
0
0
2

TID

7


Chương 2. Cơ sở lý thuyết

Bảng 2.2 Trọng số của các item
Item
A
B
C
D
E


2.1.2.

Weight
0.4
0.2
0.1
0.9
0.5

Trọng số của từ (TF-IDF)

TF–IDF (term frequency – inverse document frequency) [16] của một từ là một con
số thu được qua thống kê thể hiện mức độ quan trọng của từ này trong một văn bản,
mà bản thân văn bản đang xét nằm trong một tập hợp các văn bản. Nó dựa vào tần số
xuất hiện của 1 từ trong 1 văn bản (TF) và tần số nghịch của 1 từ trong tập văn bản
(IDF).
TF (term frequency): tần số xuất hiện của 1 từ trong 1 văn bản. Giá trị TF của một
từ t trong văn bản d được tính theo công thức (2.1)
𝑡𝑓 (𝑡, 𝑑) =

𝑛(𝑡, 𝑑)
𝑛(𝑑)

(2.1)

Trong đó:


Thương của số lần xuất hiện từ t trong văn bản d với số lần xuất hiện của tất

cả các từ trong văn bản d (giá trị sẽ thuộc khoảng [0, 1]).



n(t,d): số lần xuất hiện từ t trong văn bản d.



n(d): số lần xuất hiện của tất cả các từ trong văn bản d.

IDF (inverse document frequency): Tần số nghịch của 1 từ trong tập văn bản
(corpus).
Tính IDF để giảm giá trị của những từ phổ biến. Mỗi từ chỉ có 1 giá trị IDF duy nhất
trong tập văn bản. Giá trị IDF được tính theo công thức (2.2)

8


Chương 2. Cơ sở lý thuyết

𝑖𝑑𝑓 (𝑡, 𝐷) = 𝑙𝑜𝑔

|𝐷|
|{𝑑  𝐷|𝑡  𝑑 }|

(2.2)

Trong đó:



|D|: Tổng số văn bản trong tập D



|{𝑑  𝐷|𝑡  𝑑 }|: Số văn bản d mà có xuất hiện từ t trong tập D. Nếu từ đó không

xuất hiện ở bất cứ 1 văn bản nào trong tập D thì mẫu số sẽ bằng 0, dẫn tới phép
chia không hợp lệ, vì thế người ta thường thay bằng công thức

1+

|{𝑑  𝐷|𝑡  𝑑}|


Cơ số logarit trong công thức này không thay đổi giá trị của 1 từ mà chỉ thu
hẹp khoảng giá trị của từ đó. Việc thay đổi cơ số sẽ không ảnh hưởng đến tỷ
lệ giữa các giá trị IDF. Tuy nhiên việc thay đổi khoảng giá trị sẽ giúp tỷ lệ giữa
IDF và TF tương đồng để dùng cho công thức TF-IDF như bên dưới.

Giá trị TF-IDF được tính theo công thức (2.3)
TF-IDF(t,d,D) = tf(t, d)  idf (t, D)

(2.3)

Trong đó: Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản
này, và xuất hiện ít trong các văn bản khác. Việc này giúp lọc ra những từ phổ biến
và giữ lại những từ có giá trị cao (từ khoá của văn bản đó).
2.2.

Một số đặc điểm của tiếng Việt


2.2.1.

Đặc điểm ngữ âm

Trong tiếng Việt có một loại đơn vị đặc biệt gọi là “tiếng”. Về mặt ngữ âm, mỗi tiếng
là một âm tiết. Hệ thống âm vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm
năng của ngữ âm tiếng Việt trong việc thể hiện các đơn vị có nghĩa. Nhiều từ tượng
hình, tượng thanh có giá trị gợi tả đặc sắc. Khi tạo câu, tạo lời, người Việt rất chú ý
đến sự hài hoà về ngữ âm, đến nhạc điệu của câu văn.
2.2.2.

Đặc điểm từ vựng

9


Chương 2. Cơ sở lý thuyết

Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ thống các
đơn vị có nghĩa của tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để
định danh sự vật, hiện tượng, ..., chủ yếu nhờ phương thức ghép và phương thức láy.
Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi phối của quy luật
kết hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát, v.v...
Hiện nay, đây là phương thức chủ yếu để sản sinh ra các đơn vị từ vựng. Theo phương
thức này, tiếng Việt triệt để sử dụng các yếu tố cấu tạo từ thuần Việt hay vay mượn
từ các ngôn ngữ khác để tạo ra các từ, ngữ mới, ví dụ: tiếp thị, karaoke, thư điện tử
(e-mail), thư thoại (voice mail), phiên bản (version), xa lộ thông tin, siêu liên kết văn
bản, truy cập ngẫu nhiên, v.v…
Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp ngữ âm chi

phối chủ yếu việc tạo ra các đơn vị từ vựng, chẳng hạn: chôm chỉa, chỏng chơ, đỏng
đa đỏng đảnh, thơ thẩn, lúng lá lúng liếng, v.v…
Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết, một
tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã
tạo điều kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa
dạng trong hoạt động. Cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng,
có thể có nhiều từ ngữ khác nhau biểu thị. Tiềm năng của vốn từ ngữ tiếng Việt được
phát huy cao độ trong các phong cách chức năng ngôn ngữ, đặc biệt là trong phong
cách ngôn ngữ nghệ thuật. Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật,
đặc biệt là công nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn.
2.2.3.

Đặc điểm ngữ pháp

Từ của tiếng Việt không biến đổi hình thái. Đặc điểm này sẽ chi phối các đặc điểm
ngữ pháp khác. Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi
trọng phương thức trật tự từ và hư từ.
Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ
cú pháp. Trong tiếng Việt khi nói “Anh ta lại đến” là khác với “Lại đến anh ta”. Khi
các từ cùng loại kết hợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai

10


Chương 2. Cơ sở lý thuyết

trò chính, từ đứng sau giữ vai trò phụ. Nhờ trật tự kết hợp của từ mà “củ cải” khác
với “cải củ” , “tình cảm” khác với “cảm tình” . Trật tự chủ ngữ đứng trước, vị ngữ
đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt.
Phương thức hư từ cũng là phương thức ngữ pháp chủ yếu của tiếng Việt. Nhờ hư từ

mà tổ hợp “anh của em” khác với tổ hợp “anh và em” , “anh vì em” . Hư từ cùng với
trật tự từ cho phép tiếng Việt tạo ra nhiều câu cùng có nội dung thông báo cơ bản như
nhau nhưng khác nhau về sắc thái biểu cảm. Ví dụ:


Ông ấy không hút thuốc.



Thuốc, ông ấy không hút.



Thuốc, ông ấy cũng không hút.

Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụng phương thức ngữ điệu. Ngữ điệu giữ
vai trò trong việc biểu hiện quan hệ cú pháp của các yếu tố trong câu, nhờ đó đưa ra
được nội dung muốn thông báo. Trên văn bản, ngữ điệu thường được biểu hiện bằng
dấu câu. Ví dụ:


Đêm hôm qua, cầu gãy.



Đêm hôm, qua cầu gãy.

2.3.

Công trình liên quan


2.3.1.
2.3.1.1

Một số phương pháp khai thác tập phổ biến
Khai thác tập được đánh trọng phổ biến (FWI - frequent
weighted itemset)

Năm 2013, Vo và các đồng sự đề xuất một phương pháp khai thác nhanh FWI sử
dụng WIT-tree và phát triển các tính chất trên WIT-tree để tính nhanh ws (weighted
support) của các itemset [4]. Kỹ thuật Diffset cũng được sử dụng để làm giảm không
gian lưu trữ và thời gian tính ws. Khai thác tập được đánh trọng phổ biến quan tâm
đến trọng số (weighted hay benefit) của các mặt hàng và chưa quan tâm đến số lượng
mua. Cũng trong năm 2013, Võ và các đồng sự đã giới thiệu một phương pháp FWCI
(frequent weighted closed itemset) dựa trên IT-tree để khai thác các tập đóng được
11


Chương 2. Cơ sở lý thuyết

đánh trọng phổ biến [6]. Phương pháp FWCI cũng đã được cải tiến hơn bằng cách
khai thác và phát triển các đặc trưng của diffset để có thể loại bỏ nhanh hơn các tập
phổ biến mà nó không phải tập đóng [7].
a. Cấu trúc cây WIT
Cấu trúc dữ liệu cây WIT là một tập hợp đại diện cho các dữ liệu đầu vào bao gồm
các danh sách chứa tập các từ nhằm hỗ trợ cho việc tính toán nhanh các giá trị ws
(weighted support), vì vậy mà chúng ta chỉ cần quét các CSDL một lần.
Cấu trúc của cây WIT bao gồm các đỉnh và các cạnh. Mỗi đỉnh trong cây WIT bao
gồm 3 thành phần:
-


X: tập các từ

-

t(X): Tập các giao dịch (văn bản) chứa X.

-

ws: Trọng số hỗ trợ của X.

Ký hiệu đỉnh = (X, t(X),ws)
Cạnh: Kết nối đỉnh tại mức k (gọi là X) với đỉnh tại mức k+1 (gọi là Y).
Để khai thác tập được đánh trọng phổ biến, một số định nghĩa được đưa ra như sau:
-

Trọng số giao dịch (transaction weight – tw) được xác định là tỉ số của tổng các

trọng số của các item được mua chia cho số item, nghĩa là:
𝑡𝑤 (𝑡𝑘 ) =

-

∑𝑖𝑗 ∈ 𝑡𝑘 𝑤𝑗

(2.4)

|𝑡𝑘 |

Kế đến, trọng số hỗ trợ (weighted support - ws) của itemset X là tỉ số giữa tổng


các tw của các giao dịch có chứa X chia cho tổng số tw, nghĩa là:
𝑤𝑠 (𝑋 ) =

∑𝑡𝑘 ∈ 𝑡(𝑋) 𝑡𝑤 (𝑡𝑘 )
∑𝑡𝑘 ∈ 𝑇 𝑡𝑤 (𝑡𝑘 )

12

(2.5)


Chương 2. Cơ sở lý thuyết

b. Thuật toán WIT-FWI
Đầu vào của WIT-FWI là CSDL D và ngưỡng độ hỗ trợ trọng tối thiểu (minws).
Đầu ra của thuật toán là tập các FWI chứa tất cả các tập được đánh trọng phổ biến
thỏa ngưỡng minws từ D. Chi tiết thuật toán được thể hiện trong hình 2.1 như sau:
Thuật toán WIT-FWI
Input: CSDL D và ngưỡng minws
Output: Tập các FWI chứa tất cả các tập được đánh trọng
phổ biến thõa ngưỡng minws từ D
Method:
WIT-FWI( )
1. Lr = all items that their ws satisfy minws
2. Sort nodes in Lr increasing by their ws
3. FWI = ∅
4. Call function FWI_EXTEND with the parameter is Lr
FWI-EXTEND(Lr)
5. Consider each node li in Lr do

6.

Add (li.itemset, li.ws) to FWI

7.

Create a new set Li by join li with all lj following

it in Lr by:
8.

Set X =li.itemset ∪ lj.itemset and Y= t(li) ∩ t(lj)

9.

ws(X) = COMPUTE-WS(Y) // Dùng CT(2.5)

10.

if ws(X) satisfies minws then

11.

Add new node <X, Y, ws(X)> into Li

13


Chương 2. Cơ sở lý thuyết


12.
13.

if number of nodes in Li ≥ 2 then
Call recursive the function FWI-EXTEND with the

parameter is Li

Hình 2.1. Thuật toán WIT-FWI

c. Ví dụ minh họa
Từ dữ liệu ở Bảng 2.1, Bảng 2.2 và công thức (2.4) tôi tính được giá trị tw như sau:
0.4 + 0.1 + 0.5
= 0.33
3
0.2 + 0.9 + 0.5
𝑡𝑤 (𝑑2 ) =
= 0.53
3
𝑡𝑤 (𝑑1 ) =

𝑡𝑤 (𝑑3 ) =

0.2 + 0.1 + 0.9 + 0.5
= 0.425
4

Thực hiện tương tự cho các văn bản còn lại trong CSDL, tôi được kết quả như trong
Bảng 2.3:
Bảng 2.3. Trọng số giao dịch của các văn bản

TID

𝒕𝒘

1

0.33

2

0.53

3

0.425

4

0.475

5

0.35

6

0.47

7


0.23

8

0.15

9

0.5

SUM

3.46

14


Chương 2. Cơ sở lý thuyết

Từ dữ liệu ở Bảng 2.1, Bảng 2.3 và công thức (2.5) tôi tính được giá trị ws như sau:
Bởi vì item A xuất hiện ở văn bản d1, d4, d6, d7, ws (A) được tính như sau:
ws (A) =

0.33+0.475+0.47+0.23
3.46

= 0.43

Thực hiện tương tự cho các item đơn còn lại, tôi được kết quả như sau:
𝑤𝑠 (𝐵) = 0.49

𝑤𝑠 (𝐶) = 0.75
𝑤𝑠 (𝐷) = 0.69
𝑤𝑠 (𝐸) = 0.75

Cho giá trị minws = 0.2, tôi nhận thấy tất cả các giá trị trên đều thỏa ngưỡng và do
đó chúng được thêm vào tập phổ biến  = {<A,1467,0.43>, <B,23578,0.49>,
<C,1346789,0.75>, <D,23469,0.69>, <E,123459,0.75>}.
Sau khi sắp lại các giá trị ws theo thứ tự tăng dần tôi được kết quả như sau:
 = {<A,1467,0.43>, <B,23578,0.49>, <D,23469,0.69>, <C,1346789,0.75>,
<E,123459,0.75>}.
Xét các lớp tương đương của <A,1467,0.43>. Trước tiên A được thêm vào FWI ta
được FWI = {A}.


A kết hợp với B, ta được một itemset mới AB xuất hiện ở d7 với ws (AB) =
0. 07 < minws, vì vậy AB không được thêm vào A.



A kết hợp với D, ta được một itemset mới AD xuất hiện ở văn bản d4, d6 với
ws (AD) = 0. 27 ≥ minws, thêm AD vào A, ta được A = {<AD,46,0.27>}



A kết hợp với C, ta được một itemset mới AC xuất hiện ở văn bản d1, d4, d6,
d7 với wus (AC) = 0.43 ≥ minws, thêm AC vào A, ta được A = {<AD,46,0.27>,
<AC,1467,0.43>}.

15



Chương 2. Cơ sở lý thuyết



A kết hợp với E, ta được một itemset mới AE xuất hiện ở văn bản d1, d4 với
wus (AE) = 0. 23 ≥ minws, thêm AE vào A, ta được A = {<AD,46,0.27>,
<AC,1467,0.43>, <AE,14,0.23>}

Cùng một cách thức, thuật toán sẽ gọi đệ quy để tiếp tục tạo ra các lớp tương đương
mới sau lớp “A”.
Xét các lớp tương đương của <AD,46,0.27>.


AD kết hợp với AC, ta được một itemset mới ADC xuất hiện ở d4, d6 với ws
(ADC) = 0.27 ≥ minws, thêm AC vào AD, ta được AD = {ADC}.



AD kết hợp với AE, ta được một itemset mới ADE xuất hiện ở d4 với wus
(ADE) = 0.14 < minws, vì vậy AE không được thêm vào AD.

Xét các lớp tương đương của <AC,1467,0.43>.


AC kết hợp với AE, ta được một itemset mới ACE xuất hiện ở d4, d1 với wus
(ACE) = 0.23 ≥ minws, thêm AE vào AC, ta được AC = {ACE}.

Thực hiện tương tự với các lớp <B,23578,0.49>, <D,23469,0.69>,
<C,1346789,0.75>, <E,123459,0.75>.

Cuối cùng, ta có tập được đánh trọng phổ biến thõa minws = 0.2 là:
FWI = {A, B, D, C, E, AD, AC, AE, BD, BC, BE, DC, DE, CE, ADC, ACE, BDE,
DCE} như trong Hình 2.2.

16


Chương 2. Cơ sở lý thuyết

Hình 2.2. Cây mẫu được đánh trọng phổ biến với minws = 0.2
2.3.1.2

Khai thác tập được đánh trọng hữu ích phổ biến (FWUI frequent weighted utility itemset)

Là một dạng mở rộng của tập được đánh trọng phổ biến, khai thác tập được đánh
trọng hữu ích phổ biến quan tâm đến số lượng của các mặt hàng được mua. FWUI là
một mở rộng của FWI và dựa trên giá trị wu (weighted utility) của các tập mục để
khai thác luật. Vo và các đồng sự đã đề nghị một thuật toán hiệu quả để khai thác
FWUI dựa trên cây MWIT [5].
a. Cấu trúc cây MWIT
Vo và đồng sự [5] đã giới thiệu cấu trúc dữ liệu của cây MWIT để khai thác tập được
đánh trọng hữu ích phổ biến. Tác giả đã chỉnh sửa cây WIT bằng cách thay đổi thuộc
tính twu trong cây WIT thành thuộc tính wus trong cây MWIT. Kỹ thuật dùng cây
MWIT chỉ quét cơ sở dữ liệu một lần bời vì nó dựa vào việc chọn các giao tác để tính
nhanh giá trị phổ biến hữu ích có trọng số của tập phổ biến. Do đó, nó tiết kiệm được
số lần duyệt cơ sở dữ liệu và làm cho thuật toán thực thi nhanh hơn. Cấu trúc cây
MWIT bao gồm các đỉnh và các cạnh.
Đỉnh - bao gồm 3 thành phần:
-


X: một tập các từ
17


Chương 2. Cơ sở lý thuyết

-

t(X): Tập các giao dịch (văn bản) chứa X

-

wus: giá trị trọng số hữu ích của các văn bản chứa X có liên quan tới giá trị

trọng số hữu ích của tất cả các văn bản.
Cạnh: Kết nối đỉnh tại mức k (gọi là X) với mức K+1 (gọi là Y)
Để khai thác tập được đánh trọng hữu ích phổ biến, một số định nghĩa được đưa ra
như sau:
-

Trọng số giao dịch hữu ích (twu - transaction weighted utility) của một giao

dịch được tính như sau:
𝑡𝑤𝑢 (𝑡𝑘 ) =
-

∑𝑖𝑗 ∈ 𝑆(𝑡𝑘 ) 𝑤𝑗 × 𝑥𝑘𝑖𝑗

(2.6)


|𝑡𝑘 |

Trong đó 𝑥𝑘𝑖𝑗 chính là số lượng của item ij trong giao dịch thứ k. Sau đó, chúng

ta có thể tính trọng số hỗ trợ hữu ích (wus - weighted utility support) của một
itemset theo công thức
𝑤𝑢𝑠 (𝑋 ) =

∑𝑡𝑘 ∈ 𝑡(𝑋) 𝑡𝑤𝑢 (𝑡𝑘 )
∑𝑡𝑘 ∈ 𝑇 𝑡𝑤𝑢 (𝑡𝑘 )

(2.7)

b. Thuật toán MWIT-FWUI
Đầu vào của MWIT-FWUI là CSDL D và ngưỡng trọng số hỗ trợ hữu ích tối thiểu
(minwus). Đầu ra của thuật toán là tập các FWUI chứa tất cả các tập được đánh trọng
hữu ích phổ biến thỏa ngưỡng minwus từ D. Chi tiết thuật toán được thể hiện trong
hình 2.3 như sau:
Thuật toán MWIT-FWUI
Input: CSDL D và ngưỡng minwus
Output: Tập các FWUI chứa tất cả các tập được đánh trọng
hữu ích phổ biến thỏa ngưỡng minwus từ D
Method:

18


×