Tải bản đầy đủ (.pdf) (162 trang)

Toàn văn luận án Tiếp cận đồ thị biểu diễn , khai thác văn bản và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.27 MB, 162 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN



NGUYỄN HOÀNG TÚ ANH

TIẾP CẬN ĐỒ THỊ
BIỂU DIỄN, KHAI THÁC VĂN BẢN VÀ ỨNG DỤNG
Chuyên ngành: Đảm bảo tốn học cho máy tính và hệ thống tính tốn
Mã số chun ngành:

1.01.10

Phản biện 1: GS.TS. Nguyễn Thanh Thủy
Phản biện 2: PGS.TS. Đinh Điền
Phản biện 3: TS. Nguyễn Đức Cường
Phản biện độc lập 1: PGS.TSKH. Nguyễn Xuân Huy
Phản biện độc lập 2: TS. Quản Thành Thơ
Phản biện độc lập 3: PGS.TS. Nguyễn Kim Anh

NGƯỜI HƯỚNG DẪN KHOA HỌC
GS.TSKH. HỒNG VĂN KIẾM

Tp. Hồ Chí Minh – Năm 2011


Mục lục

Mở đầu


................................................................................................... 1

Dẫn nhập .................................................................................................................... 1
Mục tiêu và đóng góp của luận án ............................................................................ 2
Nội dung luận án ........................................................................................................ 5
Chương 1 Tổng quan về khai thác dữ liệu văn bản ................................. 7
1.1 Tổng quan.......................................................................................................... 7
1.1.1 Giới thiệu ................................................................................................... 7
1.1.2 Các bài tốn chính của khai thác văn bản ................................................. 8
1.2 Mơ hình biểu diễn văn bản ............................................................................... 9
1.3 Bài toán phân loại văn bản.............................................................................. 12
1.3.1 Phương pháp k-láng giềng gần nhất (k-NN) .......................................... 13
1.3.2 Phương pháp Naïve Bayes ...................................................................... 14
1.3.3 Phương pháp SVM .................................................................................. 16
1.4 Bài toán gom cụm văn bản ............................................................................. 17
1.4.1 Phương pháp k-Means............................................................................. 18
1.4.2 Phương pháp HAC .................................................................................. 19
1.5 Bài tốn tóm tắt văn bản ................................................................................. 21
1.5.1 Phương pháp Heuristic ............................................................................ 23
1.5.2 Các phương pháp khác ............................................................................ 24
1.6 Kết luận ........................................................................................................... 26
Chương 2 Mơ hình biểu diễn văn bản bằng đồ thị ................................. 27
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8

2.9
2.10

Giới thiệu ......................................................................................................... 27
Mơ hình đồ thị khái niệm................................................................................ 28
Mơ hình đồ thị hình sao .................................................................................. 29
Mơ hình đồ thị tần số vơ hướng...................................................................... 31
Mơ hình đồ thị đơn giản.................................................................................. 32
Mơ hình đồ thị khoảng cách n đơn giản ......................................................... 33
Mơ hình đồ thị đỉnh là câu .............................................................................. 34
Mơ hình đồ thị lưỡng phần ............................................................................. 35
Phân loại các mơ hình đồ thị [CT4] ............................................................... 37
Kết luận ........................................................................................................... 40

i


Chương 3 Phân loại văn bản dựa trên tiếp cận đồ thị ........................... 41
3.1 Giới thiệu ......................................................................................................... 41
3.2 Các công trình nghiên cứu liên quan .............................................................. 42
3.2.1 Khai thác đồ thị con phổ biến ................................................................. 42
3.2.2 Phân loại văn bản dựa trên tiếp cận đồ thị .............................................. 44
3.2.3 Phân loại văn bản tiếng Việt ................................................................... 45
3.3 Qui trình phân loại văn bản dựa trên kỹ thuật khai thác đồ thị ..................... 46
3.3.1 Tiền xử lý văn bản ................................................................................... 47
3.3.2 Mô hình hóa văn bản thành đồ thị .......................................................... 48
3.3.3 Rút trích đặc trưng đồ thị ........................................................................ 48
3.3.4 Xây dựng vectơ đại diện lớp ................................................................... 55
3.3.5 Bộ phân loại ............................................................................................. 56
3.4 Kết quả thử nghiệm ......................................................................................... 58

3.4.1 Thử nghiệm trên tập dữ liệu email tiếng Anh......................................... 58
3.4.1 Thử nghiệm trên tập dữ liệu tiếng Việt................................................... 65
3.5 Kết luận ........................................................................................................... 71
Chương 4 Gom cụm tập văn bản có biến động dựa trên biểu
diễn đồ thị ................................................................................................. 73
4.1 Giới thiệu ......................................................................................................... 73
4.2 Các cơng trình nghiên cứu liên quan .............................................................. 75
4.2.1 Gom cụm văn bản động .......................................................................... 75
4.2.2 Gom cụm văn bản dựa trên tiếp cận đồ thị ............................................. 77
4.2.3 Gom cụm văn bản tiếng Việt .................................................................. 78
4.3 Gom cụm tập văn bản có biến động dựa trên biểu diễn đồ thị ...................... 79
4.3.1 Tiền xử lý văn bản ................................................................................... 80
4.3.2 Mơ hình hóa văn bản thành đồ thị .......................................................... 80
4.3.3 Rút trích đặc trưng đồ thị ........................................................................ 82
4.3.4 Xác định độ tương tự giữa các văn bản .................................................. 84
4.3.5 Kỹ thuật chọn lựa động đặc trưng ........................................................... 86
4.3.6 Thuật toán gom cụm động Incremental DBSCAN cải tiến ................... 88
4.4 Kết quả thử nghiệm ......................................................................................... 93
4.5 Kết luận ......................................................................................................... 103
Chương 5 Tóm tắt văn bản dựa trên biểu diễn đồ thị ......................... 106
5.1 Giới thiệu ....................................................................................................... 106
5.2 Các cơng trình nghiên cứu liên quan ............................................................ 108
5.2.1 Tóm tắt văn bản dựa trên tiếp cận đồ thị .............................................. 108
5.2.2 Tóm tắt văn bản tiếng Việt .................................................................... 110

ii


5.3 Mơ hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ thị và kỹ
thuật xếp hạng ........................................................................................................ 111

5.3.1 Tiền xử lý văn bản ................................................................................. 113
5.3.2 Mơ hình hóa văn bản thành đồ thị ........................................................ 114
5.3.3 Xếp hạng câu ......................................................................................... 116
5.3.4 Tạo bản tóm tắt ...................................................................................... 119
5.4 Kết quả thử nghiệm ....................................................................................... 120
5.4.1 Kết quả tóm tắt văn bản đơn ................................................................. 121
5.4.1 Kết quả tóm tắt tập văn bản................................................................... 123
5.5 Kết luận ......................................................................................................... 126
Kết luận

............................................................................................... 128

Các kết quả đạt được ............................................................................................. 128
Hướng phát triển .................................................................................................... 130
Danh mục công trình của tác giả ........................................................... 131
Tài liệu tham khảo ................................................................................... 133
Phụ lục A

Các độ đo đánh giá ............................................................. 145

A.1 Đánh giá phương pháp phân loại .................................................................. 145
A.2 Đánh giá chất lượng gom cụm...................................................................... 145
A.3 Đánh giá bản tóm tắt ..................................................................................... 147
Phụ lục B Ví dụ biểu diễn văn bản bằng đồ thị..................................... 149
Phụ lục C Kiểm định giả thiết thống kê ................................................. 153
C.1. Khái niệm [4] ................................................................................................. 153
C.2. Kiểm định giả thiết về số trung bình của tổng thể ........................................ 153
C.3. Kiểm định giả thiết về tỷ lệ của tổng thể ...................................................... 154
C.4. Kiểm định giả thiết về sự khác biệt giữa hai trung bình của tổng thể .......... 155
C.5. Kiểm định giả thiết về sự bằng nhau giữa hai tỷ lệ của tổng thể ................. 156

Phụ lục D Ví dụ kết quả tóm tắt văn bản ............................................... 158
D.1 Ví dụ tóm tắt văn bản đơn .............................................................................. 158
D.2 Ví dụ tóm tắt tập văn bản ............................................................................... 162

iii


Danh mục các thuật ngữ, ký hiệu, chữ viết tắt

Average link

: liên kết trung bình

Bag of words model

: mơ hình túi từ

Clustering

: gom cụm

Complete link

: liên kết đầy đủ

Cue

: ngữ chỉ thị

Cross-validation


: đánh giá chéo

Data mining

: khai thác dữ liệu

Dendrograms

: sơ đồ nhánh

Document

: tài liệu

Graph-based model

: mơ hình biểu diễn bằng đồ thị

Heading

: tiêu đề

Hyperplane

: siêu phẳng

Information extraction

: trích chọn thông tin


Information retrieval

: truy vấn thông tin

Single link

: liên kết đơn

Title

: nhan đề

Text mining

: khai thác dữ liệu văn bản (khai thác văn bản)

CGs

: mơ hình đồ thị khái niệm - Conceptual Graphs

CSDL

: cơ sở dữ liệu

DC-Tree

: cây gom cụm tài liệu – Document Clustering Tree

DF


: tần suất xuất hiện của tài liệu – Document frequency

DIG

: đồ thị chỉ mục tài liệu - Document Index Graph

DUC

: Document Understanding Conference

HAC

: gom cụm phân cấp tích tụ - Hierachical Agglomerative
Clustering

ICG

: gom cụm động dựa trên đồ thị - Incremental Clustering
based on Graph

iv


IDF

: nghịch đảo tần suất xuất hiện của tài liệu - Inverse
Document Frequency

IG


: độ lợi thông tin – Information gain

KDD

: khám phá tri thức trong cơ sở dữ liệu - Knowledge
discovery in databases

k-NN

: k - láng giềng gần nhất - k- Nearest Neighbor

KTTL

: kích thước của văn bản/email

KTLop

: kích thước thư mục /lớp

MCS

: đồ thị con chung cực đại - Maximal Common Subgraph

MDL

: độ dài mô tả cực tiểu - Minimum description length

MMR


: mức độ cực đại tương ứng - Maximal Marginal Relevance

NB

: Naïve Bayes

ROUGE

: Recall Oriented Understudy for Gisting Evaluation

SOM

: bản đồ tự tổ chức - Self Organizing Map

SVM

: máy vectơ hỗ trợ - Support Vector Machine

STC

: gom cụm dựa trên cây tiền tố - Suffix Tree Clustering

TF

: tần suất xuất hiện của thuật ngữ - Term Frequency

VSM

: mô hình khơng gian vectơ - Vector Space Model


log

: logarit cơ số 10

v


Danh mục các hình

Hình 1.1. Ví dụ văn bản cho mơ hình khơng gian vectơ ............................................. 11
Hình 1.2. Siêu phẳng (đường nét liền) với lề cực đại. Các vectơ hỗ trợ – các
điểm trên các đường đứt nét .......................................................................................... 17
Hình 1.3. Thuật tốn HAC ............................................................................................ 20
Hình 1.4. Sơ đồ nhánh đơn giản ................................................................................... 20
Hình 2.1. Ví dụ mơ hình đồ thị khái niệm .................................................................... 29
Hình 2.2. Ví dụ mơ hình đồ thị hình sao biểu diễn văn bản [CT4] ............................. 30
Hình 2.3. Ví dụ mơ hình đồ thị hình sao biểu diễn email [CT10] ............................... 31
Hình 2.4. Ví dụ mơ hình đồ thị tần số vơ hướng [89] .................................................. 32
Hình 2.5. Ví dụ mơ hình đồ thị đơn giản [CT4] ........................................................... 33
Hình 2.6. Ví dụ mơ hình đồ thị khoảng cách n đơn giản [CT4] .................................. 34
Hình 2.7. Ví dụ mơ hình đồ thị với đỉnh là câu ............................................................ 35
Hình 2.8. Minh họa mơ hình đồ thị lưỡng phần với đỉnh là câu và từ ........................ 36
Hình 3.1. Sơ đồ giai đoạn huấn luyện........................................................................... 46
Hình 3.2. Sơ đồ giai đoạn phân loại.............................................................................. 47
Hình 3.3. Mã giả thuật tốn gSpan ngun thủy [100] ................................................ 50
Hình 3.4. Ví dụ mã DFS cho đồ thị có hướng s ........................................................... 51
Hình 3.5. Ví dụ đồ thị con phổ biến của chủ đề Khoa học, Văn hóa .......................... 55
Hình 3.6. Kết quả phân loại email theo kích thước thư mục [CT10] .......................... 62
Hình 3.7. Kết quả phân loại theo thư mục của eClass và eMailSift [CT10] ............... 62
Hình 3.8. Kết quả phân loại theo thư mục của eTCG và eClass.................................. 63

Hình 3.9. Độ chính xác phân loại theo người dùng [CT10] ........................................ 64
Hình 3.10. So sánh kết quả phân loại dùng độ đo Dice và Manhattan [CT3] ............. 68
Hình 3.11. So sánh kết quả phân loại theo chủ đề [CT3]............................................. 70
Hình 4.1. Qui trình gom cụm văn bản động [CT2] ...................................................... 79
Hình 4.2. Qui trình xây dựng đồ thị [CT7] ................................................................... 81
Hình 4.3. Thuật tốn DIG [35]...................................................................................... 83
Hình 4.4. Quá trình chọn lựa động đặc trưng [CT7] .................................................... 88
Hình 4.5. Ví dụ trường hợp 4, trộn “bắc cầu” giữa các cụm A, B, C .......................... 91

vi


Hình 4.6. Mã giả cho kỹ thuật trộn cụm của Incremental DBSCAN cải tiến ............. 92
Hình 4.7. So sánh thời gian gom cụm giữa các mơ hình biểu diễn văn bản ............... 96
Hình 4.8. Đánh giá chất lượng gom cụm giữa mơ hình khơng gian vectơ
truyền thống và mơ hình đồ thị theo độ đo F (a) và Entropy (b)[CT2] ....................... 97
Hình 4.9. So sánh kết quả giữa các hệ thống gom cụm theo độ đo F .......................... 98
Hình 4.10. So sánh kết quả gom cụm theo độ đo F khi sử dụng và không sử
dụng kỹ thuật chọn lựa động đặc trưng ........................................................................ 99
Hình 4.11. Đánh giá thuật tốn Incremental DBSCAN cải tiến theo độ đo F và
Entropy [CT7] ............................................................................................................. 101
Hình 5.1. Mơ hình tóm tắt văn bản tiếng Việt [CT1] ................................................. 112
Hình 5.2. Qui trình bộ tóm tắt văn bản đơn [CT8] ..................................................... 113
Hình 5.3. Đồ thị biểu diễn văn bản [CT8] .................................................................. 115
Hình 5.4. Thuật tốn xếp hạng câu ............................................................................. 118
Hình 5.5. Kết quả đánh giá bản tóm tắt văn bản đơn theo ROUGE-1 [CT8] ........... 123
Hình 5.6. Kết quả đánh giá bản tóm tắt văn bản đơn theo ROUGE-2 ...................... 123
Hình 5.7. So sánh theo ROUGE-1 trên các chủ đề .................................................... 126
Hình 5.8. So sánh theo ROUGE-2 trên các chủ đề .................................................... 126
Hình B.1. Ví dụ biểu diễn văn bản bằng đồ thị .......................................................... 152


vii


Danh mục các bảng

Bảng 2.1. So sánh các mơ hình biểu diễn văn bản bằng đồ thị [CT4]......................... 38
Bảng 3.1. Thống kê trên tập dữ liệu ENRON [CT10] ................................................. 60
Bảng 3.2. Mô tả các hệ thống thử nghiệm .................................................................... 61
Bảng 3.3. Tập dữ liệu thử nghiệm TC1 cho bài toán phân loại văn bản [CT9] .......... 66
Bảng 3.4. Kết quả thử nghiệm phân loại [CT3] ........................................................... 67
Bảng 3.5. So sánh kết quả phân loại theo giá trị F1 trung bình [CT6] ......................... 69
Bảng 3.6. So sánh thời gian huấn luyện và phân loại văn bản..................................... 71
Bảng 4.1. Thống kê trên tập dữ liệu TC2 ..................................................................... 94
Bảng 4.2. Thống kê tập dữ liệu thử nghiệm [CT2] ...................................................... 94
Bảng 4.3. So sánh chất lượng gom cụm theo độ đo F [CT5]....................................... 95
Bảng 4.4. So sánh chất lượng gom cụm theo độ đo Entropy [CT5] ............................ 96
Bảng 4.5. Sự cải thiện chất lượng gom cụm của ICG [CT2] ..................................... 100
Bảng 4.6. So sánh số lượng cụm thu được giữa ICG và SHC [CT2] ........................ 100
Bảng 4.7. Kết quả cập nhật dữ liệu động [CT2]......................................................... 102
Bảng 4.8. Các từ khóa đặc trưng đại diện cho cụm [CT2]......................................... 103
Bảng 5.1. Ma trận biểu diễn đồ thị văn bản [CT8]..................................................... 115
Bảng 5.2. Tập dữ liệu thử nghiệm T1 cho bài tốn tóm tắt văn bản đơn [CT8] ....... 120
Bảng 5.3. Tập dữ liệu thử nghiệm T2 cho bài tốn tóm tắt tập văn bản [CT1] ........ 121
Bảng 5.4. Kết quả đánh giá bản tóm tắt văn bản đơn [CT8] ..................................... 122
Bảng 5.5. So sánh các hệ thống tóm tắt trên tập T2 [CT1] ........................................ 124
Bảng 5.6. So sánh kết quả tóm tắt theo độ đo ROUGE trên từng chủ đề [CT1] ...... 125

viii



Danh mục cơng trình của tác giả
[CT1]

Nguyen Hoang Tu Anh, Nguyen Hoang Khai, Tran Quang Vinh (2010), “An
Efficient Vietnamese Text Summarization Approach Based on Graph
Model”, IEEE International Conference on Computing & Communication
Technologies - Research, Innovation and Vision for the Future (RIVF2010),
Hà nội, Việt Nam, 1-4 tháng 11 năm 2010, pp 41-46.

[CT2]

Tu Anh Nguyen Hoang, Kiem Hoang (2009), “Efficient Approach for
Incremental Vietnamese Document Clustering”, 11th ACM International
Workshop on Web Information and Data Management (WIDM 2009), Hong
Kong, China, 2 tháng 11 năm 2009, ISBN 978-1-60558-808-7, pp.47-54.
/>
[CT3]

Nguyễn Hoàng Tú Anh, Hoàng Kiếm (2009), “Áp dụng kỹ thuật khai thác
đồ thị vào bài toán phân loại văn bản”, Tạp chí Tin học và Điều khiển học,
T.25, S.1(2009), pp.43-52.

[CT4]

Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi (2009),
“Mơ hình biểu diễn văn bản thành đồ thị”, Tạp chí Phát triển Khoa học và
Cơng nghệ, ĐHQG-HCM, Tập 12, số 07/2009, pp.5-14.

[CT5]


Tu-Anh Nguyen-Hoang, Kiem Hoang, Danh Bui-Thi, Anh-Thy Nguyen
(2009), “Incremental Document Clustering Based on Graph Model”, 5th
International Conference on Advanced Data Mining and Application
(ADMA 2009), Beijing, China, 17-19 tháng 8 năm 2009, LNAI, Vol. 5678,
Springer-Verlag Berlin Heidelberg, ISBN 978-3-642-03347-6, pp.569-576.

[CT6]

Tu Anh Hoang Nguyen, Kiem Hoang (2009), “Frequent Subgraph-Based
Approach for Classifying Vietnamese Text Documents”, 11th International
Conference on Enterprise Information Systems (ICEIS 2009), Milan, Italy,
6-10 tháng 5 năm 2009, Part II, LNBIP, Vol. 24, Springer-Verlag Berlin
Heidelberg, ISBN 978-3-642-01346-1, pp.299-308.

131


[CT7]

Nguyễn Hoàng Tú Anh, Bùi Thị Danh, Nguyễn Anh Thy (2008), “Gom cụm
văn bản động dựa trên mơ hình đồ thị kết hợp IncrementalDBSCAN”, Hội
thảo Công nghệ Thông tin & Truyền thơng lần thứ nhất (ICTFIT 2008), Tp.
Hồ Chí Minh, 14 tháng 11 năm 2008, Tuyển tập Cơng trình nghiên cứu
Công nghệ thông tin và Truyền thông 2008, NXB Khoa học và Kỹ thuật, pp.
56-64.

[CT8]

Nguyễn Hoàng Tú Anh, Hoàng Kiếm (2008), “Tóm tắt văn bản tiếng Việt

dựa trên mơ hình đồ thị”, Đặc san Các cơng trình nghiên cứu khoa học,
nghiên cứu triển khai Công nghệ thông tin và Truyền thơng, Tạp chí Cơng
nghệ thơng tin và Truyền thơng, kỳ 3, số 20, tháng 10 năm 2008, pp. 91-100.

[CT9]

Nguyễn Hoàng Tú Anh, Hoàng Kiếm (2007), “Phân loại văn bản tiếng Việt
dựa trên khai thác đồ thị con phổ biến”, Kỷ yếu Hội thảo Quốc gia lần thứ 3
về Nghiên cứu cơ bản & ứng dụng Công nghệ thông tin (FAIR‟07), Nha
Trang, 09-10 tháng 08 năm 2007, NXB Khoa học và kỹ thuật, pp.258-268.

[CT10] Nguyễn Hồng Tú Anh, Nguyễn Cơng Hoan, Nguyễn Huy Hùng (2006),
“Áp dụng kỹ thuật khai thác đồ thị trong bài toán phân loại email”, Kỷ yếu
Hội nghị Khoa học Kỷ niệm 30 năm thành lập Viện CNTT, Hà nội, Việt
Nam, 27-28 tháng 12 năm 2006, NXB Khoa học tự nhiên và Công nghệ,
pp.37-46.

132


Mở đầu
Dẫn nhập
Sự tiến bộ vượt bậc của công nghệ thông tin đã cung cấp nhiều phương pháp thu
thập, lưu trữ khối lượng dữ liệu khổng lồ một cách hiệu quả và ít tốn kém. Rất nhiều
thơng tin chiến lược quan trọng đang nằm trong các cơ sở dữ liệu to lớn này. Các
phương pháp xử lý, tìm kiếm, phân tích và rút trích thơng tin truyền thống khơng cịn
thích hợp nữa. Như Rutherford D. Rogers đã viết trên báo NewYork Times vào năm
1985: “Chúng ta ngập chìm trong dữ liệu nhưng lại đói tri thức”. Việc tìm kiếm các
thơng tin giá trị, tiềm ẩn trong khối lượng lớn dữ liệu địi hỏi những cơng cụ mới
ngồi các cơng cụ truy vấn thơng tin cổ điển. Chính vì vậy trong những năm gần đây,

lĩnh vực Khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases
– KDD) hay còn được gọi là Khai thác dữ liệu (Data mining) đã ra đời và phát triển
nhanh chóng.
Lĩnh vực khai thác dữ liệu từ khi ra đời đã nhận được sự ủng hộ tích cực của các
nhà nghiên cứu và phát triển mạnh mẽ trong vịng hai mươi năm qua. Có thể liệt kê
một số nhà khoa học hàng đầu, có những đóng góp nổi bật cho lĩnh vực khai thác dữ
liệu như Rakesh Agrawal, Usama Fayyad, Gregory Piatetsky-Shapiro, Heikki Manila,
Jiawei Han, Padhraic Smyth, Christos Faloutsos, Osmar Zaïane, … Hàng trăm công
ty trên thế giới đang cung cấp các công cụ khai thác dữ liệu và được áp dụng vào rất
nhiều lĩnh vực trong cuộc sống: kinh tế, thương mại, y tế, sinh học, …
Tuy nhiên rất nhiều vấn đề còn đang bỏ ngỏ, dở dang, cần nghiên cứu [101]. Ví
dụ như giảm độ phức tạp tính tốn, tìm những phương pháp khai thác hiệu quả có thể
áp dụng trên các kiểu dữ liệu phức tạp (đa phương tiện, văn bản, chuỗi, thời gian,
WWW, …), vấn đề bảo vệ bí mật cá nhân, áp dụng kỹ thuật khai thác dữ liệu giải
quyết các bài toán thực tế phức tạp, …

1


Theo đánh giá của cơng ty Oracle [76], hiện có đến 80% dữ liệu trên thế giới là dữ
liệu văn bản, vì vậy khai thác dữ liệu phức tạp mà cụ thể hơn là khai thác dữ liệu văn
bản (text mining) là vấn đề quan trọng, đầy thử thách và cần được đầu tư nghiên cứu.
Đặc điểm của dữ liệu phức tạp nói chung hay dữ liệu văn bản nói riêng là dữ liệu
thường khơng có cấu trúc hoặc bán cấu trúc, cơ sở dữ liệu rất lớn, đa chiều và hay bị
nhiễu. Ngoài ra đối với dữ liệu văn bản chúng ta còn phải đối mặt với vấn đề nhập
nhằng ở nhiều cấp độ (cấp độ về từ, ngữ, câu), ở nhiều khía cạnh (hình thái, ngữ
pháp, ngữ nghĩa).
Luận án này tập trung nghiên cứu khai thác dữ liệu văn bản, hay còn gọi là khai
thác văn bản. Khai thác văn bản là lĩnh vực liên ngành, liên quan đến truy vấn thông
tin, khai thác dữ liệu và xử lý ngôn ngữ tự nhiên. Khai thác văn bản bao gồm q

trình cấu trúc hóa văn bản đầu vào, tìm kiếm các mẫu mới, chưa biết trước, có ích từ
dữ liệu đã cấu trúc hoá và đánh giá, diễn giải kết quả thu được. Các bài tốn chính
của khai thác văn bản là phân loại, gom cụm văn bản, rút trích thơng tin và tóm tắt tài
liệu. Mặc dù đã có nhiều tiến bộ trong nghiên cứu khai thác văn bản nhưng vẫn còn
khoảng cách khá xa giữa nhu cầu ứng dụng và các kết quả đạt được. Luận án tập
trung nghiên cứu, phát triển các kỹ thuật khai thác dữ liệu hiện có, cũng như những
kỹ thuật phân tích dữ liệu văn bản nhằm tích hợp chúng và tăng cường hiệu quả giải
quyết bài toán khai thác dữ liệu văn bản.

Mục tiêu và đóng góp của luận án
Với mục tiêu khai thác tập văn bản, đầu tiên ta cần tiền xử lý văn bản và lưu trữ
thông tin dưới dạng có cấu trúc phù hợp với các bước xử lý sau này. Mơ hình khơng
gian vectơ [80] là một phương pháp biểu diễn văn bản phổ biến. Mơ hình không gian
vectơ biểu diễn văn bản như một vectơ đặc trưng của các thuật ngữ (từ) xuất hiện
trong toàn bộ tập văn bản. Tuy nhiên, phương pháp này không lưu trữ được các thông
tin cấu trúc quan trọng như trật tự xuất hiện của các từ, vùng lân cận, vị trí xuất hiện
của từ trong văn bản.
Những năm gần đây, mơ hình biểu diễn văn bản bằng đồ thị (trong luận án này
gọi tắt là mơ hình đồ thị) được đề xuất và sử dụng riêng lẻ trong các bài toán khác

2


nhau của khai thác văn bản như phân loại [11], [61], gom cụm [35], [81], rút trích
thơng tin [89] và tóm tắt văn bản [29], [68]. Các kết quả áp dụng mơ hình đồ thị trên
văn bản tiếng Anh cho thấy mơ hình này có nhiều tiềm năng vì tận dụng được các
thông tin quan trọng về cấu trúc mà biểu diễn vectơ đã bỏ qua.
Bên cạnh đó, mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng Việt cũng
có đặc tính chung với các ngơn ngữ châu Á đơn lập khác (tiếng Hoa, Lào, Thái) như
khó xác định ranh giới giữa các từ và có các điểm khác biệt về ngữ âm, ngữ pháp so

với tiếng Anh.
Tiế ng Viê ̣t thuô ̣c ngôn ngữ đơn lâ ̣p 1, tức là mỗi mô ̣t tiế ng (âm tiế t) đươ ̣c phát âm
tách rời nhau và được thể hiện b ằng mô ̣t chữ viế t . Đặc điểm này thể hiện rõ rệt ở tất
cả các mặt ngữ âm, hình thái, ngữ pháp. Trong tiế ng Viê ̣t có một loại đơn vị đặc biệt
gọi là "tiế ng". Về mă ̣t ngữ âm, mỗi tiế ng là mơ ̣t âm tiế t. Mỡi tiế ng, nói chung, là một
yế u tố có nghia . Tiế ng là đơn vi ̣cơ sở của hê ̣ thố ng các đơn vi ̣có nghia của tiế ng
̃
̃
Viê ̣t. Từ tiế ng, người ta tạo ra các đơ n vi ̣từ vựng khác để đinh danh sự vâ ̣t, hiê ̣n
̣
tươ ̣ng..., chủ yếu nhờ phương thức ghép và phương thức láy. Từ của tiế ng Viê ̣t không
biế n đổ i hinh thái. Khi từ kế t hơ ̣p từ thành các kế t cấ u như ngữ, câu, tiếng Việt rất coi
̀
trọng trật tự từ. Viê ̣c sắ p xế p các từ theo mô ̣t trâ ̣t tự nhấ t đinh là cách chủ yế u để biể u
̣
thị các quan hệ cú pháp . Trong tiế ng Viê ̣t khi nói "Anh ta lại đế n " là khác với "Lại
đến anh ta".
Như vậy việc xác định ranh giới từ trong tiếng Việt là bài toán khó [27] do đơn vị
cơ bản trong tiếng Việt là “tiếng” chứ không phải từ. Từ được cấu trúc từ “tiếng”. Từ
bao gồm từ đơn (từ một tiếng) và từ phức (n-tiếng, với n < 5), bao gồm từ láy và từ
ghép. Trong khi đó, từ trong tiếng Anh là một nhóm ký tự có nghĩa, được phân cách
bởi ký tự khoảng trắng trong câu.
Do đó, khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và
thử nghiệm thành công trên tiếng Anh cho tiếng Việt nếu không xây dựng thành công

1

/>
3



giải pháp cho việc tách từ trong văn bản tiếng Việt hoặc sử dụng mơ hình biểu diễn
có thể hạn chế được ảnh hưởng của bài toán tách từ.
Phần lớn các nghiên cứu về khai thác văn bản tiếng Việt [1], [2], [3], [6], [8], [9],
[25], [27], [41] sử dụng mơ hình khơng gian vectơ biểu diễn văn bản và địi hỏi cơng
cụ tách từ tốt. Ngồi ra, mơ hình không gian vectơ không quan tâm đến trật tự của từ
trong câu trong khi đối với tiếng Việt, trật từ của từ rất quan trọng. Chẳng hạn nhờ
trâ ̣t tự kế t hơ ̣p của từ mà "củ cải" khác với "cải củ", "tình cảm" khác với "cảm tình".
Hiện nay, mới chỉ có nhóm của Đỗ Phúc cùng các đồng sự áp dụng thuật toán
SOM (Self Organizing Map) trên đồ thị để gom cụm văn bản và từ đó rút ra ý chính
của tập văn bản [7], [26]. Chất lượng gom cụm văn bản sử dụng đồ thị theo độ đo F
có kết quả tốt hơn khi dùng biểu diễn vectơ.
Nhận thấy tiềm năng ứng dụng của tiếp cận đồ thị, luận án tập trung nghiên cứu,
hệ thống hóa và phân tích khả năng ứng dụng của mơ hình đồ thị vào biểu diễn và
khai thác văn bản. Luận án nghiên cứu, phát triển các kỹ thuật khai thác dữ liệu đã có
để áp dụng hiệu quả trên đồ thị biểu diễn văn bản. Luận án nghiên cứu, phát triển qui
trình khai thác văn bản sử dụng tiếp cận đồ thị nhằm giải quyết một số bài tốn chính:
phân loại, gom cụm tập văn bản có biến động và tóm tắt văn bản.
Các đóng góp chính của luận án:
1. Hệ thống hóa các mơ hình biểu diễn văn bản bằng đồ thị. Phân tích khả năng
ứng dụng của từng loại mơ hình và lựa chọn mơ hình biểu diễn đồ thị phù hợp
cho các nhiệm vụ khai thác văn bản.
2. Cải tiến thuật toán gSpan khai thác đồ thị con phổ biến cho tập đồ thị có
hướng.
3. Cải tiến kỹ thuật trộn cụm của thuật toán gom cụm động Incremental
DBSCAN.
4. Đề xuất qui trình phân loại văn bản dựa trên biểu diễn đồ thị và kỹ thuật khai
thác đồ thị con phổ biến cải tiến.

4



5. Đề xuất qui trình gom cụm tập văn bản có biến động sử dụng đồ thị biểu diễn
văn bản kết hợp kỹ thuật chọn lựa động đặc trưng và thuật tốn Incremental
DBSCAN cải tiến.
6. Đề xuất mơ hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ thị kết hợp
kỹ thuật xếp hạng đỉnh.
7. Tiến hành thử nghiệm khai thác văn bản tiếng Việt dựa trên tiếp cận đồ thị
theo các mơ hình đề xuất.

Nội dung luận án
Nội dung của luận án bao gồm:
 Phần mở đầu trình bày tổng quan về luận án, mục tiêu của luận án.
 Chƣơng 1 trình bày tổng quan về lĩnh vực khai thác dữ liệu văn bản, các đặc
điểm của dữ liệu văn bản. Chương này phân tích các bài tốn chính liên quan:
mơ hình biểu diễn dữ liệu văn bản, bài tốn phân loại, gom cụm và tóm tắt văn
bản.
 Chƣơng 2 trình bày chi tiết về mơ hình biểu diễn văn bản thành đồ thị, cách
phân loại các mơ hình đồ thị, các phân tích về khả năng ứng dụng của chúng
và lựa chọn mơ hình biểu diễn đồ thị phù hợp cho nhiệm vụ khai thác văn bản.
Một phần của chương này đã được công bố trong cơng trình số 4.
 Chƣơng 3 trình bày qui trình phân loại văn bản dựa trên biểu diễn đồ thị và kỹ
thuật khai thác đồ thị con phổ biến cải tiến. Một phần của chương này đã được
công bố trong cơng trình số 3, 6, 9, 10.
 Chƣơng 4 trình bày qui trình gom cụm tập văn bản có biến động dựa trên biểu
diễn đồ thị kết hợp với kỹ thuật chọn lựa động đặc trưng và thuật toán
Incremental DBSCAN cải tiến. Một phần của chương này đã được công bố
trong cơng trình số 2, 5, 7.

5



 Chƣơng 5 trình bày mơ hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ
thị và sử dụng kỹ thuật xếp hạng đỉnh để xác định các câu quan trọng trong
văn bản. Một phần của chương này đã được cơng bố trong cơng trình số 1, 8.
 Phần kết luận và hƣớng phát triển
 Phụ lục A trình bày các độ đo đánh giá kết quả phân loại, gom cụm và chất
lượng bản tóm tắt.
 Phụ lục B nêu ví dụ biểu diễn văn bản bằng đồ thị.
 Phụ lục C trình bày về kiểm định giả thiết thống kê.
 Phụ lục D nêu các ví dụ tóm tắt văn bản.

6


Chương 1

Tổng quan về khai thác dữ liệu văn bản
1.1 Tổng quan
1.1.1 Giới thiệu
“Thơng tin là vàng”. Để có thơng tin, chúng ta cần khai thác từ dữ liệu và 80% dữ
liệu điện tử trên thế giới tồn tại dưới dạng văn bản chứ không phải dữ liệu số [76].
Hai vấn đề then chốt cho các tổ chức, doanh nghiệp, nhà khoa học là làm sao tìm
kiếm nhanh, đầy đủ thơng tin từ văn bản có mặt ở khắp mọi nơi và sử dụng chúng
một cách hiệu quả nhất. Đó là nhiệm vụ của khai thác văn bản, một trong những lĩnh
vực mới của công nghệ thông tin.
Khai thác văn bản là “sự tìm kiếm thơng tin mới, chưa biết bằng cách dùng máy
tính rút trích tự động tri thức từ nhiều nguồn văn bản khác nhau” [37].
Khai thác văn bản khác biệt với khai thác dữ liệu truyền thống ở chỗ: khai thác dữ
liệu rút trích, phân tích, tóm tắt dữ liệu có cấu trúc, trong khi khai thác văn bản xử lý

khối lượng dữ liệu văn bản khổng lồ không cấu trúc hoặc bán cấu trúc như email, tài
liệu ở dạng văn bản, các tập tin HTML, … Như vậy để khai thác văn bản cần thực
hiện tiền xử lý và cấu trúc hóa dữ liệu.
Khai thác văn bản là giải pháp tốt để tích hợp và quản lý một lượng lớn các loại
cấu trúc dữ liệu khác nhau. Tuy nhiên, hiện nay phần lớn các nghiên cứu và nỗ lực
phát triển đều tập trung vào khai thác dữ liệu truyền thống có cấu trúc vì khai thác
văn bản phải đối mặt với nhiều thách thức do đặc trưng riêng của kiểu dữ liệu văn
bản:
 Cơ sở dữ liệu văn bản thường rất lớn và thay đổi liên tục. Trong kỷ nguyên
số, văn bản do các cá nhân, cơng ty và tổ chức chính quyền tạo ra đang
tăng với tốc độ chóng mặt. Số lượng trang web theo tính tốn của Google
là trên 1000 tỷ trang2. Bên cạnh đó, bản thân một văn bản cũng có thể
thường xuyên bị thay đổi, chẳng hạn như nội dung trang web.

2

7/2008

7


 Dữ liệu văn bản có số chiều lớn. Nếu ta coi mỗi từ hay cụm từ là một chiều
thì vì số lượng từ/ cụm từ rất lớn. Ví dụ theo thống kê năm 2009, số lượng
từ tiếng Anh đã vượt qua con số một triệu3, còn trên tiếng Việt thì từ điển
lớn nhất hiện nay cũng có khoảng hơn 70.000 từ.
 Dữ liệu văn bản là dữ liệu không được tổ chức tốt. Văn bản thường có
dạng bán cấu trúc hoặc khơng có cấu trúc. Chẳng hạn văn bản có thể chứa
một số trường có cấu trúc như tiêu đề, tác giả, ngày xuất bản, loại, ….
Nhưng nó chứa phần lớn các thành phần không cấu trúc như nội dung và
tóm tắt.

 Tính hỗn loạn (khơng đồng nhất): Các kho văn bản có thể chứa văn bản từ
nhiều nguồn khác nhau (như tin tức, bài báo nghiên cứu, sách, thư viện
điện tử, email và các trang web) và có định dạng, cũng như mục đích sử
dụng khác nhau.
 Tính nhập nhằng: Sự nhập nhằng trong văn bản thể hiện ở nhiều cấp độ
(cấp độ về từ, ngữ, câu), ở nhiều khía cạnh (hình thái, ngữ pháp, ngữ
nghĩa).
Qui trình khai thác văn bản thường bao gồm các bước chính:
 Tiền xử lý văn bản: Đầu tiên ta tiến hành phân tích cú pháp văn bản như
phân đoạn từ, gán nhãn từ loại, … Sau đó chuyển đổi văn bản về dạng có
cấu trúc bằng mơ hình biểu diễn văn bản. Trong quá trình biểu diễn văn
bản, ta cần xác định, chọn lựa đặc trưng, loại các đặc trưng không liên
quan.
 Khai thác văn bản: Sử dụng kỹ thuật khác nhau như phân loại, gom cụm,
tóm tắt, …nhằm rút trích các mẫu hay tri thức hữu ích, đáng quan tâm.
 Phân tích, đánh giá kết quả thu được: Với mục đích xác định độ tin cậy của
các mẫu hay tri thức tìm được trước khi đưa vào ứng dụng trong thực tế.
1.1.2 Các bài tốn chính của khai thác văn bản
Các nghiên cứu hiện tại trong lĩnh vực khai thác văn bản quan tâm chính đến vấn
đề biểu diễn văn bản, phân loại, gom cụm, tóm tắt [20].

3

/>
8


 Mơ hình biểu diễn văn bản: Mơ hình chuyển đổi văn bản thành dạng có
cấu trúc. Nhằm giảm kích thước lưu trữ của văn bản và dễ dàng sử dụng,
văn bản cần được chuyển đổi thành dạng phù hợp và có thể mơ tả nội dung

của văn bản. Mơ hình khơng gian vectơ là phương pháp được sử dụng phổ
biến trong cộng đồng truy vấn thơng tin. Mơ hình biểu diễn bằng đồ thị,
mơ hình n-gram là các phương pháp được đề xuất sau này.
 Phân loại: Văn bản được phân loại vào các chủ đề xác định trước. Một số
phương pháp phân loại phổ biến là k-NN, SVM, Naïve Bayes, …[84]
 Gom cụm: Các văn bản được tự động gom thành một số cụm dựa trên nội
dung. Gom cụm văn bản được quan tâm nhiều trong thời gian gần đây.
Khảo sát chi tiết về gom cụm văn bản có thể xem trong [20], [75], [87].
 Tóm tắt: Tóm tắt văn bản được áp dụng cho từng văn bản và tập văn bản.
Bản tóm tắt có thể là dạng trích lược (chỉ gồm nội dung nguyên bản từ văn
bản đầu vào) hay dạng tóm lược (tương tự như bản tóm tắt của con người
và gồm các nội dung tổng hợp từ văn bản đầu vào) [60].
Ngồi ra cịn các nghiên cứu về trực quan hóa văn bản, rút trích thông tin, phát
hiện xu thế,… nhưng không phải là mục tiêu chính của luận án này.
Những phần tiếp theo trình bày và phân tích chi tiết hơn các bài tốn chính nêu
trên.

1.2 Mơ hình biểu diễn văn bản
Khi khai thác tập văn bản, ta cần tiền xử lý văn bản và lưu trữ thông tin ở dạng
cấu trúc phù hợp hơn để xử lý sau này thay vì các tập tin văn bản thuần túy. Mơ hình
biểu diễn văn bản là một trong những nhân tố quan trọng của quá trình khai thác văn
bản.
Hiện nay, có nhiều mơ hình biểu diễn văn bản. Mơ hình đơn giản nhất là mơ hình
túi từ. Tồn bộ từ trong tập văn bản được sử dụng cho việc xây dựng vectơ nhị phân
biểu diễn văn bản. Mỗi chiều của vectơ đại diện cho một từ và nhận giá trị 1 khi từ
xuất hiện trong văn bản và ngược lại. Mơ hình khơng gian vectơ là mơ hình phát triển

9



từ mơ hình túi từ. Trong mơ hình này, mỗi văn bản được biểu diễn thành một vectơ
của các thuật ngữ (từ/cụm từ) với giá trị của mỗi chiều thường là trọng số của thuật
ngữ. Mơ hình biểu diễn bằng đồ thị là mơ hình với đỉnh có thể là từ, cụm từ hay câu
hoặc kết hợp câu và từ. Cạnh nối giữa các đỉnh thể hiện mối quan hệ trong đồ thị. Mơ
hình N-gram là mơ hình được sử dụng phổ biến trong xử lý ngôn ngữ tự nhiên với
các từ được biểu diễn như chuỗi ký tự có độ dài N. Trong mơ hình N-gram, văn bản
được tách ra thành các chuỗi n ký tự liên tục và thường không sử dụng thông tin ngữ
nghĩa hay đặc trưng ngôn ngữ. Phần tiếp theo tập trung giới thiệu mô hình khơng gian
vectơ.
Mơ hình khơng gian vectơ là phương pháp biểu diễn văn bản phổ biến trong lĩnh
vực truy vấn thông tin và trong một số tiếp cận khai thác văn bản. Với mơ hình này,
các văn bản được biểu diễn thành vectơ trong không gian m - chiều. Mỗi chiều của
khơng gian tương ứng với một thuật ngữ (có thể là từ đơn lẻ, từ khóa hay cụm từ dài)
riêng biệt. Hay nói một cách khác, tất cả các thuật ngữ trong CSDL tạo thành “không
gian” với mỗi thuật ngữ đại diện cho một “chiều”. Với mục đích phân biệt văn bản
này với văn bản khác, trọng số được gán cho từng thuật ngữ nhằm xác định độ quan
trọng của thuật ngữ trong văn bản. Giá trị của mỗi thành phần trong vectơ là trọng số
của thuật ngữ tương ứng. Có nhiều cách tính trọng số này, trong đó TF×IDF [80] là
phương pháp phổ biến nhất.
Định nghĩa 1.1: Trọng số TF×IDF (Term Frequency – Inverse Document
Frequency)
Trọng số TF×IDF của thuật ngữ tj trong tài liệu di là [80]:
wij  TFij  IDFj  TFij  log(

N
)
nj

(1. 1)


Trong đó:
 TFij: Tần suất của thuật ngữ tj hay số lần xuất hiện của thuật ngữ thứ j trong tài
liệu di
 IDFj: Nghịch đảo tần suất tài liệu, với N là tổng số tài liệu trong tập dữ liệu, nj
là số tài liệu chứa thuật ngữ tj.

10


Khi sử dụng TF×IDF, các thuật ngữ xuất hiện quá ít hoặc quá nhiều sẽ có thứ
hạng thấp hơn những thuật ngữ khác.
Ví dụ 1.1: Cho tập dữ liệu gồm ba văn bản. Các văn bản này đã qua công đoạn
tiền xử lý: tách từ, loại bỏ hư từ.

Văn bản 1

Văn bản 2

Văn bản 3

Chỉ số chứng khoán giao dịch
Chứng khoán giao dịch
Giá trị chứng khoán giao dịch

Chứng khoán ngân hàng
Sán giao dịch cổ phiếu
Chứng khoán nhà nước

Giá cổ phiếu trái phiếu
Chỉ số chứng khốn ngân hàng

Trái phiếu ngân hàng

Hình 1.1. Ví dụ văn bản cho mơ hình khơng gian vectơ
Ta có khơng gian vectơ:
V = (chỉ số, chứng khốn, cổ phiếu, giao dịch, giá, giá trị, ngân hàng, nhà nước,
sàn, trái phiếu).
Khi đó, ta có vectơ biểu diễn tương ứng cho từng văn bản như sau:
v1 = (0.176, 0, 0, 0.528, 0, 0.477, 0, 0, 0, 0)
v2 = (0, 0, 0.176, 0.176, 0, 0, 0.176, 0.477, 0.477, 0)
v3 = (0.176, 0, 0.176, 0, 0.477, 0, 0.352, 0, 0, 0.954)
Ví dụ trọng số của từ “chỉ số” trong văn bản 1 được tính như sau:
w11 = 1 * log(3/2) = 0.176
Với mục tiêu xác định độ tương tự giữa các văn bản, ta có thể dựa trên sự đồng
hiện của các thuật ngữ liên quan. Có khá nhiều độ đo khác nhau tính tốn độ tương tự
giữa các văn bản dựa trên sự đồng hiện của thuật ngữ hay vectơ văn bản. Tiêu biểu
nhất là độ đo cosine.
Định nghĩa 1.2: Độ đo tương tự giữa các văn bản
Độ tương tự giữa hai văn bản được tính bằng hệ số cosine [36] giữa hai vectơ biểu
diễn các văn bản và định nghĩa như sau:

sim(v1 , v2 ) 

v1  v2
v1 v2

11

(1. 2)



Trong đó: v1 và v2 là hai vectơ biểu diễn văn bản, dấu • thể hiện phép nhân vectơ
vơ hướng và ║ ║ là độ lớn của vectơ.
Mơ hình khơng gian vectơ đơn giản và sử dụng phổ biến trong các bài tốn phân
lớp, gom cụm, tìm kiếm, tóm tắt. Bên cạnh đó các hạn chế của mơ hình là: số chiều
không gian rất lớn (tương ứng với số lượng thuật ngữ lớn) và phải giả thiết các thuật
ngữ độc lập với nhau. Do số lượng thuật ngữ lớn, trong vectơ văn bản có nhiều giá trị
0. Hạn chế lớn nhất là mơ hình khơng gian vectơ chỉ tập trung vào tần suất xuất hiện
của thuật ngữ và bỏ qua thứ tự xuất hiện các thuật ngữ hay vị trí của thuật ngữ trong
văn bản.

1.3 Bài toán phân loại văn bản
Phân loại văn bản là nhiệm vụ gán các nhãn lớp đã xác định trước cho văn bản
mới, chưa phân loại [104]. Chẳng hạn ta xác định thể loại cho tin tức mới thuộc chủ
đề “thể thao”, “chính trị” hay “văn hóa”. Các nhãn lớp được xác định dựa trên tập văn
bản đã gán nhãn lớp và được gọi là tập huấn luyện.
Giả sử ta có tập văn bản huấn luyện D={d1, d2, …, dN} có gán nhãn lớp và tập các
lớp C={ C1, C2, …, CM}. Mỗi văn bản diD; 1 ≤ i ≤ N chỉ thuộc về một lớp CjC; 1 ≤
j ≤ M. Khi đó ta cần xây dựng mơ hình phân loại có thể xác định chính xác lớp cho
văn bản mới d.

f :D C

f (d )  C j

(1. 3)

Khá nhiều kỹ thuật phân lớp áp dụng vào bài toán phân loại văn bản như thuật
toán SVM [45], k – láng giềng gần nhất (K-NN) [64], cây quyết định [14], kỹ thuật
Linear Least Square Fit [103], mạng Nơron [96] và Naïve Bayes [17]. Các phương
pháp này đều sử dụng mơ hình biểu diễn văn bản là mơ hình khơng gian vectơ. Theo

các kết quả nghiên cứu [104], thuật toán SVM và k-NN là những thuật tốn phân loại
tốt nhất.
Trong mơ hình khơng gian vectơ, số chiều (đặc trưng) rất lớn vì nó tương ứng với
số thuật ngữ trong tập văn bản. Một số đặc trưng khơng đóng góp gì cho kết quả phân

12


lớp và cịn làm giảm độ chính xác. Vì vậy khi tiền xử lý văn bản, cần tiến hành bước
chọn lựa đặc trưng. Các phương pháp chọn lựa đặc trưng đều nhằm mục đích giảm
chiều dữ liệu và làm ảnh hưởng ít nhất đến các thơng tin biểu diễn bởi vectơ đặc
trưng. Có nhiều phương pháp chọn đặc trưng hiệu quả như [105]: DF- tần suất tài liệu,
IG - độ lợi thông tin, 2 và TS - độ mạnh của thuật ngữ.
Khi đánh giá chất lượng của mơ hình phân loại, người ta thường sử dụng bộ dữ
liệu thử nghiệm và so sánh kết quả gán nhãn của mơ hình phân lớp với các nhãn thực
tế của văn bản. Các chỉ số độ phủ (Recall), độ chính xác (Precision) và chỉ số cân
bằng giữa hai độ đo trên – F1 là các chỉ số thơng dụng đánh giá mơ hình phân lớp
[104] (xem thêm Phụ lục A).
Phần dưới đây sẽ trình bày chi tiết một số kỹ thuật phân loại văn bản phổ biến.
Thống kê và phân tích các phương pháp khác có thể xem thêm trong [84], [104].
1.3.1 Phương pháp k-láng giềng gần nhất (k-NN)
Phương pháp k-NN là phương pháp đơn giản, khơng cần q trình huấn luyện,
nhận dạng mẫu như các phương pháp khác [84]. Chính vì vậy mà người ta cịn xếp kNN vào nhóm thuật tốn phân loại “thụ động” để phân biệt với nhóm thuật tốn “tích
cực” như cây quyết định, Nạve Bayes, SVM. K-NN phân loại mẫu mới dựa trên k
láng giềng gần nhất của nó. Giả định rằng việc phân loại một mẫu là dựa trên những
mẫu khác tương tự với nó. Mỗi văn bản trong tập huấn luyện được biểu diễn bằng
vectơ đặc trưng. Ta có thể dùng tần suất xuất hiện của thuật ngữ trong văn bản như
đặc trưng.
Khi phân loại mẫu mới, vectơ đặc trưng tương ứng của nó được khởi tạo và so
sánh với vectơ đặc trưng của tất cả các mẫu trong tập huấn luyện. Độ đo tương tự

thường dùng là độ đo khoảng cách ví dụ như độ đo cosine (như trong công thức
(1. 2)). Chỉ những thuật ngữ xuất hiện trong cả văn bản mới và văn bản huấn luyện
mới được xem xét. Độ đo cosine này có giá trị lớn khi hai vectơ tương tự nhau. Giá
trị 1 cho biết rằng hai vectơ là đồng nhất với nhau, trong khi giá trị 0 cho biết hai
vectơ khơng có quan hệ với nhau.

13


Người ta chọn k mẫu huấn luyện có khoảng cách gần với mẫu mới nhất. Khi xác
định nhãn lớp cho mẫu mới ta có thể lấy nhãn lớp chiếm đại đa số trong k láng giềng
của nó. Muốn chọn được tham số k tốt nhất cho việc phân loại, ta phải thực hiện thử
nghiệm trên nhiều giá trị k khác nhau. Thông thường trên bộ dữ liệu văn bản tiếng
Anh, giá trị tốt nhất k được chọn từ 30 đến 45 (theo [104]).
Phương pháp k-NN có ưu điểm huấn luyện rất nhanh, không làm mất thông tin.
Một số nghiên cứu cho thấy k-NN là một trong những phương pháp phân loại văn
bản tốt nhất [45]. Kết quả phân loại theo độ đo F1 trên bộ dữ liệu tiếng Anh (Reuters)
là 0.856 [84]. Ngồi ra, k-NN ít bị ảnh hưởng bởi dữ liệu nhiễu.
Hạn chế của hướng tiếp cận này là không gian đặc trưng lớn. Vấn đề sẽ nảy sinh
khi kích thước của tập huấn luyện tăng lên. Trong phương pháp k-NN, chi phí cho
việc phân lớp mẫu khá tốn kém do cần phải tính độ tương tự văn bản với tất cả các
văn bản trong tập huấn luyện. Do đó, những kỹ thuật lập chỉ mục hiệu quả các mẫu
lúc huấn luyện là nhu cầu thực tế và quan trọng nhằm rút ngắn thời gian tính tốn lúc
phân loại mẫu mới.
Hạn chế thứ hai là k-NN dễ bị ảnh hưởng bởi những thuộc tính khơng liên quan.
Khi xây dựng vectơ đặc trưng, ta thường xem xét tất cả thuộc tính của mẫu và từ đó
rút ra những mẫu tương tự từ tập huấn luyện. Nếu đặc trưng phân loại mẫu chỉ phụ
thuộc vào một ít trong số nhiều thuộc tính sẵn có của các mẫu thì những mẫu thật sự
“tương tự” nhất có thể rất cách xa nhau. Một số mở rộng của phương pháp này được
trình bày trong [84].

1.3.2 Phương pháp Naïve Bayes
Phương pháp Naïve Bayes sử dụng định luật Bayes xác định xác suất mẫu mới
rơi vào lớp nào đó. Phương pháp này dựa vào xác suất có điều kiện giữa thuật ngữ
xuất hiện trong văn bản mới với lớp (lớp có thể là chủ đề của văn bản như „thể
thao”, „văn hóa”, …) để dự đốn lớp của văn bản này. Điểm quan trọng của phương
pháp Naïve Bayes là ở giả thiết rằng sự xuất hiện của tất cả các thuật ngữ trong văn
bản đều độc lập với nhau.

14


×