Gom cụm mờ tài liệu theo thực thể có tên và từ khóa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.14 MB, 137 trang )

Lời cảm ơn

Tơi xin bày tỏ lịng biết ơn chân thành đến Thầy PGS.TS. Cao Hồng Trụ. Thầy đã
tận tình hướng dẫn, định hướng tôi từ cách đặt vấn đề, phương pháp nghiên cứu
khoa học đến những công việc cụ thể trong luận án này.
Xin chân thành cảm ơn tất cả quý Thầy Cô trong Khoa Khoa học và Kỹ thuật
máy tính đã tận tình truyền đạt những kiến thức q báu cho tơi trong suốt q
trình học tập.
Xin cảm ơn quý Thầy Cô, anh chị và các bạn đồng nghiệp Trường Đại học
Công Nghệ Thông Tin đã động viên, giúp đỡ và tạo mọi điều kiện cho tôi trong
quá trình thực hiện luận án.
Xin cảm ơn cha mẹ, anh chị, tất cả những người thân, bạn bè đã động viên,
khuyến khích và giúp đỡ tơi trong q trình học tập cũng như trong cuộc sống.

i

Tóm tắt

Ngơn ngữ tự nhiên ln chứa đựng nhiều hàm ý. Sự mơ hồ và nhập nhằng về
nghĩa không thể được xử lý tốt khi văn bản chỉ được xác định thơng qua từ khóa.
Một giải pháp cho vấn đề này là hiểu rõ ngữ nghĩa của văn bản, mà một phần ngữ
nghĩa văn bản lại được xác định bởi thực thể có tên và các mối quan hệ giữa
chúng. Vì vậy, cần kết hợp cả thực thể có tên và từ khóa vào khai thác ngữ nghĩa
văn bản. Luận án này đề xuất kết hợp các mơ hình khai thác cả thực thể có tên và
từ khóa vào gom cụm mờ tài liệu. Các mơ hình này mở rộng mơ hình khơng gian
vectơ truyền thống, với việc khai thác các đặc trưng của thực thể có tên, cụ thể là
tên, lớp và danh hiệu. Đồng thời, với việc kết hợp với từ khóa, chất lượng gom
cụm mờ của các mơ hình khơng bị ảnh hưởng khi ontology và cơ sở tri thức chưa
hồn thiện, hay khi tài liệu khơng chứa thực thể có tên. Kết quả thực nghiệm cho
thấy chất lượng gom cụm mờ của các mơ hình kết hợp đều tốt hơn mơ hình gom

cụm mờ tài liệu theo từ khóa hay theo thực thể có tên trên các tập tài liệu có cả từ
khóa và thực thể có tên đóng góp ngữ nghĩa. Vì vậy, các mơ hình này có thể xem
là cơ sở cho các nghiên cứu tiếp theo để tiếp tục nâng cao chất lượng gom cụm mờ
tài liệu.

ii

Abstract

Especially the vagueness and ambiguity of natural languages are handled
inadequately by keyword-based processing. A solution for these problems is to
understand the semantics of the texts, a basic part of which is determined by
named entities and their relations. Hence, a particular concern here is the exploring
combinations of ontological features and keywords for text retrieval. This thesis
proposes that combine the models exploring named entities with keywords into
fuzzy document clustering. The models are based on an adaptation of the
traditional Vector Space Model with an extension of named entity indexing, taking
into account three features of names entities, namely, names, classes and
identifiers. The models also achieve tolerance to knowledge base incompleteness
by taking advantage of keyword-based retrieval features. Experiments show better
quality of the proposed models as compared to the fuzzy keyword-based document
clustering model and fuzzy named entity-based document clustering model on the
datasets contain both named entities and keywords. Thus the models provide
grounds for further research and enhancement of fuzzy document clustering
quality.

iii

Mục lục

Lời cảm ơn ................................................................................................................i
Tóm tắt .....................................................................................................................ii
Abstract ...................................................................................................................iii
Mục lục ....................................................................................................................iv
Danh mục hình ........................................................................................................v
Danh mục bảng......................................................................................................vii
Chương 1: Tổng quan .............................................................................................1
1.1

Phát biểu vấn đề .........................................................................................1

1.2

Các cơng trình liên quan.............................................................................4

Chương 2: Cơ sở lý thuyết......................................................................................8
2.1

Gom cụm mờ tài liệu..................................................................................8

2.2

Mơ hình khơng gian vectơ........................................................................15

2.3

Phương pháp đánh giá chất lượng............................................................22

Chương 3: Thực nghiệm và đánh giá..................................................................29
3.1

Phương pháp thực nghiệm........................................................................29

3.2

Xây dựng tập kiểm thử .............................................................................32

3.3

Thiết kế và hiện thực hệ thống .................................................................35

3.4

Kết quả thực nghiệm ................................................................................42

3.5

Nhận xét kết quả.......................................................................................93

Chương 4: Tổng kết ..............................................................................................96
4.1

Đóng góp của luận án...............................................................................97

4.2

Hướng phát triển.......................................................................................98

Phụ lục A: Phân tích tập Reuters-21578...........................................................100
Phụ lục B: Số liệu thực nghiệm..........................................................................106
Tài liệu tham khảo ..............................................................................................124

iv

Danh mục hình

Hình 2.1

Các giai đoạn của quá trình gom cụm tổng qt ...................................9

Hình 2.2

Hai phân hoạch mờ có cùng khoảng cách giữa các trung tâm cụm ....24

Hình 3.1

Phương pháp thực nghiệm ...................................................................30

Hình 3.2

Kiến trúc hệ thống ...............................................................................36

Hình 3.3

PE trung bình theo α (Reuters500, m = 2) .........................................43

Hình 3.4

Số lần tối ưu theo α (Reuters500, PE, m = 2) ....................................45

Hình 3.5

PE trung bình theo số lần tối ưu (Reuters500, m = 2) .........................45

Hình 3.6

XB trung bình theo α (Reuters500, m = 2) .........................................47

Hình 3.7

Số lần tối ưu theo α (Reuters500, XB, m = 2) ....................................48

Hình 3.8

XB trung bình theo số lần tối ưu (Reuters500, m = 2) .........................48

Hình 3.9

FVI trung bình theo α (Reuters500, m = 2)........................................50

Hình 3.10 Số lần tối ưu theo α (Reuters500, FVI, m = 2)...................................51
Hình 3.11 FVI trung bình theo số lần tối ưu (Reuters500, m = 2)........................52
Hình 3.12 F-measure trung bình theo α (Reuters500, m = 2).............................53
Hình 3.13 Số lần tối ưu theo α (Reuters500, F-measure, m = 2)........................54
Hình 3.14 F-measure trung bình theo số lần tối ưu (Reuters500, m = 2) ............55
Hình 3.15 PE trung bình theo α (Reuters500, m = 1.1) ......................................56
Hình 3.16 Số lần tối ưu theo α (Reuters500, PE, m = 1.1) .................................57

Hình 3.17 PE trung bình theo số lần tối ưu (Reuters500, m = 1.1) ......................58
Hình 3.18 XB trung bình theo α (Reuters500, m = 1.1) ......................................59
Hình 3.19 Số lần tối ưu theo α (Reuters500, XB, m = 1.1) .................................60
Hình 3.20 XB trung bình theo số lần tối ưu (Reuters500, m = 1.1) ......................61
Hình 3.21 FVI trung bình theo α (Reuters500, m = 1.1).....................................62
Hình 3.22 Số lần tối ưu theo α (Reuters500, FVI, m = 1.1)................................63

v

Hình 3.23 FVI trung bình theo số lần tối ưu (Reuters500, m = 1.1).....................64
Hình 3.24 F-measure trung bình theo α (Reuters500, m = 1.1)..........................65
Hình 3.25 Số lần tối ưu theo α (Reuters500, F-measure, m = 1.1).....................66
Hình 3.26 F-measure trung bình theo số lần tối ưu (Reuters500, m = 1.1) .........67
Hình 3.27 PE trung bình theo α (Reuters350, m = 2) .........................................69
Hình 3.28 Số lần tối ưu theo α (Reuters350, PE, m = 2) ....................................70
Hình 3.29 PE trung bình theo số lần tối ưu (Reuters350, m = 2) .........................70
Hình 3.30 XB trung bình theo α (Reuters350, m = 2) .........................................72
Hình 3.31 Số lần tối ưu theo α (Reuters350, XB, m = 2) ....................................73
Hình 3.32 XB trung bình theo số lần tối ưu (Reuters350, m = 2) .........................73
Hình 3.33 FVI trung bình theo α (Reuters350, m = 2)........................................75
Hình 3.34 Số lần tối ưu theo α (Reuters350, FVI, m = 2)...................................76
Hình 3.35 FVI trung bình theo số lần tối ưu (Reuters350, m = 2)........................76
Hình 3.36 F-measure trung bình theo α (Reuters350, m = 2).............................78
Hình 3.37 Số lần tối ưu theo α (Reuters350, F-measure, m = 2)........................79
Hình 3.38 F-measure trung bình theo số lần tối ưu (Reuters350, m = 2) ............80
Hình 3.39 PE trung bình theo α (Reuters350, m = 1.1) ......................................81
Hình 3.40 Số lần tối ưu theo α (Reuters350, PE, m = 1.1) .................................82
Hình 3.41 PE trung bình theo số lần tối ưu (Reuters350, m = 1.1) ......................83
Hình 3.42 XB trung bình theo α (Reuters350, m = 1.1) ......................................84

Hình 3.43 Số lần tối ưu theo α (Reuters350, XB, m = 1.1) .................................85
Hình 3.44 XB trung bình theo số lần tối ưu (Reuters350, m = 1.1) ......................86
Hình 3.45 FVI trung bình theo α (Reuters350, m = 1.1).....................................87
Hình 3.46 Số lần tối ưu theo α (Reuters500, FVI, m = 1.1)................................88
Hình 3.47 FVI trung bình theo số lần tối ưu (Reuters500, m = 1.1).....................89
Hình 3.48 F-measure trung bình theo α (Reuters350, m = 1.1).........................90
Hình 3.49 Số lần tối ưu theo α (Reuters350, F-measure, m = 1.1).....................92
Hình 3.50 F-measure trung bình theo số lần tối ưu (Reuters350, m = 1.1) .........92
Hình A.1

Cấu trúc thẻ của một tài liệu trong tập Reuters-21578 ......................103

vi

Danh mục bảng

Bảng 2.1

Thuật toán FCM...................................................................................12

Bảng 3.1

Các API tách file từ tập Reuters-21578...............................................33

Bảng 3.2

Cấu trúc tập kiểm thử Reuters500 .......................................................34

Bảng 3.3

Cấu trúc tập kiểm thử Reuters350 .......................................................35

Bảng 3.4

Các API cơ bản của S-Lucene được sử dụng để tạo vectơ tài liệu......40

Bảng 3.5

PE trung bình theo α (Reuters500, m = 2) .........................................43

Bảng 3.6

Số lần tối ưu theo α (Reuters500, PE, m = 2) ....................................44

Bảng 3.7

PE trung bình theo số lần tối ưu (Reuters500, m = 2) .........................44

Bảng 3.8

XB trung bình theo α (Reuters500, m = 2) .........................................46

Bảng 3.9

Số lần tối ưu theo α (Reuters500, XB, m = 2) ....................................47

Bảng 3.10 XB trung bình theo số lần tối ưu (Reuters500, m = 2) .........................47
Bảng 3.11 FVI trung bình theo α (Reuters500, m = 2)........................................49
Bảng 3.12 Số lần tối ưu theo α (Reuters500, FVI, m = 2)...................................51

Bảng 3.13 FVI trung bình theo số lần tối ưu (Reuters500, m = 2)........................51
Bảng 3.14 F-measure trung bình theo α (Reuters500, m = 2).............................53
Bảng 3.15 Số lần tối ưu theo α (Reuters500, F-measure, m = 2)........................54
Bảng 3.16 F-measure trung bình theo số lần tối ưu (Reuters500, m = 2) ............54
Bảng 3.17 PE trung bình theo α (Reuters500, m = 1.1) ......................................56
Bảng 3.18 Số lần tối ưu theo α (Reuters500, PE, m = 1.1) .................................57
Bảng 3.19 PE trung bình theo số lần tối ưu (Reuters500, m = 1.1) ......................57
Bảng 3.20 XB trung bình theo α (Reuters500, m = 1.1) ......................................59
Bảng 3.21 Số lần tối ưu theo α (Reuters500, XB, m = 1.1) .................................60
Bảng 3.22 XB trung bình theo số lần tối ưu (Reuters500, m = 1.1) ......................60
Bảng 3.23 FVI trung bình theo α (Reuters500, m = 1.1).....................................62

vii

Bảng 3.24 Số lần tối ưu theo α (Reuters500, FVI, m = 1.1)................................63
Bảng 3.25 FVI trung bình theo số lần tối ưu (Reuters500, m = 1.1).....................63
Bảng 3.26 F-measure trung bình theo α (Reuters500, m = 1.1)..........................65
Bảng 3.27 Số lần tối ưu theo α (Reuters500, F-measure, m = 1.1).....................66
Bảng 3.28 F-measure trung bình theo số lần tối ưu (Reuters500, m = 1.1) .........66
Bảng 3.29 PE trung bình theo α (Reuters350, m = 2) .........................................68
Bảng 3.30 Số lần tối ưu theo α (Reuters350, PE, m = 2) ....................................69
Bảng 3.31 PE trung bình theo số lần tối ưu (Reuters350, m = 2) .........................70
Bảng 3.32 XB trung bình theo α (Reuters350, m = 2) .........................................71
Bảng 3.33 Số lần tối ưu theo α (Reuters350, XB, m = 2) ....................................72
Bảng 3.34 XB trung bình theo số lần tối ưu (Reuters350, m = 2) .........................72
Bảng 3.35 FVI trung bình theo α (Reuters350, m = 2)........................................74
Bảng 3.36 Số lần tối ưu theo α (Reuters350, FVI, m = 2)...................................75
Bảng 3.37 FVI trung bình theo số lần tối ưu (Reuters350, m = 2)........................76
Bảng 3.38 F-measure trung bình theo α (Reuters350, m = 2).............................77

Bảng 3.39 Số lần tối ưu theo α (Reuters350, F-measure, m = 2)........................79
Bảng 3.40 F-measure trung bình theo số lần tối ưu (Reuters350, m = 2) ............79
Bảng 3.41 PE trung bình theo α (Reuters350, m = 1.1) ......................................81
Bảng 3.42 Số lần tối ưu theo α (Reuters350, PE, m = 1.1) .................................82
Bảng 3.43 PE trung bình theo số lần tối ưu (Reuters350, m = 1.1) ......................82
Bảng 3.44 XB trung bình theo α (Reuters350, m = 1.1) ......................................84
Bảng 3.45 Số lần tối ưu theo α (Reuters350, XB, m = 1.1) .................................85
Bảng 3.46 XB trung bình theo số lần tối ưu (Reuters350, m = 1.1) ......................85
Bảng 3.47 FVI trung bình theo α (Reuters350, m = 1.1).....................................87
Bảng 3.48 Số lần tối ưu theo α (Reuters350, FVI, m = 1.1)................................88
Bảng 3.49 FVI trung bình theo số lần tối ưu (Reuters350, m = 1.1).....................88
Bảng 3.50 F-measure trung bình theo α (Reuters350, m = 1.1)..........................90
Bảng 3.51 Số lần tối ưu theo α (Reuters350, F-measure, m = 1.1).....................91
Bảng 3.52 F-measure trung bình theo số lần tối ưu (Reuters350, m = 1.1) .........91

viii

Bảng A.1

Số lượng phân loại của tập Reuters-21578........................................104

Bảng A.2

Số lượng tài liệu theo chủ đề của tập Reuters-21578 ........................105

Bảng A.3

Số lượng tài liệu theo lớp thực thể của tập Reuters-21578 ...............105

Bảng B.1

Giá trị PE theo c, α (Reuters500, VSM_OVL, m = 2).....................106

Bảng B.2

Giá trị PE theo c, α (Reuters500, VSM_NOVL, m = 2)..................107

Bảng B.3

Giá trị XB theo c, α (Reuters500, VSM_OVL, m = 2).....................107

Bảng B.4

Giá trị XB theo c, α (Reuters500, VSM_NOVL, m = 2)..................108

Bảng B.5

Giá trị FVI theo c, α (Reuters500, VSM_OVL, m = 2) ...................108

Bảng B.6

Giá trị FVI theo c, α (Reuters500, VSM_NOVL, m = 2) ................109

Bảng B.7

Giá trị F-measure theo c, α (Reuters500, VSM_OVL, m = 2) ........109

Bảng B.8

Giá trị F-measure theo c, α (Reuters500, VSM_NOVL, m = 2) .....110

Bảng B.9

Giá trị PE theo c, α (Reuters500, VSM_OVL, m = 1.1)..................111

Bảng B.10 Giá trị PE theo c, α (Reuters500, VSM_NOVL, m = 1.1)...............111
Bảng B.11 Giá trị XB theo c, α (Reuters500, VSM_OVL, m = 1.1)..................112
Bảng B.12 Giá trị XB theo c, α (Reuters500, VSM_NOVL, m = 1.1)...............112
Bảng B.13 Giá trị FVI theo c, α (Reuters500, VSM_OVL, m = 1.1) ................113
Bảng B.14 Giá trị FVI theo c, α (Reuters500, VSM_NOVL, m = 1.1) ............113
Bảng B.15 Giá trị F-measure theo c, α (Reuters500, VSM_OVL, m = 1.1) .....114
Bảng B.16 Giá trị F-measure theo c, α (Reuters500, VSM_NOVL, m = 1.1) ..114
Bảng B.17 Giá trị PE theo c, α (Reuters350, VSM_OVL, m = 2).....................115
Bảng B.18 Giá trị PE theo c, α (Reuters350, VSM_NOVL, m = 2)..................116
Bảng B.19 Giá trị XB theo c, α (Reuters350, VSM_OVL, m = 2).....................116
Bảng B.20 Giá trị XB theo c, α (Reuters350, VSM_NOVL, m = 2)..................117
Bảng B.21 Giá trị FVI theo c, α (Reuters350, VSM_OVL, m = 2) ...................117
Bảng B.22 Giá trị FVI theo c, α (Reuters350, VSM_NOVL, m = 2) ................118
Bảng B.23 Giá trị F-measure theo c, α (Reuters350, VSM_OVL, m = 2) ........118
Bảng B.24 Giá trị F-measure theo c, α (Reuters350, VSM_NOVL, m = 2) .....119
Bảng B.25 Giá trị PE theo c, α (Reuters350, VSM_OVL, m = 1.1)..................120
Bảng B.26 Giá trị PE theo c, α (Reuters350, VSM_NOVL, m = 1.1)...............120

ix

Bảng B.27 Giá trị XB theo c, α (Reuters350, VSM_OVL, m = 1.1)..................121
Bảng B.28 Giá trị XB theo c, α (Reuters350, VSM_NOVL, m =1.1)................121
Bảng B.29 Giá trị FVI theo c, α (Reuters350, VSM_OVL, m =1.1) .................122

Bảng B.30 Giá trị FVI theo c, α (Reuters350, VSM_NOVL, m = 1.1) ............122
Bảng B.31 Giá trị F-measure theo c, α (Reuters350, VSM_OVL, m = 1.1) .....123
Bảng B.32 Giá trị F-measure theo c, α (Reuters350, VSM_NOVL, m = 1.1) ..123

x

Chương 1:

Tổng quan

[1-32]

1.1 Phát biểu vấn đề
Trong thời đại công nghệ hiện nay, khi World Wide Web (Web) phát triển khơng
ngừng và nhanh chóng, Internet trở thành nơi lưu trữ nguồn tài nguyên thông tin
khổng lồ của nhân loại. Để khai thác hiệu quả nguồn tài nguyên này, các công cụ
tìm kiếm và quản trị các tài liệu Web hiệu quả là vơ cùng cần thiết.
Các cơng cụ tìm kiếm hiện tại như Google1, Yahoo2, v.v… khá hữu hiệu để tìm
kiếm các tài liệu chứa các từ khóa nào đó. Một trong những cách giúp người dùng
nhận ra tài liệu họ cần tìm nhanh chóng là phân loại các tài liệu theo nhóm với chủ
đề của chúng. Phần lớn các hệ thống hiện tại còn thiếu vấn đề phân loại kết quả trả
về này. Nhiều nghiên cứu đã được tiến hành để nhóm các tài liệu trả về trong các
nhóm có liên quan về ngữ nghĩa. Một số cơng cụ tìm kiếm mới như Vivisimo3 thực
hiện gom cụm kết quả truy hồi. Nhờ khả năng gom các cụm đại diện nên các công
cụ này trở nên khá phổ biến. Tuy nhiên, các hệ thống này vẫn dựa trên từ khóa.
Tìm kiếm và gom cụm dựa trên từ khóa có những giới hạn nhất định vì ngữ
nghĩa của tài liệu bị mất đi nhiều khi văn bản được biểu diễn dưới dạng một tập
các từ khóa. Do đó, khơng có gì lạ khi có nhiều tài liệu trong cụm khơng liên quan
gì đến chủ đề của cụm.

1

www.google.com
www.yahoo.com
3
www.vivisimo.com
2

1

Để khắc phục nhược điểm của mơ hình xử lý theo từ khóa, bắt đầu từ khoảng
cuối thập niên 90, cùng với sự ra đời và phát triển của Web ngữ nghĩa (Semantic
Web [26]), ontology và cơ sở tri thức (Knowledge Base – KB) bắt đầu được sử
dụng rộng rãi trong các nghiên cứu phát triển hệ thống xử lý thơng tin có ngữ
nghĩa.
Ontology là một đặc tả cụ thể, rõ ràng của sự khái niệm hóa ([27]). Một cách
đơn giản, ontology là siêu kiến thức đặc tả cái tồn tại, còn cơ sở tri thức là kiến
thức cụ thể ta biết. Ý tưởng cơ bản của Web ngữ nghĩa là việc nhúng ngữ nghĩa
vào trang Web thô, để máy tính có thể hiểu, xử lý và tìm kiếm theo ngữ nghĩa văn
bản. Trong đó, ontology và cơ sở tri thức được xem như là nền tảng tri thức cho
quá trình này. Thực thể có tên (Named Entity – NE) là một trong những đối tượng
chính được đặc tả trong ontology, và là tri thức của hệ thống lưu trữ thơng tin.
Thực thể có tên là con người, tổ chức, nơi chốn, và các đối tượng khác được
tham khảo thông qua tên ([19]). Một thực thể có tên được biểu diễn bởi bộ ba lớp, danh hiệu>. Trong đó, danh hiệu xác định duy nhất một thực thể có tên. Các
thực thể có tên khác nhau có thể có cùng tên, hoặc cùng lớp. Thực thể có tên đóng
một vai trò quan trọng về mặt ngữ nghĩa của tài liệu. Trong một chừng mực nào
đó, các thực thể có tên và các mối quan hệ của chúng tạo thành ngữ nghĩa chính

của một tài liệu.
Khai thác ngữ nghĩa của văn bản sẽ chính xác và hiệu quả hơn khi tài liệu
được chú thích thơng tin ngữ nghĩa cho các thực thể có tên xuất hiện trong nó. Ví
dụ, đối với một tài liệu chứa thông tin về “thành phố Sài Gòn”, kết quả của một hệ
thống gom cụm dựa trên từ khóa có thể sẽ gom các tài liệu như chứa các thơng tin
như sơng Sài Gịn, bệnh viện Sài Gịn, ngân hàng Sài Gịn Cơng Thương, v.v... vào
cùng một cụm. Trong khi đó, nếu xét thực thể có tên thành phố Sài Gịn, các thơng
tin nhiễu của các đối tượng khác sẽ được loại bỏ, ngoài ra hệ thống cịn có thể gom
các tài liệu về thành phố Hồ Chí Minh, là một tên khác của thành phố Sài Gòn.

2

Khai thác ngữ nghĩa của văn bản thông qua NE và các mối quan hệ giữa chúng
đã đạt được các kết quả nhất định.
Tuy nhiên, nếu chỉ tập trung khai thác NE mà bỏ qua từ khóa, đặc biệt là các
từ khóa nói về những cái trừu tượng như là khái niệm, định nghĩa, các mối quan
hệ, thuộc tính, v.v… ngữ nghĩa của tài liệu sẽ không được mô tả trọn vẹn. Chẳng
hạn trong tài liệu chứa thông tin về “bão tại Quảng Nam”, nếu chỉ xem xét các NE,
ta chỉ có được NE là Quảng Nam, và bỏ qua thơng tin quan trọng của từ khóa bão.
Hơn nữa, trong nhiều trường hợp, tài liệu xem xét khơng có chứa NE nào. Đối với
các tài liệu dạng này, rõ ràng, chỉ sử dụng NE là khơng hiệu quả.
Ngồi ra, vấn đề là cần phải có một ontology và cơ sở tri thức tốt. Đây là một
thách thức vì hiện nay việc xây dựng ontology và cơ sở tri thức đều chủ yếu bằng
tay hoặc bán tự động.
Tóm lại, ngữ nghĩa của văn bản thể hiện trọn vẹn và đầy đủ khi xem xét cả từ
khóa và NE xuất hiện trong văn bản. Các nghiên cứu [4], [6] khai thác theo hướng
tiếp cận này, kết hợp thông tin trong ontology và các từ khóa, đã đem lại các kết
quả khả quan. Thực nghiệm cho thấy, hướng tiếp cận gom cụm tài liệu dựa trên
việc kết hợp giữa NE và từ khóa là một hướng tiếp cận đúng đắn.

Với các mơ hình gom cụm truyền thống (gom cụm cứng – hard clustering),
mỗi tài liệu được gom vào một nhóm. Tuy nhiên, trên thực tế, có nhiều tài liệu
đồng thời đề cập tới nhiều chủ đề, tức là mỗi tài liệu có thể thuộc về nhiều nhóm.
Việc gắn cứng mỗi tài liệu vào một nhóm có thể làm mất đi nhiều thơng tin. Nhiều
nghiên cứu đã được tiến hành để gom cụm mờ (fuzzy clustering) các tài liệu thuộc
về nhiều nhóm như vậy. Lý thuyết tập mờ được áp dụng cho lĩnh vực Web ngữ
nghĩa để biểu diễn tri thức. Phân tích các khái niệm mờ và gom cụm mờ được ứng
dụng để xử lý vấn đề. Nhiều nghiên cứu tiến hành gom cụm mờ tài liệu theo từ
khóa ([15], [24], [29], v.v…). Để nâng cao chất lượng về độ chính xác ngữ nghĩa,
một số nghiên cứu tiến hành gom cụm mờ tài liệu dựa trên ontology và KB ([3],

3

[7], v.v…). Nhưng, như ta đã thấy, chỉ dựa trên NE hay từ khóa để khai thác ngữ
nghĩa của tài liệu cũng có những hạn chế nhất định, một số trường hợp không thể
thể hiện trọn vẹn ngữ nghĩa của tài liệu. Thực hiện gom cụm mờ tài liệu, kết hợp
cả NE và từ khóa vào khai thác ngữ nghĩa là thật sự cần thiết.

1.2 Các cơng trình liên quan
Với khối lượng thông tin khổng lồ từ Internet, nhằm tăng cường hiệu quả của việc
tìm kiếm dữ liệu, một số cơng cụ tìm kiếm thực hiện đánh chỉ mục để người dùng
dễ dàng tìm thấy tài liệu họ cần. Có thể kể đến những cơng cụ tìm kiếm và đánh
chỉ mục nổi tiếng như Lycos4, AltaVista5, WebCrawler6, v.v...
Một số công cụ tìm kiếm mới, thực hiện gom cụm kết quả truy hồi. Cơng cụ
tìm kiếm thực hiện gom cụm kết quả truy hồi phổ biến hiện nay có thể kể đến là
Vivisimo, Clusty7, dự án mã nguồn mở Carrot8 (phiên bản thương mại là
Lingo3G), v.v... Các cơng cụ này nhóm các tài liệu kết quả trong các nhóm liên
quan về ngữ nghĩa, biểu diễn dưới dạng cây phân cấp, người dùng dễ dàng tìm
thấy kết quả họ mong đợi hơn so với Google, Yahoo, v.v… Nhờ thuận tiện của

việc gom cụm kết quả truy hồi mà các công cụ này trở nên khá phổ biến. Các công
cụ này khá hữu hiệu để tìm kiếm các tài liệu chứa các từ khóa nào đó. Thành tựu
của các hệ thống này là trình tìm kiếm có hiện thực gom cụm tài liệu. Tuy nhiên,
các hệ thống này đều dựa trên từ khóa mà từ khóa khơng thể thể hiện được trọn
vẹn ngữ nghĩa của tài liệu, đơn giản vì chúng chỉ chuyển tài liệu thành một tập các

4

www.lycos.com
www.altavista.com
6
www.webcrawler.com
7
www.clusty.com
8
www.carrot2.org
5

4

từ khóa, do đó chất lượng gom cụm của các hệ thống này chỉ đạt được những
thành tựu nhất định.
Để tăng cường chất lượng gom cụm, nhiều nghiên cứu chú thích tài liệu với
các thơng tin ngữ nghĩa, cụ thể hơn đó là việc bổ sung thơng tin ngữ nghĩa cho tài
liệu bằng cách xác định các NE được định nghĩa trong ontology và KB. [10] thực
hiện gom cụm tài liệu với các thông tin về ngữ nghĩa của NE và đã đạt được kết
quả khả quan. Tuy nhiên, chỉ dựa trên thực thể có tên mà bỏ qua từ khóa cũng gặp
các hạn chế nhất định, khơng khai thác trọn vẹn ngữ nghĩa của tài liệu trong các
trường hợp ontology và cơ sở tri thức chưa tốt, các từ khóa chỉ các khái niệm,

v.v…
[6] thực hiện gom cụm tài liệu theo NE và từ khóa, kết hợp cả NE và từ khóa
và vào để xét ngữ nghĩa của tài liệu. Việc kết hợp này cho kết quả tốt hơn chỉ xét
ngữ nghĩa của tài liệu thơng qua từ khóa hay NE. Tuy nhiên, [6] chưa thực hiện
gom cụm mờ tài liệu trên các mơ hình này.
Trong các nghiên cứu về gom cụm mờ tài liệu, nhiều nghiên cứu tiến hành để
khai thác thông tin ngữ nghĩa tài liệu theo các hướng khác nhau.
Một trong các hướng nghiên cứu là khai thác ngữ nghĩa tài liệu dựa trên từ
khóa. Các nghiên cứu này tập trung vào các lĩnh vực cải tiến các thuật toán gom
cụm mờ dành cho tài liệu, xử lý vấn đề tập dữ liệu lớn, tìm độ đo tốt để cải tiến
chất lượng gom cụm, v.v... [15], [24], [23] cải tiến thuật toán gom cụm mờ tài liệu
để đạt chất lượng tốt hơn; [29], [22], [13] xử lý vấn đề trên tập tài liệu lớn; [16]
phát triển thuật toán gom cụm phân cấp cho gom cụm mờ tài liệu; [21] thực hiện
gom cụm mờ đa nhãn, v.v… Các nghiên cứu này vẫn dựa trên từ khóa để khai thác
ngữ nghĩa của tài liệu. Nhưng, như ta đã biết, sử dụng từ khóa khơng thể thể hiện
trọn vẹn ngữ nghĩa của tài liệu.
Để nâng cao tính chính xác về ngữ nghĩa của tài liệu trong gom cụm mờ,
hướng tiếp cận khác khai thác ngữ nghĩa của tài liệu thông qua các NE được định

5

nghĩa trong ontology và KB. [7] thực hiện gom cụm mờ tài liệu theo NE. Tuy
nhiên, [7] vẫn chưa khai thác hết các đặc trưng của NE, cụ thể là tên, lớp và danh
hiệu.
[3] thực hiện gom cụm mờ tài liệu theo NE, chuyển khơng gian vectơ theo từ
khóa truyền thống thành khơng gian vectơ theo NE, tính tốn độ tương tự trên
không gian NE này. Kết quả thực nghiệm cho thấy quá trình gom cụm mờ tài liệu
với các thông tin về ngữ nghĩa cho kết quả tốt hơn.
Một hướng tiếp cận khác để cải thiện tính chính xác trong khai thác ngữ nghĩa

tài liệu, đặc biệt là các tài liệu có thể chứa các thơng tin mang tính mờ, lý thuyết
tập mờ và logic mờ được áp dụng để biểu diễn tri thức. Khái niệm mờ được dùng
để phát triển OWL (Web Ontology Language) ([28]). [20] dựa trên phân tích khái
niệm mờ và gom cụm mờ để sinh ra ontology cho các dữ liệu mang tính khơng
chắc chắn.
Tuy nhiên, như đã đề cập ở trên, chỉ sử dụng NE để khai thác ngữ nghĩa tài
liệu cũng có những giới hạn nhất định, đặc biệt là để xây dựng một ontology và cơ
sở tri thức đầy đủ về các NE là một vấn đề khó khăn.
Trong các hướng tiếp cận gom cụm mờ tài liệu, các nghiên cứu vẫn chưa khai
thác ngữ nghĩa của tài liệu trên cả hai đặc tính từ khóa và NE. Vì vậy, để nâng cao
chất lượng gom cụm mờ tài liệu, chúng tôi đề xuất kết hợp gom cụm mờ tài liệu
theo NE và từ khóa. Trong phạm vi của luận án, chúng tơi khơng tìm thuật tốn
hay độ đo tốt nhất cho phương pháp gom cụm mờ tài liệu. Mà chúng tôi sẽ khảo
sát các mơ hình để minh họa cho các ưu điểm của việc gom cụm mờ tài liệu theo
NE kết hợp với từ khóa, kiểm chứng, đánh giá các mơ hình thơng qua thực
nghiệm.

6

Luận án bao gồm 4 chương. Nội dung của các chương như sau:
Chương 1 giới thiệu tổng quan về luận án, các cơng trình liên quan và động
lực thúc đẩy thực hiện luận án.
Chương 2 trình bày về cơ sở lý thuyết cho gom cụm mờ tài liệu theo NE và từ
khóa. Chương này bao gồm trình bày về q trình gom cụm mờ tài liệu; phương
pháp biểu diễn tài liệu theo mơ hình khơng gian vectơ (Vector Space Model VSM); phần cuối cùng là trình bày về các phương pháp đánh giá chất lượng gom
cụm mờ.
Chương 3 khảo sát các phương pháp thực nghiệm để kiểm chứng các mô hình
kết hợp giữa NE và từ khóa đề xuất ở phần lý thuyết. Phần tiếp theo đó, chúng tơi
trình bày quá trình xây dựng tập tài liệu kiểm thử, quá trình thiết kế và xây dựng

hệ thống phục vụ cho thực nghiệm. Sau cùng, chúng tơi trình bày q trình tiến
hành thực nghiệm và các kết quả. Từ đó, đưa ra nhận xét, đánh giá về các mơ hình.
Chương 4 tổng kết các công việc đã thực hiện và thảo luận về các hướng phát
triển.

7

Chương 2:

Cơ sở lý thuyết

Gom cụm tài liệu là quá trình phân loại các tập tài liệu thành các nhóm dựa vào độ
tương tự giữa các mẫu. Việc gom cụm phụ thuộc vào phương pháp biểu diễn dữ
liệu, phương pháp đo độ tương tự giữa các mẫu và phương pháp thực hiện gom
cụm. Các phương pháp khác nhau sẽ hình thành nên các mơ hình gom cụm khác
nhau.
Dưới đây, chúng tơi trình bày về q trình gom cụm mờ tài liệu. Phần tiếp theo
sau đó, chúng tơi trình bày về các mơ hình khơng gian vectơ. Đây là mơ hình biểu
diễn các mẫu tài liệu mà chúng tôi khảo sát để phát triển thành mơ hình gom cụm
mờ tài liệu theo NE và từ khóa. Phần cuối cùng, chúng tơi trình bày về các phương
pháp đánh giá chất lượng.

2.1 Gom cụm mờ tài liệu
Trước khi đi vào chi tiết về gom cụm mờ tài liệu, chúng tơi trình bày về quá trình
gom cụm tổng quát.

Quá trình gom cụm tổng quát
Quá trình gom cụm tổng quát được [2] định nghĩa bao gồm các giai đoạn cơ bản
như Hình 2.1.

8

Tập mẫu
dữ liệu

Chọn lựa/
Rút trích
các đặc tính

Biểu diễn
các mẫu

Đo độ tương tự
giữa các mẫu

Gom
nhóm

Các cụm
kết quả

Hồi tiếp

Hình 2.1 Các giai đoạn của q trình gom cụm tổng qt
Có nhiều kỹ thuật gom cụm dữ liệu, sự khác nhau giữa các kỹ thuật là phương
pháp biểu diễn dữ liệu, phương pháp đo độ tương tự giữa các mẫu dữ liệu và
phương pháp gom các mẫu dữ liệu thành các cụm.
Đầu tiên, tập dữ liệu mẫu được chọn lựa, rút trích các đặc tính nổi bật. Sau đó,

thực hiện biểu diễn bằng một phương pháp biểu diễn dữ liệu nào đó như dùng mơ
hình khơng gian vectơ, mơ hình đồ thị, v.v...
Giai đoạn đo độ tương tự giữa các mẫu thực hiện tính độ tương tự giữa các
mẫu dữ liệu đã được biểu diễn. Việc đo độ tương tự phụ thuộc vào phương pháp
biểu diễn dữ liệu và phương pháp tính khoảng cách. Có nhiều phương pháp tính
khoảng cách như khoảng cách Euclidean, Manhattan, Minkowski, v.v… Lựa chọn
cơng thức tính độ tương tự thích hợp cho ứng dụng cụ thể hiện tại vẫn còn khá tùy
ý và chưa được chứng minh lý thuyết.
Giai đoạn gom nhóm gom các mẫu dữ liệu thành các cụm dựa vào một thuật
tốn gom cụm nào đó. Các thuật toán gom cụm truyền thống (gom cụm cứng)
phân chia tập dữ liệu thành một phân hoạch cứng, mỗi mẫu dữ liệu chỉ được thuộc
về một cụm. Việc gắn cứng mỗi mẫu dữ liệu vào một cụm có thể làm mất nhiều
thông tin, đặt biệt là với gom cụm tài liệu vì trên thực tế, có rất nhiều tài liệu đồng
thời đề cập tới nhiều chủ đề. Các thuật toán gom cụm mờ mở rộng khả năng của
gom cụm cứng, cho phép một mẫu dữ liệu có thể thuộc về nhiều cụm.

9

Gom cụm mờ
Các thuật toán gom cụm mờ chia tập dữ liệu vào các cụm có thể chồng lấp nhau.
Điểm dữ liệu có thể thuộc về nhiều cụm với các bậc (membership degree) khác
nhau, thể hiện xác suất hay khả năng điểm dữ liệu thuộc về cụm đó. Hướng tiếp
cận này phù hợp với thực tế hơn.
Các thuật toán gom cụm mờ áp dụng lý thuyết tập mờ và logic mờ để phân
tích cụm, chia tập dữ liệu vào các cụm dựa trên độ tương tự giữa chúng. Mỗi giá trị
membership của điểm dữ liệu được biểu diễn bằng một tập mờ, tương ứng với một
cụm. Kết quả của quá trình gom cụm mờ là một phân hoạch mờ (fuzzy partition)
thay vì phân hoạch cứng (hard partition), là tập các giá trị membership của các
mẫu dữ liệu tương ứng với các cụm.

Định nghĩa 2.1:

Gọi X là tập dữ liệu chứa n mẫu, X = {x1, x2, ..., xn} và c là số

cụm. Một phân hoạch mờ theo c được định nghĩa bởi một ma trận c x n:
U = (uij) = (u1, u2, ..., un) thỏa biểu thức BT 2.1.
uij ∈ [0, 1] với 1 ≤ i ≤ c, 1 ≤ j ≤ n

(BT 2.1)

U được gọi là ma trận phân hoạch mờ. Trong đó, uij là membership của điểm dữ
liệu xj đối với cụm thứ ci, uij là một tập mờ ( µ i, j ), tương ứng với cụm ci theo biến
xj.

Các thuật tốn gom cụm mờ
Có nhiều nghiên cứu về vấn đề gom cụm mờ, nhiều thuật tốn được đề xuất.
Chúng tơi khảo sát trong phạm vi các thuật tốn phân hoạch.
Các thuật tốn mơ tả dựa trên một hàm mục tiêu. Tiêu chí để đánh giá độ tốt
của mơ hình cụm bao gồm các biểu diễn cụm (prototype) và phân hoạch dữ liệu.
Các mơ hình cụm khác nhau sẽ tương ứng với các hàm mục tiêu khác nhau để đạt

10

được biểu diễn cụm mong muốn và kết quả gom cụm tốt nhất. Đích của các thuật
tốn là tìm cách chia tập dữ liệu tốt nhất trong một số cụm được định nghĩa trước
bằng cách tối thiểu hàm mục tiêu (tối thiểu khoảng cách của điểm dữ liệu đến
trung tâm cụm hay tối đa giá trị membership). Một tham số quan trọng trong hàm
mục tiêu của các thuật toán gom cụm mờ là tham số m (m ≥ 1), được gọi là hệ số
mờ (fuzzifier). Giá trị m quyết định tính mờ của phân hoạch. Giá trị m càng lớn,

tính mờ càng rõ, biên giới giữa các cụm càng mờ. Ngược lại, m càng nhỏ, gom
cụm càng cứng hơn. Khi m = 1, phân hoạch trở thành phân hoạch cứng.
Các thuật tốn gom cụm mờ có thể chia làm hai loại chính: các thuật tốn dựa
trên xác suất (probabilistic) và các thuật toán dựa trên khả năng (possibilistic).
Các thuật toán theo xác suất
Các thuật toán dựa trên xác suất ràng buộc như ở biểu thức BT 2.2 và BT 2.3.
n

∑u
j =1

ij

> 0 với 1 ≤ i ≤ c , và

ij

=1

c

∑u
i =1

(BT 2.2)

∀j ∈ {1,..., n}

(BT 2.3)

Ràng buộc ở biểu thức BT 2.2 đảm bảo khơng có cụm rỗng, uij thể hiện xác suất
của một điểm dữ liệu thuộc về cụm đó.
Thuật tốn gom cụm mờ dựa trên xác suất cơ bản và phổ biến nhất là Fuzzy CMeans (FCM)([1]). FCM là thuật toán được dùng phổ biến, đơn giản, chi phí tính
tốn thấp. Phương pháp này tương đối ổn định, thực nghiệm cho thấy hầu như
không rơi vào tối ưu cục bộ, thường được dùng khởi tạo cho các phương pháp gom
cụm phức tạp khác.
Các thuật toán theo khả năng
Các thuật toán dựa trên khả năng chỉ ràng buộc ở biểu thức BT 2.2 và bỏ đi ràng

11

buộc ở biểu thức BT 2.3, uij thể hiện khả năng của một điểm dữ liệu thuộc cụm đó.
Thuật tốn gom cụm mờ dựa trên khả năng cơ bản và phố biến nhất là Possibilistic
C-Means (PCM) ([1]).
Các thuật toán theo xác suất phủ tất cả các điểm dữ liệu vào tất cả các cụm
trong khi đối với các thuật toán theo khả năng, có thể cụm dữ liệu bị rỗng hoặc
điểm dữ liệu không được cho vào cụm nào. Tuy nhiên, dùng lý thuyết xác suất có
thể sai trong một số trường hợp. Ví dụ, trường hợp khoảng cách từ một điểm dữ
liệu tới hai cụm là như nhau. Do ràng buộc tổng các membership là 1, phương
pháp dựa trên lý thuyết xác suất có thể dẫn đến nhiễu hoặc điểm dữ liệu nằm ngoài
cụm. Gom cụm theo khả năng có thể đặt gần nhau (chặt) hơn gom cụm theo xác
suất nên ít nhiễu hơn, nhưng dễ gặp vấn đề trùng cụm. Nhiều biến thể của thuật
toán FCM được đề xuất để cải tiến chất lượng gom cụm (về hình dạng cụm, điều
khiển nhiễu, v.v...). Nhiều phương pháp mở rộng từ PCM để cải tiến chất lượng,
giải quyết các vấn đề trùng cụm, v.v... Và, một số phương pháp dùng kết hợp cả
hai phương pháp này. ([1])
Sau đây, chúng tôi trình bày thuật tốn tiêu biểu cho các thuật tốn gom cụm
mờ, đó là thuật tốn FCM ([1]).
Giải thuật FCM

Thuật toán FCM phân chia tập dữ liệu trong một số cụm c cho trước. Thuật toán
FCM được thực hiện như các bước ở Bảng 2.1.
1. Khởi tạo các giá trị membership ban đầu.
2. Tính tốn các trọng tâm với các giá trị membership tương ứng.
3. Cập nhật lại các giá trị membership tương ứng với các trọng tâm
mới.
4. Lặp lại bước 2 và 3 nếu hiệu số thay đổi lớn nhất của các giá
trị membership lớn hơn hệ số ngưỡng quy định.

Bảng 2.1 Thuật toán FCM

12

Gọi n là tổng số tài liệu, m là hệ số mờ, u ij là giá trị membership của tài liệu x j
đối với cụm ci , các ràng buộc về giá trị của u ij giống như ở các biểu thức BT 2.2
và BT 2.3 (ràng buộc cho thuật toán theo xác suất), vi là trung tâm của cụm ci .
Biểu thức BT 2.4 dùng để tính các trọng tâm và biểu thức BT 2.5 dùng để cập nhật
lại các giá trị membership trong thuật tốn FCM.
Cơng thức tính trọng tâm của cụm được thể hiện ở biểu thức BT 2.4.
n

vi =

∑u
j =1

n

m

ij

∑u
j =1

xj

(BT 2.4)
m
ij

Biểu thức BT 2.5 dùng cập nhật các giá trị membership theo các trọng tâm.
⎛ D ( x j , vi ) ⎞
⎟
u ij = ∑ ⎜
⎜
⎟
k =1 ⎝ D ( x j , v k ) ⎠
c

−

1
( m −1)

=

D ( x j , vi )
c

∑ D( x
k =1

j

−

2
m −1

, vk )

−

2
m −1

(BT 2.5)

Trong biểu thức BT 2.5, D( x j , vi ) là khoảng cách từ điểm x j tới trọng tâm của
cụm ci .
Các phương pháp phân hoạch đều yêu cầu người dùng phải chỉ ra số cụm
trước. Vì vậy, để đạt chất lượng gom cụm tốt, ước lượng số cụm thích hợp là một
vấn đề quan trọng.

Vấn đề tối ưu số cụm
Các thuật toán gom cụm thường cố định số cụm và người dùng phải quyết định
con số này. Vì vậy, chất lượng của các phương pháp gom cụm được quyết định
cao bởi việc lựa chọn số cụm thích hợp. Đây là một vấn đề khá khó khăn. Theo

13

khảo sát ở [1], có hai phương pháp chính để tìm số cụm tối ưu được trình bày như
bên dưới.
Phương pháp thứ nhất thực hiện phân cụm dữ liệu cho các giá trị khác nhau
của số cụm (c). Dùng các độ đo chất lượng để đánh giá mức độ tốt của các kết quả
thu được, từ đó chọn ra giá trị tối ưu của c. Phương pháp này cũng có thể thực hiện
bằng hai cách.
Cách thứ nhất thực hiện định nghĩa một hàm đánh giá để đánh giá một phân
hoạch mờ. Ước lượng một cận trên c max của số cụm, và thuật toán phải chạy với
các giá trị c = 2, 3, …, c max . Với mỗi phân hoạch kết quả, hàm đánh giá sẽ cho một
kết quả và so sánh, chọn ra giá trị tối ưu của c.
Cách thứ hai thực hiện định nghĩa một hàm đánh giá để đánh giá các cụm
riêng biệt của một kết quả phân cụm. Ước lượng c max . Việc phân tích cụm sẽ được
tiến hành cho c max . Các cụm kết quả được so sánh với nhau dựa trên hàm đánh giá.
Các cụm tương tự được gom lại, loại bỏ các cụm chất lượng kém. Số cụm sẽ được
giảm. Tiến trình này lặp lại cho đến khi khơng cịn cụm có chất lượng kém nào.
Phương pháp thứ hai thực hiện khởi đầu với một số cụm đủ lớn, giảm dần
bằng cách trộn các cụm tương tự, tương ứng với tiêu chí được định nghĩa trước.
Với mơ hình gom cụm mờ tài liệu, không gian dữ liệu là không gian lớn, tiến
hành tính tốn độ tương tự giữa các cụm tốn chi phí tính tốn rất cao nên cách thứ
nhất trong phương pháp thứ nhất thường được sử dụng, thực hiện gom cụm với
một dãy giá trị c và dùng các độ đo để quyết định giá trị số cụm tối ưu.
Trên đây, chúng tơi đã trình bày tổng quan về quá trình gom cụm mờ tài liệu.
Phần tiếp theo sau đây, chúng tơi trình bày về mơ hình khơng gian vectơ. Đây là
mơ hình biểu diễn tài liệu mà chúng tơi khảo sát để phát triển thành mơ hình gom
cụm mờ tài liệu theo NE và từ khóa.

14

2.2 Mơ hình khơng gian vectơ
Có nhiều phương pháp biểu diễn tài liệu. Mơ hình khơng gian vectơ là mơ hình
biểu diễn tài liệu phổ biến và cơ bản cho truy hồi thơng tin và gom cụm tài liệu. Nó
được xem là nền tảng để phát triển các mơ hình khác vì tính đơn giản, nhanh và kết
quả trả về tương đối tốt.
Mơ hình khơng gian vectơ có những ưu và nhược điểm chính như sau:
Ưu điểm:
• Mơ hình đơn giản, nhanh. Nền tảng của mơ hình là số học tuyến tính.
Sau khi chuyển đổi các tài liệu thành các vectơ, ta có thể thực hiện
các thao tác tốn học trên đó một cách dễ dàng. Đây là ưu điểm nổi
trội của mơ hình.
• Có thể dùng các cấu trúc dữ liệu đơn giản, hiệu quả để lưu trữ dữ
liệu. Các phương pháp lưu trữ và xử lý đặc biệt có thể được áp dụng
cho các vectơ để giảm thiểu thời gian tính tốn và vùng nhớ.
Nhược điểm:
Thiếu hụt nhiều thơng tin quan trọng về cấu trúc tài liệu:
• Trong mơ hình vectơ, các thành phần của vectơ được xem là độc lập
lẫn nhau. Trọng số của thành phần này khơng phụ thuộc vào trọng số
của các thành phần khác.
• Thứ tự hay vị trí của thuật ngữ khơng được chú ý đến.
Sau đây, chúng tơi trình bày về mơ hình khơng gian vectơ truyền thống, đó là
mơ hình khơng gian vectơ theo từ khóa (Keyword-based VSM – KW VSM).

15

Gom cụm mờ tài liệu theo thực thể có tên và từ khóa

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về