Tải bản đầy đủ (.pdf) (138 trang)

Luận án tiến sĩ Truy hồi thông tin dựa trên ontology

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.6 MB, 138 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM




NGÔ MINH VƢƠNG



TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY





LUẬN ÁN TIẾN SĨ KỸ THUẬT







TP. HỒ CHÍ MINH NĂM 2013


ĐẠI HỌC QUỐC GIA TP.HCM
TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM





NGÔ MINH VƢƠNG



TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY






LUẬN ÁN TIẾN SĨ KỸ THUẬT






TP. HỒ CHÍ MINH NĂM 2013




ĐẠI HỌC QUỐC GIA TP.HCM
TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM





NGÔ MINH VƢƠNG



TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY




Chuyên ngành: Khoa học Máy tính
Mã số chuyên ngành: 62.48.01.01
Phản biện độc lập 1: PGS. TS. Đồng Thị Bích Thủy, ĐH KHTN, ĐHQG TPHCM
Phản biện độc lập 2: PGS. TS. Lê Thanh Hƣơng, Viện CNTT&TT, ĐH BKHN
Phản biện 1: PGS. TS. Đỗ Phúc, ĐH CNTT, ĐHQG TPHCM
Phản biện 2: TS. Nguyễn Thị Minh Huyền, ĐH KHTN, ĐHQG HN
Phản biện 3: PGS. TS. Dƣơng Tuấn Anh, ĐH BKTPHCM, ĐHQG TPHCM

NGƢỜI HƢỚNG DẪN KHOA HỌC
PGS. TS. Cao Hoàng Trụ, ĐH BKTPHCM, ĐHQG TPHCM

i
LỜI CAM ĐOAN
Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân.
Tất cả những tham khảo từ các nghiên cứu liên quan điều đƣợc nêu rõ nguồn gốc một
cách rõ ràng từ danh mục tài liệu tham khảo đƣợc đề cập ở phần sau của luận án.
Những đóng góp trong luận án là kết quả nghiên cứu của tác giả đã đƣợc công bố
trong các bài báo của tác giả ở phần sau của luận án và chƣa đƣợc công bố trong bất
kỳ công trình khoa học nào khác.
Tác giả luận án




Ngô Minh Vƣơng


ii
LỜI CẢM ƠN
Trong quá trình hoàn thành luận án này, tôi đã đƣợc các thầy cô nơi cơ sở đào tạo
giúp đỡ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận lợi và bạn bè cùng gia
đình thƣờng xuyên động viên khích lệ.
Luận án này không thể hoàn thành tốt nếu không có sự tận tình hƣớng dẫn và sự
giúp đỡ quí báu của PGS.TS. Cao Hoàng Trụ, Thầy hƣớng dẫn mà tôi tôn vinh và
muốn đƣợc bày tỏ lòng biết ơn sâu sắc nhất. Tôi cũng muốn đƣợc bày tỏ lòng biết ơn
đối với tập thể các thầy cô Khoa KH&KT Máy Tính - Đại học Bách Khoa Tp.HCM đã
giúp đỡ và tạo điều kiện cho tôi rất nhiều trong quá trình học tập và nghiên cứu ở
Khoa. Cảm ơn Phòng Quản lý Sau Đại học về sự hỗ trợ các thủ tục trong quá trình
hoàn thành luận án.
Cảm ơn Ban Giám hiệu Trƣờng Đại học Bách Khoa Tp.HCM, Phòng Khoa học
Công nghệ & Dự án, và Phòng Quản lý Sau Đại học đã tài trợ cho tôi thực hiện đề tài
nghiên cứu cấp trƣờng năm 2010. Cảm ơn Tập đoàn TOSHIBA đã cấp học bổng
Chƣơng trình nghiên cứu khoa học và công nghệ cho học viên sau đại học xuất sắc
trong 3 năm 2008, 2009 và 2010. Cảm ơn Ban Giám đốc ĐHQGTpHCM, Ban Quan
hệ và Đối ngoại đã tạo điều kiện thuận lợi cho tôi tiếp cận đƣợc học bổng TOSHIBA ở
trên. Cảm ơn Tập đoàn VNG đã tài trợ một phần kinh phí để tôi có thể công bố và
thuyết trình công trình của mình tại hội nghị IJCNLP-2011 ở Chiang Mai, Thailand.
Những tài trợ này đã hỗ trợ tôi rất nhiều về mặt tài chính để trang trải một phần kinh
phí học tập và nghiên cứu của tôi trong thời gian qua.
Tôi chân thành cảm ơn Trung tâm CNTT - Ngân hàng Phát Triển Nhà ĐBSCL,
Trung tâm R&D - Tập đoàn VNG và Khoa CNTT - Đại học Tôn Đức Thắng đã tạo

mọi điều kiện thuận lợi cho tôi từ năm 2008 đến nay để hoàn thành luận án này. Cuối
cùng tôi cảm ơn tất cả bạn bè và ngƣời thân đã góp nhiều ý kiến và những lời động
viên khích lệ quí báu giúp tôi vƣợt qua khó khăn để hoàn thành tốt luận án.
Tác giả luận án


Ngô Minh Vƣơng

iii
TÓM TẮT
Các hệ thống truy hồi tài liệu dạng văn bản hiện nay gặp nhiều thách thức trong
việc khám phá và biểu diễn ngữ nghĩa của truy vấn và tài liệu. Truy hồi tài liệu dựa
trên việc so trùng các từ khóa có nhiều nhƣợc điểm bởi vì nó chỉ xem xét đến hình
thức bề mặt của các từ xuất hiện trong văn bản hơn là ý nghĩa của các từ này. Trong
khi đó, nội dung của văn bản phần lớn đƣợc xác định bởi các khái niệm nhƣ thực thể
có tên và từ WordNet. Mặc khác, truy vấn đã có thể hiện rõ hơn mong muốn của ngƣời
đặt truy vấn nếu đƣợc bổ sung các khái niệm tiềm ẩn phù hợp. Mục tiêu của luận án
này là nghiên cứu và khai thác các ontology về thực thể có tên, từ WordNet và sự kiện
về quan hệ thực thể để nâng cao hiệu quả truy hồi tài liệu về độ chính xác và độ đầy
đủ.
Trong văn bản, các khái niệm đƣợc diễn đạt dƣới các dạng nhƣ tên của thực thể
hoặc nhãn của từ. Các khái niệm này ẩn chứa các đặc điểm ontology bên dƣới các hình
thức bề mặt của chúng nhƣ bí danh/từ đồng nghĩa, lớp cha/nghĩa cha, lớp con/nghĩa
con và định danh/nghĩa của từ. Ngoài ra, mỗi truy vấn còn hàm ý các thực thể liên
quan đến các thực thể xuất hiện tƣờng minh trong truy vấn.
Luận án này có ba nội dung chính. Thứ nhất, luận án khảo sát tất cả các đặc điểm
ontology của thực thể có tên, các cách kết hợp chúng với từ khóa thông thƣờng, và
nghiên cứu ảnh hƣởng của chúng đến hiệu quả truy hồi tài liệu, trong đó có cặp tên-lớp
và định danh của thực thể có tên mà các công trình trƣớc đây chƣa khai thác. Thứ hai,
luận án đề xuất sử dụng thêm cặp nhãn-nghĩa của từ WordNet bên cạnh các đặc điểm

ontology cơ bản khác đã đƣợc sử dụng trƣớc đây. Thứ ba, luận án khai thác ontology
về sự kiện để mở rộng truy vấn bằng các thực thể tiềm ẩn theo các quan hệ tƣờng minh
với các thực thể trong truy vấn.
Các mô hình đề xuất đƣợc hiện thực bằng cách mở rộng mô hình không gian
vectơ cơ bản và đƣợc đánh giá bằng thực nghiệm trên các tập dữ liệu và độ đo hiệu
quả chuẩn. Kết quả thí nghiệm cho thấy các mô hình đề xuất cho hiệu quả truy hồi tài
liệu cao hơn so với các mô hình ở các công trình liên quan quan và mô hình truy hồi
tài liệu theo từ khoá thông thƣờng. Đặc biệt luận án đã sử dụng phƣơng pháp kiểm
định ý nghĩa thống kê để xác nhận lại sự tăng hiệu quả thật sự của các mô hình đề
xuất.

iv
ABSTRACT
Current text document retrieval systems are facing to many challenges in
discovering and representing the semantics of queries and documents. Document
retrieval based on lexical matching of keywords has many drawbacks because it only
considers the surface forms of words appearing in a text rather than the meaning of the
words. Meanwhile, the content of a text is mostly determined by concepts such as
named entities and WordNet words. On the other hand, the meaning of a query could
express more clearly user intention if it is expanded with suitable latent concepts. The
objective of this thesis is to exploit ontologies of named entities, WordNet words and
entity relationship facts to improve the performance of document retrieval in terms of
the precision and recall measures.
In a text, concepts are expressed by their surface forms like entity names or word
labels. Those concepts contain hidden ontological features under their surface forms,
such as aliases/synonyms, super-classes/hypernyms, sub-classes/hyponyms and
identifiers/senses. Besides, each query also implies those entities that are related to
entities explicitly appearing in the query.
This thesis consists of three main parts. First, the thesis explores ontological
features of named entities, different combinations of them and keywords, and

evaluates their impact to document retrieval performance, in which name-class pairs
and identifies of named entities have not been exploited in previous works. Second,
the thesis proposes usage of form-sense pairs of WordNet words in addition to other
basic ontological features that have been used previously. Third, the thesis exploits an
ontology of facts to expand a query by latent entities that have explicit relations with
other entities in the query.
The proposed models are implemented by extending the basic vector space
model and experimented on benchmark datasets and standard performance measures.
Experiment results show that the proposed models give better retrieval performance
than the models of related works and the traditional keyword-based document retrieval
model. Especially, this thesis uses statistical significance tests to confirm the actual
improvement in performance of the proposed models.

v
MỤC LỤC

1 Chƣơng 1 - GIỚI THIỆU 1
1.1 Động cơ nghiên cứu 1
1.2 Mục tiêu và phạm vi của luận án 2
1.3 Những đóng góp chính của luận án 3
1.4 Cấu trúc của luận án 4
2 Chƣơng 2 - CƠ SỞ KIẾN THỨC 6
2.1 Mô hình không gian vectơ 6
2.2 Giới thiệu về Lucene 7
2.3 Ontology 7
2.4 Nhận diện thực thể có tên và phân giải nhập nhằng nghĩa của từ 11
2.5 Tập dữ liệu kiểm tra 12
2.6 Độ đo hiệu quả truy hồi 13
2.7 Kiểm định ý nghĩa thống kê 15
3 Chƣơng 3 - KHAI THÁC THỰC THỂ CÓ TÊN 17

3.1 Giới thiệu 17
3.2 Các công trình liên quan 19
3.3 Mô hình đa không gian vectơ cho thực thể có tên 22
3.4 Kết hợp thực thể có tên và từ khóa 31
3.5 Đánh giá thực nghiệm 38
3.6 Kết luận 56
4 Chƣơng 4 - KHAI THÁC TỪ WORDNET 58
4.1 Giới thiệu 58
4.2 Các công trình liên quan 59
4.3 Mô hình không gian vectơ dựa trên từ WordNet 61
4.4 Đánh giá thực nghiệm 66
4.5 Kết luận 72
5 Chƣơng 5 - KHAI THÁC THÔNG TIN TIỀM ẨN 73
5.1 Giới thiệu 73
5.2 Các công trình liên quan 74

vi
5.3 Phƣơng pháp kích hoạt lan truyền 76
5.4 Mở rộng truy vấn 78
5.5 Đánh giá thực nghiệm 80
5.6 Kết luận 86
6 Chƣơng 6 – KẾT HỢP CÁC MÔ HÌNH 88
6.1 Giới thiệu 88
6.2 Mô hình hợp nhất 88
6.3 Đánh giá thực nghiệm 90
6.4 Kết luận 95
7 Chƣơng 7 - TỔNG KẾT 96
7.1 Tóm tắt 96
7.2 Hƣớng phát triển 98
CÁC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 100

TÀI LIỆU THAM KHẢO 102




vii
DANH MỤC CÁC BẢNG
Bảng 2.1. Thống kê về việc sử dụng tập kiểm tra trong các công trình mà luận án
khảo sát ở SIGIR-2007 và SIGIR-2008 13
Bảng 3.1. Khảo sát việc khai thác các đặc điểm ontology của thực thể có tên cho
truy hồi tài liệu 21
Bảng 3.2. Các ví dụ về việc chuyển đổi từ để hỏi sang lớp của thực thể 37
Bảng 3.3. Các độ chính xác trung bình tại mƣời một điểm đầy đủ chuẩn của các
mô hình Lexical, NEo, NEn và NE-KW 39
Bảng 3.4. Các độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình
Lexical, NEo, NEn và NE-KW 39
Bảng 3.5. Các độ chính xác trung bình nhóm của các mô hình Lexical, NEo,
NEn và NE-KW 40
Bảng 3.6. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên Fisher của
mô hình NE+KW so với các mô hình khác 41
Bảng 3.7. Việc sử dụng các đặc điểm ontology của thực thể có tên để biểu diễn
truy vấn và tài liệu 44
Bảng 3.8. Các độ chính xác trung bình tại mƣời một điểm đầy đủ chuẩn của các
mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và
NE+KW 46
Bảng 3.9. Các độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình
Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW 46
Bảng 3.10. Các độ chính xác trung bình nhóm của các mô hình Lexical,
Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW 46
Bảng 3.11. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên Fisher của

mô hình NE+KW so với các mô hình Lexical, Group_1, Group_2,
Group_3 và NE+KW+notID 47
Bảng 3.12. Các độ chính xác trung bình của hai mô hình Lexical và NE+KW
trên các truy vấn điển hình 50

viii
Bảng 3.13. Các độ chính xác trung bình tại mƣời một điểm đầy đủ chuẩn của các
mô hình Lexical, NE+KW và NE+KW+Wh 52
Bảng 3.14. Các độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô
hình Lexical, NE+KW và NE+KW+Wh 52
Bảng 3.15. Các độ chính xác trung bình nhóm của các mô hình Lexical, NE+KW
và NE+KW+Wh 53
Bảng 3.16. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên Fisher giữa
các mô hình NE+KW+Wh, NE+KW và Lexical 53
Bảng 3.17. Độ chính xác trung bình của hai mô hình Lexical và NE+KW+Wh
trên các truy vấn điển hình 54
Bảng 4.1. Khảo sát việc khai thác các đặc điểm ontology của từ WordNet cho
truy hồi tài liệu 61
Bảng 4.2. Việc sử dụng các đặc điểm ontology của từ WordNet để biểu diễn truy
vấn và tài liệu 66
Bảng 4.3. Các độ chính xác tại mƣời một điểm đầy đủ chuẩn của các mô hình
Lexical, Group_1, Group_2 và WN+KW 68
Bảng 4.4. Các độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình
Lexical, Group_1, Group_2 và WN+KW 68
Bảng 4.5. Các độ chính xác trung bình nhóm của các mô hình Lexical, Group_1,
Group_2 và WN+KW 68
Bảng 4.6. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên Fisher giữa
mô hình WN+KW với các mô hình Lexical, Group_1 và Group_2 68
Bảng 4.7. Các độ chính xác trung bình của các mô hình Lexical và WN+KW
trên các truy vấn điển hình 69

Bảng 5.1. Các độ chính xác và độ F trung bình tại mƣời một điểm đầy đủ chuẩn
của các mô hình Lexical, CSA và R+CSA 82
Bảng 5.2. Các độ chính xác trung bình nhóm của các mô hình Lexical, CSA và
R+CSA 83

ix
Bảng 5.3. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên Fisher giữa
mô hình R+CSA với hai mô hình Lexical và CSA 84
Bảng 5.4. Các độ chính xác trung bình của các mô hình Lexical, CSA và R+CSA
trên các truy vấn điển hình 84
Bảng 6.1. Các độ chính xác và độ F trung bình tại mƣời một điểm đầy đủ chuẩn
của các mô hình NE+KW+Wh, WN+KW và NE+WN 91
Bảng 6.2. Các độ chính xác trung bình nhóm của các mô hình NE+KW+Wh,
WN+KW và NE+WN 92
Bảng 6.3. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên giữa mô
hình NE+WN với hai mô hình NE+KW+Wh và WN+KW 92
Bảng 6.4. Các độ chính xác và độ F trung bình tại mƣời một điểm đầy đủ chuẩn
của các mô hình NE+WN, R+CSA và UM 93
Bảng 6.5. Các độ chính xác trung bình nhóm của các mô hình NE+WN, R+CSA
và UM 94
Bảng 6.6. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên giữa mô
hình UM so với các mô hình NE+WN và R+CSA 94



x
DANH MỤC CÁC HÌNH
Hình 2.1. Sự phân cấp của các lớp tổng quát nhất trong KIM ontology 9
Hình 2.2. Ví dụ về các thực thể có tên và quan hệ trong KIM ontology 9
Hình 2.3. Mạng lƣới quan hệ nghĩa cha/nghĩa con và tập đồng nghĩa của một

nghĩa của từ “movement” 10
Hình 2.4. Ví dụ về các sự kiện trong YAGO 11
Hình 3.1. Biểu diễn truy vấn và tài liệu bằng các tập hợp bộ ba thực thể có tên 23
Hình 3.2. Biểu diễn truy vấn và tài liệu trong mô hình từ khóa và mô hình đa
không gian vectơ 28
Hình 3.3. Biểu diễn truy vấn trong mô hình chồng lấp NEo 30
Hình 3.4. Biểu diễn truy vấn và tài liệu trong mô hình NE+KW 34
Hình 3.5. Kiến trúc hệ thống của các mô hình NE-KW 35
Hình 3.6. Đánh chỉ mục trong các mô hình NE-KW 36
Hình 3.7. Biểu diễn truy vấn trong mô hình NE+KW+Wh 38
Hình 3.8. Các đƣờng cong P-R và F-R trung bình của các mô hình Lexical, NEn,
và NE+KW 42
Hình 3.9. Sự khác biệt về độ chính xác trung bình ở mỗi truy vấn giữa mô hình
NE+KW với hai mô hình Lexical và NEn 42
Hình 3.10. Các đƣờng cong P-R và F-R trung bình của các mô hình Lexical,
Group_1, Group_2, Group_3 và NE+KW 47
Hình 3.11. Sự khác biệt về độ chính xác trung bình ở mỗi truy vấn giữa mô hình
NE+KW với ba mô hình Group_1, Group_2 và Group_3 48
Hình 3.12. Đƣờng cong P-R của hai mô hình Lexical và NE+KW trên các truy
vấn điển hình 50
Hình 3.13. Đƣờng cong trung bình P-R và F-R của các mô hình Lexical,
NE+KW và NE+KW+Wh 52
Hình 3.14. Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình giữa mô
hình NE+KW+Wh với hai mô hình Lexical và NE+KW 54

xi
Hình 3.15. Đƣờng cong P-R của hai mô hình Lexical và NE+KW+Wh trên các
truy vấn điển hình 55
Hình 4.1. Các đoạn văn bản ví dụ từ BBC 62
Hình 4.2. Cây phân cấp nghĩa cha và nghĩa con của một số nghĩa của từ

“movement” 62
Hình 4.3. Kiến trúc hệ thống của mô hình WN+KW 65
Hình 4.4. Các đƣờng cong P-R và F-R trung bình của các mô hình Lexical,
Group_1, Group_2 và WN+KW 69
Hình 4.5. Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình của mô hình
WN+KW so với các mô hình Lexical, Group_1 và Group_2 70
Hình 5.1. Ví dụ về các khái niệm có liên quan với khái niệm Thailand trong một
ontology về sự kiện 77
Hình 5.2. Kiến trúc hệ thống của mô hình mở rộng truy vấn sử dụng phƣơng
pháp R+CSA 78
Hình 5.3. Các bƣớc của phƣơng pháp R+CSA 79
Hình 5.4. Đƣờng cong trung bình P-R và F-R của các mô hình Lexical, CSA và
R+CSA 82
Hình 5.5. Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình giữa mô hình
R+CSA với hai mô hình Lexical và CSA 83
Hình 6.1. Kiến trúc hệ thống của mô hình UM 89
Hình 6.2. Các đƣờng cong trung bình P-R và F-R của các mô hình
NE+KW+Wh, WN+KW và NE+WN 91
Hình 6.3. Độ khác biệt ở độ chính xác trung bình của mỗi truy vấn giữa mô hình
NE+WN với hai mô hình NE+KW+Wh và WN+KW 92
Hình 6.4. Các đƣờng cong trung bình P-R và F-R của các mô hình NE+WN,
R+CSA và UM 94
Hình 6.5. Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình giữa mô hình
UM với hai mô hình NE+WN và R+CSA 95
Hình 7.1. Sự phát triển và hiệu quả của các mô hình đề xuất 98

xii
DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT
Từ viết
tắt

Diễn giải tiếng Anh
Diễn giải tiếng Việt
AP
Average Precision
Độ chính xác trung bình
CSA
Constrained Spreading
Activation
Kích hoạt lan truyền có ràng buộc
F
F-measure
Độ F
IE
Information Extraction
Rút trích thông tin
IR
Information Retrieval
Truy hồi thông tin
KB
Knowledge Base
Cơ sở tri thức
KW
Keyword
Từ khóa
MAP
Mean Average Precision
Độ chính xác trung bình nhóm
NE
Named Entity
Thực thể có tên

NER
Named Entity Recognition
Nhận diện thực thể có tên
P
Precision
Độ chính xác
R
Recall
Độ đầy đủ
R+CSA
Relation Constrained Spreading
Activation
Kích hoạt lan truyền có ràng buộc
quan hệ
SA
Spreading Activation
Kích hoạt lan truyền
SIGIR
Special Interest Group on
Information Retrieval
Cộng đồng quan tâm đặc biệt về truy
hồi thông tin
UM
Unified Model
Mô hình hợp nhất
TREC
Text REtrieval Conference
Hội nghị truy hồi văn bản
VSM
Vector Space Model

Mô hình không gian vectơ
WSD
Word Sense Disambiguation
Phân giải nhập nhằng nghĩa của từ

1
1 Chƣơng 1 - GIỚI THIỆU
1.1 Động cơ nghiên cứu
Ngày nay, nhiều thông tin hữu ích đƣợc lƣu trữ trên WWW và, theo bản báo cáo tháng
12/2010 của ITU
1
, có hơn 2 tỷ ngƣời sử dụng Internet với tần suất thƣờng xuyên. Do
đó, nhu cầu khai thác và sử dụng thông tin trên WWW một cách hiệu quả là rất lớn.
Theo [1], truy hồi thông tin là thu thập các nguồn thông tin liên quan đến một yêu cầu
về thông tin, còn máy tìm kiếm là một ứng dụng thực tế của truy hồi thông tin. Các
vấn đề chính của truy hồi thông tin là mô hình biểu diễn truy vấn và tài liệu, và
phƣơng pháp so khớp và xếp hạng mức độ liên quan giữa các tài liệu và truy vấn.
Trong khi đó, các vấn đề chính của máy tìm kiếm là tối ƣu việc lƣu trữ và truy xuất
thông tin, hiệu suất tìm kiếm, và các vấn đề ứng dụng cụ thể khác. Nhằm khắc phục
nhƣợc điểm của các mô hình truyền thống và nâng cao hiệu quả truy hồi thông tin, các
mô hình truy hồi thông tin theo ngữ nghĩa đã đƣợc nghiên cứu và phát triển ([2]).
Dựa vào sự phân loại ở [3], [4] và [5], các công trình về truy hồi thông tin theo
ngữ nghĩa có thể đƣợc phân vào các lĩnh vực chính là: (1) truy hồi thông tin dựa trên
giao diện ngƣời dùng nhƣ ở [6], [7] và [8]; (2) truy hồi thực thể nhƣ ở [9], [10], [11] và
[12]; (3) truy hồi thông tin xuyên ngôn ngữ nhƣ ở [13], [14], [15] và [16]; (4) truy hồi
tài liệu viết bằng ngôn ngữ có cấu trúc nhƣ ở [17], [18] và [19]; và (5) truy hồi văn
bản, là tài liệu viết bằng ngôn ngữ tự nhiên, nhƣ ở [20], [21], và [22]. Trong luận án
này, khi không cần nhấn mạnh, chúng tôi dùng thuật ngữ “truy hồi tài liệu” với ý
nghĩa là truy hồi văn bản.
Dữ liệu trên Web phần lớn là văn bản và chỉ phù hợp cho con ngƣời đọc hiểu. Do

đó, việc nghiên cứu và phát triển các mô hình truy hồi văn bản có độ đầy đủ và độ
chính xác cao là cần thiết. Các mô hình truy hồi tài liệu truyền thống không xét đến sự
đa nghĩa và đồng nghĩa của các từ, và các khái niệm tiềm ẩn trong truy vấn và tài liệu.
Các mô hình này chỉ sử dụng các từ khóa để biểu diễn truy vấn và tài liệu, và việc so

1
International Telecommunication Union, là cơ quan chuyên môn của Liên Hợp Quốc về
công nghệ thông tin và truyền thông.

2
khớp giữa một truy vấn và một tài liệu là sự so khớp giữa hai tập từ khóa đại diện cho
chúng. Vì vậy có nhiều tài liệu đƣợc trả về không thực sự phù hợp với truy vấn.
Nhằm khắc phục nhƣợc điểm nói trên của các mô hình truy hồi tài liệu theo từ
khóa, các mô hình truy hồi theo ngữ nghĩa khai thác và biểu diễn nghĩa của các từ và
khái niệm tiềm ẩn trong truy vấn và tài liệu. Cùng với sự ra đời và phát triển của Web
có ngữ nghĩa ([23]), ontology đƣợc sử dụng rộng rãi trong việc nghiên cứu và phát
triển các mô hình truy hồi tài liệu theo ngữ nghĩa ([24], [25], [26]). Trong đó, nhiều
công trình với mục đích nâng cao hiệu quả truy hồi tài liệu đã: (1) khai thác thực thể
có tên nhƣ ở [27], [28], [29], [30] và [31]; (2) khai thác từ WordNet nhƣ ở [32], [33],
[34], [35] và [36]; trong luận án, chúng tôi gọi từ WordNet là từ đƣợc mô tả trong một
ontology về từ vựng nhƣ WordNet; hoặc (3) thêm thông tin vào truy vấn nhƣ ở [21],
[37], [38], [39] và [40].
Ví dụ với truy vấn tìm kiếm các tài liệu về “Earthquake in USA” thì các tài liệu
về “Earthquake in United States of America”, về “Temblor in USA” hoặc về
“Earthquake in Denali, Alaska 2002” đều phù hợp với truy vấn này. Điều này là do:
(1) USA và United States of America là hai bí danh (alias) của cùng một thực thể có
tên (Named Entity, NE); (2) Earthquake và Temblor là hai từ WordNet đồng nghĩa với
nhau; và (3) Denali, Alaska 2002 là một trận động đất xảy ra ở USA. Trong khi đó, các
tài liệu về “Earthquake in Fukushima 2011” không phù hợp với truy vấn trên vì
Fukushima 2011 tuy cũng là một trận động đất nhƣng xảy ra ở Japan, không phải ở

USA. Để giải quyết các vấn đề này, cần khai thác các đặc điểm ontology về thực thể có
tên, về từ WordNet, và về sự kiện.
1.2 Mục tiêu và phạm vi của luận án
Mục tiêu của luận án là nghiên cứu khai thác các ontology về thực thể có tên, từ
WordNet và sự kiện để nâng cao hiệu quả truy hồi tài liệu. Thứ nhất, luận án khảo sát
tất cả các đặc điểm ontology của thực thể có tên và nghiên cứu ảnh hƣởng của chúng
đến hiệu quả truy hồi tài liệu. Đồng thời, luận án nghiên cứu các cách kết hợp giữa
thực thể có tên và từ khóa trong truy hồi tài liệu. Trong đó, so với các công trình trƣớc
đây, luận án khai thác thêm cặp tên-lớp và định danh của thực thể có tên để biểu diễn
truy vấn và tài liệu. Ngoài ra, luận án khai thác các lớp thực thể ở mức cụ thể tiềm ẩn
trong từ để hỏi dạng Wh. Thứ hai, luận án nghiên cứu khai thác các đặc điểm ontology

3
của từ WordNet và kết hợp chúng với từ khóa. Ngoài các đặc điểm ontology cơ bản
của từ WordNet là nhãn và nghĩa đã đƣợc sử dụng trong các công trình trƣớc đây, luận
án sử dụng thêm cặp nhãn-nghĩa để biểu diễn từ WordNet trong trƣờng hợp từ này có
nhiều hơn một nghĩa trong ngữ cảnh xem xét. Thứ ba, luận án khai thác ontology về sự
kiện để thêm vào truy vấn các thực thể tiềm ẩn liên quan với các thực thể theo các
quan hệ tƣờng minh trong truy vấn.
Hiệu quả truy hồi của các mô hình truy hồi tài liệu phụ thuộc vào ba mô đun
chính là xử lý và biểu diễn truy vấn, xử lý và biểu diễn tài liệu, và so khớp giữa hai
biểu diễn này ([41]). Trong phạm vi luận án, chúng tôi tập trung vào xử lý và biểu diễn
truy vấn và tài liệu. Việc so khớp giữa các biểu diễn của truy vấn và tài liệu đƣợc hiện
thực theo mô hình không gian vectơ, là một mô hình truy hồi thông tin phổ biến.
Các mô hình đề xuất của luận án sử dụng các ontology về thực thể có tên, từ
WordNet và sự kiện có độ bao phủ lớn, và các giải thuật nhận diện thực thể có tên và
phân giải nhập nhằng nghĩa của từ có độ chính xác cao của các công trình khác. Vì
vậy, các kết quả thí nghiệm trong luận án chịu ảnh hƣởng của chất lƣợng của các
ontology và công cụ xử lý đƣợc sử dụng. Tuy nhiên, ý nghĩa của luận án là nghiên cứu
sự khác biệt về hiệu quả truy hồi tài liệu của các mô hình khác nhau trên cùng một nền

tảng ontology và công cụ tiền xử lý.
Việc xây dựng một hệ thống truy hồi tài liệu để dùng ngay trong thực tiễn nằm
ngoài phạm vi của luận án. Vì vậy, trọng tâm của luận án không phải là vấn đề thời
gian xử lý và truy hồi tài liệu, mà là về độ chính xác và độ đầy đủ của các mô hình và
phƣơng pháp đề xuất. Thêm vào đó, luận án chỉ xử lý văn bản tiếng Anh để các đóng
góp của luận án có thể công bố trong cộng đồng nghiên cứu trên thế giới về các vấn đề
này, nơi mà các công trình và tập kiểm tra trên tiếng Anh là phổ biến.
1.3 Những đóng góp chính của luận án
Luận án đã đề xuất các mô hình truy hồi tài liệu khai thác các đặc điểm ontology về
thực thể có tên, về từ WordNet và về sự kiện một cách tƣơng đối đầy đủ và toàn diện
nhằm nâng cao hiệu quả truy hồi, bao gồm:
1. Mô hình khai thác các đặc điểm ontology của thực thể có tên và kết hợp
chúng với từ khóa.

4
2. Mô hình khai thác các đặc điểm ontology của từ WordNet kết hợp với từ
khóa.
3. Mô hình mở rộng truy vấn với các thực thể có tên bằng cách lan truyền theo
các quan hệ tƣờng minh trong truy vấn.
4. Mô hình kết hợp các phƣơng pháp trong các mô hình đƣợc đề xuất ở trên.
Hiệu quả của các mô hình đề xuất đƣợc kiểm tra bằng thực nghiệm và qua bƣớc kiểm
định ý nghĩa thống kê.
1.4 Cấu trúc của luận án
Luận án này đƣợc chia thành 7 chƣơng. Chƣơng 1 trình bày mục tiêu, phạm vi,
những đóng góp chính, và giới thiệu cấu trúc của luận án. Chƣơng 2 trình bày về cơ sở
kiến thức. Từ Chƣơng 3 đến Chƣơng 5, mỗi chƣơng đều có các phần: giới thiệu, các
công trình liên quan, phƣơng pháp đề xuất, kết quả thực nghiệm, và kết luận. Với mỗi
mô hình đề xuất, luận án phân tích nguyên nhân của kết quả thực nghiệm trên một số
truy vấn điển hình trong tập dữ liệu kiểm tra. Chƣơng 6 đề xuất và thực nghiệm mô
hình kết hợp các mô hình trình bày ở các Chƣơng 3, 4 và 5. Chƣơng cuối cùng là tổng

kết.
Chƣơng 2 – Cơ sở kiến thức
Chƣơng này giới thiệu các kiến thức nền tảng, tài nguyên, và công cụ, bao gồm:
mô hình không gian vectơ, các ontology KIM, WordNet và YAGO, và các động cơ
nhận diện thực thể có tên và phân giải nhập nhằng nghĩa của từ. Bên cạnh đó, chƣơng
này trình bày các tập dữ liệu kiểm tra, độ đo và phƣơng pháp đánh giá hiệu quả truy
hồi tài liệu của các mô hình đề xuất so với các mô hình liên quan.
Chƣơng 3 – Khai thác thực thể có tên
Trong chƣơng này, luận án nghiên cứu và đề xuất các mô hình không gian vectơ
dựa trên ontology, khai thác và phân tích các cách kết hợp khác nhau của các đặc điểm
ontology của thực thể có tên với từ khóa. Thêm vào đó là đề xuất việc ánh xạ từ để hỏi
trong truy vấn sang lớp của thực thể có tên. Các mô hình đề xuất đƣợc so sánh về hiệu
quả truy hồi tài liệu với nhau, với mô hình dựa trên từ khóa truyền thống, và với các
mô hình dựa trên thực thể có tên trƣớc đây. Kết quả nghiên cứu liên quan đến chƣơng
này đƣợc phát triển từ [42], và đã đƣợc công bố trong [43], [44], [45] và [46].

5
Chƣơng 4 – Khai thác WordNet
Trong chƣơng này, luận án nghiên cứu, phân tích và đề xuất một mô hình truy
hồi tài liệu khai thác các đặc điểm ontology của từ WordNet kết hợp với từ khóa. Hiệu
quả của việc khai thác các đặc điểm ontology của từ WordNet đƣợc trình bày thông
qua các thí nghiệm so sánh với các mô hình dựa trên từ WordNet trƣớc đây. Kết quả
nghiên cứu liên quan đến chƣơng này đã đƣợc công bố trong [47].
Chƣơng 5 – Khai thác thông tin tiềm ẩn
Trong chƣơng này, luận án nghiên cứu và đề xuất một mô hình mở rộng truy vấn
bằng cách kích hoạt lan truyền theo các quan hệ tƣờng minh trong truy vấn. Mô hình
này đƣợc đánh giá và so sánh với các mô hình kích hoạt lan truyền truyền thống. Kết
quả nghiên cứu liên quan đến chƣơng này đã đƣợc công bố trong [48] và [49].
Chƣơng 6 – Mô hình hợp nhất
Chƣơng này trình bày mô hình hợp nhất, trong đó các phƣơng pháp đề xuất ở các

Chƣơng 3, 4 và 5 đƣợc tích hợp lại với nhau. Cụ thể là, mô hình này mở rộng truy vấn
nhƣ ở Chƣơng 5. Sau đó các truy vấn mở rộng và tài liệu sẽ đƣợc chú giải theo các đặc
điểm ontology của thực thể có tên và từ vựng nhƣ ở Chƣơng 3 và 4. Hiệu quả của mô
hình này đƣợc đánh giá so với các mô hình riêng lẻ đề xuất ở các Chƣơng 3, 4 và 5.
Kết quả nghiên cứu liên quan đến chƣơng này đã đƣợc công bố trong [50].

6
2 Chƣơng 2 - CƠ SỞ KIẾN THỨC
2.1 Mô hình không gian vectơ
Các mô hình truy hồi thông tin phổ biến hiện nay là mô hình đại số Bool ([51]),
mô hình xác suất ([52]), mô hình Okapi BM25 ([53], [54]), mô hình ngôn ngữ ([55],
[56]) và mô hình không gian vectơ ([57]). Trong đó mô hình không gian vectơ (Vector
Space Model - VSM) có các ƣu điểm là đơn giản, trọng số của các từ khóa phản ánh
đƣợc ý nghĩa của các từ khóa trong truy vấn và tài liệu, và các tài liệu có thể so khớp
và xếp hạng theo độ liên quan với truy vấn ([57]). Vì vậy luận án này sử dụng mô hình
không gian vectơ để làm thực nghiệm đánh giá hiệu quả truy hồi của các mô hình đề
xuất.
Trong mô hình không gian vectơ truyền thống ([58]), mỗi truy vấn hoặc tài liệu
đƣợc xem nhƣ là một túi các từ khóa xác định nội dung của chúng. Gọi tập hợp {k
1
, k
2
,
…, k
t
} là không gian của tất cả các từ khóa xuất hiện trong tập truy vấn và tài liệu xem
xét. Mỗi truy vấn q và tài liệu d

đƣợc biểu diễn bằng vectơ
q


= (w
1,q
, w
2,q
, …, w
t,q
) và
vectơ
d

= (w
1,d
, w
2,d
, …, w
t,d
). Trong đó, w
i,q
và w
i,d
lần lƣợt là trọng số của từ khóa k
i

trong truy vấn q và tài liệu d. Các trọng số này là các số thực có giá trị thuộc đoạn [0,
1], và chúng xác định mức độ quan trọng của từ khóa tƣơng ứng trong việc biểu diễn
nội dung của truy vấn và tài liệu. Nếu từ khóa k
i
không xuất hiện trong truy vấn q
(hoặc tài liệu d) thì w

i,q
= 0 hoặc (w
i,d
= 0).
Công trình [59] đề nghị cách tính trọng số của các từ khóa trong truy vấn và tài
liệu theo phƣơng pháp tf.idf nhƣ sau:
(2-1)

(2-2)
Trong đó, freq
i,q
và freq
i,d
lần lƣợt là số lần xuất hiện của từ khóa k
i
trong truy vấn q và
trong tài liệu d, N là tổng số tài liệu trong kho lƣu trữ, và n
i
là số tài liệu có chứa từ
khóa k
i
.

qll
qi
qi
freq
freq
w
,

,
,
max
5.0
5.0 
idll
di
di
n
N
freq
freq
w log
max
,
,
,


7
Độ tƣơng tự giữa tài liệu d và truy vấn q đƣợc định nghĩa bởi công thức sau:
(2-3)


2.2 Giới thiệu về Lucene
Lucene ([60], [61]) là phần mềm mã nguồn mở đƣợc sử dụng phổ biến để đánh
chỉ mục và truy hồi tài liệu. Lucene có thể đƣợc mở rộng với các chức năng đánh chỉ
mục và truy hồi thông tin mới để phát triển các hệ thống ứng dụng. Để đánh chỉ mục,
Lucene chuyển dữ liệu cần đánh chỉ mục về các dạng văn bản nhƣ HTML, Word hoặc
PDF. Tiếp theo, các văn bản đƣợc xử lý thành các từ đơn đã đƣợc chuẩn hóa (nhƣ

lowercasing và stemming). Cuối cùng các từ đơn này đƣợc lƣu trữ vào một hệ thống
đánh chỉ mục đảo (inverted index), là một cấu trúc dữ liệu ánh xạ từ khóa tới các tài
liệu chứa nó.
Truy hồi tài liệu trong Lucene là tìm kiếm trong hệ thống chỉ mục các tài liệu
chứa từ khóa cần tìm. Tiếp theo, các tài liệu tìm thấy đƣợc xếp hạng dựa trên độ tƣơng
tự với truy vấn. Lucene sử dụng mô hình tƣơng tự nhƣ mô hình không gian vectơ
truyền thống để biểu diễn truy vấn và tài liệu, tính trọng số của các từ khóa xuất hiện
trong chúng, cũng nhƣ tính độ tƣơng tự giữa một truy vấn và một tài liệu. Luận án mở
rộng Lucene để hiện thực và làm thực nghiệm các mô hình truy hồi tài liệu dựa trên
ontology.
2.3 Ontology
Ontology bắt nguồn từ triết học, đƣợc dẫn xuất từ tiếng Hy Lạp là “onto” và
“logia”. Trong ngữ cảnh triết học, ontology thuộc một nhánh của siêu hình học, đƣợc
sử dụng để nghiên cứu về bản chất của sự tồn tại, xác định các sự vật nào thực sự tồn
tại và cách thức mô tả chúng ([62]).
Trong những năm gần đây, ontology đƣợc sử dụng nhiều trong khoa học máy
tính và đƣợc định nghĩa khác với nghĩa ban đầu. Theo đó ontology là sự mô hình hóa
và đặc tả các các khái niệm một cách hình thức, rõ ràng và chia sẻ đƣợc ([63], [64]).










t
i

qi
t
i
di
t
i
qidi
ww
ww
qd
qd
qdcosin)q ,d( sim
1
2
,
1
2
,
1
,,
),(







8
Thêm vào đó, theo [65], ontology cần có thêm tính thống nhất, tính mở rộng và tính

suy luận.
Ontology đƣợc sử dụng nhiều trong các lĩnh vực nhƣ biểu diễn tri thức, xử lý
ngôn ngữ tự nhiên, rút trích thông tin, cơ sở dữ liệu và hệ thống thông tin địa lý. Các
ontology có thể chia thành ba nhóm theo cách chúng đƣợc xây dựng. Nhóm thứ nhất là
các ontology đƣợc xây dựng thủ công bởi một nhóm các chuyên gia nhƣ WordNet
([66]) hoặc KIM ontology ([67]). Nhóm thứ hai là các ontology đƣợc xây dựng tự
động nhƣ YAGO ([68]). Nhóm thứ ba là các ontology có nội dung mở, mọi ngƣời đều
có thể tham gia đóng góp nội dung nhƣ Wikipedia
2
([69]). Một cách khác, theo nội
dung, các ontology có thể đƣợc phân nhóm thành ontology về thực thể có tên nhƣ
KIM ontology, ontology về từ vựng nhƣ WordNet, hoặc ontology về sự kiện nhƣ
YAGO. Trong các mô hình đề xuất của luận án, chúng tôi sử dụng KIM ontology,
WordNet và YAGO để xử lý truy vấn và tài liệu.
KIM
Thực thể có tên là con ngƣời, tổ chức, nơi chốn, và những đối tƣợng khác đƣợc
tham khảo bằng tên. Chúng đƣợc đề cập đến lần đầu tại Message Understanding
Conference (MUC) ở những năm 1990 ([70]). Mỗi thực thể có tên có ba đặc điểm
ontology cơ bản là tên, lớp và định danh. Mỗi thực thể có tên có thể có nhiều tên khác
nhau, đƣợc gọi là các bí danh của thực thể có tên đó. Mặt khác, cũng có nhiều thực thể
có tên khác nhau nhƣng có cùng tên. Mỗi thực thể có tên thuộc về một lớp trực tiếp
của nó và đồng thời thuộc về các lớp cha của lớp trực tiếp đó. Mỗi thực thể có tên có
một định danh xác định duy nhất nó.
Hệ thống KIM
3
(Knowledge and Information Management) bao gồm hai thành
phần chính là ontology và mô đun rút trích thông tin (information extraction – IE)
([71]). KIM ontology định nghĩa cây phân cấp các lớp thực thể và các kiểu thuộc tính
và quan hệ giữa các thực thể. Ontology này có khoảng 300 lớp thực thể, và 100 kiểu
thuộc tính và quan hệ. Các kiểu thuộc tính và quan hệ trong KIM là nhị phân, tức chỉ

gồm hai đối tƣợng tham gia. Hình 2.1 mô tả bốn lớp tổng quát nhất trong KIM
ontology là Entity, Object, Happening và Abstract, và một số lớp con của chúng.

2

3


9
Ontology của KIM có khoảng 77.500 thực thể có tên với hơn 110.000 bí danh. Hình
2.2 minh họa một số thực thể có tên và quan hệ giữa chúng trong KIM ontology. Mỗi
nút biểu diễn một thực thể, còn mỗi cạnh biểu diễn một quan hệ.

Hình 2.1. Sự phân cấp của các lớp tổng quát nhất trong KIM ontology



Hình 2.2. Ví dụ về các thực thể có tên và quan hệ trong KIM ontology
Mô đun rút trích thông tin của KIM (KIM IE) có chức năng chính là nhận diện
thực thể có tên. KIM IE thừa kế từ GATE ([72]) các giải thuật có độ chính xác cao
trong xử lý ngôn ngữ tự nhiên nhƣ tách từ (tách văn bản thành các từ có nghĩa), tách
câu (tách văn bản thành các câu) và gán nhãn từ loại (xác định loại từ nhƣ danh từ, tính
từ, động từ, giới từ và trạng từ) ([71]).


United States

hasAlias
America


hasHeadQuaterIn
hasAlias
General Motors
GM

hasAlias
USA

10
WordNet
WordNet ([66], [73]) đƣợc tổ chức thành các tập đồng nghĩa và có các quan hệ
khác nhau giữa các nghĩa nhƣ quan hệ đồng nghĩa (synonymy), quan hệ cha/con
(hypernymy/hyponymy), quan hệ trái nghĩa (antonymy), quan hệ một phần
(meronymy) và quan hệ tƣơng tự (similarity). Phiên bản 3.0 của WordNet, đƣợc sử
dụng trong luận án, có khoảng 155.000 từ và 117.000 tập đồng nghĩa.
Mỗi từ WordNet có các đặc điểm là nhãn (word form, form hoặc label) và nghĩa
(word meaning hoặc sense). Trong đó, mỗi nhãn là sự phát âm hoặc sự ghi vật lý của
một từ. Mỗi nghĩa của một từ có một định danh xác định duy nhất nó trong WordNet.
Hai nhãn đƣợc gọi là đồng nghĩa của nhau nếu sự thay thế lẫn nhau của chúng trong
một câu không làm thay đổi ý nghĩa của câu đó. Các nhãn là đồng nghĩa của nhau sẽ
tạo thành một tập đồng nghĩa (synsets) và có thể đƣợc dùng để biểu diễn một nghĩa.
Mỗi nghĩa đƣợc biểu diễn bởi tập đồng nghĩa {x, x‟, . . .} đƣợc gọi là nghĩa cha
(hypernym) của một nghĩa đƣợc biểu diễn bởi tập đồng nghĩa {y, y‟, . . .} nếu các câu
đƣợc khởi tạo từ cấu trúc y is a (kind of) x đƣợc chấp nhận. Nói cách khác, một nghĩa
cha có thông tin bao phủ thông tin của các nghĩa con của nó.








Hình 2.3. Mạng lƣới quan hệ nghĩa cha/nghĩa con và tập đồng nghĩa của một nghĩa
của từ “movement”
Hình 2.3 mô tả tập đồng nghĩa, các nghĩa cha và nghĩa con của nghĩa thứ 3 của từ
“movement”, có định danh ký hiệu là #movement_3, trong WordNet. Hình này cho
thấy nghĩa #movement_3 có tập đồng nghĩa là {motion, move, movement}, có các
#movement_3
#change_3
motion, move,
movement
#travel_3
#displacement_3

#action_1
#shift_5

×