Tải bản đầy đủ (.pdf) (223 trang)

XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.28 MB, 223 trang )


ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM



NGUYỄN CHÁNH THÀNH



XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN
TRONG TRUY XUẤT THÔNG TIN VĂN BẢN






LUẬN ÁN TIẾN SĨ KỸ THUẬT








TP.HỒ CHÍ MINH – 2010


ĐẠI HỌC QUỐC GIA TP. HCM


TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM



NGUYỄN CHÁNH THÀNH



XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN
TRONG TRUY XUẤT THÔNG TIN VĂN BẢN

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 62.48.01.01



LUẬN ÁN TIẾN SĨ KỸ THUẬT


NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. PHAN THỊ TƯƠI




TP.HỒ CHÍ MINH – 2010


LỜI CAM ĐOAN
Tôi cam ñoan rằng nội dung của luận án này là kết quả nghiên cứu của bản

thân. Tất cả những tham khảo từ các nghiên cứu liên quan ñiều ñược nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong luận án. Những ñóng góp
trong luận án là kết quả nghiên cứu của tác giả ñã ñược công bố trong các bài báo
khoa học trong phần “Các công trình khoa học” của luận án và chưa ñược công bố
trong bất kỳ công trình khoa học nào khác.
Tác giả luận án



Nguyễn Chánh Thành

LỜI CẢM ƠN
Trong quá trình hoàn thành luận án này, tôi ñã ñược các thầy cô nơi cơ sở
ñào tạo giúp ñỡ tận tình, cơ quan nơi công tác tạo mọi ñiều kiện thuận lợi và bạn bè
cùng gia ñình thường xuyên ñộng viên khích lệ.
Luận án này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và
sự giúp ñỡ quí báu của PGS.TS. Phan Thị Tươi, giáo viên hướng dẫn mà tôi tôn
vinh và muốn ñược bày tỏ lòng biết ơn sâu sắc nhất.
Tôi cũng muốn ñược bày tỏ lòng biết ơn ñối với tập thể các thầy cô khoa
Khoa học và Kỹ thuật Máy tính trường Đại học Bách khoa TP. Hồ Chí Minh ñã
giúp ñỡ và tạo ñiều kiện cho tôi rất nhiều trong quá trình học tập và nghiên cứu ở
Khoa; ñặc biệt PGS.TS. Cao Hoàng Trụ, PGS.TS. Dương Tuấn Anh, PGS.TS. Đỗ
Phúc và TS. Đặng Trần Khánh ñã có những lời khuyên quý giá trong quá trình làm
NCS và viết luận án này; cảm ơn Phòng quản lý Sau Đại học về sự hỗ trợ các thủ
tục hoàn thành luận án.
Sự biết ơn của tôi xin ñược gửi ñến gia ñình, vợ con và người thân, ñã hỗ trợ
ñộng viên và tạo mọi ñiều kiện thuận lợi cho tôi trong suốt quá trình hoàn thành
khóa học NCS.
Cuối cùng tôi cảm ơn anh Ngô Hùng Phương cùng tất cả bạn bè, ñặc biệt các
thành viên trong nhóm nghiên cứu BK-NLP (thuộc trường Đại học Bách khoa

Tp.HCM) ñã góp nhiều ý kiến thiết thực và có những lời ñộng viên khích lệ quý báu
giúp tôi vượt qua khó khăn và hoàn thành tốt luận án.
Tác giả luận án
Nguyễn Chánh Thành



TÓM TẮT
Trong truy xuất thông tin (Information Retrieval, IR), do những yếu tố khác
nhau, người sử dụng thường dùng các truy vấn dạng ñơn giản biểu diễn yêu cầu cần
tìm. Việc này dẫn ñến kết quả tìm ñược không ñáp ứng ñủ nhu cầu mong muốn,
hoặc chất lượng thấp. Do ñó, mở rộng truy vấn là vấn ñề cần thiết, ñể từ ñó giúp hệ
thống truy xuất thông tin có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả
truy vấn. Thông tin theo ngữ cảnh có thể thu ñược từ những thông tin phản hồi liên
quan, từ ñồng hiện hay mô hình tri thức như bản thể học (ontology).
Việc ứng dụng ontology ñể trợ giúp việc mở rộng truy vấn ñược nghiên cứu
từ ñầu thập niên 1990 với một số thành công. Trong bài toán mở rộng truy vấn, một
số nhóm nghiên cứu trên thế giới ñã sử dụng ontology WordNet. Một số nhóm khác
ñã phát triển ontology ñể phục vụ nhu cầu mở rộng truy vấn. Những ñịnh hướng ñặc
biệt về cấu trúc ontology cần xây dựng bao gồm ñề xuất về nhóm thành phần lớp,
thể hiện, thuộc tính, hay ñề xuất về nhóm thể hiện, thuộc tính, khái niệm và quan hệ
rời rạc (disjointness), IS-A, và tương ñương (equivalence), hoặc phát triển một mô
hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ WordNet như
quan hệ thượng danh (hypernymy), hạ danh (hyponymy) … cùng một số quan hệ
ñược ñịnh nghĩa thêm như chú giải (gloss), chủ ñề và miền (domain).
Luận án này ñề xuất phương pháp mở rộng truy vấn dựa trên cơ sở bản thể
học (ontology-based query expansion). Để thực hiện mục tiêu trên, luận án phải giải
quyết các vấn ñề chính: (1) ñề xuất cơ sở lý thuyết về các mô hình mở rộng truy vấn
dựa trên ontology; (2) phát triển và huấn luyện ontology bằng phương pháp khai
thác kho ngữ liệu sẵn có và phương pháp rút trích dữ liệu từ WordNet; (3) ñề xuất

phương pháp hoàn thiện và mở rộng truy vấn. Phần thực nghiệm của luận án ñược
tiến hành cho ngôn ngữ tiếng Anh dựa trên nguồn dữ liệu và truy vấn tiếng Anh từ
nguồn TREC (Text REtrieval Conference) trong một số lĩnh vực. Các kết quả thực
nghiệm phản ánh tính khả thi của những phương pháp ñề xuất trong luận án, ñồng
thời cho thấy nhiều triển vọng phát triển của các ñề xuất lý thuyết trong luận án.
i


MỤC LỤC

MỤC LỤC ..................................................................................................................... i

DANH MỤC CÁC BẢNG ............................................................................................... iii

DANH MỤC CÁC HÌNH .................................................................................................. v

DANH MỤC CÁC GIẢI THUẬT ................................................................................. vii

DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................... viii

Chương 1

GIỚI THIỆU .............................................................................................. 1

1.1

Động cơ nghiên cứu ............................................................................................. 1

1.2


Mục tiêu và phạm vi nghiên cứu ......................................................................... 5

1.3

Đóng góp chính của luận án ................................................................................ 8

1.4

Cấu trúc của luận án ........................................................................................... 10

1.5

Các quy ước ....................................................................................................... 13

1.6

Tóm tắt nội dung luận án ................................................................................... 13

Chương 2

CÁC NGHIÊN CỨU LIÊN QUAN ........................................................ 14

2.1

Giới thiệu ........................................................................................................... 14

2.2

Các nghiên cứu liên quan trong nước ................................................................ 15


2.3

Các nghiên cứu về ontology .............................................................................. 19

2.4

Các nghiên cứu về mở rộng truy vấn ................................................................. 23

2.5

Khai thác dữ liệu từ WordNet ............................................................................ 39

2.6

Tóm lược ............................................................................................................ 44

Chương 3

XÂY DỰNG NỀN TẢNG HỆ THỐNG ................................................. 46

3.1

Giới thiệu ........................................................................................................... 46

3.2

Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mở rộng truy vấn ........... 46

3.3


Các mô hình cho bài toán mở rộng truy vấn ...................................................... 60

3.4

Mẫu nhận dạng cụm danh từ .............................................................................. 65

3.5

Phương pháp thực nghiệm và ñánh giá .............................................................. 70

3.6

Nguồn dữ liệu thực nghiệm ............................................................................... 74

3.7

Tóm lược ............................................................................................................ 88

Chương 4

XÂY DỰNG ONTOLOGY OOMP ........................................................ 90

4.1

Giới thiệu ........................................................................................................... 90

4.2

Xây dựng ontology OOMP ................................................................................ 90


4.3

Phương pháp huấn luyện dựa trên kho ngữ liệu ................................................ 95

4.4

Phương pháp huấn luyện dựa trên WordNet ................................................... 100

4.5

Cơ chế tự huấn luyện của ontology OOMP ..................................................... 107

4.6

Các ứng dụng của ontology và quan hệ ........................................................... 109

4.7

Tóm lược .......................................................................................................... 110

Chương 5

HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN....................................... 112

5.1

Giới thiệu ......................................................................................................... 112

ii



5.2

Hoàn chỉnh và rút gọn truy vấn ....................................................................... 113

5.3

Kiểm tra cụm danh từ hoàn chỉnh .................................................................... 114

5.4

Tạo cụm danh từ hoàn chỉnh ............................................................................ 121

5.5

Tạo cụm danh từ rút gọn .................................................................................. 122

5.6

Hoàn chỉnh cụm danh từ .................................................................................. 123

5.7

Giải thuật rút gọn thành phần cụm danh từ...................................................... 135

5.8

Tóm lược .......................................................................................................... 140

Chương 6


MỞ RỘNG TRUY VẤN ........................................................................ 142

6.1

Mở rộng truy vấn cho ñộng cơ tìm kiếm trên Web ......................................... 142

6.2

Mở rộng truy vấn cho hệ thống truy xuất thông tin có sẵn .............................. 153

6.3

Tóm lược .......................................................................................................... 165

Chương 7

KẾT LUẬN ............................................................................................. 167

7.1

Các kết quả ñạt ñược ........................................................................................ 167

7.2

Hướng phát triển .............................................................................................. 171

7.3

Lời kết .............................................................................................................. 172


CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ ................................................... 174

TÀI LIỆU THAM KHẢO ............................................................................................. 177

Phụ lục A.

Tóm lược về WordNet ............................................................................... a

Phụ lục B.

Cấu trúc cụm danh từ tiếng Anh .............................................................. c

Phụ lục C.

Danh mục từ loại tiếng Anh ...................................................................... g

Phụ lục D.

Danh mục luật sinh dạng cụm danh từ của văn phạm tiếng Anh xây
dựng dựa trên TreeBank ................................................................................................... i

Phụ lục E.

Tính chất ảnh-tạo ảnh trong toán học ..................................................... o

Phụ lục F.

Cấu trúc ñịnh dạng tài liệu TREC .......................................................... p


Phụ lục G.

Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án ........................... s


iii


DANH MỤC CÁC BẢNG

Bảng 3.1. Danh sách mã lỗi quy ước ................................................................................... 57

Bảng 3.2. Các trường hợp liên kết giữa q và q’ ñể tính
)'|( qq℘
...................................... 63

Bảng 3.3. Các trường hợp liên kết giữa q và q’ ñể tính
)'(q℘
............................................ 63

Bảng 3.4.Tập luật sinh tiếng Anh liên quan cụm danh từ (nguồn [2]) ................................ 67

Bảng 3.5. Danh sách mẫu cơ bản ñặc tả cụm danh từ ......................................................... 68

Bảng 3.6. Thống kê thành phần dữ liệu từ TREC ............................................................... 76

Bảng 3.7. Danh sách tập chỉ mục xây dựng từ nguồn dữ liệu trong bảng 3.6 ..................... 78

Bảng 3.8. Thống kê mục từ, tài liệu và liên kết của nguồn dữ liệu ..................................... 79


Bảng 3.9. Thống kê các tài liệu liên quan theo nguồn dữ liệu ............................................. 81

Bảng 3.10. Danh sách mẫu sử dụng trong thực nghiệm ...................................................... 83

Bảng 3.11. Thống kê cụm danh từ phân biệt rút trích từ kho ngữ liệu tiếng Anh ............... 84

Bảng 4.1. Thống kê số lượng cụm danh từ theo dạng mẫu ................................................. 98

Bảng 4.2. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT .................................. 99

Bảng 4.3. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT .................................. 99

Bảng 4.4. Các thống kê cho dữ liệu huấn luyện ................................................................ 100

Bảng 4.5. Danh mục phân lớp từ vựng sử dụng trong WordNet ....................................... 105

Bảng 4.6.Thống kê các mục từ dùng trong quá trình huấn luyện WB-BKT ..................... 106

Bảng 4.7. Dữ liệu ñược rút trích từ WordNet trong giải thuật WB-KBT .......................... 106

Bảng 4.8. Các thống kê cho dữ liệu huấn luyện ................................................................ 106

Bảng 4.9. Dữ liệu bổ sung tạo bởi giải thuật A-KBT ........................................................ 108

Bảng 5.1. Thống kê về thời gian thực thi của giải thuật CNPV ........................................ 117

Bảng 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi .............................. 117

Bảng 5.3. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu ................. 118


Bảng 5.4. Số liệu thống kê các phần tử phân tích trung gian ............................................ 120

Bảng 5.5. Thống kê về thời gian thực thi của giải thuật NPC ........................................... 129

Bảng 5.6. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng lỗi ................. 130

Bảng 5.7. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng mẫu ............... 130

Bảng 5.8. Thống kê các phần tử phân tích trung gian của giải thuật NPC ........................ 131

iv


Bảng 5.9. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật
NPC .................................................................................................................................... 131

Bảng 5.10. Phân tích kết quả thực nghiệm của giải thuật NPC ......................................... 133

Bảng 5.11. So sánh kết quả của phương pháp tìm kiếm thô và NPC ................................ 134

Bảng 5.12. Thống kê về thời gian thực thi của giải thuật NPMR ...................................... 137

Bảng 5.13. Thống kê các phần tử phân tích trung gian của giải thuật NPMR .................. 137

Bảng 5.14. Kết quả thực nghiệm của giải thuật RNPG trên dữ liệu trung gian của giải thuật
NPMR ................................................................................................................................ 137

Bảng 5.15. Phân tích kết quả thực nghiệm của giải thuật NPMR ..................................... 139

Bảng 5.16. So sánh kết quả của phương pháp tìm kiếm thô và NPMR ............................. 140


Bảng 6.1. Thống kê về thời gian thực thi của giải thuật SNPE ......................................... 148

Bảng 6.2. Thống kê các trường hợp xử lý trong giải thuật SNPE theo dạng lỗi ............... 148

Bảng 6.3. Thống kê các phần tử phân tích trung gian của giải thuật SNPE ...................... 149

Bảng 6.4. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật
SNPE .................................................................................................................................. 149

Bảng 6.5. Phân tích kết quả thực nghiệm của giải thuật SNPE ......................................... 151

Bảng 6.6. So sánh kết quả của phương pháp tìm kiếm thô và SNPE ................................ 153

Bảng 6.7. Thống kê số liệu thực nghiệm trong giải thuật SIC........................................... 160

Bảng 6.8. Số liệu chi tiết của tập si_TermLink tạo ra từ giải thuật SIC ............................ 161

Bảng 6.9. Thống kê kết quả trong tập si_TermLink tạo ra từ giải thuật SIC .................... 161

Bảng 6.10. So sánh kết quả thực nghiệm 1 ........................................................................ 163

Bảng 6.11. So sánh kết quả thực nghiệm 2 ........................................................................ 164

Bảng 6.12. So sánh kết quả thực nghiệm 3 ........................................................................ 165



v



DANH MỤC CÁC HÌNH

Hình 1.1. Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất thông tin ............... 6

Hình 1.2. Tóm tắt phân bố nội dung các vấn ñề trình bày trong luận án ............................. 13

Hình 2.1. Tổ chức hệ thống WordNet phiên bản 3.0 (*) ..................................................... 41

Hình 2.2. Cấu trúc ontology về hình ảnh của S.Zinger ....................................................... 43

Hình 2.3. Đồ thị quan hệ ngữ nghĩa của Boris .................................................................... 43

Hình 3.1. Quan hệ kết hợp OMP ......................................................................................... 55

Hình 3.2. Ví dụ về cây phân tích (hình b) ñược xây dựng từ quan hệ R
OMP
(hình a) .......... 56

Hình 3.3. Đồ thị ngữ nghĩa G có phân lớp ........................................................................... 59

Hình 3.4. Tổ chức phân cấp các mô hình ............................................................................ 61

Hình 3.5. Ví dụ về ñặc tả các mẫu trong JAPE ................................................................... 70

Hình 3.6. Tỉ lệ phân bố các mục tài liệu .............................................................................. 76

Hình 3.7. Cài ñặt chức năng xây dựng chỉ mục cho dữ liệu dạng XML ............................. 77

Hình 3.8. Tổ chức lưu trữ vật lý của các tập chỉ mục .......................................................... 78


Hình 3.9. Tổ chức cơ sở dữ liệu lưu trữ thông tin của các chỉ mục ..................................... 79

Hình 3.10. Cài ñặt chức năng nạp dữ liệu chỉ mục vào cơ sở dữ liệu ................................. 80

Hình 3.11. Thống kê số lượng tài liệu liên quan xác ñịnh ñược .......................................... 81

Hình 3.12. Tỉ lệ tài liệu liên quan xác ñịnh ñược ................................................................ 82

Hình 3.13. Thống kê tập mẫu sử dụng trong thực nghiệm .................................................. 82

Hình 3.14. Tỉ lệ chọn lọc cụm danh từ hợp lệ theo chiều dài cụm danh từ ......................... 85

Hình 3.15. Kết quả rút trích cụm danh từ hợp lệ trong huấn luyện ..................................... 85

Hình 3.16. Tổ chức lưu trữ cụm danh từ rút trích từ các nguồn dữ liệu .............................. 86

Hình 3.17. Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu ................ 86

Hình 3.18. Phân bổ cụm danh từ trong tập TEST_DATA theo các nhóm mẫu .................. 87

Hình 4.1. Cấu trúc mức luận lý của ontology OOMP ......................................................... 91

Hình 4.2. Cấu trúc ontology OOMP về tổ chức cơ sở dữ liệu quan hệ ............................... 91

Hình 4.3. Đặc tả luận lý cho cấu trúc ontology OOMP ....................................................... 92

Hình 4.4. Các phương pháp huấn luyện ontology OOMP ................................................... 95

Hình 4.5. Phương pháp huấn luyện dựa trên kho ngữ liệu .................................................. 95


Hình 4.6. Quan hệ R
m
ñược xây dựng từ quan hệ holonymy trong WordNet ................... 101

vi


Hình 4.7. Quan hệ R
m
ñược xây dựng từ quan hệ meronymy trong WordNet .................. 101

Hình 4.8. Quan hệ R
p
ñược xây dựng từ quan hệ attribute trong WordNet....................... 101

Hình 4.9. Quan hệ R
m
ñược xây dựng từ quan hệ similar trong WordNet ........................ 101

Hình 4.10. Quan hệ R
m
và R
p
ñược xây dựng từ quan hệ similar trong WordNet ............ 102

Hình 4.11. Quan hệ R
p
ñược xây dựng từ quan hệ similar trong WordNet ....................... 102


Hình 4.12. Tổ chức dữ liệu của WordNet phiên bản 3.0 ................................................... 104

Hình 4.13. Thống kê số lượng các quan hệ trong WordNet .............................................. 104

Hình 5.1. Mô hình hệ thống hoàn chỉnh và rút gọn truy vấn ............................................. 113

Hình 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu ................. 120

Hình 5.3. Thống kê các trường hợp xử lý theo dạng lỗi ở mức chi tiết ............................. 129

Hình 5.4. Cài ñặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật NPC ..................... 132

Hình 5.5. Thống kê số liệu các ñộ ño theo nguồn dữ liệu ................................................. 132

Hình 5.6. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu............................. 133

Hình 5.7. Cài ñặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật NPMR .................. 138

Hình 5.8. Thống kê số liệu các ñộ ño theo nguồn dữ liệu ................................................. 139

Hình 5.9. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu............................. 140

Hình 6.1. Mô hình hệ thống mở rộng truy vấn với ñộng cơ tìm kiếm thông tin ............... 143

Hình 6.2. Cài ñặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật SNPE ................... 150

Hình 6.3. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu............................. 152

Hình 6.4. Thống kê số liệu các ñộ ño theo nguồn dữ liệu ................................................. 152


Hình 6.5. Minh họa tính chất (6.1) .................................................................................... 154

Hình 6.6. Ứng dụng tính chất (6.1) vào mở rộng kết quả tìm kiếm .................................. 155

Hình 6.7. Mô hình hệ thống mở rộng truy vấn kết hợp hệ thống truy xuất thông tin dựng
sẵn ...................................................................................................................................... 155

Hình 6.8. Mô hình tổ chức chỉ mục hướng ngữ nghĩa ....................................................... 156

Hình 6.9. So sánh số liên kết tạo thành theo nguồn dữ liệu ............................................... 162

Hình 6.10. So sánh tỉ lệ liên kết tạo thành theo nguồn dữ liệu .......................................... 162

Hình 7.1. Phương pháp thực hiện của vấn ñề 4 ................................................................. 172


vii


DANH MỤC CÁC GIẢI THUẬT

Giải thuật 4.1. Huấn luyện ontology dựa trên kho ngữ liệu .......................................... 96

Giải thuật 4.2. Huấn luyện ontology dựa trên WordNet .............................................. 103

Giải thuật 4.3. Huấn luyện ontology tự ñộng ................................................................ 107

Giải thuật 5.1. Kiểm tra cụm danh từ hoàn chỉnh ........................................................ 114

Giải thuật 5.2. Tạo cụm danh từ hoàn chỉnh ................................................................. 121


Giải thuật 5.3. Tạo cụm danh từ rút gọn ....................................................................... 122

Giải thuật 5.4. Hoàn chỉnh cụm danh từ ....................................................................... 123

Giải thuật 5.5. Rút gọn thành phần cụm danh từ ......................................................... 135

Giải thuật 6.1. Mở rộng cụm danh từ tương ñương ..................................................... 144

Giải thuật 6.2. Tạo chỉ mục hướng ngữ nghĩa ............................................................... 157

Giải thuật 6.3. Tìm kiếm kết hợp ................................................................................... 158

viii


DANH MỤC CÁC TỪ VIẾT TẮT

STT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt
1 A-KBT Auto Knowledge Base
Training
Huấn luyện ontology tự ñộng
2 CB-KBT Corpus-Based Knowledge
Base Training
Huấn luyện ontology dựa trên kho
ngữ liệu
3 CL Concept Lattice Lưới khái niệm
4 CLIR Cross-Language
Information Retrieval
Truy xuất thông tin xuyên ngôn ngữ

5 CNPV Complete Noun Phrase
Verification
Kiểm tra tính hoàn chỉnh của cụm
danh từ
6 CREOLE Collection of REusable
Object for Language
Engineering
Tập ñối tượng khả tái sử dụng cho
ñộng cơ ngôn ngữ
7 DC Dice Coefficient Hệ số khối
8 EEM External Expansion Model Mô hình mở rộng ngoại vi
9 FCA Formal Concept Analysis Phân tích Khái niệm Chính quy
10 GATE General Architecture for
Text Engineering
Kiến trúc tổng quát cho ñộng cơ
văn bản
11 HS Hybrid Search Tìm kiếm kết hợp
12 IDF Inverse-Document
Frequency
Tần suất nghịch ñảo tài liệu
13 IR Information Retrieval Truy xuất thông tin
14 ISE Internal Search Engine Động cơ tìm kiếm thông tin cục bộ
15 JAPE Java Annotation Patterns
Engine
Động cơ mẫu chú giải Java
16 MAP Mean Average Precision Độ chính xác trung bình bình quân
17 NPC Noun Phrase Completion Hoàn chỉnh thành phần cụm danh từ
18 NPRM Noun Phrase Member
Reduction
Rút gọn thành phần cụm danh từ

19 OMP Object-Member-Property Đối tượng-Thành phần-Tính chất
20 OOMP Ontology of Object-
Member-Property
Cơ sở tri thức của Đối tượng-Thành
phần-Tính chất
21 QEM Query Expansion Model Mô hình mở rộng truy vấn
22 SIC Semantic Index Creation Tạo chỉ mục hướng ngữ nghĩa
23 SNPE Similar Noun Phrase
Expansion
Mở rộng cụm danh từ tương ñương
24 TREC Text REtrieval Conference Hội nghị về Truy xuất văn bản
25 WB-KBT WordNet-Based Knowledge
Base Training
Huấn luyện ontology dựa trên
WordNet
1




Chương 1
GIỚI THIỆU
1.1 Động cơ nghiên cứu
Như chúng ta ñã biết, internet (web)
a
ñược xem là nguồn thông tin khổng lồ
của nhân loại. Theo thời gian, nguồn thông tin này không ngừng ñược chia sẻ, mở
rộng và phát triển. Các thông tin trên Web hầu hết ñược thể hiện ở dạng văn bản
biểu diễn bởi ngôn ngữ tự nhiên, trong ñó phần lớn là thông qua các trang Web,
thường chỉ phù hợp với khả năng ñọc hiểu của người sử dụng. Đồng thời với sự

phát triển của Web là sự gia tăng rất lớn về nhu cầu truy xuất thông tin của người sử
dụng, trong ñó việc tìm kiếm các thông tin thể hiện trong ngôn ngữ tiếng Anh
chiếm tỉ lệ ñáng kể. Đặc biệt trong những năm gần ñây, nhu cầu truy cập tin tức trên
Web của người dân Việt nam rất cao (theo [4], giai ñoạn 1997-2007 internet Việt
Nam ñã liên tục phát triển với khoảng 18 triệu người tham gia sử dụng, tương
ñương 21% dân số) xuất phát từ các nhu cầu chủ yếu như xem tin tức, trao ñổi
thông tin, và ñặc biệt số lượng rất lớn là tác vụ tìm kiếm thông tin cần thiết.
Để phục vụ cho những nhu cầu tìm kiếm thông tin của người sử dụng, các hệ
thống truy xuất thông tin (IR) ñã ñược nghiên cứu và phát triển, trong ñó thành
công nhất là một số ñộng cơ tìm kiếm (search engine) nổi tiếng như Google [148] –
Yahoo [165] – Alta Vista [145] và Bing [152] trong thời gian gần ñây... Tuy nhiên,
thông qua các hệ thống ñó, việc tìm kiếm thông tin thường không nhận ñược ñầy ñủ

a
internet còn ñược gọi là World Wide Web, viết gọn là WWW hay Web
2


kết quả cần thiết như mong muốn cũng như hiệu suất của chúng còn có một số giới
hạn nhất ñịnh.

Nguyên nhân chủ yếu ảnh hưởng ñến vấn ñề này là:
− Ngữ nghĩa của tài liệu bị mất ñi do cách biểu diễn truy vấn dưới dạng một
tập các từ khóa.
− Yêu cầu thông tin (truy vấn) của người sử dụng thường chỉ bao gồm một vài
từ khóa cốt lõi, không thể hiện ñủ ngữ nghĩa cần thiết.
− Người sử dụng không cung cấp ñủ thông tin truy vấn cần thiết cho ñộng cơ
tìm kiếm.
− Động cơ tìm kiếm thông tin hoạt ñộng dựa trên cơ chế so trùng từ khóa và
chưa quan tâm ñúng mức ñến yếu tố ngữ nghĩa trong tương tác và hỗ trợ

người dùng.
− Các ñộng cơ tìm kiếm hiện có thường hỗ trợ chính cho tiếng Anh, nhưng
thiếu công cụ trợ giúp cho ngôn ngữ khác …

Điều này dẫn ñến tình trạng:
− Người sử dụng phải dành một lượng thời gian khá lớn ñể ñọc hiểu và chọn
lọc lại các thông tin ñể có những kết quả mong muốn.
− Người sử dụng gặp khó khăn trong việc diễn ñạt nội dung của vấn ñề cần
tìm.
− Người sử dụng không nhận ñược một kết quả trả lời trọn vẹn hoàn chỉnh (dù
chỉ cần ở mức tóm lược ngắn gọn) như mong muốn về một vấn ñề cần tìm.
− Thiếu một hệ thống tìm kiếm thông tin nhanh và linh hoạt ñể không chỉ có
thể tìm các thông tin trong tài liệu tiếng Anh (như truyền thống) và tiếng Việt
theo cơ chế so trùng từ khóa, mà còn có thể trả lời các câu hỏi của người sử
dụng (trong phạm vi xác ñịnh cho tiếng Việt).
− Hệ thống chưa thực sự ñủ mạnh ñể nhận biết ngữ nghĩa của truy vấn.
3


Từ các phân tích trên, chúng ta nhận thấy nguyên nhân chính là các hệ thống
tìm kiếm thông tin chưa ñủ mạnh nên kết quả ñưa ra không thể hỗ trợ người dùng
như mong ñợi. Truy vấn của người dùng cũng chưa phản ánh ñầy ñủ ngữ nghĩa ñể
hỗ trợ cho các quá trình tìm kiếm và truy xuất thông tin ñược tốt hơn. Vì vậy, việc
bổ sung ngữ nghĩa vào truy vấn ban ñầu của người dùng là yêu cầu cần thiết.
Một bài toán kinh ñiển trong lĩnh vực Truy xuất thông tin là Mở rộng truy
vấn. Đó là quá trình bổ sung một số từ vào truy vấn của người dùng nhằm tạo ra các
truy vấn mới tương ñồng ngữ nghĩa. Bài toán này là vấn ñề ñược quan tâm vì nó có
thể loại bỏ nhập nhằng ngữ nghĩa của truy vấn trong ngôn ngữ tự nhiên, cũng như
khắc phục những hạn chế của việc sử dụng từ khóa ñể thể hiện một khái niệm thông
tin. Krovetz và Croft [109] ñã quan sát thấy phần lớn các lợi ích thu ñược trong việc

tìm kiếm thông tin có ñộ truy hồi cao phụ thuộc vào việc so trùng các từ khóa. Đối
với việc mở rộng truy vấn, hệ thống xác ñịnh ngữ nghĩa truy vấn ñược chính xác
hơn, ñiều ñó cho phép kết quả truy vấn tốt hơn. Thông qua kết quả truy vấn mở
rộng, người dùng có thể học tập cách phát biểu truy vấn rõ ràng và chính xác hơn ñể
thu ñược các kết quả hữu ích.
Từ một truy vấn của người dùng, mở rộng truy vấn sẽ bổ sung vào ñó một số
từ hay thuật ngữ liên quan và tạo ra dạng truy vấn mới có thể bao phủ thông tin
rộng hơn. Như vậy, tài liệu mong ñợi ñể thu nhận sẽ nhiều hơn dẫn ñến tỉ lệ bao phủ
thông tin tăng lên tương ứng. Quá trình thêm những thuật ngữ này có thể thực hiện
bằng tay, tự ñộng hoặc có người dùng trợ giúp. Việc mở rộng truy vấn bằng tay dựa
vào sự am hiểu và thành thạo của con người ñể ñưa ra quyết ñịnh, nhằm nhúng các
thuật ngữ vào truy vấn mới. Trong trường hợp mở rộng tự ñộng truy vấn, các trọng
số ñược tính cho tất cả các thuật ngữ nhằm giúp hệ thống thêm những thuật ngữ có
trọng số cao nhất vào truy vấn ban ñầu. Các hàm tính trọng số khác nhau ñưa ra
những kết quả khác nhau, do ñó hiệu suất của việc truy vấn phụ thuộc vào cách thức
tính các trọng số. Với dạng mở rộng truy vấn có người dùng trợ giúp, hệ thống sẽ
sinh ra các thuật ngữ phù hợp cho việc mở rộng truy vấn và người dùng tự chọn một
số trong các thuật ngữ ñó ñể thêm vào.
4


Vấn ñề cốt lõi của bài toán mở rộng truy vấn là xác ñịnh các từ thích hợp ñể
thêm vào truy vấn của người dùng. Nhiều nghiên cứu ñược công bố về mở rộng
truy vấn trong ñó hướng ñến việc sử dụng thông tin ngữ cảnh ñể xác ñịnh các từ cần
thêm một cách hợp lý. Thông tin theo ngữ cảnh có thể thu ñược từ các thông tin
phản hồi liên quan (relevance feedback), từ các từ ñồng hiện (co-occurrence term)
và trong thời gian gần ñây là từ các mô hình tri thức như bản thể học (ontology).
Hiện nay, thông tin liên quan ngữ cảnh của truy vấn là một vấn ñề ñang ñược
các nhà nghiên cứu khai thác nhằm cải tiến quá trình truy xuất thông tin. Theo
Finkelstein [92] ngữ cảnh chưa có ñịnh nghĩa chuẩn xác, nhưng theo [124] thì có

hai ñịnh nghĩa về ngữ cảnh. Định nghĩa thứ nhất theo ngôn ngữ học “ngữ cảnh là
các phần của bài luận bao quanh từ hay ñoạn văn và có thể làm sáng tỏ nghĩa của
nó”
b
. Định nghĩa thứ hai dựa trên tình huống “các ñiều kiện tương quan trong ñó
một ñiều gì ñó tồn tại hay xảy ra”
c
. Từ ñó, một nhận ñịnh chung là thông qua
tương tác của người dùng lên hệ thống truy xuất thông tin, ngữ cảnh tương ứng sẽ
bao gồm những thông tin liên quan ñến những hành ñộng, những quyết ñịnh của
người dùng.
Ngữ cảnh trong truy xuất thông tin bao gồm nhiều vấn ñề trong ñó có mở
rộng truy vấn. Một khó khăn là làm sao biểu diễn ñược nghĩa của truy vấn bằng các
thuật ngữ (term) một cách chính xác. Do vậy, mở rộng truy vấn cho phép người
dùng thực hiện tìm kiếm thông tin bằng truy vấn mới có các thuật ngữ là sự biến ñổi
hình thái của thuật ngữ ban ñầu và (hoặc) một số thuật ngữ mới ñược thêm vào truy
vấn nhờ kết quả khử nhập nhằng nghĩa của truy vấn ban ñầu. Nhiều phương pháp
tiếp cận khác nhau ñược ñề xuất hướng ñến việc mở rộng truy vấn. Trong ñó, có
nhiều nghiên cứu hướng ñến việc sử dụng ontology ñể hỗ trợ suy luận ngữ cảnh cho
các truy vấn nhập nhằng. Các khái niệm trong ontology ñược dùng ñể khử nhập
nhằng ngữ nghĩa của từ và hỗ trợ ñể mở rộng truy vấn. Việc mở rộng truy vấn ñạt
thành công ở một mức ñộ nhất ñịnh nhưng vẫn còn nhiều vấn ñề cần cải thiện về kỹ

b
Nguyên văn: “the parts of a discourse that surround a word or passage and can throw light on its meaning”
c
Nguyên văn: “the interrelated conditions in which something exists or occurs”
5



thuật, giao diện hoặc giải thuật ñể xác ñịnh ngữ nghĩa một cách chính xác hơn từ ñó
cải tiến kết quả truy vấn.
Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tin (trên
internet), cùng với hướng giải quyết làm sao ñể hệ thống IR có thể hiểu nhiều hơn
và thông minh hơn khi xử lý truy vấn ban ñầu của người dùng, thì yêu cầu về một
hệ thống truy xuất thông tin có khả năng tạo ra những truy vấn tương ñồng hoặc
cùng mục tiêu là bài toán quan trọng. Do ñó, thông qua những khảo sát phân tích
nêu trên, vấn ñề mở rộng truy vấn là bài toán quan trọng mà luận án này nghiên cứu
và ñề xuất phương pháp giải quyết.
1.2 Mục tiêu và phạm vi nghiên cứu
Từ ñộng cơ nghiên cứu nêu trên, luận án ñề xuất một số phương pháp mở
rộng truy vấn ban ñầu của người dùng. Đây là vấn ñề cốt lõi và ñồng thời là mục
tiêu nghiên cứu của luận án.
Hiện nay trên thế giới nhiều phương pháp tiếp cận bài toán mở rộng truy vấn
trên cơ sở sử dụng cơ sở tri thức ñã ñược công bố như:
− Mở rộng truy vấn sử dụng cơ sở tri thức có tương tác kho ngữ liệu (công
trình [11] [22] [60] [86] [61] [102] [106] [116] [137] và [141] ...)
− Mở rộng truy vấn sử dụng các cơ sở tri thức không tương tác kho ngữ liệu
(công trình [29] [53] [54] [56] [59] [66] [76] [89] [92] [110] [136] …)
Mỗi phương pháp ñều có ưu, nhược ñiểm cùng với những công trình nghiên
cứu và các thực nghiệm liên quan. Từ việc khảo sát phân tích những phương pháp
này (xem chương 2), dựa trên những giải pháp khả thi ñã ñược công bố trên thế
giới, hướng tiếp cận chính của luận án là mở rộng truy vấn sử dụng cơ sở tri thức
không tương tác kho ngữ liệu.
Để luận án mang tính khả thi cả về lý thuyết lẫn thực tiễn và mang lại kết
quả như mong muốn, tác giả ñã thực hiện:
6


(a) Nghiên cứu và phát triển cơ sở lý thuyết của phương pháp tiếp cận mới

cho việc mở rộng truy vấn, trên cơ sở kết hợp với ontology
d
.
(b) Nghiên cứu và phát triển cấu trúc tổ chức ontology cùng giải pháp huấn
luyện tạo dữ liệu ban ñầu nhằm kiểm chứng kết quả nghiên cứu ở (a) và có thể triển
khai trong thực tế ñể mang lại kết quả truy xuất thông tin tốt hơn.
Như ñịnh hướng nêu trên, phạm vi nghiên cứu của luận án ñược thể hiện
trong hình 1.1 (trong khung ñường gạch ñứt nét).

Hình 1.1. Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất thông tin
(A) Mô hình xử lý của luận án (phạm vi nghiên cứu của luận án)
(B) Động cơ tìm kiếm thông tin (thuộc hệ thống truy xuất thông tin)
(C) Kết quả tìm kiếm thông tin từ yêu cầu của các câu truy vấn ñã mở rộng

Với mô hình ñược mô tả ở hình 1.1, trong mục (A), câu truy vấn nhập (dạng
cụm danh từ bao gồm các thành phần là tính từ hay chỉ có danh từ ñơn) ñược xử lý
ñể trả về tập các câu truy vấn ñã ñược mở rộng (cụm danh từ có dạng truy vấn hoàn
chỉnh
e
). Trong phạm vi luận án, dựa trên giải pháp rút trích các từ ñặc trưng cốt lõi

d
Khái niệm ontology còn ñược diễn dịch là “cây phả hệ tri thức” hay “cơ sở tri thức”
e
Tham khảo thêm ñịnh nghĩa 3.10-Truy vấn hoàn chỉnh, mục 3.2.6, chương 3.
Nhập:

Câu truy vấn
dạng cụm
danh từ



Bộ xử lý
mở rộng
truy vấn
trên cơ sở
kết hợp với
ontology
Động cơ
tìm kiếm
thông tin
Kết quả trả
về (tập tài
liệu)

Xuất:

Các câu truy
vấn:
- dạng cụm
danh từ,
- ñã ñược mở
rộng có dạng
truy vấn hoàn
chỉnh.

(A)
(B)
(C)
7



cho một câu ([23] [149]), câu truy vấn ban ñầu của người dùng ñược tiền xử lý ñể
loại bỏ các thành phần không quan trọng nhằm giữ lại những thành phần chính thỏa
ñiều kiện truy vấn hoàn chỉnh. Điều ñó sẽ giúp giảm ñược ñộ phức tạp hay dạng
biểu diễn phức hợp của truy vấn, ñồng thời còn giúp ñảm bảo tính duy nhất của
từng thành phần trong truy vấn thỏa ñiều kiện truy vấn hoàn chỉnh.
Mục (B) của hình trên gồm ñộng cơ tìm kiếm thông tin (search engine). Đây
là một bộ phận quan trọng của hệ thống Truy xuất Thông tin (Information
Retrieval). Động cơ tìm kiếm thông tin giải quyết ba vấn ñề cốt lõi là mô hình biểu
diễn văn bản, thuật toán tìm kiếm so trùng từ khóa - ñối sánh ngữ nghĩa tương ứng
với các truy vấn và cơ chế lọc kết quả truy xuất. Hiện tại trên thế giới có những
ñộng cơ tìm kiếm thông tin nổi tiếng như Google, Yahoo, Microsoft Bing … Tuy
nhiên, nghiên cứu của luận án chỉ sử dụng những ñộng cơ này như một công cụ hỗ
trợ việc tìm kiếm thông tin cho truy vấn ñã mở rộng bằng phương pháp xử lý của
luận án và không ñặt mục tiêu nghiên cứu ba vấn ñề nêu trên. Vì vậy luận án ñã
không trình bày ba vấn ñề này.
Mô hình xử lý của luận án (trong mục (A)) chỉ thực hiện việc mở rộng nội
dung của truy vấn nhập nên hoàn toàn không làm ảnh hưởng ñến ba khía cạnh nêu
trên trong quá trình vận hành của ñộng cơ tìm kiếm ở mục (B). Điều này còn cho
thấy phạm vi nghiên cứu của luận án hướng ñến bài toán mở rộng truy vấn dựa trên
ontology và hoàn toàn khác biệt so với ba khía cạnh ñã nêu.

Từ những trình bày trên, các bài toán chính cần giải quyết trong phạm vi
luận án bao gồm:
Bài toán 1 - Xây dựng ontology OOMP
Nghiên cứu và phát triển cấu trúc ontology OOMP (Ontology of Object-
Member-Property) cùng cơ chế huấn luyện dữ liệu. Dựa trên tập tài liệu tiếng Anh
f


từ nguồn TREC và khai thác dữ liệu từ WordNet ñể huấn luyện dữ liệu ontology
OOMP nhằm phục vụ yêu cầu của bài toán 2. Nếu bài toán 1 ñược giải quyết thành

f
Tham khảo phần giới thiệu của chương 4 về lý do sử dụng nguồn tài liệu tiếng Anh trong thực nghiệm.
8


công, một ontology có chất lượng ñược tạo thành sẽ giúp cung cấp nhiều khả năng
chọn lựa cho các thông tin hơn, ñể bổ sung vào từ khóa ban ñầu của người dùng,
dẫn ñến việc nâng cao chất lượng của việc mở rộng truy vấn. Việc giải quyết bài
toán này ñược trình bày chi tiết trong chương 4 của luận án.
Bài toán 2 - Xây dựng phương pháp hoàn chỉnh mở rộng truy vấn
Dựa trên ontology ở bài toán 1, nghiên cứu xây dựng phương pháp tiếp cận
mới cho việc mở rộng truy vấn nhằm tạo truy vấn kết quả có dạng truy vấn hoàn
chỉnh (biểu diễn ở dạng cụm danh từ về mặt ngôn ngữ học) và xây dựng các giải
thuật hỗ trợ trong phạm vi bài toán 2. Các chương 4, 5 và 6 sẽ lần lượt trình bày chi
tiết từng phần của những phương pháp giải quyết bài toán này.
Luận án chủ yếu tập trung xử lý truy vấn ngắn với ba thành phần nên không
nghiên cứu vấn ñề ngữ cảnh của câu truy vấn. Và thực tế việc nghiên cứu về ngữ
nghĩa của cụm từ và câu có ảnh hưởng của ngữ cảnh là vấn ñề rất khó và hiện nay
cũng ñang ñược nhiều nhà khoa học quan tâm, là lĩnh vực khác nằm ngoài phạm vi
của luận án.
1.3 Đóng góp chính của luận án
Các vấn ñề nghiên cứu của luận án ñã có một số ñóng góp mới về mặt khoa
học từ phương pháp luận ñến giải pháp thực hiện:
* Đóng góp thứ nhất: ñề xuất phương pháp xác ñịnh các quan hệ của các
khái niệm bao gồm:
− Quan hệ
m

R
xác ñịnh thành phần ñặc trưng (member) của ñối tượng (object).
− Quan hệ
p
R
tính chất ñặc trưng (property) của thành phần.
− Các quan hệ xác ñịnh tính chất trội
m
R
f

p
R
f
liên quan.
Các phương pháp mà luận án ñề xuất không những có thể áp dụng trong
phạm vi luận án ñể giải quyết Bài toán 1 và Bài toán 2 nêu trên mà còn có thể áp
dụng trong một số lĩnh vực khác ñể tạo ontology cho một miền khái niệm (trong
lĩnh vực xử lý ngôn ngữ tự nhiên). Ngoài ra, từ góc ñộ toán học, việc xây dựng các
lớp ñồng dạng (liên quan ñến nhóm các ñối tượng, nhóm các thành phần ñặc trưng
9


và nhóm các tính chất ñặc trưng
g
) từ các quan hệ nêu trên sẽ giúp cho việc phân
loại ñối tượng hiệu quả hơn. Công trình [ii], [iv], [v] và [ix]
h
ñã giới thiệu phương
pháp xác ñịnh các quan hệ cùng ñịnh nghĩa của những khái niệm này.

Phần ñóng góp này sẽ không thực sự ñầy ñủ nếu không có các ñịnh nghĩa
OB
IR
MQE
+

,
POB
IR
MQE
++

,
OB
IR
MQE
+
+
,
POB
IR
MQE
++
+
cùng khái niệm truy vấn hoàn chỉnh,
cây phân tích và dạng ñồ thị ngữ nghĩa do tác giả ñề xuất, liên quan ñến việc mô
hình hóa bài toán mở rộng truy vấn.
* Đóng góp thứ hai: ñề xuất mô hình ontology OOMP cùng các phương
pháp huấn luyện dữ liệu:
− Phương pháp huấn luyện dựa trên kho ngữ liệu sẵn có (Corpus-Based

Knowledge Base Training, CB-KBT).
− Phương pháp huấn luyện dựa trên ontology WordNet sẵn có (WordNet-
Based Knowledge Base Training, WB-KBT).
− Phương pháp tự huấn luyện dựa trên nội dung sẵn có của ontology từ hai
phương pháp CB-KBT và WB-KBT cùng WordNet (Auto Knowledge Base
Training, A-KBT).
Ontology OOMP không những ñược dùng ñể phục vụ bài toán mở rộng truy
vấn mà còn có thể ñược sử dụng cho những bài toán khác theo hướng khai thác các
quan hệ khái niệm. Ngoài ra, từ góc ñộ ngôn ngữ học, các thành phần của ontology
OOMP ñược phân lớp dựa trên một số dạng từ loại chính (như danh từ, tính từ) nên
cấu trúc của chúng ít phụ thuộc vào sự khác nhau của các ngôn ngữ tự nhiên. Do ñó,
việc phát triển ontology trên những ngôn ngữ tự nhiên khác (như tiếng Việt hay
Pháp …) tương ñối thuận lợi. Nội dung liên quan ñến ñóng góp này ñược công bố
trong [iv], [v] và [ix].
* Đóng góp thứ ba: ñề xuất mô hình xử lý truy vấn (truy vấn tiếng Anh,
dạng cụm danh từ) trên ontology OOMP, gồm các giải thuật:

g
Tham khảo thêm hình 3.3, trang 59 về các lớp này.
h
Tham khảo thêm phần Các công trình khoa học.
10


− Kiểm tra tính hoàn chỉnh của cụm danh từ (Complete Noun Phrase
Verification, CNPV)
− Hoàn chỉnh cụm danh từ (Noun Phrase Completion, NPC)
− Mở rộng cụm danh từ tương tự (Similar Noun Phrase Expansion, SNPE)
Mô hình cùng các phương pháp xử lý truy vấn này có thể áp dụng trong Bài
toán 2, cũng như trong các bài toán khác như:

− Kiểm tra tính hoàn chỉnh của cụm danh từ tiếng Anh theo quan ñiểm ngôn
ngữ học tính toán (ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên: truy
xuất thông tin, rút trích thông tin, tóm lược nội dung văn bản).
− Hoàn chỉnh và mở rộng cụm danh từ tương ñương (ứng dụng trong lĩnh vực
xử lý ngôn ngữ tự nhiên: truy xuất thông tin, rút trích thông tin, tóm lược nội
dung văn bản) ….
Các phương pháp và giải thuật liên quan ñến ñóng góp này ñược giới thiệu
trong [ii], [v] và [ix].
* Đóng góp thứ tư: Phương pháp xây dựng chỉ mục hướng ngữ nghĩa
(Semantic Index Creation, SIC) thông qua việc mở rộng cấu trúc chỉ mục ñể lưu trữ
thêm thông tin liên quan ngữ nghĩa ñến ontology xác ñịnh. Đây chính là cầu nối
giúp triển khai những nghiên cứu lý thuyết vào ứng dụng thực tiễn trong lĩnh vực
truy xuất thông tin. Kết quả thu ñược từ phương pháp này tạo tiền ñề cho nhiều
nghiên cứu ứng dụng liên quan ñến truy xuất thông tin. Phương pháp này ñược trình
này trong công trình [iv] và ñược phát triển trong [iii] và [viii].
Những kết quả ñạt ñược này ñồng thời ñược áp dụng cho công trình [xii] và
dự ñịnh áp dụng cho công trình [xiii].
1.4 Cấu trúc của luận án
Luận án ñược chia thành bảy chương và bảy phụ lục. Chương 1 trình bày
mục tiêu, phạm vi và những ñóng góp chính của luận án; giới thiệu cấu trúc của
luận án; liệt kê các qui ước về ký hiệu viết tắt và tên các thuật ngữ ở dạng tiếng
nước ngoài. Trong mỗi chương tiếp theo, từ chương 2 ñến chương 6 ñều có phần
giới thiệu và phần tóm lược. Chương 7 là kết luận của luận án.
11


Chương 2 tổng thuật các nghiên cứu ở trong nước và ngoài nước liên quan
ñến luận án. Chương này trình bày một bức tranh tổng quan các hướng nghiên cứu
về vấn ñề mở rộng truy vấn, ñặc biệt là hướng kết hợp ontology, những ưu nhược
ñiểm của các phương pháp nghiên cứu hiện nay.

Chương 3 trình bày cơ sở toán học ñể phát triển mô hình mở rộng truy vấn
cùng một số ñề xuất về lý thuyết liên quan ñến hướng nghiên cứu của luận án.
Những ñề xuất lý thuyết ñược trình bày theo từng khái niệm thông qua các ñịnh
nghĩa, tính chất và ví dụ minh hoạ. Phần khảo sát WordNet ñược trình bày trong
chương này bao gồm cấu trúc tổ chức và các tính năng cũng như ưu khuyết ñiểm.
Việc vận dụng ngôn ngữ học tính toán vào ñề xuất mẫu nhận dạng cụm danh từ của
tác giả ñược trình bày chi tiết ở cuối chương ñể làm nổi bật tập luật sinh của mẫu.
Kết quả những ñề xuất về các phương pháp ñã ñược công bố trong báo cáo khoa
học [ii], [iv], [v] và [ix]. Các ñề xuất này góp phần tạo cơ sở cho những phương
pháp tiếp cận (trình bày ở các chương sau) ñể giải quyết Bài toán 1 Xây dựng
ontology OOMP và Bài toán 2 Xây dựng phương pháp hoàn chỉnh mở rộng truy
vấn ñề ra trong Luận án. Ngoài ra, chương này còn trình bày phương pháp ñánh giá
các thực nghiệm của luận án cùng những vấn ñề liên quan ñến thực nghiệm như xác
ñịnh nguồn dữ liệu sử dụng, xây dựng tập dữ liệu huấn luyện, xây dựng tập dữ liệu
thử nghiệm và các công cụ hỗ trợ thực nghiệm.
Chương 4 trình bày mô hình ontology OOMP cùng các phương pháp huấn
luyện dữ liệu. Chương này trình bày về thiết kế tổ chức của ontology dựa trên các
quan hệ ñã ñược ñề xuất ở chương 3 và phương pháp huấn luyện dữ liệu là CB-KBT
thực hiện trên tập dữ liệu TREC cùng phương pháp WB-KBT ñể rút trích dữ liệu từ
WordNet. Các giải thuật này thể hiện phương pháp tiếp cận giải quyết Bài toán 1
trong mục tiêu ñề ra của Luận án. Nội dung chương này dựa trên [iv], [v] và [ix].
Chương 5 trình bày hai phần, trong ñó phần một giới thiệu các bài toán hỗ
trợ ñể xây dựng cụm danh từ hoàn chỉnh và rút gọn, tạo cơ sở ñể tiếp cận các
phương pháp hoàn chỉnh và mở rộng truy vấn. Phần hai trình bày các phương pháp
hoàn chỉnh và rút gọn truy vấn. Phương pháp hoàn chỉnh truy vấn ñóng vai trò quan
12


trọng ảnh hưởng tích cực ñến vấn ñề làm ñầy ñủ thông tin hơn cho một truy vấn.
Còn phương pháp rút gọn truy vấn sẽ góp phần tạo nên một truy vấn cô ñọng nhưng

vẫn ñầy ñủ thông tin hơn. Những phương pháp này ñã góp phần giải quyết mục tiêu
tạo truy vấn hoàn chỉnh của Bài toán 2 nêu trên, ñồng thời ñã ñược giới thiệu trong
[v] và [xii].
Chương 6 trình bày phương pháp mở rộng truy vấn trực tiếp và gián tiếp .
Trong ñó, phương pháp ñầu tiên quan tâm ñến việc kết hợp ontology OOMP, ñể bổ
sung các thông tin về ñối tượng, thành phần cùng thuộc tính ñặc trưng vào truy vấn
ban ñầu. Từ ñó, các truy vấn ñã ñược mở rộng có thể tương tác với các ñộng cơ tìm
kiếm thông tin có sẵn ñể khai thác thông tin trên Web. Phương pháp thứ hai thực
hiện việc kết hợp ontology OOMP với hệ thống chỉ mục của một hệ thống truy xuất
thông tin có sẵn ñể tạo chỉ mục hướng ngữ nghĩa từ ñó mở rộng tập dữ liệu truy
xuất ñược. Mục tiêu mở rộng truy vấn và mở rộng kết quả tìm kiếm của Bài toán 2
ñược giải quyết bởi hai phương pháp này với những kết quả ban ñầu ñược giới thiệu
trong [iv] và [ix]. Ngoài ra [iii] và [viii] trình bày các phát triển từ hướng tiếp cận
chỉ mục hướng ngữ nghĩa ñể áp dụng cho công trình [xiii].
Chương 7 là phần tổng kết, trong ñó trình bày tóm lược kết quả luận án và
những ñề nghị hướng nghiên cứu trong tương lai, liên quan ñến luận án. Ngoài
những kết quả nêu trong các chương trên ñã ñược trình bày trong công trình [xii],
những kết quả bước ñầu của hướng nghiên cứu tiếp theo cũng ñược giới thiệu trong
[i], [iii], [vii], [viii], [x], [xi] và dự ñịnh áp dụng cho công trình [xiii].
Phần cuối của luận án là các phụ lục. Trong ñó, phụ lục A trình bày tóm lược
về WordNet. Phụ lục B giới thiệu cấu trúc cụm danh từ tiếng Anh. Phần phụ lục C
và D lần lượt trình bày danh mục các từ loại tiếng Anh và tập luật sinh trong văn
phạm tiếng Anh dựa trên Penn TreeBank. Phụ lục E tóm lược kiến thức về khái
niệm ảnh và tạo ảnh của ánh xạ trong toán học. Phụ lục F giới thiệu cấu trúc ñịnh
dạng tài liệu trong nguồn tài liệu TREC. Phần cuối là phụ lục G cung cấp sơ ñồ
minh hoạ về tổ chức cơ sở dữ liệu thực nghiệm của luận án.

×