Tải bản đầy đủ (.docx) (251 trang)

đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.18 MB, 251 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
NGUYỄN CHÁNH THÀNH
XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN
TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
LUẬN ÁN TIẾN SĨ KỸ THUẬT
TP.HỒ CHÍ MINH – 2010
ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
NGUYỄN CHÁNH THÀNH
XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN

TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. PHAN THỊ TƯƠI
TP.HỒ CHÍ MINH – 2010
LỜI CAM ĐOAN
Tôi cam ñoan rằng nội dung của luận án này là kết quả nghiên cứu của bản
thân. Tất cả những tham khảo từ các nghiên cứu liên quan ñiều ñược nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong luận án. Những ñóng góp
trong luận án là kết quả nghiên cứu của tác giả ñã ñược công bố trong các bài báo
khoa học trong phần “Các công trình khoa học” của luận án và chưa ñược công bố
trong bất kỳ công trình khoa học nào khác.
Tác giả luận án
Nguyễn Chánh Thành
LỜI CẢM ƠN
Trong quá trình hoàn thành luận án này, tôi ñã ñược các thầy cô nơi cơ sở
ñào tạo giúp ñỡ tận tình, cơ quan nơi công tác tạo mọi ñiều kiện thuận lợi và bạn bè


cùng gia ñình thường xuyên ñộng viên khích lệ.
Luận án này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và
sự giúp ñỡ quí báu của PGS.TS. Phan Thị Tươi, giáo viên hướng dẫn mà tôi tôn
vinh và muốn ñược bày tỏ lòng biết ơn sâu sắc nhất.
Tôi cũng muốn ñược bày tỏ lòng biết ơn ñối với tập thể các thầy cô khoa
Khoa học và Kỹ thuật Máy tính trường Đại học Bách khoa TP. Hồ Chí Minh ñã
giúp ñỡ và tạo ñiều kiện cho tôi rất nhiều trong quá trình học tập và nghiên cứu ở
Khoa; ñặc biệt PGS.TS. Cao Hoàng Trụ, PGS.TS. Dương Tuấn Anh, PGS.TS. Đỗ
Phúc và TS. Đặng Trần Khánh ñã có những lời khuyên quý giá trong quá trình làm
NCS và viết luận án này; cảm ơn Phòng quản lý Sau Đại học về sự hỗ trợ các thủ
tục hoàn thành luận án.
Sự biết ơn của tôi xin ñược gửi ñến gia ñình, vợ con và người thân, ñã hỗ trợ
ñộng viên và tạo mọi ñiều kiện thuận lợi cho tôi trong suốt quá trình hoàn thành
khóa học NCS.
Cuối cùng tôi cảm ơn anh Ngô Hùng Phương cùng tất cả bạn bè, ñặc biệt các
thành viên trong nhóm nghiên cứu BK-NLP (thuộc trường Đại học Bách khoa
Tp.HCM) ñã góp nhiều ý kiến thiết thực và có những lời ñộng viên khích lệ quý báu
giúp tôi vượt qua khó khăn và hoàn thành tốt luận án.
Tác giả luận án

Nguyễn Chánh Thành
TÓM TẮT
Trong truy xuất thông tin (Information Retrieval, IR), do những yếu tố khác
nhau, người sử dụng thường dùng các truy vấn dạng ñơn giản biểu diễn yêu cầu cần
tìm. Việc này dẫn ñến kết quả tìm ñược không ñáp ứng ñủ nhu cầu mong muốn,
hoặc chất lượng thấp. Do ñó, mở rộng truy vấn là vấn ñề cần thiết, ñể từ ñó giúp hệ
thống truy xuất thông tin có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả
truy vấn. Thông tin theo ngữ cảnh có thể thu ñược từ những thông tin phản hồi liên
quan, từ ñồng hiện hay mô hình tri thức như bản thể học (ontology).
Việc ứng dụng ontology ñể trợ giúp việc mở rộng truy vấn ñược nghiên cứu

từ ñầu thập niên 1990 với một số thành công. Trong bài toán mở rộng truy vấn, một
số nhóm nghiên cứu trên thế giới ñã sử dụng ontology WordNet. Một số nhóm khác
ñã phát triển ontology ñể phục vụ nhu cầu mở rộng truy vấn. Những ñịnh hướng ñặc
biệt về cấu trúc ontology cần xây dựng bao gồm ñề xuất về nhóm thành phần lớp,
thể hiện, thuộc tính, hay ñề xuất về nhóm thể hiện, thuộc tính, khái niệm và quan hệ
rời rạc (disjointness), IS-A, và tương ñương (equivalence), hoặc phát triển một mô
hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ WordNet như
quan hệ thượng danh (hypernymy), hạ danh (hyponymy) … cùng một số quan hệ
ñược ñịnh nghĩa thêm như chú giải (gloss), chủ ñề và miền (domain).
Luận án này ñề xuất phương pháp mở rộng truy vấn dựa trên cơ sở bản thể
học (ontology-based query expansion). Để thực hiện mục tiêu trên, luận án phải giải
quyết các vấn ñề chính: (1) ñề xuất cơ sở lý thuyết về các mô hình mở rộng truy vấn
dựa trên ontology; (2) phát triển và huấn luyện ontology bằng phương pháp khai
thác kho ngữ liệu sẵn có và phương pháp rút trích dữ liệu từ WordNet; (3) ñề xuất
phương pháp hoàn thiện và mở rộng truy vấn. Phần thực nghiệm của luận án ñược
tiến hành cho ngôn ngữ tiếng Anh dựa trên nguồn dữ liệu và truy vấn tiếng Anh từ
nguồn TREC (Text REtrieval Conference) trong một số lĩnh vực. Các kết quả thực
nghiệm phản ánh tính khả thi của những phương pháp ñề xuất trong luận án, ñồng
thời cho thấy nhiều triển vọng phát triển của các ñề xuất lý thuyết trong luận án.
MỤC LỤC
M Ụ C L Ụ C i
DANH M Ụ C

CÁC B Ả NG iii
DANH M Ụ C

CÁC HÌNH v
DANH M Ụ C CÁC GI Ả I THU Ậ T

vii

DANH M Ụ C CÁC T Ừ VI Ế T T Ắ T

viii
Ch ươ ng 1 GI Ớ I THI Ệ U 1
1.1 Độ ng c ơ nghiên c ứ u

1
1.2 M ụ c tiêu và ph ạ m vi nghiên c ứ u

5
1.3 Đ óng góp chính c ủ a lu ậ n án

8
1.4 C ấ u trúc c ủ a lu ậ n án

10
1.5 Các quy ướ c

13
1.6 Tóm t ắ t n ộ i dung lu ậ n án

13
Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN

14
2.1 Gi ớ i thi ệ u

14
2.2 Các nghiên c ứ u liên quan trong n ướ c


15
2.3 Các nghiên c ứ u v



ontology

19
2.4 Các nghiên c ứ u v



m ở r ộ ng truy v ấ n

23
2.5 Khai thác d ữ li ệ u t ừ WordNet

39
2.6 Tóm l ượ c

44
Chương 3 XÂY DỰNG NỀN TẢNG HỆ THỐNG

46
3.1 Gi ớ i thi ệ u

46
3.2 Bài toán Xây

d ự ng ontology và bài toán Hoàn ch ỉ nh m ở r ộ ng truy v ấ n


46
3.3 Các mô hình cho bài toán m ở r ộ ng truy v ấ n

60
3.4 M ẫ u nh ậ n d ạ ng c ụ m danh t ừ

65
3.5 Ph ươ ng pháp th ự c nghi ệ m và ñ ánh giá

70
3.6 Ngu ồ n d ữ li ệ u th ự c nghi ệ m

74
3.7 Tóm l ượ c

88
Chương 4 XÂY DỰNG ONTOLOGY OOMP

90
4.1 Gi ớ i thi ệ u

90
4.2 Xây d ự ng ontology OOMP

90
4.3 Ph ươ ng pháp hu ấ n luy ệ n d ự a trên kho ng ữ li ệ u

95
4.4 Ph ươ ng pháp hu ấ n luy ệ n d ự a trên WordNet


100
4.5 C ơ ch ế t ự hu ấ n luy ệ n c ủ a ontology OOMP

107
4.6 Các ứ ng d ụ ng c ủ a ontology và quan h ệ

109
4.7 Tóm l ượ c

110
Chương 5 HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN

112
5.1 Gi ớ i thi ệ u

112
i
5.2 Hoàn ch ỉ nh và rút g ọ n truy v ấ n

113
5.3 Ki ể m tra c ụ m danh t ừ hoàn ch ỉ nh

114
5.4 T ạ o c ụ m danh t ừ hoàn ch ỉ nh

121
5.5 T ạ o c ụ m danh t ừ rút g ọ n

122

5.6 Hoàn ch ỉ nh c ụ m danh t ừ

123
5.7 Gi ả i thu ậ t rút g ọ n thành ph ầ n c ụ m danh t ừ

135
5.8 Tóm l ượ c

140
Chương 6 MỞ RỘNG TRUY VẤN

142
6.1 M ở r ộ ng truy v ấ n cho ñộ ng c ơ tìm ki ế m trên Web

142
6.2 M ở r ộ ng truy v ấ n cho h ệ th ố ng truy xu ấ t thông tin có s ẵ n

153
6.3 Tóm l ượ c

165
Ch ươ ng 7 K Ế T LU Ậ N

167
7.1 Các k ế t qu ả ñạ t ñượ c

167
7.2 H ướ ng phát tri ể n

171

7.3 L ờ i k ế t

172
CÁC CÔNG TRÌNH KHOA H Ọ C C Ủ A TÁC GI Ả

174
TÀI LI Ệ U THAM KH Ả O

177
i
Phụ lục A. Tóm lược về WordNet a
Phụ lục B. Cấu trúc cụm danh từ tiếng Anh c
Phụ lục C. Danh mục từ loại tiếng Anh g
Phụ lục D. Danh mục luật sinh dạng cụm danh từ của văn phạm tiếng Anh xây

dựng dựa trên TreeBank i
Phụ lục E. Tính chất ảnh-tạo ảnh trong toán học o
Phụ lục F. Cấu trúc ñịnh dạng tài liệu TREC p
Phụ lục G. Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án s
ii
DANH MỤC CÁC BẢNG
Bảng 3.1. Danh sách mã lỗi quy ước
57
Bảng 3.2. Các trường hợp liên kết giữa q và q’ ñể tính ℘(q | q' )
63
Bảng 3.3. Các trường hợp liên kết giữa q và q’ ñể tính ℘(q')
63
Bảng 3.4.Tập luật sinh tiếng Anh liên quan cụm danh từ (nguồn [2])
67
Bảng 3.5. Danh sách mẫu cơ bản ñặc tả cụm danh từ

68
Bảng 3.6. Thống kê thành phần dữ liệu từ TREC
76
Bảng 3.7. Danh sách tập chỉ mục xây dựng từ nguồn dữ liệu trong bảng 3.6
78
Bảng 3.8. Thống kê mục từ, tài liệu và liên kết của nguồn dữ liệu
79
Bảng 3.9. Thống kê các tài liệu liên quan theo nguồn dữ liệu
81
Bảng 3.10. Danh sách mẫu sử dụng trong thực nghiệm
83
Bảng 3.11. Thống kê cụm danh từ phân biệt rút trích từ kho ngữ liệu tiếng Anh
84
Bảng 4.1. Thống kê số lượng cụm danh từ theo dạng mẫu
98
Bảng 4.2. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT
99
Bảng 4.3. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT
99
Bảng 4.4. Các thống kê cho dữ liệu huấn luyện

100
Bảng 4.5. Danh mục phân lớp từ vựng sử dụng trong WordNet

105
Bảng 4.6.Thống kê các mục từ dùng trong quá trình huấn luyện WB-BKT

106
Bảng 4.7. Dữ liệu ñược rút trích từ WordNet trong giải thuật WB-KBT


106
Bảng 4.8. Các thống kê cho dữ liệu huấn luyện

106
Bảng 4.9. Dữ liệu bổ sung tạo bởi giải thuật A-KBT

108
Bảng 5.1. Thống kê về thời gian thực thi của giải thuật CNPV

117
Bảng 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi

117
Bảng 5.3. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu

118
Bảng 5.4. Số liệu thống kê các phần tử phân tích trung gian

120
Bảng 5.5. Thống kê về thời gian thực thi của giải thuật NPC

129
Bảng 5.6. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng lỗi

130
Bảng 5.7. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng mẫu

130
Bảng 5.8. Thống kê các phần tử phân tích trung gian của giải thuật NPC


131
9
Bảng 5.9. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật

NPC

131
Bảng 5.10. Phân tích kết quả thực nghiệm của giải thuật NPC

133
Bảng 5.11. So sánh kết quả của phương pháp tìm kiếm thô và NPC

134
Bảng 5.12. Thống kê về thời gian thực thi của giải thuật NPMR

137
Bảng 5.13. Thống kê các phần tử phân tích trung gian của giải thuật NPMR

137
Bảng 5.14. Kết quả thực nghiệm của giải thuật RNPG trên dữ liệu trung gian của giải thuật

NPMR

137
Bảng 5.15. Phân tích kết quả thực nghiệm của giải thuật NPMR

139
Bảng 5.16. So sánh kết quả của phương pháp tìm kiếm thô và NPMR

140

Bảng 6.1. Thống kê về thời gian thực thi của giải thuật SNPE

148
Bảng 6.2. Thống kê các trường hợp xử lý trong giải thuật SNPE theo dạng lỗi

148
Bảng 6.3. Thống kê các phần tử phân tích trung gian của giải thuật SNPE

149
Bảng 6.4. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật

SNPE

149
Bảng 6.5. Phân tích kết quả thực nghiệm của giải thuật SNPE

151
Bảng 6.6. So sánh kết quả của phương pháp tìm kiếm thô và SNPE

153
Bảng 6.7. Thống kê số liệu thực nghiệm trong giải thuật SIC

160
Bảng 6.8. Số liệu chi tiết của tập si_TermLink tạo ra từ giải thuật SIC

161
Bảng 6.9. Thống kê kết quả trong tập si_TermLink tạo ra từ giải thuật SIC

161
Bảng 6.10. So sánh kết quả thực nghiệm 1


163
Bảng 6.11. So sánh kết quả thực nghiệm 2

164
Bảng 6.12. So sánh kết quả thực nghiệm 3

165
10
DANH MỤC CÁC HÌNH
Hình 1.1. Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất thông tin 6
Hình 1.2. Tóm tắt phân bố nội dung các vấn ñề trình bày trong luận án 13
Hình 2.1. Tổ chức hệ thống WordNet phiên bản 3.0 (*) 41
Hình 2.2. Cấu trúc ontology về hình ảnh của S.Zinger 43
Hình 2.3. Đồ thị quan hệ ngữ nghĩa của Boris 43
Hình 3.1. Quan hệ kết hợp OMP 55
Hình 3.2. Ví dụ về cây phân tích (hình b) ñược xây dựng từ quan hệ R
OMP
(hình a) 56
Hình 3.3. Đồ thị ngữ nghĩa G có phân lớp 59
Hình 3.4. Tổ chức phân cấp các mô hình 61
Hình 3.5. Ví dụ về ñặc tả các mẫu trong JAPE 70
Hình 3.6. Tỉ lệ phân bố các mục tài liệu 76
Hình 3.7. Cài ñặt chức năng xây dựng chỉ mục cho dữ liệu dạng XML 77
Hình 3.8. Tổ chức lưu trữ vật lý của các tập chỉ mục 78
Hình 3.9. Tổ chức cơ sở dữ liệu lưu trữ thông tin của các chỉ mục 79
Hình 3.10. Cài ñặt chức năng nạp dữ liệu chỉ mục vào cơ sở dữ liệu 80
Hình 3.11. Thống kê số lượng tài liệu liên quan xác ñịnh ñược 81
Hình 3.12. Tỉ lệ tài liệu liên quan xác ñịnh ñược 82
Hình 3.13. Thống kê tập mẫu sử dụng trong thực nghiệm 82

Hình 3.14. Tỉ lệ chọn lọc cụm danh từ hợp lệ theo chiều dài cụm danh từ 85
Hình 3.15. Kết quả rút trích cụm danh từ hợp lệ trong huấn luyện 85
Hình 3.16. Tổ chức lưu trữ cụm danh từ rút trích từ các nguồn dữ liệu 86
Hình 3.17. Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu 86
Hình 3.18. Phân bổ cụm danh từ trong tập TEST_DATA theo các nhóm mẫu 87
Hình 4.1. Cấu trúc mức luận lý của ontology OOMP 91
Hình 4.2. Cấu trúc ontology OOMP về tổ chức cơ sở dữ liệu quan hệ 91
Hình 4.3. Đặc tả luận lý cho cấu trúc ontology OOMP 92
Hình 4.4. Các phương pháp huấn luyện ontology OOMP 95
Hình 4.5. Phương pháp huấn luyện dựa trên kho ngữ liệu 95
Hình 4.6. Quan hệ R
m
ñược xây dựng từ quan hệ holonymy trong WordNet 101
11
Hình 4.7. Quan hệ R
m
ñược xây dựng từ quan hệ meronymy trong WordNet

101
Hình 4.8. Quan hệ R
p
ñược xây dựng từ quan hệ attribute trong WordNet

101
Hình 4.9. Quan hệ R
m
ñược xây dựng từ quan hệ similar trong WordNet

101
Hình 4.10. Quan hệ R

m
và R
p
ñược xây dựng từ quan hệ similar trong WordNet

102
Hình 4.11. Quan hệ R
p
ñược xây dựng từ quan hệ similar trong WordNet

102
Hình 4.12. Tổ chức dữ liệu của WordNet phiên bản 3.0

104
Hình 4.13. Thống kê số lượng các quan hệ trong WordNet

104
Hình 5.1. Mô hình hệ thống hoàn chỉnh và rút gọn truy vấn

113
Hình 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu

120
Hình 5.3. Thống kê các trường hợp xử lý theo dạng lỗi ở mức chi tiết

129
Hình 5.4. Cài ñặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật NPC

132
Hình 5.5. Thống kê số liệu các ñộ ño theo nguồn dữ liệu


132
Hình 5.6. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu

133
Hình 5.7. Cài ñặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật NPMR

138
Hình 5.8. Thống kê số liệu các ñộ ño theo nguồn dữ liệu

139
Hình 5.9. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu

140
Hình 6.1. Mô hình hệ thống mở rộng truy vấn với ñộng cơ tìm kiếm thông tin

143
Hình 6.2. Cài ñặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật SNPE

150
Hình 6.3. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu

152
Hình 6.4. Thống kê số liệu các ñộ ño theo nguồn dữ liệu

152
Hình 6.5. Minh họa tính chất (6.1)

154
Hình 6.6. Ứng dụng tính chất (6.1) vào mở rộng kết quả tìm kiếm


155
Hình 6.7. Mô hình hệ thống mở rộng truy vấn kết hợp hệ thống truy xuất thông tin dựng

sẵn

155
Hình 6.8. Mô hình tổ chức chỉ mục hướng ngữ nghĩa

156
Hình 6.9. So sánh số liên kết tạo thành theo nguồn dữ liệu

162
Hình 6.10. So sánh tỉ lệ liên kết tạo thành theo nguồn dữ liệu

162
Hình 7.1. Phương pháp thực hiện của vấn ñề 4

172
DANH MỤC CÁC GIẢI THUẬT
Giải thuật 4.1. Huấn luyện ontology dựa trên kho ngữ liệu 96
Giải thuật 4.2. Huấn luyện ontology dựa trên WordNet 103
Giải thuật 4.3. Huấn luyện ontology tự ñộng 107
Giải thuật 5.1. Kiểm tra cụm danh từ hoàn chỉnh 114
Giải thuật 5.2. Tạo cụm danh từ hoàn chỉnh 121
Giải thuật 5.3. Tạo cụm danh từ rút gọn 122
Giải thuật 5.4. Hoàn chỉnh cụm danh từ 123
Giải thuật 5.5. Rút gọn thành phần cụm danh từ 135
Giải thuật 6.1. Mở rộng cụm danh từ tương ñương 144
Giải thuật 6.2. Tạo chỉ mục hướng ngữ nghĩa 157

Giải thuật 6.3. Tìm kiếm kết hợp 158
vii
DANH MỤC CÁC TỪ VIẾT TẮT
STT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt
1 A-KBT Auto
Knowledge Base
Training
2 CB-KBT Corpus-
Based Knowledge
Base Training
Huấn luyện ontology tự ñộng
Huấn luyện ontology dựa trên kho
ngữ liệu
3 CL Concept Lattice Lưới khái niệm
4 CLIR Cross-
Language

Information Retrieval
5 CNPV Complete
Noun Phrase
Verification
6 CREOLE Collection
of
REusable
Object for Language
Engineering
Truy xuất thông tin xuyên ngôn ngữ
Kiểm tra tính hoàn chỉnh của cụm
danh từ
Tập ñối tượng khả tái sử dụng cho

ñộng cơ ngôn ngữ
7 DC Dice Coefficient Hệ số khối
8 EEM External Expansion Model Mô
hình mở rộng ngoại vi
9 FCA Formal Concept Analysis Phân
tích Khái niệm Chính quy
10 GATE General
Architecture for
Text Engineering
Kiến trúc tổng quát cho ñộng cơ
văn bản
11 HS Hybrid Search Tìm kiếm kết hợp
12 IDF Inverse-
Document

Frequency
Tần suất nghịch ñảo tài liệu
13 IR Information Retrieval Truy xuất
thông tin
14 ISE Internal Search Engine Động cơ tìm
kiếm thông tin cục bộ
15 JAPE Java
Annotation
Patterns
Engine
Động cơ mẫu chú giải Java
16 MAP Mean Average Precision Độ
chính xác trung bình bình quân
17 NPC Noun Phrase Completion Hoàn
chỉnh thành phần cụm danh từ

18 NPRM Noun Phrase
Member
Reduction
Rút gọn thành phần cụm danh từ
viii
19 OMP Object-Member-Property Đối
tượng-Thành phần-Tính chất
20 OOMP Ontology
of Object-
Member-Property
Cơ sở tri thức của Đối tượng-Thành
phần-Tính chất
21 QEM Query Expansion ModelMô hình mở
rộng truy vấn
22 SIC Semantic Index Creation Tạo
chỉ mục hướng ngữ nghĩa
23 SNPE Similar Noun
Phrase
Expansion
Mở rộng cụm danh từ tương ñương
24 TREC Text REtrieval Conference Hội
nghị về Truy xuất văn bản
25 WB-KBT WordNet-Based
Knowledge
Base Training
Huấn luyện ontology dựa trên
WordNet
viii
Chương 1


GIỚI THIỆU
1.1 Động cơ nghiên cứu
Như chúng ta ñã biết, internet (web)
a
ñược xem là nguồn thông tin khổng lồ
của nhân loại. Theo thời gian, nguồn thông tin này không ngừng ñược chia sẻ, mở
rộng và phát triển. Các thông tin trên Web hầu hết ñược thể hiện ở dạng văn bản
biểu diễn bởi ngôn ngữ tự nhiên, trong ñó phần lớn là thông qua các trang Web,
thường chỉ phù hợp với khả năng ñọc hiểu của người sử dụng. Đồng thời với sự
phát triển của Web là sự gia tăng rất lớn về nhu cầu truy xuất thông tin của người sử
dụng, trong ñó việc tìm kiếm các thông tin thể hiện trong ngôn ngữ tiếng Anh
chiếm tỉ lệ ñáng kể. Đặc biệt trong những năm gần ñây, nhu cầu truy cập tin tức trên
Web của người dân Việt nam rất cao (theo [4], giai ñoạn 1997-2007 internet Việt
Nam ñã liên tục phát triển với khoảng 18 triệu người tham gia sử dụng, tương
ñương 21% dân số) xuất phát từ các nhu cầu chủ yếu như xem tin tức, trao ñổi
thông tin, và ñặc biệt số lượng rất lớn là tác vụ tìm kiếm thông tin cần thiết.
Để phục vụ cho những nhu cầu tìm kiếm thông tin của người sử dụng, các hệ
thống truy xuất thông tin (IR) ñã ñược nghiên cứu và phát triển, trong ñó thành
công nhất là một số ñộng cơ tìm kiếm (search engine) nổi tiếng như Google [148] –
Yahoo [165] – Alta Vista [145] và Bing [152] trong thời gian gần ñây Tuy nhiên,
thông qua các hệ thống ñó, việc tìm kiếm thông tin thường không nhận ñược ñầy ñủ
a
internet còn ñược gọi là World Wide Web, viết gọn là WWW hay Web
1
6
kết quả cần thiết như mong muốn cũng như hiệu suất của chúng còn có một số giới

hạn nhất ñịnh.
Nguyên nhân chủ yếu ảnh hưởng ñến vấn ñề này là:
− Ngữ nghĩa của tài liệu bị mất ñi do cách biểu diễn truy vấn dưới dạng một

tập các từ khóa.
− Yêu cầu thông tin (truy vấn) của người sử dụng thường chỉ bao gồm một vài
từ khóa cốt lõi, không thể hiện ñủ ngữ nghĩa cần thiết.
− Người sử dụng không cung cấp ñủ thông tin truy vấn cần thiết cho ñộng cơ
tìm kiếm.
− Động cơ tìm kiếm thông tin hoạt ñộng dựa trên cơ chế so trùng từ khóa và
chưa quan tâm ñúng mức ñến yếu tố ngữ nghĩa trong tương tác và hỗ trợ
người dùng.
− Các ñộng cơ tìm kiếm hiện có thường hỗ trợ chính cho tiếng Anh, nhưng
thiếu công cụ trợ giúp cho ngôn ngữ khác …
Điều này dẫn ñến tình trạng:
− Người sử dụng phải dành một lượng thời gian khá lớn ñể ñọc hiểu và chọn
lọc lại các thông tin ñể có những kết quả mong muốn.
− Người sử dụng gặp khó khăn trong việc diễn ñạt nội dung của vấn ñề cần
tìm.
− Người sử dụng không nhận ñược một kết quả trả lời trọn vẹn hoàn chỉnh (dù
chỉ cần ở mức tóm lược ngắn gọn) như mong muốn về một vấn ñề cần tìm.
− Thiếu một hệ thống tìm kiếm thông tin nhanh và linh hoạt ñể không chỉ có
thể tìm các thông tin trong tài liệu tiếng Anh (như truyền thống) và tiếng Việt
theo cơ chế so trùng từ khóa, mà còn có thể trả lời các câu hỏi của người sử
dụng (trong phạm vi xác ñịnh cho tiếng Việt).
− Hệ thống chưa thực sự ñủ mạnh ñể nhận biết ngữ nghĩa của truy vấn.
Từ các phân tích trên, chúng ta nhận thấy nguyên nhân chính là các hệ thống
tìm kiếm thông tin chưa ñủ mạnh nên kết quả ñưa ra không thể hỗ trợ người dùng
như mong ñợi. Truy vấn của người dùng cũng chưa phản ánh ñầy ñủ ngữ nghĩa ñể
hỗ trợ cho các quá trình tìm kiếm và truy xuất thông tin ñược tốt hơn. Vì vậy, việc
bổ sung ngữ nghĩa vào truy vấn ban ñầu của người dùng là yêu cầu cần thiết.
Một bài toán kinh ñiển trong lĩnh vực Truy xuất thông tin là Mở rộng truy
vấn. Đó là quá trình bổ sung một số từ vào truy vấn của người dùng nhằm tạo ra các
truy vấn mới tương ñồng ngữ nghĩa. Bài toán này là vấn ñề ñược quan tâm vì nó có

thể loại bỏ nhập nhằng ngữ nghĩa của truy vấn trong ngôn ngữ tự nhiên, cũng như
khắc phục những hạn chế của việc sử dụng từ khóa ñể thể hiện một khái niệm thông
tin. Krovetz và Croft [109] ñã quan sát thấy phần lớn các lợi ích thu ñược trong việc
tìm kiếm thông tin có ñộ truy hồi cao phụ thuộc vào việc so trùng các từ khóa. Đối
với việc mở rộng truy vấn, hệ thống xác ñịnh ngữ nghĩa truy vấn ñược chính xác
hơn, ñiều ñó cho phép kết quả truy vấn tốt hơn. Thông qua kết quả truy vấn mở
rộng, người dùng có thể học tập cách phát biểu truy vấn rõ ràng và chính xác hơn ñể
thu ñược các kết quả hữu ích.
Từ một truy vấn của người dùng, mở rộng truy vấn sẽ bổ sung vào ñó một số
từ hay thuật ngữ liên quan và tạo ra dạng truy vấn mới có thể bao phủ thông tin
rộng hơn. Như vậy, tài liệu mong ñợi ñể thu nhận sẽ nhiều hơn dẫn ñến tỉ lệ bao phủ
thông tin tăng lên tương ứng. Quá trình thêm những thuật ngữ này có thể thực hiện
bằng tay, tự ñộng hoặc có người dùng trợ giúp. Việc mở rộng truy vấn bằng tay dựa
vào sự am hiểu và thành thạo của con người ñể ñưa ra quyết ñịnh, nhằm nhúng các
thuật ngữ vào truy vấn mới. Trong trường hợp mở rộng tự ñộng truy vấn, các trọng
số ñược tính cho tất cả các thuật ngữ nhằm giúp hệ thống thêm những thuật ngữ có
trọng số cao nhất vào truy vấn ban ñầu. Các hàm tính trọng số khác nhau ñưa ra
những kết quả khác nhau, do ñó hiệu suất của việc truy vấn phụ thuộc vào cách thức
tính các trọng số. Với dạng mở rộng truy vấn có người dùng trợ giúp, hệ thống sẽ
sinh ra các thuật ngữ phù hợp cho việc mở rộng truy vấn và người dùng tự chọn một
số trong các thuật ngữ ñó ñể thêm vào.
Vấn ñề cốt lõi của bài toán mở rộng truy vấn là xác ñịnh các từ thích hợp ñể
thêm vào truy vấn của người dùng. Nhiều nghiên cứu ñược công bố về mở rộng
truy vấn trong ñó hướng ñến việc sử dụng thông tin ngữ cảnh ñể xác ñịnh các từ cần
thêm một cách hợp lý. Thông tin theo ngữ cảnh có thể thu ñược từ các thông tin
phản hồi liên quan (relevance feedback), từ các từ ñồng hiện (co-occurrence term)
và trong thời gian gần ñây là từ các mô hình tri thức như bản thể học (ontology).
Hiện nay, thông tin liên quan ngữ cảnh của truy vấn là một vấn ñề ñang ñược
các nhà nghiên cứu khai thác nhằm cải tiến quá trình truy xuất thông tin. Theo
Finkelstein [92] ngữ cảnh chưa có ñịnh nghĩa chuẩn xác, nhưng theo [124] thì có

hai ñịnh nghĩa về ngữ cảnh. Định nghĩa thứ nhất theo ngôn ngữ học “ngữ cảnh là
các phần của bài luận bao quanh từ hay ñoạn văn và có thể làm sáng tỏ nghĩa của
nó”
b
. Định nghĩa thứ hai dựa trên tình huống “các ñiều kiện tương quan trong ñó
một ñiều gì ñó tồn tại hay xảy ra”
c
. Từ ñó, một nhận ñịnh chung là thông qua
tương tác của người dùng lên hệ thống truy xuất thông tin, ngữ cảnh tương ứng sẽ
bao gồm những thông tin liên quan ñến những hành ñộng, những quyết ñịnh của
người dùng.
Ngữ cảnh trong truy xuất thông tin bao gồm nhiều vấn ñề trong ñó có mở
rộng truy vấn. Một khó khăn là làm sao biểu diễn ñược nghĩa của truy vấn bằng các
thuật ngữ (term) một cách chính xác. Do vậy, mở rộng truy vấn cho phép người
dùng thực hiện tìm kiếm thông tin bằng truy vấn mới có các thuật ngữ là sự biến ñổi
hình thái của thuật ngữ ban ñầu và (hoặc) một số thuật ngữ mới ñược thêm vào truy
vấn nhờ kết quả khử nhập nhằng nghĩa của truy vấn ban ñầu. Nhiều phương pháp
tiếp cận khác nhau ñược ñề xuất hướng ñến việc mở rộng truy vấn. Trong ñó, có
nhiều nghiên cứu hướng ñến việc sử dụng ontology ñể hỗ trợ suy luận ngữ cảnh cho
các truy vấn nhập nhằng. Các khái niệm trong ontology ñược dùng ñể khử nhập
nhằng ngữ nghĩa của từ và hỗ trợ ñể mở rộng truy vấn. Việc mở rộng truy vấn ñạt
thành công ở một mức ñộ nhất ñịnh nhưng vẫn còn nhiều vấn ñề cần cải thiện về kỹ
b
Nguyên văn: “the parts of a discourse that surround a word or passage and can throw light on its meaning”
c
Nguyên văn: “the interrelated conditions in which something exists or occurs”
thuật, giao diện hoặc giải thuật ñể xác ñịnh ngữ nghĩa một cách chính xác hơn từ ñó

cải tiến kết quả truy vấn.
Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tin (trên

internet), cùng với hướng giải quyết làm sao ñể hệ thống IR có thể hiểu nhiều hơn
và thông minh hơn khi xử lý truy vấn ban ñầu của người dùng, thì yêu cầu về một
hệ thống truy xuất thông tin có khả năng tạo ra những truy vấn tương ñồng hoặc
cùng mục tiêu là bài toán quan trọng. Do ñó, thông qua những khảo sát phân tích
nêu trên, vấn ñề mở rộng truy vấn là bài toán quan trọng mà luận án này nghiên cứu
và ñề xuất phương pháp giải quyết.
1.2 Mục tiêu và phạm vi nghiên cứu
Từ ñộng cơ nghiên cứu nêu trên, luận án ñề xuất một số phương pháp mở
rộng truy vấn ban ñầu của người dùng. Đây là vấn ñề cốt lõi và ñồng thời là mục
tiêu nghiên cứu của luận án.
Hiện nay trên thế giới nhiều phương pháp tiếp cận bài toán mở rộng truy vấn
trên cơ sở sử dụng cơ sở tri thức ñã ñược công bố như:
− Mở rộng truy vấn sử dụng cơ sở tri thức có tương tác kho ngữ liệu (công
trình [11] [22] [60] [86] [61] [102] [106] [116] [137] và [141] )
− Mở rộng truy vấn sử dụng các cơ sở tri thức không tương tác kho ngữ liệu

(công trình [29] [53] [54] [56] [59] [66] [76] [89] [92] [110] [136] …)
Mỗi phương pháp ñều có ưu, nhược ñiểm cùng với những công trình nghiên
cứu và các thực nghiệm liên quan. Từ việc khảo sát phân tích những phương pháp
này (xem chương 2), dựa trên những giải pháp khả thi ñã ñược công bố trên thế
giới, hướng tiếp cận chính của luận án là mở rộng truy vấn sử dụng cơ sở tri thức
không tương tác kho ngữ liệu.
Để luận án mang tính khả thi cả về lý thuyết lẫn thực tiễn và mang lại kết
quả như mong muốn, tác giả ñã thực hiện:
(a) Nghiên cứu và phát triển cơ sở lý thuyết của phương pháp tiếp cận mới

cho việc
mở rộng truy vấn, trên cơ sở kết hợp với ontology
d
.

(b) Nghiên cứu và phát triển cấu trúc tổ chức ontology cùng giải pháp huấn

luyện tạo
dữ liệu ban ñầu nhằm kiểm chứng kết quả nghiên cứu ở (a) và có thể triển

khai
trong thực tế ñể mang lại kết quả truy xuất thông tin tốt hơn.
Như ñịnh hướng nêu trên, phạm vi nghiên cứu của luận án ñược thể hiện
trong hình 1.1 (trong khung ñường gạch ñứt nét).
(A)
Nhập:

Câu truy
vấn
dạng cụm

danh từ
Bộ xử lý
mở rộng
truy vấn
trên cơ sở
kết hợp
với
ontology
Xuất:

Các câu
truy
vấn:
- dạng cụm


danh từ,
- ñã ñược mở

rộng có
dạng
truy vấn
hoàn

chỉnh.
(B)
Động cơ
tìm kiếm
thông tin
Kết quả
trả

về (tập
tài

liệu)
(C)
Hình 1.1. Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất thông tin
(A) Mô hình xử lý của luận án (phạm vi nghiên cứu của luận án)
(B) Động cơ tìm kiếm thông tin (thuộc hệ thống truy xuất thông tin)
(C) Kết quả tìm kiếm thông tin từ yêu cầu của các câu truy vấn ñã mở rộng
Với mô hình ñược mô tả ở hình 1.1, trong mục (A), câu truy vấn nhập (dạng
cụm danh từ bao gồm các thành phần là tính từ hay chỉ có danh từ ñơn) ñược xử lý
ñể trả về tập các câu truy vấn ñã ñược mở rộng (cụm danh từ có dạng truy vấn hoàn
chỉnh

e
). Trong phạm vi luận án, dựa trên giải pháp rút trích các từ ñặc trưng cốt lõi
d
Khái niệm ontology còn ñược diễn dịch là “cây phả hệ tri thức” hay “cơ sở tri thức”
e
Tham khảo thêm ñịnh nghĩa 3.10-Truy vấn hoàn chỉnh, mục 3.2.6, chương 3.
cho một câu ([23] [149]), câu truy vấn ban ñầu của người dùng ñược tiền xử lý ñể
loại bỏ các thành phần không quan trọng nhằm giữ lại những thành phần chính thỏa
ñiều kiện truy vấn hoàn chỉnh. Điều ñó sẽ giúp giảm ñược ñộ phức tạp hay dạng
biểu diễn phức hợp của truy vấn, ñồng thời còn giúp ñảm bảo tính duy nhất của
từng thành phần trong truy vấn thỏa ñiều kiện truy vấn hoàn chỉnh.
Mục (B) của hình trên gồm ñộng cơ tìm kiếm thông tin (search engine). Đây
là một bộ phận quan trọng của hệ thống Truy xuất Thông tin (Information
Retrieval). Động cơ tìm kiếm thông tin giải quyết ba vấn ñề cốt lõi là mô hình biểu
diễn văn bản, thuật toán tìm kiếm so trùng từ khóa - ñối sánh ngữ nghĩa tương ứng
với các truy vấn và cơ chế lọc kết quả truy xuất. Hiện tại trên thế giới có những
ñộng cơ tìm kiếm thông tin nổi tiếng như Google, Yahoo, Microsoft Bing … Tuy
nhiên, nghiên cứu của luận án chỉ sử dụng những ñộng cơ này như một công cụ hỗ
trợ việc tìm kiếm thông tin cho truy vấn ñã mở rộng bằng phương pháp xử lý của
luận án và không ñặt mục tiêu nghiên cứu ba vấn ñề nêu trên. Vì vậy luận án ñã
không trình bày ba vấn ñề này.
Mô hình xử lý của luận án (trong mục (A)) chỉ thực hiện việc mở rộng nội
dung của truy vấn nhập nên hoàn toàn không làm ảnh hưởng ñến ba khía cạnh nêu
trên trong quá trình vận hành của ñộng cơ tìm kiếm ở mục (B). Điều này còn cho
thấy phạm vi nghiên cứu của luận án hướng ñến bài toán mở rộng truy vấn dựa trên
ontology và hoàn toàn khác biệt so với ba khía cạnh ñã nêu.
Từ những trình bày trên, các bài toán chính cần giải quyết trong phạm vi
luận án bao gồm:
Bài toán 1 - Xây dựng ontology
OOMP

Nghiên cứu và phát triển cấu trúc ontology OOMP (Ontology of Object-
Member-Property) cùng cơ chế huấn luyện dữ liệu. Dựa trên tập tài liệu tiếng Anh
f
từ nguồn TREC và khai thác dữ liệu từ WordNet ñể huấn luyện dữ liệu ontology
OOMP nhằm phục vụ yêu cầu của bài toán 2. Nếu bài toán 1 ñược giải quyết thành
f
Tham khảo phần giới thiệu của chương 4 về lý do sử dụng nguồn tài liệu tiếng Anh trong thực nghiệm.
công, một ontology có chất lượng ñược tạo thành sẽ giúp cung cấp nhiều khả năng
chọn lựa cho các thông tin hơn, ñể bổ sung vào từ khóa ban ñầu của người dùng,
dẫn ñến việc nâng cao chất lượng của việc mở rộng truy vấn. Việc giải quyết bài
toán này ñược trình bày chi tiết trong chương 4 của luận án.
Bài toán 2 - Xây dựng phương pháp hoàn chỉnh mở rộng truy vấn
Dựa trên ontology ở bài toán 1, nghiên cứu xây dựng phương pháp tiếp cận
mới cho việc mở rộng truy vấn nhằm tạo truy vấn kết quả có dạng truy vấn hoàn
chỉnh (biểu diễn ở dạng cụm danh từ về mặt ngôn ngữ học) và xây dựng các giải
thuật hỗ trợ trong phạm vi bài toán 2. Các chương 4, 5 và 6 sẽ lần lượt trình bày chi
tiết từng phần của những phương pháp giải quyết bài toán này.
Luận án chủ yếu tập trung xử lý truy vấn ngắn với ba thành phần nên không
nghiên cứu vấn ñề ngữ cảnh của câu truy vấn. Và thực tế việc nghiên cứu về ngữ
nghĩa của cụm từ và câu có ảnh hưởng của ngữ cảnh là vấn ñề rất khó và hiện nay
cũng ñang ñược nhiều nhà khoa học quan tâm, là lĩnh vực khác nằm ngoài phạm vi
của luận án.
1.3 Đóng góp chính của luận án
Các vấn ñề nghiên cứu của luận án ñã có một số ñóng góp mới về mặt khoa
học từ phương pháp luận ñến giải pháp thực hiện:
* Đóng góp thứ nhất: ñề xuất phương pháp xác ñịnh các quan hệ của các
khái niệm bao gồm:
− Quan
hệ
− Quan

hệ
R
m
xác ñịnh thành phần ñặc trưng (member) của ñối tượng (object).
R
p
tính chất ñặc trưng (property) của thành phần.
− Các quan hệ xác ñịnh tính chất trội
R
m và R
p
liên quan.
Các phương pháp mà luận án ñề xuất không những có thể áp dụng trong
phạm vi luận án ñể giải quyết Bài toán 1 và Bài toán 2 nêu trên mà còn có thể áp
dụng trong một số lĩnh vực khác ñể tạo ontology cho một miền khái niệm (trong
lĩnh vực xử lý ngôn ngữ tự nhiên). Ngoài ra, từ góc ñộ toán học, việc xây dựng các
lớp ñồng dạng (liên quan ñến nhóm các ñối tượng, nhóm các thành phần ñặc trưng
f
f
và nhóm các tính chất ñặc trưng
g
) từ các quan hệ nêu trên sẽ giúp cho việc phân
loại ñối tượng hiệu quả hơn. Công trình [ii], [iv], [v] và [ix]
h
ñã giới thiệu phương
pháp xác ñịnh các quan hệ cùng ñịnh nghĩa của những khái niệm này.
Phần ñóng góp này sẽ không thực sự ñầy ñủ nếu không có các ñịnh nghĩa
+OB
−IR
+OB+P

−IR
+OB
+IR
+OB+P
+IR
cùng khái niệm truy vấn hoàn chỉnh,
cây phân tích và dạng ñồ thị ngữ nghĩa do tác giả ñề xuất, liên quan ñến việc mô

hình hóa bài toán mở rộng truy vấn.
* Đóng góp thứ hai: ñề xuất mô hình ontology OOMP cùng các phương
pháp huấn luyện dữ liệu:
− Phương pháp huấn luyện dựa trên kho ngữ liệu sẵn có (Corpus-Based
Knowledge Base Training, CB-KBT).
− Phương pháp huấn luyện dựa trên ontology WordNet sẵn có (WordNet-
Based Knowledge Base Training, WB-KBT).
− Phương pháp tự huấn luyện dựa trên nội dung sẵn có của ontology từ hai
phương pháp CB-KBT và WB-KBT cùng WordNet (Auto Knowledge Base
Training, A-KBT).
Ontology OOMP không những ñược dùng ñể phục vụ bài toán mở rộng truy
vấn mà còn có thể ñược sử dụng cho những bài toán khác theo hướng khai thác các
quan hệ khái niệm. Ngoài ra, từ góc ñộ ngôn ngữ học, các thành phần của ontology
OOMP ñược phân lớp dựa trên một số dạng từ loại chính (như danh từ, tính từ) nên
cấu trúc của chúng ít phụ thuộc vào sự khác nhau của các ngôn ngữ tự nhiên. Do ñó,
việc phát triển ontology trên những ngôn ngữ tự nhiên khác (như tiếng Việt hay
Pháp …) tương ñối thuận lợi. Nội dung liên quan ñến ñóng góp này ñược công bố
trong [iv], [v] và [ix].
* Đóng góp thứ ba: ñề xuất mô hình xử lý truy vấn (truy vấn tiếng Anh,
dạng cụm danh từ) trên ontology OOMP, gồm các giải thuật:
g
Tham khảo thêm hình 3.3, trang 59 về các lớp này.

h
Tham khảo thêm phần Các công trình khoa học.
MQE
,
MQE
,
MQE
,
MQE
− Kiểm tra tính hoàn chỉnh của cụm danh từ (Complete Noun Phrase
Verification, CNPV)
− Hoàn chỉnh cụm danh từ (Noun Phrase Completion, NPC)
− Mở rộng cụm danh từ tương tự (Similar Noun Phrase Expansion, SNPE)
Mô hình cùng các phương pháp xử lý truy vấn này có thể áp dụng trong Bài
toán 2, cũng như trong các bài toán khác như:
− Kiểm tra tính hoàn chỉnh của cụm danh từ tiếng Anh theo quan ñiểm ngôn
ngữ học tính toán (ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên: truy
xuất thông tin, rút trích thông tin, tóm lược nội dung văn bản).
− Hoàn chỉnh và mở rộng cụm danh từ tương ñương (ứng dụng trong lĩnh vực
xử lý ngôn ngữ tự nhiên: truy xuất thông tin, rút trích thông tin, tóm lược nội
dung văn bản) ….
Các phương pháp và giải thuật liên quan ñến ñóng góp này ñược giới thiệu
trong [ii], [v] và [ix].
* Đóng góp thứ tư: Phương pháp xây dựng chỉ mục hướng ngữ nghĩa
(Semantic Index Creation, SIC) thông qua việc mở rộng cấu trúc chỉ mục ñể lưu trữ
thêm thông tin liên quan ngữ nghĩa ñến ontology xác ñịnh. Đây chính là cầu nối
giúp triển khai những nghiên cứu lý thuyết vào ứng dụng thực tiễn trong lĩnh vực
truy xuất thông tin. Kết quả thu ñược từ phương pháp này tạo tiền ñề cho nhiều
nghiên cứu ứng dụng liên quan ñến truy xuất thông tin. Phương pháp này ñược trình
này trong công trình [iv] và ñược phát triển trong [iii] và [viii].

Những kết quả ñạt ñược này ñồng thời ñược áp dụng cho công trình [xii] và
dự ñịnh áp dụng cho công trình [xiii].
1.4 Cấu trúc của luận án
Luận án ñược chia thành bảy chương và bảy phụ lục. Chương 1 trình bày
mục tiêu, phạm vi và những ñóng góp chính của luận án; giới thiệu cấu trúc của
luận án; liệt kê các qui ước về ký hiệu viết tắt và tên các thuật ngữ ở dạng tiếng
nước ngoài. Trong mỗi chương tiếp theo, từ chương 2 ñến chương 6 ñều có phần
giới thiệu và phần tóm lược. Chương 7 là kết luận của luận án.
25

×