Tải bản đầy đủ (.pdf) (232 trang)

Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (10.79 MB, 232 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM

NGUYỄN CHÁNH THÀNH

XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN
TRONG TRUY XUẤT THÔNG TIN VĂN BẢN

LUẬN ÁN TIẾN SĨ KỸ THUẬT

TP.HỒ CHÍ MINH – 2010


ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM

NGUYỄN CHÁNH THÀNH

XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN
TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 62.48.01.01

LUẬN ÁN TIẾN SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. PHAN THỊ TƯƠI

TP.HỒ CHÍ MINH – 2010



LỜI CAM ĐOAN
Tôi cam ñoan rằng nội dung của luận án này là kết quả nghiên cứu của bản
thân. Tất cả những tham khảo từ các nghiên cứu liên quan ñiều ñược nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong luận án. Những ñóng góp
trong luận án là kết quả nghiên cứu của tác giả ñã ñược công bố trong các bài báo
khoa học trong phần “Các công trình khoa học” của luận án và chưa ñược công bố
trong bất kỳ công trình khoa học nào khác.
Tác giả luận án

Nguyễn Chánh Thành


LỜI CẢM ƠN
Trong quá trình hoàn thành luận án này, tôi ñã ñược các thầy cô nơi cơ sở
ñào tạo giúp ñỡ tận tình, cơ quan nơi công tác tạo mọi ñiều kiện thuận lợi và bạn bè
cùng gia ñình thường xuyên ñộng viên khích lệ.
Luận án này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và
sự giúp ñỡ quý báu của PGS.TS. Phan Thị Tươi, giáo viên hướng dẫn mà tôi tôn
vinh và muốn ñược bày tỏ lòng biết ơn sâu sắc nhất.
Tôi cũng muốn ñược bày tỏ lòng biết ơn ñối với tập thể các thầy cô khoa
Khoa học và Kỹ thuật Máy tính trường Đại học Bách khoa TP. Hồ Chí Minh ñã
giúp ñỡ và tạo ñiều kiện cho tôi rất nhiều trong quá trình học tập và nghiên cứu ở
Khoa; ñặc biệt PGS.TS. Dương Tuấn Anh, PGS.TS. Đỗ Phúc, PGS.TS. Đặng Trần
Khánh và PGS.TS. Cao Hoàng Trụ ñã có những lời khuyên quý giá trong quá trình
làm nghiên cứu sinh và viết luận án này; cảm ơn Phòng Đào tạo Sau Đại học về sự
hỗ trợ các thủ tục hoàn thành luận án.
Lời cảm ơn chân thành của tôi xin ñược gửi ñến anh Ngô Hùng Phương cùng
tất cả bạn bè, ñặc biệt các thành viên trong nhóm nghiên cứu BK-NLP (thuộc
trường Đại học Bách khoa Tp.HCM) ñã góp nhiều ý kiến thiết thực và có những lời
ñộng viên khích lệ quý báu giúp tôi vượt qua khó khăn và hoàn thành tốt luận án.

Sự biết ơn của tôi xin ñược gửi ñến gia ñình, vợ con và tất cả người thân, ñã
hỗ trợ ñộng viên và tạo mọi ñiều kiện thuận lợi cho tôi trong suốt quá trình hoàn
thành khóa học nghiên cứu sinh.
Cuối cùng, trên tất cả những lời muốn nói, tôi xin tưởng nhớ và tri ân sâu sắc
Mẹ và Bà Ngoại tôi, những người ñã luôn cho tôi ñược học hành ñầy ñủ dù ở bất kỳ
hoàn cảnh nào và luôn truyền cho tôi một tinh thần hiếu học không ngừng nghỉ.
Tác giả luận án
Nguyễn Chánh Thành















TÓM TẮT
Trong truy xuất thông tin (Information Retrieval), do những yếu tố khác
nhau, người sử dụng thường dùng các truy vấn dạng ñơn giản biểu diễn yêu cầu cần
tìm. Việc này dẫn ñến kết quả tìm ñược không ñáp ứng ñủ nhu cầu mong muốn,
hoặc chất lượng thấp. Do ñó, mở rộng truy vấn là vấn ñề cần thiết, ñể từ ñó giúp hệ
thống truy xuất thông tin có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả
truy vấn. Thông tin theo ngữ cảnh có thể thu ñược từ những thông tin phản hồi liên

quan, từ ñồng hiện hay mô hình tri thức như bản thể học (ontology).
Việc ứng dụng ontology ñể trợ giúp việc mở rộng truy vấn ñược nghiên cứu
từ ñầu thập niên 1990 với một số thành công. Trong bài toán mở rộng truy vấn, một
số nhóm nghiên cứu trên thế giới ñã sử dụng ontology WordNet. Một số nhóm khác
ñã phát triển ontology ñể phục vụ nhu cầu mở rộng truy vấn. Những ñịnh hướng ñặc
biệt về cấu trúc ontology cần xây dựng bao gồm ñề xuất về nhóm thành phần lớp,
thể hiện, thuộc tính, hay ñề xuất về nhóm thể hiện, thuộc tính, khái niệm và quan hệ
rời rạc (disjointness), IS-A, và tương ñương (equivalence), hoặc phát triển một mô
hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ WordNet như
quan hệ thượng danh (hypernymy), hạ danh (hyponymy) … cùng một số quan hệ
ñược ñịnh nghĩa thêm như chú giải (gloss), chủ ñề và miền (domain).
Luận án này ñề xuất phương pháp mở rộng truy vấn dựa trên cơ sở bản thể
học (ontology-based query expansion). Để thực hiện mục tiêu trên, luận án phải giải
quyết các vấn ñề chính: (1) ñề xuất cơ sở lý thuyết về các mô hình mở rộng truy vấn
dựa trên ontology; (2) phát triển và làm giàu ontology bằng phương pháp khai thác
kho ngữ liệu sẵn có và phương pháp rút trích dữ liệu từ WordNet; (3) ñề xuất
phương pháp hoàn thiện và mở rộng truy vấn. Phần thực nghiệm của luận án ñược
tiến hành cho ngôn ngữ tiếng Anh dựa trên nguồn dữ liệu và truy vấn tiếng Anh từ
nguồn TREC (Text REtrieval Conference) trong một số lĩnh vực. Các kết quả thực
nghiệm phản ánh tính khả thi của những phương pháp ñề xuất trong luận án, ñồng
thời cho thấy nhiều triển vọng phát triển của các ñề xuất lý thuyết trong luận án.


i

MỤC LỤC
MỤC LỤC

..................................................................................................................... i


DANH MỤC CÁC BẢNG ............................................................................................... iii
DANH MỤC CÁC HÌNH ..................................................................................................v
DANH MỤC CÁC GIẢI THUẬT ................................................................................. vii
DANH MỤC CÁC TỪ VIẾT TẮT............................................................................... viii
Chương 1
1.1
1.2
1.3
1.4
1.5
1.6

Động cơ nghiên cứu .............................................................................................1
Mục tiêu và phạm vi nghiên cứu .........................................................................5
Đóng góp chính của luận án ................................................................................8
Cấu trúc của luận án...........................................................................................10
Các quy ước .......................................................................................................13
Tóm tắt nội dung luận án ...................................................................................13

Chương 2
2.1
2.2
2.3
2.4
2.5
2.6

XÂY DỰNG ONTOLOGY OOMP ........................................................89

Giới thiệu ...........................................................................................................89

Xây dựng ontology OOMP ................................................................................89
Phương pháp làm giàu dựa trên kho ngữ liệu ....................................................94
Phương pháp làm giàu dựa trên WordNet .........................................................99
Cơ chế tự làm giàu của ontology OOMP .........................................................106
Các ứng dụng của ontology và quan hệ ...........................................................108
Tóm lược ..........................................................................................................109

Chương 5
5.1

XÂY DỰNG NỀN TẢNG HỆ THỐNG .................................................47

Giới thiệu ...........................................................................................................47
Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mở rộng truy vấn ...........47
Các mô hình cho bài toán mở rộng truy vấn ......................................................61
Mẫu nhận dạng cụm danh từ..............................................................................66
Phương pháp thực nghiệm và ñánh giá ..............................................................71
Nguồn dữ liệu thực nghiệm ...............................................................................75
Tóm lược ............................................................................................................87

Chương 4
4.1
4.2
4.3
4.4
4.5
4.6
4.7

CÁC NGHIÊN CỨU LIÊN QUAN ........................................................14


Giới thiệu ...........................................................................................................14
Các nghiên cứu liên quan trong nước ................................................................15
Các nghiên cứu về ontology ..............................................................................19
Các nghiên cứu về mở rộng truy vấn .................................................................23
Khai thác dữ liệu từ WordNet ............................................................................39
Tóm lược ............................................................................................................45

Chương 3
3.1
3.2
3.3
3.4
3.5
3.6
3.7

GIỚI THIỆU ..............................................................................................1

HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN.......................................111

Giới thiệu .........................................................................................................111


ii

5.2
5.3
5.4
5.5

5.6
5.7
5.8

Hoàn chỉnh và rút gọn truy vấn .......................................................................112
Kiểm tra cụm danh từ hoàn chỉnh ....................................................................113
Tạo cụm danh từ hoàn chỉnh............................................................................120
Tạo cụm danh từ rút gọn ..................................................................................121
Hoàn chỉnh cụm danh từ ..................................................................................122
Giải thuật rút gọn thành phần cụm danh từ......................................................133
Tóm lược ..........................................................................................................139

Chương 6
6.1
6.2
6.3

Mở rộng truy vấn cho ñộng cơ tìm kiếm trên Web .........................................140
Mở rộng truy vấn cho hệ thống truy xuất thông tin có sẵn ..............................151
Tóm lược ..........................................................................................................163

Chương 7
7.1
7.2
7.3

MỞ RỘNG TRUY VẤN........................................................................140

KẾT LUẬN .............................................................................................165


Các kết quả ñạt ñược........................................................................................165
Hướng phát triển ..............................................................................................169
Lời kết ..............................................................................................................171

CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ ...................................................172
TÀI LIỆU THAM KHẢO .............................................................................................175
Phụ lục A.

Tóm lược về WordNet ...............................................................................a

Phụ lục B.

Cấu trúc cụm danh từ tiếng Anh .............................................................. c

Phụ lục C.

Danh mục từ loại tiếng Anh ......................................................................g

Phụ lục D.
Danh mục luật sinh dạng cụm danh từ của văn phạm tiếng Anh xây
dựng dựa trên TreeBank ................................................................................................... i
Phụ lục E.

Tính chất ảnh-tạo ảnh trong toán học .....................................................o

Phụ lục F.

Cấu trúc ñịnh dạng tài liệu TREC .......................................................... p

Phụ lục G.


Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án ........................... s


iii

DANH MỤC CÁC BẢNG
Bảng 3.1. Danh sách mã lỗi quy ước ................................................................................... 58
Bảng 3.2. Các trường hợp liên kết giữa q và q’ ñể tính ℘(q | q' ) ...................................... 64
Bảng 3.3. Các trường hợp liên kết giữa q và q’ ñể tính ℘(q' ) ............................................ 64
Bảng 3.4.Tập luật sinh tiếng Anh liên quan cụm danh từ (nguồn [2]) ................................ 68
Bảng 3.5. Danh sách mẫu cơ bản ñặc tả cụm danh từ ......................................................... 69
Bảng 3.6. Thống kê thành phần dữ liệu từ TREC ............................................................... 76
Bảng 3.7. Danh sách tập chỉ mục xây dựng từ nguồn dữ liệu trong bảng 3.6 ..................... 78
Bảng 3.8. Thống kê mục từ, tài liệu và liên kết của nguồn dữ liệu ..................................... 78
Bảng 3.9. Thống kê các tài liệu liên quan theo nguồn dữ liệu............................................. 81
Bảng 3.10. Danh sách mẫu sử dụng trong thực nghiệm ...................................................... 82
Bảng 3.11. Thống kê cụm danh từ phân biệt rút trích từ kho ngữ liệu tiếng Anh ............... 83
Bảng 4.1. Thống kê số lượng cụm danh từ theo dạng mẫu ................................................. 97
Bảng 4.2. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT .................................. 98
Bảng 4.3. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT .................................. 98
Bảng 4.4. Các thống kê cho dữ liệu làm giàu ...................................................................... 99
Bảng 4.5. Danh mục phân lớp từ vựng sử dụng trong WordNet ....................................... 104
Bảng 4.6.Thống kê các mục từ dùng trong quá trình làm giàu WB-BKT ......................... 105
Bảng 4.7. Dữ liệu ñược rút trích từ WordNet trong giải thuật WB-KBT .......................... 105
Bảng 4.8. Các thống kê cho dữ liệu làm giàu .................................................................... 105
Bảng 4.9. Dữ liệu bổ sung tạo bởi giải thuật A-KBT ........................................................ 107
Bảng 5.1. Thống kê về thời gian thực thi của giải thuật CNPV ........................................ 116
Bảng 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi .............................. 116
Bảng 5.3. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu ................. 117

Bảng 5.4. Số liệu thống kê các phần tử phân tích trung gian ............................................ 119
Bảng 5.5. Thống kê về thời gian thực thi của giải thuật NPC ........................................... 128
Bảng 5.6. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng lỗi ................. 129
Bảng 5.7. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng mẫu............... 129
Bảng 5.8. Thống kê các phần tử phân tích trung gian của giải thuật NPC ........................ 130


iv

Bảng 5.9. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật
NPC .................................................................................................................................... 130
Bảng 5.10. Phân tích kết quả thực nghiệm của giải thuật NPC ......................................... 132
Bảng 5.11. So sánh kết quả của phương pháp tìm kiếm thô và NPC ................................ 133
Bảng 5.12. Thống kê về thời gian thực thi của giải thuật NPMR...................................... 135
Bảng 5.13. Thống kê các phần tử phân tích trung gian của giải thuật NPMR .................. 136
Bảng 5.14. Kết quả thực nghiệm của giải thuật RNPG trên dữ liệu trung gian của giải thuật
NPMR ................................................................................................................................ 136
Bảng 5.15. Phân tích kết quả thực nghiệm của giải thuật NPMR ..................................... 137
Bảng 5.16. So sánh kết quả của phương pháp tìm kiếm thô và NPMR............................. 138
Bảng 6.1. Thống kê về thời gian thực thi của giải thuật SNPE ......................................... 146
Bảng 6.2. Thống kê các trường hợp xử lý trong giải thuật SNPE theo dạng lỗi ............... 146
Bảng 6.3. Thống kê các phần tử phân tích trung gian của giải thuật SNPE ...................... 147
Bảng 6.4. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật
SNPE.................................................................................................................................. 147
Bảng 6.5. Phân tích kết quả thực nghiệm của giải thuật SNPE ......................................... 149
Bảng 6.6. So sánh kết quả của phương pháp tìm kiếm thô và SNPE ................................ 150
Bảng 6.7. Thống kê số liệu thực nghiệm trong giải thuật SIC........................................... 158
Bảng 6.8. Số liệu chi tiết của tập si_TermLink tạo ra từ giải thuật SIC ............................ 159
Bảng 6.9. Thống kê kết quả trong tập si_TermLink tạo ra từ giải thuật SIC .................... 159
Bảng 6.10. So sánh kết quả thực nghiệm 1 ........................................................................ 161

Bảng 6.11. So sánh kết quả thực nghiệm 2 ........................................................................ 162
Bảng 6.12. So sánh kết quả thực nghiệm 3 ........................................................................ 163


v

DANH MỤC CÁC HÌNH
Hình 1.1. Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất thông tin ............... 6
Hình 1.2. Tóm tắt phân bố nội dung các vấn ñề trình bày trong luận án ............................. 13
Hình 2.1. Tổ chức hệ thống WordNet phiên bản 3.0 (*) ..................................................... 42
Hình 2.2. Cấu trúc ontology về hình ảnh của S.Zinger ....................................................... 44
Hình 2.3. Đồ thị quan hệ ngữ nghĩa của Boris .................................................................... 44
Hình 3.1. Quan hệ kết hợp OMP ......................................................................................... 56
Hình 3.2. Ví dụ về cây phân tích (hình b) ñược xây dựng từ quan hệ ROMP (hình a) .......... 57
Hình 3.3. Đồ thị ngữ nghĩa G có phân lớp ........................................................................... 60
Hình 3.4. Tổ chức phân cấp các mô hình ............................................................................ 62
Hình 3.5. Ví dụ về ñặc tả các mẫu trong JAPE ................................................................... 71
Hình 3.6. Tỉ lệ phân bố các mục tài liệu .............................................................................. 76
Hình 3.7. Tổ chức cơ sở dữ liệu lưu trữ thông tin của các chỉ mục ..................................... 79
Hình 3.8. Thống kê số lượng tài liệu liên quan xác ñịnh ñược ............................................ 80
Hình 3.9. Tỉ lệ tài liệu liên quan xác ñịnh ñược................................................................... 80
Hình 3.10. Thống kê tập mẫu sử dụng trong thực nghiệm .................................................. 81
Hình 3.11. Tỉ lệ chọn lọc cụm danh từ hợp lệ theo chiều dài cụm danh từ ......................... 84
Hình 3.12. Kết quả rút trích cụm danh từ hợp lệ trong làm giàu ......................................... 84
Hình 3.13. Tổ chức lưu trữ cụm danh từ rút trích từ các nguồn dữ liệu .............................. 85
Hình 3.14. Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu ................ 85
Hình 3.15. Phân bổ cụm danh từ trong tập TEST_DATA theo các nhóm mẫu .................. 86
Hình 4.1. Cấu trúc mức luận lý của ontology OOMP ......................................................... 90
Hình 4.2. Cấu trúc ontology OOMP về tổ chức cơ sở dữ liệu quan hệ ............................... 90
Hình 4.3. Đặc tả luận lý cho cấu trúc ontology OOMP ....................................................... 91

Hình 4.4. Các phương pháp làm giàu ontology OOMP ...................................................... 94
Hình 4.5. Phương pháp làm giàu dựa trên kho ngữ liệu ...................................................... 94
Hình 4.6. Quan hệ Rm ñược xây dựng từ quan hệ holonymy trong WordNet ................... 100
Hình 4.7. Quan hệ Rm ñược xây dựng từ quan hệ meronymy trong WordNet .................. 100
Hình 4.8. Quan hệ Rp ñược xây dựng từ quan hệ attribute trong WordNet....................... 100
Hình 4.9. Quan hệ Rm ñược xây dựng từ quan hệ similar trong WordNet ........................ 100


vi

Hình 4.10. Quan hệ Rm và Rp ñược xây dựng từ quan hệ similar trong WordNet ............ 101
Hình 4.11. Quan hệ Rp ñược xây dựng từ quan hệ similar trong WordNet ....................... 101
Hình 4.12. Tổ chức dữ liệu của WordNet phiên bản 3.0 ................................................... 103
Hình 4.13. Thống kê số lượng các quan hệ trong WordNet .............................................. 103
Hình 5.1. Mô hình hệ thống hoàn chỉnh và rút gọn truy vấn ............................................. 112
Hình 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu ................. 119
Hình 5.3. Thống kê các trường hợp xử lý theo dạng lỗi ở mức chi tiết ............................. 128
Hình 5.4. Thống kê số liệu các ñộ ño theo nguồn dữ liệu ................................................. 131
Hình 5.5. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu............................. 131
Hình 5.6. Thống kê số liệu các ñộ ño theo nguồn dữ liệu ................................................. 138
Hình 5.7. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu............................. 138
Hình 6.1. Mô hình hệ thống mở rộng truy vấn với ñộng cơ tìm kiếm thông tin ............... 141
Hình 6.2. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu............................. 149
Hình 6.3. Thống kê số liệu các ñộ ño theo nguồn dữ liệu ................................................. 150
Hình 6.4. Minh họa tính chất (6.1) .................................................................................... 151
Hình 6.5. Ứng dụng tính chất (6.1) vào mở rộng kết quả tìm kiếm .................................. 153
Hình 6.6. Mô hình hệ thống mở rộng truy vấn kết hợp hệ thống truy xuất thông tin dựng
sẵn ...................................................................................................................................... 153
Hình 6.7. Mô hình tổ chức chỉ mục hướng ngữ nghĩa ....................................................... 154
Hình 6.8. So sánh số liên kết tạo thành theo nguồn dữ liệu............................................... 160

Hình 6.9. So sánh tỉ lệ liên kết tạo thành theo nguồn dữ liệu ............................................ 160
Hình 7.1. Phương pháp thực hiện của vấn ñề 4 ................................................................. 170


vii

DANH MỤC CÁC GIẢI THUẬT
Giải thuật 4.1. Làm giàu ontology dựa trên kho ngữ liệu .............................................. 95
Giải thuật 4.2. Làm giàu ontology dựa trên WordNet ................................................. 102
Giải thuật 4.3. Làm giàu ontology tự ñộng .................................................................... 106
Giải thuật 5.1. Kiểm tra cụm danh từ hoàn chỉnh ........................................................ 113
Giải thuật 5.2. Tạo cụm danh từ hoàn chỉnh................................................................. 120
Giải thuật 5.3. Tạo cụm danh từ rút gọn ....................................................................... 121
Giải thuật 5.4. Hoàn chỉnh cụm danh từ ....................................................................... 122
Giải thuật 5.5. Rút gọn thành phần cụm danh từ ......................................................... 133
Giải thuật 6.1. Mở rộng cụm danh từ tương ñương ..................................................... 142
Giải thuật 6.2. Tạo chỉ mục hướng ngữ nghĩa............................................................... 155
Giải thuật 6.3. Tìm kiếm kết hợp ................................................................................... 156


×