Tải bản đầy đủ (.pdf) (80 trang)

Mở rộng câu truy vấn thông tin trong tiếng việt trên cơ sở ontology

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (942.69 KB, 80 trang )

Đại Học Quốc Gia Tp. Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------

NGÔ DƯƠNG HÀ

MỞ RỘNG CÂU TRUY VẤN THÔNG TIN
TRONG TIẾNG VIỆT TRÊN CƠ SỞ ONTOLOGY
Chuyên ngành : Khoa Học Máy Tính

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 09 năm 2010


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học : PGS. TS. Phan Thị Tươi

Cán bộ chấm nhận xét 1 : TS. QUẢN THÀNH THƠ

Cán bộ chấm nhận xét 2 : ...................................................................................

Luận văn thạc sĩ được bảo vệ tại Trường Đại Học Bách Khoa, ĐHQG Tp.HCM
ngày 18 tháng 09 năm 2010
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch hội đồng: PGS.TS DƯƠNG TUẤN ANH
2. Thư ký hội đồng : TS. QUẢN THÀNH THƠ, phản biện
3. Ủy viên hội đồng : PGS.TS ĐỖ PHÚC, phản biện


4. Ủy viên hội đồng : TS. NGUYỄN XUÂN DŨNG
5. Ủy viên hội đồng : PGS.TS PHAN THỊ TƯƠI, hướng dẫn


NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: NGÔ DƯƠNG HÀ

Phái: Nam

Sinh ngày tháng năm: 30/05/1982

Nơi sinh: Đồng Nai

Chuyên ngành: Khoa học máy tính

MSHV: 00706126

I. TÊN ĐỀ TÀI:
MỞ RỘNG CÂU TRUY VẤN THÔNG TIN TRONG TIẾNG VIỆT TRÊN CƠ
SỞ ONTOLOGY
II. NHIỆM VỤ VÀ NỘI DUNG:
-

Nghiên cứu các phương pháp mở rộng truy vấn.

-

Tìm hiểu các cơng cụ, cơng nghệ hỗ trợ.

-


Tìm hiểu các Ontology hỗ trợ ngữ nghĩa cho mở rộng truy vấn. Từ đó xác định
phương pháp mở rộng truy vấn thông tin trong tiếng Việt trên cơ sở Ontology.

-

Xây dựng mơ hình mở rộng truy vấn và thực nghiệm minh chứng cho mơ hình
đề xuất.

III. NGÀY GIAO NHIỆM VU: 22/06/2009
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 18/09/2010
V. CÁN BỘ HƯỚNG DẪN: PGS.TS. Phan Thị Tươi
CÁN BỘ HƯỚNG DẪN

CN BỘ MÔN
QL CHUYÊN NGÀNH

PGS. TS. Phan Thị Tươi


LỜI CẢM ƠN

Trước tiên cho em gửi lời cảm ơn đến tất cả Quý thầy cô giảng dạy Cao học
chuyên ngành khoa học máy tính khóa 2006.
Đặc biệt cảm ơn PGS.TS. Phan Thị Tươi và anh Nguyễn Chánh Thành đã
hướng dẫn tận tình và đóng góp nhiều ý kiến q báu trong suốt quá trình thực
hiện luận văn.
Chân thành cảm ơn Q thầy cơ phịng Sau Đại học đã nhiệt tình tổ chức,
theo dõi, động viên và tạo điều kiện để chương trình đào tạo Cao học kết thúc tốt
đẹp.

Cảm ơn tất cả bạn bè và đồng nghiệp đã giúp đỡ trong công việc, cũng như
động viên về mặt tinh thần để luận văn này được hồn thành.
Xin tỏ lịng biết ơn sâu sắc những lời động viên và khuyến khích nhiệt tình
của gia đình để con đạt được những thành quả như hôm nay.
Cuối cùng xin được cảm ơn tất cả Quý thầy cô của trường Đại Học Bách
Khoa TP.Hồ Chí Minh, những người ít nhiều đã bỏ cơng sức để truyền đạt kiến
thức cho tôi trong suốt quá trình học Cao học.
Vì thời gian có hạn và kiến thức cịn hạn chế, nên chắc chắn luận văn khơng
thể tránh khỏi những thiếu sót, rất mong nhận được sự đóng góp ý kiến q báu
của Q thầy cơ và các bạn.
Tác giả
Ngô Dương Hà


TĨM TẮT
Nhu cầu tìm kiếm thơng tin bằng tiếng Việt trên mạng ngày càng cấp thiết và
phổ biến cả trong và ngoài nước. Sự phong phú và đa nghĩa của tiếng Việt cùng với
khối lượng thông tin trên internet ngày càng lớn, điều đó đã gây khó khăn cho việc đáp
ứng đầy đủ các yêu cầu như mong muốn của người dùng khi truy cập thông tin trên
internet bằng tiếng Việt. Vì vậy, việc xây dựng hệ thống xử lý nhập nhằng về ngữ
nghĩa bằng phương pháp mở rộng câu truy vấn theo hướng ngữ nghĩa là vấn đề thiết
yếu hiện nay. Mơ hình mở rộng truy vấn kết hợp dùng Ontology và giải thuật Gloss
Overlap sẽ giúp cho việc đánh giá trọng số cho các quan hệ trong mạng ngữ nghĩa
nhằm tăng độ chính xác cho các từ khóa mở rộng. Kết quả thực nghiệm cho thấy, mơ
hình mở rộng có tính chính xác tỉ lệ thuận với từ khóa truy vấn, nghĩa là câu truy vấn
càng có nhiều từ khóa thì mơ hình mở rộng có tính chính xác càng cao.


ABSTRACT


Needs for Vietnamese-language information over the internet is becoming more
and more urgent and common, both at home and abroad. The abundant and multimeaning Vietnamese language and increasingly huge amounts of information hinder
total satisfaction of customers’ demands and their access to the internet using
Vietnamese. That is why replacing a processing system with confusing semantics by
semantics-oriented query expansion is very necessary. The query expansion model
combining Ontology and Gloss Overlap will help evaluate weight bits of relations of
semantic network to improve precision for expanded words. Experimental results
showed that expansion model had precision proportional to query words, meaning that
the more words queries included, the more precise expansion models were.


MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI ........................................................................... 1
1.1. Mở rộng truy vấn...................................................................................................... 1
1.2. Mức độ chính xác và ưu điểm của câu truy vấn mở rộng ........................................ 2
1.3. Mục tiêu và giới hạn của đề tài ................................................................................ 3
1.4. Tóm lược những kết quả đạt được ........................................................................... 5
1.5. Cấu trúc của luận văn ............................................................................................... 6
CHƯƠNG 2: NHỮNG CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN .................... 7
2.1. Các cơng trình liên quan tới kỹ thuật phân tích thống kê ........................................ 7
2.1.1. Cơng trình nghiên cứu của Hang Cui, Ji-Rong Wen, Jian-Yun Nie, Wei-Ying
Ma (2002) ........................................................................................................................ 7
2.1.2. Cơng trình nghiên cứu của Mandar Mitra và Chris Buckley (1998) .................... 8
2.2. Các cơng trình liên quan tới kỹ thuật mở rộng truy vấn sử dụng Ontology ............ 9
2.2.1. Cơng trình nghiên cứu của Revuri, Upadhyaya và Kumar (2006) ....................... 9
2.2.2. Cơng trình nghiên cứu của Navigli và Velardi (2003)........................................ 10
2.2.3. Cơng trình nghiên cứu của Banerjee và Pedersen (2003) ................................... 13
2.2.4. Cơng trình nghiên cứu của Nguyễn Chánh Thành và Phan Thị Tươi(2007) ...... 14
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT VỀ MỞ RỘNG TRUY VẤN ......................... 18
3.1. Phương pháp mở rộng truy vấn với mơ hình tri thức ............................................ 18

3.1.1. Ontology .............................................................................................................. 18
3.1.2. Wordnet ............................................................................................................... 20
3.2. Phương pháp mở rộng truy vấn độc lập với mơ hình tri thức ................................ 23
3.2.1. Phương pháp thơng tin phản hồi liên quan (relevance feedback) ....................... 23
3.2.2. Phương pháp thông tin phản hồi liên quan giả lập (Pseudo relevance feedback)23
3.2.3. Phương pháp thông tin phản hồi liên quan gián tiếp (Indirect relevance
feedback) ....................................................................................................................... 24


3.2.4. Phương pháp lưu trữ truy vấn (Query Log) ........................................................ 25
3.3. Phương pháp mở rộng truy vấn dựa trên phân tích thống kê ................................. 26
3.3.1. Phương pháp phân tích tồn cục ......................................................................... 26
3.3.2. Phương pháp phân tích cục bộ ............................................................................ 26
3.3.3. Phương pháp phân tích ngữ cảnh cục bộ (local context analysis) ...................... 27
3.4. Phương pháp xác định độ đo ngữ nghĩa tương tự trên Ontology........................... 27
3.4.1. Phương pháp Structural ....................................................................................... 28
3.4.2. Phương pháp Gloss overlap ................................................................................ 29
3.5. Vấn đề nhập nhằng nghĩa ....................................................................................... 30
3.5.1. Nhập nhằng nghĩa ............................................................................................... 30
3.5.2. Một số hiện tượng nhập nhằng............................................................................ 30
3.5.2.1. Nhập nhằng ranh giới từ................................................................................... 30
3.5.2.2. Nhập nhằng từ đa nghĩa ................................................................................... 30
3.5.2.3. Nhập nhằng từ loại ........................................................................................... 31
CHƯƠNG 4: MƠ HÌNH ĐỀ XUẤT MỞ RỘNG TRUY VẤN CỦA LUẬN VĂN32
4.1. Hướng giải quyết vấn đề ........................................................................................ 32
4.2. Kiến trúc hệ thống .................................................................................................. 33
4.3. Hoạt động của hệ thống.......................................................................................... 34
4.3.1. Xác định giới hạn cụm danh từ cho luận văn...................................................... 36
4.3.2. Gán nhãn từ loại và rút trích danh từ, cụm danh từ ............................................ 37
4.3.3. Xây dựng Ontology ............................................................................................. 38

4.3.4. Giải thuật mạng ngữ nghĩa tìm kiếm các từ khóa dự tuyển ................................ 39
4.3.4.1. Vấn đề xử lý nhập nhằng ................................................................................. 39
4.3.4.2. Xây dựng mạng ngữ nghĩa dựa vào nhóm tác giả Navigli .............................. 40
4.3.4.3. Giải thuật tạo mạng ngữ nghĩa của các từ khóa ............................................... 41
4.3.5. Giải thuật Gloss Overlap ..................................................................................... 44
4.3.5.1. Giải thuật Gloss Overlap .................................................................................. 44


4.3.5.2. Đề xuất hướng giải quyết trong phương pháp Gloss Overlap ......................... 46
4.3.5.3. Phương pháp đánh trọng số cho khóa dự tuyển ............................................... 47
4.3.6. Lựa chọn từ khóa mở rộng .................................................................................. 50
4.4. Kết luận .................................................................................................................. 51
CHƯƠNG 5: TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ ................ 52
5.1. Triển khai hệ thống ................................................................................................ 52
5.2. Hình ảnh về chương trình....................................................................................... 52
5.3. Đánh giá kết quả..................................................................................................... 53
5.3.1. Tiêu chí đánh giá ................................................................................................. 53
5.3.2. Xây dựng Ontology ............................................................................................. 54
5.3.3. Thực nghiệm ....................................................................................................... 54
5.3.3.1. Thực nghiệm với phương pháp Gloss Overlap của nhóm tác giả Banerjee .... 54
5.3.3.2. Thực nghiệm với quá trình thu giảm việc tính tốn quan hệ họ hàng giữa 2
khái niệm ....................................................................................................................... 55
5.3.3.3. Thực nghiệm với đề xuất hướng giải quyết trong phương pháp Gloss Overlap56
5.3.3.4. Thực nghiệm câu truy vấn ban đầu .................................................................. 57
5.3.3.5. Nhận xét ........................................................................................................... 58
CHƯƠNG 6: TỔNG KẾT .......................................................................................... 59
6.1. Những đóng góp của luận văn ............................................................................... 59
6.2. Hạn chế của luận văn ............................................................................................. 60
6.3. Hướng phát triển .................................................................................................... 60
PHỤ LỤC ..................................................................................................................... 62

A. Lucene ...................................................................................................................... 62
DANH MỤC TÀI LIỆU THAM KHẢO ................................................................... 64
LÝ LỊCH TRÍCH NGANG ........................................................................................ 68


DANH SÁCH CÁC BẢNG

Bảng 2.1:So sánh độ chính xác trung bình đạt được bởi mở rộng truy vấn với cụm và
không cụm. ...................................................................................................................... 8
Bảng 2.2: Kết quả các phương pháp. ............................................................................ 14
Bảng 2.3: Tóm tắt kết quả huấn luyện ontology........................................................... 15
Bảng 5.1: Kết quả thực nghiệm mở rộng truy vấn của nhóm tác giả Banerjee. ........... 55
Bảng 5.2: Kết quả thực nghiệm mở rộng truy vấn trong quá trình thu giảm việc tính
tốn quan hệ họ hàng..................................................................................................... 55
Bảng 5.3: Kết quả thực nghiệm mở rộng truy vấn của luận văn .................................. 56
Bảng 5.4: Kết quả thực nghiệm đánh giá câu truy vấn ban đầu ................................... 57


DANH SÁCH HÌNH VẼ

Hình 2.1: Biểu đồ giữa câu truy vấn và độ hồi quy...................................................... 10
Hình 2.2: Biểu đồ giữa câu truy vấn và độ chính xác. ................................................. 10
Hình 2.3: Mạng ngữ nghĩa cho từ khóa “bus” trong ngữ cảnh 1. ................................ 11
Hình 2.4: Ví dụ mơ hình mạng giao ngữ nghĩa của từ khóa mountain#1 và top#3 ..... 12
Hình 2.5: 1 ví dụ về object, member, property............................................................. 15
Hình 3.1: Phân loại ontology. ....................................................................................... 20
Hình 3.2: Sự phân loại đơn giản quan hệ trong WordNet. ........................................... 29
Hình 3.3: Mạng ngữ nghĩa của 2 khái niệm mountain#1 và top#3 .............................. 29
Hình 4.1: Mơ hình hệ thống truy vấn của luận văn. ..................................................... 34
Hình 4.2: Mơ hình mở rộng truy vấn. .......................................................................... 35

Hình 4.3: Cấu trúc ontology. ........................................................................................ 39
Hình 4.4: Mạng ngữ nghĩa của từ khóa “ram” ............................................................. 40
Hình 4.5: Danh sách từ khóa dự tuyển của câu truy vấn “bộ nhớ ram” ....................... 42
Hình 4.6: Mạng ngữ nghĩa của 2 khái niệm “bộ nhớ” và ”ram” .................................. 45
Hình 5.1: Kho cơ sở dữ liệu. ........................................................................................ 52
Hình 5.2: Trang giao diện tìm kiếm. ............................................................................ 53
Hình 5.3: Đồ thị biểu diễn độ chính xác và độ hồi qui theo số từ khóa mở rộng của
nhóm tác giả Banerjee. .................................................................................................. 55


Hình 5.4: Đồ thị biểu diễn độ chính xác và độ hồi qui theo số từ khóa mở rộng trong
quá trình thu giảm việc tính tốn quan hệ họ hàng ....................................................... 56
Hình 5.5: Đồ thị biểu diễn độ chính xác và độ hồi qui theo số từ khóa mở rộng của
luận văn ......................................................................................................................... 57
Hình 5.6: Đồ thị biểu diễn độ chính xác và độ hồi qui theo câu truy vấn ban đầu ...... 58
Hình PL.1: Mơ hình tạo chỉ mục. ................................................................................ 62
 


CHƯƠNG 1
GIỚI THIỆU ĐỀ TÀI

Hiện nay, cùng với sự phát triển mạnh mẽ của World Wide Web, Internet đã
trở thành nguồn tài nguyên thông tin khổng lồ cho nhân loại. Nguồn tài nguyên này
có thể được mở rộng và chia sẻ đến bất cứ nơi nào trên thế giới. Vấn đề đặt ra là
làm thế nào khai thác các thông tin này một cách hiệu quả phục vụ nhu cầu của con
người.
Các hệ thống truy hồi thông tin (Information Retrieval), rút trích thơng tin
(Information Extraction), tóm tắt văn bản (Text Summarization), … đã được phát
triển nhằm khai thác một cách tự động các nguồn thông tin trên Internet. Trong

phần nghiên cứu của luận văn, sẽ tập trung vào sử dụng Ontology cho mở rộng truy
vấn. Bài toán mở rộng truy vấn hướng đến việc bổ sung từ hoặc cụm từ mới vào câu
truy vấn nguyên thủy nhưng vẫn đảm bảo tính chính xác về ngữ nghĩa. Xét ví dụ:
câu truy vấn sau “bộ nhớ ram”, kết quả mở rộng câu truy vấn “bộ nhớ ram” gồm:
“bộ nhớ chính”, “bộ nhớ DDR”, “bộ nhớ DDR2”.
1.1. Mở rộng truy vấn
Mục tiêu chính cho mở rộng truy vấn là cải thiện kết quả truy vấn bằng việc
truy hồi nhiều tài liệu liên quan. Một trong những cách giải quyết vấn đề là mở rộng
câu truy vấn ban đầu của người sử dụng, bổ sung thêm các từ khóa mới có liên quan
ngữ nghĩa với từ khóa ban đầu. Để xử lý bổ sung thêm các từ khóa mới vào câu truy
vấn ban đầu có các phương án giải quyết sau: thực hiện thủ công, tự động hoặc bán
tự động. Mở rộng truy vấn bằng phương pháp thủ công dựa trên kinh nghiệm người
dùng quyết định chọn từ khóa mới cho câu truy vấn ban đầu. Trong trường hợp mở
rộng truy vấn tự động, phụ thuộc vào tính tốn các trọng số cho tất cả các từ khóa
và các từ khóa có trọng số cao sẽ được thêm vào cùng với câu truy vấn ban đầu. Với

 


phương pháp bán tự động, hệ thống phát sinh các từ khóa mở rộng có khả năng
chấp nhận được và người sử dụng chọn lựa chúng.
Phần nghiên cứu này, luận văn thực hiện mở rộng truy vấn dựa trên phương
pháp tự động. Mục đích của hướng phát triển nhằm đem lại kết quả tốt hơn, cải
thiện chất lượng và độ tin cậy của hệ thống, đem lại kết quả phù hợp với ngữ cảnh
tìm kiếm của người sử dụng. Các hướng tiếp cận giải quyết bài toán dựa trên
phương pháp thống kê, theo nghiên cứu [12] của tác giả Bhogal khó khăn lớn của
phương pháp này là dựa trên việc chọn kích thước tập tài liệu hợp lý để từ đó đưa ra
tập từ khóa mở rộng, vì chỉ cần tỉ lệ tài liệu khơng phù hợp càng nhiều thì phương
pháp mở rộng trên càng có độ chính xác kém. Còn phương pháp mở rộng truy vấn
dựa trên Ontology sẽ cung cấp cách biểu diễn thông tin phù hợp cho việc giao tiếp

tường minh tới kho ngữ liệu mà không cần phải chọn kích thước tập tài liệu hợp lý.
Vì vậy, mở rộng truy vấn dựa trên Ontology là một trong những điểm mạnh của hệ
thống truy xuất thông tin. Đây cũng chính là hướng tiếp cận của luận văn, mở rộng
truy vấn dùng Ontology.
1.2. Mức độ chính xác và ưu điểm của câu truy vấn mở rộng
Bài toán mở rộng truy vấn tập trung vào tính hiệu quả của việc mở rộng câu
truy vấn ban đầu. Tuy nhiên, trong từng tình huống ngữ cảnh truy vấn và lĩnh vực
truy vấn, việc mở rộng không phải lúc nào cũng mang lại hiệu quả. Một số kỹ thuật
khác nhau cho mở rộng truy vấn tự động đã được đề xuất trong những năm gần đây.
Ontology dường như là một hướng đi đầy hứa hẹn cho mở rộng truy vấn.
Theo tác giả Roberto Navigli và Paola Velardi mở rộng truy vấn dựa trên ontology
đã đem lại hiệu quả rất cao, đạt độ chính xác trung bình tốt nhất là 26.83%. Theo
một bài báo [11] của tác giả Janez Brank, Marko Grobelnik và Dunja Mladenić họ
thống kê một số các ứng dụng giá trị có sử dụng một số chức năng của Ontology, ví
dụ như MAEDCHE AND STAAB năm 2002, PORZEL & MALAKA năm 2004,...
Phương pháp phân tích tồn cục để chọn lựa từ khóa mở rộng cho kết quả
trung bình tương đối tốt cả về độ chính xác và độ hồi qui. Tuy nhiên, phương pháp

 


này cần phải tốn phí xây dựng kho dữ liệu lớn và tính tốn rất lớn khi triển khai,
cũng như phí bảo trì lớn, dẫn đến khơng phù hợp với thực tế.
Phương pháp phân tích cục bộ là giải pháp thay thế và hiện thực hóa phương
pháp tồn cục. Phương pháp này phù hợp với các hệ thống tìm kiếm chuyên dụng
như tìm kiếm trong một số lãnh vực chuyên mơn nhất định.
Mức độ chính xác của câu truy vấn phụ thuộc vào số lượng từ khóa mở rộng
thêm vào câu truy vấn ban đầu. Số lượng từ khóa thêm vào càng ít thì độ chính xác
càng cao nhưng đồng thời độ hồi qui lại giảm và ngược lại. Việc chọn lựa số từ
khóa mở rộng là một trong những yếu tố quyết định đến chất lượng của hệ thống

mở rộng truy vấn.
1.3. Mục tiêu và giới hạn của đề tài
Đề tài nhằm giải quyết bài toán mở rộng truy vấn cụ thể như sau:
Cho x là từ khóa ban đầu của người dùng nhập vào, R là tập tài liệu được
truy hồi. Tìm tất cả các tài liệu có liên quan nhất tới từ khóa x trong tập R.
Bài tốn trên có thể giải bằng cách biểu diễn tốn học:
Bước 1: Tìm f(x)={qi / qi là từ khóa được chọn có liên quan nhất tới từ khóa
x, với i = 1,.., n }. Trong đó, n là số từ khóa cần mở rộng, f là phương pháp giải
quyết bài tốn mở rộng.
Bước 2: Sau đó sử dụng hàm h để ánh xạ từ tập {qi} vào tập tài liệu R như
sau: ri = h(qi) với i = 1,.., n . Trong đó h là bộ index, và ri ∈ R là kết quả nhận được
sau khi thực hiện ánh xạ từ qi vào tập tài liệu.
Bước 3: Vậy đặt r={ri với i = 1,.., n }, r ⊂ R chính là tập tài liệu cần tìm mà
có liên quan nhất so với từ khóa x.
Mục đích của đề tài:


 


Tìm hiểu các phương pháp tổng quát mở rộng truy vấn trong tiếng Việt để
đưa ra những kỹ thuật phù hợp, nâng cao hiệu quả mở rộng từ khóa khóa trong câu
truy vấn ban đầu để tìm kiếm tài liệu có liên quan nhất so với từ khóa ban đầu.
Mục đích cụ thể:
Giải pháp đưa ra phải đáp ứng được những yêu cầu cụ thể sau:
-

Phương pháp thực hiện có độ chính xác cao khi làm việc trên câu truy
vấn.


-

Thích hợp cho trường hợp trong câu truy vấn có nhiều từ khóa.

Từ mục đích mơ tả trên, chúng tơi đề xuất nghiên cứu theo hướng:
-

Tìm hiểu các phương pháp mở rộng tập từ khóa bổ sung so với từ khóa
ban đầu để chọn lựa một phương pháp phù hợp nhất với mục đích đề tài
đề ra.

-

Tìm hiểu những giải pháp nhằm nâng cao hiệu quả trong việc chọn ra tập
từ khóa mở rộng từ tập từ khóa bổ sung nhằm đưa ra phương pháp thích
hợp nhất để giải quyết bài tốn trên.

Qua khảo sát chúng tơi đề nghị cụ thể phương pháp giải quyết bài toán trên như
sau:
-

Sử dụng mạng giao ngữ nghĩa [16] dựa trên Ontology với các quan hệ
sau: quan hệ tương tự, quan hệ bao hàm, quan hệ IS A, quan hệ thượng
danh, quan hệ hạ danh, quan hệ bộ phận, quan hệ toàn bộ, quan hệ chú
giải, quan hệ hướng đối tượng để chọn lựa ngữ cảnh của câu truy vấn ban
đầu.

-

Tiếp theo sử dụng mạng ngữ nghĩa của câu truy vấn [16] dựa trên

Ontology với các quan hệ sau: quan hệ tương tự, quan hệ bao hàm, quan
hệ IS A, quan hệ thượng danh, quan hệ hạ danh, quan hệ bộ phận, quan


 


hệ toàn bộ, quan hệ chú giải, quan hệ hướng đối tượng để chọn lựa tập từ
khóa dự tuyển.
-

Sau đó áp dụng giải thuật Gloss Overlap do tác giả Banerjee và Pedersen
(mục 2.2.2) để giải quyết bài toán mở rộng truy vấn trên các mối quan hệ
sau: quan hệ tương tự, quan hệ bao hàm, quan hệ IS A, quan hệ thượng
danh, quan hệ hạ danh, quan hệ bộ phận, quan hệ toàn bộ, quan hệ chú
giải, quan hệ hướng đối tượng.

-

Đề nghị hướng cải thiện phương pháp Gloss Overlap của tác giả Banerjee
và Pedersen để nâng cao hiệu quả trong việc mở rộng truy vấn thông tin
trong tiếng Việt. Sau đây là sự đề xuất cải thiện: thêm trọng số tỉ lệ cho
việc tính tốn mối quan hệ gần gũi giữa hai khái niệm.

1.4. Tóm lược những kết quả đạt được
Với những yêu cầu của đề tài, sau thời gian nghiên cứu và hiện thực, luận
văn đã xây dựng một hệ thống tổng quát cho bài toán mở rộng câu truy vấn thông
tin trong tiếng Việt trên cơ sở Ontology. Trong giới hạn thời gian hiện thực, chúng
tôi chỉ hiện thực hai mơđun chính trong hệ thống, bao gồm mơđun xây dựng mơ
hình mở rộng truy vấn dựa vào Ontology, môđun áp dụng giải thuật Gloss Overlap

nhằm chọn lựa từ khóa bổ sung.
-

Trong mơđun thứ nhất, chúng tơi xây dựng Ontology với các quan hệ
giữa các khái niệm hay giữa các từ vựng, bao gồm: quan hệ tương tự,
quan hệ bao hàm, quan hệ IS A, quan hệ thượng danh, quan hệ hạ danh,
quan hệ bộ phận, quan hệ toàn bộ, quan hệ chú giải, quan hệ hướng đối
tượng. Từ đó, chúng tơi xác định được ngữ cảnh của câu truy vấn cũng
như đưa ra những từ khóa dự tuyển.

-

Trong mơđun thứ hai, thực thi q trình xây dựng trọng số quan hệ ngữ
nghĩa để chọn lọc được từ khóa bổ sung từ những từ khóa dự tuyển.
Trong mơđun này hệ thống sẽ áp dụng giải thuật Gloss Overlap.


 


Như vậy, hệ thống đề xuất sẽ được trình bày chi tiết ở những chương sau đã
đáp ứng những yêu cầu và nhiệm vụ của đề tài.
1.5. Cấu trúc của luận văn
Tổ chức của phần còn lại của luận văn theo cấu trúc sau đây:
Chương 2 Trình bày những cơng trình nghiên cứu liên quan đến đề tài. Đây
là những cơng trình nghiên cứu liên quan trực tiếp đến hướng giải quyết vấn đề của
luận văn. Chương này bao gồm hướng nghiên cứu và các phân tích, đánh giá kết
quả thực nghiệm.
Chương 3 Trình bày cơ sở lý thuyết về mở rộng truy vấn. Các khái niệm,
định nghĩa, giả thuyết và giải thuật liên quan đến luận văn.

Chương 4 Trình bày mơ hình mở rộng truy vấn. Trình bày mơ hình, thuật
tốn, phương pháp hiện thực luận văn.
Chương 5 Trình bày triển khai hệ thống và đánh giá kết quả.
Chương 6 Trình bày tổng kết và đánh giá. Một số kết luận sau khi thực hiện
đề tài và hướng nghiên cứu tiếp theo trong thời gian tới.


 


CHƯƠNG 2
NHỮNG CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Theo bài báo của nhóm tác giả (Shu Huang, Qiankun Zhao, Prasenjit Mitra,
và C. Lee Giles, 2008) các kỹ thuật mở rộng truy vấn có thể được phân thành ba
nhóm: mở rộng truy vấn dựa vào tài liệu, mở rộng truy vấn dựa vào từ (term), mở
rộng truy vấn dựa vào khái niệm. Trong cách tiếp cận mở rộng truy vấn dựa vào tài
liệu, các từ khóa được chọn từ tài liệu liên quan tới việc mở rộng từ khóa truy vấn
tương ứng. Trong cách tiếp cận mở rộng truy vấn dựa vào từ, các từ khóa đồng
nghĩa được chọn căn cứ vào từ điển, kho văn bản. Trong cách tiếp cận mở rộng truy
vấn dựa vào khái niệm, tất cả các khái niệm có thể được đề nghị và người dùng có
thể tác động tới chọn lựa khái niệm liên quan.
Với các hướng nghiên cứu trên, chúng ta sẽ xem xét những cơng trình liên
quan. Đối với mỗi phương pháp sẽ có những ưu, nhược điểm khác nhau, cũng như
có những khía cạnh ứng dụng khác nhau phụ thuộc rất nhiều vào loại dữ liệu cũng
như loại ứng dụng cần xây dựng.
2.1. Các cơng trình liên quan tới kỹ thuật phân tích thống kê
2.1.1. Cơng trình nghiên cứu của Hang Cui, Ji-Rong Wen, Jian-Yun Nie, WeiYing Ma (2005)
Năm 2002 Hang Cui, Ji-Rong Wen, Jian-Yun Nie và Wei-Ying Ma [10] đưa
ra phương pháp giải quyết bài toán mở rộng truy vấn dựa trên phương pháp sử dụng

Log, nghĩa là nghiên cứu về việc sử dụng lại các thông tin tương tác của người dùng
và bộ máy tìm kiếm để hỗ trợ mở rộng tìm kiếm. Phương pháp này tuy có ưu điểm
là kho dữ liệu dùng để tính tốn thống kê được xác định trước. Tuy nhiên, độ chính
xác của phương pháp tìm kiếm mở rộng này thay đổi theo thời gian, nghĩa là thay
đổi theo xu hướng của sự quan tâm của người sử dụng.

 


Bảng 2.1:So sánh độ chính xác trung bình đạt được bởi
mở rộng truy vấn.
Phương pháp này mang lại sự cải tiến trung bình 11.37%.
2.1.2. Cơng trình nghiên cứu của Mandar Mitra và Chris Buckley (1998)
Cơng trình nghiêu cứu cải tiến mở rộng truy vấn dựa trên phương pháp phân
tích cục bộ [3.3.2]. Với phương pháp phân tích thống kê cục bộ, câu truy vấn được
mở rộng bằng cách thêm mới các từ khóa dựa vào một số điều kiện như tần suất
xuất hiện trong các tài liệu phản hồi. Hạn chế của cách mở rộng này là khơng có độ
chính xác ổn định nên thường mắc lỗi về ngữ cảnh tìm kiếm. Nguyên nhân là do
trong N tài liệu được xem là phù hợp dùng để xác định khóa mở rộng, có một số tài
liệu khơng như mong muốn của người dùng. Tỉ lệ số tài liệu này càng nhiều,
phương pháp mở rộng trên càng có độ chính xác kém. Nhóm tác giả đề xuất cải tiến
phương pháp, với mục tiêu làm giảm tối đa tài liệu không phù hợp để hỗ trợ thơng
kê tìm kiếm từ khóa mở rộng. Ý tưởng phương pháp như sau:
-

Để K tài liệu tốt nhất trong quá trình phản hồi của phương pháp phân tích
cục bộ làm cơ sở để chọn các khóa chỉ dẫn. Chọn N tài liệu tốt nhất trong


 



kết quả truy vấn ban đầu (N>K) dùng để phân loại, chọn lọc tài liệu phù
hợp với câu truy vấn.
-

Trong N tài liệu được chọn, gán trọng số theo tiêu chí tần suất xuất hiện
của các khóa chỉ dẫn.

-

Phân loại, sắp xếp và chọn K tài liệu tốt nhất.

-

Dùng phân tích thống kê để chọn ra khóa mở rộng từ K tài liệu chọn
được.

Phương pháp cải tiến này có độ chính xác trung bình tăng 22% so với
phương pháp thống kê cục bộ và làm giảm đáng kể lỗi về ngữ cảnh trong q trình
mở rộng truy vấn.
2.2. Các cơng trình liên quan tới kỹ thuật mở rộng truy vấn sử dụng Ontology
2.2.1. Cơng trình nghiên cứu của Revuri, Upadhyaya và Kumar (2006)
Cơng trình này [20] trình bày một khả năng cải thiện mối liên quan của nhiều
kết quả trong hệ thống tìm kiếm bằng cách triển khai miền tri thức theo dạng OWL
DL Ontology. Tác giả đề xuất việc cải tiến mở rộng các suy diễn quan hệ giữa các
từ khóa thơng qua việc thực hiện các mối quan hệ sau: SYNONYMY, IS-A,
SIBLING-OF, DISJOINTNESS, EQUIVALENCE. Ngoài ra tác giả còn thêm các
ràng buộc allValuesForm, someValueFrom và hasValue để cải tiến q trình tìm
kiếm. Ví dụ các từ khóa ràng buộc như “all”, “every”, “each”,…

Để xây dựng một Ontology chuyên dùng với miền tri thức “Data Structure
and Algorithms” nên các từ khóa đưa vào được khoanh vùng chỉ có thể là khái niệm
hoặc thuộc tính hoặc thể hiện (instance). Từ đó, tác giả đã phân câu truy vấn ban
đầu thuộc một trong chín trường hợp [20]. Với mỗi trường hợp, tác giả cũng đưa ra
giải pháp cho việc tìm từ khóa mở rộng. Kho lưu trữ được lưu trên text books, sử
dụng cơ sở dữ liệu Oracle 9i như là một hệ thống tìm kiếm keyword. Kết quả đạt
được tăng trung bình 34% (hình 2.1) về độ hồi quy với kết quả mở rộng truy vấn và


 


tăng trung bình 23% (hình 2.2) về tính chính xác với kết quả truy vấn khơng mở
rộng.

Hình 2.1: Biểu đồ giữa câu truy vấn và độ hồi quy

Hình 2.2: Biểu đồ giữa câu truy vấn và độ chính xác
2.2.2. Cơng trình nghiên cứu của Navigli và Velardi (2003)
Năm 2003 Navigli và Velardi đưa ra phương pháp giải quyết nhập nhằng
ngữ nghĩa cho câu truy vấn người dùng. Theo 3 bước sau:
-

Tạo mạng ngữ nghĩa cho mỗi ngữ cảnh.

-

Áp dụng giải thuật mạng giao ngữ nghĩa.

-


Tìm ngữ cảnh đúng của câu truy vấn ban đầu.

Đầu tiên, tạo mạng ngữ nghĩa cho khái niệm [16]. Cụ thể, tác giả trình bày
như sau:
10 
 


Trong đó,
S(wk) là tập các nghĩa của khái niệm wk.

Skj là nghĩa thứ j của khái niệm wk.
Set W ordN et ( w k )

là tập các khái niệm có các mối quan hệ được định

nghĩa trong wordNet với từ khóa wk trong ontology.
Q là câu truy vấn.
Ví dụ mạng ngữ nghĩa của khái niệm “bus”:

Hình 2.3: Mạng ngữ nghĩa [16] cho khái niệm “bus” trong ngữ cảnh 1.
Sau đó, tác giả giải quyết nhập nhằng ngữ nghĩa của câu truy vấn ban đầu,
dựa vào thông tin mạng ngữ nghĩa của mỗi từ khóa với kỹ thuật mạng giao ngữ
nghĩa nhằm khử nhập nhằng nghĩa để chọn được nghĩa tốt cho câu truy vấn. Theo
phương pháp sau:

Trong đó,
11 
 



Cx là nghĩa của câu truy vấn x được tính như sau:

với

S

i
xi

là nghĩa thứ xi của từ khóa thứ i trong câu truy vấn Q,

với xi là thứ tự nghĩa của từ khóa wk.
SN(S’) là mạng ngữ nghĩa của khái niệm S’.
Ví dụ mơ hình mạng giao ngữ nghĩa của từ khóa mountain#1 và top#3:

Hình 2.4: Ví dụ mơ hình mạng giao ngữ nghĩa [16] của
từ khóa mountain#1 và top#3
Trong hình 2.4 là mạng giao ngữ nghĩa giữa ngữ cảnh 1 của mountain và ngữ
cảnh 3 top. Kết quả mạng giao khái niệm mountain và khái niệm top là tập khái
niệm {location#1, hill#1}.
Cuối cùng, giải thuật chọn ra nghĩa có score cao nhất làm nghĩa của câu truy
vấn ban đầu. Kết quả đánh giá giải thuật trên của tác giả là 90%. Đây là 1 kết quả
tương đối tốt.

12 
 



2.2.3. Cơng trình nghiên cứu của Banerjee và Pedersen (2003)
Cơng trình này [2] đề xuất mở rộng giải thuật Gloss Overlap của tác giả Lesk
(1986). Nghĩa là thay vì xác định số lượng các từ chung giữa những chú giải của các
khái niệm, thì phương pháp này đề xuất thêm việc xác định số lượng các từ chung
giữa những mối quan hệ lẫn nhau. Ví dụ cho một tập các quan hệ RELS={gloss,
hype, hypo}, từ đó sẽ chọn ra tập các cặp quan hệ RELPAIRS = {(gloss,gloss),
(hype,hype), (hypo,hypo), (hype,gloss), (gloss,hype)}.
Quan hệ gần gũi giữa hai khái niệm A, B được tính như sau:
relatedness ( A, B) =



score( R1 ( A), R2 ( B))

∀ ( R1 , R2 )∈RELPAIRS

Trong đó,
A và B là các khái niệm với mối liên quan đang được đo lường.
Score(R1(A),R2(B)) là số từ chung giữa 2 tập R1(A) và tập R2(B).
R(X) là tập khái niệm có quan hệ R với khái niệm A.
Relatedness(A,B) là mức độ gần gũi giữa 2 khái niệm A, B.
RELPAIRS là tâp các cặp quan hệ wordNet được mô tả như sau:

Với,
RELS là tập quan hệ wordNet.
RELPAIRS là tâp các cặp quan hệ wordNet.
Một cách trình bày khác cho cách tính quan hệ gần gũi giữa hai khái niệm A,
B như sau:
n


n

Relatedness ( A, B ) = ∑∑ score(R i ( A), R j ( B ))
i=1 j =1

Trong đó,
13 
 


×