Tải bản đầy đủ (.pdf) (22 trang)

Tóm tắt luận án tiến sĩ: kỹ thuật xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (538.14 KB, 22 trang )

- 1 -


ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HỒ CHÍ MINH





NGUYỄN CHÁNH THÀNH





XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN
TRONG TRUY XUẤT THÔNG TIN VĂN BẢN

Chuyên ngành: Khoa học Máy tính
Mã số: 62.48.01.01







TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT







TP. HỒ CHÍ MINH – 2010



- 1 -

Chương 1- MỞ ĐẦU
1.1. Động cơ nghiên cứu
Để phục vụ cho những nhu cầu tìm kiếm thông tin của người sử
dụng, các hệ thống truy xuất thông tin (IR) ñã ñược nghiên cứu và
phát triển, trong ñó thành công nhất là một số ñộng cơ tìm kiếm
(search engine) nổi tiếng như Google–Yahoo–Alta Vista và Bing
trong thời gian gần ñây Tuy nhiên, thông qua các hệ thống ñó, việc
tìm kiếm thông tin thường không nhận ñược ñầy ñủ kết quả cần thiết
như mong muốn cũng như hiệu suất của chúng còn có một số giới
hạn nhất ñịnh.
Từ các phân tích trên, chúng ta nhận thấy nguyên nhân chính là các
hệ thống tìm kiếm thông tin chưa ñủ mạnh nên kết quả ñưa ra không
thể hỗ trợ người dùng như mong ñợi. Truy vấn của người dùng cũng
chưa phản ánh ñầy ñủ ngữ nghĩa ñể hỗ trợ cho các quá trình tìm
kiếm và truy xuất thông tin ñược tốt hơn. Vì vậy, việc bổ sung ngữ
nghĩa vào truy vấn ban ñầu của người dùng là yêu cầu cần thiết.
Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tin
tiếng Anh (trên môi trường Web), cùng với hướng giải quyết làm sao
ñể hệ thống IR có thể hiểu nhiều hơn và thông minh hơn khi xử lý
truy vấn ban ñầu của người dùng, thì yêu cầu về một hệ thống truy

xuất thông tin có khả năng tạo ra những truy vấn ñồng nghĩa hoặc
cùng mục tiêu là bài toán quan trọng. Do ñó, vấn ñề mở rộng truy
vấn là bài toán quan trọng mà luận án này nghiên cứu và ñề xuất
phương pháp giải quyết.
1.2. Mục tiêu và phạm vi nghiên cứu
Từ ñộng cơ nghiên cứu nêu trên, luận án ñề xuất một số phương
pháp mở rộng truy vấn ban ñầu của người dùng. Đây là vấn ñề cốt
lõi và ñồng thời là mục tiêu nghiên cứu của luận án.
Như ñịnh hướng nêu trên, phạm vi nghiên cứu của luận án ñược thể
hiện trong hình 1.1 (trong khung ñường gạch ñứt nét).
- 2 -

Nhập:

Câu truy vấn
dạng cụm
danh từ


Bộ xử lý
mở rộng
truy vấn
trên cơ sở
kết hợp với
ontology
Động cơ
tìm kiếm
thông tin
Kết quả trả
về (tập tài

liệu)

Xuất:

Các câu truy
vấn:
- dạng cụm
danh từ,
- ñã ñược mở
rộng có dạng
truy vấn hoàn
chỉnh.

(A)
(B)
(C)

Hình 1.1. Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất
thông tin
(c)
(A) Mô hình xử lý của luận án (phạm vi nghiên cứu của luận án)
(B) Động cơ tìm kiếm thông tin (thuộc hệ thống truy xuất thông tin)
(C) Kết quả tìm kiếm thông tin từ yêu cầu của các câu truy vấn ñã mở rộng


Với mô hình ñược mô tả ở hình 1.1, trong mục (A), câu truy vấn
nhập (dạng cụm danh từ bao gồm các thành phần là tính từ hay chỉ
có danh từ ñơn) ñược xử lý ñể trả về tập các câu truy vấn ñã ñược
mở rộng (cụm danh từ có dạng truy vấn hoàn chỉnh
d

). Trong phạm vi
luận án, dựa trên giải pháp rút trích các từ ñặc trưng cốt lõi cho một
câu ([8] [39]), câu truy vấn ban ñầu của người dùng ñược tiền xử lý
ñể loại bỏ các thành phần không quan trọng nhằm giữ lại những
thành phần chính thỏa ñiều kiện truy vấn hoàn chỉnh. Điều ñó sẽ
giúp giảm ñược ñộ phức tạp hay dạng biểu diễn phức hợp của truy
vấn, ñồng thời còn giúp ñảm bảo tính duy nhất của từng thành phần
trong truy vấn thỏa ñiều kiện truy vấn hoàn chỉnh.
Mục (B) của hình trên gồm ñộng cơ tìm kiếm thông tin (search
engine). Đây là một bộ phận quan trọng của hệ thống Truy xuất
Thông tin. (Information Retrieval). Động cơ tìm kiếm thông tin giải

c

Trong tài liệu này, chỉ số của các hình, bảng biểu và tài liệu tham
khảo ñược giữ ñúng theo quyển luận văn chính, không ñánh số lại.

d
Tham khảo ñịnh nghĩa 3.10-Truy vấn hoàn chỉnh, mục 3.2.6, chương 3.
- 3 -

quyết ba vấn ñề cốt lõi là mô hình biểu diễn văn bản, thuật toán tìm
kiếm so trùng từ khóa - ñối sánh ngữ nghĩa tương ứng với các truy
vấn và cơ chế lọc kết quả truy xuất. Hiện tại trên thế giới có những
ñộng cơ tìm kiếm thông tin nổi tiếng như Google, Yahoo, Microsoft
Bing … Tuy nhiên, nghiên cứu của luận án chỉ sử dụng những ñộng
cơ này như một công cụ hỗ trợ việc tìm kiếm thông tin cho truy vấn
ñã mở rộng bằng phương pháp xử lý của luận án và không ñặt mục
tiêu nghiên cứu ba vấn ñề nêu trên. Vì vậy luận án ñã không trình
bày ba vấn ñề này.

Mô hình xử lý của luận án (trong mục (A)) chỉ thực hiện việc
mở rộng nội dung của truy vấn nhập nên hoàn toàn không làm
ảnh hưởng ñến ba khía cạnh nêu trên trong quá trình vận hành
của ñộng cơ tìm kiếm ở mục (B). Điều này còn cho thấy phạm
vi nghiên cứu của luận án hướng ñến bài toán mở rộng truy vấn
dựa trên ontology và hoàn toàn khác biệt so với ba khía cạnh
ñã nêu.
Từ những trình bày trên, các bài toán chính cần giải quyết trong
phạm vi luận án bao gồm:
Bài toán 1 - Xây dựng ontology OOMP
Nghiên cứu và phát triển cấu trúc ontology OOMP (Ontology of
Object-Member-Property) cùng cơ chế huấn luyện dữ liệu. Từ ñó tạo
dữ liệu ban ñầu dựa trên tập tài liệu tiếng Anh từ nguồn TREC cũng
như khai thác dữ liệu từ WordNet ñể cung cấp ontology OOMP
nhằm phục vụ yêu cầu của bài toán 2.
Bài toán 2 - Xây dựng phương pháp hoàn chỉnh mở rộng truy
vấn
Dựa trên ontology ở bài toán 1, nghiên cứu xây dựng phương pháp
tiếp cận mới cho việc mở rộng truy vấn nhằm tạo truy vấn kết quả có
dạng truy vấn hoàn chỉnh (biểu diễn ở dạng cụm danh từ về mặt
ngôn ngữ học) và xây dựng các giải thuật hỗ trợ trong phạm vi bài
toán 2.
- 40 -

Conference on Principles and Practice of Knowledge Discovery in
Databases. Dubrovnik, Croatia. 22 September 2003.
[35] Sandhya Revuri, Sujatha R Upadhyaya, P Sreenivasa Kumar.
Using Domain Ontologies for Efficient Information Retrieval. 13th
International Conference on Management of Data (COMAD 2006), IIT,
Delhi, India, 2006.

[36] Tru H. Cao, Khanh C. Le, Vuong M. Ngo. Exploring
Combinations of Ontological Features and Keywords for Text Retrieval.
Lecture Notes In Artificial Intelligence; Vol. 5351. The 10th Pacific Rim
International Conference on Artificial Intelligence: Trends in Artificial
Intelligence, pp.603-613. Hanoi, Vietnam. 2008. ISBN: 978-3-540-89196-
3.
[37] Tru H. Cao, Truong D. Cao, Thang L. Tran. A Robust Ontology-
Based Method for Translating Natural Language Queries to Conceptual
Graphs. Lecture Notes In Computer Science; Vol. 5367. The 3rd Asian
Semantic Web Conference on The Semantic Web, pp.479 - 492. Bangkok,
Thailand. 2008. ISBN: 978-3-540-89703-3.
[38] Van Dang, Bao-Quoc Ho, Minh Luong Vi, Bich-Thuy Dong.
English-Vietnamese Cross-Language Information Retrieval: An
Experimental Study. IEEE International Conference on Research,
Innovation and Vision for the Future, RIVF 2008, pp.107-113. July 13-17,
2008. Ho Chi Minh City, Vietnam. ISBN: 978-1-4244-2379-8.
Trang web
[39] KEA,
[40] Lucene,
[41] TREC,


- 39 -

- in Computing and Communications Technologies (RIVF'2008), pp.247-
254. July 13-17, 2008. HCM City, Vietnam.
[26] Julio Gonzalo, Felisa Verdejo, Irina Chugur, Juan Cigarran.
Indexing with WordNet synsets can improve text retrieval. Proceedings of
the COLING/ACL'98 Workshop on Usage of WordNet for NLP, Montreal.
[27] Khanh Tran Dang. Ensuring Correctness, Completeness and

Freshness for Outsourced Tree-Indexed Data. Information Resources
Management Journal (IRMJ), Idea-Group Publisher, ISSN 1040-1628, Vol.
21, Issue 1, pp.59-76. Jan-Mar 2008.
[28] Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin,
Zach Solan, Gadi Wolfman, Eytan Ruppin. Placing search in context: the
concept revisited. ACM Transactions on Information Systems, volume 20,
issue 1 (January 2002), pp.116–131. 2002. ISSN: 1046-8188.
[29] Marti A. Hearst. Automatic acquisition of hyponyms from large
text corpora. International Conference On Computational Linguistics.
Proceedings of the 14th conference on Computational linguistics, Volume
2, pp.539–545.France. 1992.
[30] Phuc Do, Hung Xuan Mai. Using SOM based graph clustering for
extracting main ideas from documents. IEEE International Conference on
Research, Innovation and Vision for the Future, RIVF 2008, pp. 209-214.
July 13-17, 2008. Ho Chi Minh City, Vietnam. ISBN: 978-1-4244-2379-8
[31] Phuc Do, Phung Nguyen. Using Naïve Bayes Model and Natural
Language Processing for Classifying Messages on Online Forum. IEEE
International Conference on Research, Innovation and Vision for the
Future, pp.247-252. March 5-9, 2007. Hanoi, Vietnam. ISBN: 1-4244-
0694-3.
[32] Robert Bossy, Alain Kotoujansky, Sophie Aubin, Claire Nedellec.
Close Integration of ML and NLP Tools in BioAlvis for Semantic Search in
Bacteriology. In Semantic Web Applications and Tools for Life Sciences,
SWAT4LS. 2008.
[33] Robert Krovetz, W. Bruce Croft. Lexical ambiguity and
information retrieval. ACM Transactions on Information Systems (TOIS),
Volume 10, Issue 2 (April 1992), pp.115–141. 1992. ISSN: 1046-8188.
[34] Roberto Navigli, Paola Velardi. An analysis of ontology-based
query expansion strategies. Proceedings of the International Workshop on
Adaptive Text Extraction and Mining held in conjunction with the 14th

European Conference on Machine Learning and the 7th European
- 4 -

1.3. Đóng góp chính của luận án
Các vấn ñề nghiên cứu của luận án ñã có một số ñóng góp mới về
mặt khoa học từ phương pháp luận ñến giải pháp thực hiện:
* Đóng góp thứ nhất: ñề xuất phương pháp xác ñịnh các quan hệ
của các khái niệm bao gồm:
− Quan hệ
m
R
xác ñịnh thành phần ñặc trưng (member) của
ñối tượng (object).
− Quan hệ
p
R
tính chất ñặc trưng (property) của thành phần.
− Các quan hệ xác ñịnh tính chất trội
m
R
f

p
R
f
liên quan.
Các phương pháp mà luận án ñề xuất không những có thể áp dụng
trong phạm vi luận án ñể giải quyết Bài toán 1 và Bài toán 2 nêu trên
mà còn có thể áp dụng trong một số lĩnh vực khác ñể tạo ontology
cho một miền khái niệm (trong lĩnh vực xử lý ngôn ngữ tự nhiên).

Ngoài ra, từ góc ñộ toán học, việc xây dựng các lớp ñồng dạng (liên
quan ñến nhóm các ñối tượng, nhóm các thành phần ñặc trưng và
nhóm các tính chất ñặc trưng
e
) từ các quan hệ nêu trên sẽ giúp cho
việc phân loại ñối tượng hiệu quả hơn. Công trình [ii], [iv], [v] và
[ix]
f
ñã giới thiệu phương pháp xác ñịnh các quan hệ cùng ñịnh nghĩa
của những khái niệm này.
Phần ñóng góp này sẽ không thực sự ñầy ñủ nếu không có các ñịnh
nghĩa
OB
IR
MQE
+

,
POB
IR
MQE
++

,
OB
IR
MQE
+
+
,

POB
IR
MQE
++
+
cùng khái
niệm truy vấn hoàn chỉnh, cây phân tích và dạng ñồ thị ngữ nghĩa do
tác giả ñề xuất, liên quan ñến việc mô hình hóa bài toán mở rộng
truy vấn.
* Đóng góp thứ hai: ñề xuất mô hình ontology OOMP cùng các
phương pháp huấn luyện dữ liệu:
− Phương pháp huấn luyện dựa trên kho ngữ liệu sẵn có
(Corpus-Based Knowledge Base Training, CB-KBT).

e
Tham khảo thêm hình 3.3, trang 64 về các lớp này.
f
Tham khảo thêm phần Các công trình khoa học.
- 5 -

− Phương pháp huấn luyện dựa trên ontology WordNet sẵn có
(WordNet-Based Knowledge Base Training, WB-KBT).
− Phương pháp tự huấn luyện dựa trên nội dung sẵn có của
ontology từ hai phương pháp CB-KBT và WB-KBT cùng WordNet
(Auto Knowledge Base Training, A-KBT).
Ontology OOMP không những ñược dùng ñể phục vụ bài toán mở
rộng truy vấn mà còn có thể ñược sử dụng cho những bài toán khác
theo hướng khai thác các quan hệ khái niệm. Ngoài ra, từ góc ñộ
ngôn ngữ học, các thành phần của ontology OOMP ñược phân lớp
dựa trên một số dạng từ loại chính (như danh từ, tính từ) nên cấu trúc

của chúng ít phụ thuộc vào sự khác nhau của các ngôn ngữ tự nhiên.
Do ñó, việc phát triển ontology trên những ngôn ngữ tự nhiên khác
(như tiếng Việt hay Pháp …) tương ñối thuận lợi. Nội dung liên quan
ñến ñóng góp này ñược công bố trong [iv], [v] và [ix].
* Đóng góp thứ ba: ñề xuất mô hình xử lý truy vấn (truy vấn tiếng
Anh, dạng cụm danh từ) trên ontology OOMP, gồm các giải thuật:
− Kiểm tra tính hoàn chỉnh của cụm danh từ (Complete Noun
Phrase Verification, CNPV)
− Hoàn chỉnh cụm danh từ (Noun Phrase Completion, NPC)
− Mở rộng cụm danh từ tương tự (Similar Noun Phrase
Expansion, SNPE)
Mô hình cùng các phương pháp xử lý truy vấn này có thể áp dụng
trong Bài toán 2, cũng như trong các bài toán khác như:
− Kiểm tra tính hoàn chỉnh của cụm danh từ tiếng Anh theo
quan ñiểm ngôn ngữ học tính toán (ứng dụng trong lĩnh vực xử lý
ngôn ngữ tự nhiên: truy xuất thông tin, rút trích thông tin, tóm lược
nội dung văn bản).
− Hoàn chỉnh và mở rộng cụm danh từ tương ñương (ứng dụng
trong lĩnh vực xử lý ngôn ngữ tự nhiên: truy xuất thông tin, rút trích
thông tin, tóm lược nội dung văn bản) ….
Các phương pháp và giải thuật liên quan ñến ñóng góp này ñược giới
thiệu trong [ii], [v] và [ix].
- 38 -

Intelligence - ICAI'09, vol. 1, pp. 137-141, Las Vegas, USA, July 13-16,
2009. ISBN: 1-60132-107-4, 1-60132-108-2. CSREA Press.
[18] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan.
Natural Language Interaction-Based Document Retrieval. Proceedings of
the 2nd IEEE International Conference on Computer Science and
Information Technology 2009 (ICCSIT 2009), vol. 4, pp. 544-548. Beijing,

China, August 8-11, 2009. ISBN: 978-1-4244-4520-2.
[19] Dang Tuan Nguyen, Chinh Trong Nguyen. Cross-lingual
Information Retrieval Model for Vietnamese-English Web Sites. Accepted
paper, The 2nd International Conference on Computer Modeling and
Simulation (ICCMS 2010), Sanya, China, January 22-24, 2010. Editions
IEEE.
[20] Dang Tuan Nguyen, Tuan Ngoc Pham, Quoc Tan Phan. A
Semantic Model for Building the Vietnamese Language Query Processing
Framework in e-Library Searching Application. Accepted paper, The 2nd
International Conference on Machine Learning and Computing (ICMLC
2010), Bangalore, India, February 9-11, 2010 . Editions IEEE.
[21] Dat T. Huynh, Tru H. Cao, Hung Q. Ta, Le H. Nguyen. VN-KIM
KBM: A Distributed and Collective Tool for Managing Semantic Web
Knowledge Bases. The 1st Workshop on Human Factors and the Semantic
Web (SWAHA'2008, December 08, Bangkok, Thailand, in conjunction
with ASWC'2008), pp.153-158. Thailand 2008.
[22] Ellen M. Voorhees. Using Wordnet to disambiguate word senses
for text retrieval. Annual ACM Conference on Research and Development
in Information Retrieval. Proceedings of the 16th annual international ACM
SIGIR conference on Research and development in information retrieval,
pp.171–180. Pennsylvania, United States. 1993. ISBN: 0-89791-605-0
[23] Ellen M. Voorhees. Query expansion using lexical-semantic
relations. Annual ACM Conference on Research and Development in
Information Retrieval. Proceedings of the 17th annual international ACM
SIGIR conference on Research and development in information retrieval,
pp.61 - 69. Dublin, Ireland. 1994. ISBN: 0-387-19889-X.
[24] Franc A. Grootjen, Theo P. Van Der Weide. Conceptual query
expansion. Data & Knowledge Engineering, Vvolume 56, Iissue 2
(February 2006), pp.174–193. 2006. ISSN: 0169-023X.
[25] Hien T Nguyen, Tru H Cao. Named Entity Disambiguation on an

Ontology Enriched by Wikipedia. In Proceedings of the 6th IEEE
International Conference on Research, Innovation and Vision for the Future
- 37 -

[10] Chinh Trong Nguyen, Dang Tuan Nguyen. A New Model of
English-Vietnamese Bilingual Information Retrieval System. International
Conference on Information Technology (ICIT 2009), Venice, Italy, October
28-30, 2009.
[11] Dang Tuan Nguyen, Ha Quy-Tinh Luong, Tuyen Thi-Thanh Do.
Building a Vietnamese language query processing framework for e-library
searching systems. International Journal of Computer Science and
Information Security (IJCSIS), pp. 092-096, Vol. 6, No. 1, October 2009.
ISSN: 1947-5500.
[12] Dang Tuan Nguyen, Ha Quy-Tinh Luong. Document searching
System based on natural language query processing for Vietnam Open
Courseware library. International Journal of Computer Science Issues
(IJCSI), pp.7-13,Vol. 6, No. 2, November 2009. ISSN (online): 1694-0784,
ISSN (print): 1694-0814.
[13] Dang Tuan Nguyen, Tuyen Thi-Thanh Do. e-Document Retrieval
by Question Answering System. International Conference on
Communication Technology, February 25-27, 2009, Penang, Malaysia.
Proceedings of World Academy of Science, Engineering and Technology,
vol. 38, 2009, pp.395-398, ISBN: 2070-3740.
[14] Dang Tuan Nguyen, Tuyen Thi-Thanh Do. Natural Language
Question Answering Model Applied To Document Retrieval System.
International Conference on Computer Science and Technology, Hongkong,
March 23-25, 2009. Proceedings of World Academy of Science,
Engineering and Technology, vol. 39, 2009, pp. 36-39, ISBN: 2070-3740.
[15] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan. A
Document Retrieval Model Based-on Natural Language Queries

Processing. Proceedings of the International Conference on Artificial
Intelligence and Pattern Recognition (AIPR), pp. 216-220, Orlando, USA,
July 13-16, 2009. ISBN: 978-1-60651-007-0. Editions ISRST.
[16] Dang Tuan Nguyen. Interactive Document Retrieval System
Based-on Natural Language Query Processing. Proceedings of the Eighth
International Conference on Machine Learning and Cybernetics, pp. 2233-
2237, Baoding, Hebei, China, July 12-15, 2009. ISBN: 978-1-4244-3703-0.
Editions IEEE.
[17] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan.
Integrating Natural Language Query Processing and Database Search
Engine. Proceedings of the 2009 International Conference on Artificialal
- 6 -

* Đóng góp thứ tư: Phương pháp xây dựng chỉ mục hướng ngữ
nghĩa (Semantic Index Creation, SIC) thông qua việc mở rộng cấu
trúc chỉ mục ñể lưu trữ thêm thông tin liên quan ngữ nghĩa ñến
ontology xác ñịnh. Đây chính là cầu nối giúp triển khai những
nghiên cứu lý thuyết vào ứng dụng thực tiễn trong lĩnh vực truy xuất
thông tin. Kết quả thu ñược từ phương pháp này tạo tiền ñề cho
nhiều nghiên cứu ứng dụng liên quan ñến truy xuất thông tin.
Phương pháp này ñược trình này trong công trình [iv] và ñược phát
triển trong [iii] và [viii].
Những kết quả ñạt ñược này ñồng thời ñược áp dụng cho công trình
[xii] và dự ñịnh áp dụng cho công trình [xiii].



- 7 -

Tóm tắt nội dung luận án:



Hình 1.2. Tóm tắt nội dung các vấn ñề trình bày trong luận án
- 36 -

TÀI LIỆU THAM KHẢO
(LƯỢC TRÍCH TỪ LUẬN ÁN)
Tiếng Việt
[1] Nguyễn Chí Hiếu. Mô hình khai thác ñặc tính ngôn ngữ ñích nhằm
xác ñịnh các cụm danh từ cơ sở tương ứng Anh-Việt. Luận án tiến sĩ. Đại
học Quốc gia Tp.Hồ Chí Minh. 2007.
[2] Nguyễn Chí Hiếu, Phan Thị Tươi, Nguyễn Xuân Dũng, Nguyễn
Quang Châu. Sử dụng kỹ thuật Pruning vào bài toán xác ñịnh từ loại. Tạp
chí Phát triển Khoa học & Công nghệ, tập 8, số 11, 14-23, 2005.
[3] Nguyễn Quang Châu, Phan Thị Tươi. Nhận diện cụm từ ñặc trưng
ngữ nghĩa trong tiếng Việt. Tạp chí Bưu chính Viễn thông và Công nghệ
thông tin, số 19, 2/2008.
[4] Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ. Tự ñộng rút
trích các cụm danh từ Anh - Việt từ kho ngữ liệu song ngữ. Kỹ yếu hội thảo
khoa học Quốc gia lần II “Nghiên cứu cơ bản và Ứng dụng công nghệ
thông tin”, Đại học Bách khoa Tp.HCM, Việt nam, 23-24/9/2005.
Tiếng Anh
[5] Abraham Bernstein, Esther Kaufmann, Christian Kaiser, Christoph
Kiefer. Ginseng, A Guided Input Natural Language Search Engine, for
Querying Ontologies. Jena User Conference. Bristol. UK. 2005.
[6] Bao Tu Ho, Thang Truong Nguyen, Chien Phu Nguyen, Mai Chi
Luong. Towards a practical Framework for Vietnamese Natural Language
Processing. Proceeding of Second Vietnam-Japan Symposium on Fuzzy
Systems and Applications, 12/2001, pp297-304.
[7] Baziz Mustapha, Boughanem Mohand,Aussenac-Gilles Nathalie.

Conceptual indexing based on document content representation information
context: nature, impact, and role. In 5th International Conference on
Conceptions of Library and Information Sciences No5, Glasgow, Volume
3507, pp.171-186, UK (04/06/2005)
[8] Chau Q. Nguyen, Tuoi T. Phan. An Ontology-Based Approach for
Key Phrase Extraction. Proceedings of the Joint Conference of the 47th
Annual Meeting of the ACL and the 4th International Joint Conference on
Natural Language Processing of the AFNLP.
[9] Chau Q.Nguyen, Tuoi T.Phan, Tru H.Cao. Vietnamese Proper
Noun Recognition. Proceedings of the 4th IEEE International Conference
on Computer Science, Research, Innovation & Vision for the Future,
February 12-16,2006 Ho Chi Minh City, Vietnam.
- 35 -

40, 2010. Springer-Verlag. ISSN 1860-949X. DOI 10.1007/978-3-
642-12090-9
Hội nghị Khoa học Quốc tế
ACM: Association for Computing Machinery ACS:
Austrian Computer Society
[vii] Thanh C.NGUYEN, Hai M.LE, Tuoi T.PHAN. Building
Knowledge Base for Vietnamese Information Retrieval. The 11th
International Conference on Information Integration and Web-based
Applications & Services, 2009, Malaysia, ACM & ACS. ACM ISBN
978–1–60558–660–1.
[viii] Thanh C.NGUYEN, Tuoi T.PHAN. The effect of Semantic
Index in Information Retrieval development. The 10th International
Conference on Information Integration and Web-based Applications
& Services, 2008, Austria, ACM & ACS, pp.438–441. ACM ISBN
978–1–60558–349–5.
[ix] Thanh C.NGUYEN, Tuoi T.PHAN. An ontology-based

approach of query expansion. The 9th International Conference on
Information Integration and Web Based Application & Service,
2007, Indonesia, ACS, pp.113–123. ISBN 978–3–85403–229–8.
[x] Thanh C.NGUYEN, Tuoi T.PHAN. A hybrid approach of noun
phrase translation in Cross-Language Information Retrieval. The
9th International Conference on Information Integration and Web
Based Application & Service, 2007, Indonesia, ACS, pp.389–394.
ISBN 978–3–85403–229–8.
[xi] Thanh C. Nguyen, Tuoi T.Phan. Applying Key-Phrase in Cross-
Language Information Retrieval. The Eighth International
Conference on Information Integration and Web Based Application
& Service, 2006, Indonesia, ACS, pp.451–460. ISSN 3–85403–214–
5, ISBN 978–3–85403–3–214–4.
NGHIÊN CỨU KHOA HỌC
[xii] Tham gia ñề tài nghiên cứu khoa học trọng ñiểm cấp Đại học
Quốc gia Tp.HCM “Xây dựng chương trình trợ giúp truy xuất thông
tin bằng tiếng Việt” (B2005-20-01-TD), 2005-2007 (ñã hoàn tất), do
PGS.TS. Phan Thị Tươi chủ nhiệm.
[xiii] Tham gia ñề tài nghiên cứu khoa học cấp Nhà nước “Nghiên
cứu, xây dựng một số hệ thống khai thác thông tin ña phương tiện có
hỗ trợ tiếng Việt” (KC.01/06-10/02), thuộc Chương trình Nghiên
cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông,
2009-2010 (ñang thực hiện), do PGS.TS. Phan Thị Tươi
- 8 -

Chương 2- NGHIÊN CỨU LIÊN QUAN
Ở Việt nam hiện có các nhóm nghiên cứu với nhiều công trình công
bố trong và ngoài nước. Tuy hướng nghiên cứu và kết quả công bố
của những nhóm này không hoàn toàn liên quan ñến các bài toán mở
rộng truy vấn của luận án, nhưng trong mỗi hướng xử lý (liên quan

từng phần ñến luận án) về ontology, truy xuất và rút trích thông tin
cũng như ứng dụng xử lý ngôn ngữ tự nhiên, họ ñã ñạt ñược những
kết quả quan trọng cùng với nhiều công trình khoa học công bố trong
và ngoài nước như [1] [2] [3] [4] [8] [9] trong năm 2007-2009 và
năm 2010 (nhóm TS.Phan Thị Tươi), như [36] [37] trong năm 2007-
2009 (nhóm TS.Cao Hoàng Trụ-Quản Thành Thơ) và [27] (nhóm
TS.Đặng Trần Khánh) cùng thuộc ĐH-BK.HCM, như [10] [11] [12]
[13] [14] [15] [16] [17] [18] [19] [20], [30] [31] năm 2008-2009
(nhóm TS.Nguyễn Tuấn Đăng, nhóm TS.Đỗ Phúc, ĐH-
CNTT.HCM), như [38] (nhóm TS.Đồng Thị Bích Thủy-Hồ Bảo
Quốc, ĐH-KHTN.HCM), [6] của Viện Công nghệ Thông tin (nhóm
TS.Lương Chi Mai, TS.Bạch Hưng Khang, và TS.Hồ Tú Bảo).
Việc ứng dụng ontology ñể trợ giúp vấn ñề mở rộng truy vấn ñược
nghiên cứu từ những năm ñầu thập niên 1990 với một số thành
công
g
. WordNet là một ontology tổng quát phổ dụng ñược dùng
trong bài toán mở rộng truy vấn của các nhóm Gonzalo [26],
Voorhees [22] [23], Hearst [29] Ngoài ra, việc phát triển một
ontology chuyên dụng phục vụ nhu cầu mở rộng truy vấn cũng ñược
tiến hành bởi các nhóm Finkelstein [28], Navigli và Velardi [34] hay
Baziz [7], Grootjen và V.D.Weide [24]… Đặc biệt, nhóm Abraham
[5] phát triển bản thể học với các thành phần lớp (class), ñối tượng
thể hiện (instance), thuộc tính (property) và tìm kiếm, phát sinh các
từ ñồng nghĩa. Sandhya [35] ñã xây dựng bản thể học dựa trên các
khái niệm ñối tượng thể hiện, thuộc tính, khái niệm (concept) và một
số quan hệ như IS-A, rời rạc (disjointness) và tương ñương

g
Phần này chỉ trình bày một số công trình nghiên cứu ñặc trưng, các công

trình nghiên cứu còn lại khác ñược trình bày chi tiết trong Chương 2 của
quyển Luận án.
- 9 -

(equivalence) cùng một giải thuật xử lý cho kết quả có ñộ chính xác
23% và ñộ bao phủ 34%. [32] [33] ñề xuất một mô hình mới về
mạng ngữ nghĩa dựa trên một số quan hệ trích dẫn từ WordNet như
quan hệ thượng danh (hypernymy), hạ danh (hyponymy), toàn thể
(meronymy), bộ phận (holonymy), tính chất (attribute), tương ñồng
(similarity), và một số quan hệ ñược ñịnh nghĩa thêm như chú giải
(gloss), chủ ñề (topic) và miền (domain).

[
Chương 3- XÂY DỰNG NỀN TẢNG HỆ THỐNG
3.1. Giới thiệu
Chương này trình bày những khái niệm nền tảng của mô hình mở
rộng truy vấn dựa trên ontology. Lý thuyết ñược ñề xuất về các quan
hệ hai ngôi ở mục 3.2 sẽ là cơ sở ñể xây dựng những quan hệ ngữ
nghĩa giữa các ñối tượng trong thế giới thực. Ở mục 3.3, thông qua
các ñịnh nghĩa về mô hình bài toán mở rộng truy vấn, sẽ cung cấp
một lý thuyết giúp ñảm bảo tính tổng quát và tính ñúng của vấn ñề.
Phần 3.4 hướng người ñọc ñến vấn ñề cấu trúc cụm danh từ trong
tiếng Anh, sau ñó trình bày về ñề xuất của luận án về mẫu xác ñịnh
cụm danh từ ñể phục vụ việc huấn luyện ontology OOMP cũng như
việc phân tích các truy vấn. Các mục còn lại của chương giới thiệu
phương pháp ñánh giá kết quả, môi trường, công cụ hỗ trợ và dữ liệu
thực nghiệm ở các chương tiếp theo. Một phần kết quả của chương
này ñã công bố trong công trình [ii], [iv], [v] và [ix].
3.2. Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mở
rộng truy vấn

Từ hai bài toán xác ñịnh trong chương 1, tác giả ñề xuất cơ sở lý
thuyết về các quan hệ ngữ nghĩa mở rộng ñóng vai trò nền tảng trong
việc phát triển cấu trúc ontology và các phương pháp mở rộng truy
vấn cũng như hoàn thiện truy vấn.
Giả sử:
− D={w
i
} tập danh mục từ của ngôn ngữ tự nhiên
− O={o
i
} tập danh mục từ mô tả ñối tượng (object)
- 34 -

hướng nghiên cứu trong tương lai. Ứng dụng những phương pháp
ñược ñề xuất trong luận án vào xử lý ngôn ngữ tự nhiên tiếng Việt là
mục tiêu lâu dài và ñồng thời là hướng nghiên cứu phát triển của tác
giả. Những ứng dụng này sẽ ñóng góp một phần trong hướng nghiên
cứu lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt.
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ
BÁO CÁO KHOA HỌC
Tạp chí Khoa học
[i] Tuoi T.Phan, Thanh C.Nguyen. Vietnamese knowledge base
development and exploitation. The International Journal of Business
Intelligence and Data Mining (IJBIDM), 2010. ISSN (Online): 1743-
8195, ISSN (Print): 1743-8187 (Được chấp nhận ñăng bài)
[ii] Nguyễn Chánh Thành, Phan Thị Tươi. Mô hình mở rộng truy
vấn trong truy xuất thông tin. Tạp chí Công Nghệ Thông tin &
Truyền Thông: Các công trình nghiên cứu khoa học, nghiên cứu
triển khai Công nghệ Thông tin và Truyền thông, số 2 (23) kỳ 3, Việt
nam, 2010. ISSN 0866–7039.

[iii] Nguyễn Chánh Thành, Phan Thị Tươi. Truy xuất thông tin với
chỉ mục hướng ñến ngữ nghĩa. Tạp chí Công Nghệ Thông tin &
Truyền Thông: Các công trình nghiên cứu khoa học, nghiên cứu
triển khai Công nghệ Thông tin và Truyền thông, số 20, Việt nam,
2008, tr. 49–59. ISSN 0866–7039.
[iv] Thanh C.Nguyen, Tuoi T.Phan. A hybrid solution of ontology-
based query expansion. The International Journal of Web
Information Systems, Volume 4 Number 2, 2008, pp.215–227, 2008.
ISSN 1744–0084.
[v] Nguyễn Chánh Thành, Phan Thị Tươi. Truy xuất thông tin:
Giải pháp bản thể học cho hoàn chỉnh truy vấn. Tạp chí Công Nghệ
Thông tin & Truyền Thông: Các công trình nghiên cứu khoa học,
nghiên cứu triển khai Công nghệ Thông tin và Truyền thông, số 19,
Việt nam, tr. 84–92, 2008. ISSN 0866–7039.
Chương sách
[vi] Tuoi T.PHAN, Thanh C.NGUYEN, Thuy N.T.HUYNH.
Question Semantic Analysis in Vietnamese QA System. The
Advances in Intelligent Information and Database Systems book,
Serie of Studies in Computational Intelligence, Volume 283, pp.29-
- 33 -

* Vấn ñề 4: Tối ưu chi phí về thời gian xử lý của phương pháp mở
rộng kết quả tìm kiếm. Định hướng của phương pháp tối ưu này như
minh họa ở hình 7.1

Hình 7.1. Phương pháp thực hiện của vấn ñề 4
Như trình bày trong hình 7.1, phương pháp giải quyết trong trường
hợp này hướng ñến việc thu giảm thời gian thực hiện trong các hai
bước xử lý, ñiều ñó có thể tác ñộng ñến số lượng tài liệu kết quả tìm
ñược của giải thuật HS nhưng tỉ lệ cách biệt về thời gian tìm kiếm

của giải thuật HS so với phương pháp thô sẽ giảm thiểu ñáng kể. Vấn
ñề này cần ñược xem xét và tiến hành các thực nghiệm ñể kiểm
chứng mức ñộ tối ưu thu ñược từ phương pháp cải tiến.

Nhìn chung, các vấn ñề trên là tập hợp những bài toán con không
quá phức tạp nhưng cần ñược xem xét và nghiên cứu trong tương lai,
ñể có thể hỗ trợ cho việc xây dựng một hệ thống truy xuất thông tin
hướng ngữ nghĩa cho tiếng Việt. Những vấn ñề này có tầm quan
trọng ñến hướng nghiên cứu của tác giả trong lĩnh vực truy xuất
thông tin, ñặc biệt là trong việc hỗ trợ truy xuất thông tin tiếng Việt.
7.3. Lời kết
Toàn bộ nội dung trình bày trong luận án là công trình nghiên cứu
lâu dài và và cũng là thành quả mà tác giả ñạt ñược trong quá trình
nghiên cứu ñó. Đây là kết quả ñạt ñược thuộc các lĩnh vực xử lý
ngôn ngữ tự nhiên, truy xuất thông tin và ontology. Các ñóng góp
ñược trình bày trong phần 7.1 cùng những kết quả ñạt ñược về mặt
thực nghiệm ñã nhấn mạnh ý nghĩa về lý thuyết và thực tiễn của luận
án. Những vấn ñề ñược trình bày trong phần 7.2 là ñộng lực giúp tác
giả hoàn thiện những kết quả ñạt ñược trong luận án và tiếp tục
- 10 -

− M={m
j
} tập danh mục từ mô tả thành phần của ñối tượng
(member)

P={p
k
} tập danh mục từ mô tả tính chất của thành phần
(property)


Các ñịnh nghĩa ñược ñề xuất:
Định nghĩa 3.1–Độ liên kết (Sim) tương quan giữa hai ñối tượng.
Định nghĩa 3.2–Độ phụ thuộc (Dep) của ñối tượng x vào ñối tượng
y.
Định nghĩa 3.3–Thành phần của ñối tượng (Mem) xác ñịnh thành
phần của ñối tượng.
Định nghĩa 3.4–Thuộc tính của thành phần (Pro) xác ñịnh thuộc
tính của thành phần.
Định nghĩa 3.5–Quan hệ Thành phần ñặc trưng của một ñối
tượng
m
R

Ví dụ:
m
R
(“dung lượng”, “bộ nhớ”)
Định nghĩa 3.6–Quan hệ Trội giữa các thành phần ñặc trưng
m
R
f

Ví dụ:
m
R
f
(“dung lượng”, “chủng loại”) cho ñối tượng RAM.
Định nghĩa 3.7–Quan hệ Tính chất ñặc trưng của một thành phần
p

R

Ví dụ:
p
R
(“lớn nhất”, “dung lượng”) vì “dung lượng” là thành phần
ñặc trưng của ñối tượng “bộ nhớ”.
Định nghĩa 3.8–Quan hệ Trội giữa các tính chất ñặc trưng
p
R
f

Ví dụ: ñối tượng là “RAM”,
p
R
f
(“lớn nhất”, “bền nhất”).
Các quan hệ ngữ nghĩa ñã ñược ñịnh nghĩa ở trên sẽ ñược xác ñịnh
bằng các biểu thức luận lý sau:
)8.3()0),(()1),(0),((),( >∧=∨>⇔
ijijijij
m
omSimomMemomDepomR
)9.3())()(()),(),((),(
212121 jjij
m
ij
m
jj
m

mmomRomRmmR ℘>℘∧∧⇔
f
)10.3(01Pr0 )),m(Sim(p)),mo(p),m(Dep(p),m(pR
jkjkjkjk
p
>∧=∨>⇔
)11.3())()(()),(),((),(
212121 kkjk
p
jk
p
kk
p
ppmmRmpRppR ℘>℘∧∧⇔
f

Định nghĩa về quan hệ ngữ nghĩa nêu trên có thể ñược áp dụng vào
lĩnh vực xử lý ngôn ngữ tự nhiên và các lĩnh vực khác. Trong phạm
- 11 -

vi xác ñịnh, các quan hệ nêu trên ñược áp dụng ñể tạo ontology cho
một miền khái niệm trong lĩnh vực Trí tuệ nhân tạo, Xử lý ngôn ngữ
tự nhiên; ngoài ra có thể ñược dùng ñể kiểm tra tính hoàn chỉnh của
cụm danh từ hay tạo (mở rộng) cụm danh từ tương ñương… trong
các lĩnh vực thuộc Xử lý ngôn ngữ tự nhiên như Dịch máy, Truy
xuất thông tin, Rút trích thông tin, Tóm lược văn bản … Từ góc ñộ
toán học, việc xây dựng các lớp tương ñương từ các quan hệ nêu trên
ñể thực hiện phân loại ñối tượng cũng là những giải pháp cần ñược
quan tâm.
Định nghĩa 3.9 –Quan hệ giữa ñối tượng, thành phần ñặc trưng và

tính chất ñặc trưng R
OMP
(minh họa ở Hình 3.1)
Định nghĩa 3.10 – Truy vấn hoàn chỉnh
Định nghĩa 3.11 – Dạng biểu diễn của truy vấn hoàn chỉnh
Định nghĩa 3.12 – Cây phân tích của truy vấn hoàn chỉnh (minh họa
ở Hình 3.1 và 3.2)
Định nghĩa 3.12 – Đồ thị ngữ nghĩa
Định nghĩa 3.14 – Tính chất liên quan của cây phân tích
Định nghĩa 3.15 – Tập ngữ nghĩa của truy vấn



HDD

capacity

memory

computer

brand

quality

largest

well
-
known


smallest

size

price

lowest

con tent

processing unit

strongest

highest

main
-
board

object

key member 1

key property 1
1

key property n
1


key member 2

key property 1
2

key property m
2





: R
m

: R
p

(a)

(b)


Hình 3.1. Ví dụ về cây phân tích (b) ñược xây dựng từ quan hệ R
OMP
(a)

- 32 -


7.2. Hướng phát triển
Các thực nghiệm trong các chương trước ñã ñã thử nghiệm cho tất cả
giải thuật mà luận án ñề xuất với các nguồn dữ liệu liên quan ñược
chọn lọc, ñã thu ñược những kết quả khả quan. Tuy nhiên, một số
vấn ñề . Tuy nhiên, một số vấn ñề cần ñược nghiên cứu trong giai
ñoạn tiếp theo.
* Vấn ñề 1: Tối ưu hơn phần cài ñặt của các giải thuật và tận dụng
tính ưu việt của một số phần mềm chuyên dụng về tổ chức quản trị
cơ sở dữ liệu hướng ñối tượng ñể có thể tiết kiệm nhiều hơn về chi
phí thời gian thực hiện giải thuật và cải tiến hiệu suất của các
phương pháp liên quan. Vấn ñề 1 có tính thực tiễn cao, nên cần ñược
ưu tiên xem xét.
* Vấn ñề 2: Hiệu chỉnh một số bước tiền xử lý cho các phương pháp
ñể có thể áp dụng cho tiếng Việt hoặc ngôn ngữ khác, cụ thể:
− (2a) Xây dựng kho tài liệu tiếng Việt ñã ñược chuẩn hóa có
số lượng và chất lượng phù hợp.
− (2b) Hệ thống ISE cần tạo ñược các tập chỉ mục trên tài liệu
tiếng Việt ñồng thời hỗ trợ tìm kiếm truy vấn tiếng Việt.
− (2c) Cần thực hiện việc tiền xử lý nhằm phân tích truy vấn
tiếng Việt (phân ñoạn từ, gán nhãn từ loại) trước quá trình thực thi
các giải thuật ñã ñề xuất trong luận án.
Đây cũng là vấn ñề cần ñược ưu tiên xem xét trong tương lai.
* Vấn ñề 3: Tiếp tục phát triển các nghiên cứu về chỉ mục hướng
ngữ nghĩa và các ứng dụng liên quan. Như vậy, bài toán chỉ mục
hướng ngữ nghĩa có thể ñược phân tích và khai thác theo nhiều góc
ñộ khác nhau nhằm hỗ trợ các nghiên cứu phát triển hệ thống web
ngữ nghĩa. Vấn ñề này ñang ñược quan tâm xử lý và ñã có một số
kết quả ñược công bố trong công trình [iii] và [viii].
- 31 -


dữ liệu trong giải thuật CB-KBT. Các kết quả thực nghiệm này ñã tạo
sự ổn ñịnh cho các thử nghiệm tiếp theo.
− Nhóm các giải thuật xử lý truy vấn có những thực nghiệm
khá phức tạp qua nhiều bước ñể xác ñịnh tính khả thi và tính hiệu
quả tương ứng. Kết quả thực nghiệm trong các giải thuật NPC, SNPE
và NPMR cho thấy giá trị ñộ chính xác tương ñối cao trong các
nguồn dữ liệu N
6
, N
11
và N
12
liên quan ñến chủ ñề tin học, và giá trị
ñộ phủ cao ở mức tổng quát. Từ ñây, chúng ta nhận thấy ñược tính
hiệu quả của các giải thuật trong những miền có liên quan mật thiết
ñến nội dung truy vấn và tài liệu nguồn. Các so sánh trình bày trong
thực nghiệm của mỗi phương pháp này cũng cho thấy những ưu
ñiểm của từng phương pháp so với cách tìm kiếm thô mà người sử
dụng thực hiện trên các ñộng cơ tìm kiếm thông tin hiện nay.
− Kết quả từ giải thuật SIC trong nhóm giải thuật xử lý khai
thác chỉ mục cho thấy số lượng các liên kết mở rộng ñến ontology
OOMP ñạt mức ñộ tương ñối cao phụ thuộc vào số lượng ñầu mục
trong mỗi tập chỉ mục tương ứng cũng như mức ñộ tương hợp giữa
những ñầu mục ñó với các phần tử trong ontology OOMP. Điều này
ảnh hưởng ñến kết quả thực nghiệm của giải thuật HS trong những
trường hợp tìm kiếm mở rộng trong phạm vi cục bộ và toàn cục. Các
so sánh trong thực nghiệm của giải thuật này cho thấy khả năng bao
phủ trong kết quả của giải thuật HS tốt hơn so với những giải thuật
vừa nêu trên.
Nhìn chung, kết quả bước ñầu của những thực nghiệm ở chương 6

thể hiện tính khả thi của hướng nghiên cứu của luận án ñồng thời
phản ánh tính hiệu quả của các giải thuật. Hướng nghiên cứu xử lý
truy vấn và nâng cao chất lượng thông tin truy xuất dựa trên
ontology mang lại nhiều kết quả khả quan. Những thực nghiệm,
nghiên cứu cũng như việc cải tiến các giải thuật là cần thiết trong
tương lai ñể nâng cao tính hiệu quả của mô hình mà luận án ñã ñề
xuất.
- 12 -


Object

Member
Property

HDD
capacity

memory

computer

brand

quality

largest

well-known


smallest

disc

size

price

lowest

content

notebook

laptop

processing unit

strongest

highest

main
-
board

: R
m
: R
p

: synonymy/hypernymy (trong WordNet)

Hình 3.2. Đồ thị ngữ nghĩa G có phân lớp
3.3. Các mô hình cho bài toán mở rộng truy vấn
Liên quan ñến hệ thống mở rộng và hoàn chỉnh truy vấn là các ñịnh
nghĩa về mô hình ñề xuất sau ñây:
− Hệ thống mở rộng truy vấn dựa trên ontology và ñộc lập với
hệ thống truy xuất thông tin (Query Expansion Model with Ontology-
Based without Information Retrieval,
OB
IR
QEM
+

).
− Hệ thống mở rộng truy vấn dựa trên ontology kết hợp xác
suất và ñộc lập với hệ thống truy xuất thông tin (Query Expansion
Model with Ontology-Based and Probability without Information
Retrieval,
POB
IR
QEM
++

).
− Hệ thống mở rộng truy vấn dựa trên ontology và kết hợp hệ
thống truy xuất thông tin (Query Expansion Model with Ontology-
Based with Information Retrieval,
OB
IR

QEM
+
+
).
− Hệ thống mở rộng truy vấn dựa trên ontology kết hợp xác
suất và tích hợp hệ thống truy xuất thông tin (Query Expansion
Model with Ontology-Based and Probability with Information
Retrieval,
POB
IR
QEM
++
+
).
Các mô hình này ñược tổ chức theo tính kế thừa như hình 3.4.
- 13 -


OB
IR
QEM
+


OB
IR
QEM
+
+


POB
IR
QEM
++


POB
IR
QEM
++
+


Hình 3.4. Tổ chức phân cấp các mô hình
Định nghĩa 3.16 – Mô hình
OB
IR
QEM
+

(Mô hình 1)
Định nghĩa 3.17 – Mô hình
POB
IR
QEM
++

(Mô hình 2)
Định nghĩa 3.18 – Mô hình
OB

IR
QEM
+
+
(Mô hình 3)
Định nghĩa 3.19 – Mô hình
POB
IR
QEM
++
+
(Mô hình 4)
3.4. Mẫu nhận dạng cụm danh từ
Định nghĩa 3.20 – Mẫu nhận dạng cụm danh từ và các thành phần
3.5. Phương pháp thực nghiệm và ñánh giá
Trong truy xuất thông tin, các ñộ ño ñược sử dụng ñể ñánh giá là ñộ
chính xác P (precision), ñộ bao phủ R (recall) và ñộ trung bình ñiều
hòa F. Sau ñây là ñịnh nghĩa liên quan các ñộ ño này [103].
Định nghĩa 3.21 – Độ chính xác (P)
Định nghĩa 3.22 – Độ bao phủ (R)
Định nghĩa 3.23 – Độ trung bình ñiều hòa F

Trong thực nghiệm, các giải thuật ñề xuất trong luận án ñược cài ñặt
bằng ngôn ngữ T-SQL thực hiện trong phần mềm quản trị cơ sở dữ
liệu Microsoft SQL Server 2005. Cấu hình hệ thống máy chủ sử
dụng trong thực nghiệm gồm bộ xử lý Intel(R) Core(TM) 2 Duo
T.7300 2.2GHz, bộ nhớ trong 2GB, bộ nhớ ngoài có phần dung
lượng trống khả dụng 15GB.
Các công việc hỗ trợ thực nghiệm cần thực hiện bao gồm:
− Xây dựng một kho ngữ liệu các tài liệu tiếng Anh.

− Xây dựng một ñộng cơ tìm kiếm thông tin cục bộ (Internal
Search Engine, ISE) dựa trên công cụ Lucene [104] cho kho ngữ liệu
nêu trên và ñộc lập với các phần chương trình của luận án.
− Tổ chức khai thác kho dữ liệu WordNet
- 30 -

Vận dụng phương pháp phân tích cụm danh từ (trong lĩnh vực xử lý
ngôn ngữ tự nhiên) ñể nhận dạng các thành phần truy vấn, từ ñó kết
hợp ontology OOMP ñể hỗ trợ việc hoàn chỉnh và mở rộng truy vấn,
góp phần xây dựng một mô hình xử lý truy vấn xử lý trong luận án.
Mô hình này cùng với những giải thuật liên quan ñã góp phần giải
quyết Bài toán 2 của luận án, ñồng thời có thể mở rộng áp dụng cho
các bài toán khác trong lĩnh vực xử lý ngôn ngữ tự nhiên (truy xuất
thông tin, rút trích thông tin, tóm lược nội dung văn bản).
Các phương pháp và giải thuật liên quan ñến ñóng góp này ñược giới
thiệu trong [ii], [v] và [ix].
* Đóng góp thứ tư: phương pháp xây dựng chỉ mục hướng ngữ
nghĩa:
Phương pháp này giúp phát triển một hệ thống truy xuất thông tin có
thể tìm kiếm thông tin tốt hơn cho người dùng. Nó tạo cơ sở cho các
nghiên cứu ứng dụng liên quan ñến truy xuất thông tin, qua ñó xác
ñịnh hướng nghiên cứu chuyên biệt trong lĩnh vực truy xuất thông tin
và web ngữ nghĩa.
Phương pháp này ñã ñược trình này trong [iv] và ñược phát triển
trong [iii] cùng [viii].
Những kết quả ñạt ñược của luận án cùng các ñóng góp nêu trên tạo
cơ sở cho các hướng nghiên cứu tiếp theo của tác giả và góp phần
phát triển các ứng dụng cho công trình [xii] và Error! Reference
source not found


Ngoài ra, luận án ñược hiện thực các thực nghiệm cho những giải
thuật ñã ñược trình bày ở các chương, gồm nhóm giải thuật huấn
luyện ontology CB-KBT, WB-KBT và A-KBT; nhóm giải thuật xử lý
truy vấn CNPV, NPC, SNPE, NPMR, CNPG, RNPG, và nhóm giải
thuật xây dựng và khai thác chỉ mục hướng ngữ nghĩa SIC, HS. Một
số kết quả ñạt ñược có ý nghĩa về thực tế như sau:
− Kết quả thực nghiệm của các giải thuật huấn luyện ontology
cho thấy số lượng ñáng kể các dữ liệu rút trích ñược cùng ñộ tin cậy
cao 80,41% cho dữ liệu dạng Object, 97,09% cho dữ liệu dạng
Property trong giải thuật WB-KBT, tối thiểu là 98,02% cho các dạng
- 29 -

− Thứ nhất, những ñịnh nghĩa về quan hệ ngữ nghĩa như
m
R
,
p
R
,
m
R
f

p
R
f
, và các khái niệm về truy vấn hoàn chỉnh, cây phân
tích và dạng ñồ thị ngữ nghĩa (trình bày trong chương 3) tạo tiền ñề
cho việc kiến tạo các mô hình mở rộng truy vấn như
OB

IR
MQE
+

,
POB
IR
MQE
++

,
OB
IR
MQE
+
+

POB
IR
MQE
++
+
. Những mô hình này phản
ánh kết quả khả quan của sự vận dụng hợp lý các nghiên cứu trong
lĩnh vực xử lý ngôn ngữ vào bài toán mở rộng truy vấn và web ngữ
nghĩa. Hơn nữa, chúng không những ñược áp dụng trong phạm vi
luận án ñể giải quyết Bài toán 1 và Bài toán 2, mà còn có thể áp dụng
trong một số nghiên cứu thuộc lĩnh vực xử lý ngôn ngữ tự nhiên.
− Thứ hai, việc xây dựng các lớp tương ñồng từ các quan hệ
nêu trên sẽ giúp cho việc phân loại ñối tượng hiệu quả hơn, từ ñó có

thể áp dụng vào phương pháp phân tích truy vấn CNPV của luận án
và có thể mở rộng cho các tác vụ phân lớp ngữ nghĩa trong các
ontology khác.
Công trình [ii], [iv], [v] và [ix] ñã giới thiệu phương pháp luận cùng
ñịnh nghĩa của những khái niệm này.
* Đóng góp thứ hai: mô hình ontology OOMP ñề xuất và phương
pháp huấn luyện dữ liệu CB-KBT, WB-KBT và A-KBT:
Trong phạm vi luận án, ontology OOMP phục vụ bài toán mở rộng
truy vấn và những bài toán khác theo hướng khai thác các quan hệ
khái niệm.
Từ góc ñộ ngôn ngữ học, những thành phần của ontology này ñược
phân lớp dựa trên các dạng từ loại như danh từ, tính từ nên cấu trúc
của chúng ít phụ thuộc vào sự khác nhau của ngôn ngữ tự nhiên.
Điều này tạo sự thuận lợi cho việc phát triển ontology trên các ngôn
ngữ tự nhiên khác (như tiếng Việt, Pháp …), từ ñó hướng tới việc
xây dựng một ontology hỗ trợ nhiều ngôn ngữ tự nhiên khác nhau.
Nội dung liên quan ñến ñóng góp này ñã ñược công bố trong công
trình [iv], [v] và [ix].
* Đóng góp thứ ba: mô hình xử lý truy vấn (truy vấn dạng cụm danh
từ) dựa trên ontology OOMP cùng với những giải thuật CNPV, NPC,
SNPE và NPMR:
- 14 -

Ontology OOMP ñóng vai trò quan trọng trong thực nghiệm của các
giải thuật trong việc cung cấp các dữ liệu ngữ nghĩa cần thiết cho các
giải thuật ñể bổ sung các thành phần khiếm khuyết. Trong tiến trình
thực nghiệm, công cụ ISE không những tìm kiếm tài liệu cho các
truy vấn kết quả từ những giải thuật ñề xuất trong chương 5 và 6, mà
còn hỗ trợ xác ñịnh các số liệu (như tần suất xuất hiện, ñộ phụ thuộc)
của những phần tử trong ontology, từ ñó giúp nâng cao chất lượng

của ontology này.
Dựa trên thư viện mã nguồn mở Lucene [40], tác giả phát triển một
ñộng cơ tìm kiếm thông tin trong một tập dữ liệu cục bộ ñể hỗ trợ
các thực nghiệm của những giải thuật ñề xuất trong luận án. Động cơ
này ñược ñặt tên “Động cơ tìm kiếm thông tin cục bộ” (Internal
Search Engine, ISE). Động cơ này ñược cài ñặt bằng ngôn ngữ C#
trên nền Microsoft DotNet Framework 2.0, có hỗ trợ tìm kiếm cho từ
khoá ñơn và cụm từ, bao gồm cả cơ chế tìm kiếm gần ñúng hay
chính xác.
3.6. Nguồn dữ liệu thực nghiệm
Nguồn dữ liệu tham khảo từ tổ chức TREC [41].
Bảng 3.1. Thống kê thành phần dữ liệu từ TREC

hiệu
Nguồn dữ liệu Số lượng
(tập tin)
Dung
lượng
(MB)
N
1
Associated Press (AP) 1.044 272
N
2
Congressional Record (CR) 222 91,6
N
3
Department of Energy abstracts (DOE) 178 72,1
N
4

Foreign Broadcast Information Service (FB) 492 149
N
5
Federal Register (FR) 828 244
N
6
Financial Times Limited (FT) 593 197
N
7
Los Angeles Times (LA) 730 169
N
8
U.S. Patents (PATN) 235 249
N
9
San Jose Mercury News (SJM) 301 294
N
10
Wall Street Journal (WSJ) 572 159
N
11
Ziff-Davis-part 2 (ZF2) 427 424
N
12
Ziff-Davis-part 1 (ZF) 354 353

- 15 -

Dữ liệu phục vụ việc huấn luyện ontology OOMP ñược lưu trong tập
TRAINING_DATA có số lượng 247.988 cụm danh từ thuộc chín

dạng mẫu.
Dữ liệu phục vụ việc thử nghiệm cho các giải thuật ñược lưu trong
tập dữ liệu TEST_DATA gồm 12.282 cụm danh từ ñược chọn lọc ñể
kiểm tra thử nghiệm trong các giải thuật khác của luận án.
Bảng 3.2. Danh sách tập chỉ mục xây dựng cho hệ thống ISE
Nguồn
dữ liệu
Dung lượng tập
chỉ mục (MB)
Nguồn
dữ liệu
Dung lượng tập
chỉ mục (MB)
AP (N
1
) 552

LA (N
7
) 518
CR (N
2
) 276

PATN (N
8
) 257
DOE (N
3
) 214


SJM (N
9
) 313
FB (N
4
) 198

WSJ (N
10
) 307
FR (N
5
) 287

ZF2 (N
11
) 417
FT (N
6
) 663

ZF (N
12
) 511


Bảng 3.3. Thống kê cụm danh từ theo mẫu trong TEST_DATA
Mẫu Số lượng Tỉ lệ (%)


Mẫu Số lượng Tỉ lệ (%)
M
3
305 2,48

M
149
201 1,64
M
60
2.592 21,10

M
150
159 1,29
M
71
276 2,25

M
178
542 4,41
M
81
712 5,80

M
184
592 4,82
M

85
186 1,51

M
186
1.027 8,36
M
87
189 1,54

M
192
331 2,70
M
89
154 1,25

M
195
192 1,56
M
99
1.463 11,91

M
196
211 1,72
M
102
143 1,16


M
203
165 1,34
M
103
584 4,75

M
204
155 1,26
M
116
1048 8,53

M
205
162 1,32
M
125
431 3,51

M
209
148 1,21
M
142
314 2,56




Chương 4- XÂY DỰNG ONTOLOGY OOMP
4.1. Giới thiệu
Với những ưu ñiểm và lợi ích khi ứng dụng ontology vào việc mở
rộng truy vấn và truy xuất thông tin (trình bày trong phần 2.2,
chương 2), việc phát triển một ontology nhằm phục vụ bài toán mở
- 28 -

Chương 7- KẾT LUẬN
Từ chương 1 ñến chương 6, luận án ñã trình bày toàn bộ nghiên cứu
của tác giả về mở rộng truy vấn dựa trên cơ sở ontology. Các chương
ñầu lần lượt cung cấp cơ sở lý thuyết làm cơ sở cho toàn bộ các
phương pháp phân tích, hoàn chỉnh và mở rộng truy vấn ñược trình
bày ở các chương tiếp theo. Mỗi chương kế tiếp ñề xuất mô hình,
phương pháp cũng như những giải thuật xử lý phù hợp dựa trên cơ
sở lý thuyết ñã ñược trình bày ở các chương trước. Những nội dung
ñược trình bày ở các chương ñã bám sát mục tiêu ñề ra ở hai bài toán
ban ñầu. Điều này cũng thể hiện thông qua những kết quả ñạt ñược
về mặt lý thuyết và thực tiễn của luận án. Các kết quả nghiên cứu
của luận án ñã góp phần xác ñịnh những vấn ñề cần nghiên cứu, phát
triển trong thời gian tới.
7.1. Kết quả ñạt ñược
Từ ý tưởng khai thác nét ñặc trưng của truy vấn dạng cụm danh từ,
luận án ñã ñề xuất mô hình và phương pháp luận nghiên cứu về mở
rộng truy vấn trên cơ sở ontology trong lĩnh vực truy xuất thông tin.
Từ việc mở rộng truy vấn luận án còn thực hiện xây dựng cụm danh
từ hoàn chỉnh, là dạng cụm danh từ vừa thỏa mãn chức năng ngữ
pháp của ngôn ngữ tự nhiên, vừa mang ngữ nghĩa cần thiết ñể tìm
kiếm thông tin cho có kết quả tốt hơn. Tác giả ñã xây dựng cơ sở lý
thuyết cho mô hình mở rộng truy vấn và các giải thuật thực hiện việc

kiểm tra, hoàn thiện, mở rộng truy vấn. Một hướng phát triển khác
của luận án là xây dựng hệ thống chỉ mục hướng ngữ nghĩa, nhằm
mở rộng khả năng xử lý mở rộng truy vấn cho một hệ thống truy
xuất thông tin. Những kết quả này ñã ñáp ứng ñược mục tiêu của Bài
toán 1 và Bài toán 2 mà luận án ñã ñưa ra.
Kết quả nghiên cứu của luận án có ý nghĩa về khoa học và thực tiễn
với các ñóng góp mới như sau.
* Đóng góp ñầu tiên: ñề xuất một số phương pháp xác ñịnh các
quan hệ của các khái niệm phục vụ việc xử lý các bài toán và
phương pháp ñược ñề xuất trong luận án:
- 27 -

Bảng 6.2. So sánh kết quả thực nghiệm 1
STT Số liệu trung bình PP-Thô PP-HS Tỉ lệ
1 Số kết quả tìm ñược 687 721 1,05
2 Thời gian thực thi 276,43 1.127,33 4,08
Kết quả này phản ánh tỉ lệ tốt hơn (1,05 lần) ñạt ñược về mặt kết quả
tìm ñược trung bình của PP-HS so với kết quả của PP-Thô. Tuy
nhiên, chi phí trung bình về thời gian tìm kiếm của giải thuật HS
cũng cao hơn (4,08 lần) so với tìm kiếm thô. Đây là vấn ñề ảnh
hưởng ñến tính hiệu quả của giải thuật HS.
Bảng 6.3. So sánh kết quả thực nghiệm 2
STT Số liệu trung bình PP-Thô PP-HS Tỉ lệ
1 Số kết quả tìm ñược 354 354 1,00
2 Thời gian thực thi 837,17 1.936,43 2,31
Cả hai phương pháp ñều thu ñược giá trị bình quân của số tài liệu tìm
ñược ngang nhau. Một nghịch lý xảy ra liên quan ñến thời gian thực
thi trung bình của cả hai phương pháp. Cả hai giá trị của “PP-Thô”
và “PP-HS” ñều cao hơn so với kết quả tương ứng trong thực
nghiệm trước ñó. Tuy nhiên, tỉ lệ cách biệt về thời gian thực thi giữa

hai phương pháp ñược thu giảm từ 4,08 (trong thực nghiệm 1) xuống
còn 2,31. Kết quả này phản ánh mức cải thiện ñáng kể về thời gian
thực thi trung bình của giải thuật HS so với kết quả của tìm kiếm thô.
Đây là một bước cải tiến khách quan ảnh hưởng ñến tính hiệu quả
của giải thuật HS.
Bảng 6.4. So sánh kết quả thực nghiệm 3
STT Số liệu trung bình PP-Thô PP-HS Tỉ lệ
1 Số kết quả tìm ñược 104 167 1,61
2 Thời gian thực thi 354,86

388,83 1,10
Kết quả này phản ánh tỉ lệ tốt hơn khá cao (1,61 lần) ñạt ñược về mặt
kết quả tìm ñược trung bình của giải thuật HS so với kết quả của tìm
kiếm thô. Đồng thời, cách biệt về chi phí trung bình về thời gian tìm
kiếm giữa giải thuật HS và tìm kiếm thô cũng ñược thu giảm ñáng kể
(chỉ còn lại 1,10 lần so với 2,31 lần ở thực nghiệm 2) so với tìm
kiếm thô. So với kết quả tương ứng ở thực nghiệm 1 và 2, ñây là cải
tiến khách quan ảnh hưởng ñến tính hiệu quả của giải thuật HS.

- 16 -

rộng truy vấn của luận án ñóng vai trò quan trọng. Hơn nữa, do các
bài toán xử lý trong luận án liên quan ñến khái niệm cụm danh từ
hoàn chỉnh cùng những quan hệ ngữ nghĩa như R
OMP
, R
m
và R
p
, tuy

nhiên WordNet chưa ñáp ứng ñầy ñủ các yêu cầu cần thiết này ñồng
thời giải pháp mở rộng WordNet ñể bổ sung các dạng quan hệ nêu
trên ñòi hỏi nhiều thời gian, công sức không hoàn toàn khả thi cho
luận án, nên việc xây dựng riêng biệt ontology OOMP là vấn ñề cần
thiết nhằm kiến tạo nhóm các mạng ngữ nghĩa tương ứng cho các
quan hệ này.
Dựa trên cơ sở lý thuyết ñề xuất ở chương 3, trong chương 4 này các
vấn ñề lần lượt ñược trình bày liên quan ñến việc phát triển ontology
OOMP (Ontology of Object–Member–Property) như xác ñịnh cấu
trúc tổ chức, phương pháp huấn luyện, thực nghiệm và kết quả thu
ñược. Một phần kết quả của chương này ñã công bố trong công trình
[v] và [ix].
4.2. Xây dựng ontology OOMP
So với các ontology khác, ñặc trưng nổi bật nhất của ontology
OOMP chính là tổ chức phân cấp các khái niệm ngữ nghĩa dựa theo
quan hệ
OMP
R
.
Cấu trúc này ñược thể hiện chi tiết trong hình 4.1 với các thành phần
dữ liệu tương ứng cho từng thực thể, thông qua ñó chúng ta có thể
hiện thực bằng một mô hình cơ sở dữ liệu trong thực tế.


Object
oID
oValue
oType
Rm
oIDmI

D
Dep
KeyMember
mID
mValue
mType
mPriority
mProbability
Rp
mID
pID
Dep
KeyProperty
pID
pValue
pType
pPriority
pProbability

Hình 4.1. Cấu trúc ontology OOMP về tổ chức cơ sở dữ liệu quan hệ
Việc huấn luyện ontoloy OOMP ñược giải quyết bằng một trong hai
cách tiếp cận.
− Cách thứ nhất hướng ñến việc khai thác các thông tin trong
kho ngữ liệu cho trước thông qua việc sử dụng các mẫu (trong mục
3.4 chương 3) ñể tìm các thành phần dự tuyển nhằm xác ñịnh các giá
trị phù hợp cho việc lưu trữ.
- 17 -

− Cách thứ hai hướng ñến việc khai thác các thông tin ngữ
nghĩa ñã có sẵn trong WordNet.

4.3. Phương pháp huấn luyện dựa trên kho ngữ liệu
Giải thuật 4.1. Huấn luyện ontology dựa trên kho ngữ liệu (Corpus-
Based Knowledge Base Training, CB-KBT) (ñộ phức tạp O(n
2
)).
18810
46751
47710
95738
20632
6453
8463
2857
574
M3 M178 M184 M186 M192 M195 M196 M204 M209

Hình 4.2. Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu

Bảng 4.1. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT
STT Tập dữ liệu Số lượng Số lượng chính xác Độ tin cậy (%)
1 Object 11.396 11.378 99,84
2 Member 9.210 9.173 99,60
3 Property 16.515 16.188 98,02
4 Quan hệ R
m
85.687 85.428 99,70
5 Quan hệ R
p
104.001 70.110 67,41
4.4. Phương pháp huấn luyện dựa trên WordNet

Giải thuật 4.2. Huấn luyện ontology dựa trên WordNet (WordNet-
based Knowledge Base Training, WB-KBT) (ñộ phức tạp O(n
2
)).
Bảng 4.2. Dữ liệu ñược rút trích trong giải thuật WB-KBT
STT Loại Số lượng Số lượng chính xác Độ chính xác (%)
1 Object 7.193 5.784 80,41
2 Member 11.221 3.618 32,24
3 Property 824 800 97,09
4 Quan hệ R
m
34.945 1.178 3,37
5 Quan hệ R
p
2.815 1.662 59,04
4.5. Cơ chế tự huấn luyện của ontology OOMP
Giải thuật 4.3. Huấn luyện ontology tự ñộng (Automatic Knowledge
Base Training, A-KBT) (ñộ phức tạp O(n
2
)).

- 26 -

Giải thuật 6.2. Tạo chỉ mục hướng ngữ nghĩa (Semantic Index
Creation, SIC) (ñộ phức tạp là O(n
2
))
Giải thuật 6.3. Tìm kiếm kết hợp (Hybrid Search, HS) (O(n))
Kết quả thực nghiệm:
5,004

4,543
5,179
4,660
5,015
2,240
5,100
4,677
5,145
5,300
7,197
7,307
6,393
5,943
5,907
5,974
5,637
2,756
6,400
5,195
6,321
6,360
7,278
7,429
3,248
3,102
3,125
3,102
2,797
1,224
3,285

2,727
3,203
3,261
3,866 3,966
N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12
Liên kết ñến phần tử dạng Object Liên kết ñến phần tử dạng Member
Liên kết ñến phần tử dạng Property

Hình 6.7. So sánh số liên kết tạo thành theo nguồn dữ liệu từ SIC
8.15
7.4
8.44
7.59
8.17
3.65
8.31
7.62
8.38
8.64
11.73
11.91
8.93
8.3
8.25
8.34
7.87
3.85
8.94
7.26
8.83

8.88
10.17
10.38
8.8
8.41
8.47
8.41
7.58
3.32
8.9
7.39
8.68
8.84
10.48
10.75
N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12
Liên kết ñến phần tử dạng Object (%) Liên kết ñến phần tử dạng Member (%)
Liên kết ñến phần tử dạng Property (%)

Hình 6.8. So sánh tỉ lệ liên kết tạo thành theo nguồn dữ liệu từ SIC

Các liên kết này ñóng vai trò quan trọng trong việc mở rộng các kết
quả tìm kiếm trong phần thực nghiệm của giải thuật HS sau ñây.
Các bước tiến hành thực nghiệm của giải thuật HS như sau:
− Thực nghiệm 1: bài toán tìm kiếm mở rộng toàn cục trong
phạm vi toàn cục.
− Thực nghiệm 2: bài toán tìm kiếm mở rộng toàn cục trong
phạm vi cục bộ.
− Thực nghiệm 3: bài toán tìm kiếm mở rộng cục bộ trong
phạm vi cục bộ.

- 25 -


f
-
1
(f(A))
A

f(A)
Y

X

f

f
-
1


Hình 6.3. Minh họa tính chất (6.1)
Phương pháp tiếp cận của hệ thống dựa trên tính chất (6.1):

(giải thuật HS)
(giải thuật SIC)
(tìm kiếm thô)
(tập kết quả thô)
(tập kết quả mở rộng)


Hình 6.4.Ứng dụng tính chất (6.1) vào mở rộng kết quả truy vấn
Mô hình hệ thống xử lý mở rộng này thể hiện trong hình 6.8.


Hình 6.5. Mô hình thống mở rộng truy vấn kết hợp hệ thống truy xuất thông
tin có sẵn

Index
id
1
id
2
id
i
id
i+1

id
n-1

id
n

Ontology


Object
Member 1
Property 1
1


Property n
1

Member 2
Property 1
2

Property m
2


Object
Member 1
Property 1
1

Property n
1

Member 2
Property 1
2

Property m
2


Object
Member 1

Property 1
1

Property n
1

Member 2
Property 1
2

Property m
2


Object
Member 1
Property 1
1

Property n
1

Member 2
Property 1
2

Property m
2



Object
Member 1
Property 1
1

Property n
1

Member 2
Property 1
2

Property m
2


Hình 6.6.Mô hình tổ chức chỉ mục trong hệ thống truy xuất thông tin
- 18 -

Bảng 4.3. Dữ liệu bổ sung tạo bởi giải thuật A-KBT
STT Loại Số lượng Số lượng chính xác Độ chính xác
1 Quan hệ R
m
3.953 1.611 40,75%
2 Quan hệ R
p
2.807 1.074 38,26%
4.6. Các ứng dụng của ontology và quan hệ
Trong lĩnh vực này, một số phương pháp có thể ứng dụng ñể:
− Kiểm tra tính hoàn chỉnh của cụm danh từ (Complete Noun

Phrase Verification, CNPV)
− Tạo cụm danh từ hoàn chỉnh (Complete Noun Phrase
Generation, CNPG)
− Tạo cụm danh từ rút gọn (Reductive Noun Phrase
Generation, RNPG)
− Hoàn chỉnh thành phần cụm danh từ (ñể bổ sung một hay
nhiều tính chất trội) (Noun Phrase Completion, NPC)
− Mở rộng cụm danh từ tương ñương (ñể bổ sung một hay
nhiều tính chất ñặc trưng cho một ñối tượng trong truy vấn) (Similar
Noun Phrase Expansion, SNPE)
− Rút gọn thành phần cụm danh từ (ñể loại bỏ hay thay thế
một số thành phần trong cụm danh từ bằng một hay nhiều thuộc tính
ñặc trưng) (Noun Phrase Member Reduction, NPMR)

Chương 5- HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN
5.1. Giới thiệu
Chương 5 lần lượt trình bày các tác vụ liên quan ñến bài toán hoàn
chỉnh. Mỗi phần của chương này lần lượt trình bày mục tiêu của
từng tác vụ, giải thuật hiện thực tác vụ, ví dụ minh họa và thực
nghiệm với ñầy ñủ số liệu thực nghiệm thực tế. Một phần kết quả
của chương này ñã công bố trong công trình [v].
5.2. Hoàn chỉnh và rút gọn truy vấn
Ngoài ra, trên cơ sở lý thuyết ở phần 3.2 về mô hình
POB
IR
MQE
++

,
việc mở rộng truy vấn và bổ sung các cụm từ tương ñương còn ñược

hỗ trợ bởi giải thuật hoàn chỉnh truy vấn cho các trường hợp chưa rõ
- 19 -

nghĩa. Trong một số trường hợp cụ thể, truy vấn có thể ñược biểu
diễn ở dạng rút gọn thông qua việc loại bỏ một số thành phần không
quan trọng. Mô hình hệ thống hoàn chỉnh và rút gọn truy vấn ñược
mô tả như sau.


Hình 5.1. Mô hình hệ thống hoàn chỉnh và rút gọn truy vấn
Phương pháp xử lý của những mô-ñun này ñược trình bày thông qua
giải thuật NPC và NPMR ở mục 5.6 và 5.7, trong ñó sử dụng hỗ trợ
từ những giải thuật giới thiệu trong mục 5.3, 5.4 và 5.5 sau ñây.
5.3. Kiểm tra cụm danh từ hoàn chỉnh
Giải thuật 5.1. Kiểm tra cụm danh từ hoàn chỉnh (Complete Noun
Phrase Verification, CNPV) (ñộ phức tạp O(n))
Kết quả thực nghiệm:
0
200
400
600
800
1000
1200
1400
1600
1800
2000
M184
M192

M196
M209
M192
M205
M60
M85
M89
M125
M149
M178
M205
M60
M85
M89
M184
M203
M60
M81
M87
M102
M116
M142
M178
M3
M71
M85
M178
M203
M60
M85

M186
M209
M103
M149
M99
M142
M150
M192
M186
M195
M204
M102
M125
M149
M99
TH0 TH1 TH10 TH11 TH15 TH2 TH3 TH4 TH5TH6 TH7 TH9

Hình 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi & mẫu
5.4. Tạo cụm danh từ hoàn chỉnh
Giải thuật 5.2. Tạo cụm danh từ hoàn chỉnh (Complete Noun Phrase
Generation, CNPG) (ñộ phức tạp O(n))

- 24 -

những ngữ cảnh nhất ñịnh, từ ñó ảnh hưởng ñến ñịnh hướng nghiên
cứu trong tương lai về vấn ñề cải tiến phương pháp SNPE.
Bảng 6.1. So sánh kết quả của phương pháp tìm kiếm thô và SNPE
Giá trị bình quân theo truy vấn PP-Thô PP-SNPE Tỉ lệ
(a) Số lượt tài liệu tìm ñược 7.925659 37.90736 4.782865
(b) Số lượt tài liệu tìm ñược chính xác 4.983213 24.08883 4.833995

(c) Số lượt tài liệu tìm ñược phân biệt 1.62542 0.363176 0.223435
(d) Số lượt tài liệu tìm ñược chính xác
phân biệt
0.37458 0.060854 0.162459
6.2. Mở rộng truy vấn cho hệ thống truy xuất thông tin có sẵn
So với mô hình ở phần 6.1, một hướng tiếp cận khác là liên kết
ontology OOMP với một hệ thống truy xuất thông tin có sẵn bằng
việc tạo sự kết hợp ontology OOMP với tập chỉ mục của hệ thống.
Mô hình này ñể triển khai việc tìm kiếm dữ liệu ñược mở rộng thông
qua giải thuật tìm kiếm kết hợp (Hybrid Search, HS). Mô hình lý
thuyết
POB
IR
MQE
++
+
ñóng vai trò nền tảng cho phương pháp này.
Nếu f : XY là một ánh xạ từ tập hợp X ñến tập hợp Y, A ⊆ X là
tập hợp các phần tử, y=f(x) là ảnh của phần tử x qua f, A∈X là tập
hợp các phần tử, f(A) là ảnh của tập hợp A qua f, B∈Y là tập hợp
các phần tử, f
-1
(B)={x∈X / f(x)∈B} là tạo ảnh của B qua ánh xạ f
thì:
)1.6())((
1
XAffA ⊆⊆

(minh họa ở hình 6.3)
Dựa theo phân tích trên, phương pháp tiếp cận của giải thuật là sử

dụng ontology OOMP ñể mở rộng hệ thống chỉ mục mặc ñịnh (ñược
tạo bởi một công cụ tạo chỉ mục như Lucene, Lemure …) nhằm tạo
ra hệ thống chỉ mục hướng ngữ nghĩa. Bước xử lý này ñược thể hiện
bởi với giải thuật Tạo chỉ mục hướng ngữ nghĩa (Semantic Index
Creation, SIC), trong ñó giải thuật SIC ñóng vai trò ánh xạ f như thể
hiện trong hình 6.6 trên. Từ ñó, với một truy vấn q ban ñầu, thông
qua việc tham khảo (ñược thực hiện bởi giải thuật Tìm kiếm kết hợp
(Hybrid Search, HS) ñến hệ thống chỉ mục mở rộng này, việc tìm
kiếm xác ñịnh ñược tập mục từ trong chỉ mục (ñóng vai trò như tập
A) và tập mở rộng của những mục từ liên kết (ñóng vai trò như f
-
1
(f(A)) (minh họa ở hình 6.4).
- 23 -

Điểm ñặc biệt của mô hình ñề xuất này là sự tương tác giữa hệ thống
mở rộng truy vấn và ñộng cơ tìm kiếm thông tin chỉ diễn ra ở mức
dữ liệu luận lý thông qua kết quả ở dạng biểu diễn trung gian gồm tổ
hợp ñịnh dạng luận lý của các cụm danh từ ñược mở rộng.


Hình 6.1. Mô hình hệ thống mở rộng truy vấn với ñộng cơ tìm kiếm thông
tin
Giải thuật 6.1. Mở rộng cụm danh từ tương ñương (Similar Noun
Phrase Expansion, SNPE) (ñộ phức tạp O(n2))
Kết quả thực nghiệm:
2.0%
9.1%
75.3%
4.5%

0.2%
75.9%
1.9%
1.0%
5.0%
42.9%
86.2%
100.0%
92.9%
95.2%
99.3%
100.0% 100.0%
99.3%
100.0% 100.0%
93.8%
98.7%
99.0%
100.0%
3.9%
16.6%
85.6%
8.6%
0.4%
86.0%
3.8%
2.0%
9.5%
59.8%
92.1%
100.0%

N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12
Độ chính xác Độ bao phủ Độ F

Hình 6.1. Thống kê số liệu các ñộ ño theo nguồn dữ liệu
659
220
178 177
480
593
724
194
301
354 354
427
13
20
134
8
1
450
14
2
15
152
305
427
N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12
Kết quả (số tài liệu) Kết quả chính xác (số tài liệu)

Hình 6.2. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu

So sánh trên cho thấy phương pháp SNPE có kết quả trội nổi bật
trong các mặt (a), (b) nhưng chưa thật sự trội ở mặt (c) và (d). Điều
này phản ánh ưu và nhược ñiểm của phương pháp SNPE trong
- 20 -

5.5. Tạo cụm danh từ rút gọn
Giải thuật 5.3. Tạo cụm danh từ rút gọn (Reductive Noun Phrase
Generation, RNPG) (ñộ phức tạp O(n))
5.6. Hoàn chỉnh cụm danh từ
Giải thuật 5.4. Hoàn chỉnh cụm danh từ (Noun Phrase Completion,
NPC) (ñộ phức tạp O(n
2
))
Kết quả thực nghiệm:
653
201
178
156
304
590
650
169
295
354 354
427
14
20
133
8
1

452
13
2
16
151
307
425
N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12
Kết quả (số tài liệu) Kết quả chính xác (số tài liệu)

Hình 5.3. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu

2.1%
10.0%
74.7%
5.1%
0.3%
76.6%
2.0%
1.2%
5.4%
42.7%
86.7%
99.5%
100.0%
95.2%
98.5%
100.0% 100.0%
99.8%
92.9%

100.0% 100.0%
98.1%
99.7% 99.5%
4.2%
18.0%
85.0%
9.8%
0.7%
86.7%
3.9%
2.3%
10.3%
59.4%
92.7%
99.5%
N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12
Độ chính xác Độ bao phủ Độ F

Hình 5.4. Thống kê số liệu các ñộ ño theo nguồn dữ liệu

Bảng 5.1. So sánh kết quả của phương pháp tìm kiếm thô và NPC
Giá trị bình quân theo truy vấn PP-Thô PP-NPC Tỉ lệ
(a) Số lượt tài liệu tìm ñược 52,7445 48,91685 0,92743
(b) Số lượt tài liệu tìm ñược chính xác 23,60186 28,07387 1,189477
(c) Số lượt tài liệu tìm ñược phân biệt 0,938901 1,607647 1,712264
(d) Số lượt tài liệu tìm ñược chính xác
phân biệt
0,15493 0,289903 1,871195
- 21 -


So sánh trên cho thấy phương pháp NPC có kết quả tốt hơn ở các
mặt (b), (c) và (d). Điều này chứng tỏ phương pháp NPC có tác ñộng
tích cực ñến việc cải thiện chất lượng truy vấn, nói cách khác là tỉ lệ
ñộ chính xác của kết quả thu ñược tăng lên.
5.7. Giải thuật rút gọn thành phần cụm danh từ
Giải thuật 5.5. Rút gọn thành phần cụm danh từ (Noun Phrase
Member Reduction, NPMR) (ñộ phức tạp là O(n
2
))
Kết quả thực nghiệm:
1.7%
9.1%
73.6%
4.4%
0.2%
75.0%
1.9%
0.9%
4.3%
41.0%
86.7%
99.8%
85.7%
95.2%
97.0%
100.0% 100.0%
98.2%
100.0% 100.0%
81.3%
94.2%

99.7%
99.8%
3.4%
16.6%
83.7%
8.4%
0.4%
85.1%
3.8%
1.8%
8.2%
57.1%
92.7%
99.8%
N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12
Độ chính xác Độ bao phủ Độ F

Hình 5.5. Thống kê số liệu các ñộ ño theo nguồn dữ liệu
691
220
178
182
480
593
730
225
301
354 354
427
12

20
131
8
1
445
14
2
13
145
307
426
1 2 3 4 5 6 7 8 9 10 11 12
Kết quả (số tài liệu) Kết quả chính xác (số tài liệu)

Hình 5.6 Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu

Bảng 5.2. So sánh kết quả của phương pháp tìm kiếm thô và NPMR
Giá trị bình quân theo truy vấn

PP-Thô NPMR Tỉ lệ
(a) Số lượt tài liệu tìm ñược 7.925659 197.0885 24.86714
(b) Số lượt tài liệu tìm ñược chính xác 4.983213 74.40406 14.93094
(c) Số lượt tài liệu tìm ñược phân biệt 1.62542 2.137698 1.315167
(d) Số lượt tài liệu tìm ñược chính xác
phân biệt
0.37458 0.352596 0.941309
- 22 -

So sánh (a), (b) và (c) trên cho thấy sự cải thiện ñáng kể về chất
lượng và số lượng của phương pháp NPMR. Đây chính là một kết

quả khích lệ mà bài toán rút gọn truy vấn ñạt ñược.

Chương 6- MỞ RỘNG TRUY VẤN
Thông qua các mô hình
OB
IR
MQE
+

,
OB
IR
MQE
+
+
,
POB
IR
MQE
++

,
POB
IR
MQE
++
+
ñề xuất ở mục 3.2 chương 3, vấn ñề mở rộng truy vấn
ñược tiếp cận theo hai hướng:
− Hướng toàn cục: thực hiện mở rộng truy vấn cho các ñộng

cơ tìm kiếm thông tin trên Web, như nội dung chi tiết ở phần 6.1
− Hướng cục bộ: thực hiện mở rộng truy vấn cho các hệ thống
truy xuất thông tin có sẵn dùng kho ngữ liệu cục bộ kết hợp việc phát
triển hệ thống chỉ mục hướng ñến ngữ nghĩa (từ ñây ñược gọi là hệ
thống truy xuất thông tin có sẵn) như nội dung chi tiết trong phần 6.2
Trên cơ sở hai hướng này, việc phát triển các hệ thống mở rộng truy
vấn ñược thực hiện dựa trên việc kết hợp ontology OOMP cùng các
ứng dụng của bộ quan hệ
m
R
,
m
R
f
,
p
R
,
p
R
f
ñể từ ñó sẽ xác ñịnh
phương thức xử lý cần thiết. Mỗi phần của chương này sẽ lần lượt
trình bày mục tiêu, giải thuật hiện thực cùng ví dụ minh họa cho từng
phương pháp, thực nghiệm liên quan cùng số liệu thực tế.
Một phần kết quả của chương này ñã công bố trong công trình [iv],
[ix] và một số phát triển ñược giới thiệu trong [iii] [viii].
6.1. Mở rộng truy vấn cho ñộng cơ tìm kiếm trên Web
Mô hình hệ thống ñược ñề xuất như hình 6.1. Trong mô hình, hệ
thống mở rộng truy vấn ñóng vai trò như một mô-ñun liên kết với

ñộng cơ tìm kiếm thông tin. Trong hệ thống này, chức năng mở rộng
truy vấn bằng giải thuật SNPE ñược thực hiện cho phép truy vấn
nhập dạng cụm danh từ tiếng Anh. Giải thuật này bổ sung một hoặc
nhiều tính chất ñặc trưng cho một ñối tượng trong truy vấn. Việc bổ
sung này sẽ thêm các phần tử mới o
i
∈O, m
j
∈M, p
k
∈P, như vậy cụm
danh từ mới sẽ ñược tạo ra.

×