Nghiên cứu phương pháp mở rộng truy vấn trong truy xuất thông tin (INFORMATION RETRIEVAL)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (373.02 KB, 17 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

NGUYỄN THỊ BÍCH PHƯƠNG

NGHIÊN CỨU PHƯƠNG PHÁP MỞ RỘNG TRUY VẤN TRONG
TRUY XUẤT THÔNG TIN (INFORMATION RETRIEVAL)

Chuyên ngành : Truyền dữ liệu và mạng máy tính
Mã số : 60.48.15

TÓM TẮT LUẬN VĂN THẠC SỸ

HÀ NỘI - NĂM 2012

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: PGS.TS Từ Minh Phương

Phản biện 1: ……………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
Phản biện 2: …………………………………………………………………………….
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………

……………………………………………………………………………………………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu
chính Viễn thông
Vào lúc: giờ ngày tháng năm 2010

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

TÓM TẮT LUẬN VĂN
Chương I. Tổng quan về mở rộng truy vấn trong truy xuất thông tin
1.1 Giới thiệu tổng quan về mở rộng truy vấn trong truy xuất thông tin
1.1.1 Hệ thống truy xuất thông tin (Information Retrieval-IR)
Hệ thống Truy xuất thông tin (Information Retrieval) là hệ thống thực hiện tìm
kiếm tài liệu (thường là các tài liệu văn bản) từ một tập các tài liệu (được lưu trữ
trên máy tính) thường có tính chất phi cấu trúc (văn bản ngôn ngữ tự nhiên) thỏa
mãn một nhu cầu thông tin của con người
Mục đích của hệ thống Truy xuất thông tin là hiển thị cho người dùng một tập
các thông tin thỏa mãn nhu cầu thông tin. Định nghĩa chính xác cho nhu cầu thông
tin là “câu truy vấn” (query), và các thông tin được chọn là “tài liệu” (documents).
Một hệ thống tìm kiếm thông tin có hai chức năng chính, đó là lập chỉ mục
(indexing) và tìm kiếm (interrogation).
Hệ thống truy xuất thông tin được chia làm 2 loại như sau:

- Hệ thống tìm kiếm thông tin dựa trên từ khóa: Là cách sử dụng từ khóa biểu
diễn tài liệu và câu truy vấn. Trong đó, từ khóa sẽ được dùng để lập chỉ mục
cho các tài liệu.
- Hệ thống tìm kiếm thông tin dựa trên khái niệm: Sử dụng khái niệm để biểu
diễn tài liệu và câu truy vấn. Hệ thống dùng các khái niệm để lập chỉ mục.
Có 2 tiêu chí để đánh giá một hệ thống tìm kiếm thông tin đó là: Độ chính xác
và độ bao phủ thông tin.
1.1.2 Mở rộng truy vấn trong truy xuất thông tin:
Mở rộng truy vấn (query expansion) là phương pháp thực hiện bổ sung các
thuật ngữ tìm kiếm vào truy vấn ban đầu của người dùng tạo ra truy vấn mới nhằm
mục đích nâng cao hiệu quả truy hồi thông tin
Có 2 phương pháp phổ biến và đổ điển để mở rộng truy vấn trong truy xuất thông
tin là:
- Phương pháp toàn cục (Global method): Là kỹ thuật mở rộng hoặc định
dạng lại các thuật ngữ truy vấn độc lập vào câu truy vấn và kết quả trả về của

nó
- Phương pháp cục bộ (Local method): Điều chỉnh câu truy vấn liên quan
dựa trên những tài liệu trong kết quả tìm kiếm ban đầu phù hợp với câu truy
vấn.
1.2 Phương pháp toàn cục cho tái định dạng lại truy vấn
Là phương pháp sử dụng bộ từ điển để tái định dạng lại truy vấn nhằm mục đích đạt
hiệu quả cao hơn trong truy hồi thông tin. Có 2 loại từ điển là từ điển được tạo bằng
tay và từ điển được tạo tự động.
- Có 2 cách tạo từ điển tự động:
o Khai thác từ đồng xuất hiện: Những từ cùng xuất hiện trong một tài
liệu hoặc đoạn văn có thể có nghĩa tương tự nhau hoặc liên quan với
nhau về mặt ngữ nghĩa. Từ điển được tạo ra gồm danh sách các từ
đồng xuất hiện với thuật ngữ truy vấn và có tần suất xuất hiện cao.
o Khai thác quan hệ cú pháp: Phân tích quy tắc ngữ pháp của văn bản

để khai thác mối quan hệ về ngữ pháp hoặc sự phụ thuộc ngữ pháp.
Từ điển được tạo ra gồm danh sách các từ có mối quan hệ ngữ pháp
tương tự nhau.
Chương II. Các phương pháp mở rộng truy vấn trong truy xuất thông tin
2.1 Phương pháp mở rộng truy vấn trong truy xuất thông tin dựa trên phân
tích tổng thể (Global analysis)
Phân tích tổng thể chiết xuất sự đồng xuất hiện của các thuật ngữ liên quan và
các kết quả trong một ma trận tương tự bằng cách phân tích toàn bộ tập tài liệu.
Phương pháp bao gồm các kỹ thuật: phân cụm thuật ngữ (term clustering), kỹ thuật
tìm cụm từ (phrasefinder) và kỹ thuật tạo từ điển tương tự (similar thesaurus).
Trong đó, kỹ thuật Phrasefinder là một trong các kỹ thuật thành công nhất của phân
tích tổng thể.
Kỹ thuật Phrasefinder sử dụng giả thuyết: “mọi khái niệm được kết hợp với một
tài liệu giả”. Nội dung của tài liệu giả cho một khái niệm là các từ xuất hiện trong
mọi cửa sổ cho khái niệm đó trong tài liệu. Kích cỡ của một cửa sổ thường là từ 1

đến 3 câu. Cơ sở dữ liệu INQUERY được xây dựng từ những tài liệu giả này, nó tạo
một cơ sở dữ liệu khái niệm. Các khái niệm c là tập {
1 1
,
t a
 
,
2 2
,
t a
 
,… } trong
đó
i

t
là thuật ngữ xuất hiện trong cửa sổ của khái niệm c,
i
a
là số lần đồng xuất
hiện của c và
i
t
. Để mở rộng câu truy vấn, hệ thống chạy ngược lại cơ sở dữ liệu
khái niệm INQUERY và tạo đầu ra là một danh sách xếp hạng các cụm từ khái
niệm. Trọng số dựa trên tài liệu và thu thập của từ phù hợp dùng để quyết định việc
sắp xếp khái niệm. Một số các cụm từ được sắp xếp ở đầu trong danh sách được
thêm vào truy vấn và được đánh trọng số thích hợp.
2.2 Phương pháp mở rộng truy vấn trong truy xuất thông tin dựa trên tóm
tắt (summarization)
Phương pháp mở rộng truy vấn dựa trên tổng kết là thực hiện mở rộng truy vấn
toàn văn. Trong phương pháp này, các chủ đề tìm kiếm được mở rộng bằng cách
dán trong toàn bộ các câu, đoạn văn, và những câu khác đến trực tiếp từ bất cứ một
tài liệu văn bản nào. Phương pháp này gồm 2 nhiệm vụ được thực hiện:
- Bước 1: Hệ thống xây dựng câu truy vấn bao hàm nhu cầu thông tin bằng
việc sử dụng phương pháp tự động tạo bản tổng kết chủ đề.
- Bước 2: Câu truy vấn chi tiết hóa nhu cầu thông tin được xử lý tự động bởi
các phương pháp xử lý ngôn ngữ tự nhiên để lấy về truy vấn tìm kiếm tối ưu
cho hệ thống truy hồi thông tin thống kê.
Trong phương pháp mở rộng truy vấn dựa trên tóm tắt, người ta sử dụng kỹ
thuật tổng kết văn bản tự động để lấy bản tóm tắt đặc tả truy vấn của tài liệu được
trả về vừ vòng đầu tiên của truy hồi. Bản tóm tắt thường có từ 1 đến 2 đoạn văn liền
nhau được lựa chọn từ văn bản gốc. Mục đích đầu tiên là để trình bày cho người
dùng bằng cách xem nhanh văn bản, do một văn bản đã được lấy về. Nếu bản tóm
tắt xuất hiện liên quan và hơn nữa nắm bắt được một số khía cạnh quan trọng của

thông tin liên quan, thì người dùng có 1 lựa chọn để dán nó vào câu truy vấn, vì vậy
làm tăng cơ hội tìm kiếm thành công
2.3 Phương pháp mở rộng truy vấn trong truy xuất thông tin dựa trên phân
cụm (cluster-based)

Phương pháp thu hồi thông tin dựa trên cụm phân chia tập các tài liệu khác
nhau thành các cụm có ý nghĩa (chủ đề) khác nhau. Do đó những tài liệu trong cùng
một cụm mô tả cùng một chủ đề và thêm nữa là trả về một danh sách xếp hạng các
văn bản dựa trên các cụm mà đến từ đến người dùng.
Có 2 phương pháp tiếp cận thu hồi thông tin dựa trên phân cụm:
- Phương pháp xếp hạng cụm truy vấn tương tự.
- Phương pháp sử dụng phân cụm để làm mịn tài liệu.
Kỹ thuật phân cụm mờ (fuzzy clustering). Kỹ thuật mở rộng truy vấn dựa trên phân
cụm mờ bao gồm 2 tiến trình: Tiến trình xây dựng từ điển (thesauri) và tiến trình
mở rộng truy vấn:

Hình 1. Kỹ thuật mở rộng truy vấn dựa trên phân cụm mờ
2.4 Phương pháp mở rộng truy vấn trong truy xuất thông tin dựa trên bản
thể học (Ontology based Query expansion)
2.4.1 Tổng quan về Ontology

Khái niệm về Ontology
Ontology là một kho dữ liệu biểu diễn một tập các khái niệm và các quan hệ, dùng
để mô tả, định nghĩa các tính chất của miền (domain).
Các yếu tố cấu thành ontology
- Ontology được cấu tạo bởi các class và các quan hệ (relation) tồn tại giữa các
đối tượng của class.
- Lược đồ thuật ngữ ontology dùng để tham chiếu tới toàn bộ các class và các
quan hệ. Cơ sở tri thức thuật ngữ (thuộc ontology) tham chiếu đến một lược

đồ bản thể học cụ thể.
Quá trình mô hình hóa Ontology
Quá trình mô hình hóa Ontology gồm các giai đoạn sau:
- Giai đoạn 1: Xác định mục đích của ontology
- Giai đoạn 2: Hình thành các class chính và các quan hệ.
- Giai đoạn 3: Mã hóa ontology đã được nắm giữ theo một ngôn ngữ đại diện
chính thức.
- Giai đoạn 4: Xác định và tích hợp các Ontology hiện hành có khả năng tái sử
dụng được.
- Giai đoạn 5: Đánh giá sự thống nhất và toàn diện của ontology.
- Giai đoạn 6: Ghi chép ontology và quyết định mô hình hóa thành tài liệu.
Bước này đặc biệt quan trọng nếu ontology được tái sử dụng bởi ontology
khác.
2.4.2 Mở rộng truy vấn dựa trên Ontology
2.4.2.1 Các mô hình bài toán mở rộng truy vấn dựa trên Ontology
Các nghiên cứu trước đây đã đề xuất một số mô hình mở rộng truy vấn dựa
trên ontology. Sau đây bốn mô hình tương đối đơn giản nhưng có hiệu quả tốt:
- Mô hình mở rộng truy vấn dựa trên Ontology và độc lập với hệ thống truy
xuất thông tin (Query Expansion Model with Ontology-based without
Information Retrieval,
IR
OB
QEM


)

- Mô hình mở rộng truy vấn dựa trên ontology kết hợp xác suất và độc lập với
hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based
and Probablity without Information Retrieval,

IR
OB P
QEM
 

)
- Mô hình mở rộng truy vấn dựa trên ontology và kết hợp với hệ thống truy
xuất thông tin (Query Expansion Model with Ontology-Based with
Information Retrieval,
+IR
OB
QEM

)
- Mô hình mở rộng truy vấn dựa trên ontolgy kết hợp xác xuất và tích hợp hệ
thống truy xuất thông tin (Query Expansion Model with Ontology-Based and
Probability with Information Retrieval,
+IR
OB P
QEM
 
)
2.4.2.2 Các bước thực hiện mở rộng truy vấn dựa trên Ontology
Phương pháp mở rộng truy vấn dựa trên ontology cần thực hiện theo 2 bước như
sau:
- Đầu tiên, các thuật ngữ của câu truy vấn phải được khử nhập nhằng để chúng
ánh xạ vào một khái niệm ontology duy nhất.
- Sau đó, các thuật ngữ có liên quan đến những khái niệm đã khử nhập nhằng
trong ontology được thêm vào câu truy vấn.
+ Khử nhập nhằng:

Các khái niệm trong bản thể học không cần phải được mô tả bằng một thuật
ngữ duy nhất. Thông thường, mỗi khái niệm được mô tả bởi một số từ đồng nghĩa.
Trong trường hợp đó, hệ thống phải khử nhập nhằng thuật ngữ đó để nó phù hợp
với một khái niệm ontology duy nhất. Có 2 phương pháp khử nhập nhằng đó là thực
hiện bằng thủ công hoặc tự động.
Khử nhập nhằng nghĩa của từ (Word sense disambiguation_WSD) đề cập
đến quá trình lựa chọn nghĩa chính xác cho một từ (word) từ một tập các ngữ nghĩa
có thể hoặc lựa chọn trong các thuật ngữ của ontology để ánh xạ đến một thuật ngữ
mà chỉ có duy nhất một khái niệm chính xác.
+Lựa chọn thuật ngữ để mở rộng:

Sau khi thực hiện khử nhập nhằng các thuật ngữ, phương pháp này thực hiện
lựa chọn các thuật ngữ mà có liên quan tới khái niệm đã được khử nhập nhằng bằng
quan hệ trực tiếp trong ontology. Thông được, các quan hệ được lựa chọn như: đồng
nghĩa (synonyms), đồng nghĩa và hạ danh (synonyms and hyponyms), bộ phận
(meronyms)
Chương III. Các phương pháp mở rộng truy vấn trong truy xuất thông tin
3.1 Giải pháp mở rộng truy vấn trong truy xuất thông tin dựa trên bản thể học
(ontology)
3.1.1 Lý do lựa chọn giải pháp
Mở rộng truy vấn dựa trên Ontology là cách tiếp cận có nhiều ưu điểm do
ontology cho phép thể hiện nhiều mức độ đồng nghĩa từ cú pháp cho tới ngữ nghĩa,
cùng các quan hệ giữa các từ khóa. Những ưu điểm nổi trội của ontology bao gồm:
- Khả năng xây dựng, phát triển tự động và bán tự động;
- Khả năng tổ chức lưu trữ và sẵn sàng cho việc sử dụng;
- Khả năng đáp ứng nguồn tri thức phong phú với độ tin cậy cao;
- Đồng thời giảm thiểu các chi phí và công sức cho việc huấn luyện, làm giàu
nội dung cho ontology.
Dựa vào những ưu điểm kể trên, ontology đã được xem như một giải pháp hứa hẹn
trong mở rộng truy vấn.

3.1.2 Trình bày giải pháp
Có 2 phương pháp phổ biến trong mở rộng truy vấn dựa trên Ontology được nghiên
cứu trên thế giới đó là:
- Phương pháp mở rộng truy vấn thông qua việc sử dụng WordNet (một
ontology tổng quát được xây dựng sẵn). Phương pháp này khai thác thác trực
tiếp dữ liệu từ WordNet để thực hiện mở rộng truy vấn.
- Phương pháp mở rộng truy vấn thông qua xây dựng ontology chuyên biệt kết
hợp khai thác dữ liệu ngữ nghĩa và quan hệ ngữ nghĩa từ WordNet. Phương
pháp này gồm 2 phần:

o 1 - Xây dựng một ontology chuyên biệt tối ưu dựa trên việc khai thác
các quan hệ ngữ nghĩa đã được định nghĩa sẵn trong WordNet.
o 2 - Thực hiện mở rộng truy vấn dựa trên Ontology vừa được xây
dựng.
Phương pháp đầu tiên là phương pháp đơn giản, dễ thực hiện nhưng hiệu quả thu
hồi thông tin không cao. Ngược lại, phương pháp thứ 2 khá phức tạp và tốn nhiều
thời gian, chi phí để xây dựng.
3.1.2.1 Giới thiệu WordNet
WordNet [ là một ontology tổng quát phổ dụng
được xây dựng để phục vụ nhiều ứng dụng khác nhau trong xử lý ngôn ngữ tự
nhiên, truy xuất thông tin, làm việc với dữ liệu văn bản nói chung. Đây là một hệ
ontology dùng cho từ vựng tiếng Anh. Các từ vựng trong WordNet được phân loại
và tổ chức thành các tập đồng nghĩa gọi là synsets. Mỗi tập synset biểu diễn một
nghĩa. Các quan hệ của WordNet được mô tả như sau:
- Quan hệ Hypernymy (tên khác là Superordinate, Thượng danh) là quan hệ
giữa hai khái niệm A và B mà nghĩa của khái niệm A luôn bao hàm khái
niệm B(nhưng không ngược lại). Một dạng của quan hệ này là Instance
Hypernymy (hay Instance) là quan hệ giữa khái niệm A và đối tượng B mà B
là một dạng của A tương ứng cho đối tượng.
- Quan hệ Hyponymy (hay Subordinate, Hạ danh hoặc IS-A) là quan hệ giữa

hai khái niệm A và B mà nghĩa của khái niệm B luôn bị bao hàm bởi khái
niệm A(nhưng không ngược lại). Một dạng của quan hệ này là Instance
Hyponymy (Hay Has-Instance)
- Quan hệ Meronymy (hay Has-Member, Bộ phận) với dạng Member
Meronymy biểu diễn quan hệ bộ phận-toàn thể giữa hai synet danh từ cho
thành phần, và dạng Part Meronymy (hay Has-Part) tương ứng cho bộ phận,
cùng dạng Substance Meronymy tương ứng cho vật chất.

- Quan hệ Holonymy (hay Member-Of) với dạng Member Holonymy là quan
hệ toàn thể-bộ phận giữa hai synset danh từ, cho thành phần, cùng gạng
PartHolonymy tương ứng cho bộ phận và dạng Substance Holonymy tương
ứng cho vật chất.
- Quan hệ Synonymy và Atonymy lần lượt là quan hệ đồng nghĩa và phản
nghĩa giữa các hình thái từ.
3.1.2.2 Mở rộng truy vấn dựa trên WordNet
a. Mô hình mở rộng truy vấn dựa trên WordNet

Bảng 3.2 Mô hình mở rộng truy vấn dựa trên WordNet
Mô hình mở rộng truy vấn dựa trên Ontology WordNet được mô tả trong
hình 3.2 . Trong mô hình này, có ba bước thực hiện cơ bản trong một hệ thống mở
rộng truy vấn dựa trên Ontology WordNet đó là: Khử nhập nhằng, Mở rộng truy
vấn và Tìm kiếm tài liệu. Bước khử nhập nhằng được thực hiện đối với các thuật
ngữ của truy vấn có nhiều hơn một nghĩa. Thông thường với các truy vấn bằng

Tiếng Anh, thuật ngữ trong truy vấn hiếm khi chỉ có duy nhất một ngữ nghĩa. Do đó
cần thực hiện khử nhập nhằng ngữ nghĩa của thuật ngữ để thuật ngữ ánh xạ vào một
khái niệm Ontology WordNet duy nhất. Khử nhập nhằng là cần thiết và làm bước
đệm cho Mở rộng truy vấn. Bước tìm kiếm tài liệu được thực hiện dựa trên động cơ
tìm kiếm thông tin (Search Engine) đã được xây dựng sẵn.
b. Phương pháp thực hiện

* Khử nhập nhằng dùng WordNet (Word sense Disambiguation-WSD)
Pavlidis [37] đã nghiên cứu một thuật toán khử nhập nhằng để tạo độ chính
xác cao, nhưng có thể độ truy hồi thấp. Thuật toán này thuộc lớp phương pháp nhận
dạng mẫu có cấu trúc. Ở đây, Pavlidis sử dụng một đồ thị để mô tả những trường
hợp (ngữ nghĩa của từ). Thuật toán như sau:
Đặt Q = {
1
w
,
2
w
, …,
w
n
} là truy vấn khởi tạo
Đặt:


Word
(w ) | s (w ), w
k k
k j j Net k k
S S S Syn et Q
  

là tập đồng nghĩa WordNet của
w
k
, k=1,…,n.
Ta có:

1
1 2
2
( , , , )
n
n
x x x x
C S S S


là cấu hình ngữ nghĩa cho Q (
k
x
là một chỉ số ngữ nghĩa nằm trong khoảng từ 1 đến
số ngữ nghĩa có thể cho
w
k
).
Với mỗi cấu hình
x
C
, người ta thực hiện như sau:
- Tạo mạng ngữ nghĩa cho mỗi nghĩa
- Phân cắt các mạng ngữ nghĩa
- Gán một điểm số (score) cho cấu hình
Bước cuối cùng là lựa chọn:
es
arg ax( or ( ))
b t x
x

C m Sc e C


- Tạo mạng ngữ nghĩa:
Với mỗi w
k
Q

và mỗi synset
k
j
S
của
w
k
(
k
j
S
là ngữ nghĩa thứ j của
w
k

trong WordNet), tạo một mạng ngữ nghĩa.
Mạng ngữ nghĩa được tạo tự động sử dụng quan hệ ngữ nghĩa sau: hypernym

(vd: xe ô tô là một phương tiện xe cộ; ký hiệu:
@

), hyponym (ngược lại của

hypernym; ký hiệu:
~

), meronym(vd: căn phòng có một bức tường; ký hiệu:
#

), pertainym (vd: cá thuộc về động vật; ký hiệu:
\

), attribute (vd: khô là giá trị
của sự ẩm ướt; ký hiệu:


), similarity (vd: đẹp tương đương với xinh xắn; ký
hiệu:
&

), gloss (
oss
gl
 ), topic (
topic
 ), domain (
dl

)
Hầu hết các quan hệ này đề trực tiếp chiết xuất từ WordNet, ngoại trừ gloss, topic
và domain.
Hình 3.3 là một ví dụ của mạng ngữ nghĩa được tạo cho sense#1 của bus

Hình 3.3 Mạng ngữ nghĩa cho nghĩa số 1 của từ “bus”
Phân cắt mạng ngữ nghĩa và gán điểm số cho cấu hình
Đặt SN(
k
j
S
) là mạng ngữ nghĩa cho ngữ nghĩa j của từ
w
k
. Xét một cấu hình
ngữ nghĩa
x
C
tương ứng với mỗi truy vấn Q, các mạng ngữ nghĩa được phân thành
các cặp giao nhau và số node chung được đếm. Đặt
1
( ) ( )
k m
j
SN S SN S
 là một điểm
giao. Gọi điểm giao là node chung S. Ví dụ
* * 1
k
j m
S S S
 
trong đó
*


biểu thị
một đường dẫn của node.
Với mỗi cấu hình ngữ nghĩa
x
C
, điểm số được tính toán là tổng số node chung.
', '' : '# ''
or ( ) | ( ') ( '') |
x
x
S S C S S
Sc e C SN S SN S

 


Các node chung được sắp xếp đảo chiều với đường giao. Đặt
[S]
x
là danh sách sắp
xếp của các node chung trong cấu hình
x
C
.
Bước cuối cùng là lựa chọn ngữ nghĩa tốt nhất cho truy vấn
es
arg ax( or ( ))
b t x
x

C m Sc e C


* Mở rộng truy vấn với WordNet
Để mở rộng truy vấn, người ta sử dụng 5 phương thức mở rộng và 2 chiến lược lựa
chọn từ mở rộng
+ Phương thức mở rộng truy vấn:
i. Mở rộng Synset: synset liên quan thay thế thuật ngữ truy vấn ban đầu (từ có
thể được mở rộng nằm trong truy vấn ban đầu).
ii. Mở rộng Hypernym (thượng danh): Các từ (word) có khả năng mở rộng
được bổ sung thêm các hypernyms trực tiếp của nó vào câu truy vấn.
iii. Mở rộng gloss synset: Các từ (word) có khả năng mở rộng được bổ sung
thêm các synset của gloss của từ đó.
iv. Mở rộng gloss word: Các từ (word) có khả năng mở rộng được bổ sung thêm
các từ trong glosses của chúng (glosses - là định nghĩa khái niệm của từ
trong WordNet. Ở đây là lấy các từ nằm trong định nghĩa tương ứng với ngữ
nghĩa của từ đó sau khi đã khử nhập nhằng)
v. Mở rộng các node chung: Các từ mở có khả năng mở rộng được bổ sung
thêm các từ (word) mà tập đồng nghĩa của nó thuộc
[S ]
x
j
- Danh sách các
node chung thuộc
x
C
.
+ Chiến lược lựa chọn từ có khả năng mở rộng:
- Chiến lược 1: Chỉ mở rộng các từ monosemous. Đây là các từ có nghĩa rõ
ràng (có duy nhất 1 nghĩa).

- Chiến lược 2: Mở rộng các từ mà synset của nó được lựa chọn theo thuật
toán khử nhập nhằng (WSD) trình bày ở trên. Có ít nhất k node dùng chung
(k>0) cho các synset khác nhau của câu truy vấn.
3.2 Xây dựng mô hình thực nghiệm

Trong mô hình thực nghiệm, ngôn ngữ cài đặt là Java. Cấu hình máy chủ sử
dụng trong mô hình thực nghiệm là bộ xử lý Intel ® core ™ 2 duo T.7300 2.2GHz,
bộ nhớ trong 2GB, bộ nhớ ngoài có phần dung lượng trống khả dụng 10GB.
Các công việc cần thực hiện:
- Tạo 1 kho liệu tài liệu Tiếng Anh (nhỏ) về 1 chủ đề nào đó.
- Xây dựng một động cơ tìm kiếm thông tin cục bộ (Internal Search Engine,
ISE) dựa trên công cụ Lucene cho kho ngữ liệu nêu trên (Lucene là một thư
viện truy vấn thông tin mã nguồn mở được Doug Cuting xây dựng từ năm
1998 với mục tiêu phát triển thành một thư viện truy vấn tài liệu hoàn chỉnh
giúp người dùng dễ dàng tích hợp chức năng tìm kiếm vào hệ thống của họ).
Động cơ tìm kiếm thông tin cục bộ được cài đặt bằng ngôn ngữ Java trên nền
Eclipse 3.0, jdk 1.5.
- Khai thác từ đồng nghĩa trong WordNet để thực hiện mở rộng truy vấn và
tìm kiếm tài liệu.
Các bước thực hiện:
- Người dùng thực hiện nhập truy vấn ban đầu.
- Động cơ tìm kiếm thông tin cục bộ thực hiện tìm các từ đồng nghĩa với các
thuật ngữ truy vấn ban đầu của người dùng dựa trên ontology WordNet nhằm
mục đích tìm các thuật ngữ truy vấn mở rộng.
- Động cơ tìm kiếm thông tin cục bộ sử dụng thư viện Lucence để tìm kiếm tài
liệu dựa trên các thuật ngữ truy vấn mở rộng và trả về các tài liệu có liên
quan.
Kết quả thử nghiệm:
Thực hiện tạo kho tài liệu Tiếng Anh gồm 17 tài liệu về chủ đề xe đạp (“bike”).
Thực hiện 2 chiến lược tìm kiếm như sau:

- Chiến lược thứ 1: Tìm kiếm tài liệu với câu truy vấn ban đầu là “bike”. Trong
đó, hệ thống tìm kiếm sẽ thực hiện tìm tất cả các tài liệu trong kho tài liệu có
chứa từ “bike” và thu được kết quả là 11/17 tài liệu

- Chiến lược thứ 2: Tìm kiếm mở rộng truy vấn dựa trên ontology WordNet.
Động cơ tìm kiếm thông tin cục bộ thực hiện mở rộng câu truy vấn “bike”
bằng cách tìm các từ đồng nghĩa với từ “bike” trong WordNet và thu được
những cặp từ đồng nghĩa như sau:
1) motorcycle, bike.
2) bicycle, bike, wheel, cycle.
3) bicycle, cycle, bike, pedal, wheel.
Động cơ tìm kiếm thông tin tiếp tục tìm các tài liệu trong kho tài liệu ban đầu
mà chứa những từ đồng nghĩa với bike (như trên) và thu được kết quả là 15/17
tài liệu.
3.3 Đánh giá ưu khuyết điểm của giải pháp mở rộng truy vấn dựa trên
Ontology
a. Ưu điểm:
- Chất lượng mô hình tri thức tốt: Đặc trưng của ontology là độ gắn kết, tính
ổn định, tính đối kháng và sự đồng nhất, sự nhập nhằng nên chất lượng về
mô hình tri thức rất tốt. Bởi chất lượng của việc diễn dịch văn bản tự do phụ
thuộc rất nhiều vào chất lượng mô hình tri thức. Theo nghiên cứu của Jones
[16] chất lượng mô hình tri thức hay từ điển chuyên đề là quan trọng nhất.
Mô hình này phải chính xác, ổn định và bao hàm toàn diện. Nếu một mô
hình dữ liệu không bao phủ các chủ đề trong hướng toàn diện thì các truy
vấn (liên quan đến một chủ đề nào đó) sẽ không thu hồi được bất kỳ kết quả
nào.
- Am hiểu mô hình tri thức: Theo nghiên cứu của Suomela và Kekalainen
[17], quá trình tìm kiếm thông tin có cơ hội thành công nhiều hơn nếu người
dùng hiểu rõ mô hình tri thức.
- Khả năng định hướng của mô hình tri thức: Các phương pháp thực

nghiệm được nghiên cứu để áp dụng cho mở rộng truy vấn dựa trên ontology
có thể giúp cho hệ thống học những hành vi của giải thuật xếp hạng cho việc

mở rộng truy vấn và học cả những tác vụ của người dùng trong quá trình mở
rộng truy vấn, đặc biệt là cách chọn từ. Đây là minh chứng cho tính hiệu quả
của việc mở rộng truy vấn có tương tác và vì thế, mở rộng truy vấn dựa trên
ontology là mô hình có khả năng định hướng tốt.
- Quy trình ánh xạ truy vấn khá linh động: Trong quá trình ánh xạ từ truy
vấn vào các khái niệm ontology tương ứng nếu sự so trùng chính xác nhất
không được tìm thấy thì quy trình ánh xạ sẽ tìm sự so trùng kế cận tốt nhất.
- Sử dụng các kỹ thật mở rộng truy vấn kết hợp với ontology tạo ra kết
quả tốt hơn việc dùng kỹ thuật riêng lẻ (kỹ thuật sử dụng từ điển chuyên
đề và danh mục từ đồng xuất hiện, …)
b. Nhược điểm:
- Nếu một ontology cho một miền cụ thể chưa tồn tại thì phải hao tốn nhiều công
sức và chi phí để xây dựng một ontology mới.
- Sự không tương thích giữa các thuật ngữ của truy vấn và khái niệm trong
ontology và cần phải có một quy trình liên kết để giải quyết vấn đề này.
c. Đánh giá về hiệu suất thực hiện
Mandala [19] so sánh hiệu suất với phản hồi liên quan (relevance feedback)
thì mở rộng truy vấn dựa trên ontology có hiệu suất thực hiện tốt hơn đáng kể
nhưng lại kém hiệu quả hơn phản hồi liên quan lý tưởng (relevance feedback
ideal).

Nghiên cứu phương pháp mở rộng truy vấn trong truy xuất thông tin (INFORMATION RETRIEVAL)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về