Tìm kiếm ngữ nghĩa dựa trên Ontology
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BIỂU DIỄN CÔNG NGHỆ TRI
THỨC VÀ ỨNG DỤNG
Tìm Kiếm Ngữ Nghĩa
dựa trên Ontology
Giảng viên hướng dẫn
PGS.TS. Đỗ Văn Nhơn
Học viên: Huỳnh Lê Quốc Vương MHV: CH1101158
Tìm kiếm ngữ nghĩa dựa trên Ontology
01 – 2013
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BIỂU DIỄN CÔNG NGHỆ TRI
THỨC VÀ ỨNG DỤNG
Tìm Kiếm Ngữ Nghĩa
dựa trên Ontology
Giảng viên hướng dẫn
PGS.TS. Đỗ Văn Nhơn
Tìm kiếm ngữ nghĩa dựa trên Ontology
Học viên: Huỳnh Lê Quốc Vương MHV: CH1101158
01 – 2013
MỤC LỤC
Tìm kiếm ngữ nghĩa dựa trên Ontology
MỞ ĐẦU
Lượng thông tin khổng lồ ngày càng gia tăng trên World Wide Web đã tạo
nhu cầu cực kỳ lớn cho các công cụ và kỹ thuật để xử lý dữ liệu có ngữ nghĩa.
Hiện tại thực tế các hệ thống thông tin truy hồi phần lớn dựa trên tìm kiếm theo
từ khóa với dữ liệu full-text được mô hình hóa theo bag-of-word. Đó là lý do
tại sao khi sử dụng các công cụ tìm kiếm thông tin trên Internet, chúng ta
thường xuyên phải đối mặt với một lượng lớn các thông tin không hợp lý, thậm
chí không liên quan đến vấn đề mà chúng ta quan tâm. Vậy đâu là lý do dẫn tới
thông tin sai lệch trong kết quả tìm kiếm. Đó là cách chúng ta biểu diễn nội
dung trên website hiện nay dưới dạng dữ liệu thô. Để giải quyết điều này, có
nhiều cách tiếp cận khác nhau, một trong số đó là ontology.
Bài thu hoạch này sẽ giới thiệu tổng quan về truy hồi thông tin, quy trình
cũng như các mô hình của chúng. Tiếp theo là giới thiệu về ontology như định
nghĩa, các thành phần, phân loại và xây dựng chúng. Với những lý thuyết đó,
ta xây dựng một ứng dụng tìm kiếm các địa điểm như quán ăn, nhà hàng, café,
… dựa trên ontology với các thông tin được rút trích từ các dữ liệu free-text ở
các website như ‘quananngon.com.vn’, ‘gucafe.com’, ‘chudu24.com’, … Các
đánh giá kết quả cho thấy, ứng dụng có khả năng xử lý với những truy vấn khá
phức tạp nhưng vẫn dựa trên giao diện thân thiện với người dùng là các truy
vấn dạng free-text.
Lời cảm ơn, em chân thành xin dành cho thầy Nhơn vì những kiến thức của
Thầy mang lại để giúp em có được cũng như hoàn thành tốt bài thu hoạch này.
Tìm kiếm ngữ nghĩa dựa trên Ontology
I. CƠ SỞ LÝ THUYẾT
1. Truy hồi thông tin
Ngày nay, số lượng thông tin trong các kho tài liệu đã phát triển một cách
chóng mặt, đa số được lưu trữ trong định dạng số. World Wide Web (WWW)
là một ví dụ rõ ràng nhất, ước tính hơn 20 tỷ tài liệu theo thống kê của Yahoo
vào 2005. Ngoài ra còn có các thư viện số, các mạng nội bộ trong công ty, …
Tuy nhiên, nếu chỉ có nội dung không có nghĩa là nó hữu ích. Ngược lại, người
dùng không phải lúc nào cũng tìm thấy thông tin mình cần. Vấn đề đã xuất
hiện trong những ngày đầu công nghệ máy tính. Vào 1930 Vannevar Bush đã
nghĩ về một cái máy gọi là Memex, “một thiết bị lưu trữ các cuốn sách, bài
viết, hội nghị của ông ta để dùng trong việc tham khảo với tốc độ nhanh
chóng”. Năm 1950 Calvin Mooers đưa ra thuật ngữ “Information Retrieval”
nhưng nó không được chấp nhận cho đến năm 1960, Maron & Kuhns định
nghĩa vấn đề của Information Retrieval “xác định đầy đủ nội dung thông tin tài
liệu”. Với ý tưởng này, rất nhiều nghiên cứu đã được thực hiện ngay sau đó với
mục đích làm cho các thông tin có sẵn trong các kho chứa (dữ liệu số) được
truy cập một cách dễ dàng và hiệu quả hữu ích.
Tóm lại, truy hồi thông tin là một trong những lĩnh vực nghiên cứu lâu đời
nhất trong khoa học thông tin. Mục tiêu của IR là tìm kiếm và đưa ra các tài
liệu thích hợp nhất cho nhu cầu thông tin của người dùng. Vì vậy một hệ thống
IR tốt nên chỉ trả về các tài liệu mà đáp ứng nhu cầu người dùng, không nên
bao gồm các dữ liệu không cần thiết.
Tìm kiếm ngữ nghĩa dựa trên Ontology
1.1. Quy trình truy hồi thông tin
Các hệ thống truy hồi thông tin ngày nay đã phát triển và cải tiến nhiều hơn
so với sự xuất hiện lần đầu tiên của nó vào những năm 1950. Tuy nhiên, quá
trình xử lý cơ bản hầu như không thay đổi.
Input: Một hệ thống IR có hai input chính, yêu cầu của người dùng và loại
thông tin đáp ứng
- Yêu cầu người dùng: một quá trình truy hồi thông tin bắt đầu khi người
dùng biểu diễn thông tin họ cần đến hệ thống. Trong trường hợp thông
Tìm kiếm ngữ nghĩa dựa trên Ontology
thường, thông tin này được chuyển tải trong hình thức một chuỗi tìm kiếm,
nhưng nó cũng có thể được biểu diễn trong các hình thức khác, như trong
trường hệ thống truy hồi đa phương tiện, input có thể là ảnh, âm thanh, …
- Loại thông tin đáp ứng: là loại thông tin được truy hồi để đáp ứng – trả lời
truy vấn của người dùng. Nó được phân loại chủ yếu theo định dạng của nó
(văn bản tài liệu, âm thanh, video, ảnh, …) và độ chi tiết của nó (trang web,
đoạn văn, câu, …)
Output: Một hệ thống IR thông thường trả về một output chính, bao gồm một
danh sách các thông tin được xếp hạng. Các thông tin này có thể là văn bản,
âm thanh, video, …
Quy trình: một hệ thống IR theo Croft & Harper - 1993 có ba quy trình chính:
- Trích các đặc trưng nội dung và biểu diễn chúng dưới một hình thức logic
nào đó (đánh chỉ mục)
- Xử lý yêu cầu thông tin của người dùng thành một biểu diễn nào đó (xử lý
truy vấn)
- So khớp các biểu diễn (tìm kiếm và xếp hạng)
• Đánh chỉ mục: không phải tất cả các mẩu (phần) của một thông tin đều có ý
nghĩa như nhau trong việc “nói” lên ý nghĩa thông tin đó. Ví dụ như trong
ngôn ngữ viết, vài từ mang nhiều nghĩa hơn các từ khác. Do đó, thường có
một quá trình tiền xử lý thông tin để chọn các phần tử đặc trưng cho việc
đánh chỉ mục. Các chỉ mục là các cấu trúc dữ liệu được xây dựng để tăng
tốc quá trình tìm kiếm. Cấu trúc đánh chỉ mục phổ biến nhất cho văn bản là
tập tin đảo ngược. Cấu trúc này bao gồm hai thành phần: tập từ vựng và số
Tìm kiếm ngữ nghĩa dựa trên Ontology
lần từ xuất hiện. Tập từ vựng là tập tất cả các từ xuất hiện trong văn bản.
Với mỗi từ trong từ vựng, một danh sách tất cả các vị trí văn bản nơi từ
vựng xuất hiện được lưu trữ lại.
• Xử lý truy vấn: những yêu cầu của người dùng (truy vấn) được phân tích và
chuyển thành một hình thức nào đó theo hệ thống IR. Trong trường hợp
truy hồi văn bản, các từ truy vấn thông thường được tiền xử lý cùng một
thuật toán như việc chọn phần tử đặc trưng để đánh chỉ mục. Các xử lý truy
vấn phụ như mở rộng truy vấn (query expansion) cần có các nguồn tài
nguyên như bộ từ điển (thesauri) hay cây phân cấp.
• Tìm kiếm: các truy vấn được so khớp với mục thông tin. Một tập các mục
thông tin có tiềm năng được trả về cho người dùng. Có nhiều cách khác
nhau để thu được tập thông tin tiềm năng này, phụ thuộc vào định dạng của
thông tin (văn bản, âm thanh, video, …) nhưng trong tất cả trường hợp, vài
hình thức đơn giản hóa được thực hiện trong mô hình thông tin để dễ dàng
xử lý. Ví dụ, trong truy hồi văn bản thường được xây dựng trên giả định
rằng việc so khớp giữa các mục thông tin (các tài liệu) và yêu cầu thông tin
của người dùng (chuỗi truy vấn) được dựa trên tập các từ được đánh chỉ
mục. Điều này rõ ràng (chấp nhận được bởi lý do hiệu quả) mất mát thông
tin ngữ nghĩa khi văn bản được lập lại bằng một tập các từ. Một tình huống
tương tự xảy ra trong truy hồi multimedia khi so khớp được thực hiện dựa
trên các đặc trưng tín hiệu số.
• Xếp hạng: bước xếp hạng nhằm mục đích dự đoán mức độ liên quan giữa
các mục thông tin với truy vấn, sau đó trả về chúng theo thứ tự giảm dần
đến người dùng. Các thuật toán xếp hạng được xem như là lõi của hệ thống
IR, chúng là chìa khóa để quyết định hiệu năng của hệ thống.
Tìm kiếm ngữ nghĩa dựa trên Ontology
Các yếu tố khác: được sử dụng chủ yếu để giúp cho việc biểu diễn, trích chọn
hay xử lý yêu cầu người dùng và nghĩa nội dung. Hiểu ngữ nghĩa đằng sau các
mục thông tin và truy vấn của người dùng giúp nâng cao độ chính xác của quá
trình truy hồi, và do đó gia tăng sự thỏa mãn của người dùng. Ba yếu tố ngoài
chủ yếu được sử dụng trong hệ thống IR là: giao diện người dùng, các thao tác
xử lý truy vấn, các nguồn tài nguyên sử dụng để hỗ trợ đánh chỉ mục
• Giao diện người dùng: một giao diện người dùng “mềm dẻo” không chỉ cần
thiết cho người dùng biểu diễn các yêu cầu của họ mà còn biểu diễn các ràng
buộc cho các thông tin mà họ tìm kiếm (ví dụ., nội dung chính xác, nội dung
tương tự, nội dung không trùng nhau, nội dung theo ngày tháng, ngôn ngữ,
định dạng, …)
• Các thao tác xử lý truy vấn: phụ thuộc vào kiểu truy vấn, có các cơ chế
khác nhau được sử dụng để tinh lọc truy vấn. Phổ biến nhất là dựa vào các
input hỗ trợ thêm người dùng và cách tiếp cận dựa trên phản hồi nhìn chung là
hiệu quả nhất. Tuy nhiên, chúng giảm đi tính hiệu dụng của hệ thống, và do đó
các nguồn tài nguyên ngoài khác, chẳng hạn như bộ từ điển và cây phân cấp
thường được sử dụng thay thế hay bổ sung để tự động phân loại, làm cho truy
vấn thành nghĩa (hoàn chỉnh nghĩa câu truy vấn) hay mở rộng truy vấn.
• Các nguồn tài nguyên sử dụng để hỗ trợ đánh chỉ mục: các nguồn tài
nguyên xử lý tài liệu chẳng hạn như bộ từ điển và các từ vựng đã được điều
chỉnh được sử dụng để hỗ trợ cho việc chọn các từ thích hợp cho việc đánh chỉ
mục.
Tìm kiếm ngữ nghĩa dựa trên Ontology
1.2. Các mô hình truy hồi thông tin
Thuật toán xếp hạng là một trong những thành phần đặc trưng chính của
một hệ thống IR. Một thuật toán xếp hạng hoạt động dựa theo các tiền đề cơ
bản về các khái niệm độ tương tự giữa các tài liệu. Các tập hợp hay tiền đề
khác nhau phát sinh ra các mô hình IR khác nhau. Có ba mô hình IR văn bản
cơ bản nhất là: Boolean, Vector và Xác suất.
Trong mô hình Boolean, các tài liệu và các truy vấn được biểu diễn bằng
một tập các mục từ. Trong mô hình không gian vector, các tài liệu và các truy
vấn được biểu diễn bằng các vector trong một không gian t chiều. Trong mô
hình xác suất cơ bản, biểu diễn các tài liệu và truy vấn được dựa trên lý thuyết
xác suất.
Theo định nghĩa trong (Baeza Yaytes & Ribeiro Neto, 1999) một mô hình IR
là một bộ bốn [D, Q, F, sim], trong đó:
• D là tập các tài liệu.
• Q là tập các truy vấn.
• F là framework để mô hình hóa tài liệu, truy vấn, và các mối quan hệ của
chúng.
• sim: Q × D → U là một hàm xếp hạng, thể hiện sự liên kết giữa các tài liệu
và truy vấn, với U là một tập hợp có thứ tự (thông thường là [0, 1], hay P, hay
một tập con của chúng). Xếp hạng và thứ tự trong U xác định một thứ tự trong
tập tài liệu đối với một truy vấn.
Tìm kiếm ngữ nghĩa dựa trên Ontology
Để xây dựng một mô hình, điều đầu tiên cần nghĩ là sẽ biểu diễn tài liệu và
yêu cầu của người dùng như thế nào. Hay nói cách khác, cần nghĩ tới một
framework để mô hình hóa chúng. Framework này cũng phải cung cấp việc
xây dựng một hàm xếp hạng một cách trực quan. Ví dụ, với mô hình Boolean
cổ điển, framework được tạo thành từ các tập hợp tài liệu và các thao tác trên
tập hợp. Với mô hình không gian vector cổ điển, framework được tạo thành từ
một không gian vector t chiều và các thao tác đại số tuyến tính trên vector. Với
mô hình xác suất cổ điển, framework được hình thành từ tập hợp, các thao tác
xác suất, và lý thuyết Bayes.
1.2.1. Mô hình Boole
Mô hình boole là một mô hình truy hồi đơn giản nhất dựa trên lý thuyết tập
hợp và đại số Boole. Các tài liệu được biểu diễn bằng các mục từ được trích ra
từ tài liệu, và truy vấn là biểu thức Boole trên các mục từ đó. Theo ký hiệu mô
hình IR thì ở đây:
• D: các phần từ của D được biểu diễn bằng các tập hợp các mục từ xảy ra
trong mỗi tài liệu. Các mục từ được xem như là các mệnh đề logic, biểu
thị một từ hay cụm từ có xuất hiện (1) hay vắng (0) trong tài liệu. Các
tài liệu có thể được xem như là phép hội các mục từ.
• Q: các truy vấn được biểu diễn bằng một biểu thức Boole được tạo
thành bằng các mục từ và các phép toán logic (AND - , OR - , NOT - )
có thể được đưa về dạng chuẩn tắc tuyển hay hội.
• F là một mô hình đại số Boole trên tập mục từ và tập tài liệu.
Tìm kiếm ngữ nghĩa dựa trên Ontology
• sim được xác định bằng cách xem xét một tài liệu được dự đoán là có
liên quan đến một truy vấn nếu các mục từ của nó thỏa biểu thức truy
vấn.
Ví dụ:
Ta có truy vấn q = vàng (bạc đồng)
Truy vấn này được tạo thành từ ba mục từ khác nhau: ‘vàng’, ‘bạc và
‘đồng’ và nó được viết trong dạng chuẩn tắc tuyển q
dnf
= , mỗi thành phần là
một vector có trọng số nhị phân liên kết với bộ ba (vàng, bạc, đồng). Các
vector này được gọi là các thành phần tuyển của q
dnf
Ba thành phần tuyển của truy vấn q = vàng (bạc đồng)
Với hình trên là tập các tài liệu chứa từ ‘vàng, tập các tài liệu chứa từ ‘bạc’ và
tập các tài liệu chứa từ ‘đồng. Với truy vấn q, các tập con đáp ứng câu truy vấn
là: tập chứa ba mục từ (1, 1, 1); tập chứa từ ‘vàng’, không chứa ‘bạc’ và ‘đồng’
(1, 0, 0); và tập chứa từ ‘vàng’ và ‘bạc’, như không chứa ‘đồng’ (1, 1, 0).
Tìm kiếm ngữ nghĩa dựa trên Ontology
Với tính đơn giản của nó, mô hình Boole sớm được dùng trong nhiều hệ
thống thương mại. Tuy nhiên, mô hình Boole có hai nhược điểm lớn. Thứ nhất,
chiến lược truy hồi của nó dựa theo tiêu chí nhị phân (tức là, một tài liệu chỉ
được dự đoán là thích hợp hay không thích hợp) và do đó nó không có một cơ
sở hợp lý để xếp hạng kết quả truy hồi, dẫn tới độ chính xác thấp khi không
gian truy hồi lớn. Thứ hai, nó không dễ dàng để tất cả người dùng có thể
chuyển một truy vấn thành một biểu thức Boole với các toán tử logic, điều này
làm giảm tính sử dụng của hệ thống với người dùng.
1.2.2. Mô hình không gian vector
Mô hình không gian vector (Vector space model – VSM) nhận ra rằng việc
sử dụng trọng số nhị phân có nhiều giới hạn và đề xuất một framework có thể
thực hiện so khớp từng phần (trong mô hình Boole chỉ thực hiện so khớp
nguyên phần câu truy vấn với các tài liệu, do đó một tài liệu chỉ có kết quả là
thích hợp hay không thích hợp). Điều này được thực hiện bằng cách gán trọng
số từ 0.0 đến 1.0 thay vì chỉ 0 và 1 như mô hình Boole cho các mục từ trong
các truy vấn và tài liệu. Các trọng số mục từ này được sử dụng để tính độ
tương tự giữa từng tài liệu trong hệ thống với truy vấn người dùng. Theo ký
hiệu mô hình IR thì ở đây:
• D: là tập các tài liệu, với mỗi tài liệu được biểu diễn bằng một vector
các mục từ xảy ra trong tài liệu. Mỗi mục từ trong tài liệu được thể hiện
bằng mỗi cặp (t
i
, d
j
) có trọng số w
i,j
.
• Q: là tập các truy vấn, với mỗi truy vấn được biểu diễn bằng một vector
các mục từ xảy ra trong truy vấn. Mỗi mục từ trong truy vấn được thể
hiện bằng mỗi cặp (t
i
, q) có trọng số w
i,q
.
• F là một mô hình đại số trên các vector trong một không gian t chiều.
Tìm kiếm ngữ nghĩa dựa trên Ontology
• sim đánh giá độ tương tự của một tài liệu d
j
với một truy vấn q bằng sự
tương quan giữa vector d
j
và q. Thông thường sự tương quan này có thể
được tính bằng cosin của góc hai vector:
o
Cosin của góc được dùng cho sim(q,d
j
)
Bởi vì w
i,j
> 0 và w
i,q
> 0, do đó sim(q,d
j
) có giá trị từ 0 đến 1. Thay vì dự đoán
liệu một tài liệu liên quan hay không, VSM xếp hạng các tài liệu theo độ tương
tự của chúng với truy vấn. Một tài liệu có thể được truy hồi thậm chí nếu nó
chỉ khớp một phần với câu truy vấn. Chẳng hạn, ta có thể thiết lập một ngưỡng
nào đó với sim(q,d
j
) và truy hồi các tài liệu có độ tương tự trên ngưỡng này.
Ví dụ
Tìm kiếm ngữ nghĩa dựa trên Ontology
Giả sử ta có truy vấn q = ‘trò chơi’, ‘thể thao’ và tài liệu d như hình dưới, trong
đó w
trò chơi
= 0.4 w
thể thao
= 0.7
Bóng đá là môn thể thao đồng đội được chơi giữa hai đội với
nhau, mỗi đội có 11 cầu thủ trên sân. Trò chơi này dùng một
quả bóng và thường được chơi trên sân cỏ hình chữ nhật với
hai khung thành ở hai đầu sân. Mục 2êu của trò chơi là ghi
điểm bằng cách đưa bóng vào khung thành của đội đối địch.
Vector biểu diễn truy vấn và tài liệu:
Và độ tương tự giữa chúng được tính như sau
0.96
Mô hình không gian vector không mô tả giá trị của mỗi thành phần vector
được tính như thế nào. Trọng số mục từ thực sự là một nhân tố quan trọng
trong hệ thống IR, chúng ảnh hưởng lớn đến độ tương tự và xếp hạng của các
tài liệu và truy vấn. Có nhiều nghiên cứu thử nghiệm về vấn đề này và có nhiều
cơ chế đã được đề xuất. Mục tiêu cuối cùng của một hệ thống đánh trọng số
mục từ là nâng cao hiệu quả chất lượng truy hồi tài liệu. Một trong những
phương pháp được sử dụng phổ biến nhất cho việc đánh trọng số mục từ là
Term Frequency, Inverse Document Frequency (TF-IDF).
Tìm kiếm ngữ nghĩa dựa trên Ontology
Một nhược điểm của mô hình không gian vector, cũng có trong mô hình
Boole và mô hình xác suất là các mục từ được giả định độc lập lẫn nhau và nó
không có khả năng thể hiện các mục từ phụ thuộc lẫn nhau trong mô hình.
Nhưng mô hình không gian vector đã được chứng minh hiệu quả hơn mô hình
Boole. Việc so khớp từng phần cho phép truy hồi các tài liệu gần đúng truy
vấn, và hàm truy hồi cosin cũng hỗ trợ tốt hơn trong việc xếp hạng tài liệu dựa
trên độ tương tự với truy vấn.
1.2.3. Mô hình xác suất
Mô hình xác suất mục tiêu đưa các vấn đề IR vào trong một framework xác
suất. Ý tưởng cơ bản của nó như sau. Cho một truy vấn q và một tập tài liệu D,
một tập con R của D được giả định chứa chính xác các tài liệu thích hợp cho q
(tập trả lời lý tưởng). Sau đó, mô hình truy hồi xác suất xếp hạng các tài liệu
theo xác suất giảm dần theo tập hợp này, ký hiệu P (R | q, d
j
), với d
j
là một tài
liệu D.
Theo ký hiệu mô hình IR thì ở đây:
• D: tập tài liệu, với mỗi tài liệu được biểu diễn bằng một vector các mục
từ xảy ra trong tài liệu. Mỗi mục từ trong tài liệu là mỗi cặp (t
i
, d
j
) có
trọng số nhị phân 1 hay 0, thể hiện việc xuất hiện hay vắng mặt trong tài
liệu.
• Q: tập truy vấn, với mỗi truy vấn được biểu diễn bằng một vector các
mục từ xảy ra trong tài liệu. Mỗi mục từ trong truy vấn là mỗi cặp (t
i
, q)
có trọng số 1 hay 0, thể hiện việc xuất hiện hay vắng mặt trong truy vấn.
• F là một mô hình xác suất, xếp hạng các tài liệu theo xác suất liên quan
tới truy vấn
Tìm kiếm ngữ nghĩa dựa trên Ontology
• sim đo độ tương tự của một tài liệu d
j
với truy vấn q
i
bằng xác suất của
d
j
với tập R (là tập các tài liệu thích hợp cho q), được tính như sau:
với ký hiệu tập các tài liệu không thích hợp, là xác suất của d
j
thích hợp
với truy vấn q, và là xác suất của d
j
không thích hợp với q.
Việc tính toán các xác suất sau này yêu cầu chi tiết hơn. Ở đây sẽ trình bày
lại theo Baeza Yayes & Ribeiro Neto, 1999.
Sử dụng luật Bayes, ta viết lại như sau:
Giả sử rằng P(R) và P( là như nhau cho tất cả tài liệu. Và xem rằng các mục từ
độc lập nhau, có nghĩa là = . Thì trở thành
Nếu ta có một hàm g(t, d) với g(t, d) = 1 nếu mục từ t xuất hiện trong tài liệu d,
và g(t, d) = 0 nếu mục từ t không xuất hiện trong tài liệu d, thì công thức trên
có thể viết lại như sau:
Mục từ là xác suất mà mục từ t
i
có mặt trong một tài liệu ngẫu nhiên được
chọn từ tập R. là xác suất mà mục từ t
i
không có mặt trong một tài liệu ngẫu
Tìm kiếm ngữ nghĩa dựa trên Ontology
nhiên được chọn từ tập R. Tương tự với các xác suất gắn với tập . Nhớ rằng =
1, lấy logari và bỏ đi các hằng số của tất cả các tài liệu, ta được:
với cho biết mục từ t
i
có mặt hay vắng mặt trong truy vấn q và cho biết mục
từ t
i
có mặt hay vắng mặt trong tài liệu d
j
.
Bởi vì R chưa biết, có thể giả định một cách đơn giản như sau:
o cho tất cả các mục từ.
o , với n
i
là số tài liệu chứa t
i
và N là tổng số lượng tài liệu.
Mỗi khi một tập con tài liệu ban đầu V được truy hồi và xếp hạng bởi mô hình
xác suất, các xác suất có thể được làm mịn lại:
o , với V
i
là tập các tài liệu được truy hồi có chứa t
i
.
o , bằng cách xem rằng các tài liệu không được truy hồi là không liên
quan với truy vấn.
Đệ quy quá trình này, ta được:
o
o
Ví dụ
Tài liệu Tập các mục từ
Cold Day Eat Hot Meal Pizaa Drink
d1 1 0 1 0 0 0 0
d2 0 1 1 1 0 0 0
d3 0 0 1 0 1 1 1
d4 0 1 0 0 1 0 0
Nếu V = {d
1
, d
2
}, ta có thể tính độ liên quan của d
1
như sau:
Tìm kiếm ngữ nghĩa dựa trên Ontology
Nhược điểm của mô hình xác suất là cần đoán được tập tài liệu phân chia
ban đầu (tập liên quan và tập không liên quan). Ngoài ra, các mô hình cổ điển
không tính toán đến tần số của mục từ trong tài liệu (tức là tất cả trọng số đều
là nhị phân).
Mặc dù những hạn chế này, các biến thể của mô hình xác suất đã tới sự ra
đời của một trong những mô hình thành công nhất là BM25 (Robertson &
Sparck Jones, 1976) (Sparck Jones, Walker, & Robertson, 2000). Và trong
những năm 80 và 90, Okapi đã xây dựng một hệ thống có tính đến sự có/vắng
mặt của các thông tin liên quan và tích hợp một thành phần đo tần số mục từ và
độ dài tài liệu.
1.2.4. Các mô hình khác
Qua nhiều thập kỷ, có nhiều mô hình đã được đề xuất. Nổi bật trong số
chúng là: mô hình fuzzy và mô hình Boole mở rộng, mô hình vector tổng quát,
mô hình mạng nơron, … Gần đây, các mô hình Ngôn Ngữ đã trở nên phổ biến
và được áp dụng rộng rãi trong lĩnh vực IR bởi hiệu năng cao của chúng và
việc hợp nhất trọng số mục từ và xếp hạng kết quả trong một mô hình duy nhất
với nền tảng dựa trên xác suất.
Các mô hình ở trên cơ bản dựa theo hướng thống kê, các tài liệu kết quả
được truy tìm về hoặc được xếp hạng cao là những tài liệu được xem là thích
Tìm kiếm ngữ nghĩa dựa trên Ontology
hợp với câu truy vấn nhất theo một số tiêu chí đo lường thống kê. Một phương
pháp tiếp cận khác đang được các nhà nghiên cứu hết sức quan tâm là hướng
ngữ nghĩa hay hướng khái niệm. Hướng tiếp cận này cố gắng thực hiện việc
phân tích cú pháp và ngữ nghĩa, nói cách khác là cố gắng mô phỏng lại các cấp
độ hiểu của máy tính về các văn bản theo ngôn ngữ tự nhiên của con người.
1.3. Truy hồi thông tin hướng ngữ nghĩa
1.3.1. Xử lý ngôn ngữ tự nhiên
Trong các phần trước, ta đã tìm hiểu về các phương pháp truy hồi thông
tin theo hướng tiếp cận thống kê là Boole, VSM và xác suất. Theo hướng tiếp
cận này thì một tài liệu thường được biểu diễn dưới dạng một tập hợp các
từ khóa độc lập nhau. Đây được xem là một phương pháp phổ biến dùng
cho việc biểu diễn các tài liệu mà không xét đến hình thái của từ, thứ tự của
các từ hay vị trí xuất hiện của từ trong tài liệu cũng như các mối quan hệ ngữ
nghĩa giữa chúng, do đó cách biểu diễn này mang mức độ thông tin thấp và
nếu nhìn dưới góc nhìn của ngôn ngữ học thì đã không xử lý các biến thể về
mặt ngôn ngữ học của các từ như biến thể về hình thái học (morphological
variation), biến thể về từ vựng học (lexical variation), biến thể về ngữ nghĩa
học (semantical variation) và biến thể về cú pháp học (syntax variation). Biến
thể về hình thái học là các dạng khác nhau về mặt cấu trúc (hình dáng, thể
hiện bên ngoài) của một từ, ví dụ như các từ computer, computerize,
computers là các biến thể về hình thái học của từ computer. Hệ thống sẽ cho
kết quả không chính xác nếu đối xử với các biến thể này như các từ độc lập
nhau. Biến thể về từ vựng học là các từ khác nhau mang cùng một nghĩa, ví dụ
car, auto. Hệ thống sẽ không trả về các tài liệu có chứa từ auto mà không chứa
Tìm kiếm ngữ nghĩa dựa trên Ontology
từ car khi câu hỏi chỉ chứa từ car. Biến thể về ngữ nghĩa học là vấn đề một từ
đa nghĩa tùy vào ngữ cảnh, ví dụ từ bank có nhiều nghĩa như ngân hàng, bờ,
bãi ngầm, …Biến thể về cú pháp học là các các kết hợp khác nhau về mặt cú
pháp của cùng một nhóm từ sẽ mang các ý nghĩa khác nhau, ví dụ một tài
liệu chứa câu ‘near to the river, air pollution is a major problem’ thì không
liên quan gì đến ‘river pollution’ cả mặc dù cả hai từ đều có xuất hiện trong tài
liệu. Để nâng cao hiệu quả của các hệ tìm kiếm thông tin, người ta phải có
các giải thuật để xử lý các biến thể ngôn ngữ học như đã nêu:
Đối với các biến thiên về hình thái học người ta có hai cách để xử lý: cách
thứ nhất là mở rộng câu hỏi bằng cách thêm vào câu hỏi tất cả các biến thể
hình thái học của tất cả các từ có trong câu hỏi, cách thứ hai là chuẩn hoá các
biến thể hình thái học của một từ về một chuẩn chung (stemming), nghĩa là
khử các tiền tố và hậu tố thông thường của từ, trả về dạng gốc của mỗi từ. Ví
dụ như các từ computer, computed, computes, computerize sẽ được chuẩn hoá
thành là compute. Khi đó, người sử dụng không cần thiết phải đặc tả câu truy
vấn của mình theo một hình thái đặc biệt nào của từ mà anh ta tin rằng chúng
có thể xuất hiện bên trong tài liệu đang tìm kiếm.
Để
xử lý các biến thể về từ vựng học người ta hoặc là mở rộng câu hỏi
bằng cách thêm vào câu hỏi tất cả các từ đồng nghĩa có thể có của tất cả các từ
trong câu hỏi hoặc là xử lý ở giai đoạn so khớp bằng cách đưa ra các độ đo
khoảng cách của các khái niệm. Đối với cách thứ nhất chúng ta cần có một từ
điển đồng nghĩa, đối với cách thứ hai chúng ta phải xây dựng một tự điển từ
vựng trong đó có định nghĩa khoảng cách giữa
các từ.
Biến thể về ngữ nghĩa thường kết hợp chặt chẽ với biến thể về từ vựng
học. Để xử lý các biến thể này chúng ta cần một công đoạn xử lý sự đa nghĩa
của từ, hiệu năng của hệ thống tìm kiếm sẽ phụ thuộc vào kết quả của giai
Tìm kiếm ngữ nghĩa dựa trên Ontology
đoạn xử lý này.
Các kỹ thuật xử lý các biến thể về cú pháp học hay nói cụ thể hơn là xử lý
cấu trúc của một cụm từ có thể được chia làm hai loại: kỹ thuật lập chỉ
mục dựa vào các cụm từ và kỹ thuật lập chỉ mục là các cấu trúc cây phân tích
được từ các mệnh đề. Các kỹ thuật lập chỉ mục dựa trên cụm từ nhằm tăng
độ chính xác của hệ thống. Với giả định rằng khi dùng các cụm từ như các
chỉ mục thay cho các từ đơn thì độ chính xác sẽ tăng do cụm từ biểu diễn
chính xác hơn nội dung của tài liệu. Các hệ thống tìm kiếm dựa trên chỉ
mục là các cụm từ ngày càng thu hút nhiều nhóm nghiên cứu và vấn đề làm
thế nào để rút trích được các cụm từ một cách tự động từ tài liệu trở thành vấn
đề chính trong các hệ này. Các giải pháp rút trích cụm từ thường dựa vào hai
cách tiếp cận: tiếp cận dùng thông tin thống kê tần suất đồng xuất hiện hay
cách tiếp cận dựa vào tri thức về ngôn ngữ học. Cách tiếp cận thứ hai đòi hỏi
phải áp dụng nhiều kỹ thuật của lĩnh vực xử lý ngôn ngữ tự nhiên. Kỹ thuật
lập chỉ mục cấu trúc dựa vào các cấu trúc cây có được từ việc phân tích
các mệnh đề trong câu của tài liệu và quá trình so khớp là so khớp các cấu
trúc của câu hỏi với các cấu trúc của tài liệu. Cách tiếp cận này không thu hút
nhiều nhóm nghiên cứu do độ phức tạp của việc phân tích mệnh đề để xây
dựng cách cấu trúc cao nhưng lại không tăng được hiệu năng của hệ thống tìm
kiếm.
Ngoài ra, để khắc phục những hạn chế trong việc biểu diễn tài liệu từ
những mô hình truyền thống, nhiều nghiên cứu khác nhau đã nỗ lực thay đổi
cách biểu diễn cho tài liệu nhằm làm tăng hiệu quả trong biểu diễn và tìm
kiếm. Theo đó, một tài liệu vẫn được mô tả bởi các cặp <đặc trưng, trọng
số>, tuy nhiên những thành phần đặc trưng cho tài liệu không đơn thuần chỉ là
những từ hay cụm từ chính xác xuất hiện trong tài liệu mà đã được thiết kế lại,
Tìm kiếm ngữ nghĩa dựa trên Ontology
được chuẩn hóa theo một dạng thức biểu diễn phức tạp và hiệu quả hơn bằng
cách sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên. Những nghiên cứu
này hướng tới mục tiêu là xây dựng một phép biểu diễn dựa trên các khái
niệm hơn là các từ đơn lẻ cũng như cố gắng loại bỏ các vấn đề nhập nhằng
trong ngôn ngữ. Một số mô hình nổi tiếng có thể kể đến như:
Lemmas: các đặc trưng của tài liệu được chọn là các hình thái cơ bản
của từ như danh từ hay động từ. Như vậy, hệ thống sẽ chuẩn hóa các biến thể
về hình thái học của từ về một chuẩn chung và thay thế những từ có trong
tài liệu bởi hình thái cơ bản của chúng. Điều này sẽ làm tăng khả năng so
khớp giữa những từ có hình thái thể hiện khác nhau nhưng phản ánh cho
cùng một khái niệm.
Simple n-grams: một dãy các từ được lựa chọn bằng cách áp dụng kỹ
thuật thống kê. Hệ thống tiến hành khảo sát và thống kê các dãy bao gồm n từ
liên tiếp tùy ý (n - gram) có trong kho ngữ liệu. Như vậy, mỗi tài liệu sẽ
được chia thành những cấu trúc n – gram tương ứng. Những bộ lọc thống kê
dựa trên tần số xuất hiện của các n- gram trong kho ngữ liệu được áp dụng
để lựa chọn những ứng viên phù hợp nhất làm đặc trưng cho tài liệu.
Nouns Phrases: Những biểu thức chính qui (ví dụ như N
+
là một dãy
các danh từ liên kết với nhau theo một qui tắc cú pháp nhất định) dựa trên các
từ loại (danh từ, động từ và tính từ) có thể được sử dụng để chọn ra các cụm
từ dùng làm đặc trưng cho tài liệu và loại bỏ những kết hợp không khả thi.
Cụm từ được chọn bao gồm một từ chính (head) và các phụ ngữ hay từ bổ
nghĩa (modifier) đứng trước và sau nó.
Các bộ <head, modifier
1
, …, modifier
n
>: Những Bộ phân tích cú
pháp (parser)
được sử dụng để phát hiện và rút trích ra các quan hệ cú pháp
phức tạp như subject-verb-object từ trong văn bản. Một đặc tính thú vị là
Tìm kiếm ngữ nghĩa dựa trên Ontology
những bộ này có thể bao gồm những từ không liền kề nhau, tức là các thành
phần có thể là những từ vốn nằm cách nhau trong đoạn văn văn. Việc xây
dựng những cụm từ phức hợp này là nhằm cải thiện độ chính xác trong việc so
khớp giữa các khái niệm.
Semantic concepts: mỗi từ được thay thế bằng một đại diện cho nghĩa
của từ đó. Việc gán nghĩa cho một từ phụ thuộc vào định nghĩa của từ đó có
trong từ điển. Có hai cách xác định nghĩa của một từ. Thứ nhất, nghĩa của
từ có thể được trình bày, giải thích như trong một mục từ của từ điển giải
nghĩa thông thường. Thứ hai, nghĩa của từ có thể được suy ra thông qua những
từ khác có cùng nghĩa trong từ điển đồng nghĩa .
Tuy nhiên, cho đến nay thì những kết quả đạt được theo cách tiếp cận này
vẫn chưa có sự cải thiện đáng kể so với các phương pháp thống kê kể trên.
Nguyên nhân chính là do những mô hình biểu diễn mới cũng chỉ nắm bắt
được một phần nhỏ thông tin hơn so với mô hình truyền thống. Hơn nữa,
những lỗi xuất hiện trong quá trình rút trích tự động các khái niệm hay trong
quá trình xây dựng các mô hình biểu diễn có thể gây nhiễu và làm ảnh hưởng
đến tiến trình tìm kiếm.
1.3.2. Ontology
Ontology là bản mô tả tường minh các khái niệm trong một miền ứng dụng
nào đó và quan hệ giữa những khái niệm này cùng một số luật logic và suy
diễn, cho phép suy luận khái niệm mới từ các khái niệm đã có. Ontology cung
cấp từ vựng thống nhất cho việc trao đổi thông tin giữa các ứng dụng. Chi tiết
về ontology được trình bày trong phần 2.
Tìm kiếm ngữ nghĩa dựa trên Ontology
1.4. Đánh giá hệ thống truy hồi
Nhiều phương pháp đo đã được phát triển để đánh giá các mô hình truy hồi.
Tuy nhiên, không có phương pháp nào hoàn toàn đạt yêu cầu, bởi vì việc đánh
giá hiệu năng hệ thông truy hồi thì phụ thuộc vào người dùng và nhiều yếu tố
khác, trong khi kết quả của các phương pháp đo này chỉ là một giá trị đơn lẻ.
Hai độ đo cơ bản và phổ biến nhất là độ chính xác và độ bao phủ. Cho một
truy vấn q và tập các tài liệu thích hợp với nó là R. Cho A (tập trả lời) là tập
các tài liệu được trả về theo truy vấn q bởi hệ thống, và cho Ra là tập giao nhau
giữa R và A, tức là các tài liệu thích hợp có trong tập trả lời. Độ chính xác và
độ bao phủ được xác định như sau:
• Độ bao phủ - tỷ lệ số tài liệu thích hợp được truy hồi :
• Độ chính xác - tỷ lệ số tài liệu được truy hồi là thích hợp:
Độ chính xác và độ bao phủ cho một truy vấn
Giá trị của độ chính xác và bao phủ là giữa 0 và 1. Giá trị càng cao thì càng
tốt. Độ chính xác và bao phủ là các phép đo dựa trên tập hợp. Chúng đánh giá
chất lượng của tập tài liệu truy hồi không có thứ tự. Để đánh giá một danh sách
được xếp hạng, biểu đồ độ chính xác – bao phủ được sử dụng. Và thông