Tải bản đầy đủ (.pdf) (77 trang)

SO TRÙNG mờ các đồ THỊ TRI THỨC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.59 MB, 77 trang )


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA



HUỲNH TẤN ĐẠT



SO TRÙNG MỜ CÁC ĐỒ THỊ TRI THỨC

Chuyên ngành: Công nghệ thông tin
Mã số ngành: 01.02.10




LUẬN VĂN THẠC SĨ





TP. Hồ Chí Minh, tháng 07 năm 2005

So trùng mờ các đồ thị tri thức
Trang 1 / 77
LỜI CẢM ƠN

Trước hết, tôi xin gởi lời biết ơn chân thành sâu sắc đến Thầy Cao Hoàng Trụ, người


đã tận tình hướng dẫn, định hướng cho tôi từ phương pháp nghiên cứu khoa học đến cách
thức trình bày vấn đề trong suốt quá trình làm luận văn tốt nghiệp.
Tôi gởi lời cảm ơn đến các thành viên Huỳnh Ngọc Tuyên, Đỗ Thanh Hải trong nhóm
hiện thực hệ thống VNKIM đã hỗ trợ tôi về mặt kĩ thuật trong quá trình hiện thực đề tài.
Tôi xin gởi lời cảm ơn đến các tác giả của các bài báo mà tôi đã sử dụng để nghiên cứu
và tham khảo trong luận văn tốt nghiệp này.
Con xin cảm ơn ba mẹ đã động viên, khuyến khích con trong suốt quá trình làm luận
văn tốt nghiệp.

So trùng mờ các đồ thị tri thức
Trang 2 / 77
TÓM TẮT

Tri thức có thể được biểu diễn như là các đồ thị gồm các ý niệm và quan hệ giữa các ý
niệm. Luận văn này đưa ra một cách tiếp cận mới cho việc tìm kiếm ngữ nghĩa bằng cách so
trùng mờ các đồ thị tri thức dựa trên việc nghiên cứu độ đo về mặt ngữ nghĩa giữa hai kiểu ý
niệm, kiểu quan hệ và các ràng buộc thuộc tính trên kiểu ý niệm đó. Trong đó, chúng tôi dẫn
ra cách tính độ đo tương tự và bao phủ giữa các kiểu ý niệm, kiểu quan hệ dựa trên số lượng
thực thể của các kiểu ý niệm, kiểu quan hệ đó có trong cơ sở tri thức. Từ đó, chúng tôi tính
được độ đo tương tự và độ đo bao phủ giữa một đồ thị truy vấn và một kết quả.
Mặt khác, để tận dụng khả năng tìm kiếm có sẵn của hệ thống Sesame, công trình này
sử dụng kĩ thuật biến đổi truy vấn để tìm các đồ thị kết quả mà gần với đồ thị truy vấn của
người sử dụng. Điều đó có nghĩa là, tri thức sẽ được lưu dưới dạng các phát biểu RDF mà có
thể được xem là các đồ thị tri thức. Một đồ thị truy vấn mới sẽ được sinh ra thông qua kĩ thuật
biến đổi truy vấn và được sử dụng để truy vấn các đồ thị RDF kết quả. Những đồ thị RDF kết
quả mà được so trùng chính xác với đồ thị truy vấn vừa được biến đổi sẽ được so trùng với đồ
thị truy vấn ban đầu để tính toán các độ đo và trả về cho người sử dụng.
So trùng mờ các đồ thị tri thức
Trang 3 / 77
SUMMARY


Knowledge can be presented as graphs, including concepts and relations between
concepts. The work of this thesis proposes a new approach for semantic search engine by
fuzzy matching of knowledge graphs based on studying the semantic measures between
concept types, relation types and attribute value constraints. In this work, we derived the
similarity and subsumption degrees between concept types, relation types calculated from the
population of their entities in the knowledgebase. From these points, we propose the similarity
and subsumption degrees between a query and a result graph.
Moreover, in order to reuse the existing platform of Sesame, this work utilizes the
query modification tatic as a solution to retrieve the knowledge graphs which are similar to
user’s query knowledge graph. It means that knowledge is presented in RDF statements,
which are also knowledge graphs. Due to query modification technique, a new query
knowledge graph is generalized from user’s query graph and used for searching results. Then,
knowledge graphs retrieved from generalized knowledge graph will be matched with original
graph to calculate the measures and return to the user.
So trùng mờ các đồ thị tri thức
Trang 4 / 77
MỤC LỤC

LỜI CẢM ƠN 1
TÓM TẮT 2
SUMMARY 3
MỤC LỤC 4
DANH MỤC CÁC HÌNH 5
DANH MỤC CÁC BẢNG 6
1 - PHÁT BIỂU VẤN ĐỀ 7
2 - CƠ SỞ LÝ THUYẾT 10
2.1 - Ngôn ngữ truy vấn đồ thị tri thức 10
2.1.1 Sesame và SeRQL 10
2.1.2 Đồ thị ý niệm 13

2.2 - Độ tương tự giữa các từ 15
2.2.1 Hướng tiếp cận dựa trên kho ngữ liệu 15
2.2.2 Hướng tiếp cận dựa trên ontology 17
2.3 - Độ đo giữa các chuỗi 25
2.3.1 Các độ đo dựa trên chuỗi 25
2.3.2 Các độ đo dựa trên token 27
3 - CÁC ĐỘ ĐO GIỮA HAI ĐỒ THỊ TRI THỨC 32
3.1 - Độ tương tự giữa các kiểu thực thể 32
3.2 - Độ bao phủ giữa các kiểu thực thể 35
3.3 - Độ bao phủ giữa các tên thực thể 37
3.4 - Độ đo giữa đồ thị truy vấn và kết quả 39
4 - THIẾT KẾ VÀ HIỆN THỰC GIẢI THUẬT SO TRÙNG MỜ ĐỒ THỊ TRI THỨC 42
4.1 - Kĩ thuật biến đổi truy vấn 42
4.2 - Ánh xạ đồ thị ý niệm truy vấn sang ngôn ngữ truy vấn SeRQL 50
4.3 - Giải thuật so trùng mờ các đồ thị ý niệm 57
5 - ĐÁNH GIÁ 64
6 - KẾT LUẬN 71
7 - HƯỚNG MỞ RỘNG 72
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 73
TÀI LIỆU THAM KHẢO 74
So trùng mờ các đồ thị tri thức
Trang 5 / 77
DANH MỤC CÁC HÌNH

Hình 1: Đồ thị RDF cho truy vấn SeRQL 13
Hình 2: Minh họa về đồ thị ý niệm 14
Hình 3: Minh họa ý niệm chung thấp nhất của hai ý niệm 20
Hình 4: Minh họa ý tưởng của Jiang-Conrath 23
Hình 5: Ví dụ minh họa ý tưởng của Jaro 27
Hình 6: Sự phân cấp các kiểu ý niệm trong ontology 32

Hình 7: Sự so sánh giữa độ tương tự và độ bao phủ giữa hai kiểu thực thể 36
Hình 8: Ví dụ về đồ thị ý niệm truy vấn 40
Hình 9: Một ví dụ đồ thị ý niệm truy vấn 41
Hình 10: Một đồ thị ý niệm kết quả 41
Hình 11: Một trường hợp dùng kĩ thuật biến đổi truy vấn 43
Hình 12: Kết quả một trường hợp dùng kĩ thuật biến đổi truy vấn 43
Hình 13: Ví dụ minh họa giải thuật biến đổi truy vấn 47
Hình 14: Đồ thị ý niệm truy vấn mới sau khi dùng giải thuật biến đổi truy vấn 49
Hình 15: Giải thuật so trùng mờ đồ thị tri thức 58
Hình 16: Minh họa bảng kết quả trả về khi thực hiện truy vấn SeRQL 59
Hình 17: Một truy vấn của công cụ soạn thảo đồ thị ý niệm truy vấn 65
Hình 18: Ví dụ minh họa các kết quả tìm kiếm bằng giải thuật so trùng mờ 66
Hình 19: Ví dụ minh họa các kết quả tìm kiếm bằng giải thuật so trùng mờ (tiếp theo) 67
Hình 20: Ví dụ minh họa kết quả tìm kiếm các thực thể có tên trong đồ thị truy vấn 68

So trùng mờ các đồ thị tri thức
Trang 6 / 77
DANH MỤC CÁC BẢNG

Bảng 1: Bảng mô tả sự ánh xạ giữa các kiểu thực thể trong đồ thị ý niệm truy vấn ở hình 13 và các
kiểu thực thể mới sau khi thực thi bước biến đổi truy vấn 48

Bảng 2: Bảng lưu trữ các biến trong truy vấn SeRQL của ví dụ ở hình 13 56

So trùng mờ các đồ thị tri thức
Trang 7 / 77
1 - PHÁT BIỂU VẤN ĐỀ
Như chúng ta đã biết, ngày nay cùng với sự bùng nổ và phát triển nhanh chóng của
World Wide Web, Internet lưu trữ mọi tài nguyên thông tin chia sẻ trên toàn cầu. Vấn đề đặt
ra là làm thế nào để có thể khai thác và sử dụng tài nguyên đó một cách hiệu quả trong khi dữ

liệu được lưu trữ trên Web là bán cấu trúc và việc tìm kiếm dữ liệu chỉ dựa vào việc so trùng
các từ khóa mà không sử dụng ngữ nghĩa là không chính xác. Do đó, một cách tiếp cận mới
để có thể biểu diễn, tổ chức thông tin, và xây dựng nên một mô hình tìm kiếm thích hợp là
điều cần thiết.
Một dạng chuẩn cho việc biểu diễn nội dung, thông tin của các tài liệu và ngữ nghĩa tri
thức trên Web là dùng các phát biểu RDF (Resource Description Framework), mà trong đó,
các phát biểu có thể xem như là các đồ thị. Từ đó, các hệ thống quản lý thông tin và tri thức
dần dần xuất hiện. Cụ thể là Sesame ([14]) với ngôn ngữ truy vấn SeRQL ([23]) cho việc lưu
trữ và truy vấn các đồ thị RDF. Tất cả chúng đều là mã nguồn mở và đã được sử dụng trong
các hệ thống lớn.
Công trình mà chúng tôi đang nghiên cứu và hiện thực cũng sử dụng các phát biểu RDF
để lưu trữ và biểu diễn tri thức, đồng thời sử dụng Sesame và ngôn ngữ truy vấn mạnh, cho
phép tìm kiếm chính xác của nó là SeRQL để quản lý và truy vấn các đồ thị RDF. Một đồ thị
RDF bao gồm các kiểu ý niệm, kiểu quan hệ và các ràng buộc về giá trị thuộc tính trên kiểu ý
niệm. Trong đó, các kiểu ý niệm, kiểu quan hệ được định nghĩa trong một mạng phân cấp
ontology. Do đó, mục tiêu của luận văn này là đưa ra cách tiếp cận mới cho việc tìm kiếm
theo ngữ nghĩa bằng cách so trùng mờ các đồ thị tri thức dựa trên việc nghiên cứu các độ đo
khoảng cách ngữ nghĩa giữa các kiểu ý niệm, giữa các kiểu quan hệ và các độ đo giữa các giá
trị thuộc tính.
Mục tiêu đặt ra của công trình đã hướng chúng tôi nỗ lực nghiên cứu các độ đo giữa các
ý niệm, mà cụ thể là nghiên cứu các độ đo giữa các từ của các công trình trước đây mà cách
tiếp cận được phân chia làm hai hướng chính, gồm cách tiếp cận dựa trên tập ngữ liệu và cách
tiếp cận dựa trên ontology. Trong cách tiếp cận dựa trên tập ngữ liệu, khoảng cách ngữ nghĩa
giữa các từ đại diện cho các ý niệm và các quan hệ được xác định dựa trên sự đồng xuất hiện
của chúng trong các ngữ cảnh khác nhau trong một tập ngữ liệu. Trong cách tiếp cận dựa trên
ontology, khoảng cách về mặt ngữ nghĩa được xác định dựa trên các mạng ngữ nghĩa gắn liền
với sự liên hệ giữa các từ. Tuy nhiên, các phương pháp theo các cách tiếp cận trên không thể
So trùng mờ các đồ thị tri thức
Trang 8 / 77
áp dụng được cho các nhãn kiểu không có ý nghĩa bởi vì chúng đều dựa trên sự xuất hiện thực

sự và ý nghĩa của các từ có trong một tập ngữ liệu.
Cơ sở tri thức của công trình mà chúng tôi nghiên cứu được xây dựng dựa trên
ontology, gồm các nhãn kiểu ý niệm và nhãn kiểu quan hệ. Do đó, để thực hiện việc tính
khoảng cách ngữ nghĩa giữa các ý niệm được đại diện bởi các nhãn kiểu ý niệm và nhãn kiểu
quan hệ đó, chúng tôi thực hiện việc sửa đổi công thức tính khoảng cách ngữ nghĩa giữa các
từ dựa trên mạng phân cấp ontology của Jiang-Conrath ([13]). Cụ thể như sau, thay vì tính
xác suất xuất hiện của các từ trong công thức dựa trên một tập ngữ liệu, chúng tôi dẫn ra xác
suất xuất hiện của các kiểu ý niệm hoặc kiểu quan hệ được tính dựa trên số lượng thực thể của
kiểu ý niệm hoặc kiểu quan hệ đó có trong cơ sở tri thức của công trình đang làm.
Mặt khác, các độ đo khoảng cách ngữ nghĩa trên là độ đo tương tự giữa hai kiểu ý niệm,
kiểu quan hệ. Đó là các độ đo đối xứng. Điều này hướng chúng tôi đến việc nghiên cứu các
độ đo bất đối xứng. Bởi vì trên thực tế, chúng ta có thể cần đo và tính xem một đồ thị truy vấn
bao phủ một đồ thị kết quả một giá trị là bao nhiêu. Trong công trình, chúng tôi đưa ra một độ
đo bao phủ bất đối xứng cho các kiểu thực thể cũng dựa trên nền tảng xác suất của độ đo
khoảng cách ngữ nghĩa của Jiang-Conrath.
Ngoài việc nghiên cứu các độ đo giữa các từ của các công trình trước đây để đưa ra
phương pháp mới cho công trình của mình, chúng tôi còn tiến hành nghiên cứu các độ đo giữa
các giá trị thuộc tính. Trong công trình của luận văn, chúng tôi giới hạn chỉ nghiên cứu các độ
đo giữa các giá trị thuộc tính chuỗi là tên của thực thể. Các cách tiếp cận của các công trình
trước đây về độ đo giữa các chuỗi được chia làm hai phương pháp, gồm phương pháp đo
chuỗi tĩnh và phướng pháp đo chuỗi dựa trên các token. Trong công trình này, chúng tôi áp
dụng phương pháp SoftTF-IDF ([1]), là phương pháp đo lai ghép giữa phương pháp đo chuỗi
tĩnh và phương pháp đo dựa trên token cho việc tính độ đo giữa các thuộc tính chuỗi là tên
thực thể.
Nếu xét về khía cạnh hiện thực, việc tiến hành triển khai xây dựng một hệ thống rút
trích xấp xỉ các đồ thị tri thức ngay từ ban đầu là công việc khó khăn, đòi hỏi nhiều thời gian
và công sức. Vì vậy, chúng tôi sử dụng kĩ thuật biến đổi truy vấn như là một giải pháp chiến
lược, đồng thời sử dụng lại các chức năng so trùng có sẵn của Sesame và ngôn ngữ truy vấn
của nó là SeRQL cho việc quản lý và so trùng chính xác các đồ thị tri thức.
Điều đó có nghĩa là, tri thức sẽ được lưu dưới dạng các phát biểu RDF mà có thể được

xem là các đồ thị tri thức có trong cơ sở tri thức được quản lý bởi hệ thống Sesame. Một đồ
So trùng mờ các đồ thị tri thức
Trang 9 / 77
thị truy vấn mới sẽ được sinh ra thông qua kĩ thuật biến đổi truy vấn và được sử dụng để truy
vấn các đồ thị RDF kết quả thông qua ngôn ngữ SeRQL. Những đồ thị RDF kết quả mà được
so trùng chính xác với đồ thị truy vấn vừa được biến đổi sẽ được so trùng với đồ thị truy vấn
ban đầu để tính toán các độ đo tương tự và bao phủ và trả kết quả về cho người sử dụng.
So trùng mờ các đồ thị tri thức
Trang 10 / 77
2 - CƠ SỞ LÝ THUYẾT
2.1 - Ngôn ngữ truy vấn đồ thị tri thức
2.1.1 Sesame và SeRQL
RDF cùng với định dạng cấu trúc của nó là RDF Schema (RDFS) là một dạng chuẩn
cho việc biểu diễn nội dung, thông tin của các tài liệu và ngữ nghĩa tri thức trên Web. Do đó,
chúng ta cần có một hệ thống hữu hiệu để có thể quản lý lưu trữ, truy vấn, sử dụng một cách
hiệu quả các tri thức và thông tin được lưu trữ dưới dạng các phát biểu RDF và RDFS này.
Sesame là một hệ thống như vậy với mã nguồn mở, được viết bằng ngôn ngữ lập trình Java,
cho phép lưu trữ, truy vấn và suy diễn trên dữ liệu RDF và RDFS. Ngoài ra, Sesame còn cung
cấp các công cụ cho phép phân tích cú pháp, thông dịch, truy vấn, quản lý lưu trữ thông tin
RDF và RDFS, cung cấp thư viện nhúng vào trong các ứng dụng hoặc có thể làm việc từ xa
với nhiều giao thức giao tiếp khác nhau như HTTP, RMI, và SOAP.
Cùng với sự xuất hiện với chuẩn RDF và RDFS, nhiều ngôn ngữ truy vấn RDF và
RDFS đã ra đời như RQL và RDQL. Tuy nhiên, các ngôn ngữ này vẫn còn thiếu khả năng
biểu diễn biểu thức đường dẫn đủ mạnh để có thể đơn giản biểu thức truy vấn. Vì vậy,
Sesame đưa ra một ngôn ngữ SeRQL (Sesame RDF Query Language) như là một ngôn ngữ
RDF và RDFS mới, thừa hưởng tất cả các đặc điểm tốt của RQL và RDQL, và hỗ trợ một số
đặc điểm mới mạnh hơn. SeRQL cũng hỗ trợ khả năng bao phủ (subsumption), nghĩa là một
kiểu ý niệm hoặc một quan hệ trong câu truy vấn có thể so trùng (match) được với các kiểu
con của nó trong cơ sở tri thức.
Thành phần cơ bản của truy vấn SeRQL là các URI (univeral resource identifiers),

hằng, và biến. Một URI trong Sesame có thể được viết dưới hai dạng, hoặc là URI đầy đủ, ví
dụ, ta có < là danh hiệu
URI của thực thể quốc gia Việt Nam trong cơ sở tri thức, hoặc ta có thể viết ở dạng URI viết
tắt là <vnkimkb_rdf:Quốc_gia_1>. Trong trường hợp viết tắt, tiếp đầu ngữ vnkimkb_rdf sẽ
được ánh xạ thành chuỗi đầy đủ là tự
động bởi hệ thống tìm kiếm Sesame. Các thuộc tính của các đối tượng mang giá trị hằng
thuộc các kiểu dữ liệu cơ bản như số thực, số nguyên, chuỗi, Các biến đại diện cho các
danh hiệu URI của các đối tượng hoặc các giá trị thuộc tính của đối tượng mà chúng ta muốn
có và được chỉ ra trong câu truy vấn thông qua các tên biến.
So trùng mờ các đồ thị tri thức
Trang 11 / 77
Sau đây là một ví dụ về ngôn ngữ truy vấn SeRQL. Câu truy vấn sau có ý nghĩa là “Tìm
tất cả các thành phố cấp một được định vị ở quốc gia Việt Nam”.
SELECT CityID, CityLabel
FROM
{CityID} <rdfs:label> {CityLabel},
{CityID} <rdf:type> {<
{CityID} <
{<
Trong câu truy vấn trên, CityID và CityLabel lần lượt là các biến đại diện cho danh hiệu URI
và nhãn của các đối tượng có trong kết quả sẽ được trả về từ câu truy vấn.
Các câu truy vấn chọn của ngôn ngữ SeRQL được xây dựng từ bốn mệnh đề cơ bản chủ
yếu, gồm SELECT, FROM, WHERE, và USING NAMESPACE. Mệnh đề SELECT được
sử dụng để xác định các biến nào phải được trả kết quả về theo đúng thứ tự đã liệt kê. Mệnh
đề FROM chứa các biểu thức đường dẫn sẽ được so trùng vào trong cơ sở tri thức để tìm
kiếm kết quả. Mệnh đề WHERE biểu diễn các ràng buộc trên các giá trị của các biến. Cuối
cùng, mệnh đề USING NAMESPACE được dùng để khai báo các không gian tên được sử
dụng cho việc ánh xạ các URIs được viết tắt.
Ví dụ, truy vấn SeRQL viết đầy đủ cho truy vấn “Tìm tất cả các công ty tin học và dịch
vụ tin học ở Việt Nam mà có số nhân viên lớn hơn 100 người” là:

SELECT x1, z1, p1
FROM
{x1} <rdfs:label> {z1},
{x1} <rdf:type> {<vnkimo_rdfs:Tin_học_và_dịch_vụ_tin_học>},
{x1} <vnkimo_rdfs:số_lượng_nhân_viên> {p1},
{x1} <vnkimo_rdfs:được_định_vị_ở> {<vnkimkb_rdf:Quốc_gia_1>}
WHERE
p1 > "100"^^ <xsd:positiveInteger>
USING NAMESPACE
rdf = <
rdfs = <
vnkimo_rdfs = <
vnkimkb_rdf = <
Trong đó, biến x1, z1 có trong mệnh đề SELECT lần lượt đại diện cho danh hiệu URI của đối
tượng cụ thể thuộc lớp các công ty tin học và dịch vụ tin học có trong kết quả sẽ được trả về
khi sử dụng câu truy vấn trên để truy vấn cơ sở tri thức. Biến p1 đại diện cho giá trị thuộc tính
số lượng nhân viên của đối tượng công ty tương ứng có danh hiệu URI được chỉ ra ở biến x1.
So trùng mờ các đồ thị tri thức
Trang 12 / 77
Mệnh đề FROM chứa các biểu thức đường dẫn lần lượt mô tả rằng đối tượng có danh hiệu
được đại diện bởi biến x1 có nhãn được đại diện bởi biến z1, đối tượng có danh hiệu được đại
diện bởi biến x1 đó thuộc lớp <vnkimo_rdfs:Tin_học_và_dịch_vụ_tin_học>, đối tượng có
danh hiệu x1 có thuộc tính <vnkimo_rdfs:số_lượng_nhân_viên> có giá trị được đại diện
bởi biến p1, và cuối cùng, đối tượng có danh hiệu x1 có quan hệ
<vnkimo_rdfs:được_định_vị_ở> với đối tượng có danh hiệu URI trong cơ sở tri thức là
<vnkimkb_rdf:Quốc_gia_1>. Mệnh đề WHERE trong ví dụ trên chỉ ra rằng biến p1 bị ràng
buộc về giá trị phải lớn hơn một số nguyên là 100.
Một đặc điểm nổi bật của SeRQL so với các ngôn ngữ truy vấn RDF / RDFS khác là nó
cho phép các biểu thức mô tả không giới hạn chiều dài. Ví dụ, biểu thức đường dẫn trong
mệnh đề FROM của ngôn ngữ SeRQL cho truy vấn “Tìm tất cả các thành phố cấp một ở quốc

gia có tên là Việt Nam” có thể như sau:
{CityID} <rdf:type> {<vnkimo_rdfs:Thành_phố_cấp_một>},
{CityID} <vnkimo_rdfs:được_định_vị_ở> {CountryID},
{CountryID} <rdf:type} {<vnkimo_rdfs:Quốc_gia>},
{CountryID} rdfs:label {“Việt Nam”}
Biểu thức đường dẫn thứ hai, thứ ba và thứ tư trong truy vấn trên có thể được kết hợp và được
viết lại như biểu thức đường dẫn có chiều dài bằng hai như sau: {CityID}
<vnkimo_rdfs:được_định_vị_ở> {CountryID} <rdfs:label> {“Việt Nam”}.
Ngoài ra, SeRQL còn hỗ trợ khả năng viết tắt nhằm làm đơn giản câu truy vấn. Khi một
đối tượng có nhiều quan hệ với các đối tượng khác, thay vì phải lặp lại các đối tượng đó ở
nhiều biểu thức đường dẫn khác nhau, SeRQL cho phép biểu diễn các biểu thức đường dẫn
mà sử dụng chung một đối tượng bằng cách sử dụng dấu chấm phẩy. Chẳng hạn, biểu thức
đường dẫn cho ví dụ “Tìm tất cả các thành phố cấp một ở quốc gia có tên Việt Nam” có thể
được viết tắt như sau:

{CityID} <rdf:type> {<vnkimo_rdfs:Thành_phố_cấp_một>} ; <vnkimo_rdfs:được_định_vị_ở>
{CountryID},
{CountryID} <rdf:type} {<vnkimo_rdfs:Quốc_gia>} ; {CountryID} rdfs:label {“Việt Nam”}
Trong SeRQL, ta có thể biểu diễn biểu thức đường dẫn trong mệnh đề FROM thành
một đồ thị. Trong đó, các nút và các cạnh của đồ thị biểu diễn biểu thức đường dẫn có thể là
các biến, URI, hoặc hằng. Trong ví dụ trên, ta có CityID và CountryID là các biến, “Việt
Nam” là hằng, <vnkimo_rdfs:Thành_phố_cấp_một> và <vnkimo_rdfs:Quốc_gia> là các
URIs. Biểu thức đường dẫn của truy vấn SeRQL này có thể được minh họa như là một đồ thị
ở hình 1.
So trùng mờ các đồ thị tri thức
Trang 13 / 77


Hình 1: Đồ thị RDF cho truy vấn SeRQL


Như vậy, biểu thức đường dẫn của ngôn ngữ truy vấn SeRQL có thể được xem như là
một đồ thị. Tất cả các phát biểu RDF trong kho dữ liệu tri thức cũng có thể được xem như một
đồ thị. Điều này dẫn đến việc tìm kiếm các kết quả khi truy vấn với ngôn ngữ SeRQL có thể
xem như việc so trùng các đồ thị truy vấn chứa biểu thức đường dẫn với các đồ thị RDF trong
kho dữ liệu đó.
Tuy nhiên, ngôn ngữ truy vấn SeRQL lại không thân thiện với người sử dụng bình
thường bởi vì bản thân nó là một ngôn ngữ có quy định rõ các quy tắc, ràng buộc về mặt từ
vựng cũng như về mặt cú pháp. Điều này dẫn đến việc những người sử dụng không chuyên về
mặt kĩ thuật sẽ gặp khó khăn khi muốn thực hiện một truy vấn trên cơ sở tri thức bằng ngôn
ngữ SeRQL. Do đó, chúng ta có thể cần đến một phương tiện khác để có thể biểu diễn thông
tin, ngữ nghĩa cần truy vấn của người sử dụng.
Mặt khác, chúng ta lại có đồ thị ý niệm là một cách biểu diễn thông tin, tri thức hiệu
quả, dễ đọc, trực quan, và thân thiện với người sử dụng. Bên cạnh đó, theo ([31]), có một sự
ánh xạ tương ứng giữa đồ thị ý niệm và đồ thị RDF. Điều này dẫn đến việc nghiên cứu sử
dụng đồ thị ý niệm như là công cụ truy vấn ở mức giao diện người dùng như ở công trình
[28]. Trong phần tiếp theo sau, chúng tôi sẽ trình bày các khái niệm cơ bản về đồ thị ý niệm.
2.1.2 Đồ thị ý niệm
Định nghĩa: Một đồ thị ý niệm là một đồ thị gồm các đỉnh ý niệm được nối xen kẽ với
các đỉnh quan hệ thông qua các cạnh. Mỗi đỉnh ý niệm được vẽ bằng hình chữ nhật, được đặt
nhãn bởi một cặp kiểu ý niệm (concept type) và giá trị tham khảo của ý niệm (concept
referent). Mỗi đỉnh ý niệm biểu diễn cho một thực thể lần lượt có kiểu là thành phần kiểu ý
niệm được chỉ ra và có giá trị là giá trị tham khảo được chỉ ra trong đỉnh ý niệm. Mỗi đỉnh
quan hệ được vẽ bởi một hình tròn hoặc elip và được gán nhãn bởi một kiểu quan hệ biểu diễn
<rdf:type>
<rdf:type>
CityID
<vnkimo_rdfs:Thành_phố_cấp_một>
CountryID
“Việt Nam”
<vnkimo_rdfs:Quốc_gia>

<vnkimo_rdfs:được_định_vị_ở>
<rdfs:label>
So trùng mờ các đồ thị tri thức
Trang 14 / 77
cho một quan hệ của các thực thể của các đỉnh ý niệm nối với nó. Các ý niệm được kết nối với
cùng một quan hệ được gọi là các ý niệm láng giềng (neighbour concepts) của quan hệ đó.
Hình 2 sau đây là một ví dụ về đồ thị ý niệm mô tả một câu có nghĩa là “Casumina là
một công ty được định vị ở một quốc gia thuộc Châu Á”.


Hình 2: Minh họa về đồ thị ý niệm

Trong ví dụ trên, [Công_ty:Casumina], [Quốc_gia:*], [Lục_địa:Châu_á] là các ý
niệm có là các kiểu ý niệm lần lượt là Công_ty, Quốc_gia, Lục_địa, trong khi đó,
(được_định_vị_ở) và (là_một_phần_của) là các quan hệ có các kiểu quan hệ lần lượt là
được_định_vị_ở và là_một_phần_của. Các giá trị tham khảo Casumina và Châu_á của
các ý niệm [Công_ty:Casumina] và [Lục_địa:Châu_á] là các thành phần cụ thể (individual
markers
). Thành phần tham khảo * của ý niệm [Quốc_gia:*] là thành phần tổng quát (generic
marker) biểu diễn một thực thể mà không cần chỉ ra cụ thể. Hai ý niệm với hai thành phần cụ
thể khác nhau là khác nhau.
Mỗi kiểu quan hệ có sự quy định trước về bậc của nó, tức số lượng các kiểu ý niệm
tham gia vào quan hệ, và chỉ rõ các kiểu ý niệm tham gia vào quan hệ có kiểu đó. Tóm lại,
chúng ta có thể xem một kiểu quan hệ là một kiểu mà mỗi bộ thực thể của kiểu quan hệ đó
nhận các đối số là các kiểu ý niệm được chỉ ra trong kiểu quan hệ.
Trong ví dụ trước, kiểu quan hệ được_định_vị_ở có bậc là hai và có các kiểu đối số
lần lượt là Đối_tượng và Nơi_chốn. Khi đó, kiểu ý niệm Đối_tượng được gọi là kiểu ý
niệm miền (domain) của kiểu quan hệ được_định_vị_ở, kiểu ý niệm Nơi_chốn được gọi là
kiểu ý niệm đích (range) của kiểu quan hệ được_định_vị_ở. Các cạnh có nhãn 1 và 2 nối với
quan hệ này lần lượt sẽ là các kiểu con tương ứng của Đối_tượng và Nơi_chốn. Cụ thể,

trong ví dụ minh họa ở hình 2, kiểu ý niệm Công_ty là kiểu ý niệm con của kiểu ý niệm
Đối_tượng và kiểu ý niệm Quốc_gia là con của kiểu ý niệm Nơi_chốn.
Khi đó, một đồ thị ý niệm là đúng đắn (well-typed) nếu như tất cả các quan hệ có trong
đồ thị đều được thỏa mãn ràng buộc về kiểu ý niệm domain và range của nó. Nghĩa là, ta sẽ
có đồ thị ý niệm sau
[Công_ty:Casumina] → (được_định_vị_ở) → [Quốc_gia:*] là đúng
So trùng mờ các đồ thị tri thức
Trang 15 / 77
đắn, nhưng đồ thị ý niệm [Công_ty:Casumina] → (được_định_vị_ở) →
[Tổ_chức_thương_mại:*] là không đúng vì kiểu ý niệm Tổ_chức_thương_mại không
phải là một kiểu ý niệm con của kiểu ý niệm Nơi_chốn.
2.2 - Độ tương tự giữa các từ
Mục tiêu của luận văn là nghiên cứu các độ đo mờ giữa hai đồ thị tri thức dựa trên các
khoảng cách về ngữ nghĩa giữa các kiểu ý niệm và giữa kiểu quan hệ có trong hai đồ thị. Do
đó, điều cần thiết là phải tiến hành nghiên cứu các độ đo của các công trình nghiên cứu trước
đây về khoảng cách ngữ nghĩa giữa các khái niệm, mà cụ thể là khoảng cách ngữ nghĩa giữa
các từ.
Khoảng cách ngữ nghĩa hoặc độ đo tương tự nhau về ngữ nghĩa ý nói đến sự khác nhau
hoặc tương tự nhau giữa các biểu thức ngữ nghĩa như các ý niệm, các từ, các thuật ngữ, các
câu, hoặc các đoạn. Các công trình nghiên cứu trước đây chủ yếu là tính khoảng cách ngữ
nghĩa giữa các từ (words) hoặc các thuật ngữ (terms). Các nghiên cứu này chủ yếu tập trung
vào hai hướng tiếp cận như sau:
+ Hướng tiếp cận dựa trên kho ngữ liệu.
+ Hướng tiếp cận dựa trên ontology.
Dựa vào số lượng tri thức mà hệ thống giả định trước cho việc tính toán độ đo giữa hai
ý niệm, phương pháp tiếp cận dựa trên kho ngữ liệu còn gọi là phưong pháp nghèo tri thức
(knowledge-poor), và phương pháp dựa trên ontology còn gọi là phương pháp giàu tri thức
(knowledge-rich).
2.2.1 Hướng tiếp cận dựa trên kho ngữ liệu
Với cách tiếp cận của các phương pháp dựa trên kho ngữ liệu, người ta tiến hành khảo

sát các mối liên hệ giữa các từ có trong kho ngữ liệu (corpus). Cách tiếp cận này không sử
dụng tri thức được giả định trước cho việc tính toán. Các tính chất đặc trưng của kĩ thuật này
là:
+ Không đòi hỏi phải có trước miền tri thức.
+ Không có thông tin ngữ nghĩa đính kèm theo.
+ Không có tài nguyên tĩnh như từ điển, hoặc từ đồng nghĩa đi kèm theo.
Ý tưởng của cách tiếp cận này là những từ giống nhau sẽ được sử dụng trong các ngữ
cảnh giống nhau, và ngữ cảnh giống nhau sẽ sử dụng các từ giống nhau. Tóm lại, sự phân bố
So trùng mờ các đồ thị tri thức
Trang 16 / 77
của sự đồng xuất hiện của các từ trong các ngữ cảnh khác nhau sẽ được sử dụng để đánh giá,
ước lượng khoảng cách ngữ nghĩa giữa các từ ([3], [4], [8]). Kĩ thuật này cố gắng nỗ lực để
rút ra tần suất xuất hiện của các từ có trong các ngữ cảnh khác nhau để tính toán độ giống
nhau giữa các từ. Hay nói chính xác hơn, độ giống nhau được tính vào các ngữ cảnh mà các
từ đó chia sẻ hoặc không, cũng như sự quan trọng của các ngữ cảnh này đối với mỗi từ. Các
từ cùng chia sẻ một số lượng lớn ngữ cảnh thì được xem là giống nhau.
Một cách tính độ đo dựa trên hướng tiếp cận này là một nhóm các từ được chọn là các
từ đặc trưng với các giải thuật hiệu quả như thông tin tương hỗ hoặc qua thống kê. Sau đó,
ngữ cảnh cục bộ của mỗi từ sẽ sinh ra vector đặc trưng của nó. Khi đó, mỗi từ được đại diện
bởi một vector mà mỗi thành phần của vector là số lần mà từ đó đồng xuất hiện với từ khác
cho trước có trong một tập ngữ liệu. Sau đó, độ giống nhau giữa các từ được tính bằng cách
sử dụng phép tính khoảng cách vector (ví dụ như cosin của góc tạo bởi hai vector).
Các ngữ cảnh được phân chia theo hai cách khác nhau. Do đó, tiếp cận này cũng được
phân chia làm hai kĩ thuật khác nhau:
+ Kĩ thuật dựa trên các cửa sổ (windows-based techniques).
+ Kĩ thuật dựa trên cú pháp (syntactic-based techniques).

• Kĩ thuật dựa trên các cửa sổ
Kĩ thuật dựa trên các cửa sổ xét một số lượng từ nhất định chung quanh một từ cụ thể,
gọi là một văn bản cửa sổ (window text) của từ đó, hoặc là ngữ cảnh của từ đó. Một văn bản

cửa sổ có thể là một nhóm từ, một câu, hoặc có thể là một đoạn. Đối với kĩ thuật này, các
thông tin ngôn ngữ về từ loại, các nhóm cú pháp không được sử dụng để biểu diễn cho ngữ
cảnh của từ.
• Kĩ thuật dựa trên cú pháp
Ngược lại với kĩ thuật dựa trên cửa sổ, kĩ thuật dựa trên cú pháp đòi hỏi các thông tin
ngôn ngữ cụ thể để chỉ ra ngữ cảnh của từ. Trước hết, nó đòi hỏi phải có từ loại cho mỗi từ
trong kho ngữ liệu. Sau đó, kho ngữ liệu đã được gắn từ loại đó sẽ được phân đoạn thành các
nhóm từ cơ bản. Cuối cùng, một số kĩ thuật heuristic đơn giản sẽ được áp dụng cho mối quan
hệ giữa các nhóm từ đó. Mỗi khi quá trình phân tích cú pháp được thực hiện, mỗi từ trong văn
bản được gắn với một tập các ngữ cảnh cú pháp. Sau đó, một phương pháp thống kê tần suất
của các ngữ cảnh dùng chung được thực hiện để xác định các từ tương tự nhau.
So trùng mờ các đồ thị tri thức
Trang 17 / 77
Trong cả hai kĩ thuật dựa trên cửa sổ và dựa trên cú pháp, các từ sẽ được so sánh với
nhau về mặt phân bố ngữ cảnh của chúng. Sự phân tích cú pháp mở ra dãy các ngữ cảnh chính
xác hơn so với kĩ thuật dựa trên cửa sổ. Khi ngữ cảnh cú pháp thể hiện các phụ thuộc của
ngôn ngữ gắn liền với các mối quan hệ ngữ nghĩa cụ thể, chúng được xem như là các manh
mối cho việc nhận dạng các từ có quan hệ nhau về mặt ngữ nghĩa.
Đối với hướng tiếp cận dựa trên kho ngữ liệu, khi ngữ cảnh cú pháp được định nghĩa
theo các cách khác nhau, chúng ta sẽ có các cách tiếp cận dựa trên cú pháp khác nhau. Mặt
khác, cách tiếp cận dựa trên kho ngữ liệu cho phép tự do về mặt tri thức và không phụ thuộc
vào miền mà ta đang sử dụng. Tuy nhiên, cách tiếp cận này bỏ qua các mối liên hệ về mặt ngữ
nghĩa của các từ trong ngữ nghĩa của ngôn ngữ tự nhiên.
2.2.2 Hướng tiếp cận dựa trên ontology
Khác với hướng tiếp cận dựa trên kho ngữ liệu, hướng tiếp cận dựa trên ontology sử
dụng tất cả các tri thức ngữ nghĩa được định nghĩa trước, cụ thể là sự phân loại từ (taxonomy).
Cách tiếp cận này còn gọi là cách tiếp cận dựa trên tài nguyên từ vựng (lexical resource
based). Trong cách tiếp cận này, các tài nguyên từ vựng được xây dựng thành một mạng hoặc
một đồ thị có hướng. Sự giống nhau giữa các khái niệm sẽ được tính dựa trên các tính chất
của các đường nối giữa các khái niệm có trong đồ thị.

Cách tiếp cận này đòi hỏi có sự sắp xếp một số thông tin ngữ nghĩa đã được mã hóa
trước như: cấu trúc tri thức phụ thuộc vào miền (domain) mà ta đang mô tả, tập các văn bản
dùng để huấn luyện có đính kèm ngữ nghĩa, hoặc các tài nguyên ngữ nghĩa được tạo thủ công
như các từ điển đồng nghĩa có cấu trúc Roget, WordNet, … Vì vậy, cách tiếp cận này mắc
phải sự thiếu sót lớn và bị giới hạn do những tài nguyên từ vựng được làm bởi con người như
lượng từ vựng bị giới hạn, những từ vựng trong các tài nguyên đó có thể không cần thiết hoặc
không chứa các từ vựng tổng quát cần thiết cho miền cần làm. Ngoài ra, tiêu chuẩn phân loại
các từ có thể không rõ ràng, cách phân loại kém và không cung cấp đủ sự phân biệt giữa các
từ, hoặc đôi khi lại cung cấp quá chi tiết không cần thiết, và trên hết, đó là sự cố gắng về công
sức và thời gian để xây dựng danh sách các từ đồng nghĩa bằng tay.
Các độ đo khoảng cách ngữ nghĩa giữa các từ của cách tiếp cận dựa trên ontology thì
đơn giản, trực quan, và dễ hiểu. Tuy nhiên, nó có nhược điểm là cách tiếp cận này có nhiều
quan điểm chủ quan trong việc tính toán khoảng cách ngữ nghĩa giữa các từ. Hiện nay, cách
tiếp cận này chủ yếu được phân chia thành các hướng như sau.

So trùng mờ các đồ thị tri thức
Trang 18 / 77
• Hướng tiếp cận dựa trên việc xây dựng từ điển đơn ngữ
Trong các phương pháp tiếp cận dựa trên việc xây dựng từ điển đơn ngữ, một từ điển
đơn ngữ sẽ được chuyển thành một mạng bằng cách tạo một nút cho mỗi từ đầu mục từ trong
từ điển (headword) và liên kết mỗi nút với các nút khác cho tất cả các từ có sử dụng trong
định nghĩa của nó. Độ giống nhau giữa các từ được tính bằng sự lan tỏa trên mạng này ([15],
[16], [21]).
Cách tiếp cận này hoạt động kém hiệu quả, tuy nhiên đây là một phương pháp có thể áp
dụng dễ dàng cho hầu hết các ngôn ngữ tự nhiên do nó chỉ cần sử dụng từ điển đơn ngữ của
ngôn ngữ đó.
• Hướng tiếp cận dựa trên mạng phân cấp ngữ nghĩa
Hầu hết các phương pháp dựa trên mạng phân cấp ngữ nghĩa đều sử dụng WordNet để
thực hiện việc nghiên cứu. WordNet là một từ điển điện tử miễn phí chứa một số lượng lớn
các danh từ, động từ, tính từ, và trạng từ tiếng Anh. Nó tổ chức các ý niệm có liên quan nhau

thành các tập từ đồng nghĩa (synonym sets hoặc synsets). Mỗi tập từ đồng nghĩa có một chú
thích (gloss) định nghĩa khái niệm mà nó miêu tả. Ví dụ: {car, auto, automobile, machine,
motorcar} là tập tập các từ đồng nghĩa tạo thành một synset và được diễn tả khái niệm bởi chú
thích như sau: “four wheel motor vehicle, usually propelled by an internal combustion
engine”.
Ngoài việc cung cấp các nhóm từ đồng nghĩa để biểu diễn khái niệm, WordNet kết nối
các khái niệm bởi một tập các quan hệ. Điều này tạo nên một mạng các ý niệm giúp chúng ta
có thể xác định các khoảng cách quan hệ giữa chúng với nhau. Các mối quan hệ này chỉ nối
các từ được sử dụng trong cùng một từ loại. Các tập từ đồng nghĩa danh từ (noun synsets)
được kết nối với nhau thông qua các mối quan hệ: hypernym (Has-a), hyponym (Is-a),
meronym (Part-of, Member-of, Substance-of), và holonym (Has-Part, Has-Member, Has-
Substance).
Nếu một tập đồng nghĩa danh từ A được nối với tập đồng nghĩa danh từ B thông qua
mối quan hệ
là_một_loại_của (is-a-kind-of) thì A được gọi là hypernym của tập đồng nghĩa B
và B là một hyponym của A. Ví dụ: tập đồng nghĩa chứa khái niệm car là hypernym của tập
đồng nghĩa chứa hatchback và hatchback là hyponym của car.
Nếu một tập đồng nghĩa danh từ A được nối với tập đồng nghĩa danh từ B thông qua
mối quan hệ
là_một_phần_của (is-a-part-of) thì A được gọi là meronym của tập đồng nghĩa B
So trùng mờ các đồ thị tri thức
Trang 19 / 77
và B là một holonym của A. Ví dụ: tập đồng nghĩa chứa accelerator là meronym của car và
car là holonym của accelerator.
Hướng tiếp cận dựa trên mạng phân cấp ngữ nghĩa này được phân chia làm hai hướng
tiếp cận, gồm các hướng tiếp cận dựa trên cạnh và hướng tiếp cận dựa trên nút và lai ghép như
sau.
 Hướng tiếp cận dựa trên cạnh (Edge-based approaches)
Một phương pháp đơn giản để đo sự giống nhau của hai khái niệm trong phương pháp
tiếp cận này là đếm số cạnh dọc theo con đường ngắn nhất giữa các khái niệm.

+ Độ đo của Sussna
Hai ý niệm c
1
và c
2
trong mạng phân cấp được gọi là anh em nếu như nó có cùng một ý
niệm cha chung. Ý tưởng của phương pháp Sussna ([25]) là các ý niệm anh em ở sâu bên dưới
trong sự phân loại từ thì gần nghĩa nhau hơn những ý niệm anh em nằm ở trên.
Sussna phân tích mỗi cạnh nối hai nút liền kề c
1
và c
2
trong mạng danh từ WordNet
tương ứng với hai cạnh có hướng biểu diễn các quan hệ ngược nhau. Mỗi quan hệ như vậy
được gắn một trọng số hoặc một giá trị nằm trong khoảng [min
r
; max
r
]. Ví dụ: quan hệ
hypernymy, hyponymy, holonymy, và meronymy có các trọng số nằm trong khoảng min
r
= 1
và max
r
= 2. Trọng số của mỗi cạnh có hướng thuộc một quan hệ r xuất phát từ một nút c
1

được xác định bởi một hệ số phụ thuộc vào tổng số cạnh có cùng loại quan hệ r xuất phát từ
c
1

.
)(edges
min - max
r) wt(c
1r
rr
1
c
=→
(PT 2.1)
Khi đó, khoảng cách giữa hai nút liền kề c
1
và c
2
là trung bình của các trọng số trên mỗi
chiều của cạnh:
)}(),(max{ 2
)r' wt(cr) wt(c
),(dist
21
21
21s
cdepthcdepth
cc
×
→+→
=
(PT 2.2)
trong đó, r là mối quan hệ giữa c
1

và c
2
, và r’ là chiều ngược lại, depth(c) là tổng số nút dọc
theo con đường ngắn nhất từ c đến nút gốc trong cây phân cấp.
Cuối cùng, khoảng cách ngữ nghĩa giữa hai nút c
i
và c
j
là tổng khoảng cách giữa các cặp
các nút liền kề dọc theo con đường ngắn nhất nối giữa chúng. Con đường ngắn nhất giữa hai
nút là con đường chứa số lượng ý niệm trung gian ít nhất.
So trùng mờ các đồ thị tri thức
Trang 20 / 77
+ Độ đo của Wu và Palmer
Trong công trình của mình, Wu và Palmer ([30]) đã đưa ra cách tính độ giống nhau về
ngữ nghĩa giữa hai ý niệm trong mạng phân cấp như sau:
)),((2)),(,()),(,(
)),((2
),(
21212211
21
21
ccLCSdepthccLCSclenccLCSclen
ccLCSdepth
ccsim
WP
×++
×
=
(PT 2.3)

Trong đó, LCS(c
1
, c
2
) là ý niệm chung thấp nhất (lowest common subsumer) của hai ý niệm
c
1
và c
2
trong cây phân cấp ngữ nghĩa và được minh họa như ở hình 3, depth(c) là tổng số nút
dọc theo con đường ngắn nhất từ nút chứa ý niệm c đến nút gốc, và len(c
1,
LCS(c
1
, c
2
)) là
tổng số nút dọc theo con đường từ c
1
đến ý niệm chung thấp nhất của c
1
và c
2
.


Hình 3: Minh họa ý niệm chung thấp nhất của hai ý niệm

+ Độ đo của Leacock - Chodorow
Phương pháp của Leacock và Chodorow ([17]) cũng dựa trên chiều dài của con đường

ngắn nhất giữa hai ý niệm trong WordNet. Tuy nhiên, công thức ở một dạng khác:
)(max2
),(
log),(
21
21
cdepth
cclen
ccsim
WordNetc
LC

×
−= (PT 2.4)
Trong đó, len(c
1
, c
2
) là tổng số nút dọc theo con đường đi ngắn nhất từ c
1
và c
2
, depth(c) là
tổng số nút dọc theo con đường ngắn nhất từ nút chứa ý niệm c đến nút gốc.
+ Độ đo của Hirst và St-Onge
Các phương pháp trên chỉ xem xét đến mối quan hệ is-a cho danh từ trong WordNet.
Hirst và St-Onge ([9]) đã đưa ra một độ đo ngữ nghĩa bằng cách xét nhiều mối quan hệ khác
trong WordNet và không giới hạn cho danh từ.
C
1


C
2

LCS(C
1
, C
2
)
So trùng mờ các đồ thị tri thức
Trang 21 / 77
Ý tưởng của phương pháp Hirst và St-Onge là hai ý niệm là gần nhau về ngữ nghĩa nếu
các tập đồng nghĩa của chúng trong WordNet được nối nhau bởi một con đường không quá
dài và không thay đổi hướng quá thường xuyên.
dklengthpathCccrel
HS
×


= _),(
21
(PT 2.5)
Trong đó, d là số lần thay đổi hướng trong con đường từ c
1
đến c
2
, C và k là những hằng số.
Nếu không tồn tại một con đường như thế thì rel
HS
(c

1
, c
2
) bằng không.
 Hướng tiếp cận dựa trên thông tin nút và lai ghép
Bản chất của cách tiếp cận này là lai ghép hai cách tiếp cận dựa trên corpus và dựa trên
ontology. Cách tiếp cận dựa trên thông tin nút và lai ghép này đi tìm khoảng cách ngữ nghĩa
dựa trên sự kết hợp cấu trúc phân loại từ vựng với thông tin thống kê có từ kho ngữ liệu để
tìm khoảng cách ngữ nghĩa giữa các nút thông qua những tính toán dẫn xuất từ sự thống kê
phân bố của dữ liệu có trong kho ngữ liệu.
+ Độ đo của Resnik
Resnik ([22]) đã kết hợp phương pháp dựa trên kho ngữ liệu và phương pháp dựa trên
ontology để đưa ra một độ đo dựa trên một công thức về lượng tin, là một giá trị được gán cho
mỗi ý niệm trong mạng phân cấp dựa trên những tính toán tìm được từ kho ngữ liệu.
Ý tưởng then chốt của cách tiếp cận này là sự giống nhau của hai ý niệm là khả năng
mà chúng chia sẻ thông tin dùng chung. Lượng thông tin chung của hai ý niệm được xác định
bởi lượng tin của ý niệm thấp nhất trong mạng phân cấp ngữ nghĩa mà bao phủ (subsume) cả
hai ý niệm đó. Ý niệm này được gọi là ý niệm chung thấp nhất (lowest common subsumer)
của hai ý niệm. Khi đó, ý niệm chung thấp nhất của hai ý niệm c
1
và c
2
được kí hiệu là
LCS(c
1
, c
2
) và được minh họa như ở hình 3.
Từ đó, Resnik đưa ra công thức tính độ đo như sau:
)),(Pr(log),(

2121
ccLCSccsim
R
−=
(PT 2.6)
Trong đó, Pr(c) là xác suất gặp một thể hiện của ý niệm c trong kho ngữ liệu, LCS(c
1
, c
2
) là ý
niệm chung thấp nhất của hai ý niệm c
1
và c
2
trong mạng phân cấp các ý niệm.
Trong các thử nghiệm của Resnik, xác suất xuất hiện của các ý niệm trong mạng phân
cấp được tính theo tần suất xuất hiện của các danh từ được lấy từ kho ngữ liệu Brown Corpus
của ngôn ngữ tiếng Anh:
So trùng mờ các đồ thị tri thức
Trang 22 / 77
N
wcount
c
cWw


=
)(
)(
)Pr(

(PT 2.7)
Trong đó, W(c) là tập các danh từ trong kho ngữ liệu mà nghĩa của chúng được bao phủ
(subsume) trong ý niệm c, N là tổng số lượng danh từ có trong kho ngữ liệu mà cũng có trong
từ điển WordNet.
Chúng ta nhận xét rằng, độ đo này chỉ xem xét lượng tin của ý niệm chung thấp nhất
của cả hai ý niệm cần đo mà không xem xét lượng tin của các ý niệm cũng như không xem
xét chiều dài đường đi giữa hai khái niệm. Giới hạn của cách tiếp cận này là nhiều ý niệm có
thể có cùng một ý niệm chung thấp nhất và có cùng giá trị cho độ giống nhau giữa chúng. Ví
dụ, trong WordNet, ý niệm vehicle là ý niệm chung thấp nhất của các ý niệm như jumbo jet,
tank, house trailer, ballistic missile. Theo cách tính độ đo của Resnik thì khi lấy từng cặp ý
niệm trên để tính độ đo thì các kết quả đều có giá trị như nhau.
+ Độ đo Jiang – Conrath
Để giải quyết nhược điểm của Resnik, phương pháp của Jiang và Conrath ([13]) là tổng
hợp các kĩ thuật dựa trên nút và trên cạnh bằng cách đưa vai trò của các cạnh vào công thức
tính độ giống nhau và sử dụng thông tin thống kê từ kho ngữ liệu để thực hiện việc tính toán.
Ý tưởng then chốt của độ đo của Jiang – Conrath là khoảng cách ngữ nghĩa của một
liên kết nối một ý niệm c với cha của nó là par(c) trong mạng phân cấp là lượng tin còn lại
của ý niệm c mà không nằm trong par(c).
Theo định nghĩa về lượng tin còn lại của lý thuyết thông tin, ta có lượng tin còn lại của
ý niệm c không nằm trong ý niệm cha nó là par(c) thì tỉ lệ với xác suất có điều kiện
))(|Pr( cparc . Cụ thể, ta có:
))(|Pr(log))(,( cparccparcdist
JC

=
(PT 2.8)
Theo định nghĩa của xác suất có điều kiện, ta có:
))(Pr(
))(Pr(
))(|Pr(

cpar
cparc
cparc

= (PT 2.9)
Thay phương trình 2.9 vào phương trình 2.8, ta có được:
))(Pr(
))(Pr(
log))(,(
cpar
cparc
cparcdist
JC

−=
(PT 2.10)
So trùng mờ các đồ thị tri thức
Trang 23 / 77
Do bất kì một thể hiện nào của một ý niệm con trong cây phân cấp ngữ nghĩa tự động là
một thể hiện của cha nó, nghĩa là
ccparc
=

)( , nên ta có được )Pr())(Pr( ccparc
=
∧ .
Thay vào phương trình 2.10, ta có được:
))(Pr(log)Pr(log))(,( cparccparcdist
JC
+


= (PT 2.11)
Theo định nghĩa của lượng tin trong lý thuyết thông tin, ta có:
))log(Pr()( ccIC −= (PT 2.12)
Do đó, ta có công thức tính khoảng cách ngữ nghĩa của một nút với cha của nó là:
))(()())(,( cparICcICcparcdist
JC

= (PT 2.13)
Khi ta đã có khoảng cách ngữ nghĩa của một nút c với cha của nó, khoảng cách ngữ
nghĩa của hai nút c
1
và c
2
bất kì trong mạng phân cấp sẽ được tính bằng tổng các khoảng cách
dọc theo con đường đi ngắn nhất giữa hai nút ý niệm mà đi qua ý niệm chung thấp nhất của cả
hai ý niệm đó. Hình 4 sau đây sẽ minh họa cho chúng ta thấy ý tưởng này.


Hình 4: Minh họa ý tưởng của Jiang-Conrath



=
),(\),(
21
2121
))(,(),(
ccLCSccPathc
JCJC

cparcdistccdist
(PT 2.14)
Thay công thức tính khoảng cách ngữ nghĩa của một ý niệm với cha của nó vào phương
trình 2.14 Sau khi triệt tiêu các thành phần đối ngẫu nhau, ta có được công thức tính độ đo
khoảng cách ngữ nghĩa giữa hai ý niệm bất kì c
1
và c
2
trong mạng phân cấp như sau.
)),((2)()(),(
212121
ccLCSICcICcICccdist
JC
×

+
= (PT 2.15)
Hay nói cách khác:

C
1

C
2

LCS(C
1
, C
2
)

So trùng mờ các đồ thị tri thức
Trang 24 / 77
))Pr(log)Pr((log)),(Pr(log2),(
212121
ccccLCSccdist
JC
+

×=
(PT 2.16)
Trong đó, LCS(c
1
, c
2
) là ý niệm chung thấp nhất của hai ý niệm c
1
và c
2
, Pr(c) là xác suất xuất
hiện của ý niệm c trong mạng phân cấp và được tính như trong phương pháp của Resnik.
+ Độ đo của Lin
Lin ([18]) cho rằng tất cả các độ đo trên đều gắn liền với một ứng dụng, miền, và một
tài nguyên cụ thể. Lin đưa ra một độ đo tổng quát thông qua ba nhận xét trực quan như sau:
-
Sự giống nhau giữa hai đối tượng A và B gắn liền với sự dùng chung thông tin của
chúng. Chúng càng chia sẻ nhiều tính chung, chúng càng giống nhau.
-
Sự giống nhau giữa A và B gắn liền với sự khác nhau giữa chúng. Chúng càng có
nhiều điểm khác, chúng càng ít giống nhau.
-

Sự giống nhau đạt tối đa giữa A và B đạt được khi A và B là duy nhất.
Dựa trên các giả thiết, định nghĩa và công cụ của lý thuyết thông tin, Lin đo sự giống
nhau giữa hai đối tượng A và B bằng tỉ số giữa lượng tin cần thiết để phát biểu tính chất
chung giữa A và B và lượng tin cần thiết để mô tả chúng.
),(Pr(log
)),(Pr(log
),(
BAdescr
BAcomm
BAsim
L
=
(PT 2.17)
Trong đó, comm(A, B) là thành phần mô tả thông tin dùng chung giữa A và B, descr(A, B) là
thành phần mô tả A và B.
Dựa vào định nghĩa trên, độ giống nhau giữa hai khái niệm c
1
và c
2
trong một mạng
phân cấp là một hệ quả của lý thuyết này:
)Pr(log)Pr(log
)),(Pr(log2
),(
21
21
21
cc
ccLCS
ccsim

L
+
×
=
(PT 2.18)
Trong đó, Pr(c) là xác suất xuất hiện của ý niệm c, được xác định tương tự như Pr(c) của
Resnik.
Budanitsky và Hist ([2]) đã thực hiện việc nghiên cứu và tính toán thử nghiệm các độ đo
của các công trình nghiên cứu trên WordNet dựa trên một ứng dụng xử lý ngôn ngữ tự nhiên
cụ thể và dựa trên sự nhận xét của các chuyên gia về ngôn ngữ. Các kết quả nghiên cứu, so
sánh, và đánh giá cho thấy rằng độ đo ngữ nghĩa của Jiang-Conrath cho các kết quả tốt nhất,
tiếp theo là Lin và Leacock-Chodorow, Resnik và sau đó mới đến Hist – St-Ongle.

×