Tải bản đầy đủ (.pdf) (80 trang)

Xây dựng quan hệ giữa các thực thể có tên trên web có ngữ nghĩa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (742.95 KB, 80 trang )

Đại Học Quốc Gia Thành Phố Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐÀO QUỐC PHƯƠNG

XÂY DỰNG QUAN HỆ GIỮA CÁC
THỰC THỂ CÓ TÊN TRÊN WEB CÓ
NGỮ NGHĨA
Chuyên ngành: Khoa học Máy tính

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 11 năm 2007


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học : TS. Quản Thành Thơ.........................................

Cán bộ chấm nhận xét 1 : TS. Dương Tuấn Anh ..............................................

Cán bộ chấm nhận xét 2 : TS Nguyễn Văn Cường ...........................................

Luận văn thạc sĩ được bảo vệ tại
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 30 tháng 1 năm . 2008 .


ĐẠI HỌC QUỐC GIA TP. HCM


CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Độc Lập - Tự Do - Hạnh Phúc
------------------oOo---

Tp. HCM, ngày . .05. . tháng . .11. . năm .2007.

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên : Đào Quốc Phương..................... Giới tính : Nam ;/ Nữ …
Ngày, tháng, năm sinh : 25/06/1979........................... Nơi sinh : Tp.HCM ..............
Chuyên ngành : Khoa học Máy tính..........................................................................
Khố : 2005 .............................................................................................................
1- TÊN ĐỀ TÀI : .....................................................................................................
XÂY DỰNG QUAN HỆ GIỮA CÁC THỰC THỂ CÓ TÊN TRÊN WEB
CÓ NGỮ NGHĨA .................................................................................................
................................................................................................................................
2- NHIỆM VỤ LUẬN VĂN :...................................................................................
- Xây dựng quan hệ ngữ nghĩa giữa các lớp thực thể ............................................
- Xây dựng quan hệ ngữ nghĩa giữa các thực thể có tên........................................
................................................................................................................................
................................................................................................................................
3- NGÀY GIAO NHIỆM VỤ : ................................................................................
4- NGÀY HỒN THÀNH NHIỆM VỤ : ...............................................................
5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : TS. Quản Thành Thơ..........................
Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành
thơng qua.
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MƠN


(Họ tên và chữ ký)

QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)

TS. Quản Thành Thơ

TS. Đinh Đức Anh Vũ


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

LỜI CAM ĐOAN

Tơi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi
rõ trong luận văn, các cơng việc trình bày trong luận văn này là do chính tơi thực hiện
và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở
trường này hoặc trường khác.

Ngày 05 tháng 11 năm 2007
Đào Quốc Phương

Đào Quốc Phương

Trang 1


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

LỜI CẢM ƠN


Tơi xin gởi lời cảm ơn chân thành và sâu sắc nhất đến TS. Quản Thành Thơ, người
Thầy đã tận tình hướng dẫn tơi trong suốt quá trình từ đại học tới cao học và tạo mọi
điều kiện để tơi có thể hồn thành luận văn này.

Tơi cũng xin cảm ơn gia đình đã động viên và tạo mọi điều kiện tốt nhất để tơi có thể
tiếp tục theo đuổi việc học tập nghiên cứu. Tôi trân trọng dành tặng thành quả của luận
văn này cho Cha Mẹ. Nhờ công lao dưỡng dục của Người mà chúng con mới có được
thành quả như ngày hôm nay. Con xin hứa sẽ tiếp tục cố gắng phấn đấu để vươn cao
hơn nữa.

Đào Quốc Phương

Trang 2


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

TĨM TẮT LUẬN VĂN
Sự ra đời của ý tưởng Web có ngữ nghĩa (Semantic Web), một thế hệ mới của Web
giúp máy tính có thể hiểu được và xử lý các tài liệu trên Web một cách hiệu quả. Tuy
nhiên một vấn đề được các nhà khoa học quan tâm nhất và cũng là nền tảng nhất của
Web có ngữ nghĩa là làm thế nào để nhúng ngữ nghĩa vào các tài liệu Web. Muốn vậy,
vấn đề đầu tiên cần giải quyết là rút trích tự động ngữ nghĩa của mỗi tài liệu Web rồi
chú thích lại ngữ nghĩa này vào tài liệu đó.
Trong một tài liệu, các thực thể có tên được đề cập đến tạo nên phần quan trọng cho
ngữ nghĩa của tài liệu đó. Nói cách khác, để nắm được ngữ nghĩa của một tài liệu thì
trước hết cần nắm được ngữ nghĩa của các thực thể có tên trong tài liệu đó và mối
quan hệ giữa các thực thể có tên với nhau. Tuy nhiên việc xây dựng mối quan hệ giữa
các thực thể có tên hiện nay vẫn cịn là một trong các lĩnh vực nghiên cứu mới gần

đây, trước đây các hướng nghiên cứu chỉ tập trung vào việc trích rút ngữ nghĩa của các
từ trong các tài liệu văn bản thô và xây dựng mối quan hệ ngữ nghĩa giữa các từ với
nhau. Có thể đề cập đến một số phương pháp được dùng để xây dựng mối quan hệ ngữ
nghĩa giữa các từ trong tài liệu như : phương pháp neo chặt (anchoring), phương pháp
phân cụm (clustering), phương pháp xét đồng xuất hiện các từ khoá (co-occurence of
keywords), phương pháp khai phá luật kết hợp (Association Rule Mining). Liệu có khả
thi khi áp dụng các phương pháp này vào việc xây dựng mối quan hệ giữa các thực thể
có tên trên Web có ngữ nghĩa.
Xuất phát từ những yêu cầu trên, đề tài này đặt ra một số mục tiêu sau: tìm hiểu các
phương pháp xây dựng mối quan hệ ngữ nghĩa giữa hai đối tượng trong các tài liệu
văn bản, dựa trên các phương pháp này đề xuất sử dụng vào trong việc xây dựng mối
quan hệ ngữ nghĩa giữa các thực thể có tên trên Web ngữ nghĩa, kiểm tra kết quả đưa
ra kết luận về tính hiệu quả của các phương pháp trên.
Trải qua một quá trình nghiên cứu, kết quả Luận văn đã phân tích được những ưu điểm
và những điểm lưu ý khi áp dụng các phương pháp trên trong việc tìm ra những mối
quan hệ giữa các thực thể có tên, trong đó phương pháp tính sự xuất hiện đồng thời
(co-occurence) giữa hai đối tượng được dùng trong việc xây dựng mối quan hệ ngữ
nghĩa giữa các lớp thực thể, phương pháp tính hệ số tương quan (correlation) dùng

Đào Quốc Phương

Trang 3


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

trong việc xây dựng mối quan hệ ngữ nghĩa giữa các thực thể có tên thuộc cùng lớp và
phương pháp khai phá luật kết hợp (Association Rule Mining) dùng trong việc xây
dựng mối quan hệ ngữ nghĩa giữa các thực thể có tên thuộc các lớp khác nhau.


Đào Quốc Phương

Trang 4


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

MỤC LỤC
LỜI CAM ĐOAN ..........................................................................................................1
LỜI CẢM ƠN ................................................................................................................2
TĨM TẮT LUẬN VĂN ................................................................................................3
DANH MỤC HÌNH .......................................................................................................7
DANH MỤC BẢNG ......................................................................................................8
Chương 1. GIỚI THIỆU ĐỀ TÀI ................................................................................9
1.1.

Giới thiệu .............................................................................................................. 9

1.2.

Cấu trúc luận văn .............................................................................................. 11

Chương 2. CƠ SỞ LÝ THUYẾT VỀ WEB NGỮ NGHĨA , THỰC THỂ CÓ TÊN
VÀ ONTOLOGY......................................................................................13
2.1.

Khái niệm Web ngữ nghĩa ................................................................................ 13

2.2.


Thực thể có tên................................................................................................... 14

2.3.

Tìm hiểu Ontology ............................................................................................. 15

2.4.

Ngơn ngữ biểu diễn Ontology ........................................................................... 17

2.5.

Mối quan hệ giữa các thực thể có tên............................................................... 18

Chương 3. TỔNG THUẬT CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN .20
3.1.

Các hướng nghiên cứu liên quan...................................................................... 20

3.2.

Vấn đề đặt ra của luận văn ............................................................................... 23

Chương 4. XÂY DỰNG MỐI QUAN HỆ GIỮA CÁC LỚP THỰC THỂ TRONG
ONTOLOGY ............................................................................................27
4.1.

Mối quan hệ giữa các lớp thực thể trong ontology ......................................... 27

4.2.


Phương pháp tính dựa trên sự xuất hiện đồng thời ....................................... 28

4.3.

Tạo ma trận co-occurence giữa các lớp ........................................................... 29

4.4.

Kết quả thực nghiệm trên Ontology của VN-KIMO...................................... 30

Chương 5. XÂY DỰNG MỐI QUAN HỆ GIỮA CÁC THỰC THỂ CÓ TÊN
THUỘC CÙNG MỘT LỚP.....................................................................34

Đào Quốc Phương

Trang 5


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

5.1.

Mối quan hệ giữa các thực thể có tên thuộc cùng lớp .................................... 34

5.2.

Phương pháp tính hệ số tương quan................................................................35

5.3.


Kết quả thực nghiệm trên Ontology của VN-KIMO...................................... 38

Chương 6. XÂY DỰNG MỐI QUAN HỆ GIỮA CÁC THỰC THỂ CÓ TÊN
THUỘC CÁC LỚP KHÁC NHAU ........................................................42
6.1.

Khái niệm luật kết hợp...................................................................................... 42

6.2.

Bài toán khai phá luật kết hợp ......................................................................... 43

6.3.

Giải thuật Apriori .............................................................................................. 45

6.4.

Hiện thực bài toán khai phá luật kết hợp........................................................ 46

6.5.

Kết quả thực nghiệm ......................................................................................... 49

Chương 7. TỔNG KẾT – ĐÁNH GIÁ ......................................................................53
7.1.

Tổng kết .............................................................................................................. 53


7.2.

Những đóng góp của luận văn .......................................................................... 54

7.3.

Hướng phát triển ............................................................................................... 54

TÀI LIỆU THAM KHẢO...........................................................................................56
Phụ lục 1. Mối quan hệ giữa các lớp..........................................................................60
Phụ lục 2. Mối quan hệ giữa các thực thể có tên trong cùng một lớp ....................64
Phụ lục 3. Mối quan hệ giữa các thực thể có tên thuộc các lớp khác nhau............67
Phụ lục 4. Bảng đối chiếu Thuật ngữ Anh - Việt......................................................76

Đào Quốc Phương

Trang 6


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

DANH MỤC HÌNH
Hình 2.1 Mơ hình ontology và các mối quan hệ trong ontology.......................................................16
Hình 2.2 Ngơn ngữ biểu diễn ontology ...............................................................................................17
Hình 2.3 Mối quan hệ giữa các thực thể có tên..................................................................................19
Hình 3.1 Mơ hình xử lý của hệ thống xây dựng mối quan hệ...........................................................24
Hình 3.2 Mẫu tập tin chứa thơng tin về các thực thể có tên.............................................................24
Hình 3.3 Thơng tin về lớp thực thể « Con_người » ...........................................................................25
Hình 3.4 Thơng tin về mối quan hệ « có_thủ_đơ »............................................................................26
Hình 4.1 Mơ hình hệ số Link-Strength...............................................................................................29

Hình 6.1 Mơ hình dùng ARM tìm mối quan hệ giữa các thực thể có tên thuộc các lớp khác nhau
................................................................................................................................................................49

Đào Quốc Phương

Trang 7


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

DANH MỤC BẢNG
Bảng 4.1 Bảng dữ liệu tính hệ số Link Strength cho lớp “Quốc_gia” trên tập dữ liệu thứ nhất ..31
Bảng 4.2 Bảng dữ liệu tính hệ số Link Strength cho lớp “Quốc_gia” trên tập dữ liệu thứ hai.....32
Bảng 5.1 Bảng dữ liệu mẫu cho ví dụ tính hệ số tương quan ...........................................................36
Bảng 5.2 Bảng kết quả tính hệ số tương quan trên thực thể có tên « Lam Trường»....................39
Bảng 5.3 Bảng kết quả tính hệ số tương quan trên thực thể có tên « Trịnh Cơng Sơn » .............40
Bảng 5.4 Bảng kết quả tính hệ số tương quan trên thực thể có tên « Ánh Tuyết ».......................41
Bảng 6.1 Kết quả sinh các luật kết hợp trên tập dữ liệu thứ nhất ...................................................50
Bảng 6.2 Kết quả sinh các luật kết hợp trên tập dữ liệu thứ hai .....................................................51

Đào Quốc Phương

Trang 8


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

Chương 1.

GIỚI THIỆU ĐỀ TÀI


Chương này giới thiệu chung về bối cảnh, mục tiêu và kết quả thu được của đề tài. Cấu
trúc nội dung của quyển thuyết minh được trình bày ở cuối chương.

1.1.

Giới thiệu

Với nhiều tỷ trang Web phân bố trên hầu hết các quốc gia, World Wide Web (WWW)
là môi trường tốt cho việc biểu diễn và truy cập thông tin dạng số. Tuy nhiên, lượng
thơng tin khổng lồ đó cũng tạo ra những khó khăn lớn trong việc tìm kiếm, chia sẻ
thơng tin trên WWW. Hiện nay, thông tin trên WWW được biểu diễn chủ yếu dưới
dạng ngôn ngữ tự nhiên (các trang Web trên ngơn ngữ HTML). Cách biểu diễn đó phù
hợp với con người nhưng lại gây ra nhiều khó khăn cho các chương trình làm nhiệm
vụ hỗ trợ tìm kiếm, chia sẻ và trao đổi tin. Chương trình máy tính khơng “hiểu” được
thơng tin và dữ liệu biểu diễn dưới dạng thích hợp với con người.
Để giải quyết vấn đề này, nhiều tổ chức nghiên cứu và kinh doanh đã phối hợp nghiên
cứu và phát triển Web có ngữ nghĩa (Semantic Web). Theo định nghĩa của Tim
Berners-Lee giám đốc tổ chức World Wide Web Consortium (),
đồng thời là cha đẻ của WWW, Web có ngữ nghĩa là sự mở rộng của WWW hiện tại
bằng cách thêm vào các mô tả ý nghĩa (hay ngữ nghĩa) của thông tin dưới dạng mà
chương trình máy tính có thể “hiểu” đượ và do vậy cho phép xử lý thông tin hiệu quả
hơn [1]. Như vậy, Web có ngữ nghĩa sẽ bao gồm các thông tin (trang Web) được biểu
diễn theo cách truyền thống cùng với ngữ nghĩa của các thông tin này được biểu diễn
một cách tường minh. Việc thêm phần ngữ nghĩa cung cấp thêm tri thức cho các
chương trình tìm kiếm thông tin (các agent), giúp nâng cao chất lượng phân loại, tìm
kiếm, trao đổi thơng tin. Tuy nhiên cơng việc này phải được thực hiện một cách tự
động để có thể chuyển đổi hàng tỷ các tài liệu Web đã có sẵn sang các tài liệu tương
ứng cho Web có ngữ nghĩa. Muốn vậy, vấn đề đầu tiên cần giải quyết là rút trích tự
động ngữ nghĩa của mỗi tài liệu Web rồi chú thích lại ngữ nghĩa này vào tài liệu đó.

Trong một tài liệu, các thực thể có tên được đề cập đến tạo nên phần quan trọng cho
ngữ nghĩa của tài liệu đó. Nói cách khác, để nắm được ngữ nghĩa của một tài liệu thì

Đào Quốc Phương

Trang 9


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

trước hết cần nắm được ngữ nghĩa của các thực thể có tên trong tài liệu đó và mối
quan hệ giữa các thực thể có tên với nhau.
Thực thể có tên là con người, tổ chức, nơi chốn, và những đối tượng khác được tham
khảo bằng tên. Các thực thể có tên cũng được cấu tạo bởi các từ ghép thành nhưng nó
khác với các từ thơng thường ở chỗ chúng nói về các cá thể, trong khi các từ nói về
những cái chung như khái niệm, phân loại, quan hệ, thuộc tính.
Cơ chế cho phép chia sẻ và trao đổi ngữ nghĩa của thông tin được biết đến và sử dụng
phổ biến nhất hiện nay là ontology [18]. Ontology là bản mô tả một cách tường minh
các khái niệm trong một miền ứng dụng nào đó cùng với quan hệ giữa những khái
niệm này. Ontology cung cấp từ vựng chung cho việc trao đổi thông tin giữa các ứng
dụng và dịch vụ Web. Bản thân phần ngữ nghĩa của Web có ngữ nghĩa bao gồm
ontology và giá trị cụ thể của khái niệm định nghĩa trong ontology.
Hiện nay có khá nhiều cơng cụ tạo Ontology một cách tự động. Các công cụ này cho
phép tạo ra khái niệm, thuộc tính của khái niệm, quan hệ và phân cấp giữa các khái
niệm. Điển hình là bộ công cụ Protégé [19]. Tuy nhiên việc xây dựng tự động quan hệ
giữa các khái niệm (concept) trong Ontology rất phức tạp và kết quả thu được chưa khả

quan [2,3,4,5].
Xuất phát từ những yêu cầu trên, đề tài này đặt ra một số mục tiêu sau:
¾ Tìm hiểu mơ hình chứa ngữ nghĩa trên ontology và các giải pháp nhận dạng tự

động mối quan hệ giữa các khái niệm có liên quan.
¾ Đề xuất một phương pháp tính tốn phù hợp để nhận dạng tự động quan hệ
giữa các lớp, các thực thể có tên trong Ontology.
¾ Phát triển thử nghiệm chương trình ứng dụng vào việc phát hiện mối quan hệ
giữa các thực thể có tên trên Cơ sở dữ liệu Ontology của VN-KIMO.
Sau đây là một số kết quả thu được của đề tài:
¾ Đã phân tích các phương pháp xây dụng mối quan hệ ngữ nghĩa giữa các từ
trong một đoạn văn bản và những hướng nghiên cứu mới gần đây về việc xây
dựng mối quan hệ ngữ nghĩa giữa các thực thể có tên.

Đào Quốc Phương

Trang 10


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

¾ Đề xuất phương pháp tính hệ số liên kết (Link Strength) phát hiện mối quan hệ
giữa các lớp, phuơng pháp tính hệ số tương quan (Correlation) phát hiện mối
quan hệ giữa các thực thể có tên trong cùng lớp và phương pháp khai phá luật
kết hợp (Association Rule Mining) phát hiện mối quan hệ giữa các thực thể có
tên ở hai lớp khác nhau.
¾ Kết quả thực nghiệm cho thấy nhiều mối quan hệ giữa các lớp và giữa các thực
có tên được tìm ra.

1.2.

Cấu trúc luận văn

Nội dung luận văn được trình bày trong các chương sau:

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI
Chương này giới thiệu chung về bối cảnh, mục tiêu và kết quả thu được của đề tài. Cấu
trúc nội dung của quyển thuyết minh được trình bày ở cuối chương.
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VỀ WEB NGỮ NGHĨA, THỰC THỂ CÓ
TÊN VÀ ONTOLOGY
Các khái niệm cơ bản về Web ngữ nghĩa và thực thể có tên được trình bày ở phần đầu
của chương này. Tiếp theo đó là phần giới thiệu về việc biểu diễn tri thức cho Web
ngữ nghĩa thông qua mơ hình Ontology, vai trị quan trọng của các thực thể có tên và
mối quan hệ giữa chúng với nhau trong Ontology.
CHƯƠNG 3: TỔNG THUẬT CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Chương này giới thiệu tổng quan về các hướng nghiên cứu liên quan đến việc nhận
dạng các mối quan hệ ngữ nghĩa giữa các từ trong một đoạn văn bản để xây dựng các
cây khái niệm. Vấn đề đặt ra liệu có thể dùng các phương pháp trên để xây dựng mối
quan hệ ngữ nghĩa cho các thực thể có tên trên Ontology và điều này được diễn giải ở
cuối chương trong phần “Vấn đề đặt ra của Luận văn”.

Đào Quốc Phương

Trang 11


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

CHƯƠNG 4: XÂY DỰNG MỐI QUAN HỆ GIỮA CÁC LỚP TRONG
ONTOLOGY
Phần đầu của chương này giới thiệu về ý nghĩa mối quan hệ giữa các lớp thực thể
trong Ontology. Sau đó là phần trình bày về phương pháp tính hệ số liên kết giữa hai
lớp thực thể dựa trên tần suất xuất hiện đồng thời (co-occurence) của hai lớp trong các
tài liệu Web. Phần cuối của chương là việc áp dụng phương pháp trên để sinh ra ma
trận đồng xuất hiện (co-occurrence matrix).

CHƯƠNG 5: XÂY DỰNG MỐI QUAN HỆ GIỮA CÁC THỰC THỂ CÓ TÊN
THUỘC CÙNG MỘT LỚP
Trong chương này, phần đầu chương sẽ giới thiệu về mối quan hệ giữa các thực thể có
tên thuộc cùng một lớp. Phần tiếp theo của chương sẽ trình bày phương pháp tính hệ
số tương quan (correlation), những ưu điểm khi dùng phương pháp này trong việc xây
dựng mối quan hệ cũng được đưa ra ở cuối chương cùng với số liệu khảo sát.
CHƯƠNG 6: XÂY DỰNG MỐI QUAN HỆ GIỮA CÁC THỰC THỂ CÓ TÊN
THUỘC CÁC LỚP KHÁC NHAU
Chương này trình bày tiếp theo kỹ thuật xây dựng mối quan hệ giữa các thực thể có
tên giữa những lớp thực thể khác nhau, nội dung của chương đề cập đến kỹ thuật dùng
luật kết hợp để tìm ra mối quan hệ giữa các thực thể có tên, một kỹ thuật đã được sử
dụng rất nhiều trong vấn đề khai phá dữ liệu để tìm ra các quy luật quan hệ giữa các
thực thể. Phần đầu của Chương nói về khái niệm Luật kết hợp, phần tiếp theo trình bày
giải thuật Apriori, một giải thuật thường dùng trong việc phát hiện các luật quan hệ nhị
phân. Phần cuối của Chương nêu lên kết quả khi dùng phương pháp này vào đề tài
cũng như nêu lên những điểm cần lưu ý khi dùng phương pháp này.
CHƯƠNG 7: TỔNG KẾT – ĐÁNH GIÁ
Chương này tổng kết lại những công việc đã làm được, sau đó nêu ra những đóng góp
và hướng phát triển của luận văn.

Đào Quốc Phương

Trang 12


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

Chương 2.

CƠ SỞ LÝ THUYẾT VỀ WEB NGỮ NGHĨA ,

THỰC THỂ CÓ TÊN VÀ ONTOLOGY

Các khái niệm cơ bản về Web ngữ nghĩa và thực thể có tên được trình bày ở phần đầu
của chương này. Tiếp theo đó là phần giới thiệu về việc biểu diễn tri thức cho Web
ngữ nghĩa thơng qua mơ hình Ontology, vai trị quan trọng của các thực thể có tên và
mối quan hệ giữa chúng với nhau trong Ontology.

2.1.

Khái niệm Web ngữ nghĩa

Web có ngữ nghĩa là sự mở rộng của Web hiện tại mà trong đó thơng tin được định
nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách
hiệu quả hơn, thế hệ Web mới này đã được Tim Berners-Lee, cha đẻ của Web, phác
thảo ra vào năm 1998. Mục tiêu của Web có ngữ nghĩa là để phát triển các chuẩn
chung và cơng nghệ cho phép máy tính có thể hiểu được nhiều hơn thơng tin trên Web,
sao cho các cơng cụ máy tính có thể hỗ trợ tốt hơn việc tìm kiếm thơng tin, tích hợp dữ
liệu, và tự động hóa các cơng việc.
Một điều dễ nhận ra là hàng tỷ trang Web hiện nay trên Internet đều được viết bằng
ngơn ngữ tự nhiên và chỉ có con người mới đọc hiểu được cịn máy tính chỉ là phương
tiện truyền tải các nội dung mà không thể hiểu được ý nghĩa nội dung của các trang
Web này. Vì vậy vấn đề được các nhà khoa học quan tâm nhất và cũng là nền tảng
nhất của Web ngữ nghĩa làm thế nào để nhúng ngữ nghĩa vào các tài liệu Web một
cách tự động để chuyển đổi hàng tỷ trang Web hiện tại sang dạng Web có ngữ nghĩa.
Muốn vậy, vấn đề đầu tiên cần giải quyết là rút trích tự động ngữ nghĩa của mỗi tài
liệu Web rồi chú thích lại ngữ nghĩa này vào tài liệu đó.
Trong một tài liệu, các thực thể có tên được đề cập đến tạo nên phần quan trọng cho
ngữ nghĩa của tài liệu đó. Nói cách khác, để nắm được ngữ nghĩa của một tài liệu thì
trước hết cần nắm được ngữ nghĩa của các thực thể có tên trong tài liệu đó. Trong phần
tiếp theo sau chúng ta sẽ đi tìm hiểu về khái niệm thực thể có tên.


Đào Quốc Phương

Trang 13


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

2.2.

Thực thể có tên

Trong một tài liệu Web, các thơng tin thường có liên quan đến một cái tên ví dụ
như nói về chính trị thường liên quan đến các tên quốc gia : “…căng thẳng chính trị
giữa Mỹ và Triều Tiên về vấn đề hạt nhân trên bán đảo này…”, nói về danh lam thắng
cảnh thường đề cập đến tên các địa điểm : “…vịnh Hạ Long, đảo Tuần Châu ở Việt
Nam đã trở thành một điểm đến đầy hứa hẹn trong năm du lịch này, đó sẽ là nơi thu
hút lượng khách du lịch nước ngồi khá lớn vì vậy các cơng ty du lịch đóng trên địa
bàn đã và đang chuẩn bị chu đáo để phục vụ du khách…”, hay nói về giải trí thường
đề cập đến tên các diễn viên : “… có thể nói ca sĩ Elvis Presley là một người đã khai
phá ra nền âm nhạc mới cho nước Mỹ…”, chúng ta thấy rằng các thực thể có tên
(named entity) được đề cập đến tạo nên phần quan trọng cho ngữ nghĩa của tài liệu đó.
Nói cách khác, để hiểu được ngữ nghĩa của một tài liệu thì trước hết cần nắm được
ngữ nghĩa của các thực thể có tên trong tài liệu đó.
Thực thể có tên là con người, tổ chức, nơi chốn, và những đối tượng khác được
tham khảo bằng tên. Các thực thể có tên cũng được cấu tạo bởi các từ ghép thành
nhưng nó khác với các từ thơng thường ở chỗ chúng nói về các cá thể, trong khi các từ
nói về những cái chung như khái niệm, phân loại, quan hệ, thuộc tính. Việc xử lý các
từ do vậy chỉ đòi hỏi ngữ nghĩa từ vựng và có thể dựa vào tự điển để tra cứu, trong khi
việc xử lý các thực thể có tên cần đến tri thức cụ thể về thế giới đang xem xét.

Ngữ nghĩa của các thực thể có tên tuy chỉ là một phần ngữ nghĩa của toàn bộ tài
liệu, nhưng nếu có thể rút trích và chú thích chúng một cách tự động với độ chính xác
tương đối cao thì sẽ có một ứng dụng rất lớn, đó chính là các tài liệu Web với chú
thích ngữ nghĩa cho các thực thể có tên sẽ giúp cho việc tìm kiếm và khai thác thơng
tin trên đó được chính xác và hiệu quả hơn. Ví dụ một truy vấn về huyện Nhà Bè sẽ
được trả về các tài liệu đề cập đến Nhà Bè như một huyện của thành phố Hồ Chí Minh,
chứ khơng phải các tài liệu chứa từ “Nhà Bè” như trong “Công ty may Nhà Bè”,
“Tổng kho xăng dầu Nhà Bè”.
Việc xác định ngữ nghĩa cho các thực thể có tên là khơng đơn giản và khơng thể chỉ
dựa vào từ điển, vì một thực thể có thể có nhiều tên khác nhau, và các thực thể khác
nhau có thể có cùng tên. Chúng ta gọi hiện tượng trên là sự đồng tham chiếu và mập

Đào Quốc Phương

Trang 14


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

mờ định danh. Ví dụ thực thể có tên “Washington” trong một tài liệu ám chỉ đến là
một con người hay là một thủ đơ, đó là sự mập mờ định danh. Cịn tên “Hồ Chí Minh”
, “Bác Hồ”, “Nguyễn Tất Thành”, “Nguyễn Sinh Cung” đều là những cái tên chỉ đến
một thực thể “Hồ Chí Minh”, đó là hiện tượng đồng tham chiếu. Vì thế chúng ta còn
cần phải biết được ngữ cảnh nơi tên đó xuất hiện và một hệ thống chú thích ngữ nghĩa
cho các thực thể có tên cần có trước hết một cơ sở tri thức về các thực thể và các quan
hệ giữa chúng.
Một hệ thống chú thích ngữ nghĩa cho các thực thể có tên được miêu tả cần có các
thành phần cơ bản sau :
- Ontology: định nghĩa các lớp thực thể, bao gồm sự phân loại của các khái niệm thực
thể và quan hệ giữa chúng.

- Các danh hiệu thực thể: phân biệt các thực thể với nhau và được liên kết với các
mô tả ngữ nghĩa của chúng.
- Cơ sở tri thức: mô tả các thông tin cụ thể về các thực thể.

2.3.

Tìm hiểu Ontology

Cơ chế cho phép chia sẻ và trao đổi ngữ nghĩa của thông tin được biết đến và sử dụng
phổ biến nhất hiện nay là Ontology [18]. Ontology là bản mô tả một cách tường minh
các khái niệm trong một miền ứng dụng nào đó cùng với quan hệ giữa những khái
niệm này. Ontology cung cấp từ vựng chung cho việc trao đổi thông tin giữa các ứng
dụng và dịch vụ Web. Bản thân phần ngữ nghĩa của Web có ngữ nghĩa bao gồm
Ontology và giá trị cụ thể của khái niệm định nghĩa trong Ontology.
Trong Ontology sẽ chứa định nghĩa các lớp thực thể bao gồm việc phân loại chúng và
xây dựng quan hệ giữa các lớp thực thể. Mối quan hệ khá phổ biến nhất mang tính
phân cấp (taxonomic-relation) trong Ontology, đó là mối quan hệ mang tên “is_a”
(“là_một”), ví dụ ta có “lập_trình_viên” “là_một” “nghề” được diễn giải : lớp khái
niệm “lập_trình_viên” là lớp con của lớp khái niệm “nghề”, một ví dụ khác “Nữ”
“là_một” “Con_người” được diễn giải : lớp khái niệm “Nữ” là lớp con của lớp khái
niệm “Con_người” hoặc “Quốc_gia” “là_một” “Đơn_vị_hành_chính” được diễn giải

Đào Quốc Phương

Trang 15


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

: lớp khái niệm “Quốc_gia” là lớp con của lớp khái niệm “Đơn_vị_hành_chính”.

Chính mối quan hệ “is-a” giúp chúng ta xây dựng nên hệ thống phân cấp các lớp thực
thể trong Ontology. Ngoài ra giữa các lớp thực thể vẫn tồn tại các mối quan hệ khác
ngồi mối quan hệ “is-a”. Việc xây dựng một cơng cụ phát hiện mối quan hệ giữa các
lớp sẽ giúp con người phần nào trong việc nhúng ngữ nghĩa vào các Web hiện tại.
Trong tài liệu [32] Ontology được định nghĩa một cách hình thức là một bộ gồm 5
c
c
thành phần cơ bản : O := {C, R, H , rel, A }, trong đó C là một tập các khái niệm; R
c
là một tập định nghĩa các quan hệ giữa các khái niệm; H các khái niệm phân cấp mà
c
nó định nghĩa quan hệ “is-a” giữa các lớp khái niệm (H (C1,C2) nghĩa là C1 là lớp con
của lớp khái niệm C2 hay nói cách khác C2 là lớp cha của C1); rel là một hàm chức
năng, rel : R Ỉ C x C đặc tả mối quan hệ trên tập R ( nếu r ∈ R, rel(r)=(C1,C2) ),
c
nghĩa là lớp khái niệm C1 có mối quan hệ với lớp C2; cuối cùng A là một tập các
nguyên tử thường được dùng trong ngôn ngữ logic mô tả các ràng buộc trên Ontology.

Hình 2.1 Mơ hình ontology và các mối quan hệ trong ontology

Đào Quốc Phương

Trang 16


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

2.4.

Ngơn ngữ biểu diễn Ontology


Để biểu diễn ontology và dữ liệu cần có ngơn ngữ thích hợp. Trong q trình hình
thành Web có ngữ nghĩa, nhiều ngôn ngữ như vậy đã được đề xuất và phát triển, trong
đó được biết đến nhiều nhất là RDF và RDFS [6], DAML+OIL [7,8].
RDF và RDF Schema. RDF (Resource Description Framework) là cơ chế cho phép mô
tả dữ liệu về dữ liệu (meta data). RDF coi các đối tượng trên Web (trang Web, đoạn
văn, người, các đối tượng khác.v.v.) là các tài nguyên. Mỗi tài nguyên được mô tả bởi
bộ ba (đối tượng - thuộc tính – giá trị). Ví dụ, chúng ta có tài liệu chứa câu “A
Wikipedia article about Tony Benn” mơ tả tiêu đề nói về ơng Tony Benn do nhà ấn bản
Wikipedia phát hành chẳng hạn, câu này được chuyển qua ngơn ngữ RDF như hình 2.2
xmlns:rdf=" />xmlns:dc=" />rdf:about=" /><dc:title>Tony Benn</dc:title>
<dc:publisher>Wikipedia</dc:publisher>
</rdf:Description>
</rdf:RDF>
Hình 2.2 Ngơn ngữ biểu diễn ontology
RDF Schema (RDFS) là một biến thể đơn giản sử dụng cơ chế RDF. RDFS [6] cho
phép mơ tả các thuộc tính đặc thù cho ứng dụng, đồng thời định nghĩa lớp các đối
tượng có cùng thuộc tính đó. Việc định nghĩa lớp đối tượng với thuộc tính và quan hệ
rất cần thiết cho việc xây dựng ontology. RDF và RDF Schema chỉ cho phép biểu diễn
ngữ nghĩa ở mức độ đơn giản. Để biểu diễn ngữ nghĩa bao gồm nhiều đối tượng có
quan hệ lơgic phức tạp với nhau cần các phương tiện biểu diễn mạnh hơn. DAML
(Darpa Agent Markup Language) và OIL (Ontology Interface Layer) là các phương

Đào Quốc Phương

Trang 17



Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

tiện như vậy. DAML+OIL là một mở rộng của RDFS. Trong DAML+OIL [7,8], ngữ
nghĩa được mô tả thông qua lôgic mô tả (descriptive logic) cho phép sử dụng lôgic
bool khi mô tả quan hệ giữa các đối tượng và có nhiều kiểu quan hệ cơ sở hơn so với
RDFS.

2.5.

Mối quan hệ giữa các thực thể có tên

Việc thiết lập mối quan hệ giữa các thực thể có tên là một phần quan trọng trong cơng
việc chú thích ngữ nghĩa cho các thực thể có tên, một thực thể có tên có được “hiểu”
bởi máy tính hay khơng là nhờ vào ngữ nghĩa đi kèm theo nó, vì vậy nó rất quan trọng.
Mối quan hệ này có thể tồn tại giữa các thực thể có tên trong cùng một lớp hoặc giữa
các thực thể có tên thuộc những lớp khác nhau. Ví dụ về mối quan hệ giữa hai thực thể
có tên thuộc cùng một lớp như : thực thể “Trịnh_Công_Sơn” và “Hồng_Nhung”, hai
thực thể này đều chỉ đến những cái tên của nhạc sĩ và ca sĩ nổi tiếng. Họ đều thuộc lớp
thực thể “Con_người”, giữa họ có mối quan hệ bởi vì khi nói đến ca sĩ Hồng Nhung,
người ta thường nhớ đến cô rất thường biểu diễn và hát các bài hát của nhạc sĩ Trịnh
Công Sơn như “Một cõi đi về”, “Tôi ru em ngủ”, “Biển nhớ”, “Như cánh vạc bay”…
Sự hoà nhịp giữa hai tâm hồn trên đã giúp Trịnh Công Sơn viết thêm nhiều bài hát
dành cho cô ca sĩ “Bống” Hồng Nhung. Hoặc một ví dụ khác về mối quan hệ giữa các
thực thể có tên thuộc những lớp khác nhau như : “Nguyễn_Công Khế” nằm trong lớp
thực thể “Con_người” và “báo_Thanh_niên” nằm trong lớp thực thể “Công_ty”,
giữa hai thực thể này có những mối quan hệ tồn tại như quan hệ “làm_việc_tại”,
“là_tổng_biên_tập”.
Qua một số những ví dụ trên ta thấy việc tìm ra và xây dựng tự động mối quan hệ giữa
các thực thể có tên sẽ có một ý nghĩa lớn vì nó giúp chúng ta tìm kiếm các thơng tin có
ý nghĩa hơn, cung cấp nhiều thơng tin có liên kết với nhau. Ví dụ khi tìm thông tin về

“Hồng Nhung”, chúng ta biết được nghề nghiệp của cô là ca sĩ và do giữa cô với
“Trịnh Cơng Sơn” có mối liên kết nên chúng ta có thể biết thêm về cơ là một ca sĩ hát
dịng nhạc Trịnh, ngồi ra cịn rất nhiều thơng tin liên kết sẽ được cung cấp giúp người
sử dụng nhanh chóng tìm kiếm những thơng tin chính xác mình cần, hoặc khi người
dùng tìm kiếm thơng tin về thành phố Hồ Chí Minh sẽ cho phép tìm các thơng tin liên
quan đến thành phố như hiện giờ người nào là lãnh đạo của thành phố, danh sách các

Đào Quốc Phương

Trang 18


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

bệnh viện nằm trong thành phố, những địa điểm giải trí, các trường Đại Học, Cao
Đẳng…. Để tìm được các thơng tin như vậy địi hỏi phải tồn tại mối quan hệ giữa các
thực thể có tên.

Hình 2.3 Mối quan hệ giữa các thực thể có tên

Đào Quốc Phương

Trang 19


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

Chương 3.

TỔNG THUẬT CÁC CƠNG TRÌNH NGHIÊN

CỨU LIÊN QUAN

Chương này giới thiệu tổng quan về các hướng nghiên cứu liên quan đến việc nhận
dạng các mối quan hệ ngữ nghĩa giữa các từ trong một đoạn văn bản để xây dựng các
cây khái niệm. Vấn đề đặt ra liệu có thể dùng các phương pháp trên để xây dựng mối
quan hệ ngữ nghĩa cho các thực thể có tên trên Ontology và điều này được diễn giải ở
cuối chương trong phần Vấn đề đặt ra của Luận văn.

3.1.

Các hướng nghiên cứu liên quan

Cơng việc tìm kiếm các mối quan hệ ngữ nghĩa giữa các khái niệm đã được nghiên
cứu khá nhiều trên thế giới. Szpektor đã khám phá ra mối quan hệ ngữ nghĩa kế thừa
có thứ tự (hay gọi là quan hệ kéo theo) [16,21], Ravichandran tìm thấy mối quan hệ
“is-a” [15,21], Girju tìm ra mối quan hệ “part-of” [13,14,21].
Còn trong bài viết [12] của Marco Pennacchiotti và Patrick Pantel đã đề xuất hai giải
thuật cho việc tự động đưa quan hệ ngữ nghĩa vào WordNet [24] đó là giải thuật thứ
nhất với ý tưởng “neo chặt” (anchoring) và giải thuật thứ hai với ý tưởng “phân cụm”
(clustering)”, kết quả đạt được là khá tốt đối với quan hệ “part-of”, còn đối với các
quan hệ khác thì vẫn chưa khả quan lắm. Trong phương pháp neo chặt (anchoring), tác
giả dùng kỹ thuật phân tích từ dưới lên (bottom-up). Nội dung chính của phương pháp
này là tính hệ số mối quan hệ ngữ nghĩa giữa hai thực thể x và y. Giả sử đầu tiên cho
trước mối quan hệ r giữa hai thực thể x và y được mô tả là một bộ ( x , r , y ). Ở bước
thứ nhất ta neo chặt thực thể y và tìm tất cả những thực thể x’ mà có mối quan hệ r với
thực thể y. Ví dụ ta muốn kiểm tra xem giữa thực thể reflections và thực thể book có
tồn tại mối quan hệ PART-OF hay không, ta tạo một bộ (reflections, PART-OF, book)
sau đó neo chặt thực thể book và tìm tập hợp X’ bao gồm những thực thể x’ có tồn tại
quan hệ PART-OF với thực thể book, giả sử đã tồn tại những quan hệ PART-OF với
thực thể book như sau (false allegations, PART-OF, book) ; (stories, PART-OF, book)

; (expert analysis, PART-OF, book) ; (conclusions, PART-OF, book). Kết quả sẽ cho ta
tập X’ = {allegations, stories, expert analysis, conclusions}. Dựa vào hệ thống

Đào Quốc Phương

Trang 20


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

WordNet [24] ta tính hệ số ngữ nghĩa cho thực thể x gọi là r(sx) với cơng thức tính
tốn trong tài liệu [12]. Sau đó lại neo chặt thực thể reflections và tìm tập hợp Y’ bao
gồm những thực thể y’ có tồn tại quan hệ PART-OF với thực thể reflections, cũng dựa
vào hệ thống WordNet [24] ta tính hệ số ngữ nghĩa cho thực thể y gọi là r(sy). Tính
trung bình cộng của r(sx) và r(sy). Nếu hệ số trung bình này cao hơn mức ngưỡng cho
phép thì quan hệ PART-OF được đưa vào WordNet cho hai thực thể reflections và
book.
Cũng như trong bài viết [17] các tác giả cũng đã đề cập tới các quan hệ phân cấp
(taxonomic-relation), các quan hệ không phân cấp (nontaxonomic-relation), cùng với
giải pháp dùng tính tương tự từ vừng các cặp từ. Đối với quan hệ phân cấp, có khá
nhiều phương pháp được áp dụng và đạt hiệu quả như phân cụm (clustering) [2,12],
phương pháp khai phá luật kết hợp [4], phương pháp thống kê đồng xuất hiện từ vựng
[3], còn tác giả Xin Zhang và Yanzhong Dang đã đề nghị phương pháp nhận dạng tự
động cho tất cả các mối quan hệ phân cấp và không phân cấp dựa trên việc học các
mẫu cú pháp.
Trước đây phương pháp xét đồng xuất hiện các từ khóa (co-occurrence of
keywords) được sử dụng khá nhiều trong việc tìm ra các mối quan hệ giữa các từ khóa
trong một tài liệu, ví dụ như trong một bài viết của mình [11] Mark Sanderson và
Bruce Croft đã áp dụng phương pháp này để trích rút các từ và nhóm từ chính trong
một tài liệu và xây dựng tự động một cây phân cấp các khái niệm từ một tài liệu có sẵn

giúp máy tính có thể “hiểu” được tài liệu. Trong cơng trình xây dựng cấu trúc bản đồ
các thuật ngữ mà có mối liên hệ với nhau [25,26] các tác giả cũng đã áp dụng phương
pháp đơn giản này để tìm ra mối liên quan giữa các thuật ngữ và đã đạt được một số
kết quả khá tốt.
Trong những tài liệu nghiên cứu gần đây [33,34], phương pháp dùng máy tìm kiếm
(Search Engines) để đo độ tương tự mối quan hệ giữa các từ và các thực thể có tên
được sử dụng khá nhiều. Trong tài liệu [33], tác giả cũng đã dùng phương pháp đo trên
tần suất xuất hiện đồng thời (co-occurence) của hai từ dựa vào kết quả do trang Web
Google tìm kiếm trả về số lượng các trang Web chứa đồng thời hai từ này. Ví dụ như
bình thường với từ “apple” được hiểu là “quả táo”, ta hiểu đó là một thứ trái cây,

Đào Quốc Phương

Trang 21


Xây dựng quan hệ giữa các thực thể có tên trên Web có ngữ nghĩa

nhưng nếu chúng ta thử tìm kiếm từ “apple” và từ “computer” xem có mối quan hệ
như thế nào. Để làm được điều này chúng ta sử dụng câu truy vấn dạng “P AND Q”
cho máy tìm kiếm vì có thể xem dạng câu truy vấn này như là P và Q xuất hiện đồng
thời trên trang Web. Kết quả trả về từ bộ máy tìm kiếm Google cho câu truy vấn
“apple” AND “computer” là 288.000.000 trang Web; tương tự kết quả cho câu truy
vấn “banana” AND “computer” chỉ là 3.590.000 trang Web. Hơn 80 lần số trang Web
có chứa đồng thời “apple” AND “computer” so với “banana” AND “computer”, điều
này cho phép ta suy luận từ “apple” có mối quan hệ ngữ nghĩa với “computer” gần hơn
với từ “banana”. Tuy nhiên nếu chỉ sử dụng phương pháp đếm dựa trên số lượng trang
Web thì vẫn chưa đảm bảo độ tin cậy, mà phải xét đến vị trí xuất hiện của từ trong tài
liệu vì có thể sự xuất hiện ngẫu nhiên các từ , “apple” có thể trong tài liệu đề cập là trái
cây nhưng có sự xuất hiện ngẫu nhiên của “computer”, vì thế tác giả đã phối hợp hai

phương pháp : dựa vào số lượng trang Web do máy tìm kiếm và nhận dạng mẫu tài
liệu. Còn trong tài liệu [34] tác giả dựa trên Google Directory và dùng phương pháp
co-occurrence dựa trên mẫu câu truy vấn “P AND Q” để tìm mối quan hệ giữa các
thực thể có tên. Google Directory dùng các liên kết và các phân loại từ Open Directory
Project (ODP) [35], nơi chứa đến 4.815.303 các trang Web của các công ty thương
mại, trang chủ của các cá nhân, các trang thơng tin về nơi chốn mang tính phổ biến, vì
vậy trong ODP chứa rất nhiều các thực thể có tên và phối hợp với phương pháp trên sẽ
tìm ra các mối quan hệ giữa các thực thể có tên, tuy nhiên ODP vẫn còn giới hạn ở các
thực thể tên tiếng Anh.
Ở cơng trình [31] tác giả đã cho thấy một phương pháp khám phá mối quan hệ khác
khá hiệu quả đó chính là việc áp dụng việc khai phá các luật kết hợp (Association
Rule Mining), tác giả đã ứng dụng phương pháp này để khám phá mối quan hệ ngữ
nghĩa trong các tài liệu, kết quả kiểm nghiệm được dùng trên hệ thống WordNet [24]
cho thấy là khả quan, cũng như khi thử nghiệm luật kết hợp để tìm ra các mối quan hệ
khơng phân cấp [4] A.Maedche và S.Stabb đã cho thấy kết quả là chấp nhận được mặc
dù là chưa thể hoàn toàn tự động hết được mà chỉ là bán tự động (semi-automatic)
nhưng điều đó cũng đủ cho chúng ta thấy hướng tiếp cận dùng luật kết hợp để khám
phá các mối quan hệ là khả thi hơn các phương pháp khác. Một ví dụ về kỹ thuật khai
phá luật kết hợp để chúng ta có thể hiểu rõ hơn phương pháp này được mô tả như sau :

Đào Quốc Phương

Trang 22


×