Tải bản đầy đủ (.pdf) (208 trang)

Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa (semantic web)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.11 MB, 208 trang )




Trờng đại học bách khoa tp. Hồ chí minh




Báo cáo tổng kết đề tài cấp nhà nớc
Mã số kc 01.21

Nghiên cứu phát triển các kỹ thuật
Xây dựng và khai thác thông tin
Web có ngữ nghĩa



Chủ nhiệm đề tài: pgS. Ts. Cao hoàng trụ
Cơ quan chủ trì: đại học bách khoa tp. Hồ chí minh













6385
29/5/2007


TP. Hồ Chí Minh 12/2006

BỘ KHOA HỌC VÀ CÔNG NGHỆ
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM
268 Lý Thường Kiệt, Q.10, TP.HCM






Báo cáo tổng kết khoa học và kỹ thuật của đề tài:
Nghiên cứu phát triển các kỹ thuật xây dựng và
khai thác thông tin Web có ngữ nghĩa

Mã số đề tài: KC.01.21




Chủ nhiệm đề tài: Cao Hoàng Trụ






















TP.HCM 12/2006

iii
Tóm tắt

Sau gần hai thập niên ra đời và phát triển từ năm 1989, World Wide Web (WWW) đã trở
thành một môi trường lưu trữ và chuyển tải thông tin không thể thiếu trong một thời đại
mà máy tính là công nghệ đòn bẩy cho hầu hết mọi lĩnh vực của kinh tế, chính trị, và xã
hội. Với sự phát triển vũ bão và bùng nổ thông tin trên nó, giờ cũng là lúc WWW cần
chuyển sang một thế hệ mới để có thể được khai thác mộ
t cách hiệu quả phục vụ cho lợi
ích của loài người. Đó là thế hệ Web có Ngữ nghĩa (Semantic Web), được Tim
Berners-Lee, cha đẻ của WWW, phác thảo ra vào năm 1998.
Ở thế hệ hiện tại, thông tin được lưu trữ trong các trang Web dưới dạng văn bản,

hình ảnh, và âm thanh mà chỉ có con người mới đọc, nhìn, nghe và hiểu được. Với lượng
thông tin vô cùng lớn trên WWW như hiện nay, con người không thể tự mình tìm kiếm,
xử lý, và khai thác chúng, mà cầ
n có sự trợ giúp của máy tính. Muốn vậy, trước hết máy
tính phải hiểu được thông tin lưu trữ trong các trang Web để có thể xử lý chúng một cách
tự động, tức là các trang Web phải có ngữ nghĩa đối với máy tính. Mục tiêu và viễn cảnh
này của Web có ngữ nghĩa đã thu hút sự quan tâm và đầu tư của nhiều nhà nghiên cứu và
các tổ chức trên thế giới.
Ngoài những vấn đề về lý thuyết và công nghệ chung, việ
c đưa ngữ nghĩa vào các
trang Web còn phụ thuộc vào ngôn ngữ tự nhiên và miền tri thức cụ thể của từng quốc gia.
Đó cũng là ý nghĩa của đề tài này, nhằm nghiên cứu phát triển các kỹ thuật xây dựng và
khai thác thông tin Web có ngữ nghĩa tiếng Việt. Như là bước khởi đầu, đề tài tập trung
vào mức độ ngữ nghĩa cơ bản nhất của một trang Web là lớp của các thực thể có tên, như

con người, tổ chức, nơi chốn, xuất hiện trong đó. Trên cơ sở ngữ nghĩa này, đề tài phát
triển một ứng dụng cung cấp tự động thông tin về các thực thể cho những người đọc tin
trên Web.
Trước hết, đề tài xây dựng một cơ sở tri thức về các thực thể phổ biến nhất ở Việt
Nam và trên thế giới. Bước tiếp theo, đề tài nghiên cứ
u và hiện thực các kỹ thuật để xử lý
tiếng Việt và rút trích lớp thực thể trên các trang Web một cách tự động. Đồng thời, đề tài
nghiên cứu các độ đo và kỹ thuật xử lý truy vấn để người sử dụng có thể truy hồi chính
xác hoặc gần đúng thông tin từ cơ sở tri thức đã xây dựng và kho tài liệu Web đã được chú
thích. Trên các cơ sở này, đề tài phát triển các phần mềm
ứng dụng rút trích và truy hồi
thông tin cho người sử dụng đầu cuối, và xây dựng một hệ thống máy chủ để đáp ứng
nhiều yêu cầu đồng thời. Các kết quả đạt được tạo nên một nền tảng cho Web có ngữ
nghĩa tiếng Việt, đủ để hiện thực một số ứng dụng tiêu biểu và có thể phát triển tiếp thành
một cơ sở hạ tầ

ng hoàn chỉnh.

v
Mục lục

Danh mục hình vii

Danh mục bảng x

Chương 1 Giới thiệu 1
1.1 Thông tin tóm tắt về đề tài 1
1.2 Động cơ thực hiện đề tài 4
1.3 Phạm vi và mục tiêu của đề tài 5
1.4 Cấu trúc của quyển báo cáo 8

Chương 2 Tham khảo các nghiên cứu liên quan và thiết kế hệ thống 11
2.1 Web có ngữ nghĩa 11
2.2 Các công nghệ và ngôn ngữ hỗ trợ 17
2.3 Hệ thống KIM 28
2.4 Kiến trúc của VN-KIM 32

Chương 3 Xây dựng Ontology và cơ sở tri th
ức 39
3.1 Ontology và cơ sở tri thức của KIM 39
3.2 Thiết kế và xây dựng Ontology 41
3.3 Xây dựng cơ sở tri thức 50
3.4 Vấn đề bí danh 55

Chương 4 Rút trích và chú thích lớp của các thực thể có tên 57
4.1 Nhận dạng mã tiếng Việt và khối văn bản tin 57

4.2 Gán nhãn từ loại và nhận biết danh từ riêng 65
4.3 Nhận biết lớp thực thể 70
4.4 Vấn đề đồng tham chiếu và mập mờ thực thể 81

Chươ
ng 5 Truy vấn cơ sở tri thức và kho các trang Web có ngữ nghĩa 89
5.1 Truy vấn cơ sở tri thức 89
5.2 Độ tương tự và độ bao phủ 93
5.3 Truy vấn gần đúng 101
5.4 Truy vấn kho các trang Web có ngữ nghĩa 106


vi
Chương 6 Xây dựng hệ thống máy chủ và xử lý song song các yêu cầu 111
6.1 Thiết kế và hiện thực mô hình xử lý song song 111
6.2 Phát triển dịch vụ chú thích ngữ nghĩa 115
6.3 Phát triển dịch vụ truy hồi tri thức và tài liệu 118
6.4 Thử nghiệm tải của các dịch vụ 121

Chương 7 Phát triển các phần mềm công cụ và ứng dụng 127
7.1 Phần mềm xây dựng và quản trị cơ sở tri thức 127
7.2 Phần m
ềm truy hồi thông tin 132
7.3 Plug-in rút trích và truy hồi thông tin 141

Chương 8 Tổng kết 145
8.1 Tóm tắt các kết quả đạt được 145
8.2 Hướng phát triển 152

Lời cảm ơn 153


Tài liệu tham khảo 155

Phụ lục: Các báo cáo kỹ thuật, hướng dẫn sử dụng phần mềm, bài báo khoa học 171








vii
Danh mục hình

2.1.1 Các tầng của Web có ngữ nghĩa 12
2.1.2 Biểu diễn ngữ nghĩa bằng đồ thị khái niệm 15
2.2.1 Kiến trúc của Sesame 21
2.2.2 Biểu diễn đồ thị của một truy vấn SeRQL 23
2.2.3 Một đồ thị khái niệm ví dụ 26
2.2.4 Một đồ thị khái niệm với liên kết đồng tham chiếu 27
2.2.5 Một đồ thị khái niệm bị phủ định 28
2.2.6 Các đồ thị khái niệm lồng nhau 28
2.3.1 Rút trích thông tin bở
i KIM 29
2.3.2 Kiến trúc tổng quát của KIM 31
2.3.3 Một mẫu truy vấn cố định của KIM 32
2.4.1 Kiến trúc của VN-KIM 33
2.4.2 Thành phần rút trích thông tin của VN-KIM 35
2.4.3 Truy hồi thông tin trong VN-KIM 36

3.2.1 Sơ đồ phân cấp lớp thực thể về tổ chức 43
3.2.2 Sơ đồ phân cấp lớp thực thể về tổ chức nhà nước 44
3.2.3 Sơ đồ phân cấp lớp thực thể về tổ chức giáo dục và đào tạo 44
3.2.4 Sơ
đồ phân cấp lớp thực thể về tổ chức thương mại 45
3.2.5 Sơ đồ phân cấp quản lý của các đơn vị hành chính ở Việt Nam 46
3.2.6 Sơ đồ phân cấp lớp thực thể về đơn vị hành chính 46
3.2.7 Sơ đồ phân cấp lớp thực thể về điểm đặc biệt 48
4.1.1 Một trang Web với các khối văn bản tin tức 60
4.1.2 Vị trí các khối vă
n bản tin tức trong tập tin HTML 60
4.1.3 Hai trang Web có cùng khung mẫu 62
4.2.1 Phân đoạn từ trong VN-KIM 66
4.2.2 Ví dụ về một đồ thị trạng thái trong phân đoạn từ 67
4.2.3 Ví dụ về các luật nhận diện ngày tháng 68
4.2.4 Mô hình kết hợp luật và xác suất để gán nhãn từ loại 70
4.3.1 Sơ đồ các bước chú thích ngữ nghĩa trong VN-KIM 72
4.3.2 Các bước xử lý chi tiết của so trùng mẫu trong VN-KIM IE 75

viii
4.3.3. Một luật loại bỏ chú thích sai cho chuỗi có viết hoa chữ đầu 75
4.3.4 Hai luật nhận diện các tên thực thể phủ lấp nhau 76
4.3.5 Một luật nhận diện thực thể dựa trên ngữ liệu 77
4.3.6 Một luật nhận diện thực thể dựa trên ngữ cảnh 77
4.3.7 Một luật giải quyết các chú thích gây mâu thuẫn 78
4.3.8 Một luật sinh ra chú thích cuối cùng 78
4.4.1 Kết hợp phân giải đồng tham chiếu và m
ập mờ trong VN-KIM IE 81
4.4.2 Hàm kiểm tra sự đồng tham chiếu trong VN-KIM IE 84
4.4.3 Giải thuật loại bỏ nhập nhằng dựa vào mối quan hệ giữa các thực thể 86

4.4.4 Các bước loại bỏ mập mờ dựa trên sự đồng tham chiếu 87
5.1.1 Một đồ thị khái niệm truy vấn 90
5.1.2 Giải thuật dịch đồ thị khái niệm truy vấn sang SeRQL 91
5.1.3 Soạn thảo một đồ thị khái niệm truy vấn 92
5.1.4 Các phát biểu SeRQL t
ương đương và kết quả trả về 93
5.2.1 Độ bao phủ so với độ tương tự 98
5.3.1 Một đồ thị khái niệm truy vấn và sự tổng quát hoá của nó 102
5.3.2 Giải thuật tổng quát hoá và dịch đồ thị khái niệm truy vấn sang SeRQL 103
5.3.3 Một đồ thị trả lời gần đúng . 104
5.3.4 Một ví dụ khác về đồ thị truy vấn và trả lời 104
5.3.5 Đồ thị khái niệm truy vấn và tìm kiế
m gần đúng 105
5.3.6 Đồ thị khái niệm truy vấn và tìm kiếm chính xác 105
5.4.1 Kiến trúc của HTTPLuceneServer 106
5.4.2 Cấu trúc XML của kết quả trả về 108
6.1.1 Kiến trúc của hệ thống máy chủ xử lý song song SWG cho VN-KIM 112
6.1.2 Đoạn mã bằng Java khai báo một lớp trong VOIService 114
6.1.3 Mô hình hoạt động của các dịch vụ và nhóm máy chủ của VN-KIM 115
6.2.1 Quá trình tiếp nhận và xử lý yêu cầu chú thích 116
6.2.2 Các bước của dịch vụ chú thích ngữ nghĩa 117
6.2.3 Điều khiể
n các module thực hiện quá trình chú thích 118
6.3.1 Quá trình tiếp nhận và xử lý yêu cầu truy hồi tri thức 120
6.3.2 Giải thuật phân tải truy vấn cơ sở tri thức 120
6.3.3 Quá trình tiếp nhận và xử lý yêu cầu truy hồi tài liệu 121

ix
6.4.1 Đáp ứng thời gian của Server chú thích 122
6.4.2 Đáp ứng thời gian của Sesame Server 124

6.4.3 Đáp ứng thời gian của Lucene Server 125
7.1.1 Giao diện soạn thảo lớp của VN-KIM Ontology Builder 129
7.1.2 Giao diện soạn thảo thuộc tính của VN-KIM Ontology Builder 129
7.1.3 Giao diện chính của VN-KIM KB Access 130
7.1.4 Giao diện chính của VN-KIM KB Project 131
7.1.5 Giao diện tạo Project mới của VN-KIM KB Project 132
7.2.1 Soạn thảo các nút khái niệm trong VN-KIM QER 133
7.2.2 Ràng buộc các thuộc tính thực thể trong VN-KIM QER 134
7.2.3 Soạn thảo các nút quan hệ trong VN-KIM QER 135
7.2.4 Hoàn tất một đồ thị
truy vấn với VN-KIM QER 135
7.2.5 Tìm kiếm chính xác trong VN-KIM QER 136
7.2.6 Tìm kiếm gần đúng trong VN-KIM QER 137
7.2.7 Truy vấn bằng SeRQL trong VN-KIM QER 138
7.2.8 Truy vấn bằng mẫu cố định trong VN-KIM QER 139
7.2.9 Tìm kiếm tài liệu trong VN-KIM QER 140
7.2.10 Chọn các thực thể để tìm tài liệu 140
7.2.11 Các tài liệu trả về từ VN-KIM QER 141
7.3.1 VN-KIM Plug-in và một trang Web sau khi được chú giải 142
7.3.2 Duyệt các thực thể đã được nhận diện với VN-KIM Plug-in 142
7.3.3 Tìm kiếm thực thể và tài liệu với VN-KIM Plug-in 143



x
Danh mục bảng

1.1.1 Thông tin tóm tắt về đề tài 1
1.1.2 Danh sách các thành viên chính của đề tài 2
1.1.3 Danh sách các thành viên tham gia thực hiện đề tài 3

1.3.1 Danh mục các sản phẩm khoa học công nghệ của đề tài 7
3.3.1 Nguồn tài liệu tham khảo cho từng miền thực thể trong cơ sở tri thức 51
3.3.2 Thống kê số lượng các thực thể thuộc ba lớp cấp trên 54
3.3.3 Thống kê số lượng ngữ liệu tương ứng với ba lớp cấp trên 54
3.3.4 Thống kê số lượng th
ực thể thuộc các lớp chính 54
4.1.1 Tốc độ thực thi của module chuyển mã tiếng Việt 59
4.1.2 Kết quả thử nghiệm giải thuật nhận dạng khối văn bản tin tức 64
4.2.1 Kết quả của phương pháp xác suất và phương pháp kết hợp 70
4.3.1 Số liệu thử nghiệm trên ba lớp cơ sở 80
4.3.2 Số liệu thử nghiệm trên mười lớp chi tiết 80
4.3.3 Số liệu thử
nghiệm ở công ty VYC và báo Người lao động 80
5.4.1 Các URL để kết nối đến HTTPLuceneServer 108
6.4.1 Độ giảm thời gian hoàn thành chú thích 123
6.4.2 Độ giảm thời gian hoàn thành truy hồi thực thể 124
6.4.3 Độ giảm thời gian hoàn thành truy hồi tài liệu 125
8.1.1 Các phần mềm chủ yếu của đề tài 146
8.1.2 Các bài báo khoa học liên quan đến đề tài 149
8.1.3 Các sinh viên và luận án tốt nghiệp liên quan đến đề tài 150











1


Chương 1
Giới thiệu



1.1 Thông tin tóm tắt về đề tài

Bảng 1.1.1 tóm lược các thông tin cơ bản về đề tài. Bảng 1.1.2 là danh sách các thành viên
chính của đề tài và nhóm công việc đảm trách. Bảng 1.1.3 là danh sách các thành viên còn
lại đã tham gia trong quá trình thực hiện đề tài.

Bảng 1.1.1 Các thông tin cơ bản về đề tài

1. Tên đề tài
NGHIÊN CỨU PHÁT TRIỂN CÁC KỸ
THUẬT XÂY DỰNG VÀ KHAI THÁC
THÔNG TIN WEB CÓ NGỮ NGHĨA
(SEMANTIC WEB)

2. Mã số
KC.01.21

3. Thời gian thực hiện
Từ tháng 01/2004 đến tháng 04/2006

4. Cấp quản lý
Nhà nước

Bộ
Cơ sở
Tỉnh
5. Kinh phí
2.044 triệu đồng
Trong đó, từ Ngân sách
SNKH: 1.600 triệu đồng
(Thuê khoán: 745tr., nguyên vật liệu: 81tr., thiết bị: 1.054tr., chi khác: 164tr.)

2
6. Thuộc Chương trình
NGHIÊN CỨU KHOA HỌC VÀ PHÁT TRIỂN CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG

7 Chủ nhiệm đề tài
Họ và tên: Cao Hoàng Trụ

Học hàm/học vị: Phó Giáo sư, Tiến sỹ

Điện thoại: 84-8-8647256 (5848) Fax: 84-8-8645137
E-mail:

Địa chỉ: Khoa Công nghệ Thông tin, Trường Đại học Bách Khoa,
Đại học Quốc gia TP.HCM, 268 Lý Thường Kiệt, Quận 10, TP.HCM

8 Cơ quan chủ trì đề tài
Tên tổ chức KH&CN: Trường Đại học Bách Khoa, Đại học Quốc gia TP.HCM

Điện thoại: 84-8-8647256 Fax: 84-8-8653823


E-mail:

Địa chỉ: 268 Lý Thường Kiệt, Quận 10, TP.HCM


Bảng 1.1.2 Danh sách các thành viên chính của đề tài
TT Họ và tên Cơ quan công tác Công việc đảm trách
1 PGS.TS. Cao Hoàng Trụ
(Chủ nhiệm đề tài)
Khoa Công nghệ Thông tin,
ĐH Bách Khoa, ĐHQG HCM
Rút trích và truy hồi
thông tin
2 PGS.TS. Phan Thị Tươi Khoa Công nghệ Thông tin,
ĐH Bách Khoa, ĐHQG HCM
Xử lý ngôn ngữ trên trang
Web tiếng Việt
3 TS. Nguyễn Thanh Sơn Khoa Công nghệ Thông tin,
ĐH Bách Khoa, ĐHQG HCM
4 TS. Thoại Nam Khoa Công nghệ Thông tin,
ĐH Bách Khoa, ĐHQG HCM
Xây dựng mô hình, giải
thuật, và hệ thống máy
chủ xử lý song song các
yêu cầu
5 PGS.TSKH. Bùi Công Cường Viện Toán học, Hà Nội
6 TS. Trần Văn Lăng PV Công nghệ Thông tin HCM
Xử lý truy vấn mờ và
song song
7 ThS. Trần Ngọc Tuấn PV NC ĐT-TH-TĐH HCM

8 ThS. Nguyễn Hoà Đại học Mở TP.HCM
Xây dựng Ontology và cơ
sở tri thức
9 Ô. Thẩm Tuyên Báo NLĐ, Vietnam Net
10
Ô. Lê Hồng Phong Công ty Du lịch VYC
Sử dụng thử và đánh giá
hiệu quả của hệ thống


3
Bảng 1.1.3 Danh sách các thành viên tham gia thực hiện đề tài
TT Họ và tên Nơi học tập/làm việc
1 ThS. Nguyễn Thị Trúc Viên Khoa Công nghệ Thông tin, ĐH Bách Khoa, ĐHQG HCM
2 ThS. Huỳnh Tấn Đạt Khoa Công nghệ Thông tin, ĐH Bách Khoa, ĐHQG HCM
3 ThS. Nguyễn Quang Hùng Khoa Công nghệ Thông tin, ĐH Bách Khoa, ĐHQG HCM
4 KS. Huỳnh Ngọc Tuyên NCS, Khoa Khoa học Máy tính, ĐH Texas - Austin
5 KS. Vũ Quang Duy NCS, Khoa Khoa học Máy tính, ĐH Texas - Austin
6 KS. Nguyễn Quang Châu Khoa Công nghệ Thông tin, ĐH Công nghiệp HCM
7 ThS. Lê Phú
8 ThS. Nguyễn Thanh Hiên Khoa Công nghệ Thông tin, ĐH Công nghiệp HCM
9 ThS. Nguyễn Thanh Phong
10 KS. Đỗ Thanh Hải SV Cao học, ĐH La Trobe
11 KS. Phạm Trần Ngọc Bảo Công ty PSV
12 KS. Nguyễn Đăng Nhân PV Công nghệ Thông tin HCM
13 KS. Huỳnh Hữu Việt PV Công nghệ Thông tin HCM
14 KS. Phạm Hoài An Công ty PSV
15 KS. Nguyễn Thị Tú Anh
16 KS. Tạ Quốc Hưng Công ty ELCA
17 KS. Nguyễn Hoài Lê Công ty IITS

18 KS. Hà Thúc Việt Khoa Công nghệ Thông tin, ĐH Bách Khoa, ĐHQG HCM
19 KS. Nguyễn Văn Quang Ánh Công ty Renesas
20 KS. Cao Đức Nguyên Khoa Công nghệ Thông tin, ĐH Quốc tế, ĐHQG HCM
21 KS. Trần Anh Dũng SV Cao học, Trường Kỹ thuật Máy tính, ĐHCN Nanyang
22 KS. Tạ Thị Hoàng Mai Viện Môi trường và Tài nguyên, ĐHQG TP.HCM
23 KS. Lương Quang Tùng Công ty TMA
24 ThS. Quản Thành Thơ NCS, Trường Kỹ thuật Máy tính, ĐH Công nghệ Nanyang
25 ThS. Nguyễn Duy Ngạn NCS, Trường Kỹ thuật Máy tính, ĐH Công nghệ Nanyang
26 ThS. Nguyễn Chánh Thành NCS, Khoa CNTT, ĐH Bách Khoa, ĐHQG HCM
27 ThS. Nguyễn Chí Hiếu NCS, Khoa CNTT, ĐH Bách Khoa, ĐHQG HCM
28 Hồng Trung Dũng SV, Khoa CNTT, ĐH Bách Khoa, ĐHQG HCM
29 Ma Nam SV, Khoa CNTT, ĐH Bách Khoa, ĐHQG HCM
30 Nguyễn Thị Bảo Ngọc SV, Khoa CNTT, ĐH Bách Khoa, ĐHQG HCM
31 Nguyễn Đình Long Vân SV, Khoa CNTT, ĐH Bách Khoa, ĐHQG HCM
32 Trần Thế Trọng Tuệ SV, Khoa CNTT, ĐH Bách Khoa, ĐHQG HCM
33 Võ Đình Quang SV, Khoa CNTT, ĐH Bách Khoa, ĐHQG HCM



4
1.2 Động cơ thực hiện đề tài

Như chúng ta đã thấy, World Wide Web (gọi tắt là Web) đã trở thành một kho tàng thông
tin khổng lồ của nhân loại và một môi trường chuyển tải thông tin không thể thiếu được
trong thời đại công nghệ thông tin ngày nay. Sự phổ biến và bùng nổ thông tin trên Web
cũng đặt ra một thách thức mới là làm thế nào để khai thác được thông tin trên Web một
cách hiệu quả, mà cụ thể là làm sao để máy tính có thể trợ giúp xử lý tự động được chúng.
Muốn v
ậy, trước hết máy tính phải hiểu được thông tin trên các tài liệu Web, trong khi ở
thế hệ Web hiện tại thông tin được biểu diễn dưới dạng văn bản thô mà chỉ con người mới

đọc hiểu được.
Điều này đã thúc đẩy sự ra đời của ý tưởng Web có ngữ nghĩa (Semantic Web), một
thế hệ mới của Web, mà lộ trình phát triển của nó đã được Tim Berners-Lee, cha đẻ của
Web, phác thảo ra t
ừ năm 1998 ([6], [7]). Web có ngữ nghĩa là sự mở rộng của Web hiện
tại mà trong đó thông tin được định nghĩa rõ ràng sao cho con người và máy tính có thể
cùng làm việc với nhau một cách hiệu quả hơn. Mục tiêu của Web có ngữ nghĩa là để phát
triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu được nhiều hơn thông
tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông tin, tích hợp dữ liệu,
và tự động hóa các công việc.
Để thúc
đẩy các hoạt động và tạo điều kiện cho các nhà nghiên cứu gặp gỡ, trao đổi
kinh nghiệm, và hợp tác trong việc giải quyết các vấn đề nói trên, cộng đồng Web có ngữ
nghĩa trên thế giới đã tiến hành tổ chức thường niên các hội thảo và hội nghị quốc tế về
Web có ngữ nghĩa. Hội thảo quốc tế lần đầu tiên được tổ chức tại Trường
Đại học
Stanford, Mỹ, từ ngày 30/7 đến ngày 01/8/2001. Tiếp sau đó, hội nghị quốc tế lần thứ nhất
được tổ chức ở Sardinia, Ý, từ ngày 09 đến ngày 12/6/2002. Từ đó đến nay, số báo cáo
chọn lọc có chất lượng cao ngày càng tăng ở các hội nghị tiếp theo.
Cũng như trên thế giới, Internet và Web đã trở nên rất phổ biến và được ứng dụng
rộng rãi ở Việt Nam. Ở
mức đơn giản các trang Web tĩnh và động được sử dụng để giới
thiệu, quảng cáo, hay đăng tin tức về một tổ chức, một công ty, hay một trường đại học.
Web cũng đã được sử dụng như một môi trường và phương tiện để đặt hàng, đăng ký mua
vé, tra cứu sách thư viện, hay đào tạo từ xa. Nhận thấy tìm kiếm thông tin là một nhu cầu
quan trọng và r
ất lớn trong môi trường làm việc với Web, một số công ty ở Việt Nam

5
cũng đã nghiên cứu phát triển các động cơ tìm kiếm các tài liệu Web tiếng Việt, như

NETNAM hay VINASEEK. Trong các trường đại học, nhiều đề tài tốt nghiệp của sinh
viên cũng đã được thực hiện về vấn đề phát triển các hệ thông hỗ trợ các dịch vụ khách
sạn, du lịch, đại lý bán vé, thương mại điện tử, quản lý đào tạo,
Tuy nhiên, tất cả các ứng d
ụng và nghiên cứu nói trên đều ở thế hệ Web hiện tại, tức
là chưa có ngữ nghĩa. Cần phân biệt rõ là, mặc dù các động cơ tìm kiếm hiện nay có đề cập
và xử lý sự tương tự về các từ khoá tìm kiếm, đó chỉ là một phần ngữ nghĩa ở mức từ vựng,
chứ chưa ở mức thực thể và luận lý như ở Web có ngữ nghĩa ([17], [18]). Nh
ư đã trình bày
ở trên, hướng phát triển này chỉ mới bắt đầu trên thế giới gần đây, nên cũng không ngạc
nhiên khi khái niệm Web có ngữ nghĩa còn chưa được biết đến một cách rộng rãi ở Việt
Nam.
Khảo sát trên cho thấy Web có ngữ nghĩa đang là một chủ đề nghiên cứu nóng bỏng
trên thế giới, và là một xu thế tất yếu để con người có thể quản lý và khai thác được một
cách hi
ệu quả kho tàng thông tin khổng lồ và không ngừng phát triển trên Web. Hướng đi
này cũng chỉ mới được mở ra với rất nhiều vấn đề còn chưa có lời giải và cần được nghiên
cứu. Đây là một thách thức và cũng là một cơ hội để các nhà khoa học ở Việt Nam có thể
tham gia nghiên cứu tạo ra những đột phá về lý thuyết và công nghệ, vừa đóng góp vào
thành quả chung của thế giớ
i, vừa có thể ứng dụng để phát triển Web ở Việt Nam mà
không phải nhập khẩu tất cả các công nghệ từ nước ngoài.
Đề tài này được đề xuất thực hiện trong bối cảnh nói trên. Một mặt, đề tài nhằm để
xây dựng một cơ sở hạ tầng cho Web Việt có ngữ nghĩa, bao gồm một cơ sở tri thức và các
công cụ phần mềm cơ bản nhấ
t. Mặt khác, đề tài cũng muốn tạo ra một sản phẩm có ứng
dụng thực tiễn trên Web tiếng Việt, để cho thấy ý nghĩa và thúc đẩy việc nghiên cứu và
phát triển Web có ngữ nghĩa ở Việt Nam.



1.3 Phạm vi và mục tiêu của đề tài

Đề tài có các mục tiêu chính sau đây:
1. Tiếp cận lý thuyết và ứng dụng kết quả đã có về Web có ngữ nghĩa. Nghiên cứu
mở rộng chúng cho tiếng Việt và cải tiến chúng để tăng hiệu quả sử dụng.

6
2. Phát triển các giải pháp kỹ thuật hỗ trợ xây dựng và khai thác Web có ngữ nghĩa,
để xây dựng một cơ sở tri thức về các thực thể có tên (con người, tổ chức, nơi
chốn, ) quan trọng nhất ở Việt Nam, và một hệ thống chú thích ngữ nghĩa tự
động các tài liệu Web tiếng Việt.
3. Phát triển và ứng dụng các dịch vụ dựa trên nền Web có ngữ nghĩa, cho phép
người sử dụng đăng tải và khai thác thông tin trên cơ sở tri thức đã xây dựng và
các tài liệu Web đã được chú thích ngữ nghĩa.

Để đạt được các mục tiêu nói trên của đề tài, các nội dung cần nghiên cứu là:
1. Xây dựng Ontology và cơ sở tri thức cho các thực thể có tên thường được đề cập
đến trong các tin tức ở Việt Nam, bao gồm các nhân vật, thành phố, công ty, tổ
chức, :
- Tham khảo Ontology của các cơ
sở tri thức tương tự hoặc liên quan đã có để
thiết kế và xây dựng Ontology cho đề tài.
- Nghiên cứu và mở rộng các phần mềm mã nguồn mở đã có để lưu trữ và quản
trị Ontology và cơ sở tri thức.
- Thu thập thông tin, thiết kế và xây dựng cơ sở tri thức về các thực thể có tên ở
Việt Nam.
2. Hiện thực động cơ rút trích thông tin và chú thích ngữ nghĩa cho các th
ực thể có
tên trong các tài liệu Web tiếng Việt:
- Nghiên cứu và mở rộng các phần mềm mã nguồn mở đã có về xử lý ngôn ngữ

tự nhiên và rút trích thông tin cho tiếng Việt và cơ sở tri thức của đề tài.
- Hiện thực động cơ rút trích thông tin và chú thích ngữ nghĩa.
3. Xử lý các truy vấn gần đúng và nâng cao tốc độ truy hồi thông tin:
- Nghiên cứu và ứng dụng các lý thuyết xác suất và mờ để trả
lời gần đúng các
truy vấn.
- Nghiên cứu và ứng dụng tính toán song song để nâng cao tốc độ truy hồi
thông tin.
- Hiện thực động cơ trả lời truy vấn.
4. Phát triển các ứng dụng và giao diện đồ hoạ cho phép chú thích tự động ngữ nghĩa
của các thực thể có tên trong các tài liệu Web tiếng Việt, và truy vấn cơ sở tri thức
và kho tài liệu Web có ngữ nghĩa:

7
- Phát triển ứng dụng và giao diện đồ hoạ chú thích tự động ngữ nghĩa.
- Phát triển ứng dụng và giao diện đồ hoạ truy hồi thông tin.
- Tạo cơ chế cho người sử dụng truy cập và sử dụng hệ thống từ xa.

Với thời gian và kinh phí cho phép, đề tài đặt ra các giới hạn sau:
1. Cơ sở tri thức chỉ bao gồm các thực thể thuộc các mi
ền phổ biến nhất trên các
trang Web tiếng Việt, với số lượng vào khoảng 60.000 thực thể.
2. Chỉ rút trích thông tin ở mức độ lớp của thực thể có tên, và độ chính xác và độ
đầy đủ vào khoảng 80% như các hệ thống tương tự trên thế giới dùng cho tiếng
Anh.
3. Hệ thống máy chủ đủ để trình diễn các ứng dụng của đề tài, nhưng được thiết kế

để mở rộng được với nhiều máy chủ hơn cho một hệ thống Web có ngữ nghĩa
tiếng Việt phục vụ nhiều người sử dụng thật sự.
Bảng 1.3.1 trình bày các sản phẩm khoa học công nghệ cùng các chỉ tiêu kinh tế kỹ thuật

mà đề tài đăng ký thực hiện.

Bảng 1.3.1 Danh mục các sản phẩm khoa học công nghệ của đề tài

TT Tên sản phẩm Chỉ tiêu kinh tế kỹ thuật
1

Ontology và cơ sở tri thức về các thực thể có tên ở Việt
Nam, kèm theo phần mềm công cụ xây dựng Ontology
và cơ sở tri thức
~ 200 lớp thực thể
~ 80 tính chất
~ 60.000 thực thể
2

Phần mềm công cụ rút trích thông tin và chú thích ngữ
nghĩa cho các thực thể có tên trong các tài liệu Web tiếng
Việt mã Unicode
~ 80% độ chính xác và độ đầy đủ

3

Phần mềm công cụ so trùng song song và bán phần các
cấu trúc khái niệm biểu diễn dưới dạng RDF
- Song song trên 4 máy chủ
- Trả về độ so trùng ∈ [0,1]
4

Phần mềm ứng dụng với giao diện đồ họa chú thích tự
động ngữ nghĩa của các thực thể có tên, và trả lời các truy

vấn trên cơ sở tri thức và kho tài liệu Web có ngữ nghĩa
- Plug-in chú thích ngữ nghĩa
- Giao diện truy vấn và trả lời
5

Hệ thống Supernode với 4 máy chủ theo kiến trúc đa xử
lý đối xứng, với tốc độ của mỗi máy ~5,6GHz
Chức năng:
- Máy chủ Web
- Máy chủ cơ sở dữ liệu
- So trùng song song


8
1.4 Cấu trúc quyển báo cáo

Sau Chương 1, các chương tiếp theo của quyển báo cáo này sẽ trình bày chi tiết các ý
tưởng và giải pháp để đạt được các mục tiêu nói trên của đề tài. Các chương được tổ chức
như sau.
Chương 2 trình bày các nghiên cứu liên quan và kiến trúc hệ thống VN-KIM của đề
tài. Mục 2.1 giới thiệu về Web có ngữ nghĩa và cho thấy vị trí của đề tài đối với các hướng
phát triển hiện nay trong lĩnh vực này. Mục 2.2 tóm tắt các công nghệ liên quan, bao g
ồm
các phần mềm mã nguồn mở mà đề tài kế thừa và phát triển. Mục 2.3 trình bày hệ thống
KIM, một ứng dụng quan trọng cho Web có ngữ nghĩa tiếng Anh, với các chức năng
tương tự với hệ thống mà đề tài xây dựng. Mục 2.4 mô tả kiến trúc hệ thống của đề tài
cùng các thành phần chính yếu trong đó.
Chương 3 trình bày việc xây dựng Ontology và cơ sở tri thức của VN-KIM. Mục
3.1 phân tích các đặ
c tính của Ontology và cơ sở tri thức của hệ thống KIM mà đề tài tham

khảo. Mục 3.2 trình bày việc thiết kế chi tiết các lớp trong Ontology của VN-KIM. Mục
3.3 mô tả các phương thức và quá trình thu thập tri thức. Mục 3.4 đề cập đến vấn đề các
tên khác nhau của cùng một thực thể, và việc thu thập và chuẩn hoá các bí danh này. Nội
dung của chương này là sự bổ sung và cập nhật của [16].
Chương 4 trình bày việc rút trích và chú thích lớp của các thự
c thể có tên trong
VN-KIM. Mục 4.1 giải quyết vấn đề nhận dạng mã kí tự và các khối văn bản tin trên các
trang Web tiếng Việt. Mục 4.2 trình bày bước gán nhãn từ loại và nhận dạng tên riêng
trong quá trình rút trích thông tin. Mục 4.3 thiết kế và hiện thực các luật và giải thuật nhận
dạng thực thể. Mục 4.4 bàn về vấn đề đồng tham chiếu và mập mờ thực thể của các tên
thực thể. Chương này dựa trên các kế
t quả của [77], [78], [98], [99], [102], [105], và
[109].
Chương 5 trình bày việc truy vấn cơ sở tri thức và kho các trang Web đã chú thích
trong VN-KIM. Mục 5.1 mô tả các ngôn ngữ và phương thức để truy vấn cơ sở tri thức.
Mục 5.2 định nghĩa các độ đo so trùng gần đúng các đồ thị tri thức, bao gồm độ tương tự
và độ bao phủ. Mục 5.3 giới thiệu kỹ thuật biến đổi truy vấn để tìm câu trả lời gần đ
úng
cho truy vấn. Mục 5.4 trình bày việc lưu trữ, lập chỉ mục, và truy hồi các trang Web đã

9
được chú thích theo các thực thể có tên. Nội dung của chương này là sự tổng hợp của [18],
[19], [20], [21], [41], [58] và [97].
Chương 6 trình bày việc xây dựng hệ thống máy chủ và xử lý song song các yêu cầu
cho VN-KIM. Mục 6.1 thiết kế và hiện thực mô hình xử lý song song các yêu cầu rút trích
và truy hồi thông tin. Mục 6.2 phát triển các dịch vụ trên máy chủ để rút trích và chú thích
lớp của các thực thể. Mục 6.3 phát triển các dịch vụ truy vấn cơ sở tri thức và kho các
trang Web có ngữ nghĩa trên máy chủ
. Chương này tóm tắt các kết quả đã được trình bày
chi tiết trong [97], [100], [103], và [109].

Chương 7 trình bày việc phát triển các phần mềm công cụ và ứng dụng của
VN-KIM. Mục 7.1 giới thiệu phần mềm công cụ phổ dụng để xây dựng và quản trị cơ sở
tri thức. Mục 7.2 giới thiệu phần mềm ứng dụng trên Windows cho phép truy vấn cơ sở tri
thức bằng đồ thị khái niệm. Mục 7.3 giớ
i thiệu phần mềm Plug-in để nhận dạng thực thể
trên Web tiếng Việt, và truy vấn cơ sở tri thức và kho trang Web đã được chú thích của
VN-KIM. Chương này dựa trên nội dung của [19], [41], [109] và [127].
Chương 8 tổng kết báo cáo. Mục 8.1 tóm tắt các kết quả đã đạt được, bao gồm các
phần mềm, bài báo khoa học, luận án tốt nghiệp Kỹ sư, Thạc sĩ, và Tiến sĩ. Mục 8.2 đề
xuất hướ
ng phát triển tiếp của đề tài trong tương lai.

10





Ch−¬ng 2


Tham kh¶o c¸c nghiªn cøu
liªn quan vµ thiÕt kÕ

thèng

11


Chương 2

Tham khảo các nghiên cứu liên
quan và thiết kế hệ thống



2.1 Web có ngữ nghĩa

Theo Berners-Lee ([6]), các nguyên lý chính của Web có ngữ nghĩa là:
1. Mọi thứ đều có thể được định danh bởi các danh hiệu tài nguyên phổ dụng
(Universal Resource Identifier – URI):
Các URI bảo đảm rằng mỗi khái niệm không chỉ là các từ trong một tài liệu
mà còn được ràng buộc với một định nghĩa riêng biệt mà ai cũng có thể tìm thấy
trên Web. Các định vị tài nguyên phổ dụng (Universal Resourse Locator – URL)
của Web hiện tại là một trường hợp riêng và phổ biến c
ủa URI.
2. Các tài nguyên và mối liên kết có thể có kiểu loại:
Web hiện tại bao gồm các tài nguyên và mối liên kết giữa chúng, tuy nhiên
máy tính không hiểu được kiểu loại của các tài nguyên và mối liên kết đó là gì.
Ví dụ, giả sử có một URL của một người liên kết với một URL của một quyển
sách do người đó viết. Tuy nhiên máy tính không hiểu được đối tượng của URL
đầu là một “con người”, đối tượng của URL sau là m
ột “quyển sách”, và loại của
mối liên kết là “tác giả của”.

12
3. Chấp nhận thông tin không đầy đủ:
Cũng như Web hiện tại, Web có ngữ nghĩa không bị giới hạn, tức là một tài
nguyên có thể liên kết với một tài nguyên bất kỳ khác bất chấp tài nguyên đó còn
tồn tại hay không. Tuy nhiên, trong trường hợp như vậy, khi truy cập đến tài
nguyên được liên kết đó, Web hiện tại sẽ báo lỗi “404 File Not Found”. Ở Web

có ngữ nghĩa, các tính toán suy luận vẫn được tiế
n hành để dẫn ra kết luận mặc
dù một số mối liên kết đã bị mất.
4. Không cần sự thật tuyệt đối:
Không phải tất cả mọi thông tin trên Web đều là sự thật, và sự đúng đắn
của chúng được đánh giá bởi từng ứng dụng cụ thể xử lý thông tin đó. Web có
ngữ nghĩa vì vậy phải có khả năng suy luận với các thông tin không chắ
c chắn,
không chính xác, và có thể mâu thuẫn nữa. Theo Tim Berners-Lee, logic cổ điển
không làm được điều này, mà cần đến logic mờ (Fuzzy Logic) ([140]).
5. Hỗ trợ sự tiến hoá:
Các khái niệm tương tự nhau thường được định nghĩa bởi nhiều nhóm
người khác nhau, ở những nơi khác nhau, hoặc bởi cùng một nhóm người nhưng
ở những thời điểm khác nhau. Web có ngữ nghĩa vì vậy cần cho phép việc mở
rộng và kết hợp các công việc độc lập sử dụng các từ vựng khác nhau, cũng như
việc thêm thông tin mới mà không luôn buộc phải sửa đổi thông tin cũ.
6. Thiết kế tối thiểu:
Để có thể chia sẻ và tích hợp thông tin, Web có ngữ nghĩa cần có những
ngôn ngữ hay hệ thống được chuẩn hoá. Tuy nhiên các tiêu chuẩn này phải là tối
thiểu để không ràng buộc quá nhiều việc phát triển các ứng dụng trên
đó.













Hình 2.1.1 Các tầng của Web có ngữ nghĩa
Unicode



Digital
Signature

XML
RDF
Ontology
Logic
Proof
Trust
URI

13
Các nguyên lý nói trên được hiện thực bằng các tầng của Web có ngữ nghĩa như ở
Hình 2.1.1. Tầng Unicode và URI xác định các kí tự và phương tiện để định danh các đối
tượng. Tầng XML (eXtensible Markup Language) cung cấp một ngôn ngữ chung để biểu
diễn dữ liệu. Tầng RDF (Resource Description Framework) cung cấp một ngôn ngữ
chung để biểu diễn siêu dữ liệu (Metadata), ví dụ như kiểu loại của các tài nguyên và mối
liên kết. Tầng Ontology cung cấ
p các từ vựng và tiên đề cho các khái niệm và quan hệ
được sử dụng. Tầng logic cho phép biểu diễn các luật. Tầng chứng minh (Proof) cho phép
suy luận trên các luật. Tầng tin tưỏng (Trust) cung cấp các cơ chế để các ứng dụng biết có
thể tin vào một chứng minh cụ thể nào đó không. Tầng chữ ký điện tử (Digital Signature)

dùng để phát hiện sự thay đổi trong các tài liệu ở các tầng ngang nó như trên hình vẽ.
Vớ
i kiến trúc mô tả ở trên, các hoạt động nghiên cứu về Web có ngữ nghĩa tập trung
vào ba hướng chính sau đây ([70]):
1. Chuẩn hoá các ngôn ngữ biểu diễn dữ liệu (XML) và siêu dữ liệu (RDF) trên
Web:
Nhóm làm việc RDFCore, bao gồm các thành viên từ nhiều trường và công
ty khác nhau trên thế giới, của tổ chức World Wide Web Consortium (W3C) chủ
trì công việc này. Mục tiêu chính của nhóm là nghiên cứu cải thiện và chuẩn hoá
từng thành phần trong các ngôn ngữ XML và RDF, dựa trên các ý kiến phả
n hồi
từ những người hiện thực. Đến nay, nhóm đã hoàn tất các khái niệm RDF và mô
hình dữ liệu trừu tượng, đặc tả cú pháp RDF/XML, lược đồ RDF, và ngữ nghĩa
RDF.
2. Chuẩn hoá các ngôn ngữ biểu diễn Ontology cho Web có ngữ nghĩa:
Nhóm WebOnt của W3C chủ trì công việc này. Mục tiêu của nhóm là dựa
trên và mở rộng các lược đồ RDF để có thể biểu diễn các quan hệ phức tạp hơn
giữa các đố
i tượng. Dự án DAML+OIL, kết hợp của dự án DAML ở Trường Đại
học Stanford, Mỹ, và dự án OIL của Trường Đại học Vrije, Hà Lan, đã khởi
động cho hướng nghiên cứu này. Nhóm đã hoàn tất phiên bản đầu tiên của ngôn
ngữ OWL (Web Ontology Language).




14
3. Phát triển nâng cao Web có ngữ nghĩa (Semantic Web Advanced Development
- SWAD):
Hướng này nhằm để nghiên cứu thực hiện các dự án phát triển thêm các

thành phần cơ sở hạ tầng cho Web có ngữ nghĩa, cụ thể như tạo các công cụ cho
người phát triển hệ thống, rút trích thông tin và chú thích ngữ nghĩa một cách tự
động, suy diễn và chứng minh luận lý, tích hợp Ontology và chia sẻ thông tin,
Hiện tại hai dự án SWAD tiêu biểu có quy mô lớn và mang tính dài hạn là
SWAD-Europe và SWAD Oxygen. SWAD-Europe bao gồm 15 gói công việ
c
khác nhau nghiên cứu những vấn đề như các dịch vụ Web có ngữ nghĩa, tích hợp
thông tin với công nghệ XML, các hệ thống tin tưởng phân bố, Trong khi đó
SWAD Oxygen ở Viện Công nghệ Massachusetts, Mỹ, đang nghiên cứu kết hợp
các công nghệ khác nhau về xử lý tiếng nói, hình ảnh, chú thích ngữ nghĩa, để
tạo ra một môi trường hợp tác tốt hơn giữa người và máy.

Trong ba hướng nghiên cứu chính nói trên, chúng tôi nghĩ rằng hướng thứ
ba là
hướng thích hợp với hoàn cảnh và điều kiện của Việt Nam, vì theo hai hướng đầu chúng
ta khó có thể cạnh tranh được với các nhóm nghiên cứu lớn và uy tín cao trên thế giới
trong việc đề nghị các ngôn ngữ chuẩn. Hơn nữa, theo hướng thứ ba chúng ta có thể phát
triển sớm được các ứng dụng thực tiễn của Web có ngữ nghĩa ở Việt Nam.
Trong hướng thứ ba về SWAD nói trên, một vấn đề đượ
c các nhà khoa học quan
tâm nhất và cũng là nền tảng nhất của Web có ngữ nghĩa là làm thế nào để nhúng ngữ
nghĩa vào các tài liệu Web, mà hiện nay được viết bằng ngôn ngữ tự nhiên và chỉ có con
người mới đọc hiểu được. Hơn nữa việc nhúng ngữ nghĩa này phải được thực hiện một
cách tự động để có thể chuyển đổi hàng tỷ các tài liệu Web đã có sẵn sang các tài liệu
tươ
ng ứng cho Web có ngữ nghĩa ([42], [111]). Muốn vậy, vấn đề đầu tiên cần giải quyết
là rút trích tự động ngữ nghĩa của mỗi tài liệu Web rồi chú thích lại ngữ nghĩa này vào tài
liệu đó. Về vấn đề này hiện tại có hai cách tiếp cận chính tuỳ theo cấp độ ngữ nghĩa muốn
đạt đến. Cách thứ nhất là rút trích và chú thích ngữ nghĩa đầy đủ cho mỗi tài liệu Web, bao
gồm các thự

c thể và quan hệ giữa chúng được đề cập trong tài liệu. Cách thứ hai là chỉ rút
trích và chú thích ngữ nghĩa cho các thực thể có tên (Named Entity) trong tài liệu ([27],
[32]).

15
Một ví dụ về cách thứ nhất là thông tin “Ngày 21-8, Hội chợ việc làm TPHCM năm
2003 do Sở Lao động - Thương binh - Xã hội và Báo Người Lao động phối hợp tổ chức đã
chính thức khai mạc tại Cung văn hóa Lao động” (Báo điện tử Người Lao động, ngày
22/8/2003) có thể được biểu diễn bằng một đồ thị khái niệm (Conceptual Graph) như
trong Hình 2.1.2, hoặc ở dạng tương đương bằng vă
n bản RDF. Các dự án như S-CREAM
([52]) và MnM ([131]) nghiên cứu theo hướng này, sử dụng rất nhiều các kỹ thuật học
máy (Machine Learning) để rút trích các quan hệ giữa các thực thể, tuy nhiên chỉ làm
được một cách bán tự động. Trong [142], các tác giả đề xuất một phương pháp học hoàn
toàn tự động, sử dụng văn phạm liên kết (Link Grammar) và chuyển đổi các câu ở văn
phạm này sang đồ thị RDF hoặc đồ thị khái niệm, nh
ưng độ chính xác đạt được chỉ
khoảng 60% và chỉ áp dụng cho một miền hẹp cụ thể.







Hình 2.1.2 Biểu diễn ngữ nghĩa bằng đồ thị khái niệm

Ngữ nghĩa của các thực thể có tên tuy chỉ là một phần ngữ nghĩa của toàn bộ tài liệu,
nhưng nếu có thể rút trích và chú thích chúng một cách tự động với độ chính xác tương
đối cao thì cũng đã có ý nghĩa thực tiễn lớn. Một ứng dụng rất rõ ràng là trong việc đọc tin

tức trên Web. Hiện tạ
i các tin tức trên Web cũng chỉ mới ở dạng văn bản thông thường để
con người đọc, và nhiều khi người đọc gặp phải các thực thể có tên, như “Cung văn hóa
Lao động” trong ví dụ trên, nhưng không biết rõ nó ở đâu, hay các thông tin liên quan đến
nó như thế nào. Một ví dụ khác là các quảng cáo của các công ty du lịch thường có nhiều
thực thể có tên như địa danh, thắng cảnh, nhân vật mà người đọc rất quan tâm và muốn
biết thêm chi tiết. Nếu có một hệ thống có khả năng rút trích và chú thích ngữ nghĩa tự
động cho các thực thể có tên trong những bản tin như vậy, thì bản tin sẽ chuyển tải được
nhiều thông tin đến người đọc hơn.
CUNG-VĂN-HOÁ: Lao động
NGÀY: 21/8/2003
HỘI-CHỢ: Việc làm TP.HCM
TỔ CHỨC: {Sở LĐ-TB-XH, Báo NLĐ}
THỜI-GIAN
NƠI-CHỐN
NHÀ-TỔ-CHỨC

16
Các tài liệu Web có chú thích ngữ nghĩa cho các thực thể có tên cũng sẽ giúp cho
việc tìm kiếm và khai thác thông tin trên đó được chính xác và hiệu quả hơn. Ví dụ một
truy vấn về thành phố Sài Gòn sẽ được trả về các tài liệu đề cập đến TP.HCM hoặc “Sài
Gòn” như một thành phố, chứ không phải các tài liệu chứa từ “Sài Gòn” như trong “Đội
bóng Cảng Sài Gòn”, “Xí nghiệp may Sài Gòn”, hay “Công ty Saigon Tourist”. So sánh
với các động cơ tìm kiếm (Search Engine) trên các tài liệu Web chỉ là các v
ăn bản thô như
Google hiện nay, kết quả trả về là tất cả các tài liệu Web có chứa các từ là, hoặc tương tự
với, các từ khoá trong truy vấn, mà rất nhiều trong số đó không phải là tài liệu mà người
tìm kiếm cần. Một ví dụ khác là, với một cơ sở tri thức cụ thể và các tài liệu có chú thích
ngữ nghĩa, người sử dụng có thể đặt ra một truy vấn phức tạ
p như “Tìm các trang Web nói

về các hội chợ diễn ra tại TP.HCM trong năm 2003”, mà các động cơ tìm kiếm hiện nay
chưa hỗ trợ được.
Việc xác định ngữ nghĩa cho các thực thể có tên là không đơn giản và không thể chỉ
dựa vào các từ điển. Ví dụ để xác định xem thực thể mà từ “Sài Gòn” trong một tài liệu ám
chỉ đến là một thành phố hay là một đối tượng loại nào khác, cần phải biế
t được ngữ cảnh
nơi từ đó xuất hiện. Một ví dụ khác về sự mập mờ ngữ nghĩa khi nhận dạng thực thể là
trong một tài liệu có xuất hiện tên của một công ty và tên của một con đường và, ở thành
phố Hồ Chí Minh chẳng hạn, có hai con đường có cùng tên gọi. Khi đó, để xác định đó là
con đường nào, hệ thống phải dựa vào một cơ sở tri th
ức để xem công ty này có quan hệ
với con đường nào thì sẽ liên kết ngữ nghĩa tên con đường trong tài liệu với con đường đó.
Vì vậy một hệ thống chú thích ngữ nghĩa cho các thực thể có tên cần có các thành
phần cơ bản sau:
1. Ontology: định nghĩa các lớp thực thể, bao gồm sự phân loại của các khái niệm
thực thể và quan hệ giữa chúng.
2. Các danh hiệu thực thể: phân biệt các thực thể
với nhau và được liên kết với các
mô tả ngữ nghĩa của chúng.
3. Cơ sở tri thức: mô tả các thông tin cụ thể về các thực thể.
Quá trình chú thích ngữ nghĩa cho một tài liệu trước hết dựa trên các thành phần này để
rút trích thông tin từ tài liệu đó. Sau đó các tài liệu đã có chú thích sẽ được lập chỉ mục
theo các thực thể có tên để phục vụ cho việc truy hồi thông tin (Information Retrieval)
nhanh.

×