Tải bản đầy đủ (.pdf) (40 trang)

Xây dựng Ontology từ Web

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.45 MB, 40 trang )


TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
LỚP CỬ NHÂN TÀI NĂNG



NGUYỄN HOÀN – HOÀNG XUÂN THẢO


NGHIÊN CỨU VÀ PHÁT TRIỂN
HỆ THỐNG RÚT TRÍCH ONTOLOGY
TỪ WEB


KHÓA LUẬN TỐT NGHIỆP CỬ NHÂN CNTT










TP.HCM, 2010

















TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
LỚP CỬ NHÂN TÀI NĂNG



NGUYỄN HOÀN 0612109
HOÀNG XUÂN THẢO 0612416


NGHIÊN CỨU VÀ PHÁT TRIỂN
HỆ THỐNG RÚT TRÍCH ONTOLOGY
TỪ WEB



KHÓA LUẬN TỐT NGHIỆP CỬ NHÂN TIN HỌC




GIÁO VIÊN HƯỚNG DẪN
TS.TRẦN MINH TRIẾT





NIÊN KHÓA 2006– 2010
4

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
Khóa luận đáp ứng yêu cầu của LV cử nhân tin học.
TpHCM, ngày …… tháng …… năm 2010

Giáo viên hướng dẫn



5

NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
Khóa luận đáp ứng yêu cầu của LV cử nhân tin học.
TpHCM, ngày …… tháng …… năm 2010
Giáo viên phn bin

6

LỜI CÁM ƠN


Nhóm sinh viên xin chân thành cm ơn Khoa Công Ngh Thông Tin, trường Đại
Học Khoa Học Tự Nhiên, Tp.HCM đã tạo điều kin tốt cho nhóm sinh viên thực hi
n đề tài này.
Nhóm sinh viên xin chân thành cm ơn Thầy Trần Minh Triết, là người đã tận tì
nh hướng dẫn, chỉ bo nhóm sinh viên trong suốt thời gian thực hin đề tài.
Nhóm sinh viên cũng xin gửi lời cm ơn sâu sắc đến quý Thầy Cô trong Khoa đ
ã tận tình ging dạy, trang bị cho nhóm sinh viên những kiến thức quí báu trong nhữ
ng năm học vừa qua.
Nhóm sinh viên xin gửi lòng biết ơn sâu sắc đến Ba, Mẹ, các anh chị và bạn bè đ
ã ủng hộ, giúp đỡ và động viên nhóm sinh viên trong những lúc khó khăn cũng như
trong suốt thời gian học tập và nghiên cứu.
Mặc dù nhóm sinh viên đã cố gắng hoàn thành luận văn trong phạm vi và kh nă
ng cho phép, nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, kính mong sự c
m thông và tận tình chỉ bo của quý Thầy Cô và các bạn.
Nhóm thực hin
Nguyễn Hoàn &Hoàng Xuân ThoĐỀ CƯƠNG CHI TIẾT
Tên Đề Tài: Nghiên cứu và phát triển h thống rút trích ontology từ web
Giáo viên hướng dẫn:TS.Trần Minh Triết
Thời gian thực hiện: từ ngày //2009 đến ngày //2010
Sinh viên thực hin:
Nguyễn Hoàn (0612109) – Hoàng Xuân Tho(0612416)
Loại đề tài:
7

Nội Dung Đề Tài (mô t chi tiết nội dung đề tài, yêu cầu, phương pháp thực hi
n, kết qu đạt được, …):

Kế Hoạch Thực Hin:
12/01/2009-26/02/2009:Tìm hiểu công ngh XNA.
27/02/2009-15/03/2009: Mô t các đặc trưng chính của Product Line game sẽ x

ây dựng.
15/03/2009-20/03/2009:Nêu và phân tích các vấn đề sẽ phát sinh trong quá trìn
h xây dựng.
21/03/2009-10/04/2009: Đưa ra các gii pháp cho các vấn đề và lựa chọn gii
pháp thích hợp.
11/04/2009-01/05/2009: Xây dựng ứng dụng game.
02/05/2009-30/06/2009:Xây dựng các công cụ hỗ trợ cho vic chuẩn hóa tài ng
uyên và biên tập bn đồ vùng chiến sự.
01/07/2009-07/07/2009:Ci tiến ứng dụng game và các công cụ.
Xác nhận của GVHD

N g à y t h á n g n ă m 2 0 1 0
SV Thực hin


MỤC LỤC
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 1
NHẬN XÉT CỦA GIÁO VIÊN PHN BIN 2
LỜI CÁM ƠN 3
ĐỀ CƯƠNG CHI TIẾT 4
8

MỤC LỤC 6
DANH MỤC CÁC HÌNH 10
DANH MỤC CÁC BNG 11
TÓM TẮT KHÓA LUẬN 12
Chương 1 Mở đầu 1
1.1. 1
1.2. 1
1.3. Mục tiêu đề tài 1

1.4. Nội dung luận văn 1
Chương 2 Ontology 2
2.1. Giới thiu 2
2.2. Định nghĩa 2
2.3. Phân loại 3
2.4. Ngôn ngữ biểu diễn ontology 4
2.5. Ứng dụng 6
2.5.1. Tìm Kiếm Thông Tin và Qun Lý Tri Thức 6
2.5.2. Thương mại Đin tử 8
2.5.3. Web ngữ nghĩa 10
2.6. Kết luận: 15
Chương 3 Các hướng tiếp cận trong vic xây dựng ontology 17
3.1. Các nguồn dữ liu dùng để xây dựng ontology 17
3.2. Xây dựng ontology 18
3.3. Phương pháp dựa trên vic xử lý ngôn ngữ tự nhiên 18
9

3.4. Phương pháp dựa vào thống kê 20
3.5. Phương pháp máy học 23
3.6. Phương pháp kết hợp 25
Chương 4 Phương pháp rút trích ontology từ WWW 27
4.1. Mở đầu 27
4.2. Một sốgi định 28
4.3. Quy trình 6 bước rút trích ontology từ WWW 29
4.4. Chuẩn bị 31
4.5. Biến đổi 32
4.6. Gom cụm 35
4.7. Nhận din 36
4.8. Liên kết 37
4.9. Tinh chỉnh 38

4.10. Kết luận 38
Chương 5 Áp dụng quy trình rút trích ontology từ WWW cho môi trường Websi
te tiếng Vit 39
5.1. Chuẩn bị 39
5.1.1. Tổng quan 39
5.1.2. Ti các trang web về lưu trữ ngoại tuyến 40
5.1.3. Loại bỏ trang web không hợp l 41
5.1.4. Chuẩn hoá các trang web 42
5.1.5. Lưu trữ các trang web vào h qun trị cơ sở dữ liu 43
5.2. Biến đổi 45
10

5.2.1. Tổng quan 45
5.2.2. Gom nhóm các trang web dựa trên đường dẫn gốc 46
5.2.3. Loại trừ các thành phần lặp giữa 2 trang web 48
5.2.4. Loại trừ các phần trùng nhau giữa các trang web trong cùng một
nhóm. 51
5.3. Gom cụm 52
5.3.1. Tổng quan 52
5.3.2. Lựa chọn các từ khoá 53
5.3.3. Tính tần số xuất hin của từ khoá 54
5.3.4. Gom cụm các trang web dựa trên độ tương đồng giữa các vector
đặc trưng 55
5.4. Nhận din 55
5.4.1. Tổng quan 55
5.4.2. Nhận din đặc trưng cụm và xử lý phần tử ngoại lai 56
5.5. Liên kết 57
5.5.1. Tổng quan 57
5.5.2. Xây dựng đồ thị mối quan h giữa các khái nim 57
5.5.3. Tinh chỉnh các mối quan h 58

5.6. Tinh chỉnh 59
Chương 6 Kết luận 61
6.1. Các kết qu đạt được 61
6.2. Hướng phát triển của đề tài 61
DANH MỤC CÁC HÌNH
Hình 21 Đồ thị của một phần ontology WordNet [14] 4
11

Hình 22 Các ngôn ngữ đánh dấu ontology [19] 5
Hình 23 Ba lĩnh vực ứng dụng của ontology [6] 6
Hình 24 Kiến trúc chung của h thống OntoBroker [26] 7
Hình 25 Một đoạn trang web được gán nhãn bằng OntoBroker [26] 8
Hình 26 Market place sử dụng ontology [8] 10
Hình 27 Mô hình phương pháp kết hợp web service [37] 13
Hình 31 Kiến trúc của Hasti [43] 20
Hình 32 Thiết kế chung của phương pháp [44] 21
Hình 33 Kiến trúc chung của h thống CRCTOL [47] 22
Hình 34 Một phần đồ thị hai phía sinh ra từ h thống [48] 23
Hình 35 Quy trình thu nhận Ontology [53] 26
Hình 41 Kiến trúc tổng quát của h thống rút trích ontology từ web [54] 29
Hình 42 Quy trình 6 bước rút trích ontology từ WWW [54] 30
Hình 43 Phân nhóm dựa trên chuỗi đường dẫn 34
Hình 51 Mô hình Chuẩn bị 40
Hình 52 Xpath 45
Hình 53 Mô hình Biến đổi 46
Hình 56 Các đường dẫn gốc được phân nhóm 47
Hình 55 Cây đường dẫn 47
Hình 54 So sánh và đánh dấu thành phần lặp giữa 2 cây cấu trúc HTML 49
Hình 57 Tính độ tương đồng cây cấu trúc HTML 50
Hình 58 Mô hình Gom cụm 52

Hình 59 Mô hình Nhận din 55
12

Hình 510 Mô hình Liên kết 57
DANH MỤC CÁC BẢNG
Bng 31 Tóm tắt các công trình nghiên cứu có liên quan 18
Bng 41 Phân loại văn bn cùng các thẻ tương ứng 35
TÓM TẮT KHÓA LUẬN

Nội dung khóa luận bao gồm 9 chương:
Chương 1: Mở đầu
Chương 2: Tổng quan Ontology
Chương 3: Các hướng tiếp cận trong vic xây dựng Ontology
Chương 4: Quy trình rút trích Ontology từ dữ liu web
Chương 5: Framework
Chương 6: Kết luận và hướng phát triển


13
Chương 1
Mở đầu

Nội dung Chương 1 trình bày sơ lược khái niệm ontology cũng như nhu cầu
cần thiết phải có ontology. Đồng thời Chương 1 cũng nêu lên mục tiêu, nội
dung và ý nghĩa của đề tài.
1.1 Giới thiệu ontology
Khái nim “ontology” có nguồn gốc ban đầu không phi từ lĩnh vực Trí Tu Nh
ân Tạo, đây là khái nim có nguồn gốc xuất hin từ lĩnh vực Triết học liên quan đến
ngành học về sự tồn tại. Từ những năm 1970, các nhà nghiên cứu nhận thức được v
ic thu thập tri thức là công vic quan trọng trong vic xây dựng các h thống tri thứ

c lớn, và cũng cho rằng họ có thể xây dựng ra các ontology mới như là các mô hình
tính toán phục vụ cho các dạng nhất định trong vic suy diễn tự động. Sau đó, khái
nim này được sử dụng trong lĩnh vực Trí Tu Nhân Tạo từ những năm 1980 [ref đế
n dùng để chỉ lý thuyết
về thế giới được mô hình hóa và cũng để chỉ một trong những thành phần của nhữn
g h thống tri thức. Khái nim “ontology” trong Trí Tu Nhân Tạo được sử dụng ng
ày nay có thể được xem như là một thể hin dạng chính quy của tri thức dưới dạng t
ập hợp các khái nim trong một lĩnh vực và các mối quan h giữa các khái nim này
.

14

Hình 11 Ví dụ về một ontology có domain là Rượu [ref:
/~koide/SWCLOS2/Manual/FIGURES/WineRDF.PNG]
Nhu cầu ban đầu cần có ontology là để cung cấp các nguồn thông tin giàu ngữ n
ghĩa mà máy tính có thể xử lý và thao tác được, đồng thời vẫn có thể dùng ontology
để chia sẻ tri thức giữa người với người và với các h thống khác. Hin nay nhu cầ
u về ontology ngày càng tăng cao, và ontology không những phục vụ cho nhu cầu c
hia sẻ tri thức đơn thuần mà còn được áp dụng vào nhiều lĩnh vực khác nhau như cá
c h thống Qun Lý Tri Thức, Thương Mại Đin Tử, Web Ngữ Nghĩa, Cơ Sở Dữ Li
u hay các h thống bo mật, cung cấp nguồn thông tin giàu ngữ nghĩa giúp cho các
h thống thực hin các tác vụ với kết qu tốt hơn. Ví dụ: Ontology được tổ chức W
3C đưa vào làm một trong những nền tng xây dựng Web Ngữ Nghĩa. Ontology còn
có thể dùng để gán nhãn lại các trang web, các web service hay các nguồn dữ liu k
hác trên internet nhằm tăng tính hiu qu trong vic truy xuất, tìm kiếm và khám ph
á dữ liu. Ontology còn có thể được dùng trong các h thống chính sách bo mật kh
ác nhau. Vic sử dụng ontology giúp cho các xử lý, các thuật toán trong các h thốn

15
g trong các lĩnh vực khác nhau có thêm các thông tin khác giàu ngữ nghĩa nhằm đưa

ra kết qu tốt hơn.
1.2 Các hướng tiếp cận xây dựng ontology
Do nhu cầu ontology ngày càng phát triển, nên vic đưa ra các phương pháp khá
c nhau để xây dựng ontology một cách tự động hoặc bán tự động. Các phương pháp
này giúp gim bớt chi phí về thời gian và công sức so với vic xây dựng các ontolo
gy một cách thủ công. Nhưng mặt khác chất lượng của các ontology thu được từ nh
ững phương pháp này phụ thuộc khá nhiều tùy vào thuật gii được sử dụng, nguồn
dữ liu mà thuật gii sử dụng, cũng như từng lĩnh vực mà phương pháp được áp dụn
g vào.
Để xây dựng ontology, nhiều phương pháp được các tác gi nghiên cứu và phát t
riển. Một trong những hướng xây dựng ontology chính là rút trích ontology từ các n
guồn dữ liu khác nhau. Các phương pháp rút trích ontology sử dụng nhiều cách thứ
c khác nhau từ các phương pháp máy học, xử lý ngôn ngữ tự nhiên cho đến thống k
ê. Các phương pháp sử dụng vic xử lý ngôn ngữ tự nhiên dựa trên việc phân tích từ
vựng, cú pháp của tập hợp các văn bản thuộc về một domain nào đó, từ đó rút trích
ra các khái niệm và dựa vào mối quan hệ cú pháp và từ vựng để xây dựng nên mối
quan hệ về mặt ngữ nghĩa giữa các khái niệm. Phương pháp rút trích ontology dựa
vào vic thống kê sẽ tiến hành thống kê trên các nguồn dữ liu để rút trích ontology.
Các phương pháp sử dụng vic học máy sẽ khai thác các nguồn dữ liu nhằm rút ra
các đặc trưng của dữ liu, các khuôn mẫu cũng như các tập luật phục vụ cho vic rú
t trích ontology.
Một trong những hướng tiếp cận đáng quan tâm là rút trích ontology từ dữ liu
web. Các nguồn dữ liu được dùng trong vic rút trích ontology khá đa dạng, từ dữ l
iu dạng văn bn, dữ liu quan h trong các cơ sở dữ liu quan h, cho đến dữ liu t
ừ web. Trong đó nguồn dữ liu từ web có lợi thế là nguồn thông tin phong phú, đa d
ạng, và có sẵn trên internet. Đây là một kho thông tin rất lớn. Trong các phương phá
p rút trích ontology, nhóm tác gi [xxx] đã đưa ra một quy trình chung trong vic rú

16
t trích ontology từ dữ liu web. Nhóm tác gi đưa ra một mô hình chung bao gồm 6

bước nhưng trong đó nhóm tác gi đã không trình bày hết các bước hin thực hóa q
uy trình đó và đồng thời vic hin thực hóa quy trình này dẫn đến những vấn đề kỹ t
huật khác. Quy trình được nhóm tác gi này đưa ra có mức độ tổng quát cao để áp d
ụng được trong nhiều chủ đề, ngôn ngữ, lĩnh vực. Quy trình được đưa ra có nhiều k
h năng tùy biến về sau, nên mục tiêu của đề tài này được đặt ra như sau.
1.3 Mục tiêu đề tài
Nghiên cứu tổng quan về ontology cũng như các hướng tiếp cận trong vic xây d
ựng ontology, trong đó đặc bit quan tâm đến hướng tiếp cận rút trích ontology từ d
ữ liu web; phân tích quy trình do nhóm tác gi [xxx] đề xuất; xây dựng Ontology E
xtractor Framework để hin thực hóa quy trình này và đề xuất những ci tiến minh h
ọa cho framework; hin thực hóa các module cụ thể để triển khai vào framework nà
y.
1.4 Nội dung luận văn
Luận văn bao gồm 6 chương, nội dung chính từng chương như sau:
Chương 1: Mở đầu
Trình bày sơ lược khái nim ontology, vai trò của ontology trong các lĩnh vực kh
ác nhau, và các hướng tiếp cận khác nhau để xây dựng ra các ontology
Chương 2: Tổng quan Ontology
Trình bày sơ lược nguồn gốc của khái nim ontology cũng như các định nghĩa k
hác nhau về ontology của các nhóm tác gi. Ngoài ra, nội dung chương còn đề cập đ
ến các loại ontology khác nhau cũng như các cách biểu diễn ontology và ứng dụng c
ụ thể của những ontology vào các lĩnh vực khác nhau.
Chương 3: Các hướng tiếp cận trong vic xây dựng Ontology
Trình bày các nguồn dữ liu được sử dụng trong vic xây dựng ontology cũng n
hư tổng quan các phương pháp xây dựng nên ontology. Nội dung chương còn để cậ

17
p đến tổng quát các phương pháp cụ thể để xây dựng ontology của các công trình ng
hiên cứu khác nhau.
Chương 4: Quy trình rút trích Ontology từ dữ liu web

Chương 5: Framework
Chương 6: Kết luận và hướng phát triển


Chương 2
Ontology

NộidungChương 2 giới thiệu ontology cũng như cách phân loại ontology và
các ứng dụng của nó:

Giới thiệu Ontology

Định nghĩa

Phân loại Ontology

Ứng dụng
2.1 Giới thiệu
Ontology trở thành một lĩnh vực nghiên cứu phổ biến có mặt trong nhiều lĩnh vực
từ xử lý ngôn ngữ tự nhiên, công ngh tri thức, các h thống trao đổi, tích hợp
thông tin cho đến biểu diễn và qun lý tri thức. Ontology cung cấp và chia sẻ
tri thức về một domain, giúp dễ dàng giao tiếp giữa người và các h thống ứng
dụng. Ontology được xây dựng để cung cấp các nguồn thông tin có ngữ nghĩa
mà máy tính có thể xử lý và thao tác được nhưng đồng thời vẫn có thể giao
tiếp được giữa người và phần mềm.
2.2 Định nghĩa

18
Ontology là một thuật ngữ có nguồn gốc từ Triết học diễn t các thực thể tồn tại
trong tự nhiên và các mối quan h giữa chúng.Ontology xuất hin trong Công ngh

Thông tin trong lĩnh vực Trí Tu Nhân Tạo nhằm gii quyết vấn đề về chia sẻ và tái
sử dụng tri thức. Trong nhiều năm qua, đã xuất hin nhiều định nghĩa khác nhau về
ontology như định nghĩa của Neches [],Ehrig Marc [],Sure York [],Guarino và Giar
etta [] và Bernaras Amaia []. Trong số những định nghĩa, định nghĩa của Gruber [] đ
ược nhóm sinh viênđánh giá là diễn t đúng nhất về ontology: "An ontology is an e
xplicit specification of a conceptualization."Ngoài ra, một định nghĩa khác rõ ràng
hơn donhóm tác giStuder và các đồng sự []đề ra dựa vào định nghĩa trên, đó là: "A
n ontology is a formal, explicit specification of a shared conceptualisation." Tro
ng đó, các tác gi đã gii thích cụ thể như sau: "conceptualisation" chỉ đến một mô h
ình trừu tượng của vài hin tượng nào đó, dùng để định danh các khái nim có liên
quan đến hin tượng này. "Explicit" chỉ các khái nim và các ràng buộc được sử dụ
ng đã được định nghĩa rõ ràng. "Formal" đề cập đến vấn đề máy có thể hiểu và thao
tác được trên ontology. Và cuối cùng "shared" diễn t ontology thể hin tri thức như
ng không giới hạn trong vài cá nhân mà được chấp nhận rộng rãi trong một nhóm.
Một ontology sẽ cung cấp bộ "từ vựng" các thuật ngữ (term) và quan h dùng để mô
hình hóa một domain.
2.3 Phân loại
Tùy theo mức độ tổng quát của ontology, chúng ta có thể phân ontology thành n
hững loại như sau []:
 Domain ontology diễn t tri thức của một domain cụ thể nào đó (ví dụ:
ontology về y khoa: MeSH [], GALEN [] hay ontology về sinh học: Gene
Ontology [], OBO []). Những ontology này cung cấp từ vựng về những
khái nim trong một domain và quan h giữa chúng.
 Metadata ontology cung cấp từ vựng dùng để mô t nội dung của các
nguồn thông tin trực tuyến. (ví dụ ontology Dublin Core []).
 Generic hay common sense ontology hướng đến thể hin tri thức chung,

19
cung cấp các ý nim và khái nim cơ bn về thời gian, không gian, trạng
thái, sự kin, … Do đó, các ontology này có thể sử dụng giữa các domain

khác nhau. Trong đó có thể kể đến WordNet []: bộ ontology này được xây
dựng nhằm mục đích mô t tiếng Anh bằng cách mô t từng thuật ngữ
trong tiếng Anh cùng các quan h cơ bn giữa chúng như đồng nghĩa,
phn nghĩa, … Ngoài ra còn có thể kể đến CYC []: ontology này mô t
chi tiết các tri thức như không gian, thời gian, và cung cấp các quan h
giữa chúng.

Hình 21 Đồ thị của một phần ontology WordNet []
 Representational ontology không đại din cho một domain nào cụ thể.
Những ontology này cung cấp những thực thể được dùng để đại din mà
không báo nó đại din cho cái gì. Một trong những ontology thuộc loại
này là Frame Ontology của Gruber [], ontology này định nghĩa những
khái nim như là frame, slot, và các ràng buộc slot cho phép biểu diễn tri
thức theo hướng đối tượng hoặc theo frame-based.
 Những loại ontology khác được gọi là method và task ontology. Task
ontology [] cung cấp các thuật ngữ cụ thể cho những tác vụ cụ thể và
method ontology cung cấp các thuật ngữ cụ thể cho các phương pháp gii

20
quyết vấn đề cụ thể (Problem Solving Method - PSM) [].
2.4 Ngôn ngữ biểu diễn ontology
Từ những năm 90, nhiều ngôn ngữ ontology đã ra đời, những ngôn ngữ này xuất
phát từ lĩnh vực Trí Tu Nhân Tạo. Chúng được gọi là những ngôn ngữ truyền thốn
g (Traditional Ontology Language) để phân bit với những ngôn ngữ mới hơn ra đờ
i sau thuộc về nhóm ngôn ngữ đánh dấu ontology (Ontology Markup Language). Cy
cL [] là một trong những ngôn ngữ ra đời đầu tiên phục vụ cho vic xây dựng ontol
ogy Cyc [].
Với sự phát triển nhanh chóng của Internet, những ngôn ngữ ontology với nền t
ng là ngôn ngữ web ra đời. Cú pháp của chúng dựa vào các ngôn ngữ đánh dấu (mar
kup language) đã tồn tại sẵn đó là HTML, hay XML (những ngôn ngữ đánh dấu này

vốn ra đời với mục đích không phi là thể hin ontology mà được dùng để thể hin
dữ liu và trao đổi dữ liu).

Hình 22 Các ngôn ngữ đánh dấu ontology []
SHOE do nhóm tác gi Luke và Hefin []đề xuất có thể xem như là ngôn ngữ đán
h dấu ontology đầu tiên. Ngôn ngữ này được xây dựng dựa trên HTML, nhưng sử d
ụng các thẻ khác nhờ đó cho phép thêm ontology vào các tài liu HTML (các thẻ nà
y không được định nghĩa trong ngôn ngữ HTML nên những gì thêm vào sẽ không h
in lên trên trình duyt web). Sau này SHOE được chuyển qua sử dụng trên nền XM
L.

21
RDF được đề xuất bởi Lassila và Swick [], ngôn ngữ này được phát triển tại W3
C (World Wide Web Consortium). Đây là ngôn ngữ tạo ra các siêu dữ liu (metadat
a) để mô t các tài nguyên web. Sau đó, RDF Schema do Brickley và Guha [] đưa ra
như là một bn mở rộng của RDF.
Dựa trên RDF, lần lượt ba ngôn ngữ khác xuất hin như là những ngôn ngữ mở r
ộng của RDF: OIL, DAML+OIL và OWL. OIL ra đời năm 2000 do Horrocks và cá
c đồng sự [] đề xuất, sau đó Horrocks và van Harmelen đưa ra DAML+OIL []vào n
ăm 2001. Cuối cùng là OWL, ra đời vào năm 2003 do Dean và Schreiber [] đề xuất.
Đây là kết qu của nhóm nghiên cứu Web-Ontology (WebOnt) do W3C thành lập v
ào năm 2001, mục tiêu của nhóm là nghiên cứu và phát triển một ngôn ngữ đánh dấ
u mới dành cho web ngữ nghĩa. OWL có hầu hết các chức năng của DAML+OIL.
2.5 Ứng dụng

Hình 23 Ba lĩnh vực ứng dụng của ontology []
2.5.1 Tìm Kiếm Thông Tin và Quản Lý Tri Thức
2.5.1.1 Nhược điểm trong các kỹ thuật tìm kiếm thông tin hiện tại
Với những nguồn thông tin khổng lồ hin tại, như là h thống thong tin trên mạn
g Internet, vic tìm kiếm thông tin cần thiết trở nên khá khó khăn.Mặc dù với sự xuấ

t hin của các công cụ tìm kiếm lớn nhưng hầu hết chúng đều là các máy tìm kiếm s
ử dụng từ khóa (keyword-based search engine). Nhược điểm của các máy tìm kiếm

22
này là các kết qu tr về thường chứa rất nhiều kết qu không liên quan đến nội dun
g tìm kiếm do chủ yếu chúng dựa vào sự xuất hin của từ khóa trong các văn bn trê
n Internet.
Ngoài ra, các kết qu ta thu được từ các máy tìm kiếm này thường là một danh s
ách các liên kết, và các thông tin văn bn hoặc hình nh được gán cho liên kết đó. Đ
iều này đòi hỏi người truy vấn phi duyt qua thông tin để lấy ra được thông tin họ
cần.Hơn nữa, kết qu của các truy vấn trên Internet khó có thể được sử dụng một cá
ch trực tiếp ở các chương trình khác.
Mặt khác các công cụ tìm kiếm hin tại không thực hin vic suy diễn nên khôn
g đưa ra được các đề nghị đến các vấn đề có liên quan đến vấn đề đang được truy vấ
n.
2.5.1.2 Giải pháp
OntoBroker [], [] sử dụng ontology để gán nhãn cho trang web, thực hin các tru
y vấn và đưa ra các câu tr lời. Các câu tr lời do h thống đưa ra dựa trên ngôn ngữ
có cú pháp được định nghĩa rõ ràng và có ngữ nghĩa, giúp cho các h thống tự động
khác có thể dễ dàng sử dụng các kết qu này. Các kết qu truy vấn được còn được t
hực hin thông qua vic suy diễn dựa vào ngữ nghĩa và các yếu tố khác.

Hình 24 Kiến trúc chung của hệ thống OntoBroker []

23

Hình 25 Một đoạn trang web được gán nhãn bằng OntoBroker []
Ngoài OntoBroker, còn có các h thống khác được phát triển dựa trên OntoBrok
er như On2broker [], IBROW [].
2.5.2 Thương mại Điện tử

2.5.2.1 Các vấn đề hiện tại trong việc trao đổi thông tin trong lĩnh vực
Thương mại Điện tử
Với sự phát triển của Internet, lĩnh vực Thương Mại Đin Tử trở thành một lĩnh
vực kinh doanh quan trọng và phát triển không ngừng.Những thuận lợi mà Thương
Mại Đin Tử đem lại cho hoạt động kinh doanh đã dẫn đến sự xuất hin của hàng lo
ạt các cửa hàng trực tuyến, các trang web bán hàng.Và giờ đây thao tác của người d
ùng là tìm kiếm cửa hàng nào có bán sn phẩm mà họ quan tâm.Nhưng vic duyt q
ua các trang này tốn khá nhiều thời gian và công sức trong khi chỉ duyt qua được s
ố ít các lời mời hàng thực sự. Vì lý do đó các h thống tự động xuất hin giúp cho n
gười dùng tìm kiếm và so sánh giá c các mặt hàng giữa các cửa hàng khác nhau. C
ách thức mà các h thống này sử dụng "shopbot" duyt qua các cửa hàng trực tuyến
và xây dựng các "wrapper", được viết khác nhau cho từng cửa hàng trực tuyến cụ th

24
ể. Các wrapper này sử dụng phương pháp tìm kiếm dựa vào từ khóa để tìm kiếm s
n phẩm mà người dùng quan tâm và thực hin biến đổi định dạng để thể hin lên mộ
t trang web tổng hợp chung. Vic sử dụng các wrapper này gặp phi các nhược điể
m:
 Thời gian và công sức bỏ ra để viết các wrapper này không nhỏ, và khi
các cửa hàng thay đổi cách thức trình bày thì wrapper phi được sửa
chữa.
 Nội dung được wrapper rút ra không đầy đủ và chủ yếu là giá c của
mặt hàng.
2.5.2.2 Giải pháp
Gii pháp được đưa ra là sử dụng ontology để mô t các sn phẩm khác nhau và
được ứng dụng vào vic định vị và tìm kiếm sn phẩm tự động với các thông tin có
sẵn.Ở đây ontology đóng vai trò chuẩn hóa các nhóm mặt hàng.Ngoài ra, ontology c
òn có công dụng giúp cho các h thống tự động giao tiếp với nhau dễ dàng. Các tran
g web hoạt động như là cổng thông tin chung, có nhim vụ thực hin các biến đổi tr
ên ontology giữa bên bán và bên mua, một số trang web là Chemdex (www.Chemd

ex.com), PaperExchange (www.paperexchange.com) và VerticalNet (www.vertical
net.com).
15.10.14

25

Hình 26 Market place sử dụng ontology []
2.5.3 Web ngữ nghĩa
Web truyền thống đã thay đổi và phát triển nhiều, trở thành nguồn thông tin lớn
nhất cũng như là phương tin chia sẻ và trao đổi thông tin thuận tin nhất hin nay.
Nền tng Web hin tại cung cấp nguồn thông tin rất lớn nhưng chỉ hỗ trợ cho con n
gười xử lý. Điều đó gây nhiều khó khăn trong vic tìm kiếm, rút trích và qun lý thô
ng tin đối với con người. Để gii quyết vấn đề này,Berners-Lee Tim, Hendler James
, và Lassila Ora đề xuất ra Web ngữ nghĩa (Semantic Web) []. Web ngữ nghĩa đượ
c định nghĩa như là sự mở rộng của Web hiện tại mà trong đó thông tin được địn
h nghĩa rõ ràng, giúp cho máy tính và con người cộng tác làm việc tốt hơn. Web
ngữ nghĩa cho phép diễn tả ngữ nghĩa của dữ liệu một cách tường minh để máy t
ính có thể hiểu được.
Một trong những nền tảng xây dựng lên Web ngữ nghĩa đó chính là ontology. N
hư đã đề cập ở 2.2, ontology cung cấp các thuật ngữ cùng các mối quan h giữa chú
ng theo một cách mà c con người lẫn máy tính đều có thể hiểu được. Các thuật ngữ
thường là một từ trong ngôn ngữ tự nhiên nên con người có thể hiểu dễ dàng. Các q
uan h ngữ nghĩa cũng có thể được hiểu một cách dễ dàng, ví dụ như quan h “is-

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×