Tải bản đầy đủ (.pdf) (83 trang)

Ứng dụng seantic web để xây dựng hệ thống tra cứu hiện vật tại bảo tàng đà nẵng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.65 MB, 83 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------

TRẦN KIM HOÀNG

ỨNG DỤNG SEMANTIC WEB ĐỂ XÂY DỰNG
HỆ THỐNGTRA CỨU HIỆN VẬT
TẠI BẢO TÀNG ĐÀ NẴNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS. TS Võ Trung Hùng

Đà Nẵng, 2017


I

LỜI CAM ĐOAN
Tôi xin cam đoan :
● Những nội dung trong luận văn này là do tôi thực hiện dƣới sự hƣớng dẫn trực
tiếp của PGS.TS. Võ Trung Hùng.
● Mọi tham khảo dùng trong luận văn đều đƣợc trích dẫn rõ ràng và trung thực
tên tác giả, tên cơng trình, thời gian, địa điểm công bố.
● Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu
hồn tồn trách nhiệm.
Tác giả


Trần Kim Hồng


II

MỤC LỤC
LỜI CAM ĐOAN…………………………………………………………………....... I
MỤC LỤC……………………………………………………………………………. II
CÁC CHỮ VIẾT TẮT……………………………………………………………… VI
DANH MỤC BẢNG BIỂU………………………………………………………... VII
DANH MỤC HÌNH ẢNH…………………………………………………………VIII
MỞ ĐẦU……………………………………………………………………………….1
1. Lý do chọn đề tài…………………………………………………………………. 1
2. Mục đích nghiên cứu……………………………………………………………... 2
3. Đối tƣợng và phạm vi nghiên cứu……………………………………………….. 2
4. Phƣơng pháp nghiên cứu………………………………………………………….2
5. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu……………………………. 2
6. Cấu trúc của luận văn…………………………………………………………….. 3
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN…………………………………………. 4
1.1. Web ngữ nghĩa…………………………………………………………………. 4
1.1.1. Những hạn chế của World Wide Web…………………………………….. 4
1.1.2. Sự ra đời của Web ngữ nghĩa……………………………………………... 4
1.1.3. Định nghĩa Web ngữ nghĩa………………………………………………... 6
1.2. Kiến trúc Web ngữ nghĩa………………………………………………………. 9
1.2.1. Giới thiệu………………………………………………………………….. 9
1.2.2. Định nghĩa và vai trò của các tầng trong kiến trúc Web ngữ nghĩa……... 10
1.2.2.1. Tầng Unicode và URI (Uniform Resource Identifier)……………… 10
1.2.2.2. Tầng XML…………………………………………………………... 10
1.2.2.3. Tầng RDF và RDF Schemma………………………………………..11
1.2.2.4. Tầng Ontology Vocabulary…………………………………………. 11

1.2.2.5. Tầng Lơ-gíc…………………………………………………………. 11
1.2.2.6. Tầng Proof…………………………………………………………... 11
1.2.2.7. Tầng Trust…………………………………………………………... 12
1.3. Nội dung xây dụng Web ngữ nghĩa…………………………………………... 12
1.3.1. XML và RDF trên Web………………………………………………….. 12
1.3.2. Các ngơn ngữ biểu diễn Ontology cho Web có ngữ nghĩa………………. 12
1.3.3. Phát triển nâng cao Web ngữ nghĩa ………………………………………13
1.4. Ontology……………………………………………………………………….13
1.4.1. Khái niệm Ontology ……………………………………………………...13
1.4.2. Mục đích xây dựng Ontology …………………………………………….14
1.4.3. Yêu cầu khi sử dụng Ontology …………………………………………...15
1.4.4. Các thành phần Ontology ………………………………………………...16


III
1.4.5. Ngôn ngữ OWL …………………………………………………………..17
1.4.6. Công cụ phát triển Ontology……………………………………………...18
1.5. Ứng dụng và triển vọng của Web ngữ nghĩa ………………………………….19
1.5.1. Search Engine …………………………………………………………….19
1.5.2. Internet Agent …………………………………………………………….20
1.5.3. Push System ………………………………………………………………21
1.5.4. Relationship ………………………………………………………………21
1.6. Một số ứng dụng của Web ngữ nghĩa vào lĩnh vực bảo tàng trên thế giới ……21
1.6.1. Europeana ………………………………………………………………...21
1.6.2. CHIP (Cultural Heritage Information Personalization) …………………..22
1.6.3. Ama (Archive Mapper for Archaeology) ………………………………...23
1.6.4. E-Culture………………………………………………………………….23
1.6.5. The Museum Finland Portal ……………………………………………...24
1.6.6. The Reach Project ………………………………………………………...24
1.6.7. The Museum24 Project …………………………………………………...24

1.6.8. Cantabria Cultural Heritage Semantic Portal……………………………..25
1.6.9. CultureSampo Portal ……………………………………………………...25
1.6.10. Cultura Italia Project ( />1.6.11. Sisc Project ……………………………………………………………...25
CHƢƠNG 2: GIẢI PHÁP ĐỀ XUẤT………………………………………………26
2.1. Bảo tàng Đà Nẵng ……………………………………………………………..26
2.1.1. Giới thiệu …………………………………………………………………26
2.1.2. Ứng dụng CNTT tại Bảo tàng…………………………………………….29
2.2. Giới thiệu bài toán ……………………………………………………………..31
2.2.1. Yêu cầu bài toán ………………………………………………………….31
2.2.2. Phân tích vấn đề …………………………………………………………..31
2.3. Giải pháp ………………………………………………………………………33
2.3.1. Phác thảo kiến trúc t ng thể hệ thống …………………………………….34
2.3.2. Giải quyết yêu cầu tìm kiếm ……………………………………………...34
2.3.3. Các chức năng cơ bản của ứng dụng ……………………………………..36
2.3.4. Quy trình xây dựng Web ngữ nghĩa ……………………………………...36
2.4. Các công cụ h trợ …………………………………………………………….39
2.4.1 Công cụ xây dựng ứng dụng Protégé……………………………………...39
2.4.2 Bộ Visual Studio.Net ……………………………………………………...41
2.4.3. Thƣ viện phát triển ứng dụng …………………………………………….42
2.4.3.1. SemWeb ……………………………………………………………..42
2.4.3.2. OwlDotNetApi ………………………………………………………42
2.5. Phân tích và thiết kế hệ thống …………………………………………………42
2.5.1. Biểu đ Use Case …………………………………………………………42


IV
2.5.2. Biểu đ lớp………………………………………………………………..45
2.5.3. Biểu đ hoạt động ………………………………………………………...45
2.5.3.1. Đăng nhập, đăng xuất ……………………………………………………..46
2.5.3.2. Cập nhật dữ liệu ……………………………………………………………47

2.5.3.3. Xem thơng tin hiện vật……………………………………………………..48
2.5.3.4. Tìm kiếm hiện vật …………………………………………………………..49
CHƢƠNG 3 : X Y DỰNG HỆ TH NG …………………………………………..50
3.1. Mơ hình kiến trúc t ng thể của hệ thống………………………………………50
3.2. Phát triển ứng dụng …………………………………………………………....52
3.2.1. Qui trình phát triển ứng dụng …………………………………………….52
3.2.2. Xây dựng Ontology ………………………………………………………52
3.2.3. Xây dựng kết nối truy xuất dữ liệu t ontology sang giao diện web ……..56
3.2.3.1. Khai báo sử dụng thư viện OwlDotNetApi……………………………...56
3.2.3.1. Khai báo truy vấn thơng tin……………………………………………….57
3.2.4. Một số thuật tốn đƣợc sử dụng để khai thác dữ liệu …………………….57
3.2.4.1. Điền dữ liệu …………………………………………………………………57
3.2.4.2. Duyệt theo ngữ nghĩa………………………………………………………57
3.2.4.3. Tìm kiếm cơ bản…………………………………………………………….58
3.2.5. Xây dựng giao diện ……………………………………………………….58
3.2.5.1. Trang chính của hệ thống …………………………………………………58
3.2.5.3. Hiển thị thông tin của một hiện vật .……………………………………..59
3.2.5.4. Trang đăng nhập của quản trị hệ thống…………………………………60
3.2.5.5. Trang chính của quản trị hệ thống……………………………………….60
3.2.5.6. Trang Thêm mới hiện vật ………………………………………………….61
3.3. Triển khai hệ thống ……………………………………………………………61
3.4. Đánh giá kết quả của hệ thống ………………………………………………...62
ẾT LU N …………………………………………………………………………..63
DANH MỤC TÀI LIỆU THAM HẢO …………………………………………...65


V
NG DỤNG SEMANTIC WEB ĐỂ X Y DỰNG HỆ TH NG TRA C U
HIỆN V T TẠI BẢO TÀNG ĐÀ NẴNG
Học viên: Trần Kim Hồng

Mã số:

Khố: 32

Chun Ngành: Khoa học máy tính
Trƣờng Đại học Bách Khoa - ĐHĐN

Tóm tắt - Hiện nay ở một số quốc gia tiên tiến trên thế giới, cơng việc số hóa thơng tin bảo
tàng để xây dựng bảo tàng điện tử đƣợc thực hiện cách đây hơn chục năm và trên thực tế, họ
đã xây dựng thành cơng một số mơ hình “Bảo tàng điện tử”. Tuy nhiên ở nƣớc ta bảo tàng
điện tử vẫn chƣa đƣợc áp dụng rộng rãi. Nghiên cứu này đƣợc đề xuất nhằm số hóa thơng tin
hiện vật của bảo tàng, cũng nhƣ đƣa ra giải pháp để tìm kiếm thông tin hiện vật trong bảo tàng
đây là một phần nhỏ nhằm góp phần xây dựng bảo tàng điện tử. Bài báo cáo g m có tìm hiểu
lý thuyết t ng quan về công nghệ Semantic Web, khái niệm Semantic Web, các ngơn ngữ và
cơng cụ xây dựng. Số hố cở sở dữ liệu hiện vật của bảo tàng. T đó xây dựng website tìm
kiếm thơng tin hiện vật của bảo tàng.
Từ khoá - Semantic Web, Website, bảo tàng, ontology, sparql, protégé.

SEMATIC WEB APPLICATION TO BUIILD THE INSPECTION SYSTEM
ARTIFACTS IN THE MUSEUM DA NANG
Sumary - At present in some advanced countries in the world, the digitization of museum
information to build electronic museums has been done more than a decade ago and, in fact,
they have successfully built some model "Electronic Museum". However, electronic museums
have not yet been widely applied in Vietnam. This research was proposed to digitize the
museum's artifacts as well as to provide a way to find information about the museum's
artifacts. This is a small part of the museum's contribution to electronic museums. The report
includes an overview of the semantic Web semantic theory, Semantic Web concepts,
languages and build tools. Digitize the Museum's database of artifacts. From there, the
Museum's website will be searched for information.
Keyword - Semantic Web, Website, museum, ontology, sparql, protégé.



VI

CÁC CHỮ VIẾT TẮT
CSDL

Cơ sở dữ liệu

DAML

DARPA Markup Language

HTML

HyperText Markup Language

HTTP

HyperText Transfer Protocol

IRI

Internationalized Resource Identifier

ISO

International Organization for Standards

IWS


Institute of Web Science

OIL

Ontology Inference Layer

OWL

Web Ontology Language

RDF

Resource Description Framework

RDFS

Resource Description Framework Schema

SGML

Standard Generalized Markup Language

SWSE

Semantic Web Search Engine

URI

Semantic Web Search Engine



VII

DANH MỤC BẢNG BIỂU
Số hiệu bảng biểu

Tên bảng biểu

Trang

1.1

Các công cụ phát triển Ontology

19

2.1

Các tầng của Bảo tàng Đà Nẵng

27

2.2

Use case đăng nhập

43

2.3


Use case cập nhật dữ liệu

43

2.4

Use case xem thơng tin

44

2.5

Use case tìm kiếm

44


VIII

DANH MỤC HÌNH ẢNH
Số hiệu hình ảnh

Tên hình vẽ

Trang

1.1

Sự hình thành và phát triển của Web ngữ nghĩa


5

1.2

Quá trình phát triển công nghệ Web trong tƣơng lai

6

1.3

Một đề xuất ngu n gốc Web với CERN

7

1.4

Sơ đ phát triển tính thơng minh của dữ liệu

8

1.5

Kiến trúc Web ngữ nghĩa theo đề xuất của Tim
Berners Lee

9

1.6


Sự cần thiết của Ontology trong quá trình chia sẻ tri
thức

15

1.7

Data Providers of Chip

23

2.1

Giao diện Web của Bảo tàng Đà Nẵng

29

2.2

Trang giới thiệu về hiện vật của Bảo tàng Đà Nẵng

30

2.3

Các bƣớc xây dựng hệ thống

33

2.4


Kiến trúc hệ thống

34

2.5

Mô tả suy luận ngang cấp trong Web Semantic

35

2.6

Mô tả suy luận ngƣợc trong Web Semantic

35

2.7

Giao tiếp bằng đ hoạ của Protégé

40

2.8

Biểu đ use case

42

2.9


Biểu đ lớp

45

2.10

Biểu đ hoạt động đăng nhập, đăng xuất

46

2.11

Biểu đ hoạt động cập nhật dữ liệu

47

2.12

Biểu đ hoạt động xem thông tin hiện vật

48

2.13

Biểu đ hoạt động tìm kiếm hiện vật

49

3.1


Mơ hình kiến trúc t ng thể của hệ thống

50

3.2

Quy trình truy xuất dữ liệu của tầng Search engine

51

3.3

Các lớp trong Ontology

53


IX
3.4

Object Properties

54

3.5

Data properties

55


3.6

Các cá thể trong Ontology

56

3.7

Trang chính cho hệ thống

58

3.8

Trang tìm kiếm

59

3.9

Thơng tin của hiện vật

59

3.10

Trang đăng nhập của quản trị viên

60


3.11

Trang chính của quản trị hệ thống

60

3.12

Trang thêm mới hiện vật

61

3.13

Mơ hình triển khai

61


1

MỞ ĐẦU
1. Lý do chọn đề tài
Hiện nay, với sự phát triển của khoa học kĩ thuật và công nghệ ngành bảo tàng
ngày càng phát triển, ngày càng nhiều hiện vật, tƣ liệu khảo c đƣợc tìm thấy. Cùng
với các hiện vật là kho thông tin và tƣ liệu kh ng l về các hiện vật đƣợc tìm thấy mà
các nhà khoa học đã nghiên cứu và phát hiện ra.
Bên cạnh đó, cùng với sự phát triển mạnh mẽ của công nghệ thông tin, ứng
dụng của công nghệ thông tin trong lĩnh vực bảo tàng đang phát triển mạnh và tạo ra

những thay đ i lớn trong công tác bảo tàng.
Có rất nhiều cách tiếp cận khác nhau khi ứng dụng công nghệ thông tin trong
lĩnh vực bảo tàng. Ở một số quốc gia tiên tiến trên thế giới, công việc số hóa thơng tin
bảo tàng để xây dựng bảo tàng điện tử đƣợc thực hiện cách đây hơn chục năm, trên
thực tế, họ đã xây dựng thành công một số mơ hình bảo tàng điện tử. Bảo tàng điện tử
cho phép cung cấp dễ dàng và thuận lợi đến khách tham quan toàn bộ các hiện vật của
bảo tàng cũng nhƣ toàn bộ giá trị phi vật thể tiềm ẩn trong nó. Ở Việt Nam, trong vài
năm gần đây, một số bảo tàng đã bắt đầu ứng dụng công nghệ thông tin trong hoạt
động nghiệp vụ và bƣớc đầu đã có những hiệu quả thực sự.
Nhƣ chúng ta đã biết, hiện vật và các hoạt động liên quan đến hiện vật là vấn đề
chính yếu của một bảo tàng. Vì vậy, cơ sở của bảo tàng số hóa là việc ứng dụng khoa
học, kĩ thuật thông tin điện tử vào tất cả những thông tin trong bảo tàng và mọi hoạt
động nghiệp vụ của bảo tàng. Các hiện vật trong bảo tàng, theo quan niệm truyền
thống, là một bản gốc, nên khi đƣợc số hóa, sẽ tạo ra một bản thông tin mô phỏng lƣu
trữ trong bộ nhớ của máy tính, t đó đem đến nhiều thuận lợi trong phƣơng thức khai
thác thơng tin. Trên cơ sở số hóa, máy tính sẽ thay thế phần lớn các thao tác của cán
bộ bảo tàng trong mọi khâu quản lý, sử dụng hiện vật và tự động hóa các khâu này.
Tuy nhiên, các ứng dụng hiện nay vẫn d ng lại ở việc cung cấp thông tin chứ
chƣa cung cấp đƣợc những tri thức cần thiết nên đã có những khó khăn nhất định trong
việc tìm hiểu, tra cứu.
Vì vậy, đề tài “Ứng dụng sematic web để xây dựng hệ thống tra cứu hiện vật
tại Bảo tàng Đà Nẵng” đi sâu vào việc số hoá các dữ liệu của Bảo tàng sau đó xây
dựng tri thức dựa trên tƣ liệu của các hiện vật đã đƣợc số hoá nhằm phục vụ cho việc
tìm hiểu và tra cứu một cách dễ dàng hơn.


2

2. Mục đích nghiên cứu
Đề tài hƣớng đến việc số hố dữ liệu các hiện vật đang có của Bảo tàng, sau đó

dựa trên cơ sở dữ liệu có đƣợc để xây dựng một ontology đầy đủ về các hiện vật của
Bảo tàng. T ontology v a xây dựng tiếp tục xây dựng hệ thống tìm kiếm hiện vật cho
bảo tàng.

3. Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu của đề tài là các vấn đề liên quan đến Semantic Web nhƣ
phƣơng pháp để xây dựng và lƣu trữ dữ liệu trong Semantic Web và các công cụ dùng
để xây dựng Semantic Web.
Phạm vi nghiên cứu của đề tài là các hiện vật của Bảo tàng Đà Nẵng. Hiện nay
Bảo tàng Đà Nẵng có khoảng hơn 3000 hiện vật đƣợc trƣng bày. Tuy nhiên trong đề
tài này tôi chi t ng hợp thông tin của 600 hiện vật về lịch sử các thời kỳ chiến tranh, về
điều kiện tự nhiên, về văn hoá của các dân tộc, về Đà Nẵng thời tiền sơ sử. Ứng dụng
tìm kiếm thơng tin của hiện vật đƣợc xây dựng và kiểm thử ở phạm vi Bảo tàng Đà
Nẵng.

4. Phƣơng pháp nghiên cứu
Về mặt lý thuyết tập trung nghiên cứu về các vấn đề liên quan đến sematic web
và việc xây dựng bảo tàng điện tử. Tìm hiểu về số hố dữ liệu liên quan đến bảo tàng.
Nghiên cứu về quá trình xây dựng một công cụ search engine.
Phƣơng pháp thực nghiệm tập trung vào việc số hoá dữ liệu và xây dựng kho dữ
liệu các hiện vật của bảo tàng. Xây dựng ontology các hiện vật của bảo tàng. Xây dựng
công cụ search engine, xây dựng website tìm kiếm hiện vật của bảo tàng, triển khai
thực tế trên Internet.

5. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu
Về mặt khoa học đề tài đóng góp một cơng cụ tìm kiếm các hiện vật theo công
nghệ sematic web dành riêng cho bảo tàng. Phƣơng pháp xây dựng ontology về các
hiện vật của bảo tàng. Số hoá đƣợc một phần dữ liệu về các hiện vật của bảo tàng.
Về thực tiễn đề tài bƣớc đầu mở ra hƣớng nghiên cứu để t ng bƣớc xây dựng bảo
tàng điện tử cho Bảo tàng Đà Nẵng. Giúp bảo tàng t ng bƣớc số hố đƣợc dữ liệu về

hiện vật hiện có.


3

6. Cấu trúc của luận văn
Bố cục của luận văn g m có 3 chƣơng nhƣ sau:
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN
Trong chƣơng này của đề tài trình bày cơ sở lý thuyết về Sematic Web và một số
ứng dụng thành cơng về bảo tàng trên thế giới có sử dụng công nghệ Sematic Web.
CHƢƠNG 2: GIẢI PHÁP ĐỀ XUẤT
Chƣơng này giới thiệu về Bảo tàng Đà Nẵng và thực trạng ứng dụng công nghệ
thông tin vào lĩnh vực bảo tàng của Bảo tàng Đà Nẵng. Phân tích ƣu điểm và nhƣợc
điểm của website bảo tàng hiện nay. T đó, đề xuất xây dựng hệ thống tìm kiếm hiện
vật hiệu quả hơn.
CHƢƠNG 3: XÂY DỰNG HỆ THỐNG
Dựa trên những đề xuất ở chƣơng 2, tiến hành phân tích, thiết kế và xây dựng
ontology, xây dựng hệ thống tìm kiếm hiện vật của bảo tàng.
Ngoài ra, để đánh giá toàn bộ q trình nghiên cứu, phần cuối của luận văn có nêu lên
kết quả và hƣớng phát triển cho đề tài.


4

CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN
Trong chƣơng này giới thiệu các khái niệm t ng quan về Web ngữ nghĩa, các
ngôn ngữ và công cụ xây dựng Web ngữ nghĩa tính đến thời điểm hiện nay. Tìm hiểu
kiến trúc Web ngữ nghĩa, ứng dụng và triển vọng của Web ngữ nghĩa trong tƣơng lai.
Đ ng thời trong chƣơng này cũng tìm hiểu về một số ứng dụng của Web ngữ nghĩa
vào lĩnh vực bảo tàng trên thế giới.


1.1. Web ngữ nghĩa
1.1.1. Những hạn chế của World Wide Web
World Wide Web (gọi tắt là Web) đƣợc sáng lập bởi Tim Berners - Lee đã trở
thành một kho tàng thông tin kh ng l của nhân loại và một môi trƣờng chuyển tải
thông tin không thể thiếu đƣợc trong thời đại công nghệ thơng tin ngày nay và nó cũng
chính là linh h n của Internet.
Thông tin trên Internet thƣờng đƣợc t chức dƣới dạng siêu văn bản, chúng đƣợc
tạo ra bằng ngơn ngữ đánh dấu siêu văn bản HTML. Để tìm kiếm các trang Web nói
riêng, các tài nguyên trên Internet nói chung và đảm bảo việc truy cập đến chúng
ngƣời ta sử dụng hệ thống mạng toàn cầu WWW. Hệ thống mạng toàn cầu WWW
đƣợc cấu thành t các trang Web và đƣợc xây dựng trên giao thức truyền tin đặc biệt,
gọi là giao thức truyền tin siêu văn bản HTTP.
Hệ thống mạng toàn cầu WWW ngày càng trở nên rộng khắp thông qua một loạt
các tiêu chuẩn đƣợc thiết lập rộng rãi và đảm bảo đƣợc các thành phần ở các mức độ
khác nhau. Giao thức TCP IP đảm bảo rằng chúng ta không phải lo lắng về việc
chuyển t ng bit dữ liệu thông qua hệ thống mạng nữa. Tƣơng tự nhƣ vậy, HTTP và
HTML đã cung cấp các cách tiêu biểu để có thể nhận thơng tin và trình diễn các tài
liệu siêu văn bản.
Tuy nhiên, trên thực tế có một khối lƣợng kh ng l các tài nguyên trên Web, điều
đó đã đặt ra thách thức làm sao để khai thác thông tin trên Web một cách hiệu quả, mà
cụ thể là làm thế nào để máy tính có thể trợ giúp xử lý tự động đƣợc chúng. Muốn vậy,
web phải có khả năng mơ tả các sự vật theo cách mà máy tính có thể “hiểu” đƣợc, có
thể tích hợp dữ liệu, cũng nhƣ tái sử dụng dữ liệu thông qua các ứng dụng khác nhau.

1.1.2. Sự ra đời của Web ngữ nghĩa
World Wide Web (WWW) chứa một thông tin kh ng l , đƣợc tạo ra t các t
chức, cộng đ ng khác nhau trên khắp thế giới. Nhờ vào WWW, kiến thức con ngƣời
đã tăng tiến một cách đáng kể. Ngƣời ta ƣớc tính, chỉ trong vịng vài chục năm, lƣợng
kiến thức của nhân loại đã tăng gấp đơi. Tính đơn giản và ph biến của WWW đã



5
mang lại cho con ngƣời quá nhiều lợi ích. Con ngƣời có thể trao đ i thơng tin ở khắp
mọi nơi.
Tuy nhiên, các trang Web hiện nay hầu hết đƣợc sử dụng bởi con ngƣời, máy
tính chỉ có nhiệm vụ gửi nhận dữ liệu và thể hiện thông tin dƣới dạng mà chỉ có con
ngƣời mới đọc hiểu đƣợc. Ngƣời sử dụng phải làm nhiệm vụ tìm kiếm, suy luận, t ng
hợp và trích rút thơng tin mình cần. Điều đó đã đặt ra thách thức là làm sao để khai
thác thơng tin trên Web hiệu quả hay nói cách khác là làm thế nào để máy tính có thể
xử lý tự động đƣợc chúng. Muốn vậy thì Web phải có khả năng mơ tả thơng tin theo
cách mà máy tính có thể hiểu đƣợc. Để chúng ta dễ dàng có đƣợc một kết quả tìm
kiếm chính xác, nhanh chóng và hiểu dần tới ngữ nghĩa vấn đề chúng ta mong muốn.

Hình 1.1: S hình th nh v phát triển của

eb ngữ nghĩa

Hình trên thể hiện sự kế th a và phát triển các thế hệ Web trong quá trình phát
triển công nghệ Web. T thế hệ Web đầu tiên là những trang HTML thủ công đến
Web hiện tại – Web 2.0 đã dùng các liên kết URI, ngôn ngữ HTLM, XML và đã đạt
đƣợc những thành tựu đáng kể trong việc tìm kiếm. Tuy nhiên, ở thế hệ Web này
thông tin đƣợc biểu diễn dƣới dạng văn bản thô, chỉ có con ngƣời mới đọc và hiểu
đƣợc thì việc tìm kiếm trong một lƣợng lớn thơng tin ngày càng ít hiệu quả hơn. Hơn
nữa nhu cầu của ngƣời dùng khơng d ng lại ở đó mà cịn địi hỏi thông tin trên Web


6
phải đƣợc định nghĩa rõ ràng sao cho con ngƣời và máy tính có thể làm việc với nhau
một cách có hiệu quả hơn. Web 3.0 - Web ngữ nghĩa ra đời nhằm đáp ứng những yêu

cầu về xử lý và tìm kiếm thơng tin, cho phép chúng ta xây dựng những CSDL phục vụ
tìm kiếm chính xác.

Hình 1.2: Q trình phát triển cơng nghệ

eb trong tương lai

1.1.3. Định nghĩa Web ngữ nghĩa
Web ngữ nghĩa đƣợc hình thành t ý tƣởng của Tim Berners-Lee, ngƣời phát
minh ra WWW, URI, HTTP và HTML. Tim Berners-Lee đã định nghĩa: “The
Semantic Web is an extension of the current Web in which information is given welldefined meaning, better enabling computers and people to work in cooperation” .
Web ngữ nghĩa là sự mở rộng của Web hiện tại mà trong đó thơng tin đƣợc định
nghĩa rõ ràng sao cho con ngƣời và máy tính có thể làm việc với nhau một cách hiệu
quả hơn. Theo định nghĩa của T chức World Wide Web, Web ngữ nghĩa đƣợc hiểu
nhƣ sau:
Web ngữ nghĩa là một cách nhìn về cách thức t chức dữ liệu, đó là ý tƣởng về
việc dữ liệu trên Web đƣợc định nghĩa và liên kết theo một cách mà nó có thể đƣợc sử
dụng bởi máy tính, với mục đích khơng chỉ cho việc hiển thị mà cịn tự động hóa, tích
hợp và sử dụng lại dữ liệu qua các ứng dụng khác nhau.
Web ngữ nghĩa là một mạng lƣới các thông tin đƣợc liên kết sao cho chúng có
thể đƣợc xử lý dễ dàng bởi các máy tính ở phạm vi tồn cầu. Nó đƣợc xem là cách mơ
tả thơng tin rất hiệu quả trên World Wide Web, và cũng đƣợc xem là một cơ sở dữ liệu
có khả năng liên kết toàn cầu W3C .


7
Tim Berners-Lee đã đƣa ra hai vấn đề của Web ngữ nghĩa là tạo cho Web một
môi trƣờng cộng tác tốt hơn và máy có thể hiểu và xử lý tự động các thơng tin trên
Web.


Hình 1.3: Một đề xuất nguồn gốc

eb với CERN

Cái nhìn này rất phức tạp và phức tạp hơn nhiều so với việc lọc ra các trang
HTML t các dịch vụ Web hiện tại. Nhƣng trong hình này, có các mối quan hệ giữa
các thơng tin nhƣ: includes , describes , rote , đây là các mối quan hệ giữa các tài
nguyên mà trong Web hiện tại khơng có. Các quan hệ này đƣa vào Web ngữ nghĩa là
cần thiết để máy có thể hiểu, xử lý thông tin tự động trên Web và đƣợc gọi là các siêu
dữ liệu. Chúng đƣợc tạo nên bởi công nghệ RDF (Resource Description Framework).
Để có thể tạo ra Web có dữ liệu mà máy có thể xử lý đƣợc, trƣớc hết phải thay
đối mơ hình trong cách chúng ta nghĩ về dữ liệu. T trƣớc đến nay, dữ liệu bị khoá
ngay trong các ứng dụng độc quyền. Dữ liệu đƣợc coi nhƣ thứ yếu để xử lý dữ liệu cụ
thể là sự phụ thuộc giữa xử lý và dữ liệu. Hay nói cách khác, phần mềm tốt thì hồn
tồn phụ thuộc vào dữ liệu tốt. Với các hệ tính tốn chun nghiệp thì ngay khi bắt đầu
thực hiện, vấn đề dữ liệu là rất quan trọng, nó phải đƣợc xác minh và bảo vệ.
Với Web, XML và xu thế Web ngữ nghĩa đang n i lên thì có sự thay đ i của sức
mạnh đang di chuyển t các ứng dụng sang dữ liệu. Vấn đề này cũng cho chúng ta
mấu chốt để hiểu Web ngữ nghĩa. Con đƣờng để máy có thể xử lý dữ liệu chủ yếu là
tạo ra dữ liệu thông minh hơn chứ không phải là các xử lý thông minh.


8
Sự phát triển liên tục của tính thơng minh dữ liệu có bốn bậc quan trọng. Bốn bậc
này biểu diễn t dữ liệu có tính thơng minh thấp nhất đến dữ liệu đã có thơng tin đủ
ngữ nghĩa để máy thực hiện suy luận về nó.

Hình 1.4: Sơ đồ phát triển tính thơng minh của dữ liệu
n bản và c s d iệu bậc này à ti n
Bậc đầu tiên, hầu hết dữ liệu ở bậc này đƣợc sở hữu độc quyền cho một ứng

dụng. Do vậy tính thơng minh là nằm trong ứng dụng đó chứ khơng phải là trong dữ
liệu.
ài iệu
v i mi n đ n
Ở bậc này, dữ liệu đạt đƣợc là ứng dụng độc lập với miền riêng. Bây giờ, dữ liệu
đủ thơng minh để có thể di chuyển giữa các ứng dụng trong một miền đơn.
C c phân oại và tài iệu v i c c b t vựng h n h p
Trong bậc này, dữ liệu có thể đƣợc soạn t đa miền và đƣợc phân lớp chính xác
theo một nguyên tắc phân loại có thứ bậc. Thực tế, sự phân lớp đó có thể đƣợc sử dụng
để khám phá dữ liệu. Các quan hệ đơn giản giữ các lớp có thể đƣợc sử dụng để quan
hệ và do vậy, ta có dữ liệu kết hợp. Nhƣ vậy, dữ liệu bây giờ thông minh đủ để khám
phá dễ dàng và đƣợc kết hợp một cách hợp lý với dữ liệu khác.
C c nto ogy và c c uật ập uận
Trong mức này, dữ liệu mới có thể đƣợc suy ra t những dữ liệu đã có theo các
luật lơ-gíc. Thực chất, dữ liệu bây giờ thông minh đủ để đƣợc mô tả với các quan hệ cụ
thể và các dạng hình thức phức tạp. Điều này cho phép kết hợp hoặc tái kết hợp dữ liệu
nguyên thu nhiều hơn và sự phân tích về dữ liệu mịn hơn.Một ví dụ về sự phức tạp
của dữ liệu là việc chuyển tự động tài liệu trong một miền này sang một tài liệu tƣơng
đƣơng trong một miền khác. Ở mức này, ta có thể soạn một định nghĩa mới trên Web
ngữ nghĩa, máy có thể xử lý các tài liệu Web có dữ liệu thơng minh. Hơn nữa, ta có thể


9
định nghĩa dữ liệu thơng minh vì dữ liệu nó độc lập với ứng dụng, có thể soạn, phân
lớp và lấy một phần của các hệ thông tin lớn hơn.
Nhƣ vậy, việc xây dựng Web ngữ nghĩa chủ yếu tập trung xây dựng hệ thống
Web có dữ liệu thơng minh. Dữ liệu thơng minh ở đây khơng có nghĩa là gắn liền với
trí tuệ nhân tạo, khơng phải là cho máy học hiểu các t ngữ của con ngƣời hay máy xử
lý đƣợc ngơn ngữ tự nhiên mà nó thơng minh bởi việc t chức lựa chọn dữ liệu biểu
diễn trong ngơn ngữ đƣợc cấu trúc để máy có thể hiểu.


1.2.

iến trúc Web ngữ nghĩa

1.2.1. Giới thiệu
Tim Berners Lee đã đề xuất mơ hình kiến trúc Web ngữ nghĩa đầu tiên đây là mơ
hình kiến trúc g m các thần phần chính của Web ngữ nghĩa. Mơ hình kiến trúc của
Web ngữ nghĩa đƣợc thay đ i theo t ng thời điểm nhất định cho thấy công nghệ Web
ngữ nghĩa vẫn cịn đang hồn thiện và phát triển theo thời gian.
Web ngữ nghĩa đƣợc xây dựng trên nền hệ thống web hiện tại. Web ngữ nghĩa
đƣợc coi là sự mở rộng của Web hiện tại có b sung thêm ngữ nghĩa vào dữ liệu trên
web. Hình 1.3 chỉ ra sơ đ kiến trúc của Web ngữ nghĩa.

Hình 1.5: Kiến trúc

eb ngữ nghĩa theo đề xuất của Tim Berners Lee

T sơ đ kiến trúc, ta thấy Web ngữ nghĩa có bảy tầng kiến trúc. Trong đó, hệ
thống Web hiện tại (World Wide Web) đang ở tầng thứ hai. Tất cả các tầng của Web
ngữ nghĩa đƣợc sử dụng để đảm bảo độ an tồn và giá trị thơng tin trở nên tốt nhất.


10

1.2.2. Định nghĩa và vai trò của các tầng trong kiến trúc Web ngữ nghĩa
ng nicode và
niform esource dentifier
Unicode: là một bảng mã chuẩn chung có đủ các ký tự để thống nhất sự giao tiếp
trên tất cả các quốc gia, đáp ứng tính nhất qn tồn cầu của web.

URI (Uniform Resource Identifier): là kí hiệu nhận dạng Web đơn giản. Cụ
thể, nó là một xâu ngắn cho phép nhận dạng tài nguyên Web nhƣ: với các xâu bắt đầu
với http: hoặc ftp: mà chúng ta thƣờng thấy trên World Wide Web. Bất kỳ một
ngƣời nào cũng có thể tạo một URI, và sở hữu chúng và chúng là một công nghệ cơ sở
để xây dựng một hệ thống Web toàn cầu. Hệ thống World Wide Web đƣợc xây dựng
trên chúng và bất kỳ cái gì mà có một URI thì đƣợc coi là trên Web .
URL (Uniform Resource Locator): là một dạng đặc biệt của URI, cụ thể nó là
một địa chỉ trên mạng.
URIref (URI reference): Là một URI cùng với một phần nhận dạng tuỳ ý ở
cuối. Ví dụ: Ta có một URIref: http: www.example.org Books Ontology bao g m
một URI: http: www.example.org Books và một phần nhận dạng Ontology đƣợc
cách nhau bởi kí hiệu .
Theo nhƣ quy ƣớc, namespace các không gian tên là những tài nguyên mà tạo ra
các đa tài nguyên, thƣờng là những URI đƣợc kết thúc bởi kí hiệu . Ví dụ: http:
www.example.org Books là một không gian tên. Các tài nguyên không có URIref
thì đƣợc gọi là các nút trắng. Một nút trắng chỉ ra sự t n tại của tài nguyên khơng có sự
đề cập rõ ràng về tham chiếu URIref của tài nguyên.
ng
XML (eXtensible Markup Language) là ngôn ngữ xây dựng cấu trúc tài liệu văn
bản, dựa theo chuẩn SGML (Standard Generalized Markup Language: Siêu ngơn ngữ
có khả năng sinh ngôn ngữ khác). SGML đƣợc phát triển cho việc định cấu trúc và nội
dung tài liệu điện tử do t chức ISO (International Organization for Standards) chuẩn
hoá năm 1986. XML sẽ tiếp tục đóng một vai trị quan trọng trong sự phát triển của
Web ngữ nghĩa. Nó cho phép mọi ngƣời thiết kế định dạng tài liệu và sau đó viết một
tài liệu theo định dạng đó.
XML là một mở rộng của ngôn ngữ đánh dấu cho các các cấu trúc tài liệu bất kỳ,
trái với HTML, là một loại ngôn ngữ đánh dấu chỉ dành cho các loại tài liệu siêu liên
kết. Một tài liệu XML bao g m một tập các thẻ đóng và thẻ mở đƣợc l ng vào nhau, ở
đó m i một thẻ có một cặp các thuộc tính và giá trị. Phần cốt yếu của tài liệu XML là
bộ t vựng của các thẻ và sự kết hợp đƣợc cho phép thì khơng cố định, nhƣng có thể

đƣợc xác định thơng qua m i ứng dụng XML.


11
Tuy nhiên, nó khơng cung cấp một giải pháp đầy đủ các yêu cầu của Web ngữ
nghĩa. XML chỉ có thể đại diện cho một số thuộc tính ngữ nghĩa thơng qua cấu trúc cú
pháp của nó.
ng D và D chemma
RDF (Resource Description Framework): Khung mô tả tài nguyên - RDF
đƣợc W3C giới thiệu để cung cấp một cú pháp chuẩn để tạo, thay đ i và sử dụng các
chú thích trong Web ngữ nghĩa. Một mệnh đề RDF là một bộ ba có dạng: chủ đề,
thuộc tính, đối tƣợng . Trong đó, chủ đề là tài nguyên mà đƣợc mơ tả bằng thuộc tính
và đối tƣợng. Thuộc tính thể hiện mối quan hệ giữa chủ đề và đối tƣợng. Cịn đối
tƣợng ở đây có thể là một tài ngun hoặc một giá trị. Ba thành phần trên trong RDF
đều là các URI.
RDFS (RDFschema): là một ngôn ngữ Ontology đơn giản của Web ngữ nghĩa,
đƣợc coi là một ngôn ngữ cơ sở của Web ngữ nghĩa. RDFS là ngôn ngữ mơ tả bộ t
vựng trên các bộ ba RDF. Nó cung cấp các công việc sau:
 Định nghĩa các lớp tài nguyên
 Định nghĩa các quan hệ giữa các lớp
 Định nghĩa các loại thuộc tính mà các lớp trên có
 Định nghĩa các mối quan hệ giữa các thuộc tính
ng nto ogy ocabu ary
Bộ t vựng ontology đƣợc xây dựng trên cơ sở tầng RDF và RDFS, cung cấp
biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên web và có khả năng h trợ lập luận. Để
xây dựng đƣợc các bộ t vựng này, ngƣời ta đã sử dụng các ngôn ngữ ontology để
biểu diễn chúng nhƣ: RDFS, OIL, DAML, DAML+OIL, OWL, ... Các ngôn ngữ này
cung cấp khả năng biểu diễn và h trợ lập luận khác nhau và chúng dựa trên nền tảng
là các ngôn ngữ logic mô tả tƣơng ứng khác nhau.
ng -g c

Việc biểu diễn các tài nguyên dƣới dạng các bộ t vựng Ontology có mục đích là
để máy có thể lập luận đƣợc. Mà cơ sở lập luận chủ yếu dựa vào lơ-gíc. Chính vì vậy
mà các Ontology đƣợc ánh xạ sang lơ-gíc, cụ thể là lơ-gíc mơ tả để có thể h trợ lập
luận. Vì lơ-gíc mơ tả có biểu diễn ngữ nghĩa hình thức (Đặc trƣng của lý thuyết mơ
hình) và cung cấp các dịch vụ lập luận, là cơ sở để h trợ máy có thể lập luận và hiểu
tài nguyên.
ng roof
Tầng này đƣa ra các luật để suy luận. Cụ thể t các thơng tin đã có ta có thể suy
ra các thơng tin mới. Ví dụ: A là cha của B, A là em trai C thì khi đó ta có thơng tin


12
mới là C là bác của B. Để có đƣợc các suy luận này thì cơ sở là FOL (First-OrderLogic). Hiện nay các nhà nghiên cứu đang xây dựng các ngơn ngữ luật cho nó nhƣ:
SWRL, RuleML.
ng rust
Đảm bảo tính tin cậy của các ứng dụng trên Web ngữ nghĩa. Ví dụ: Một ngƣời
bảo x là xanh, một ngƣời khác lại nói x khơng xanh, nhƣ thế Web ngữ nghĩa là không
đáng tin cậy Câu trả lời ở đây đƣợc xem xét trong các ngữ cảnh. M i ứng dụng trên
Web ngữ nghĩa sẽ có một ngữ cảnh cụ thể, chính vì thế các mệnh đề trên có thể nằm
trong các ngữ cảnh khác nhau khi đó ngữ nghĩa tƣơng ứng khác nhau nên các mệnh đề
đó vẫn đúng, đáng tin cậy trong ngữ cảnh của nó. Để có đƣợc sự chứng minh về độ tin
cậy thì các lập luận đƣợc áp dụng là khơng đơn điệu và có các cơ chế kiểm tra chứng
minh kết hợp với công nghệ chữ ký điện tử để xác nhận độ tin cậy. Các ngôn ngữ
chứng minh là ngôn ngữ cho ta chứng minh một mệnh đề là đúng hay sai .

1.3. Nội dung xây dụng Web ngữ nghĩa
Để xây dựng hệ thống Web ngữ nghĩa thay thế cho World Wide Web hiện tại,
các nhà nghiên cứu đang n lực và tập trung nghiên cứu với ba hƣớng chính sau:
 Chuẩn hố các ngôn ngữ biểu diễn dữ liệu (XML) và siêu dữ liệu (RDF) trên
Web.

 Chuẩn hố các ngơn ngữ biểu diễn Ontology cho Web có ngữ nghĩa.
 Phát triển nâng cao Web ngữ nghĩa (Semantic Web Advanced Development SWAD)

1.3.1. XML và RDF trên Web
Nhƣ chúng ta đã biết, World Wide Web đã rất thành công bởi ngôn ngữ XML.
XML đã làm cho công nghệ Web phát triển mạnh mẽ nhƣ hiện nay. Web ngữ nghĩa
đƣợc phát triển trên nền Web hiện tại, trên nền XML, chúng ta có thể thấy rất rõ ngay
trong sơ đ kiến trúc của Web ngữ nghĩa. Web ngữ nghĩa đƣợc b sung các chú thích
ngữ nghĩa cho các tài nguyên Web và W3C đã giới thiệu RDF là chuẩn cú pháp để tạo,
thay đ i và sử dụng chú thích trong Web ngữ nghĩa. Do vậy việc xây dựng ngôn ngữ
chuẩn cho XML và RDF là thiết yếu để biểu diễn dữ liệu cho Web ngữ nghĩa. Trong
q trình này, đã có một số cú pháp đƣợc đƣa ra để biểu diễn RDF nhƣ: Notation 3
(hay N3), XML RDF hay đ thị các mệnh đề của RDF nhƣ đã trình bày ở trên. Các cú
pháp này h trợ biểu diễn dữ liệu cho máy có thể hiểu đƣợc.

1.3.2. Các ngôn ngữ biểu diễn Ontology cho Web có ngữ nghĩa
Ontology đóng vai trị then chốt trong việc cung cấp tài nguyên có thể truy nhập
để xử lý tự động bằng cách cung cấp bộ t vựng cho việc đánh dấu ngữ nghĩa của Web
ngữ nghĩa. Để biểu diễn Ontology cho phát triển Web có ngữ nghĩa cần thiết đƣa ra


13
một ngôn ngữ chuẩn cho sự biểu diễn mềm dẻo, linh hoạt và đa dạng của tài nguyên
Web.
Trong quá trình chuẩn hố ngơn ngữ biểu diễn Ontology, một số ngơn ngữ đƣợc
đề xuất với các khả năng biểu diễn tăng dần nhƣ: RDFS, DAML+OIL, OWL, ... và
tiếp tục đƣợc mở rộng trong tƣơng lai. Các ngơn ngữ này có khả năng biểu diễn tăng
dần nhƣng tƣơng ứng là khả năng quyết định giảm dần (Độ phức tạp tăng dần). Các
ngôn ngữ biểu diễn Ontology đƣợc xây dựng phải cân bằng đƣợc khả năng biểu diễn
và độ phức tạp tính tốn. Các ngôn ngữ này đƣợc xây dựng trên nền các chuẩn XML,

RDF và thƣờng sử dụng cơ sở lơ-gíc là lơ-gíc mơ tả để biểu diễn ngữ nghĩa và h trợ
lập luận.

1.3.3. Phát triển nâng cao Web ngữ nghĩa
Các công việc chuẩn hố các ngơn ngữ biểu diễn dữ liệu XML, siêu dữ liệu RDF
hay ngôn ngữ biểu diễn Ontology là các công việc nền tảng, cơ sở tạo ra chuẩn chung
cơ sở để phát triển hệ thống và các ứng dụng trên Web ngữ nghĩa. Việc đƣa các chuẩn
đó thành các thể hiện, các sản phẩm của hệ thống Web ngữ nghĩa là công việc của
SWAD (Semantic Web Advanced Development). SWAD thực hiện nghiên cứu và đƣa
ra các thể hiện của Web ngữ nghĩa trên công nghệ cơ sở và nó cũng b sung, hồn
thiện các cơng nghệ cơ sở này. Nó chỉ ra các cơng nghệ Web ngữ nghĩa đƣợc sử dụng
nhƣ thế nào Mục tiêu cụ thể của SWAD là sử dụng các công nghệ, k thuật và các
cơng cụ hiện có của Web ngữ nghĩa để tạo ra các chƣơng trình vƣợt xa hơn tầm hiện
có, phát triển các thể hiện thực tiễn và cung cấp các công cụ và các chuẩn mới cho
Web ngữ nghĩa.
Để phát triển SWAD hiện tại đã có một số dự án của các t chức thực hiện
nghiên cứu và phát triển nhƣ: SWAD-Europe, SWAD-DAML, SWAD-Simile,
SWAD- Oxygen. Hiện tại, ở Việt Nam, một dự án cấp Nhà nƣớc đang nghiên cứu thực
hiện trích rút tự động thơng tin t các trang Web về tin tức để xây dựng các Ontology
cho lĩnh vực này nhằm tiếp nhận công nghệ Web ngữ nghĩa khi có hệ thống mạng
mới này.
1.4. Ontology
h i niệm nto ogy
Trong khoa học máy tính, một ontology là một mơ hình dữ liệu biểu diễn một
lĩnh vực và đƣợc sử dụng để suy luận về các đối tƣợng trong lĩnh vực đó và mối quan
hệ giữa chúng. Ontology cung cấp một bộ t vựng chung bao g m các khái niệm, các
thuộc tính quan trọng và các định nghĩa về các khái niệm và các thuộc tính này. Ngồi
bộ t vựng, ontology cịn cung cấp các ràng buộc, đơi khi các ràng buộc này đƣợc coi
nhƣ các giả định cơ sở về ý nghĩa mong muốn của bộ t vựng, nó đƣợc sử dụng trong



14
một miền mà có thể đƣợc giao tiếp giữa ngƣời và các hệ thống ứng dụng phân tán h n
tạp khác.
Các ontology đƣợc sử dụng nhƣ là một biểu mẫu trình bày tri thức về thế giới
hay một phần của nó. Các ontology thƣờng miêu tả:
 Cá thể Individuals : Các đối tƣợng cơ bản, nền tảng
 Lớp Classes : Các tập hợp, hay kiểu của các đối tƣợng
 Thuộc tính Properties : Thuộc tính, tính năng, đặc điểm, tính cách, hay các
thơng số mà các đối tƣợng có và có thể đem ra chia sẻ.
 Quan hệ Relation : Các con đƣờng mà các đối tƣợng có thể liên hệ tới một
đối tƣợng khác. Bộ t vựng ontology đƣợc xây dựng trên cơ sở tầng RDF và
RDFS, cung cấp khả năng biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên Web và
có khả năng h trợ lập luận.
ục đ ch xây dựng nto ogy
Ontology đƣợc xây dựng nhằm các mục đích sau:
 Chia sẻ những hiểu biết chung về các khái niệm, cấu trúc thông tin giữa con
ngƣời hoặc giữa các hệ thống phần mềm: Đây là một trong những mục tiêu ph
biến trong việc phát triển Ontology, không những trong lĩnh vực Semantic Web
mà còn trong nhiều ngành, lĩnh vực khác. Có thể hình dung Ontology giống
nhƣ một cuốn t điển chuyên ngành, cung cấp, giải thích các thuật ngữ cho
ngƣời sử dụng khơng có cùng chun mơn khi đƣợc yêu cầu. Không chỉ đƣợc
sử dụng bởi con ngƣời, Ontology cịn hữu ích khi cần sự hợp tác giữa các hệ
thống phần mềm.
 Tái sử dụng tri thức về một miền lĩnh vực đã đƣợc xây dựng t trƣớc: Đây là
một vấn đề quan trọng đƣợc nghiên cứu trong những năm gần đây. Nó liên
quan đến việc kết hợp hai hay nhiều Ontology thành một Ontology lớn và đầy
đủ hơn. Vấn đề ở đây là tên các khái niệm đƣợc định nghĩa trong các Ontology
này có thể giống nhau trong khi chúng đƣợc dùng để mô tả một sự vật hồn
tồn khác nhau. Tuy nhiên cũng có thể có trƣờng hợp ngƣợc lại, khi tên các

khái niệm khác nhau nhƣng cùng mơ tả một sự vật. Ngồi ra, làm thế nào để b
sung các quan hệ, thuộc tính có sẵn vào một hệ thống mới càng làm cho vấn đề
trở nên phức tạp.
 Làm rõ ràng các giả định thuộc lĩnh vực chuyên ngành: Việc sử dụng một
Ontology ở bên dƣới thay vì dùng ngơn ngữ lập trình sẽ giúp dễ dàng thay đ i
những giả định thuộc lĩnh vực chuyên ngành khi kiến thức về lĩnh vực này của
chúng ta thay đ i. Nếu những giả định này đƣợc viết bằng ngơn ngữ lập trình
thì sẽ gây khó khăn đối với những ngƣời lập trình khơng chun.
 Tri thức độc lập với ngôn ngữ: Đây cũng là vấn đề liên quan đến lĩnh vực tái sử
dụng tri thức đã nói ở trên, tuy nhiên bài tốn đặt ra là làm thế nào để một hệ


15
thống Ontology có thể đƣợc dùng bởi các ngơn ngữ của các quốc gia khác nhau
mà không phải xây dựng lại. Giải pháp mà Ontology mang lại là cho phép tên
các khái niệm và quan hệ trong Ontology chuẩn thƣờng đƣợc xây dựng bằng
tiếng Anh. Điều này có thể sẽ phá v phần nào rào cản về mặt ngôn ngữ khi mà
kết quả tìm kiếm sẽ khơng bó gọn trong t khóa và ngơn ngữ mà nó sử dụng.
Ngồi ra, Ontology có thể sẽ trở thành hƣớng đi mới cho một lĩnh vực đã quen
thuộc là dịch tài liệu tự động. Có thể nói nhƣ vậy, bởi ngữ nghĩa các t vựng
trong văn bản sẽ đƣợc dịch chính xác hơn khi đƣợc ánh xạ vào đúng ngữ cảnh
của nó.
 Tri thức trở nên nhất quán và tƣờng minh: Các khái niệm khác nhau trong một
hay nhiều lĩnh vực cụ thể có thể cùng tên và gây nhập nhằng về ngữ nghĩa, tuy
nhiên khi đƣợc đƣa vào một hệ thống Ontology thì tên m i khái niệm là duy
nhất. Một giải pháp cho vấn đề này là Ontology sẽ sử dụng các tham khảo URI
làm định danh thật sự cho khái niệm trong khi vẫn sử dụng các nhãn gợi nhớ
bên trên để thuận tiện cho ngƣời dùng.

Hình 1.6: S cần thiết của Ontology trong quá trình chia sẻ tri thức

Yêu c u khi sử dụng nto ogy
Ngôn ngữ Ontology cho phép ngƣời sử dụng viết rõ ràng, các khái niệm hình
thức của mơ hình miền và phải đảm bảo những yêu cầu cơ bản sau:
 Cấu trúc rõ ràng: Đây là điều kiện cần cho máy có thể xử lý thơng tin.
 Ngữ nghĩa hình thức miêu tả ý nghĩa tri thức một cách chính xác: Ý nghĩa của
ngữ nghĩa hình thức t n tại trong một thời gian dài trong miền tốn lơ-gíc. Việc
sử dụng ngữ nghĩa hình thức cho phép con ngƣời suy diễn tri thức. Với tri thức
trong Ontology chúng ta có thể suy diễn về:
 Thành viên của lớp: Nếu x là một thể hiện của lớp C và C là lớp con của lớp D
thì chúng ta có x là thể hiện của lớp D


×