Tải bản đầy đủ (.pdf) (69 trang)

Nghiên cứu công nghệ semantic web và chuẩn dublin core metadata, ứng dụng trong việc triển khai hệ thống tài liệu số chuyên ngành tích hợp trên cổng thông tin điện tử của khoa công nghệ thô

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.13 MB, 69 trang )

BỘ GIAO THÔNG VẬN TẢI

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

LÊ HOÀNG DƢƠNG

NGHIÊN CỨU CÔNG NGHỆ SEMANTIC WEB VÀ
CHUẨN DUBLIN CORE METADATA, ỨNG DỤNG
TRONG VIỆC TRIỂN KHAI HỆ THỐNG TÀI LIỆU SỐ
CHUYÊN NGÀNH TÍCH HỢP TRÊN CỔNG THÔNG TIN
ĐIỆN TỬ CỦA KHOA CÔNG NGHỆ THÔNG TIN –
TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

LUẬN VĂN THẠC SỸNGÀNH KỸ THUẬT

HẢI PHÒNG - 2015


BỘ GIAO THÔNG VẬN TẢI

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

LÊ HOÀNG DƢƠNG

NGHIÊN CỨU CÔNG NGHỆ SEMANTIC WEB VÀ
CHUẨN DUBLIN CORE METADATA, ỨNG DỤNG
TRONG VIỆC TRIỂN KHAI HỆ THỐNG TÀI LIỆU SỐ


CHUYÊN NGÀNH TÍCH HỢP TRÊN CỔNG THÔNG TIN
ĐIỆN TỬ CỦA KHOA CÔNG NGHỆ THÔNG TIN –
TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

LUẬN VĂN THẠC SĨ NGÀNH KỸ THUẬT

NGÀNH: CÔNG NGHỆ THÔNG TIN;

MÃ SỐ:..............................

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: TS. Trần Đăng Hoan

HẢI PHÒNG - 2015


Lời cam đoan
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả
nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công
trình nào khác.
Tôi xin cam đoan rằng các thông tin trích dẫn trong luận văn đều đã được
chỉ rõ nguồn gốc.
Hải Phòng, ngày 15 tháng 09 năm 2015

i


Lời cám ơn
Để hoàn thành tiểu luận này, tôi xin chân thành cảm ơn các thầy cô giáo đã
tận tình hướng dẫn, giảng dạy trong suốt quá trình học tập, nghiên cứu và rèn luyện

ở Trường Đại học Hàng Hải Việt Nam. Xin chân thành cảm ơn thầy giáo hướng
dẫn TS. Trần Đăng Hoan đã tận tình, chu đáo hướng dẫn tôi thực hiện luận văn
này.
Mặc dù đã có nhiều cố gắng để thực hiện đề tài một cách hoàn chỉnh nhất,
song do vẫn còn như hạn chế về kiến thức và kinh nghiệm nên không thể tránh
khỏi những thiếu sót nhất định mà bản thân chưa thấy được. Tôi rất mong được sự
góp ý của quý thầy, cô giáo và các bạn đồng nghiệp để luận văn được hoàn chỉnh
hơn.
Tôi xin chân thành cảm ơn.

ii


Mục lục
Lời cam đoan .......................................................................................................................i
Lời cám ơn ......................................................................................................................... ii
DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU ..................................................vi
DANH MỤC CÁC BẢNG ............................................................................................ vii
DANH MỤC CÁC HÌNH ............................................................................................ viii
Mở đầu ................................................................................................................................1
Chƣơng 1: Tổng quan về thƣ viện số ngữ nghĩa .............................................................3

1.1 Thư viện số là gì? ............................................................................................. 3
1.2 Thư viện số ngữ nghĩa là gì.............................................................................. 5
1.3 Nội dung nghiên cứu của đề tài ....................................................................... 7
Kết luận .................................................................................................................. 8
Chƣơng 2. Công nghệ Web ngữ nghĩa trong hệ thống thƣ viện số ...............................9

2.1 Web ngữ nghĩa (Semantic Web) ...................................................................... 9
2.1.1 Khái niệm về Web ngữ nghĩa .................................................................... 9

2.1.2 Kiến trúc của Web ngữ nghĩa .................................................................. 10
2.1.3 RDF, RDF Schema và Ontology ............................................................. 12
a. RDF (Resource Description Framework) .................................................. 12
b. RDFs (Resource Description Framework Schema) .................................. 18
c. Ontology..................................................................................................... 25
2.2 Dublin Core Metadata .................................................................................... 27
2.2.1 Siêu dữ liệu (Metadata) ............................................................................ 27
2.2.2 Siêu dữ liệu Dublin Core ......................................................................... 29
a. Đặc điểm của Dublin Core ......................................................................... 29
b. Ý nghĩa của Dublin Core trong Thư viện số.............................................. 30
iii


c. Các yếu tố của Dublin Core ....................................................................... 30
d. Các yếu tố mở rộng .................................................................................... 32
2.3 Web ngữ nghĩa và thư viện số........................................................................ 33
2.3.1 Thư viện số ngữ nghĩa ............................................................................. 33
2.3.2 Tổ chức tri thức trong thư viện số ngữ nghĩa .......................................... 34
2.3.3 Web ngữ nghĩa trong thư viện số ............................................................. 35
2.3.4 Kiến trúc của thư viện số ngữ nghĩa ........................................................ 36
2.3.5 Ontology cho thư viện số ngữ nghĩa ........................................................ 37
a. Ontology biểu ghi thư mục ........................................................................ 37
b. Ontology cho cấu trúc nội dung................................................................. 38
c. Nguyên tắc xây dựng Ontology cho hệ thống thư viện số......................... 38
2.3.6 Tìm kiếm trong thư viện số ngữ nghĩa..................................................... 39
a. Tìm kiếm dựa trên sự phân loại ................................................................. 39
b. Tìm kiếm ngữ nghĩa ................................................................................... 40
Kết luận ................................................................................................................ 41
Chƣơng 3. Phân tích, thiết kế và cài đặt hệ thống tài liệu số chuyên ngành công
nghệ thông tin ...................................................................................................................42


3.1. Phân tích và thiết kế hệ thống ....................................................................... 42
3.1.1 Phân tích yêu cầu thực tế của bài toán ..................................................... 42
3.1.2 Phân tích chức năng của bài toán ............................................................. 43
3.1.3 Xây dựng Ontology cho hệ thống thư viện số: ........................................ 44
3.1.3.1 Ontology cho tài nguyên trong thư viện số: ...................................... 44
3.1.3.2 Ontology thông tin người dùng trên hệ thống: .................................. 49
3.2. Cài đặt hệ thống ............................................................................................ 51
3.2.1 Công cụ và ngôn ngữ ............................................................................... 51
iv


3.2.2 Kết quả cài đặt: ........................................................................................ 52
Kết luận: ............................................................................................................... 56
KẾT LUẬN .......................................................................................................................57
Tài liệu tham khảo .............................................................................................................59

v


DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU
Chữ viết tắt

Giải thích

XML

Extensible Markup Language

DC


Dublin Core

RDF

Resource Description Framework

RDFs

Resource Description Framework Schema

WWW

World Wide Web

HTML

HyperText Markup Language

URI

Uniform Resource Identifier

OWL

Web Ontoloty Language

vi



DANH MỤC CÁC BẢNG
Số bảng

Tên bảng

Trang

2.1

Các lớp trong RDFs

21

2.2

Các thuộc tính trong RDFs

22

2.3

Danh sách các yếu tố của Dublin Core

30

2.4

Danh sách các yếu tố mở rộng của Dublin

33


Core
3.1

Danh sách các thuộc tính trong Ontology của

48

hệ thống thư viện số ngữ nghĩa
3.2

Các lớp trong Ontology Foaf

49

3.3

Các thuộc tính của Ontology Foaf

51

vii


DANH MỤC CÁC HÌNH
Số hình

Tên hình

Trang


2.1

Kiến trúc hệ thống Web ngữ nghĩa

11

2.2

Đồ thị RDF

15

2.3

Quan hệ kế thừa

19

2.4

Kiến trúc thư viện số ngữ nghĩa

36

2.5

Kiến trúc của hệ thống thư viện số ngữ nghĩa

37


đề xuất
2.6

Tìm kiếm ngữ nghĩa trong thư viện số

40

3.1

Mô hình Ontology của hệ thống thư viện số

46

3.2

Giao diện trang quản lý hệ thống

52

3.3

Giao diện quản lý danh sách tài liệu

52

3.4

Giao diện thêm siêu dữ liệu cho tài liệu


53

3.5

Giao diện trang chủ

55

3.6

Giao diện danh sách tài liệu trong 1 chuyên

55

ngành
3.7

Giao diện xem tài liệu

56

viii


Mở đầu
Ngày nay, việc xây dựng các cổng thông tin điện tử là một nhu cầu cấp thiết
đối với các trường đại học nhằm cung cấp công cụ truy cập đến các tài nguyên
thông tin của Nhà trường cho người dùng, đặc biệt là đối tượng giảng viên và sinh
viên. Tài liệu học tập, giáo trình, luận văn, tài liệu tham khảo là những tài nguyên
vô cùng quan trọng nhằm phục vụ cho nhu cầu nghiên cứu và học tập của giảng

viên và sinh viên của Nhà trường. Giải pháp xây dựng các thư viện tài liệu số để
tích hợp vào trong cổng thông tin của Nhà trường đang được rất nhiều trường đại
học quan tâm và phát triển. Tuy nhiên, vấn đề đặt ra hiện nay cho các thư viện tài
liệu số là việc quản lý các tài nguyên khổng lồ của thư viện như thế nào để hỗ trợ
việc tìm kiếm thông tin dễ dàng hơn, chính xác hơn, tìm kiếm theo ngữ cảnh của
người sử dụng.
Để giải quyết các yêu cầu trên thì thư viện số phải sử dụng siêu dữ liệu chung
để mô tả các bản ghi của danh mục và các từ vựng điều khiển chung cho phép gán
định danh các tài liệu. Các thư viện tài liệu số thường sử dụng một chuẩn siêu dữ
liệu nào đó để tổ chức các mô tả tài nguyên. Các chuẩn định dạng mô tả tài nguyên
phổ biến như MARC, Dublin Core, BibTex,… Trong giới hạn của nghiên cứu này,
tác giả tập trung vào việc xây dựng siêu dữ liệu theo chuẩn Dublin Core. Tuy
nhiên, chuẩn siêu dữ liệu này được định nghĩa cho quá trình sử dụng của con
người, chỉ có con người mới hiểu được, không định nghĩa được ngữ nghĩa của các
trường siêu dữ liệu theo cách máy tính có thể hiểu được.
Có thể nhận thấy rằng khi sử dụng công nghệ Web ngữ nghĩa, với việc biểu
diễn của các chuẩn mô tả tài nguyên có thể kể đến như RDF hay Ontology là một
phương pháp giải quyết được yêu cầu xây dựng tính ngữ nghĩa cho các tài nguyên.
Các siêu dữ liệu có ngữ nghĩa được biểu diễn thông qua RDF và Ontology cung
cấp khả năng sử dụng các khái niệm đã được định nghĩa và suy diễn dữ liệu từ các
mô tả của tài nguyên. Việc tìm kiếm tài nguyên sẽ mang lại kết quả chính xác hơn
nếu hệ thống cung cấp cho người dùng một khung nhìn duy nhất về tên của các tài
nguyên trong thư viện. Các nguồn dữ liệu lớn có thể hoạt động liên thông thông

1


qua sự hỗ trợ của Ontology, đồng thời Ontology cũng cung cấp một khung nhìn
chung cho các tài nguyên. Bằng cách xây dựng và truy xuất các Ontology, các hệ
thống thư viện số sẽ dễ dàng hơn trong việc định nghĩa và hiểu được ngữ nghĩa của

các tài nguyên, từ đó đưa ra được kết quả tìm kiếm chính xác hơn.
Thấy rõ được vai trò và tầm quan trọng của một hệ thống thư viện tài liệu số
trong trường Đại học, cũng như việc áp dụng chuẩn siêu dữ liệu Dublin Core
Metadata và công nghệ Semantic Web để triển khai một hệ thống thư viện số hiệu
quả và phù hợp với việc phát triển của công nghệ hiện nay, tác giả đã lựa chọn đề
tài “Nghiên cứu công nghệ Semantic Web và chuẩn Dublin Core Metadata, ứng
dụng trong việc triển khai hệ thống tài liệu số chuyên ngành tích hợp trên cổng
thông tin điện tử của khoa Công nghệ thông tin – Trường Đại học Hàng hải Việt
Nam” để tìm hiểu, nghiên cứu cho luận văn thạc sỹ của mình. Quy mô của đề tài
hiện tại mới chỉ dừng lại ở việc triển khai hệ thống tài liệu số cho một đơn vị thuộc
Nhà trường, tuy nhiên hướng phát triển của đề tài trong tương lai là hoàn toàn khả
thi để có thể xây dựng được hệ thống thư viện số cho toàn bộ các ngành học thuộc
trường.

2


Chƣơng 1: Tổng quan về thƣ viện số ngữ nghĩa
1.1 Thƣ viện số là gì?
Thư viện số (Digital Library): là một thư viện mà tại đó các bộ sưu tập được
lưu trữ ở định dạng số và cho phép truy nhập bởi máy tính.Thuật ngữ "Thư viện
số" được sử dụng để chỉ một loạt các hệ thống, từ đối tượng số và kho siêu dữ liệu,
tài liệu tham khảo liên kết hệ thống, đến hệ thống quản lý nội dung cho các hệ
thống phức tạp mà có thể tích hợp các dịch vụ thư viện số nâng cao và hỗ trợ cho
việc nghiên cứu và thực hành. Một thư viện số có thể cung cấp nhiều chức năng
công nghệ và dịch vụ hỗ trợ người sử dụng, cả thông tin của người sản xuất cũng
như thông tin của người sử dụng.Ở mức tốt nhất, một thư viện số cần:
 Tích hợp quyền truy cập vào tài liệu và quyền truy cập vào công cụ để xử lý
tài liệu, như vậy thư viện số bao gồm tài liệu và các công cụ.
 Hỗ trợ thông tin cho cá nhân và cộng đồng thông qua các chức năng để lựa

chọn, chú thích, đóng góp và hợp tác.
Thách thức cho hệ thống thƣ viện số:
Để có thể truy nhập bất kỳ dữ liệu nào như thông tin, kiến thức, câu trả lời,
đối tượng số, một hệ thống thư viện số cần có các khả năng:
 Tìm kiếm các văn bản, hình ảnh, âm thanh, và tổng hợp các đối tượng đa
phương tiện.
 Tìm kiếm ngữ nghĩa tăng cường nhằm lấy từ nội dung văn bản và hình ảnh.
 Tìm kiếm trên nhiều ngôn ngữ.
 Tìm kiếm trên nhiều hệ thống, cú pháp và ngữ nghĩa, có khả năng tương tác.
 Tìm câu trả lời, không chỉ tài liệu mà còn có khả năng lý luận và suy luận.
Một vấn đề chính cho một hệ thống thư viện số toàn diện cần xem xét ở đây
là khả năng tích hợp:
 Tích hợp nhiều định dạng trình bày.
 Tích hợp các thư viện số, lưu trữ số, và viện bảo tàng số; cũng như cơ sở dữ
liệu và các hệ thống thông tin.
 Tích hợp đọc/xem/nghe, truy cập cơ sở dữ liệu, xử lý dữ liệu, và tạo mới.
3


 Tích hợp các nền tảng xuất bản và truyền thông.
Bên cạnh đó, vấn đềbản quyền và việc truy cập thông tin cũng là một vấn đề
đáng được quan tâm khi triển khai các hệ thống thư viện số. Việc sử dụng bản
quyền là một cách làm truyền thống để bảo vệ quyền sở hữu thông tin và sự kiểm
soát đối với việc phổ biến thông tin và thông qua đó đưa ra các cơ chế thu phí sử
dụng hay truy cập. Có thể thấy rằng lý do trên đã tác động đến sự tăng trưởng của
công nghiệp xuất bản cả các ấn phẩm in và ấn phẩm điện tử như ta đã thấy hiện
nay.Vấn đề bản quyền trong thế giới số thực sự là một thách thức docác nguồn tài
nguyên số không giống như các nguồn tài nguyên truyền thống như sách, báo, đĩa
CD,... Theo Luật Bản quyền số của Hoa Kỳ (The Digital Copyright Act) thì các
thư viện có quyền được tạo ra 3 bản sao của một tài liệu chưa xuất bản để lưu trữ,

dự phòng và lưu chiểu dành cho việc nghiên cứu tại một thư viện khác. Nhưng
một bản sao dạng số hóa của một tài liệu chưa xuất bản mà có bản quyền không
được phép truy cập bên ngoài thư viện hoặc cơ quan lưu trữ, vì thế sẽ không được
cung cấp trên Internet. Ngoài ra, việc số hóa các tài liệu cũ cũng là mối quan tâm
của các thư viện và cơ quan lưu trữ. Những tài liệu này có thể không còn được bán
trên thị trường, tuy nhiên các tài liệu đó vẫn còn bản quyền. Nếu các thư viện
muốn số hoá những tài liệu này, họ phải có giấy phép từ người giữ bản quyền đồng
ý cho phép số hóa tài liệu, nếu không khi họ tiến hành số hóa sẽ có thể bị kiện bởi
người giữ bản quyền. Những người giữ bản quyền thường rất ít khi cấp phép số
hoá cho các tài liệu hiện vẫn đang còn trong thời hạn bản quyền nếu họ vẫn muốn
in lại hoặc tái bản có sửa chữa, bổ sung cho tài liệu đó, hoặc xuất bản điện tử tài
liệu. Tình thế này sẽ càng trở nên khó khăn hơn nếu những người giữ bản quyền là
các nhà xuất bản, bởi vì họ xem các thư viện số là mối đe doạ cho thị trường của
họ; Chính vì vậy để giải quyết được vấn đề bản quyền đối với các thư viện số là
một vấn đề phức tạp và cần được giải quyết bằng nhiều biện pháp.
Hỗ trợ người dùng tìm kiếm thông tin là một trong những chức năng quan
trọng của các thư viện số. Điều này đồng thời cũng tạo ra một thách thức lớn cho
các cán bộ phát triển thư viện số, những người phải thực hiện xây dựng chức năng

4


hỗ

trợ

Bên cạnh những thách thức trên, để có thể cung cấp nguồn tài liệu số phong
phú, thư viện số còn phải đối mặt với nhiều thách thức khác, ví dụ như sự thay đổi
của công nghệ diễn ra liên tục; sự phát triển của các công nghệ hỗ trợ việc tìm
kiếm thông tin trên mạng; tuân thủ và phát triển các tiêu chuẩn về tính năng tương

hợp



5


1.2 Thƣ viện số ngữ nghĩa là gì
Thư viện số ngữ nghĩa là thư viện số áp dụng công nghệ Web ngữ nghĩa vào
trong việc triển khai xây dựng hệ thống. Với sự hỗ trợ của công nghệ Web ngữ
nghĩa,

của kỹ thuật này là làm cho thao tác giữa các phần có thể xử lý thông minh, nhất
quán, mạch lạc tương tự các lớp của đối tượng số và các dịch vụ.
Ứng dụng Ontology trong mô tả hệ thống thư mục: thông thường các dữ liệu
mô tả có cấu trúc được sử dụng trong thư viện số để mô tả hệ thống thư mục tuy
nhiên vấn đề gặp phải là các trường trong dữ liệu mô tả lại không được định nghĩa

6


của Ontology và sử dụng nó trong việc mô tả dữ liệu, chúng ta đã cung cấp một
tầng tổng quát dữ liệu mô tả và nội dung.

1.3 Nội dung nghiên cứu của đề tài
Mục đích nghiên cứu trong luận văn này là:
- Nghiên cứu các khái niệm tổng quan về Web ngữ nghĩa (semantic Web),
chuẩn siêu dữ liệu Dublin Core, các công cụ, ứng dụng hỗ trợ xây dựng Web ngữ
nghĩa và các chuẩn siêu dữ liệu.
- Nghiên cứu hệ thống lưu trữ và quản lý thông tin thư viện và các mô hình

hiện nay của hệ thống thư viện. Phân tích các nền tảng lý thuyết trong việc áp dụng
Web ngữ nghĩa vào hệ thống thư viện số.
- Phân tích và thiết kế hệ thống và xây dựng hệ thống tài liệu số chuyên ngành
tích hợp trên cổng thông tin điện tử của khoa Công nghệ thông tin – Trường Đại
học Hàng hải Việt Nam theo công nghệ Web ngữ nghĩa và chuẩn siêu dữ liệu
Dublin Core Metadata.
Đối tượng nghiên cứu của luận văn gồm: các khái niệm Web ngữ nghĩa, các
thành phần chính dùng để xây dựng Web ngữ nghĩa, cơ sở lý thuyết và nền tảng để
xây dựng một ứng dụng Semantic Web; chuẩn siêu dữ liệu Dublin Core; hệ thống
thư viện số và việc triển khai ứng dụng Semantic Web vào lĩnh vực tìm kiếm thông

7


tin về thư viện, đồng thời xây dựng và kiểm thử hệ thống tài liệu số chuyên ngành
Công nghệ thông tin được triển khai trên công nghệ Semantic Web.
Bố cục của luận văn:
Luận văn bao gồm các nội dung theo các phần chính như sau:
Chương 1 “Tổng quan về thư viện số ngữ nghĩa”: Trình bày tổng quan về
khái niệm về thư viện số, thư viện số ngữ nghĩa, các vấn đề thách thức gặp phải khi
triển khai hệ thống và nội dung nghiên cứu của luận văn.
Chương 2 “Công nghệ Web ngữ nghĩa trong thư viện số”: Trình bày các
khái niệm về Web ngữ nghĩa, siêu dữ liệu Dublin Core, RDF, RDFs, Ontology,
cách tổ chức tri thức trong thư viện số và thư viện số ngữ nghĩa. Phân tích và trình
bày kiến trúc của thư viện số ngữ nghĩa, Ontology của thư viện số ngữ nghĩa và
việc tìm kiếm trong thư viện số ngữ nghĩa.
Chương 3 “Phân tích và xây dựng hệ thống tài liệu số chuyên ngành công
nghệ thông tin” : Phân tích bài toán thực tế, xây dựng các siêu dữ liệu theo chuẩn
Dublin Core và các Ontology, xây dựng và triển khai hệ thống Website theo công
nghệ Semantic Web, đánh giá kết quả và hướng phát triển của đề tài trong tương

lai.
Kết luận
Trong chương này đã trình bày tổng quan các khái niệm về thư viện số, thư
viện số ngữ nghĩa, nội dung nghiên cứu của luận văn, các thách thức đặt ra đối với
một hệ thống thư viện số và các ưu điểm của một hệ thống thư viện số áp dụng
công nghệ Web ngữ nghĩa.

8


Chƣơng 2. Công nghệ Web ngữ nghĩa trong hệ thống thƣ viện số
Trong chương này, tác giả sẽ giới thiệu về các công nghệ được sử dụng
trong việc triển khai hệ thống thư viện số ngữ nghĩa. Nội dung của chương sẽ tập
trung giới thiệu về: Web ngữ nghĩa, siêu dữ liệu Dublin Core, RDF (Resource
Description Frame Work), RDFS (Resource Description Framework Schema),
Ontology và công nghệ Web ngữ nghĩa trong thư viện số.
2.1 Web ngữ nghĩa (Semantic Web)
Phần này sẽ làm rõ khái niệm Web ngữ nghĩa (Semantic Web), phân tích kiến
trúc của Web ngữ nghĩa, giới thiệu về các thành phần cốt lõi tạo nên tính ngữ nghĩa
của hệ thống: RDF, RDFS, Ontolgy.
2.1.1 Khái niệm về Web ngữ nghĩa

Những ưu điểm của Web ngữ nghĩa so với Web hiện tại bao gồm:


Máy tính có thể hiểu được thông tin trên Web ngữ nghĩa: Với việc định

nghĩa các khái niệm và bổ sung các quan hệ dưới dạng máy tính có thể hiểu
được.


9


2.1.2 Kiến trúc của Web ngữ nghĩa
Semantic Web là một tập hợp/một chồng các lớp và các giao thức. Tất cả
các lớp của Semantic Web được sử dụng để đảm bảo độ an toàn và giá trị thông tin
trở nên tốt nhất. Hình 2.1 thể hiện kiến trúc của một hệ thống Web ngữ nghĩa với
các chồng giao thức và lớp cụ thể.

Hình 2.1 Kiến trúc hệ thống Web ngữ nghĩa
 Lớp Unicode & URI:URI - Uniform Resource Identifier: định danh tài

10


nguyên (có thể là con người, quyển sách, hay bất kỳ đối tượng nào) trên
mạng internet giúp phân biệt giữa các tài nguyên với nhau. URI là nền tảng
của Web ngữ nghĩavà không thể thay thế được. Lớp Unicode & URI giúp
nhằm bảo đảm việc sử dụng tập kí tự quốc tế và cung cấp phương tiện nhằm
định danh các đối tượng trong Web ngữ nghĩa.

 Lớp RDF [RDF] và RDFSchema [RDFS]: ta có thể tạo các phát biểu
(statement) để mô tả các đối tượng bằng những từ vựng hay các URI. Các
đối tượng này có thể được tham chiếu đến bởi những từ vựng và định nghĩa
của URI ở trên. Đây cũng là lớp quan trọng nhất trong kiến trúc Semantic
Web.

 Lớp Digital Signature: được dùng để xác định chủ thể của tài liệu.
 Các lớpLogic, Proof, Trust: đang trong giai đoạn nghiên cứu và các thể
hiện của các ứng dụng giản đơn đang được xây dựng. Lớp Logic cho phép

tạo ra các luật (Rule) trong khi lớp Proofsẽ thi hành các luật và cùng với lớp
Trustsẽ thực hiện đánh giá nhằm quyết định ứng dụng nên hay không nên
11


tin tưởng(Trust) chứng cứ (Proof).
2.1.3 RDF, RDF Schema và Ontology
a. RDF (Resource Description Framework)
Ngôn ngữ biểu diễn dữ liệu và tri thức là một khía cạnh quan trọng của
Semantic Web. RDF được dùng để mã hóa các siêu dữ liệu của các tài nguyên vào
một bộ ba (RDF Triple): chủ ngữ (Subject), vị ngữ (Predicate) và đối tượng
(Object). Ta biết rằng mỗi một thực thể hay khái niệm đều có các thuộc tính, mỗi
thuộc tính đều có các giá trị, vì vậy mọi tài nguyên cũng đều có thể được biểu diễn
qua ngôn ngữ RDF.
XML cung cấp cú pháp để mã hóa dữ liệu, RDF là một cơ cấu chỉ ra điều gì
đó về dữ liệu. RDF cung cấp một mô hình dữ liệu, và một cú pháp đơn giản sao
cho các hệ thống độc lập có thể trao đổi và sử dụng nó. RDF được thiết kế sao cho
hệ thống máy tính có thể hiểu được và có thể đọc được thông tin, chứ không phải
để trình bày dữ liệu cho người dùng. Là một thành phần của Web ngữ nghĩa, được
đặt trên XML, RDF sử dụng cú pháp của XML để biểu diễn thông tin, điều này có
nghĩa là các tài liệu RDF được viết bằng XML. Ngôn ngữ XML dùng để biểu diễn
thông tin trong RDF được gọi là RDF/XML. Thông qua định dạng này, các thông
tin trong RDF có thể được trao đổi dễ dàng giữa các hệ thống máy tính cũng như
các hệ điều hành hay các ngôn ngữ lập trình ứng dụng khác nhau.
RDF mô tả các nguồn tài nguyên bởi bộ ba [chủ ngữ], [vị ngữ], [ đối tượng].
Một [vị ngữ] là một khía cạnh, tính chất, thuộc tính, hay mối liên hệ mô tả cho
một tài nguyên. Một phát biểu bao gồm một tài nguyên riêng biệt, một thuộc tính
được đặt tên, và giá trị thuộc tính cho tài nguyên đó ([đối tượng]). Giá trị này cơ
bản có thể là một tài nguyên khác hay một giá trị mang tính nghĩa đen hay dạng
chuỗi văn bản tùy ý.

[Chủ ngữ] là đối tượng được xác định qua định danh tài nguyên thống nhất –
URI, chẳng hạn chúng có thể là một liên kết của một trang Web. Các [vị ngữ]
cũng được xác định qua URI, do đó bất kì ai cũng có thể định nghĩa ra một khái
niệm mới, một thuộc tính mới, bằng cách chỉ cần định nghĩa URI cho chúng. Bởi

12


vì RDF sử dụng URI để biểu diễn các thông tin trong một tài liệu, các URI đảm
bảo rằng các khái niệm không chỉ chứa văn bản thuần túy mà nó còn là định danh
tài nguyên duy nhất mà tất cả người dùng có thể tìm kiếm được trên mạng. Trong
RDF, các URI đóng một vai trò rất quan trọng: Chúng ta có thể tạo ra các (siêu)
dữ liệu dựa trên bất kỳ một nguồn tài nguyên nào trên Web, ngữ nghĩa được đưa
vào các nguồn tài nguyên Web thông qua các URI, và URI cho phép liên kết giữa
các phần tử dữ liệu thông qua các thuộc tính.
(1) Mô hình dữ liệu RDF
Sự kết hợp của một nguồn tài nguyên ([chủ ngữ]), một thuộc tính ([vị ngữ])
và một giá trị của thuộc tính được ([đối tượng]) được đặt trong một Phát_biểu.
Cho một câu sau: “CEO của công ty Apple là Tim Cook”. Như vậy, ta có thể
biểu diễn bởi một phát biểu với các thông tin sau:
- Chủ ngữ của phát biểu RDF là: “công ty Apple”
- Tính chất là: “CEO”
- Đối tượng là: “Tim Cook”

Mô hình cơ bản của RDF gồm ba bộ phận sau:
 Tài nguyên: là tất cả những gì được mô tả bằng biểu thức RDF
 Thuộc tính: là đặc tính hay quan hệ mô tả tính chất tài nguyên
 Phát biểu: mỗi phát biểu gồm ba thành phần sau:
- [Chủ ngữ]: địa chỉ hay vị trí tài nguyên muốn mô tả.
- [Vị ngữ]: xác định tính chất của tài nguyên.

- [Đối tượng]: nội dung gán cho thuộc tính.
(2) RDF và Cơ sở dữ liệu quan hệ
Trong các cơ sở dữ liệu quan hệ truyền thống, dữ liệu được lưu dưới dạng
các bảng. Trong mỗi bảng, mỗi hàng là một bản ghi không có giới hạn về số lượng
các trường.
Ví dụ ta có bảng sau:
ISBN

Tên

Tác giả

NXB

1001111 Lập trình C Nguyễn VănA ĐHQG

13

Số trang

Giá bán

150

30.000


Giáo
1011112 Vi xử lí


Trần Văn B

dục

200

35.000

Nếu lưu các dữ liệu trên dưới dạng RDF, đòi hỏi các dữ liệu phải được chia
nhỏ để lưu dưới dạng các bộ ba:
ISBN

Tên

10001111

Lập trình C

10111112

Vi xử lí

Phát_biểu: {1001111, Tên, “Lập trình C”}
So với CSDL quan hệ, cách lưu trữ dưới dạng RDF có những ưu điểm sau:
 Tổ chức dữ liệu đơn giản, đồng nhất nên thông tin dễ dàng chỉnh sửa.
 Cấu trúc bộ ba giúp ta dễ truy xuất các thông tin bởi các hệ thống suy luận,
tìm kiếm ngữ nghĩa. Cũng nhờ vậy mà những bộ xử lí RDF có thể suy ra
những tri thức mới
 Chia sẻ dữ liệu trên mạng nhờ sự đồng nhất.
(3) Đồ thị RDF

Tập hợp các bộ ba tạo thành đồ thị RDF (đồ thị có hướng). Các nút trong đồ
thị là [chủ ngữ] và [đối tượng], các cung trong đồ thị là [Vị ngữ] và luôn có
hướng từ [chủ ngữ] tới [đối tượng]. Dùng đồ thị làm cho thông tin thể hiện rõ ràng
và dễ hình dung hơn.
Chủ

Vị ngữ

Đối tượng

ngữ
Hình 2.2 Đồ thị RDF
(4) Cú pháp của RDF
Mô hình RDF biểu diễn một mô hình ở mức trừu tượng để định nghĩa siêu dữ
liệu. Cú pháp RDF được dùng để tạo ra và trao đổi siêu dữ liệu, vì thế RDF dựa
trên cú pháp XML.
Ta xét một ví dụ: xét một phát biểu RDF
{thongtinlichthi.html,datecourse,”09-08-2015”}

14


Cú phát RDF được biểu diễn như sau:
1: <?xml version="1.0"?>
2: <rdf:RDF xmlns:rdf=" />3: xmlns:exterms=" />4: <rdf:Description rdf:about=" />5: <exterms:datecourse>09-08-2015</exterms:datecourse>
6: </rdf:Description>
7: </rdf:RDF>
Trong đó:
Dòng 1: Là khai báo XML, cho biết nội dung theo sau dựa trên cú pháp XML
và phiên bản XML được dùng.

Dòng 2 và 3: Bắt đầu với thẻ rdf:RDF , cho biết rằng nội dung XML tiếp theo
mô tả RDF. Từ khóa này xác định tài liệu này được biểu diễn dưới dạng RDF.
Tiếp theo là phần khai báo không gian tên XML được sử dụng trong tài liệu, tùy
vào nhu cầu và mục đích sử dụng mà ta có thể dùng các không gian tên khác nhau
cho từng tài liệu.
Dòng 4, 5, 6: Mô tả những mệnh đề RDF. Để mô tả bất kỳ phát biểu nào
dạng RDF/XML có thể dùng rdf:Description, và rdf:about , đây chính là [chủ ngữ]
của phát biểu. Thẻ bắt đầu rdf:Description trong dòng 4 cho biết bắt đầu mô tả về
một tài nguyên, và tiếp tục định danh tài nguyên này dùng thuộc tính rdf:about để
chỉ ra URI của tài nguyên..
Dòng 5 cung cấp 1 phần tử thuộc tính, với Qname là exterms:creation-date
như là thẻ của nó. Nội dung của phần tử thuộc tính này là [đối tượng] của
Phát_biểu, có giá trị là kiểu chuỗi kí tự “10 tháng 10 năm 2010 “.
Dòng 7: Cho biết kết thúc của thẻ rdf:RDF bắt đầu ở dòng 2 và cũng là thẻ
kết thúc của tài liệu RDF.
(5) Bộ chứa RDF
Để mô tả tập hợp của nhiều đối tượng như một bài báo khoa học được viết bởi
nhiều tác giả, danh sách các sinh viên trong một khóa học, v.v... RDF cung cấp

15


×