ứng dụng web ngữ nghĩa trong lưu trữ và quản lí các tài liệu số

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.88 MB, 68 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


Lương Đỗ Long

ỨNG DỤNG WEB NGỮ NGHĨA TRONG
LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ

LUẬN VĂN THẠC SĨ KHOA HỌC

HÀ NỘI - 2011

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


Lương Đỗ Long

ỨNG DỤNG WEB NGỮ NGHĨA TRONG
LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ

Ngành: Cơng nghệ thơng tin
Chun ngành: Hệ thống thông tin
Mã số: 60.48.05

LUẬN VĂN THẠC SĨ KHOA HỌC

Cán bộ hướng dẫn khoa học:
PGS. TS Đỗ Trung Tuấn

HÀ NỘI - 2011

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn: “ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU
TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ” là kết quả nghiên cứu của riêng tôi,
không sao chép của riêng ai. Các số liệu và bảng biểu là hồn tồn chính xác và nội
dung luận văn có tham khảo và sử dụng các tài liệu, thơng tin đuợc đăng tải trên các
tác phẩm, tạp chí và các trang web theo danh mục tài liệu của luận văn.

Hà nội, ngày 02 tháng 05 năm 2011
Tác giả luận văn
Lương Đỗ Long

i

LỜI CẢM ƠN
Trước tiên tôi xin chân thành cảm ơn PGS.TS Đỗ Trung Tuấn, người thầy đã
hướng dẫn tận tình, chỉ bảo thẳng thắn và đã động viên tôi rất nhiều để tơi hồn
thành bản luận văn này.
Tơi xin chân thành cảm ơn các thầy, cô giáo của Trường Đại học Công nghệ
đặc biệt là các thầy, cô giáo trong bộ môn Hê thống Thông tin đã giảng dạy, động
viên và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và làm luận văn.
Sau cùng, tơi xin đuợc gửi lời cám đến các bạn đồng nghiệp, các bạn học viên
cao học khóa 15 - những người đã động viên, giúp đỡ tơi trong suốt q trình học
tập và thực hiện luận văn này.
Hà nội, Mùa hè năm 2011

Tác giả luận văn

Lương Đỗ Long

ii

MỤC LỤC
Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA .................................................1
1.1. Khái niệm Web ngữ nghĩa và Siêu dữ liệu .....................................................1
1.1.1. Khái niệm................................................................................................1
1.1.2. Siêu dữ liệu .............................................................................................2
1.2. Kiến trúc Web ngữ nghĩa ...............................................................................3
1.3 Ngôn ngữ Cơ cấu mô tả tài nguyên và Bản thể luận........................................8
1.3.1 Ngôn ngữ mô tả tài nguyên RDF ..............................................................8
1.3.2 Bản thể luận ...........................................................................................15
1.3.3 Lược đồ RDF và truy vấn RDF...............................................................16
Kết luận..............................................................................................................23
Chương 2. TIẾP CẬN WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ TÀI
LIỆU SỐ................................................................................................................24
2.1 Web ngữ nghĩa và thư viện số.......................................................................24
2.1.1 Thư viện số ngữ nghĩa ............................................................................24
2.1.2. Tổ chức tri thức trong thư viện ..............................................................26
2.1.3. Web ngữ nghĩa trong thư viện số ...........................................................26
2.2. Kiến trúc của thư viện số ngữ nghĩa.............................................................30
2.3. Bản thể luận cho thư viện số ngữ nghĩa .......................................................31
2.3.1. Bản thể luận biểu ghi thư mục ...............................................................31
2.3.2. Bản thể luận cho cấu trúc nội dung ........................................................33
2.3.3. Cơ bản về sự phân loại ..........................................................................34
2.3.4. Xây dựng Bản thể luận ..........................................................................36

2.4. Thư viện số ngữ nghĩa và mạng xã hội.........................................................37
2.5. Tìm kiếm trong thư viện ngữ nghĩa..............................................................38
iii

2.5.1. Tìm kiếm dựa trên sự phân loại .............................................................38
2.5.2. Tìm kiếm ngữ nghĩa ..............................................................................38
Kết luận..............................................................................................................40
Chương 3. Xây dựng thư viện số ngữ nghĩa dựa trên phần mềm JeromeDL...........41
3.1 Giới thiệu phần mềm JeromeDL ...................................................................41
3.2. Kiến trúc và Bản thể luận trong JeromeDL ..................................................42
3.2.1. Kiến trúc của JeromeDL........................................................................42
3.2.2. Bản thể luận trong JeromeDL ................................................................44
3.3. Truy vấn trong JeromeDL............................................................................48
3.4. Sử dụng JeromeDL ......................................................................................51
Kết luận..............................................................................................................53
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN..............................................................54
TÀI LIỆU THAM KHẢO......................................................................................56

iv

Bảng kí hiệu thuật ngữ viết tắt

Tên viết tắt
WWW

Tiếng Việt
Mạng toàn cầu

Tiếng Anh

W3C

Tổ chức Mạng toàn cầu

World Wide Web
World Wide Web Consortium

RDF

Cơ cấu mô tả tài nguyên

Resource Description Framework

RDFS

Lược đồ Cơ cấu mô tả tài Resource Description Framework
nguyên
Scheme

XML

Ngôn ngữ đánh dấu mở rộng

v

eXtensible Markup Language

Danh mục hình ảnh

Hình 1.1. Kiến trúc của Web ngữ nghĩa..........................................................................................4
Hình 1.2. Đồ thị RDF...................................................................................................................11
Hình 1.3. Quan hệ kế thừa............................................................................................................17
Hình 1.4. Khơng gian miền và giới hạn của thuộc tính RDFS .......................................................20
Hình 2.1. Các thành phần hỗ trợ thư viện số ngữ nghĩa.................................................................26
Hình 2.2. Biểu diễn cấu trúc tài liệu dưới dạng RDF.....................................................................29
Hình 2.3. Kiến trúc thư viện số ngữ nghĩa ....................................................................................31
Hình 2.4. Bản thể luận BibTeX ....................................................................................................32
Hình 2.5. Một dạng cây phân cấp .................................................................................................35
Hình 2.6. Một Bản thể luận Cys ...................................................................................................35
Hình 2.7. Quá trình tìm kiếm trong thư viện số ngữ nghĩa ............................................................39
Hình 2.8. Quá trình chia sẻ dữ liệu RDF.......................................................................................40
Hình 3.1. Giao diện của JeromeDL ..............................................................................................42
Hình 3.2. Kiến trúc của JeromeDL ...............................................................................................43
Hình 3.3. Bản thể luận MarcOnt...................................................................................................44
Hình 3.4. Bản thể luận cấu trúc nội dung......................................................................................46
Hình 3.5. Mạng xã hội trong JeromeDL .......................................................................................48
Hình 3.6. Các bước trong truy vấn JeromeDL...............................................................................49
Hình 3.7. Giao diện chức năng tìm kiếm ngữ nghĩa ......................................................................52
Hình 3.8. Giao diện chức năng xuất bản tài liệu............................................................................53

vi

Danh mục bảng biểu

Bảng 1. Các lớp trong RDFS........................................................................................................18
Bảng 2. Các thuộc tính trong RDFS .............................................................................................19

Bảng 3. Các lớp, thuộc tính, thể hiện của Bản thể luận MarcOnt...................................................45
Bảng 4. Các lớp, thuộc tính, thể hiện của Bản thể luận cấu trúc nội dung ......................................47

vii

MỞ ĐẦU

Web ngữ nghĩa (hay Semantic Web) là thế hệ mở rộng của Web hiện tại được
đưa ra bởi Tim Berners-Lee vào khoảng năm 1998. Mục tiêu ban đầu của Semantic
Web là để hỗ trợ người dùng tìm kiếm thơng tin trên mạng một cách nhanh chóng,
chuẩn xác và thơng minh hơn so với các cơng cụ tìm kiếm truyền thống.
Theo định nghĩa của tổ chức World Wide Web Consortium (W3C), web ngữ
nghĩa là sự mở rộng của WWW hiện tại bằng cách thêm vào các mô tả ý nghĩa (hay
ngữ nghĩa) của thơng tin dưới dạng mà chương trình mà máy tính có thể hiểu được
và do vậy cho phép xử lí thơng tin có hiệu quả hơn. Web ngữ nghĩa cố gắng làm sao
để máy tính hiểu được các khái niệm, mối quan hệ giữa các khái niệm, các thuộc
tính và các tiến trình của chúng. Trong trường hợp này, máy tính có khả năng ra kết
luận và trích xuất ra thơng tin mới và có giá trị từ các dữ liệu đã tồn tại. Web ngữ
nghĩa không phải là Trí tuệ nhân tạo (AI), nhưng nó có thể xem là một loại web
thông minh, hay thế hệ phát triển tiếp theo của web. Nền tảng cơ bản làm nên web
ngữ nghĩa là các siêu dữ liệu (metadata) và bản thể luận. Siêu dữ liệu có thể hiểu
đơn giản là dữ liệu về dữ liệu, còn bản thể luận định nghĩa về các từ vựng được sử
dụng trong các miền ứng dụng khác nhau. Các siêu dữ liệu có thể dùng để biểu diễn
cho mọi loại tài nguyên (thực thể hoặc các khái niệm). Một cách để biểu diễn các
khái niệm, và mối quan hệ giữa chúng trong một tài liệu là sử dụng ngôn ngữ mô tả
tài nguyên RDF (Resource Description Framework).
Các tài liệu số (tài nguyên) thường đường lưu trữ và truy cập qua các cổng
thông tin và các thư viện số. Các thư viện số ngồi chức năng lưu trữ các tài liệu số,
cịn có chức năng cho phép người sử dụng tìm kiếm các tài liệu có liên quan một

cách nhanh nhất. Các siêu dữ liệu là một trong những cách tiếp cận cho việc biên
mục, phân loại và hỗ trợ tìm kiếm các tài liệu số. Trong cách biểu diễn bởi các siêu
dữ liệu, các tài liệu số được “cấu trúc hóa” vào các siêu dữ liệu. Bất kì thơng tin nào
trong các thư viện số cũng có thể được biểu diễn bởi các siêu dữ liệu, với cách biểu
diễn này sẽ thuận lợi cho việc quản lí và người dùng dễ dàng tìm kiếm ra các tài liệu
gốc. Ngồi ra, cách tiếp cận này cho phép các thư viện số dễ dàng chia sẻ các tài
nguyên với nhau dựa trên một chuẩn đặc tả chung. Việc tích hợp ngữ nghĩa vào các
viii

thư viện số dựa trên kiến trúc của Web ngữ nghĩa làm cho thư viện số có nhiều ưu
điểm hơn so với cách tiếp cận thơng thường.
Luận văn này tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, dựa trên
cách tiếp cận web ngữ nghĩa, tìm hiểu cách tích hợp ngữ nghĩa vào các thư viên số.
Cấu trúc của luận văn gồm 3 chương:
Chương 1: Tổng quan về Web ngữ nghĩa
Tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, các thành phần cơ bản
làm nên web ngữ nghĩa.
Chương 2: Tiếp cận Web ngữ trong lưu trữ và quản lí tài liệu số
Tìm hiểu một trong những cách quản lí tài liệu số đó là thư viện số. Nghiên
cứu cách tích hợp ngữ nghĩa vào các tài nguyên trong thư viện số: cơ chế biên mục
và phân loại dựa trên ngữ nghĩa
Chương 3: Xây dựng thư viện số ngữ nghĩa dựa trên phần mềm
JeromeDL
Giới thiệu phần mềm mã nguồn mở JeromeDL trong việc xây dựng các thư
viện số ngữ nghĩa.

ix

Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA
Trong chương này, sẽ giới thiệu công nghệ cơ bản được sử dụng trong luận
văn, bao gồm định nghĩa về web ngữ nghĩa, những nồ lực trong việc xây dựng web
ngữ nghĩa từ web hiện tại, giới thiệu kiến trúc web ngữ nghĩa của tổ chức World
WideWeb Consortium (W3C). Tìm hiểu về Bản thể luận và ngôn ngữ bản thể luận.

1.1. Khái niệm Web ngữ nghĩa và Siêu dữ liệu
1.1.1. Khái niệm
Sau khi ra đời của Internet và World Wide Web (WWW), rất nhiều những nỗ
lực đã được thực hiện và các công nghệ được phát triển nhằm mục đích làm cho
World Wide Web tốt hơn, nhanh hơn, và thông minh hơn. Nhiều công nghệ, kiến
nghị sau khi xuất hiện đã trở thành chuẩn chung chỉ trong một thời gian ngắn. Một
trong những nỗ lực này là web ngữ nghĩa. Web ngữ nghĩa có thể được xem là sự mở
rộng của web hiện tại. Web ngữ nghĩa khơng phải là Trí tuệ nhân tạo, nhưng có thể
xem là một dạng web thơng minh.
Web ngữ nghĩa là sự mở rộng của WWW bằng cách thêm vào các mô tả ngữ
nghĩa của thông tin dưới dạng mà chương trình máy tính có thể “hiểu” và do vậy
cho phép xử lý thông tin hiệu quả hơn [3]. Xét về mặt bản chất, Semantic Web ngữ
nghĩa chỉ là một công cụ để con người cũng như máy tính sử dụng để biểu diễn
thơng tin, hay nói chính xác hơn thì Web ngữ nghĩa chỉ là một dạng dữ liệu trên
Web. Khác với các dạng thức dữ liệu được trình bày trong HTML, dữ liệu trong
Semantic Web được đánh dấu, phân lớp, mơ hình hóa, được bổ sung thêm các thuộc
tính, các mối liên hệ… theo các lĩnh vực cụ thể, qua đó giúp cho các phần mềm
máy tính có thể hiểu được dữ liệu và tự động xử lý được những dữ liệu đó.
Có thể kể ra đây những ưu điểm của web ngữ nghĩa so với web hiện tại:


Máy tính có thể hiểu được thơng tin trên Web: Web ngữ nghĩa định nghĩa
các khái niệm và bổ sung quan hệ dưới dạng máy tính có thể hiểu được. Do
1

đó, việc tìm kiếm, đánh giá, xử lý, tích hợp thơng tin có thể được tiến hành
một cách tự động.


Thơng tin được tìm kiếm nhanh chóng và chính xác hơn: Với Web ngữ
nghĩa, máy tính có thể xác định một thực thể thuộc lớp hay thuộc tính cụ thể
nào dựa trên ngữ cảnh chứa nó. Do đó thu hẹp khơng gian tìm kiếm và cho
kết quả nhanh, chính xác hơn.



Khả năng suy luận thông minh: Dựa vào các luật suy diễn trên cơ sở tri thức
về các thực thể, máy tính có khả năng sinh ra những kết luận mới.



Dữ liệu liên kết động: Thay thế cách liên kết sử dụng hyperlink tĩnh trong
Web cũ, Web ngữ nghĩa liên kết dữ liệu từ nhiều nguồn khác nhau một cách
hiệu quả hơn dựa trên định danh của tài nguyên (URI) và quan hệ giữa
chúng. Cách liên kết này đơi khi cịn được gọi là liên kết bằng siêu dữ liệu.

Trong web ngữ nghĩa, với sự trợ giúp của các công nghệ khác, chúng ta có thể
trợ giúp cho máy tính hiểu được các khái niệm, mối quan hệ giữa chúng, xử lí
nhanh chóng, chính xác các truy vấn từ người dùng.

1.1.2. Siêu dữ liệu
Một trong những nền tảng cơ bản làm nên web ngữ nghĩa là các siêu dữ liệu.
Siêu dữ liệu dùng để mơ tả tài ngun thơng tin, cịn gọi là dữ liệu về dữ liệu. Mỗi

thực thể hay khái niệm có thể có một hay nhiều siêu dữ liệu. Cho ví dụ, một khóa
luận tốt nghiện có [một tác giả], [tên khóa luận], [cán bộ hướng dẫn], ... là các siêu
dữ liệu về khóa luận. Chúng ta có thể đơn giản hóa việc phân loại và truy vấn dữ
liệu bằng cách dùng các siêu dữ liệu.
Mối liên hệ giữa siêu dữ liệu và tài nguyên thông tin mà nó mơ tả có thể được
thể hiện ở một trong hai cách sau:
 Các phần tử metadata được chứa trong một biểu ghi tách biệt bên ngồi
đối tượng mơ tả.
 Các phần tử metadata có thể được nhúng (gắn) vào bên trong tài
ngun mà nó mơ tả.
Trước đây với tài liệu truyền thống, các mơ tả dữ liệu nằm ngồi đối tượng mô
tả, như vậy siêu dữ liệu được lưu trữ một cách tách biệt bên ngồi đối tương mơ tả.

2

Với tài liệu số, siêu dữ liệu của chúng được nhúng (gắn) trong bản thân tài
nguyên hoặc liên kết với tài ngun mà nó mơ tả như trong trường hợp các thẻ meta
của tài liệu HTML
i.

Sơ đồ siêu dữ liệu

Sơ đồ siêu dữ liệu là tập hợp những yếu tố siêu dữ liệu được thiết kế cho mô tả
một dạng tài nguyên thông tin cụ thể. Như vậy siêu dữ liệu là sơ đồ hình thức được
xác định để mơ tả tài nguyên thông tin cho đối tượng số hoặc khơng số. Thí dụ tập
hợp yếu tố siêu dữ liệu Dublin Core có sơ đồ bao gồm 15 yếu tố cơ bản để mô tả tài
nguyên thông tin.
ii.

Ngữ nghĩa

Định nghĩa các yếu tố hoặc ý nghĩa đực gán cho các yếu tố siêu dữ liệu thì
được gọi là ngữ nghĩa của sơ đồ. Mỗi sơ đồ siêu dữ liệu có ngữ nghĩa và cú pháp
được quy định riêng. Ví dụ trong yếu tố siêu dữ liệu Dublin Core yếu tố “Creator” –
dùng để xác định là tác giả của tài liệu, hoặc yếu tố “Title” – được hiểu là nhan đề
của tài liệu.
iii.

Nội dung

Giá trị (dữ liệu) của từng yếu tố được gọi là nội dung. Đó chính là giá trị của
mỗi yếu tố siêu dữ liệu. Nhờ các sơ đồ dữ liệu, các chương trình xử lý tự động sẽ
nhận biết đoạn dữ liệu nào sẽ thuộc thành phần nào, chẳng hạn đoạn dữ liệu này
được nhận biết là nhan đề, đoạn dữ liệu kia được nhận biết là tác giả của tài liệu.

1.2. Kiến trúc Web ngữ nghĩa
Để có được những khả năng như đã đề cập ở phần trên, web ngữ nghĩa cần có
một hạ tầng chặt chẽ với nhiều lớp hỗ trợ. Dưới đây là kiến trúc tổng quát nhất của
web ngữ nghĩa do tổ chức W3C đề xuất:

3

Hình 1.1. Kiến trúc của Web ngữ nghĩa

i.

Unicode và định danh tài nguyên thống nhất

Tầng thấp nhất là tài nguyên (một đối tượng, một thực thể hay một khái niệm,
v.v...), chúng được mô tả bằng các định danh tài nguyên thống nhất - Uniform
Resource Identifier (URI). Mục đích của tầng này là xác định tính duy nhất của mỗi
tài nguyên. Một tài nguyên có duy nhất một URI, tập con của URI là định vị tài
nguyên thống nhất: Uniform Resource Locator (URL), nó chứa phương thức truy
cập và vị trí của tài liệu trên mạng. Một tập con khác của URI là tên tài nguyên
thống nhất : Uniform Resource Name (URN), cho phép xác định một tài nguyên mà
không cần phải chứa địa chỉ và phương thức truy cập đến nó, ví dụ chỉ số ISBN là
một URN. Việc sử dụng URI là rất quan trọng, vì nó cho phép xây dựng một hệ
thống phân tán, trong đó các tài nguyên nằm ở nhiều nơi khác nhau trên mạng. Một
biến thể khác của URI là định danh tài nguyên được quốc tế hóa: Internationalized
Resource Identifier (IRI), nó cho phép sử đụng các kí tự Unicode trong định danh
[1].
Để mã hóa các thông tin, dữ liệu ta sử dụng chuẩn mã hóa Unicode, đây là
chuẩn thống nhất dùng để mã hóa các tập kí tự quốc tế. Nó cho phép tất cả các ngơn
ngữ của tất cả các nước có thể được mã hóa thống nhất, tránh hiện tượng mỗi quốc
gia lại sử dụng một chuẩn mã hóa riêng, gây khó khăn cho trao đổi dữ liệu.
4

ii.

Biểu diễn XML

Tầng tiếp theo là Ngôn ngữ đánh dẫu mở rộng: Extensible Markup Language
(XML), nó được dùng để biểu diễn dữ liệu mà máy tính có thể hiểu và xử lí dữ liệu
được. XML là cơng nghệ chính và là chuẩn của web hiện tại và trong tương lai. Với
XML, máy tính có thể tích hợp và tương tác trao đổi dữ liệu với nhau. XML cung
cấp một phương tiện dùng văn bản để mô tả thông tin và áp dụng một cấu trúc kiểu
cây cho thơng tin đó. Tại mức căn bản, mọi thông tin đều thể hiện dưới dạng text,

chen giữa là các thẻ đánh dấu với nhiệm vụ ký hiệu sự phân chia thông tin thành
một cấu trúc có thứ bậc của các dữ liệu ký tự, các phần tử dùng để chứa dữ liệu, và
các thuộc tính của các phần tử đó. Đơn vị cơ sở của XML là các ký tự theo định
nghĩa của Bộ ký tự toàn cầu (Universal Character Set). Các ký tự được kết hợp theo
các tổ hợp chuỗi hợp lệ để tạo thành một tài liệu XML. Tài liệu này gồm một hoặc
nhiều thực thể, mỗi thực thể thường là một phần nào đó của các ký tự thuộc tài liệu,
được mã hóa dưới dạng một chuỗi các bit và lưu trữ trong một tệp văn bản.
Các tệp XML có thể dùng cho nhiều loại dữ liệu đa phương tiện. RFC3023
định nghĩa các loại "application/xml" và "text/xml", với ý rằng dữ liệu được biểu
diễn bằng XML mà khơng nói gì đến ngữ nghĩa của dữ liệu.
Bằng cách cho phép các tên dữ liệu, cấu trúc thứ bậc được phép, và ý nghĩa
của các phần tử và thuộc tính có tính chất mở và có thể được định nghĩa bởi một
lược đồ tùy biến được (XML Scheme), XML cung cấp một cơ sở cú pháp
(Document Type Definition - DTD) cho việc tạo lập các ngôn ngữ đánh dấu dựa
XML theo yêu cầu. Cú pháp chung của các ngơn ngữ đó là cố định — các tài liệu
phải tuân theo các quy tắc chung của XML, bảo đảm rằng tất cả các phần mềm hiểu
XML ít ra cũng phải có khả năng đọc (phân tích cú pháp) và hiểu bố cục tương đối
của thơng tin trong các tài liệu đó. Lược đồ chỉ bổ sung một tập các ràng buộc cho
các quy tắc cú pháp. Các lược đồ thường hạn chế tên của phần tử và thuộc tính và
các cấu trúc thứ bậc được phép, ví dụ, chỉ cho phép một phần tử tên 'ngày sinh' chứa
một phần tử tên 'ngày' và một phần tử có tên 'tháng', mỗi phần tử phải chứa đúng
một ký tự.
Có một khái niệm rất quan trọng trong XML là Không gian tên XML (XML
namespace). Không gian tên XML là cơ chế cho phép gom các tên phân tử và thuộc
tính vào một nhóm. Nó thường xun được dùng để phối hợp việc dùng tên phần tử
(hay thuộc tính) từ nhiều nguồn khác nhau trong một tài liệu XML, mà vẫn tránh
được nguy cơ trùng tên. Một Khơng gian tên là tập hợp các tên có thể dùng trong tài
5

liệu XML, như tên các phần tử, thuộc tính,..., nó gom các tên này vào các vùng
riêng.
iii.

Trao đổi dữ liệu RDF
Cơ cấu mô tả tài nguyên - RDF được W3C giới thiệu để cung cấp một cú pháp

chuẩn để tạo, thay đổi và sử dụng các chú thích trong Web ngữ nghĩa. Một mệnh đề
RDF là một bộ ba có dạng: [chủ đề], [thuộc tính], [đốitượng]. Trong đó, [chủ đề] là
tài ngun mà được mơ tả bằng [thuộc tính] và [đối tượng]. [Thuộc tính] thể hiện
mối quan hệ giữa [chủ đề] và [đối tượng]. Cịn [đối tượng] ở đây có thể là một tài
nguyên hoặc một giá trị. Ba thành phần trên trong RDF đều là các URI.
Ví dụ về biểu diễn RDF của siêu dữ liệu Dublin Core:
xmlns:rdf=" />xmlns:dc=" />" /><dc:creator>Lương Đỗ Long</dc:creator>
<dc:title>Các dạng khảo sát hàm số</dc:title>
<dc:description>Giới thiệu các dạng khảo sát hàm số thường hay gặp
trong các kì thi đại học</dc:description>
<dc:date>2000-01-20</dc:date>
</rdf:Description>
</rdf:RDF>

Chi tiết về RDF sẽ được đề cập chi tiết ở phần sau.
iv.

Lược đồ RDF

Để xác định ra cấu trúc và ngữ nghĩa của RDF, ngôn ngữ lược đồ RDF: RDF
Scheme (hay RDFS) đã được đề xuất. RDFS là một ngôn ngữ Bản thể luận đơn

giản của web ngữ nghĩa, được coi là một ngôn ngữ cơ sở của web ngữ nghĩa. RDFS
cung cấp một phương tiện để đặc tả các từ vựng mơ tả tính chất và quan hệ giữa các
tài nguyên RDF, bao gồm:
-

Định nghĩa các lớp tài nguyên

-

Định nghĩa các quan hệ giữa các lớp

-

Định nghĩa các loại thuộc tính mà các lớp trên có
6

v.

Định nghĩa các mối quan hệ giữa các thuộc tính.

Bản thể luận
Đối với mỗi miền ứng dụng cụ thể, sẽ có một tập các khái niệm và các mối

quan hệ, ràng buộc giữa chúng tạo thành một bản thể luận. Một khái niệm có thể là
một lớp, một thuộc tính của một lớp hay bộ từ vựng sử dụng trong miền ứng dụng
đó. Bộ từ vựng bản thể luận được xây dựng trên cơ sở tầng RDF và RDFS, cung
cấp biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên web và có khả năng hỗ trợ lập
luận. Để xây dựng được các bộ từ vựng này, người ta đã sử dụng các ngôn ngữ bản
thể luận để biểu diễn chúng như: RDFS, OIL, DAML, DAML+OIL, hay ngôn ngữ

bản thể luận cho web (OWL), ... Các ngôn ngữ này cung cấp khả năng biểu diễn và
hỗ trợ lập luận khác nhau và chúng dựa trên nền tảng là các ngôn ngữ logic mô tả
tương ứng khác nhau.
Để cung cấp các luật suy diễn dựa trên các ngôn ngữ bản thể luận, một số
ngôn ngữ luật đang được phát triển và chuẩn hóa, chẳng hạn, ngơn ngữ Qui tắc trao
đổi định dạng (Rule Interchange Format RIF ).
Để truy vấn dữ liệu RDF trong một cơ sở tri thức, ngôn ngữ truy vấn RDF:
Simple Protocol and RDF Query Language – SPARQL đã được đề xuất. Ngôn ngữ
SPARQL là ngôn ngữ truy vấn tương tự như ngơn ngữ truy vấn có cấu trúc SQL
dùng để thao tác với các hệ hệ quản trị CSDL quan hệ
vi.

Tầng Logic

Việc biểu diễn các tài nguyên dưới dạng các bộ từ vựng ontology có mục đích
là để máy có thể lập luận được. Mà cơ sở lập luận chủ yếu dựa vào logic. Chính vì
vậy mà các ontology được ánh xạ sang logic, cụ thể là logic mô tả để có thể hỗ trợ
lập luận. Vì logic mơ tả có biểu diễn ngữ nghĩa hình thức và cung cấp các dịch vụ
lập luận, là cơ sở để hỗ trợ máy tính có thể lập luận và hiểu tài nguyên.
vii.

Tầng chứng minh

Tầng này đưa ra các luật để suy luận. Cụ thể từ các thơng tin đã có ta có thể
suy ra các thơng tin mới. Ví dụ: A là cha của B, A là em trai C thì khi đó ta có thơng
tin mới là C là bác của B. Để có được các suy luận này thì cơ sở là FOL (FirstOrder-Logic). Và tầng này hiện nay các nhà nghiên cứu đang xây dựng các ngôn
ngữ luật cho nó như: SWRL, RuleML.

7

Để đảm bảo dữ liệu đầu vào đáng tin cậy, có thể sử dụng mật mã, chẳng hạn
như sử dụng chữ kí điện tử để thẩm định xuất xứ của nguồn dữ liệu [2]
viii.

Tầng xác nhận
Đảm bảo tính tin cậy của các ứng dụng trên Web ngữ nghĩa. Ví dụ: có một

mệnh đề: X là A, một mệnh đề khác lại xác định X không là A, như thế Web ngữ
nghĩa là không đáng tin cậy? Câu trả lời ở đây được xem xét trong các ngữ cảnh.
Mỗi ứng dụng trên web ngữ nghĩa sẽ có một ngữ cảnh cụ thể, chính vì thế các mệnh
đề trên có thể nằm trong các ngữ cảnh khác nhau khi đó ngữ nghĩa tương ứng khác
nhau nên các mệnh đề đó vẫn đúng, đáng tin cậy trong ngữ cảnh của nó. Để có được
sự chứng minh về độ tin cậy thì các lập luận được áp dụng là khơng đơn điệu và có
các cơ chế kiểm tra chứng minh kết hợp với công nghệ chữ ký điện tử để xác nhận
độ tin cậy. Các ngôn ngữ chứng minh là ngôn ngữ cho ta chứng minh một mệnh đề
là đúng hay sai.
ix.

Giao diện người dùng và ứng dụng

Đây là tầng trực tiếp giao tiếp với người dùng và ứng dụng, tầng này cung cấp
giao diện cho người dùng và các dịch vụ khác truy cập.

1.3 Ngôn ngữ Cơ cấu mô tả tài nguyên và Bản thể luận
1.3.1 Ngôn ngữ mô tả tài nguyên RDF
Ngôn ngữ biểu diễn dữ liệu và tri thức là một khía cạnh quan trọng của
Semantic Web. Như đã đề cập ở bên trên, XML là nền tảng cơ bản làm nên web
ngữ nghĩa, tuy nhiên XML không đủ khả năng để tạo ra ngữ nghĩa trong web. Mặc
dù XML cho phép người dùng thêm dữ liệu tùy ý vào cấu trúc tài liệu nhưng nó

khơng đề cập gì đến ngữ nghĩa của tài liệu hàm chứa.
Ngôn ngữ Cơ cấu mô tả tài nguyên - RDF được đề xuất nhằm khắc phục
những nhược điểm của XML không thể giải quyết được. Định nghĩa cơ bản của
ngôn ngữ RDF là dùng để mã hóa các siêu dữ liệu của các tài nguyên vào một bộ ba
(RDF Triple): [chủ ngữ], [vị ngữ] và [đối tượng]. Ta biết rằng mỗi một thực thể hay
khái niệm đều có các thuộc tính, mỗi thuộc tính đều có các giá trị, vì vậy mọi tài
ngun cũng đều có thể được biểu diễn qua ngơn ngữ RDF.
XML cung cấp cú pháp để mã hóa dữ liệu, RDF là một cơ cấu chỉ ra điều gì
đó về dữ liệu. RDF cung cấp một mơ hình dữ liệu, và một cú pháp đơn giản sao cho
8

các hệ thống độc lập có thể trao đổi và sử dụng nó. RDF được thiết kế sao cho hệ
thống máy tính có thể hiểu được và có thể đọc được thơng tin, chứ khơng phải để
trình bày dữ liệu cho người dùng. Là một thành phần của Web ngữ nghĩa, được đặt
trên XML, RDF sử dụng cú pháp của XML để biểu diễn thơng tin, điều này có
nghĩa là các tài liệu RDF được viết bằng XML. Ngôn ngữ XML dùng để biểu diễn
thông tin trong RDF được gọi là RDF/XML. Thông qua định dạng này, các thông
tin trong RDF có thể được trao đổi dễ dàng giữa các hệ thống máy tính cũng như
các hệ điều hành hay các ngơn ngữ lập trình ứng dụng khác nhau.
RDF mơ tả các nguồn tài nguyên bởi bộ ba [chủ ngữ], [vị ngữ], [ đối tượng].
Một [vị ngữ] là một khía cạnh, tính chất, thuộc tính, hay mối liên hệ mơ tả cho một
tài nguyên. Một phát biểu bao gồm một tài nguyên riêng biệt, một thuộc tính được
đặt tên, và giá trị thuộc tính cho tài ngun đó ([đối tượng]). Giá trị này cơ bản có
thể là một tài nguyên khác hay một giá trị mang tính nghĩa đen hay dạng chuỗi văn
bản tùy ý. [Chủ ngữ] và đối tượng được xác định qua Định danh tài nguyên thống
nhất – URI, chẳng hạn chúng có thể là một liên kết của một trang web. Các [vị ngữ]
cũng được xác định qua URI, do đó bất kì ai cũng có thể định nghĩa ra một khái
niệm mới, một thuộc tính mới, bằng cách chỉ cần định nghĩa URI cho chúng. Bởi vì
RDF sử dụng URI để biểu diễn các thơng tin trong một tài liệu, các URI đảm bảo

rằng các khái niệm khơng chỉ chứa văn bản thuần túy mà nó còn là định danh tài
nguyên duy nhất mà tất cả người dùng có thể tìm kiếm được trên mạng. Trong
RDF, các URI đóng một vai trị rất quan trọng: Chúng ta có thể tạo ra các (siêu) dữ
liệu dựa trên bất kỳ một nguồn tài nguyên nào trên Web, ngữ nghĩa được đưa vào
các nguồn tài nguyên Web thông qua các URI, và URI cho phép liên kết giữa các
phần tử dữ liệu thơng qua các thuộc tính.
i.

Mơ hình dữ liệu RDF

Sự kết hợp của một nguồn tài nguyên ([chủ ngữ]), một thuộc tính ([vị ngữ]) và
một giá trị của thuộc tính được ([đối tượng]) được đặt trong một Phát_biểu.
Ví dụ một câu nói như sau: “Giám đốc của cơng ty Garden Network là
Nguyễn Văn A”. Như vậy, ta có thể biểu diễn bởi một Phát_biểu với các “thông số”
sau:
-

Chủ ngữ của Phát_biểu RDF là: “Cơng ty Garden Network”
Tính chất là: “Giám đốc”
Đối tượng là: “Nguyễn Văn A”
9

Mơ hình cơ bản của RDF gồm ba bộ phận sau:
 Tài ngun: là tất cả những gì được mơ tả bằng biểu thức RDF
 Thuộc tính: là đặc tính hay quan hệ mơ tả tính chất tài ngun
 Phát_biểu: mỗi phát biểu gồm ba thành phần sau
-

[Chủ ngữ]: địa chỉ hay vị trí tài ngun muốn mơ tả.

-

[Vị ngữ]: xác định tính chất của tài nguyên.

-

[ Đối tượng]: nội dung gán cho thuộc tính.

ii.

RDF và Cơ sở dữ liệu quan hệ

Trong các Cơ sở dữ liệu quan hệ truyền thống, dữ liệu được lưu dưới dạng các
bảng. Trong mỗi bảng, mỗi hàng là một bản ghi khơng có giới hạn về số lượng các
trường.
Ví dụ ta có bảng sau:
ISBN

Tên

Tác giả

NXB

Số trang

Giá bán

10001111 Lập trình C

Lê A

ĐHQG

250

45.000

10111112 Vi xử lí

Trần H

Giáo dục

300

50.000

Nếu lưu các dữ liệu trên dưới dạng RDF, đòi hỏi các dữ liệu phải được chia
nhỏ để lưu dưới dạng các bộ ba:
ISBN

Tên

10001111

Lập trình C

10111112

Vi xử lí

Phát_biểu: {10001111, Tên, “Lập trình C”}
So với CSDL quan hệ, cách lưu trữ dưới dạng RDF có những ưu điểm sau:
-

Tổ chức dữ liệu đơn giản, đồng nhất nên thông tin dễ dàng chỉnh sửa

-

Cấu trúc bộ ba giúp ta dễ truy xuất các thơng tin bởi các hệ thống suy
luận, tìm kiếm ngữ nghĩa. Cũng nhờ vậy mà những bộ xử lí RDF có thể
suy ra những tri thức mới

-

Chia sẻ dữ liệu trên mạng nhờ sự đồng nhất.

10

iii.

Đồ thị RDF

Tập hợp các bộ ba tạo thành đồ thị RDF (đồ thị có hướng). Các nút trong đồ
thị là [chủ ngữ] và [đối tượng], các cung trong đồ thị là [Vị ngữ] và ln có hường
từ [chủ ngữ] tới [đối tượng]. Dùng đồ thị làm cho thông tin thể hiện rõ ràng và dễ
hình dung hơn.

Hình 1.2. Đồ thị RDF

iv.

Cú pháp của RDF

Mơ hình RDF thể hiện một mơ hình ở mức trừu tượng để định nghĩa siêu dữ
liệu. Cú pháp RDF được dùng để tạo ra và trao đổi siêu dữ liệu, vì thế RDF dựa trên
cú pháp XML.
Cú pháp cơ bản của RDF có dạng như sau:
[1] RDF ::= ['<rdf:RDF>'] description* ['</rdf:RDF>']
[2] description ::= '<rdf:Description' idAboutAttr? '>' propertyElt*
'</rdf:Description>'
[3] idAboutAttr ::= idAttr | aboutAttr
[4] aboutAttr ::= 'about="' URI-reference '"'
[5] idAttr ::= 'ID="' IDsymbol '"'
[6] propertyElt ::= '<' propName '>' value '</' propName '>'| '<' propName
resourceAttr '/>'
[7] propName ::= Qname
[8] value ::= description | string
[9] resourceAttr ::= 'resource="'tham chiếu URI'"'
[10] Qname ::= [ NSprefix ':' ] name
[11] URI-reference ::= string, interpreted per [URI]
[12] IDsymbol ::= (bất kỳ ID nào hợp lệ nào của XML)
[13] name ::= (bất kỳ tên hợp lệ nào của XML)
[14] NSprefix ::= (bất kỳ tiếp đầu ngữ namespace hợp lệ nào)
[15] string ::= (bất kỳ chuỗi nào

Ví dụ:

Xét phát biểu sau {ketquasoxo.html, create-date, “10-10-2010”}
Cú pháp RDF/XML để biểu diễn cho phát biểu trên như sau:
11

1: <?xml version="1.0"?>
2: <rdf:RDF xmlns:rdf=" />3: xmlns:exterms=" />4: <rdf:Description rdf:about=" />5: <exterms:creation-date>10-10-2010</exterms:creation-date>
6: </rdf:Description>
7: </rdf:RDF>

Trong đó:
Dịng 1: là khai báo XML, cho biết nội dung theo sau dựa trên cú pháp XML
và phiên bản XML được dùng.
Dòng 2 và 3: bắt đầu với thẻ rdf:RDF , cho biết rằng nội dung XML tiếp theo
mô tả RDF. Từ khóa này xác định tài liệu này được biểu diễn dưới dạng RDF. Tiếp
theo là phần khai báo không gian tên XML được sử dụng trong tài liệu, tùy vào nhu
cầu và mục đích sử dụng mà ta có thể dùng các khơng gian tên khác nhau cho từng
tài liệu.
Dịng 4, 5, 6: mơ tả những mệnh đề RDF. Để mô tả bất kỳ phát biểu nào dạng
RDF/XML có thể dùng rdf:Description, và rdf:about , đây chính là [chủ ngữ] của
phát biểu. Thẻ bắt đầu rdf:Description trong dịng 4 cho biết bắt đầu mơ tả về một
tài nguyên, và tiếp tục định danh tài nguyên này dùng thuộc tính rdf:about để chỉ ra
URI của tài ngun..
Dịng 5 cung cấp 1 phần tử thuộc tính, với Qname là exterms:creation-date
như là thẻ của nó. Nội dung của phần tử thuộc tính này là [đối tượng] của
Phát_biểu, có giá trị là kiểu chuỗi kí tự “10 tháng 10 năm 2010 “.
Dòng 7: cho biết kết thúc của thẻ rdf:RDF bắt đầu ở dòng 2 và cũng là thẻ
kết thúc của tài liệu RDF.
 Bộ chứa RDF
Để mô tả tập hợp của nhiều đối tượng như một bài báo khoa học được viết bởi

nhiều tác giả, danh sách các sinh viên trong một khóa học, v.v... RDF cung cấp
nhiều kiểu và nhiều thuộc tính tích hợp sẵn giúp mơ tả được những tập như vậy,
trong đó có kiểu khai báo “bộ chứa” (container), dùng để lưu danh sách các tài
nguyên hoặc các kiểu giá trị (Một bộ chứa là một nguồn tài ngun chứa những cái
gì đó, những cái gì đó được đặt trong bộ chứa được gọi là các thành viên).Các phần
tử của một bộ chứa có thể là các tài nguyên URI (có thể là rỗng) hay là các giá trị
12

kiểu chuỗi kí tự. RDF định nghĩa 3 loại đối tượng “bộ chứa”: Bag, Sequence, và
Alternative.
<rdf:Bag> là danh sách không có thứ tự của các tài nguyên hoặc các giá trị.
Bag cho phép những giá trị có thể trùng lặp nhau.
Vi dụ
<?xml version="1.0"?>
<rdf:RDF xmlns:rdf=" />xmlns:group=" /><rdf:Description rdf:about=" /><group:member>
<rdf:Bag>
<rdf:li>Nguyễn Văn A</rdf:li>
<rdf:li>Lê Thị C</rdf:li>
<rdf:li>Trần B</rdf:li>
</rdf:Bag>
</group:member>
</rdf:Description>
</rdf:RDF>

<rdf:Seq> là danh sách có thứ tự của các tài nguyên hoặc các giá trị. Chẳng
hạn dùng Sequence để lưu trữ các giá trị theo thứ tự bảng chữ cái. Sequence cho
phép những giá trị có thể trùng lặp nhau.
Ví dụ:
<?xml version="1.0"?>

<rdf:RDF xmlns:rdf=" />xmlns:class=" /><rdf:Description rdf:about=" /><class:member>
<rdf:seq>
<rdf:li>Nguyễn A</rdf:li>
<rdf:li>Nguyễn B</rdf:li>
<rdf:li>Nguyễn C</rdf:li>
<rdf:li>Nguyễn D</rdf:li>
</rdf:seq>
</class:member>
</rdf:Description>
13

</rdf:RDF>

<rdf:Alt> là một danh sách các tài nguyên hoặc các giá trị, được dùng để biểu
diễn các giá trị lựa chọn của một thuộc tính (người dùng chỉ có thể được lựa chọn
một trong các giá trị đó).
Ví dụ:
<?xml version="1.0"?>
<rdf:RDF xmlns:rdf=" />xmlns: paper =" /><rdf:Description rdf:about=" />< paper:format>
<rdf:Alt>
<rdf:li>pdf</rdf:li>
<rdf:li>doc</rdf:li>
<rdf:li>latex</rdf:li>
</rdf:Alt>
</paper:format>
</rdf:Description>
</rdf:RDF>

 Tập hợp RDF

Tập hợp RDF (Collection RDF) được sử dụng để mơ tả các nhóm chỉ chứa
những thành viên đã được đặc tả. Như ta đã biết, trong RDF, một bộ chứa RDF cho
thấy các thành viên của nó là các nguồn tài nguyên, nó không cho biết rằng những
thành viên nào không được phép.
Một tập hợp được mơ tả bởi thuộc tính rdf:parseType="Collection".
Ví dụ:
<?xml version="1.0"?>
xmlns:rdf=" />xmlns: paper =" />rdf:about=" />
<rdf:Description rdf:about=" /><rdf:Description rdf:about=" />14

ứng dụng web ngữ nghĩa trong lưu trữ và quản lí các tài liệu số

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về