Tải bản đầy đủ (.pdf) (73 trang)

Luận văn Thạc sĩ Kỹ thuật: Mô hình hoá tài nguyên thông tin trường đại học và hỗ trợ truy xuất thông tin theo tiếp cận Linked Data

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.28 MB, 73 trang )

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG
---------------------------------------

NGUYỄN VĂN NHÂN

MƠ HÌNH HỐ TÀI NGUN THƠNG TIN TRƢỜNG ĐẠI HỌC VÀ
HỖ TRỢ TRUY XUẤT THÔNG TIN THEO TIẾP CẬN LINKED
DATA

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - NĂM 2020


HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG
---------------------------------------

NGUYỄN VĂN NHÂN

MƠ HÌNH HỐ TÀI NGUN THƠNG TIN TRƢỜNG ĐẠI HỌC VÀ
HỖ TRỢ TRUY XUẤT THÔNG TIN THEO TIẾP CẬN LINKED DATA
Chuyên ngành: Hệ thống thông tin
Mã số: 8.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS. HOÀNG HUỮ HẠNH

HÀ NỘI - 2020




CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu khoa học độc lập của riêng
tôi.
Các số liệu sử dụng phân tích trong luận văn có nguồn gốc rõ ràng, đã công
bố theo đúng quy định. Các kết quả nghiên cứu trong luận văn do tơi tự tìm hiểu,
phân tích một cách trung thực, khách quan và phù hợp với thực tiễn của Việt Nam.
Kết quả này chưa từng được công bố trong bất kỳ nghiên cứu nào khác.
Tác giả luận văn ký và ghi rõ họ tên

Nguyễn Văn Nhân


LỜI CẢM ƠN
Để hoàn thành được luận văn, ngoài sự nghiên cứu và cố gắng của bản thân,
tôi xin cảm ơn thầy giáo PGS.TS Hoàng Hữu Hạnh - người thầy trực tiếp hướng
dẫn, tận tình chỉ bảo và định hướng cho tơi trong suốt q trình thực hiện luận văn.
Một lời cảm ơn chắc chắn không thể diễn tả hết lịng biết ơn sâu sắc của tơi tới thầy
– một người thầy của tôi trên mọi phương diện!
Tôi xin gửi lời cảm ơn chân thành cảm ơn tất cả các thầy cơ giáo của Học
viện Cơng nghệ Bưu chính Viễn thơng đã giảng dạy, quan tâm nhiệt tình và dìu dắt
tơi trong trong suốt q trình học tập tại trường.
Cuối cùng, tơi xin gửi lời cảm ơn tới gia đình, bạn bè và những người đã
luôn ở bên tôi cổ vũ, động viên, tạo điều kiện thuận lợi cho tôi học tập, tạo động lực
tinh thần vô giá để tôi hoàn thiện luận văn này và ngày một hoàn thiện chính bản
thân mình.
Trong q trình nghiên cứu và thực hiện luận văn, mặc dù được sự hướng
dẫn nhiệt tình của thầy giáo PGS.TS Hoàng Hữu Hạnh và những nỗ lực của bản
thân nhưng cũng không thể tránh khỏi những thiếu sót hạn chế. Tơi rất mong nhận

được ý kiến đóng góp, sửa chữa từ q Thầy, Cơ và các bạn bè đồng nghiệp để luận
văn được hoàn thiện hơn.
Trân trọng cảm ơn!
Tác giả
Nguyễn Văn Nhân


MỤC LỤC
MỞ ĐẦU .....................................................................................................................1
Chương 1 - TỔNG QUAN VỀ WEB NGỮ NGHIÃ VÀ LINKED DATA ...............5
1 Tổng quan về Web ngữ nghĩa ..............................................................................5
1.1 Web của ngày hôm nay ..................................................................................5
1.2 Web ngữ nghĩa ..................................................................................................7
1.2.1 Khái niệm ....................................................................................................7
1.2.2 Siêu dữ liệu .................................................................................................8
1.2.3 Kiến trúc Web ngữ nghĩa ............................................................................8
1.2.4 Các khái niệm cơ bản của Web ngữ nghĩa ...............................................10
1.3 Ngôn ngữ Cơ cấu mô tả tài nguyên .................................................................13
1.3.1 Ngôn ngữ mô tả tài nguyên RDF ..............................................................13
1.3.2 Lược đồ RDF và truy vấn RDF ................................................................20
1.4 Linked Data .....................................................................................................26
1.4.1 Khái niệm về Linked Data ........................................................................26
1.4.2 Quy tắc Linked Data .................................................................................27
1.5 Tiểu kết chương 1.…………………………………………………………...28
Chương 2 - ỨNG DỤNG QUẢN LÝ VÀ TRUY XUẤT TÀI NGUYÊN THÔNG
TIN TRONG TRƯỜNG ĐẠI HỌC– LINKED OPEN PTIT DATA (LOPD) .........29
2.1 Tiến trình xây dựng ứng dụng LOPD ..............................................................29
2.2 Jena ..................................................................................................................31
2.2.1 Giới thiệu ..................................................................................................31
2.2.2 Jena API ....................................................................................................31

2.2.3 Kiến trúc Jena 3 ........................................................................................32
2.3. Mơ hình hóa thơng tin với Jena ......................................................................33
2.3.1 Chương trình Hello World! trong Jena .....................................................33
2.3.2 Tạo mơ hình RDF .....................................................................................33
2.3.3 Đọc mơ hình RDF .....................................................................................39
2.4. Chuyển đổi dữ liệu web ngữ nghĩa.................................................................41


2.4.1 Dữ liệu từ Excel ........................................................................................41
2.4.2 Dữ liệu từ DBF .........................................................................................42
2.5 Chuẩn Dublin Core Metadata ..........................................................................44
2.6 Tiểu kết Chương 2…………………………………………………………...44
Chương 3 - PHÁT TRIỂN ỨNG DỤNG LOPD ......................................................47
3.1 Giới thiệu bài tốn ...........................................................................................47
3.1.1 u cầu bài tốn .......................................................................................47
3.1.2 Phân tích vấn đề ........................................................................................47
3.1.3 Chuẩn bị dữ liệu ........................................................................................48
3.2 Giải pháp hệ thống...........................................................................................49
3.2.1 Kiến trúc hệ thống ....................................................................................49
3.2.2 Thiết kế cơ sở dữ liệu ...............................................................................51
3.3 Xây dựng ứng dụng .........................................................................................57
3.3.1 Mô tả User case ........................................................................................57
3.3.2 Đặc tả chức năng.......................................................................................58
3.3.3 Thiết kế giao diện .....................................................................................59
KẾT LUẬN VÀ KIẾN NGHỊ...................................................................................61
DANH MỤC TÀI LIỆ THAM KHẢO .....................................................................62
PHỤC LỤC ...............................................................................................................63


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Viết tắt
API

Tiếng Anh
Application Programming Interface

Tiếng Việt
Giao diện lập trình
ứng dụng

CDF

Computable Document Format

Một định dạng của
file

CSDL

Database

Cơ sở dữ liệu

HTML

Hyper Text Markup Language

Ngôn ngữ đánh
dấu siêu văn bản


HTTP

Hyper Text Transfer Protocol

giao thức chuẩn của
mạng Internet

LOPD

Linked Open PTIT Data

OWL

Web Ontology Language

Ngôn ngữ bản thể
web

URI

Uniform Resource Identifier

Một chuỗi các ký tự
dùng để xác định một
tài nguyên.

URL

Uniform Resource Locator


Địa chỉ dùng để tham
chiếu đến các tài
nguyên trên mạng
Internet

URN

Uniform Resource Name

Định danh Tài nguyên
thống nhất

WWW

World Wide Web

Hệ thống Web

XML

eXtensible Markup Language

Ngôn ngữ đánh dấu
mở rộng


DANH MỤC CÁC BẢNG
Bảng 2.5 Các yếu tố cơ bản của chuẩn Dublin Core Metadata ................................45
Bảng 3.2.2.2 Thông tin cấu trúc bảng dblp_author_ref_new ...................................55
Bảng 3.2.2.3 Thông tin cấu trúc bảng dblp_ref ........................................................55

Bảng 3.2.2.4 Thông tin cấu trúc bảng dbsa_sbj ........................................................56
Bảng 3.2.2.5 Thông tin cấu trúc bảng dbsa_pub_in_dblp ........................................56
Bảng 3.2.2.6 Thông tin cấu trúc bảng dbsa_pub .......................................................57


DANH MỤC CÁC HÌNH
Hình 1. Mơ hình liên kết dữ liệu trong Web ngữ nghĩa ..............................................2
Hình 1.3.1.3. Đồ thị RDF ..........................................................................................15
Hình 1.3.2.1 Quan hệ kế thừa ...................................................................................20
Hình 1.3.2.3. Khơng gian miền và giới hạn của thuộc tính RDFS ...........................23
Hình 1.3.1. Mơ hình liên kế dữ liệu trong Web ngữ nghĩa .......................................27
Hình 2.1. Tiến trình xuất bản Linked Data lên Web .................................................29
Hình 2.2.2. Các thành phần của Jena API .................................................................32
Hình 2.2.3. Kiến trúc Jena 3 ......................................................................................32
Hình 2.3.2.1. Biểu diễn phát biểu dưới dạng đồ thị ..................................................34
Hình 3.1.3.2. Cơ sở dữ liệu DBLP ............................................................................48
Hình 3.2.1. Quá trình thực hiện LOSM ....................................................................50
Hình 3.2.2.1 Các bảng trong cơ sở dữ liệu DBLP ....................................................52
Hình 3.2.2.2. Các bảng trong cơ sở dữ liệu hệ thống................................................57
Hình 3.3.1. Use case hệ thống tìm kiếm thơng tin tác giả ........................................58
Hình 3.3.3.1. Ứng dụng tìm kiếm thơng tin tác giả ..................................................59
Hình 3.3.3.2.. Kết quả tìm kiếm tác giả PGS.TS Hồng Hữu Hạnh và các gợi ý các
tác giả có các bài báo hay cơng trình cùng chủ đề ....................................................59


1

MỞ ĐẦU
1. Lý do chọn đề tài
Thuật ngữ “Linked Data” được Tim Berner-Lee đưa ra trong các ghi chép về

kiến trúc “Linked Data Web” của mình. Thuật ngữ này chỉ cách thức để xuất bản và
liên kết các dữ liệu có cấu trúc trên Web. Giả thuyết cơ bản của Linked Data là lợi
ích và giá trị của dữ liệu tăng lên khi nó được liên kết với các dữ liệu khác. Nói
cách khác, Linked Data đơn giản là sử dụng Web để tạo ra các liên kết định kiểu
(typed link) giữa các dữ liệu từ nhiều nguồn tài nguyên khác nhau. Điều này giống
như hai CSDL của hai tổ chức ở các vùng địa lý khác nhau hay đơn giản là một hệ
thống hỗn tạp của cùng một tổ chức không dễ dàng để trao đổi, liên thông ở mức dữ
liệu. Do vậy, Linked Data nhằm vào dữ liệu được đưa lên Web theo cách máy tính
có thể đọc được, có ngữ nghĩa rõ ràng và nó được liên kết đến tập dữ liệu bên ngoài
và ngược lại các dữ liệu đó cũng liên kết đến nó[1].
Trong khi đơn vị chính của Web hiện nay (hay cịn gọi là Web siêu liên kết)
là tài liệu HTML được kết nối bởi các siêu liên kết không định kiểu (không xác định
kiểu dữ liệu hay kiểu quan hệ), Linked Data dựa vào tài liệu chứa dữ liệu dạng
RDF. Tuy nhiên, tốt hơn các tài liệu kết nối đơn giản, Linked Data sử dụng RDF để
làm các câu định kiểu liên kết các đối tượng trong thế gới thực. Kết quả, những gì
chúng ta tham chiếu trong Web của dữ liệu, có thể thực sự được mô tả như Web của
những đối tượng trong thế giới thực, được mô tả bởi dữ liệu trên Web.
Linked Data sử dụng công nghệ Web hiện tại để kết nối các tài nguyên (đối
tượng dữ liệu) liên quan đến nhau mà không cần liên kết trước, nghĩa là bỏ đi rào
chắn liên kết dữ liệu mà hiện tại đang liên kết bởi nhiều phương thức khác nhau.
Linked Data là kết nối dữ liệu phân tán trên Web.
Linked Data là thuật ngữ dùng để mô tả cách thức tốt nhất được đề nghị để
duyệt, chia sẻ và kết nối các dữ liệu, thông tin, tri thức của Web ngữ nghĩa bằng
cách sử dụng các URI và RDF.


2

Hình 1. Mơ hình liên kết dữ liệu trong Web ngữ nghĩa


Dựa vào các đặc điểm và tính năng của Linked Data thì hàng loạt cá nhân và
các nhóm đã đóng góp để xây dựng Web Dữ liệu, bỏ đi các hạn chế trong việc sử
dụng lại, tích hợp và ứng dụng dữ liệu từ nhiều nguồn hỗn tạp, phân tán rất phù hợp
cho việc quản lý tài nguyên dành cho giảng viên đại học và sinh viên trong quá trình
giảng dạy và học tập. Qua thời gian, Linked Data là nền tảng, với các khuyến nghị
của W3C, cùng với tầm nhìn và phát triển của Web ngữ nghĩa nên tơi chọn đề tài:
“Mơ hình hố tài ngun thơng tin trường đại học và hỗ trợ truy xuất thông tin
theo tiếp cận Linked Data”.

2. Tổng quan về vấn đề nghiên cứu
Đề tài là sự ứng dụng những đặc điểm và tính chất của mơ hình và kỹ thuật
Linked Data để triển khai và hồn thiện một ứng dụng có tính áp dụng thực tiễn cao
khi giải quyết được vấn đề còn tồn tại và hoa hụt do các phương thức truyền thống
hay các ứng dụng hiện tại chưa đáp ứng được. Đề tài theo hướng ứng dụng và áp
dụng những kỹ thuật và các công cu hỗ trợ để đề tài hồn thiện tốt hơn.

3. Mục đích nghiên cứu
Tiếp cận và tìm hiểu về Web ngữ ngĩa (Semantic Web), các công nghệ Web
ngữ nghĩa (RDF/RDFS, ontology, OWL, SPARQL), Linked Data trong các ứng
dụng thông minh trong hiện nay.
Xây dựng Ứng dụng Quản lý tài nguyên thông minh theo Linked Data và hỗ
trợ giảng viên và sinh viên trong tìm kiếm các tài nguyên, và dữ liệu liên quan; tiến


3

hành phát triển demo được sản phẩm và định hướng tính ứng dụng của sản phẩm
vào thực tiễn.

4. Đối tƣợng và phạm vi nghiên cứu

1. Đối tượng nghiên cứu:
+ Web ngữ nghĩa, RDF/RDFS, Ngơn ngữ truy vấn SPARQL
+ Mơ hình dữ liệu Linked Data.
+ OWL - Web Ontology Language
2. Phạm vi nghiên cứu:
+ Đề tài thực hiện là một đề tài hướng ứng dụng và được thử nghiệm sử dụng
trong môi trường nghiên cứu hoặc các cơ sở giáo dục.

5. Phƣơng pháp nghiên cứu
Phương pháp phân loại và hệ thống hố lý thuyết
Phương pháp phân tích và tổng hợp lý thuyết
Phương pháp chuyên gia
Phương pháp thực nghiệm xây dượng ứng dụng theo quy trình.

6. Nội dung nghiên cứu
Nội dung nghiên cứu của luận văn được bố cục thành các Chương như sau:
Chương 1: Tổng quan về Web ngữ nghĩa và Linked Data
Ở chương này luận văn sẽ tìm hiểu tổng quan về cơ sở lý thuyết và kiến trúc
của Web ngữ nghĩa; đồng thời tìm hiểu về phương pháp mơ hình hố dữ liệu trong
Web ngữ nghĩa là RDF cùng với các tiếp cận xây dựng cơ sở tri thức miền. Nội
dung cũng được tìm hiểu sâu về cơng nghệ Web ngữ nghĩa là mơ hình Linked Data
(Dữ liệu Liên kết) và những vẫn đề công nghệ trong thiết kế các ứng dụng sử dụng
Linked Data.
Chương 2: Ứng dụng quản lý và truy xuất tài nguyên thông tin trong trường đại
học – Linked Open PTIT Data (LOPD)
Chương này đi tìm hiểu và phân loại các nguồn tài nguyên thông tin trong
trường đại học, và tập trung vào Học viện Công nghệ Bưu chính Viên thơng. Các
nguồn tài ngn thơng tin sẽ tập trung tìm hiểu và phân tích gồm:
Tài ngun về KHCN: đề tài KHCN, bài báo, cơng trình xuất bản trong và
ngoài nước, hồ sơ KHCN cá nhân;



4

Các tài ngun thơng tin này sẽ được phân tích để xây dựng các lược đồ dữ
liệu và chuyển đổi từ mơ hình dữ liệu gốc sang mơ hình dữ liệu Linked Data với các
kết nối đến các datasets của hệ thống dữ liệu Linked Data mở toàn cầu (Linking
Open Data).
Chương 3: Phát triển ứng dụng LOPD
Chương này tập trung vào các khía cạnh phát triển ứng dụng LOPD:
+ Các cơng cụ và mơ hình phát triển ứng dụng theo Linked Data
+ Phân tích và thiết kế hệ thống LOPD;
+ Triển khai và phát triển
+ Kết quả cài đặt đạt được


5

Chƣơng 1 - TỔNG QUAN VỀ WEB NGỮ NGHIÃ VÀ
LINKED DATA
1 Tổng quan về Web ngữ nghĩa
1.1 Web của ngày hôm nay
World Wide Web đã thay đổi xã hội con người vô cung to lớn. Như đã thay
đổi cách thức con người trao đổi với nhau cũng như cách điều hành công việc và
kinh doanh và sự thay đổi là ở trung tâm của một cuộc cách mạng: chuyển đổi thế
giới phát triển sang một nền kinh tế tri thức, hay nói rộng hơn là một xã hội tri thức.
Sự phát triển này cũng thay đổi cách chúng ta nghĩ về các chiếc máy tính. Bây giờ
máy tính khơng những được dùng để thực hiện các phép tính tốn số học mà chúng
hầu như được sử dụng cho việc xử lý thông tin, các ứng dụng đặc thù là các CSDL,
xử lý văn bản, bảng tính và trị chơi điện tử.

Những thông tin hiện nay trên World Wide Web chủ yếu được biểu diễn ở
dạng HTML, một ngôn ngữ phổ dụng để trình diễn thơng tin. XML ra đời và trở
thành một cơng cụ trao đổi dữ liệu khơng có cấu trúc, bán cấu trúc và có cấu trúc
giữa các hệ thống, nâng cao sự tích hợp của các ứng dụng. Tuy nhiên, các giải pháp
dựa trên XML cho quá trình tích hợp của các ứng dụng và các hệ thống chưa đủ, do
dữ liệu được chuyển đổi thiếu mô tả tường minh về ngữ nghĩa của nó. Sự tích hợp
của các ứng dụng cũng phải bao gồm sự tích hợp cả về ngữ nghĩa.
HTTP và HTML đã cung cấp các cách để có thể nhận thơng tin và trình diễn
các tài liệu siêu văn bản. Tuy nhiên, có một khối lượng khổng lồ các tài nguyên
thông tin trên Web, điều này làm nảy sinh vấn đề là làm thế nào để tìm kiếm chính
xác tài ngun mình mong muốn. Dữ liệu trong các file HTML có thể hữu ích ở
ngữ cảnh này nhưng vô nghĩa đối với ngữ cảnh khác. Nhân loại đang dần dần tiến
đến cuộc cách mạng công nghệ 4.0 và ngày các công nghệ thông tin và truyền thơng
đã có khả năng để thu thập được một số lượng lớn dữ liệu mà chúng có liên quan
đến nhau về mặt khái niệm, tuy nhiên đa số những mối quan hệ này chỉ được con
người “nhớ” chứ không được lưu trữ theo một cách mà giúp các máy tính có thể
hiểu để xử lý. Thách thức này đã chỉ ra một hướng nghiên cứ đó là tạo ra khả năng


6

cho phép con người tạo, lưu giữ, sắp xếp, ghi phụ chú và truy xuất kho dữ liệu cá
nhân rất lớn của mỗi người trong quá khứ theo hình thức như một nhật ký cuộc
sống được cá thể hoá và sẽ trở thành một sự bổ sung và trợ giúp cho bộ nhớ con
người.
Những hoạt động này đều đặc biệt không được hỗ trợ tốt của các công cụ
phần mềm. Ngoài sự tồn tại của các liên kết để thiết lập các liên kết giữa các tài
liệu, thì các cơng cụ có giá trị nhất trên Web hiện nay là các bộ tìm kiếm (search
engines). Các cơng cụ tìm kiếm theo từ khố như Yahoo! và Google là các cơng cụ
chính trong việc sử dụng Web hiện nay. Rõ ràng rằng Web sẽ không thành công lớn

như hiện này nếu khơng có các cơng cụ tìm kiếm. Tuy nhiên, vẫn tồn tại các vấn đề
liên quan đến các ứng dụng của chúng:
Truy hồi cao, độ chính xác thấp: Ngay cả khi các trang liên quan chính được
truy xuất, thì chúng vẫn khơng hữu ích khi rất rất nhiều các tài liệu ít liên
quan hoặc khơng liên quan cũng được lấy về. Quá nhiều cũng dẫn đến không
tốt cũng như quá ít.
Truy hồi thấp hoặc khơng có. Trường hợp này xảy ra chúng ta khơng có
được câu trả lời từ u cầu của chúng ta, hoặc các tài liệu liên quan và quan
trọng không được lấy về. Cho dù việc truy hồi thấp khá hiếm khi có đối với
các cơng cụ tìm kiếm, nhưng nõ vẫn xảy ra.
Các kết quả rất nhạy cảm với từ vựng. Thơng thường các từ khố tìm kiếm
ban đầu khơng cho ta kết quả như mong muốn, lý do là các tài liệu liên quan
sử dụng các thuật ngữ khác với truy vấn của chúng ta. Điều này rõ ràng là
khơng thoả mãn bởi vì các truy vấn cùng ngữ nghĩa nên cho cùng một kết
quả.
Kết quả chỉ là những trang Web đơn giản. Nếu chúng ta cần những thông tin
dàn trãi trong các tài liệu khác nhau, chúng ta phải thực hiện nhiều truy vấn
khác nhau để tập hợp các tài liệu liên quan; sau đó chúng ta sẽ xử lý bằng tay
để trích rút các thông tin từng phần rồi kết hợp chúng lại với nhau.


7

1.2 Web ngữ nghĩa
1.2.1 Khái niệm
Web ngữ nghĩa không là Web riêng biệt mà là một sự mở rộng của Web hiện tại,
theo cách thông tin được xác định ý nghĩa tốt hơn, nó cho phép máy tính và người
cộng tác với nhau tốt hơn. Web ngữ nghĩa được hình thành từ ý tưởng của Tim
Berners-Lee, người phát minh ra WWW, URI, HTTP, và HTML. Web ngữ nghĩa là
một mạng lưới các thông tin được liên kết sao cho chúng có thể được xử lý dễ dàng

bởi các máy tính ở phạm vi tồn cầu. Nó được xem là cách mô tả thông tin rất hiệu
quả trên World Wide Web, và cũng được xem là một cơ sở dữ liệu có khả năng liên
kết tồn cầu. Web ngữ nghĩa là một phương pháp cho phép định nghĩa và liên kết
dữ liệu một cách có ngữ nghĩa hơn nhằm phục vụ cho máy tính có thể “hiểu”
được. Web ngữ nghĩa cịn cung cấp một môi trường chia sẻ và xử lý dữ liệu tự động
bằng máy tính.[1]
Ví dụ: Giả sử ta cần so sánh giá để chọn mua một bó hoa hay ta cần tra cứu
catalog của các hãng chế tạo xe khác nhau để tìm ra thiết bị thay thế cho các bộ
phận bị hư hỏng. Thông tin mà ta thu được trực tiếp trên Web có thể trả lời các câu
hỏi này nhưng địi hỏi con người phân tích ý nghĩa của dữ liệu và sự liên quan của
nó với yêu cầu đề ra, không thể xử lý tự động bằng máy tính.
Với Web ngữ nghĩa ta có thể giải quyết vấn đề này bằng 2 cách:
Thứ nhất: Nó sẽ mơ tả chi tiết dữ liệu. Do đó một chương trình xử lý khơng cần
quan tâm đến các định dạng (format), hình ảnh, quảng cáo trên một trang Web để
tìm ra sự liên quan của thơng tin.
Thứ hai: Web ngữ nghĩa cho phép chúng ta tạo ra một file mô tả mối liên hệ
giữa các tập dữ liệu khác nhau. Ví dụ: Ta có thể tạo một liên kết semantic giữa cột
mã quốc gia „zip-code‟ trong cơ sở dữ liệu (database) với trường „zip‟ ở trên giao
diện (form) nhập liệu nếu chúng có chung ý nghĩa. Điều này cho phép máy tính theo
các đường kết nối và tích hợp dữ liệu từ nhiều nguồn khác nhau. Ý tưởng liên kết
các nguồn khác nhau (tài liệu, hình ảnh, con người, khái niệm,…) cho phép chúng
ta mở rộng Web thành một môi trường mới với tập các mối quan hệ mới giữa các


8

nguồn dữ liệu, tạo ra các mối liên hệ ngữ cảnh (contextual relationship), điều mà
Web hiện tại chưa làm được.

1.2.2 Siêu dữ liệu

Metadata (siêu dữ liệu) dùng để mô tả tài nguyên thông tin. Thuật ngữ
“meta” xuất xứ là một từ Hy Lạp đùng để chỉ một cái gì đó có bản chất cơ bản hơn
hoặc cao hơn. Một định nghĩa chung nhất và được dùng phổ biến trong cộng đồng
những người làm Công nghệ Thông tin: “Metadata là dữ liệu về dữ liệu khác”
(Metadata is data about other data) hay có thể nói ngắn gọn là dữ liệu về dữ liệu.
Trong các phạm vi cụ thể, những chuyên gia đưa ra các quan điểm khác nhau
về metadata:
Theo Chris.Taylor giám đốc dịch vụ truy cập thông tin thư viện thuộc trường
đại học Queensland1 thì Metadata là dữ liệu có cấu trúc được dùng để mô tả những
đặc điểm của tài nguyên. Một mẫu tin metadata bao gồm một số lượng những phần
tử được định nghĩa trước gọi là elements dùng mơ tả đặc tính, thơng tin tài ngun.
Mỗi elements có thể có 1 hay nhiều giá trị.
Theo tiến sĩ Warwick Cathro thuộc thư viện quốc gia Australia thì một phần tử
metadata hay cịn gọi là metadata elements mơ tả tài nguyên thông tin, hay hỗ trợ
truy cập đến một tài ngun thơng tin.
Tóm lại, ta có thể hiểu metadata là thông tin dùng để mô tả tài nguyên thông
tin.

1.2.3 Kiến trúc Web ngữ nghĩa
Web ngữ nghĩa là một tập hợp/một chồng (stack) các ngôn ngữ. Tất cả các lớp
của Web ngữ nghĩa được sử dụng để đảm bảo độ an tồn và giá trị thơng tin trở nên
tốt nhất.


9

Hình 1.2.3. Kiến trúc Web ngữ nghĩa[3]
- Lớp Unicode & URI: Bảo đảm việc sử dụng tập kí tự quốc tế và cung cấp phương
tiện nhằm định danh các đối tượng trong Web ngữ nghĩa. URI đơn giản chỉ là một
định danh Web giống như các chuỗi bắt đầu bằng “http” hay “ftp” mà bạn thường

xuyên thấy trên mạng (ví dụ: ). Bất kỳ ai cũng có thể tạo
một URI, và có quyền sở hữu chúng. Vì vậy chúng đã hình thành nên một cơng
nghệ nền tảng lý tưởng để xây dựng một hệ thống mạng tồn cầu thơng qua đó.
- Lớp XML cùng với các định nghĩa về namespace (vùng tên gọi) và schema (lược
đồ) bảo đảm rằng chúng ta có thể tích hợp các định nghĩa Web ngữ nghĩa với các
chuẩn dựa trên XML khác.
- Lớp RDF [RDF] và RDFSchema [RDFS]: ta có thể tạo các câu lệnh
(statement) để mô tả các đối tượng với những từ vựng và định nghĩa của URI, và
các đối tượng này có thể được tham chiếu đến bởi những từ vựng và định nghĩa của
URI ở trên. Đây cũng là lớp mà chúng ta có thể gán các kiểu (type) cho các tài
nguyên và liên kết. Và cũng là lớp quan trọng nhất trong kiến trúc Web ngữ nghĩa .


10

- Lớp Ontology: hỗ trợ sự tiến hóa của từ vựng vì nó có thể định nghĩa mối liên hệ
giữa các khái niệm khác nhau. Một Ontology (bản thể luận trong logic) định nghĩa
một bộ từ vựng mang tính phổ biến & thơng thường, nó cho phép các nhà nghiên
cứu chia sẻ thông tin trong một hay nhiều lĩnh vực.
- Lớp Digital Signature: được dùng để xác định chủ thể của tài liệu (ví dụ: tác giả
hay nhan đề của một loại tài liệu).
- Các lớp Logic, Proof, Trust: Lớp logic cho phép viết ra các luật (rule) trong khi
lớp proof (thử nghiệm) thi hành các luật và cùng với lớp trust (chấp nhận) đánh giá
nhằm quyết định nên hay không nên chấp nhận những vấn đề đã thử nghiệm.

1.2.4 Các khái niệm cơ bản của Web ngữ nghĩa
1.2.4.1 Thực thể có tên
Thực thể có tên là con người, tổ chức, nơi chốn và những đối tượng khác được
tham khảo đến bằng tên. Thực thể có tên khác về mặt bản chất lẫn ngữ nghĩa với
các từ ở chỗ nó được dùng để chỉ các cá thể riêng biệt còn các từ được dùng để chỉ

các khái niệm, quan hệ, thuộc tính nói chung. Lấy ví dụ trong câu:
“Hà Nội là thủ đơ của nước Việt Nam” thì Hà Nội là thực thể có tên trong khi
“thủ đơ”, “nước” là các từ vựng.
Trong một tài liệu, các thực thể có tên tạo nên một phần quan trọng trong ý
nghĩa của tài liệu đó. Do đó, nhúng ngữ nghĩa vào Web ngồi việc phân tích cú
pháp các câu, ngữ nghĩa cho từ vựng địi hỏi phải có bước xác định ngữ nghĩa cho
các thực thể có tên. Từ “ngữ nghĩa” ở đây cũng có ý nghĩa hạn chế, ám chỉ việc một
thực thể thuộc lớp hay thuộc tính cụ thể nào đã được định nghĩa từ trước. Đây là
một việc phức tạp bởi ngữ nghĩa cho các thực thể có tên đòi hỏi tri thức trong thế
giới thực. Nếu một thực thể khơng có trong cơ sở tri thức thì khơng thể có kết luận
nào khác về thực thể và xem như nó khơng có ngữ nghĩa.
Bên cạnh vấn đề có liên quan đến cơ sở tri thức đã nói ở trên, trong thực tế
một thực thể có thể có nhiều tên khác nhau trong khi các thực thể khác nhau lại có
thể có cùng tên. Điều này gây nhập nhằng trong việc suy luận một thực thể chính
xác thuộc lớp hay thuộc tính nào. Và do đó, làm ảnh hưởng lớn đến kết quả suy


11

luận. Trong tình huống này, Web ngữ nghĩa phải có khả năng phân tích ngữ cảnh
chứa thực thể một cách tự động, cần thiết có thêm một vài chỉ dẫn trực tiếp từ con
người để thu giảm khơng gian tìm kiếm và tăng mức độ tin cậy đối với kết quả suy
luận. Trở lại ví dụ trên, cùng một tên “Hà Nội” nhưng có thể dùng để chỉ thủ đơ của
Việt Nam cũng có thể được dùng để chỉ một người có cùng tên nào khác.
1.2.4.2 Tài nguyên
Thuật ngữ “tài nguyên” hay “resource” trên Web là một phạm trù rộng lớn
dùng để chỉ mọi đối tượng có thể tìm thấy trên Web như khái niệm, từ vựng, thực
thể, tính chất và quan hệ giữa các đối tượng. Tài nguyên trên Web cũng chính là dữ
liệu của trang Web đó, và là mục tiêu nghiên cứu của Web ngữ nghĩa.[1]
Tài nguyên trên Web là khái niệm rộng hơn thực thể có tên. Và cũng như thực

thể có tên, cùng một tài nguyên nhưng có thể được đặc tên khác nhau trong khi có
nhiều tài nguyên bản chất khác nhau nhưng lại có cùng tên. Điều đó nảy sinh yêu
cầu định danh mỗi tài nguyên bằng một định danh duy nhất. Các tài nguyên khác
nhau sẽ có định danh khác nhau. Định danh này được gọi là một URI.
Ví dụ: Cho URI: www.somesite.com/rdf-syntax-ns#Statement. Trong đó,
Statement là một tài nguyên thuộc lớp rdf-syntax-ns được tìm thấy trên trang Web
www.somesite.com. Ký tự „#‟ được gọi là một identifier fragment (mẫu định
danh).
 Tài nguyên thông tin:
Tài nguyên thông tin chỉ các tài nguyên được biểu diễn trên Web bằng các tài
liệu điện tử như tệp văn bản, tệp âm thanh, hình ảnh,… Tài ngun thơng tin thường
được biểu diễn bởi chính nó ở dạng các tài liệu điện tử. Ví dụ: các tệp văn bản ở
dạng word, các trang web HTML.
 Tài nguyên phi thông tin
Tài ngun phi thơng tin cịn gọi là tài ngun thế giới thực chỉ các thực thể
tồn tại bên ngoài thế giới thực như con người, nơi chốn, màu sắc, các khái niệm,…
Tài nguyên phi thông tin không thể biểu diễn trực tiếp trên Web mà thường phải


12

biểu diễn qua một tài nguyên thông tin mô tả nó. Ví dụ: Ơng Nguyễn Văn A, Thành
phố Hà Nội, khái niệm thủ đô.
1.2.4.3 Định danh tài nguyên
Tài nguyên được định danh bằng URI (Uniform Resource Identifier - định
danh tài nguyên thống nhất). URI là một chuỗi các ký tự dùng để định danh tài
nguyên trên Internet. Những dịnh danh này có khả năng tương tác với sự biểu diễn
của tài nguyên trên mạng sử dụng giao thức cụ thể và phổ biến nhất là HTTP, do đó
thường gọi là lược đồ HTTP URI. Có nhiều lược đồ khác ngồi HTTP URI như:
ftp, tel, urn, mailto.

Một URI gồm có nhiều thành phần được liệt kê dưới đây:
Lược đồ URI thường là tên giao thức (chẳng hạn http, ftp, news, mailto). Ở
đây thường là lược đồ HTTP URI.
Tên miền (ví dụ: ).
Chỉ định thêm cổng (có thể khơng cần nếu là cổng mặc định của dịch vụ).
Đường dẫn tuyệt đối trên máy phục vụ của tài nguyên (ví dụ: thumuc/trang).
Các truy vấn (tuỳ chọn).
Chỉ định mục con (tuỳ chọn).
Cụ thể hơn:
:80/folder/page?timkiem=khóadh#tintuc
\__/ \______________/
|
Lược đồ

\_/\_________/ \____________/ \_____/

|
máy chủ

|

|

cổng đường dẫn

|

|

truy vấn


mục con

Trong ngữ cảnh Linked Data, chúng ta chỉ sử dụng HTTP URI vì đây là cách
định danh tốt với hai lý do:
- HTTP URI cung cấp một cách đơn giản để tạo ra những tên duy nhất trên
tồn cầu mà khơng cần quản lý tập trung.
- HTTP URI không chỉ làm việc như một cái tên mà cịn có nghĩa là thơng tin
truy cập về tài nguyên trên Web.


13

1.3 Ngôn ngữ Cơ cấu mô tả tài nguyên
1.3.1 Ngôn ngữ mô tả tài nguyên RDF
Ngôn ngữ biểu diễn dữ liệu và tri thức là một khía cạnh quan trọng của
Semantic Web. Như đã đề cập ở bên trên, XML là nền tảng cơ bản làm nên web
ngữ nghĩa, tuy nhiên XML không đủ khả năng để tạo ra ngữ nghĩa trong web. Mặc
dù XML cho phép người dùng thêm dữ liệu tùy ý vào cấu trúc tài liệu nhưng nó
khơng đề cập gì đến ngữ nghĩa của tài liệu hàm chứa.
Ngôn ngữ Cơ cấu mô tả tài nguyên - RDF được đề xuất nhằm khắc phục
những nhược điểm của XML không thể giải quyết được. Định nghĩa cơ bản của
ngơn ngữ RDF là dùng để mã hóa các siêu dữ liệu của các tài nguyên vào một bộ ba
(RDF Triple): [chủ ngữ], [vị từ] và [đối tượng]. Ta biết rằng mỗi một thực thể hay
khái niệm đều có các thuộc tính, mỗi thuộc tính đều có các giá trị, vì vậy mọi tài
ngun cũng đều có thể được biểu diễn qua ngôn ngữ RDF.
XML cung cấp cú pháp để mã hóa dữ liệu, RDF là một cơ cấu chỉ ra điều gì
đó về dữ liệu. RDF cung cấp một mơ hình dữ liệu, và một cú pháp đơn giản sao cho
các hệ thống độc lập có thể trao đổi và sử dụng nó. RDF được thiết kế sao cho hệ
thống máy tính có thể hiểu được và có thể đọc được thơng tin, chứ khơng phải để

trình bày dữ liệu cho người dùng. Là một thành phần của Web ngữ nghĩa, được đặt
trên XML, RDF sử dụng cú pháp của XML để biểu diễn thơng tin, điều này có
nghĩa là các tài liệu RDF được viết bằng XML. Ngôn ngữ XML dùng để biểu diễn
thông tin trong RDF được gọi là RDF/XML. Thông qua định dạng này, các thông
tin trong RDF có thể được trao đổi dễ dàng giữa các hệ thống máy tính cũng như
các hệ điều hành hay các ngơn ngữ lập trình ứng dụng khác nhau.
RDF mô tả các nguồn tài nguyên bởi bộ ba [chủ ngữ], [vị từ], [ đối tượng].
Một [vị từ] là một khía cạnh, tính chất, thuộc tính, hay mối liên hệ mô tả cho một tài
nguyên. Một phát biểu bao gồm một tài nguyên riêng biệt, một thuộc tính được đặt
tên, và giá trị thuộc tính cho tài ngun đó ([đối tượng]). Giá trị này cơ bản có thể là
một tài nguyên khác hay một giá trị mang tính nghĩa đen hay dạng chuỗi văn bản
tùy ý. [Chủ ngữ] và đối tượng được xác định qua Định danh tài nguyên thống nhất –


14

URI, chẳng hạn chúng có thể là một liên kết của một trang web. Các [vị từ] cũng
được xác định qua URI, do đó bất kì ai cũng có thể định nghĩa ra một khái niệm
mới, một thuộc tính mới, bằng cách chỉ cần định nghĩa URI cho chúng. Bởi vì RDF
sử dụng URI để biểu diễn các thơng tin trong một tài liệu, các URI đảm bảo rằng
các khái niệm khơng chỉ chứa văn bản thuần túy mà nó còn là định danh tài nguyên
duy nhất mà tất cả người dùng có thể tìm kiếm được trên mạng. Trong RDF, các
URI đóng một vai trị rất quan trọng: Chúng ta có thể tạo ra các (siêu) dữ liệu dựa
trên bất kỳ một nguồn tài nguyên nào trên Web, ngữ nghĩa được đưa vào các nguồn
tài nguyên Web thông qua các URI, và URI cho phép liên kết giữa các phần tử dữ
liệu thơng qua các thuộc tính.[1]
1.3.1.1 Mơ hình dữ liệu RDF
Sự kết hợp của một nguồn tài nguyên ([chủ ngữ]), một thuộc tính ([vị từ]) và
một giá trị của thuộc tính được ([đối tượng]) được đặt trong một Phát_biểu. Ví dụ
một câu nói như sau: “Giám đốc của công ty Garden Network là Nguyễn Văn A”.

Như vậy, ta có thể biểu diễn bởi một Phát_biểu với các “thơng số” sau:
- Chủ ngữ của Phát_biểu RDF là: “Công ty Garden Network”
- Tính chất là: “Giám đốc”
- Đối tượng là: “Nguyễn Văn A”
Mơ hình cơ bản của RDF gồm ba bộ phận sau:
Tài nguyên: là tất cả những gì được mơ tả bằng biểu thức RDF
Thuộc tính: là đặc tính hay quan hệ mơ tả tính chất tài ngun
Phát_biểu: mỗi phát biểu gồm ba thành phần sau
- [Chủ ngữ]: địa chỉ hay vị trí tài ngun muốn mơ tả.
- [Vị từ]: xác định tính chất của tài nguyên.
- [Đối tượng]: nội dung gán cho thuộc tính.
1.3.1.2 RDF và Cơ sở dữ liệu quan hệ
Trong các Cơ sở dữ liệu quan hệ truyền thống, dữ liệu được lưu dưới dạng các
bảng. Trong mỗi bảng, mỗi hàng là một bản ghi không có giới hạn về số lượng các
trường. Ví dụ ta có bảng sau:


15

MSTL

Tác giả

Tên

Số trang

NXB

Số lƣợng


TL010100 CTDL & GT

Nguyễn A

ĐHQG

200

80

TL010100 Lập trình OOP

Trần B

ĐHQG

220

100

Nếu lưu các dữ liệu trên dưới dạng RDF, đòi hỏi các dữ liệu phải được chia
nhỏ để lưu dưới dạng các bộ ba:
MSTL

Tên

TL010100

CTDL & GT


TL010100

Lập trình OOP

Phát_biểu: { TL010100, Tên, “CTDL & GT”}
So với CSDL quan hệ, cách lưu trữ dưới dạng RDF có những ưu điểm sau:
- Tổ chức dữ liệu đơn giản, đồng nhất nên thông tin dễ dàng chỉnh sửa
- Cấu trúc bộ ba giúp ta dễ truy xuất các thông tin bởi các hệ thống suy luận,
tìm kiếm ngữ nghĩa. Cũng nhờ vậy mà những bộ xử lý RDF có thể suy ra những tri
thức mới
- Chia sẻ dữ liệu trên mạng nhờ sự đồng nhất
1.3.1.3 Đồ thị RDF
Tập hợp các bộ ba tạo thành đồ thị RDF (đồ thị có hướng). Các nút trong đồ
thị là [chủ ngữ] và [đối tượng], các cung trong đồ thị là [Vị từ] và ln có hường từ
[chủ ngữ] tới [đối tượng]. Dùng đồ thị làm cho thơng tin thể hiện rõ ràng và dễ hình
dung hơn.

Vị từ

Hình 1.3.1.3. Đồ thị RDF

1.3.1.4 Cú pháp của RDF
Mơ hình RDF thể hiện một mơ hình ở mức trừu tượng để định nghĩa siêu dữ
liệu. Cú pháp RDF được dùng để tạo ra và trao đổi siêu dữ liệu, vì thế RDF dựa trên
cú pháp XML. Cú pháp cơ bản của RDF có dạng như sau:


16


[1] RDF ::= ['<rdf:RDF>'] description* ['</rdf:RDF>'] [2] description ::=
'<rdf:Description' idAboutAttr? '>' propertyElt* '</rdf:Description>'
[3] idAboutAttr ::= idAttr | aboutAttr
[4] aboutAttr ::= 'about="' URI-reference '"'
[5] idAttr ::= 'ID="' IDsymbol '"'
[6] propertyElt ::= '<' propName '>' value '</' propName '>'| '<' propName
resourceAttr '/>'
[7] propName ::= Qname
[8] value ::= description | string
[9] resourceAttr ::= 'resource="'tham chiếu URI'"' [10] Qname ::= [
NSprefix ':' ] name
[11] URI-reference ::= string, interpreted per [URI] [12] IDsymbol ::=
(bất kỳ ID nào hợp lệ nào của XML) [13] name ::= (bất kỳ tên hợp lệ
nào của XML)
[14] NSprefix ::= (bất kỳ tiếp đầu ngữ namespace hợp lệ nào)
[15] string ::= (bất kỳ chuỗi nào)
Ví dụ:
Xét phát biểu sau {ketquabongda.html, create-date, “15-05-2020”}
Cú pháp RDF/XML để biểu diễn cho phát biểu trên như sau:
1: <?xml version="1.0"?>
2: <rdf:RDF xmlns:rdf=" />3: xmlns:exterms=" />4: <rdf:Description rdf:about=" />5: <exterms:creation-date>15-05-2020</exterms:creation-date>
6: </rdf:Description>
7: </rdf:RDF>
Trong đó:
Dịng 1: là khai báo XML, cho biết nội dung theo sau dựa trên cú pháp XML
và phiên bản XML được dùng.
Dòng 2 và 3: bắt đầu với thẻ rdf:RDF, cho biết rằng nội dung XML tiếp theo
mô tả RDF. Từ khóa này xác định tài liệu này được biểu diễn dưới dạng RDF. Tiếp
theo là phần khai báo không gian tên XML được sử dụng trong tài liệu, tùy vào nhu
cầu và mục đích sử dụng mà ta có thể dùng các khơng gian tên khác nhau cho từng

tài liệu.


×