Tải bản đầy đủ (.pdf) (74 trang)

Ứng dụng dữ liệu liên kết xây dựng thư viện luận văn tốt nghiệp của khoa công nghệ thông tin, trường đại học bách khoa đại học đà nẵng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.53 MB, 74 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN THỊ HỒ DIỄM

ỨNG DỤNG DỮ LIỆU LIÊN KẾT XÂY DỰNG
THƯ VIỆN LUẬN VĂN TỐT NGHIỆP CỦA KHOA
CÔNG NGHỆ THÔNG TIN, TRƯỜNG ĐẠI HỌC
BÁCH KHOA - ĐẠI HỌC ĐÀ NẴNG

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2018


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN THỊ HỒ DIỄM

ỨNG DỤNG DỮ LIỆU LIÊN KẾT XÂY DỰNG
THƯ VIỆN LUẬN VĂN TỐT NGHIỆP CỦA KHOA
CÔNG NGHỆ THÔNG TIN, TRƯỜNG ĐẠI HỌC
BÁCH KHOA - ĐẠI HỌC ĐÀ NẴNG

Chuyên ngành
: Khoa học máy tính
Mã số
: 60.48.01.01

LUẬN VĂN THẠC SĨ KỸ THUẬT



Người hướng dẫn khoa học: PGS.TS. NGUYỄN THANH BÌNH

Đà Nẵng - Năm 2018


LỜI CẢM ƠN
Trước tiên tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Nguyễn Thanh Bình, người
đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện luận văn tốt nghiệp
Tôi chân thành cảm ơn các thầy cô đã tạo điều kiện thuận lợi cho tôi học tập
nghiên cứu và giúp đỡ tôi trong quá trình học tập tại trường.
Cuối cùng tôi xin gửi lời cảm ơn tới gia đình, bạn bè và những người thân luôn
bên cạnh động viên tôi trong suốt quá trình thực hiện luận văn tốt nghiệp.
Tôi xin chân thành cảm ơn !
Tác giả

Nguyễn Thị Hồ Diễm


LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực
tiếp của PGS.TS. Nguyễn Thanh Bình.
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên
công trình, thời gian, địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu
hoàn toàn trách nhiệm.
Tác giả

Nguyễn Thị Hồ Diễm



MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH
MỞ ĐẦU ........................................................................................................... 1
1.

Tính cấp thiết của đề tài ........................................................................ 1

2.

Mục tiêu nghiên cứu............................................................................... 2

3.

Đối tượng và phạm vi nghiên cứu ......................................................... 2
3.1 Đối tượng nghiên cứu .......................................................................... 2
3.2 Phạm vi nghiên cứu ............................................................................. 2

4.

Phương pháp nghiên cứu ....................................................................... 3

5. Ý nghĩa khoa học và thực tiễn ................................................................... 3
6. Bố cục luận văn .......................................................................................... 3

CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN .................................................. 4
1.1. Một số công nghệ web ngữ nghĩa .......................................................... 4
1.1.1. RDF - nền tảng của dữ liệu liên kết .................................................. 4
1.1.2. RDFS và Ontology ............................................................................. 4
1.1.3. SPARQL ........................................................................................... 6
1.2. Giới thiệu về dữ liệu liên kết .................................................................. 8
1.2.1. Khái niệm dữ liệu liên kết ................................................................. 8
1.2.2. Nguyên lý của dữ liệu liên kết ........................................................... 9
1.2.3. Sức mạnh của dữ liệu liên kết .......................................................... 10
1.2.4. Tiến trình xuất bản dữ liệu liên kết lên web ..................................... 11
KẾT LUẬN CHƯƠNG 1 ............................................................................... 14
CHƯƠNG 2 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG ............................. 15
2.1. Thực trạng về công tác quản lý luận văn tốt nghiệp Khoa CNTT,
Trường đại học Bách Khoa - Đại học Đà Nẵng .................................................. 15
2.2. Mô tả khái quát về hệ thống ................................................................. 15
2.2.1. Phân tích yêu cầu của hệ thống ....................................................... 15
2.2.2. Mô hình hóa yêu cầu ....................................................................... 16


2.3. Biểu đồ ca sử dụng ................................................................................ 19
2.3.1. Quản trị hệ thống ............................................................................ 19
2.3.2. Giảng viên ....................................................................................... 20
2.3.3. Sinh viên .......................................................................................... 20
2.3.4. Khách .............................................................................................. 21
2.4. Biểu đồ hoạt dộng các chức năng chính của hệ thống......................... 21
2.4.1. Chức năng đăng nhập ............................................................................................. 21
2.4.2. Chức năng tìm kiếm ......................................................................... 22
2.4.3. Chức năng cập nhật luận văn .......................................................... 22
2.4.4. Chức năng duyệt luận văn ............................................................... 23
2.5. Biểu đồ lớp ............................................................................................ 23

2.5.1. Xác định các lớp đối tượng .............................................................. 23
2.5.2. Biểu đồ lớp mức phân tích (lớp thực thể) ......................................... 24
2.5.3. Mối quan hệ giữa các lớp ................................................................ 25
2.6. Biểu đồ tuần tự ..................................................................................... 25
2.6.1. Đăng nhập hệ thống ........................................................................ 25
2.6.2. Cập nhật lớp .................................................................................... 26
2.6.3. Cập nhật luận văn ........................................................................... 26
2.6.4. Duyệt luận văn ................................................................................ 27
2.6.5. Cập nhật sinh viên ........................................................................... 27
2.6.6 Duyệt sinh viên................................................................................. 28
KẾT LUẬN CHƯƠNG 2 ............................................................................... 28
CHƯƠNG 3 XÂY DỰNG HỆ THỐNG VÀ THỬ NGHIỆM ...................... 29
3.1. Phương pháp xây dựng ontology ......................................................... 29
3.2. Xây dựng ontology ................................................................................ 31
3.2.1. Thiết kế ontology ............................................................................. 31
3.2.2. Xây dựng dữ liệu thử nghiệm ........................................................... 33
3.2.3. Luật suy diễn ngữ nghĩa .................................................................. 34
3.2.4. Thuật toán tìm kiếm ......................................................................... 36
3.2.5. Truy vấn trên dữ liệu dữ liệu sử dụng ngôn ngữ truy vấn SPARQL .. 36
3.3. Công cụ lập trình .................................................................................. 38


3.4. Kết quả cài đặt ...................................................................................... 39
3.4.1. Giao diện đăng nhập hệ thống ......................................................... 39
3.4.2. Giao diện sinh viên gửi luận văn ..................................................... 39
3.4.3. Giao diện tra cứu thông tin.............................................................. 40
3.4.4. Giao diện duyệt luận văn ................................................................. 43
3.5. Đánh giá ứng dụng ............................................................................... 44
KẾT LUẬN CHƯƠNG 3 ............................................................................... 45
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................................................... 46

TÀI LIỆU THAM KHẢO .............................................................................. 47



DANH MỤC CÁC TỪ VIẾT TẮT
Chữ viết tắt

chữ đầy đủ

BK

Bách Khoa

CNTT

công nghệ thông tin

FOAF

Friend of a friend

HTML

HyperText Markup Language

HTTP

HyperText Transfer Protocol

ID


Identification

LOD

Linked Open Data

OWL

Ontology Web Language

RDF

Resource Description Framework

RDFS

Resource Description Framework Schema

SPARQL

Protocol and RDF Query Language

URI

Uniform Resource Identifier

URL

Uniform Resource Locator


UML

Unified Modeling Language

XML

eXtensible Markup Language

W3C

World Wide Web Consortium


DANH MỤC CÁC BẢNG
Số

Tên bảng

hiệu
2.1

Quan hệ giữa các lớp

Trang
30


DANH MỤC CÁC HÌNH
Số

hiệu
1.1.
1.2.
1.3.
1.4.
1.5.
1.6.
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.
2.9.
2.10.
2.11.
2.12.
2.13.
2.14.
2.15.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.

3.9.
3.10.
3.11.
3.12.
3.13.
3.14.
3.15.

Tên hình
Đồ thị RDF
Quan hệ giữa các lớp cốt lõi
Ngôn ngữ biểu diễn Ontology OWL
Sự phát triển của Web
Liên kết ngữ nghĩa giữa các nguồn khác nhau trong dữ liệu liên
kết
Tiến trình xuất bản Linket data lên web
Biểu đồ ca sử dụng (Quản trị)
Biểu đồ ca sử dụng (Giảng viên)
Biểu đồ ca sử dụng (Sinh viên)
Biểu đồ ca sử dụng (Khách)
Biểu đồ hoạt động chức năng đăng nhập
Biểu đồ hoạt động chức năng tìm kiếm
Biểu đồ hoạt động chức năng cập nhật luận văn
Biểu đồ hoạt động chức năng duyệt luận văn
Biểu đồ lớp mức phân tích
Biểu đồ tuần tự chức năng đăng nhập hệ thống
Biểu đồ tuần tự chức năng cập nhật lớp
Biểu đồ tuần tự chức năng cập nhật luận văn
Biểu đồ tuần tự chức năng duyệt luận văn
Biểu đồ tuần tự chức năng cập nhật sinh viên

Biểu đồ tuần tự chức năng duyệt sinh viên
Các thuộc tính, giá trị sử dụng để mô tả định nghĩa lớp
StudentProject
Các thuộc tính, giá trị sử dụng để mô tả định nghĩa thuộc tính
Ontology OntLibrary
Đồ họa ngữ nghĩa của luận văn <ins: DALT131601>
Kiến trúc tổng thể của hệ thống
Giao diện đăng nhập hệ thống
Giao diện sinh viên gửi luận văn
Tìm kiếm thông qua giao diện chính của hệ thống
Tìm kiếm cơ bản
Tìm kiếm nâng cao
Tìm kiếm nâng cao theo tiêu đề và sinh viên thực hiện
Thông tin chi tiết của một tác phẩm
Thống kê
Giao diện duyệt luận văn
Giao diện duyệt luận văn

Trang
5
6
7
11
5
5
24
25
25
26
26

27
27
28
29
30
31
31
32
32
33
38
38
39
43
45
46
40
47
48
48
49
49
50
50
51


1
MỞ ĐẦU
1. Tính cấp thiết của đề tài

Ngày nay, công nghệ thông tin phát triển trên toàn thế giới, đã mang lại bộ mặt
mới cho thế giới, đóng góp rất lớn cho các lĩnh vực kinh tế, xã hội. Trong đó các dịch vụ
web mang lại cho chúng ta rất nhiều lợi ích. Hiện nay các dịch vụ web rất phát triển, có
rất nhiều cá nhân và tổ chức tham gia. Điều này làm cho số lượng người dùng và thông
tin tăng lên nhanh chóng. Tuy nhiên với lượng thông tin khổng lồ như hiện nay trên web
thì việc tìm kiếm tri thức hoặc các công trình nghiên cứu khoa học rất khó khăn. Với
công nghệ Web ngữ nghĩa (Web Semantic) và đặc biệt là sáng kiến dữ liệu liên kết
khuyến khích các tổ chức xuất bản, chia sẻ và liên kết dữ liệu của họ bằng các trang
web. Khả năng hiển thị dữ liệu có thể cải thiện đáng kể thông qua việc liên kết với các
nguồn thông tin khác. Cũng có nghĩa là các thư viện số có thể đáp ứng tốt hơn mong đợi
của người dùng, chẳng hạn như sự sẵn có liên tục của thông tin theo một định dạng có
thể hiểu được bởi bạn đọc và máy tính. Ngoài ra có thể trợ giúp nhiều nhiệm vụ phức tạp
mà các thư viện hiện đang phải đối mặt khi duy trì và tối ưu hóa, phát hiện trùng lặp các
bộ dữ liệu cục bộ của chính họ.
Tại hầu hết các trường cao đẳng, đại học, thư viện đóng một vai trò rất quan trọng
trong việc cung cấp tài nguyên phục vụ công tác nghiên cứu và học tập. Tuy nhiên, cùng
với sự phát triển và ứng dụng rộng rãi của công nghệ thông tin và truyền thông, việc trực
tiếp đến thư viện để tra cứu thông tin đang dần được thay thế bằng việc tìm kiếm thông
tin thông qua mạng internet. Do đó, việc phát triển và đưa vào sử dụng các thư viện số
trở nên cấp bách. Trong thư viện số của một trường cao đẳng, đại học, ngoài sách, giáo
trình thì luận văn tốt nghiệp của sinh viên cũng là một nguồn tài nguyên vô cùng quý giá
cần được lưu trữ. Việc lưu trữ này có thể giúp bạn đọc tham khảo, tìm kiếm hướng
nghiên cứu mới cho mình, đồng thời cũng sẽ kiểm soát tốt hơn việc đạo văn trong các
luận văn. Tuy nhiên, việc lưu trữ này vẫn chưa được các thư viện quan tâm, thực hiện
một cách hiệu quả. Tại một số thư viện trường, luận văn tốt nghiệp đã được số hóa
nhưng hầu như rất sơ sài, chủ yếu chỉ quản lý tiêu đề và tác giả luận văn. Các luận văn
cùng lĩnh vực nghiên cứu hầu như chưa có sự liên kết với nhau. Nhưng các luận văn
được lấy từ các trang web hiện nay chưa có sự kiểm chứng các thông tin về luận văn như
tác giả, người hướng dẫn. Công tác quản lý các bài luận văn tốt nghiệp của sinh viên tại
các trường chuyên nghiệp rất khó khăn. Vì hằng năm mỗi trường có hàng ngàn bài luận

văn của sinh viên tốt nghiệp, nhưng khi quản lý cần phải xác định đúng tác giả, chuyên
ngành, nên công tác kiểm tra rất khó khăn. Vì vậy cần phải có một thư viện lưu trữ thông
minh có thể rút trích luận văn khi cần một cách thông minh.


2
Xuất phát từ những lý do trên, tôi đề xuất giải pháp quản lý và xuất bản luận văn
tốt nghiệp của sinh viên cho thư viện số bằng cách ứng dụng dữ liệu liên kết mở trên nền
tảng web ngữ nghĩa. Để áp dụng công nghệ này, tôi miêu tả các đối tượng, thiết lập các
lược đồ trong các dạng ontology cho các định danh của các đối tượng số, sau đó thực
hiện truy vấn dữ liệu bằng SPARQL và sử dụng RDFa để xuất bản thông tin luận văn tốt
nghiệp của sinh viên trên web. Dữ liệu thực tế được sử dụng là luận văn tốt nghiệp của
sinh viên Khoa CNTT, Trường Đại học Bách Khoa - Đại học Đà Nẵng.
Do đó tôi chọn đề tài “Ứng dụng dữ liệu liên kết xây dựng thư viện luận văn tốt
nghiệp của Khoa CNTT, Trường Đại học Bách Khoa - Đại học Đà Nẵng” làm luận văn
tốt nghiệp của mình.
2. Mục tiêu nghiên cứu
Đề tài nhằm mục tiêu xây dựng kho dữ liệu về luận văn tốt nghiệp của Khoa
CNTT, Trường Đại học Bách Khoa - Đại học Đà Nẵng. Với tiêu chí hổ trợ công tác
quản lý luận văn tốt nghiệp của Khoa CNTT, Trường Đại học Bách Khoa - Đại học Đà
Nẵng.
Vì vậy đề tài sẽ nghiên cứu và ứng dụng các công nghệ của dữ liệu liên kết vào
việc xây dựng một hệ thống trợ giúp công tác lưu trữ, quản lý luận văn tốt nghiệp của
Khoa CNTT, Trường Đại học Bách Khoa - Đại học Đà Nẵng để tiết kiệm thời gian và
công sức mà vẫn đảm bảo được chất lượng và yêu cầu công việc.
3. Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
Trong khuôn khổ của luận văn thuộc loại nghiên cứu cấu trúc và thông tin cần lưu
trữ các luận văn tốt nghiệp của Khoa CNTT, Trường Đại học Bách Khoa - Đại học Đà
Nẵng.

Nghiên cứu các công nghệ web ngữ nghĩa áp dụng cho quản lý dữ liệu thư viện số.
3.2 Phạm vi nghiên cứu

- Nghiên cứu về các công nghệ web ngữ nghĩa sử dụng cho đề tài: RDF, RDFS,
OWL và SPARQL;
- Nghiên cứu về các nguyên lý và thành phần của dữ liệu liên kết (Linked Data);
- Xây dựng hệ thống tra cứu thông tin cho các luận văn gồm các thông tin về thể
loại, tên luận văn, người thực hiện, người hướng dẫn, năm tốt nghiệp,...hiện có tại Khoa
CNTT, Trường Đại học Bách Khoa - Đại học Đà Nẵng. Từ đó, ứng dụng các công nghệ
web ngữ nghĩa vào xây dựng website xuất bản dữ liệu mở liên kết cho thư viện số.


3
4. Phương pháp nghiên cứu
Phương pháp lý thuyết
- Tiến hành thu thập và phân tích các tài liệu liên quan đến công tác quản lý luận
văn tốt nghiệp của Khoa CNTT, Trường Đại học Bách Khoa - Đại học Đà Nẵng.
- Tìm hiểu về dữ liệu liên kết trong web ngữ nghĩa để xây dựng website.
- Nghiên cứu về ontology.
Phương pháp thu thập dữ liệu
Điều tra, thu thập dữ liệu, tìm kiếm trên các tạp chí khoa học và các bài báo cáo
khoa học liên quan đến dữ liệu liên kết.
Thu thập các luận văn sinh viên đã tốt nghiệp và lưu trữ tại khoa.
Phương pháp thực nghiệm
- Xây dựng ontology.
- Xây dựng cơ sở dữ liệu thử nghiệm.
- Triển khai hệ thống trên internet.
5. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học
Tìm hiểu tốt các công cụ dữ liệu liên kết để xây dựng web ngữ nghĩa, phương

pháp xây dựng ontology về các công trình khoa học nói chung và các đề tài. Kết quả của
đề tài có thể làm tư liệu cho các đơn vị quản lý luận văn của các trường trong việc phát
triển hệ thống quản lý luận văn của sinh viên sau khi tốt nghiệp.
Ý nghĩa thực tiễn
Góp phần tin học hóa trong công tác quản lý, giảm thiểu các thao tác giấy tờ,
nâng cao hiệu quả quản lý luận văn tốt nghiệp trong các trường.
6. Bố cục luận văn
Luận văn gồm các chương như sau:

- Chương 1: Nghiên cứu tổng quan.
- Chương 2: Phân tích thiết kế hệ thống.
- Chương 3: Xây dựng hệ thống và thử nghiệm.


4
CHƯƠNG 1
NGHIÊN CỨU TỔNG QUAN
Chương này sẽ giới thiệu tổng quan về dữ liệu liên kết và nguyên lý của nó. Ngoài
ra chương còn đề cập đến các ngôn ngữ và công cụ liên quan đến dữ liệu liên kết.
1.1. Một số công nghệ web ngữ nghĩa
1.1.1. RDF - nền tảng của dữ liệu liên kết
Định dạng dữ liệu chính đại diện cho web ngữ nghĩa là RDF (Resource
Description Framework – Khung mô tả tài nguyên). RDF cung cấp một framework
chung để biểu diễn thông tin (dưới dạng đồ thị). RDF là một tập hợp các nguyên tắc
dành cho ngôn ngữ đánh dấu, cung cấp mô hình dữ liệu và cú pháp đơn giản sao cho các
hệ thống độc lập có thể trao đổi và sử dụng. Đồng thời, RDF được thiết kế để hệ thống
máy tính có thể hiểu được và có thể đọc được thông tin, chứ không chỉ đơn giản là để
trình bày dữ liệu cho người dùng.
RDF cung cấp mô hình dữ liệu và cú pháp đơn giản sao cho các hệ thống độc lập
có thể trao đổi và sử dụng. Bản thân RDF là một mô tả đồ thị được hình thành bởi bộ ba

chủ thể-vị từ-đối tượng (subject - predicate – object). Trong đó:

- Subject chỉ đối tượng đang được mô tả đóng vai trò là chủ thể;
- Predicate (còn được gọi là property) là kiểu thuộc tính hay quan hệ;
- Object là giá trị thuộc tính hay đối tượng của chủ thể đã nêu. Object có thể là
một giá trị nguyên thủy (Literal) như số nguyên, chuỗi,... hoặc cũng có thể là một tài
nguyên [13].

Nói cách khác, sự kết hợp của bộ ba này tạo thành một đồ thị RDF (xem Hình
1.4) mà các nút được xác định bởi URI.

Hình 1.1. Đồ thị RDF
1.1.2. RDFS và Ontology

 RDFS
Lược đồ khung mô tả tài nguyên (RDFS-RDF Schema) cung cấp thông tin để


5
giải thích các phát biểu trong một mô hình dữ liệu RDF. RDFS cũng xác định ràng
buộc cần dùng trong các mô hình dữ liệu. Có thể sử dụng RDFS để mô tả nguyên tắc
phân loại các lớp và các thuộc tính, từ đó tạo ra bản thể nhẹ (lightweight ontology). Lưu
ý rằng, ngôn ngữ RDF chỉ giúp cho thông tin được thể hiện ở dạng bộ ba theo đúng mô
hình RDF, thông tin vẫn chưa thể hiện gì về mặt ngữ nghĩa. Vì vậy, xây dựng RDFS là
điều cần thiết để hình thành nên ngữ nghĩa cho thông tin, là cơ sở để xây dựng các công
cụ tìm kiếm ngữ nghĩa.

rdfs: Tài nguyên

rdf: Quan hệ


rdfs: Lớp

rdfs: loại dữ liệu

rdfs: giá trị ban đầu

rdf: ngôn ngữ đánh
dấu mở rộng
Hình 1.2. Quan hệ giữa các lớp cốt lõi

 OWL
OWL (The Web Ontology Language) là một ngôn ngữ ontology khá mạnh, bằng
việc sử dụng cú pháp RDF/XML. OWL kế thừa được những lợi thế của người tiền
nhiệm RDFS đồng thời bổ sung thêm nhiều yếu tố giúp khắc phục được những hạn chế
của RDFS. Mục đích chính của OWL là cung cấp các chuẩn để tạo ra một nền tảng để
quản lý tài nguyên, để chia sẻ cũng như tái sử dụng dữ liệu trên Web.
Trong phiên bản đầu tiên của OWL (được đặt tên là OWL 1), OWL gồm có ba
loại ngôn ngữ OWL được định nghĩa là OWL Lite, OWL DL, và OWL Full [10].

Hình 1.3. Ngôn ngữ biểu diễn ontology OWL


6
Các phiên bản này tách biệt về các tiện ích khác nhau, OWL Lite là phiên bản dễ
hiểu nhất và phức tạp nhất là OWL Full.
Mối liên hệ giữa các ngôn ngữ con của OWL:

- Mọi ontology hợp lệ dựa trên OWL Lite đều là ontology hợp lệ trên OWL DL;
- Mọi ontology hợp lệ dựa trên OWL DL đều là ontology hợp lệ trên OWL Full;

- Mọi kết luận hợp lệ dựa trên OWL Lite đều là kết luận hợp lệ trên OWL DL;
- Mọi kết luận hợp lệ dựa trên OWL DL đều là kết luận hợp lệ trên OWL Full.
Phiên bản thứ hai của OWL (được gọi là OWL 2) có cấu trúc gần như tương tự
với OWL 1 [11]. Ngoài các ontology OWL 1 đều được giữ lại, các thành phần ontology
mới được giới thiệu trong OWL 2. Các tiền đề của tập rời (disjoint union) của các lớp,
của các thuộc tính mới thể hiện những ràng buộc lượng số (qualified cardinality
restriction – hạn chế số lượng các giá trị của một kiểu cụ thể cho một thuộc tính) và của
các thuộc tính Annotation; các kiểu dữ liệu mới và phạm vi dữ liệu mới; khái niệm chuỗi
thuộc tính là một ví dụ.
Thành phần của Ontology
Các thành phần thường gặp của Ontology bao gồm:
Các lớp (classes): Là trung tâm của hầu hết các ontology, mô tả các khái niệm
trong miền lĩnh vực. Các lớp thường được tổ chức phân cấp và áp dụng kỹ thuật thừa kế.
Một lớp có thể có các lớp con biểu diễn khái niệm cụ thể hơn so với lớp cha. Ví dụ lớp
Car: lớp của tất cả xe hơi, hay các đối tượng có thể được mô tả bởi các tiêu chuẩn làm
một chiếc xe hơi.
Các thuộc tính (Attributes): Mô tả các đặc tính, đặc trưng, tính chất khác nhau
của khái niệm và mỗi thuộc tính đều có giá trị. Thuộc tính được phân biệt với quan hệ
(relation) dựa trên giá trị là một kiểu dữ liệu (string, number, boolean...). Một thuộc tính
bản thân nó cũng có các thuộc tính con và cũng có các ràng buộc trên nó.
Các quan hệ (relations): Biểu diễn các kiểu quan hệ giữa các khái niệm. Quan
hệ giữa các đối tượng trong một ontology cho biết các đối tượng liên hệ với đối tượng
khác như thế nào. Giá trị của các quan hệ khác với giá trị của thuộc tính ở chỗ giá trị của
quan hệ là một khái niệm.
Thực thể hay thể hiện (instance): Biểu diễn các phần tử riêng biệt của khái
niệm, là các thể hiện của lớp. Mỗi thể hiện của lớp biểu diễn một sự việc cụ thể hóa của
khái niệm đó.
1.1.3. SPARQL
SPARQL [5], [23] là một giao thức và ngôn ngữ truy vấn RDF. Nó tương thích
với cấu trúc cụ thể của RDF và dựa trên bộ ba của chúng. SPARQL cho phép thực hiện



7
các câu truy vấn thêm, xóa, tìm kiếm và chỉnh sửa dữ liệu định dạng RDF. Nó cũng
được dùng để truy vấn RDFS hoặc từ vựng OWL (được viết dưới dạng RDF).
Sau đây là một ví dụ truy vấn SPARQL đơn giản:
SELECT ?scientist
WHERE {
?scientist rdf:type ll:Scientist
}

Ngôn ngữ truy vấn SPARQL đặc tả bốn loại truy vấn khác nhau cho các mục đích
khác nhau:
- Truy vấn SELECT được dùng để trích xuất các giá tri, là một tập con hoặc toàn
bộ các biến được ràng buộc trong một truy vấn. Các biến chứa các giá trị trả về được liệt
kê sau từ khóa SELECT. Trong mệnh đề WHERE, có thể liệt kê danh sách các mẫu đồ
thị truy vấn
- Truy vấn CONSTRUCT trả về đồ thị RDF với các biến liên quan.
- Truy vấn DESCRIBE trả về một đồ thị RDF “mô tả” tài nguyên tìm được.
- Truy vấn ASK trả về kết quả tìm kiếm một mẫu (đồ thị) dưới dạng True/False.
Dưới đây là một số lý do để tôi chọn ngôn ngữ truy vấn SPARQL cho luận văn
của mình:
- Ngôn ngữ truy vấn này được tổ chức W3C – tổ chức chịu trách nhiệm xây
dựng, quản lý đưa ra các chuẩn liên quan đến WWW – khuyến nghị sử dụng, và nó được
chấp nhận rộng rãi trong cộng đồng web ngữ nghĩa và trí tuệ nhân tạo.
- Cú pháp của ngôn ngữ SPARQL khá đơn giản.
- SPARQL có thể được sử dụng với bất kỳ ngôn ngữ mô hình hóa nào.
RDFa (RDF in attributes) là một cách để thể hiện dữ liệu RDF bên trong
XHTML, bằng cách làm phong phú thêm dữ liệu mà con người có thể đọc được với các
thuộc tính RDF. RDFa giúp chúng ta thu hẹp khoảng cách giữa những cái mà con người

có thể nhìn thấy khi xem một tài liệu với những cái mà máy tính có thể “thấy” khi xử lý
cùng tài liệu đó. Có nghĩa là các thuộc tính ngữ nghĩa (semantic attribute) sẽ được thêm
vào để máy tính có thể thực hiện các xác nhận thông minh trên các thông tin tìm kiếm
được trong văn bản RDFa.
Như đã trình bày ở trên, khi xây dựng một trang web, nếu chúng ta chỉ dựa vào
các thẻ HTML thì chỉ có con người mới hiểu được ai tạo ra trang web đó và có những
thông tin gì trên đó, còn máy tính không thể nào hiểu được. Bằng cách thêm một số
thuộc tính dưới đây, máy tính bóc tách được dữ liệu và sẽ hiểu được như con người:


8
- Các thuộc tính cú pháp: @prefix, @vocab.
- Các thuộc tính chủ thể (subject): @about.
- Các thuộc tính vị từ (Predicate): @property, @rel, @rev.
- Các thuộc tính tài nguyên: @resource, @href, @src.
- Các thuộc tính văn bản (literal): @datatype, @content, @xml:lang hoặc @lang.
- Các thuộc tính macro: @typeof, @inlist.
Ví dụ dưới đây sử dụng một số thuộc tính RDFa để xuất bản đồ án tốt nghiệp của
sinh viên.
Ví dụ 1.3:
<div typeof="vh:StudentProject" about="ins:DALT131601">

Đồ án: content="Nghiên cứu lập trình IOS Swift và ứng dụng xây dựng game Flappy Bird
trên IOS">Nghiên cứu lập trình IOS Swift và ứng dụng xây dựng game Flappy Bird
trên IOS</span>


<table>
<tr>
<td> Tác giả:
</td>
<td>

property="vh:hasAuthor"
href="ins:CCLT07A020">ins:CCLT07A020</a></td>
</tr>
<tr>
<td> Người hướng dẫn:
</td>
<td> <a property="vh:isSupervisedBy" href="ins:T04-15.111023">ins:T04-15.111-023</a>
</td>
</tr>…
</table>
</div>
1.2. Giới thiệu về dữ liệu liên kết
1.2.1. Khái niệm dữ liệu liên kết
Dữ liệu liên kết (linked data) là kết quả của một nỗ lực cộng đồng. Dữ liệu liên
kết được xác định là một cách để xuất bản dữ liệu trên Web (ngữ nghĩa) khuyến khích sử
dụng lại; giảm dư thừa, tối đa hóa khả năng kết nối liên mạng (thực và tiềm năng) và cho
phép các hiệu ứng mạng tăng giá trị cho dữ liệu.


9
Xét về mặt bản chất, dữ liệu liên kết là công cụ để con người và máy tính sử dụng
để biểu diễn thông tin. Dữ liệu trong Web ngữ nghĩa được đánh dấu, phân lớp, mô hình
hóa và được bổ sung thêm các thuộc tính, các mối liên hệ… theo các lĩnh vực cụ thể,
qua đó giúp cho các phần mềm máy tính có thể hiểu được dữ liệu và tự động xử lý được
những dữ liệu đó.
Hình dưới minh họa sự phát triển của web từ khi bắt đầu và định hướng phát triển
trong tương lai: Bắt đầu là mạng lưới kết nối các tài liệu với nhau (ví dụ như giao thức
Gopher), siêu văn bản (Hypertext), dữ liệu trên web (dữ liệu mở…), web dữ liệu (dữ liệu
liên kết).


Hình 1.4. Sự phát triển của web [6]
1.2.2. Nguyên lý của dữ liệu liên kết
Dữ liệu liên kết sử dụng URI để liên kết tới một đối tượng dữ liệu hơn là một tài
liệu. Tim Berners-Lee đã đưa ra bốn nguyên lý của dữ liệu liên kết:
- Sử dụng URI để mô tả mọi thứ;

- Sử dụng các HTTP URIs, vì vậy người sử dụng có thể tìm kiếm theo các URI
này để xác định các đối tượng cụ thể;
- Khi người sử dụng tìm kiếm URI, sẽ được cung cấp thông tin hữu ích và sử
dụng tiêu chuẩn RDF;
- URI có thông tin liên kết tới các URI khác, để người sử dụng có thể khám phá
nhiều thông tin hơn.
Ưu điểm quan trọng nhất của dữ liệu liên kết là thuận tiện và đơn giản. Với bốn
nguyên lý hoạt động nêu trên, dữ liệu liên kết có thể dễ dàng được hình thành và ngay
lập tức được áp dụng. Vì dữ liệu liên kết sử dụng khuôn dạng RDF, nên dữ liệu có cấu


10
trúc và dữ liệu không có cấu trúc có thể áp dụng được như nhau. Ngoài ra dữ liệu liên
kết có thể kết nối tất cả dữ liệu riêng lẻ. Dữ liệu liên kết có thể sử dụng linh hoạt và dễ
dàng nâng cấp.
Vì thế, các nỗ lực của cộng đồng W3C và tất cả những người bảo vệ cho tính mở
của dữ liệu đều hướng tới làm giàu cho đám mây Dữ liệu Mở Liên kết - LOD.
1.2.3. Sức mạnh của dữ liệu liên kết
Máy tính có thể hiểu được thông tin trên Web: Web ngữ nghĩa định nghĩa các
khái niệm và bổ sung quan hệ dưới dạng máy tính có thể hiểu được. Do đó, việc tìm
kiếm, đánh giá, xử lý, tích hợp thông tin có thể được tiến hành một cách tự động.
Thông tin được tìm kiếm nhanh chóng và chính xác hơn: Dữ liệu liên kết có khả
năng trả lời chính xác các yêu cầu tìm kiếm bằng cách sử dụng hệ thống xử lý ngôn ngữ

tự nhiên có khả năng chuyển đổi ngôn ngữ của con người thành kiểu dữ liệu chuẩn mà
các chương trình máy tính có thể hiểu được. Nhờ đó, máy tính có thể xác định một thực
thể thuộc lớp hay thuộc tính cụ thể nào dựa trên ngữ cảnh chứa nó. Do đó thu hẹp không
gian tìm kiếm và cho kết quả nhanh, chính xác hơn.
Dữ liệu liên kết động: Thay thế cách liên kết sử dụng hyperlink tĩnh trong Web
cũ, Web ngữ nghĩa liên kết dữ liệu từ nhiều nguồn khác nhau một cách hiệu quả hơn dựa
trên định danh của tài nguyên (URI) và quan hệ giữa chúng. Cách liên kết này đôi khi
còn được gọi là liên kết bằng siêu dữ liệu (metadata).
Hình 1.5 sau đây mô tả một ví dụ về dữ liệu liên kết ngữ nghĩa giữa các nguồn dữ
liệu.

Có hướng dẫn
sử dụng

Thư viện

yêu cầu

Tài liệu
Đối tượng

yêu cầu

Phần mềm

Hình ảnh

Thư viện

Trong một

phần của

Được dựa trên
Đối tượng

Có tác giả

Tài liệu

Chủ đề

Người

Đối tượng

Chủ đề

Sống ở

Địa chỉ

Hình 1.5. Liên kết ngữ nghĩa giữa các nguồn khác nhau trong dữ liệu liên kết


11
1.2.4. Tiến trình xuất bản dữ liệu liên kết lên web
Dữ liệu liên kết sử dụng URI để đặt tên các đối tượng trên thế giới, các nguồn tài
nguyên này không phải là các nguồn tài nguyên thông tin. File nguồn tài nguyên thông
tin tổng quát có hai loại: nếu yêu cầu đến từ các trình duyệt (trong tiêu đề bao gồm yêu
cầu text/html), chúng ta trả về file HTML. Nếu yêu cầu là ứng dụng/rdf+xml, chúng ta

trả về file RDF.
1.2.4.1. Chuẩn bị dữ liệu
Bước đầu tiên để xuất bản dữ liệu liên kết là chuẩn bị dữ liệu cho ứng dụng. Dữ
liệu của ứng dụng chính là các tài nguyên trên Web, do đó chuẩn bị dữ liệu trước hết
chính là việc thiết kế không gian tên URI cho tập dữ liệu, có thể hiểu đó là cách tạo ra
URI cho dữ liệu của ứng dụng. Và sau đó sẽ tạo mới hoặc chọn để sử dụng lại các bộ từ
vựng có sẵn [8, 15].

Hình 1.6. Tiến trình xuất bản dữ liệu liên kết lên Web
1.2.4.2. Chọn URI
Có hai mẫu HTTP URI dùng để định danh cho đối tượng là slash URI và hash
URI. Vậy có thể chọn một trong hai mẫu HTTP URI để xác định các thực thể trong ứng
dụng. Cả hai mẫu này đều đảm bảo rằng các máy trạm có thể phân biệt giữa URI xác
định thực thể thế giới thực và URI định danh tài liệu Web mô tả, những thực thể thế giới
thực tức là tài nguyên thông tin và tài nguyên phi thông tin. Một số tiêu chí thông
thường được đưa ra cho việc định danh đối tượng như sau:
- Đặt tên dễ nhớ, ngắn gọn.


12
- Định danh trong không gian tên của mình. (Tên miền có thể chính là không gian
tên).
- Quan tâm đến tính mềm dẻo và nhất quán của URI vì việc thay đổi URI sẽ làm
vỡ các liên kết đã thiết lập.
Tài nguyên thông tin thì thường có một địa chỉ Web cụ thể để biểu diễn. Nhưng
một tài nguyên phi thông tin thì không. Một tài nguyên phi thông tin cần xác định 3 định
danh URI liên quan:
- 1 định danh cho tài nguyên.
- 1 định danh cho tài nguyên thông tin mô tả tài nguyên đó phù hợp cho trình
duyệt HTML (biểu diễn bởi trang web).

- 1 định danh cho tài nguyên thông tin mô tả tài nguyên đó phù hợp cho trình
duyệt RDF (biểu diễn dạng RDF/XML).
Có nhiều ý tưởng trong việc chọn URI, sau đây là một số ví dụ dùng slash URI:
Cách 1:
- />- />- />Cách 2:
- />- />- />Tuy vậy, thường cần phải có một vài từ khóa chính trong URI của ứng dụng để
chắc chắn cho nó là duy nhất. Từ khóa này cần có ý nghĩa trong lĩnh vực của ứng dụng.
Ví dụ: một phần số ISBN trong lĩnh vực sách và xuất bản được đưa vào định danh URI
là tốt hơn như làm khóa cho các bản ghi CSDL, điều này cũng làm việc khai phá các liên
kết RDF cũng dễ hơn.
1.2.4.3. Chọn bộ từ vựng RDF
Khi xuất bản dữ liệu lên Web, nhiều tổ chức, cá nhân khác nhau sử dụng các bộ
từ vựng khác nhau để tham chiếu cho các tài nguyên của ứng dụng tùy theo sở thích hay
mối quan tâm của họ. Web dữ liệu là một môi trường mở, chúng ta có thể dùng bất kỳ
bộ từ vựng nào và có thể dùng cùng lúc hoặc không, tùy ý. Mặc dù vậy, tốt nhất chúng
ta nên sử dụng lại những thuật ngữ từ những bộ từ vựng RDF phổ biến như FOAF,
SIOC, SKOS, DOAP, vCard, Dublin Core, OAI-ORE hay GoodRelations để làm cho
các ứng dụng máy trạm dễ dàng xử lý dữ liệu liên kết. Khi những bộ từ vựng đó không
đủ cung cấp các thuật ngữ cho ứng dụng, người xuất bản dữ liệu cần phải định nghĩa
thuật ngữ mới và được định nghĩa bởi các URI xác định [8,13].


13
Tóm lại, để máy trạm dễ dàng xử lý dữ liệu, các bộ từ vựng thông dụng có thể
được sử dụng lại. Chỉ nên định nghĩa những từ mới nếu như không tìm thấy từ nào trong
các bộ từ vựng đã có.
Khi không tìm được bộ từ vựng nào sẵn có phù hợp cho các lớp và thuộc tính của
ứng dụng thì cần phải định nghĩa ra chúng. Định nghĩa một thuật ngữ mới không khó.
Chúng ta có thể định nghĩa những từ vựng sử dụng lược đồ RDF hay OWL.
1.2.4.4. Tạo liên kết dữ liệu

Liên kết dữ liệu (typed link) chính là điều cốt lõi của Web dữ liệu. Nếu không có
liên kết hay chỉ có những liên kết ở mức nội bộ, dữ liệu bị giới hạn trong những phạm vi
nhất định. Liên kết dữ liệu cho phép con người hay các ứng dụng duyệt qua những
nguồn dữ liệu khác nhau và khám phá thêm dữ liệu, thông tin hữu ích. Trong các ứng
dụng dữ liệu liên kết, đó chính là các liên kết RDF dựa trên các lược đồ RDF (RDFS).
Để ứng dụng là một phần của Web dữ liệu, nguồn dữ liệu của chúng ta cần thiết
lập các liên kết RDF đến các thực thể liên quan trong các nguồn dữ liệu khác. Các nguồn
dữ liệu của các ứng dụng khác nhau nên có các liên kết RDF qua lại lẫn nhau giữa các
tài nguyên tương tự hay có liên quan [2]. Khi có quá nhiều thực thể trong các nguồn dữ
liệu cung cấp thông tin, thì việc tạo ra các liên kết RDF bằng thủ công khó khăn hơn,
dẫn đến các cách tiếp cận tự động hoặc bán tự động sinh liên kết RDF.
1.2.4.5. Xuất bản dữ liệu
Việc xuất bản lên Web như thế nào hiệu quả phụ thuộc nhiều yếu tố. Đầu tiên
phải kể đến là dữ liệu của chúng ta lớn bao nhiêu? Nếu chỉ xuất bản vài trăm bộ ba RDF,
chúng ta có thể cung cấp chúng trong 1 tệp RDF tĩnh và tải lên Web. Nếu dữ liệu nhiều
hơn, chúng ta có thể đưa vào trong kho lưu trữ RDF và dùng các công cụ giao tiếp như
Pubby để xuất bản chúng. Tiếp đến, chúng ta cần xem xét hiện nay dữ liệu đang được
lưu trữ như thế nào? Nếu thông tin hiện đang lưu trữ trong CSDL quan hệ, chúng ta có
thể dùng D2R Server để chuyển đổi và xuất bản kiểu khung nhìn RDF. Nếu thông tin là
có sẵn thông qua API, bạn có thể cài đặt một bao bọc quanh các API. Nếu thông tin của
bạn ở dạng khác như MS Excel, CSV hay BibTeX, bạn cần chuyển qua RDF trước. Và
một yếu tố nữa cần quan tâm là sự thay đổi hay cập nhật của dữ liệu. Nếu dữ liệu phải
thay đổi thường xuyên, chúng ta có thể thích cách tiếp cận mà sinh ra khung nhìn RDF
trên dữ liệu như D2R Server [8, 9, 15].
Hiện nay, đã có nhiều công cụ hỗ trợ xuất bản dữ liệu liên kết đã và đang được
phát triển. Các công cụ này vừa cung cấp kho nội dung RDF cho dữ liệu liên kết trên
Web vừa cung cấp khung nhìn dữ liệu liên kết trên nguồn dữ liệu không RDF.
SPARQL enpoint là một dịch vụ giao thức SPARQL được định nghĩa trong



14
đặc tả SPROT (SPARQL Protocol for RDF) [22]. SPARQL enpoint cho phép người
dùng hoặc máy truy vấn tới cơ sở tri thức thông qua ngôn ngữ SPARQL. Các kết
quả thường được trả về dưới các định dạng mà máy tính có thể xử lý được
(machine-processable formats). Do đó, một SPARQL enpoint thường được hình
thành như một giao diện thân thiện với máy tính nhằm truy cập vào một cơ sở tri
thức. Việc thực thi các truy vấn cũng như biểu diễn lại kết quả của truy vấn được
thực hiện bởi phần mềm.
Hệ thống sử dụng Fuseki [23] - một máy chủ SPARQL. Fuseki cho phép
người dùng truy cập vào cơ sở tri thức của ViethanIT Library thông qua các truy
vấn SPARQL. Fuseki cung cấp REST-style SPARQL HTTP Update, SPARQL
Query và SPARQL Update sử dụng giao thức SPARQL thông qua HTTP.
1.2.4.6. Kiểm thử và gỡ lỗi
Sau khi xuất bản thông tin dạng dữ liệu liên kết trên Web, chúng ta cần kiểm tra
thông tin có được truy cập đúng chưa. Chúng ta có thể kiểm tra các URI với dịch vụ
kiểm tra dữ liệu liên kết sử dụng Vapour Linked validation service tại địa chỉ
Dịch vụ này sinh ra các báo cáo chi tiết cách URI hoạt
động với các yêu cầu HTTP như thế nào. Thêm vào đó, để xem dữ liệu dữ liệu liên kết
của chúng ta đã hiển thị đúng trong các trình duyệt và các liên kết có hoạt động đúng
như mong muốn không, chúng ta có thể nhập các URI vào trong các trình duyệt dữ liệu
liên kết như Tabulator, Marbles, OpenLink RDF Brower, Disco [6, 8].

KẾT LUẬN CHƯƠNG 1
Chương 1 đã trình bày sơ lược về dữ liệu liên kết, nguyên lý của nó và tiến trình
xuất bản dữ liệu liên kết lên web. Định nghĩa các khái niệm liên quan đến ontology và
một số công nghệ, ngôn ngữ liên quan đến dữ liệu liên kết.
Từ cơ sở đó, ở chương tiếp theo là mô hình phân tích thiết kế xây dựng hệ thống
quản lý luận văn của sinh viên Khoa CNTT, Trường Đại học Bách Khoa - Đại học Đà
Nẵng được xây dựng trên nền web ngữ nghĩa, sử dụng ontology để tối ưu hoá tìm kiếm.



×