Ứng dụng web ngữ nghĩa xây dựng hệ thống tài nguyên số cho trung tâm tin học sở giáo dục hải phòng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.26 MB, 66 trang )

BỘ GIAO THÔNG VẬN TẢI

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

TÔ THỊ THÌN

ỨNG DỤNG WEB NGỮ NGHĨA
XÂY DỰNG HỆ THỐNG TÀI NGUYÊN SỐ CHO
TRUNG TÂM TIN HỌC SỞ GIÁO DỤC HẢI PHÒNG

LUẬN VĂN THẠC SĨ NGÀNH KỸ THUẬT

HẢI PHÒNG, 2016

BỘ GIAO THÔNG VẬN TẢI

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

TÔ THỊ THÌN

ỨNG DỤNG WEB NGỮ NGHĨA
XÂY DỰNG HỆ THỐNG TÀI NGUYÊN SỐ CHO
TRUNG TÂM TIN HỌC SỞ GIÁO DỤC HẢI PHÒNG

LUẬN VĂN THẠC SĨ NGÀNH KỸ THUẬT
NGÀNH: CÔNG NGHỆ THÔNG TIN; MÃ SỐ: 60480201

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: TS. Nguyễn Duy Trường Giang

HẢI PHÒNG, 2016

LỜI CAM ĐOAN
Tôi là Tô Thị Thìn, học viên cao học lớp CNTT 2014-1, chuyên ngành
Công nghệ Thông tin, khoá học 2014-2016, Trường Đại học Hàng Hải Việt Nam
xin cam đoan: Các nội dung trong Luận văn Thạc sĩ này là do tự bản thân tôi
nghiên cứu trên cơ sở các tài liệu, số liệu khảo sát thực tế do chính bản thân tôi
thu thập. Các số liệu tham khảo khác sử dụng trong nghiên cứu này thuộc về bản
quyền của các tác giả và được trích dẫn một cách rõ ràng, minh bạch.
Hải Phòng, ngày 12 tháng 2 năm 2016
Ngƣời cam đoan

Tô Thị Thìn

2

LỜI CẢM ƠN
Hoàn thành luận văn này, trước hết tôi xin bày tỏ lòng biết ơn sâu sắc tới
TS. Nguyễn Duy Trường Giang, người hướng dẫn khoa học đã tận tình hướng
dẫn và giúp đỡ tôi trong suốt thời gian thực hiện Luận văn.
Nhân dịp này tôi xin bày tỏ lòng biết ơn đến các thầy cô giảng viên, phòng
đào tạo sau đại học trường Đại học Hàng Hải Việt Nam đã tận tình giảng dạy và
giúp đỡ tôi trong suốt quá trình học tập, nghiên cứu.
Tôi cũng xin gửi lời cảm ơn chân thành nhất đến Ban giám đốc Trung tâm

Tin học Sở giáo dục Hải Phòng, các đồng nghiệp đã giúp đỡ, động viên tạo điều
kiện cho tôi trong quá trình tìm hiểu, thu thập tài nguyên, và xử lý các số liệu cho
thư viện số. Tôi xin cảm ơn các tác giả các tài liệu, bài báo khoa học…cho phép
tôi sử dụng nguồn tư liệu để viết Luận văn.
Cuối cùng tôi xin cảm ơn gia đình, bạn bè, đồng nghiệp chính là nguồn
động viên, khích lệ vô giá đã đi cùng tôi trong suốt những năm tháng phấn đấu,
rèn luyện để có được sản phẩm khoa học này.
Hải Phòng, ngày ...tháng... năm 2016
Học viên

Tô Thị Thìn

3

DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÍ HIỆU
Chữ viết tắt
URI

Giải thích
Uniform Resource Identifier

XML

Extensible Markup Language

RDF

Resource Description Framework

RDFS

Resource Description Framework Schema

SGML

Standard Generalized Markup Language

OWL

Web Ontology Language

URL

Uniform Resource Identifier

WWW

World Wide Web

HTML

Hyper Text Markup Langguage

ISO

International Organization for Standarlization

RDA

Resource Description and Access

FRBR

Functional Requirements of Bibliographic Records

GEMS

Greenstone Editor for Metadata Set

GLI

Greenstone Librarian Interface

CSDL

Cơ sở dữ liệu

NXB

Nhà xuất bản

4

DANH MỤC CÁC BẢNG
Số bảng

Tên bảng

Trang

1.1

Mô hình cơ bản rdf

19

1.2

Cú pháp cơ bản của rdf

21

1.3

Bảng mô tả các lớp trong rdfs

23

1.4

Các thuộc tính của rdfs

24

2.1

Bảng tóm tắt 15 yếu tố dublin core theo phân loại

31

2.2

Bảng tóm tắt các yếu tố mở rộng của dublin core

32

3.1

Mối quan hệ giữa các thuộc tính mô tả các thuộc tính

47

3.2

Danh sách các plugin của greenstone

51

5

DANH MỤC CÁC HÌNH
Hình 1.1. Các tầng kiến trúc web ngữ nghĩa ........................................................... 16
Hình 1.2. Mối quan hệ giữa các thành phần của rdf ............................................... 23
Hình 1.3 quan hệ kế thừa ........................................................................................ 25
Hình 1.4. Trang thông tin về semantic web của vn-kim ......................................... 28
Hình 1.5. Trang tìm kiếm swoogle semantic web search engine ........................... 29
Hình 2.1. Kết quả tìm kiếm trên google.com theo từ khóa ..................................... 31

Hình 2.2. Kiến trúc chung thư viện số ngữ nghĩa ................................................... 33
Hình 2.3. Sơ đồ quan hệ giữa các thực thể nhóm 1 ................................................ 37
Hình 2.4. Sơ đồ quan hệ giữa các thực thể nhóm 1và 2 ......................................... 37
Hình 2.5. Sơ đồ quan hệ giữa các thực thể nhóm 3 và nhóm khác ......................... 38
Hình 2.6. Sơ đồ minh họa biểu ghi thư mục theo FRBR ....................................... 39
Hình 2.7. Ontology biểu ghi thư mục ..................................................................... 40
Hình 2.8. Ontology cấu trúc nội dung ..................................................................... 41
Hình 2.7. Sơ đồ quá trình tìm kiếm trong thư viện số ngữ nghĩa ........................... 42
Hình 3.1. Sơ đồ phân lớp resource (tài nguyên) ..................................................... 45
Hình 3.2. Bản đồ ontology các lớp của thư viện trung tâm tin hoc ........................ 46
Hình 3.3. Màn hình thuộc tính đối tượng................................................................ 48
Hình 3.4. Màn hình thuộc tính đối tượng................................................................ 49
Hình 3.5. Màn hình tạo các thực thể ....................................................................... 51
Hình 3.6. Bộ siêu dữ liệu mở rộng cho thư viện ..................................................... 55
Hình 3.7. Màn hình biên mục cho thư mục............................................................. 56
Hình 3.8. Màn hình đưa tài liệu vào các thư mục ................................................... 56
Hình 3.9. Màn hình nhập siêu dữ liệu cho tài liệu .................................................. 57
Hình 3.10. Thiết lập các chỉ số tìm kiếm ................................................................ 57
Hình 3.11. Màn hình thiết lập giao diện browse ..................................................... 58
Hình 3.12. Màn hình nhập thông tin về bộ sưu tập................................................. 58
Hình 3.13. Màn hình xây dựng bộ sưu tập.............................................................. 59
Hình 3.14. Hộp thoại kích hoạt máy chủ greenstone .............................................. 59
6

Hình 3.15. Màn hình trang quản trị hệ thống .......................................................... 60
Hình 3.16. Màn hình thư viện trung tâm tin học..................................................... 60
Hình 3.17. Màn hình tìm kiếm tài liệu theo tiêu đề ................................................ 61
Hình 3.18. Màn hình tìm kiếm tài liệu theo chủ đề ................................................ 61
Hình 3.19. Tìm kiếm nâng cao theo ngữ nghĩa ....................................................... 62

7

MỤC LỤC
MỞ ĐẦU ................................................................................................................ 10
CHƢƠNG 1. TỔNG QUAN VỀ SEMANTIC WEB ......................................... 13
1.1.

Các khái niệm về Semantic Web ............................................................. 13

1.1.1.

Web ngữ nghĩa. ................................................................................. 13

1.1.2.

Siêu dữ liệu (Metadata) ..................................................................... 14

1.1.3.

Ontology ............................................................................................ 14

1.1.4.

Ontology và Semantic Web .............................................................. 15

1.2.

Các tầng kiến trúc Web ngữ nghĩa .......................................................... 15

1.2.1.

URI (Uniform Resource Identifier): Bộ nhận dạng tài nguyên ........ 18

1.2.2.

Tầng XML (Extensible Markup Language) ..................................... 19

1.2.3.

Tầng RDF (Resource Description Framework) ................................ 22

1.2.4.

Tầng RDFS (RDF Schema – Lược đồ RDF) .................................... 24

1.3.Tổng quan tình hình nghiên cứu thuộc các lĩnh vực của đề tài ........................ 28
1.3.1. Danh mục một số luận văn nghiên cứu đã công bố .................................. 28
1.3.2. Các ứng dụng của Semantic web trong nước............................................ 28
1.3.3. Các ứng dụng của Semantic web quốc tế ................................................. 29
CHƢƠNG II. CÔNG NGHỆ WEB NGỮ NGHĨA TRONG LƢU TRỮ VÀ
QUẢN LÝ TÀI NGUYÊN SỐ .............................................................................. 30
2.1.

Khái niệm về thư viện số ......................................................................... 30

2.2.

Khái niệm về thư viện số ngữ nghĩa........................................................ 30

2.3.

Hiện trạng thư viện tại trung tâm Tin học ............................................... 30

2.4.

Giải pháp xây dựng thư viện số ngữ nghĩa cho Trung tâm Tin học ....... 32

2.4.1.

Phân tích nội dung bài toán ............................................................... 32

2.4.2.

Giải pháp ........................................................................................... 32

2.5.

Cơ sở lý thuyết giải quyết bài toán .......................................................... 33

2.5.1.

Kiến trúc của thư viện số .................................................................. 33

2.5.2.

Siêu dữ liệu (Metadata) ..................................................................... 33

2.5.3.

Siêu dữ liệu Dublin Core................................................................... 34
8

2.5.4.

Biên mục trong thư viện số ngữ nghĩa .............................................. 35

2.5.5.

Ontology cho thư viện số ngữ nghĩa ................................................. 39

2.5.5.1.

Xây dựng Ontology...................................................................... 39

2.5.5.2.

Ontology biểu ghi thư mục .......................................................... 40

2.5.5.3.

Ontology cho cấu trúc nội dung ................................................... 40

2.5.6.

Tìm kiếm trong thư viện ngữ nghĩa .................................................. 41

2.5.6.1.

Tìm kiếm dựa trên sự phân loại ................................................... 41

2.5.6.2.

Tìm kiếm theo ngữ nghĩa ............................................................. 42

CHƢƠNG 3. PHÂN TÍCH THIẾT KẾ HỆ THỐNG- XÂY DỰNG THƢ
VIỆN SỐ NGỮ NGHĨA DỰA TRÊN PHẦN MỀM GREENSTONE ............. 44
3.1. Xây dựng Ontology ......................................................................................... 44
3.2. Xây dựng thư viện số ngữ nghĩa dựa trên phần mềm Greenstone 3.07........... 51
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ........................................................... 63

9

MỞ ĐẦU
Ngày nay, lĩnh vực công nghệ thông tin đã và đang phát triển mạnh mẽ trên
toàn cầu. Nó đóng vai trò rất quan trọng trong các lĩnh vực của đời sống như lĩnh
vực kinh tế, xã hội, học tập ...Nhắc tới lĩnh vực này chúng ta không thể bỏ qua
công nghệ web. Công nghệ Web đóng vai trò rất quan trọng giúp con người có
thể trao đổi thông tin với nhau trên toàn cầu.
Web khởi đầu như giải pháp cục bộ cho một nhóm nhỏ người sử
dụng. Chẳng bao lâu sau, Web đã chính thức đi vào phương tiện truyền
thông diện rộng cho hơn 10 triệu người. Hiện nay, web sẽ gắn bó với hàng
tỷ người và truy cập web không chỉ ở trên máy tính mà còn ở cả các thiết
bị khác.
Tuy nhiên, tình trạng hiện nay của công nghệ Web tạo ra trở ngại cho
sự phát triển của nó sau này. Số người sử dụng Web gia tăng quá nhanh, sự
phát triển theo cấp số mũ số lượng các trang Web, cùng với tính đơn giản

của công nghệ và lượng thông tin khổng lồ ngày một gia tăng dẫn đến việc
tìm kiếm, rút trích, duy trì và tạo ra thông tin không sát thực với yêu cầu
của người dùng. Máy tính chỉ được sử dụng như các thiết bị gửi và nhận
thông tin - chúng không có cách truy cập đến nội dung thực sự. Do đó,
chúng chỉ có thể hỗ trợ một cách hạn chế trong việc truy cập và xử lý
thông tin này. Vì thế, gánh nặng chính không chỉ ở việc truy cập và xử lý
thông tin mà còn ở việc rút trích và diễn dịch thông tin. Nội dung của Web
chỉ dành cho người sử dụng đọc chứ không cho phép các chương trình máy
tính có thể thao tác một cách đầy đủ ý nghĩa.
Chính vì những hạn chế của Web hiện tại (Web 2.0) mà web ngữ nghĩa
(Semantic Web) được hình thành và phát triển, tác giả của nó là Tim BernersLee- người sáng lập ra World Wide Web. Công nghệ web ngữ nghĩa được phát
triển trên nền tảng của web 2.0, nó là sự mở rộng của web 2.0. Web ngữ nghĩa sử
dụng các công nghệ được phát triển để mô tả ý nghĩa (hay ngữ nghĩa) của thông
tin dưới dạng chương trình mà máy tính có thể hiểu được. và vì vậy cho phép xử
lí thông tin có hiệu quả hơn. Công nghệ web ngữ nghĩa giúp máy tính hiểu được
các khái niệm, các thuộc tính và mối quan hệ của chúng. Trong trường hợp này,
máy tính có khả tìm kiếm, tự động truy vấn thông tin đưa ra kết luận và trích xuất
ra thông tin mới và có giá trị từ những dữ liệu đã tồn tại. Siêu dữ liệu và bản thể
10

luận (Ontology) là nền tảng cơ bản làm nên web ngữ nghĩa.
Ứng dụng Web ngữ nghĩa vào các lĩnh vực trong cuộc sống có rất nhiều đề
tài nghiên cứu về vấn đề này. Để ứng dụng công nghệ Web ngữ nghĩa tại Trung
tâm Tin học là vấn đề cấp thiết vì vậy tác giả đã lựa chọn đề tài “Ứng dụng web
ngữ nghĩa xây dựng hệ thống tài nguyên số cho Trung tâm Tin học Sở giáo
dục Hải Phòng"
Mục đích nghiên cứu
Nghiên cứu công nghệ Semantic web, tìm hiểu hướng phát triển một ứng
dụng sử dụng công nghệ Semantic web để xây dựng hệ thống tài nguyên số cho

Trung tâm Tin học.
Đối tượng và phạm vi nghiên cứu
Tìm hiểu công nghệ Web ngữ nghĩa và công nghệ trong thư viện số ngữ
nghĩa ứng dụng xây dựng hệ thống thư viện số trên nền tảng thư viện số hiện đại
có thể tìm kiếm theo ngữ nghĩa.
Phương pháp nghiên cứu
Nghiên cứu các tài liệu, công cụ và công nghệ liên quan đến Web ngữ
nghĩa và thư viện số ngữ nghĩa. Khảo sát, các hình thức học tập và các tài liệu, tư
liệu thông tin cho việc dạy và học tại Trung tâm Tin học. Phân tích hệ thống xây
dựng thư viện quản lý các tài nguyên tại Trung tâm Tin học có ứng dụng công
nghệ web ngữ nghĩa.
Ý nghĩa khoa học và thực tiễn
Các thư viện số truyền thống các siêu dữ liệu được sử dụng như là một
trong những cách tiếp cận cho việc phân loại, biên mục và hỗ trợ tìm kiếm các tài
liệu số có liên quan một cách nhanh chóng theo từ khóa. Cách biên mục truyền
thống sử dụng nguyên tắc biên mục quốc tế năm 1961 (nguyên tắc Paris), với
nguyên tắc trao đổi dữ liệu thống nhất trên toàn cầu sử dụng khổ mẫu lưu giữ dữ
liệu là MARC21, UNIMARC, quy tắc biên mục AACR2, ISBD. Tuy nhiên
những năm gần đây với sự phát triển của khoa học và công nghệ, đặc biệt là lĩnh
vực công nghệ thông tin phát triển mạnh mẽ, ứng dụng vào nhiều ngành nghề
trong đó lĩnh vực quản lý thư viện số cũng được rất nhiều các nhà khoa học trên
thế giới quan tâm và phát triển. Năm 2010, IFLA đã tuyên bố “nguyên tắc biên
mục quốc tế” thay thế nguyên tắc Paris đó là nguyên tắc RDA [1] sử dụng cấu
11

trúc biên mục theo mô hình FRBR (Functional Requirements for Bibliographic
Records – Những yêu cầu chức năng cho biểu ghi thư mục) theo mô hình này bao
gồm các quan niệm về tài nguyên thư viện đó là các thực thể, thuộc tính và quan
hê. Bên cạnh đó kiến trúc của Web ngữ nghĩa cũng sử dụng khung mô tả tài

nguyên theo cách mà mô hình FRBR sử dụng. Như vậy, dựa trên công nghệ web
ngữ nghĩa, mà thư viện số được tích hợp ngữ nghĩa làm cho thư viện số có nhiều
ưu điểm hơn so với cách tiếp cận thông thường.
Bố cục của luận văn được chia thành 3 chương:
Chƣơng 1: Tổng quan về Web ngữ nghĩa
Các khái niệm cơ bản về Web ngữ nghĩa, các tầng kiến trúc của web ngữ
nghĩa, các thành phần cơ bản làm nên web ngữ nghĩa, tổng quan về tình hình
nghiên cứu về lĩnh vực của đề tài.
Chƣơng 2: Công nghệ Web ngữ nghĩa trong lƣu trữ và quản lí tài
nguyên số
Nêu các khái niệm về thư viện số và thư viện số ngữ nghĩa, tìm hiểu hiện
trạng, khảo sát thực tế của bài toán đặt ra dựa trên các cơ sở lý thuyết để giải
quyết bài toán.
Chƣơng 3: Phân tích thiết kế hệ thống, xây dựng thƣ viện số ngữ nghĩa
dựa trên phần mềm Greenstone
Nêu quy trình xây dựng thư viện số bao gồm các bước tạo ontology và thiết
lập thư viện số bằng cách tìm hiểu phần mềm mã nguồn mở Greenstone, xây
dựng biên mục siêu dữ liệu cho thư viện số. Khảo sát, phân tích, thiết kế hệ
thống, Áp dụng công nghệ web ngữ nghĩa và quy tắc biên mục hiện đại xây dựng
hệ thống tài nguyên số cho Trung tâm Tin học Sở giáo dục Hải Phòng.

12

CHƢƠNG 1. TỔNG QUAN VỀ SEMANTIC WEB
1.1.

Các khái niệm về Semantic Web

1.1.1.

Web ngữ nghĩa.

Tim- Berners Lee là người phát triển web ngữ nghĩa, ông là cha đẻ của
WWW, URIs, HTTP và HTML. Theo Ông, “Web ngữ nghĩa là sự mở rộng của
Web hiện tại, cho phép người dùng có thể truy tìm, phối hợp, sử dụng lại và trích
lọc thông tin một cách dễ dàng và chính xác” [2]
Công nghệ web có ngữ nghĩa là công nghệ cho phép máy tính có thể hiểu
được nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc
khám phá thông tin, tích hợp dữ liệu và tự động hóa các công việc.
Những tính năng nổi bật của web ngữ nghĩa so với web hiện tại:
- Thông tin trên Web được máy tính hiểu: Các thông tin trên Web được tổ
chức bao gồm các quan niệm về khái niệm và bổ sung quan hệ dưới dạng
mà máy tính có thể hiểu được. Vì vậy, việc xử lý, tìm kiếm, đánh giá, tích
hợp thông tin có thể được tiến hành một cách tự động.
- Tối ưu hóa việc tìm kiếm thông tin: Với công nghệ web ngữ nghĩa, máy
tính có thể xác định một thực thể có thuộc tính và quan hệ dựa trên ngữ
cảnh chứa nó. Do đó, thu hẹp không gian tìm kiếm, cho kết quả nhanh
chóng và chính xác hơn.
- Công nghệ Web có khả năng suy luận thông minh: Dựa vào các luật suy
diễn trên cơ sở tri thức về các lớp, các thực thể, các thuộc tính và mối quan
hệ mà máy tính có khả năng đưa ra những kết luận mới.
- Cách liên kết dữ liệu là cách liên kết động: Thay thế cách liên kết sử dụng
hyperlink tĩnh trong Web 2.0, Web ngữ nghĩa liên kết bằng siêu dữ liệu từ
nhiều nguồn khác nhau một cách hiệu quả hơn dựa trên định danh của tài
nguyên- Uniform Resource Identifier (URI) và mối quan hệ giữa chúng.
- Với công nghệ web ngữ nghĩa: Các tuy vấn từ người dùng được máy tính
hiểu và xử lí nhanh chóng, chính xác đưa ra kết quả tối ưu nhất.
13

1.1.2.

Siêu dữ liệu (Metadata)

Một trong những nền tảng cơ bản làm nên web ngữ nghĩa đó là siêu dữ
liệu. Siêu dữ liệu còn gọi là dữ liệu về dữ liệu, nó dùng để mô tả tài nguyên thông
tin. Mỗi thực thể hay khái niệm có thể có một hay nhiều siêu dữ liệu. Cho ví dụ,
một cuốn sách có [tên tác giả], [tóm tắt], [ngày giờ tạo lập], ... là các siêu dữ liệu
cuốn sách đó. Sử dụng siêu dữ liệu giúp cho việc phân loại và truy vấn dữ liệu
nhanh chóng và dễ dàng hơn.
Các siêu dữ liệu và các tài nguyên thông tin mà nó mô tả có mối liên hệ
được thể hiện ở một trong hai cách sau:
 Trong siêu dữ liệu, các phần tử được chứa trong một biểu ghi tách biệt
bên ngoài đối tượng mô tả.
 Các siêu dữ liệu có thể được nhúng vào bên trong thông tin mà nó mô
tả.
Siêu dữ liệu của các tài nguyên trong thư viện số được nhúng trong bản
thân tài nguyên hoặc liên kết với tài nguyên mà nó mô tả như trong các thẻ của tài
liệu HTML.
* Lược đồ siêu dữ liệu (Metadata scheme)
Lược đồ siêu dữ liệu là tập hợp những yếu tố siêu dữ liệu được thiết
kế để mô tả một dạng tài nguyên với thông tin cụ thể. Ngoài ra, siêu dữ liệu
là sơ đồ hình thức được xác định để mô tả tài nguyên thông tin cho đối
tượng số. Cho ví dụ tập hợp yếu tố siêu dữ liệu Dublin Core có lược đồ bao
gồm 15 yếu tố cơ bản để mô tả tài nguyên thông tin.
1.1.3.

Ontology

Nhiều định nghĩa về ontology xuất hiện trong thập kỷ trước nhưng có
lẽ định nghĩa mô tả rõ nhất bản chất của ontology là: “An ontology is a
formal, explicit specification of a shared conceptualization.” (Một ontology
là một hình thức, đặc tả rõ ràng khái niệm hoá chia sẻ). Trong ngữ cảnh
này, conceptualization (khái niệm hoá) đề cập đến một mô hình trừu tượng
của một vài hiện tượng trong thế giới thực dùng để nhận dạng các khái
niệm liên quan đến hiện tượng đó. Explicit (rõ ràng) có nghĩa là loại khái
14

niệm được sử dụng và các ràng buộc khi sử dụng nó được xác định một
cách rõ ràng, và formal (hình thức) có nghĩa là máy tính có thể nhận biết
được ontology.
Các lĩnh vực ứng dụng ontology
Có nhiều lĩnh vực ứng dụng ontology như: tích hợp thông tin thông
minh, các hệ thông thông tin cộng tác, phục hồi thông tin, thương mại đ iện
tử, quản lý tri thức và trong kỹ thuật tri thức, xử lý ngôn ngữ tự nhiên, và
biểu diễn tri thức, E-learning, Web Portals Search engines, Các ứng dụng
Metadata-driven, Rút trích thông tin, Data Text Web Mining, Information
brokering.
1.1.4.

Ontology và Semantic Web

Hiện tại, các ontology đã ứng dụng vào World Wide Web tạo ra Semantic
Web. Các cấu trúc ở mức khái niệm dùng xác định một ontology cơ sở cung cấp
chìa khoá giúp máy tính có thể xử lý được dữ liệu trên Semantic Web. Các
ontology phục vụ như các giản đồ siêu dữ liệu, cung cấp khái niệm về từ vựng có
thể kiểm soát được, mỗi ontology được xác định rõ ràng để máy tính có thể, nhận
biết và xử lý được ngữ nghĩa. Bằng cách xác định các nguyên lý trên lĩnh vực

chia sẻ và thông thường, các ontology giúp cho người và máy thông tin một cách
chính xác - hỗ trợ việc trao đổi ngữ nghĩa chứ không chỉ cú pháp. Vì vậy sự thành
công và phát triển của Semantic Web phụ thuộc vào việc cấu trúc các ontology
trên lĩnh vực đặc trưng một cách nhanh chóng và ít tốn kém.
1.2.

Các tầng kiến trúc Web ngữ nghĩa
Kiến trúc tổng quát của Web ngữ nghĩa do tổ chức W3C đề xuất có cơ sở hạ

tầng chặt chẽ với các tầng sau:

15

Hình 1.1. Các tầng kiến trúc web ngữ nghĩa
Tầng Unicode và IRI
Unicode: Bảo đảm việc sử dụng tập các kí tự quốc tế và cung cấp phương
tiện nhằm định danh các đối tượng trong Semantic Web.
URI: Là một chuỗi định danh web như các chuỗi bắt đầu bằng http hay ftp
Tầng XML
XML: Là một mở rộng của ngôn ngữ đánh dấu cho các cấu trúc tài liệu bất
kỳ, dựa theo chuẩn SGML do tổ chức ISO chuẩn hóa năm 1986. Một XML bao
gồm một tập các thẻ đóng và thẻ mở đuộc lồng vào nhau, ở đó mỗi một cặp thẻ có
một cặp các thuốc tính và giá trị. XML sẽ tiếp tục đóng một vai trò quan trọng
trong sự phát triển của Semantic Web.
Tầng RDF và RDFS

16

RDF: Là công cụ để mô tả thông tin về các tài nguyên cho Semantic Web
một cách linh động. Nó có thể được sử dụng để biểu diễn các thông tin như văn
hóa, đời sống, xã hội...
RDFS: Là một ngôn ngữ Otology cơ bản mô tả đối tượng như thuộc tính,
các lớp. Nó phát triển và mở rộng từ RSF, bổ sung thêm các tập từ vựng để hỗ trợ
cho việc xây dựng Ontology.
Tầng Ontology
Ontology: Là cấu trúc dữ liệu biểu diễn ngữ nghĩa nâng cao. Được phát
triển trên cở sở hạ tầng RDF và RDFS, một Ontology định nghĩa một bộ từ vựng
mang tính phổ biến và thông thường, có cho phép các nhà phát triển chia sẻ thông
tin trong một hay nhiều lĩnh vực.
Tầng Logic
Việc biểi diễn các tài nguyên dưới dạng các bộ từ vựng Ontology có mục
đích, là để máy có thể lập luận được mà cơ sở lập luận chủ yếu dựa vào logic.
Chính vì vậy mà các Ontology được ánh xạ sang logic, cụ thể là logic mô tả để có
thể hỗ trợ lập luận.
Tầng Proof
Tầng này sử dụng các luật của lớp trên (lớp Logic) để kiểm tra tính đúng đắn
của một suy diễn nào đó.
Tầng Trust
Tầng này sử dụng các ký hiệu số và các loại tri thức khác. Đây cũng là mức
cao nhất và là khái niệm cốt yếu để đảm bảo tính tin cậy của các ứng dụng trên
web ngữ nghĩa.
Tầng User Interface & Application
Đây là tầng cuối cùng của kiến trúc semantic web. Là tầng giao diện giao
tiếp với người sử dụng, nhận yêu cầu từ người dùng và đưa đến các tầng khác
cũng như hiển thị kết quả trả lại người dùng.
* Một số tầng trong mô hình kiến trúc của Semantic Web
Trong mô hình kiến trúc của Web ngữ nghĩa có 8 tầng, nhưng trong giới
hạn luận văn, tác giả tìm hiểu chi tiết một số tầng sau:

17

1.2.1. URI (Uniform Resource Identifier): Bộ nhận dạng tài nguyên
Bộ nhận dạng để nhận diện các mục trên trang Web. Vì chúng ta
dùng một hệ các bộ nhận dạng như nhau và vì mỗi mục được nhận dạng
được xác định như một tài nguyên (resource) nên chúng ta gọi các bộ nhận
diện này là các “Uniform Resource Identifiers” hay gọi tắt là URI. Chúng
ta có thể xem URI là bất kỳ vật gì, và vật đó có một bộ nhận dạng có thể
được diễn đạt trên Web: người, quyển sách, sự phân bố các dạng cây lấy
gỗ hay bất kỳ thứ gì khác có thể nghĩ đến ... tất cả chúng đều có thể có một
URI.
URI là nền tảng của Web, nó giữ các thành phần của Web lại với
nhau. Trong đó URL (Uniform Resource Locator). Một URL là một địa chỉ
cho của một trang Web, ví dụ như:
thieu/ Nếu click vào nó, có thể thấy rằng một URL sẽ bảo cho máy tính nơi
để tìm thấy một tài nguyên nào đó (trong trường hợp này là địa chỉ trang
Web Trung tâm Tin học). Không giống như hầu hết các dạng khác của
URI, một URL là cả định danh (identify) và định vị (locate).
Vì dữ liệu Web thì quá lớn đối với các tổ chức trong việc kiểm soát
nó nên các URI được phân quyền. Trong khi một vài lược đồ URI (như
http:) phụ thuộc vào các hệ tập trung thì các lược đồ khác (như freenet:)
hoàn toàn được phân quyền.
Điều này nghĩa là không cần sự cho phép của bất cứ người nào để tạo
một URI. Kể cả việc có thể tạo URI cho những vật mà không sở hữu.
Trong khi khả năng linh động này làm cho các URI có “sức mạnh” nhưng
nó cũng mang lại một số vấn đề. Bởi vì mọi người đều có thể tạo một URI,
cuối cùng chắc chắn chúng ta sẽ có nhiều URI biểu diễn cùng một vật nào
đó. Không có cách để thấy được là hai URI đề cập đến cùng tài nguyên. Vì
vậy chúng ta sẽ không bao giờ có thể nói một cách chính xác một URI đã

cho có ý nghĩa gì. Nhưng có cần phải tạo ra nó nếu chúng ta tạo một thứ gì
18

đó như Semantic Web.
Một cách phổ biến để tạo URI là bắt đầu với một trang Web. Trang
này mô tả đối tượng được nhận dạng và giải thích rằng URL của trang là
URI cho đối tượng đó. Ví dụ muốn tạo một URI cho bản sao "Weaving the
Web" của Tim Berners-Lee. Trước tiên tạo một trang Web mô tả bản sao.
Tiếp theo ghi nhận rằng trang mà URL cho trang đó dùng như UR I cho bản
sao

quyển

sách.

Làm

điều

này,

chúng

ta

đã

kết

hợp

URI

( với bản sao "Weaving the
Web". Việc tạo một URI chỉ làm đơn giản như vậy.
Trong thể hiện này URI (hltp://logicerror.com/myWeavingTheWeb)
đang thực hiện hai nhiệm vụ: nó biểu diễn cả quyển sách vật lý cũng như
trang Web mô tả nó.
Đây là một thực tế quan trọng cần hiểu rõ. Một URI không phải là
một tập các hướng dẫn chỉ cho máy tính làm thế nào để đến được một file
nào đó trên Web (dù nó cũng có thể làm được điều này). Nó là một tên
(name) cho một tài nguyên (resource). Tài nguyên này có thể hoặc không
thể truy cập được qua Internet. URI có thể hoặc không thể cung cấp cách
cho máy tính lấy thêm thông tin về tài nguyên đó. Một URL là một kiểu
của URI mà sẽ cung cấp cách để lấy thêm thông tin về tài nguyên, hoặc có
thể là cách để tự truy lục tài nguyên và các phương pháp khác để cung cấp
thông tin về các URI và những tài nguyên chúng nhận thấy là chưa phát
triển. Cũng chính xác khi nói rằng các URI là một thành phần quan trọng
của Semantic Web. Nhưng không nên cho rằng một URI có thể làm bất cứ
gì để cung cấp một bộ nhận dạng cho một tài nguyên.
1.2.2. Tầng XML (Extensible Markup Language)
XML (ngôn ngữ tạo cấu trúc dữ liệu văn bản) là một hệ thống các luật
dùng cho việc thiết kế cấu trúc dữ liệu dạng văn bản theo các khổ mẫu (format)
giúp máy tính có thể đọc và trao đổi dữ liệu được. Nó được thiết kế một cách
đơn giản dưới dạng cú pháp để gửi các tài liệu qua Web. Nó cho phép
19

người dùng thiết kế định dạng tài liệu của họ và sau đó viết một tài liệu

theo định dạng đó. Những định dạng tài liệu này có thể bao gồm định dạng
để tăng cường ý nghĩa của nội dung tài liệu. Nó là định dạng mà “máy có
thể đọc”, - định dạng các chương trình có thể đọc và hiểu chúng. Mục tiêu
của XML là việc đưa những thông tin có ý nghĩa mà máy có thể đọc vào
trong các tài nguyên của chúng ta, nó làm cho Web “mạnh mẽ” hơn nhiều.
Xét một văn bản XML mẫu. Với XML, bạn có thể đưa ý nghĩa vào
các thẻ trong văn bản. Quan trọng hơn, máy tính sẽ dễ dàng hơn trong việc
xử lý thông tin. Bạn có thể rút được “tên đường phố” ra từ văn bản này đơn
giản là bằng cách bao bọc nó bởi <duongpho> và </duongpho> các thẻ,
được biết một cách máy móc là phần tử <duongpho>.
<thongtinlienhe>
<diachi>
<sonha>123</sonha>
<duongpho>
Ngo Gia Tu
</duongpho>

Danglam
</Phuong>
<quan>
Hai An
</quan>
<thanhpho>
Hai Phong
</quan>
</diachi>
<Email>

</email>
</thongtinlienhe>

Có ba thuật ngữ chủ yếu dùng để miêu tả các phần của một văn bản
XML: Thẻ, phần tử, và thuộc tính. Đây là văn bản mẫu minh họa các thuật
ngữ:
<thongtinlienhe>
<diachi>
<sonha>123</sonha>
<duongpho>
Ngo Gia Tu
</duongpho>

20

Danglam
</Phuong>
<quan>
Hai An
</quan>
<thanhpho>
Hai Phong
</quan>
</diachi>
<Email>

</email>
</thongtinlienhe>

Thẻ: là phần chữ giữa dấu ngoặc đơn bên trái (<) và ngoặc đơn bên

phải

(>).

Có

thẻ

bắt

đầu

(như <duongpho>)

và

thẻ

kết

thúc

như </duongpho>)
Phần tử: được nằm trong <.. > (thẻ bắt đầu), </.. > (thẻ kết thúc), và
các thẻ giữa chúng. Trong mẫu trên, <diachi>, phần tử gồm có ba phần tử
con: <sonha>, <duongpho>, và , <quan>,<huyen>
Thuộc tính: là giá trị tên nằm trong thẻ của một phần tử. Trong mẫu
trên, duongpho là một thuộc tính của phần tử <thongtinlienhe>.
Ngôn ngữ XML đã làm thay đổi web theo các tiêu chí sau:
Việc trao đổi dữ liệu trên ngôn ngữ XML đơn giản hóa. Với XML, mỗi

người sẽ tạo nên một lợi ích riêng mà có thể chuyển đổi những định dạng dữ liệu
bên trong trở thành XML và ngược lại.
Mã hóa thông minh trong XML. Trong XML, những văn bản được tổ
chức để nhận dạng từng thông tin quan trọng (cũng như mối quan hệ giữa các
thông tin), có thể viết mã trên máy tính để XLM xử lí văn bản mà không cần con
người tác động. Hiện này việc mã hóa dựa trên XML đã được các nhà khoa học
về lĩnh vực này nghiên cứ và phát triển một cách hoàn thiện.
Giúp việc tìm kiếm thông minh. Hiện này công cụ tìm kiếm đã cải thiện rất
nhiều, tuy nhiên kết quả tìm kiếm theo từ khóa rất nhiều và không chính xác vẫn
phổ biến xảy ra. Nếu bạn đang tìm kiếm một ai đó mang tên “Hải” trong những
trang HTML, bạn sẽ tìm thấy một loạt các trang web về hải dương học, địa danh
21

Hải Phòng , Hàng Hải, và nhiều thứ vô dụng khác. Tìm kiếm văn bản XML
cho <first-name> các yếu tố chứa từ Hải sẽ mang lại cho bạn những kết quả tốt
hơn rất nhiều.
XML cho phép người dùng thêm các cấu trúc tùy ý cho các tài liệu của họ
nhưng nó không đề cập gì đến ý nghĩa của các cấu trúc. Tên các tag không cung
cấp ngữ nghĩa. Semantic Web chỉ dùng XML cho mục đích cú pháp.
1.2.3. Tầng RDF (Resource Description Framework)
Resource Description Framework (RDF) là Khung mô tả tài nguyên do tổ
chức World Wide Web (WWW) công bố, RDF là một tiêu chuẩn trao đổi dữ liệu
trên Web. Nó là một tập hợp các nguyên tắc dành cho XML, cung cấp mô hình
dữ liệu và cú pháp đơn giản sao cho các hệ thống độc lập có thể trao đổi và sử
dụng. Cấu trúc trong RDF được thiết kế sao cho hệ thống máy tính có thể hiểu
được và có thể đọc được thông tin, chứ không chỉ đơn giản là để trình bày dữ liệu
cho người dùng.
Mô hình cơ bản của RDF gồm có 3 đối tượng: Resource (tài nguyên),
Property (thuộc tính) và Statement (phát biểu).

Resource
(tài nguyên):

Property
(thuộc tính)

Statement
(phát biểu)

- Là một phạm trù rộng lớn - Là loại đặc biệt của - Một phát biểu xác
dùng để chỉ mội đối tượng trên tài nguyên, chúng mô định thuộc tính của tài
web như khái niệm, từ vựng, tả mối quan hệ giữa nguyên, là một bộ ba
thực thể, tính chất và các quan các tài nguyên…

gồm

hệ giữa các đối tượng.

Attribute

- Thuộc tính trong

- Mỗi tài nguyên luôn được RDF được xác định
định danh bởi URI, một URI có bởi URL
thể là một URL hoặc một địa
chỉ Web.
Bảng 1.1. Mô hình cơ bản RDF
* Đồ thị RDF
22

Object

–

– Value

(Đối tượng - Thuộc
tính - Giá trị)

Bộ ba trong mô hình RDF hợp lại tạo thành đồ thị RDF. Các nút trong đồ thị
có thể là các Subject và Object trong bộ ba và các cung trong đồ thị là Predicate.
Cho nên một bộ ba còn có thể được mô tả dưới dạng nút – cung – nút. Hướng của
các đồ thị rất quan trọng và nó luôn bắt đầu từ (Subject) chủ ngữ đến (Object) tân
ngữ.

Hình 1.2. Mối quan hệ giữa các thành phần của RDF
+ Chủ ngữ (Subject): Chủ ngữ là đối tượng mà phát biểu đề cập đến.
+ Vị ngữ (Predicate): Đó là những đặc trưng của chủ ngữ hay những thuộc
tính của chủ ngữ.
+ Tân ngữ (Object): Các giá trị của thuộc tính.
Lấy một ví dụ có phát biểu như sau:
“Giáo trình PowerPoint 2010 có tác giả là Trần Ngọc Thủy”
● Chủ ngữ là : Giáo trình PowerPoint 2010
● Vị ngữ là: có tác giả
● Tân ngữ là: Trần Ngọc Thủy
RDF định nghĩa ra một ngôn ngữ đánh dấu XML đặc biệt, được đề cập đến
như RDF/XML, để sử dụng trong việc biểu diễn thông tin RDF, và để trao đổi
thông tin giữa các máy. Cú pháp cơ bản của RDF/XML được biểu diễn như bảng
sau:

23

Bảng 1.2. Cú pháp cơ bản của RDF
1.2.4. Tầng RDFS (RDF Schema – Lƣợc đồ RDF)
Lược đồ RDF là một phần mở rộng ngữ nghĩa của RDF. Nó cung cấp
cơ chế cho việc mô tả các nhóm tài nguyên liên quan và các mối q uan hệ
giữa các nguồn lực này.
Lược đồ RDF là ngôn ngữ đơn giản nhất của Ontology nó cung cấp
khung để mô tả các lớp, thuộc tính của ứng dụng cụ thể. RDFS sử dụng các
phần tử để thực hiện phân chia các lớp và các lớp con, như: rdfs:Class và
rdfs:subClassOf.
Ví dụ: Xét lược đồ sau:
N là lớp con của lớp M
24

Ứng dụng web ngữ nghĩa xây dựng hệ thống tài nguyên số cho trung tâm tin học sở giáo dục hải phòng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về