Tải bản đầy đủ (.pdf) (85 trang)

Xây dựng ontology phục vụ tìm kiếm ngữ nghĩa động vật rừng trên địa bàn thành phố đà nẵng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.68 MB, 85 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

TRẦN XUÂN TRƢỜNG

XÂY DỰNG ONTOLOGY
PHỤC VỤ TÌM KIẾM NGỮ NGHĨA ĐỘNG VẬT RỪNG
TRÊN ĐỊA BÀN THÀNH PHỐ ĐÀ NẴNG

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng – Năm 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

TRẦN XUÂN TRƢỜNG

XÂY DỰNG ONTOLOGY
PHỤC VỤ TÌM KIẾM NGỮ NGHĨA ĐỘNG VẬT RỪNG
TRÊN ĐỊA BÀN THÀNH PHỐ ĐÀ NẴNG

Chuyên ngành: Hệ thống Thơng tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THƠNG TIN

Người hướng dẫn khoa học: TS. NGUYỄN TRẦN QUỐC VINH

Đà Nẵng – Năm 2016




LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự
hướng dẫn trực tiếp của thầy TS. Nguyễn Trần Quốc Vinh.
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và
trung thực tên tác giả, tên cơng trình, thời gian, địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi
xin chịu hoàn toàn trách nhiệm.
Người cam đoan

Trần Xuân Trƣờng


MỤC LỤC
MỞ ĐẦU .......................................................................................................... 1
1. Lý do chọn đề tài ................................................................................... 1
2. Mục tiêu nghiên cứu .............................................................................. 3
3. Đối tƣợng và phạm vi nghiên cứu ......................................................... 3
4. Phƣơng pháp nghiên cứu ....................................................................... 3
5. Ý nghĩa khoa học và thực tiễn ............................................................... 3
6. Bố cục đề tài........................................................................................... 4
7. Tổng quan tài liệu nghiên cứu ............................................................... 4
CHƢƠNG 1. NGHIÊN CỨU TỔNG QUAN................................................ 6
1.1. TỔNG QUAN VỀ WEB NGỮ NGHĨA .................................................... 6
1.1.1. Giới thiệu ......................................................................................... 6
1.1.2. Khái niệm ......................................................................................... 7
1.1.3. Nội dung xây dựng hệ thống web ngữ nghĩa ................................... 9
1.1.4. Kiến trúc phân tầng của web ngữ nghĩa ........................................ 11

1.2. RDF – NỀN TẢNG CỦA WEB NGỮ NGHĨA ...................................... 17
1.2.1. Khái niệm ....................................................................................... 17
1.2.2. Mơ hình RDF ................................................................................. 18
1.2.3. Đồ thị RDF..................................................................................... 19
1.2.4. Namespace ..................................................................................... 19
1.2.5. Literal ............................................................................................. 19
1.2.6. Kiểu dữ liệu có cấu trúc ................................................................. 20
1.2.7. RDFS (RDF Schema) .................................................................... 27
1.3. ONTOLOGY VÀ NGÔN NGỮ OWL .................................................... 27
1.3.1. Định nghĩa ontology ...................................................................... 27
1.3.2. Các lĩnh vực ứng dụng ontology.................................................... 28


1.3.3. Vai trò ontology và web ngữ nghĩa ............................................... 28
1.3.4. Các thành phần của ontology ......................................................... 29
1.3.5. Ngôn ngữ OWL ............................................................................. 30
1.3.6. Hệ truy vấn SPARQL .................................................................... 32
1.4. ĐỘNG VẬT RỪNG TRÊN ĐỊA BÀN THÀNH PHỐ ĐÀ NẴNG ....... 34
1.4.1. Giới thiệu ....................................................................................... 34
1.4.2. Cấu trúc, thành phần loài động vật ................................................ 34
1.4.3. Cấu trúc, thành phần loài con trùng ............................................... 36
1.5. MỘT SỐ NGHIÊN CỨU WEB NGỮ NGHĨA ĐÃ TRIỂN KHAI ........ 38
1.6. KẾT CHƢƠNG ....................................................................................... 39
CHƢƠNG 2. PHƢƠNG PHÁP VÀ PHẦN MỀM

XÂY DỰNG

ONTOLOGY ................................................................................................. 40
2.1. GIỚI THIỆU ............................................................................................ 40
2.2. PHƢƠNG PHÁP XÂY DỰNG ONTOLOGY ....................................... 40

2.3. QUY TRÌNH XÂY DỰNG ONTOLOGY CHO DỮ LIỆU ĐỘNG
VẬT RỪNG .................................................................................................... 44
2.4. MỘT SỐ PHẦN MỀM BIÊN TẬP ONTOLOGY .................................. 48
2.4.1. Phần mềm Sesame ......................................................................... 48
2.4.2. Phần mềm Jena .............................................................................. 50
2.4.3. Phần mềm Protégé ......................................................................... 50
2.5. KẾT CHƢƠNG ....................................................................................... 53
CHƢƠNG 3. XÂY DỰNG ONTOLOGY VÀ PHÁT TRIỂN ỨNG
DỤNG ............................................................................................................. 54
3.1. MÔ TẢ BÀI TOÁN ................................................................................. 54
3.2. ĐẶC TẢ DỮ LIỆU.................................................................................. 54
3.3. QUY TRÌNH XÂY DỰNG ONTOLOGY VÀ PHẦN MỀM ................ 57
3.4. XÂY DỰNG ONOTLOGY VÀ PHẦN MỀM ....................................... 58


3.4.1. Ontology động vật rừng ................................................................. 58
3.4.2. Phần mềm hỗ trợ khai thác và tìm kiếm ........................................ 65
3.5. KẾT CHƢƠNG ....................................................................................... 71
KẾT LUẬN VÀ KIẾN NGHỊ ...................................................................... 72
TÀI LIỆU THAM KHẢO
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao)


DANH MỤC CÁC TỪ VIẾT TẮT
CSDL

Cơ sở dữ liệu

DAML


DARPA Agent Markup Language

DARPA

Defense Advanced Research Projects Agency

DTD

Document Type Definition

FOAF

Friend Of A Friend

HTML

HyperText Markup Language

HTTP

Hypertext Transfer Protocol

IE

Information Extraction

IR

Information Retrieval


IRI

Internationalized Resource Identifier

JSP

JavaServer Pages

NLP

Natural Language Processing

OIL

Ontology Inference Layer

QA

Question Answering

RDF

Resource Description Framework

RDFS

Resource Description Framework Schema

SGML


Standard Generalized Markup Language

SOAP

Simple Object Access Protocol

SQL

Structured Query Language

URI

Uniform Resource Identifier

URL

Oxygen Uniform Resource Locator

W3C

World Wide Web Consortium

WWW

World Wide Web

XML

Extensible Markup Language


XMLS

Extensible Markup Language Schema


DANH MỤC CÁC BẢNG
Số hiệu

Tên bảng

bảng

Trang

1.1.

Phân bố thành phần loài động vật

35

1.2.

Phân bố 3 lớp động vật: thú, chim, bò sát

35

1.3.

Cấu trúc thành phần lồi của cơn trùng phổ biến ở Sơn
Trà


37

2.1.

Một số thuật ngữ về động vật

45

2.2.

Thuật ngữ về tập tính, sinh sản, thức ăn,…

46


DANH MỤC CÁC HÌNH

Số hiệu

Tên hình

hình
1.1.

Liên kết ngữ nghĩa giữa các nguồn khác nhau trong
Semantic Web

Trang


9

1.2.

Kiến trúc của Web ngữ nghĩa

11

1.3.

Đồ thị RDF

19

1.4.

Mô tả việc chia nhỏ giá trị một thuộc tính

21

1.5.

Sử dụng nút rỗng

22

2.1.

Lớp và phân cấp lớp động vật


47

2.2.

Thể hiện/ thực thể động vật

48

2.3.

Giao diện protégé 5.0

52

3.1.

Tình trạng và phân bố của khu hệ động vật Sơn Trà

55

3.2.

Sách Đỏ phần Động vật

56

3.3.

Website vncreatures.net


57

3.4.

Giao diện phần mềm hỗ trợ khai thác và tìm kiếm
ontology

58

3.5.

Giao diện chính ontology động vật

59

3.6.

Cây phân cấp lớp động vật

60

3.7.

Cây phân cấp các lớp Bộ phận cơ thể, Môi trƣờng
sống

61

3.8.


Cây phân cấp các lớp Phân bố, Thức ăn

61

3.9.

Thơng tin mơ tả cho lớp

62

3.10.

Thuộc tính chung của lớp. Ví dụ lớp Khỉ

62


Số hiệu

Tên hình

hình

Trang

3.11.

Mơ tả cho quan hệ các lớp

62


3.12.

Các thuộc tính của ontology động vật

63

3.13.

Thơng tin mơ tả của lồi khỉ vàng

64

3.14.

Xây dựng ontology cho loài Khỉ vàng

64

3.15.

Biểu diễn từ đồng nghĩa trong ontology

65

3.16.

Trang chủ phần mềm

67


3.17.

Chức năng thêm và xóa thuộc tính cho thể hiện

67

3.18.

Chức năng thêm lồi động vật

67

3.19.

Chức năng thêm lớp (Class)

68

3.20.

Chức năng lƣu nội dung đã chỉnh sửa

68

3.21.

Ơ nhập từ tìm kiếm

68


3.22.

Gợi ý tìm kiếm

69

3.23.

Kết quả tìm kiếm lồi Khỉ vàng

69

3.24.

Kết quả tìm kiếm lồi Chà vá chân nâu

70

3.25.

Tìm kiếm kết quả trên cây phân cấp

70


1

MỞ ĐẦU
1. Lý do chọn đề tài

Thành phố Đà Nẵng có lợi thế rất lớn về địa hình và đƣợc thiên nhiên
ban tặng cho nhiều sinh vật có giá trị, là một trong những thành phố hiếm có
trên thế giới về đa dạng sinh học, nơi hội tụ sự đa dạng các hệ sinh thái rừng,
biển và sông; với hơn 1.200km2 (kể cả huyện đảo Hồng Sa), diện tích rừng
chiếm gần 50%, đƣờng bờ biển 72km và trên 1.000ha diện tích lƣu vực sơng,
hồ và vùng trũng. Hệ động vật rừng của thành phố Đà Nẵng đặc trƣng cho
khu hệ động vật Nam Trƣờng Sơn với các loài Voọc vá, Khỉ đi dài, Chồn
dơi, Sóc vàng, Trĩ sao, Gà lơi và các loài thuộc khu hệ động vật Bắc Trƣờng
Sơn: Tê tê, Gà tiền, Khỉ vàng. Mặc dù sự phân bố lồi khơng đồng đều trong
các lớp động vật nhƣng thành phần thì đa dạng, đặc biệt là nguồn gen các loài
quý hiếm nhƣ: Gấu, Beo lửa, Mèo rừng, Cu ly, Vọoc vá Chân nâu, Trĩ sao,
Công, Gà tiền, Gà lơi lam, Mang Trƣờng Sơn và một số lồi bị sát, lƣỡng cƣ
[1], [9].
Hiện nay, việc điều tra, thống kê hệ động vật rừng của thành phố Đà
Nẵng đã đƣợc nhiều nhà khoa học, cơ quan, tổ chức thực hiện thơng qua các
chƣơng trình, dự án, các đề tài, nhƣ: Điều tra khu động – thực vật và nhân tố
ảnh hƣởng, đề xuất phƣơng án bảo tồn hợp lý khu bảo tồn thiên nhiên bán đảo
Sơn Trà [1], Báo cáo tài nguyên rừng thành phố Đà Nẵng [9], [14],… Tuy
nhiên, việc công bố các nội dung điều tra, thống kê đó trên internet để cá
nhân, tổ chức khác có nhu cầu tìm hiểu, tra cứu thì cịn nhiều hạn chế. Một số
website cung cấp thông tin về hệ động – thực vật của thành phố Đà Nẵng nhƣ:
website Sở Nông nghiệp và phát triển Nông thôn TP. Đà Nẵng [10], website
Văn phịng thuộc Ban chỉ đạo thành phố Ứng phó biến đổi khí hậu và nƣớc
biển dâng thành phố Đà Nẵng [7],… đều chủ yếu cung cấp tin tức, số liệu


2

thống kê sơ lƣợc, chƣa có website nào cung cấp chức năng tra cứu chuyên sâu
về hệ động - thực vật nói chung và động vật rừng nói riêng tại thành phố Đà

Nẵng.
Hiện nay, công nghệ web 2.0 đã đạt đƣợc những thành tựu rất đáng kể
trong việc nâng cao tính tƣơng tác cũng nhƣ đẩy nhanh tốc độ xử lý đáp ứng
yêu cầu của ngƣời dùng. Tuy nhiên trong xã hội thông tin đƣơng đại nhu cầu
của ngƣời dùng không dừng lại ở việc cải thiện tốc độ mà còn phải cải thiện
chất lƣợng xử lý của trang web theo yêu cầu ngày càng nâng cao. Web 3.0
(Semantic Web - Web ngữ nghĩa) ra đời nhằm đáp ứng những u cầu về chất
lƣợng đó. Với đặc điểm chính là nâng cao khả năng chia sẻ tài nguyên và tăng
―sự hiểu biết‖ trong quá trình xử lý dữ liệu của máy tính, Web ngữ nghĩa đã đi
sâu vào phân tích và định hƣớng dữ liệu, đồng thời hỗ trợ phát triển ứng dụng
Web ngữ nghĩa trên nhiều lĩnh vực khác nhau. Một trong những lĩnh vực thế
mạnh của Web ngữ nghĩa là xử lý và tìm kiếm thơng tin. Việc phân tích và
định hƣớng nội dung lƣu trữ cho phép chúng ta xây dựng những cơ sở dữ liệu
phục vụ tìm kiếm chính xác hơn, tinh gọn hơn.
Do đó, xây dựng cơng cụ để tìm kiếm ngữ nghĩa động vật rừng thành
phố Đà Nẵng là một nhu cầu cấp thiết, phù hợp với chủ trƣơng của Thành phố
trong việc bảo tồn đa dạng sinh học rừng với mục tiêu Thành phố môi trƣờng
mà Thành phố đã đề ra trong đề án "Xây dựng Đà Nẵng - Thành phố môi
trƣờng" [8].
Vậy, với những vấn đề đã nêu trên tôi đề xuất xây dựng đề tài “Xây
dựng ontology phục vụ tìm kiếm ngữ nghĩa động vật rừng trên địa bàn
thành phố Đà Nẵng” làm đề tài tốt nghiệp luận văn cao học. Trong đề tài
này, tôi nghiên cứu ứng dụng công nghệ Web ngữ nghĩa, đề xuất giải pháp và
xây dựng ontology dựa trên thông tin, dữ liệu về động vật rừng, từ đó xây
dựng ứng dụng hỗ trợ tìm kiếm ngữ nghĩa động vật rừng phân bố tại thành


3

phố Đà Nẵng một cách dễ dàng và tiện lợi, góp phần phổ biến rộng rãi thơng

tin về đa dạng sinh học của Thành phố.
2. Mục tiêu nghiên cứu
Xây dựng ontology cho dữ liệu động vật rừng tại thành phố Đà Nẵng;
Xây dựng ứng dụng tìm kiếm ngữ nghĩa cho dữ liệu động vật rừng;
Phổ biến thơng tin và góp phần bảo tồn đa dạng sinh học rừng của
thành phố Đà Nẵng.
3. Đối tƣợng và phạm vi nghiên cứu
Đối tượng nghiên cứu là các vấn đề liên quan đến web ngữ nghĩa,
phƣơng pháp xây dựng và lƣu trũ dữ liệu trong web ngữ nghĩa, nghiên cứu
ontology, RDF và OWL, dữ liệu động vật rừng tại thành phố Đà Nẵng.
Phạm vi nghiên cứu là dữ liệu động vật rừng phân bố trên địa bàn thành
phố, nghiên cứu về RDF, SPARQL, các ứng dụng biên tập ontology:
(Sesame, Jena, Protégé,…).
4. Phƣơng pháp nghiên cứu
Phương pháp lý thuyết: Tìm hiểu lý thuyết: Web ngữ nghĩa, ontology,
RDF. Tìm kiếm, tổng hợp dữ liệu động vật rừng trên địa bàn thành phố Đà
Nẵng. Nghiên cứu phƣơng pháp và phần mềm xây dựng web ngữ nghĩa.
Nghiên cứu xây dựng ontology cho dữ liệu động vật rừng.
Phương pháp thực nghiệm: Xây dựng ontology; Triển khai thực tế trên
internet.
5. Ý nghĩa khoa học và thực tiễn
Về mặt khoa học đề tài đóng góp phƣơng pháp xây dựng ontology về
dữ liệu động vật nói chung và dữ liệu động vật rừng trên địa bàn thành phố
Đà Nẵng nói riêng, ứng dụng semantic web về mặt tìm kiếm và vấn đề đa ngữ
trong ontology, một công cụ hỗ trợ khai thác, phát triển và tìm kiếm theo
cơng nghệ web ngữ nghĩa.


4


Về thực tiễn đề tài mở ra hƣớng nghiên cứu ứng dụng mới về tìm kiếm
dữ liệu các lồi động vật.
6. Bố cục đề tài
Luận văn đƣợc trình bày bao gồm các nội dung nhƣ sau :
Chương 1: Trong chƣơng này, tơi trình bày cơ sở lý thuyết về web ngữ
nghĩa, ngôn ngữ RDF, OWL và nêu khái niệm về ontology, đồng thời tơi giới
thiệu và trích dẫn tổng quan thông tin động vật rừng từ các nghiên cứu động
vật trên địa bàn thành phố Đà Nẵng.
Chương 2: Chƣơng này tơi tìm hiểu phƣơng pháp xây dựng ontology,
từ đó đƣa ra phƣơng pháp xây dựng ontology động vật rừng. Đồng thời, tơi
tìm hiểu các phần mềm ứng dụng trong việc biên tập và khai thác ontology.
Chương 3: Dựa trên những nghiên cứu, tìm hiểu ở chƣơng 2, tơi tiến
hành đặc tả dữ liệu động vật rừng, tiến hành xây dựng chi tiết ontology động
vật rừng và phát triển các chức năng của phần mềm hỗ trợ khai thác, tìm kiếm
động vật rừng thành phố Đà Nẵng.
Ngoài ra, để đánh giá tồn bộ q trình nghiên cứu, phần cuối của luận
văn có nêu lên kết quả và hƣớng phát triển cho đề tài.
7. Tổng quan tài liệu nghiên cứu
Để thực hiện luận văn này, tôi đã tổng hợp và tham khảo nhiều nguồn
tài liệu có liên quan, trong đó chú trọng nguồn tài liệu với 2 nội dung chính là:
tài liệu về thông tin, dữ liệu động vật rừng trên địa bàn thành phố Đà Nẵng và
tài liệu về phƣơng pháp xây dựng ontology và ứng dụng web ngữ nghĩa, trong
đó:
- Tài liệu về thông tin, dữ liệu động vật rừng trên địa bàn thành phố Đà
Nẵng gồm: Báo cáo tổng kết đề tài cấp Thành phố Đà Nẵng ―Điều tra khu
động – thực vật và nhân tố ảnh hƣởng, đề xuất phƣơng án bảo tồn hợp lý khu
bảo tồn thiên nhiên bán đảo Sơn Trà‖ [1]. Sử dụng nội dung, thông tin mô tả


5


chi tiết các loài động vật trong Sách đỏ Việt Nam [12], đồng thời tham khảo
trong các website có nguồn dữ liệu về động vật phong phú và chính xác,
thƣờng đƣợc các nhà nghiên cứu tham khảo nhƣ: vncreatures.net (Sinh vật
rừng Việt Nam) [17], wikipedia.org (Bách khoa toàn thƣ mở) để xây dựng
ontology động vật rừng.
Tài liệu về phƣơng pháp xây dựng ontology và ứng dụng web ngữ
nghĩa: tôi tham khảo ở các nghiên cứu trƣớc đây về phƣơng pháp xây dựng
ontology, các ứng dụng web ngữ nghĩa, từ các giáo trình, các luận văn và các
bài báo. Tơi tham khảo sách tiếng anh: What Is an Ontology?[13]
Ngoài sự hƣớng dẫn của TS. Nguyễn Trần Quốc Vinh (ngƣời hƣớng
dẫn khoa học), tơi cịn nhờ sự tƣ vấn của Thạc sĩ Nguyễn Văn Khánh, Trƣờng
Đại học Sƣ phạm, Đại học Đà Nẵng, nghiên cứu trong ngành sinh học, tôi
tham khảo để xác định các loài động vật rừng thuộc loại quý hiếm trên địa
bàn thành phố hoặc đã từng xuất hiện trên rừng thuộc địa bàn thành phố
những năm trƣớc đây để chọn minh họa xây dựng ontology.


6

CHƢƠNG 1

NGHIÊN CỨU TỔNG QUAN
1.1. TỔNG QUAN VỀ WEB NGỮ NGHĨA
Web 2.0 đã đạt đƣợc những thành tựu rất đáng kể trong việc nâng cao
tính tƣơng tác cũng nhƣ đẩy nhanh tốc độ xử lý đáp ứng yêu cầu của ngƣời
dùng. Tuy nhiên trong xã hội thông tin đƣơng đại nhu cầu của ngƣời dùng
không dừng lại ở việc cải thiện tốc độ mà còn phải cải thiện chất lƣợng xử lý
của trang web theo yêu cầu ngày càng nâng cao. Web 3.0 (Web Semantic) ra
đời nhằm đáp ứng những u cầu về chất lƣợng đó.

Với đặc điểm chính là nâng cao khả năng chia sẻ tài nguyên và tăng ―sự
hiểu biết‖ trong quá trình xử lý dữ liệu của máy tính. Web Semantic đã đi sâu
vào phân tích và định hƣớng dữ liệu, đồng thời hỗ trợ phát triển ứng dụng
Web Semantic trên nhiều lĩnh vực khác nhau. Một trong những lĩnh vực thế
mạnh của Web Semantic là xử lý và tìm kiếm thơng tin. Việc phân tích và
định hƣớng nội dung lƣu trữ cho phép chúng ta xây dựng những cơ sở dữ liệu
phục vụ tìm kiếm chính xác hơn, tinh gọn hơn [7].
1.1.1. Giới thiệu
Web ngữ nghĩa là sự mở rộng của Web hiện tại mà trong đó thơng tin
đƣợc định nghĩa rõ ràng sao cho con ngƣời và máy tính có thể cùng làm việc
với nhau một cách hiệu quả hơn. Mục tiêu của Web có ngữ nghĩa là để phát
triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu đƣợc
nhiều hơn thơng tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc khám
phá thơng tin, tích hợp dữ liệu (dữ liệu liên kết động), và tự động hóa các
công việc.
Semantic Web (Web ngữ nghĩa) là một mạng lƣới thông tin đƣợc kết
ghép trong một phƣơng pháp sao cho có thể xử lí dễ dàng bởi máy tính trên
sự cân bằng tồn diện. Bạn có thể nghĩ về nó giông nhƣ một phƣơng pháp


7

trình bày dữ liệu hiệu quả trên World Wide Web (www), hoặc nhƣ là một cơ
sở dữ liệu liên kết toàn diện.
Semantic Web là một ý tƣởng về việc dữ liệu trên Web đƣợc xác định
và liên kết với nhau theo cách mà nó có thể đƣợc sử dụng bởi máy tính khơng
chỉ cho mục đích thể hiện mà cịn cho mục đích tự động, tích hợp và tái sử
dụng dữ liệu thông qua nhiều ứng dụng khác nhau.
Semantic Web đƣợc nghĩ ra bởi Tim Berners-Lee, một nhà phát minh
ra WWW, URIs (Uniform Resource Identifier – Định dạng tài nguyên thống

nhất), HTTP (HyperText Transfer Protocol - Giao thức truyền tải siêu văn
bản) và HTML (HyperText Markup Language – Ngôn ngữ Đánh dấu Siêu
văn bản). ―Web ngữ nghĩa là sự mở rộng của Web hiện nay theo hƣớng mà
thông tin đƣợc xác định ngữ nghĩa rõ ràng, cho phép máy tính và con ngƣời
có thể làm việc cộng tác với nhau‖ - Tim Berners [4].
Semantic Web đƣợc xây dựng dựa trên cú pháp sử dụng URIs để biểu
diễn dữ liệu, luôn luôn trong bộ ba cấu trúc: tức là các bộ ba của dữ liệu URI
mà có thể đƣợc giữ lại trong cơ sở dữ liệu hoặc đƣợc trao đổi trong World
Wide Web dùng một tập những cú pháp đặc biệt đƣợc phát triển riêng cho tác
vụ nào đó. Cú pháp này đƣợc gọi là cú pháp RDF (Resource Description
Framework - Khung mô tả tài nguyên).
1.1.2. Khái niệm
Web ngữ nghĩa đƣợc phát triển bởi Tim- Berners Lee, cha đẻ của
WWW, URIs, HTTP và HTML. Theo Ông, „„Web ngữ nghĩa là sự mở rộng
của Web hiện tại, cho phép người dùng có thể truy tìm, phối hợp, sử dụng lại
và trích lọc thơng tin một cách dễ dàng và chính xác‟‟ [4].
Phân biệt web ngữ nghĩa với Web 2.0:
❖Web

2.0: lƣu trữ thông tin (store things)

• Trình

bày thơng tin;


8

• Tìm


kiếm chủ yếu dựa vào từ khóa;

• Thơng

tin khơng đồng bộ và nhanh chóng bị lạc hậu.

❖Web

ngữ nghĩa: thao tác trên thơng tin (does things)

• Trình

bày thơng tin nhƣng nội dung trang Web có thể đƣợc xử lý bởi

máy;
• Nội

dung của Web nói lên ngữ nghĩa của nó thơng qua các siêu dữ

liệu (metadata);
• Các
• Do

ontology đƣợc chia sẽ để có thể hiểu đƣợc ngữ nghĩa;

có thể hiểu đƣợc ngữ nghĩa nên các phần mềm agent có thể giao

tiếp, trao đổi thơng tin với nhau;
• Sử


dụng nhiều kỹ thuật của lĩnh vực trí tuệ nhân tạo;

• Tìm

kiếm chủ yếu dựa vào ngữ nghĩa.

Do có những cơng cụ tự động cập nhật nên thông tin luôn đƣợc đồng
bộ và kịp thời.
Một cách phân biệt khác:
• HTML:

Web trực quan (visual Web)

• XML:

Web theo cú pháp (syntactic Web)

• Logic:

Web theo ngữ nghĩa [7].

Ví dụ: Ta có thể tạo một liên kết ngữ nghĩa giữa cột mã quốc gia ‗zipcode‘ trong cơ sở dữ liệu (database) với trƣờng ‗zip‘ ở trên giao diện (form)
nhập liệu nếu chúng có chung ý nghĩa. Điều này cho phép máy tính theo các
đƣờng kết nối và tích hợp dữ liệu từ nhiều nguồn khác nhau. Ý tƣởng liên kết
các nguồn khác nhau (tài liệu, hình ảnh, con ngƣời, khái niệm,…) cho phép
chúng ta mở rộng Web thành một môi trƣờng mới với tập các mối quan hệ
mới giữa các nguồn dữ liệu, tạo ra các mối liên hệ ngữ cảnh (contextual
relationship), điều mà Web 2.0 chƣa làm đƣợc [16].



9

Hình 1.1. Liên kết ngữ nghĩa giữa các nguồn khác nhau trong Semantic Web
1.1.3. Nội dung xây dựng hệ thống web ngữ nghĩa
Để xây dựng hệ thống Web ngữ nghĩa thay thế cho World Wide Web
hiện tại, các nhà nghiên cứu đang nỗ lực và tập trung nghiên cứu với ba
hƣớng chính sau:
- Chuẩn hố các ngơn ngữ biểu diễn dữ liệu (XML) và siêu dữ liệu
(RDF) trên Web.
- Chuẩn hố các ngơn ngữ biểu diễn Ontology cho Web có ngữ nghĩa.
- Phát triển nâng cao Web có ngữ nghĩa (Semantic Web Advanced
Development- SWAD).
a. Chuẩn hố các ngơn ngữ biểu diễn dữ liệu (XML) và các siêu dữ
liệu (RDF) trên Web
Nhƣ chúng ta đã biết, World Wide Web đã rất thành công bởi ngôn ngữ
XML. XML đã làm cho công nghệ Web phát triển mạnh mẽ nhƣ hiện nay. Và
Web ngữ nghĩa đƣợc phát triển trên nền Web hiện tại, trên nền XML, chúng
ta có thể thấy rất rõ ngay trong sơ đồ kiến trúc của Web ngữ nghĩa. Web ngữ
nghĩa đƣợc bổ sung các chú thích ngữ nghĩa cho các tài nguyên Web, và W3C


10

đã giới thiệu RDF là chuẩn cú pháp để tạo, thay đổi và sử dụng chú thích
trong Web ngữ nghĩa. Do vậy việc xây dựng ngôn ngữ chuẩn cho XML và
RDF là thiết yếu để biểu diễn dữ liệu cho Web ngữ nghĩa. Trong q trình
này, đã có một số cú pháp đƣợc đƣa ra để biểu diễn RDF nhƣ: Notation 3
(hay N3), XML/RDF. Các cú pháp này hỗ trợ biểu diễn dữ liệu cho máy có
thể hiểu đƣợc.
b. Chuẩn hố các ngơn ngữ biểu diễn Ontology cho Web có ngữ

nghĩa
Ontology đóng vai trị then chốt trong việc cung cấp tài nguyên có thể
truy nhập để xử lý tự động bằng cách cung cấp bộ từ vựng cho việc đánh dấu
ngữ nghĩa của Web ngữ nghĩa. Để biểu diễn Ontology cho phát triển Web có
ngữ nghĩa cần thiết đƣa ra một ngôn ngữ chuẩn cho sự biểu diễn mềm dẻo,
linh hoạt và đa dạng của tài nguyên Web. Trong quá trình chuẩn hố ngơn
ngữ biểu diễn Ontology, một số ngơn ngữ đƣợc đề xuất với các khả năng biểu
diễn tăng dần nhƣ: RDFS, DAML+OIL, OWL,... và tiếp tục đƣợc mở rộng
trong tƣơng lai. Các ngơn ngữ này có khả năng biểu diễn tăng dần nhƣng
tƣơng ứng là khả năng quyết định giảm dần (độ phức tạp tăng dần). Và các
ngôn ngữ biểu diễn Ontology đƣợc xây dựng phải cân bằng đƣợc khả năng
biểu diễn và độ phức tạp tính tốn. Các ngôn ngữ này đƣợc xây dựng trên nền
các chuẩn XML, RDF, và thƣờng sử dụng cơ sở logic là logic mô tả để biểu
diễn ngữ nghĩa và hỗ trợ lập luận.
c. Phát triển nâng cao Web ngữ nghĩa (Semantic Web Advanced
Development - SWAD)
Các cơng việc chuẩn hố các ngơn ngữ biểu diễn dữ liệu XML, siêu dữ
liệu RDF hay ngôn ngữ biểu diễn Ontology là các công việc nền tảng, cơ sở
tạo ra chuẩn chung cơ sở để phát triển hệ thống và các ứng dụng trên Web
ngữ nghĩa. Việc đƣa các chuẩn đó thành các thể hiện, các sản phẩm của hệ


11

thống Web ngữ nghĩa là công việc của SWAD. SWAD thực hiện nghiên cứu
và đƣa ra các thể hiện của Web ngữ nghĩa trên cơng nghệ cơ sở và nó cũng bổ
sung, hồn thiện các cơng nghệ cơ sở này. Nó chỉ ra các cơng nghệ Web ngữ
nghĩa đƣợc sử dụng nhƣ thế nào? Mục tiêu cụ thể của SWAD là sử dụng các
công nghệ, kỹ thuật và các công cụ hiện có của Web ngữ nghĩa để tạo ra các
chƣơng trình vƣợt xa hơn tầm hiện có, phát triển các thể hiện thực tiễn và

cung cấp các công cụ và các chuẩn mới cho Web ngữ nghĩa. Để phát triển
SWAD hiện tại đã có một số dự án của các tổ chức thực hiện nghiên cứu và
phát triển nhƣ: SWAD-Europe, SWAD-DAML, SWAD-Simile, SWADOxygen. Hiện tại, ở Việt Nam, một dự án cấp Nhà nƣớc đang nghiên cứu thực
hiện trích rút tự động thông tin từ các trang Web về tin tức để xây dựng các
ontology cho lĩnh vực này nhằm "tiếp nhận" cơng nghệ Web ngữ nghĩa khi có
hệ thống mạng mới này [6].
1.1.4. Kiến trúc phân tầng của web ngữ nghĩa
Để có đƣợc những khả năng nhƣ đã đề cập ở phần trên, web ngữ nghĩa
cần có một hạ tầng chặt chẽ với nhiều lớp hỗ trợ. Dƣới đây là kiến trúc tổng
quát nhất của web ngữ nghĩa do tổ chức W3C đề xuất:

Hình 1.2. Kiến trúc của Web ngữ nghĩa


12

d. Unicode và định danh tài nguyên thống nhất
Tầng thấp nhất là tài nguyên (một đối tƣợng, một thực thể hay một khái
niệm, v.v...), chúng đƣợc mô tả bằng các định danh tài nguyên thống nhất Uniform Resource Identifier (URI). Mục đích của tầng này là xác định tính
duy nhất của mỗi tài nguyên. Một tài nguyên có duy nhất một URI, tập con
của URI là định vị tài nguyên thống nhất: Uniform Resource Locator (URL),
nó chứa phƣơng thức truy cập và vị trí của tài liệu trên mạng. Một tập con
khác của URI là tên tài nguyên thống nhất: Uniform Resource Name (URN),
cho phép xác định một tài nguyên mà không cần phải chứa địa chỉ và phƣơng
thức truy cập đến nó, ví dụ chỉ số ISBN là một URN. Việc sử dụng URI là rất
quan trọng, vì nó cho phép xây dựng một hệ thống phân tán, trong đó các tài
nguyên nằm ở nhiều nơi khác nhau trên mạng. Một biến thể khác của URI là
định danh tài nguyên đƣợc quốc tế hóa (Internationalized Resource Identifier
– IRI), nó cho phép sử đụng các kí tự Unicode trong định danh.
Để mã hóa các thơng tin, dữ liệu ta sử dụng chuẩn mã hóa Unicode, đây

là chuẩn thống nhất dùng để mã hóa các tập kí tự quốc tế. Nó cho phép tất cả
các ngôn ngữ của tất cả các nƣớc có thể đƣợc mã hóa thống nhất, tránh hiện
tƣợng mỗi quốc gia lại sử dụng một chuẩn mã hóa riêng, gây khó khăn cho
trao đổi dữ liệu.
e. Biểu diễn XML
Tầng tiếp theo là Ngôn ngữ đánh dấu mở rộng: Extensible Markup
Language (XML), nó đƣợc dùng để biểu diễn dữ liệu mà máy tính có thể hiểu
và xử lí dữ liệu đƣợc. XML là cơng nghệ chính và là chuẩn của web hiện tại
và trong tƣơng lai. Với XML, máy tính có thể tích hợp và tƣơng tác trao đổi
dữ liệu với nhau. XML cung cấp một phƣơng tiện dùng văn bản để mô tả
thông tin và áp dụng một cấu trúc kiểu cây cho thơng tin đó. Tại mức căn bản,
mọi thông tin đều thể hiện dƣới dạng văn bản, chen giữa là các thẻ đánh dấu


13

với nhiệm vụ ký hiệu sự phân chia thông tin thành một cấu trúc có thứ bậc
của các dữ liệu ký tự, các phần tử dùng để chứa dữ liệu và các thuộc tính của
các phần tử đó. Đơn vị cơ sở của XML là các ký tự theo định nghĩa của Bộ ký
tự toàn cầu (Universal Character Set). Các ký tự đƣợc kết hợp theo các tổ hợp
chuỗi hợp lệ để tạo thành một tài liệu XML. Tài liệu này gồm một hoặc nhiều
thực thể, mỗi thực thể thƣờng là một phần nào đó của các ký tự thuộc tài liệu,
đƣợc mã hóa dƣới dạng một chuỗi các bit và lƣu trữ trong một tệp văn bản.
Các tệp XML có thể dùng cho nhiều loại dữ liệu đa phƣơng tiện,
RFC3023 định nghĩa các loại "application/xml" và "text/xml", với ý rằng dữ
liệu đƣợc biểu diễn bằng XML mà khơng nói gì đến ngữ nghĩa của dữ liệu.
Bằng cách cho phép các tên dữ liệu, cấu trúc thứ bậc đƣợc phép, và ý
nghĩa của các phần tử và thuộc tính có tính chất mở và có thể đƣợc định nghĩa
bởi một lƣợc đồ tùy biến đƣợc (XML Scheme), XML cung cấp một cơ sở cú
pháp (Document Type Definition - DTD) cho việc tạo lập các ngôn ngữ đánh

dấu dựa XML theo u cầu. Cú pháp chung của các ngơn ngữ đó là cố định
— các tài liệu phải tuân theo các quy tắc chung của XML, bảo đảm rằng tất
cả các phần mềm hiểu XML ít ra cũng phải có khả năng đọc (phân tích cú
pháp) và hiểu bố cục tƣơng đối của thơng tin trong các tài liệu đó. Lƣợc đồ
chỉ bổ sung một tập các ràng buộc cho các quy tắc cú pháp. Các lƣợc đồ
thƣờng hạn chế tên của phần tử và thuộc tính và các cấu trúc thứ bậc đƣợc
phép, ví dụ, chỉ cho phép một phần tử tên 'ngày sinh' chứa một phần tử tên
'ngày' và một phần tử có tên 'tháng', mỗi phần tử phải chứa đúng một ký tự.
Có một khái niệm rất quan trọng trong XML là Không gian tên XML
(XML namespace). Không gian tên XML là cơ chế cho phép gom các tên
phân tử và thuộc tính vào một nhóm. Nó thƣờng xuyên đƣợc dùng để phối
hợp việc dùng tên phần tử (hay thuộc tính) từ nhiều nguồn khác nhau trong
một tài liệu XML, mà vẫn tránh đƣợc nguy cơ trùng tên. Một Không gian tên


14

là tập hợp các tên có thể dùng trong tài liệu XML, nhƣ tên các phần tử, thuộc
tính,..., nó gom các tên này vào các vùng riêng.
f. Trao đổi dữ liệu RDF
Cơ cấu mô tả tài nguyên - RDF đƣợc W3C giới thiệu để cung cấp một
cú pháp chuẩn để tạo, thay đổi và sử dụng các chú thích trong Web ngữ nghĩa.
Một mệnh đề RDF là một bộ ba có dạng: [chủ đề], [thuộc tính], [đối tƣợng].
Trong đó, [chủ đề] là tài nguyên mà đƣợc mô tả bằng [thuộc tính] và [đối
tƣợng]. [Thuộc tính] thể hiện mối quan hệ giữa [chủ đề] và [đối tƣợng]. Còn
[đối tƣợng] ở đây có thể là một tài nguyên hoặc một giá trị. Ba thành phần
trên trong RDF đều là các URI.
Ví dụ về biểu diễn RDF của siêu dữ liệu Dublin Core:
xmlns:rdf=" />xmlns:dc=" />

" /><dc:creator>Lƣơng Đỗ Long</dc:creator>
<dc:title>Các dang khao sát hàm số</dc:title>
<dc:description>Giơi thiêu các dang khao sát hàm số thƣơng hay găp
trong các kì thi đai hoc</dc:description>
<dc:date>2000-01-20</dc:date>
</rdf:Description>
</rdf:RDF>
g. Lược đồ RDF
Để xác định ra cấu trúc và ngữ nghĩa của RDF, ngôn ngữ lƣợc đồ RDF:
RDF Scheme (hay RDFS) đã đƣợc đề xuất. RDFS là một ngôn ngữ Bản thể
luận đơn giản của web ngữ nghĩa, đƣợc coi là một ngôn ngữ cơ sở của web


15

ngữ nghĩa. RDFS cung cấp một phƣơng tiện để đặc tả các từ vựng mơ tả tính
chất và quan hệ giữa các tài nguyên RDF, bao gồm:
- Định nghĩa các lớp tài nguyên;
- Định nghĩa các quan hệ giữa các lớp;
- Định nghĩa các loại thuộc tính mà các lớp trên có;
- Định nghĩa các mối quan hệ giữa các thuộc tính.

h. Bản thể luận
Đối với mỗi miền ứng dụng cụ thể, sẽ có một tập các khái niệm và các
mối quan hệ, ràng buộc giữa chúng tạo thành một bản thể luận. Một khái
niệm có thể là một lớp, một thuộc tính của một lớp hay bộ từ vựng sử dụng
trong miền ứng dụng đó. Bộ từ vựng bản thể luận đƣợc xây dựng trên cơ sở
tầng RDF và RDFS, cung cấp biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên
web và có khả năng hỗ trợ lập luận. Để xây dựng đƣợc các bộ từ vựng này,
ngƣời ta đã sử dụng các ngôn ngữ bản thể luận để biểu diễn chúng nhƣ:

RDFS, OIL, DAML, DAML+OIL, hay ngôn ngữ bản thể luận cho web
(OWL), ... Các ngôn ngữ này cung cấp khả năng biểu diễn và hỗ trợ lập luận
khác nhau và chúng dựa trên nền tảng là các ngôn ngữ logic mô tả tƣơng ứng
khác nhau.
Để cung cấp các luật suy diễn dựa trên các ngôn ngữ bản thể luận, một
số ngôn ngữ luật đang đƣợc phát triển và chuẩn hóa, chẳng hạn, ngơn ngữ Qui
tắc trao đổi định dạng (Rule Interchange Format RIF ).
Để truy vấn dữ liệu RDF trong một cơ sở tri thức, ngôn ngữ truy vấn
RDF: Simple Protocol and RDF Query Language - SPARQL đã đƣợc đề xuất.
Ngôn ngữ SPARQL là ngôn ngữ truy vấn tƣơng tự nhƣ ngơn ngữ truy vấn có
cấu trúc SQL dùng để thao tác với các hệ hệ quản trị CSDL quan hệ.
i. Tầng Logic
Việc biểu diễn các tài nguyên dƣới dạng các bộ từ vựng ontology có


×