Tải bản đầy đủ (.pdf) (88 trang)

Ứng dụng công nghệ web ngữ nghĩa xây dựng chương trình quản lý các công trình nghiên cứu khoa học và công nghệ tại tỉnh khánh hòa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.82 MB, 88 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NHA TRANG

NGUYỄN THỊ XUÂN PHƯƠNG

ỨNG DỤNG CÔNG NGHỆ WEB NGỮ NGHĨA XÂY DỰNG
CHƯƠNG TRÌNH QUẢN LÝ CÁC CƠNG TRÌNH
NGHIÊN CỨU KHOA HỌC VÀ CƠNG NGHỆ TẠI
TỈNH KHÁNH HỊA

LUẬN VĂN THẠC SĨ KHOA HỌC

KHÁNH HÒA – 2020


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NHA TRANG

NGUYỄN THỊ XUÂN PHƯƠNG

ỨNG DỤNG CÔNG NGHỆ WEB NGỮ NGHĨA XÂY DỰNG
CHƯƠNG TRÌNH QUẢN LÝ CÁC CƠNG TRÌNH
NGHIÊN CỨU KHOA HỌC VÀ CƠNG NGHỆ TẠI
TỈNH KHÁNH HỊA
LUẬN VĂN THẠC SĨ KHOA HỌC
Ngành:
Mã số:
Quyết định giao đề tài:
Quyết định thành lập HĐ:
Ngày bảo vệ:
Người hướng dẫn khoa học:


TS. PHẠM THỊ THU THÚY
Chủ tịch Hội đồng:
TS. NGUYỄN ĐỨC THUẦN
Phòng đào tạo sau đại học:

Cơng nghệ thơng tin
8480201
453/QĐ–ĐHNT ngày 05/5/2019
1523/QĐ-ĐHNT ngày 27/11/2019
23/12/2019

KHÁNH HỊA – 2020


LỜI CAM ĐOAN

Tôi xin cam đoan mọi kết quả của đề tài: “Ứng dụng công nghệ Web ngữ nghĩa
xây dựng chương trình quản lý các cơng trình nghiên cứu khoa học và cơng nghệ
tại tỉnh Khánh Hịa” là cơng trình nghiên cứu của cá nhân tôi và chưa từng được cơng
bố trong bất cứ cơng trình nghiên cứu khoa học nào khác cho đến thời điểm này. Kết
quả đề tài được thực hiện trên cơ sở nghiên cứu lý thuyết và sự hướng dẫn khoa học
của TS. Phạm Thị Thu Thúy. Các số liệu và hình ảnh là hồn tồn chính xác và nội
dung đề tài có tham khảo, sử dụng tài liệu, thông tin được đăng tải trên các bài báo, tạp
chí và các trang Web theo danh mục tài liệu của đề tài.
Nha Trang, ngày 07 tháng 01 năm 2020
Tác giả luận văn

Nguyễn Thị Xuân Phương

iii



LỜI CẢM ƠN

Trong suốt quảng thời gian thực hiện đề tài, tơi đã nhận được sự giúp đỡ của q
phịng ban trường Đại học Nha Trang, quý thầy cô trong Khoa Cơng nghệ thơng tin và
Phịng Sau đại học đã tạo điều kiện tốt nhất cho tơi được hồn thành đề tài. Đặc biệt là
sự hướng dẫn của TS. Phạm Thị Thu Thúy, người giảng viên đã hướng dẫn tận tình,
dành rất nhiều thời gian, lịng nhiệt huyết và động viên tơi rất nhiều để tơi hồn thành
tốt đề tài. Qua đây, tôi xin gửi lời cảm ơn sâu sắc đến sự giúp đỡ này.
Mặc dù tôi đã cố gắng hết sức hoàn thiện đề tài, tuy nhiên chắc chắn vẫn cịn
nhiều thiếu sót do khả năng cùng với kinh nghiệm bản thân cịn hạn chế. Tơi rất mong
nhận được sự góp ý q báu của q thầy cơ và các bạn nhằm giúp tơi bổ sung, hồn
thiện hơn trong q trình nghiên cứu tiếp theo sau này.
Cuối cùng tơi xin gửi lời cảm ơn chân thành đến gia đình, cơ quan và tất cả bạn
bè đã giúp đỡ, động viên tơi trong suốt q trình học tập và thực hiện đề tài.
Tôi xin chân thành cảm ơn!
Nha Trang, ngày 07 tháng 01 năm 2020
Tác giả luận văn

Nguyễn Thị Xuân Phương

iv


MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................... iii
LỜI CẢM ƠN ..................................................................................................................iv
MỤC LỤC.........................................................................................................................v
DANH MỤC CHỮ VIẾT TẮT ..................................................................................... vii

DANH MỤC CÁC HÌNH VẼ ...................................................................................... viii
TRÍCH YẾU LUẬN VĂN ............................................................................................... x
LỜI MỞ ĐẦU ...................................................................................................................1
CHƯƠNG 1: TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU ..................................4
1.1. Giới thiệu về Web ngữ nghĩa.....................................................................................4
1.1.1. Web ngữ nghĩa ........................................................................................................4
1.1.2. Kiến trúc Semantic Web .........................................................................................6
1.2. Các cơng trình nghiên cứu liên quan .......................................................................10
1.2.1. Các cơng trình nghiên cứu trong nước .................................................................10
1.2.2. Các cơng trình nghiên cứu ngồi nước.................................................................11
1.3. Một số hệ thống thư viện về Web ngữ nghĩa hiện nay ...........................................12
1.3.1. Các hệ thống ở Việt Nam .....................................................................................12
1.3.2. Các hệ thống ở nước ngồi ...................................................................................16
1.4. Các cơng nghệ và ngơn ngữ hỗ trợ ..........................................................................19
1.5. RDF nền tảng của Web ngữ nghĩa ..........................................................................20
1.6. RDFa ........................................................................................................................21
1.7. SPARQL ..................................................................................................................22
1.8. Tìm kiếm ngữ nghĩa .................................................................................................23
CHƯƠNG 2: ONTOLOGY VÀ NGÔN NGỮ OWL....................................................26
2.1. Sự cần thiết xây dựng Ontology ..............................................................................26
2.2. Khái quát về Ontology ............................................................................................. 26
2.2.1. Khái niệm ..............................................................................................................26
2.2.2. Vai trò của Ontology ............................................................................................ 27
2.2.3. Quy trình thiết kế, xây dựng Ontology ................................................................ 27
2.3. OWL [2] ...................................................................................................................30
2.3.1. Các đặc điểm của OWL ........................................................................................30
2.3.2. Các phiên bản của OWL.......................................................................................30

v



CHƯƠNG 3: PHÂN TÍCH THIẾT KẾ HỆ THỐNG VÀ XÂY DỰNG ONTOLOGY
.........................................................................................................................................32
3.1. Phân tích và thiết kế .................................................................................................32
3.1.1. Phân tích u cầu của hệ thống ............................................................................32
3.1.2. Mơ hình hóa u cầu............................................................................................. 32
3.1.2.1. Xác định các tác nhân ........................................................................................32
3.1.2.2. Biểu đồ trường hợp sử dụng của hệ thống ........................................................32
3.1.3. Mô tả một số biểu đồ hoạt động chính của hệ thống ...........................................36
3.2. Phân tích hướng tìm kiếm trong hệ thống ............................................................... 40
3.3. Quy trình nghiệp vụ tạo lập và quản lý Ontology ...................................................42
3.4. Suy diễn trên mơ hình Ontology .............................................................................44
3.5. Phương pháp nghiên cứu xây dựng Ontology hệ thống tra cứu các cơng trình
nghiên cứu KHCN của tỉnh Khánh Hịa .........................................................................45
3.5.1. Quy trình xây dựng ứng dụng...............................................................................45
3.5.2. Tổng hợp nguồn dữ liệu .......................................................................................45
CHƯƠNG 4: XÂY DỰNG VÀ THỬ NGHIỆM PHẦN MỀM ....................................57
4.1. Một số giao diện chính sử dụng của các cơng trình nghiên cứu khoa học và cơng
nghệ ở tỉnh Khánh Hòa ...................................................................................................57
4.2. Một số giao diện phần quản trị của các cơng trình nghiên cứu khoa học và cơng
nghệ ở tỉnh Khánh Hòa ...................................................................................................65
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...............................................75
5.1. Kết luận ....................................................................................................................75
5.2. Hướng phát triển ......................................................................................................76
TÀI LIỆU THAM KHẢO .............................................................................................. 77

vi


DANH MỤC CHỮ VIẾT TẮT

Tiếng Việt:
CSDL

Cơ sở dữ liệu

CNTT

Công nghệ thơng tin

CTNCKHCN

Cơng trình nghiên cứu khoa học và cơng nghệ

DASXTN

Dự án sản xuất thử nghiệm

KHCN

Khoa học công nghệ

Tiếng Anh:
Hyper Text Markup Langguage (Ngôn ngữ đánh dấu siêu văn
HTML

bản)
The Hypertext Transfer Protocol (Giao thức truyền tải siêu

HTTP


văn bản)
Web Ontology Language (Một ngôn ngữ đánh dấu dùng để

OWL

xuất bản và chia sẻ dữ liệu trên Internet thơng qua những mơ
hình dữ liệu gọi là Ontology)

RDF

Resource Description Framework (Khung mô tả tài nguyên)
Resource Description Framework Schema (Ngôn ngữ mô tả

RDFS

RDFa

bộ từ vựng trên các bộ ba RDF)
Resource Description Framework in Attributes (Đánh dấu dữ
liệu có cấu trúc)
SPARQL Protocol and RDF Query Language (Giao thức

SPARQL

SPARQL và Ngôn ngữ Truy vấn RDF )
Uniform Resource Identifier (Một chuỗi các ký tự dùng để

URI

xác định một tài nguyên)

World Wide Web Consortium (Tiêu chuẩn cho các hoạt

W3C

động diễn ra trên Internet)

XML

eXtensible Markup Language (Ngôn ngữ đánh dấu mở rộng)

URL

Universal Resourse Locator (Tham chiếu tài nguyên Internet)

vii


DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Một đề xuất nguồn gốc Web với CERN [9] ....................................................5
Hình 1.2. Sơ đồ phát triển tính thơng minh của dữ liệu [9] .............................................6
Hình 1.3. Mơ hình kiến trúc của Web ngữ nghĩa [9] .......................................................7
Hình 1.4. Biểu diễn ngữ nghĩa bằng đồ thị khái niệm .....................................................9
Hình 1.5. Trang thơng tin Semantic web VN-KIM .......................................................13
Hình 1.6. Thư viện số ngữ nghĩa của ViethanIT Library...............................................15
Hình 1.7. Giao diện tìm kiếm ngữ nghĩa cho hệ thống CSDLQG về TNMT ...............16
Hình 1.8. Trang tìm kiếm Swoogle Semant Web Search Engine ..................................17
Hình 1.9. Trang tìm kiếm Falcons ..................................................................................17
Hình 1.10. Trang tìm kiếm Swse. ...................................................................................18
Hình 1.11. Trang tìm kiếm Watson ................................................................................18
Hình 1.12. Đồ thị RDF ...................................................................................................20

Hình 1.13. Kiến trúc một máy tìm kiếm ngữ nghĩa [13] ...............................................25
Hình 2.1. Quy trình thiết kế, xây dựng Ontology ..........................................................28
Hình 2.2. Ngơn ngữ biểu diễn ontology OWL............................................................... 30
Hình 3.1. Biểu đồ trường hợp sử dụng (Quản trị) ..........................................................34
Hình 3.2. Biểu đồ trường hợp sử dụng (Người dùng nội bộ) ........................................35
Hình 3.3. Biểu đồ trường hợp sử dụng (Khách)............................................................. 35
Hình 3.4. Chức năng cập nhật nhiệm vụ KHCN............................................................ 36
Hình 3.5. Chức năng Đăng nhập của hệ thống............................................................... 37
Hình 3.6. Chức năng Xem thơng tin...............................................................................38
Hình 3.7. Chức năng tải File đính kèm ..........................................................................39
Hình 3.8. Chức năng tải Tìm kiếm thơng tin .................................................................40
Hình 3.9. Q trình tìm kiếm ngữ nghĩa ........................................................................41
Hình 3.10. Quy trình tạo lập và quản lý Ontology .........................................................42
Hình 3.11. Ontology các lớp CTNCKHCN ở tỉnh Khánh Hịa .....................................46
Hình 3.12. Lớp và phân lớp của Ontology CTNCKHCN ở tỉnh Khánh Hịa ...............50
Hình 3.13. Các thuộc tính của Ontology CTNCKHCN ở tỉnh Khánh Hịa...................52
Hình 3.14. Các ràng buộc của Ontology CTNCKHCN ở tỉnh Khánh Hịa ...................54
Hình 3.15. Các thực thể của Ontology CTNCKHCN ở tỉnh Khánh Hòa......................55

viii


Hình 3.16. Truy vấn tra cứu thơng tin trong Ontology CTNCKHCN ở tỉnh Khánh Hịa
.........................................................................................................................................56
Hình 4.1. Kiến trúc tổng thể của hệ thống......................................................................57
Hình 4.2. Giao diện trang chủ của hệ thống ...................................................................58
Hình 4.3. Trang chi tiết thơng tin của một nhiệm vụ KHCN ........................................59
Hình 4.4. Giao diện trên thiết bị di động và máy tính bảng của hệ thống các
CTNCKHCN tỉnh Khánh Hịa........................................................................................60
Hình 4.5. Giao diện tìm kiếm nâng cao của hệ thống các CTNCKHCN ......................61

Hình 4.6. Hiển thị kết quả tìm kiếm của hệ thống các CTNCKHCN............................ 63
Hình 4.7. Hiển thị chi tiết thông tin của một nhiệm vụ KHCN .....................................65
Hình 4.8. Giao diện đăng nhập xác minh tài khoản của hệ thống .................................65
Hình 4.9. Danh sách các file đính kèm của một nhiệm vụ KHCN ................................ 66
Hình 4.10. Giao diện trang chủ phần quản trị dành cho Admin ....................................66
Hình 4.11. Giao diện quản trị mục các nhiệm vụ KHCN ..............................................67
Hình 4.12. Tạo Ontology hệ thống các CTNCKHCN tỉnh Khánh Hịa ........................68
Hình 4.13. Giao diện thêm, xóa, sửa của hệ thống các CTNCKHCN...........................70
Hình 4.14. Phần mềm quản lý nhiệm vụ KHCN của Sở ...............................................74

ix


TRÍCH YẾU LUẬN VĂN

Luận văn “Ứng dụng cơng nghệ Web ngữ nghĩa xây dựng chương trình quản
lý các cơng trình nghiên cứu khoa học và công nghệ tại tỉnh Khánh Hòa” đã nghiên
cứu một cách tổng quan về Web ngữ nghĩa, nghiên cứu Ontology và những lý thuyết
có liên quan để có thể hỗ trợ trong việc xây dựng Ontology về hệ thống tra cứu, thống
kê các cơng trình nghiên cứu khoa học và cơng nghệ tại tỉnh Khánh Hịa. Luận văn đi
sâu vào việc tìm hiểu ngơn ngữ OWL và truy vấn SPARQL xây dựng phần mềm tìm
kiếm ngữ nghĩa cho hệ thống CSDL về các cơng trình nghiên cứu khoa học và cơng
nghệ tại tỉnh Khánh Hịa. Luận văn đã xây dựng được một chương trình hệ thống mơ
phỏng cơng cụ tìm kiếm thơng tin về các cơng trình nghiên cứu khoa học và cơng nghệ
tại tỉnh Khánh Hòa đầy đủ các chức năng của một Website cần có nhưng Ontology
chưa thật sự đầy đủ nên một số nội dung ngữ nghĩa biểu diễn chưa được, chưa xử lý
được ngơn ngữ tự nhiên.
Từ khóa: Web ngữ nghĩa; các cơng trình nghiên cứu khoa học và cơng nghệ;
Ontology.


x


LỜI MỞ ĐẦU
Hiện nay số lượng người sử dụng Internet tăng nhanh, số lượng các trang Web
phát triển theo cấp số mũ cùng với lượng thông tin khổng lồ ngày một gia tăng dẫn đến
việc tìm kiếm, rút trích, duy trì và tạo ra thơng tin khơng sát với u cầu của người
dùng. Nội dung của các trang Web chỉ dành cho người sử dụng đọc chứ không cho
phép các chương trình máy tính có thể thao tác qua lại với nhau. Việc đưa các kết quả
nghiên cứu về trí tuệ nhân tạo, Web ngữ nghĩa, Ontology, xử lý ngôn ngữ tự nhiên, tìm
kiếm ngữ nghĩa vào ứng dụng trong thực tiễn có vai trị quan trọng, đem lại hiệu quả
ứng dụng công nghệ thông tin ngày càng cao, đặc biệt trong thời kỳ thế giới đang bước
vào cuộc cách mạng cơng nghiệp lần thứ 4.
Web có ngữ nghĩa đang là một chủ đề nghiên cứu nóng bỏng trên thế giới và là
một xu thế tất yếu để con người có thể quản lý và khai thác được một cách hiệu quả
kho tàng thông tin khổng lồ không ngừng phát triển trên Web. Không giống như công
nghệ Web thông thường, nội dung chỉ bao hàm các tài nguyên văn bản, liên kết, hình
ảnh, video mà Web ngữ nghĩa có thể bao gồm những tài nguyên thông tin trừu tượng
hơn như: địa điểm, con người, tổ chức … thậm chí là một sự kiện trong cuộc sống.
Những đặc điểm này khiến nội dung của Web ngữ nghĩa đa dạng hơn, chi tiết và đầy
đủ hơn. Với sự chặt chẽ này, người dùng dễ dàng hơn trong việc sử dụng và tìm kiếm
thơng tin.
Hiện nay, các cơng trình nghiên cứu khoa học và công nghệ đang được rất nhiều
người quan tâm. Việc tìm kiếm thơng tin về các các cơng trình nghiên cứu khoa học và
cơng nghệ vì thế cũng tăng lên rất nhiều. Sở Khoa học và Công nghệ tỉnh Khánh Hòa
là nơi đang lưu trữ hơn 300 kết quả nhiệm vụ khoa học và công nghệ thực hiện tại tỉnh
Khánh Hịa cùng với rất nhiều tài liệu về các cơng trình nghiên cứu trong và ngồi
nước. Nhận thấy rằng Web ngữ nghĩa có thể giải quyết được các vấn đề chưa làm
được như trên nên đề tài “Ứng dụng công nghệ Web ngữ nghĩa xây dựng chương
trình quản lý các cơng trình nghiên cứu khoa học và cơng nghệ tại tỉnh Khánh

Hịa” được triển khai.
Mục tiêu nghiên cứu
- Tìm hiểu về cơng nghệ Web ngữ nghĩa, tìm hiểu về các hệ thống hiện tại hỗ trợ
tìm kiếm và tra cứu các cơng trình nghiên cứu khoa học và cơng nghệ cùng với các tài
1


liệu, bài báo về khoa học và công nghệ trên cơ sở lý thuyết và ứng dụng kết quả đã có
về Web ngữ nghĩa.
- Nghiên cứu Ontology và những lý thuyết có liên quan để hỗ trợ trong việc xây
dựng ontology về hệ thống tra cứu, thống kê các công trình nghiên cứu khoa học và
cơng nghệ tại tỉnh Khánh Hịa. Từ đó đề xuất một hệ thống mới đáp ứng được nhu cầu
tìm kiếm, tra cứu, thống kê các cơng trình nghiên cứu cùng với các tài liệu, bài báo về
khoa học và cơng nghệ tại tỉnh Khánh Hịa phù hợp với quy trình hoạt động tại Sở
Khoa học và Cơng nghệ Khánh Hịa.
- Hướng đến xây dựng một Ontology đầy đủ về các nhiệm vụ khoa học và cơng
nghệ, từ đó xây dựng hồn chỉnh hệ thống mới ưu việt hơn các hệ thống hiện tại.
Đối tượng và phạm vi nghiên cứu
- Nghiên cứu tổng quan chung về Web ngữ nghĩa.
- Nghiên cứu ontology:
+ Các ngôn ngữ biểu diễn ontology như RDF/RDFS, OWL.
+ Tìm hiểu cơng cụ soạn thảo ontology: Protégé.
- Nghiên cứu ngôn ngữ truy vấn SPARQL.
- Nghiên cứu cách thức tạo, sử dụng các luật suy diễn cho OWL.
- Nghiên cứu bộ thư viện hỗ trợ quản lý ontology.
- Tạo được ontology về các cơng trình nghiên cứu khoa học và công nghệ, sử
dụng được ontology này để cài đặt ứng dụng tìm kiếm thơng tin về các cơng trình
nghiên cứu khoa học và cơng nghệ tại tỉnh Khánh Hịa.
- Tìm hiểu thơng tin về các cơng trình nghiên cứu khoa học và cơng nghệ trên
các trang Web, các bài báo khoa học trong và ngoài nước.

Phương pháp nghiên cứu
* Phương pháp lí thuyết:
- Tìm hiểu về ngôn ngữ ontology, cơ sở xây dựng Web ngữ nghĩa.
- Tìm hiểu về xử lí ngơn ngữ tự nhiên.

2


- Tìm hiểu về q trình xây dựng một cơng cụ Search Engine - Ứng dụng Web
ngữ nghĩa để xây dựng Website.
- Phương pháp xây dựng một Website tìm kiếm hồn chỉnh.
- Khảo sát thơng tin về các cơng trình nghiên cứu khoa học và cơng nghệ của tỉnh
Khánh Hịa. Phân tích thiết kế hệ thống tra cứu, thống kê các cơng trình nghiên cứu
khoa học và cơng nghệ tại Sở Khoa học và Cơng nghệ Khánh Hịa có ứng dụng công
nghệ Web ngữ nghĩa.
* Phương pháp thực nghiệm:
- Xây dựng ontology
- Xây dựng cơ sở dữ liệu
- Triển khai thực tế trên Internet
Ý nghĩa khoa học và thực tiễn
- Tìm hiểu và trình bày được các kiến thức về Web ngữ nghĩa.
- Một cơ sở dữ liệu và phương pháp xây dựng Ontology về các cơng trình nghiên
cứu khoa học và cơng nghệ trên địa bàn tỉnh Khánh Hịa
- Xây dựng và triển khai trên môi trường Internet hệ thống quản lý các cơng trình
nghiên cứu khoa học và cơng nghệ trên địa bàn tỉnh Khánh Hịa.

3


CHƯƠNG 1: TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU

1.1. Giới thiệu về Web ngữ nghĩa
1.1.1. Web ngữ nghĩa
Theo Tim Berners-Lee, các nguyên lý chính của Web ngữ nghĩa là:
- Mọi thứ đều có thể được định danh bởi URI: Các URI bảo đảm rằng mỗi khái
niệm không chỉ là các từ trong một tài liệu mà còn được ràng buộc với một định nghĩa
riêng biệt mà ai cũng có thể tìm thấy trên Web. Các URL của Web hiện tại là một
trường hợp riêng và phổ biến của URI.
- Các tài nguyên và mối liên kết có thể có kiểu loại: Web hiện tại bao gồm các tài
nguyên và mối liên kết giữa chúng, tuy nhiên máy tính khơng hiểu được kiểu loại của
các tài nguyên và mối liên kết đó là gì. Ví dụ, giả sử có một URL của một người liên
kết với một URL của một quyển sách do người đó viết. Tuy nhiên máy tính không
hiểu được đối tượng của URL đầu là một “con người”, đối tượng của URL sau là một
“quyển sách”, và loại của mối liên kết là “tác giả của”.
- Chấp nhận thông tin không đầy đủ: Cũng như Web hiện tại, Web ngữ nghĩa
không bị giới hạn, tức là một tài nguyên có thể liên kết với một tài nguyên bất kỳ khác
bất chấp tài ngun đó cịn tồn tại hay không. Tuy nhiên, trong trường hợp như vậy,
khi truy cập đến tài nguyên được liên kết đó, Web hiện tại sẽ báo lỗi “404 File Not
Found”. Ở Web ngữ nghĩa, các tính tốn suy luận vẫn được tiến hành để dẫn ra kết
luận mặc dù một số mối liên kết đã bị mất.
- Không cần sự thật tuyệt đối: Không phải tất cả mọi thông tin trên Web đều là sự
thật, và sự đúng đắn của chúng được đánh giá bởi từng ứng dụng cụ thể xử lý thông tin
đó. Web ngữ nghĩa vì vậy phải có khả năng suy luận với các thơng tin khơng chắc
chắn, khơng chính xác, và có thể mâu thuẫn nữa. Theo Tim Berners-Lee, logic cổ điển
không làm được điều này, mà cần đến logic mờ (Fuzzy Logic).
- Hỗ trợ sự tiến hoá: Các khái niệm tương tự nhau thường được định nghĩa bởi
nhiều nhóm người khác nhau, ở những nơi khác nhau, hoặc bởi cùng một nhóm người
nhưng ở những thời điểm khác nhau. Web ngữ nghĩa vì vậy cần cho phép việc mở
rộng và kết hợp các công việc độc lập sử dụng các từ vựng khác nhau, cũng như việc
thêm thông tin mới mà không luôn buộc phải sửa đổi thông tin cũ.


4


- Thiết kế tối thiểu: Để có thể chia sẻ và tích hợp thơng tin, Web ngữ nghĩa cần
có những ngơn ngữ hay hệ thống được chuẩn hố. Tuy nhiên các tiêu chuẩn này phải
là tối thiểu để không ràng buộc quá nhiều việc phát triển các ứng dụng trên đó[9].
Tim Berners-Lee đã đưa ra hai vấn đề của Web ngữ nghĩa: thứ nhất là tạo cho
Web một môi trường cộng tác tốt hơn và thứ hai là máy có thể hiểu và xử lý tự động
các thông tin trên Web. Hình 1.1 biểu diễn cái nhìn bản chất nguồn gốc Web của Tim
Berners-Lee. Nhưng trong hình này, có các mối quan hệ giữa các thông tin như:
"includes", "describes", "rote", đây là các mối quan hệ giữa các tài nguyên mà trong
Web hiện tại khơng có. Và chính các quan hệ này đưa vào Web ngữ nghĩa là cần thiết,
để máy có thể hiểu và xử lý thơng tin tự động trên Web. Các quan hệ này được gọi là
các siêu dữ liệu. Cơng nghệ để có được các siêu dữ liệu này là cơng nghệ RDF
(Resource Description Framework)

1Hình 1.1. Một đề xuất nguồn gốc Web với CERN [9]
(CERN - Hội đồng Châu Âu nghiên cứu hạt nhân)

Để có thể tạo ra Web có dữ liệu mà máy có thể xử lý được, trước hết phải thay
đối mơ hình trong cách chúng ta nghĩ về dữ liệu. Con đường để máy có thể xử lý dữ

5


liệu chủ yếu là tạo ra dữ liệu thông minh hơn chứ khơng phải là các xử lý thơng minh.
Hình 1.2 mơ tả sự phát triển tính thơng minh của dữ liệu theo thời gian.

2Hình 1.2. Sơ đồ phát triển tính thơng minh của dữ liệu [9]
Trong hình 1.2 cho ta thấy sự phát triển liên tục của tính thơng minh dữ liệu có

bốn bậc quan trọng. Bốn bậc này được biểu diễn từ dữ liệu có tính thơng minh thấp
nhất đến dữ liệu đã có thơng tin đủ ngữ nghĩa để máy thực hiện suy luận về nó.
1.1.2. Kiến trúc Semantic Web
Theo tổ chức W3C: “Web ngữ nghĩa cung cấp khung chung cho phép chia sẻ và
sử dụng lại dữ liệu giữa các ứng dụng, các tổ chức và các cộng đồng khác nhau”. Khái
niệm “Web nghĩa nghĩa” đôi khi cịn được gọi là “Web 3.0”. Cơng nghệ Web ngữ
nghĩa là tập hợp các chuẩn công nghệ của W3C, OGC giúp cho việc thiết kế, thực thi
và cài đặt để xây dựng Ontology.

6


3Hình 1.3. Mơ hình kiến trúc của Web ngữ nghĩa [9]
Hình 1.3 mơ tả khung kiến trúc của web ngữ nghĩa được chia thành nhiều tầng
khác nhau. Tầng dưới cùng là URI và Unicode thể hiện các đặc trưng quan trọng của
WWW hiện nay. Unicode là chuẩn mã hóa ký tự quốc tế và URI là chuẩn định danh tài
nguyên thống nhất cho phép xác định tài nguyên một cách duy nhất. Tầng tiếp theo là
XML - ngôn ngữ đánh dấu mở rộng bao gồm không gian tên XML (XML namespace)
và lược đồ XML (XML schema) là chuẩn cấu trúc chung được sử dụng cho web ngữ
nghĩa. Định dạng biểu diễn dữ liệu cốt lõi của web ngữ nghĩa là chuẩn khung mô tả tài
nguyên (RDF). RDF là khung mô tả các thông tin về tài nguyên dưới dạng đồ thị. Tất
cả dữ liệu trong hệ thống Web ngữ nghĩa đều sử dụng RDF như là một ngôn ngữ biểu
diễn chính. Ontology được tạo và mơ tả chi tiết bằng ngơn ngữ ontology web (OWL).
OWL là ngơn ngữ có nguồn gốc từ logic mô tả (Description Logics - DL) và đưa ra
nhiều cấu trúc hơn RDFS và được chia ra thành 03 chuẩn: OWL Lite được dùng cho
phân loại và các ràng buộc đơn giản; OWL DL hỗ trợ đầy đủ logic mô tả và OWL Full
hỗ trợ tối đa cho RDF. Để thực hiện truy vấn với dữ liệu RDF cũng như RDFS và
ontology OWL, sử dụng ngôn ngữ truy vấn RDF và giao thức đơn giản (SPARQL).
SPARQL là ngôn ngữ truy vấn tựa như ngôn ngữ truy vấn SQL nhưng sử dụng các bộ
ba và tài nguyên RDF để so khớp với câu truy vấn và trả về kết quả, do đó SPARQL

7


có thể được sử dụng để thực hiện truy vấn trực tiếp trên ontology và cơ sở tri thức.
SPARQL không chỉ là một ngơn ngữ truy vấn mà nó cịn là một giao thức truy cập dữ
liệu RDF.
Với kiến trúc mô tả ở trên, các hoạt động nghiên cứu về Web ngữ nghĩa tập trung
vào ba hướng chính sau đây:
- Chuẩn hố các ngơn ngữ biểu diễn dữ liệu (XML) và siêu dữ liệu (RDF) trên
Web: Nhóm làm việc RDFCore, bao gồm các thành viên từ nhiều trường và công ty
khác nhau trên thế giới, của tổ chức World Wide Web Consortium (W3C) chủ trì cơng
việc này. Mục tiêu chính của nhóm là nghiên cứu cải thiện và chuẩn hố từng thành
phần trong các ngôn ngữ XML và RDF, dựa trên các ý kiến phản hồi từ những người
hiện thực. Đến nay, nhóm đã hồn tất các khái niệm RDF và mơ hình dữ liệu trừu
tượng, đặc tả cú pháp RDF/XML, lược đồ RDF và ngữ nghĩa RDF.
- Chuẩn hoá các ngôn ngữ biểu diễn Ontology cho Web ngữ nghĩa: Nhóm
WebOnt của W3C chủ trì cơng việc này. Mục tiêu của nhóm là dựa trên và mở rộng
các lược đồ RDF để có thể biểu diễn các quan hệ phức tạp hơn giữa các đối tượng. Dự
án DAML+OIL, kết hợp của dự án DAML ở Trường Đại học Stanford, Mỹ, và dự án
OIL của Trường Đại học Vrije, Hà Lan, đã khởi động cho hướng nghiên cứu này.
Nhóm đã hồn tất phiên bản đầu tiên của ngôn ngữ OWL (Web Ontology Language).
- Phát triển nâng cao Web ngữ nghĩa (Semantic Web Advanced Development SWAD): Hướng này nhằm để nghiên cứu thực hiện các dự án phát triển thêm các
thành phần cơ sở hạ tầng cho Web có ngữ nghĩa, cụ thể như tạo các công cụ cho người
phát triển hệ thống, rút trích thơng tin và chú thích ngữ nghĩa một cách tự động, suy
diễn và chứng minh luận lý, tích hợp Ontology và chia sẻ thơng tin, ... Hiện tại hai dự
án SWAD tiêu biểu có quy mơ lớn và mang tính dài hạn là SWAD-Europe và SWAD
Oxygen. SWAD-Europe bao gồm 15 gói cơng việc khác nhau nghiên cứu những vấn
đề như các dịch vụ Web có ngữ nghĩa, tích hợp thơng tin với cơng nghệ XML, các hệ
thống tin tưởng phân bố, ... Trong khi đó SWAD Oxygen ở Viện Công nghệ
Massachusetts, Mỹ, đang nghiên cứu kết hợp các cơng nghệ khác nhau về xử lý tiếng

nói, hình ảnh, chú thích ngữ nghĩa, ... để tạo ra một môi trường hợp tác tốt hơn giữa
người và máy.

8


Trong ba hướng nghiên cứu chính nói trên, hướng nghiên cứu thứ ba (Phát triển
nâng cao Web ngữ nghĩa - SWAD) được xem là hướng nghiên cứu thích hợp với hồn
cảnh và điều kiện của Việt Nam, vì chúng ta khó có thể cạnh tranh được với các nhóm
nghiên cứu lớn và uy tín cao trên thế giới trong việc đề nghị các ngôn ngữ chuẩn ở hai
hướng nghiên cứu cịn lại. Thêm vào đó, thực hiện hướng nghiên cứu thứ ba giúp
chúng ta có thể phát triển sớm được các ứng dụng thực tiễn của Web có ngữ nghĩa ở
Việt Nam. Trong SWAD, một vấn đề được các nhà khoa học quan tâm nhất và cũng là
nền tảng nhất của Web ngữ nghĩa là làm thế nào để nhúng ngữ nghĩa vào các tài liệu
Web, mà hiện nay được viết bằng ngơn ngữ tự nhiên và chỉ có con người mới đọc hiểu
được. Hơn nữa việc nhúng ngữ nghĩa này phải được thực hiện một cách tự động để có
thể chuyển đổi hàng tỷ các tài liệu Web đã có sẵn sang các tài liệu tương ứng cho Web
có ngữ nghĩa. Để giải quyết vấn đề trên, vấn đề đầu tiên là phải rút trích tự động ngữ
nghĩa của mỗi tài liệu Web rồi chú thích lại ngữ nghĩa này vào tài liệu đó. Hiện nay, có
hai cách tiếp cận chính tuỳ theo cấp độ ngữ nghĩa muốn đạt đến. Cách thứ nhất là rút
trích và chú thích ngữ nghĩa đầy đủ cho mỗi tài liệu Web, bao gồm các thực thể và
quan hệ giữa chúng được đề cập trong tài liệu. Cách thứ hai là chỉ rút trích và chú
thích ngữ nghĩa cho các thực thể có tên (Named Entity) trong tài liệu.

4Hình 1.4. Biểu diễn ngữ nghĩa bằng đồ thị khái niệm
Một ví dụ về cách thứ nhất là thông tin “Ngày 18-10, Hội nghị kết nối cung cầu
với các nhà cung cấp sản phẩm tại Khánh Hịa năm 2019 do Sở Cơng thương Khánh
Hịa và Bộ phận thu mua của Hệ thống Siêu thị Big C Việt Nam phối hợp tổ chức ”
(Báo điện tử Khánh Hịa, ngày 18/10/2019) có thể được biểu diễn bằng một đồ thị khái
niệm (Conceptual Graph) như trong Hình 1.4 hoặc ở dạng tương đương bằng văn bản

RDF. Hiện tại các tin tức trên Web cũng chỉ mới ở dạng văn bản thông thường để con
người đọc và nhiều khi người đọc gặp phải các thực thể có tên như “Siêu thị Big C”
9


trong ví dụ trên nhưng khơng biết rõ nó ở đâu hay các thơng tin liên quan đến nó như
thế nào. Một ví dụ khác là các quảng cáo của các cơng ty du lịch thường có nhiều thực
thể có tên như địa danh, thắng cảnh, nhân vật mà người đọc rất quan tâm và muốn biết
thêm chi tiết. Nếu có một hệ thống có khả năng rút trích và chú thích ngữ nghĩa tự
động cho các thực thể có tên trong những bản tin như vậy, thì bản tin sẽ chuyển tải
được nhiều thông tin đến người đọc hơn.
1.2. Các cơng trình nghiên cứu liên quan
1.2.1. Các cơng trình nghiên cứu trong nước
Internet ra đời đã mang lại nhiều hữu ích cho con người, đặc biệt là trong tìm
kiếm thơng tin. Tuy nhiên việc tìm tin trên mạng thường bị nhiễu và nhiều khi rất khó
lựa chọn được thơng tin cần thiết. Web ngữ nghĩa ra đời hy vọng sẽ sớm khắc phục
được những nhược điểm này, góp phần nâng cao hiệu quả của mạng tồn cầu trong
việc tìm và khai thác thông tin của người dùng. Ứng dụng công nghệ Web ngữ nghĩa
trong quản lý tài liệu điện tử đang được quan tâm nghiên cứu tại Việt Nam. Dưới đây
liệt kê một vài cơng trình nghiên cứu có liên quan:
- Đề tài của Lương Đỗ Long (2011) [3] và Trần Ngọc Đức (2012) [7] đều tập
trung trình bày về một ứng dụng điển hình và cụ thể nhất của Web ngữ nghĩa. Hai đề
tài đã xây dựng được một chương trình ứng dụng hồn chỉnh có thể minh họa cho lý
thuyết đã tìm hiểu được. Tuy nhiên, hai cơng trình nghiên cứu này mới chỉ dừng ở
mức bao quát về một ứng dụng thư viện số ngữ nghĩa, kế thừa từ mơ hình thư viện số
ngữ nghĩa đã đề cập. Ứng dụng cũng khơng có khả năng chú giải cho câu tiếng Việt,
cũng như việc tách từ tiếng Việt và phân tích cú pháp câu theo ngữ pháp tiếng Việt.
Nguyên nhân là do Ontology của ứng dụng còn hạn chế nên việc tìm kiếm chưa thể
mang lại kết quả chính xác và đầy đủ. Việc xử lý tiếng Việt còn hạn chế.
- Đề tài của Nguyễn Ngọc Phú (2013) [4] đã làm rõ được những nét đặc trưng,

ưu thế của Web ngữ nghĩa dựa trên việc tìm hiểu những ngơn ngữ, cơng cụ hỗ trợ lập
trình Web như: JSP, Jena, Protégé .... Đề tài đã xây dựng được một Ontology về cơng
trình nghiên cứu khoa học, xây dựng được một Web tìm kiếm cơng trình nghiên cứu
khoa học theo Semantic cơ bản. Hệ thống tra cứu, thống kê các cơng trình nghiên cứu
khoa học cho phép người dùng có thể tìm kiếm theo tên các cơng trình ở mức cơ bản
hoặc tìm kiếm nâng cao. Với việc sử dụng ngơn ngữ truy vấn SPARQL sẽ khơng tìm
theo dữ liệu thuần túy mà dựa trên dữ liệu có nghĩa, theo các phần tử đã được định
10


nghĩa trong RDF trước đó. Tuy nhiên Ontology chỉ dừng ở mức độ nhỏ, chưa thật sự
lớn và phong phú nên chưa được đầy đủ để đánh giá mức độ xử lý tìm kiếm chính xác
cũng như mức độ đáp ứng được bao nhiêu người dùng truy cập ứng dụng cùng một
lúc. Chức năng trích rút thuộc tính tự động này cịn đang được nghiên cứu và có nhiều
điểm chưa thống nhất trong các nghiên cứu khác nhau trên thế giới. do thời gian bị hạn
chế nên chức năng quản lý người dùng thơng minh vẫn chưa thể hồn thành. Việc cài
đặt hệ thống tìm kiếm cịn bị lỗi vẫn chưa hoạt động hiệu quả như thiết kế đưa ra và
cài đặt vẫn ở máy local, chưa triển khai lên một server trên Internet.
- Đề tài của Tơ Thị Thìn (2016) đã nghiên cứu cơng nghệ Web ngữ nghĩa, phân
tích hướng ứng dụng xây dựng thư viện quản lý tài nguyên số của Trung tâm Tin học
Hải Phòng dựa vào phần mềm mã nguồn mở Greenstone 3.07 [6]. Các tài nguyên của
trung tâm Tin học được quản lý và lưu trữ trên hệ thống, giúp người dùng có thể dễ
dàng tìm kiếm tài liệu nhanh chóng và hiệu quả theo ngữ cảnh. Tuy nhiên, các siêu dữ
liệu chưa được nhập đầy đủ cho các tài nguyên trong hệ thống, ảnh hưởng đến kết quả
truy vấn khi tìm kiếm thơng tin theo ngữ nghĩa. Bên cạnh đó, số lượng tài nguyên
trong bộ sưu tập cịn hạn chế vì vậy cần phải sưu tầm thêm các tài liệu từ nhiều nguồn
khác nhau để bộ sưu tập được đầy đủ phù hợp với các đối tượng tại Trung tâm Tin học
thuộc Sở giáo dục Hải Phịng.
* Tóm lại, các hướng nghiên cứu trên đều tập trung vào việc phát triển một
Ontology đầy đủ, để quản lý thơng tin liên quan tới từng khía cạnh của tài liệu điện tử

mà họ quản lý. Các Ontology này không được xây dựng theo một quy tắc chung nào.
Vì vậy việc sử dụng lại hay tích hợp dữ liệu liên quan với các thư viện khác hay với
các tổ chức khơng phải thư viện gặp nhiều khó khăn, không giải quyết được vấn đề
chia sẻ dữ liệu đã tồn tại từ trước đó. Hơn nữa, sau khi hồn thành, các Website đều
khơng được đưa vào sử dụng.
1.2.2. Các cơng trình nghiên cứu ngồi nước
Tìm kiếm ngữ nghĩa dựa trên Ontology là phương pháp tìm kiếm ngữ nghĩa phổ
biến và hiện đang được các nhà khoa học, tổ chức trên thê giới quan tâm, nghiên cứu
và ứng dụng như các cơng trình sau:

11


- Xây dựng kiến trúc máy tìm kiếm ngữ nghĩa dựa trên Ontology của nhóm tác
giả: Paras Nath Gupta, Pawan Singh, Pankaj P Singh, Punit Kr Singh, Deepak Sinha
[12].
- Giới thiệu máy tìm kiếm ngữ nghĩa dựa trên Ontology - Semoogle của tác giả
Nooshin Aghajani, Đại học Khoa học và Công nghệ NaUy [8].
- Xây dựng kiến trúc dựa trên Ontology cho máy tìm kiếm ngữ nghĩa cho ngơn
ngữ Ả Rập của tập thể tác giả: Ibrahim Fathy Moawad, Mohammad Abdeen, Mostafa
Mahmoud Aref, Ain Shams [17].
- Xây dựng máy tìm kiếm ngữ nghĩa dựa trên Ontology cho Kinh Koran của tập
thể tác giả: Hikmat Ullah Khan, Syed Muhammad Saqlain, Muhammad Shoaib,
Muhammad Sher [16].
- Tìm kiếm ngữ nghĩa dựa trên Ontology của nhóm tác giả: Dario Bonino,
Fulvio Corno, Laura Farietti, Alessio Bosca [10].
* Mục tiêu của các cơng trình nghiên cứu trên đều nhằm xây dựng Ontology cho
toàn bộ hệ thống dữ liệu hướng tới tích hợp thơng tin tri thức dựa trên Web có ngữ
nghĩa.
1.3. Một số hệ thống thư viện về Web ngữ nghĩa hiện nay

1.3.1. Các hệ thống ở Việt Nam
a. Viet Nam - Knowledge and Information Management (VN-KIM)[1]
Miền dữ liệu mà VN-KIM hướng đến là các thực thể được đề cập đến trong các
thông tin quốc tế hàng ngày. Ontology của VN-KIM hiện tại có khoảng 250 lớp, 100
thuộc tính và khoảng 80,000 thực thể về các nhân vật, thành phố, công ty, tổ chức
quan trọng và phổ biến trên thế giới.
Chức năng chính của Viet Nam - Knowledge and Information Management là rút
trích và chú thích tự động lớp và danh hiệu của các thực thể có tên xuất hiện trong các
trang báo điện tử tiếng Việt.
Tuy nhiên, KIM vẫn cịn các hạn chế chính sau:
- Ontology dựa trên các khái niệm chung trên thế giới, trong khi ở Việt Nam có
những khái niệm riêng, đặc thù cho hoàn cảnh kinh tế và xã hội của đất nước. Ví dụ,

12


những khái niệm như “Trường bán công” hay “Thành phố trực thuộc trung ương” cần
có những lớp thích hợp để xếp loại chúng.
- Động cơ rút trích ngữ nghĩa chỉ dùng cho tiếng Anh, chưa hỗ trợ được cho tiếng
Việt với các đặc thù riêng về từ vựng và cấu trúc cụm từ. Ví dụ, trong tiếng Anh các từ
cách nhau bằng khoảng trống, còn trong tiếng Việt một từ có thể do nhiều âm tiết cách
nhau bằng khoảng trống ghép lại, như “Đất nước” hay “Công ty”.
- Động cơ truy hồi thông tin chưa cho phép so trùng bán phần các truy vấn và dữ
liệu lưu trữ. Các dạng truy vấn về các thực thể còn đơn giản và cứng nhắc, chưa cho
phép khai thác nhiều và tiện lợi các thông tin lưu trữ trong Ontology và cơ sở tri thức
đã xây dựng.
Hiện nay, địa chỉ Website của hệ thống khơng cịn hoạt động nữa.

5


Hình 1.5. Trang thơng tin Semantic web VN-KIM
13


b. Hệ thống thư viện số Trường Cao đẳng CNTT Hữu nghị Việt – Hàn [2]
Nhóm tác giả đã nghiên cứu các công nghệ Web ngữ nghĩa sử dụng cho đề tài
như RDF, RDFS, OWL và SPARQL; nghiên cứu về các nguyên lý và thành phần của
dữ liệu liên kết (Linked Data) và dữ liệu mở liên kết - LOD; nghiên cứu, tìm hiểu các
cơng cụ, kỹ thuật để xây dựng, xuất bản và sử dụng LOD như Mashups và Linked data
search engines; nghiên cứu một số hệ thống lưu trữ và quản lý thông tin thư viện hiện
nay của hệ thống thư viện; từ đó xây dựng cấu trúc dữ liệu mở liên kết cho các tài liệu
(sách, giáo trình, báo, luận văn, luận án, đồ án tốt nghiệp của sinh viên) và những
thông tin khác liên quan đến tài liệu như tác giả, lĩnh vực, nhà xuất bản, đơn vị cơng
tác (khoa, phịng ban, trung tâm, lớp ...). Từ đó, ứng dụng web ngữ nghĩa vào xây
dựng website xuất bản dữ liệu mở liên kết cho thư viện số Trường Cao đẳng CNTT
Hữu nghị Việt - Hàn. Các tài liệu được cập nhật theo dữ liệu có sẵn tại Trung tâm
thông tin tư liệu của Trường, được bổ sung thêm các nội dung để làm giàu thêm các
thông tin, áp dụng các chuẩn thư viện mà Trung tâm hiện đang áp dụng như AACR2,
MARC21, DDC.
Tuy nhiên, ứng dụng mới chỉ tra cứu theo từ khóa hoặc cụm từ và hiện nay ứng
dụng đã dừng hoạt động trên môi trường Internet.

14


6Hình 1.6. Thư viện số ngữ nghĩa của ViethanIT Library
c. Phần mềm tìm kiếm ngữ nghĩa cho hệ thống CSDLQG về TNMT [5]
Trên cơ sở ontology đã xây dựng, nhóm tác giả đã xây dựng bộ từ điển khái niệm
thuật ngữ bao gồm 111.150 khái niệm (trong đó 20.055 khái niệm có song ngữ Anh Việt, 27.322 khái niệm có quan hệ đồng nghĩa). Bộ từ điển khái niệm này có số lượng
khái niệm, thuật ngữ rất lớn (Mạng từ tiếng Việt viet.wordnet.vn bao gồm 67.344 khái

niệm) rất có giá trị phục vụ các nghiên cứu về xử lý ngôn ngữ tự nhiên (các bài toán
tách từ, bỏ dấu tiếng Việt, nhận dạng thực thể), phân tích và khai phá dữ liệu, trích rút
thơng tin, …và chia sẻ cho cộng đồng khai thác sử dụng.
15


×