Tải bản đầy đủ (.docx) (71 trang)

ỨNG DỤNG ONTOLOGY XÂY DỰNG HỆ THỐNG RÚT TRÍCH THÔNG TIN TỰ ĐỘNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.01 MB, 71 trang )

BỘ LAO ĐỘNG THƯƠNG BINH VÀ XÃ HỘI
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT VĨNH LONG
---------------------------------------

ỨNG DỤNG ONTOLOGY XÂY DỰNG HỆ THỐNG
RÚT TRÍCH THƠNG TIN TỰ ĐỘNG
CƠNG NGHỆ THƠNG TIN

LUẬN VĂN THẠC SĨ

Vĩnh Long – Năm 2022


MỤC LỤC
LỜI CAM ĐOAN...................................................................................................................i
LỜI CẢM ƠN........................................................................................................................ ii
MỤC LỤC............................................................................................................................ iii
TÓM TẮT LUẬN VĂN.........................................................................................................v
DANH MỤC BẢNG BIỂU...................................................................................................vi
DANH MỤC HÌNH ẢNH....................................................................................................vii
DANH MỤC TỪ VIẾT TẮT..............................................................................................viii
MỞ ĐẦU................................................................................................................................ 1
CHƯƠNG 1: CƠ SỞ KHOA HỌC CỦA ĐỀ TÀI..................................................................5
1.1. TỔNG QUAN VỀ ONTOLOGY....................................................................................5
1.1.1. Thành phần của một Ontology......................................................................................5
1.1.2. Phân loại....................................................................................................................... 7
1.1.3. Phương thức xây dựng Ontology..................................................................................9
1.1.4. Ngôn ngữ Ontology......................................................................................................9
1.1.5. Công cụ phát triển Ontology.......................................................................................15
1.1.6. Phương pháp xây dựng ontology................................................................................17
1.2. TỔNG QUAN VỀ SEMANTIC WEB..........................................................................18


1.2.1. Những đặc trưng cơ bản của Sematic Web.................................................................19
1.2.2. Kiến trúc.....................................................................................................................20
1.2.3. Khung Mô tả Tài nguyên............................................................................................22
1.2.4. Một số các ứng dụng của Ontology trong Web ngữ nghĩa..........................................23
1.3. NHẬN DẠNG THỰC THỂ CÓ TÊN ( NER – Named Entity Recognition).................26
1.3.1. Tổng quan nhận dạng thực thể có tên.........................................................................26
1.3.2. Ứng dụng của nhận dạng thực thể..............................................................................27
1.4. TỔNG QUAN VỀ RÚT TRÍCH THƠNG TIN.............................................................28
1.4.1. Giới thiệu về rút trích thơng tin..................................................................................29
1.4.2. Hệ thống rút trích thơng tin từ các trang web.............................................................30
1.5. TÌNH HÌNH CÁC LOẠI CÂY ĂN TRÁI Ở NƯỚC TA...............................................31
1.6. CƠ SỞ THỰC TIỄN CỦA ĐỀ TÀI...............................................................................32
1.7. TỔNG QUAN CÁC CƠNG TRÌNH NGHIÊN CỨU CĨ LIÊN QUAN.......................33
CHƯƠNG 2: XÂY DỰNG HỆ THỐNG RÚT TRÍCH THƠNG TIN TỰ ĐỘNG...............35
2.1. ĐẶC ĐIỂM ĐỊA BÀN NGHIÊN CỨU.........................................................................35
2.2. MÔ TẢ HỆ THỐNG.....................................................................................................36
2.2.1. Đặt vấn đề................................................................................................................... 36
2.2.2. Mô tả hệ thống............................................................................................................37
2.3. PHƯƠNG PHÁP ĐỀ XUẤT.........................................................................................39
2.3.1. Phương pháp rút trích thơng tin (IE – Information Extraction)...................................39
2.3.2. Phương pháp nhận dạng thực thể có tên.....................................................................40


2.4. MƠ TẢ THUẬT TỐN TỔNG QT........................................................................42
2.4.1. Giai đoạn huấn luyện..................................................................................................43
2.4.2. Giai đoạn nhận dạng...................................................................................................47
2.4.3. Xây dựng Ontology về các loại trái cây.....................................................................48
2.4.4. Chức năng tìm kiếm...................................................................................................50
2.4.5. Kết quả nghiên cứu.....................................................................................................51
2.4.6. Đánh giá kết quả.........................................................................................................56

CHƯƠNG 3: KẾT LUẬN VÀ KIẾN NGHỊ........................................................................57
3.1. KẾT QUẢ ĐẠT ĐƯỢC................................................................................................57
3.2. HƯỚNG PHÁT TRIỂN................................................................................................58
TÀI LIỆU THAM KHẢO....................................................................................................59
KẾ HOẠCH THỰC HIỆN LUẬN VĂN..............................................................................62


TÓM TẮT LUẬN VĂN
ỨNG DỤNG ONTOLOGY XÂY DỰNG HỆ THỐNG RÚT TRÍCH THƠNG
TIN TỰ ĐỘNG
Học viên: Lê Tiến Lộc
Chun nghành: Cơng nghệ thơng tin
Mã số: 22004011 Khóa: 03 Trường Đại học SPKT Vĩnh Long
Tóm tắt - Trong tiến trình phát triển cũng khơng tránh khỏi những khó khăn lớn, nhất
là thị trường tiêu thụ. Giá các loại cây ăn trái được coi là một trong những vấn đề trọng
yếu của thị trường nông sản. Việc xây dựng hệ thống tra cứu thơng tin nơng sản trong
đó giá các loại nơng sản được thu thập tự động từ các nguồn tin cậy trên thị trường là
yêu cầu cấp thiết trong giai đoạn hiện nay. Tác giả đã ứng dụng công nghệ thơng tin
góp phần giải quyết vấn đề tìm kiếm thơng tin về các loại trái cây ở nước ta. Xây dựng
một hệ thống tìm kiếm thơng tin web, dựa trên thơng tin được rút trích với kỹ thuật
NER góp phần nâng cao kết quả tìm kiếm nhanh, tăng độ chính xác và đỡ tốn thời gian
của người dân, giúp người dân hiểu biết đầy đủ thông tin thị trường các loại trái cây, từ
đó đưa ra phương án sản xuất hợp lí và đem lại thu nhập cao.
Từ khóa: trích xuất thông tin tự động; ứng dụng Ontology; nhận dạng thực thể có tên;
web ngữ nghĩa; BERT.
ONTOLOGY APP BUILDS AUTOMATIC INFORMATION EXTRACT
SYSTEM
Abstract - In the development process, it is inevitable that great difficulties, especially
the consumption market. The price of fruit trees is considered one of the key issues in
the agricultural market. Building a system to look up agricultural product information

in which prices of agricultural products are automatically collected from reliable
sources in the market is an urgent requirement in the current period. In the
development process, it is inevitable that great difficulties, especially the consumption
market. The price of fruit trees is considered one of the key issues in the agricultural
market. Building a system to look up agricultural product information in which prices
of agricultural products are automatically collected from reliable sources in the market
is an urgent requirement in the current period.
Key words - Automatic information extraction; Application Ontology; Named Entity
Recognition; Semantic Web; Bidirectional Encoder Representations from
Transformers.

5


DANH MỤC BẢNG BIỂU
Số hiệu bảng
1.1
2.1

Tên bảng
Danh mục các loại thực thể
Kết quả sau khi gán nhãn

6

Trang
27
52



DANH MỤC HÌNH ẢNH
Số hiệu
hình vẽ
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.6
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16

2.17
2.18

Tên hình vẽ

Trang

Ví dụ mơ hình phân lớp nơng sản trái cây
Mơ hình phân loại Ontology
So sánh giữa RDF và RDFS
Giao diện phần mềm Protégé
Giao diện đồ họa phần mềm Protég

6
8
12
15
16
16
17
19

Protégé tích hợp cơng cụ OWL Viz

Xây dựng ontology với phàn mềm Protégé
Kiến trúc phân tầng của Semantic Web được hoàn thiện năm
2006
Mối quan hệ giữa các thành phần trong triple
Mơ hình bộ ba triple
Mơ hình phương pháp kết hợp Web service

Mơ hình tổng qt của bài tốn rút trích thơng tin tự động
Khái qt hệ thống trích rút thơng tin
Kết quả đánh giá hiệu năng gán nhãn sử dụng mơ hình BERT
Thu thập dữ liệu thơ
Ví dụ bước làm sạch text
Mơ hình huấn luyện
Q trình training
Kiến trúc xử lý
Gán nhãn dữ liệu
Ontology tổng quát
Xây dựng cơ sở sữ liệu cho Ontology
Kết quả tìm kiếm nông sản bưởi da xanh
Các entity gán nhãn
Kết quả phân loại các nhãn
Cấu trúc dữ liệu ontology
Giao diện tìm kiếm thơng tin nơng sản chơm chơm
Giao diện tìm kiếm thơng tin cho nông sản chanh leo
Giao diện không tồn tại nơng sản cần tìm

7

22
22
24
38
39
42
42
43
45

46
47
48
49
49
51
52
53
54
54
55
56


DANH MỤC TỪ VIẾT TẮT
CÁC KÝ HIỆU
PER

Tên người

ORG

Tên tổ chức

LOC

Tên địa danh

NUM


Số

PCT

Phần trăm

CUR

Tiền tệ

TIME

Ngày tháng, thời gian

MISC

Những loại thực thể khác ngồi 7 loại trên

O

Khơng phải thực thể

CÁC CHỮ VIẾT TẮT
CSDL
Cơ sở dữ liệu
ĐBSCL
Đồng bằng sông Cửu long
WebNN
Web ngữ nghĩa
XACML Extensible Access Control Markup Language

NER
Name entity recognition
RDF
Resource Description Framework
URI
Uniform Resource Identifier
XML
Extensible Markup Language

8


MỞ ĐẦU
1. Tính cấp thiết của đề tài
Cây ăn trái là loại cây đang được trồng nhiều ở nước ta, cây ăn trái mang lại
nguồn lợi rất lớn cho nông dân hằng năm. Cây ăn trái là nguồn cung cấp dinh dưỡng
quý cho con người, cung cấp nhiều chất đường dễ tiêu. Bởi vậy, đây là loại thực phẩm
luôn được ưu chuộng, thị trường tiêu thụ lớn. Diện tích cây ăn trái ở nước ta khoảng
910.000 ha, với sản lượng đạt được 9.5 triệu tấn/năm. Là mặt hàng xuất khẩu quan
trọng của ngành nông nghiệp với kim ngạch xuất khẩu đạt 3 tỷ USD năm 20181.
Ở nước ta hiện nay, hình thành nhiều vùng cây ăn trái đặc sản có năng suất cao,
chất lượng tốt như xồi cát Hịa Lộc Tiền Giang, nhãn lồng Hưng Yên, vải thiều Thanh
Hà, Sầu riêng Bến Tre, nho Ninh Thuận, …. Cây ăn trái đem lại nguồn thu nhập lớn,
giúp người dân cải thiện cuộc sống.
Tuy nhiên trong tiến trình phát triển cũng khơng tránh khỏi những khó khăn lớn,
nhất là thị trường tiêu thụ, được mùa thì giá thành thấp do cung vượt quá cầu, vào vụ
nghịch giá lại bị đẩy lên cao do cung nhỏ hơn cầu. Giá các loại cây ăn trái được coi là
một trong những vấn đề trọng yếu của thị trường nông sản, chi phối các mối quan hệ
trao đổi trong nội bộ và trao đổi liên ngành của nông nghiệp như dịch vụ, công nghiệp,
truyền thông, … Việc xây dựng hệ thống tìm hiểu thơng tin về thị trường cây ăn trái là

yêu cầu cấp thiết trong giai đoạn hiện nay. Qua đó, người dân tiếp cận và cập nhật
thông tin đầy đủ thị trường các loại cây ăn trái, từ đó đưa ra phương án trồng trọt để
đạt được thu nhập cao.
Công nghệ thông tin đã và đang thay đổi thế giới cũng như tạo nên một cuộc
cách mạng thực sự trong mọi lĩnh vực của khoa học và đời sống. Hiện nay, hàng triệu
người trên thế giới đang sử dụng Internet và xem đây là nơi lý tưởng để tìm kiếm
thơng tin, mua sắm hàng hóa, dịch vụ, … Mọi thơng tin trên Web đều có thể được cập
nhật nhanh chóng và kịp thời. Với những thơng tin có sẵn và tỉ lệ gia tăng người dùng,
có thể khẳng định rằng Web là một cơng nghệ thành công gây ấn tượng nhất hiện nay.
Năm 1998, Tim Berners-Lee đã đề xuất ra Web ngữ nghĩa (Semantic Web), một
sự phát triển của Web hiện tại. Một trong những lĩnh vực thế mạnh của Web Semantic
là xử lý và tìm kiếm thơng tin. Việc phân tích và định hướng nội dung lưu trữ cho phép
xây dựng cơ sở dữ liệu phục vụ tìm kiếm chính xác và tinh gọn. Cũng theo ông, nền
tảng cơ bản của Web ngữ nghĩa là Ontology.
Ontology được xem như một hình thức biểu diễn tri thức trong các lĩnh vực ứng
dụng khác nhau đã có những bước tiến quan trọng. Ontology mơ tả khơng chỉ khái
niệm và thuộc tính mà cịn cung cấp các quan hệ cũng như các tiên đề phục vụ cho
việc suy luận. Ontology có rất nhiều lợi thế như cho phép thêm ngữ nghĩa vào dữ liệu,
1 Nguồn: Hùng Chaetomium. Tình hình canh tác cây ăn trái hiện nay. Lấy từ:
. [Truy cập ngày 30 tháng 11 năm 2021]

1


quản lý và cập nhật tri thức, tích hợp dữ liệu cũng như tái sử dụng các thành phần dễ
dàng hơn. Nhờ đó, Ontology là mơ tả chính thức của một số bộ từ vựng chun mơn.
Chính vì những lý do trên, tôi chọn đề tài: “Ứng dụng Ontology xây dựng hệ
thống rút trích thơng tin tự động” nhằm xây dựng hệ thống tìm kiếm thơng tin Web,
dựa vào kỹ thuật Ner để rút trích thơng tin về các loại cây ăn trái, kết hợp với
Ontology tạo cơ sở dữ liệu. Qua đây giúp cho nhu cầu tìm hiểu về thị trường cây ăn

trái một cách nhanh nhất, dễ hiểu, tiết kiệm được thời gian và có độ chính xác cao.
2. Mục tiêu nghiên cứu
Xây dựng hệ thống tra cứu thơng tin một số loại nơng sản trong đó giá các loại
nông sản được thu thập tự động từ các nguồn tin cậy.
Mục tiêu cụ thể:
- Xây dựng công cụ rút trích tự động thơng tin các loại nơng sản từ các nguồn
(trang Web) liên quan và tin cậy sử dụng kỹ thuật nhận dạng thực thể có tên (NER Name entity recognition).
- Đề xuất kiến trúc cơ sở dữ liệu Ontology thể hiện mối quan hệ giữa các loại
nông sản và cho phép lưu trữ thông tin các loại nông sản theo thời gian.
- Cập nhật cơ sở dữ liệu Ontology giá các loại nông sản theo thời gian dựa trên
dữ liệu thu thập được từ công cụ rút trích tự động giá nơng sản.
- Xây dựng cơng cụ cho phép người dùng tra cứu thông tin về các loại nông sản.
3. Đối tượng nghiên cứu
- Kỹ thuật nhận dạng thực thể có tên NER.
- Ontology và tìm kiếm theo ngữ nghĩa.
- Hệ thống tìm kiếm thơng tin Web.
4. Phạm vi nghiên cứu
- Thông tin về các loại nông sản bao gồm: giá bán, giá thu mua, đơn vị thu mua,
thời gian.
- Các loại nông sản thu thập như: Bưởi da xanh, bưởi năm roi, quýt đường, cam
xoàn, cam sành, chơm chơm nhãn, dưa hấu sọc, xồi cát hịa lộc, gạo tẻ thường, gạo
nàng thơm chợ đào, gạo thơm thái, bơ .
- Nguồn cung cấp thông tin về các loại trái cây ở trên được lấy tự động tại các
trang Web tin cậy như:
+ Bản tin kinh tế thị trường, kinh doanh, tài chính ngân hàng, tài chính
marketing, cập nhật những thơng tin mới nhất về tài chính kinh tế thị trường có địa chỉ
trang Web:
+ Website GiaNongSan.org là sản phẩm của ResMart Lương thực phẩm tươi
sống công ty ResHP Việt Nam.
+ Và một số trang web nông sản đáng tin cậy khác như:




2




Dữ liệu mở: Các chức năng của hệ thống hoạt động độc lập với dữ liệu của
CSDL Ontology mà chỉ phụ thuộc kiến trúc của CSDL Ontology.
5. Phương pháp nghiên cứu
Tác giả sử dụng phương pháp nghiên cứu kết hợp giữa nghiên cứu lý thuyết bằng
cách tổng hợp tài liệu và nghiên cứu thực nghiệm.
- Nghiên cứu lý thuyết:
+ Phương pháp tổng hợp lý thuyết: tổng hợp cơ sở lý luận liên quan đến
ontology, semantic web, nhận dạng thực thể có tên, rút trích thơng tin tự động từ các
nguồn tài liệu như giáo trình, bài giảng, internet, chuyên đề, luận văn và luận án để
nghiên cứu và phát biểu bài toán cố vấn học tập cần giải quyết.
+ Phương pháp hệ thống: hệ thống hóa các lý thuyết thu thập được từ các nguồn
tài liệu khác nhau thành một hệ thống cơ sở lý thuyết chặt chẽ, hoàn chỉnh.
- Nghiên cứu thực nghiệm:
+ Nghiên cứu phương pháp rút trích thơng tin tự động với nhận dạng thực thể có tên
(NER).
+ Sử dụng Bộ dữ liệu được thu thập, lấy thông tin từ các trang Website mua bán
các mặt hàng nông sản các loại trái cây đáng tin cậy và có dạng chuẩn HTML.
+ Dựa vào bài tốn rút trích thông tin tự động đã phát biểu, chọn phương pháp
giải, huấn luyện và nhận dạng dữ liệu đã thu thập thành bộ dữ liệu phù hợp với kỹ
thuật lựa chọn và bài tốn đã phát biểu. Sau khi có dữ liệu tiến hành các bước xây
dựng Ontology và tạo cơ sở dữ liệu Ontology.
+ Mô tả các kết quả thu được có ý nghĩa thực tiễn phù hợp với bài tốn đã phát

biểu.
6. Những đóng góp mới, ý nghĩa khoa học
 Những đóng góp mới:
- Tiếp cận với cơng nghệ mới về xử lý thông tin của Semantic Web
- Rút trích thơng tin tự động về các loại trái cây với kỹ thuật NER.
- Xây dựng hệ thống tìm kiếm Web ngữ nghĩa với Ontology.
- Đề xuất hướng phát triển một ứng dụng đảm bảo tính chính xác thơng tin.
 Ý nghĩa khoa học:
- Ứng dụng công nghệ thông tin góp phần giải quyết vấn đề tìm kiếm thơng tin
về các loại nông sản trái cây ở nước ta.
- Xây dựng hệ thống tìm kiếm thơng tin Web, dựa trên thơng tin được rút trích
với kỹ thuật Ner. Góp phần nâng cao kết quả tìm kiếm nhanh, tăng độ chính xác và đỡ
tốn thời gian của người dân, giúp người dân hiểu biết đầy đủ thông tin thị trường các
loại trái cây, từ đó đưa ra phương án sản xuất hợp lí và đem lại thu nhập cao.
 Ý nghĩa thực tiễn
3


Về mặt thực tiễn, ứng dụng thành quả của công nghệ thông tin vào lĩnh vực nông
nghiệp. Việc xây dựng hệ thống tra cứu thông tin về các loại nông sản có ý nghĩa hết
sức thiết thực trong việc tìm hiểu, nghiên cứu các thông tin mới nhất về nông sản giúp
cho người nông dân nắm bắt được giá cả thị trường nhanh chóng và chính xác hơn.
7. Cấu trúc luận văn
Kết cấu luận văn được tác giả chia thành 3 phần chính dưới đây:
Chương 1: Cơ sở khoa học của đề tài
Trong chương 1 tác giả đã phân tích và tổng hợp một cách có hệ thống các vấn
đề lý thuyết liên quan đến ontology, semantic web, nhận dạng thực thể có tên, rút trích
thơng tin tự động cũng như tình hình các loại cây ăn trái ở nước ta hiện nay, đồng thời
nêu nên cơ sở thực tiễn của đề tài và tổng quan các cơng trình nghiên cứu có liên quan.
Trên những cơ sở đó tác giả đã xây dựng hệ thống rút trích thơng tin tự động.

Chương 2: Xây dựng hệ thống rút trích thơng tin tự động
Trong chương 2 tác giả đã phân tích đặc điểm tại địa bàn nghiên cứu, mô tả hệ
thống rút trích thơng tin, đề xuất phương pháp xây dựng hệ thống, mơ tả tổng quan về
thuật tốn. Từ đó đưa ra những kết quả qua quá trình nghiên cứu và đánh giá kết quả.
Chương 3: Kết luận và kiến nghị
Từ những kết quả của chương 2, chương 3 tác giả đã đưa ra những kết quả đạt
được, cũng như những hướng phát triển sau này của hệ thống.

4


CHƯƠNG 1: CƠ SỞ KHOA HỌC CỦA ĐỀ TÀI
1.1. TỔNG QUAN VỀ ONTOLOGY
Trong cuốn sách “Siêu hình” (Metaphysics), Aristotle định nghĩa:“Ontology là
một nhánh của triết học, liên quan đến sự tồn tại và bản chất các sự vật trong thực tế”.
Từ đó ta có thể hiểu rằng, đối tượng nghiên cứu chủ yếu của Ontology xoay quanh
phân loại các sự vật dựa trên các đặc điểm mang tính bản chất của nó, nhằm chỉ khoa
học mơ tả các loại thực thể trong thế giới thực và cách chúng liên kết với nhau.
Trong ngành khoa học máy tính và khoa học thông tin, Ontology là "một biểu
diễn của sự khái niệm hoá chung được chia sẻ" của một miền hay lĩnh vực nhất định.
Ontology cung cấp một bộ từ vựng chung bao gồm các khái niệm, các thuộc tính quan
trọng và các định nghĩa về các khái niệm và các thuộc tính này. Ngồi bộ từ vựng,
Ontology cịn cung cấp các ràng buộc, đôi khi các ràng buộc này được coi như các giả
định cơ sở về ý nghĩa mong muốn của bộ từ vựng, nó được sử dụng trong một lĩnh vực
mà có thể được giao tiếp giữa người và các hệ thống ứng dụng phân tán khác.
Trong trí tuệ nhân tạo, công nghệ Web ngữ nghĩa (Semantic Web), các hệ thống
kỹ thuật, kỹ thuật phần mềm, tin học y sinh và kiến trúc thông tin Ontology được sử
dụng như là một hình thức biểu diễn tri thức về thế giới hoặc một số lĩnh vực cụ thể.
Việc tạo ra các lĩnh vực về Ontology cũng là cơ sở để định nghĩa và sử dụng của cơ
cấu một tổ chức kiến trúc.

1.1.1. Thành phần của một Ontology
Các thành phần của Ontology bao gồm:
Các cá thể (individuals): các thực thể hoặc các đối tượng (các đối tượng cơ bản
hoặc cấp độ nền).
Các lớp (classes): các tập hợp, các bộ sưu tập, các khái niệm, các loại đối tượng,
hoặc các loại khác.
Các thuộc tính (attributes): các khía cạnh, đặc tính, tính năng, đặc điểm, hoặc các
thông số mà các đối tượng (và các lớp) có thể có.
Các quan hệ (relations): cách thức mà các lớp và các cá thể có thể liên kết với
nhau.
Các thuật ngữ chức năng (function terms): cấu trúc phức tạp được hình thành từ
các mối quan hệ nhất định có thể được sử dụng thay cho một thuật ngữ cá thể trong
một báo cáo(statement).
Các sự hạn chế (restrictions): những mơ tả chính thức được tun bố về những
điều phải chính xác cho một số khẳng định được chấp nhận ở đầu vào.
Các quy tắc (rules): tuyên bố có hình thức như một cặp nếu-thì (if-then) mơ tả
suy luận logic có thể được rút ra từ một sự khẳng định trong từng hình thức riêng.
Các tiên đề (axioms): các khẳng định (bao gồm các quy tắc) trong một hình thức
hợp lý với nhau bao gồm các lý thuyết tổng thể mà Ontology mô tả trong lĩnh vực của
ứng dụng.
Các sự kiện (events): sự thay đổi các thuộc tính hoặc các mối quan hệ. Sau đây
chúng ta sẽ tìm hiểu một số thành phần quan trọng nhất của một Ontology.
5


1.1.1.1. Các cá thể (Individuals)
Các cá thể là các thành phần cơ bản, nền tảng của một Ontology. Các cá thể trong
một Ontology có thể bao gồm các đối tượng cụ thể như con người, động vật, cái bàn…
cũng như các cá thể trừu tượng như các thành viên hay các từ. Một Ontology có thể
khơng cần bất kỳ một cá thể nào, nhưng một trong những lý do chính của một

Ontology là để cung cấp một ngữ nghĩa của việc phân lớp các cá thể, mặc dù các cá
thể này không thực sự là một phần của Ontology.
1.1.1.2. Các lớp (Classes)
Các lớp là các nhóm, tập hợp các đối tượng trừu tượng. Chúng có thể chứa các
cá thể, các lớp khác, hay là sự phối hợp của cả hai. Một số ví dụ về các lớp học:
Hoa quả (fruit) các lớp của tất cả hoa quả, hay đối tượng trừu tượng có thể được
mơ tả bởi các tiêu chí để trở thành hoa quả.
Rau (vegetable), các lớp của tất cả các loại rau, hay đối tượng trừu tượng có thể
được mơ tả bởi các tiêu chí để được một rau.
Các Ontology biến đổi tuỳ thuộc vào cấu trúc và nội dung của nó: Một lớp có thể
chứa các lớp con, có thể là một lớp tổng quan (chứa tất cả mọi thứ), có thể là lớp chỉ
chứa những cá thể riêng lẻ. Một lớp có thể xếp gộp vào hoặc bị xếp gộp vào bởi các
lớp khác. Mối quan hệ xếp gộp này được sử dụng để tạo ra một cấu trúc có thứ bậc các
lớp, thường là với một lớp thông dụng nhất ở trên đỉnh và các lớp có kiểu rõ ràng cụ
thể ở phía dưới cùng.
Ví dụ mơ hình phân lớp nơng sản trái cây như hình sau:

Hình 1.1 Ví dụ mơ hình phân lớp nơng sản trái cây
Nếu quy tắc phân vùng đảm bảo rằng một trái cây duy nhất không thể ở cả hai
lớp, các phân vùng này được gọi là một phân vùng phân chia. Nếu các quy tắc phân
vùng đảm bảo rằng mỗi đối tượng cụ thể trong siêu lớp là một thể hiện của ít nhất một
trong các lớp phân vùng, các phân vùng này được gọi là một phân vùng toàn bộ.

6


1.1.1.3. Các thuộc tính (Attributes)
Các đối tượng trong Ontology có thể được mô tả thông qua việc khai báo các
thuộc tính của chúng. Mỗi một thuộc tính đều có tên và giá trị của thuộc tính đó. Các
thuộc tính được sử dụng để lưu trữ các thông tin mà đối tượng có thể có.

Ví dụ, đối với một trái cây có thể có các thuộc tính: Tên, xuất xứ, giá, màu sắc…
Giá trị của một thuộc tính có thể là một kiểu dữ liệu phức tạp.
1.1.1.4. Các mối quan hệ (Relationships)
Mối quan hệ (còn gọi là quan hệ) giữa các đối tượng trong Ontology định rõ như
thế nào các đối tượng này có liên quan đến các đối tượng khác. Đặc trưng là một mối
quan hệ loại riêng biệt (hay lớp) mà quy định cụ thể trong chiều hướng các đối tượng
này có liên quan đến các đối tượng khác trong Ontology. Chủ yếu sức mạnh của
Ontology đến từ khả năng mô tả các mối quan hệ. Cùng với nhau, tập hợp các mối
quan hệ mô tả ngữ nghĩa trong một lĩnh vực nào đó. Các thiết lập của các loại quan hệ
được sử dụng (các lớp của các quan hệ) và hệ thống phân cấp của nó mơ tả sức mạnh
biểu hiện của ngơn ngữ trong đó Ontology được thể hiện. Một kiểu quan hệ quan trọng
là kiểu quan hệ xếp gộp (subsumption). Kiểu quan hệ này mô tả các đối tượng nào là
các thành viên của các lớp nào của các đối tượng. Ontology có thể phân biệt giữa các
loại khác nhau của các quan hệ.
Ví dụ: Loại quan hệ dành cho các quan hệ giữa các lớp, loại quan hệ dành cho
các quan hệ giữa các cá thể, loại quan hệ dành cho các quan hệ giữa một cá thể và một
lớp, loại quan hệ dành cho các quan hệ giữa một đối tượng đơn lẻ và một bộ sưu tập
(collection), loại quan hệ dành cho các quan hệ giữa các bộ sưu tập.
Loại quan hệ đôi khi là một đặc trưng và sau đó được dùng để lưu trữ các loại
đặc trưng của sự kiện hoặc trả lời từng loại câu hỏi riêng biệt. Nếu các định nghĩa của
các loại quan hệ được bao gồm trong một Ontology, sau đó Ontology định nghĩa riêng
ngơn ngữ Ontology của nó.
1.1.2. Phân loại
Từ khi bắt đầu nghiên cứu về Ontology trong khoa học máy tính, Ontology đã
được quan tâm với mong muốn tăng cường việc sử dụng lại hệ thống cơ sở tri thức bên
trong, và nó cũng đưa ra nhiều dạng Ontology mô tả khả năng khác nhau cho việc tái
sử dụng hệ thống cơ sở tri thức. Sự phân loại Ontology có thể được tạo ra theo chủ đề
của sự khái niệm hóa. Trong khía cạnh này, phần cốt lõi nhất được tổng kết theo hình
bên cạnh.


7


Hình 1.2 Mơ hình phân loại Ontology
 Top-level Ontology (Ontology lớp cao) nhằm diễn tả những khái niệm tổng
quan và trừu tượng có thể được chia sẻ qua nhiều lĩnh vực và ứng dụng. Nó mượn các
ý niệm triết học mô tả những khái niệm lớp cao cho mọi vật về sự tồn tại của chúng,
như đối tượng vật chất hay đối tượng trừu tượng như là các ý niệm có đặc điểm chung
về tri thức nhận thức thơng thường về hiện tượng như thời gian, khơng gian, các tiến
trình ... Do sự tổng quan đó, nó khơng sử dụng trực tiếp trong các ứng dụng, mà thông
qua các Ontology khác.
 Domain Ontology và task Ontology: các loại Ontology này lấy tri thức từ
trong những lĩnh vực xác định, như trong y khoa, địa lý hay tri thức về một tác vụ
riêng biệt như sự chẩn hoặc sự cấu hình. Ontology loại này thu hẹp hơn và xác định
hơn so với Top-level Ontology. Sự khái niệm hóa trong một Domain Ontology là giữ
các tác vụ độc lập, khi những ý niệm trong một tác vụ Ontology được miêu tả khơng
có tính chất rõ rệt với chi tiết cụ thể đến một lĩnh vực.
Sự phát triển của Domain Ontology được thực hiện nhiều ở các lĩnh vực: y học,
di truyền, địa lý, du lịch, thơng tin mơi trường. Cịn Task Ontology được phát minh
cho các tác vụ xây dựng, sắp xếp kế hoạch làm việc, giám sát trong một lĩnh vực khoa
học, cơ sở tri thức máy tính dạy học, sự theo dõi phóng tên lửa, các tác vụ hướng dẫn
điều trị bệnh ...
8


 Application Ontology: cung cấp một bộ từ vựng xác định được yêu cầu để mô
tả sự ban hành các tác vụ chắc chắn trong một ngữ cảnh ứng dụng cụ thể. Đặc biệt, nó
sử dụng cả Domain Ontology và Task Ontology và mơ tả vai trị của chúng trong một
tác cụ thể.
Chúng ta có thể thấy Ontology ở lớp thấp hơn kế thừa và chun mơn hóa các

khái niệm và mối quan hệ từ Ontology lớp trên. Ontology lớp thấp cụ thể hơn và phạm
vi ứng dụng thu hẹp hơn, cịn Ontology ở lớp cao có khả năng rộng hơn, chủ yếu dành
cho việc kế thừa và sử dụng lại.
1.1.3. Phương thức xây dựng Ontology
Có nhiều phương pháp khác nhau để xây dựng một Ontology, nhưng nhìn chung các
phương pháp đều thực hiện hai bước cơ bản là: xây dựng cấu trúc lớp phân cấp và định
nghĩa các thuộc tính cho lớp.
Trong thực tế, việc phát triển một Ontology để mô tả lĩnh vực cần quan tâm là một
công việc không đơn giản, phụ thuộc rất nhiều vào công cụ sử dụng, tính chất, quy mơ,
sự thường xun biến đổi của miền cũng như các quan hệ phức tạp trong đó. Điều đó
địi hỏi cơng việc xây dựng Ontology phải là một quá trình lặp đi lặp lại, mỗi lần lặp
cải thiện, tinh chế và phát triển dần sản phẩm chứ khơng phải là một quy trình khung
với các công đoạn tách rời nhau. Công việc xây dựng Ontology cũng cần phải tính đến
khả năng mở rộng lĩnh vực quan tâm trong tương lai, khả năng kế thừa các hệ thống
Ontology có sẵn, cũng như tính linh động để Ontology có khả năng mơ tả tốt nhất các
quan hệ phức tạp trong thế giới thực.
Một số nguyên tắc cơ bản của việc xây dựng Ontology thông qua các công đoạn sau
đây:
 Xác định miền quan tâm và phạm vi của Ontology.
 Xem xét việc kế thừa các Ontology có sẵn.
 Liệt kê các thuật ngữ quan trọng trong Ontology.
 Xây dựng các lớp và cấu trúc lớp phân cấp
 Định nghĩa các thuộc tính và quan hệ cho lớp.
 Định nghĩa các ràng buộc về thuộc tính và quan hệ của lớp.
 Tạo các thực thể cho lớp.
1.1.4. Ngôn ngữ Ontology
Ngơn ngữ Ontology là ngơn ngữ hình thức được sử dụng để xây dựng Ontology. Nó
cho phép việc mã hóa tri thức trong một lĩnh vực cụ thể và thường bao gồm các quy
tắc suy luận cung cấp cho việc xử lý các yêu cầu dựa trên tri thức đó. Ngơn ngữ
Ontology thường là ngơn ngữ khai báo và hầu hết là những sự tổng hợp của ngôn ngữ

cấu trúc, thường được xây dựng dựa trên Logic thủ tục (First-Order Logic) hoặc dựa
trên Logic mơ tả (Description Logic). Có rất nhiều ngôn ngữ Ontology đã được thiết
9


kế và đưa ra tuân theo sự tiêu chuẩn hóa, ta sẽ tìm hiểu một số ngơn ngữ Ontology
thơng dụng nhất trong ngữ cảnh của Web ngữ nghĩa và biểu diễn tri thức hiện nay.
1.1.4.1. RDF (Resource Description Framework)
 Tổng quan RDF
RDF là nền tảng cho việc biểu diễn dữ liệu trong lĩnh vực Web ngữ nghĩa. Thông tin
biểu diễn theo mơ hình RDF là một phát biểu (statement) ở dạng cấu trúc bộ ba gồm
ba thành phần cơ bản là: subject, predicate, object. Trong đó:
 Subject chỉ đối tượng đang được mơ tả đóng vai trị là chủ thể.
 Predicate (cịn được gọi là property) là kiểu thuộc tính hay quan hệ.
 Object là giá trị thuộc tính hay đối tượng của chủ thể đã nêu. Object có thể là
một giá trị nguyên thủy như số nguyên, chuỗi...hoặc cũng có thể là một tài ngun.
Ví dụ:

Đây là phát biểu mơ tả một chủ thể person-1 có kiểu thuộc tính name với giá trị là An.
Phát biểu có thể được tạm hiểu là: person-1 có tên An. Có thể liệt kê một số ưu điểm
của việc lưu trữ dữ liệu RDF so với dữ liệu truyền thống là:
 Tổ chức dữ liệu đơn giản, đồng nhất nên thông tin dễ dàng thêm bớt chỉnh sửa.
 Cấu trúc bộ ba giúp cho thông tin dễ truy xuất bởi các hệ thống suy luận, tìm
kiếm ngữ nghĩa. Cũng nhờ vậy mà những bộ xử lí RDF có thể suy luận ra những thơng
tin mới khơng có trong dữ liệu.
 Chia sẻ dữ liệu trên mạng dễ dàng nhờ sự đồng nhất.
 Chia sẻ dữ liệu RDF
Mơ hình RDF thể hiện được nhiều ưu điểm trong việc biễu diễn thơng tin. Chính vì
vậy cần phải có một cách thức chung để truyền tải dữ liệu RDF trên Internet. Đó là
RDF/XML syntax do W3C đưa ra năm 1999. Đây là một ngôn ngữ dựa trên XML, nó

bao gồm một tập các quy tắc và từ vựng để hỗ trợ cho biễu diễn thông tin RDF.
10


RDF/XML syntax: RDF/XML có thể gây khó khăn cho người học bởi vì nó có thể có
nhiều cách khi cùng biểu diễn một phát biểu và một phần là do URI (Uniform
Resource Identifier) dùng để định danh cho một tài ngun thì tương đối dài và khó
đọc, khó viết. Tuy nhiên vấn đề này có thể được xử lí bằng cách dùng XML
namespace.
Khai báo namespace: việc sử dụng namespace giúp cho tài liệu RDF ngắn gọn và dễ
đọc hơn đối với người thiết kế.
Chẳng hạn như ta có một địa chỉ là “ />Nếu ta gán nó cho một namespace, ví dụ như xmlns: rdf, thì từ nay về sau ta chỉ việc
dùng rdf:Phone thay cho “ />Định danh một chủ thể: Chúng ta dùng cú pháp sau để biểu diễn một bộ ba
{subject,predicate,object}
Ví dụ:
{person-1, name, An}
{person-1, phone, 0909213456}
Và biểu diễn ví dụ trên trong tài liệu RDF :
<rdf :RDF xmlns:rdf=„ /><rdf :Description rdf:about= „#person-1‟>
<rdf :Name rdf:literal= „An‟>
<rdf :Phone rdf:literal= „0909213456‟>
</rdf :Description>
</rdf :RDF>
Thuộc tính rdf:about dùng để chỉ định URI của một resource, còn #person-1 cho ta biết
rằng person-1 đã được khai báo trong cùng tài liệu này (trong ví dụ trên chúng ta
không chỉ ra person-1 đã được khai báo ở đâu).
Nếu person-1 khơng được khai báo thì chúng ta phải đưa URI của nó vào để sử dụng
hoặc là dùng namespace để đại diện cho URI đó.
Chúng ta dùng thuộc tính rdf :ID để gán định danh cho một tài nguyên :
<rdf :Description rdf :ID= “person-1”>

<rdf:type rdf:resource=“ /></rdf :Description>
Ở đây, tài nguyên đã được
định danh bởi person-1. Thuộc tính ID giúp cho chúng ta sử dụng tài nguyên person-1
mà không phải dùng lại URI của nó dài dịng mà phức tạp.
1.1.4.2 RDFS (RDF - Schema)
RDF-Schema là một ngôn ngữ Ontology cơ bản. Nó được phát triển ở tầng trên của
RDF cho nên bản thân RDF-Schema cũng chính là RDF, nó được mở rộng từ RDF và
bổ sung thêm các tập từ vựng để hỗ trợ cho việc xây dựng các Ontology được dễ dàng.
Như chúng ta đã biết, ngôn ngữ RDF chỉ giúp cho thông tin được thể hiện ở dạng bộ
11


ba theo đúng mơ hình RDF chứ thơng tin vẫn chưa thể hiện gì về mặt ngữ nghĩa. Do
đó, xây dựng RDFS là điều cần thiết để hình thành nên ngữ nghĩa cho thông tin, là cơ
sở để xây dựng các cơng cụ tìm kiếm ngữ nghĩa. RDFS và RDF có mối liên hệ tương
đối gần gũi nên đơi lúc ta gọi ngơn ngữ này là RDF/RDFS.

Hình 1.3 So sánh giữa RDF và RDFS
Trong hình vẽ chúng ta thấy, ở tầng RDF chỉ biểu diễn được thông tin ở dạng bộ ba.
Đến tầng RDFS, thông tin đã được phân loại rõ ràng. Chẳng hạn như Quan Thanh Tho
có kiểu là Lecturer và Lecturer là lớp con của Academic Staff…
Các lớp và thuộc tính trong RDF/RDFS:
 RDF/RDFS định nghĩa 13 lớp cơ bản:
rdfs :Resource (Chỉ định đây là một tài nguyên)
rdfs :Class (Dùng để khởi tạo một lớp)
rdfs :Literal (Lớp các giá trị nguyên thủy: chuỗi, số nguyên…)
rdfs :XMLLiteral
rdfs :Container
rdfs :ContainerMembershipProperty
12



rdf :Property (Cho biết tài nguyên thuộc lớp này là một thuộc tính - property)
rdf :Statement (Cho biết tài nguyên thuộc lớp này là một phát biểu - statement)
rdf :Bag
rdf :Seq
rdf :Alt
rdf :list (Lớp danh sách RDF)
rdf :Container
 Và một số thuộc tính:
rdf :type (Xác định kiểu cho một tài nguyên)
rdfs :subClassOf (Cho biết là „lớp con của‟)
rdfs:subPropertyOf („Thuộc tính con của‟ thuộc tính)
rdfs:domain (Chỉ định vùng)
rdfs :range (Chỉ định tầm vực)
rdfs:label (Gán nhãn cho một tài nguyên)
rdfs:comment (Chú thích)
rdf :member (Thành viên của một lớp chứa - container)
rdf :first (Phần tử đầu tiên trong một danh sách RDF)
rdf :rest (Danh sách các phần tử cịn lại)
rdfs :seeAlso (Các thơng tin bổ sung)
rdfs :isDefinedBy (Được định nghĩa bởi)
rdf :value (Gán một giá trị nào đó cho chủ thể)
rdf :subject (Chủ thể của một phát biểu)
rdf :predicate (Thuộc tính của một phát biểu)
rdf :object (Giá trị thuộc tính của một phát biểu)
Với những lớp và thuộc tính được liệt kê trên đây, RDF/RDFS đủ mạnh để xây dựng
các Ontology. Tuy nhiên chứa đựng nhiều hạn chế như là chưa hỗ trợ tốt về mặt suy
luận, cũng như chưa có ràng buộc về kiểu và số yếu tố... mà các ngôn ngữ thế hệ sau
sẽ khắc phục (chúng ta sẽ bàn về điều này trong phần OWL).

Các lớp và thuộc tính thường dùng trong RDF/RDFS chủ yếu là: Resource, Class,
Property, type, label, subClassOf, subPropertyOf, domain, và range. Trong đó domain
là miền tài ngun sử dụng thuộc tính đó, cịn range là phạm vi giá trị có thể gán cho
thuộc tính đó. Ví dụ ta có lớp thuộc tính là hasChild thì domain của hasChild là lớp
Person, còn range là lớp số nguyên dương chẳng hạn (số con từ 1 trở lên).
1.1.4.3. OWL (Ontology Web Language)
OWL là ngôn ngữ Ontology khá mạnh, được ra đời sau RDFS nên biết kế thừa những
lợi thế của ngôn ngữ này đồng thời bổ sung thêm nhiều yếu tố giúp khắc phục được
những hạn chế của RDFS. OWL giúp tăng thêm yếu tố logic cho thông tin và khả năng
phân loại, ràng buộc kiểu cũng như một số yếu tố tương đối mạnh.
Trong OWL có thêm một số thuộc tính hỗ trợ suy luận và ràng buộc.
13


 Hỗ trợ suy luận
 Tính chất bắc cầu: Nếu như chúng ta có một lớp thuộc tính “contain” và gán cho nó
thuộc tính owl:transitivePropertive thì thuộc tính “contain” này sẽ có tính chất bắc cầu.
Giả sử ta có thơng tin A contain B và B contain C, thì hệ thống sẽ tự suy luận ra một
thông tin khác là A contain C, và đây là biểu diễn thuộc tính contain trong OWL:
{owl:TransitiveProperty
{rdf:ID,"contain"}}
 Tính chất đảo ngược: Nếu A có thuộc tính hasParent là B, thì suy ra B có thuộc tính
hasChild là A.
{owl:OjectProperty
{Rdf:ID, „hasChild‟}
{owl:inverseOf, #hasParent}}
 Hỗ trợ ràng buộc
 Ràng buộc kiểu: Giả sử ta đã có lớp Human, thừa kế từ hai lớp này là Man và
Woman. Ta muốn một đối tượng thuộc lớp Man thì khơng thể thuộc lớp Woman và
ngược lại.

{owl :Class
{rdf :about, #Man}
{owl :disjointWith, #Woman}}
 Ràng buộc số yếu tố: Ta muốn một người thì chỉ có một cha và một mẹ. Tức thuộc
tính hasParent luôn được gán số yếu tố là 2.
{owl :Restriction
{owl :onProperty, #hasParent}
{owl :cardinality, 2}}
Trên đây là một vài ví dụ mà trong RDFS khơng thể làm được. Rõ ràng OWL có nhiều
ưu điểm hơn trong việc xây dựng hệ thống Ontology thơng minh và có phân loại tốt.
Với những đặc điểm đó, OWL ngày nay đã trở thành ngơn ngữ Ontology chính thức
cho việc xây dựng và phát triển các hệ thống Semantic Web.
1.1.4.4. DAML + OIL (DARPA Agent Markup Language + Ontology Inference
Layer)
DAML + OIL là kết quả từ hai dự án nghiên cứu độc lập với nhau là DAML và OIL
nhằm khắc phục những hạn chế về kiểu dữ liệu trong các ngơn ngữ Ontology trước đó
là RDF, RDFS. DAML + OIL (gọi tắt là DAML) là ngôn ngữ đánh dấu cho các tài
nguyên trên Web, có hỗ trợ suy luận. Ngơn ngữ này được xây dựng có kế thừa từ các
chuẩn của W3C như XML, RDF, RDFS... Một số điểm đáng chú ý của ngôn ngữ này
là:

14


 Cho phép giới hạn các kiểu dữ liệu được định nghĩa trong XML Schema hay
bởi người dùng. Trong DAML, một thuộc tính có thể nhận giá trị trên nhiều khoảng
khác nhau, tạo nên tính uyển chuyển trong việc mơ tả dữ liệu.
 Cho phép định nghĩa thuộc tính unique để xác định các đối tượng.
 Cho phép mô tả các quan hệ như hoán đổi và bắc cầu.
DAML sau đó tiếp tục trở thành nền tảng cho một ngơn ngữ Ontology khác là OWL.

DAML về cơ bản rất giống với OWL (ngoại trừ tên một số ít thuật ngữ, cú pháp được
sửa đổi), tuy nhiên khả năng mô tả các ràng buộc kém hơn. Theo thống kê, đã có
khoảng 5 triệu phát biểu DAML từ hơn 20.000 Website trên Internet vào năm 2002.
1.1.5. Công cụ phát triển Ontology
Về lý thuyết, người xây dựng và phát triển Ontology có thể khơng cần các cơng cụ hỗ
trợ, có thể thực hiện trực tiếp bằng các ngôn ngữ. Tuy nhiên, sẽ không khả thi khi
Ontology có kích thước lớn và cấu trúc phức tạp. Thêm vào đó, việc xây dựng và phát
triển Ontology khơng chỉ địi hỏi việc tạo cấu trúc lớp phân cấp, định nghĩa các thuộc
tính, ràng buộc... mà cịn bao hàm việc giải quyết các bài toán liên quan trên nó.
Có rất nhiều bài tốn liên quan đến một hệ thống Ontology như:
 Trộn hai hay nhiều Ontology.
 Chuẩn đốn và phát hiện lỗi.
 Kiểm tra tính đúng đắn và đầy đủ.
 Ánh xạ qua lại giữa các Ontology.
 Suy luận trên Ontology.
 Sao lưu và phục hồi một Ontology.
 Xóa, sửa và tinh chỉnh các thành phần bên trong Ontology.
 Tách biệt Ontology với ngôn ngữ sử dụng (DAML, OWL...).
Hiện có rất nhiều cơng cụ có khả năng hỗ trợ người thiết kế giải quyết những bài toán
liên quan. Có thể kể ra một số như: Sesame, Protégé, Ontolingua, Chimaera, OntoEdit,
OidEd, Apollo, RDFedt, WebODE, KAON, ICOM, DOE, WebOnto...
Phần mềm Protégé: Đây là bộ phần mềm mã nguồn mở Java được nghiên cứu và phát
triển từ năm 1998 bởi nhóm nghiên cứu của Mark Musen thuộc đại học Stanford,
California nhằm quản lý các thông tin trong lĩnh vực sinh y học. Đây là dự án được
nhận được sự quan tâm và tài trợ từ rất nhiều tổ chức, trong đó có Bộ Quốc Phịng Mỹ.
Hiện nay, nó có một cộng đồng hàng nghìn người sử dụng và đã có rất nhiều miền ứng
dụng khác nhau sử dụng sự hỗ trợ của công cụ này.

15



Hình 1.4 Giao diện phần mềm Protégé
Mã nguồn Protégé có thể tìm thấy tại website: />Chức năng nổi bật nhất của phần mềm này là cho phép người dùng sử dụng tạo ra các
ontology để phát triển Web Semantic theo đúng chuẩn của ngơn ngữ W3C OWL.
Protégé có hai phiên bản OWL và API. Protégé-OWL được phát triển dựa trên hai yêu
cầu chính : định nghĩa các đối tượng và quan hệ tồn tại giữa chúng
Các đối tượng xây dựng chính của Protégé là:
- Classes - tổ chức các quan hệ tham chiều và các kiểu thực thi.
- Axioms - mơ hình câu lệnh đúng
- Instances - các thể hiện, các thành phần của đối tượng.
- Domain - giới hạn của ontology
- Vocabulary - các lớp và khai báo.

Hình 1.5 Giao diện đồ họa phần mềm Protég
16


Protégé cung cấp một số điểm mở rộng nơi các nhà phát triển có thể chủ động thêm
các thành phần mà ta thường gọi là plug-ins.
Protégé phát triển để tích hợp các cơng cụ

Hình 1.6 Protégé tích hợp cơng cụ OWL Viz
1.1.6. Phương pháp xây dựng ontology
Dựa trên các bước xây dựng ontology của Noy và McGuinness ta có sự tỉnh gọn
công việc trong mỗi bước như sau:
- Bước 1: Xác định mục đích phát triển ontology.
- Bước 2: Năm bắt kỹ thuật xây dựng ontology.
Bước này gom ba giai đoạn như sau:
+ Xác định phạm vi của ontology
+ Chọn phương thức năm bắt ontology

+ Định nghĩa các khái niệm trong ontology
- Bước 3: Xem xét sử dụng lại các ontology đang tồn tại.
- Bước 4: Mã hoả ontology
Lựa chọn trình biên tập ontology dựa trên các yêu cầu của lĩnh vực và chức năng
của ontology. Mã hóa ontology là tiến trình lặp, gồm các bước con sau:
+ Mã hóa ontology tổng quát.
+ Định nghĩa lớp.
+ Sắp xếp các lớp theo cây phân cấp
+ Định nghĩa thuộc tỉnh và mô tả giá trị của thuộc tỉnh
- Bước 5. Cải tiến ontology
Bao gồm hai giai đoạn: Cải tiến mã hóa bên trong (intra-coding): cải tiến trong
q trình mã hóa. Trong khi mã hóa, nếu phát hiện ra lỗi hoặc yêu cầu mới, mã cần
17


được cải tiến để hiệu chính hoặc thực hiện yêu cầu mới đó. Cải tiến mã hóa bên ngồi
(extra-coding) hiệu chỉnh lỗi phát hiện được trong quá trình kiểm thử, và những mở
rộng của ontology theo các phân hệ ứng dụng.
- Bước 6: Kiểm thử. Phát hiện nhược điểm của ontology
- Bước 7: Duy trì
Thực hiện các việc hiệu chính, thích ứng hoặc hồn tất ontology. Hiệu chinh là
xem xét vấn để mắc phải khi truy vẫn ontology và hiệu chỉnh ontology để khắc phục
các vấn đề này Thích ứng bao gồm việc điều chỉnh ontology theo các yêu cầu mới phát
sinh. Hoàn tất ontology là phát triển cải tiến ontology trong tương lai.

Hình 1.7 Xây dựng ontology với phàn mềm Protégé
1.2. TỔNG QUAN VỀ SEMANTIC WEB
John Naisbitt đã nói:”Chúng ta đang chìm ngập trong thơng tin nhưng lại khát
khao tri thức”. World Wide Web (gọi tắt là Web ) đã trở thành một kho tàng thông tin
khổng lồ của nhân loại và là một môi trường chuyển tải thông tin không thể thiếu được

trong thời đại công nghiệp 4.0. Sự phổ biến và bùng nổ thông tin trên Web đặt ra
những thách thức mới, làm thế nào để khai thác được thông tin trên Web một cách hiệu
quả, mà cụ thể là làm thế nào để máy tính có thể trợ giúp xử lý tự động được chúng.
Muốn vậy, trước hết máy tính phải hiểu được thơng tin trên các tài liệu Web, trong khi
thế hệ Web hiện tại thông tin được biểu diễn dưới dạng chỉ con người mới đọc hiểu
được.
Các chuyên gia dự đoán, bề nổi của Web (Surface Web) chứa đến hàng chục tỷ
trang tài liệu trong khi, ở phần sâu của Web thì chứa đến ngàn tỷ trang tài liệu. Có
khoảng hơn nửa số thơng tin này nằm trong các cơ sở dữ liệu có chủ đề riêng biệt.
Nhưng hiện nay, hầu hết các công cụ tìm kiếm tài liệu trên Web được coi là hiệu quả
nhất cũng chủ yếu tìm kiếm được trên bề nổi của Web. Trong khi ở tầng sâu của Web
chứa một khối lượng thông tin khổng lồ và thường rất có giá trị thì rất khó khăn tìm
kiếm. Bên cạnh đó, các trang Web hiện nay có rất ít đường liên kết với các trang Web
khác nên việc tìm kiếm là khó khăn. Ngồi ra, thơng tin tìm kiếm được khơng theo chủ
đề mà chỉ là vấn đề tìm thoả theo từ khố đơn thuần, kết quả tìm kiếm phải do con
người chọn lại theo chủ đề mong muốn. Những vấn đề này đã thúc đẩy sự ra đời của ý
18


×