Tải bản đầy đủ (.pdf) (150 trang)

Nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.45 MB, 150 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Vũ Ngọc Trình

NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỌC ONTOLOGY
VÀ ỨNG DỤNG TRONG MIỀN DẦU KHÍ

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Vũ Ngọc Trình

NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỌC ONTOLOGY
VÀ ỨNG DỤNG TRONG MIỀN DẦU KHÍ

Chuyên ngành: Hệ thống Thông tin
Mã số: 9480104. 01

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Hà Quang Thụy
2. PGS.TSKH. Nguyễn Hùng Sơn

Hà Nội – 2019




LỜI CAM ĐOAN

Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi.
Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các
đồng tác giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là
trung thực và chưa từng được công bố trong các công trình nào khác.
Nghiên cứu sinh

Vũ Ngọc Trình

i


LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn Hệ thống thông tin – Khoa Công nghệ
thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội dưới sự hướng
dẫn khoa học của PGS.TS. Hà Quang Thụy và PGS.TSKH. Nguyễn Hùng Sơn.
Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy và
thầy Nguyễn Hùng Sơn, những người đã đưa tôi tiếp cận và đạt được những
thành công trong lĩnh vực nghiên cứu của mình. Tôi đặc biệt gửi lời cảm ơn tới
thầy Hà Quang Thụy đã luôn tận tâm, động viên, khuyến khích và chỉ dẫn tôi
hoàn thành được bản luận án này.
Tôi xin bày tỏ lòng biết ơn tới PGS.TS. Nguyễn Ngọc Hóa, TS. Trần Mai
Vũ, TS. Trần Trọng Hiếu, đã nhiệt tình giúp đỡ, chia sẻ các kinh nghiệm nghiên
cứu trong quá trình tôi thực hiện luận án.
Tôi xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa học
thuộc Trường Đại học Công nghệ (đặc biệt là các thành viên của Phòng thí
nghiệm khoa học dữ liệu và công nghệ tri thức – DS&KTlab, và Bộ môn Các Hệ

thống Thông tin) - Đại học Quốc gia Hà Nội đã giúp đỡ về chuyên môn và tạo
điều kiện thuận lợi cho tôi trong suốt thời gian học tập và nghiên cứu.
Tôi xin bày tỏ lòng cảm ơn chân thành tới các cộng sự đã cùng tôi thực
hiện các công trình nghiên cứu và các bạn đồng nghiệp đã giúp đỡ, trao đổi và
chia sẻ những kinh nghiệm về chuyên môn, đóng góp các ý kiến quý báu cho tôi
trong quá trình nghiên cứu.
Tôi xin trân trọng cảm ơn các thầy cô trong hội đồng chuyên môn đã đóng
góp các ý kiến quý báu để tôi hoàn thiện luận án.
Tôi cũng bày tỏ lòng cảm ơn sâu sắc tới TS. Nguyễn Anh Đức, Viện
trưởng Viện Dầu khí Việt Nam và Ban lãnh đạo Viện Dầu khí Việt Nam (Tập
đoàn Dầu khí Quốc gia Việt Nam) đã tạo kiện thuận lợi cho tôi trong quá trình
nghiên cứu; cảm ơn các đồng nghiệp trong Ban CNTT thuộc Viện Dầu khí Việt
Nam đã luôn ủng hộ, quan tâm và động viên tôi.
Tôi luôn biết ơn những người thân trong gia đình, bố mẹ nội, bố mẹ ngoại,
các anh chị em đã luôn chia sẻ khó khăn, động viên và là chỗ dựa tinh thần vững
chắc cho tôi trong suốt thời gian qua.
ii


MỤC LỤC
LỜI CAM ĐOAN........................................................................................................ I
LỜI CẢM ƠN ........................................................................................................... II
MỤC LỤC ................................................................................................................ III
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .............................................. VI
DANH MỤC CÁC BẢNG.................................................................................... VIII
DANH MỤC CÁC HÌNH VẼ.................................................................................. IX
MỞ ĐẦU .................................................................................................................... 1
CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ ONTOLOGY, HỌC ONTOLOGY VÀ
ĐỘ ĐO GOOGLE ....................................................................................... 10
1.1. GIỚI THIỆU CHUNG VỀ ONTOLOGY ..................................................... 10

1.1.1. Khái niệm ontology ................................................................................. 10
1.1.2. Phân loại ontology ................................................................................... 12
1.1.3. Một ví dụ về ontology miền .................................................................... 14
1.1.4. Nguyên lý và quy trình thiết kế ontology miền....................................... 17
1.1.5. Công cụ xây dựng ontology .................................................................... 20
1.2. GIỚI THIỆU CHUNG VỀ HỌC ONTOLOGY ........................................... 21
1.2.1. Khung nhìn học ontology ........................................................................ 21
1.2.2. Kỹ thuật và tài nguyên được sử dụng trong học ontology ...................... 25
1.2.3. Liên hệ nghiên cứu của luận án vào các khung nhìn khái quát về học
ontology ........................................................................................................ 26
1.2.4. Bộ các độ đo đánh giá mô hình phân lớp ................................................ 27
1.3. ĐỘ ĐO KHOẢNG CÁCH GOOGLE ........................................................... 29
1.3.1. Độ phức tạp Kolmogorov, khoảng cách thông tin và khoảng cách
thông tin chuẩn hóa ...................................................................................... 30
1.3.2. Khoảng cách nén chuẩn hóa .................................................................... 32
1.3.3. Khoảng cách Google và tính chất ........................................................... 33
1.4. Kết luận Chương 1 ......................................................................................... 36
CHƯƠNG 2. MÔ HÌNH HỌC ONTOLOGY TÍCH HỢP VÀ ĐOÁN NHẬN
THỰC THỂ ................................................................................................. 38
2.1. PHÁT BIỂU BÀI TOÁN VÀ MÔ HÌNH GIẢI QUYẾT ............................. 38
2.1.1. Phát biểu bài toán .................................................................................... 39
2.1.2. Tập tài nguyên xây dựng ontology biểu hiện y sinh mở rộng ................ 39
2.1.3. Ba tài nguyên biểu hiện y sinh làm tập dữ liệu kiểm thử........................ 41
2.1.4. Mô hình hai pha giải quyết bài toán ........................................................ 43
2.2. Thành phần xây dựng và tích hợp các kho ngữ liệu thực thể biểu hiện y
sinh ................................................................................................................... 44
iii


2.2.1. Mô hình tích hợp hai ontology biểu hiện y sinh ..................................... 44

2.2.2. Thành phần xây dựng kho ngữ liệu HPO_NC ........................................ 44
2.2.3. Thành phần xây dựng kho ngữ liệu MPO_NC ....................................... 47
2.2.4. Thành phần phát hiện quan hệ bắc cầu (bổ sung quan hệ) trong
ontology kết quả ........................................................................................... 49
2.2.5. Kết quả tích hợp hai ontology ................................................................. 51
2.3. XÂY DỰNG MÔ HÌNH HỌC MÁY MAXIMUM ENTROPY – BEAM
SEARCH NHẬN DẠNG THỰC THỂ BIỂU HIỆN Y SINH ........................ 51
2.3.1. Mô hình học máy Maximum Entropy ..................................................... 52
2.3.2. Mô hình học máy Maximum Entropy - Beam Search nhận dạng thực
thể biểu hiện y sinh....................................................................................... 57
2.3.3. Dữ liệu thực nghiệm và công cụ ............................................................. 57
2.3.4. Kết quả và đánh giá ................................................................................. 59
2.3.5. Phân tích lỗi ............................................................................................. 60
2.4. KẾT LUẬN CHƯƠNG 2 .............................................................................. 62
CHƯƠNG 3. KỸ THUẬT HỌC ONTOLOY DỰA TRÊN CÁC ĐỘ ĐO ............. 63
3.1. MỘT MÔ HÌNH HỌC ONTOLOGY THEO TỪ VỰNG DỰA TRÊN ĐỘ
ĐO KHOẢNG CÁCH GOOGLE.................................................................... 63
3.1.1. Phát biểu bài toán .................................................................................... 63
3.1.2. Mô hình đối sánh các thuộc tính của hai khái niệm thuộc hai ontology
miền .............................................................................................................. 64
3.1.3. Mô hình đối sánh các khái niệm và học hai ontology dựa trên độ đo
khoảng cách Google ..................................................................................... 65
3.1.4. Ví dụ minh họa đối sánh khái niệm ........................................................ 69
3.2. MÔ HÌNH HỌC ONTOLOGY ANH - VIỆT DỰA TRÊN KỸ THUẬT
HỌC MÁY VỚI CHỈ DỮ LIỆU DƯƠNG ...................................................... 71
3.2.1. Wikipedia là một nguồn tài nguyên xây dựng ontology ......................... 71
3.2.2. Phát biểu bài toán .................................................................................... 72
3.2.3. Chiến lược hai bước phân lớp dữ liệu với chỉ dữ liệu dương ................. 74
3.2.4. Mô hình đề xuất....................................................................................... 78
3.2.5. Thực nghiệm và đánh giá kết quả ........................................................... 86

3.2.6. Phát triển mô hình đề xuất....................................................................... 92
3.3. KẾT LUẬN CHƯƠNG 3 .............................................................................. 96
CHƯƠNG 4. KHUNG HỢP NHẤT NIỀM TIN THU NHẬN Ý KIẾN
CHUYÊN GIA MIỀN ................................................................................. 97
4.1. THU NHẬN Ý KIẾN CHUYÊN GIA TRONG XÂY DỰNG
ONTOLOGY ................................................................................................... 97
4.1.1. Vai trò của chuyên gia trong xây dựng ontology .................................... 97
4.1.2. Mô hình tranh luận trong xây dựng ontology ......................................... 98

iv


4.2. CƠ SỞ NIỀM TIN PHÂN TẦNG, HỢP NHẤT NIỀM TIN VÀ KHUNG
TRANH LUẬN................................................................................................ 99
4.2.1. Cơ sở niềm tin phân tầng......................................................................... 99
4.2.2. Hợp nhất niềm tin .................................................................................. 101
4.2.3. Khung tranh luận ................................................................................... 102
4.3. KHUNG HỢP NHẤT NIỀM TIN DỰA TRÊN TRANH LUẬN .............. 104
4.3.1. Giao thức tranh luận cho hợp nhất niềm tin .......................................... 104
4.3.2. Lập luận hợp nhất niềm tin.................................................................... 104
4.3.3. Mô hình hợp nhất niềm tin dựa trên tranh luận..................................... 106
4.4. ÁP DỤNG VÀO ONTOLOGY DẦU KHÍ ANH - VIỆT ........................... 111
4.5. KẾT LUẬN CHƯƠNG 4 ............................................................................ 115
CHƯƠNG 5. MỘT QUY TRÌNH XÂY DỰNG ONTOLOGY DẦU KHÍ ANH VIỆT TẠI VIỆN DẦU KHÍ VIỆT NAM ................................................. 116
5.1. ĐẶT VẤN ĐỀ ............................................................................................. 116
5.2. MỘT QUY TRÌNH BẢY BƯỚC XÂY DỰNG ONTOLOGY DẦU KHÍ
ANH - VIỆT .................................................................................................. 119
5.2.1. Bước 1. Xác định mục đích và phạm vi của Ontology dầu khí Anh Việt ............................................................................................................. 119
5.2.2. Bước 2. Thu thập tài nguyên Ontology dầu khí Anh – Việt sẵn có ...... 121
5.2.3. Bước 3. Tích hợp các ontology dầu khí Tiếng Anh .............................. 121

5.2.4. Bước 4. Làm giàu khái niệm dầu khí Tiếng Việt tiềm năng ................. 121
5.2.5. Bước 5. Đối sánh khái niệm miền dầu khí Tiếng Việt.......................... 122
5.2.6. Bước 6. Bổ sung thành phần Tiếng Việt vào ontology dầu khí Tiếng
Anh ............................................................................................................. 122
5.2.7. Bước 7. Hiệu chỉnh ontology dựa trên khung hợp nhất niềm tin qua
tranh luận thu thập ý kiến chuyên gia ........................................................ 122
5.3. TRIỂN KHAI THỰC HIỆN ........................................................................ 123
5.3.1. Thu thập và tiền xử lý dữ liệu ............................................................... 123
5.3.2. Thực thi ontology dầu khí Anh - Việt trên hệ thống máy tính.............. 125
5.4. KẾT QUẢ .................................................................................................... 126
5.5. KẾT LUẬN CHƯƠNG 5 ............................................................................ 126
KẾT LUẬN ............................................................................................................ 127
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI
LUẬN ÁN ................................................................................................. 130
TÀI LIỆU THAM KHẢO ...................................................................................... 131
Tài liệu tiếng Việt ............................................................................................ 131
Tài liệu tiếng Anh ............................................................................................ 131

v


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Kí hiệu

Tiếng Anh

Tiếng Việt

AI


Artificial Intelligence

Trí tuệ nhân tạo

ML

Machine Learning

Học máy

OL

Ontology Learning

Học ontology

TM

Text Mining

Khai phá văn bản

DO

Domain Ontology

Ontology miền

Knowledge Management
System


Hệ thống quản lý tri thức

KS

Knowledge Sharing

Chia sẻ tri thức

SE

Search Engine

Máy tìm kiếm

Maximum Entropy - Beam
Search

Entropy cực đại – Tìm kiếm
chùm

Support Vector Machine

Máy vectơ hỗ trợ

Iterative-SVM

Lặp - SVM

NB


Naive Bayes

Thống kê Naive Bayes

kNN

k Nearest Neighbour

k láng giềng gần nhất

POS

Part of Speech

Từ loại

LPU

Learning with Positive and
Unlabeled data

Học với dữ liệu dương và dữ
liệu chưa gán nhãn

P

Precision

Độ chính xác


R

Recall

Độ hồi tưởng

Harmonic mean

Trung bình điều hòa, là sự kết
hợp của độ chính xác và độ hồi
tưởng

Reliable Negative

Dữ liệu âm tin cậy

KMS

ME-BS
SVM
I-SVM

F1;
F1-Score
RN

vi



TF-IDF
NID
NCD

NCDG

PVN
VPI

Term Frequency – Inverse
Document Frequency

Trọng số về tần suất và độ quan
trọng của từ

Normalized Information
Distance

Khoảng cách thông tin được
chuẩn hóa

Normalized Compress Distance

Khoảng cách nén được chuẩn
hóa

Normalized Compress Google
Distance

Khoảng cách nén Google được

chuẩn hóa (Khoảng cách
Goolge chuẩn)

Petrovietnam; Vietnam Oil and
Gas Group

Tập đoàn Dầu khí quốc gia
Việt Nam

Vietnam Petroleum Institute

Viện dầu khí Việt Nam

vii


DANH MỤC CÁC BẢNG
Bảng 1.1. Ma trận nhầm lẫn của một bộ phân lớp ...............................................27
Bảng 2.1. Quan hệ giữa tài liệu OMIM có chỉ số OMIM ID: 600361 với các thực
thể biểu hiện người (theo chỉ số) nhận được từ
phenotype_annotation.tab ...................................................................45
Bảng 2.2. Một số thông tin thống kê về các ontology HPO_NC, MPO_NC và
HPO_MPO_NC ...................................................................................51
Bảng 2.3. Các đặc trưng biểu diễn dữ liệu được sử dụng trong luận án ..............58
Bảng 2.4. Đánh giá các kết quả (tính theo %)......................................................60
Bảng 2.5. Số lượng trung bình của các thẻ trên thực thể biểu hiện trong tất cả các
tập dữ liệu ............................................................................................61
Bảng 3.1. Ma trận khoảng cách giữa các thuộc tính trong hai ontology .............70
Bảng 3.2. Kết quả các độ đo P, R, F của các thuật toán ......................................88
Bảng 3.3. Sự phụ thuộc của độ đo F trong thuật toán ROC/ISVM và DISTANCE

vào tỷ lệ  ............................................................................................88
Bảng 3.4. Ví dụ về một số khái niệm mới và mô tả có thể đưa thêm vào từ điển
dầu khí. ................................................................................................89
Bảng 4.1. Phương thức thi hành các pha xây dựng ontology cơ sở miền [38] ....98
Bảng 4.2. Thứ tự ưu tiên đối với các yêu cầu của các chuyên gia (lớp cao hơn thì
được ưu tiên hơn) ..............................................................................108

viii


DANH MỤC CÁC HÌNH VẼ
Hình 0.1. Một biểu diễn số lượng ấn phẩm khoa học có chứa chính xác cụm từ
“ontology learning” trên ScienceDirect, Springer và Google Scholar .................. 4
Hình 0.2. Phân bố các chủ đề trong các chương của luận án................................. 8
Hình 1.1. Các tầng đối tượng trong ontology và ví dụ [11][17], [32] .................11
Hình 1.2. Ví dụ về ontology dầu khí tiếng Việt ...................................................14
Hình 1.3. Hai khung quy trình xây dựng ontology phổ biến và liên hệ giữa chúng
[39] .......................................................................................................................18
Hình 1.4. Một khung nhìn học ontology theo các nhiệm vụ [79] ........................22
Hình 1.5. Một khung nhìn các thành phần trong một hệ thống học ontology [17],
[35], [78]...............................................................................................................24
Hình 1.6. Minh họa độ hồi tưởng và độ chính xác. R là tập ví dụ kiểm thử được
bộ phân lớp gán nhãn dương, L là tập vị dụ kiểm thử thực tế có nhãn dương [5].
..............................................................................................................................28
Hình 2.1. Mô hình hai pha giải quyết bài toán .....................................................43
Hình 2.2. Mô hình xây dựng và tích hợp các kho ngữ liệu thực thể biểu hiện ....44
Hình 2.3. Mô hình xây dựng kho ngữ liệu HPO_NC các thực thể biểu hiện người
..............................................................................................................................45
Hình 2.4. OMIMID 600361 có quan hệ với chín PubMedID ..............................46
Hình 2.5. Mô hình xây dựng kho ngữ liệu MPO_NC về các thực thể biểu hiện

động vật có vú ......................................................................................................48
Hình 2.6. Mô hình xây dựng kho ngữ liệu MPO_NC về các thực thể biểu hiện
động vật có vú ......................................................................................................49
Hình 2.7. Suy diễn quan hệ giữa các thực thể thông qua kết nối hai kho ngữ liệu
..............................................................................................................................50
Hình 2.8. Mô hình học máy ME-BS nhận dạng thực thể y sinh từ văn bản
PubMed ................................................................................................................56
ix


Hình 3.1. Mô hình đối sánh tập thuộc tính của hai khái niệm thuộc hai ontology
miền (Procedure Matching (c1, c2)) ....................................................................64
Hình 3.2. Mô hình đối sánh các khái niệm thuộc hai ontology miền ..................66
Hình 3.3. Minh họa Wikipedia Tiếng Việt ..........................................................72
Hình 3.4. Minh họa từ điển dầu khí Anh – Việt: Cột bên phải mô tả một khái
niệm dầu khí tiếng Việt ........................................................................................73
Hình 3.5. Lược đồ tìm tập dữ liệu “âm tin cậy” trong chiến lược hai bước [56] 77
Hình 3.6. Mô hình học ontology khái niệm dầu khí Wikipedia tiếng Việt .........78
Hình 3.7. Sự phụ thuộc của độ đo F trong thuật toán ROC/ISVM và DISTANCE
vào tỷ lệ .............................................................................................................87
Hình 3.8. Mô hình triển khai thu nhận ý kiến chuyên gia ...................................94
Hình 4.1. Thủ tục xây dựng một ontology cơ sở miền [38].................................97
Hình 5.1. Quy trình bảy bước xây dựng ontology dầu khí Anh - Việt ..............118

x


MỞ ĐẦU
Tính cấp thiết của luận án
Ontology (được một số nhà nghiên cứu người Việt gọi là “bản thể học”

hoặc “bản thể luận” 1) là một thành phần tri thức nền tảng và mọi tri thức khác
cần được dựa trên và tham chiếu đến nó. Chính vì vậy, ontology được áp dụng
rộng khắp trong lĩnh vực trí tuệ nhân tạo (Artificial Intelligence: AI), quản lý tri
thức (Knowledge Management: KM), trong nhiều hệ thống ứng dụng và trong
rất nhiều miền ứng dụng khác nhau. Một khu vực ứng dụng ontology vô cùng
rộng lớn là trong các công cụ tìm kiếm (search engine) và chia sẻ tri thức
(knowledge sharing), ở đó, ontology hỗ trợ đắc lực hoạt động tìm kiếm có cấu
trúc, so sánh được và tùy chỉnh cao [7], [19], [32], [40], [76], [77].
Thuật ngữ “ontology” được các cộng đồng nghiên cứu – triển khai khác
nhau hiểu theo các ý nghĩa khác nhau. Có sự phân biệt thuật ngữ “Ontology” là
danh từ riêng (chữ cái “O” đầu tiên viết hoa) với “ontology” là danh từ chung
(chữ cái “o” đầu tiên viết thường và đây là một danh từ đếm được) [35]. Danh từ
riêng “Ontology” là được dành riêng cho cộng đồng nghiên cứu triết học, danh
từ chung “ontology” là được dành cho mọi cộng đồng sử dụng thuật ngữ này như
một kiểu thông tin đặc biệt hoặc một tạo tác (artifact) tính toán trình diễn tri
thức. Luận án này nghiên cứu “ontology” theo phương án danh từ chung, hay
“ontology” được hiểu là ontology tính toán (computational ontologies).
Định nghĩa ontology tính toán là một công việc hết sức khó khăn và nhiều
định nghĩa đã được đưa ra. Theo một khung nhìn phổ quát, ontology là một sản
phẩm trình diễn với thành phần đặc thù là một bảng phân loại biểu diễn tường
minh một tổ hợp các kiểu, các lớp và một số quan hệ giữa chúng [7]. Trong một
khung nhìn khoa học máy tính, ontology là một mô tả một cách hệ thống các
thực thể và các phương thức của chúng, các quy tắc cho phép mô tả một mô hình
cụ thể phù hợp với các thực thể và quy trình cho phép mô tả "tất cả" các thực thể
và quy trình này [71]. Theo cách hiểu thông dụng nhất, một ontology bao gồm

1

Do thuật ngữ “bản thể học” hoặc “bản thể luận” là các thuật ngữ có nguồn gốc vay mượn từ ngôn ngữ khác
mà không gợi nghĩa nhiều hơn thuật ngữ “ontology” cho nên luận án này sử dụng nguyên gốc “ontology”.


1


các thuật ngữ, các khái niệm quan trọng, phân loại các khái niệm, phân cấp các
khái niệm, các quan hệ giữa các khái niệm (bao gồm các ràng buộc quan trọng),
các tiên đề ứng dụng và các thể hiện cho các đối tượng kể trên.
Ontology được phân loại thành ontology triết học (philosophical
ontology), ontology miền (domain ontology), ontology mức cao (top-level
ontology), ontology tham chiếu (reference ontology) và ontology ứng dụng
(application ontology) [7]. Ngoại trừ ontology triết học, tất cả các loại ontology
đều thuộc về loại ontology miền.
Do phạm vi ứng dụng rộng rãi của ontology, xây dựng ontology là một bài
toán có tầm quan trọng đặc biệt, là một chủ đề nghiên cứu nhận được sự quan
tâm đặc biệt của các cộng đồng nghiên cứu – triển khai thuộc các ngành khoa
học đa dạng. Nhìn chung, quá trình xây dựng ontology bao gồm ba giai đoạn
(xác định mục đích và phạm vi, nắm bắt ontology và thực thi ontology) [39]. Các
nội dung đặc biệt quan trọng trong xây dựng ontology là (i) xác định mục đích
và phạm vi của ontology cần xây dựng, (ii) xác định các khái niệm/lớp, thực
thể/cá thể, quan hệ/phân cấp trong phạm vi ontology cần xây dựng, (iii) khai thác
các ontology sẵn có, và (iv) huy động tri thức và sự tham gia của các chuyên gia
miền [7], [39].
Hiện chưa có ontology tiếng Việt cho miền dầu khí, song một vài
ontology tiếng Việt cho các miền ứng dụng khác đã được xây dựng, điển hình là
ontology VN-KIM và thành phần ontology tiếng Việt trong hệ thống BioCasster.
VN-KIM [3], [63] được phát triển tại Đại học Bách khoa, Đại học Quốc gia Tp.
Hồ Chí Minh. Ontology này bao gồm 347 lớp thực thể và 114 quan hệ và thuộc
tính. Ontology VN-KIM bao gồm các lớp thực thể có tên phổ biến như
Con_người (Person), Tổ_chức (Organization), Tỉnh (Province), Thành_phố
(City)…, các quan hệ giữa các lớp thực thể và các thuộc tính của mỗi lớp thực

thể. Cơ sở tri thức của VN-KIM là một tập hợp các thực thể có tên phổ biến ở
Việt Nam và Quốc tế. Các thực thể thuộc về các miền chính như: Con người (các
nguyên thủ quốc gia, các giám đốc công ty, bác sỹ, nhà giáo, văn nghệ sỹ…); Tổ
chức, công ty (các tổ chức xã hội, giáo dục, công ty…); Đơn vị hành chính (các
tỉnh, thành phố, quận, huyện, phường, xã ở Việt Nam và các thành phố lớn trên
thế giới); Sông, núi (các sông, núi lớn ở Việt Nam và thế giới); Đường (các
đường lớn ở Hà Nội, TP. Hồ Chí Minh, các tỉnh lộ, quốc lộ); Điểm đặc biệt (các
2


di tích lịch sử, danh lam thắng cảnh, khu vui chơi giải trí nổi tiếng). BioCaster
[22], [23], [24], là một ontology trong lĩnh vực y tế được viết dưới nhiều ngôn
ngữ như Nhật, Thái, và Việt Nam. BioCaster là một dự án nghiên cứu nhằm
cung cấp chức năng tìm kiếm nâng cao và phân tích các tin tức trên Internet và
các tài liệu nghiên cứu liên quan, cho các nhân viên làm việc trong lĩnh vực y tế
cộng đồng, các thầy thuốc lâm sàng, và các nhà nghiên cứu trong lĩnh vực các
bệnh truyền nhiễm. Ontology BioCaster được Nigel Collier thuộc Viện Thông
tin Quốc gia Nhật Bản cùng các đồng nghiệp tại Viện các bệnh lây nhiễm Quốc
gia Nhật Bản, Viện Di truyền học Quốc gia Nhật Bản, Đại học Okayama, Đại
học Quốc gia TP.HCM và Đại học Kasetsarat phát triển. Dựa vào công nghệ
khai phá dữ liệu văn bản, dự án cung cấp các công cụ thông minh giúp người sử
dụng có được cái nhìn rõ ràng hơn về các đợt dịch bệnh đã xảy ra cũng như khả
năng bùng phát dịch. Ontology BioCaster chứa các thuật ngữ trên nhiều ngôn
ngữ, trong đó có 371 thuật ngữ tiếng Việt (các thuật ngữ liên quan đến bệnh,
virus, và các triệu chứng tại Việt Nam). Mặc dù ontology này có xử lý trích chọn
thông tin tiếng Việt, tuy nhiên, các quan hệ trong thành phần ontology này lại
được mô tả bằng tiếng Anh.
Theo C. Sammut và G.I. Webb [70], xây dựng ontology là một bài toán
đầy thách thức, nhiều tiếp cận xây dựng ontology khác nhau đã được sử dụng,
tuy nhiên, hầu hết các tiếp cận này cho đến nay chủ yếu vẫn sử dụng các phương

pháp thủ công. Học ontology (ontology learning) là cách tiếp cận bán tự động
xây dựng ontology dựa trên việc sử dụng các kỹ thuật khai phá văn bản (text
mining) hoặc/và học máy (machine learning). Học ontology phục vụ việc xác
định các khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp trong phạm vi tri thức
miền. Học ontology là một xu hướng có tính hiện đại và đầy thách thức trong
nghiên cứu xây dựng ontology [6], [17], [21], [25], [27], [35], [40], [46], [58],
[62], [67], [74], [78], [79], [80].
Học ontology là chủ để nghiên cứu nhận được sự quan tâm của cộng đồng
nghiên cứu. Hình 0.1 cung cấp một biểu diễn số lượng các công trình khoa học
trên ScienceDirect, Springer và Google Scholar giai đoạn 2006 – 2019 có chứa
chính xác cụm từ “ontology learning” trong tiêu đề ấn phẩm (với ScienceDirect

3


và Google Scholar Advanced Search “not include patents, not include citations”)
hoặc trong thông tin mô tả ấn phẩm (với Springer)2. Kết quả thống kê chỉ ra
hàng năm có tới hàng chục ấn phẩm chứa chính xác cụm từ “ontology learning”
ở tiêu đề (ScienceDirect và Google Scholar) hoặc ở thông tin mô tả (Springer).
Số lượng công bố là khá ổn định qua thống kê với ScienceDirect và Google
Scholar. Trong khi đó, số lượng công bố với Springer có xu thế giảm có thể có
nguyên nhân từ nguồn chứa cụm từ “ontology learning” hoặc sự phân chia chủ
đề “ontology learning” thành các chủ đề con chi tiết hơn.

Hình 0.1. Một biểu diễn số lượng ấn phẩm khoa học có chứa chính xác
cụm từ “ontology learning” trên ScienceDirect, Springer và Google Scholar
Xây dựng ontology và học ontology là chủ đề nghiên cứu của một số luận
án Tiến sỹ trên thế giới, chẳng hạn như [29], [34], [1]. Luận án Tiến sỹ của Z.
Dragisic [29] đề cập tới việc giải quyết vấn đề chưa hoàn thiện các ontology và
mạng ontology theo ba câu hỏi về cách thức hoàn thiện ontology và mạng

ontology chưa hoàn thiện, về thuận lợi và hạn chế khi sử dụng tương tác người
dùng vào việc hoàn thiện ontology và mạng ontology, về khả năng tích hợp
thành phần hoàn thiện ontology vào quá trình phát triển ontology. Tác giả hình
thức hóa vấn đề hoàn thiện cấu trúc “chung-riêng” (“is-a”) dựa trên logic mô tả
2

Kết quả trả về theo truy vấn cụm từ chính xác “ontology learning” vào ngày 20/6/2019.

4


(description logic) và phát triển hai thuật toán giải quyết vấn đề, phân tích thực
nghiệm đối với việc sử dụng tương tác người dùng và phát triển một phương
pháp dựa trên thuật toán phân cụm để giảm không gian tìm kiếm khi tích hợp
thành phần hoàn thiện vào quá trình phát triển ontology. Luận án Tiến sỹ của
Saira Andleeb Gillani [34] đề xuất một khung khai phá dữ liệu văn bản ProMine
(Prokex Text Mining) với dữ liệu đầu vào là mô hình quy trình nghiệp vụ được
trình diễn bằng các tệp tin XML. Dựa trên một ontology miền hạt giống (seed
domain ontology, còn được gọi là ontology miền mồi), bộ công cụ học ontology
tiến hành việc lọc và phân loại tri thức kết quả để làm giàu ontology miền hạt
giống nói trên [33]. Đến lượt mình, ontology miền hạt giống được sử dụng để
diễn giải và tư vấn về mô hình quy trình nghiệp vụ. Luận án Tiến sỹ của Trương
Hải Bằng [1] đề cập tới các giải pháp liên quan đến ontology mờ (chứa các khái
niệm, quan hệ... chưa rõ ràng, nhập nhằng, mâu thuẫn với nhau) dựa trên cơ sở
lý thuyết đồng thuận; luận án này chưa đề cập tới yếu tố tiếng Việt trong
ontology.
Tính chất thách thức cao của chủ đề nghiên cứu xây dựng ontology, yêu
cầu các phương pháp bán tự động xây dựng ontology hiện đại dựa trên khai phá
văn bản và học máy, tình trạng nghiên cứu xây dựng ontology tiếng Việt còn
mỏng đã tạo động lực nghiên cứu đối với luận án “Nghiên cứu một số mô hình

học ontology và ứng dụng trong miền dầu khí”.
Bài toán cần giải quyết trong luận án được phát biểu như sau: Cho trước
một từ điển Anh – Việt một miền ứng dụng, cần xây dựng một ontology AnhViêt miền ứng dụng nói trên. Luận án sử dụng tiếp cận học ontology dựa trên
việc khai thác các tài nguyên sẵn có (từ điển Anh-Việt miền, các ontology tiếng
Anh miền) để xác định các khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp
trong phạm ontology cần xây dựng với việc huy động tri thức và sự tham gia của
các chuyên gia miền.
W. Wong và cộng sự [79] cung cấp một khung nhìn khái quát về học
ontology từ văn bản. Khung nhìn này chứa ba khu vực là khu vực kết quả đầu ra,
khu vực bài toán học ontology và khu vực kỹ thuật và tài nguyên được sử dụng
để phục vụ các bài toán học ontology. Khu vực kết quả đầu ra của học ontology
bao gồm các thuật ngữ, các khái niệm, các quan hệ (quan hệ thứ bậc, quan hệ
không thứ bậc) và các tiên đề. Có bảy bài toán học ontology chính là Xử lý văn
5


bản và Trích xuất thuật ngữ cho kết quả là các thuật ngữ, Hình thức hóa khái
niệm và Gán nhãn khái niệm cho kết quả là các khái niệm, Xây dựng kiến trúc
cho kết quả là các quan hệ thứ bậc, bài toán Phát hiện quan hệ không thứ bậc và
Gán nhãn quan hệ không thứ bậc cho kết quả là các quan hệ không thứ bậc,
Trích xuất tiên đề kết quả là các tiên đề. Khu vực Kỹ thuật/Tài nguyên bao gồm
ba thành phần chính là kỹ thuật/tài nguyên logic, kỹ thuật/tài nguyên ngôn ngữ
học và kỹ thuật/tài nguyên thống kê. Với sáu lập luận, các tác giả nhận định rằng
sự đan xen giữa học ontology và sử dụng web là một xu thế tự nhiên và sử dụng
thông tin trên web để học ontology có nhiều triển vọng. Xu thế trên đây đã định
hướng vào các mô hình học ontology có sử dụng các tài nguyên Web trong luận
án (độ đo khoảng cách Googe, thông tin từ Wikipedia tiếng Việt, các công cụ
sánh thuật ngữ miền ứng dụng có sử dụng Web, v.v.).
Do đặc điểm bán tự động, học ontology thường bao gồm các thành phần
huy động sự tham gia của con người vào quá trình xây dựng ontology. Ví dụ,

khung xây dựng ontology cơ sở miền của S-H. Hsieh và cộng sự [38] chứa một
thành phần quan trọng thực hiện việc huy động các chuyên gia tham gia vào
công việc hiệu chỉnh lại các quan hệ thuật ngữ. Tích hợp ý kiến của nhiều
chuyên gia vào việc hiệu chỉnh quan hệ thuật ngữ để nhận được các quan hệ phù
hợp nhất là một bài toán rất có ý nghĩa. Theo định hướng này, luận án đề nghị
một khung hợp nhất niềm tin dựa trên tranh luận, cung cấp một cơ sở lý thuyết
nền tảng để triển khai các thành phần hệ thống trong thực tiễn.
Nghiên cứu của luận án hướng tới một số mục tiêu sau đây. Thứ nhất,
luận án hướng tới việc đề xuất một số mô hình học ontplogy dựa trên khai phá
dữ liệu văn bản và học máy kết hợp với việc sử dụng một số độ đo. Theo định
hướng này, luận án tập trung đề xuất các mô hình học ontology phát sinh thể
hiện và quan hệ, học ontology thông qua việc kết hợp các ontology sẵn có. Thứ
hai, luận án hướng tới việc đề xuất các mô hình hợp nhất được tri thức từ các
chuyên gia miền vào xây dựng ontology. Cuối cùng, luận án hướng tới việc xây
dựng được một ontology Anh – Việt miền dầu khí phục vụ công tác nghiệp vụ
tại Tập đoàn Dầu khí quốc gia Việt Nam.
Đối tượng nghiên cứu của luận án là mô hình học ontology dựa trên các
kỹ thuật khai phá dữ liệu văn bản, học máy và thu nhận tri thức chuyên gia miền
ứng dụng vào xây dựng ontology miền.
6


Phạm vi nghiên cứu của luận án được giới hạn trong phạm vi các mô
hình học ontology theo phương thức bán tự động dựa trên các kỹ thuật khai phá
dữ liệu, học máy và tích hợp tri thức.
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết đề xuất các
mô hình bán tự động xây dựng ontology (dựa trên các kỹ thuật khai phá dữ liệu,
học máy và tích hợp tri thức), nghiên cứu thực nghiệm để kiểm chứng đánh giá
các mô hình được đề xuất và công bố các kết quả nghiên cứu trên các ấn phẩm
khoa học có uy tín.

Luận án tham gia vào dòng nghiên cứu học ontology trên thế giới và đạt
được một số đóng góp bước đầu, tập trung vào các nghiên cứu, đề xuất các mô
hình học ontology miền.
Về phương diện lý thuyết, luận án có hai đóng góp chính vào dòng nghiên
cứu học ontology. Thứ nhất, luận án đề xuất ba mô hình học ontology gồm (i) mô
hình học ontology xây dựng một ontology kết hợp dữ liệu từ các ontology sẵn có
sử dụng học máy Maximum Entropy và Beam Search nhận dạng thực thể miền
[VNTrinh1], [VNTrinh4], (ii) mô hình học ontology sử dụng độ đo Google để tích
hợp một số tập khái niệm miền sẵn có thành một tập khái niệm miền mới lớn hơn
[VNTrinh2], [VNTrinh4], (iii) mô hình học ontology dựa trên học máy với chỉ dữ
liệu dương và dữ liệu không gán nhãn để bổ sung các khái niệm miền mới từ kho
tài nguyên Wikipedia tiếng Việt vào tập khái niệm miền tiếng Việt sẵn có
[VNTrinh4]. Luận án cũng đề xuất thuật toán học máy với chỉ dữ liệu dương và
dữ liệu không gán nhãn DISTANCE cho mô hình thứ ba. Thứ hai, luận án đề xuất
một mô hình thu nhận ý kiến chuyên gia miền vào quá trình xây dựng ontology
miền dựa trên một khung hợp nhất niềm tin dựa trên tranh luận (bao gồm giao
thức tranh luận hợp nhất niềm tin và lập luận hợp nhất niềm tin) và một thuật toán
xây dựng giải pháp tranh luận hợp nhất niềm tin tương ứng [VNTrinh3].
Về phương diện ứng dụng, luận án đề nghị một quy trình bảy bước xây
dựng một ontology dầu khí Anh-Việt. Quy trình này vừa tổng hợp các kết quả
nghiên cứu của luận án vừa cung cấp một phương án thực thi các kết quả nghiên
cứu vào thực tiễn. Một ontology Dầu khí Anh-Việt thực nghiệm đã được xây
dựng.

7


Bố cục của luận án gồm phần mở đầu và năm chương nội dung, phần kết
luận và danh mục các tài liệu tham khảo. Hình 0.2 cung cấp một khung nhìn sơ
bộ về phân bố các chủ đề trong năm chương nội dung của luận án.

Chương 1 của luận án cung cấp một nghiên cứu khảo sát khái quát về
ontology, xây dựng và học ontology và các kỹ thuật học ontology. Chương này
cũng trình bày về độ đo khoảng cách Google, một độ đo thông tin được luận án
sử dụng trong một số mô hình học ontology.

Hình 0.2. Phân bố các chủ đề trong các chương của luận án
Chương 2 của luận án trình bày chi tiết một mô hình học ontology nhận
diện thể hiện miền ứng dụng Y sinh dựa trên học máy Maximum Entropy-Beam
Search từ tài nguyên có trong hai ontology có trước. Mô hình học máy
Maximum Entropy phụ thuộc vào đặc trưng dữ liệu do đó khung mô hình làm
giàu thể hiện cho hai ontology cũng có khác biệt.
Trong Chương 3, luận án trình bày hai mô hình học ontology dựa trên việc
sử dụng các kỹ thuật khai phá dữ liệu văn bản, học máy kết hợp với các độ đo.
8


Mô hình đầu tiên tích hợp các khái niệm và thuộc tính từ hai ontology miền dựa
trên việc đo độ tương tự giữa các đối tượng theo độ đo khoảng cách Google. Mô
hình thứ hai là một mô hình học máy với chỉ dữ liệu dương (và dữ liệu không
gắn nhãn) nhằm làm giàu một ontology miền tiếng Việt bằng cách bổ sung thêm
khái niệm và thuộc tính từ Wikipedia tiếng Việt với tập dữ liệu huấn luyện có
kích thước nhỏ (số lượng dữ liệu dương ít). Mô hình này sử dụng ba thuật toán
học máy với chỉ dữ liệu dương và dữ liệu không gán nhãn trong đó có thuật toán
DISTANCE do luận án đề xuất.
Chương 4 của luận án xây dựng một khung hợp nhất niềm tin dựa trên
tranh luận để khai thác ý kiến chuyên gia miền ứng dụng vào việc hiệu chỉnh,
nâng cao chất lượng một ontology miền. Hai thành phần chính trong khung hợp
nhất niềm tin là giao thức tranh luận hợp nhất niềm tin, lập luận hợp nhất niềm tin.
Một thuật toán xây dựng giải pháp tranh luận hợp nhất niềm tin và một ví dụ minh
họa được trình bày.

Chương 5 của luận án trình bày một quy trình bảy bước xây dựng ontology
dầu khí Anh - Việt. Quy trình này được xây dựng dựa trên các kết quả nghiên cứu
của luận án về học ontology, về thu nhận ý kiến chuyên gia, các nguyên lý và các
bước xây dựng ontology, và thực tiễn tài nguyên ontology của ngành dầu khí Việt
Nam.

9


CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ ONTOLOGY, HỌC
ONTOLOGY VÀ ĐỘ ĐO GOOGLE
Hai mục đầu của chương này trình bày các nội dung cơ bản nhất về
ontology, xây dựng ontology và kỹ thuật học ontology. Mục thứ ba của chương
này giới thiệu về độ đo khoảng cách Google, một độ đo dữ liệu được luận án
quan tâm và triển khai áp dụng trong một số kỹ thuật học ontology.
1.1. GIỚI THIỆU CHUNG VỀ ONTOLOGY
1.1.1. Khái niệm ontology
Từ “ontology” có nguồn gốc từ tiếng Hy Lạp, là sự kết hợp của hai từ
“ontos” (“tồn tại”, tiếng Anh “being” ) và “logos” (“từ”, tiếng Anh là “word”)
[32], vì vậy, nói một cách không hình thức, ontology được xây dựng để biểu diễn
các “kiểu tồn tại” trong một miền nào đó dựa trên “từ ngữ”. Các “kiểu tồn tại”
trong một miền gồm có các thuật ngữ, các khái niệm, các quan hệ và các tiên đề
khái quát hóa các quan hệ.
Rất nhiều nghiên cứu chỉ ra rằng, đưa ra một định nghĩa đủ để bao gói
việc biểu diễn các “kiểu tồn tại” dựa trên “từ ngữ” là một công việc rất khó khăn.
Rất nhiều định nghĩa ontology đã được đưa ra, và theo dòng thời gian xây dựng
và ứng dụng ontology, nội dung khái niệm ontology đã được tiến hóa nhằm phù
hợp với phạm vi nghiên cứu và triển khai tương ứng.
D. Gašević và cộng sự [32] giới thiệu và phân tích nội dung năm định
nghĩa phổ biến nhất về ontology trong lĩnh vực trí tuệ nhân tạo. Theo nhóm tác

giả, mỗi định nghĩa đáp ứng được bộ phận việc “kiểu tồn tại” dựa trên “từ ngữ”.
Trình bày của các tác giả cho thấy điều cần thiết là “hình dung ontology ra sao”
mà không phải là bản thân định nghĩa về ontology. Một hình dung đơn giản nhất
về ontology là nó bao gói các khái niệm và các quan hệ giữa chúng và một hình
ảnh trực quan của một ontology là nội dung một tệp tin .XML.
Trong một nỗ lực đưa ra một định nghĩa phổ quát về ontology, R. Arp và
cộng sự [7] cho rằng ontology là một sản phẩm trình diễn do con người tạo ra,
với thành phần đặc thù là một bảng phân loại biểu diễn tường minh một tổ hợp
nào đó của các kiểu, các lớp được định nghĩa và một số quan hệ giữa chúng.
Bảng phân loại (taxonomy) là một hệ thống phân cấp dạng cây chứa các thuật
10


ngữ biểu thị các kiểu (hoặc phổ quát hoặc các lớp) được liên kết bằng các mối
quan hệ. Kiểu (phổ quát hoặc lớp) là các thực thể được chỉ dẫn bằng các nút
trong cây phân cấp các thuật ngữ trên đây, trong đó “thực thể” là bất cứ điều/vật
gì tồn tại trong thế giới đang được xem xét, bao gồm các đối tượng, các quá trình
và các tính chất. Tính biểu diễn của ontology được thể hiện thông qua việc sử
dụng một thực thể (ví dụ như một thuật ngữ, một ý tưởng, một hình ảnh, một
nhãn, một bản mô tả, một bài luận) để chỉ dẫn tới một hoặc một số thực thể khác.
Ontology được con người tạo ra theo một thiết kế (trong một vài trường hợp là
theo chọn lựa) một cách có chủ ý để giải quyết một mục tiêu trình diễn được
thực tiễn.
Cộng đồng nghiên cứu – triển khai về ontology công nhận một quan niệm
phổ biến là ontology được tạo ra nhằm mục đích biểu diễn tri thức về một miền
nào đó và bao gồm các thuật ngữ, các khái niệm, các quan hệ, các tiên đề [7],
[32], [17], [11].

(a)


P. Buitelaar và cộng sự [11]

(b)

P. Cimiano và cộng sự [17]

Hình 1.1. Các tầng đối tượng trong ontology và ví dụ [11][17], [32]
Quan niệm phổ biến này cho thấy một ontology cung cấp ([11], [17],
[32]): (i) một bảng từ vựng (hoặc các tên gọi) để chỉ dẫn các thuật ngữ, (ii) bảng
11


phân cấp (quan hệ thứ bậc) và các quan hệ khác giữa các khái niệm. Loại quan
hệ mức cao được trình diễn dưới dạng tiên đề (iii) lý thuyết nội dung để hiểu rõ
nội dung các thuật ngữ, các khái niệm và các quan hệ, (iv) một nền tảng tri thức
để chia sẻ và tái sử dụng trong cộng đồng. Hình 1.1 trình bày các tầng đối tượng
của một ontology miền và thể hiện tương ứng [11], [17].
Luận án này được định hướng nghiên cứu theo quan niệm phổ biến trên
đây về ontology.
1.1.2. Phân loại ontology
Ontology phổ quát nhất như đã được đề cập là ontology triết học
(philosophical ontology). Ngoài ontology triết học, nhiều kiểu ontology khác
cũng được con người tạo ra đó là ontology miền, ontology mức cao, ontology
tham chiếu (reference ontology) và ontology ứng dụng (application ontology)
[7].
Ontology triết học được xây dựng nhằm mục đích cung cấp một phân loại
rõ ràng và toàn diện về tất cả các thực thể trong mọi lĩnh vực của cuộc sống.
Ontotoly triết học định hướng cho các nghiên cứu về các chủng loại, cấu trúc của
các đối tượng, các tính chất, các sự kiện, các quá trình và các mối quan hệ trong
mọi lĩnh vực của thực tế (siêu hình học: metaphysics). Kết quả trong ontology

triết học là hệ thống mô tả hoặc lý thuyết về những gì tồn tại cũng như các trình
diễn chúng do con người tạo ra. Ontology triết học hiện nay (còn được gọi là
“siêu hình học phân tích”: analytic metaphysics) còn cho phép hỗ trợ việc nghiên
cứu các thực thể trong một số khoa học cụ thể như vật lý, hóa học, sinh học, tâm
lý học, v.v. Cây Porphyrian (the Porphyrian Tree)3 là một ví dụ về ontology triết
học.
Ontology miền (domain ontology), còn được gọi là ontology cụ thể
(material ontology), trình diễn các thực thể và các quan hệ giữa chúng trong một
miền thực tiễn cụ thể chẳng hạn như y tế, địa lý, sinh học, luật học nhằm mục
đích hỗ trợ trực tiếp các nghiên cứu về lĩnh vực cụ thể được đề cập. Do đó,
ontology miền được bao gồm các thông tin về tính phổ quát, về các lớp và các
quan hệ mà nó trình diễn. Một ontology miền cung cấp một trình diễn điều khiển
3

/>
12


được và có cấu trúc để biểu diễn và sử dụng các thực thể trong miền liên quan,
cho phép người sử dụng tiếp cận và chia sẻ dữ liệu dễ dàng hơn và thuận tiện xử
lý bằng máy tính. Tồn tại nhiều ontology miền cho nhiều lĩnh vực, chẳng hạn
như ontology gen (Gene Ontology: GO), ontology giải phẫu cơ bản
(Foundational Model of Anatomy: FMA), ontology môi trường (Environment
Ontology: EnvO), ontology thực thể hóa học trong sinh học (Chemical Entities
of Biological Interest: ChEBI)4. Ontology dầu khí được đề cập trong luận án này
được xếp vào loại ontology miền.
Ontology mức cao (top-level ontology), còn được gọi là ontology hình
thức (formal ontology), trình diễn một ontology miền có tính tiêu chuẩn với một
kiến trúc phổ quát dùng chung trong cộng đồng, giúp kết nối các ontology khác
nhau trong cùng một miền hoặc trong một số miền liên quan nhau. Ví dụ về các

ontology mức cao như ontology hình thức cơ bản (Basic Formal Ontology:
BFO), ontology mô tả cho kỹ nghệ ngôn ngữ và nhận thức (Descriptive
Ontology for Linguistic and Cognitive Engineering: DOLCE), ontology kết hợp
cao cấp chuẩn (Standard Upper Merged Ontology: SUMO)5.
Ontology ứng dụng (application ontology) được tạo ra nhằm mục đích
thực hiện một số bài toán hoặc ứng dụng cụ thể. Đối ngẫu lại, ontology tham
chiếu (reference ontology) được tạo ra nhằm mục đích cung cấp một trình diễn
kinh điển và toàn diện về các thực thể trong một miền xác định nhằm đóng gói
về các loại thực thể có trong văn bản khoa học. Ontology có trong Hệ thống
thông tin SAPPHIRE (the Situational Awareness and Preparedness for Public
Health Incidents Using Reasoning Engines) là một ontology ứng dụng, hai
ontology miền FMA, GO trên đây là các ontology tham chiếu.
Trong phiên bản đầu tiên, ontology dầu khí Anh-Việt được xây dựng để
phục vụ các ứng dụng tìm kiếm và giải thích thuật ngữ dầu khí cho các nhà
nghiên cứu về lĩnh vực dầu khí cho nên nó được coi là một ontology ứng dụng
cho miền dầu khí.
4

/> />5

/> />
13


×