Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức wikipedia và dbpedia

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (892.9 KB, 7 trang )

Kỷ yếu kỷ niệm 35 năm thành lập Trường ĐH

ng nghiệp Th c ph m T

h

inh

-2017)

XÂY DỰNG ONTOLOGY THUỘC LĨNH VỰC KHOA HỌC MÁY TÍNH
DỰA VÀO CƠ SỞ TRI THỨC WIKIPEDIA VÀ DBPEDIA
Ngu n Th B ch Ngân
Trường Đại học

ng nghiệp Th c ph m Thành phố

h

inh

Email:
Ngày nhận bài: 20/08/2017; Ngày chấp nhận đăng: 30/08/2017
TÓM TẮT
Trong bài báo này, chúng tơi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một
lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngơn ngữ tiếng Anh dựa vào thư viện bách khoa
toàn thư Wikipedia1 và cơ sở tri thức DBpedia2. Bài toán xây dựng ontology là một trong những bước
quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thơng tin, chú thích ngữ nghĩa
và đặc biệt là xử lý ngơn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology. Tuy nhiên
phần lớn gặp khó khăn trong việc xử lý dữ liệu quá lớn từ Wikipedia dẫn đến thời gian thực thi kết quả rất
lâu, ngược lại nếu dữ liệu khơng trích xuất từ Wikipedia thì mức độ bao phủ thông tin không đảm bảo.

Trong phương pháp của chúng tôi, chúng tôi đề xuất cách thức lọc dữ liệu theo các đặc trưng thông tin
ban đầu của lĩnh vực KHMT để giảm bớt thời gian xử lý các thông tin không liên quan, nhưng vẫn đảm
bảo độ đầy đủ thơng tin vì các đặc trưng ban đầu cũng được chọn từ danh sách phân loại của Wikipedia.
Sau đó tiến hành xây dựng cây ontology chứa nội dung tối ưu nhất có thể, đồng thời chúng ta có thể tiếp
tục làm giàu thơng tin cho ontology khi có thêm dữ liệu mới cập nhật. Ngoài ra phương pháp chúng tơi đề
xuất có thể vận dụng để xây dựng ontology cho bất kỳ lĩnh vực nào mà có dữ liệu trong Wikipedia.
Từ khóa: ontology, bách khoa tồn thư Wikipedia, cơ sở tri thức DBpedia, Khoa học máy tính, tạo
ontology.
1. GIỚI THIỆU
Những năm gần đây, các hướng nghiên cứu về xử lý ngôn ngữ tự nhiên hay web ngữ nghĩa đã và
đang là một trong những mảng nghiên cứu có sự phát triển mạnh mẽ. Trong đó, bài tốn xây dựng quy
trình tạo cơ sở tri thức ontology có đầy đủ thông tin để tra cứu, truy xuất thông tin thực thể và quan hệ các
thực thể là một bài tốn quan trọng. Hiện nay đã có những nghiên cứu đề xuất một số cách thức xây dựng
ontology tùy theo những mục tiêu, yêu cầu khác nhau.
Trong nghiên cứu của Nora I. Al- Rajebah [1], hay Zareen S. Syed và các cơng sự [2], các nhóm tác
giả tạo ontology có dữ liệu truy xuất từ Wikipedia, quá trình này thực hiện tốn nhiều cơng sức vì phải xử
lý dữ liệu cực lớn từ Wikipedia. Một nghiên cứu khác của nhóm tác giả Daniil Mirylenka và các cộng sự
[3], họ đề xuất phương pháp xây dựng ontology thuộc một lĩnh vực (domain) bằng cách đưa ra danh sách
các khái niệm quan tâm ban đầu trong lĩnh vực đó, truy xuất các thuộc tính và quan hệ giữa các khái niệm
quan tâm trong Wikipedia để thu được bộ dữ liệu cần thiết tiến hành xây dựng ontology. Phương pháp
này đã giảm tải được dữ liệu thừa khi truy xuất dữ liệu trong Wikipedia. Tuy nhiên vì truy xuất trực tiếp
bộ dữ liệu cực lớn của Wikipedia nên tốn thời gian thực hiện, đồng thời tính đầy đủ của bộ dữ liệu thu
được sẽ phụ thuộc hoàn toàn vào danh sách các khái niệm quan tâm ban đầu. Ngồi ra cũng có cách thực
hiện khá thủ công, người dùng tự tạo ontology bằng cách dùng các phần mềm có sẵn, phổ biến là
1
2

/> />
210

Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia
Protégé [4].
Trong bài báo này, chúng tôi đề xuất quá trình xây dựng ontology thuộc lĩnh vực KHMT có dữ liệu
dựa vào Wikipedia thơng qua DBpedia. Wikipedia là một nguồn cơ sở tri thức bách khoa toàn thư chứa
hầu hết các khái niệm thực thể trong tất cả các lĩnh vực của nhân loại, bao gồm 299 ngôn ngữ3 với hơn
171.010.892 bài báo4 (dữ liệu được cập nhật vào ngày 05/08/2017). DBpedia là một cơ sở dữ liệu công
cộng, đa ngôn ngữ và là một đồ thị tri thức về ngữ nghĩa. Đây là một hệ thống do nổ lực của cộng đồng
đóng góp tạo nên để lấy thơng tin có cấu trúc từ Wikipedia, tạo thành các bộ tập hợp dữ liệu (data set)
hoặc các bộ tập tin chứa dữ liệu dạng bộ ba (tripple). Ngoài ra, DBpedia cho phép người dùng truy vấn
ngược lại thông tin trên Wikipedia, đồng thời liên kết các bộ dữ liệu khác nhau trên dữ liệu Web với
Wikipedia [5].
Hiển nhiên, Wikipedia là nguồn tri thức tin cậy cho các bài toán nghiên cứu khoa học [8], tuy nhiên
việc xử lý dữ liệu cực lớn từ nó cũng phát sinh nhiều thử thách, dựa theo phân tích trong nghiên cứu của
nhóm tác giả Lu Xiao và Nicole Askin [6]. Vì vậy, trong đề xuất của chúng tôi, chúng tôi không lấy dữ
liệu trực tiếp từ Wikipedia mà thông qua DBpedia, dữ liệu từ Wikipedia đã tổ chức lại thành các tập tin
(file) dạng bộ ba (tripble)5 thể hiện thuộc tính, quan hệ giữa các thực thể. Tiếp theo chúng tơi rút trích
danh sách các khái niệm quan tâm đã được phân loại trong Wikipedia, làm điều kiện lọc cho các dữ liệu
từ DBpedia. Sau đó tiến hành xây dựng ontology bằng hỗ trợ của thư viện mã nguồn mở Jena [6].
Ngoài ra, phương pháp xây dựng ontology mà chúng tôi đề xuất là qui trình tổng qt. Qui trình này
có thể thực hiện để xây dựng ontology cho bất kỳ lĩnh vực nào có thơng tin trên Wikipedia. Mức độ đầy
đủ của ontology phụ thuộc vào lượng thông tin của lĩnh vực đó chứa trong Wikipedia. Về sau, khi
ontology kết quả đã được tạo dựng, chúng ta vẫn có thể tiếp tục phát triển bổ sung thêm dữ liệu cho
ontology này từ các file dữ liệu cập nhật của DBpedia và Wikipedia.
Phần còn lại của bài báo được tổ chức như sau: trong mục 2, chúng tơi trình bày cách rút trích danh
sách các khái niệm quan tâm từ Wikipedia, phân tích cấu trúc các file dữ liệu do DBpedia cung cấp để
khái thác các thông tin cần thiết, nêu sơ đồ qui trình thực hiện của phương pháp đề xuất. Kết quả thực
hiện được trình bày ở mục 3. Cuối cùng, mục 4 kết luận các vấn đề của bài báo và đề xuất hướng phát
triển.
2. QUI TRÌNH XÂY DỰNG ONTOLOGY

2.1. Tr ch xuất danh sách các khái niệm, phân loại và đặc trưng trong KHMT từ Wikipedia
Dựa vào danh sách các phân loại thuộc lĩnh vực KHMT do Wikipedia cung cấp [6] (hiện có 50 phân
loại con thuộc Computer_science, cập nhật đến ngày 05/08/2017), chúng tôi tiến hành truy xuất các thông
tin liên quan, mỗi phân loại con Wikipedia cho người dùng mã nguồn chứa danh sách các khái niệm liên
quan. Chẳng hạn, với thông tin “list of computer company”, mã nguồn thu được như Hình 16 :
{{Expand list|date=August 2008}}

The following is a list of notable '''[[Computer|computer system]]
[[manufacturer]]s'''.
==Current==
{{colbegin||20em}}
3

/> />
4
5
6

/> />
211

guy n Th

ch gân

*[[ABS Computer Technologies]] (Parent: [[Newegg]])

*[[Acer Inc.|Acer]]
……………// danh sách các thông tin phân loại và đặc trưng thuộc KHMT
==See also==
* [[List of computer hardware manufacturers]]
* [[List of laptop brands and manufacturers]]
* [[Market share of personal computer vendors]]
==References==
{{Reflist}}
==External links==
*[ About.com list of desktop computer
systems]
*[ epocalc list of computer manufacturers]
{{Companies by industry}}

ình

Cấu trúc file danh sách phân loại và đặc trưng thuộc KHMT trích xuất từ Wikipedia

Với mỗi mã nguồn của danh sách phân loại, chúng tôi tiến hành xử lý file để lọc các khái niệm quan
tâm, đây sẽ là cơ sở để tạo thực thể (class) và cá thể (individual) trong ontology.
2.2. Cấu trúc các file dữ liệu do DBpedia cung cấp
DBpedia cung cấp cho người dùng 4 file dữ liệu dưới dạng .nt và .owl. Đây là các file tổ chức theo
cấu trúc bộ ba (tripple) thể hiện quan hệ cấu trúc Thực thể – Quan hệ – Đối tượng (Subject – Predicate –
Object). Chúng chính là ánh xạ các thông tin và mối quan hệ của các lớp và thực thể có trong Wikipedia.
Cụ thể các tập tin có tên, loại và dung lượng như trong Bảng 1.
Bảng 1. Danh sách các tập tin do DBpedia cung cấp cho người dùng

File 1

Loại file

DBpedia ontology T-BOX (Schema)

Tên file
dbpedia_2014.owl

Dung lượng
2.26 MB

instance_types_en.nt

3.88GB

File 2

DBpedia ontology RDF type
statements (Instance Data)

File 3

DBpedia ontology other A-Box
properties (Instance Data, mappingbased properties)

mappingbased_properties_en.nt

4.14 GB

File 4

DBpedia ontology other A-Box
specific properties (Instance Data,

mapping-based properties (specific))

specific_mappingbased_properties_
en.nt

122 MB

Dựa vào 4 file này người dùng có thể tạo ra ontology thể hiện rõ được các mối quan hệ giữa các
thành phần trong cấu trúc của Wikipedia. DBpedia cung cấp các file dữ liệu dưới nhiều dạng ngôn ngữ,
nhưng trong bài báo này chúng tôi sẽ chú trọng vào ngôn ngữ tiếng Anh, với phạm vi thu nhỏ là trích lọc
những dữ liệu thuộc về KHMT.
2.2.1. Cấu trúc file nt
Trong ontology chứa 3 loại thành phần chính gồm: lớp (class), thuộc tính (property) và cá thể
(individual). Chúng có cấu trúc liên quan nhau thơng qua các loại quan hệ.
File .nt có cấu trúc dạng triple (Subject -Predicate -Object). Mỗi phần trong bộ 3 là một thành phần
của ontology. Ý nghĩa của từng file dữ liệu do DBpedia cung cấp như sau:
212

Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia
- File 2 (instance_types_en.nt): lưu trữ các cá thể của lớp, mỗi đối tượng trong file là một thể hiện
(individual) của lớp (class) tương ứng.
* Cấu trúc: <Individual> <type> <Class>
* Ví dụ:
Individual

Type

Class

/>oogle_Answers

/>
/>
- File 3 (mappingbased_properties_en.nt): lưu trữ các thuộc tính (property) của một cá thể
(individual) và giá trị (value) của thuộc tính đó. Trong file này có 3 kiểu cấu trúc bộ 3 khác nhau, đó là:
 Cấu trúc 1: <Individual> <DataProperty> value <DataType>


Ví dụ:
Individual

DataPropety

Value

DataType

/>keley_DB

/>Software/fileSize

1.244

/>pe/megabyte



Cấu trúc 2:



Ví dụ:

<Individual> <DataProperty> value

Individual

DataPropety

Value

/>_(programming_language)

/>ersion

“Ada 2012”



Cấu trúc 3:



Ví dụ:
Individual

/>le_Inc

<Individual> <ObjectPropety> <Individual>

ObjectPropety
/>
Individual
/>e/IPhone

- File 4 (specific_mappingbased_properties_en.nt): đây là file đặc biệt, lọc các bộ dữ liệu có thơng
tin giá trị (value) từ file 3 (cấu trúc 1 và 2). Nghĩa là các thuộc tính trong file đã được chuyên biệt hóa cho
những lớp cụ thể sử dụng một đơn vị cụ thể với giá trị dạng số cùng với kiểu dữ liệu (datatype) là đơn vị
của thuộc tính.
2.2.1. Cấu trúc file owl
File owl lưu trữ cấu trúc dữ liệu của ontology, được viết dưới dạng XML gồm các thẻ đóng/mở để qui
định các lớp, thuộc tính của Ontoloy. File lưu trữ các lớp, các thuộc tính và quan hệ giữa các lớp, các
thuộc tính với nhau, các ràng buộc mà về số lượng, giá trị mà người dùng mong muốn từ ontology.

ình

Thống kê các lớp, các loại thuộc tính có sẵn trong ontology từ file dbpedia_2014.owl
ảnh được lấy từ thống kê của phần mềm rotégé khi mở file)

213

guy n Th

ch gân

File dbpedia_2014.owl: trong file owl mà DBpedia cung cấp chỉ chứa danh sách các lớp (class) và
quan hệ is-a giữa các lớp, chứa các thông tin quan hệ ngữ nghĩa khác và các thực thể của từng lớp. Hình 2
thể hiện số lượng thành phần trong file dbpedia_2014.owl ban đầu. Nhiệm vụ chúng ta cần thực hiện là

bổ sung các thuộc tính cùng cá thể vào các lớp tương ứng thông qua các file dữ liệu đã trích lọc ở trên.
2.3. Qui trình thực hiện xâ dựng ontology
Qui trình thực hiện của bài tốn gồm 6 giai đoạn như Hình 3, với dữ liệu đầu vào là 4 file thông tin
từ DBpedia đã nêu ở mục 2.2, cùng file chứa danh sách các phân loại và đặc trưng quan hệ thuộc lĩnh vực
KHMT mục 2.1.
Quy trình xây dựng ontology mà chúng tôi đề xuất trong nghiên cứu này là qui trình tổng qt, thuật
tốn thực hiện cũng mang tính độc lập khơng phụ thuộc vào bất kỳ dữ liệu của lĩnh vực thông tin nào. Khi
người sử dụng muốn xây dựng ontology bất kỳ nào mà có thông tin trên Wikipedia, họ chỉ cần chuẩn bị
các file thơng tin đầu vào, sau khi trích xuất các thơng tin thuộc lĩnh vực quan tâm. Lần lượt đưa vào
chương trình thực nghiệm sẽ thu được ontology kết quả thuộc lĩnh vực đó.

ình 3. Sơ đồ thể hiện qui trình tạo ontology thuộc lĩnh vực KHMT từ Wikipedia và DBpedia

3. KẾT QUẢ THỰC NGHIỆM
Sau khi thực hiện trích lọc dữ liệu các file dữ liệu của DBpedia, chúng tôi thu được các file dữ liệu
theo như kết quả thống kê ở Bảng 2.
Bảng 2. Thông tin các file sau khi lọc dữ liệu và kết quả dung lượng ontology thu được
Loại file

Tên file

Dung lượng

File 2

DBpedia ontology RDF type statements
(Instance Data)

instance_types_en.nt

10.4 MB

File 3

DBpedia ontology other A-Box properties
(Instance Data, mapping-based properties)

mappingbased_propertie
s_en.nt

24.6 MB

File 4

DBpedia ontology other A-Box specific
properties (Instance Data, mapping-based
properties (specific))

specific_mappingbased_
properties_en.nt

14.6 MB

File 1

DBpedia ontology T-BOX (Schema)

dbpedia_2014.owl

21.2 MB

Thống kê số lượng các thành phần của ontology thuộc lĩnh vực KHMT sau khi thực hiện xong qui
trình:
214

Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia

ình 4. Thống kê các thành phần trong ontology sau khi đã thực hiện quy trình
(ảnh được lấy từ thống kê của phần mềm Protégé khi mở file)

Dựa vào Bảng 3 để so sánh kết quả các thành phần giữa ontology thu được sau khi thực hiện qui
trình với ontology ban đầu do DBpedia cung cấp (file dbpedia_2014.owl), chúng ta thấy rằng việc lọc bỏ
các dữ liệu thừa trong Wikipedia đã đạt hiệu quả. Kết quả ontology chỉ bổ sung các đặc trưng thuộc tính
và các cá thể liên quan.
Bảng 3. So sánh kết quả các thành phần giữa ontology đầu vào và ontology kết quả.
Tên các thành phần

Ontology đầu vào

Ontology kết quả

Axiom

24278

193257

Logical axioms count

6773

175740

Declaration axioms count

3478

3487

Class count

828

828

Object property count

1310

1314

Data property count

1726

1722

Individual count

1

34991

Annotation property count

15

20

Trong bài báo này chúng tôi không so sánh kết quả thực nghiệm với các nghiên cứu khác vì hiện các
nghiên cứu tạo ontology (đã nêu ở phần giới thiệu) khơng có độ tương đồng về dữ liệu lưu trữ trên
Wikipedia nên khó mà đánh giá thời gian xử lý cũng như kết quả đạt được. Hiện chúng tơi đã phân tích
các ưu điểm của phương pháp thơng qua các bước đã trình bày trong bài báo. Đó là qui trình thực hiện
độc lập, không phụ thuộc dữ liệu thuộc lĩnh vực nào, nên có thể áp dụng tạo ontology cho bất kỳ lĩnh vực
nào mà có thơng tin lưu trữ trên Wikipdia. Bên cạnh đó, khi cần bổ sung, cập nhật dữ liệu cho ontology
chỉ cần thực hiện lại chương trình ở giai đoạn tương ứng tùy theo loại file dữ liệu đầu vào.
4. KẾT LUẬN
Trong bài báo này, chúng tôi đã đề xuất qui trình tổng quát xây dựng cấu trúc ontology chứa thơng
tin thuộc lĩnh vực KHMT được trích xuất từ bộ dữ liệu khổng lồ của hệ thống bách khoa toàn thư
Wikipedia, ánh xạ trong hệ cơ sở dữ liệu thơng tin mở DBpedia. Qui trình có 6 giai đoạn trích lọc thơng
tin trước khi gắn kết vào ontology giúp giảm thời gian thực thi chương trình vì loại bỏ được các thông tin
không liên quan, nhưng vẫn đảm bảo tính đầy đủ dữ liệu mà Wikipedia lưu trữ. Đồng thời khi có dữ liệu
mới cần cập nhật bổ sung vào ontology, chúng ta vẫn có thể dễ dàng bổ sung thêm vào theo từng bước
của qui trình đã thực hiện. Chương trình thực hiện độc lập, khơng bị phụ thuộc ràng buộc vào dữ liệu
thuộc lĩnh vực nào nên chúng ta có thể áp dụng phương pháp này cho việc tạo ontology thuộc lĩnh vực
bất kỳ.
Ontology thu được từ bài tốn này có thể dùng làm cơ sở tri thức cho nhiều bài toán khác nhau.
Hướng nghiên cứu mà nhóm chúng tơi đang muốn phát triển là thực hiện như xây dựng hệ thống truy vấn
thông tin để giải thích làm rõ nghĩa cho các tính chất, đặc trưng của một khái niệm thuộc lĩnh vực KHMT;

215

guy n Th

ch gân

hoặc hỗ trợ làm rõ ý nghĩa các giá trị thuộc về đặc trưng, thuộc tính nào của thực thể xuất hiện trong
văn bản.
TÀI LIỆU THAM KHẢO
1.

Nora I. Al- Rajebah, Hend S. Al-Khalifa - Semantic Relationship Extraction and ontology Building
using Wikipedia: A Comprehensive Survey - International Journal of Computer Applications 12.3
(2010) pp.6-12.

2.

Zareen Saba Syed, Tim Finin, Anupam Joshi - Wikitology: Using Wikipedia as an ontology Proceeding of the Second International Conference on Weblogs and Social Media (2008).

3.

Daniil Mirylenka, Andrea Passerini, and Luciano Serafini - Bootstrapping Domain Ontologies from
Wikipedia: A Uniform Approach - Proceedings of the Twenty-Fourth International Joint
Conference on Artificial Intelligence (IJCAI 2015).

4.

Usha Yadav et al. - Development and Visualization of Domain Specific ontology using Protégé Indian Journal of Science & Technology, Volume 9, Issue 16 (2016).

5.

Lehmann, Jens et al. - DBpedia – A large-scale, multilingual knowledge base extracted from
Wikipedia - Journal: Semantic Web, vol. 6, no. 2 (2015) pp.167-195.

6.

Lu Xiao and Nicole Askin - Wikipedia for academic publishing: advantages and challenges” Online Information Review, Vol. 38 Issue: 3 (2012) pp.332-347.

7.

J. Malone and Helen Parkinson - Reference and Application Ontologies - European Bioinformatics
Institute, Cambridge, CB10 1SD, UK, 2010.

8.

Hans-Jörg Happel and Stefan Seedorf - Applications of Ontologies in Software Engineering - 2nd
International Workshop on Semantic Web Enabled Software Engineering (SWESE 2006).
ABSTRACT

BUILDING COMPUTER SCIENCE ONTOLOGY BASED ON THE WIKIPEDIA AND
DBPEDIA KNOWLEDGE BASE
Nguyen Thi Bich Ngan
Ho Ci Minh City University Of Food Industry
Email:
In this paper, we focus on the process to create an ontology, which contains data belonging to a
specific field (namely computer science) by English language base on Wikipedia encyclopedia and
DBpedia knowledge base. The building ontology problem is one of the importance steps to creat the
knowledge base for studying about information extraction, semantic anotation, nature language
processing. Nowadays, many approaches have proposed for this task. However, most of them have a long

execution time because they must handle the huge data of Wikipedia, on the contrary, if the data is not
extracted from Wikipedia, the coverage of information is not guaranteed. In our approach, we propose a
method that filtering data base on characters of the mentioned field, in this paper we choose the computer
science field, to reduce the handling time of the redundant data, but they still guarantee complete
information because the original features are also selected from Wikipedia's categories list. The next, to
create the ontology which is the best possible, and it can be enriched when there is a new data file.
Besides, our approach proposed can apply for creating an ontology of anything field that has data in
Wikipedia.
Từ khóa: ontology, Wikipedia, DBpedia, Computer Science, create ontology.

216

Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức wikipedia và dbpedia

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về