Tải bản đầy đủ (.pdf) (26 trang)

Xây dựng Ontology phục vụ tìm kiêm ngữ nghĩa động vật rừng trên địa bàn thành phố Đà Nẵng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (482.26 KB, 26 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

TRẦN XUÂN TRƢỜNG

XÂY DỰNG ONTOLOGY
PHỤC VỤ TÌM KIẾM NGỮ NGHĨA ĐỘNG VẬT RỪNG
TRÊN ĐỊA BÀN THÀNH PHỐ ĐÀ NẴNG

Chuyên ngành: Hệ thống Thông tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng – Năm 2016


Công trình được hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG

Người hướng dẫn khoa học: TS. NGUYỄN TRẦN QUỐC VINH

Phản biện 1: PGS. TS. Võ Trung Hùng
Phản biện 2: PGS. TS. Lê Văn Sơn

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày 31
tháng 7 năm 2016

Có thể tìm hiểu luận văn tại:
- Trung tâm Thông tin-Học liệu, Đại học Đà Nẵng


- Thư viện trường Đại học Sư phạm, Đại học Đà Nẵng


1
MỞ ĐẦU
1. Lý do chọn đề tài
Thành phố Đà Nẵng có lợi thế rất lớn về địa hình và được thiên
nhiên ban tặng cho nhiều sinh vật có giá trị, là một trong những thành
phố hiếm có trên thế giới về đa dạng sinh học, nơi hội tụ sự đa dạng
các hệ sinh thái rừng, biển và sông; với hơn 1.200km2 (kể cả huyện
đảo Hoàng Sa), diện tích rừng chiếm gần 50%, đường bờ biển 72km
và trên 1.000ha diện tích lưu vực sông, hồ và vùng trũng. Hệ động
vật rừng của thành phố Đà Nẵng đặc trưng cho khu hệ động vật Nam
Trường Sơn với các loài Voọc vá, Khỉ đuôi dài, Chồn dơi, Sóc vàng,
Trĩ sao, Gà lôi và Bắc Trường Sơn như Tê tê, Gà tiền, Khỉ vàng,…
Hiện nay, việc điều tra, thống kê hệ động vật rừng của thành
phố Đà Nẵng đã được nhiều nhà khoa học, cơ quan, tổ chức thực hiện
thông qua các chương trình, dự án, các đề tài, như: Điều tra khu động
– thực vật và nhân tố ảnh hưởng, đề xuất phương án bảo tồn hợp lý
khu bảo tồn thiên nhiên bán đảo Sơn Trà, Báo cáo tài nguyên rừng
thành phố Đà Nẵng,… Tuy nhiên, việc công bố các nội dung điều tra,
thống kê đó trên internet để cá nhân, tổ chức khác có nhu cầu tìm
hiểu, tra cứu thì còn nhiều hạn chế. Một số website cung cấp thông
tin về hệ động – thực vật của thành phố Đà Nẵng như: website Sở
Nông nghiệp và phát triển Nông thôn TP. Đà Nẵng, website Văn
phòng thuộc Ban chỉ đạo thành phố Ứng phó biến đổi khí hậu và
nước biển dâng thành phố Đà Nẵng,… đều chủ yếu cung cấp tin tức,
số liệu thống kê sơ lược, chưa có website nào cung cấp chức năng tra
cứu chuyên sâu về hệ động - thực vật nói chung và động vật rừng nói
riêng tại thành phố Đà Nẵng.



2
Hiện nay, công nghệ web 2.0 đã đạt được những thành tựu rất
đáng kể trong việc nâng cao tính tương tác cũng như đẩy nhanh tốc
độ xử lý đáp ứng yêu cầu của người dùng. Tuy nhiên trong xã hội
thông tin đương đại nhu cầu của người dùng không dừng lại ở việc
cải thiện tốc độ mà còn phải cải thiện chất lượng xử lý của trang web
theo yêu cầu ngày càng nâng cao. Web 3.0 ra đời nhằm đáp ứng
những yêu cầu về chất lượng đó. Với đặc điểm chính là nâng cao khả
năng chia sẻ tài nguyên và tăng “sự hiểu biết” trong quá trình xử lý
dữ liệu của máy tính, Web ngữ nghĩa đã đi sâu vào phân tích và định
hướng dữ liệu, đồng thời hỗ trợ phát triển ứng dụng Web ngữ nghĩa
trên nhiều lĩnh vực khác nhau. Một trong những lĩnh vực thế mạnh
của Web ngữ nghĩa là xử lý và tìm kiếm thông tin. Việc phân tích và
định hướng nội dung lưu trữ cho phép chúng ta xây dựng những cơ
sở dữ liệu phục vụ tìm kiếm chính xác hơn, tinh gọn hơn.
Do đó, xây dựng công cụ để tìm kiếm ngữ nghĩa động vật rừng
thành phố Đà Nẵng là một nhu cầu cấp thiết, phù hợp với chủ trương
của Thành phố trong việc bảo tồn đa dạng sinh học rừng với mục tiêu
Thành phố môi trường mà Thành phố đã đề ra trong đề án "Xây dựng
Đà Nẵng - Thành phố môi trường".
Vậy, với những vấn đề đã nêu trên tôi đề xuất xây dựng đề tài
“Xây dựng ontology phục vụ tìm kiếm ngữ nghĩa động vật rừng
trên địa bàn thành phố Đà Nẵng” làm đề tài tốt nghiệp luận văn cao
học. Trong đề tài này, tôi nghiên cứu ứng dụng công nghệ Web ngữ
nghĩa, đề xuất giải pháp và xây dựng ontology dựa trên thông tin, dữ
liệu về động vật rừng, từ đó xây dựng ứng dụng hỗ trợ tìm kiếm ngữ
nghĩa động vật rừng phân bố tại thành phố Đà Nẵng một cách dễ
dàng và tiện lợi, góp phần phổ biến rộng rãi thông tin về đa dạng sinh

học của Thành phố.


3
2. Mục tiêu nghiên cứu
Xây dựng ontology cho dữ liệu động vật rừng tại thành phố Đà
Nẵng;
Xây dựng ứng dụng tìm kiếm ngữ nghĩa cho dữ liệu động vật
rừng;
Phổ biến thông tin và góp phần bảo tồn đa dạng sinh học rừng
của thành phố Đà Nẵng.
3. Đối tƣợng và phạm vi nghiên cứu
Đối tượng nghiên cứu là các vấn đề liên quan đến web ngữ
nghĩa, phương pháp xây dựng và lưu trũ dữ liệu trong web ngữ nghĩa,
nghiên cứu ontology, RDF và OWL, dữ liệu động vật rừng tại thành
phố Đà Nẵng.
Phạm vi nghiên cứu là dữ liệu động vật rừng phân bố trên địa
bàn thành phố, nghiên cứu về RDF, SPARQL, các ứng dụng biên tập
ontology: (Sesame, Jena, Protégé,…).
4. Phƣơng pháp nghiên cứu
Phương pháp lý thuyết: Tìm hiểu lý thuyết: Web ngữ nghĩa,
ontology, RDF. Tìm kiếm, tổng hợp dữ liệu động vật rừng trên địa
bàn thành phố Đà Nẵng. Nghiên cứu phương pháp và phần mềm xây
dựng web ngữ nghĩa. Nghiên cứu xây dựng ontology cho dữ liệu
động vật rừng.
Phương pháp thực nghiệm: Xây dựng ontology; Triển khai
thực tế trên internet.
5. Ý nghĩa khoa học và thực tiễn
Về mặt khoa học đề tài đóng góp phương pháp xây dựng
ontology về dữ liệu động vật nói chung và dữ liệu động vật rừng trên

địa bàn thành phố Đà Nẵng nói riêng, ứng dụng semantic web về mặt


4
tìm kiếm và vấn đề đa ngữ trong ontology, một công cụ hỗ trợ khai
thác, phát triển và tìm kiếm theo công nghệ web ngữ nghĩa.
Về thực tiễn đề tài mở ra hướng nghiên cứu ứng dụng mới về
tìm kiếm dữ liệu các loài động vật.
6. Bố cục đề tài
Luận văn được trình bày bao gồm các nội dung như sau :
Chương 1: Trong chương này, tôi trình bày cơ sở lý thuyết về
web ngữ nghĩa, ngôn ngữ RDF, OWL và nêu khái niệm về ontology,
đồng thời tôi giới thiệu và trích dẫn tổng quan thông tin động vật
rừng từ các nghiên cứu động vật trên địa bàn thành phố Đà Nẵng.
Chương 2: Chương này tôi tìm hiểu phương pháp xây dựng
ontology, từ đó đưa ra phương pháp xây dựng ontology động vật
rừng. Đồng thời, tôi tìm hiểu các phần mềm ứng dụng trong việc biên
tập và khai thác ontology.
Chương 3: Dựa trên những nghiên cứu, tìm hiểu ở chương 2,
tôi tiến hành đặc tả dữ liệu động vật rừng, tiến hành xây dựng chi tiết
ontology động vật rừng và phát triển các chức năng của phần mềm hỗ
trợ khai thác, tìm kiếm động vật rừng thành phố Đà Nẵng.
Ngoài ra, để đánh giá toàn bộ quá trình nghiên cứu, phần cuối
của luận văn có nêu lên kết quả và hướng phát triển cho đề tài.


5
CHƢƠNG 1
NGHIÊN CỨU TỔNG QUAN
1.1. TỔNG QUAN VỀ WEB NGỮ NGHĨA

1.1.1. Giới thiệu
1.1.2. Khái niệm
Web ngữ nghĩa được phát triển bởi Tim- Berners Lee, cha đẻ
của WWW, URIs, HTTP và HTML. Theo Ông, “Web ngữ nghĩa là
sự mở rộng của Web hiện tại, cho phép người dùng có thể truy tìm,
phối hợp, sử dụng lại và trích lọc thông tin một cách dễ dàng và
chính xác”.
1.1.3. Nội dung xây dựng hệ thống web ngữ nghĩa
1.1.4. Kiến trúc phân tầng của web ngữ nghĩa
1.2. RDF – NỀN TẢNG CỦA WEB NGỮ NGHĨA
1.2.1. Khái niệm
1.2.2. Mô hình RDF
1.2.3. Đồ thị RDF
1.2.4. Namespace
1.2.5. Literal
1.2.6. Kiểu dữ liệu có cấu trúc
1.2.7. RDFS (RDF Schema)
1.3. ONTOLOGY VÀ NGÔN NGỮ OWL
1.3.1. Định nghĩa ontology
Nhiều định nghĩa về ontology xuất hiện trong thập kỷ trước
nhưng có lẽ định nghĩa mô tả rõ nhất bản chất của ontology là: “An
ontology is a formal, explicit specification of a shared
conceptualization.” (Một ontology là một hình thức, đặc tả rõ ràng
khái niệm chia sẻ). Trong ngữ cảnh này, conceptualization (khái
niệm hoá) đề cập đến một mô hình trừu tượng của một vài hiện tượng


6
trong thế giới thực dùng để nhận dạng các khái niệm liên quan đến
hiện tượng đó. Explicit (rõ ràng) có nghĩa là loại khái niệm được sử

dụng và các ràng buộc khi sử dụng chúng được xác định một cách rõ
ràng, và formal (hình thức) có nghĩa là máy tính có thể hiểu được
ontology.
1.3.2. Các lĩnh vực ứng dụng ontology
1.3.3. Vai trò ontology và web ngữ nghĩa
1.3.4. Các thành phần của ontology
Ontology được sử dụng như là một biểu mẫu trình bày tri thức
về thế giới hay một phần của nó. Ontology thường miêu tả:
 Cá thể: Các đối tượng cơ bản, nền tảng.
 Lớp: Các tập hợp, hay kiểu của các đối tượng.
 Thuộc tính: Thuộc tính, tính năng, đặc điểm, tính cách, hay
các thông số mà các đối tượng có và có thể đem ra chia sẻ.
 Mối liên hệ: cách mà các đối tượng có thể liên hệ tới một đối
tượng khác.
Bộ từ vựng ontology được xây dựng trên cơ sở tầng RDF và
RDFS, cung cấp khả năng biểu diễn ngữ nghĩa mềm dẻo cho tài
nguyên Web và có khả năng hỗ trợ lập luận.
1.3.5. Cá thể (Individuals) – Thể hiện
1.3.6. Lớp (Classes) - Khái niệm
1.3.7. Thuộc tính (Properties)
1.3.8. Mối quan hệ (Relation)
1.3.9. Ngôn ngữ OWL
OWL (The Web Ontology Language) là một ngôn ngữ gần
như XML dùng để mô tả các hệ cơ sở tri thức. OWL là một ngôn ngữ
đánh dấu dùng để xuất bản và chia sẻ dữ liệu trên Internet thông qua
những mô hình dữ liệu gọi là “ontology”. Ontology mô tả một lĩnh


7
vực (domain) và diễn tả những đối tượng trong lĩnh vực đó cùng

những mối quan hệ giữa các đối tượng này. OWL là phần mở rộng về
từ vựng của RDF và được kế thừa từ ngôn ngữ DAML+OIL Web
ontology – một dự án được hỗ trợ bởi W3C. OWL biểu diễn ý nghĩa
của các thuật ngữ trong các từ vựng và mối liên hệ giữa các thuật ngữ
này để đảm bảo phù hợp với quá trình xử lý bởi các phần mềm.
1.3.10.

Hệ truy vấn SPARQL

1.3.11.

Cú pháp của câu truy vấn

1.3.12.

Tạo một câu truy vấn đơn giản

1.4. ĐỘNG VẬT RỪNG TRÊN ĐỊA BÀN THÀNH PHỐ ĐÀ
NẴNG
1.4.1. Giới thiệu
1.4.2. Cấu trúc, thành phần loài động vật
Các loài này phân bố số loài không đồng đều trong các lớp
động vật, nhưng có thành phần loài đa dạng, đặc biệt là nguồn gen
các loài quý hiếm như: Gấu, Beo lửa, Mèo rừng, Sóc bay, Chồn dơi,
Cầy mực, Cu li, Voọc vá chân nâu, khỉ vàng, Trĩ sao, Công, Gà tiền,
Gà lôi lam, Mang trường sơn, Rái cá, Dơi chó tai ngắn và một số loài
bò sát, lưỡng cư khác.
Bảng 1.1. Phân bố thành phần loài động vật
TT


Đơn vị thống kê

Sông Bắc-Sông
Nam

Sơn Trà

Bà Nà

1

Số Bộ

23

25

26

2

Số Họ

60

64

80

3


Số Loài

205

135

256

4

Loài quý hiếm

34

15

44

Phân bố các Taxon trong 3 lớp động vật có xương sống ở cạn
cho thấy sự khác nhau và phân bố không đồng đều.


8
Bảng 1.2. Phân bố 3 lớp động vật: thú, chim, bò sát
Bộ
TT Lớp

Họ


Loài

Sông

Sông

Sông

Bắc- Sơn Bà

Bắc-

Bắc- Sơn



Sông Trà Nà

Sông Trà Nà Sông Trà



Nam

Nam

Sơn Bà

Nam


1 Thú

9

8

8

23

18

26

55

36

2 Chim

14

15

16

37

34


46

150

106 178

3 Bò sát

2

2

2

4

8

8

9

Tổng số

25

25

26


64

64

80

214

24

61
17

165 256

Danh mục động vật rừng cần được ưu tiên bảo tồn trên địa bàn
thành phố trong giai đoạn 2014-2020 bao gồm các loài động vật rừng
nguy cấp, quý, hiếm và các loài động vật rừng thông thường nhưng
có giá trị về kinh tế, môi trường điển hình: Số lượng loài động vật
rừng nguy cấp, quý, hiếm: 75 loài; Số lượng loài động vật rừng thông
thường nhưng có giá trị về kinh tế, môi trường. Tổng số: 21 loài.
1.4.3. Cấu trúc, thành phần loài con trùng
1.5. MỘT SỐ NGHIÊN CỨU WEB NGỮ NGHĨA ĐÃ TRIỂN
KHAI
1.6. KẾT CHƢƠNG
Trong chương này, tôi trình bày cơ sở lý thuyết về web ngữ
nghĩa, ngôn ngữ RDF, OWL, hệ truy vấn SPARQL và nêu khái niệm
về ontology, đồng thời tôi giới thiệu và trích dẫn tổng quan thông tin
động vật rừng tham khảo từ một số nghiên cứu động vật trên địa bàn
thành phố Đà Nẵng và tìm hiểu một số nghiên cứu về web ngữ nghĩa

đã triển khai trước đây.
Từ đó, tôi có nhưng kiến thức cơ bản về lý thuyết, những
thông tin, dữ liệu ban đầu về hệ động vật rừng của thành phố Đà


9
Nẵng và có được danh mục các nghiên cứu đã thực hiện để tiến hành
thu thập dữ liệu chi tiết, phục vụ cho việc kế thừa, áp dụng thực hiện
các chương tiếp theo của luận văn.
CHƢƠNG 2
PHƢƠNG PHÁP VÀ PHẦN MỀM
XÂY DỰNG ONTOLOGY
2.1. GIỚI THIỆU
2.2. PHƢƠNG PHÁP XÂY DỰNG ONTOLOGY
Quy trình phát triển Ontology là một quy trình gồm nhiều
bước, tuy nhiên vẫn chưa có một phương pháp chuẩn hóa nào để phát
triển các ontology. Quy trình phát triển gồm 7 bước do Stanford
Center for Biomedical Informatics Research đưa ra được đa số các
nghiên cứu trước đây chọn và tuân theo (đây là nhóm phát triển phần
mềm Protégé để trình diễn và soạn thảo Ontology).
2.2.1. Bƣớc 1: Xác định lĩnh vực và phạm vi của Ontology
2.2.2. Bƣớc 2: Xem xét việc kế thừa các ontology có sẵn
2.2.3. Bƣớc 3: Liệt kê các thuật ngữ quan trọng
2.2.4. Bƣớc 4: Xác định các lớp và phân cấp của các lớp
2.2.5. Bƣớc 5: Xác định các thuộc tính
2.2.6. Bƣớc 6: Xác định ràng buộc của các thuộc tính
2.2.7. Bƣớc 7: Tạo các thể hiện/ thực thể
2.3. QUY TRÌNH XÂY DỰNG ONTOLOGY CHO DỮ LIỆU
ĐỘNG VẬT RỪNG
Thông tin về đồng vật rừng thành phố Đà Nẵng đã được tìm

hiểu và tổng hợp ở mục Chương 1, Mục 1.4. Việc xây dựng ontology
cho dữ liệu động vật rừng tuân thủ theo quy trình phát triển


10
Ontology, gồm 7 bước được mô tả chi tiết dưới đây:
2.3.1. Bƣớc 1: Xác định lĩnh vực và phạm vi của Ontology
Lĩnh vực cần xây dựng ontology ở đây là thông tin liên quan
đến các loài động vật rừng ở thành phố Đà Nẵng, mà cụ thể là xem
xét các thông tin chi tiết về hình dáng, màu sắc, bộ phận cơ thể, tập
tính sinh sống, thức ăn, cách săn mồi,… bên cạnh đó là thông tin về
giá trị khoa học, kinh tế, thông tin bảo tồn đa dạng sinh học.
Luận văn này sẽ chủ yếu tập trung vào xây dựng ontology cho
một số loài động vật quý hiếm, mô tả thông tin về các loài đó. Tri
thức về động vật rừng thành phố Đà Nẵng được chia sẻ theo cách cho
phép người dùng tìm được các loài động vật.
2.3.2. Bƣớc 2: Xem xét việc kế thừa các ontology có sẵn
Qua tìm hiểu, việc xây dựng ontology cho động vật nói chung
vẫn còn rất ít, một số nguồn ontology ở nước ngoài, đã xây dựng
bằng tiếng anh và cho phép khai thác nhưng không cho phép kế thừa,
phát triển. Bên cạnh đó, ontology về động vật tại Việt Nam vẫn chưa
có nghiên cứu và xây dựng.
Vì vậy, không có ontology sẵn có về động vật để kế thừa, yêu
cầu phải nghiên cứu xây dựng từ đầu. Đây là một vấn đề trở ngại
nhất đối với vấn đề nghiên cứu trong luận văn này.
2.3.3. Bƣớc 3: Liệt kê các thuật ngữ quan trọng
Ontology được xây dựng trên cơ sở các khái niệm trong một
lĩnh vực cụ thể, vì vậy khi xây dựng ontology cần bắt đầu từ các thuật
ngữ chuyên ngành để xây dựng thành các lớp trong ontology tương
ứng.

Danh sách một số thuật ngữ về động vật như sau:


11
Bảng 2.4. Một số thuật ngữ về động vật
Động vật

Có dây sống

Chim

Không có dây sống

Thú

Có túi

Linh trưởng

Loài

Có vú

Máu nóng

Máu lạnh



Đẻ trứng


Sinh con

Ăn thịt

Lưỡng cư

Bò sát

Bay

Gặm nhấm

Mỏ vịt

Chim


Danh sách một số thuật ngữ về tập tính, sinh sản, thức ăn,…
như sau:
Bảng 2.3. Thuật ngữ về tập tính, sinh sản, thức ăn,…
Thụ tinh trong

Thụ tinh ngoài

Bơi

Chi

Lông


Chạy

Lưỡi

Miệng

Đi

Móng vuốt

Mắt



Đuôi

Vây

Quả

Xương

Cánh

Địa y

Tim

Mang




Độ dài

Bay

Nhảy

Hoa

Chồi non

Trọng lượng


2.3.4. Bƣớc 4: Xác định các lớp và phân cấp của các lớp
Đây là một trong hai bước quan trọng nhất của việc xây dựng
một ontology. Bước này định nghĩa các lớp từ một số thuật ngữ đã
liệt kê trong bước 3, sau đó xây dựng cấu trúc lớp phân cấp theo quan
hệ “lớp cha - lớp con”.


12
Xây dựng cấu trúc phân lớp cho dữ liệu động vật rừng thành
phố Đà Nẵng thực hiện theo cấu trúc từ trên xuống, bắt đầu bằng các
lớp có mức độ tổng quát cao nhất, sau đó triển khai dần đến lớp lá, ví
dụ phân cấp lớp động vật:

Hình 2.1 – Lớp và phân cấp lớp động vật

2.3.5. Bƣớc 5: Xác định các thuộc tính
Từ danh sách một số thuật ngữ về tập tính, sinh sản, thức
ăn,…ở mục 2.5.3, có thể xác định thuộc tính của các lớp. Mỗi thuộc
tính mô tả cho một hoặc nhiều lớp. Ví dụ lớp Động vật có các thuộc
tính sau: Có mô trường sống, có phân bố, có trọng lượng, có độ dài,
có màu lông, có cách săn mồi, Có tai, có mắt,…
Bên cạnh đó, việc xem xét các từ đồng nghĩa cho thuộc tính rất
quan trọng, ví dụ: thuộc tính trọng lượng đồng nghĩa với cân nặng, độ
dài đồng nghĩa với chiều dài, chi đồng nghĩa với tay, chân,…


13
2.3.6. Bƣớc 6: Xác định ràng buộc của các thuộc tính
Từ các thuộc tính đã xác định, ta xác định kiểu ràng buộc cho
thuộc tính là giá trị, max, min, chuỗi,… Ví dụ, thuộc tính có trọng
lượng (cân nặng) là kiểu số nhận giá trị từ 30kg đến 90kg, tương tự là
có độ dài (chiều dài); Có thân nhận giá trị kiểu chuỗi ký tự (string)
khi đó ta mô tả hình dạng thân, một số đặc điểm trên thân, tương tự là
thuộc tính có mắt, có tai, có đuôi,…Thuộc tính có gia trị khoa học, có
biện pháp bảo tồn,…cũng ràng buộc giá trị kiểu chuỗi ký tự để mô tả
về thuộc tính đó.
2.3.7. Bƣớc 7: Tạo các thể hiện/ thực thể
Trong khuôn khổ của luận văn này, tôi tập trung nghiên cứu
xây dựng ontology cho động vật rừng thành phố Đà Nẵng, chọn lọc
một số loài động vật quý hiếm để sử dụng làm thể hiện (thực thể individuals). Danh sách một số loài động vật quý hiếm đã sử dụng
làm thể hiện:

Hình 2.2 – Thể hiện/ thực thể động vật
Trong đó: loài Chà vá chân nâu (Voọc chà vá chân nâu), Chà
vá chân đen (Voọc chà vá chân đen) đại diện cho Chi Chà vá (Voọc)



14
và loài Khỉ đuôi lợn, Khỉ vàng thuộc họ Khỉ, loài Gấu chó thuộc họ
Gấu, loài Báo hoa mai thuộc họ Mèo, loài Cầy mực thuộc họ Cầy,
loài Tê tê vàng thuộc họ Tê tê,…
2.4. MỘT SỐ PHẦN MỀM BIÊN TẬP ONTOLOGY
2.4.1. Phần mềm Sesame
2.4.2. Phần mềm Jena
2.4.3. Phần mềm Protégé
2.5. KẾT CHƢƠNG
Chương này tôi tìm hiểu phương pháp xây dựng ontology, từ
đó đưa ra phương pháp xây dựng ontology động vật rừng. Đồng thời,
tôi tìm hiểu các phần mềm ứng dụng trong việc biên tập và khai thác
ontology.
CHƢƠNG 3
XÂY DỰNG ONTOLOGY VÀ PHÁT TRIỂN ỨNG DỤNG
3.1. MÔ TẢ BÀI TOÁN
"Xây dựng ontology phục vụ tìm kiếm ngữ nghĩa động vật rừng
thành phố Đà Nẵng” trong đó xây dựng ontology động vật rừng là
trọng tâm. Việc nghiên cứu, xây dựng ontology là yêu cầu chính của
luận văn. Như đã phân tích ở Chương 2, ontology về động vật không
được kế thừa từ nghiên cứu trước đây mà phải nghiên cứu và xây
dựng lại từ đầu, đồng thời thông tin dữ liệu về động vật rừng cần
được tham khảo từ ngành sinh học (các nghiên cứu về động vật tại
thành phố Đà Nẵng).
Sau khi đã nghiên cứu xây dựng được ontology, cần cung cấp
tri thức để cộng đồng cùng khai thác và phát triển theo hướng tìm
kiếm ngữ nghĩa động vật rừng tại thành phố Đà Nẵng.



15
3.2. ĐẶC TẢ DỮ LIỆU
Dữ liệu động vật rừng được trích chọn từ nhiều nguồn tư liệu
khác nhau, bảo đảm tính đầy đủ, chính xác, cũng như kế thừa và hỗ
trợ cho nhau, trong đó:
- Báo cáo tổng kết đề tài cấp Thành phố Đà Nẵng “Điều tra
khu động – thực vật và nhân tố ảnh hưởng, đề xuất phương án bảo
tồn hợp lý khu bảo tồn thiên nhiên bán đảo Sơn Trà” [1] và nhờ sự tư
vấn của Thạc sĩ Nguyễn Văn Khánh, Trường Đại học Sư phạm, Đại
học Đà Nẵng, nghiên cứu trong ngành sinh học, tôi tham khảo để xác
định các loài động vật rừng thuộc loại quý hiếm trên địa bàn thành
phố hoặc đã từng xuất hiện trên rừng thuộc địa bàn thành phố những
năm trước đây để chọn minh họa xây dựng ontology.
- Từ đó, sử dụng nội dung, thông tin mô tả chi tiết các loài
động vật trong Sách đỏ Việt Nam [12], đồng thời tham khảo trong
các website có nguồn dữ liệu về động vật phong phú và chính xác,
thường được các nhà nghiên cứu tham khảo như: vncreatures.net
(Sinh vật rừng Việt Nam) [17], wikipedia.org (Bách khoa toàn thư
mở) để xây dựng ontology động vật rừng. Ưu tiên chọn các loài động
vật rừng quý hiếm để xây dựng ontology.
Dữ liệu động vật rừng ở các nguồn tư liệu, có dạng văn bản mô
tả thông thường, như các ví dụ dưới đây:
- Báo cáo tổng kết đề tài cấp Thành phố Đà Nẵng “Điều tra
khu động – thực vật và nhân tố ảnh hưởng, đề xuất phương án bảo
tồn hợp lý khu bảo tồn thiên nhiên bán đảo Sơn Trà” [1].
- Sách đỏ Việt Nam, Phần I. Động vật, Nhà xuất bản Khoa học
Tự nhiên và Công nghệ, năm 2007.
- Website: vncreatures.net (Sinh vật rừng Việt Nam).
3.3. QUY TRÌNH XÂY DỰNG ONTOLOGY VÀ PHẦN MỀM



16
Quá trình xây dựng ontology và phần mềm tìm kiếm động vật
rừng được thực hiện qua 2 giai đoạn chính:
Giai đoạn 1: Xây dựng ontology cho dữ liệu động vật rừng.
Sau quá trình đặc tả dữ liệu, tôi xây dựng ontology bằng cách sử
dụng công cụ Protégé để chuyển dữ liệu đã chọn lọc ở dạng văn bản
sang ontology, thực hiện các bước theo mục 2.3. Quy trình xây dựng
ontology cho dữ liệu động vật rừng.
Giai đoạn 2: xây dựng phần mềm hỗ trợ khai thác và tìm kiếm
trên ontology động vật. Phần mềm hỗ trợ khai thác và tìm kiếm trên
ontology có thể truy cập từ internet, giao diện cần trực quan, thể hiện
cụ thể các lớp, các thuộc tính và các thể hiện (các loài động vật) đa
được xây dựng ontology.
3.4. XÂY DỰNG ONOTLOGY VÀ PHẦN MỀM
3.4.1. Ontology động vật rừng
Theo quy trình xây dựng ontology cho dữ liệu động vật rừng
đã xác định ở mục 2.3. và dữ liệu động vật đã đặc tả, tôi tiến hành
xây dựng ontology động vật rừng. Trong một thời gian có hạn để
nghiên cứu và xây dựng ontology, tôi đã chọn thông tin của một số
loài động vật quý hiếm như trình bày ở phần 1.4.2. để biểu diễn.
Đặc trưng khi phân tích và xây dựng ontology cho dữ liệu
động vật là lớp Động vật rất phức tạp, gồm nhiều lớp con, vì vậy
chọn hướng phân tích phù hợp để xây dựng là việc khó khăn, đòi hỏi
phải thực hiện nhiều lần mới được một cây phân cấp lớp hợp lý.
Kết quả ontology được thể hiện bằng phần mềm protégé như
sau:
- Giao diện chính: hiển thị thông tin mô tả chung của ontology;
thông tin về tác giả; thông tin thống kê về ontology: số lớp (bao gồm

lớp con - Class) đã xây dựng là 295, số thuộc tính đối tượng (Object


17
Property) là 52, số dữ liệu thuộc tính dữ liệu là 73, số loài đã chọn
biểu diễn là 11, số tiên đề trong ontology là 1402.

Hình 3.1 – Giao diện chính ontology động vật


18
- Các lớp (Classes): Lớp chính của ontology là lớp Động vật,
bên cạnh đó còn các lớp như: Bộ phận cơ thể, Môi trường sống, Phân
bố, Thức ăn,… để tạo thành các quan hệ với lớp Động vật. Trong lớp
Động vật, tôi tập trung phân tích lớp con của động vật có dây sống
(xương sống), vì động vật rừng quý hiếm Đà Nẵng đa số thuộc động
vật có dây sống (xương sống) như: voọc, tê tê, khỉ vàng, gấu,…
Trong lớp động vật có dây sống, được chia ra thành 2 lớp con: Máu
lạnh và máu nóng và từ đó tiếp tục xác định các lớp con nhỏ hơn, tạo
thành cây phân cấp lớp. Mỗi lớp được thêm thông tin mô tả hoặc
thông tin tiếng Anh. Mỗi lớp còn có các thuộc tính mô tả chung của
lớp và thuộc tính riêng của mỗi lớp con và mỗi loài động vật. Kết quả
xây dựng lớp được mô tả dưới đây:

Hình 3.2 – Cây phân cấp lớp động vật


19
- Thuộc tính (Property): dựa vào thông tin mô tả các đặc tính,
tính chất, hành vi, tập quán sinh hoạt, hoạt động, săn mồi, sinh lý,…

của các loài động vật, tôi đưa ra các thuộc tính đối tượng và thuộc
tính dữ liệu, từ đó gán giá trị hoặc tạo mối quan hệ giữa lớp động vật
và các lớp khác.
- Các thể hiện (Individuals): dựa theo các nghiên cứu trước đây
(như đã trích dẫn trong báo cáo) để chọn lựa các động vật rừng đặc
trưng, quý hiếm của thành phố Đà Nẵng để xây dựng ontology. Chọn
đúng lớp (lớp con) trên cây phân cấp lớp động vật mà loài động vật
được xếp vào để tạo các thể hiện cho các lớp đó, dựa vào thông tin
mô tả trong các nguồn dữ liệu của loài động vật để gán các thuộc tính
phù hợp.

Hình 3.3 – Xây dựng ontology cho loài Khỉ vàng


20
- Bên cạnh đó, cần thể hiện được các từ đồng nghĩa khi xây
dựng ontology động vật. Ví dụ, thuộc tính trọng lượng có thể hiểu là
cân nặng, nên khi xác định thuộc tính trọng lượng cần gán từ cân
nặng vào thuộc tính này. Hoặc lớp “Động vật có dây sống” cũng
được hiểu là “động vật có xương sống”,… Phần mềm Protégé thể
hiện từ đồng nghĩa bằng ký hiệu “

”.

3.4.2. Phần mềm hỗ trợ khai thác và tìm kiếm
Phần mềm hỗ trợ khai thác và tìm kiếm ngữ nghĩa ontology
động vật rừng thành phố Đà Nẵng được cài đặt trên internet, thuận
tiện cho công đồng kế thừa, đóng góp và phát triển ontology động
vật.
Với việc một cá nhân nghiên cứu và xây dựng ontology có thể

xảy ra sự thiếu sót, chưa chính xác, cũng như hạn chế trong việc phân
tích các thông tin mô tả, từ ngữ chuyên môn trong ngành sinh học.
Bên cạnh đó, trong khuôn khổ nghiên cứu này tôi thực hiện mô tả
một số loài động vật rừng quý hiếm của thành phố Đà Nẵng, vì vậy
còn rất nhiều loài động vật cần được mô tả và đưa vào ontology để
làm giàu và phong phú dữ liệu hơn nữa. Việc đó cần cộng đồng nhiều
cá nhân, tổ chức cùng thực hiện, có thể kế thừa hoặc tìm hiểu hướng
mới dựa trên hướng phân tích tôi đã thực hiện, để ontology động vật
rừng thành phố Đà Nẵng ngày càng đầy đủ và hoàn thiện. Từ đó, việc
xây dựng ứng dụng khai thác và tìm kiếm ngữ nghĩa càng được hiệu
quả và thiết thực hơn.
a. Trang chủ
Trang chủ hiển thị đầy đủ các chức năng để người dùng có thể
hiểu được các thành phần trong ontology động vật rừng. Thanh công
cụ được chia thành các mục như các Lớp (Classes), các Thuộc tính
(Properties), các Thể hiện (Individuals). Bên cạnh đó, mục Sự thay


21
đổi các chủ thể (Change by Entity) thể hiện những dự thay đổi, chỉnh
sửa đã xảy ra trên ontology động vật này.
Mục các Lớp (Classes): hiển thị danh sách các lớp, được trình
bày trực quang, cụ thể sự phân cấp trong các lớp, đồng thời hiển thị
thông tin về lớp được chọn xem.
b. Chức năng phát triển ontology
Bên cạnh việc người sử dụng có thể khai thác, kế thừa
ontology động vật rừng, phần mềm còn cung cấp chức năng hỗ trợ
người sử dụng tiếp tục phát triển ontology động vật này. Với chức
năng, chỉnh sửa, xóa và thêm các lớp, các thuộc tính và các loài động
vật, đáp ứng đầy đủ yêu cầu về xây dựng ontology.

Các chức năng phát triển sẽ hỗ trợ cộng đồng, những người
nghiên cứu về ontology động vật sau này có thể dễ dàng tiếp cận và
tiếp tục xây dựng mở rộng không những cho ontology động vật rừng
mà còn tất cả động vật, thực vật khác trên địa bàn thành phố Đà
Nẵng.
c. Chức năng Tìm kiếm
Dựa vào ontology động vật đã xây dựng, người dùng có thể
tìm kiếm các thực thể trong ontology, các loài động vật đã mô tả, các
lớp, các thuộc tính. Nhập loài động vật cần tìm:

Hình 3.4 – Ô nhập từ tìm kiếm
Phần mềm sẽ hiển thị các gợi ý tìm kiếm.
Người dùng chọn vào gợi ý mong muốn và thông tin về kết
quả sẽ được hiển thị. Với thông tin về loài động vật, các mô tả ngữ


22
nghĩa được thể hiện đầy đủ:

Hình 3.5 – Kết quả tìm kiếm loài Khỉ vàng
Chức năng tìm kiếm trên cây phân cấp lớp cũng được hỗ trợ
để người sử dụng có thể tìm chính xác lớp con hoặc loài động vật
thuộc lớp nào trên cây phân lớp. Trong ví dụ dưới đây, khi chọn 2 lần
vào gợi ý Khỉ thì cây phân lớp tự động xuất hiện lớp con khỉ trong
lớp cha Động vật.
3.5. KẾT CHƢƠNG
Dựa trên những nghiên cứu, tìm hiểu ở chương 2, chương này
tôi tiến hành đặc tả dữ liệu động vật rừng, tiến hành xây dựng chi tiết
ontology động vật rừng và phát triển các chức năng của phần mềm hỗ
trợ khai thác, tìm kiếm động vật rừng thành phố Đà Nẵng.

Ontology động vật rừng và phần mềm hỗ trợ khai thác và tìm
kiếm đã được xây dựng và sử dụng, đáp ứng những chức năng cần
thiết.
Với thời gian nghiên cứu ngắn và không có sự kế thừa từ
nghiên cứu tương tự trước đó, nên việc xây dựng ontology động vật
chỉ ở quy mô nhỏ, chưa thật sự lớn và phong phú. Tuy vậy, nghiên
cứu này đã giúp tôi có được nền tảng kiến thức và thực nghiệm cơ
bản, giúp ích cho việc nghiên cứu phát triển luận văn sau này.


23
KẾT LUẬN VÀ KIẾN NGHỊ
KẾT QUẢ ĐẠT ĐƢỢC CỦA LUẬN VĂN
Việc nghiên cứu, ứng dụng semantic web để xây dựng
ontology phục vụ tìm kiếm ngữ nghĩa động vật rừng trên địa bàn
thành phố Đà Nẵng đã thu được những kết quả ban đầu, đáng khích
lệ, làm nền tảng kiến thức quan trọng cho người nghiên cứu để tiếp
tục nghiên cứu chuyên sâu hơn.
Về mặt lý thuyết, nghiên cứu này đã tìm hiểu được các nội
dung kiến thức cơ bản, nêu được những nét đặc trưng, ưu thế của
web semantic. Bên cạnh đó, tìm hiểu được phương pháp, ngôn ngữ,
công cụ hỗ trợ xây dựng ontology, đưa ra được phương pháp xây
dựng ontology động vật rừng.
Đối với kết quả thực nghiệm, luận văn đã áp dụng kiến thức,
phương pháp đã tìm hiểu để xây dựng ontology cho dữ liệu động vật
rừng trên địa bàn thành phố Đà Nẵng và xây dựng được phần mềm
để hỗ trợ việc khai thác và tìm kiếm ngữ nghĩa dựa trên ontology
động vật đã xây dựng.
Việc phần mềm hỗ trợ khai thác và tìm kiếm ontology động
vật rừng trên địa bàn thành phố Đà Nẵng chạy trên internet, giúp

cộng đồng có thể tham khảo, thừa kế và tiếp tục phát triển, làm
phong phú thêm dữ liệu cho ontology động vật, góp phần phổ biến
rộng rãi thông tin về đa dạng sinh học của thành phố Đà Nẵng.
HẠN CHẾ
Bên cạnh kết quả đạt được thì nghiên cứu vẫn còn những hạn
chế, đó là ontology chỉ ở quy mô nhỏ, chưa thật sự lớn và phong phú.
Ta cần phải có được dữ liệu ontology đầy đủ để đánh giá mức độ xử
lý tìm kiếm chính xác cũng như mức độ đáp ứng được bao nhiêu


×