Tải bản đầy đủ (.docx) (40 trang)

Tiểu luận MÔN BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG Các ontology trong lĩnh vực thông tin địa lý

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (970.86 KB, 40 trang )

Các ontology trong lĩnh vực thông tin địa lý
PHẦN MỞ ĐẦU
Trong những năm gần đây cùng với sự phát triển nhanh chóng của
khoa học kỹ thuật là sự bùng nổ về xử lý tri thức. Kho dữ liệu, nguồn tri
thức của nhân loại càng trở nên đồ sộ, vô tận làm cho vấn đề khai thác các
nguồn tri thức đó ngày càng trở nên nóng bỏng và đặt ra thách thức lớn cho
nền công nghệ thông tin thế giới.
Nhu cầu về tìm kiếm, xử lý thông tin và nâng cao khả năng xử lý của
máy tính trong việc giải quyết các vấn đề thực tế của con người, cùng với
yêu cầu về khả năng kịp thời khai thác chúng để nâng cao năng suất và chất
lượng cho công tác quản lý, điều hành, ra quyết định, dự báo trong các hoạt
động sản xuất, kinh doanh,… đã trở nên cấp thiết trong xã hội hiện đại.
Nhưng vấn đề tìm kiếm và sử dụng nguồn tri thức đó như thế nào để phục
vụ cho công việc của mình lại là một vấn đề khó khăn đối với người sử
dụng trong việc biểu diễn những tri thức đó vào máy tính. Để đáp ứng phần
nào yêu cầu này, người ta đã xây dựng các công cụ biểu diễn tri thức và xử
lý thông tin nhằm giúp cho người dùng tìm kiếm, giải quyết được các bài
toán cần thiết cho mình, nhưng với sự rộng lớn, đồ sộ của các bài toán
trong thực tế đã làm cho người sử dụng cảm thấy khó khăn trong việc thu
thập và biểu diễn chúng để máy tính có thể hiểu và xử lý như con người.
Trong Trí tuệ nhân tạo và Biểu diễn tri thức, người ta thường xây
dựng các ontology hỗ trợ bên dưới các công cụ tìm kiếm, phân tích, tính
toán nhằm mục đích làm cho máy tính hiểu được ngữ nghĩa của các đối
tượng trong lĩnh vực mà nó xử lý sao cho giống với cách mà con người suy
nghĩ nhất. Ontology là một giải pháp biểu diễn tri thức và chia sẻ thông tin
mà cả máy tính và con người có thể hiểu được. Ontology chứa những đặc
tả rõ ràng của các khái niệm về một lĩnh vực và quan hệ giữa các khái niệm
đó. Nó được sử dụng trong lĩnh vực Trí tuệ nhân tạo, công nghệ Web ngữ
nghĩa, kỹ thuật phần mềm, sinh tin học và kiến trúc thông tin như là một
hình thức biểu diễn tri thức về thế giới thực trong một số lĩnh vực cụ thể.
Biểu diễn tri thức và ứng dụng Trang 1


1
Các ontology trong lĩnh vực thông tin địa lý
Trong bài tiểu luận này, tôi xin trình bày lại bài báo khoa học
“Ontologies in the Geographic Information Sector” của các tác giả: Roland
Billen; Javier Nogueras-Iso; F. Javier López-Pellicer và Luis M. Vilches-
Blázquez.
Thông tin cụ thể của bài báo được liệt kê bên dưới.
Ontologies in the Geographic Information Sector
Authors: Billen, Roland; Nogueras-Iso, Javier; López-Pellicer, F. Javier; Vilches-
Blázquez, Luis M.
In: Ontologies in Urban Development Projects
Editors: Falquet, Gilles; Métral, Claudine;Teller, Jacques; Tweed, Christopher
Book Series Title: Advanced Information and Knowledge Processing
Copyright: 2011
Publisher: Springer London
Isbn: 978-0-85729-724-2
Start Page: 83 End Page: 103
Url: />Doi: 10.1007/978-0-85729-724-2_6
Kế thừa kinh nghiệm từ các kết quả nghiên cứu trên, tôi xin trình bày
một số ý kiến nhằm áp dụng các ontology chuyên ngành trong việc xây
dựng một mô hình cơ sở dữ liệu quản lý đất đai đa mục tiêu tại Việt nam.
Tôi xin chân thành cảm ơn Phó giáo sư, Tiến sĩ Đỗ Văn Nhơn, giảng
viên môn học “Biểu diễn tri thức và ứng dụng”, đã truyền đạt những kiến
thức quý báu về các hướng nghiên cứu trong lĩnh vực trí truệ nhân tạo và
biểu diễn tri thức tiên tiến hiện nay; đã hướng dẫn và chỉ bảo để hoàn thành
chuyên đề nghiên cứu rất bổ ích và lý thú này.
Nội dung của bài tiểu luận ngoài phần mở đầu và kết luận, có ba
chương như sau:
Chương 1: Tổng quan về ontology và lĩnh vực thông tin địa lý.
Chương 2: Các ontology trong lĩnh vực thông tin địa lý.

Chương 3: Mô hình cơ sở dữ liệu đất đai đa mục tiêu tại Việt nam.
Biểu diễn tri thức và ứng dụng Trang 2
2
Các ontology trong lĩnh vực thông tin địa lý
CHƯƠNG 1
TỔNG QUAN VỀ ONTOLOGY VÀ LĨNH VỰC
THÔNG TIN ĐỊA LÝ
Nội dung Chương 1 trình bày sơ lược khái niệm ontology cũng như
nhu cầu cần thiết phải có ontology. Đồng thời cũng tóm lược về các khái
niệm và một số vấn đề trong lĩnh vực thông tin địa lý.
1. Định nghĩa về ontology
Bỏ qua ngữ nghĩa Triết học, trong lĩnh vực Công nghệ thông tin
ontology cũng có rất nhiều định nghĩa khác nhau. Trong tiểu luận này, chỉ
xin nêu một định nghĩa - được đánh giá là diễn tả đúng nhất về ontology -
của A. Maedche & B. Motik & L. Sjanovic (2003) như sau: “Ontology là
mô hình khái niệm trong phạm vi ứng dụng nhất định, có thể thực thi và
chia xẻ trên máy tính”.
Theo đó, một ontology phải có những tính chất sau:
- Được sử dụng để mô tả một phạm vi ứng dụng cụ thể.
- Các khái niệm và quan hệ được định nghĩa rõ ràng trong phạm vi
ứng dụng.
- Có cơ chế tổ chức các khái niệm (phân cấp).
- Có sự đồng thuận về mặt ý nghĩa các khái niệm của những người
cùng sử dụng.
2. Các thành phần của ontology
- Khái niệm (concept):
Các khái niệm được phân loại để định nghĩa tập hợp các thuộc tính
hoặc tập hợp các thao tác là đặc trưng của các thành phần của khái niệm.
Ví dụ trong ontology về giao thông đô thị, Ga xe lửa và Trạm xe buýt
là hai khái niệm.

- Quan hệ (relation):
Là kiểu tương tác giữa các khái niệm.
Ví dụ, khái niệm Đường một chiều, Đường hai chiều là khái niệm con
của khái niệm Đường. Trong đó, “là khái niệm con” là một quan hệ.
Biểu diễn tri thức và ứng dụng Trang 3
3
Các ontology trong lĩnh vực thông tin địa lý
Đặc biệt hóa của quan hệ là quan hệ phân cấp. Người ta thường dùng
đồ thị để biểu diễn cho các quan hệ phân cấp. Mỗi nút đại diện cho một
khái niệm. Cung có hướng dùng để chỉ cha của nút đó. Nút không có cha là
nút khái niệm cơ bản.
Ví dụ, trong ontology giao thông đô thị, Làn đường là khái niệm
cơ bản.
- Hàm (function):
Là các thao tác thực hiện trên ontology.
Ví dụ, hệ thống có thể tính thời gian đi từ điểm khởi hành A đến điểm
đích B dựa vào thuộc tính vận tốc trung bình của phương tiện giao thông.
- Tiên đề (axiom):
Tiên đề có thể phân tích thành luật, các luật thể hiện các tri thức phổ
quát trên các khái niệm và các loại sự kiện khác nhau. Mỗi luật cho ta một
quy tắc suy luận để đi đến một sự kiện mới từ sự kiện đã có. Về mặt cấu
trúc nó gồm 2 thành phần chính là: phần giả thiết và phần kết luận của luật.
Hai thành phần này đều là các tập hợp sự kiện trên các đối tượng nhất định.
Như vậy, một luật r có thể được mô hình dưới dạng:
r: {sk
1
, sk
2
, …, sk
n

}  {sk
a
, sk
b
, …, sk
m
}
Ví dụ, Ngã tư phải có nhiều hơn một đường hoặc Nếu là ngã tư thì
phải có hai đường giao nhau.
- Thể hiện (instance):
Là đại diện cho những phần tử riêng biệt của khái niệm hay quan hệ.
Ví dụ, Đường được đặt tên là đường Nguyễn Chí Thanh là thể hiện
của khái niệm Đường.
3. Lĩnh vực thông tin địa lý và các tồn tại
Lĩnh vực thông tin địa lý (Geographical information hoặc
Geoinformation - GI) mô tả các đối tượng, hiện tượng liên quan trực tiếp
hoặc gián tiếp với một vị trí (hệ tọa độ, hệ thống địa chỉ ) đối với bề mặt
trái đất. Các đối tượng, hiện tượng đó có thể rời rạc hóa về mặt không gian
(đại diện bởi các đối tượng hình học như điểm, đường, vùng,…) như một
Biểu diễn tri thức và ứng dụng Trang 4
4
Các ontology trong lĩnh vực thông tin địa lý
khu đô thị, một trục đường,… hoặc liên tục hóa về mặt không gian (ví dụ,
đại diện bằng cách nội suy trên một lưới ảnh) như độ cao địa hình hay
khuếch tán ô nhiễm môi trường,… Thông tin địa lý được tạo ra bằng cách
thao tác trên các dữ liệu địa lý (hoặc dữ liệu không gian địa lý) trong một
hệ thống máy tính. Dữ liệu không gian địa lý có thể thu thập bởi các
phương tiện khác nhau như: khảo sát địa hình, ảnh viễn thám, ảnh hàng
không, GPS, công nghệ bay quét (LiDAR) và tất cả các loại khảo sát khác
dựa vào kỹ thuật cảm biến. Theo truyền thống, những dữ liệu này là thành

phần cốt lõi của các hệ thống thông tin địa lý (Geographic Information
System - GIS). GIS cũng chính là thuật ngữ thường được sử dụng để tham
chiếu đến các gói phần mềm cho phép chụp, lưu trữ, kiểm tra, tích hợp,
thao tác, phân tích và hiển thị dữ liệu không gian địa lý.
Do vậy, thông tin địa lý được ứng dụng rộng rãi trong rất nhiều lĩnh
vực có liên quan đến xử lý hoặc tham chiếu dữ liệu không gian. Các ứng
dụng điển hình là: Đăng ký nhà đất, quản lý địa chính, đánh giá tài nguyên
đất, thủy văn, quy hoạch và quan trắc môi trường. Mối liên quan giữa các
ứng dụng đô thị và lĩnh vực thông tin địa lý là rõ ràng khi hầu hết các thông
tin được xử lý trong các ứng dụng đô thị thực sự là thông tin địa lý (bản đồ
hoặc cơ sở dữ liệu không gian bao gồm nhà cửa; mạng điện, nước, viễn
thông, giao thông, công trình ngầm; địa hình, địa chính…). Vì vậy, thật hợp
lý để mô tả và sử dụng các ontology trong lĩnh vực thông tin địa lý cho các
dự án liên quan đến đô thị.
Tiềm năng của thông tin địa lý như là một công cụ để hỗ trợ quá trình
ra quyết định và quản lý tài nguyên trong các lĩnh vực khác nhau (như là,
tài nguyên thiên nhiên, cơ sở vật chất, địa chính hoặc quy hoạch nông
nghiệp, đô thị) của các cơ quan quản lý nhà nước hoặc doanh nghiệp đã dẫn
đến sự phát triển GIS thành một khái niệm rộng hơn là Cơ sở hạ tầng dữ
liệu không gian (Spatial Data Infrastructure - SDI). Theo Global Spatial
Data Infrastructure Association Cookbook (Nebert 2004) thì “thuật ngữ
SDI thường được dùng để biểu thị các tập hợp cơ bản có liên quan với nhau
Biểu diễn tri thức và ứng dụng Trang 5
5
Các ontology trong lĩnh vực thông tin địa lý
về công nghệ, chính sách và thể chế tạo thuận lợi cho sự sẳn có và truy xuất
được của dữ liệu không gian”. Ủy ban Châu Âu về chuẩn hóa (European
Committee for Standardization - CEN) định nghĩa khái niệm SDI như là
một nền tảng trung lập và triển khai cơ sở hạ tầng kỹ thuật cho dữ liệu
không gian và các dịch vụ đi kèm, dựa trên các tiêu chuẩn và thông số kỹ

thuật không độc quyền (CEN 2006).
Từ định nghĩa trên của SDI có thể rút ra được rằng một trong những
mục tiêu chính của SDI là làm cho việc thao tác với dữ liệu không gian
hiệu quả hơn (McKee 2000; Nebert 2001), tránh được các vấn đề đã xảy ra
với công nghệ GIS truyền thống và các tập dữ liệu không gian. Bernard và
các cộng sự (2004) nhận xét có hai vấn đề lớn đối với các ứng dụng độc lập
của GIS truyền thống: (1) Các tập dữ liệu tồn tại trong rất nhiều định dạng
khác nhau (các tập dữ liệu trong định dạng này thường phải được chuyển
đổi mới sử dụng được trên một hệ thống khác) và (2) Những dữ liệu này
thường không được lập tài liệu đầy đủ (người sử dụng rất khó hoặc thậm
chí không thể khám phá, đánh giá xem liệu một tập dữ liệu đã cho có hữu
dụng đối với các tác vụ của mình hay không). Nói cách khác, các tác giả
muốn nói lên sự bất lực của các công cụ GIS tách biệt trong việc giải quyết
vấn đề tương thích dữ liệu trong bối cảnh hiện nay, khi mà thông tin địa lý
phải được chia xẻ giữa các hệ thống trực tuyến. Khi đề cập đến khả năng
tương thích của thông tin địa lý, người ta mong muốn “mục tiêu của các hệ
thống GIS liên tác vụ là để đạt được một tiến trình tự động cho phép sử
dụng dữ liệu và các dịch vụ phần mềm vượt qua ranh giới mà các nhà thu
thập và thiết kế chúng đặt ra” (Egenhofer 1999).
Cần nói thêm một chút về vấn đề tương thích trong thông tin địa lý,
trở ngại chính của các hệ thống liên tác là sự không đồng nhất trong dữ liệu
và các dịch vụ được quản lý bởi những hệ thống đó. Để xác định xem hai
hệ thống không đồng nhất ở những nơi nào, người ta phải phân tích các
tính năng khác nhau của chúng cũng như sự khác nhau của từng mức độ
tương thích. Một khác biệt thường thấy là sự tương thích giữa cú pháp (giải
Biểu diễn tri thức và ứng dụng Trang 6
6
Các ontology trong lĩnh vực thông tin địa lý
quyết sự không đồng nhất cú pháp) và ngữ nghĩa (giải quyết sự không đồng
nhất ngữ nghĩa) (Kolodziej 2003). Tương thích cú pháp có liên quan đến

các cấp độ kỹ thuật, tức là nó đề cập đến khả năng của một hệ thống hoặc
các thành phần của một hệ thống cung cấp khả năng chuyển đổi thông tin
và liên ứng dụng cũng như khả năng điều khiển quá trình đồng xử lý. Nó
bao gồm sự giao tiếp ở mức giao thức truyền thông, phần cứng, phần mềm
và các lớp dữ liệu tương thích. Tương thích ngữ nghĩa, ngược lại, giải
quyết các miền tri thức cần thiết cho các dịch vụ thông tin “hiểu được” các
ý định và khả năng của nhau.
Để khắc phục các vấn đề về tương thích, các tiêu chuẩn thông tin địa
lý được phát triển bởi các tổ chức tiêu chuẩn hóa như Open Geospatial
Consortium (OGC) hay ISO/TC211 (ISO technical committee for
geographic information and geomatics). Việc sử dụng các tiêu chuẩn thông
tin địa lý đã dần loại bỏ rất nhiều khó khăn do sự không tương thích của
cấu trúc dữ liệu và cú pháp, nhưng nó không đủ để giải quyết hoàn toàn các
vấn đề bắt nguồn từ sự không đồng nhất ngữ nghĩa. Theo Bishr (1998), sự
không đồng nhất ngữ nghĩa được định nghĩa như là hậu quả của các khái
niệm khác nhau đối với một thực tế trong thế giới thực. Bởi vì có các quan
điểm khác nhau trên cùng một sự kiện trong thế giới thực, có thể không có
một cơ sở chung cho các định nghĩa của các sự kiện cơ bản giữa hai ngành
(miền tri thức). Xuất phát từ những quan điểm khác nhau đó, Bishr phân
biệt hai phân nhóm chính của sự không đồng nhất ngữ nghĩa: nhận thức
không đồng nhất và đặt tên không đồng nhất. Nhận thức không đồng nhất
xảy ra khi cùng một thuật ngữ được sử dụng trong các lĩnh vực khác nhau
đại diện cho các khái niệm khác nhau. Mặt khác, đặt tên không đồng nhất
xảy ra khi cùng một sự kiện trong thế giới thực được hiểu theo cùng một
cách, nhưng được đặt tên khác nhau.
Vấn đề tương thích ngữ nghĩa phát sinh trong những tình huống khác
nhau trong thông tin địa lý từ việc khai phá và rút trích thông tin đến việc
tích hợp dữ liệu từ các nguồn khác nhau. Ví dụ, trong trường hợp khai phá
Biểu diễn tri thức và ứng dụng Trang 7
7

Các ontology trong lĩnh vực thông tin địa lý
thông tin địa lý, mặc dù đã có các giao diện chuẩn hóa cho dịch vụ danh
mục (như là các đặc tả dịch vụ danh mục OGC), việc phù hợp với các đặc
tả vẫn không tránh khỏi có các danh mục thông tin địa lý không đồng nhất
về ngữ nghĩa.
Do đó việc nghiên cứu ontology trong lĩnh vực thông tin địa lý là một
hướng tiếp cận khả dĩ tạo thuận lợi cho khả năng tương tác ngữ nghĩa và
khắc phục được các vấn đề không đồng nhất ngữ nghĩa. Việc định nghĩa rõ
ràng về tri thức của ontology thường được sử dụng như một cơ chế để hiểu
và giải quyết sự không đồng nhất ngữ nghĩa phát sinh khi có sự thực hiện
liên tác vụ giữa hai hệ thống khác nhau (Wache et al. 2001). Xác định, xây
dựng và sử dụng ontology đã trở thành một chủ đề nghiên cứu quan trọng
trong Khoa học thông tin địa lý (Geographical Information Sciences -
GISc).
Biểu diễn tri thức và ứng dụng Trang 8
8
Các ontology trong lĩnh vực thông tin địa lý
CHƯƠNG 2
CÁC ONTOLOGY TRONG LĨNH VỰC THÔNG TIN ĐỊA LÝ
Nội dung Chương 2 trình bày các tính năng, đặc điểm của các
ontology liên quan đến thông tin địa lý, trong đó tập trung vào vai trò của
ontology trong việc tạo thuận lợi cho khả năng tương thích thông tin. Phần
cuối sẽ trình bày 3 nghiên cứu về các phương pháp thiết kế ontology và
việc sử dụng ontology trong ngữ cảnh thông tin địa lý.
1. Một số vấn đề cơ bản
Trong lĩnh vực thông tin địa lý, đặc biệt hơn là trong cộng đồng cơ sở
dữ liệu không gian, thuật ngữ ontology thường được gắn với (Yeung và
Hall 2007):
- Một khái niệm sử dụng chính thức và xác định rõ ràng các thuật
ngữ và từ vựng để mô tả các đối tượng của thế giới thực hoặc hiện

tượng liên quan đến một ngành, một lĩnh vực, một ứng dụng cụ thể.
- Một tập hợp đặc tả có hệ thống của các thực thể không gian, cùng
với các thuộc tính và quan hệ của chúng, thường được lưu trữ trong
một cấu trúc phân cấp và được chia xẻ bởi những người sử dụng
trong một ngành, lĩnh vực cụ thể.
- Một cách tiếp cận mới để thiết kế hệ thống cơ sở dữ liệu không
gian có nhiều thuận lợi hơn các phương pháp thông thường trong
việc phát triển hệ thống, bao gồm:
• Cho phép thiết lập sự tương quan và tương hợp giữa các lĩnh
vực khác nhau của các thực thể và quan hệ không gian.
• Góp phần tạo ra các hệ thống thông tin tốt hơn bằng cách cải
thiện sự giao tiếp giữa những người phát triển hệ thống, người
quản lý và người sử dụng.
• Cho phép một hướng tiếp cận lấy người sử dụng làm trung tâm
để phát triển hệ thống.
• Cung cấp các khái niệm và công nghệ cơ bản cho các hệ cơ sở
dữ liệu tương thích.
Biểu diễn tri thức và ứng dụng Trang 9
9
Các ontology trong lĩnh vực thông tin địa lý
• Thiết kế cơ sở dữ liệu không gian từ một góc độ bên ngoài bản
đồ, xem thế giới thực như là các lớp thông tin độc lập có thể
được kết hợp hoặc chồng lớp.
Hãy chú ý vào hai khía cạnh đầu tiên. Như ta đã biết, các ontology có
thể được thực hiện bằng cách sử dụng nhiều ngôn ngữ khác nhau (như
Resource Description Framework – RDF hoặc Web Ontology Language -
OWL) và có thể được quản lý bằng các công cụ đặc thù như Protégé. Các
ontology cũng có thể được tạo ra một cách trực quan bằng cách sử dụng
các mô hình Thực thể - Quan hệ hoặc dưới dạng UML. Được trình bày bởi
(Yeung et al. 2007) và được nghiên cứu sâu hơn bởi (Fonseca et al. 2002,

2003), quá trình xây dựng và lập tài liệu ontology có thể so sánh với quá
trình mô hình hóa cơ sở dữ liệu khái niệm, bởi vì cả hai quá trình đều nhằm
mục đính xác định và định nghĩa các đối tượng của thế giới thực và các mối
quan hệ của chúng. Tuy nhiên, mặc dù quy trình là giống nhau nhưng sản
phẩm cuối cùng là khác nhau. Trong khi mục đích của một lược đồ khái
niệm là để mô tả cấu trúc của một cơ sở dữ liệu đang xây dựng ở mức độ
trừu tượng cao thì một ontology đại diện cho một đồng thuận về ý nghĩa và
quan hệ giữa các từ vựng của các thuật ngữ được sử dụng để đại diện cho
dữ liệu. Không nhất thiết phải có sự tương ứng trực tiếp giữa cấu trúc của
một ontology và cấu trúc của cơ sở dữ liệu khi nó được đại diện bằng một
mô hình cơ sở dữ liệu khái niệm. Điều này sẽ được minh họa trong mục
3.2.
Các ontology có thể được xây dựng theo hướng tiếp cận từ trên xuống,
từ dưới lên hay trung hòa của hai tiếp cận đó. Ta chỉ cần ghi nhớ rằng tiếp
cận từ trên xuống xây dựng ontology từ các ontology ở mức cao hơn, tiếp
cận từ dưới lên trích xuất ontology từ các hệ thống đã triển khai và tiếp cận
trung hòa là kết hợp của cả hai cách trên. Mục 3.1 mô tả một tiếp cận từ
trên xuống, Mục 3.2 mô tả một tiếp cận từ dưới lên.
Nói chung, các ontology được tạo ra bởi sự đồng thuận của các
chuyên gia về dữ liệu trong một lĩnh vực cụ thể. Tập hợp các chuyên gia
Biểu diễn tri thức và ứng dụng Trang 10
10
Các ontology trong lĩnh vực thông tin địa lý
này, đôi khi còn gọi là một cộng đồng thông tin, bằng các hoạt động xây
dựng một loạt các ontology chuyên ngành (Auxilio và Nieto 2003). Những
hoạt động này bao gồm việc chiết xuất từ các lược đồ cơ sở dữ liệu có sẳn
(trong trường hợp tiếp cận từ dưới lên) và thông qua một quá trình mô hình
hóa dữ liệu, được gọi là mô hình ngữ nghĩa, tập trung vào việc xác định và
định nghĩa các thuật ngữ liên quan. Trong quá trình xây dựng ontology,
thường cần phải thu hút sự trợ giúp từ các chuyên gia đầu ngành để bảo

đảm độ chính xác và rõ ràng của các định nghĩa.
Ontology là một cách tiếp cận để thiết kế cơ sở dữ liệu và phục vụ
nhiều mục đích hữu ích khác. Khả năng của ontology là cung cấp ý nghĩa
rõ ràng và các mối quan hệ có cấu trúc giữa các thuật ngữ dùng để mô tả
thế giới thực, làm cho chúng trở thành một công cụ hữu ích trong việc giải
quyết bài toán không đồng nhất ngữ nghĩa trong thiết kế cơ sở dữ liệu và
ứng dụng. Nó cũng là một phương tiện quan trọng của truyền thông bằng
cách cung cấp những khái niệm chính xác có thể sử dụng để mô tả một lĩnh
vực ứng dụng. Nó cũng cung cấp các phương tiện để giúp xác định ngữ
nghĩa của các trường dữ liệu một cách trong sáng và rõ ràng.
Khi tập trung vào tính không đồng nhất và khả năng tương tác ngữ
nghĩa, giá trị lớn nhất của ontology là vai trò của nó trong chiến lược hỗ trợ
liên tác vụ trên các cơ sở dữ liệu bằng các phương tiện chuyển đổi truy vấn
và tích hợp lược đồ. Chuyển đổi truy vấn là quá trình chuyển đổi và ánh xạ
các tên trường không đồng nhất được sử dụng trong các tập dữ liệu khác
nhau đến một ontology để có thể truy vấn chúng đồng thời chỉ bằng một
câu lệnh đơn lẻ, ví dụ chỉ bằng một câu truy vấn SQL. Mặt khác, tích hợp
lược đồ là sử dụng các khái niệm của ontology để kết nối các lược đồ của
các nguồn dữ liệu riêng rẽ thành một lược đồ toàn cục.
2. Sử dụng ontology như một cách để giải quyết bài toán tương thích
2.1. Khai phá và rút trích thông tin địa lý dựa trên ontology
Biểu diễn tri thức và ứng dụng Trang 11
11
Các ontology trong lĩnh vực thông tin địa lý
Khai phá và rút trích thông tin địa lý rõ ràng là một trong những mục
tiêu chính của việc phát triển các hệ thống tương thích và là phần mở rộng
của SDI. Nó cũng rất quan trọng trong việc phát hiện các dịch vụ xử lý dữ
liệu địa lý phù hợp. Thông thường, khai phá và rút trích thông tin địa lý và
các dịch vụ xử lý dữ liệu được thực hiện dựa trên các từ khóa. Tuy nhiên,
từ khóa không phải lúc nào cũng đủ để tìm chính xác thông tin địa lý phù

hợp bởi vì chúng thiếu ngữ nghĩa, có sự mơ hồ trong ngôn ngữ tự nhiên và
không thể áp dụng cơ chế suy luận. Sự xuất hiện của ontology cung cấp
khả năng để tăng cường cho khai phá và rút trích thông tin, nó giải quyết
được bài toán không đồng nhất ngữ nghĩa giữa tìm kiếm của người dùng và
mô tả của thông tin địa lý trong SDI.
SDI cung cấp các dịch vụ danh mục để khai phá các dữ liệu và dịch vụ
phù hợp cho một tác vụ cụ thể. Việc tìm kiếm trên các danh mục này hiện
nay chủ yếu vẫn dựa trên kỹ thuật so khớp chuỗi của các từ khóa với các
mục trong mô tả dữ liệu (metadata) (Lutz 2005). Tìm kiếm dựa trên từ
khóa đem lại kết quả thấp nếu khác với các thuật ngữ được sử dụng và /
hoặc đem lại độ chính xác thấp nếu thuật ngữ này là đồng âm hoặc vì khả
năng hạn chế của chúng trong việc thể hiện các truy vấn phức tạp
(Bernstein và Klein 2002, trích dẫn bởi Lutz 2005). Một cách để khắc phục
những hạn chế này là sử dụng các ontology để cải thiện các quá trình
so khớp.
Ví dụ, (Bernard et al. 2004) mô tả kiến trúc của một ontology dựa trên
hệ thống khai phá và rút trích thông tin địa lý. Trong hệ thống này, các dịch
vụ đặc tính Web (Web Feature Services - WFS) khác nhau được mô tả
cùng với metadata bao gồm một tham chiếu đến một ứng dụng ontology.
Ứng dụng ontology này mô tả các kiểu đặc tính dưới dạng một ontology
chuyên ngành được chia xẻ. Các truy vấn của người dùng được xử lý như
sau: người dùng phát biểu các truy vấn của họ dưới dạng ontology chuyên
ngành được chia xẻ; sau đó, hệ thống mở rộng các giới hạn truy vấn của
người dùng bằng tên của các tính năng đã được lưu trữ trước đó. (Lutz và
Biểu diễn tri thức và ứng dụng Trang 12
12
Các ontology trong lĩnh vực thông tin địa lý
Klien 2006) đã cải tiến hệ thống này. Phiên bản thứ hai định nghĩa một
ngôn ngữ truy vấn và cung cấp một giao diện giúp người dùng xây dựng
các truy vấn từ các từ vựng chuyên ngành đã biết. Trong hệ thống này, tên

các phần tử của Ngôn ngữ đánh dấu địa lý (Geography Markup Language –
GML) (sẽ nói rõ hơn trong Mục 2.2) trả về bởi WFS được ánh xạ đến một
từ vựng được chia xẻ và được dùng để mở rộng các truy vấn của người
dùng bằng cách sử dụng một bộ suy diễn logic mô tả (Description Logic -
DL).
Các công trình nghiên cứu các dưới dạng này được đề xuất bởi
(Hübner et al. 2004) và (Navarrete 2006). Công trình thứ nhất mô tả một hệ
thống suy luận dựa trên ontology cho phép tích hợp thông tin địa lý không
đồng nhất bằng cách giải quyết sự không đồng nhất về cấu trúc, cú pháp và
ngữ nghĩa. Hệ thống truy vấn này hỗ trợ các đặc tả của truy vấn theo kiểu
concept@location theo thời gian. Người dùng lựa chọn một tập ứng dụng
ontology chuyên ngành đã được đăng ký (theo chuyên đề, không gian, thời
gian) dựa trên tập từ vựng phổ biến và dùng chúng để chọn các thuật ngữ
tìm kiếm và được mở rộng bằng cách chọn tất cả các khái niệm tương
đương và khái niệm con (đối với các thuật ngữ tìm kiếm theo chủ đề),
không gian có liên quan đến vị trí (đối với các thuật ngữ tìm kiếm không
gian) và khoảng thời gian có liên quan (đối với các thuật ngữ tìm kiếm thời
gian). Công trình thứ hai cung cấp một khung làm việc (framework) đại
diện cho các quan hệ ngữ nghĩa giữa các khái niệm từ các bộ dữ liệu khác
nhau của một kho dữ liệu. Hệ thống này dựa trên một ontology cao cấp
được xây dựng bằng cách kết hợp tri thức được cung cấp bởi các tập dữ
liệu của kho dữ liệu, mô tả một cách chính xác nội dung của kho dữ liệu.
Ontology này sau đó được dùng để xác định các dịch vụ ngữ nghĩa hoặc
các truy vấn cho phép các tác nhân tìm kiếm và tích hợp thông tin chuyên
đề. Hệ thống tập trung chủ yếu vào việc tìm kiếm các bộ dữ liệu chứa
thông tin về một chủ đề cụ thể (bao gồm cả các lớp con của chủ đề nếu
chúng được quan tâm); chuyển đổi nội dung của tập dữ liệu đến một từ
Biểu diễn tri thức và ứng dụng Trang 13
13
Các ontology trong lĩnh vực thông tin địa lý

vựng thích hợp và tích hợp nội dung không đồng nhất từ các tập dữ liệu
khác nhau.
Liên quan đến các dịch vụ khai phá và rút trích thông tin địa lý, các
tiếp cận tương tự dựa trên mô tả theo hướng ontology của các truy vấn và
dịch vụ đã được đề xuất. Bằng cách sử dụng ontology để làm giàu các mô
tả dịch vụ, các ngữ nghĩa của chúng đã trở thành máy thông dịch và người
dùng được phép đặt ra các truy vấn xúc tích và biểu cảm. Hơn nữa, suy
luận logic được sử dụng để khám phá các mối quan hệ tiềm ẩn giữa các
thuật ngữ tìm kiếm và các mô tả dịch vụ.
2.2. Tích hợp dữ liệu trong các cơ sở dữ liệu không gian không đồng nhất
Các ứng dụng địa lý là một ví dụ cho sự cần thiết để đưa việc tích hợp
dữ liệu lên quy mô lớn. Điển hình là các nghiên cứu trong các lĩnh vực thời
tiết, môi trường, phát triển bền vững, quy hoạch sử dụng đất, quản lý đất
đai, các ứng dụng di động kèm theo… Thông hiểu ngữ nghĩa là yêu cầu bắt
buộc để khai phá và trích xuất thông tin cần thiết vào một cấu trúc phù hợp
cho việc tích hợp từ các nguồn dữ liệu. Các nhà nghiên cứu đã chỉ ra sự cần
thiết phải tập trung vào một lĩnh vực chuyên ngành mới có thể đạt được
mục tiêu chính của sự hiểu biết ngữ nghĩa.
Ontology xác định ngữ nghĩa độc lập với dữ liệu mà chúng đại diện và
phản ảnh được sự liên quan của dữ liệu mà không cần truy cập đến chúng.
Như vậy, một mô tả ngữ nghĩa cấp cao của thông tin địa lý cung cấp thêm
phương tiện mới để so sánh và tích hợp dữ liệu không gian. Ngoài ra, các
ontology còn cho phép tái sử dụng tri thức bằng dữ liệu mô tả ngữ nghĩa
được phát sinh từ sự đồng thuận của các cộng đồng GIS khác nhau.
(Kashyap and Sheth 1996) trình bày một phân loại ngữ nghĩa để minh
họa sự tương đồng ngữ nghĩa giữa hai đối tượng liên quan dựa trên một
nguyên tắc phân loại có cấu trúc. Ngày nay, tích hợp thông minh đã được
áp dụng để tích hợp cơ sở dữ liệu không đồng nhất.
Biểu diễn tri thức và ứng dụng Trang 14
14

Các ontology trong lĩnh vực thông tin địa lý
Trong khuôn khổ SDI, một số ontology đã được xây dựng trong
những năm qua với mục đích tạo thuận lợi cho việc tích hợp dữ liệu. Điển
hình như sau:
• Ontology for Geography Markup Language
1
cung cấp một biểu
diễn hướng ontology của GML version 3.0 sử dụng OWL như ngôn
ngữ ontology. GML là một đặc tả OGC dùng cho việc mã hóa và
trao đổi thông tin địa lý.
• Geospatial Resource Description Framework (GRDF) (Alam et al.
2008) là một dạng ontology OWL khác, các khái niệm và thuộc tính
của nó mở rộng những định nghĩa trước đó của GML. Mục đích của
ontology này là định nghĩa một ngôn ngữ diễn đạt trong lĩnh vực
không gian địa lý làm gia tăng những ưu điểm được cung cấp bởi
các ngôn ngữ Web ngữ nghĩa (Web semantic language).
• OntoSensor (Russomanno et al. 2005) là một ontology dựa trên
IEEE Suggested Upper Merged Ontology (SUMO)
2
, là một
ontology cấp cao định nghĩa các khái niệm chung. Mục đích của
OntoSensor là cung cấp một ontology quan niệm của SensorML,
một ngôn ngữ được quy định bởi OGC đại diện cho những dữ liệu
cảm biến thu thập được từ các vệ tinh viễn thám. SensorML cũng là
một ngôn ngữ có nguồn gốc từ GML.
2.3. Các hệ thống thông tin địa lý hướng ontology
Ontology đã được đề xuất để đóng vai trò trung tâm trong vòng đời
của các hệ thống thông tin, dẫn đến một hệ thống thông tin hướng ontology
(Ontology-driven information system - ODIS) (Guarino 1998). Trong
trường hợp này, ontology định hướng tất cả các khía cạnh và thành phần

của hệ thống thông tin. Trong ODIS, ontology được gọi là ontology ứng
dụng và nó là một đặc tả của một ontology chuyên ngành và ontology tác
vụ (Guarino 1998). Sự khác biệt giữa hệ thống thông tin hướng ontology
với các hệ thống thông tin khác là ontology này thậm chí còn được thực
1
2 />Biểu diễn tri thức và ứng dụng Trang 15
15
Các ontology trong lĩnh vực thông tin địa lý
hiện một cách tường minh trước khi hệ thống thông tin được thiết kế. Theo
giải thích của (Fonseca 2007), bằng cách sử dụng ontology trong giai đoạn
phát triển hệ thống cho phép các nhà thiết kế thực hành ở mức độ cao hơn
việc sử dụng lại tri thức so với việc sử dụng các công nghệ phần mềm
thường dùng. Việc sử dụng một vốn từ vựng phổ biến trên các nền tảng các
phần mềm không đồng nhất cung cấp việc tái sử dụng và chia xẻ các tri
thức chuyên ngành của ứng dụng. Vì vậy, các nhà thiết kế có thể tập trung
vào cấu trúc của lĩnh vực thay vì quá quan tâm đến các chi tiết thực thi.
Phát triển và sử dụng các ontology nên là một điều kiện tiên quyết để mô
hình hóa khái niệm. Các ontology có các ý nghĩa rộng hơn so với các lược
đồ khái niệm. Tại thời gian chạy, một ontology có thể tạo ra các giao tiếp
giữa các phần mềm hoặc được dùng để hỗ trợ việc tích hợp thông tin.
Cách tiếp cận của Fonseca cũng được liên kết với một tiếp cận gần
đây của công nghệ phần mềm được gọi là Model Driven Engineering
(MDE) hay Model Driven Development (MDD). MDD tập trung vào các
mô hình như là sản phẩm chính trong quá trình phát triển với các biến đổi
như là hoạt động chính của các mô hình. Hướng tiếp cận mới này cho phép
tập trung các nỗ lực vào việc mô hình hóa các chức năng hệ thống thay vì
các chi tiết cụ thể. Ứng dụng nối tiếp của biến đổi mô hình tạo thuận lợi
cho việc chuyển hóa mô hình ban đầu vào một ứng dụng nền cụ thể.
(Grangel et al. 2007) mô tả các nội dung chính cho việc áp dụng hướng tiếp
cận MDD này trong lĩnh vực đô thị.

3. Các nghiên cứu điển hình
Phần này trình bày 3 nghiên cứu cụ thể về các phương pháp thiết kế
ontology và cách sử dụng ontology trong lĩnh vực thông tin địa lý. Hai
nghiên cứu đầu tiên quan tâm đến hướng tiếp cận thiết kế ontology từ trên
xuống áp dụng trong lĩnh vực thủy văn và hướng tiếp cận thiết kế ontology
từ dưới lên áp dụng trong các dự án tái cấu trúc cơ sở dữ liệu không gian đô
thị. Trường hợp thứ ba quan tâm đến việc sử dụng các ontology cho các
Biểu diễn tri thức và ứng dụng Trang 16
16
Các ontology trong lĩnh vực thông tin địa lý
chú thích ngữ nghĩa của dịch vụ mã hóa địa lý trong các hệ thống quản lý
đô thị.
3.1. Phát triển một ontology chuyên ngành tạo thuận lợi cho khả năng
tương thích trong lĩnh vực thủy văn
Dự án này được Viện Địa lý Quốc gia Tây ban nha (IGN-E) phát triển
để tạo thuận lợi cho việc hài hòa hóa ngữ nghĩa thông tin thủy văn cho các
nhà xuất bản dữ liệu ở các cấp độ khác nhau (quốc gia, vùng, địa phương).
IGN-E đã phát triển một mô hình tham chiếu chung thông qua một
ontology tham chiếu lõi gọi là hydrOntology.
hydrOntology là một ontology theo phương pháp tiếp cận phát triển
từ trên xuống. Mục tiêu chính của nó là để hài hòa các nguồn thông tin
không đồng nhất đến từ các cơ quan lập bản đồ khác nhau và các nguồn
quốc tế khác.
Ban đầu, ontology này được tạo ra như một ontology địa phương để
thiết lập ánh xạ giữa các nguồn dữ liệu khác nhau trong IGN-E (như là
danh mục đặc tính, các gazetteer
3
, …). Mục đích của nó là để phục vụ như
là một khung làm việc chung hài hòa giữa các nhà sản xuất bản đồ ở Tây
ban nha. Sau đó, ontology này được phát triển thành một ontology chuyên

ngành toàn cầu và hiện nay nó đang cố gắng để bao gồm hết các đặc tính
thủy văn được thể hiện trên bản đồ. Phiên bản cuối cùng của ontology này
được hoàn thành vào giữa năm 2008.
hydrOntology có 150 lớp, 34 thuộc tính đối tượng, 66 thuộc tính dữ
liệu và 256 tiên đề. Một số mẫu ví dụ của bốn quan hệ phân loại được định
nghĩa trong Frame Ontology (Farquahr et al. 1997) và OKBC Ontology
(Chaudhri et al. 1998) tên là Subclasses, Disjoint-Decomposition,
Exhaustive-Decomposition và Partitions đã được thể hiện trong ontology
3 Từ điển địa dư (gazetteer) là một từ điển địa lý hoặc thư mục địa lý, là một tài liệu tham khảo quan
trọng đối với thông tin về địa điểm và tên địa danh, được sử dụng kết hợp với một bản đồ hoặc một atlas.
Nó thường chứa thông tin liên quan đến các điều kiện địa lý của một quốc gia, khu vực hay lục địa cùng
với các số liệu thống kê về kinh tế, xã hội và các đặc điểm vật lý chẳng hạn như núi, sông, đường Ví dụ,
các thông tin được cung cấp bởi từ điển địa dư thường bao gồm vị trí địa điểm, kích thước các đặc điểm
vật lý, dân số, GDP, tỷ lệ biết chữ… Những thông tin này thường được chia thành các chủ đề phía trên và
các mục được liệt kê phía dưới theo thứ tự bảng chữ cái.
Biểu diễn tri thức và ứng dụng Trang 17
17
Các ontology trong lĩnh vực thông tin địa lý
này. Nội dung chi tiết được trình bày trong (Vilches-Blázquez et al. 2007).
Các tài liệu của ontology này rất đầy đủ, vì vậy, các định nghĩa và nguồn
gốc các định nghĩa đều được tìm thấy trong mỗi khái niệm (mỗi lớp).
Ontology này có một lượng lớn các nhãn với những tên thay thế (từ đồng
nghĩa) cũng như khái niệm và xuất xứ của từ đồng nghĩa.
Để phát triển ontology này theo hướng tiếp cận từ trên xuống, hơn 20
mô hình tri thức khác nhau như: các danh mục chức năng của IGN-E, the
Water Framework European Directive, the Alexandria Digital Library, the
UNESCO Thesaurus, Getty Thesaurus, GeoNames, FACC codes,
EuroGlobalMap, EuroRegionalMap, EuroGeonames, các từ điển địa dư
Tây ban nha và nhiều nguồn khác, đã được tham khảo. Ngoài ra, một số
vấn đề tích hợp thông tin địa lý và tiêu chí cấu trúc cũng đã được xem xét

(Vilches-Blázquez et al. 2007). Mục đích là tổng hợp hầu hết các nguồn
thông tin địa lý hiện có để xây dựng một ontology lõi được tham chiếu đầy
đủ. Vì vậy, ontology này chứa hơn 150 khái niệm liên quan đến thủy văn
như: sông suối, ao hồ, kênh rạch, đập, hồ chứa và nhiều thứ liên quan khác.
Về vấn đề phương pháp, hydrOntology được xây dựng dựa trên
METHONTOLOGY, một phương pháp xây dựng ontology được sử dụng
rộng rãi. Phương pháp này nhấn mạnh việc tái sử dụng các ontology hiện
hành và các cấp cao hơn và đề xuất sử dụng, cho mục đích hình thức hóa,
một tập các đại diện trung gian mà sau đó có thể được chuyển đổi tự động
sang các ngôn ngữ hình thức khác. Mô tả chi tiết phương pháp này được
trình bày bởi (Gómez-Pérez et al. 2003).
hydrOntology được phát triển theo các nguyên tắc thiết kế ontology
được đề xuất bởi (Gruber 1995) và (Arpírez et al. 1998). Một số đặc điểm
quan trọng nhất của nó là tên các khái niệm (các lớp) được giải thích đầy
đủ và được viết chuẩn xác. Mỗi lớp chỉ có một khái niệm và do đó các lớp
với các liên kết “and / or” đều được tránh sử dụng. Theo một số quy ước
đặt tên, thì tên của lớp được viết hoa chữ đầu trong khi tên của các đối
tượng thuộc tính và đối tượng dữ liệu được viết bằng chữ thường.
Biểu diễn tri thức và ứng dụng Trang 18
18
Các ontology trong lĩnh vực thông tin địa lý
Về mặt cơ sở dữ liệu cần phải nói thêm rằng dự án này xử lý rất nhiều
các cơ sở dữ liệu thông tin khác nhau, cả Tây ban nha và Châu Âu. Các cơ
sở dữ liệu này được tạo ra ở các tỷ lệ khác nhau (từ 1/1.000.000 đến
1/5.000) đến từ các tổ chức hoặc các nhà sản xuất khác nhau.
Dự án này thao tác trên hai cơ sở dữ liệu Châu Âu (EuroGlobalMap
và EuroRegionalMap) và bốn cơ sở dữ liệu Tây ban nha do IGN-E quản lý.
Các cơ sở dữ liệu Tây ban nha có thông tin ở các quy mô khác nhau. Trong
bốn cơ sở dữ liệu Tây ban nha, hai là Cơ sở dữ liệu bản đồ số (Numerical
Topographic Database - BTN25 và Numerical Cartographic Database -

BCN200) và hai là từ điển địa dư (Conciso Gazetteer và National
Geographic Gazetteer). Cuối cùng, đối với các cơ sở dữ liệu địa phương,
dự án sử dụng hai cơ sở dữ liệu, một được phát triển bởi các nhà sản xuất
bản đồ địa phương (Viện bản đồ Andalusia - Cartographic Institute of
Andalusia) và một được phát triển bởi các nhà sản xuất bản đồ chuyên đề
(Liên đoàn thủy văn sông Ebro - Hydrographical Confederation of Ebro River).
Hình 1: Tổng quan về các bao hàm giữa hydrOntology và các cơ sở dữ liệu
Trong bối cảnh các cơ sở dữ liệu này, sự hiểu biết ngữ nghĩa đạt được
bằng cách thiết lập các bao hàm giữa hydrOntology và các cơ sở dữ liệu
Biểu diễn tri thức và ứng dụng Trang 19
19
Các ontology trong lĩnh vực thông tin địa lý
khác nhau thông qua ngôn ngữ R2O (Barrasa et al. 2004). Các bao hàm vẫn
còn trong tiến trình xây dựng và cải thiện mối quan hệ giữa các đặc tính (từ
ontology) và các thể hiện (từ cơ sở dữ liệu). Hình 1 cho thấy tổng quan về
công việc này.
Một khi hydrOntology được hợp nhất như là một khuôn khổ hài hòa
cho cộng đồng các nhà sản xuất thông tin địa lý, giai đoạn thứ hai sẽ bao
gồm một khuôn khổ tích hợp phức tạp của các cơ sở dữ liệu và các
ontology. Hình 2 mô tả tổng quan về cách tiếp cận tích hợp này. Tiếp cận
này liên quan đến các phương pháp tiếp cận lai được đề xuất bởi (Wache et
al. 2001). Trong phương pháp tiếp cận lai, hydrOntology sẽ cung cấp vốn
từ vựng chia xẻ toàn cầu và mỗi nhà sản xuất (châu Âu, khu vực và địa
phương) sẽ có một ontology địa phương được thiết lập ánh xạ với ontology
toàn cầu và cơ sở dữ liệu của nó. Việc áp dụng phương pháp này làm cho
các dịch vụ web từ điển địa dư SDI của Tây ban nha cung cấp câu trả lời
tốt hơn và phong phú hơn.
Hình 2: Phương pháp tiếp cận lai của hydrOntology
3.2. Một ontology tiếp cận từ dưới lên trong dự án tái cấu trúc dữ liệu
không gian

Biểu diễn tri thức và ứng dụng Trang 20
20
Các ontology trong lĩnh vực thông tin địa lý
Nghiên cứu này đề cập đến việc xây dựng ontology theo tiếp cận từ
dưới lên trong một dự án tái cấu trúc dữ liệu không gian (Chaidron et al.
2007). Tại Bỉ, Trung tâm Công nghệ thông tin vùng Brussels (Centre
Informatique pour la Région Bruxelloise - CIRB) quản lý các cơ sở dữ liệu
không gian (Spatial Databases - SDBs) các khu vực xung quanh Brussels.
Hệ thống SDBs này được biết đến với tên gọi là Brussels UrbIS 2
©
. Vào
cuối những năm 1990, thực tế chỉ ra rằng việc tái cấu trúc các cơ sở dữ liệu
là hoàn toàn cần thiết. Sự hợp tác giữa CIRB với Trung tâm Địa tin học -
Trường đại học Liege bắt đầu từ năm 1998 cung cấp các hỗ trợ cần thiết để
xây dựng quy trình tái cấu trúc một phần SDB này (chứa 33 lớp và 830.000
trường hợp chủ yếu liên quan đến thông tin địa lý hành chính). Điều này đã
nâng cấp SDB này lên phiên bản thứ hai như đã biết.
Mục tiêu là tạo ra một posteriori - một danh mục các tính năng và các
mô hình dữ liệu khái niệm. Một trong những bước đầu tiên là định nghĩa
(lại) các ontology phần mềm của cơ sở dữ liệu ban đầu (Fonseca et al.
2003). Để hoàn thành mục tiêu dự án, một ontotoly với cách tiếp cận khai
thác từ dưới lên đã được đề xuất và thông qua. Có thể chia ra các bước sau
(như Hình 3):
1. Bước đầu tiên bao gồm việc phân tích các tài liệu của cơ sở dữ liệu
hiện có và sau đó chiết xuất ra một bản thảo của các ontology. Các
ontology địa phương có thể được chiết xuất từ các danh mục dữ
liệu hoặc từ điển dữ liệu và các mạng ngữ nghĩa có thể được rút ra
từ các CDM (như ví dụ trình bày bên dưới). Ontology dẫn xuất này
được biểu diễn bằng một ngôn ngữ ontology như KIF, OWL hoặc
thậm chí bằng UML.

Biểu diễn tri thức và ứng dụng Trang 21
21
Các ontology trong lĩnh vực thông tin địa lý
Hình 3: Phương pháp tiếp cận từ dưới lên theo lý thuyết và ứng dụng thực tế của nó
(Chaidron et al. 2007)
2. Ở giai đoạn này, có hai lựa chọn tùy thuộc vào sự hợp tác của các
nhà thiết kế cơ sở dữ liệu:
a. Sự phù hợp của các ontology dẫn xuất có thể được kiểm tra
bằng cách so sánh chúng với các cơ sở dữ liệu phổ biến có liên
quan.
b. Nếu có thể, bước tiếp theo là gửi bản thảo các ontology đến các
nhà thiết kế cơ sở dữ liệu. Một vấn đề quan trọng ở giai đoạn
này là phải bảo đảm chắc rằng cả hai “đội” đều sử dụng cùng
một ngôn ngữ, cùng các khái niệm. Mỗi khái niệm phải có một
định nghĩa. Định nghĩa này bao gồm một mô tả bằng văn bản và
Biểu diễn tri thức và ứng dụng Trang 22
22
Các ontology trong lĩnh vực thông tin địa lý
một biểu thức hình thức thể hiện các mối quan hệ của nó với
các khái niệm khác.
3. Các ghi chú được xây dựng bởi các nhà thiết kế cơ sở dữ liệu phải
được thêm vào trong quá trình chiết xuất các ontology và các
ontology mới phải được cập nhật và cung cấp liên tục cho đến khi
có được bản chấp thuận cuối cùng.
Một số khó khăn nảy sinh trong ứng dụng thực tế của phương pháp
tiếp cận này. Trước hết là các tài liệu hiện có không được đầy đủ và không
được chuẩn hóa; các lược đồ đặc tả quan hệ, danh sách dữ liệu đơn giản,
các đặc tả thu thập dữ liệu (như các không ảnh và các số liệu khảo sát, đo
đạc đất đai). Kết quả là chỉ có một vài liên kết theo phân cấp và chủ đề
được rút ra từ các tài liệu này. Khi đó, các nhà thiết kế cơ sở dữ liệu thất

bại ngay từ đầu việc trong việc xác nhận các đầu ra của bản thảo. Các công
cụ và phương pháp để hình thức hóa phải được cung cấp cho họ và đặc biệt
hơn là phải có một ngôn ngữ không gian chung. Đối với mục đích này, dự
án đã sử dụng ngôn ngữ “tự nhiên” để biểu diễn và hình thức hóa bằng mô
hình Thực thể - Quan hệ (Entity / Relation – E/R) và sau đó dự án đã chấp
nhận một ngôn ngữ đặc tả hình thức không gian (CONGOO formalism,
Chaidron et al. 2007).
Một trong những khía cạnh quan trọng nhất của quá trình đề xuất /
chấp thuận là việc thiết lập các thuộc tính không gian của đối tượng: biểu
diễn đối tượng và các quan hệ không gian của các đối tượng. Bằng cách
xác định các quan hệ không gian (topo) giữa các đối tượng, giai đoạn này
cho thấy sự mâu thuẫn trong việc định nghĩa các đối tượng. Nó được xem
là yếu tố quan trọng nhất của tiếp cận trích xuất này.
Như đã trình bày trong Hình 3, ứng dụng thực tế của hướng tiếp cận
từ dưới lên hơi khác so với lý thuyết ở chỗ kết quả đầu ra dự kiến - là các
danh mục tính năng và các CDM - có thiết lập được các ontology được lập
tài liệu đầy đủ hay không. Thu được một ngữ nghĩa từ việc tái cấu trúc mô
hình E/R là có thể. Tuy nhiên, một CDM như vậy không phải là ontology
Biểu diễn tri thức và ứng dụng Trang 23
23
Các ontology trong lĩnh vực thông tin địa lý
bởi vì nó được thiết kế cho một hệ thống thông tin cụ thể, mô tả nội dung
của một cơ sở dữ liệu cụ thể (Bishr và Kuhn 2000, Fonseca et al. 2003).
Điều đó có nghĩa rằng dự án phải có một bước trung gian để xây dựng một
mạng ngữ nghĩa (như Hình 4) - một mô hình phong phú hơn (toàn cục – có
thể chuyển đổi – có thể chia xẻ) so với các lược đồ cơ sở dữ liệu khái niệm,
nắm bắt được các ngữ nghĩa của thông tin một cách hình thức và có thể sử
dụng như một cách để tích hợp dữ liệu (Morocho et al. 2003).
Hình 4: Một trích xuất từ mô hình E/R của Urbis2© và mạng ngữ nghĩa tương ứng
(Chaidron et al. 2007)

Nghiên cứu này làm rõ vai trò của ontology trong việc thiết kế và tái
cấu trúc các SDB. Nếu mức độ ontology này là cần thiết cho việc thiết kế
cơ sở dữ liệu (và cả khả năng tương thích) (Frank 1997, Smith và Mark
1998) thì các ontology liên quan lại không phải lúc nào cũng được hình
thức hóa. Vì vậy, các ontology SDB địa phương thường được ẩn trong các
SDB và các tài liệu liên quan (như danh mục tính năng và các CDM).
Trong trường hợp này, có thể trích xuất chúng từ các tài liệu bằng cách áp
dụng hướng tiếp cận từ dưới lên. Quá trình này có thể được cải thiện bằng
Biểu diễn tri thức và ứng dụng Trang 24
24
Các ontology trong lĩnh vực thông tin địa lý
cách tạo ra một sự phối hợp tốt với nhà thiết kế cơ sở dữ liệu ban đầu khi
cơ sở dữ liệu không được lập tài liệu tốt.
Từ kinh nghiệm của dự án, việc trích xuất các ontology địa phương
(và các định nghĩa đối tượng liên quan) hàm ý một tri thức rất tốt về các
mối quan hệ không gian giữa các đối tượng của cơ sở dữ liệu. Các chuyên
gia của dự án tin rằng một phân tích toàn diện các mối quan hệ không gian
giữa các thể hiện nên là bước đầu tiên trong việc trích xuất các ontology địa
phương.
3.3. Cho phép định vị địa lý thông qua các ontology
Nghiên cứu này liên quan đến việc sử dụng các ontology trong việc
chú giải ngữ nghĩa của các dịch vụ mã hóa địa lý trong một hệ thống tích
hợp các dịch vụ mã hóa địa lý khác nhau. Nghiên cứu này được mô tả chi
tiết trong (Florczyk et al. 2009), giải quyết việc mã hóa địa lý của các địa
chỉ trong đô thị bằng cách sử dụng các dịch vụ mã hóa địa lý khác nhau
như là một dịch vụ mã hóa địa lý của hội đồng địa phương, một dịch vụ mã
hóa địa lý địa chính quốc gia và một dịch vụ từ điển địa dư quốc gia. Các
ontology được sử dụng ở đây để giải quyết sự bất đồng ngữ nghĩa giữa các
kết quả thu được từ các dịch vụ khác nhau dưới dạng một địa chỉ.
Ở Tây ban nha, Hội đồng thành phố Zaragoza xây dựng SDI của họ

vào năm 2004 và đặt tên là IDEZar. SDI này được xây dựng với sự hợp tác
của Trường Đại học Zaragoza (Lopez-Pellicer et al. 2006). IDEZar được
xây dựng như một yêu cầu bắt buộc để thực hiện các dịch vụ mã hóa địa lý
mới bởi vì các tập dữ liệu liên quan đến đô thị hiện tại chỉ được tham chiếu
đến các địa chỉ đường phố. Hai trường hợp sử dụng đã được xác định: một
bộ mã hóa địa lý trực tuyến trên cổng thông tin web (web portal) SDI để
mã hóa địa chỉ nhập vào và một bộ mã hóa hàng loạt cho các tập dữ liệu
lớn chứa các bộ địa chỉ.
Các hệ thống quản lý đô thị cần phải hỗ trợ chức năng mã hóa địa lý
cho phép việc gán các tọa độ địa lý để mô tả các định vị như là “khoảng
100m về phía nam công viên và gần một tiệm cà phê”. Thông thường, các
Biểu diễn tri thức và ứng dụng Trang 25
25

×