WEB NGỮ NGHĨA TRONG TRUY XUẤT THÔNG TIN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (878.75 KB, 22 trang )

TRƯỜNG ĐẠI HỌC KHOA HỌC HUẾ
KHOA CÔNG NGHỆ THÔNG TIN
oOo
TIỂU LUẬN MÔN HỌC
WEB NGỮ NGHĨA VÀ ONTOLOGY
Đề tài:
WEB NGỮ NGHĨA TRONG TRUY XUẤT
THÔNG TIN
(Semantic Web in Information Retrieval)
Giảng viên hướng dẫn: TS. Hoàng Hữu Hạnh
Học viên thực hiện: Nhóm 1
Trần Mừng
Nguyễn Thị Tố Châu
Nguyễn Văn Đức
Hoàng Minh Đức
Phạm Thị Mỹ Linh
Lớp: KHMTB – Khóa 2010
Huế, tháng 01 năm 2012
MỤC LỤC
MỞ ĐẦU 3
NỘI DUNG 4
1.Giới thiệu 4
2. Nền tảng 5
2.1 DAML và Semantic Web 5
2.2 Truy xuất thông tin trong World Wide Web 6
2.3 Trả lời truy vấn trên Web 7
2.4 Truy vấn DAML 8
3. OWLIR : Thiết kế và Thực thi 9
3.1 Ontology Sự kiện (Event) 10
3.2 Trích xuất văn bản 12
3.3 Hệ thống suy luận 13

3.4 Hệ thống truy xuất thông tin 14
3.5 Truy xuất thông tin hỗ hợp 14
3.6. Luồng xử lý OWLIR 16
4. Swoogle 18
4.1 Kiến trúc của Swoogle 19
KẾT LUẬN 21
TÀI LIỆU THAM KHẢO 22
2
MỞ ĐẦU
Tiểu luận này trình bày một số cách tiếp cận để truy xuất thông tin trên Web Ngữ
nghĩa. Cụ thể, đầu tiên tiểu luận này trình bày về nguyên mẫu thiết kế và thực thi của một
framework trong đó cả tài liệu và truy vấn có thể được đánh dấu với các câu lệnh
(statement) trong ngôn ngữ Semantic Web DAML+OIL, được gọi là OWLIR. Các câu
lệnh này cung cấp cả thông tin cấu trúc và bán cấu trúc về tài liệu và nội dung của nó.
Việc lập chỉ mục văn bản và đánh dấu ngữ nghĩa sẽ nâng cao hiệu quả truy xuất đáng kể.
Các tiếp cận này cho phép sự suy luận được thực hiện trên thông tin này ở nhiều điểm
khác nhau: đó là khi một tài liệu được lập chỉ mục, khi một truy vấn được xử lý và khi
kết quả truy vấn được đánh giá. Sau cùng là SWOOGLE, một máy tìm kiếm các
ontology Web Ngữ nghĩa, tài liệu và dữ liệu được xuất bản trên web. Swoogle dùng một
hệ thống thu thập dữ liệu để khám phá các tài liệu RDF và HTML với nội dung RDF
được nhúng bên trong.
Do thời gian thực hiện tiểu luận cũng như kinh nghiệm có hạn nên tiểu luận có thể
mắc một số sai sót ngoài ý muốn. Chúng em rất mong nhận được các góp ý quý báu của
Thầy và các bạn học viên trong lớp để đề tài được hoàn thiện hơn.
Cuối cùng, chúng em xin chân thành cảm ơn Thầy TS. Hoàng Hữu Hạnh đã tận tình
giảng dạy và hướng dẫn để nhóm hoàn thành tốt tiểu luận này.
Xin chân thành cảm ơn!
Học viên thực hiện
Nhóm 1
Thành phố Huế, ngày 01 tháng 01 năm 2012

3
NỘI DUNG
1.Giới thiệu
Chúng ta có thể hình dung web tương lai là các trang chứa cả văn bản và sự đánh dấu
ngữ nghĩa. Các kỹ thuật truy xuất thông tin hiện tại không thể khai thác được tri thức ngữ
nghĩa bên trong các tài liệu và vì vậy không thể đưa ra các câu trả lời chính xác cho các
câu hỏi. Chúng ta chưa thể trích xuất tự động những nội dung như vậy từ nhiều tài liệu.
Các tài liệu web được trúc bằng tay, chẳng hạn XML cho phép chúng ta truy xuất nhiều
thông tin chính xác hơn bằng cách sử dụng các công cụ đối sánh cấu trúc và chuỗi, như
robot web Harvest, WebSQL, và WebLog. Tuy nhiên, với cách tiếp cận này người dùng
cần phải nhận thức tốt về cấu trúc của tài liệu, khuôn dạng và tên chính xác của nó và do
đó không thể mở rộng được. Các ngôn ngữ biểu diễn tri thức như DAML+OIL mà hỗ trợ
suy luận logic có thể giúp chúng ta đạt được sự truy xuất và biểu diễn tri thức chính xác
và mềm dẻo hơn. Công nghiệp phần mềm hiện tại đang phát triển nhiều ngôn ngữ
metadata (ví dụ RDF (S), OML) cho phép ta lập chỉ mục các tài nguyên thông tin web
cùng với sự biểu diễn tri thức (các câu lệnh logic) và lưu trữ chúng trong tài liệu web.
Tài liệu web có thể bao gồm văn bản cùng với sự đánh dấu nào đó. Có nhiều sự sử
dụng tiềm tàng đối với việc chú thích trên semantic web bao gồm luồng công việc
(workflow), truy xuất hình ảnh và tính tương tác với thiết bị. Trong tiểu luận này, chúng
tôi sẽ tập trung vào ba kịch bản liên quan đến các tài liệu văn bản và trang web được
đánh dấu một cách ngữ nghĩa.
- Truy xuất thông tin (IS)- ví dụ, nhận diện và sắp thứ hạng các tài liệu hoặc các trang
web thích hợp để một truy vấn tìm kiếm các mô tả chi tiết liên quan đến USA và các lãnh
đạo Afganistan.
- Trả lời câu hỏi đơn giản (Q&A) –ví dụ, ai là tổng thống của Hoa Kỳ?
- Trả lời câu hỏi phức tạp – ví dụ, tình trạng hiện tại ở Afganistan như thế nào?
4
2. Nền tảng
2.1 DAML và Semantic Web
Web hiện tại chủ yếu bao gồm các trang web với thông tin trong dạng văn bản ngôn

ngữ tự nhiên và hình ảnh nhắm tới sự nhìn nhận và hiểu biết của con người.
Hình 1. Tầm nhìn của Berners Lee về Web Ngữ nghĩa
Máy tính được dùng chủ yếu để đưa ra thông tin này, bố trí trên màn hình hoặc in
trang. Ý tưởng đằng sau Semantic Web là gia tăng các trang web này với sự đánh dấu để
giữ ngữ nghĩa nào đó của nội dung trên các trang và mã hóa nó thành dạng mà máy có
thể hiểu được [18]. Điều này yêu cầu một loại ngôn ngữ đánh dấu mới; ngôn ngữ mà hỗ
trợ việc định nghĩa các mô hình dữ liệu chia sẻ hoặc ontology cho một lĩnh vực (domain)
nào đó và cho phép tác giả trang web tạo ra các câu lệnh (statement) sử dụng ontology
này. Các ngôn ngữ đánh dấu hiện tại đang được sử dụng bao gồm RDF (S) [2, 23] và
DAML+OIL [11, 12].
5
Chuẩn XML [8] cung cấp các phương tiện cần thiết để khai báo và sử dụng các cấu
trúc dữ liệu đơn giản, được lưu trữ trong các tài liệu XML và máy có thể đọc được. Tuy
nhiên, vì XML chỉ được định nghĩa ở mức cú pháp, máy tính không thể dựa trên việc xác
định một cách mơ hồ ngữ nghĩa chính xác của các thẻ XML được dùng trong một tài liệu
XML cho trước. W3C đã phát triển RDF/S với mục đích nhắm tới các thiếu sót này của
XML. Hai chuẩn này cung cấp các framework biểu diễn cho việc mô tả các mối quan hệ
giữa các tài nguyên trong dạng các giá trị và thuộc tính được đặt tên, mà tương tự với các
ngôn ngữ khung (frame) sơ khai như lược đồ RDF. Tuy nhiên, cả hai chuẩn này vẫn còn
là các ngôn ngữ biểu diễn tri thức rất hạn chế do sự thiếu hỗ trợ các biến, các quy tắc,
định lượng tổng quát, v.v.
Mục đích của DAML+OIL là cho phép sự chuyển đổi web hướng con người hiện tại
mà đang được dùng rộng rãi chỉ với văn bản và đa phương tiện vào Semantic Web như
hình dung của Berners-Lee [6, 7]. Nó cũng tuân theo cùng cách biểu diễn dữ liệu và
thông tin trong tài liệu như XML, và cung cấp các quy tắc và định nghĩa tương tự với
RDF/S. DAML+OIL vì thế là một nỗ lực để phát triển một ngôn ngữ đánh dấu Semantic
Web phổ dụng đủ giàu để cung cấp cho máy tính không chỉ khả năng đọc dữ liệu mà còn
với khả năng biên dịch và suy luận trên dữ liệu. DAML+OIL sẽ cho phép phát triển các
ứng dụng và agent thông minh mà có thể tự động truy xuất và thao tác thông tin trên
Internet và tự Semantic Web của tương lai.

2.2 Truy xuất thông tin trong World Wide Web.
Mặc dù một lĩnh vực hoạt động của nghiên cứu cho hơn ba mươi năm, truy xuất thông
tin (IR) chỉ trở nên phổ biến với sự ra đời của World Wide Web. Các ứng dụng quen
thuộc nhất về truy xuất văn bản là tùy biến truy vấn nơi mà một truy vấn được sử dụng để
tìm kiếm một tài liệu tĩnh. Đây là nhiệm vụ mà công cụ thương mại web tìm kiếm như
AltaVista và Google được biết đến nhiều nhất để giải quyết. Công cụ tìm kiếm hoạt động
trên cơ sở dữ liệu rất lớn và thực hiện một tìm kiếm bằng từ khoá. Trong hầu hết các
trường hợp có độ chính xác thấp, không phải tất cả các câu trả lời tài liệu truy xuất là truy
vấn của người dùng. Ví dụ, khi một truy vấn "Tổng thống của Mỹ là ai", đã được đặt ra
6
cho Google, một số liên kết truy xuất chứa tên của Tổng thống hiện tại ở một nơi nào đó
trong các tài liệu, nhưng tài liệu mô tả “làm thế nào để vận động để trở thành một Tổng
thống” và Tổng thống của một tờ báo "USA Today" cũng đã được lấy ra.
Công cụ tìm kiếm thông minh phát triển như là một hậu duệ của công cụ tìm kiếm
Meta, nó kết hợp các kỹ thuật máy học. thông tin sẽ không chỉ còn được dành cho độc giả
của con người, mà cũng cho xử lý bằng máy móc, cho phép các dịch vụ thông tin thông
minh, các trang web cá nhân, và các công cụ tìm kiếm về ngữ nghĩa được uỷ quyền.
thông tin sẽ không chỉ còn được dành cho độc giả của con người, mà cũng cho xử lý bằng
máy móc, cho phép các dịch vụ thông tin thông minh, các trang web cá nhân, và các công
cụ tìm kiếm về ngữ nghĩa được uỷ quyền. Tri thức có thể được chú thích trên trang theo
một cách mà các công cụ tự động có thể thu thập và hiểu được nó. Ontologies có thể làm
cho các tác nhân phần mềm có thể hiểu được tri thức, nó được đánh dấu và tiếp tục rút ra
kết luận liên quan đến lĩnh vực quan tâm [28].
Agent Paradigm là một công nghệ đầy hứa hẹn để truy xuất thông tin. Một số ứng
dụng thông minh giao diện IR và đám mây và phân loại. Một cách tiếp cận dựa trên tác
nhân có nghĩa là các hệ thống IR có thể có khả năng mở rộng, linh hoạt, và tương thích.
Tác tử cần một cách để xử lý và "hiểu" thông tin của chúng, cả hai mức độ của tài liệu cá
nhân / đối tượng cũng như những thực thể tập hợp rộng. Phương pháp tiếp cận thống kê,
đối với siêu dữ liệu suy ra từ thông tin, chẳng hạn như n-gram và lập chỉ mục ngữ nghĩa
ẩn là đặc biệt thú vị cho việc phân tích đối tượng văn bản, bởi vì chúng là độc lập về

ngôn ngữ của văn bản, khả năng chống lỗi chính tả, và cho phép ứng dụng kỹ thuật toán
học được biết đến nhiều để phân tích ngôn ngữ tự nhiên.
2.3 Trả lời truy vấn trên Web
Các hệ thống trả lời truy vấn đã có một phạm vi nghiên cứu trong các lĩnh vực khác
nhau giống như biểu diễn tri thức, cơ sở dữ liệu, truy xuất thông tin, giao diện người
dùng, ngôn ngữ tự nhiên. Ưu điểm của các hệ thống dựa trên sự chính xác này kết hợp
với các máy tìm kiếm đã dẫn đến các nỗ lực trong việc mở rộng các hệ thống này đối với
7
web. START [19] là một trong các hệ thống QA đầu tiên với một giao diện web, có từ
năm 1993. Tập trung trên các câu hỏi về địa lý và InfoLab của MIT, START sử dụng cơ
sở tri thức được biên dịch trước trong dạng bộ ba subject-relation-object và truy xuất các
bộ ba này vào lúc thực hiện trả lời các câu hỏi. AskJeeves [1] là một dịch vụ thương mại,
cung cấp giao diện câu hỏi ngôn ngữ tự nhiên cho web, nhưng nó dựa trên hàng trăm
người biên tập để ánh xạ giữa các mẫu câu hỏi và các site tin cậy. MULDER [22] tự cho
là hệ thống trả lời câu hỏi tự động đầu tiên sử dụng web đầy đủ như là cơ sở tri thức của
nó. MUDLER sử dụng nhiều bộ phân tích cú pháp ngôn ngữ tự nhiên và các heuristic để
trả về các câu trả lời có chất lượng cao. Sử dụng framework này, hệ thống MULDER có
thể được mô hình hóa để phù hợp với các yêu cầu của trả lời truy vấn trên web.
2.4 Truy vấn DAML
Mục đích của ontology và chú thích trên trang web là cho phép ở một mức độ nào đó
khả năng truy vấn và thực thi mà không sẵn có trong kỹ thuật tìm kiếm web hiện tại.
RDQL là một sự bổ sung của ngôn ngữ truy vấn giống SQL cho RDF. Nó xem RDF là
dữ liệu và cung cấp truy vấn với các mẫu bộ ba và các ràng buộc trên mô hình RDF đơn
nhất. TRIPLE là ngôn ngữ lập trình logic dựa trên RDF cho Semantic Web ở nhóm cơ sở
dữ liệu trường đại học Stanford. [27] kiến trúc phân tầng của TRIPLE cho phép sự mở
rộng hướng đối tượng giống như lược đồ RDF, được thực hiện trực tiếp với các đặc trưng
logic Horn mở rộng và các mô đun kiểu DAML+OIL có thể được nhận ra thông qua sự
tương tác với các thành phần suy luận bên ngoài.
DQL, một ngôn ngữ truy vấn DAML+OIL, là một ngôn ngữ truy vấn đơn giản để truy
vấn các cơ sở tri thức của DAML+OIL. Ngôn ngữ này được xác định là ontology của

DAML+OIL để cả các truy vấn và các kết quả thu được từ việc yêu cầu truy vấn được
biểu diễn trong DAML+OIL. Để truy vấn một cơ sở tri thức DAML+OIL, ta biểu diễn
truy vấn trong DAML+OIL và các kết quả truy vấn này được trả về trong DAML+OIL.
Một thể hiện của truy vấn lớp biểu diễn câu hỏi được đặt ra đối với người suy luận. Một
mẫu truy vấn ảnh hưởng đến hội của một hay nhiều bộ ba (triple). Mỗi bộ ba tương ứng
8
với một câu lệnh RDF ngoài trừ vị từ, chủ thể (subject) và đối tượng (object) của nó có
thể là một biến.
3. OWLIR : Thiết kế và Thực thi
Có một sự mâu thuẫn cơ bản giữa quan điểm người về SW và quan điểm tác tử phần
mềm về SW phải được xử lý như thế nào để hỗ trợ truy xuất đầy đủ. Các tài liệu có chứa
đánh dấu ngữ nghĩa có thể được xem theo một trong hai cách. Mọi người sẽ có xu hướng
xem chúng như là tài liệu văn bản mà thường có chứa một số thông tin bổ sung đó là
truy cập trực tiếp hoặc hữu ích cho họ. Tác tử phần mềm mặt khác sẽ xem chúng như là
các mệnh đề để thực hiện suy luận trên đó. Bề ngoài, những quan điểm khác nhau là
không tương thích với nhau. Nếu chúng không hòa hợp được, có thể dẫn đến sự phát
triển của Web Ngữ nghĩa mà bỏ các trang web truy cập của con người hiện nay.
Bằng việc rút ra những quan điểm khác nhau này, và do đó làm tăng giá trị đánh dấu
cho người dùng và giá trị của văn bản cho các tác tử phần mềm, chúng tôi cho rằng tìm
kiếm và suy luận được ràng buộc chặt chẽ. Mọi người sẽ muốn sử dụng Web Ngữ nghĩa
để tìm kiếm không chỉ cho các tài liệu, mà còn cho các thông tin về mối quan hệ ngữ
nghĩa cụ thể. Tuy nhiên, bởi vì nó không còn thực tế giả định một cơ sở tri thức nguyên
khối, Sự rút ra những suy luận thích hợp đòi hỏi phải có quy tắc và sự kiện mà sẽ hỗ trợ
những kết luận mong muốn.
Có một phổ rộng các kỹ thuật, có thể được áp dụng đối với truy vấn, và truy xuất các
tài liệu ngữ nghĩa đánh dấu. OWLIR là nhằm mục đích để cung cấp một framework, có
thể trích xuất và khai thác các thông tin ngữ nghĩa từ những tài liệu, thực hiện lý luận
phức tạp và kết quả lọc cho độ chính xác tốt hơn.
OWLIR có thể được mô tả trong dạng hai thành phần chính: một tập hợp các ontology
và một cơ chế truy xuất thông tin hỗn hợp. OWLIR định nghĩa ontology được mã hóa

9
trong DAML + OIL cho phép người dùng xác định quan tâm của họ trong sự kiện khác
nhau. Các ontology cũng được dùng để chú thích các thông báo sự kiện. Các công cụ truy
xuất thông tin dựa trên việc sử dụng HAIRCUT. Nó sử dụng khai thác văn bản, chú
thích, và cơ chế suy luận, bằng cách sử dụng những kiến thức được thể hiện trong
ontology. Dưới đây là phần trình bày các khía cạnh thiết kế và triển khai thực hiện của
framework này thông qua ví dụ về ứng dụng OWLIR giải quyết một tác vụ cụ thể đó là –
Trích lọc các thông báo sự kiện cho sinh viên của UMBC.
Kịch bản như sau:
• Hai lần một tuần, sinh viên của UMBC nhận được thông báo email liệt kê khoảng
40-50 sự kiện mà có thể họ quan tâm. Ví dụ, thuyết trình, thi đấu thể thao, xem
phim, …
• Mỗi sinh viên có một “standing query” được sử dụng để định tuyến thông báo sự
kiện.
– Mỗi sinh viên chỉ nhận các thông báo sự kiện phù hợp với sự quan tâm và
kế hoạch của họ.
• Sử dụng hệ thống AeroText LMCO để tự động thêm đánh dấu DAML+OIL vào
các mô tả sự kiện.
– Phân loại các thông báo dạng văn bản vào các kiểu sự kiện.
– Nhận ra các phần tử chủ chốt và thêm đánh dấu DAML.
• Sử dụng JESS để suy luận trên đánh dấu, rút ra các suy luận được hỗ trợ bằng
ontology.
3.1 Ontology Sự kiện (Event)
Ontology là một đặc điểm kỹ thuật rõ ràng của một từ vựng biểu diễn cho một lĩnh
vực chia sẻ của các định nghĩa diễn ngôn của các lớp học, quan hệ, chức năng, hạn chế và
10
các đối tượng khác. Thực dụng, một ontology thông thường định nghĩa các từ vựng mà
các truy vấn và khẳng định được trao đổi giữa các thực thể phần mềm. Ontology không bị
giới hạn để bảo toàn định nghĩa, mà trong ý thức logic truyền thống chỉ giới thiệu thuật
ngữ và không thêm bất kỳ kiến thức về thế giới. Để xác định một khái niệm chúng ta cần

phải phát biểu các tiên đề mà đặt các ràng buộc về việc có thể giải thích cho các thuật
ngữ định nghĩa.
Ontology giúp vượt qua những bế tắc trong việc truy xuất thông tin, mà chủ yếu dựa
trên các từ khóa tìm kiếm. Họ hỗ trợ tìm kiếm thông tin dựa trên nội dung thực tế của
một trang và điều hướng không gian thông tin dựa trên khái niệm ngữ nghĩa. Ontology
cho phép trả lời truy vấn và dịch vụ tiên tiến trích xuất thông tin, tích hợp các nguồn
thông tin không đồng nhất và phân tán làm phong phú bởi kiến thức nền suy ra.
Mục tiêu chính phát triển Ontology Sự kiện là phát triển một ontology, mà sẽ giúp
người dùng quan tâm trong các sự kiện khác nhau trong trường đại học, truy xuất các
thông tin có liên quan. Đầu tiên chúng tôi xác định các loại tự nhiên trong các hiện tượng
được nghiên cứu, "SỰ KIỆN", và sau đó tìm hiểu những đặc điểm quan trọng nhất của
họ. Ontology Sự kiện được xây dựng để mô tả cho các sự kiện của trường đại học. Loại
sự kiện theo các loại tự nhiên của các sự kiện nổi bật trong một trường đại học ví dụ như
chiếu phim, hội thảo, sự kiện thể thao Sự kiện có thể được học tập, hoặc không học
tập, miễn phí, viện trợ, mở hoặc bởi lời mời, nhưng những mô tả các loại sự kiện và các
thuộc tính được định nghĩa trong Ontology. Một thông báo sự kiện trong khuôn viên
trường được xác định là một ví dụ trong một trong những loại tự nhiên của các sự kiện
hay danh mục con. Thể hiện của danh mục con được suy ra là một kiểu con của một
trong những loài tự nhiên của các sự kiện.
11
Hình 2. Ontology Sự kiện
3.2 Trích xuất văn bản
Các thông báo sự kiện hiện tại đều ở dạng văn bản. Chúng ta mong muốn các tài liệu
này chứa đánh dấu ngữ nghĩa. Chúng ta tận dụng lợi thế của hệ thống AeroText
TM
cho sự
trích xuất của các cụm từ khóa và các thành phần từ các tài liệu văn bản. Sự phân tích cấu
trúc tài liệu hỗ trợ việc khai thác các bảng, các danh sách, các thành phần khác và sự trích
xuất các sự kiện phức tạp để cung cấp sự phân tích hiệu quả hơn. Không giống như các
hệ thống xử lý văn bản khác, hệ thống còn cung cấp các công cụ cho người dùng cuối để

tùy chỉnh các ứng dụng và tối ưu hóa sự thực hiện của nó trên trang web.
Chúng ta sử dụng công cụ tùy biến của người dùng để tinh chỉnh sự thực hiện truy
xuất. Các thành phần và cụm từ được trích xuất đóng một vai trò quan trọng trong việc
12
xác định loại của các sự kiện và thêm vào đánh dấu ngữ nghĩa. Hệ thống AeroText
TM
có
một API java được dùng để truy cập dạng nội tại của các kết quả trích xuất. Chúng ta sử
dụng các bộ phận phát sinh DAML để truy cập dạng nội tại của kết quả trích xuất này, và
sau đó dịch các kết quả trích xuất vào một mô hình bộ ba RDF tương ứng sử dụng cú
pháp DAML + OIL. Điều này được thực hiện bằng cách tham khảo ontology Sự kiện liên
quan trực tiếp đến nền tảng kiến thức ngôn ngữ được sử dụng trong quá trình trích xuất.
Hình 3. AeroText
TM
3.3 Hệ thống suy luận
OWLIR sử dụng thông tin siêu dữ liệu (metadata) được thêm vào suốt tiến trình trích
xuất để suy ra các mối quan hệ ngữ nghĩa thêm vào. Các mối quan hệ này được dùng để
quyết định phạm vi tìm kiếm và cung cấp các câu trả lời phù hợp hơn. OWLIR sử dụng
DAMLJessKB để thực hiện chức năng suy luận. DAMLJessKB tạo điều kiện đọc các tệp
tin DAML + OIL, giải thích các thông tin theo các ngôn ngữ DAML + OIL thuận tiện
DAMLJessKB cung cấp các sự kiện và các quy tắc cơ bản tạo điều kiện thuận lợi cho
rút ra suy luận về các mối quan hệ như các lớp con và các thuộc tính con.
13
3.4 Hệ thống truy xuất thông tin
HAIRCUT (Hopkins Automated Information Retriever for Combing Unstructured
Text) là một hệ thống truy xuất thông tin được phát triển tại phòng thí nghiệm vật lý ứng
dụng trường Đại học Johns Hopkins (JHU/APL). Một cách tiếp cận mô hình hóa ngôn
ngữ để suy luận tính tương đồng tài liệu được sử dụng thay cho các mô hình không gian
vector và luân lý truyền thống, một loạt các lược đồ tokenization được hỗ trợ, bao gồm
n-gram, và độ đo tính tương tự thuật ngữ mới được sử dụng để hỗ trợ các hoạt động ngôn

ngữ khác nhau. Hệ thống này được thực hiện trong java để dễ dàng phát triển và tính linh
động. HAIRCUT được tăng cường hơn nữa cho chỉ mục DAML + OIL và bộ ba RDF, có
hoặc không có các kí tự đại diện. HAIRCUT cho phép người sử dụng để xác định yêu
cầu, các thuật ngữ truy vấn được phép và không được phép. Điều này cho phép sự linh
hoạt của người dùng truy vấn, đồng thời tăng độ chính xác. Sự kết hợp của một số công
nghệ bổ sung trong một hệ thống làm cho HAIRCUT khác biệt giữa các hệ thống truy
xuất khác.
WONDIR (Word hoặc N-gram dựa trên công cụ truy xuất thông tin động) là một
công cụ truy xuất thông tin bằng văn bản hoàn toàn trong java. Nó cung cấp lập chỉ mục
cơ bản, truy xuất và chức năng lưu trữ các tài liệu. Chức năng chính của nó bao gồm khả
năng về chỉ số điều kiện như N-gram hoặc là từ ngôn ngữ đơn giản là cần thiết. Thực
hiện tiêu chuẩn tương tự như cô sin số liệu để xử lý các truy vấn văn bản miễn phí. Các
đặc trưng WONDIR bao gồm khả năng xử lý tập văn bản động và tương đối dễ dàng sử
dụng.
3.5 Truy xuất thông tin hỗ hợp
Sự bổ sung đánh dấu ngữ nghĩa cho các tài liệu web làm cho có thể thực hiện các suy
luận trên nội dung tài liệu. Tuy nhiên, đánh dấu cũng hữu ích theo cách khác. Truy xuất
văn bản truyền thống biểu thị các tài liệu theo các thuật ngữ lập chỉ mục mà chúng chứa.
Các thuật ngữ chỉ mục tiêu biểu là các từ. Một biến thể phổ biến là các từ có gốc. Các gốc
14
từ là những từ có hậu tố được loại bỏ để cho phép các từ tương tự (ví dụ: juggler, juggles,
juggling) được xem như một từ chỉ mục đơn. Hiệu quả của các loại từ lập chỉ mục khác
nhau chứng tỏ rằng cách tiếp cận truyền thống để thu hồi văn bản có thể hiệu quả đối với
các loại từ khác nhau.
Hình 4. Kiến trúc của OWLIR
Điều này cho thấy rằng đánh dấu ngữ nghĩa, nếu có, có thể phục vụ như các từ chỉ
mục cho một công cụ truy xuất thông tin (IR) truyền thống. Nghĩa là, thêm vào các tài
liệu lập chỉ mục theo văn bản của các từ của chúng, các gốc hay n-grams, chúng ta cũng
có thể chỉ mục chúng theo văn bản đánh dấu ngữ nghĩa của chúng. Ví dụ, chúng ta có thể
xử lý mỗi thẻ DAML +OIL phân biệt như một từ chỉ mục. Hoặc chúng ta có thể làm

giảm đánh dấu tài liệu đối với bộ ba RDF, và xử lý mỗi bộ ba phân biệt như một từ chỉ
mục; đây là cách tiếp cận hiện tại của chúng tôi.
Bao gồm cả đánh dấu ngữ nghĩa như các từ chỉ mục, chúng ta khám phá ra các hiệp
hội thống kê giữa đánh dấu ngữ nghĩa và văn bản. Ví dụ, đưa ra một cách để tìm các từ
chỉ mục liên quan mạnh mẽ (ví dụ, thông qua thông tin lẫn nhau), chúng ta có thể xác
15
định văn bản mà đặc tính hóa một thẻ đánh dấu được đưa ra hay bộ ba; như các đặc tính
văn bản có thể phục vụ như một nền tảng cho bản đồ ontology tự động hay bán tự động.
3.6. Luồng xử lý OWLIR
Thông tin về các sự kiện trong trường đại học được tập hợp để truy xuất và được phân
tích đối với các loại sự kiện tự nhiên (Natural Kinds of Events). Để phần mềm có thể
phân tích và hiểu ngữ nghĩa của dữ liệu, một pha phổ biến sử dụng ontology sự kiện để
mô tả tài liệu này trong DAML+OIL. Các tài liệu chứa các mẫu bộ ba RDF được sinh từ
sự đánh dấu và các thẻ DAML+OIL mà được suy luận thông qua hệ thông suy luận
DAMLJessKB, thiết lập cơ sở tri thức của HAIRCUT. Một ví dụ trong hình 5 cho cấu
trúc các tài liệu.
<DOC>
<DOCNO>’ /></DOCNO>
<TEXT>’UMBC Blood Drive!!
Office of student Life launches its annual Blood Drive for the Red Cross on Moon,
Nov 20 in the UC Ballroom from 1 Cam-4pm.</TEXT>
<TRIPLE>Triple(charity_001)(
‘ />‘ />‘Office of Student Life’).
triple(charity_001)(
‘ />16
‘ />‘Monday’)</TRIPLE>
</DOC>
Hình 5. Tài liệu chứa các bộ ba (Triple) và văn bản.
Theo dõi các loại người dùng khác nhau, chúng ta xây dựng một tập các truy vấn
DAML tương tự với truy vấn DQL chỉ ra ở hình 6. Truy vấn cung cấp cách thức trong

đó người lập trình có thể viết một câu lệnh khai báo nhiều hơn về những gì người đó
muốn và có HAIRCUT truy xuất nó. Việc sử dụng các ưu điểm của đặc trưng HAIRCUT
mà cho phép người dùng xác định dạng nào trong truy vấn MUST, MUST NOT và
MAYBE có thể được xem xét, mỗi truy vấn được biểu diễn là một tài liệu bao gồm các
bộ ba và văn bản. Sự đánh dấu XML một cách cú pháp, mẫu truy vấn này xác định các
điều kiện cần và đủ để tìm kiếm.
Các hệ thống logic cung cấp các câu trả lời tốt, nhưng không mở rộng cho các vấn đề
lớn; một khía cạnh mà các máy tìm kiếm có thể xử lý tốt một cách đáng kể. Trên
Semantic Web chúng ta có thể tưởng tượng một sự kết hợp hệ thống logic với máy truy
xuất thông tin. Trong suốt hoạt động tìm kiếm, hệ thống truy xuất này truy xuất tất cả các
tài liệu mà tham chiếu đến các hạng thức được dùng trong truy vấn, và sau đó một hệ
thống logic hoạt động trên đó gần với thế giới thông tin hữu hạn để xác định một giải
pháp tin cậy nếu nó tồn tại.
17
Hình 6. Truy vấn DAML
4. Swoogle
Swoogle là hệ thống truy xuất và lập chỉ mục dựa trên hệ thu thập dữ liệu cho Web
Ngữ nghĩa, ví dụ các tài liệu web dạng RDF hoặc OWL. Nó trích xuất metadata cho tài
liệu khám phá được, và tính toán mối quan hệ giữa các tài liệu. Các tài liệu được khám
phá còn được lập chỉ mục bởi một hệ thống truy xuất thông tin mà có thể sử dụng N-
Gram hoặc URIref như là các từ khóa để tìm tài liệu phù hợp và tính toán sự tương đồng
giữa một tập các tài liệu. Swoogle có một số tính năng sau đây:
- Tìm các ontology thích hợp: Swoogle giúp người dùng tìm các ontology với các
thuật ngữ (term) định trước và người dùng thậm chí có thể hạn chế kiểu của một
thuật ngữ (lớp hoặc thuộc tính). Hơn nữa, cơ chế xếp hạng (ranking) sắp xếp các
ontology theo tính phổ biến của chúng. Đặc trưng này không chỉ làm giảm nhẹ
sự đánh dấu dữ liệu mà còn đóng góp cho sự xuất hiện các ontology hợp với
kinh điển.
18
- Tìm dữ liệu thể hiện (instance): để giúp người dùng tích hợp dữ liệu Web Ngữ

nghĩa được phân tán trên Web, Swoogle cho phép truy vấn các tài liệu Web Ngữ
nghĩa (SWD) với các ràng buộc trên lớp và thuộc tính được sử dụng bởi chúng.
- Mô tả Web Ngữ nghĩa: bằng cách thu thập metadata, các mối quan hệ bên trong
tài liệu về Web Ngữ nghĩa, Swoogle biểu lộ các thuộc tính cấu trúc thú vị như
“cách thức SW được liêt kết”, “Cách các ontology được suy luận” và “cách một
ontology được điều chỉnh bên ngoài”.
Hình 5. Giao diện Swoogle
4.1 Kiến trúc của Swoogle
Hình 6. Kiến trúc của Swoogle
19
Kiến trúc của Swoogle gồm bốn phần chính: Khám phá tài liệu Web Ngữ nghĩa
(SWD), tạo metadata, phân tích dữ liệu và giao diện. Kiến trúc này là hướng dữ liệu và
có thể mở rộng: các thành phần làm việc độc lập và tương tác với các thành phần khác
qua một cơ sở dữ liệu.
Thành phần Khai phá SWD khai phá các tài liệu web ngữ nghĩa còn tiềm ẩn thông
qua Web và giữ các thông tin cập nhật của các SWD này.
Thành phần tạo metadata lưu một snapshot của SWD và sinh các metadata khách
quan cho các SWD ở cả mức cú pháp và ngữ nghĩa.
Thành phần phân tích dữ liệu sử dụng các SWD được lưu giữ và tạo metadata để
rút ra các báo cáo phân tích, ví dụ như sự phân loại các ontology web ngữ nghĩa (SWO)
và cơ sở dữ liệu web ngữ nghĩa (SWDB), thứ hạng của các SWD và chỉ mục truy xuất
thông tin các SWD này.
Thành phần giao diện tập trung vào việc cung cấp dịch vụ dữ liệu cho cộng đồng
SW.
20
KẾT LUẬN
Tiểu luận này đã trình bày hai cách tiếp cận để tìm kiếm thông tin trên Semantic Web
sử dụng một tập hợp các ontologies và công cụ suy luận, đó là: OWLIR và SWOOGLE.
DAML + OIL được sử dụng như ngôn ngữ biểu diễn kiến thức và như một giao diện
cho các công cụ suy luận, do đó nâng cao tính linh hoạt và khả năng tương tác. Hỗ trợ

mạnh mẽ trong thiết lập luật, mặt hạn chế và trả lời truy vấn trên thông tin lược đồ là
vượt quá công nghệ cơ sở dữ liệu hiện có. Dịch vụ suy luận là tương đương với các công
cụ truy vấn SQL cho cơ sở dữ liệu, tuy nhiên cung cấp những hỗ trợ mạnh mẽ hơn (ví dụ,
quy tắc đệ quy). Như vậy dịch vụ suy luận có thể được sử dụng để trả lời các câu hỏi về
tri thức tường minh và ngầm định theo quy định của ontology vì vậy nó cung cấp cơ sở
trả lời các truy vấn thực hiện truy hồi suy diễn từ biểu diễn tri thức trong DAML + OIL.
Framework OWLIR tán thành sự phụ thuộc lẫn nhau giữa tìm kiếm và kết luận để truy
hồi chính xác nội dung ngữ nghĩa.
21
TÀI LIỆU THAM KHẢO
1. Tim Finin, James Mayfield, Anupam Joshi, R. Scott Cost and Clay Fink, Information
Retrieval and the Semantic Web.
2. Urvi Shah, Tim Finin, Anupam Joshi, R. Scott Cost James Mayﬁeld, Information Retrieval
on the Semantic Web.
3. Li Ding, Tim Finin, Anupam Joshi, Yun Peng, R. Scott Cost, Joel Sachs, Rong Pan, Pavan
Reddivari, Vishal Doshi, Swoogle: A Semantic Web Search and Metadata Engine.
22

WEB NGỮ NGHĨA TRONG TRUY XUẤT THÔNG TIN

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về