Tải bản đầy đủ (.pdf) (66 trang)

Nghiên cứu về web thế hệ mới, tìm hiểu các vấn đề liên quan web thế hệ mới và thử nghiệm một số ứng dụng tự động thu thập thông tin trên web

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.22 MB, 66 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------

LƯƠNG XUÂN DIỆU

NGHIÊN CỨU VỀ WEB THẾ HỆ MỚI, TÌM HIỂU
CÁC VẤN ĐỀ LIÊN QUAN WEB THẾ HỆ MỚI VÀ
THỬ NGHIỆM MỘT SỐ ỨNG DỤNG TỰ ĐỘNG
THU THẬP THÔNG TIN TRÊN WEB

CHUYÊN NGÀNH: KĨ THUẬT MÁY TÍNH VÀ TRUYỀN THÔNG

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. PHẠM HUY HOÀNG

HÀ NỘI – NĂM 2014


Lương Xuân Diệu

Semantic Web

Lời cảm ơn

Em xin gởi lời cảm ơn chân thành và sự tri ân sâu sắc đối với các thầy cô của trường
Đại học Đại học Bách khoa Hà nội, đặc biệt là các thầy cô Viện Công nghệ thông tin và Truyền
thông của trường đã tạo điều kiện cho em thực tập ở viện để có nhiều thời gian cho luận văn tốt
nghiệp. Và em cũng xin chân thành cám ơn thầy giáo, Tiến sĩ Phạm Huy Hoàng đã tận tình


hướng dẫn hướng dẫn em trong suốt quá trình hoàn thành tốt luận văn.

Trong quá trình thực tập, cũng như là trong quá trình làm bài báo cáo, khó tránh khỏi
sai sót, rất mong các Thầy, Cô bỏ qua. Đồng thời do trình độ lý luận cũng như kinh nghiệm
thực tiễn còn hạn chế nên luận văn không thể tránh khỏi những thiếu sót, em rất mong nhận
được ý kiến đóng góp Thầy, Cô để em học thêm được nhiều kinh nghiệm và hoàn thiện được
luận văn tốt hơn nữa.
Em xin chân thành cảm ơn!
Học viên

Lương Xuân Diệu

1


Lương Xuân Diệu

Semantic Web

Lời cam đoan

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công
bố trong bất kỳ công trình nào khác.

Tác giả

Lương Xuân Diệu

2



Lương Xuân Diệu

Semantic Web

Mục lục
1. Lý do chọn đề tài ...................................................................................................... 6
2. Lịch sử nghiên cứu. .................................................................................................. 6
3. Mục đích nghiên cứu, đối tượng nghiên cứu, phạm vi nghiên cứu ............................ 7
4. Tóm tắt các luận điểm cơ bản ................................................................................... 8
5. Phương pháp nghiên cứu .......................................................................................... 8
Chương I: Tổng quan về Web ngữ nghĩa (Senmantic Web) .......................................... 9
1. Các thế hệ web và sự ra đời của web ngữ nghĩa ....................................................... 9
1.1. Lịch sử phát triển của website ............................................................................ 9
1.2. Web dữ liệu (Web of Data) .............................................................................. 10
1.3. Những giới hạn của web 2.0, sự ra đời của web 3.0 ......................................... 10
1.4. Lịch sử phát triển của web ngữ nghĩa ............................................................... 12
2. Định nghĩa về web ngữ nghĩa ............................................................................. 13
2.1. Định nghĩa ................................................................................................... 13
2.2. Các thành phần cơ bản của web ngữ nghĩa ................................................... 14
2.3. Các phiên bản của web ngữ nghĩa ................................................................ 16
2.4. Các ứng dụng nổi bật trên nền tảng web ngữ nghĩa ...................................... 17
2.5. Adaptive web và Semantic web ................................................................... 20
Chương II: Các thành phần cơ bản của web ngữ nghĩa (Các tầng của Semantic Web) 22
1. URI..................................................................................................................... 22
1.1. Định nghĩa ................................................................................................... 22
1.2. Ứng dụng của URI trong Web ngữ nghĩa ..................................................... 23

3



Lương Xuân Diệu

Semantic Web

2. RDF và RDFS .................................................................................................... 23
2.1. RDF ............................................................................................................. 23
2.1.1. Định nghĩa ................................................................................................ 23
2.1.3. Các thuộc tính của RDF (property)............................................................ 28
2.2. RDFS ........................................................................................................... 29
2.2.1. Định nghĩa ................................................................................................ 29
2.2.2. RDF vs RDFS ........................................................................................... 32
2.3. RDF Tripple Stores ...................................................................................... 32
2.4. Ngôn ngữ truy vấn trên RDF: SPARQL ....................................................... 35
3. Web Ontology Language (OWL) ............................................................................ 39
3.1. Định nghĩa ....................................................................................................... 39
3.2. Các thành phần, nội dung cơ bản của OWL ......................................................... 43
3.2.1. Các phiên bản của OWL ............................................................................... 43
3.2.3. Syntax ........................................................................................................... 44
3.2.3. Terminology ...............................................Error! Bookmark not defined.
3.3. RDFS vs OWL .................................................................................................... 46
4. Một số phương pháp lưu RDF trên Database .......................................................... 47
4.1. Giant triple storage: ......................................................................................... 47
4.2. ID base triple store: .......................................................................................... 49
4.3. Quad store: ...................................................................................................... 49
4.4. Property table: ................................................................................................. 50
4.5. Vectically Partioned Table (Binary Tables): .................................................... 50

4



Lương Xuân Diệu

Semantic Web

Chương III: Ứng dụng tìm kiếm dữ liệu trên mô hình web ngữ nghĩa ......................... 51
1. Mô hình cơ bản các website hiện nay (2.0) ............................................................. 52
2. Các nội dung cơ bản để chuyển từ web 2.0 thành web ngữ nghĩa. ........................... 53
2.1. Thiết kế cơ sở dữ liệu....................................................................................... 53
2.2. Truy vấn dữ liệu............................................................................................... 58
2.3. Xuất bản và truy vấn dữ liệu giữa các website. ................................................ 60
3. Ứng dụng tìm kiếm trên web ngữ nghĩa. ................................................................. 60
1. Những kết luận mới ................................................................................................ 63
2. Kiến nghị về việc sử dụng kết quả nghiên cứu ........................................................ 64

5


Lương Xuân Diệu

Semantic Web

MỞ ĐẦU
1. Lý do chọn đề tài
Với sự phát triển mạnh mẽ cả về số lượng và chất lượng của Internet dẫn tới
việc gia tăng không ngừng của các nội dung, thông tin trên Internet. Internet trở thành
một kho từ điển khổng lồ chứa đựng tri thức sâu rộng về mọi vấn đề.
Tuy nhiên với công nghệ xây dựng Website hiện nay, việc tìm kiếm chính xác
nội dung, thông tin trên Internet ngày càng trở nên khó khăn, tỉ lệ nghịch với sự phát

triển mạnh mẽ của hệ thống Web trên thế giới.
Sự phát triển một hệ thống web mới mà nội dung trên được xây dựng cùng với
mô tả về ngữ nghĩa, liên kết giữa các dữ liệu với nhau sẽ trở thành nền tảng cho các
công nghệ, ứng dụng khác phát triển mạnh mẽ, đáp ứng được nhu cầu ngày một cao
của người sử dụng.
Đã có nhiều nghiên cứu trong và ngoài nước về việc xây dựng hệ thống website
mới, sao cho các hệ thống máy tính có thể hiểu được nội dung của dữ liệu được lưu trữ
trên đó. Xuất phát từ nhu cầu cần có một nghiên cứu chi tiết, cụ thể về những lý luận
cơ bản của web ngữ nghĩa, cũng như cách thức xây dựng bộ máy tìm kiếm dữ liệu trên
nền tảng web ngữ nghĩa, tôi đã tiến hành thực hiện đề tài: “Nghiên cứu về Web thế hệ
mới, tìm hiểu các vấn đề liên quan Web thế hệ mới và thử nghiệm một số ứng dụng
tự động thu thập thông tin trên web”
2. Lịch sử nghiên cứu.
Với sự ra ra đời của web ngữ nghĩa từ đầu những năm 60, các bộ máy tìm kiếm
đi cùng với mô hình web ngữ nghĩa luôn được ưu tiên nghiên cứu và phát triển.

6


Lương Xuân Diệu

Semantic Web

Hiện nay đã có nhiều dự án nghiên cứu và ứng dụng các hệ thống tìm kiếm semantic
khác nhau được xây dựng. Tuy nhiên việc ứng dụng web semantic và tìm kiếm trên
web semantic chưa thực sự mạnh mẽ trên thế giới.
Cần có sự chuẩn bị và thời gian để chuyển dần việc sử dụng công nghệ web 2.0
sang việc sử dụng công nghê mới để xây dựng web.
Một số search engine hiện nay:


3. Mục đích nghiên cứu, đối tượng nghiên cứu, phạm vi nghiên cứu
Mục đích của đề tài: nghiên cứu về cơ sở lý luận và thực tiễn của web semantic,
các thành phần, công nghệ cơ bản được sử dụng trong web semantic.
Đưa ra được ưu điểm, và sự khác biệt trong việc sử dụng các công nghệ khác
nhau trong việc xây dựng web semantic.

7


Lương Xuân Diệu

Semantic Web

Xây dựng được môt hình tìm kiếm semantic đơn giản nhất mô phỏng kết quả
nghiên cứu và tính khả thi của mô hình web ngữ nghĩa.
Đối tượng nghiên cứu của đề tài: Web ngữ nghĩa, các công nghệ nền tảng xây
dựng web ngữ nghĩa, các hệ thống tìm kiếm trên nền tảng web ngữ nghĩa.
4. Tóm tắt các luận điểm cơ bản
World Wide Web đã thay đổi cách thức giao tiếp của con người trong nhiều lĩnh
vực và Web ngữ nghĩa ra đời là xu thế phát triển trong việc biểu diễn dữ liệu để khắc
phục các hạn chế của Web hiện tại và hướng tới một thế hệ Web mới, đáp ứng tốt hơn
nhu cầu của con người và các ứng dung.
Các ứng dụng được thiết kế dựa trên các khái niệm và sử dụng các thông tin có
thể xử lý được bởi máy tính để tạo ra động lức lớn cho việc phát triển của một thế hệ
các công cụ và các ứng dụng mới.
RDF/RDFS và OWL là các ngôn ngữ được xây dựng và sử dụng trong việc định
nghĩa và mô tả dữ liệu trên nền tảng web ngữ nghĩa. Cùng với việc sử dụng SPARQL
như một ngôn ngữ truy vấn dữ liệu chính cho web ngữ nghĩa. Từ đó đã xây dựng nên
được các thành phần cơ bản của một web ngữ nghĩa, có thể ứng dụng vào thực tế. Hiện
nay việc ứng dụng web ngữ nghĩa để xây dựng các ứng dụng ngày càng nhiều như: các

thư viện số, các hệ thống quản lý thông tin, các hệ thống tra cứu, tư vấn và hỗ trợ…
5. Phương pháp nghiên cứu
Nghiên cứu lý thuyết: Nghiên cứu các công trình khoa học đã được công bố về
web ngữ nghĩa, các bài báo, các bài giảng. Tham khảo về các công cụ, ngôn ngữ mới
tại World Wide Web Consortium (W3C).
Nghiên cứu thực nghiệm: Thực nghiệm mố số công cụ hỗ trợ xây dựng web ngữ
nghĩa và hệ thống tìm kiếm trên web ngữ nghĩa.

8


Lương Xuân Diệu

Semantic Web

Nội dung
Chương I: Tổng quan về Web ngữ nghĩa (Senmantic Web)
1. Các thế hệ web và sự ra đời của web ngữ nghĩa
1.1. Lịch sử phát triển của website
Web site là một một tập hợp các trang web hay cũng có thể chỉ là một site đơn
giản, được đặt trên một hoặc nhiều web server. Được truy cập thông qua mạng Internet
hoặc mạng LAN bởi một địa chỉ của website được gọi là URL (Uniform resource
location).
Thế hệ Website đầu tiên (web tĩnh – Static web) chỉ là một trang text đơn giản,
kết hợp với ngôn ngữ đánh dấu (HTML) và CSS. Loại web này chỉ đơn giản thể hiện
thông tin đã được xây dựng sẵn, và không có sự tương tác với người dùng. Nó có thể
chứa được hình ảnh, âm thanh, video, nhưng tất cả đều đã được xác định sẵn, không
thể thay đổi theo yêu cầu của người dùng.
Thế hệ Website thứ 2 (web động – dynamic web) được phát triển từ nền tảng
static web (HTML, CSS) cùng với việc sử dụng các công nghệ theo mô hình Client Server như CGI, Java Servlet, JSP, ASP…đã tạo nên một hệ thống web động. Có khả

năng tương tác, thay đổi nội dung, dữ liệu theo yêu cầu của người sử dụng.
Với sự ra đời ngày càng nhiều về số lượng và ngày càng tăng về chất lượng, nội
dung, đã khiến cho hệ thống web trên toàn thế giới trở thành một kho thông tin khổng
lồ, chứa đựng thông tin về mọi mặt của cuộc sống.
Tuy nhiên từ đó nảy sinh một yêu cầu tất yếu, đó là việc tìm kiếm thông tin
trong kho tri thức khổng lồ đó. Với bản chất của web là một tập hợp các nội dung cùng
với ngôn ngữ đánh dấu (HTML) và ngôn ngữ định dạng (CSS) việc tìm kiếm thông tin
chỉ đơn giản là tìm kiếm theo từ vựng. Vì vậy một yêu cầu tất yếu cần phải có một hệ
9


Lương Xuân Diệu

Semantic Web

thống web mà trên đó thông tin có thể được “hiểu” được mang ý nghĩa, khi đó việc tìm
kiếm thông tin sẽ quy về việc tìm kiếm theo nghĩa của nội dung thay vì tìm kiếm bằng
từ vựng.
1.2. Web dữ liệu (Web of Data)
Ta có thể hiểu web động chỉ là là một tập hợp thông tin được biểu diễn, thể hiện
và liên kết với nhau mà không hề có ý nghĩa, vì vậy để có thể thay thế việc tìm kiếm
bằng từ vựng, ta cần thêm vào thông tin đó một phần “nghĩa” của thông tin. Phần nghĩa
này sẽ giúp cho các hệ thống máy tính có thể “hiểu” được nội dung của thông tin, làm
cho việc tìm kiếm thông tin sát với yêu cầu người người dùng.
Việc xây dựng một hệ thống web site chứa đựng thông tin đi cùng với phần mô
tả nội dung, ý nghĩa của nó đã tạo nên một hệ thống web mới, chứa đựng thông tin có
thể được tìm kiếm, truy xuất theo nghĩa của thông tin, theo từ chủ đề, chuyên mục
riêng.
Tuy nhiên, với bản chất của hệ thống web động (2.0) hiện tại, thì việc đưa thêm
một phần thông tin để mô tả ý nghĩa của thông tin thì gần như không thể thực hiện

được. Vì vậy việc phát triển, ra đời của một thế hệ web mới là tất yếu.
1.3. Những giới hạn của web 2.0, sự ra đời của web 3.0
Từ sự phát triển của website, từ web tĩnh tới web động; việc biểu diễn thông tin
trên web đều thông qua việc sử dụng ngôn ngữ đánh dấu (HTML), kết hợp cùng với
việc sử dụng liên kết giữa các nội dung, tạo nên một hệ thống website.
Tuy nhiên hệ thống website được tăng lên hàng giờ thì việc liên kết giữa các nội
dung, các thông tin đó trở nên rối rắm, phức tạp, không có khả năng khai thác. Các bộ
máy tìm kiếm (search engine) hiện nay đều được xây dựng trên cơ sở sử dụng từ vựng
để tìm kiếm thông tin. Việc tìm kiếm này sẽ trở nên khó khăn, thiếu tính chính xác với

10


Lương Xuân Diệu

Semantic Web

hệ thống thông tin vô cùng lớn, có nhiều nội dung đồng âm nhưng khác nghĩa, thông
tin không được phân chia thành các hệ thống, các chuyên mục riêng biệt.
Ví dụ ta tìm kiếm thông tin về một loài động vật (Jaguar) trên Google, sẽ nhận
được các thông tin khác nhau có cùng âm là jaguar như vậy.

Tuy nhiên nội dung ta muốn tìm thì lại không được tìm thấy, hoặc có tìm thấy
thì nội dung rất ít, sơ sài; không được ưu tiên.

Xuất phát từ ý tưởng đó, việc xây dựng một hệ thống website mới (web 3.0) đã
ra đời. Việc đưa thêm ý nghĩa, ngữ nghĩa cho thông tin lên web, sẽ giúp cho bộ máy
tìm kiếm hiểu được ý nghĩa của từ thông tin, giúp cho việc liên kết giữa các thông tin
được chính xác, đầy đủ; việc tìm kiếm của bộ máy tìm kiếm sẽ chính xác hơn. Khi đó


11


Lương Xuân Diệu

Semantic Web

việc tìm kiếm sẽ không dựa chỉ dựa vào từ vựng, mà thêm vào đó sẽ được tìm kiếm
theo ý nghĩa của thông tin.

1.4. Lịch sử phát triển của web ngữ nghĩa
Định nghĩa về Semantic Network Model đã được xây dựng vào đầu những năm
1960 bởi Allan M Collins, M. Ross Quillian và Elizabeth F. Loftus như một các biểu
diễn có cấu trúc của tri thức. Đây là sự mở rộng của hệ thống các liên kết trên website
bằng cách thêm vào đó các thông tin Metadata chưa đựng thông tin về nội dung chính
của website cũng như cách nó liên kết tới các website khác. Khi đó bộ máy tìm kiếm sẽ
tự động thu thập thông tin trong Metadata này để tăng độ chính xác và hiệu quả trong
việc tìm kiếm.
Thuật ngữ Web ngữ nghĩa (Senmantic Web) được đề xuất bởi Tim Berners Lee
(người sáng lập của tổ chức World Wide Web) vào năm 1998, theo Tim thì web ngữ
nghĩa là sự mở rộng của Web hiện tại mà trong đó thông tin được định nghĩa rõ ràng
12


Lương Xuân Diệu

Semantic Web

sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn.
Mục tiêu của web ngữ nghĩa là để phát triển các chuẩn chung và công nghệ cho phép

máy tính có thể hiểu được nhiều hơn thông tin trên web, sao cho chúng có thể hỗ trợ tốt
hơn cho việc tìm kiếm thông tin, tích hợp dữ liệu và tự động hóa.
2. Định nghĩa về web ngữ nghĩa
2.1. Định nghĩa
Web ngữ nghĩa là một phương pháp cho phép định nghĩa là liên kết dữ liệu một
cách có nghĩa nhằm mục đích phục vụ cho máy tính có thể hiểu được nội dung của
thông tin, dữ liệu. Web ngữ nghĩa còn cung cấp một môi trường chia sử và xử lý dữ
liệu tự động bằng hệ thống máy tính.
Tim Berners – Lee đã đư ra hai vấn đề chính của web ngữ nghĩa, đó là tạo cho
web một môi trường trong đó có sự tương tác giữa các web với nhau, thứ hai là máy
tính có thể hiểu được các thông tin, dữ liệu trên website.
Khi đó, thay vì việc phải được ra phương pháp xử lý dữ liệu mới, ta sẽ đưa ra
một phương pháp xây dựng dữ liệu mới, có cấu trúc, có ngữ nghĩa.

13


Lương Xuân Diệu

Semantic Web

2.2. Các thành phần cơ bản của web ngữ nghĩa

Web ngữ nghĩa được xây dựng trên nền tảng hệ thống web hiện tại; nó được coi là sự
mở rộng, bổ xung thêm ngữ nghĩa vào các dữ liệu đã có trên web.
Các thành phần cơ bản, kiến trúc của web ngữ nghĩa gồm có các thành phần cơ bản:
-

Các URI (resource uniform identifier)


-

Sử dụng bảng mã chuẩn unicode: đây là bảng mã chuẩn chung có đầy đủ các ký
tự để thống nhất giao tiếp giữa tất cả các quốc gia, đáp ứng tính toàn cầu hóa
của web.

-

Sử dụng XML để đánh dấu, lưu trữ dữ liệu, tuy nhiên hiện nay XML không còn
được coi là một thành phần cơ bản của web ngữ nghĩa.

14


Lương Xuân Diệu

Semantic Web

-

XML Schema là ngôn ngữ hỗ trợ cho việc giải quyết các hạn chế về mặt cấu
trúc và nội dung được chưa trong file XML.

-

RDF: Ngôn ngữ đơn giản để mô tả mô hình dữ liệu, nó mô tả các đối tượng và
mối liên hệ giữa các đối tượng. RDF có thể được sử dụng dưới nhiều kiểu cú
pháp khác nhau như: RDF/XMl, N3, Turtle và RDFa. RDF được coi là nền tảng
của web ngữ nghĩa.


-

RDF Schema là sử mở rộng của RDF: nó mô tả các thuộc tính và các lớp của tài
nguyên dưới được viết dưới dạng RDF.

-

OWL: mở rộng thêm tập từ khóa để mô tả dữ liệu và các lớp, mối liên hệ giữa
các lớp.

-

SPARQL: Giao thức và ngôn ngữ truy vấn cho dữ liệu của web ngữ nghĩa.

-

RIF: chuẩn giao thức của W3C, sử dụng ngôn ngữ XML để mô tả các luật của
web để máy tính cả thể hiểu được.

-

Unifying logic: Việc biểu diễn các tài nguyên dưới dạng các bộ từ vựng
Ontology có mục đích là để máy có thể lập luận được. Mà cơ sở lập luận chủ
yếu dựa vào logic, chính vì vậy việc sử dụng logic trong web ngữ nghĩa là để hỗ
trợ cho việc mô tả dữ liệu một cách có logic.

-

Proof: Cung cấp các luật để phát biểu các suy luận logic, từ các thông tin đã có,
ta có thể suy ra các thông tin mới.


-

Trust: Đảm bảo tính tin cây của các ứng dụng trên web nghữ nghĩa. Mỗi ứng
dụng trên web ngữ nghĩa sẽ có một ngữ cảnh cụ thể, chính vì thế, các mệnh đề
trên có thể nằm trong các ngữ cảnh khác nhau, khi đó ngữ nghĩa tương ứng khác
nhau nên các mệnh đề đó vẫn đúng, đáng tin cậy trong ngữ cảnh của nó. Để có
được sự chứng minh về độ tin cậy thì các lập luận được áp dụng là không đơn
điều và có các cơ chế kiểm tra chứng minh kết hợp với công nghệ chữ kí điện tử
để xác nhận độ tin cậy.

15


Lương Xuân Diệu

Semantic Web

2.3. Các phiên bản của web ngữ nghĩa
Trong quá trình phát triển của web ngữ nghĩa, đã xuất hiện một số định nghĩa
mới, các mô hình website mới, vừa là bước đệm cho sự phát triển, vừa là bổ sung cho
mô hình web ngữ nghĩa.
Linked Data: là hệ thống các dữ liệu được liên kết một cách có cấu trúc với
nhau, tạo nên một hệ thống siêu dữ liệu. Được xây dựng trên các công nghệ web cơ
bản: HTTP, RDF và URIs; nhưng nó không chỉ phục vụ cho việc hiển thị trên web
browser cho người dùng có thể xem, nó còn có thể được tự động tìm kiếm, đọc bởi các
hệ thống máy tính. Điều này cho phép dữ liệu ở các nguồn khác nhau có thể liên kết và
truy vấn.

16



Lương Xuân Diệu

Semantic Web

2.4. Các ứng dụng nổi bật trên nền tảng web ngữ nghĩa
Trên nền tảng web ngữ nghĩa, có rất nhiều ứng dụng có thể triển khai; mặc dù
nhiều ứng dụng đã xuất hiện và phát triển trên nền tàng web 2.0, tuy nhiên chỉ có trên
nền tảng web 3.0 thì các ứng dụng đó mới thực sử trở nên mạnh mẽ, thể hiện được hết
ưu điểm của nó.
Ngay bản thân hệ thống Linked data cũng được coi như là một ứng dụng trên
nền tảng web ngữ nghĩa.
Ngoài ra các bộ máy tìm kiếm trên nên tảng web ngữ nghĩa cũng được ưu tiên
nghiên cứu và phát triển. Tuy nhiên trên nền tảng web ngữ nghĩa, việc tìm kiếm sẽ dựa
trên ngữ nghĩa thay vì từ khóa như ở thế hệ web cũ. Với bộ máy tìm kiếm (search
engine) trên web ngữ nghĩa có thể được phát triển theo nhiều hướng, mô hình khác
nhau:
- Document retrieval (text retrieval): cách tìm kiếm trên các bản ghi văn bản (free-text).
Khi đó các văn bản có thể là bất kì loại văn bản nào, nhưng thường là các vản bản phi
cấu trúc như: các bài báo, bài luận…Nội dung truy vấn có thể là một vài từ khóa hoặc
có thể là một vài câu với mô tả chi tiết về nội dung cần tìm kiếm.
- Fact Retrieval: Ứng dụng trong các hệ thống trợ giúp tự động, người dùng sẽ sử dụng
các câu hỏi thực tế, hệ thống sẽ trả về một loạt các thông tin có liên quan.

17


Lương Xuân Diệu


Semantic Web

- Exploratory Search: đây là một cách tìm kiếm đặc biệt, kết quả được trả về bảo gồm
nhiều thông tin khác nhau, có liên quan hoặc không liên quan tới nội dung tìm kiếm, có
các đặc điểm như sau:
+ Không liên quan tới nội dung, hoặc chủ đều cần tìm kiếm
+ Không chắc chắn về cách để tìm được kết quả.
+ Hoặc không chắc chắn ngay ở mục tiêu tìm kiếm

18


Lương Xuân Diệu

Semantic Web

- Inteligent Agents (tác tử thông minh) : ứng dụng này đã xuất hiện và được khai thác
trên nền tảng web cũ, tuy nhiên việc tương tác và sử dụng của người dùng và hệ thống
đơn thuần chỉ là một chiều, và nhỏ hẹp. Khi được ứng dụng trên nền tảng web ngữ
nghĩa, việc tương tác giữa người dùng và hệ thống sẽ là 2 chiều và giữa nhiều ứng
dụng, hệ thống, thiết bị khác nhau.

19


Lương Xuân Diệu

Semantic Web

Các Web Service: Tích hợp web ngữ nghĩa vào các ứng dụng thường được sử

dụng (thư điện tử, web browser…) để cung cấp nhiều hơn tính hoạt động liên tục trên
web cũng như các ứng dung. Ứng dụng web ngữ nghĩa vào thương mại điện tử, đặc
biệt là các nghiên cứu liên quan đến quản lý tiến trình nghiệp vụ (Business Process
Managerment) trong thương mại điện tử và B2B (Business to Businees). Đây là một
trong những ứng dụng mới của web ngữ nghĩ nhằm làm giàu ngữ nghĩa cho các tiến
trình nghiệp vụ trong môi trường công tác doanh nghiệp.
2.5. Adaptive web và Semantic web
Trong quá trình nghiên cứu phát triển thế hệ website mới 3.0, nhiều phương pháp
nghiên cứu đã được nêu ra, trong đó có nghiên cứu về Adaptive web.

20


Lương Xuân Diệu

Semantic Web

Mục đích của Adaptive web là nhằm mục đích đưa ra các thông tin định hướng cho
người sử dụng. Các thông tin được đưa ra vừa nhằm mục đích gợi ý cho người dùng,
các thông tin có liên quan tới nội dung đang được quan tâm.
Nói một cách khác, việc sử dụng Exploratory Search trên nền tảng web ngữ nghĩa cũng
chính là một hình thức gợi ý cho người sử dụng các tài liệu, dữ liệu tương tự.
Ngoài ra, việc đưa ngữ nghĩa vào dữ liệu, sẽ khiến cho việc tìm kiếm thông tin trên
web sẽ có tính logic hơn, cung cấp được các thông tin cần thiết cho người dùng mà
không cần có sự tác động, hoặc yêu cầu từ phía người sử dụng.

21


Lương Xuân Diệu


Semantic Web

Chương II: Các thành phần cơ bản của web ngữ nghĩa (Các tầng của Semantic
Web)
1. URI
1.1. Định nghĩa
URI là một chuỗi các kí tự dùng để xác định tên của một tài nguyên trên web.
Cho phép xác định địa chỉ cụ thể biển diễn các tài nguyên web thông qua một mạng
(thường là World Wide Web) và sử dụng những giao thức đặc biệt. Các URI được xây
dựng theo một cú pháp xác định.
Cú pháp của URI được tuân theo cấu trúc như sau:

Trong đó:
- Scheme name: là một chuỗi liên tiếp các kí tự được bắt đàu bởi một một chữ cái và
tiếp theo là một chuỗi kết hợp của chữ, số, dấu + , dấu “.” hoặc dấu “-“. Mặc đù
shemes là case-insensitive, nhưng URI thường được để ở dạng chữ hường, và kết thúc
bằng dấu “:”.
Ví dụ:
URI = schema"://"[userinfo"@"]host[:port][path]["?"query]["#"fragment]
- schema: http, ftp, mailto,...
- userinfo: username:password
- host: Domain-Name, IPv4/IPv6 Address
- port: :80 for standard http port

22


Lương Xuân Diệu


Semantic Web

- path: đường dẫn tới file của máy chủ WWW
- query: biến được truyền vào ứng dụng để lấy ra kết quả
- fragment: xác định một phần nhỏ để lấy ra của tài nguyên.
1.2. Ứng dụng của URI trong Web ngữ nghĩa
URI là một trong những thành phần cơ bản, cấu thành nên web ngữ nghĩa. Có
thể nói, nó là định nghĩa cho tất cả các đối tượng, thành phần, tài nguyên có trong web
ngữ nghĩa nói riêng, và cho mọi thứ nói chung.
Việc sử dụng URI sẽ tránh được sự chồng chéo trong việc định nghĩa, xác định tài
nguyên. Cho phép đặt nhiều tài nguyên, văn bản tại cùng một chỗ.
2. RDF và RDFS
2.1. RDF
2.1.1. Định nghĩa
RDF : Resource Description Framework: framework mô tả, định nghĩa tài nguyên,
dữ liệu.
-

Tài nguyên có thể là bất cứ thứ gì, là duy nhất và có thể được tham chiếu thông
qua URI.

-

Tài nguyên có thể được mô tả, biểu diễn bằng các thuộc tính, các mối quan hệ
giữa các tài nguyên với nhau. Các mối liên hệ đó có thể được mô tả thông qua
biểu đồ.

-

Được xây dựng dựa trên nền tảng cơ bản của web: URI, HTTP, XML…dựa

trên mô hình chuẩn của web ngữ nghĩa. Định nghĩa tất cả những mối liên hệ có
khả năng giữa các tài nguyên.

RDF là một tập hợp các nguyên tắc dành cho ngôn ngữ đánh dấu. Nó cho phép sự
chia sử giữa các ứng dụng để trao đổi thông tin sao cho các hệ thống thống máy tính có
23


Lương Xuân Diệu

Semantic Web

thể hiểu được nội dung, có thể đáp ứng cho các ứng dụng tự động xử lý thông tin, dữ
liệu.
RDF cung cấp một mô hình dữ liệu, và một cú pháp đơn giản sao cho các hệ thống
độc lập có thể trao đổi, chia sử và sử dụng chung. Đồng thời, nó được thiết kế sao cho
hệ thống máy tính có thể hiệu được và đọc được thông tin, chứ không chỉ nhằm mục
đích biển diễn dữ liệu cho người dùng.
Cú pháp của RDF dựa trên mô hình dữ liệu, mô hình này ảnh hưởng tới cách mô tả
các thuộc tính và nó làm cho cấu trúc của những mô tả đó trở nên rõ ràng. Điều này
giúp cho RDF phù hợp cho việc mô tả tài nguyên trên Web.

24


×