Tải bản đầy đủ (.pdf) (12 trang)

Báo cáo nghiên cứu khoa học: "SEMADESK: KHUNG ỨNG DỤNG NGỮ NGHĨA QUẢN LÝ THÔNG TIN DESKTOP" pptx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (551.74 KB, 12 trang )

55
TẠP CHÍ KHOA HỌC, Đại học Huế, Số 48, 2008


SEMADESK: KHUNG
ỨNG DỤNG NGỮ NGHĨA
QU
ẢN LÝ THÔNG TIN DESKTOP
Nguyễn Quang Hưng, Hoàng Nguyễn Tuấn Minh,
Nguyễn Mậu Quốc Hoàn, Nguyễn Văn Trung, Nguyễn Mậu Hân
Trường Đại học Khoa học, Đại học Huế
Hoàng Hữu Hạnh, Lê Mạnh Thạnh
Đại học Huế
TÓM TẮT
Ý tưởng về Desktop ngữ nghĩa (DesktopNN, tiếng Anh là Semantic Desktop) trong quản
lý thông tin cá nhân xuất phát từ khái niệm “Memex” [1]. DesktopNN trở thành mô hình cho hệ
quản lý thông tin cá nhân trong phạm vi ứng dụng của Web ngữ nghĩa (Semantic Web) [2]. Từ
những nhu cầu và mong muốn của người sử dụng hiện nay, công nghiệp phần mềm hướng đến
việc xử lý thông tin ngữ nghĩa trên desktop [3]. Theo đó, đưa Web ngữ nghĩa (Web NN) vào ứng
dụng trên máy tính cá nhân và điều này không chỉ là vấn đề công nghệ mà còn cả lý luận và tác
động của con người [4]. Những người phát triển ứng dụng cá nhân tập trung vào các dịch vụ
WebNN cần một môi trường phát triển RDF và ontology đầy đủ cho việc xây dựng sản phm với
mong muốn đem đến cho người sử dụng cuối những tính năng tốt hơn trong các ứng dụng
desktop hiện nay.
Dự án xây dựng khung ứng dụng SemaDesk ra đời từ những mong muốn đó và từ thực
tế là các hướng tiếp cận hiện nay không thể giải phóng người dùng khỏi gánh nặng của sự phức
tạp của các ứng dụng WebNN. Cách tiếp cận mà chúng tôi đề xuất hướng đến người sử dụng
với việc đưa vào hệ thống các ontology, các phụ chú và quản lý tốt hồ sơ người dùng vào trong
hệ quản lý dữ liệu cá nhân nhằm tạo ra nền tảng mới cho việc tổ chức và tìm kiếm trở nên hiệu
quả hơn.
1. “SemaDesk„


Trong cu
ộc sống thường nhật, chúng ta tạo ra nhiều tài liệu, nhận hàng trăm thư
điện tử và duyệt rất nhiều trang web. Tất cả các tài liệu này gắn liền với những ngữ cảnh
c
ụ thể nào đó. Chẳng hạn, các thư điện tử có đính kèm các tài liệu công việc hay là các
trang web chuyên môn c
ủa người dùng. Tuy nhiên, cấu trúc lưu trữ thư mục và tập tin
nh
ư mô hình các hệ điều hành hiện nay không hỗ trợ cho việc tổ chức thông tin trong
các tài li
ệu [5]. Metadata của các tài liệu này cũng không giúp ích gì cho việc tổ chức và
tìm ki
ếm thông tin theo hướng có ngữ nghĩa. Do đó, chúng ta cần một hệ quản lý thông
tin thông minh h
ơn và lọc tốt hơn trong quản lý thông tin cá nhân nói riêng và desktop
nói chung.
56
1.1. Định nghĩa Desktop Ngữ Nghĩa
Chúng tôi
đơn giản hoá định nghĩa DesktopNN theo quan điểm người sử dụng
và g
ắn liền với tính liên thông và cộng tác của các hệ thống SemaDesk.
Định nghĩa: Một DesktopNN là một hệ thống thực thi ở tầng cao nhất của hệ
điều hành cá nhân sử dụng công nghệ WebNN, cung cấp lớp ngữ nghĩa đã được làm
giàu dùng
để tổ chức thông tin cá nhân (bao gồm cả các dạng tài nguyên bên ngoài
được sử dụng bởi người dùng) và cung cấp công cụ truy xuất thông tin có ngữ nghĩa.
H
ệ thống DesktopNN có thể tương tác và cộng tác lẫn nhau thông qua hệ thống mạng
ngang hàng (peer-to-peer) s

ử dụng giao thức khác nhau.
So sánh v
ới định nghĩa trong [4], ở đây chúng tôi nhấn mạnh hai điểm: một là,
DesktopNN là m
ột hệ quản lý thông tin cá nhân (Personal Information Management -
PIM); hai là, m
ột tập các hệ thống DesktopNN có thể tương tác lẫn nhau nhằm chia sẻ
và tái s
ử dụng thông tin cũng như tri thức.
1.2.‘SemaDesk’
‘SemaDesk’
được phát triển nhằm khắc phục những bất lợi của các hệ thống
DesktopNN hi
ện nay. Đầu tiên là việc làm giàu ngữ nghĩa cho các dữ liệu cá nhân. Các
h
ệ thống tương tự chú trọng vào quy trình chuyển đổi dữ liệu cá nhân sang RDF [6]
b
ằng việc xây dựng hệ thống thu thập dữ liệu và làm giàu ngữ nghĩa không kế thừa
nh
ững công cụ đã có sẵn ở mức thấp hơn. Vì thế, chúng phải quan tâm thường xuyên
đến các thay đổi về định dạng tài liệu hay các phiên bản ứng dụng, chẳng hạn như việc
truy xu
ất vào database thư điện tử, lịch làm việc cần phụ thuộc vào phiên bản phần mềm
đã lưu trữ trước đây, như là Microsoft Outlook hay Mozilla Thunderbird. Các công cụ
tìm ki
ếm cá nhân hiện nay như Google Desktop Search (GDS)
7
, Yahoo! Desktop
Search
8

và Windows Desktop Search
9
đã gợi cho chúng tôi ý tưởng sử dụng lại các ứng
d
ụng này trong việc thu thập dữ liệu cá nhân.
Th
ứ hai, chúng tôi cũng nhắm đến xây dựng một nền tảng ngữ nghĩa dựa trên
thông tin cá nhân. N
ền tảng này cung cấp các khung nhìn ngữ nghĩa khác nhau về dữ
li
ệu. Điều này giúp ích không chỉ cho người dùng trên các dữ liệu mà họ nắm rõ mà còn
h
ỗ trợ cho các nhà phát triển cần một lớp ngữ nghĩa để khai thác thông tin. Chúng tôi
xây d
ựng các ontology về nguồn lưu trữ và phát triển một cách linh hoạt việc đưa các
ontology này vào l
ớp ngữ nghĩa phản ánh khung nhìn của người dùng trên dữ liệu đó.
Th
ứ ba, những nỗ lực trong nghiên cứu sẽ được phát triển và đưa vào hệ thống
nh
ư là phụ chú ngữ nghĩa, phân tích ngữ nghĩa của dữ liệu cá nhân; chẳng hạn kết hợp
các s
ự kiện liên quan, cho phép người dùng lấy thông tin theo ngữ cảnh, công cụ truy
v
ấn mềm dẻo cho truy xuất dữ liệu một cách thông minh.

7

8


9

57
Cuối cùng và không kém phần quan trọng là cách tiếp cận hướng dịch vụ
(Service-Oriented Architecture - SOA) mà chúng tôi l
ựa chọn để phát triển hệ thống
SemaDesk. Các thành ph
ần của SemaDesk được thực thi như các plugin độc lập có khả
n
ăng tương tác và trao đổi lẫn nhau thông qua dịch vụ nền. Dịch vụ này được xây dựng
nh
ằm đồng bộ các trao đổi trên kênh dịch vụ, chẳng hạn các lời gọi dịch vụ tổng hợp.
2. Ki
ến trúc hệ thống của khung ứng dụng SemaDesk
2.1. Ki
ến trúc hệ thống
Khung
ứng dụng SemaDesk được phát triển dựa trên tính kiến trúc thành phần
để lưu trữ, quản lý và truy xuất dữ liệu desktop và những thông tin cá nhân. Nó có thể
thu th
ập và lưu trữ dữ liệu trong khi cho phép nối kết các mô tả tới dữ liệu trên máy tính
cá nhân (email, các trang web, các cu
ộc gọi, hình ảnh, video, thông tin liên lạc…) và
nh
ững nguồn tài nguyên khác. Đồng thời nó cũng cung cấp một kỹ thuật tìm kiếm hiệu
qu
ả dựa trên việc lưu trữ theo ngữ nghĩa, và giao diện người sử dụng mang tính ngữ
ngh
ĩa hơn khi được xây dựng dựa trên ngữ cảnh của người sử dụng. Mục đích cuối cùng
c

ủa dự án này là nhằm xây dựng một hệ thống quản lý thông tin desktop sử dụng
ontology nh
ư là một nền tảng cho việc hợp nhất, tổ chức và biểu diễn nội dung.

Hình 1. Kiến trúc của Khung ứng dụng SemaDesk
Toàn bộ hệ thống SemaDesk được thiết kế như là một tập các plugin tương tác
l
ẫn nhau. Việc thiết kế này đảm bảo tính mềm dẻo và khả năng mở rộng của nền
(platform) SemaDesk. Vi
ệc giao tiếp bên trong hệ thống dựa trên nền hướng dịch vụ với
ưu điểm là tính liên kết không phụ thuộc nhau. Tổng quan về kiến trúc hệ thống
SemaDesk
được miêu tả ở Hình 1.
58
Dữ liệu desktop với chú thích người dùng được đưa vào hệ thống bằng cách sử
d
ụng một loạt các plugin cần thiết từ nhiều nguồn dữ liệu khác nhau. Các đối tượng dữ
li
ệu được thu thập sẽ được chuyển đến plugin Analyst. Plugin này bao gồm một số
l
ượng xác định các plugin được cung cấp cho việc xây dựng ngữ nghĩa bằng cách áp
d
ụng một tập các phương thức chiết xuất được lồng vào nhau. Những đối tượng thông
tin
được làm giàu ngữ nghĩa và bán cấu trúc được lưu trữ theo ontology được sử dụng
trong plugin Metastore. Trong h
ệ thống này, nguồn dữ liệu được lưu trữ dưới dạng bộ
ba RDF (RDF triples) theo ontology c
ủa nó. Kho dữ liệu này được gọi là Tầng Ngữ
ngh

ĩa (Semantic Layer) với ý nghĩa nó là một lớp thêm vào một công cụ tìm kiếm
desktop s
ẵn có nhằm làm giàu ngữ nghĩa cho dữ liệu.
M
ột tập quá trình xử lý truy vấn được thực hiện bởi module truy vấn Querier và
các công c
ụ trình diễn nhằm cung cấp phương tiện cho việc khám phá thông tin. Module
Analyst v
ới khả năng chiết xuất metadata sẽ tạo nên sự kết hợp giữa các mục/đối tượng
desktop và thông tin cá nhân d
ựa vào các chú thích người sử dụng, hồ sơ người sử dụng
và các ontology h
ệ thống.
2.2. Tầng ngữ nghĩa: SemaDesk Metastore
B
ước đầu tiên trong việc cài đặt SemaDesk ‘Metastore’ là phát triển một kỹ
thu
ật thu thập dữ liệu và làm phong phú thêm ngữ nghĩa. Về cơ bản, các nguồn dữ liệu
khác nhau
ở chỗ:
− D
ữ liệu được thu thập một cách tự động và lưu trữ trong kho dữ liệu có
ng
ữ nghĩa;
− D
ữ liệu được làm giàu ngữ nghĩa bởi người sử dụng
− Các ngu
ồn dữ liệu ngoài được lấy về khi cần, và nó không được lưu vào
trong kho d
ữ liệu ngữ nghĩa


Hình 2. Ontology của SemaDesk dùng cho nguồn dữ liệu và thông tin desktop
59
Sau khi cân nhắc cNn thận và kiểm thử với nhiều lựa chọn khác nhau, chúng tôi
nh
ận thấy rằng các máy tìm kiếm trên desktop (desktop search engines) thực thi rất hiệu
qu
ả với vai trò là các bộ thu thập dữ liệu. Hơn nữa, trong số những công cụ tìm kiếm
desktop hi
ện nay, Google Desktop Search (GDS) là một hệ nền mở cho phép chúng tôi
m
ở rộng mà sử dụng để chiết xuất những thông tin cần thiết. Đó chính là lý do tại sao
chúng tôi ch
ọn GDS như là module thu thập dữ liệu cho hệ thống SemaDesk.
2.2.1. Các Ontology trong SemaDesk
Các l
ược đồ nguồn thu thập dữ liệu (datafeed), các thuộc tính về thông tin
desktop và thông tin cá nhân, các
định nghĩa hình thức cho các phụ chú được tổ chức
bên trong kho ontology h
ệ thống và chúng được gọi là SemaDesk Ontologies. Đối với
các tác v
ụ truy xuất thông tin desktop, chúng tôi phát triển các ontology bao gồm các
ontoly cho các datafeed và siêu d
ữ liệu desktop (desktop metada) như miêu tả ở Hình 2.
Các ontology trong h
ệ thống được xây dựng bằng ngôn ngữ OWL [7].
Theo [8], m
ột phương pháp tiếp cận dựa trên ontology cho việc tích hợp dữ liệu
d

ựa trên sự sự đối sánh các khái niệm của ontology toàn cục dùng để mô tả về lĩnh vực
ứng dụng với các khái niệm được mô tả trong các ontology mô tả dữ liệu trong cơ sở dữ
li
ệu cục bộ. Mỗi khi sự đối sánh giữa các ontology toàn cục với các ontology cục bộ
được thực hiện, người sử dụng có thể truy vấn hàng trăm cơ sở dữ liệu bằng cách sử
d
ụng một truy vấn đơn giản mà nó Nn đi các sự phức tạp về thông tin/dữ liệu bên dưới.
T
ừ những ontology hệ thống này, một dịch vụ ánh xạ sẽ được thực hiện để tạo
thành m
ột ontology cho người sử dụng. Ontology này sẽ phản ánh cách nhìn (view) và
tri th
ức của người sử dụng về các thông tin cá nhân của họ được lưu trữ trong
SemaDesk; nó
được gọi là ontology ngữ cảnh người dùng (user-context ontology). Hơn
th
ế, các module truy vấn của SemaDesk sẽ chỉ cho ra những kết quả thích hợp nhất với
ontology này. Tuy nhiên, v
ấn đề về suy diễn và truy vấn theo ngữ cảnh sẽ không được
đề cập đến trong bài báo này.
2.2.2.Truy xuất thông tin desktop
Các ngu
ồn tài nguyên desktop có thể được sử dụng như tài nguyên web, ví dụ
m
ột nguồn tài nguyên sẽ có một URI. Các nguồn tài nguyên được xác định bởi các URI
và các liên k
ết có thể được tạo ra từ một nguồn tài liệu đến một nguồn khác. Dữ liệu
hi
ện tại có thể được chuyển sang các bộ ba RDF và được sử dụng bởi bất cứ ứng dụng
theo kiêu liên thông.

SemaDesk Metastore có th
ể quản lý tất cả các đối tượng dữ liệu tạo bởi GDS.
Các ngu
ồn dữ liệu sau đó sẽ được chuyển sang các bộ ba RDF và lưu trữ cùng ontology
cùa chúng.
Metastore s
ẽ tự động cập nhật một cách định kỳ thông qua GDS API khi có sự
thay
đổi thông tin desktop. Bằng cách này, chúng ta có thể đảm bảo tất cả các thông tin
trong Metastore luôn
được cập nhật. Điều này có thể thực hiện được được bởi vì Google
60
SDK cung cấp các chơ chế làm việc dựa trên các sự kiện và thời gian cho việc theo dõi
s
ự thay đổi dữ liệu desktop.
2.2.3. RDF Store và việc lập chỉ mục
Hi
ện tại, RDF Store sử dụng trong khung ứng dụng SemanDesk được xây dựng
trên n
ền của Jena Framework [9] với sự hỗ trợ của MySQL. RDF Store cũng được trang
b
ị kỹ thuật lập chỉ mục full-text theo các bộ ba RDF sử dụng Lucene Framework
10
.
Chúng tôi
đang phát triển các thử nghiệm để kiểm tra các giải pháp khác nhau
cho vi
ệc lưu trữ các bộ ba RDF bằng cách sử dụng nhiều framework lưu trữ ngữ nghĩa
khác nhau nh
ư Mulgara

11
InstanceStore [10], Sesame [11] hay một khung ứng dụng mới
là JenaSDB
12
. Bằng cách này, chúng tôi sẽ hưởng lợi về mặt hiệu năng cũng như các
đặc tính suy diễn có trong các khung ứng dụng này.
2.2.4. Nguồn dữ liệu ngoài (EDS)
SemaDesk không thu th
ập được các nguồn dữ liệu và cả các kho lưu trữ dữ liệu
bên ngoài. Nh
ững nguồn tài nguyên này không phù hợp để đưa vào hệ thống, điều này
là do chúng thay
đổi diễn ra liên tục, hoặc bao gồm một khối lượng lớn dữ liệu được
định nghĩa với cấu trúc phức tạp. Các nguồn này có thể là những cơ sở dữ liệu dùng
chung, các h
ệ thống thông tin doanh nghiệp, các cơ sở dữ liệu đã được tổ chức tốt, các
công c
ụ tìm kiếm trên web, Các nguồn dữ liệu ngoài này được truy vấn theo yêu cầu
và m
ột ontology phù hợp cho việc biểu diễn được tạo ra bởi các plugin bên trong hệ
th
ống.
2.3. SD-Annot: Module Phụ chú
SD-Annot, m
ột thành phần Phụ chú (annotation) của SemaDesk framework,
cung c
ấp cho người sử dụng một phương tiện để làm giàu ngữ nghĩa cho dữ liệu của họ
b
ằng cách thêm vào các chú giải và lời trích dẫn; điều này giúp cho hệ thống về sau
nh

ận ra những tri thức giá trị dựa vào các thông tin phụ chú này. SD-Annot sử dụng kỹ
thu
ật phụ chú bán tự động. Một vài hoạt động sẽ được tự động chú giải dựa trên hành
động của người sử dụng ví dụ như khi người sử dụng lưu trữ file đính kèm từ một thông
điệp email vào ổ đĩa cứng, một lời phụ chú kết hợp sẽ được tạo để đồng thời lưu giữ
ng
ữ nghĩa của các file lưu trữ và các thư điện tử. Một ví dụ khác là khi một trang web
được mở từ một liên kết trong một thư điện tử, thì nó sẽ được tự động được chú thích để
t
ạo nên một mối liên kết tới các trang khác.
Bên c
ạnh các lời chú thích tự động, các lời phụ chú được thực hiện thủ công là
ch
ủ yếu. Người sử dụng có thể tạo ra các lời chú giải trên các đối tượng dữ liệu mà việc
ng
ữ nghĩa hóa chúng rất khó khăn, ví dụ như ảnh, phim, dòng dữ liệu. Những lời chú

10
Apache Lucene,
11

12
Jena SDB,
61
thích thủ công này phản ánh quan điểm của người sử dụng dựa trên sự hiểu biết của họ.
Chúng ta chú ý
đến 4 loại phụ chú: lời chú giải, câu hỏi, thông tin và sự hiệu chỉnh.
Các l
ời phụ chú được lưu trữ cùng với hồ sơ cá nhân và thông tin ngữ cảnh
ch

ẳng hạn như thông tin thời gian và không gian. Sử dụng phụ chú, việc phân tích và
truy v
ấn sẽ được thực hiện chính xác hơn trong việc kết hợp các đối tượng phù hợp và
trong vi
ệc tìm được nhiều thông tin phù hợp hơn. Kết quả là những tri thức mới có thể
được tìm thầy từ đây.
2.4. SD-Querier: Module Tìm ki
ếm dựa trên ngữ nghĩa
Trong Metastore, d
ữ liệu đã được lưu trữ theo hướng ngữ nghĩa và được đánh
ch
ỉ mục full-text hỗ trợ tìm kiếm các yêu cầu không rõ ràng. Vì thế, hệ thống cho phép
x
ử lý các truy vấn thông qua cơ sở dữ liệu RDF và ontology hệ thống. Một phần của
thành ph
ần truy vấn dùng metadata và ontology cung cấp cho người dùng kết quả tìm
ki
ếm sát nghĩa hơn.

Hình 3. Một phần giao diện sử dụng của SemaDesk SD-Querier
Thành phần SD-Querier thực hiện chức năng xử lý truy vấn trong SemaDesk.
SD-Querier không ch
ỉ có khả năng xử lý các vấn đề nói trên mà còn giải quyết các yêu
c
ầu chưa rõ ràng, tối nghĩa từ người sử dụng bằng cách đưa ra khung nhìn tổng quát các
thông tin liên quan v
ới nhau, thể hiện trong Hình 3. Kết quả là nó giúp người dùng định
h
ướng lại truy vấn của mình, và sẽ chỉ định các truy vấn chính xác hơn.
Nhi

ệm vụ cuối cùng của SD-Querier là hỗ trợ truy vấn theo ngữ cảnh thông qua
ontology ng
ữ cảnh như đã trình bày ở mục trên, và các thành phần trong SD-Analyst:
Context-aware Reasoner và User Profiler. Thành ph
ần truy vấn theo ngữ cảnh biểu diễn
các thông tin thích h
ợp dựa trên kinh nghiệm cá nhân được phản ánh qua hồ sơ người
dùng và ontology ng
ữ cảnh.
62
2.5. SD-Analyst: Module Phân tích
SD-Analyst, g
ọi tắt là Analyst, là thành phần quan trọng nhất trong khung ứng
d
ụng SemaDesk. Analyst bao gồm một số các module phân tích cho việc chiết xuất
metadata và phân tích ng
ữ nghĩa nhằm hỗ trợ cho các tác vụ hệ thống, ví dụ như truy
v
ấn, chú thích và tìm kiếm các đối tượng thích hợp. Các thành phần của Analyst được
mô t
ả ở Hình 4.
D
ữ liệu thu thập được từ G-Desktop plugin sẽ được RDF hóa bởi RDF Tripler
c
ủa Analyst và được làm giàu bởi các chú giải của người sử dụng. RDF Tripler sẽ
chuy
ển đổi các thông tin desktop sang các bộ ba RDF dựa theo các ontology dữ liệu
ngu
ồn của SemaDesk. Đây chính là bước đầu tiên nhằm làm giàu ngữ nghĩa cho thông
tin desktop. D

ựa vào sự khác nhau tự nhiên của các datafeed, nhiều bước phân tích của
các thành ph
ần con xử lý dữ liệu có thể được gọi để xử lý nhưng đối tượng dữ liệu cụ
th
ể. Đây là điều cần thiết để hiểu rằng không có dữ liệu nào bị loại bỏ trong suốt các
b
ước phân tích này. Điều này đòi hỏi sự bảo đảm rằng không có dữ liệu gốc nào bị mất
hay thay
đổi và lịch sử quá trình thay đổi sẽ được lưu giữ cho việc phân tích và thu hồi
d
ữ liệu sau này.

Hình 4. Các thành phần trong SD-Analyst
Bộ suy diễn theo ngữ cảnh (context-aware reasoner) là thành phần con quan
tr
ọng nhất trong SD-Analyst. Nó có nhiệm vụ quản lý các tác vụ kết hợp các sự kiện có
liên quan v
ới nhau về mặt ngữ nghĩa, các thông tin cá nhân và các đối tượng dữ liệu. Sự
lý lu
ận này dựa trên sự kết hợp các quy tắc và nhận thức ngữ cảnh dựa trên ontology
ng
ữ cảnh và tiểu sử người dùng. Quá trình này rất hữu ích trong việc tìm ra các tri thức
t
ừ những kho lưu trữ khổng lồ. Ví dụ, khi tạo một chú giải, với mỗi file lưu trữ chúng ta
k
ết hợp tên tác giả và người nhận của email:

Cuối cùng, User Profiler là thành phần con giúp người dùng và hệ thống có thể
t
ổ chức và lưu giữ những thông tin cá nhân theo cách của họ. Thành phần này cũng

63
đóng vai trò nắm giữ các chú thích cá nhân của các thông tin người dùng cho các sự hợp
tác ti
ếp sau.
2.6. Tính cộng tác của các hệ thống SemaDesk
SemaDesk
được xem như là một hệ quản lý thông tin cá nhân, trở thành một cá
th
ể có khả năng chia sẻ và sử dụng trong mạng xã hội. Ở đây, chúng tôi muốn gói gọn
r
ằng giao diện cộng tác là một thành phần của khung ứng dụng SemaDesk hoàn chỉnh.
Thành ph
ần giao diện cộng tác định nghĩa các thông tin có thể trao đổi và khuôn
m
ẫu giao tác qua dịch vụ từ các SemaDesk khác. Chúng tôi phân ra hai mức cộng tác:
m
ức thứ nhất, thông tin trao đổi với nhau giữa các Metastore của SemaDesk trong chia
s
ẽ thông tin cá nhân. Mức thứ hai, là sự cộng tác với các hệ thống tin cậy khác ở mức
cao.
3. Quy trình thu thập và làm giàu ngữ nghĩa dữ liệu
Nh
ư được miêu tả trong Hình 5, dữ liệu Google Desktop được thu thập thông
qua plugin G-Desktop. Plugin G-Desktop dùng Google SDK cho phép l
ấy về dữ liệu
desktop và metadata c
ủa nó. Thông tin desktop lấy về được chuyển thành RDF và làm
giàu h
ơn qua các phụ chú của người dùng, sau đó chuyển đến RDF Store của Metastore
để lưu trữ kèm với ontology của nó. Quá trình này được thực hiện theo định kỳ tuỳ

thu
ộc vào thiết lập của người dùng. Trong suốt quá trình thu thập dữ liệu, thành phần
Analyst có th
ể được gọi như suy diễn hay các công đoạn trích xuất siêu dữ liệu. Tất cả
công vi
ệc này hoạt động dựa vào một ontology về dữ liệu hệ thống.

Hình 5. Thu thập dữ liệu từ GDS và Quá trình làm giàu ngữ nghĩa
GDS chỉ đánh chỉ mục cho các dạng tập tin và dữ liệu thông thường, như các tài
li
ệu Microsoft Office, PDF, dữ liệu Outlook (thư điện tử, lịch, danh bạ, công việc, ghi
chú, ). Vì v
ậy, để mở rộng phạm vi hoạt động của GDS, chúng tôi phát triển một plugin
x
ử lý các nguồn dữ liệu khác và đính vào GDS.
64
4. Các nghiên cứu liên quan
Semantic Desktop thu hút nhi
ều sự quan tâm từ cộng đồng nghiên cứu và cho ra
nhi
ều công cụ, ứng dụng liên quan. Trong phạm vi bài viết, chúng tôi chỉ trình bày
nh
ững kết quả liên quan gấn nhất đến nghiên cứu của mình.
Gnowsis [12] là m
ột desktop ngữ nghĩa chú trọng vào tính mở rộng và tích hợp.
M
ục đích cuối cùng của Gnowsis là nâng cao chất lượng của các ứng dụng cá nhân
c
ũng như hệ điều hành máy tính cá nhân hiện có bằng cách sử dụng công nghệ WebNN.
Đầu tiên là hệ quản lý thông tin cá nhân sử dụng RDF nhằm mô tả thông tin cá nhân.

Các ngu
ồn dữ liệu bên ngoài, như Microsoft Outlook hay Mozilla Thunderbird được
tích h
ợp và gởi vào cho Gnowsis thông qua khung ứng dụng Aperture
13
. Các dữ liệu
này sau khi nh
ận được sẽ chuyển đổi thành các định dạng ngữ nghĩa thông qua các công
c
ụ plugin. Chẳng hạn như, các thuộc tính của thư điện tử trong Thunderbird sẽ được ánh
x
ạ vào các khái niệm tương ứng trong ontology cá nhân.
Ứng dụng thứ hai mà chúng tôi nói đến là S
WIM
[13]. Ý tưởng chính của S
WIM

là nâng cao các tính n
ăng có sẵn trong các công cụ tìm kiếm cá nhân như Google
Desktop, Beagle hay Spotlight. M
ục tiêu đầu tiên của S
WIM
là tích hợp một cách mềm
d
ẻo metadata sẵn có. Thời điểm trích xuất metadata chính là lúc S
WIM
tác động trực tiếp
vào. Metadata không ch
ỉ được trích xuất bởi các bộ chuyển đổi mà còn từ các loại dữ
li

ệu khác như văn bản, hình ảnh cần cho việc tìm kiếm sau này.
MetaDesk [14] là
ứng dụng được xây dựng như một công cụ xác nhận RDF trợ
giúp ghi nh
ận sự kiện một cách rõ ràng hơn là công cụ tạo ra các ontology sự kiện.
MetaDesk chuy
ển các khái niệm người dùng thành các node trên cấu trúc RDF. Các
m
ục tri thức này tập trung vào việc tạo ra một cấu trúc ngữ nghĩa làm cơ sở cho việc thu
th
ập và diễn dịch dữ liệu. MetaDesk còn là một desktop ngữ nghĩa có thể tham chiếu
đến các thư mục lưu trữ và tài liệu gốc bên trong cơ sở tri thức của nó.
Tuy nhiên, các h
ướng tiếp cận trên đều có những giới hạn riêng. Đầu tiên, các
thành ph
ần thu thập dữ liệu không sử dụng các dữ liệu sẵn có của các công cụ tìm kiếm
mà chúng c
ố gắng xây dựng dữ liệu độc lập bằng cách dò tìm trên dữ liệu máy tính cá
nhân.
Điều này bắt buộc chúng phải luôn lưu giữ trạng thái định dạng tài liệu tại mỗi
th
ời điểm thu thập.
Th
ứ hai, các dự án này không cho phép người sử dụng khai thác đặc tính phụ
chú ng
ữ nghĩa trên dữ liệu về các tài nguyên họ quan tâm cũng như tự đưa ra các khái
ni
ệm và đặc tính về dữ liệu làm cơ sở cho xây dựng ontology về sau. Các phụ chú ngữ
ngh
ĩa cần được cung cấp trong thu thập thông tin và biểu diễn kết quả nhằm làm giàu

thông tin. Ngoài ra, các công c
ụ này cũng không gắn yếu tố thời gian vào thông tin.
Điều này rất quan trọng với hệ quản lý thông tin cá nhân, bởi nếu bỏ qua yếu tố thời
gian thì các k
ết quả truy vấn sẽ trở nên hỗn tạp và khó xác định. Ngoài ra tính hướng

13

65
ngữ cảnh giúp hạn chế không gian truy vấn và suy diễn cũng như nâng cao tính chính
xác c
ủa thông tin cũng đã không được nhắc đến trong các tiếp cận trên.
5. Kết luận
Trong bài báo này, chúng tôi
đã đưa ra định nghĩa mới về DesktopNN như là
m
ột hạt nhân của mạng xã hội cộng tác. Mục tiêu cuối cùng của khung ứng dụng
SemaDesk là xây d
ựng một hệ quản lý thông tin cá nhân giàu ngữ nghĩa nhằm quản lý
thông tin và máy tính cá nhân v
ới việc xem xét xây dựng một lớp ngữ nghĩa phủ lên kho
d
ữ liệu hiện có. Vấn đề đưa ra ngữ cảnh và truy vấn là hai ưu tiên hàng đầu mà chúng
tôi
đang tập trung nghiên cứu với một số kết quả nhất định và hy vọng sẽ hoàn thành
trong th
ời gian gần đây.
Cu
ối cùng, sự cộng tác trong hệ thống SemaDesk là một trong những mục tiêu
chính mà chúng tôi h

ướng đến. Vì thế, chúng tôi dự kiến tập trung vào xây dựng một cơ
s
ở hạ tầng mạng cho các hệ SemaDesk nhằm có thể kết nối và cộng tác với nhau sao
cho chúng có th
ể trở thành một mạng xã hội đặc trưng trong tương lai.
TÀI LIỆU THAM KHẢO
1. V. Bush, As We May Think, Atlantic Monthly, vol. 176, (1945), 101-108.
2. T. Berners-Lee, J. Hendler, and O. Lassila, The Semantic Web: A new form
of Web content that is meaningful to computers will unleash a revolution of
new possibilities, Scientific American, vol. 284, May, (2001), 34-43.
3. CEUR, The Semantic Desktop Search, 2005.
4. L. Sauermann, A. Bernardi, and A. Dengel, Overview and outlook on the
semantic desktop, in Proceedings of the 1st Workshop on The Semantic
Desktop at the ISWC 2005 Conference, 2005.
5. S. Decker and M. Frank, The Social Semantic Desktop, in WWW2004
Workshop Application Design, Development and Implementation Issues in
the Semantic Web, 2004.
6. E. Miller, R. Swick, and D. Brickley, Resource Description Framework
(RDF), World Wide Web Consortium, 2004.
7. D. L. McGuinness and F. van Harmelen, OWL - Web Ontology Language, in
Semantic Web: World Wide Web Consortium, 2004.
8. I. F. Cruz, W. Sunna, and A. Chaudhry, Ontology alignment for real-world
applications, Proceedings of the 2004 annual national conference on Digital
government research, (2004), 1-2.
9. B. McBride, Jena: A Semantic Web Toolkit, IEEE Internet Computing, vol.
6, 2002.
66
10. I. Horrocks, L. Li, D. Turi, and S. Bechhofer, The Instance Store:
Description Logic Reasoning with Large Numbers of Individuals,
International Workshop on Description Logics (DL 2004), (2004), 31–40.

11. J. Broekstra, A. Kampman, and F. van Harmelen, Sesame: An Architecture
for Storing and Querying RDF Data and Schema Information, in Spinning
the Semantic Web: Bringing the World Wide Web to Its Full Potential,
2003.
12. L. Sauermann and S. Schwarz, Introducing the Gnowsis Semantic Desktop,
in Proceedings of the International Semantic Web Conference, 2004.
13. D. E. Rabus and T. Fuhr, SWIM–A Framework for Semantic Desktop
Search, RadBoss.de, 2006.
14. R. MacGregor, S. Maggon, and B. Yan, MetaDesk: A Semantic Web Desktop
Manager, in International Workshop on Knowledge Markup and Semantic
Annotation, 2004.


SEMADESK: A SEMANTIC DESKTOP FRAMEWORK FOR
PERSONAL INFORMATION MANAGEMENT
Nguyen Quang Hung, Hoang Nguyen Tuan Minh,
Nguyen Mau Quoc Hoan, Nguyen Van Trung, Nguyen Mau Han
College of Sciences, Hue University
Hoang Huu Hanh, Le Manh Thanh
Hue University
SUMMARY
In this article, we present ‘SemaDesk’ – a Semantic Web-based framework for
managing the personal and desktop information. SemaDesk is inspired by the ‘Memex’ vision, a
semantic desktop environment for applications, and the need of effectively finding information
of the interest in a huge personal data storage. SemaDesk integrates several efforts of the
Semantic Web community and the service-oriented approach to build a semantic environment
for the developers, and brings certain benefit to the users for a better integration and
communication platform.

×