Báo Cáo Bài Tập Lớn Môn Chuyên Đề Công Nghệ Đề Tài Semantic Web.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.49 MB, 26 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>TRƯỜNG ĐẠI H C CÔNG NGH </b>ỌỆ ĐẠ<b>I H C QU C GIA HÀ N I </b>ỌỐỘ

<b>---o0o--- </b>

<b>BÁO CÁO BÀI T P L N </b>ẬỚ

<b>MÔN CHUYÊN ĐỀ CÔNG NGHỆ </b>

<b>Đề tài: Semantic Web </b>

<b>Giảng viên b môn: </b>ộ<b>Th y Lê S </b>ầ<b>ỹ Vĩnh Các thành viên trong nhóm: </b>

<b>Ngơ Đình Ngọc Quang - 19021355 (Nhóm </b>trưở<b>ng) Mai Cơng Danh - 19021233 </b>

<b>Vũ Mạnh Cường – 19021230 </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>Mục l c </b>ụ

<b>I. Giới thi u </b>ệ

<b>II. Semantic Web </b>

1. T ổng quan v Semantic Web ề 2. S ự ra đời c a Semantic Web ủ 3. Semantic Web là gì

4. Semantic Web mang l i nh ng gì? ạữ 5. Kiến trúc của Semantic Web

5.1. Lớp Unicode & URI (Uniform Resource Identifier) 3.2. Yêu cầu chức năng 3.3. Yêu cầu phi chức năng 3.4. Mơ hình Use Case 3.5. Mô t Use Case ả

<b>IV. Demo mộ ốt s chức năng của phần mềm </b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>I.Giới thi u </b>ệ

M t sộ ố chuyên gia Internet tin tưởng r ng th h web k ti p web 3.0 s th c hi n các ằ ế ệ ế ế – ẽ ự ệ nhiệm vụ giống như việc bạn tìm kiếm các bộ phim, các món ăn tại các quán gần đó được nhanh hơn và dễ dàng hơn. Thay vì phải th c hi n nhi u tìm ki m, b n ch cự ệ ề ế ạ ỉ ần đánh vào đó một ho c hai ặ câu ph c tứ ạp hơn trong trình duyệt web 3.0, còn l i web s th c hiạ ẽ ự ện tồn bộ các cơng vi c cịn l i ệ ạ cho b n. Cho ví d , b n có th ạ ụ ạ ể đánh “Tôi muốn xem m t b ộ ộ phim hay và sau đó đi ăn tại m t nhà ộ hàng ăn ngon. Lựa chọn của tôi là gì?”. Trình duyệt web 3.0 sẽ phân tích sự đáp trả của bạn, tìm kiếm trên Internet những câu trả l i có thờ ể và sau đó trả ề kết quả cho bạn. v

Tuy nhiên đó khơng phải là tất cả. Các chun gia cịn tin tưởng rằng trình duyệt web 3.0 cịn có th th c hi n nh ng công vi c giể ự ệ ữ ệ ống như một người tr lý. Khi b n tìm ki m trên web, ợ ạ ế trình duyệt s biẽ ết được nh ng gì b n quan tâm. Càng s d ng web, trình duy t càng bi t nhi u v ữ ạ ử ụ ệ ế ề ề bạn và càng ngày b n c n phạ ầ ải đưa ra các câu hỏi hơn. Cuối cùng là b n có thạ ể h i trình duy t m ỏ ệ ở các câu h i giỏ ống như “Tôi nên đi đâu cho bữa trưa?”. Khi đó trình duyệt s c v n cho b n nh ng ẽ ố ấ ạ ữ gì b n thích và khơng thích, lạ ấy địa điểm bạn đang ở và sau đó gợi ý một danh sách các nhà hàng. Khái niệm “Semantic Web” đã được Tim Berners-Lee định nghĩa như sau “Semantic Web như : một s m r ng c a web hi n tự ở ộ ủ ệ ại mà trong đó thơng tin được xử lí một cách tự động b ng máy ằ tính, làm cho máy tính và con người có th h p tác v i nhau ể ợ ớ “Vớ ự ới s l n m nh và khạ ả năng lưu trữ thông tin ngữ nghĩa, Semantic Web sẽ tr thành mở ột thế hệ web cho tương lai, thế hệ web mà chúng ta đang chờ đợi. Trong báo cáo này nhóm em trình bày về Semantic Web và ứng dụng Bicycle Sharing.

<b>II. Semantic Web </b>

<b>1. T ổng quan v Semantic Web </b>ề

Web ngữ nghĩa là một th h Web mế ệ ới, đang được phát triển và sẽ xuất hiện trong tương lai g n. H th ng Web m i này s thay th h th ng Web hi n t i ầ ệ ố ớ ẽ ế ệ ố ệ ạ song khơng có nghĩa là mộ ệt h thống hoàn toàn khác hệ thống Web hiện tại. Web ngữ nghĩa được phát triển trên hệ thống Web hiện tại bằng cách bổ sung thêm ngữ nghĩa cho các tài nguyên Web mà máy có thể ểu và tăng hi khả năng xử lý tự động.

<b>2. S ự ra đờ ủa Semantic Web i c</b>

- World Wide Web (gọi tắt là Web ) đã trở thành một kho tàng thông tin kh ng lổ ồ của nhân loại và là một môi trường chuy n t i thông tin không th thiể ả ể ếu được trong thời đại công nghi p ệ 4.0. S ph bi n và khự ổ ế ối lượng kh ng l ổ ồ các tài nguyên thông tin trên Web, điều này làm nảy sinh vấn đề là làm thế nào để tìm ki m chính xác tài ngun mình mong muế ốn, để khai thác được thông tin trên Web m t cách hi u qu , mà c th là làm th nào để máy tính có th tr ộ ệ ả ụ ể ế ể ợ giúp x lý tử ự động được chúng. Mu n vố ậy, trước h t máy tính ph i hiế ả ểu được thơng tin trên các tài li u Web, trong khi th h Web hi n t i ệ ế ệ ệ ạ thông tin được bi u diể ễn dướ ại d ng ch con ỉ người mới đọc hiểu được.

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

3 - Những vấn đề này đã thúc đẩy s ự ra đờ ủa ý tưởi c ng Web ng ữ nghĩa (Semantic Web), một thế hệ m i cớ ủa Web, mà chính cha đẻ ủa World Wide Web là Tim Berners- c Lee đề xuất vào năm 1998. Với mục đích là thơng tin sẽ do máy xử lý, Semantic Web ẽ làm cho các dịch vụ s thơng minh hơn. Ví dụ: Mơi giới thơng tin, tác nhân tìm kiếm, bộ lọc thơng tin v.v. Những dịch v thông minh trên h th ng web giàu ng ụ ệ ố ữ nghĩa như thế ch c h n s ắ ẳ ẽ vượt trội hơn những phiên b n s n có hi n t i c a các d ch v này. ả ẵ ệ ạ ủ ị ụ

<b>3. Semantic Web là gì? </b>

Semantic Web khơng là Web riêng bi t mà là m t s m r ng c a Web hi n t i, theo cách ệ ộ ự ở ộ ủ ệ ạ thông tin được xác định ý nghĩa tốt hơn, nó cho phép máy tính và người cộng tác với nhau tốt hơn.

Semantic Web được hình thành từ ý tưởng của Tim Berners-Lee, người phát minh ra WWW (World Wide Web), URI (Uniform Resource Identification), HTTP, và HTML. Semantic Web là m t mộ ạng lưới các thông tin được liên k t sao cho chúng có thế ể được x lý ử dễ dàng b i các máy tính phở ở ạm vi tồn cầu. Nó được xem là cách mô tả thông tin rất hiệu quả trên World Wide Web, và cũng được xem là một cơ sở dữ liệu có khả năng liên kết toàn cầu. Semantic Web là một phương pháp cho phép định nghĩa và liên kế ữ liệu một cách có t d ngữ nghĩa hơn nhằm phục vụ cho máy tính có thể “hiểu” được. Semantic Web cịn cung cấp một môi trường chia sẻ và xử lý dữ liệu tự động bằng máy tính.

- Ví dụ: Gi sử ta cần so sánh giá để chọn mua một bó hoa hay ta c n tra c u catalog c a ả ầ ứ ủ các hãng ch t o xế ạ e khác nhau để tìm ra thi t b thay th cho các b ph n b ế ị ế ộ ậ ị hư hỏng c a ủ xe Volvo 740. Thông tin mà ta thu được trực tiếp trên Web có thể trả lời các câu hỏi này nhưng địi hỏi con người phân tích ý nghĩa của dữ li u và s liên quan c a nó vệ ự ủ ới yêu c u ầ đề ra, không th xử lý tự ng b ng máy tính. V i Semantic Web ta có th gi i quy t v n ể độ ằ ớ ể ả ế ấ đề này b ng 2 cách: ằ

- Thứ nhất: Nó s mô t chi ti t d liẽ ả ế ữ ệu. Do đó một chương trình xử lý không c n quan tâm ầ đến các định dạng (format), hình ảnh, quảng cáo trên một trang Web tìm ra s liên để ự quan c a thông tin. ủ

- Thứ hai: Semantic Web cho phép chúng ta tạo ra một file mô tả mối liên hệ gi a các tữ ập dữ liệu khác nhau. Ví dụ: Ta có th tể ạo m t liên k t semantic gi a cộ ế ữ ột mã quốc gia ‘zip-code’ trong cơ sở dữ liệu (database) với trường ‘zip’ ở trên giao di n (form) nh p li u ệ ậ ệ nếu chúng có chung ý nghĩa. Điều này cho phép máy tính theo các đường kết nối và tích hợp d liữ ệu t nhiừ ều nguồn khác nhau. Ý tưởng liên kết các nguồn khác nhau (tài liệu, hình ảnh, con người, khái niệm,…) cho phép chúng ta m r ng Web thành mở ộ ột môi trường mới v i t p các m i quan h mớ ậ ố ệ ới gi a các ngu n d li u, t o ra các m i liên h ng c nh ữ ồ ữ ệ ạ ố ệ ữ ả (contextual relationship), điều mà Web hiện tại chưa làm được.

Tim Berners-Lee đã đưa ra hai vấn đề ủ c a web ngữ nghĩa, đó là tạo cho Web m t môi ộ trường c ng tác tộ ốt hơn và vấn đề thứ hai là máy có thể hi u và x lý tự ng các thơng tin ể ử độ trên Web. Hình 1. bi u di n cái nhìn b n ch t ngu n g c Web c a Tim Berners-Lee. Cái nhìn ể ễ ả ấ ồ ố ủ

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

này rất ph c tứ ạp và ph c tứ ạp hơn nhiều so v i vi c l c ra các trang HTML t các d ch v Web ớ ệ ọ ừ ị ụ hiện tại. Nhưng trong hình này, có các mối quan hệ giữa các thông tin như: "includes", "describes", "rote", đây là các mối quan hệ giữa các tài nguyên mà trong web hi n t i khơng ệ ạ có. Và chính các quan h ệ này đưa vào web ngữ nghĩa là cần thiết, để máy có th hi u và x lý ể ể ử thông tin tự động trên web. Các quan hệ này được g i là các siêu d li u. Công nghọ ữ ệ ệ để có được các siêu d li u này là công ngh RDF (Resource Description Framework). ữ ệ ệ

Để có thể t o ra web có d li u mà máy có thể x lý được, trước h t ph i ạ ữ ệ ử ế ả thay đối mô hình trong cách chúng ta nghĩ về d li u. T ữ ệ ừ trước đến nay, d li u b khoá ngay trong các ữ ệ ị ứng d ng ụ độc quy n. D liề ữ ệu được coi như thứ yếu để xử lý dữ liệu. Thái độ không đúng này bộc lộ những sai sót cơ bản trong luận cứ gốc bằng việc thiết lập sự phụ thuộc giữa xử lý và d li u. ữ ệ Hay nói cách khác, ph n m m t t thì hoàn toàn ph thu c vào d li u t t. V i các h tính tốn ầ ề ố ụ ộ ữ ệ ố ớ ệ chuyên nghi p thì ngay khi bệ ắt đầu th c hi n, vự ệ ấn đề ữ ệ d li u là r t quan tr ng, nó phấ ọ ải được xác minh và b o v . V i Web, XML và xu th Web ngả ệ ớ ế ữ nghĩa đang nổi lên thì có sự thay đổi

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

5 của s c mứ ạnh đang di chuyể ừ các ứng dụng sang dữ liệu. Vấn đề này cũng cho chúng ta n t mấu chốt để ể hi u Web ng ữ nghĩa. Con đường để máy có th x lý d li u ch y u là t o ra d ể ử ữ ệ ủ ế ạ ữ liệu thông minh hơn chứ không phải là các xử lý thông minh. Hình 2 biểu diễn sự phát triển tính thông minh c a d li u theo th i gian. ủ ữ ệ ờ

<small>H nh 2 Sơ đồ phát tri n trí thơng minh c a d li u ểủữ ệ</small>

Hình 2 ch ra s phát tri n liên t c c a tính thơng minh d li u có b n b c quan tr ng. B n b c ỉ ự ể ụ ủ ữ ệ ố ậ ọ ố ậ này bi u di n t d li u có tính thơng minh th p nhể ễ ừ ữ ệ ấ ất đến d liữ ệu đã có thông tin đủ ng ữ nghĩa để máy th c hi n suy lu n v nó. ự ệ ậ ề

Văn bản và cơ sở dữ liệu (bậc này là ti n XML)ề

Bậc đầu tiên, h u h t d li u bầ ế ữ ệ ở ậc này đượ ở ữu độc s h c quy n cho m t ng d ng. Do ề ộ ứ ụ vậy tính thơng minh là nằm trong ứng dụng đó chứ không phải là trong dữ liệu.

Tài li u XML v i mi n ệ ớ ề đơn

Ở b c này, d liậ ữ ệu đạt được là: ng dứ ụng độ ậc l p v i mi n riêng. Bây gi , d liớ ề ờ ữ ệu đủ thơng minh để có thể di chuyển giữa các ứng dụng trong một miền đơn. Ví dụ: các chuẩn XML trong cơng nghiệp chăm sóc sức kho , cơng nghi p b o hi m, ho c công nghi p bẻ ệ ả ể ặ ệ ất động s n. ả

Các phân lo i và tài li u v i các b t v ng h n hạ ệ ớ ộ ừ ự ỗ ợp

Trong b c này, d li u có th ậ ữ ệ ể được so n t ạ ừ đa miền và được phân l p chính xác theo m t ớ ộ nguyên t c phân lo i có th b c. Th c t , s phân lắ ạ ứ ậ ự ế ự ớp đó có thể đượ ử ụng đểc s d khám phá d ữ liệu. Các quan hệ đơn giản giữ các l p có thớ ể được s dử ụng để quan h và do vệ ậy, ta có d li u ữ ệ

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

kết hợp. Như vậy, dữ li u bây gi ệ ờ thông minh đủ để khám phá d ễ dàng và được k t h p m t cách ế ợ ộ hợp lý v i dớ ữ liệu khác.

Các ontology và các lu t l p lu n ậ ậ ậ

Trong m c này, d li u m i có th ứ ữ ệ ớ ể được suy ra t nh ng d liừ ữ ữ ệu đã có theo các luật logic. Thực chất, dữ liệu bây gi ờ thông minh đủ để được mô tả v i các quan hớ ệ c thụ ể và các dạng hình thức phức tạp. Điều này cho phép kết h p ho c tái kợ ặ ết h p dợ ữ liệu nguyên thuỷ nhiều hơn và sự phân tích v d li u mề ữ ệ ịn hơn. Một ví d v s ph c t p c a d li u là vi c chuy n t ng tài ụ ề ự ứ ạ ủ ữ ệ ệ ể ự độ liệu trong một miền này sang một tài liệu tương đương trong một miền khác. mỞ ức này, ta có thể soạn một định nghĩa mới trên Web ngữ nghĩa, máy có thể xử lý các tài liệu web có dữ liệu thơng minh. Hơn nữa, ta có thể định nghĩa dữ liệu thơng minh vì dữ liệu nó độc lập với ứng dụng, có thể soạn, phân l p và l y m t ph n c a các h thông tin l n ớ ấ ộ ầ ủ ệ ớ hơn.

Như vậy, việc xây dựng web ngữ nghĩa chủ yếu tập trung xây dựng hệ thống web có dữ liệu thơng minh. Dữ liệu thơng minh ở đây khơng có nghĩa là gắn liền v i trí tuớ ệ nhân tạo, khơng phải là cho máy học hiểu các từ ngữ của con người hay máy xử lý được ngôn ngữ tự nhiên mà nó thơng minh b i vi c t ch c l a ch n dở ệ ổ ứ ự ọ ữliệu bi u di n trong ngôn ng ể ễ ữ được cấu trúc để máy có thể hiểu. Và sau đây chúng ta tìm hiểu về kiến trúc của web ngữ nghĩa.

<b>4. Semantic Web mang l i nh ng gì? </b>ạữ

a. Máy có thể hiểu được thơng tin trên Web

Internet ngày nay d a hoàn toàn vào n i dung. Web hi n hành chự ộ ệ ỉ cho con người đọc ch ứ không dành cho máy hi u. Semantic Web s cung cể ẽ ấp ý nghĩa cho máy hiểu.

Ví d : ụ

‘The Beatles là m t ban nh c n i ti ng c a thành ph Liverpool. ộ ạ ổ ế ủ ố ’ ‘John Lennon là m t thành viên c a The Beatles.’ ộ ủ

‘ ảB n nhạc “Hey Dude” do nhóm The Beatles trình bày.’

Những câu như thế này có thể hiểu bởi con người nhưng làm sao chúng có thể được hiểu bởi máy tính? Semantic Web là tất cả nh ng gì vữ ề cách tạo một Web mà cả người và máy có thể hiểu. Người dùng tin s v n có thơng tin trình bàẽ ẫ y theo cách trước đây, nhưng đối v i máy ớ tính, Semantic Web s làm cho máy hiẽ ểu được nghĩa và tìm ra thơng tin chính xác hơn Web hiện hành. Bây giờ, máy không phải suy luận d a vào ng pháp và các ngôn ngự ữ ữ đánh dấu (Markup Language) n a vì c u trúc ng ngh a cữ ấ ữ ĩ ủa văn bản (text) th c sự ự đã chứa nó r i. ồ

b. Thơng tin được tìm kiếm nhanh chóng và chính xác hơn

Với Semantic Web, việc tìm kiếm sẽ dễ dàng n u mế ọi thứ được đặt trong ngữ cảnh. Ý tưởng chính yếu là toàn b ng cộ ữ ảnh mà người sử dụng được biết đến. M c tiêu c a Semantic ụ ủ Web là phát tri n các tiêu chuể ẩn và kĩ thuật để giúp máy hi u nhiể ều thông tin trên Web, để

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

7 máy tìm ra các thơng tin dồi dào hơn, tích hợp, duy t d li u, và tệ ữ ệ ự động hóa các thao tác. Với Semantic Web, chúng ta không những nhận được những thơng tin chính xác hơn khi tìm kiếm thơng tin từ máy tính, mà máy tính cịn có thể tích h p thơng tin t nhiợ ừ ều nguồn khác nhau, bi t so sánh các thông tin v i nhau. ế ớ

c. Dữ liệu liên kết động

Với Semantic Web, chúng ta có th k t hể ế ợp các thông tin đã được mô t và giàu ng ả ữ nghĩa với bất kì nguồn dữ liệu nào. Ví d : Bụ ằng cách thêm các metadata (siêu dữ li u) cho các tài ệ liệu khi tạo ra nó, chúng ta có thể tìm kiếm các tài liệu mà metadata cho biết tác giả là Eric Miller. Cũng thế, với metadata chúng ta có thể tìm kiếm chỉ những tài liệu thuộc loại tài liệu nghiên c u. ứ

Với Semantic Web, chúng ta không ch cung c p các URI cho tài liỉ ấ ệu như đã làm trong quá khứ mà còn cho con người, các khái niệm, các mối liên hệ. Như trong ví dụ trên, bằng cách cung cấp những định danh duy nh t cho mấ ỗi con người như vai trò của ‘tác giả’ và khái ni m ệ ‘tài li u nghiên cệ ứu’, chúng ta đã làm rõ người ở đây là ai và mối quan h tương ứng c a ệ ủ người này v i m t tài liớ ộ ệu nào đó. Ngồi ra, bằng cách làm rõ người mà chúng ta đang đề c p, ậ chúng ta có th phân bi t nh ng tài li u c a ể ệ ữ ệ ủ Eric Miller ớ v i nh ng tài li u c a nhữ ệ ủ ững người khác. Chúng ta cũng có thể kết hợp những thông tin đã được mô tả ở nhiều site khác nhau để biết thêm thông tin về người này nhở ững ngữ cảnh khác nhau. Ví dụ như vai trò của anh ta ra sao khi anh ta là tác gi , nhà qu n lý, nhà phát tri n. ả ả ể

d. Hỗ tr cơng cợ ụ tự động hóa

Ngồi nh ng l i ích trên, Semantic Web cịn cung c p các lo i d ch v tữ ợ ấ ạ ị ụ ự động t nhi u ừ ề vùng khác nhau: từ gia đình và các thư viện kĩ thuậ ố cho đết s n các d ch vị ụ kinh doanh điện tử và d ch v s c kh e.v.v. Semantic Web cung cị ụ ứ ỏ ấp phương tiện để thêm các thông tin chi ti t ế lên Web nh m h tr s t ng hóa cho các d ch v . ằ ỗ ợ ự ự độ ị ụ

<b>5. Kiến trúc của Semantic Web </b>

Semantic Web là m t t p hộ ậ ợp/một ch ng (stack) các ngôn ng . T t c các l p c a Semantic Web ồ ữ ấ ả ớ ủ đượ ửc s dụng đểđảm bảo độ an tồn và giá trị thơng tin trở nên t t nh t. ố ấ

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<small>H nh 3 Ki n trúc Semantic Webế</small>

<b>Lớp Unicode & URI: Bảo đảm việc sử dụng tập kí tự quốc tế và cung cấp phương tiện </b>

nhằm định danh các đối tượng trong Semantic Web. URI đơn giản chỉ là một định danh Web giống như các chuỗi bắt đầu bằng “http” hay “ftp” mà bạn thường xuyên thấy trên mạng (ví dụ:<b>). </b>Bất kỳ ai cũng có thể tạo một URI, và có quyền sở hữu chúng. Vì vậy chúng đã hình thành nên một cơng nghệ nền tảng lý tưởng để xây dựng một hệ thống mạng tồn cầu thơng qua đó.

<b>Lớp XML </b>cùng với các định nghĩa về namespace(vùng tên gọi) vàschema (lược đồ) bảo đảm rằng chúng ta có thể tích hợp các định nghĩa Semantic Web với các chuẩn dựa trên XML khác.

<b>Lớp RDF [RDF] và RDFSchema [RDFS]: </b>ta có thể tạo các câu lệnh (statement) để mơ tả các đối tượng với những từ vựng và định nghĩa của URI, và các đối tượng này có thể được tham chiếu đến bởi những từ vựng và định nghĩa của URI ở trên. Đây cũng là lớp mà chúng ta có thể gán các kiểu (type) cho các tài nguyên và liên kết. Và cũng là lớp quan trọng nhất trong kiến trúc Semantic Web .

<b>Lớp Ontology: hỗ trợ sự tiến hóa của từ vựng vì nó có thể định nghĩa mối liên hệ giữa </b>

các khái niệm khác nhau. Một Ontology (bản thể luận trong logic) định nghĩa một bộ từ vựng mang tính phổ biến & thơng thường, nó cho phép các nhà nghiên cứu chia sẻ thông tin trong một hay nhiều lĩnh vực.

Lớp <b>Digital Signature được dùng để xác định chủ thể của tài liệu (ví dụ: tác giả hay </b>: nhan đề của một loại tài liệu).

Các lớp<b> Logic, Proof, Trust: </b>Lớp logic cho phép viết ra các luật (rule) trong khi lớp proof (thử nghiệm) thi hành các luật và cùng với lớp trust (chấp nhận) đánh giá nhằm quyết định nên hay không nên chấp nhận những vấn đề đã thử nghiệm.

<b>5.1. Lớp Unicode & URI (Uniform Resource Identifier) </b>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

9 Unicode: ch ỉđơn thuần là m t b ng mã chuộ ả ẩn chung có đủ các ký t ự để th ng nh t s giao ố ấ ự tiếp trên tất cả các quốc gia, đáp ứng tính nhất quán toàn cầu c a web. ủ

Một URI (Uniform Resource Identifier) là m t kí hi u nh n dộ ệ ậ ạng Web đơn gi n. C th , ả ụ ể nó là m t xâu ngộ ắn cho phép nh n dậ ạng tài nguyên Web như: với các xâu bắt đầu v i "http:" ớ hoặc "ftp:" mà chúng ta thường thấy trên World Wide Web. Bất kỳ một người nào cũng có thể tạo một URI, và s hở ữu chúng và chúng là một công nghệ cơ sở để xây d ng m t h ự ộ ệ thống Web toàn cầu. Hệ thống World Wide Web được xây d ng trên chúng và b t kự ấ ỳ cái gì mà có một URI thì được coi là "trên Web".

URL (Uniform Resource Locator) là m t dộ ạng đặc bi t c a URI, c th nó là mệ ủ ụ ể ột địa ch ỉ trên m ng. URIref (URI reference) là m t URI cùng v i m t ph n nh n d ng tu ý cu i. ạ ộ ớ ộ ầ ậ ạ ỳ ở ố Ví d , ta có m t URIref : " bao g m m t URI: ụ ộ ồ ộ và m t ph n nh n d ng ộ ầ ậ ạ "Ontology" được cách nhau bởi kí hi u #. ệ

Theo như quy ước, các không gian tên là những tài nguyên mà tạo ra các đa tài nguyên, thường là những URI được k t thúc b i kí hi u #. Ví d : " ế ở ệ ụ là m t khơng gian tên. Các tài ngun khơng ộ có URIref thì được g i là các nút tr ng; m t ọ ắ ộ nút tr ng ch ra s t n t i c a tài nguyên khơng có s c p rõ ràng v tham chi u URIref ắ ỉ ự ồ ạ ủ ự đề ậ ề ế của tài nguyên. RDF (Resource Description Framework): Khung mô t tài nguyên RDF ả được W3C giới thiệu để cung cấp m t cú pháp chuộ ẩn để ạo, thay đổ t i và sử ụ d ng các chú thích trong Web ngữ nghĩa. Một mệnh đề RDF là m t b ba có d ng: [ộ ộ ạ chủđề thuộctính đố ợitư ng]. Trong đó, chủ đề là tài nguyên mà được mô tả bằng thu c tính và đối tượng. ộ Thuộc tính thể ệ hi n m i quan h gi a ủ đề và đối tượ . Còn đối tượ ở đây có thể là ố ệ ữ ch ng ng một tài nguyên ho c m t giá trặ ộ ị. Ba thành phần trên trong RDF đều là các URI.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>5.2. RDFS (RDF Schema) </b>

RDFS là m t ngôn ngộ ữ ontology đơn giản c a web ngủ ữ nghĩa, được coi là m t ngôn ng ộ ữ cơ sở của web ngữ nghĩa. RDFS là ngôn ngữ mô tả bộ từ vựng trên các bộ ba RDF. Nó cung c p các công vi c sau: ấ ệ

- Định nghĩa các lớp tài nguyên - Định nghĩa các quan hệ ữ gi a các l p ớ

- nh ngh a các lo i thu c tính mà các l p trên có Đị ĩ ạ ộ ớ - Định nghĩa các mối quan h gi a các thu c tính. ệ ữ ộ

<b>5.3. Ontology Vocabulary </b>

Bộ t vừ ựng ontology được xây dựng trên cơ sở tầng RDF và RDFS, cung c p bi u di n ng ấ ể ễ ữ nghĩa mềm dẻo cho tài nguyên web và có khả năng hỗ trợ lập luận. Để xây dựng được các bộ t vừ ựng này, người ta đã sử d ng các ngôn ng ụ ữ ontology để bi u diể ễn chúng như: RDFS, OIL, DAML, DAML+OIL, OWL, ... Các ngôn ng này cung c p kh ữ ấ ả năng biểu di n và h ễ ỗ trợ lập luận khác nhau và chúng d a trên nự ền tảng là các ngôn ngữ logic mô tả tương ứng khác nhau.

<b>5.4. Tầng Logic </b>

Việc bi u diể ễn các tài nguyên dưới dạng các bộ từ vựng ontology có m c ụ đích là để máy có th l p luể ậ ận được. Mà cơ sở ậ l p lu n ch yậ ủ ếu dựa vào logic. Chính vì vậy mà các ontology được ánh xạ sang logic, cụ thể là logic mô tả để có thể hỗ trợ lập luận. Vì logic mơ t có bi u di n ngả ể ễ ữ nghĩa hình thức (đặc trưng của lý thuy t mơ ế hình), và cung c p các d ch v l p luấ ị ụ ậ ận, là cơ sở để ỗ ợ h tr máy có th l p lu n và ể ậ ậ hiểu tài nguyên.

<b>5.5. Tầng Proof </b>

Tầng này đưa ra các luật để suy luận. Cụ thể từ các thơng tin đã có ta có thể suy ra các thơng tin m i. Ví d : A là cha cớ ụ ủa B, A là em trai C thì khi đó ta có thơng tin mới là C là bác của B. Để có được các suy luận này thì cơ sở là FOL (First-Order-Logic). Và tầng này hi n nay các nhà nghiên cệ ứu đang xây dựng các ngôn ng lu t ữ ậ cho nó như: SWRL, RuleML.

<b>5.6. Tầng Trust </b>

bảo x là xanh, một người khác lại nói x không xanh, như thế Web ng ữ nghĩa là không đáng tin c y? Câu tr l i ậ ả ờ ở đây được xem xét trong các ng c nh. M i ữ ả ỗ ứng d ng trên ụ

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

11 web ng ữ nghĩa sẽ có một ngữ c nh c th , chính vì th các mả ụ ể ế ệnh đề trên có thể n m ằ

đềđó vẫn đúng, đáng tin cậy trong ngữ cảnh của nó. Để có được sự chứng minh về độ tin cậy thì các lập luận được áp dụng là khơng đơn điệ và có các cơ chế ểm u ki tra ch ng minh k t h p v i công ngh chứ ế ợ ớ ệ ữ ký điệ ử đển t xác nhận độ tin c y. Các ậ ngôn ng ch ng minh là ngôn ng cho ta ch ng minh m t mữ ứ ữ ứ ộ ệnh đề là đúng hay sai.

<b>6. Ứng dụng của Semantic Web </b>

a) Xây dựng các bộ máy tìm tin

Vấn đề hiện nay là đa số các bộ máy tìm tin đều thực hiện cho phép người sử dụng có thể tạo các câu truy vấn gồm các từ khóa tìm kiếm để nhận về kết quả mong muốn. Tuy nhiên, phương pháp này gặp hai vấn đề chính sau đây:

Mỗi từ khóa có thể có một hay nhiều ý nghĩa tùy theo từng ngữ cảnh và bộ máy tìm kiếm khơng thể hiện mối quan hệ giữa các từ khóa với nhau.

Có thể các thông tin cùng ý nghĩa với thuật ngữ trong biểu thức tìm của người sử dụng sẽ khơng tồn tại trong kết quả tìm.

Ví dụ: ta cần tìm thơng tin về người trưởng bộ mơn cơng nghệ thông tin của MIT, ta gõ: “MIT information technology chair” vào Google, nhưng kết quả thu được là khơng chính xác. Ngun nhân của việc tìm kiếm thất bại là do: Từ khố “MIT” có nhiều ý nghĩa. Ngồi ra, máy tìm không thể hiểu mối liên hệ giữa các từ khoá: MIT, information technology và chair. Nếu bộ máy tìm kiếm được tích hợp tri thức để hiểu được ý nghĩa của các từ, thì rất có thể nó cho ta kết quả chính xác hơn, lúc đó việc tìm kiếm sẽ dựa trên khái niệm (concept) chứ khơng phải theo từ khóa (keyword).

b) Ứng dụng cơng nghệ ngữ nghĩa trong thư viện số

Thư viện số phải thường xuyên xử lý một lượng lớn thông tin từ các dạng tài liệu số. Phần lớn chúng được rút ra từ thư viện truyền thống, được tập trung biên tập lại thành nguồn thông tin sẵn dùng cho một nhóm người liên quan bằng cách quét bài báo, sách, tài liệu… Bằng cách này đã làm hạn chế lợi thế của các hệ thống máy tính hiện đại và gây khó khăn cho quá trình xử lý sau này. Áp dụng công nghệ semantic web ****chúng ta có thể nghiên cứu và phát triển hệ thống thư viện số có thể thực hiện xử lý, lưu trữ, tìm kiếm và phân tích tất cả các kiểu thơng tin số. Công nghệ ngữ nghĩa cho phép miêu tả đối tượng, thiết lập các lược đồ cần thiết trong các dạng của ontologies cho các định danh của các đối tượng số. Mục tiêu chính là làm cho thao tác

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

giữa các phần có thể xử lý thông minh, nhất quán, mạch lạc tương tự các lớp của đối tượng số và các dịch vụ.

Ứng dụng ontologies trong việc mô tả hệ thống thư mục: Thông thường một thư viện số sử dụng dữ liệu mơ tả có cấu trúc để mơ tả hệ thống thư mục tuy nhiên các trường trong dữ liệu mô tả lại không được định nghĩa ngữ nghĩa một cách đầy đủ, việc ứng dụng ontologies trong thư viện số không những thực hiện lưu trữ dữ liệu mô tả để mô tả hệ thống thư mục mà cịn mơ tả được nội dung của nó. Thay vì trong trường hợp một quyển sách được lưu trữ trong thư viện số chúng ta có thể tách riêng cấu trúc từng chương của nó, cung cấp mơ tả cho mỗi chương và thực hiện lưu trữ mối quan hệ của các chương khác nhau. Bằng việc sử dụng tư tưởng cấu trúc của ontologies và sử dụng tư tưởng này trong việc mô tả dữ liệu, chúng ta cung cấp một tầng tổng quát dữ liệu mô tả và nội dung.

Một trong những ứng dụng quan trọng nữa chúng ta có thể thấy hệ thống dữ liệu của thư viện số rất lớn và đa dạng nó thường phục vụ cho nhiều tổ chức, cá nhân vào nhiều mục đích khác nhau, trong khi đó dữ liệu chủ yếu thuộc vào hai dạng là dữ liệu có cấu trúc (trong database) và dữ liệu phi cấu trúc (các nguồn lấy từ web). Một vấn đề dăt ra là làm thế nào để các ứng dụng sử dụng được đồng thời cả hai loại dữ liệu này, bởi vì trên thưc tế mỗi ứng dụng chỉ sử dụng một loại dữ liệu có cấu trúc hoặc phi cấu trúc. Chúng ta có chuẩn chung phục vụ cho hầu hết các loại ứng dụng đó là sử dụng XML (Extensible Markup Laguage), nó được xem là nền tảng công nghệ của semantic web. Nó sẽ là cầu nối thực hiện chuẩn hố các nguồn dữ liệu, từ đó có thể phục vụ cho mọi loại ứng dụng.

c) Khung làm việc để quản lý tri thức

Semantic Web là một hệ nền nhiều hứa hẹn cho việc phát triển các hệ thống quản lý tri thức. Tuy nhiên, vấn đề ở đây là làm thế nào biểu diễn tri thức ở dạng thức máy có thể hiểu được, để tri thức cần thiết có thể được tìm thấy bởi các máy tìm (search engine). Chúng ta sử dụng giải pháp quản lý tri thức dựa trên định dạng tương thích RDF để biểu diễn các luật và dựa trên một kỹ thuật mới để chú giải các nguồn tri thức bằng cách sử dụng các câu điều kiện. Giải pháp là dựa trên các công cụ Semantic Web đang tồn tại. Điểm thuận lợi chính là sự thúc đẩy khả năng tìm kiếm tri thức với độ chính xác cao, cũng như khả năng truy cập cấu tạo các nguồn tri thức cần thiết cho việc giải quyết một vấn đề nào đó. Dạng thức này có thể được biểu diễn bằng cách dùng các câu lệnh If–Then (statement If-Then), được thiết lập theo cách suy diễn (inference) và ủy quyền (trust) trên Semantic Web. Các statement (câu lệnh) điều kiện có thể được dùng để lập chỉ mục nội dung các tài nguyên Web một cách nhiều ý nghĩa hơn so với liên kết các từ khóa, khái niệm hay metadata (siêu dữ liệu). Điều này có thể sẽ hình thành các truy vấn dựa trên ngữ cảnh hơn, tăng cường độ chính xác trong tìm kiếm tri thức. Ví dụ: Trong vấn đề định chỉ mục tài liệu, dù có hay khơng có tài liệu được định chỉ mục bằng từ khóa aspirin (thuốc aspirin) và headache (bệnh đau đầu), cách aspirin trị headache hay aspirin gây ra

</div>