Tải bản đầy đủ (.pdf) (118 trang)

Ứng dụng web ngữ nghĩa trong xây dựng hệ thống thông tin quản lý công tác nghiên cứu khoa học của viện nghiên cứu phát triển kinh tế xã hội đà nẵng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (10.19 MB, 118 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

PHẠM HỮU THẮNG

ỨNG DỤNG WEB NGỮ NGHĨA TRONG
XÂY DỰNG HỆ THỐNG THÔNG TIN QUẢN LÝ CÔNG TÁC
NGHIÊN CỨU KHOA HỌC CỦA VIỆN NGHIÊN CỨU
PHÁT TRIỂN KINH TẾ - XÃ HỘI ĐÀ NẴNG

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng - Năm 2017


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

PHẠM HỮU THẮNG

ỨNG DỤNG WEB NGỮ NGHĨA TRONG
XÂY DỰNG HỆ THỐNG THÔNG TIN QUẢN LÝ CÔNG TÁC
NGHIÊN CỨU KHOA HỌC CỦA VIỆN NGHIÊN CỨU
PHÁT TRIỂN KINH TẾ - XÃ HỘI ĐÀ NẴNG

Chuyên ngành: Hệ thống thông tin
Mã số: 61.49.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Người hướng dẫn khoa học: PGS.TS. NGUYỄN THANH BÌNH



Đà Nẵng - Năm 2017



ii
MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT .........................................................................vi
DANH MỤC CÁC BẢNG ..................................................................................... vii
DANH MỤC CÁC HÌNH ..................................................................................... viii
MỞ ĐẦU ....................................................................................................................1
1. Lý do chọn đề tài ............................................................................................1
2. Mục tiêu và nhiệm vụ của Đề tài ....................................................................2
3. Đối tượng và phạm vi nghiên cứu ..................................................................3
4. Phương pháp nghiên cứu ................................................................................3
5. Giải pháp đề xuất ............................................................................................4
6. Ý nghĩa của Đề tài ..........................................................................................4
7. Kết quả............................................................................................................5
8. Bố cục của luận văn........................................................................................5
CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN ...........................................................6
1.1. TỔNG QUAN VỀ WEB NGỮ NGHĨA .............................................................. 6
1.1.1. Giới thiệu ..................................................................................................6
1.1.2. Khái niệm .................................................................................................7
1.1.3. Nội dung xây dựng hệ thống web ngữ nghĩa ...........................................9
1.1.4. Kiến trúc phân tầng của web ngữ nghĩa .................................................12
1.2. RDF – NỀN TẢNG CỦA WEB NGỮ NGHĨA ................................................ 17
1.2.1. Khái niệm ...............................................................................................17
1.2.2. Mơ hình RDF ..........................................................................................18
1.2.3. Đồ thị RDF .............................................................................................18

1.2.4. Namespace ..............................................................................................19
1.2.5. Literal .....................................................................................................19
1.2.6. Kiểu dữ liệu có cấu trúc..........................................................................19
1.2.7. RDFS (RDF Schema) .............................................................................26


iii
1.3. ONTOLOGY VÀ NGÔN NGỮ OWL .............................................................. 26
1.3.1. Định nghĩa ontology ...............................................................................26
1.3.2. Các lĩnh vực ứng dụng ontology ............................................................26
1.3.3. Vai trò ontology và web ngữ nghĩa ........................................................26
1.3.4. Các thành phần của ontology .................................................................27
1.3.5. Ngôn ngữ OWL ......................................................................................28
1.3.6. Hệ truy vấn SPARQL .............................................................................30
1.4. MỘT SỐ PHẦN MỀM BIÊN TẬP ONTOLOGY ............................................ 31
1.4.1. Phần mềm WebODE ..............................................................................31
1.4.2. Phần mềm Jena .......................................................................................31
1.4.3. Phần mềm Protégé ..................................................................................32
1.5. ĐỀ XUẤT CÔNG CỤ PHẦN MỀM XÂY DỰNG HỆ THỐNG ..................... 33
1.5.1. Django-RDF.library ...............................................................................33
1.5.2. Ngôn ngữ Python với framework: Django.templates ............................34
1.5.3. Hệ thống cổng thông tin điện tử Portal Plone.zope Enterprise CMS tích
hợp sẵn hệ quản trị cơ sở dữ liệu Object Database (ZODB) ....................................34
1.6. THIẾT KẾ ONTOLOGY ................................................................................... 35
1.7. KẾT LUẬN CHƯƠNG 1................................................................................... 40
CHƯƠNG 2. PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG ...................................41
2.1. THỰC TRẠNG CƠNG TÁC QUẢN LÝ NGHIÊN CỨU KHOA HỌC CỦA
VIỆN NGHIÊN CỨU PHÁT TRIỂN KINH TẾ - XÃ HỘI ĐÀ NẴNG ................. 41
2.2. MƠ TẢ KHÁI QT HỆ THỐNG .................................................................. 44
2.2.1. Mơ tả hệ về hệ thống ..............................................................................44

2.2.2. Các chức năng cơ bản của hệ thống .......................................................44
2.3. KIẾN TRÚC TỔNG THỂ .................................................................................. 46
2.4. BIỂU ĐỒ CA SỬ DỤNG .................................................................................. 47
2.4.1. Biểu đồ ca sử dụng của người quản trị (Admin) ....................................47
2.4.2. Biểu đồ ca của người dùng là nghiên cứu viên ......................................48
2.4.3. Người dùng là khách (anonymous) ........................................................48


iv
2.5. BIỂU ĐỒ HOẠT ĐỘNG CÁC CHỨC NĂNG CỦA HỆ THỐNG .................. 49
2.5.1. Chức năng đăng nhập .............................................................................49
2.5.2. Chức năng tìm kiếm ...............................................................................50
2.5.3. Chức năng tạo lý lịch khoa học ..............................................................52
2.5.4. Chức năng đăng ký đề tài .......................................................................53
2.5.5. Chức năng đăng ký nghiệm thu đề tài ....................................................54
2.5.6. Chức năng đề xuất hội đồng ...................................................................55
2.6. BIỂU ĐỒ LỚP ................................................................................................... 56
2.7. BIỂU ĐỒ TUẦN TỰ ......................................................................................... 56
2.7.1. Đăng ký cơng trình nghiên cứu ..............................................................57
2.7.2. Tạo lý lịch khoa học ...............................................................................57
2.7.3. Xóa đối tượng .........................................................................................58
2.7.4. Tìm kiếm nâng cao .................................................................................59
2.8. KẾT LUẬN CHƯƠNG 2................................................................................... 59
CHƯƠNG 3 XÂY DỰNG HỆ THỐNG VÀ THỬ NGHIỆM .............................60
3.1. ONTOLOGY ĐƯỢC XÂY DỰNG .................................................................. 60
3.1.1. Xây dựng các lớp (Class) và các lớp con (subClass) .............................60
3.1.2. Định nghĩa các thuộc tính .......................................................................65
3.1.3. Danh sách một số các thực thể (Individuals) .........................................71
3.1.4. Ontology tổng thể ...................................................................................74
3.2. LUẬT SUY DIỄN NGỮ NGHĨA ...................................................................... 74

3.3. MỘT SỐ CÂU TRUY VẤN SPARQL TRA CỨU THƠNG TIN .................... 76
3.4. THUẬT TỐN TÌM KIẾM............................................................................... 79
3.4.1. Thuật tốn tìm kiếm cơ bản ....................................................................79
3.4.2. Thuật tốn tìm kiếm nâng cao ................................................................80
3.5. KẾT QUẢ CÀI ĐẶT VÀ THỬ NGHIỆM ........................................................ 80
3.5.1. Giao diện cài đặt Portal Plone.zope 4.3.1 ..............................................80
3.5.2. Giao diện yêu cầu đăng nhập hệ thống ..................................................81


v
3.5.3. Giao diện đăng ký tài khoản qua mạng để quản trị hệ thống kích hoạt tài
khoản để sử dụng.......................................................................................................81
3.5.4. Giao diện tạo cơng trình nghiên cứu khoa học .......................................82
3.5.5. Giao diện xóa hoặc hoặc chỉnh sửa một đối tượng ................................82
3.5.6. Giao diện quản lý lý lịch khoa học .........................................................83
3.5.7. Giao diện đề xuất Hội đồng khoa học ....................................................84
3.5.8. Giao diện tra cứu thông tin .....................................................................85
3.6. ĐÁNH GIÁ KẾT QUẢ ...................................................................................... 86
3.6.1. Thiết kế và xây dựng dữ liệu ..................................................................87
3.6.2. Khả năng tra cứu thông tin .....................................................................87
3.6.3. Kết quả triển khai ...................................................................................87
3.7. KẾT LUẬN CHƯƠNG 3................................................................................... 88
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .............................................................89
TÀI LIỆU THAM KHẢO ......................................................................................90
PHỤ LỤC
QUYẾT ĐỊNH GIAO ĐỀ TÀI (BẢN SAO)


vi
DANH MỤC CÁC TỪ VIẾT TẮT


CSDL

Cơ sở dữ liệu

CNTT

Công nghệ thông tin

HTML

HyperText Markup Language

HTTP

Hypertext Transfer Protocol

IR

Information Retrieval

IRI

Internationalized Resource Identifier

OWL

Ontology Web Language

RDF


Resource Description Framework

RDFS

Resource Description Framework Schema

SQL

Structured Query Language

URI

Uniform Resource Identifier

URL

Oxygen Uniform Resource Locator

W3C

World Wide Web Consortium

WWW

World Wide Web

XML

Extensible Markup Language


XMLS

Extensible Markup Language Schema

CMS

Content Management System


vii
DANH MỤC CÁC BẢNG
Số hiệu

Tên bảng

bảng

Trang

3.1.

Các lớp và phân cấp

61

3.2.

Danh sách các thuộc tính của lớp nguoi


66

3.3.

Danh sách các thuộc tính của lớp congtrinh

67

3.4.

Danh sách các thuộc tính của lớp baocao

67

3.5.

Danh sách các thuộc tính của lớp baibao

68

3.6.

Danh sách các thuộc tính của lớp detai

68

3.7.

Danh sách các thuộc tính của lớp duan


68

3.8.

Danh sách các thuộc tính của lớp dean

69

3.9.

Danh sách các thuộc tính của lớp tailieunghiencuu

70

3.10.

Danh sách các thuộc tính của lớp linhvuc

70

3.11.

Danh sách các thuộc tính của lớp bangcap

70

3.12.

Thực thể: “Chatluong”, mơ tả về chất lượng cơng
trình nghiên cứu khoa học đạt kết quả


71

Thực thể: “Congtrinh”, mô tả tên một số cơng
3.13.

trình nghiên cứu khoa học đã được nghiệm thu và

72

công bố của Viện
Thực thể: “Bangcap”, mô tả về tên một số tính
3.14.

chất chuyên ngành nghề nghiệp theo bằng cấp tốt
nghiệp Đại học

73


viii
DANH MỤC CÁC HÌNH
Số hiệu

Tên hình

hình
1.1.

Liên kết ngữ nghĩa giữa các nguồn khác nhau trong

semantic web

Trang

8

1.2.

Kiến trúc của web ngữ nghĩa

12

1.3.

Đồ thị RDF

18

1.4.

Mô tả việc chia nhỏ giá trị một thuộc tính

20

1.5.

Sử dụng nút rỗng

21


1.6.

2.1.

Kiến trúc tổng quan của hệ thống Portal Plone.zope
CMS
Lưu đồ quy trình quản lý hoạt động nghiên cứu khoa
học

35

43

2.2.

Kiến trúc tổng thể của hệ thống

46

2.3.

Biểu đồ ca sử dụng của người quản trị

47

2.4.

Biểu đồ ca sử dụng của nghiên cứu viên

48


2.5.

Biểu đồ ca người dùng anonymous

48

2.6.

Biểu đồ hoạt động đăng nhập

49

2.7.

Biểu đồ hoạt động tìm kiếm cơ bản

50

2.8.

Biểu đồ hoạt động tìm kiếm nâng cao

51

2.9.

Biểu đồ ca sử dụng tạo mới lý lịch khoa học

52


2.10.

Biểu đồ của ca sử dụng đăng ký đề tài

53

2.11.

Biểu đồ hoạt động đăng ký nghiệm thu đề tài

54

2.12.

Biểu đồ hoạt động đề xuất hội đồng

55

2.13.

Biểu đồ lớp của hệ thống

56

2.14.

Biểu đồ tuần tự đăng ký cơng trình nghiên cứu

57


2.15.

Biểu đồ tuần tự tạo lý lịch khoa học

57

2.16.

Biểu đồ tuần tự xoá đối tượng

58


ix
Số hiệu

Tên hình

hình
2.17.
3.1.

Biểu đồ tuần tự tìm kiếm nâng cao
Các lớp Class và subClass của OWL:
quanlykhoahoc.owl

Trang
59
60


3.2.

Danh sách các thuộc tính đối tượng

65

3.3.

Danh sách các thuộc tính kiểu dữ liệu

65

3.4.

3.5.

Hình minh họa chất lượng cơng trình nghiên cứu đạt
loại khá
Hình minh họa một thực thể được nghiên cứu là về
tiêu chí đáng sống tại thành phố Đà Nẵng

71

73

Hình minh họa về một thực thể được quan tâm là đa
3.6.

phần nhân sự đang làm việc tại Viện có bằng đại học


73

là cử nhân
3.7.
3.8.

Hình minh họa ontology tổng thể của hệ thống
Minh họa chương trình cài đặt phần mềm Portal
Plone 4.3.1

74
80

3.9.

Đăng nhập hệ thống để cập nhật dữ liệu

81

3.10.

Giao diện đăng ký tạo tài khoản sử dụng

81

3.11.

Giao diện tạo cơng trình nghiên cứu khoa học


82

3.12.

Giao diện xóa và chỉnh sửa cập nhật đối tượng

83

3.13.

Giao diện quản lý lý lịch khoa học

84

3.14.

Giao diện đề xuất xét duyệt Đề tài

85

3.15.

Giao diện tra cứu thông tin của người dùng

86


1
MỞ ĐẦU
1. Lý do chọn đề tài

Ngày nay phần mềm được coi là vũ khí chiến lược cho phép các tổ chức
Thương mại, Chính phủ các nước đạt được những sản phẩm và dịch vụ tốt nhất
nhưng với thời gian và chi phí sản xuất tối thiểu. Để phản ứng nhanh với hoạt động
của thị trường địi hỏi phải có những quá trình tổ chức tốt trong nền kinh tế toàn cầu
hoạt động liên tục 24 giờ trong ngày, 7 ngày trong tuần, rất nhiều q trình như vậy
sẽ khơng vận hành tốt nếu thiếu một Phần mềm hay một Hệ thống thông tin phù
hợp, với sự phát triển mạnh mẽ của Internet, thuật ngữ Hệ thống thông tin dần quen
thuộc đối với chúng ta. Với tốc độ phát triển mạnh mẽ như hiện nay, Internet đã
chứng tỏ nó đang dần trở thành một yếu tố không thể thiếu trong cuộc sống hiện
đại. Với việc đóng một vai trị cực kỳ quan trọng trong hầu hết các lĩnh vực của đời
sống, việc tin học hóa các quy trình làm việc để xây dựng các Hệ thống thông tin ứng
dụng trong công tác quản lý và điều hành là một nhu cầu tất yếu của xã hội.
Trong những năm gần đây Nhà nước Việt Nam thật sự chú trọng phát triển
ứng dụng công nghệ thông tin vào công tác quản lý và điều hành của các cơ quan
hành chính, đơn vị sự nghiệp của Nhà nước, cụ thể Nhà nước đã ban hành nhiều văn
bản khuyến kích việc tin học hóa trong quản lý như:
- Nghị quyết số 64/NQ-CP, Nghị quyết của Chính phủ về việc “Ban hành
chương trình hành động của Chính phủ thực hiện Nghị quyết Đại hội đại biểu toàn
quốc lần thứ XII của Đảng”, ban hành ngày 22 tháng 7 năm 2016.
- Quyết định số 1819/QĐ-TTg, Quyết định của Thủ tướng Chính phủ về việc
“Phê duyệt Chương trình quốc gia về ứng dụng cơng nghệ thơng tin trong hoạt động
của cơ quan nhà nước giai đoạn 2016 – 2020”, ban hành ngày 26 tháng 10 năm 2015.
- Nghị định số 64/2007/NĐ-CP, Nghị định của Chính phủ: về việc “Ứng dụng
công nghệ thông tin trong hoạt động của cơ quan nhà nước”, ban hành ngày 01 tháng
4 năm 2007.


2
Bên cạnh đó, trong lĩnh vực nghiên cứu khoa học việc ứng dụng công nghệ thông
tin vào công tác quản lý, nghiên cứu khoa học góp phần quan trọng trong việc nâng cao

chất lượng nghiên cứu khoa học, tạo điều kiện tốt nhất cho cán bộ, nghiên cứu viên
không ngừng nâng cao hiệu suất và năng lực nghiên cứu khoa học. Viện Nghiên cứu
Phát triển Kinh tế - Xã hội Đà Nẵng (gọi tắt là Viện) là một đơn vị sự nghiệp hoạt động
trong lĩnh vực nghiên cứu khoa học trực thuộc UBND thành phố Đà Nẵng cũng khơng
ngồi xu thế phát triển chung này (Viện được thành lập theo Quyết định số 8994/QĐUBND ngày 13 tháng 11 năm 2007 của UBND thành phố Đà Nẵng).
Hơn nữa, ngày nay việc ứng dụng giải pháp công nghệ Semantic web (web
ngữ nghĩa) mang lại nhiều lợi ích như, cả người và máy đều có thể hiểu thơng tin
trên các trang web, nhờ đó thơng tin được tìm kiếm nhanh chóng và chính xác hơn,
cịn có khả năng gợi ý cho con người các khái niệm, các mối liên hệ. Nhờ kiến trúc
chặt chẽ gồm nhiều lớp, web ngữ nghĩa rất phù hợp để xây dựng các cơng cụ tra
cứu, tìm kiếm, thống kê các nguồn dữ liệu như nguồn dữ liệu về các cơng trình
nghiên cứu khoa học và thơng tin lý lịch khoa học của các nhà nghiên cứu khoa học.
Cùng với sự phát triển của có web ngữ nghĩa, ontology được sử dụng rộng rãi, đặc
biệt nó là một thành phần không tách rời của kiến trúc semantic web, để xây dựng
ngữ nghĩa cho web thì phải dựa trên nền tảng ontology [3].
Từ lý do trên và xuất phát từ nhu cầu tin học hóa tại đơn vị cơng tác của mình,
được sự hướng dẫn của PGS.TS Nguyễn Thanh Bình đã định hướng cho tôi chọn
hướng nghiên cứu và thực hiện Đề tài “Ứng dụng web ngữ nghĩa trong xây dựng
Hệ thống thông tin Quản lý công tác nghiên cứu khoa học của Viện Nghiên cứu
Phát triển Kinh tế - Xã hội Đà Nẵng” làm luận văn tốt nghiệp của mình.
2. Mục tiêu và nhiệm vụ của Đề tài
2.1. Mục tiêu
Ứng dụng web ngữ nghĩa trong việc xây dựng Hệ thống thơng tin quản lý các
cơng trình nghiên cứu khoa học của Viện gồm: Các đề tài, dự án, đề án, báo cáo
nghiên cứu, bài báo khoa học và các tài liệu, tư liệu phục vụ công tác nghiên cứu và
để nâng cao hơn hiệu quả tra cứu tài liệu, lý lịch khoa học của cán bộ quản lý,


3
nghiên cứu viên của Viện, đồng thời hỗ trợ tốt công tác quản lý và điều hành chung

trong hoạt động nghiên cứu khoa học tại Viện Nghiên cứu Phát triển Kinh tế - Xã
hội Đà Nẵng.
2.2. Nhiệm vụ
- Nghiên cứu tổng quan về web ngữ nghĩa và xây dựng bộ từ vựng ontology
về cơng trình nghiên cứu, lý lịch khoa học của cán bộ, nghiên cứu viên của Viện.
- Các công cụ, thư viện hỗ trợ xây dựng web ngữ nghĩa. Tìm hiểu và chọn
những cơng cụ để phát triển hệ thống một cách hiệu quả.
- Phân tích và xây dựng hệ thống thông tin quản lý công tác nghiên cứu khoa
học của Viện Nghiên cứu Phát triển Kinh tế - Xã hội Đà Nẵng.
- Thực nghiệm chương trình tại phòng Quản lý khoa học thuộc Viện Nghiên
cứu Phát triển Kinh tế - Xã hội Đà Nẵng.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng
- Các vấn đề liên quan đến web ngữ nghĩa
- Công cụ xây dựng web ngữ nghĩa
- Phương pháp xây dựng Hệ thống web ngữ nghĩa
- Các vấn đề liên quan đến thông tin quản lý các cơng trình nghiên cứu khoa
học của Viện.
3.2. Phạm vi nghiên cứu
Trong khuôn khổ của luận văn thuộc loại nghiên cứu và ứng dụng, tôi chỉ giới
hạn nghiên cứu các vấn đề sau:
- Công nghệ web ngữ nghĩa.
- Phương pháp xây dựng ontology.
- Cổng thông tin điện tử Portal.
- Framework mã nguồn mở.
4. Phương pháp nghiên cứu
4.1. Về lý thuyết
- Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến triển khai các



4
cơng trình nghiên cứu khoa học của Viện.
- Tìm hiểu về web ngữ nghĩa để xây dựng website.
- Nghiên cứu về ontology.
- Khảo sát, thu thập dữ liệu liên quan tới các cơng trình nghiên cứu khoa học
của các cán bộ, nghiên cứu viên của Viện Nghiên cứu Phát triển Kinh tế - Xã hội
Đà Nẵng đã và đang thực hiện.
- Quy trình quản lý hoạt động nghiên cứu khoa học của Viện.
4.2. Về thực nghiệm
- Xây dựng ontology, triển khai thực tế trên Cổng thông tin điện tử Portal mã
nguồn mở.
- Kiểm tra, thử nghiệm, nhận xét và đánh giá kết quả.
5. Giải pháp đề xuất
- Sử dụng phần mềm để thiết kế ontology: Gồm khái niệm, thông tin của các
cơng trình nghiên cứu khoa học, người dùng sử dụng ontology để tra cứu, tìm kiếm
và trích lọc thơng tin, dữ liệu.
- Sử dụng bộ công cụ:
+ Pretégé 5.2.0.
+ Portal Plone.zope CMS 4.3.
+ Ngôn ngữ Python với framework: Django.templates.
6. Ý nghĩa của Đề tài
6.1. Ý nghĩa khoa học
Tìm hiểu và vận dụng tốt các công cụ xây dựng phát triển web ngữ nghĩa,
phương pháp xây dựng ontology về công trình nghiên cứu khoa học nói chung và về
các đề tài, dự án, đề án, báo cáo nghiên cứu, bài báo khoa học nói riêng. Ứng dụng
web ngữ nghĩa về mặt tra cứu, tìm kiếm và trích lọc thơng tin, dữ liệu. Kết quả của
Đề tài có thể làm tài liệu tham khảo cho các Viện Nghiên cứu, các đơn vị quản lý
khoa học tại các Sở, ban, ngành, các đơn vị quản lý của các trường Đại học, Cao
đẳng trong việc phát triển Hệ thống quản lý các công trình nghiên cứu khoa học.
6.2. Ý nghĩa thực tiễn

Góp phần tin học hố trong cơng tác quản lý hành chính Nhà nước, giúp giảm


5
thiểu giấy tờ và thời gian điều hành tác nghiệp đồng thời nâng cao chất lượng trong
nghiên cứu khoa học và tăng cường hiệu quả công tác quản lý tại Viện Nghiên cứu
Phát triển Kinh tế - Xã hội Đà Nẵng.
7. Kết quả
7.1. Lý thuyết
- Hiểu và ứng dụng được các công cụ xây dựng web ngữ nghĩa
- Hiểu rõ quy trình, cơng việc chun mơn về nghiên cứu khoa học, các công
việc quản lý về nghiên cứu khoa học tại Viện.
7.2. Thực tiễn
Xây dựng Hệ thống thông tin quản lý công tác nghiên cứu khoa học của Viện
Nghiên cứu Phát triển Kinh tế - Xã hội Đà Nẵng, cài đặt và sử dụng tại phòng Quản
lý khoa học thuộc Viện.
8. Bố cục của luận văn
Luận văn được trình bày thành 3 chương như sau:
CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN
Giới thiệu lý thuyết về web ngữ nghĩa, những ứng dụng và triển vọng của web
ngữ nghĩa trong giai đoạn hiện nay. Các công nghệ và công cụ phần mềm sử dụng
trong web ngữ nghĩa.
CHƯƠNG 2: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG
Tìm hiểu thực trạng cơng tác quản lý nghiên cứu khoa học của Viện Nghiên
cứu Phát triển Kinh tế - Xã hội Đà Nẵng từ đó phân tích và thiết kế Hệ thống.
CHƯƠNG 3: XÂY DỰNG HỆ THỐNG VÀ THỬ NGHIỆM
Thiết kế và xây dựng dữ liệu ontology, phát triển ứng dụng thử nghiệm tại
Viện Nghiên cứu Phát triển Kinh tế - Xã hội Đà Nẵng.



6
CHƯƠNG 1

NGHIÊN CỨU TỔNG QUAN
1.1. TỔNG QUAN VỀ WEB NGỮ NGHĨA
Web 2.0 đã đạt được những thành tựu rất đáng kể trong việc nâng cao tính
tương tác cũng như đẩy nhanh tốc độ xử lý đáp ứng yêu cầu của người dùng. Tuy
nhiên trong xã hội thông tin đương đại nhu cầu của người dùng không dừng lại ở
việc cải thiện tốc độ mà còn phải cải thiện chất lượng xử lý của trang Web theo yêu
cầu ngày càng nâng cao. Web 3.0 (Semantic web - web ngữ nghĩa) ra đời nhằm đáp
ứng những yêu cầu về chất lượng đó.
Với đặc điểm chính là nâng cao khả năng chia sẻ tài nguyên và tăng “sự hiểu
biết” trong quá trình xử lý dữ liệu của máy tính. Web ngữ nghĩa đã đi sâu vào phân
tích và định hướng dữ liệu, đồng thời hỗ trợ phát triển ứng dụng web ngữ nghĩa trên
nhiều lĩnh vực khác nhau. Một trong những lĩnh vực thế mạnh của web ngữ nghĩa
là xử lý và tìm kiếm thơng tin. Việc phân tích và định hướng nội dung lưu trữ cho
phép chúng ta xây dựng những cơ sở dữ liệu phục vụ tìm kiếm chính xác hơn, tinh
gọn hơn [6].
1.1.1. Giới thiệu
Web ngữ nghĩa là một mạng lưới thông tin được kết ghép trong một phương
pháp sao cho có thể xử lý dễ dàng bởi máy tính trên sự cân bằng tồn diện. Bạn có
thể nghĩ về nó giống như một phương pháp trình bày dữ liệu hiệu quả trên World
Wide Web (WWW) hoặc như là một cơ sở dữ liệu liên kết toàn diện. Web ngữ
nghĩa là sự mở rộng của web hiện tại mà trong đó thơng tin được định nghĩa rõ ràng
sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả
hơn. Mục tiêu của web ngữ nghĩa là để phát triển các chuẩn chung và công nghệ
cho phép máy tính có thể hiểu được nhiều hơn thơng tin trên web, sao cho chúng có
thể hỗ trợ tốt hơn việc khám phá thơng tin, tích hợp dữ liệu (dữ liệu liên kết động)
và tự động hóa các công việc.
Web ngữ nghĩa là một ý tưởng về việc dữ liệu trên web được xác định và liên



7
kết với nhau theo cách mà nó có thể được sử dụng bởi máy tính khơng chỉ cho mục
đích thể hiện mà cịn cho mục đích tự động, tích hợp và tái sử dụng dữ liệu thông
qua nhiều ứng dụng khác nhau.
1.1.2. Khái niệm
Web ngữ nghĩa được nghĩ ra bởi Tim Berners Lee, một nhà phát minh ra
WWW, URIs (Uniform Resource Identifier – Định dạng tài nguyên thống nhất),
HTTP (HyperText Transfer Protocol - Giao thức truyền tải siêu văn bản) và HTML
(HyperText Markup Language – Ngôn ngữ Đánh dấu Siêu văn bản). Theo phát biểu
của ông Tim Berners Lee: ‘‘Web ngữ nghĩa là sự mở rộng của web hiện tại, cho
phép người dùng có thể truy tìm, phối hợp, sử dụng lại và trích lọc thơng tin một
cách dễ dàng và chính xác, cho phép máy tính và con người có thể làm việc cộng
tác với nhau’’.
Web ngữ nghĩa được xây dựng dựa trên cú pháp sử dụng URI để biểu diễn dữ
liệu, luôn luôn trong bộ ba cấu trúc: tức là các bộ ba của dữ liệu URI mà có thể
được giữ lại trong cơ sở dữ liệu hoặc được trao đổi trong World Wide Web dùng
một tập những cú pháp đặc biệt được phát triển riêng cho tác vụ nào đó. Cú pháp
này được gọi là cú pháp RDF (Resource Description Framework).
Phân biệt web ngữ nghĩa với web 2.0:
❖ Web 2.0: lưu trữ thơng tin (store things)
• Trình bày thơng tin;
• Tìm kiếm chủ yếu dựa vào từ khóa;
• Thơng tin khơng đồng bộ và nhanh chóng bị lạc hậu.
• Hầu hết các cơng cụ tìm kiếm trên web 2.0 hiện nay chủ yếu tìm kiếm trên bề

nổi của web chứ khơng tìm kiếm trên bề sâu, thơng tin tìm kiếm theo từ khóa đơn
thuần, kết quả tìm kiếm phải do con người chọn theo chủ đề.
Ví dụ: Chúng ta gõ từ khóa cần biết ai là tổng thống mỹ trước đây 10 năm,

trong tìm kiếm: yahoo.com gõ “who was us president 10 years ago”, kết quả trả về
là 187.000.000 kết quả và trong đó có hiển thị thông tin về tổng thống George W
Bush và một loạt các thông tin mô tả khác mà người dùng phải tự xử lý thông tin và


8
rút trích thơng tin trong dãy kết quả đó.
❖ Web ngữ nghĩa: thao tác trên thơng tin
• Trình bày thơng tin nhưng nội dung trang web có thể được xử lý bởi máy;
• Nội dung của web nói lên ngữ nghĩa của nó thơng qua các siêu dữ liệu

(metadata);
• Các ontology được chia sẽ để có thể hiểu được ngữ nghĩa;
• Do có thể hiểu được ngữ nghĩa nên các phần mềm Agent có thể giao tiếp,

trao đổi thơng tin với nhau;
• Sử dụng nhiều kỹ thuật của lĩnh vực trí tuệ nhân tạo;
• Tìm kiếm chủ yếu dựa vào ngữ nghĩa.

Có những cơng cụ tự động cập nhật thơng tin, nên thông tin luôn được đồng
bộ kịp thời.
Một cách phân biệt khác:
• HTML: Web trực quan (visual Web)
• XML: Web theo cú pháp (syntactic Web)
• Logic: Web theo ngữ nghĩa [10].

Ví dụ: Cũng gõ lại cụm từ cần tìm “who was us president 10 years ago” trên
trang tìm kiếm Google.com sẽ trả về kết quả là tổng thống George W.Bush và ngồi
ra trang tìm kiếm cịn gợi ý cung cấp thêm các thông tin liên quan về vị tổng thống
này: thông tin của cha ông là tổng thống George H. W. Bush, vợ ông là bà Laura

Bush, tổng thống tiền nhiệm là Bill Clinton và tổng thống kế nhiệm Barack Obama.

Hình 1.1. Liên kết ngữ nghĩa giữa các nguồn khác nhau trong semantic web


9
1.1.3. Nội dung xây dựng hệ thống web ngữ nghĩa
Để xây dựng hệ thống web ngữ nghĩa thay thế cho World Wide Web hiện tại,
các nhà nghiên cứu đang nỗ lực và tập trung nghiên cứu với ba hướng chính sau:
- Chuẩn hố các ngơn ngữ biểu diễn dữ liệu (XML) và siêu dữ liệu (RDF) trên
Web.
- Chuẩn hoá các ngơn ngữ biểu diễn ontology cho web có ngữ nghĩa.
- Phát triển nâng cao web có ngữ nghĩa (Semantic Web Advanced
Development-SWAD).
a. Chuẩn hố các ngơn ngữ biểu diễn dữ liệu (XML) và các siêu dữ liệu
(RDF) trên web
Như chúng ta đã biết, World Wide Web đã rất thành công bởi ngôn ngữ XML.
XML đã làm cho công nghệ Web phát triển mạnh mẽ như hiện nay. Và web ngữ
nghĩa được phát triển trên nền web hiện tại, trên nền XML, chúng ta có thể thấy rất
rõ ngay trong sơ đồ kiến trúc của web ngữ nghĩa. Web ngữ nghĩa được bổ sung các
chú thích ngữ nghĩa cho các tài nguyên web và W3C đã giới thiệu RDF là chuẩn cú
pháp để tạo, thay đổi và sử dụng chú thích trong web ngữ nghĩa. Do vậy việc xây
dựng ngôn ngữ chuẩn cho XML và RDF là thiết yếu để biểu diễn dữ liệu cho web
ngữ nghĩa. Trong quá trình này, đã có một số cú pháp được đưa ra để biểu diễn
RDF như: Notation 3 (hay N3), XML/RDF. Các cú pháp này hỗ trợ biểu diễn dữ
liệu cho máy có thể hiểu được.
b. Chuẩn hố các ngơn ngữ biểu diễn ontology cho web có ngữ nghĩa
Ontology đóng vai trị then chốt trong việc cung cấp tài nguyên có thể truy
nhập để xử lý tự động bằng cách cung cấp bộ từ vựng cho việc đánh dấu ngữ nghĩa
của web ngữ nghĩa. Để biểu diễn ontology cho phát triển web có ngữ nghĩa cần thiết

đưa ra một ngôn ngữ chuẩn cho sự biểu diễn mềm dẻo, linh hoạt và đa dạng của tài
ngun web. Trong q trình chuẩn hố ngơn ngữ biểu diễn ontology, một số ngôn
ngữ được đề xuất với các khả năng biểu diễn tăng dần như: RDFS, DAML+OIL,
OWL,...và các ngôn ngữ biểu diễn ontology được xây dựng phải cân bằng được khả
năng biểu diễn và độ phức tạp tính tốn. Các ngơn ngữ này được xây dựng trên nền


10
các chuẩn XML, RDF, và thường sử dụng cơ sở logic là logic mô tả để biểu diễn
Ngữ nghĩa và hỗ trợ lập luận[10].
c. Tìm kiếm ngữ nghĩa (Semantic Search Engine)
Vấn đề hiện nay là đa số các tìm kiếm hiện có đều thuộc loại tìm kiếm theo từ
khóa (keyword search engine), cơ chế của chúng là định kì duyệt web để phát hiện
ra những sự thay đổi, rồi lập chỉ mục những thay đổi này. Người sử dụng có thể tạo
các câu truy vấn gồm các từ khóa trên các chỉ mục đó để nhận về kết quả mong
muốn. Tuy nhiên, phương pháp này gặp hai vấn đề chính sau đây:
- Một từ khóa có thể có một hay nhiều ý nghĩa tùy theo từng ngữ cảnh và
search engine khơng thể hiện mối quan hệ giữa các từ khóa với nhau.
- Các trang web có cùng ý nghĩa với câu truy vấn của người sử dụng sẽ không
tồn tại trong kết quả trả về.
Tìm kiếm ngữ nghĩa (Semantic search): Là tìm kiếm thơng tin khơng dựa
trên sự hiện diện của từ khóa hay cụm từ, mà dựa vào nghĩa của từ. Vấn đề của các
động cơ tìm kiếm dựa trên từ khóa đó là, nếu thơng tin được cung cấp bởi nhiều
nguồn khác nhau, thì các thuật ngữ sẽ không được sử dụng một cách thống nhất,
cùng một thuật ngữ có thể được dùng với nhiều nghĩa khác nhau, và cũng có khi
nhiều thuật ngữ khác nhau lại dùng để chỉ các khái niệm có cùng nghĩa. Động cơ
tìm kiếm ngữ nghĩa cố gắng vượt qua lỗ hổng trên bằng cách sử dụng ngữ nghĩa học
(semantic) và nhờ đó, cung cấp cho người dùng các kết quả chính xác, thích đáng.
Nó cịn cho phép trả về các kết quả không liên quan một cách tường minh đến câu
truy vấn nguyên mẫu.

Tìm kiếm ngữ nghĩa hữu dụng trong việc:
- Xử lý các thông tin phức tạp từ nhiều nguồn khác nhau.
- Truy hồi tài liệu dựa trên một tập các mối quan hệ bên ngồi các tài liệu đó.
- Cung cấp nhiều lựa chọn cho việc nghiên cứu sâu hơn.
- Xác định và sàng lọc kết quả hiệu quả hơn.
- Sử dụng thơng tin từ nguồn có thẩm quyền hiệu quả hơn để định hướng tìm
kiếm.


11
Phát triển nâng cao web ngữ nghĩa (Semantic Web Advanced Development
- SWAD)
Các cơng việc chuẩn hố các ngơn ngữ biểu diễn dữ liệu XML, siêu dữ liệu
RDF hay ngôn ngữ biểu diễn ontology là các công việc nền tảng, cơ sở tạo ra chuẩn
chung cơ sở để phát triển hệ thống và các ứng dụng trên web ngữ nghĩa. Việc đưa các
chuẩn đó thành các thể hiện, các sản phẩm của hệ thống web ngữ nghĩa là công việc
của SWAD. SWAD thực hiện nghiên cứu và đưa ra các thể hiện của web ngữ nghĩa
trên công nghệ cơ sở và nó cũng bổ sung, hồn thiện các cơng nghệ cơ sở này. Nó chỉ
ra các cơng nghệ web ngữ nghĩa được sử dụng như thế nào? Mục tiêu cụ thể của
SWAD là sử dụng các công nghệ, kỹ thuật và các cơng cụ hiện có của web ngữ nghĩa
để tạo ra các chương trình vượt xa hơn tầm hiện có, phát triển các thể hiện thực tiễn
và cung cấp các công cụ và các chuẩn mới cho web ngữ nghĩa. Để phát triển SWAD
hiện tại đã có một số dự án của các tổ chức thực hiện nghiên cứu và phát triển như:
SWAD-Europe, SWAD-DAML, SWAD-Simile, SWAD-Oxygen…
d. Một số thành tựu của Semantic web trên thế giới và ở Việt Nam
Công cụ tìm kiếm Swoogle
Đây là cơng cụ tìm kiếm kết hợp giữa việc thu thập văn bản theo ngữ nghĩa
(SWDS). Các văn bản này phải được viết theo định dạng RDF hoặc OWL thì mới
phù hợp với hệ thống này. Ứng dụng này khai thác thuật toán PageRank nên mặc dù
phải truy xuất trên nhiều miền dữ liệu khác nhau nhưng vẫn có tốc độ tương đối

nhanh.
Swoogle được phát triển và tổ chức bởi Đại học Maryland, Baltimore County
(UMBC) có sự tài trợ của quỹ DARPA Mỹ và Quỹ khoa học Quốc gia. Đây là luận
án Tiến sĩ của Li Ding dưới dự hướng dẫn của Giáo sư Tim Finin.
Công cụ tìm kiếm Kngine
Cơng cụ tìm kiếm Kngine dùng để tìm kiếm theo u cầu với việc phân tích
ngữ nghĩa. Trang web này được chia thành các mục để người dùng có thể tìm kiếm
trong miền nhỏ hơn và cho kết quả chính xác hơn.
Kngine bắt đầu với dự án nghiên cứu vào tháng 10 năm 2008. Từ đó họ đã


12
thành cơng để thu thập, trình diễn và lập chỉ mục của rất nhiều kiến thức về con
người có hệ thống.
VN-KIM (Viet Nam Knowledge and Information Management)
KIM (Knowledge & Information Management) là hệ thống chú thích ngữ
nghĩa cho các thực thể có tên. Miền dữ liệu mà KIM nhắm vào là các thực thể được
đề cập đến trong các tin tức quốc tế hàng ngày. Ontology của KIM hiện có khoảng
250 lớp và 100 thuộc tính. Cơ sở tri thức của KIM hiện có khoảng 80,000 thực thể
về các nhân vật, thành phố, công ty, và tổ chức quan trọng và phổ biến trên thế giới.
Mở rộng từ KIM, chức năng chính của VN-KIM là rút trích và chú thích tự
động lớp và danh hiệu của các thực thể có tên xuất hiện trong các trang báo điện tử
tiếng Việt. VN-KIM bao gồm các khối chính sau:
- Cơ sở tri thức về các nhân vật, tổ chức, núi non, sông ngòi, và địa điểm phổ
biến ở Việt Nam.
- Khối rút trích thơng tin tự động từ các trang báo điện tử tiếng Việt.
- Khối truy hồi thông tin và các trang web về các thực thể có tên ở Việt Nam.
1.1.4. Kiến trúc phân tầng của web ngữ nghĩa
Để có được những khả năng như đã đề cập ở phần trên, web ngữ nghĩa cần có
một hạ tầng chặt chẽ với nhiều lớp hỗ trợ. Dưới đây là kiến trúc tổng quát nhất của

web ngữ nghĩa do tổ chức W3C đề xuất:

Hinh 1.2. Kiến trúc của web ngữ nghĩa


13
a. Unicode và định danh tài nguyên thống nhất
Tầng thấp nhất là tài nguyên (một đối tượng, một thực thể hay một khái niệm,
v.v...), chúng được mô tả bằng các định danh tài nguyên thống nhất - Uniform
Resource Identifier (URI). Mục đích của tầng này là xác định tính duy nhất của mỗi
tài nguyên. Một tài nguyên có duy nhất một URI, tập con của URI là định vị tài
nguyên thống nhất: Uniform Resource Locator (URL), nó chứa phương thức truy
cập và vị trí của tài liệu trên mạng. Một tập con khác của URI là tên tài nguyên
thống nhất: Uniform Resource Name (URN), cho phép xác định một tài nguyên mà
không cần phải chứa địa chỉ và phương thức truy cập đến nó, ví dụ chỉ số ISBN là
một URN. Việc sử dụng URI là rất quan trọng, vì nó cho phép xây dựng một hệ
thống phân tán, trong đó các tài nguyên nằm ở nhiều nơi khác nhau trên mạng. Một
biến thể khác của URI là định danh tài nguyên được quốc tế hóa (Internationalized
Resource Identifier – IRI), nó cho phép sử đụng các kí tự Unicode trong định danh.
Để mã hóa các thơng tin, dữ liệu ta sử dụng chuẩn mã hóa Unicode, đây là
chuẩn thống nhất dùng để mã hóa các tập kí tự quốc tế. Nó cho phép tất cả các ngơn
ngữ của tất cả các nước có thể được mã hóa thống nhất, tránh hiện tượng mỗi quốc
gia lại sử dụng một chuẩn mã hóa riêng, gây khó khăn cho trao đổi dữ liệu.
b. Biểu diễn XML
Tầng tiếp theo là ngôn ngữ đánh dấu mở rộng: Extensible Markup Language
(XML), nó được dùng để biểu diễn dữ liệu mà máy tính có thể hiểu và xử lí dữ liệu
được. XML là cơng nghệ chính và là chuẩn của Web hiện tại và trong tương lai. Với
XML, máy tính có thể tích hợp và tương tác trao đổi dữ liệu với nhau. XML cung
cấp một phương tiện dùng văn bản để mô tả thông tin và áp dụng một cấu trúc kiểu
cây cho thơng tin đó. Tại mức căn bản, mọi thông tin đều thể hiện dưới dạng văn

bản, chen giữa là các thẻ đánh dấu với nhiệm vụ ký hiệu sự phân chia thông tin
thành một cấu trúc có thứ bậc của các dữ liệu ký tự, các phần tử dùng để chứa dữ
liệu và các thuộc tính của các phần tử đó. Đơn vị cơ sở của XML là các ký tự theo
định nghĩa của Bộ ký tự toàn cầu (Universal Character Set). Các ký tự được kết hợp
theo các tổ hợp chuỗi hợp lệ để tạo thành một tài liệu XML. Tài liệu này gồm một


14
hoặc nhiều thực thể, mỗi thực thể thường là một phần nào đó của các ký tự thuộc tài
liệu, được mã hóa dưới dạng một chuỗi các bit và lưu trữ trong một tệp văn bản.
Các tệp XML có thể dùng cho nhiều loại dữ liệu đa phương tiện, RFC3023
định nghĩa các loại "application/xml" và "text/xml", với ý rằng dữ liệu được biểu
diễn bằng XML mà khơng nói gì đến ngữ nghĩa của dữ liệu.
Bằng cách cho phép các tên dữ liệu, cấu trúc thứ bậc được phép, và ý nghĩa
của các phần tử và thuộc tính có tính chất mở và có thể được định nghĩa bởi một
lược đồ tùy biến được (XML Scheme), XML cung cấp một cơ sở cú pháp
(Document Type Definition - DTD) cho việc tạo lập các ngôn ngữ đánh dấu dựa
XML theo yêu cầu. Cú pháp chung của các ngơn ngữ đó là cố định - các tài liệu
phải tuân theo các quy tắc chung của XML, bảo đảm rằng tất cả các phần mềm hiểu
XML ít ra cũng phải có khả năng đọc (phân tích cú pháp) và hiểu bố cục tương đối
của thơng tin trong các tài liệu đó. Lược đồ chỉ bổ sung một tập các ràng buộc cho
các quy tắc cú pháp. Các lược đồ thường hạn chế tên của phần tử và thuộc tính và
các cấu trúc thứ bậc được phép, ví dụ, chỉ cho phép một phần tử tên 'ngày sinh' chứa
một phần tử tên 'ngày' và một phần tử có tên 'tháng', mỗi phần tử phải chứa đúng
một ký tự.
Có một khái niệm rất quan trọng trong XML là không gian tên XML (XML
namespace). Không gian tên XML là cơ chế cho phép gom các tên phân tử và thuộc
tính vào một nhóm. Nó thường xun được dùng để phối hợp việc dùng tên phần tử
(hay thuộc tính) từ nhiều nguồn khác nhau trong một tài liệu XML, mà vẫn tránh
được nguy cơ trùng tên. Một không gian tên là tập hợp các tên có thể dùng trong tài

liệu XML, như tên các phần tử, thuộc tính,.. nó gom các tên này vào các vùng riêng.
c. Trao đổi dữ liệu RDF
Cơ cấu mô tả tài nguyên - RDF được W3C giới thiệu để cung cấp một cú pháp
chuẩn để tạo, thay đổi và sử dụng các chú thích trong web ngữ nghĩa. Một mệnh đề
RDF là một bộ ba có dạng: [chủ đề], [thuộc tính], [đối tượng]. Trong đó, [chủ đề] là
tài ngun mà được mơ tả bằng [thuộc tính] và [đối tượng]. [Thuộc tính] thể hiện
mối quan hệ giữa [chủ đề] và [đối tượng]. Còn [đối tượng] ở đây có thể là một tài


×