Tải bản đầy đủ (.pdf) (105 trang)

Nghiên cứu xây dựng mô hình chuyển đổi tri thức cho máy chủ web

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.63 MB, 105 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC QUY NHƠN

HỒ HUY CƢỜNG

NGHIÊN CỨU XÂY DỰNG MƠ HÌNH CHUYỂN ĐỔI
TRI THỨC CHO MÁY CHỦ WEB
Chuyên ngành: Khoa học máy tính
Mã số: 8480101

Ngƣời hƣớng dẫn: TS. Nguyễn Thành Đạt


LỜI CAM ĐOAN
Tôi xin cam đoan đề tài “Nghiên cứu xây dựng mơ hình chuyển đổi
cho máy chủ Web” là kết quả của tự bản thân tơi tìm hiểu, nghiên cứu. Các
số liệu, dẫn chứng và tài liệu tham khảo đƣợc trích dẫn và chú thích đầy đủ.
Tơi xin chịu trách nhiệm về luận văn của mình.


LỜI CẢM ƠN
Qua quá trình học tập và thời gian nghiên cứu làm luận văn, trƣớc tiên
tôi xin gửi lời cảm ơn chân thành nhất đến các Thầy Cô giáo đã tham gia tổ
chức, chỉ đạo và trực tiếp giảng dạy trong suốt những khóa học vừa qua. Đặc
biệt, tơi xin gửi lời cảm ơn sâu sắc nhất đến Thầy giáo hƣớng dẫn TS. Nguyễn
Thành Đạt, ngƣời đã tận tình chỉ bảo, góp ý, giúp đỡ và tạo mọi điều kiện để
tơi có thể hồn thành luận văn.
Cũng qua đây, tôi xin gửi lời cảm ơn đến các anh chị là học viên lớp
cao học Khoa học máy tính khóa trƣớc đã giúp đỡ tơi rất nhiều trong q trình
học tập và nghiên cứu. Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình và bạn
bè đã ln giúp đỡ, ủng hộ tơi trong suốt q trình học tập, nghiên cứu và


hồn thành luận văn.
Trong thời gian qua tơi đã cố gắng tập trung nghiên cứu và tìm hiểu để
hồn thành thật tốt luận văn của mình nhƣng chắc chắn cịn nhiều thiếu sót rất
mong đƣợc nhận sự chỉ bảo của các Thầy Cô giáo để luận văn đƣợc hoàn
thiện hơn.
Quy Nhơn, tháng 9 năm 2020

Hồ Huy Cƣờng


MỤC LỤC
LỜI CAM ĐOAN
LỜI CẢM ƠN
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH VẼ
MỞ ĐẦU ......................................................................................................... 1
1. Lý do chọn đề tài ..................................................................................... 1
2. Mục tiêu nghiên cứu ................................................................................ 3
3. Đối tƣợng và phạm vi nghiên cứu ........................................................... 3
4. Phƣơng pháp nghiên cứu ......................................................................... 4
5. Ý nghĩa khoa học và thực tiễn ................................................................. 4
Chƣơng 1: TỔNG QUAN VỀ CHUYỂN ĐỔI TRI THỨC VÀ CÔNG CỤ
PARSER .......................................................................................................... 5
1.1. Giới thiệu về quản lý tri thức .................................................................... 5
1.1.1 Khái quát về Tri thức và quản lý tri thức ............................................ 5
1.1.2. Quy trình quản lý tri thức .................................................................. 8
1.1.3. Công nghệ quản lý tri thức .............................................................. 11
1.1.4. Lợi ích của việc quản lý tri thức ...................................................... 12
1.2. Tổng quan về ontology ........................................................................... 13

1.2.1. Giới thiệu về Ontology .................................................................... 14
1.2.2. Ứng dụng Ontology ......................................................................... 15
1.2.3. Phân loại Ontology .......................................................................... 16
1.2.4. Ngôn ngữ Ontology ......................................................................... 17
1.3. Tổng quan về Log Parser ........................................................................ 25
1.3.1. Giới thiệu Log Paser [24] ................................................................ 25


1.4. Máy chủ Web ......................................................................................... 27
1.4.1. Máy chủ web – web server .............................................................. 27
1.4.2. Các đặc tính của web server ............................................................ 28
1.4.3. Cơ chế hoạt động của máy chủ web ................................................ 29
1.4.4. Các loại web server phổ biến hiện nay ............................................ 34
1.4.5. Nhật ký máy chủ web (Web Server Log) ........................................ 37
1.4.6. Các loại nhật ký máy chủ web ......................................................... 38
1.5. Máy chủ IIS ............................................................................................ 40
1.5.1. Giới thiệu máy chủ web IIS ............................................................. 40
1.5.2. Chức năng của máy chủ web IIS ..................................................... 41
1.6. Máy chủ Apache ..................................................................................... 42
1.6.1. Giới thiệu máy chủ web Apache ..................................................... 42
1.6.2. Hoạt động của máy chủ web Apache. ............................................. 42
1.7. Tổng kết Chƣơng I .................................................................................. 43
Chƣơng 2: PHÂN TÍCH CÚ PHÁP FILE LOG DỰA VÀO ONTOLOGY
VÀ PARSER ................................................................................................. 45
2.1. Phân tích cú pháp .................................................................................... 45
2.1.1. Tổng quan phân tích cú pháp [19] ................................................... 45
2.1.2. Các phƣơng pháp phân tích cú pháp [19] ........................................ 47
2.2. Tổng quan về phân tích cú pháp - Parser ................................................ 49
2.2.1. Cấu trúc của Parser .......................................................................... 49
2.2.2. Hoạt động của Parser ....................................................................... 51

2.2.3. Mơ hình hoạt động của Phân tích cú pháp dựa vào Ontology ......... 53
2.3. Kiến trúc máy chủ Web .......................................................................... 55
2.4. Cấu trúc của File Log ............................................................................. 57
2.5. Xây dựng Ontology ................................................................................ 59
2.5.1. Xác định mục đích sử dụng Ontology ............................................. 59


2.5.2. Xây dựng các lớp của Ontology ...................................................... 59
2.5.3. Định nghĩa các thuộc tính, ràng buộc về thuộc tính và quan hệ
cho lớp ....................................................................................................... 60
2.5.4. Tạo các thực thể cho lớp .................................................................. 62
2.6. Kết luận Chƣơng 2 .................................................................................. 63
Chƣơng 3: CÀI ĐẶT, THỰC NGHIỆM VÀ ĐÁNH GIÁ ........................... 64
3.1. Cài đặt ..................................................................................................... 64
3.1.1. Protégé ............................................................................................. 64
3.1.2. Python .............................................................................................. 68
3.1.3. Cấu hình máy tính ........................................................................... 71
3.1.4. Lệnh truy vấn SPARQL .................................................................. 72
3.2. Thiết kế mơ hình ..................................................................................... 74
3.2.1. Sử dụng Protégé thiết kế Ontology cho Log IIS webserver ............ 74
3.3. Thực nghiệm ........................................................................................... 78
3.3.1. Triển khai thực nghiệm .................................................................... 79
3.4. Đánh giá .................................................................................................. 83
3.4.1. Đánh giá mơ hình Ontology dựa trên mơ hình OntoQA [18] ......... 83
3.4.2. Đánh giá Parser ................................................................................ 85
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ..................................................... 89
1.Kết luận chung ........................................................................................ 89
2.Hƣớng phát triển đề tài ........................................................................... 89
DANH MỤC TÀI LIỆU THAM KHẢO ...................................................... 90
PHỤ LỤC

QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (bản sao)


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

STT

Ký hiệu
viết tắt

Tên tiếng Anh

Ý nghĩa

Hypertext Transfer

Giao thức truyền tải siêu văn

Protocol

bản

1

HTTP

2

CNTT


Information Technology

Công nghệ thông tin

3

CSDL

Database

Cơ sở dữ liệu

4

IIS

5

XML

6

LSWS

7

CGI

8


SMTP

9

POP

10

URL

11

RDF

12

RDFS

13

OWL

Internet Information
Services
Extensible Markup
Language
LiteSpeed Web Server
Computer-Generated
Imagery


Dịch vụ thông tin Internet
Ngôn ngữ đánh dấu mở rộng
Máy chủ Web LiteSpeed
Máy tính tạo ra hình ảnh

Simple Mail Transfer

giao thức truyền tải thƣ tín

Protocol

đơn giản

Post Office Protocol

Giao thức Bƣu điện

Uniform Resource
Locator
Resource Description
Framework

Đƣờng dẫn truy cập đến các
tài nguyên trên mạng
Internet.
Khung mô tả tài nguyên

Resource Description

Lƣợc đồ khung mô tả tài


Framework Schema

nguyên

Ontology Web Language

Ngôn ngữ web Ontology


14

WWW

15

SLCT

World Wide Web

Dịch vụ Web

Simple Logfile Clustering

Công cụ phân cụm tệp nhật

Tool

ký đơn giản


Word vocabulary

16

construction
Cluster candidates

17

construction

18

Cấu trúc từ vựng từ
Cụm ứng viên xây dựng

Log template generation

Tạo mẫu nhật ký

Iterative Partitioning Log

Khai thác nhật ký phân vùng

Mining

lặp lại

Log Key Extraction


Trích xuất khóa nhật ký

19

IPLoM

20

LKE

21

API

22

CSV

Comma Separated Values

23

TSV

Tab-Separated Values

24

SMTP


Application Programming
Interface

Giao diện lập trình ứng dụng
Các giá trị đƣợc phân tách
bằng dấu phẩy
Các giá trị đƣợc phân tách
bằng tab

Simple Mail Transfer

Giao thức truyền tải thƣ tín

Protocol

đơn giản


DANH MỤC CÁC BẢNG
Bảng 1.1. Các lớp và thuộc tính của OWL .................................................... 25
Bảng 2.1. Cấu trúc của tệp Log IIS ............................................................... 57
Bảng 2.1. Các thuật ngữ quan trọng trong Ontology ..................................... 60
Bảng 2.2. Các thuộc tính và quan hệ cho lớp ................................................ 60
Bảng 2.3. Các ràng buộc về thuộc tính và quan hệ ....................................... 61
Bảng 3.2 Thời gian chuyển đổi dữ liệu trong thực nghiệm 1 ....................... 87
Bảng 4.3 Thời gian chuyển đổi dữ liệu trong thực nghiệm 2 ....................... 87


DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Mơ hình dữ liệu, thơng tin và tri thức .............................................. 6

Hình 1.2. Sơ đồ từ dữ liệu đến tri thức[14] ..................................................... 7
Hình 1.3. Các bƣớc quản lý tri thức. ............................................................... 9
Hình 1.4. Phân loại Ontology ........................................................................ 16
Hình 1.5. Mối quan hệ giữa các thành phần trong triple ............................... 18
Hình 1.6. So sánh giữa RDF và RDFS .......................................................... 21
Hình 1.7. Mơ hình web server [17] ............................................................... 27
Hình 1.8. Mơ hình hoạt động của web server [17] ........................................ 29
Hình 1.9. Web server Apache ........................................................................ 34
Hình 1.10. IIS Control Panel ......................................................................... 35
Hình 1.11. Web server Nginx ........................................................................ 36
Hình 1.12. Web server LiteSpeed .................................................................. 37
Hình 1.13. Cơ chế hoạt động của IIS ............................................................ 42
Hình 1.14. Kiến trúc máy chủ Apache .......................................................... 43
Hình 2.1. Cấu trúc của một Log Parser ......................................................... 51
Hình 2.2. Mơ hình hoạt động của Parser ....................................................... 52
Hình 2.3. Mơ hình hoạt động của các thành phần trong Parser ..................... 52
Hình 2.4. Mơ hình xử lý dữ liệu Ontology [21] ............................................ 53
Hình 2.5. Mơ hình truy xuất dữ liệu Ontology [21] ...................................... 54
Hình 2.6. Mơ hình hoạt động của Parser dựa vào Ontology ......................... 54
Hình 2.7. Các thành phần của một máy chủ web .......................................... 56
Hình 2.8. Ví dụ một file log IIS ..................................................................... 57
Hình 2.9. Các lớp và cấu trúc phân cấp ......................................................... 59
Hình 2.10. Mơ tả Ontology của Log IIS webserver ...................................... 62
Hình 2.11. Các thực thể của lớp .................................................................... 63


Hình 3.1. Classes ........................................................................................... 67
Hình 3.2. Object Properties ........................................................................... 67
Hình 3.3. Data Properties .............................................................................. 68
Hình 3.4. Individuals ..................................................................................... 68

Hình 3.5. Python ............................................................................................ 69
Hình 3.6. Cài đặt Python ............................................................................... 71
Hình 3.7. Cấu hình máy tính dùng để chạy truy vấn ..................................... 71
Hình 3.8. Mơ hình các lớp ............................................................................. 74
Hình 3.9. Sơ đồ Ontograf của Ontology ........................................................ 74
Hình 3.10. Object properties ......................................................................... 75
Hình 3.11. Data properties ............................................................................. 75
Hình 3.12. Individuals by class ..................................................................... 76
Hình 3.13. Dữ liệu Log ban đầu .................................................................... 78
Hình 3.14. Triển khai bằng GoogleColab ...................................................... 79
Hình 3.15. Cài đặt các Module hỗ trợ ........................................................... 79
Hình 3.16. Import các thƣ viện ...................................................................... 80
Hình 3.17. Khởi tạo Ontology ....................................................................... 80
Hình 3.18. Đọc và bóc tách các trƣờng từ file Log đƣa vào Ontology ......... 81
Hình 3.19. Kết quả thu đƣợc ......................................................................... 81
Hình 3.20. Truy vấn dữ liệu .......................................................................... 82
Hình 3.21. Kết quả truy vấn dữ liệu .............................................................. 82
Hình 3.22. Kiểm tra dữ liệu sau khi chuyển đổi trên Protégé ....................... 83
Hình 3.23. So sánh độ chính xác trong việc thực hiện chuyển đổi của
Parser Log IIS với các Parser khác ................................................ 86
Hình 3.24. So sánh thời gian thực hiện của Parser Log IIS với các Parser
khác ............................................................................................... 87


1

MỞ ĐẦU
1. Lý do chọn đề tài
Với tình hình phát triển nhanh chóng của cơng nghệ thơng tin ngày nay,
thì bất cứ một doanh nghiệp nào cũng cần một hệ thống thông tin chứ không

chỉ đơn giản là dùng máy tính nữa. Để vận hành và quản lý hệ thống CNTT
đó thì doanh nghiệp (hoặc cá nhân) cần phải có máy chủ (server).
Máy chủ là một chƣơng trình máy tính hoặc một thiết bị cung cấp chức
năng cho các chƣơng trình hoặc thiết bị khác, đƣợc gọi là "máy
khách". Đây kiến trúc đƣợc gọi là mơ hình client-server, và một tính tốn tổng
thể duy nhất đƣợc phân phối qua nhiều quy trình hoặc các thiết bị. Máy chủ
có thể cung cấp các chức năng khác nhau, thƣờng đƣợc gọi là "dịch vụ",
chẳng hạn nhƣ chia sẻ dữ liệu hoặc tài ngun giữa nhiều khách hàng hoặc
thực hiện tính tốn cho khách hàng. Một máy chủ có thể phục vụ nhiều khách
hàng và một khách hàng có thể sử dụng nhiều máy chủ. Một tiến trình máy
khách có thể chạy trên cùng một thiết bị hoặc có thể kết nối qua mạng với một
máy chủ trên một thiết bị khác[1]. Một số máy chủ điển hình nhƣ: máy chủ cơ
sở dữ liệu , máy chủ tệp , máy chủ thƣ , máy chủ in , máy chủ web , máy chủ
trò chơi và máy chủ ứng dụng
Vậy Máy chủ web là gì? Máy chủ web (Tiếng anh gọi là Web server)
là phần mềm máy chủ hoặc phần cứng dành riêng để chạy phần mềm nói trên,
có thể đáp ứng các yêu cầu của máy khách World Wide Web. Nói chung,
một máy chủ web có thể chứa một hoặc nhiều trang web. Một máy chủ web
xử lý các yêu cầu mạng đến qua HTTP và một số giao thức liên quan khác.
Chức năng chính của máy chủ web là lƣu trữ, xử lý và phân phối các trang
web cho khách hàng[3].
Giao tiếp giữa của máy tính ngƣời dùng và máy chủ thực hiện thơng qua
giao thức HTTP. Nội dung phân phối chính từ máy chủ web là các nội dung


2
định dạng HTML, bao gồm hình ảnh, style sheets, các đoạn mã script hỗ trợ
các nội dung văn bản thô. Dễ hiểu hơn web server chính là máy chủ, đƣợc
thiết kế với các siêu tính năng dùng để chứa các dữ liệu cho một phần mạng
lƣới máy tính trên internet. Tất cả những hoạt động dịch vụ trên internet nào

đều phải có máy chủ này mới hoạt động đƣợc[4].
Các máy chủ web phổ biến bao gồm Máy chủ HTTP Apache (Web
server đƣợc cài đặt rộng rãi nhất), Máy chủ thông tin Internet (IIS) của
Microsoft và nhiều hãng khác cho phép các khách (Client) truy cập và xem
thông tin đƣợc cung cấp bởi máy chủ Web (Web Server)[7].
Để làm cho web server hoạt động ổn định nếu khơng có một ngƣời quản
trị sever hay giám sát thì sẽ khơng có một trang web server tốt và ổn định.
Ngày nay, việc thực hiện giám sát các máy chủ web là một hành động thực
sự cần thiết và quan trọng, có thể giúp cho các quản trị hệ thống theo dõi các
hoạt động của ngƣời sử dụng nhằm cải thiện khả năng quản lý hệ thống, quản lý
ngƣời dùng, quản lý các vấn đề về cân bằng tải cũng nhƣ để phát hiện ra các
cuộc tấn công. Thông thƣờng, việc giám sát, theo dõi các máy chủ web dựa vào
nhật ký file dữ liệu ghi lại. Những file dữ liệu ghi lại của hệ thống máy chủ web
đƣợc lƣu trữ thành 1 hoặc nhiều file log. Log là hệ thống cho phép bạn xem lại
các sự kiện đã xảy ra trong hệ thống một cách chi tiết cụ thể nhƣ: user, time,
computer, services, thời gian, ngƣời dùng đăng nhập, địa chỉ IP,…
Những file này thƣờng không thể truy cập đƣợc đối với ngƣời dùng web
nói chung, chỉ dành cho quản trị viên web hoặc ngƣời quản trị khác. Một phân
tích thống kê nhật ký máy chủ có thể đƣợc sử dụng để kiểm tra các mẫu lƣu
lƣợng truy cập theo thời gian trong ngày, ngày trong tuần, liên kết giới thiệu
hoặc tác nhân ngƣời dùng. Quản trị trang web hiệu quả, tài nguyên lƣu trữ
đầy đủ và tinh chỉnh nỗ lực bán hàng có thể đƣợc hỗ trợ bằng cách phân tích
nhật ký máy chủ web.


3
Hạn chế của hệ thống log trong việc quản lý là rất khó xem để có thể
hiểu sự kiện đó ghi những gì hoặc sự kiện đó đang bị lỗi gì và làm sao để giải
quyết những vấn đề đó.
Trong nghiên cứu này, tôi xây dựng một ứng dựng phân tích log để làm

căn cứ xây dựng các chƣơng trình để giải quyết các lỗi thƣờng xảy ra trên
máy chủ web.
2. Mục tiêu nghiên cứu
Mục tiêu chính: Nghiên cứu xây dựng ứng dụng PARSER nhằm cung
cấp một công cụ mạnh mẽ, linh hoạt, cung cấp quyền truy cập truy vấn và
chuyển đổi tri thức trong Log máy chủ vào cơ sở dữ liệu tri thức dựa vào
Ontology.
Mục tiêu cụ thể:
-

Xây dựng mơ hình quản lý tri thức sự kiện máy chủ web.

-

Phân tích hệ thống log sự kiện máy chủ web.

-

Tìm hiểu và Xây dựng mơ hình Ontology.

-

Tìm hiểu và xây dựng ứng dụng PARSER dựa vào mơ hình

Ontology.
Triển khai thực nghiệm và đánh giá ứng dụng.
3. Đối tƣợng và phạm vi nghiên cứu
3.1. Đối tƣợng nghiên cứu
- Cơ sở tri thức và quản lý tri thức.
- Hệ thống các file log trong máy chủ web IIS.

- Mơ hình quản lý tri thức dựa vào ontology.
- Các cơng cụ có liên quan: Protégé, XAMPP, Python….
3.2 Phạm vi nghiên cứu
Xây dựng bộ công cụ chuyển đổi cơ sở tri thức dựa trên mơ hình
Ontology cho hệ thống sự kiện (Log) cho máy chủ Web IIS.


4
4. Phƣơng pháp nghiên cứu
- Nghiên cứu lý thuyết về các cơ sở tri thức, mơ hình quản lý tri thức dựa
vào Ontology, mơ hình hệ thống Log trong máy chủ Web IIS, các công cụ sử
dụng: Protégé, Python… để xây dựng bài toán chuyển đổi tri thức từ file Log
máy chủ web IIS sang mơ hình Ontology.
- Vận dụng các kiến thức đã tìm hiểu để triển khai xây dựng mơ hình
Parser nhằm chuyển đổi tri thức từ file Log máy chủ web IIS sang mơ hình
Ontology.
- Khảo sát công cụ chuyển đổi đã xây dựng với các công cụ chuyển đổi
khác đã có.
5. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học
- Nghiên cứu, xây dựng mô hình Ontology trong quản lý tri thức.
- Vận dụng mơ hình Ontology để xây dựng cơng cụ chuyển đổi tri thức
từ file Log Webserver IIS.
- Xây dựng mơ hình và cách thức hoạt động của công cụ chuyển đổi tri
thức (Parser).
Ý nghĩa thực tiễn
- Xây dựng đƣợc ứng dụng phân tích lỗi sự kiện trong máy chủ web IIS
dựa vào Ontology.
- Giúp ngƣời quản trị có thể đọc hiểu và xử lí lỗi máy chủ một cách
nhanh chóng.

- Nâng cao hiệu quả trong quá trình quản lý và khắc phục trên hệ thống
webserver.


5

Chƣơng 1: TỔNG QUAN VỀ CHUYỂN ĐỔI TRI THỨC VÀ
CÔNG CỤ PARSER
1.1. Giới thiệu về quản lý tri thức
1.1.1 Khái quát về Tri thức và quản lý tri thức
Tri thức (Knowledge)
Để hiểu rõ khái niệm tri thức ta phân biệt tri thức với các khái niệm
tƣơng đồng khác là dữ liệu, thơng tin, trí tuệ.
Dữ liệu là những con số hoặc dữ kiện thuần túy, rời rạc mà quan sát hoặc
đo đếm đƣợc khơng có ngữ cảnh hay diễn giải. Dữ liệu đƣợc thể hiện ra ngồi
bằng cách mã hóa và dễ dàng truyền tải. Dữ liệu đƣợc chuyển thành thông tin
bằng cách thêm giá trị thông qua ngữ cảnh, phân loại, tính tốn, hiệu chỉnh và
đánh giá.
Thơng tin là những mơ hình hay tập hợp dữ liệu đã đƣợc tổ chức lại và
diễn giải đặt trong bối cảnh và nhằm một mục đich cụ thể. Thông tin là những
thông điệp thƣờng đƣợc thể hiện theo dạng văn bản hoặc giao tiếp có thể thấy
đƣợc hoặc khơng thấy đƣợc… nhằm mục đích thay đổi cách nhận thức của
ngƣời nhận thơng tin về vấn đề cụ thể, và gây ảnh hƣởng đến sự đánh giá và
hành vi của ngƣời nhận. Vì thông tin là những dữ liệu đƣợc tổ chức lại vì một
mục đích nào đó, vì vậy mà nó sẽ giảm bớt sự khơng chắc chắn. Đó cũng
chính là sự khác biệt của thông tin với dữ liệu. Tƣơng tự nhƣ dữ liệu, thơng
tin đƣợc mã hóa và tƣơng đối dễ dàng truyền tải.


6


Hình 1.1. Mơ hình dữ liệu, thơng tin và tri thức

Tri thức là thơng tin đƣợc cấu trúc hóa, đƣợc kiểm nghiệm và có thể sử
dụng đƣợc vào mục đích cụ thể. Tri thức thƣờng thể hiện trong những hoàn
cảnh cụ thể kết hợp với kinh nghiệm và việc phán quyết hay ra quyết định. Để
truyền tải thì địi hỏi sự học tập của ngƣời tiếp nhận tri thức. Nhƣ vậy nếu một
thông tin giúp chúng ta nhận thức và đƣa ra quyết định thì là tri thức. Thơng
tin trở thành “đầu vào” đƣợc nạp vào trong não, qua quá trình xử lý sẽ tạo ra
tri thức. Nhƣng quá trình xử lý này với mỗi một cá nhân khác nhau sẽ cho ra
những “đầu ra” khác nhau. Có nghĩa là cùng một thông tin nhƣ vậy nhƣng với
mỗi cá nhân thì tri thức mà anh ta nhận thức đƣợc sẽ khác với tri thức mà
ngƣời khác nhận thức. Thông tin là những dữ liệu đƣợc cấu trúc hóa đƣợc thể
hiện ra ngồi và ai cũng có thể tiếp cận. Nhƣng tri thức thiên về những thơng
tin đƣợc cấu trúc hóa và cá nhân hóa nằm trong mỗi con ngƣời cụ thể, do đó
khả năng tiếp cận khó hơn và sự thể hiện ra ngồi khơng phải lúc nào cũng
chính xác.


7

Hình 1.2. Sơ đồ từ dữ liệu đến tri thức[14]

Trí tuệ là khả năng sử dụng tri thức một cách khơn ngoan nhằm đạt đƣợc
mục đích của mình. Trí tuệ gắn liền với con ngƣời và sự đánh giá, phán xét và
hoạch định các hành động. Cùng có tri thức nhƣ nhau nhƣng mỗi ngƣời sẽ
hành xử một cách khác nhau vì trí tuệ của mỗi ngƣời là khác nhau tức là khả
năng sử dụng tri thức của mỗi ngƣời là khác nhau nên sẽ tạo ra kết quả khác
nhau.
Tri thức là những dữ liệu, thông tin đƣợc cấu trúc hóa, kiểm nghiệm và

sử dụng đƣợc vào một mục đích cụ thể tạo ra giá trị.
Quản lý tri thức (Knowledge Management)
Trong những năm gần đây, khái niệm về Quản lý tri thức (knowledge
management) đang trở nên phổ biến trên thế giới. Vấn đề này đang đƣợc
nhiều nhà nghiên cứu tranh cãi trong các hội nghị, hội thảo khoa học. Vậy
quản lý tri thức là gì?


8
Quản lý tri thức ( KM ) là quá trình tạo, chia sẻ, sử dụng và quản lý kiến
thức và thơng tin của một tổ chức[2]. Nó đề cập đến một cách tiếp cận đa ngành
để đạt đƣợc các mục tiêu của tổ chức bằng cách sử dụng kiến thức tốt nhất[5].
Hiện nay, tồn tại rất nhiều cách tiếp cận về khái niệm Quản lý tri thức
nhƣ: Hiệp hội quản lý tri thức Nhật Bản (JKMA) định nghĩa: “Quản lý tri
thức là việc kiểm soát và cấu trúc một cách có hệ thống và hiệu quả một cơ
chế cho phép sử dụng đúng ngƣời vào đúng công việc và đúng thời điểm, chia
sẻ và sử dụng thông tin một cách thông suốt, hƣớng tới việc đạt đƣợc mục
tiêu của tổ chức. Một cách có hệ thống ở đây có nghĩa là từng bƣớc chọn lọc,
tìm hiểu, phân tích, chia sẻ và sử dụng thông tin để tạo ra giá trị.”Lotus (một
trong những công ty của IBM) định nghĩa: “Quản lý tri thức là một động lực
thúc đẩy việc sử dụng thơng tin và kỹ năng nghề nghiệp một cách có hệ thống
nhằm nâng cao tính hiệu quả, năng lực, sự sáng tạo, đổi mới và khả năng phản
hồi nhanh chóng của tổ chức.”Vậy, bản chất của Quản lý tri thức là Quá trình
kiến tạo, chia sẻ, khai thác, sử dụng và phát triển nguồn tài sản tri thức
trong tổ chức và biến những tài sản vơ hình đó thành những giá trị kinh tế
hay vật chất của tổ chức.
1.1.2. Quy trình quản lý tri thức
Theo nghiên cứu của nhiều tổ chức trên thế giới về quản lý tri thức thì quy
trình của một quản lý tri thức khơng nằm trong một khuôn khổ nhất định[9].
- Davenport, Jarvenpaa và Beers (1996) trình bày bốn q trình chính:

tìm kiếm kiến thức hiện có, tạo ra kiến thức mới, tạo ra kiến thức đóng gói, sử
dụng kiến thức bên ngồi.
- KPMG (1998b) trình bày bảy quá trình liên quan đến quản lý tri thức:
tạo tri thức, ứng dụng trong tổ chức, khai thác bên ngồi tổ chức,chia sẻ và
phổ biến, đóng gói, tìm nguồn cung ứng và học tập.


9
- Teece (1998a) trình bày tám quá trình cơ bản: tạo ra kiến thức mới, tiếp
cận kiến thức có giá trị từ các nguồn bên ngoài, sử dụng kiến thức có thể truy
cập trong ra quyết định, đƣa kiến thức vào các quy trình, sản phẩm/dịch vụ,
thể hiện kiến thức trong tài liệu, cơ sở dữ liệu và phần mềm, tạo điều kiện cho
kiến thức tăng trƣởng thông qua văn hóa và khuyến khích, chuyển giao kiến
thức hiện có vào các phần khác của tổ chức và đo lƣờng giá trị của tài sản tri
thức/tác động của quản lý kiến thức.
- Nghiên cứu của Đại học Cranfield (1998) xác định mƣời quy trình: tạo
ra kiến thức mới, tìm kiếm kiến thức bên trong, tiếp thu kiến thức bên ngồi,
có kiến thức, xử lý kiến thức, sử dụng lại kiến thức, áp dụng kiến thức vào
một số lợi ích, cập nhật kiến thức, chia sẻ kiến thức trong nội bộ và chia sẻ
kiến thức bên ngoài tổ chức.
Từ những nghiên cứu của các nhà nghiên cứu trên thì ta có thể thấy quy
trình quản lý tri thức có sáu bƣớc chính cơ bản đƣợc hỗ trợ bởi các công cụ và
kỹ thuật khác nhau đƣợc tổng hợp từ các nghiên cứu trên. Khi các bƣớc này
đƣợc theo dõi tuần tự, dữ liệu sẽ chuyển thành kiến thức.

Hình 1.3. Các bƣớc quản lý tri thức.

 Bƣớc 1: Thu thập
Đây là bƣớc quan trọng nhất của quy trình quản lý tri thức. Nếu thu thập
dữ liệu khơng chính xác hoặc khơng liên quan, tri thức thu đƣợc có thể khơng



10
chính xác nhất. Do đó, các quyết định đƣợc đƣa ra dựa trên tri thức nhƣ vậy
cũng có thể khơng chính xác.
Quy trình thu thập dữ liệu là xác định các điểm thu thập dữ liệu nhất
định. Một số điểm có thể là bản tóm tắt của các báo cáo thƣờng xuyên nhất
định. Với các điểm thu thập dữ liệu, các kỹ thuật và cơng cụ trích xuất dữ liệu
cũng đƣợc xác định.
 Bƣớc 2: Tổ chức
Đối với các dữ liệu đã thu thập cần phải đƣợc tổ chức. Việc tổ chức này
thƣờng xảy ra dựa trên các quy tắc nhất định. Các quy tắc này đƣợc xác định
bởi các tổ chức sử dụng.
Nếu có nhiều dữ liệu trong cơ sở dữ liệu, các kỹ thuật nhƣ 'bình thƣờng
hóa' có thể đƣợc sử dụng để tổ chức và giảm sự trùng lặp thông tin. Bằng cách
này, dữ liệu đƣợc sắp xếp hợp lý và liên quan với nhau để dễ dàng truy
xuất. Khi dữ liệu vƣợt qua bƣớc 2, nó sẽ trở thành thơng tin.
 Bƣớc 3: Tóm tắt
Thơng tin đƣợc tóm tắt để có đƣợc bản chất của nó. Thơng tin dài đƣợc trình
bày dƣới dạng bảng hoặc dạng đồ họa và đƣợc lƣu trữ một cách thích hợp. Có
nhiều cơng cụ có thể đƣợc sử dụng nhƣ gói phần mềm, biểu đồ (Pareto, nguyên
nhân và kết quả) và các kỹ thuật khác nhau để tóm tắt thơng tin.
 Bƣớc 4: Phân tích
Thơng tin đƣợc phân tích để tìm ra các mối quan hệ, dự phịng và mơ hình.
Một chuyên gia hoặc một nhóm chuyên gia nên đƣợc chỉ định cho mục
đích này vì kinh nghiệm của ngƣời / nhóm đóng vai trị quan trọng. Sau khi
phân tích thơng tin thông thƣờng ngƣời thực hiện sẽ thực hiện những báo cáo
về nội dung kết quả phân tích.
 Bƣớc 5: Tổng hợp
Đây là bƣớc để biến thông tin trở thành tri thức. Các kết quả phân tích



11
(thƣờng là các báo cáo) đƣợc kết hợp với nhau để rút ra các khái niệm và đồ
tạo tác khác nhau.
Một mơ hình hoặc hành vi của một thực thể có thể đƣợc áp dụng để giải
thích cho một thực thể khác và gọi chung, tổ chức sẽ có một tập hợp các yếu
tố tri thức có thể đƣợc sử dụng trên tồn tổ chức. Tri thức này sau đó đƣợc lƣu
trữ trong cơ sở tri thức tổ chức để sử dụng tiếp.
Cơ sở tri thức đƣợc triển khai trên hệ thống và đƣợc một phần mềm sử
dụng để có thể đƣợc truy cập từ bất cứ đâu thông qua Internet. Ngƣời dùng
cũng có thể mua phần mềm sử dụng cơ sở tri thức hoặc sử dụng một phần
mềm ứng dụng tƣơng tự đƣợc miễn phí.
 Bƣớc 6: Ra quyết định
Ở giai đoạn này, tri thức đƣợc sử dụng để ra quyết định. Ví dụ, khi ƣớc
tính một loại cụ thể của một dự án hoặc một nhiệm vụ, tri thức liên quan đến
các ƣớc tính trƣớc đó có thể đƣợc sử dụng.
Điều này tăng tốc q trình ƣớc tính và thêm độ chính xác cao. Đây là cách
quản lý tri thức tổ chức tăng giá trị và tiết kiệm tiền trong thời gian dài[13].
1.1.3. Công nghệ quản lý tri thức
Cơng nghệ quản lý tri thức có thể đƣợc phân loại:
- Phần mềm nhóm, phần mềm tiện ích tạo điều kiện hợp tác và chia sẻ
thông tin tổ chức. Các ứng dụng này cung cấp các công cụ cho các cuộc thảo
luận theo luồng , chia sẻ tài liệu , email thống nhất trong tồn tổ chức và các
tính năng liên quan đến cộng tác khác.
- Các hệ thống quy trình làm việc, các hệ thống cho phép thể hiện các
quy trình liên quan đến việc tạo, sử dụng và duy trì kiến thức của tổ chức
chẳng hạn nhƣ quy trình để tạo và sử dụng các biểu mẫu và tài liệu.
- Hệ thống quản lý nội dung và quản lý tài liệu, hệ thống phần mềm
giúp tự động hóa quá trình tạo nội dung web hoặc tài liệu. Các vai trò nhƣ



12
biên tập viên, thiết kế đồ họa, nhà văn và nhà sản xuất có thể đƣợc mơ hình
hóa rõ ràng cùng với các nhiệm vụ trong quy trình và tiêu chí xác nhận. Các
nhà cung cấp thƣơng mại bắt đầu hoặc để hỗ trợ các tài liệu hoặc hỗ trợ nội
dung web nhƣng khi Internet phát triển các chức năng này đƣợc hợp nhất và
các nhà cung cấp hiện thực hiện cả hai chức năng.
- Cổng thông tin doanh nghiệp, phần mềm tổng hợp thơng tin trên tồn
bộ tổ chức hoặc cho các nhóm nhƣ nhóm dự án.
- Giáo dục điện tử trực tuyến cho phép các tổ chức đào tạo và giáo dục
tùy chỉnh. Điều này có thể bao gồm các kế hoạch bài học, theo dõi tiến độ và
các lớp học trực tuyến.
- Phần mềm lập kế hoạch và lập lịch trình Phần mềm phần mềm tự
động hóa lịch trình tạo và bảo trì. Các khía cạnh lập kế hoạch có thể tích hợp
với phần mềm quản lý dự án.[5]
- Telepresence EDSoftware cho phép các cá nhân có các cuộc họp "trực
diện" ảo mà không cần lắp ráp tại một địa điểm. Hội nghị truyền hình là ví dụ
rõ ràng nhất.
Công nghệ ngữ nghĩa nhƣ các bản thể học Các hệ thống mã hóa ý nghĩa
bên cạnh dữ liệu để cung cấp cho các máy khả năng trích xuất và suy luận
thông tin[8].
Các loại này chồng chéo lên nhau. Ví dụ, quy trình làm việc là một khía
cạnh quan trọng của hệ thống quản lý nội dung hoặc tài liệu, hầu hết đều có
các cơng cụ để phát triển cổng thơng tin doanh nghiệp[9] [10].
1.1.4. Lợi ích của việc quản lý tri thức
Việc sử dụng quản lý tri thức trong hoạt động của tổ chức cũng nhƣ
doanh nghiệp đều hƣớng đến các lợi ích nhƣ [11]:
- Làm cho nội dung kiến thức tăng lên có sẵn trong việc phát triển và
cung cấp sản phẩm và dịch vụ



13
- Đạt đƣợc chu kỳ phát triển ngắn hơn
- Tạo điều kiện và quản lý đổi mới trong học tập tổ chức
- Tận dụng chun mơn trong tồn tổ chức
- Tăng kết nối mạng giữa các cá nhân bên trong và bên ngồi
- Quản lý mơi trƣờng kinh doanh và cho phép nhân viên có đƣợc những
hiểu biết và ý tƣởng phù hợp với công việc của họ
- Giải quyết các vấn đề khó khăn hoặc xấu xa
- Quản lý vốn trí tuệ và tài sản trong lực lƣợng lao động (nhƣ chun
mơn và bí quyết sở hữu của các cá nhân chủ chốt hoặc đƣợc lƣu trữ trong
kho).
1.2. Tổng quan về ontology
Ontology đã trở thành một công cụ quan trọng trong lĩnh vực Web ngữ
nghĩa. Chúng mở ra cơ hội rộng lớn cho việc xử lý thông tin tự động. Một số
lợi ích của ontology nhƣ [22]:
- Để chia sẻ những hiểu hiểu biết chung về các khái niệm, cấu trúc
thông tin giữa con ngƣời hoặc giữa các hệ thống phần mềm: đây là vai trò
quan trọng nhất của một ontology, không những trong lĩnh vực Web ngữ
nghĩa mà còn trong nhiều ngành và lĩnh vực khác.
- Cho phép tái sử dụng tri thức: đây là một vấn đề khó và là mục tiêu
nghiên cứu quan trọng trong những năm gần đây.
- Cho phép tri thức độc lập với ngôn ngữ: đây cũng là vấn đề liên quan
đến lĩnh vực quản lý tri thức đã nói ở trên.
- Cho phép tri thức trở nên nhất quán và tƣờng minh: các khái niệm
khác nhau trong một hay nhiều lĩnh vực cụ thể có thể cùng tên và gây nhập
nhằng về ngữ nghĩa, tuy nhiên khi đƣợc đƣa vào một hệ thống ontology thì
tên mỗi khái niệm là duy nhất.



14
- Cung cấp một phƣơng tiện cho công việc mô hình hóa: Ontology là
một tập các khái niệm phân cấp đƣợc liên kết với nhau bởi các quan hệ. Cơ
bản mỗi khái niệm có thể xem nhƣ là một lớp, mà đối tƣợng của lớp đó cùng
các quan hệ đã góp phần tạo nên cấu trúc của bài tốn hay vấn đề cần giải
quyết.
- Cung cấp một phƣơng tiện cho việc suy luận: hiện nay, một số ngôn
ngữ ontology đã tích hợp lớp ontology suy luận bên trong cho mục đích suy
diễn trên tập quan hệ giữa các đối tƣợng trong hệ thống.
1.2.1. Giới thiệu về Ontology
Theo triết học thì ontology đƣợc định nghĩa nhƣ sau: “ontology là một
siêu hình học nghiên cứu về sự tồn tại và hiện thân của tự nhiên”
[Aristoteles]; nó đƣợc sử dụng nhƣ tên của một lĩnh vực nghiên cứu về sự tồn
tại của tự nhiên, xác định các vật thể trong tự nhiên và làm thế nào để mô tả
chúng. Chẳng hạn nhƣ quan sát thế giới thực, xác định các đối tƣợng và sau
đó nhóm chúng lại thành các lớp trừu tƣợng dựa trên thuộc tính chung [15].
Trong khoa học máy tính ontology có nhiều định nghĩa, tuy nhiên định
nghĩa đƣợc sử dụng rộng rãi đƣợc đƣa ra bởi Gruber (1993): “Ontology là
một thuyết minh hình thức, rõ ràng của một nhận thức chung”. Định nghĩa
đƣợc phân làm 4 khái niệm chính: mơ tả trừu tƣợng của hiện tƣợng (nhận
thức), diễn đạt rõ ràng bằng tốn học (hình thức), các khái niệm và quan hệ
giữa chúng phải đƣợc định nghĩa một cách chính xác và rõ ràng, tồn tại một
sự đồng thuận của những ngƣời sử dụng ontology (chung).
Tuy nhiên về cơ bản ontology bao gồm các thành phần nhƣ sau:
- Các Cá thể (Individuals): Các thực thể hoặc các đối tƣợng (các đối
tƣợng cơ bản hoặc cấp độ nền)..
- Các Lớp (Classes): Các tập hợp, các bộ sƣu tập, các khái niệm, các
loại đối tƣợng, hoặc các loại khác.



×