Tải bản đầy đủ (.pdf) (85 trang)

ỨNG DỤNG HỆ CHUYÊN GIA XÂY DỰNG HỆ THỐNG HỖ TRỢ TƯ VẤN TUYỂN SINH CHO TRƯỜNG ĐẠI HỌC TÀI CHÍNH - KẾ TỐN QUẢNG NGÃI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.3 MB, 85 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

TẠ THỊ QUỲNH NGỌC

ỨNG DỤNG HỆ CHUYÊN GIA
XÂY DỰNG HỆ THỐNG HỖ TRỢ TƯ VẤN TUYỂN SINH
CHO TRƯỜNG ĐẠI HỌC TÀI CHÍNH - KẾ TỐN
QUẢNG NGÃI

LUẬN VĂN THẠC SĨ
HỆ THỐNG THƠNG TIN

Đà Nẵng - Năm 2019


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

TẠ THỊ QUỲNH NGỌC

ỨNG DỤNG HỆ CHUYÊN GIA
XÂY DỰNG HỆ THỐNG HỖ TRỢ TƯ VẤN TUYỂN SINH
CHO TRƯỜNG ĐẠI HỌC TÀI CHÍNH - KẾ TOÁN
QUẢNG NGÃI

C

n ngàn H
848.01.04


ng

ng n

LUẬN VĂN THẠC SĨ

NGƯỜI HƯ NG
N HO HỌC
PGS. TS. V TRUNG H NG

Đà Nẵng - Năm 2019





ii

ỤC LỤC
LỜI C
ĐO N ...........................................................................................................i
ỤC LỤC ..................................................................................................................... ii
NH
NH
NH

ỤC CÁC TỪ VIẾT TẮT .............................................................................iv
ỤC CÁC BẢNG............................................................................................. v
ỤC CÁC HÌNH ............................................................................................vi


Ở ĐẦU ......................................................................................................................... 1
1. Tính cấp thiết của đề tài ........................................................................................ 1
2. Mục tiêu nghiên cứu .............................................................................................. 2
3. Đối tượng và phạm vi nghiên cứu .........................................................................2
4. Phương pháp nghiên cứu ....................................................................................... 3
5. Ý nghĩa khoa học và thực tiễn của đề tài ............................................................... 3
6. Tổng quan tài liệu nghiên cứu ...............................................................................3
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT .............................................................................4
1.1. Kho dữ liệu ...............................................................................................................4
1.1.1. Giới thiệu về kho dữ liệu ................................................................................4
1.1.2. Dữ liệu trong kho dữ liệu ................................................................................6
1.1.3. Tri thức ............................................................................................................7
1.2. Hệ chuyên gia ...........................................................................................................8
1.2.1. Khái niệm ........................................................................................................8
1.2.2. Đặc trưng và ưu điểm của hệ chuyên gia ...................................................... 10
1.2.3. Kiến trúc tổng quát của hệ chuyên gia .......................................................... 12
1.2.4. Biểu diễn tri thức trong hệ chuyên gia .......................................................... 15
1.2.5. Hệ chuyên gia dựa trên luật ..........................................................................16
1.2.6. Biểu diễn tri thức nhờ mệnh đề logic ............................................................ 19
1.3. Kỹ thuật suy luận trong hệ chuyên gia ....................................................................19
1.3.1. Kỹ thuật suy diễn tiến ................................................................................... 19
1.3.2. Kỹ thuật suy diễn lùi ..................................................................................... 20
1.3.3. Thuật toán Robinson ..................................................................................... 21
1.3.4. Thuật toán Vương Hạo .................................................................................22
1.4. Lý thuyết chọn nghề nghiệp ................................................................................... 23
1.4.1. Lý thuyết cây nghề nghiệp ............................................................................23
1.4.2. Lý thuyết mã Holland ................................................................................... 25
1.4.3. Trắc nghiệm MBTI ....................................................................................... 28
1.5. Tổng kết chương .....................................................................................................30



iii
CHƯƠNG 2. PHÂN TÍCH THIẾT

Ế HỆ THỐNG ..............................................31

2.1. Phân tích hiện trạng ................................................................................................ 31
2.2. Mô tả hệ thống hỗ trợ tư vấn tuyển sinh.................................................................32
2.2.1. Các ngành tuyển sinh tại ĐH TCKT ............................................................ 32
2.2.2. Mô tả hệ thống hỗ trợ TVTS tại trường ĐH TCKT......................................33
2.2.3. Bài tốn TVTS .............................................................................................. 34
2.2.4. Mơ hình đề xuất ............................................................................................ 34
2.3. Phân tích thiết kế hệ thống ..................................................................................... 36
2.3.1. Phân tích lý thuyết nghề nghiệp ....................................................................36
2.3.2. Biểu đồ lớp ....................................................................................................40
2.3.3. Biểu đồ hoạt động ......................................................................................... 42
2.3.4. Biểu đồ ca sử dụng ........................................................................................ 43
2.3.5. Xây dựng tập luật cho hệ thống TVTS tại ĐH TCKT ..................................44
2.4. Tổng kết chương .....................................................................................................51
CHƯƠNG 3. XÂY ỰNG VÀ THỬ NGHIỆ HỆ THỐNG ................................ 53
3.1. Lựa chọn công cụ phát triển ................................................................................... 53
3.2. Xây dựng hệ thống .................................................................................................53
3.2.1. Cách xây dựng tập luật .................................................................................53
3.2.2. Cách xây dựng bộ máy suy diễn ..................................................................54
3.2.3. Xây dựng các chức năng ...............................................................................56
3.3. Kết quả thử nghiệm ................................................................................................ 57
3.3.1. Thiết kế cơ sở dữ liệu.................................................................................... 57
3.3.2. Xây dựng các luật dựa trên các thủ tục lưu trữ nội của SQL Server ............58
3.3.3. Thiết kế giao diện dựa trên phần mềm Visual Studio...................................59
3.4. Tổng kết chương .....................................................................................................64

ẾT LUẬN VÀ HƯ NG PHÁT TRIỂN .................................................................65
TÀI LIỆU TH
HẢO........................................................................................... 66
QUYẾT ĐỊNH GI O ĐỀ TÀI LUẬN VĂN (Bản ao)


iv

NH

ỤC CÁC TỪ VIẾT TẮT

Tiếng Vi t


Cao đẳng

CSDL
CSTT
ĐH

Cơ sở dữ liệu
Cơ sở tri thức
Đại học

ĐH TCKT
GDHN
HCG

Đại học Tài chính - Kế toán

Giáo dục hướng nghiệp
Hệ chuyên gia

HĐGDNPT

Hoạt động giáo dục nghề phổ thông

HLS

Hệ luật sinh

HS
KT

Học sinh
Kỹ thuật

LTCNN

Lý thuyết cây nghề nghiệp

NC
NPT
NV
QL
SV

Nghiên cứu
Nghề phổ thông
Nghiệp vụ

Quản lý
Sinh viên

TC
TCCN
THCS
THPT
TVTS
XH

Trung cấp
Trung cấp chuyên nghiệp
Trung học cơ sở
Trung học phổ thông
Tư vấn tuyển sinh
Xã hội

Tiếng Anh
DW

Data Warehourse

ES

Expert System

PHP

Personal Home Page (hay Hypertext PreProcessor)


RIASEC

Realistic-Investigate-Artistic-Social-EnterissingConventional


v

NH
S
bảng

ỤC CÁC BẢNG
Tên bảng

Trang

1.1.

Bảng so sánh giữa chuyên gia con người và HCG

10

1.2.

Biểu diễn bằng logic vị từ

19

1.3.


Giá trị phân nhóm trong trắc nghiệm MBTI

29

2.1.

Danh sách các ngành tuyển sinh bậc đại học tại ĐH TCKT

32

2.2.

Bảng tóm tắt 6 nhóm tính cách/mơi trường làm việc

37


vi

NH
S hi
n

ỤC CÁC HÌNH
Tên hình

Trang

1.1.


Cơ sở dữ liệu và kho dữ liệu

4

1.2.

Mơ hình dữ liệu, thơng tin và tri thức

7

1.3.

Q trình khai phá tri thức trong kho dữ liệu

8

1.4.

Hoạt động của hệ chuyên gia

9

1.5.

Những thành phần cơ bản của một HCG

13

1.6.


Kiến trúc HCG theo J. L. Ermine

14

1.7.

Kiến trúc HCG theo C. Ernest

15

1.8.

Kiến trúc HCG theo E. V. Popov

15

1.9.

Lược đồ biểu diễn tri thức

15

1.10.

Quy trình hoạt động của Recognize-Action

17

1.11.


Kiến trúc HCG dựa trên luật

18

1.12.

Mơ hình LTCNN

24

1.13.

Mơ hình lục giác Holland

26

2.1.

Mơ hình tổng thể hệ thống

35

2.2.

Biểu đồ lớp cho hệ hỗ trợ TVTS tại ĐH TCKT

41

2.3.


Biểu đồ hoạt động - Tư vấn dựa trên điểm thi

42

2.4.

Biểu đồ hoạt động - Tư vấn dựa trên lý thuyết nghề

42

2.5.

Biểu đồ hoạt động - Tư vấn dựa trên điểm thi và lý thuyết nghề

43

2.6.

Biểu đồ ca sử dụng - mức tổng quát

43

2.7.

Biểu đồ ca sử dụng phân rã - dành cho thí sinh

43

2.8.


Biểu đồ ca sử dụng phân rã - dành cho học sinh

44

2.9.

Biểu đồ ca sử dụng phân rã - dành cho quản trị viên

44

3.1.

Bảng dữ liệu Co_Khoi_Thi

57

3.2.

Bảng dữ liệu câu hỏi

58

3.3.

Một số cửa sổ trong thiết kế cơ sở dữ liệu

58

3.4.


Sử dụng các thủ tục lưu trữ nội để xây dựng tập luật

59

3.5.

Giao diện ứng dụng soạn thảo Visual Studio

59

3.6.

Giao diện hệ thống tư vấn tuyển sinh

60

3.7.

Giao diện quản trị người dung

60

3.8.

Giao diện thêm mới ngành nghề

61

3.9.


Giao diện cập nhật điểm chuẩn theo ngành

61


vii
S hi
n

Tên hình

Trang

3.10.

Giao diện tư vấn tuyển sinh dựa theo điểm

62

3.11.

Giới thiệu giao diện trắc nghiệm chọn ngành nghề

63

3.12.

Màn hình giao diện TNNN dựa trên Holland

63



1

Ở ĐẦU
1. Tín cấp

ế của đề ài

Trong giai đoạn đất nước phát triển hiện nay, giáo dục luôn là vấn đề được quan
tâm hàng đầu của xã hội. Đối với cơng tác tuyển sinh đã có rất nhiều chương trình tư
vấn tuyển sinh rộng khắp trên tất cả các tỉnh, thành trong cả nước với nhiều hình thức
phong phú. Tuy nhiên thời gian gần đây do công tác tuyển sinh có nhiều thay đổi cả về
nội dung lẫn hình thức nên rất nhiều thí sinh và cả gia đình khá bối rối, việc tư vấn
tuyển sinh và chọn ngành học phù hợp là nhu cầu mà xã hội đang quan tâm. Mặc dù
hằng năm, phần lớn các trường đều tổ chức các đợt tư vấn cho thí sinh, tuy nhiên việc
này còn phụ thuộc vào nhiều yếu tố như địa điểm, thời gian, nhân sự,... Do vậy, vẫn
còn khá nhiều thí sinh cảm thấy thiếu thơng tin về các trường, các ngành mình quan
tâm. Bên cạnh đó, một số trường cũng đã thiết lập các trang web để nhận và trả lời câu
hỏi của thí sinh nhưng các trang này đa phần là nhận câu hỏi của thí sinh sau đó việc
giải đáp cũng khơng được trực tuyến.
Chúng ta có thể thấy rằng, đa phần việc chọn trường chuyên nghiệp của học
sinh và gia đình vẫn cịn theo kiểu truyền thống đó là: theo ý chủ quan của gia đình,
theo hiệu ứng đám đơng và theo một ý thích bộc phát từ cá nhân của học sinh. Phụ
huynh luôn muốn con em mình có được một tương lai vững chắc. Các trường đào tạo
luôn hy vọng các học sinh chọn được đúng ngành nghề mình theo đuổi để góp phần
nâng cao chất lượng đào tạo và hạn chế tình trạng bỏ học hoặc chuyển ngành.
Hậu quả của việc chọn trường này dẫn đến tình trạng: một số học sinh, sau khi học
một năm ở các trường đại học họ cảm thấy chán nản và tự ý bỏ học; một số vì theo sự lựa
chọn của gia đình đã tạo ra một áp lực tâm lý - trầm cảm… Vì vậy, việc tư vấn tuyển sinh

tốt sẽ khắc phục được tình trạng trên và nâng cao được chất lượng đào tạo chuyên nghiệp
và góp phần cho việc bổ sung nguồn nhân lực có chất lượng cao cho đất nước hiện nay.
Theo thống kê của Tổng cục thống kê, lực lượng lao động từ 15 tuổi trở lên của
cả nước ước tính trong quý 1 năm 2018 là 55,1 triệu người. Trong đó lao động 15 tuổi
trở lên có việc làm trong quý I năm 2018 ước tính là 54,0 triệu người. Tỷ lệ thất
nghiệp trong độ tuổi là 2,2%; tỷ lệ thiếu việc làm trong độ tuổi là 1,4%. Như vậy,
chúng ta thấy rằng vẫn còn sự mất cân đối trong việc định hướng và lựa chọn ngành
nghề cho lực lượng lao động trong cả nước (Tháng 10/2018).
Trường ĐH TCKT là trường thuộc Bộ tài chính, đóng trên địa bàn thành phố
Quảng Ngãi. Trường được nâng cấp thành trường đại học vào năm 2011, tiền thân là
Trường Trung học Tài chính - Kế toán 3 được thành lập năm 1976. Trường ĐH TCKT


2
đào tạo với các ngành: Quản trị kinh doanh, Tài chính - Ngân hàng, Kế tốn, Kiểm
tốn, Kinh doanh quốc tế, Luật kinh tế, Quản trị khách sạn và du lịch, Hệ thống thơng
tin kế tốn. Tổng số sinh viên toàn trường khoảng 5.000 sinh viên và mỗi năm tuyển
mới khoảng 1.500 tân sinh viên. Tuy nhiên, hàng năm đều có khơng ít trường hợp sinh
viên bỏ học, tỷ lệ sinh viên tốt nghiệp ra trường có việc làm khá cao - 89.5% năm
2017, nhưng sinh viên làm đúng ngành không cao. Mặc dù nhà trường luôn quan tâm
đẩy mạnh chất lượng đào tạo, cải tiến phương pháp giảng dạy, đổi mới chương trình
theo nhu cầu xã hội. Nhưng vẫn chưa giải quyết triệt để vấn đề. Một phần là do công
tác tư vấn tuyển sinh chưa đạt hiệu quả cao. Hiện tại, trường đã có website tuyển sinh
tại địa chỉ htttp://tuyensinh.tckt.edu.vn nhưng chỉ dừng lại ở mức là gửi email, nhắn
tin, để lại số điện thoại, hoặc câu hỏi rồi chờ cán bộ chuyên trách trả lời, còn phần
tương tác trực tiếp, mọi lúc mọi nơi với phụ huynh và học sinh cũng như phần tư vấn
chọn ngành nghề phù hợp cho học sinh thì chưa đáp ứng được. Đó là lý do để tơi chọn
đề tài “ Ứng dụng hệ chuyên gia xây dựng hệ thống hỗ trợ tư vấn tuyển sinh cho rường
Đại học Tài chính - Kế toán Quảng Ngãi” để làm đề tài luận văn tốt nghiệp cao học.
Trong đề tài này, tôi đề xuất giải pháp ứng dụng hệ chuyên gia để xây dựng hệ thống

tư vấn tuyển sinh trực tuyến nhằm cải thiện tình trạng chọn sai ngành của sinh viên
trường ĐH TCKT Quảng Ngãi.
2. Mục tiêu nghiên cứu
Mục tiêu của đề tài là nghiên cứu một số lý thuyết về hệ chuyên gia và lý
thuyết chọn nghề nghiệp trợ giúp các thí sinh có thể chọn đúng ngành - nghề khi đăng
ký xét tuyển vào trường đại học và xây dựng hệ chuyên gia ứng dụng trong lĩnh vực
tư vấn tuyển sinh của trường ĐH TCKT.
3. Đ

ượng và phạm vi nghiên cứu

3.1. Đối tượng nghiên cứu
Đối tượng nghiên cứu của đề tài là cơ sở lý thuyết về hệ chuyên gia, hoạt động
tư vấn tuyển sinh của trường đại học, lý thuyết chọn nghề nghiệp, ngơn ngữ lập
trình… và một số bài báo, luận văn tốt nghiệp khóa trước.
3.2. Phạm vi nghiên cứu
Trong khuôn khổ của luận văn này, tôi tập trung nghiên cứu cách tạo tập luật; lưu trữ
tri thức vào cơ sở dữ liệu; cách biểu diễn cũng như cơ chế suy diễn từ tri thức có sẵn để đưa
ra các tư vấn phù hợp cho thí sinh. Bên cạnh đó, đề tài này tập trung tìm hiểu những bất cập
đang tồn tại trong công tác TVTS tại trường ĐH TCKT để từ đó xây dựng một hệ thống hỗ
trợ tư vấn theo mơ hình kiến trúc của hệ chun gia.


3
4. P ương pháp nghiên cứ
Để đạt được những yêu cầu trên, tôi sử dụng chủ yếu hai phương pháp chính là
phương pháp nghiên cứu tài liệu và phương pháp thực nghiệm.
Phương pháp nghiên cứu tài liệu: Tôi sử dụng phương pháp này trong nghiên
cứu các tài liệu về cơ sở lý thuyết: hệ chuyên gia, cách tạo tập luật; các tài liệu mô tả
một số hệ thống tư vấn.

Phương pháp thực nghiệm: Phương pháp này được tôi sử dụng để khảo sát tình
hình TVTS tại trường ĐH TCKT. Từ kết quả khảo sát đó, tơi tiến hành phân tích
các yêu cầu và thiết kế giải pháp TVTS dựa trên hệ chuyên gia. Kết quả hệ thống
được xây dựng sẽ được thử nghiệm trên máy cục bộ và trên internet.
5. Ý ng ĩa khoa ọc và

ực tiễn của đề tài

Về khoa học: Hệ thống hóa các vấn đề lý luận về cơng tác tuyển sinh của
Trường ĐH TCKT, từ đó nghiên cứu các mơ hình kiến trúc hệ chun gia và đưa ra
giải pháp phù hợp trong lĩnh vực tư vấn tuyển sinh.
Về thực tiễn: Đề tài sẽ là một phương án khác cho công tác tuyển sinh của đơn vị;
Kết quả nghiên cứu của đề tài sẽ góp phần cải thiện tình trạng chọn sai ngành học của các
SV tại trường ĐH TCKT. Đồng thời, kết quả đề tài là hệ tư vấn cũng sẽ trở thành một
kênh thông tin tham khảo bổ ích cho các HS cuối cấp quyết định cho tương lai của mình.
6. Tổng quan tài li u nghiên cứu
Báo cáo của luận văn được tổ chức thành 3 chương chính:
C ương 1. Cơ ở lý

ế

Trong chương này, tôi trınh bay một cách tổng quan về hệ chuyên gia và một số
lý thuyết trong hướng nghiệp.
C ương 2. P ân íc ,

ế kế

ng

Trong chương này, từ phân tích thực trạng TVTS tại trường ĐH TCKT hằng

năm, tơi trình bày hướng khắc phục những hạn chế trên bằng cách mơ tả một hệ
thống để tin học hóa quá trình TVTS. Đồng thời, nội dung chương này cũng đề xuất
giải pháp xây dựng hệ thống theo mơ hình của hệ chuyên gia (HCG). Bên cạnh đó,
nội dung chương cũng trình bày phân tích các lý thuyết về hướng nghiệp như lý
thuyết cây nghề nghiệp, lý thuyết mã Holland để xây dựng các luật cho HCG.
C ương 3. Xây dựng và t ử ng

m

ng

Từ cơ sở lý thuyết đã tìm hiểu ở chương 1 và mơ hình hệ chun gia được lựa chọn
sau q trình phân tích hệ thống ở chương 2, với chương 3 này tôi tiếp tục lựa chọn ngơn
ngữ lập trình và mơi trường phát triển để xây dựng và thử nghiệm hệ thống.


4

CHƯƠNG 1
CƠ SỞ LÝ THUYẾT
Trong chương này, các nội dung được trình bày chủ yếu liên quan đến các
vấn đề như: hệ chuyên gia, tư vấn tuyển sinh - hướng nghiệp...
1.1.

o dữ l

1.1.1. Giới thiệu về kho dữ liệu
a) Khái niệm
Kho dữ liệu (DW - Data Wasehouse) là tuyển tập các cơ sở dữ liệu tích hợp,
hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định.


Hình 1.1. Cơ sở dữ liệu và kho dữ liệu
Theo John Ladley [9], Công nghệ kho dữ liệu (Data Warehouse Technology) là
tập các phương pháp, kỹ thuật và các cơng cụ có thể kết hợp, hỗ trợ nhau để cung cấp
thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều mơi
trường khác nhau.
Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte. Kho
dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ
liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện
đại và kế thừa được từ những hệ thống đã có sẵn từ trước.
DW ngồi cơ sở dữ liệu, cịn có rất nhiều thành phần bổ sung để tạo nên một
cấu trúc hồn chỉnh, gồm tập hợp các cơng cụ ETL (Extract, Transform and Load) có
nhiệm vụ xử lý, thu thập và cập nhật dữ liệu vào kho (qua OLAP Cude), công cụ tạo
báo cáo (Reporting), công cụ khai phá dữ liệu (Data mining), quan hệ khách hàng
(CRM), quan hệ doanh nghiệp (ERM)...
DW ngoài các chức năng mở rộng của định nghĩa về cơ sở dữ liệu, khái niệm


5
Hệ điều hành trong DW chỉ được hiểu như quá trình quản lý giao dịch hàng ngày của
một kho dữ liệu; điều này sẽ tách biệt với khái niệm về hệ điều hành trước đây - OS.
b) Mục đích sử dụng kho dữ liệu
Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các tiêu chuẩn cơ bản sau:

- Phải có khả năng đáp ứng mọi yêu cầu về thông tin của NSD
- Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của
mình, như có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, năng
suất cao hơn, thu được lợi nhuận cao hơn...

- Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ

một cách hiệu quả và chính xác

- Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau
- Muốn đạt được những yêu cầu trên thì DW phải:
+ Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ
liệu theo những hướng chủ đề nhất định
+ Tổng hợp và kết nối dữ liệu
+ Đồng bộ hoá các nguồn dữ liệu với DW
+ Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các
công cụ chuẩn để phục vụ cho DW
+ Quản lý siêu dữ liệu
+ Cung cấp thơng tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo các
chủ đề
+ Dùng trong các hệ thống hỗ trợ quyết định (Decision Support System - DSS),
các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt
c) Các đặc điểm cơ bản
Những đặc điểm cơ bản của Kho dữ liệu (DW) là một tập hợp dữ liệu có đặc
điểm sau:

- Hướng chủ đề (Subject Oriented): DW được thiết kế để giúp phân tích dữ
liệu. Ví dụ, để hiểu rõ hơn về dữ liệu kinh doanh của cơng ty, có thể xây dựng DW
lưu trữ dữ liệu súc tích, cơ đọng nhất trong dữ liệu kinh doanh, từ đó có thể giúp
nhà quản lý trả lời được các câu hỏi như “Ai là khách hàng tốt nhất vào năm
trước?”, “Ai sẽ là khách hàng tiềm năng vào năm tiếp theo?”.

- Tính tích hợp (Integration): Là một đặc tính quan trọng nhất của DW, dữ liệu
đưa vào data warehouse được tập hợp từ nhiều nguồn khác nhau, bao gồm các
RMDB, flat files, các bản ghi giao dịch trực tuyến.

- Dữ liệu gắn thời gian và có tính lịch sử (Time Series Data): DW tập trung vào



6
những thay đổi theo mốc thời gian, với lượng dữ liệu lớn có tính lịch sử vậy có thể
tìm ra những thơng tin có tính xu hướng trong dữ liệu.

- Dữ liệu có tính ổn định (Nonvolatility): Dữ liệu trong DW thường khơng thể
thay đổi. Điều này có thể gây ra một số khó khăn nhưng hợp lý so với mục đích
của DW, phân tích những gì đã xảy ra.

- Dữ liệu không biến động (Durable): Thông tin trong DW được tải vào sau
khi dữ liệu trong hệ thống điều hành được cho là q cũ. Tính khơng biến động thể
hiện ở chỗ: Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù dữ liệu mới
được nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xóa, điều đó cho phép
cung cấp thơng tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho
các mơ hình nghiệp vụ phân tích, dự báo, từ đó có được những quyết định hợp lý,
phù hợp với các quy luật tiến hóa của tự nhiên.

- Dữ liệu tổng hợp (Summary data): dữ liệu tác nghiệp thuần túy không được
lưu trữ trong kho dữ liệu, dữ liệu tổng hợp được tích lại qua nhiều giai đoạn khác
nhau theo các chủ điểm đã nêu trên.
1.1.2. Dữ liệu trong kho dữ liệu
Dữ liệu trong kho dữ liệu ngoài 2 loại dữ liệu truyền thống OLTP là siêu dữ liệu và
dữ liệu thơ, cịn có một loại dữ liệu mới là dữ liệu tổng hợp. Dữ liệu tổng hợp rất quan
trọng trong kho dữ liệu bởi vì nó tính tốn trước các tốn hạng dài trước. Lấy ví dụ, kiểu
dữ liệu đặc trưng truy vấn trong kho dữ liệu sẽ trả về một số giá trị như bán hàng trong
tháng 8. Kho dữ liệu không thường sử dụng chuẩn hạng 3 trong cơ sở dữ liệu.
Với cơ sở dữ liệu, có mối quan hệ một - một với một ứng dụng đơn lẻ làm
nguồn của nó. Một ứng dụng xử lý thẻ tín dụng là một ví dụ tuyệt vời về một nguồn dữ
liệu đơn lẻ có thể chạy trên cơ sở dữ liệu OLTP. Loại cơ sở dữ liệu này chứa dữ liệu

chi tiết cao cũng như quan điểm chi tiết quan hệ. Bảng được chuẩn hóa để đạt được
lưu trữ hiệu quả, xử lý giao dịch đồng thời, cũng như trả về kết quả truy vấn nhanh.
Kho dữ liệu lưu trữ dữ liệu lịch sử tóm tắt từ nhiều ứng dụng khác nhau, có một
mối quan hệ một đến nhiều giữa một kho dữ liệu và các ứng dụng phục vụ như là
nguồn dữ liệu. Ví dụ về các nguồn dữ liệu bao gồm nhưng không giới hạn trong quản
lý quan hệ khách hàng (CRM), quản lý tài ngun doanh nghiệp (ERP) hoặc thậm chí
dữ liệu truyền thơng xã hội.
Cơ sở dữ liệu hướng giao dịch và kho dữ liệu được xây dựng để thực hiện phân
tích. Nếu công ty chúng ta xử lý các giao dịch kỹ thuật số hoặc thu thập dữ liệu, bạn sẽ
cần một cơ sở dữ liệu. Tuy nhiên, nếu khi chúng ta cần thực hiện phân tích dữ liệu để
khám phá xu hướng, cải thiện năng suất hoặc phát hiện ra các vấn đề, kho dữ liệu trở
thành tài nguyên vô giá.


7
1.1.3. Tri thức
Một vấn đề rất quan trọng để dẫn đến thành công là việc biết sử dụng thông tin
một cách có hiệu quả. Điều đó có nghĩa là từ các dữ liệu sẵn có phải tìm ra những
thơng tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện, phải tìm ra những xu
hướng phát triển và những yếu tố tác động lên chúng. Thực hiện công việc đó chính là
thực hiện q trình phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in
Database - KDD) mà trong đó kỹ thuật này cho phép ta lấy được các tri thức chính là
pha khai phá dữ liệu.
Trước khi đi vào tìm hiểu các giai đoạn trong KDD ta đưa ra một số ví dụ để
phân biệt ba khái niệm: dữ liệu, thông tin và tri thức. Dữ liệu thường được cho bởi các
giá trị mô tả các sự kiện, hiện tượng cụ thể. Còn tri thức là gì? Có thể có những định
nghĩa rõ ràng để phân biệt các khái niệm dữ liệu, thông tin và tri thức hay không? Tri
thức là một khái niệm rất trừu tượng. Do đó, chúng ta sẽ khơng cố gắng đưa ra một
định nghĩa hình thức chính xác ở đây. Thay vào đó, chúng ta hãy cùng nhau cảm nhận
khái niệm tri thức bằng cách so sánh nó với hai khái niệm khác là thông tin và dữ liệu.

Nhà bác học nổi tiếng Karan Sing đã từng nói rằng “Chúng ta đang ngập chìm
trong biển thơng tin nhưng lại đang đói tri thức” [2]. Câu nói này làm nổi bật sự khác
biệt về lượng lẫn về chất giữa hai khái niệm thơng tin và tri thức. Cũng có thể quan
niệm thông tin là quan hệ giữa các dữ liệu. Các dữ liệu được sắp xếp theo một thứ tự
hoặc được tập hợp lại theo một quan hệ nào đó sẽ chứa đựng thông tin. Nếu những
quan hệ này được chỉ ra một cách rõ ràng thì đó là các tri thức. Chẳng hạn trong toán
học: Bản thân từng con số riêng lẻ như 1, 1, 3, 5, 2, 8, 13, ... là các dữ liệu. Tuy nhiên,
khi đặt chúng lại với nhau theo trật tự 1, 1, 2, 3, 5, 8, 13, 21, 34, ... thì giữa chúng đã
bắt đầu có một mối liên hệ. Mối liên hệ này có thể được biểu diễn bằng công thức U n =
Un-1 + Un-2 nếu n ≥ 3. Công thức nêu trên chính là tri thức.

Hình 1.2. Mơ hình dữ liệu, thơng tin và tri thức


8
Các bước của một quá trình khám phá tri thức:

Hình 1.3. Quá trình khai phá tri thức trong kho dữ liệu

- Chọn lọc dữ liệu (Data Selection): Đây là giai đoạn tập hợp các dữ liệu
được khai thác từ một CSDL, một kho dữ liệu, thậm chí từ các nguồn ứng dụng
web vào một CSDL riêng. Chúng ta chỉ chọn ra những dữ liệu cần thiết cho các
giai đoạn sau. Tuy nhiên, công việc thu gom dữ liệu vào một CSDL lớn thường rất
khó khăn vì dữ liệu nằm ở khắp nơi và dạng tạo lập khác nhau.

- Tiền xử lý dữ liệu (Preprocessing): Phần lớn các CSDL đều ít nhiều mang
tính khơng nhất qn. Vì vậy khi gom dữ liệu rất có thể mắc một số lỗi như dữ liệu
không đầy đủ, chặt chẽ và không logic (bị trùng lặp, giá trị bị sai lệch...). Do đó
cần phải được “tiền xử lý” trước khi khai phá dữ liệu nếu không sẽ gây nên những
kết quả sai lệch nghiêm trọng.


- Chuyển đổi dữ liệu (Data Transformation): Trong giai đoạn này dữ liệu sẽ
được chuyển đổi về dạng thuận tiện để tiến hành các thuật toán khám phá dữ liệu.

- Khai phá dữ liệu (Data Mining): Trong giai đoạn này ta sử dụng các kỹ
thuật nhằm phát hiện ra các tri thức tiềm ẩn trong dữ liệu. Một số kỹ thuật được sử
dụng đó là: phân lớp, gom cụm, luật kết hợp…

- Đánh giá kết quả mẫu: Đây là giai đoạn cuối cùng trong tiến trình KDD.
Trong giai đoạn này, các mẫu dữ liệu được chiết xuất bởi các phần mềm khai phá
dữ liệu. Không phải bất cứ mẫu nào cũng đều có ích, thậm chí cịn bị sai lệch.
Chính vì vậy, cần phải xác định và lựa chọn những tiêu chuẩn đánh giá sao cho sẽ
chiết xuất ra các tri thức cần thiết.
1.2. H c

nga

1.2.1. Khái niệm
Hệ chuyên gia còn gọi là hệ thống dựa trên tri thức, là một chương trình máy


9
tính chứa một số tri thức đặc thù của một hoặc nhiều chuyên gia con người về một chủ
đề cụ thể nào đó. Các chương trình thuộc loại này đã được phát triển từ thập niên 1960
-1970 và trở thành ứng dụng thương mại từ thập niên 1980. Dạng phổ biến nhất của hệ
chuyên gia là một chương trình gồm một tập luật phân tích thơng tin (thường được
cung cấp bởi người sử dụng hệ thống) về một lớp vấn đề cụ thể, cũng như đưa ra các
phân tích về các vấn đề đó và tùy theo thiết kế chương trình mà đưa lời khuyên về
trình tự các hành động cần thực hiện để giải quyết vấn đề. Đây là một hệ thống sử
dụng các khả năng lập luận để đạt tới các kết luận.

Theo E. Feigenbaum: “Hệ chuyên gia (Expert System) là một chương trình máy
tính thơng minh sử dụng tri thức (knowledge) và các thủ tục suy luận (inference
procedures) để giải những bài tốn tương đối khó khăn đòi hỏi những chuyên gia mới
giải được” [1].
HCG là một hệ thống tin học có thể mơ phỏng năng lực quyết đoán và hành
động của một chuyên gia (con người). HCG là một trong những lĩnh vực ứng
dụng của trí tuệ nhân tạo (AI). HCG sử dụng tri thức của những chuyên gia để giải
quyết các vấn đề khác nhau thuộc mọi lĩnh vực. Tri thức trong HCG phản ánh sự tinh
thơng được tích tụ từ sách vở, tạp chí, các chun gia hay các nhà khoa học. HCG
cịn có tên gọi khác là hệ thống dựa trên tri thức (knowledge - base system) hoặc HCG
dựa trên tri thức (Expert System Based Knowledge) [3].
Thông thường, các nhà thiết kế HCG thu thập tri thức này, bao gồm lý thuyết
đến các kinh nghiệm, kỹ xảo, phương pháp làm tắt, các luật dùng để chọn ra cách
để giải quyết vấn đề có nhiều khả năng được chấp nhận nhất (chiến lược heuristic)
đã tích lũy được của các chuyên gia con người qua quá trình làm việc của họ trong
một lĩnh vực chuyên môn. Từ tri thức này, người ta cố gắng cài đặt chúng vào hệ
thống để hệ thống có thể mơ phỏng theo cách thức các chuyên gia làm việc. Tuy
nhiên, khơng giống với con người, các chương trình hiện tại không tự học lấy kinh
nghiệm mà tri thức phải được lấy từ con người và mã hóa thành ngơn ngữ hình
thức. Đây chính là nhiệm vụ chính của các nhà thiết kế HCG phải đương đầu.

Hình 1.4. Hoạt động của hệ chuyên gia


10
Ngày nay, HCG được ứng dụng trong nhiều lĩnh vực khác nhau như y học,
tốn học, cơng nghệ, hóa học, địa chất, khoa học máy tính, kinh doanh, luật pháp,
quốc phòng và giáo dục.
Chuyên gia con người là tài nguyên quý giá cho nhiều tổ chức. Họ có thể giải
quyết những vấn đề khó và hiệu quả. Vậy có giá trị không khi chúng ta cố gắng xây

dựng một HCG nhằm thay thế cho chuyên gia con người? Bảng so sánh 1.1 sau đây
sẽ phần nào trả lời được câu hỏi trên.
Bảng 1.1. Bảng so sánh giữa chuyên gia con người và HCG
Tiêu chí
Sẵn dùng
Vị trí
An tồn
Có thể chết
Hiệu suất
Tốc độ
Chi phí

Chun gia con người
Thời gian hành chính
Cục bộ
Khơng thể thay thế

Thay đổi
Thay đổi
Cao

H chuyên gia
Mọi lúc
Mọi nơi
Có thể thay thế
Khơng
Hằng số
Hằng số
Có thể cố gắng


Như vậy, qua bảng so sánh 1.1, ta nhận thấy rằng việc phát triển một HCG thay
cho chuyên gia con người là hoàn toàn cần thiết. Khơng những thế việc phát triển
HCG cịn mang ý nghĩa lớn trong việc trợ giúp cho các chuyên gia con người. Bởi vì
trí nhớ của con người thì có thể giảm sút theo thời gian dẫn đến hiệu quả làm việc kém
dần cịn máy tính thì khơng như vậy.
1.2.2. Đặc trưng và ưu điểm của hệ chuyên gia
Một HCG thường có các đặc trưng cơ bản sau [3]:

- Phân tách tri thức và điều khiển: Như trong hệ luật sinh/hệ sinh
(Production System), bộ điều khiển nhận dạng - hành động (Recognize Action control) hoạt động trong vòng lặp của hệ sinh, cịn các tri thức được mã
hóa vào trong các luật. Ưu điểm của sự tách biệt này là dễ thay đổi loại cơ sở tri
thức (CSTT) mà không thay đổi việc điều khiển chương trình và ngược lại.

- Sở hữu tri thức chuyên gia: HCG có chứa tri thức của lĩnh vực trong cơ sở
tri thức. Nhờ có tri thức mà nó có giá trị. Đặc biệt tri thức này có thể được nhân ra
thành nhiều bản, có thể cập nhật trong khi hệ thống đã được triển khai.

- Tính chuyên gia trong lĩnh vực hẹp: Cũng giống như chuyên gia con
người, HCG được phát triển nhằm vào một lĩnh vực hẹp vì trong lĩnh vực hẹp đó,
số lượng tri thức cũng nhỏ hơn giúp cho người thiết kế dễ dàng quản lý hơn, dễ
dàng thử nghiệm chiến lược điều khiển trong động cơ suy diễn.


11

- Suy luận trên ký hiệu: Chúng ta có thể dùng ký hiệu để thể hiện tri thức cho
HCG. Chính vì vậy mà có thể tận dụng được các giải thuật trên ký hiệu như phép
toán vị từ để suy luận tri thức.

- Suy luận có heuristic: Chuyên gia con người có thể từ kinh nghiệm của

mình để dẫn ra cách giải quyết vấn đề hiệu quả hơn. Để có thể hiện thực điều này
trong HCG, người thiết kế cần phải có cách đánh giá thứ tự ưu tiên của các luật,
để từ một ngữ cảnh nào đó có thể chọn một luật có lý nhất để bắt đầu.

- Cho phép suy luận khơng chính xác: HCG có một khả năng rất mạnh, đó
là nó có thể làm việc với các vấn đề đang thiếu thơng tin, hay có những hỗn tạp,
không rõ ràng. Cũng giống như trường hợp: một đội ngũ bác sĩ đang phải cứu một
bệnh nhân hấp hối, lúc đó họ khơng cịn kịp thời gian để làm tất cả các xét nghiệm
cần thiết. Khi thiếu thông tin như vậy, họ đành tiến hành những cách có lý nhất
theo họ. Chúng ta cũng có thể hiện thực cho HCG có tính chất đó bằng cách đưa
vào những luật tương ứng với tình huống thiếu thơng tin để động cơ suy diễn vận
dụng.

- Bị giới hạn vào vấn đề giải quyết: Khơng phải mọi vấn đề đều có thể giải
quyết bởi HCG. Cụ thể, nếu lĩnh vực chúng ta muốn xây dựng HCG hiện tại chưa
có hoặc chưa cần một chuyên gia con người thì việc xây dựng HCG khó mà thành
cơng.

- Giải quyết các vấn đề có độ phức tạp vừa phải: Nếu vấn đề quá khó, yêu
cầu chuyên gia con người đến vài giờ, cần thiết nghĩ đến khả năng chia thành
nhiều bài toán con tương ứng mỗi HCG con.

- Có khả năng bị lỗi: Giống như chuyên gia con người, HCG cũng có khả
năng bị lỗi. Chính vì vậy cần phải đưa vào khả năng phục hồi lại lỗi cho HCG tức
là HCG có khả năng lưu vết q trình suy luận, nếu nó đưa ra một kết luận mà
người dùng kiểm nghiệm thực tế có sai và báo cho HCG, lúc đó nó phải có khả
năng ghi nhận và theo đuổi một hướng suy luận khác. Đặc điểm này khơng có
trong các chương trình truyền thống.
Những ưu điểm của HCG:


- Phổ cập (increased availability): HCG là một sản phẩm của chuyên gia,
được phát triển khơng ngừng và có hiệu quả sử dụng khơng thể phủ nhận.

- Giảm chi phí (reduced cost): Việc sử dụng HCG để giải quyết một vấn đề
thường có chi phí thấp hơn so với việc tìm một chuyên gia để giải quyết vấn đề
đó.

- Giảm rủi ro (reduced risk): Sử dụng HCG sẽ giúp con người tránh được


12
các mơi trường rủi ro, nguy hiểm.

- Tính thường trực (permanance): HCG có thể được triển khai sử dụng bất
kể lúc nào trong khi con người có thể mệt mỏi, nghỉ ngơi hay vắng mặt.

- Đa lĩnh vực (multiple expertise): Hiện nay HCG được xây dựng phục vụ
cho rất nhiều lĩnh vực khác nhau và được khai thác đồng thời bất kể thời gian sử
dụng.

- Tăng độ tin cậy (increased reliability): Khi khai thác sử dụng một HCG
luôn đảm bảo được độ tin cậy đối với người sử dụng hệ thống.

- Khả năng giảng giải (explanation): Câu trả lời với mức độ tinh thơng và
được giải thích rõ ràng chi tiết, dễ hiểu khi người dùng yêu cầu.

- Khả năng trả lời nhanh (fast reponse): Các hệ thống chuyên gia thường có
câu trả lời theo thời gian thực, khách quan, nhanh bằng hoặc nhanh hơn một
chuyên gia là con người. Do trí nhớ con người thì giới hạn mà tốc độ truy xuất của
máy tính thì ngày càng được cải thiện cao hơn.


- Tính ổn định, suy luận có lý và đầy đủ mọi lúc mọi nơi (steady,
unemotional, and complete response at all times): HCG thường hoạt động ổn định,
đảm bảo các câu trả lời đều khách quan, không cảm tính như chun gia là con
người.

- Trợ giúp thơng minh như một người hướng dẫn (intelligent-tutor):
HCG là một hệ thống thơng minh, có khả năng trả lời câu hỏi, giải thích, hỗ trợ
người dùng ra quyết định kịp thời, nhanh chóng. HCG đóng vai trị như một
người bạn đồng hành thơng minh và đáng tin cậy.

- Có thể truy cập như là một cơ sở dữ liệu thông minh (Intelligent
Database): HCG được xây dựng bởi các chuyên gia tri thức. Tri thức mà hệ
thống có được là các tri thức của chuyên gia, rất có giá trị. Bên cạnh đó, HCG
cịn có khả năng tự học hỏi, tự tích lũy tri thức để ngày càng hoàn thiện.
1.2.3. Kiến trúc tổng quát của hệ chuyên gia
a) Những thành phần cơ bản của hệ chuyên gia
Một HCG kiểu mẫu gồm 7 thành phần cơ bản như sau:


13

Hình 1.5. Những thành phần cơ bản của một HCG

- Cơ sở tri thức (Knowledge Base): Gồm các phần tử (hay đơn vị) tri
thức, thông thường được gọi là luật (rule), được tổ chức như một CSDL. Cơ sở tri
thức (CSTT) còn được gọi là bộ nhớ sản xuất (production memory) trong HCG.
Trong một CSTT, người ta thường phân biệt hai loại tri thức là tri thức phán đoán
(assertion knowledge) và tri thức thực hành (operating knowledge). Các tri thức
phán đốn mơ tả các tình huống đã được thiết lập hoặc sẽ được thiết lập. Các tri

thức thực hành thể hiện những hậu quả rút ra hay những thao tác cần phải hồn
thiện khi một tình huống đã được thiết lập hoặc sẽ được thiết lập trong lĩnh vực
đang xét. Các tri thức thực hành thường được thể hiện bởi các biểu thức dễ hiểu và
dễ triển khai thao tác đối với người sử dụng.

- Máy suy diễn (Inference Engine): Là cơng cụ/chương trình hay bộ xử lý tạo
ra sự suy luận bằng cách quyết định xem những luật nào sẽ làm thỏa mãn các sự
kiện, các đối tượng, chọn ưu tiên các luật thỏa mãn, thực hiện các luật có tính ưu
tiên cao nhất.

- Lịch cơng việc (Agenda): Hay còn gọi là lịch thực hiện, chứa danh sách
các luật ưu tiên do máy suy diễn tạo ra thỏa mãn các sự kiện, các đối tượng có mặt
trong bộ nhớ làm việc.

- Bộ nhớ làm việc (Working Memory): CSDL toàn cục chứa các sự kiện
(facts) phục vụ cho các luật. Các sự kiện này có thể do người dùng nhập vào lúc
đầu hoặc do HCG sinh ra trong quá trình làm việc.

- Khả năng giải thích (Explanation Facility): Giải nghĩa cách lập luận của hệ
thống cho người sử dụng. Đây là một trong các điểm nổi bật của HCG. Khả
năng giải thích được xem như là một tiện ích của HCG. Với tiện ích này, HCG có
thể cung cấp cho người dùng các khả năng giải thích: Tại sao HCG lại hỏi câu hỏi


14
nào đó (WHY) và bằng cách nào HCG có thể suy ra được kết luận nào đó (HOW).
Khi chúng ta hỏi WHY, HCG thường đáp trả bằng cách mô tả cái mà nó có thể kết
luận từ câu trả lời; hầu hết các HCG thường đáp trả bằng cách hiện luật mà nó đang
quan tâm. Cịn khả năng giải thích HOW của HCG có thể thực hiện được bằng
cách cho phép nó theo vết các luật mà nó sử dụng trong q trình suy luận. Khả

năng giải thích vừa thuận tiện cho cả người phát triển HCG, vừa hữu ích cho
phía người dùng. Người phát triển có thể nhờ đó tìm ra các lỗi trong tri thức của
HCG. Người dùng thì có thể n tâm hơn khi nhận được một kết luận nào đó.

- Khả năng thu nhận tri thức (Explanation Facility): Cho phép người sử
dụng bổ sung các tri thức vào hệ thống một cách tự động thay vì tiếp nhận tri thức
bằng cách mã hoá tri thức một cách tường minh. Khả năng thu nhận tri thức là
yếu tố mặc nhiên của nhiều HCG.

- Giao diện người sử dụng (User Interface): Là nơi người sử dụng và
HCG trao đổi với nhau. Yêu cầu cao nhất cho giao diện là khả năng cung cấp cách
hỏi đáp tương tự như giao tiếp giữa người với người. Tuy nhiên, khi thực hiện hệ
thống, vì những hạn chế của những kỹ thuật hiện tại nên người thiết kế phải nghĩ
đến những hình thức giao tiếp sao cho tiện lợi, chưa thật sự giống hỏi đáp giữa
người với người như các câu hỏi YES/NO, các câu hỏi cho phép lựa chọn từ hộp
chọn trả lời, hoặc chấp nhận những từ khóa trả lời đơn giản…
b) Một số mơ hình kiến trúc hệ chun gia
Có nhiều mơ hình kiến trúc HCG theo các tác giả khác nhau. Sau đây là một số
mơ hình:

- Mơ hình J. L. Ermine

Hình 1.6. Kiến trúc HCG theo J. L. Ermine


×