Tải bản đầy đủ (.pdf) (91 trang)

Nghiên cứu kỹ thuật cây quyết định và xây dựng ứng dụng hỗ trợ học sinh trường thpt võ nguyên giáp chọn nghề

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.63 MB, 91 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC SƢ PHẠM
---------------------------------------

ĐÀO THỊ MỸ VÂN

NGHIÊN CỨU KỸ THUẬT CÂY QUYẾT ĐỊNH
VÀ XÂY DỰNG ỨNG DỤNG HỖ TRỢ HỌC SINH
TRƢỜNG THPT VÕ NGUYÊN GIÁP CHỌN NGHỀ

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104

LUẬN VĂN THẠC SĨ

NGƢỜI HƢỚNG DẪN KHOA HỌC
PGS.TSKH. TRẦN QUỐC CHIẾN

Đà Nẵng – Năm 2019


MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... I
LỜI CẢM ƠN ...........................................................................................................II
KẾT QUẢ NGHIÊN CỨU LUẬN VĂN .............................................................. III
CÁC LOẠI DANH MỤC......................................................................................VII
MỞ ĐẦU ....................................................................................................................1
1. Lý do chọn đề tài .............................................................................................. 1
2. Mục tiêu nghiên cứu ......................................................................................... 1
3. Đối tƣợng nghiên cứu ....................................................................................... 2
4. Phƣơng pháp nghiên cứu ..................................................................................2


5. Ý nghĩa khoa học và thực tiễn của luận văn .....................................................2
6. Cấu trúc luận văn .............................................................................................. 2
CHƢƠNG 1: KHÁI QUÁT PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ
LIỆU ........................................................................................................................... 4
1.1. Phát hiện tri thức (Knowledge Discovery in Databases – PHTT) .....................4
1.1.1. Một số khái niệm: ...................................................................................... 4
1.1.2. Tổ chức và khai thác thông tin truyền thống .............................................5
1.1.3. Phát hiện tri thức ........................................................................................ 6
1.1.4. Quá trình PHTT và KPDL .......................................................................13
1.2. Khai phá dữ liệu ............................................................................................... 14
1.2.1. Khái niệm KPDL ..................................................................................... 14
1.2.2. Lịch sử KPDL .......................................................................................... 14
1.2.2.1. Sự hình thành ngành khoa học thống kê ....................................14
1.2.2.2. Phân tích thống kê hiện đại: Thế hệ thứ nhất ............................ 15
1.2.2.3. Phân tích thống kê hiện đại: Thế hệ thứ hai .............................. 15
1.2.2.4. Phương pháp học máy: Thế hệ thứ ba .......................................16
1.2.2.5. Học thuyết thống kê: Tổng quan thứ tư ......................................16
1.2.2.6. Lịch sử phát triển của KPDL ...................................................... 16
1.2.3. Quá trình KPDL ....................................................................................... 16
1.2.4. Khái quát về các kỹ thuật KPDL ............................................................. 17
1.2.4.1. Khai thác t p phổ biến và u t kết h p .......................................17
1.2.4.2. Phân p d iệu .........................................................................18
1.2.4.3. Gom cụm ..................................................................................... 18
1.3. Kỹ thuật khai phá dữ liệu sử dụng cây quyết định ..........................................19
1.3.1. Cây quyết định: ........................................................................................ 19
1.3.1.1. Gi i thiệu cây quyết định: .......................................................... 19


1.3.1.2. Cấu trúc cây quyết định: ............................................................ 19
1.3.2. Kỹ thuật KPDL sử dụng cây quyết định ..................................................20

1.3.2.1. Gi i thiệu kỹ thu t KPDL sử dụng cây quyết định: ...................20
1.3.2.2. Xây dựng cây quyết định ............................................................ 20
1.3.2.3. Các vấn đề trong KPDL sử dụng cây quyết định ....................... 21
1.3.3.Thuật toán sử dụng xây dựng cây quyết định ............................................21
1.3.3.1. Thu t toán CLS (Concept Learning System) .............................. 21
1.3.3.2. Thu t toán ID3............................................................................23
1.3.3.3. Thu t toán C4.5 ..........................................................................28
1.3.4.Cắt tỉa cây quyết định ................................................................................31
1.3.4.1. Tiền cắt tỉa (Prepruning) ............................................................ 31
1.3.4.2. H u cắt tỉa (Postpruning) ........................................................... 31
1.4. Công cụ: ...........................................................................................................31
1.4.1.Công cụ mã nguồn mở: .............................................................................31
1.4.2.Mã nguồn thƣơng mại: ..............................................................................31
1.5. KPDL trong lĩnh vực giáo dục .........................................................................32
1.6. Những lĩnh vực liên quan đến KPDL .............................................................. 32
1.7. Những thách thức trong ứng dụng và nghiên cứu kỹ thuật KPDL ..................32
1.8. Kết luận ............................................................................................................33
CHƢƠNG 2: CÂY QUYẾT ĐỊNH TRONG CHỌN NGHỀ.............................. 34
2.1. Tìm hiểu bài tốn chọn nghề ............................................................................34
2.1.1.Khái niệm ngành nghề ...............................................................................34
2.1.2.Phƣơng pháp chọn nghề ............................................................................36
2.2. Phân tích bài tốn chọn nghề: ............................................................................40
2.3. Mơ hình hệ thống chọn nghề cho trƣờng THPT Võ Nguyên Giáp.................... 42
2.4. Kết luận ..............................................................................................................44
CHƢƠNG 3: XÂY DỰNG HỆ THỐNG .............................................................. 45
3.1. Xây dựng CSDL dữ liệu ..................................................................................45
3.1.1.Xác định các thực thể trong CSDL ............................................................ 45
3.1.2.Mối liên kết giữa các thực thể ...................................................................53
3.2. Tiền xử lý dữ liệu: ............................................................................................ 53
3.3. Chuyển đổi dữ liệu: .......................................................................................... 54

3.4. Khai phá dữ liệu ............................................................................................... 55
3.4.1.Giới thiệu công cụ khai phá dữ liệu .......................................................... 55
3.4.2.Dữ liệu thử nghiệm .................................................................................... 55
3.4.3.Khai phá dữ liệu ........................................................................................ 57


3.4.4.Tập luật ......................................................................................................58
3.5. Lập trình cây quyết định ..................................................................................58
3.6. Thử nghiệm trên hệ thống chọn nghề .............................................................. 60
3.7. Kết luận ............................................................................................................61
KẾT LUẬN ..............................................................................................................63
TÀI LIỆU THAM KHẢO ...................................................................................... 64


i
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn thạc sĩ ―NGHIÊN CỨU KỸ THUẬT CÂY
QUYẾT ĐỊNH VÀ XÂY DỰNG ỨNG DỤNG HỖ TRỢ HỌC SINH TRƢỜNG
THPT VÕ NGUYÊN GIÁP CHỌN NGHỀ‖ là cơng trình nghiên cứu của riêng
tơi. Các số liệu và tài liệu trong luận án là trung thực và chƣa đƣợc cơng bố trong
bất kỳ cơng trình nghiên cứu nào. Tất cả những tham khảo và kế thừa đều đƣợc
trích dẫn và tham chiếu đầy đủ.


ii
LỜI CẢM ƠN
Luận án này đã khơng thể hồn thành nếu thiếu sự hƣớng dẫn, cổ vũ động
viên và hỗ trợ của nhiều cá nhân và tổ chức.
Trƣớc tiên, tôi xin bày tỏ sự kính trọng và lịng biết ơn sâu sắc tới
PGS.TSKH. Trần Quốc Chiến đã hƣớng dẫn, động viên giúp đỡ, định hƣớng và đƣa

ra các đánh giá, nhận xét tơi trong q trình nghiên cứu và viết luận án này. Những
nhận xét và đánh giá của các Thầy, đặc biệt là những gợi ý về hƣớng giải quyết vấn
đề trong suốt quá trình nghiên cứu, thực sự là những bƣớc ngoặt quý giá đối với tôi
trong quá trình viết luận án.
Tơi xin chân thành cảm ơn tập thể giảng viên Khoa Tin học trƣờng Đại học
Sƣ phạm Đà Nẵng, các Thầy Cơ đã giúp đỡ, góp ý và tạo mọi điều kiện tốt nhất cho
tôi trong quá trình nghiên cứu và viết luận án của mình.
Tơi xin cảm ơn bạn bè, đồng nghiệp, gia đình và các bạn học đã động viên và
hỗ trợ tôi rất nhiều về mặt thời gian, các lời góp ý, cung cấp dữ liệu, xử lý dữ liệu,
quan tâm và giúp đỡ tơi trong thời gian hồn thành luận văn này.

Tác giả

Đào Thị Mỹ Vân


iii
KẾT QUẢ NGHIÊN CỨU LUẬN VĂN
Tên đề tài: NGHIÊN CỨU KỸ THUẬT CÂY QUYẾT ĐỊNH VÀ XÂY DỰNG
ỨNG DỤNG HỖ TRỢ HỌC SINH TRƢỜNG THPT VÕ NGUYÊN GIÁP
CHỌN NGHỀ
Ngành: Hệ thống thông tin
Họ tên học viên: Đào Thị Mỹ Vân
Ngƣời hƣớng dẫn khoa học: PGS.TSKH. TRẦN QUỐC CHIẾN
Cơ sở đào tạo: Trƣờng Đại học Sƣ phạm – Đại học Đà Nẵng.
Tóm tắt: Phát hiện tri thức là một tiến trình gồm nhiều giai đoạn, nhằm xác định các
mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu đƣợc trong dữ liệu. Phát
hiện tri thức liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật đặc
biệt để tìm ra các mẫu đặc trƣng trong một tập dữ liệu khổng lồ.
Khai phá dữ liệu là một khâu của quá trình phát hiện tri thức. Khai phá dữ

liệu thƣờng bao gồm việc thử tìm mơ hình phù hợp với tập dữ liệu và tìm kiếm các
mẫu từ tập dữ liệu theo mơ hình đó. Kỹ thuật khai phá dữ liệu ra đời giúp con ngƣời
khai thác tri thức để phát huy mọi tiềm năng của tri thức, đem lại những lợi ích về
mặt kinh tế, quản lý, y tế, giáo dục, ...
Phân lớp dữ liệu là một trong những hƣớng nghiên cứu chính của khai phá
dữ liệu. Phân lớp dữ liệu có vai trị quan trọng trong tiến trình dự báo các khuynh
hƣớng quy luật phát triển. Trong các kỹ thuật phân lớp, cây quyết định đƣợc coi là
một công cụ mạnh, phổ biến và đặc biệt thích hợp với các ứng dụng khai phá dữ
liệu.
Qua tìm hiểu những chức năng của khai phá dữ liệu, luận văn tập trung vào
nghiên cứu các kỹ thuật phân lớp bằng cây quyết định. Cây quyết định là một dạng
đặc biệt của cấu trúc cây, đƣợc dùng để hỗ trợ quá trình ra quyết định. Hiểu đƣợc
các thuật tốn cây quyết định gần đây, từ đó nắm đƣợc những điểm chính cần quan
tâm giải quyết trong kỹ thuật khai phá dữ liệu bằng cây quyết định trên cơ sở dữ
liệu khảo sát lựa chọn ngành học.
Các thuật toán sử dụng đối với cây quyết định gồm thuật tốn CLS, thuật
tốn ID3, thuật tốn C4.5,… Trong đó thuật tốn C4.5 có độ chính xác khá cao,
chạy nhanh và dễ hiểu đối với ngƣời dùng. Thuật toán C4.5 là thuật toán đƣợc cải
tiến từ thuật toán ID3 với việc cho phép xử lý trên tập dữ liệu có các thuộc tính số
và làm việc đƣợc với tập dữ liệu bị thiếu và nhiễu nhƣng nếu tập dữ liệu có nhiều
thuộc tính thì cây quyết định thu đƣợc cũng sẽ khó hiểu;
Luận văn ―NGHIÊN CỨU KỸ THUẬT CÂY QUYẾT ĐỊNH VÀ XÂY
DỰNG ỨNG DỤNG HỖ TRỢ HỌC SINH TRƢỜNG THPT VÕ NGUYÊN


iv
GIÁP CHỌN NGHỀ‖ sử dụng thuật toán C4.5, thuật toán cho ra mơ hình phân lớp
là một tập luật dƣới dạng cây rất đơn giản và dễ hiểu, có độ chính xác khá cao và
thời gian chạy chấp nhận đƣợc. Ứng dụng hỗ trợ chọn nghề cho học sinh áp dụng
thuật tốn C4.5 giúp học sinh có sự lựa chọn nghề phù hợp với bản thân.

Từ khóa: Phát hiện tri thức, Khai phá dữ liệu, Cây quyết định, C4.5, Chọn nghề.


v
Name of thesis: RESEARCH INTO METHODS OF DECISION TREE, AND
BUILDING APPLICATIONS FOR SUPPORTING VO NGUYEN GIAP
HIGH SCHOOL IN CAREER CHOICE
Major: Information System
Full name of Master student: Dao Thi My Van
Supervisors: Tran Quoc Chien, Assoc. Prof. D.Sc.
Training institution: University of Science and Education - The University of Da
Nang.
Abstract: Knowledge discovery in databases is a process that forms in stages. It is
used to discover samples which are potential, valid, useful, unheard-of and
understandable in data. Knowledge discovery in databases links to data analysis and
use of special techniques to find typical samples in a big data.
Data mining is a part of Knowledge discovery in databases. It includes
appropriate sampling that matches data file, and finding samples from data file in
the model. The invention of data mining allows people to make exploitation of
knowledge, so that the potential of knowledge can be taken full advantage, and
brought the benefits in economy, management, health and education, etc.
Classification is one of the main research directions of data mining. It plays
an important role in forecast of development. In the classification model has been
proposed, decision trees are considered powerful tool, common and suitable
particularly for data mining applications.
During study of functions of data mining, this thesis focuses on researching
into methods of data classification by using decision tree. Decision tree is a special
type of tree structure, which is used to support decision process. By studying
decision tree algorithms recently, it can, base on survey data collection of career
choice, find out main issue that needs resolving in data exploitation by using

decision tree.
Algorithms used in decision tree include CLS, ID3, C4.5, etc. Among them,
C4.5 algorithm produces high performance with high precision and
understandability to users. C4.5 algorithm is the renovation version of ID3
algorithm which allows users to process data files that has numeric attributes and
can be used to work with missing and complicated data files. But if the data files
contains multiple attributes, this can cause complication to decision tree;
The thesis ―RESEARCH INTO METHODS OF DECISION TREE, AND
BUILDING APPLICATIONS FOR SUPPORTING VO NGUYEN GIAP
HIGH SCHOOL IN CAREER CHOICE‖ using C4.5 algorithm whose resulting


vi
classification models are set of classification rules in the form of trees which are
very simple and easy to understand, with pretty high accuracy and acceptable run
time. This application which applied C4.5 algorithm provided support for pupils in
career choice, so that they can have a right devision on future career.
Key words: Knowledge Discovery in Databases, Data Mining, Decision Tree, C4.5,
Career Choice.
Supervior’s confirmation

Student


vii
CÁC LOẠI DANH MỤC
a. Danh mục các ký hiệu, các chữ viết tắt:
CÁC CHỮ VIẾT TẮT:
PHTT Phát hiện tri thức
KPDL Khai phá dữ liệu

CSDL Cơ sở dữ liệu
THPT Trung học phổ thông
DL
Dữ liệu
b. Danh mục các bảng
Số
hiệu

Tên bảng

Trang

bảng
2.1

Tập huấn luyện chọn ngành

25

2.2

Tập huấn luyện nhánh DiemMH chứa giá trị ―Gioi‖

26

2.3

Tập huấn luyện nhánh DiemMH chứa giá trị ―kha‖

27


3.1

Thông tin về học sinh

45

3.2

Thơng tin về nhóm sở thích

46

3.3

Thơng tin về sở thích

47

3.4

Thơng tin về Ngành

50

3.5

Thơng tin về Monhoc

51


3.6

Thơng tin về MonPT

51

3.7

Điểm

52

3.8

Phiếu trắc nghiệm

52

3.9

Dữ liệu thử nghiệm

55

4.0

Thống kê giá trị các thuộc tính của bộ CSDL gốc

56


4.1

Thống kê giá trị các thuộc tính của bộ CSDL huấn luyện

56

4.2

Thống kê giá trị các thuộc tính của bộ CSDL kiểm thử

57


viii
c. Danh mục các hình vẽ
Số
hiệu
hình

Tên hình vẽ

Trang

vẽ
1.1

Quá trình phát hiện tri thức từ dữ liệu

13


1.2

Mơ hình cây quyết định

19

1.3

Cây quyết định hỗ trợ chọn ngành

27

2.1

Quy trình hƣớng nghiệp

36

2.2

Mơ hình lí thuyết cây nghề nghiệp

38

2.3

Mơ hình lục giác Holland

39


2.4

Sơ đồ Chức năng chọn nghề

40

2.5

Phiếu trắc nghiệm nhóm sở thích

41

2.6

Mơ hình hệ thống hỗ trợ chọn nghề

43

2.7

Mơ hình hoạt động hệ thống hỗ trợ chọn nghề

44

3.1

Mối liên hệ giữa các thực thể

53


3.2

Cây quyết định chọn nghề có phù hợp

58

3.3

Bảng kết quả thử nghiệm hệ thống

60

3.4

Hệ thống đƣa kết quả chọn ngành mới

61


1
MỞ ĐẦU
1. Lý do chọn đề tài
Chọn nghề là một việc quan trọng đối với mỗi bản thân cá nhân học sinh, gia
đình và ảnh hƣởng một phần nào đó đến xã hội. Trong khi đó học sinh THPT khi
chọn ngành nghề thƣờng không đánh giá đƣợc xu hƣớng thị trƣờng lao động, sự
thích hợp của bản thân với yêu cầu nghề nghiệp, khơng hiểu về tính chất nghề
nghiệp mình chọn, chọn nghề theo phong trào, chọn theo bạn bè, hay theo áp đặt
của ngƣời thân …
Hiện nay Trƣờng THPT Võ Nguyên Giáp đã triển khai hoạt động hƣớng

nghiệp cả 3 khối 10, 11, 12 nhƣng chỉ ở mức giới thiệu nghề nghiệp, đặc điểm nghề
nghiệp, các cách chọn nghề, chƣa có hệ thống kiểm tra đánh giá cụ thể.
Việc chọn nghề phù hợp sẽ giúp cho học sinh trong tƣơng lai có cơng việc ổn
định, có thu nhập để ni sống bản thân và gia đình, góp phần ổn định xã hội. Chọn
nghề không phù hợp sẽ dẫn đến những việc tiêu cực nhƣ thất nghiệp, lãng phí thời
gian, tiền bạc. Khi con ngƣời khơng tìm thấy những phƣơng tiện hợp pháp để thỏa
mãn nhu cầu của mình (nhƣ nhu cầu có thu nhập để sống) thì họ buộc phải sử dụng
đến các phƣơng tiện phi pháp. Đây chính là một trong những nguy cơ làm gia tăng
tội phạm trộm cƣớp, cờ bạc và các tệ nạn khác trong xã hội. Làm xói mịn nếp sống
văn hóa, lành mạnh, phá vỡ các mối quan hệ.
Vậy làm thế nào để giúp học sinh THPT có để lựa chọn nghề khơng sai lầm?
Việc ứng dụng công nghệ thông tin để giúp học sinh lựa chọn nghề phù hợp
trong tƣơng lai là điều cần thiết để hạn chế việc lựa chọn nghề sai lầm của học sinh,
hạn chế làm việc trái nghề sau khi ra trƣờng.
KPDL là một tiến trình khai phá tự động tri thức tiềm ẩn trong cơ sở dữ liệu,
là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính
quy luật, hỗ trợ tích cực cho việc đƣa ra các quyết định. Và Kỹ thuật cây quyết định
trong Khai phá dữ liệu là một phƣơng pháp tối ƣu trong việc đánh giá rủi ro, hỗ trợ
ra quyết định nhƣ: Ngân hàng, bảo hiểm, tài chính, y học, giáo dục, …
Luận văn: “NGHIÊN CỨU KỸ THUẬT CÂY QUYẾT ĐỊNH VÀ XÂY
DỰNG ỨNG DỤNG HỖ TRỢ HỌC SINH TRƢỜNG THPT VÕ NGUYÊN
GIÁP CHỌN NGHỀ” nghiên cứu về kỹ thuật cây quyết định C4.5 và ứng dụng
vào bài toán chọn nghề để hỗ trợ học sinh lựa chọn nghề phù hợp.
2. Mục tiêu nghiên cứu
- Mục tiêu tổng quát: Hƣớng đến xây dựng ứng dụng hỗ trợ học sinh chọn nghề
bằng kỹ thuật cây quyết định trong khai phá dữ liệu để hạn chế tình trạng chọn sai


2
nghề của học sinh trong tƣơng lai và giảm tình trạng thất nghiệp hoặc làm trái nghề

của sinh viên sau khi ra trƣờng.
- Mục tiêu cụ thể:
+ Ứng dụng thuật toán cây quyết định để tạo ra ứng dụng hỗ trợ học sinh chọn nghề
phù hợp.
+ Ứng dụng dễ sử dụng đối với ngƣời dùng cuối.
3. Đối tƣợng nghiên cứu
- Kỹ thuật hƣớng nghiệp chọn nghề.
- Nghiên cứu về phân lớp dữ liệu trong khai phá dữ liệu.
+ Kỹ thuật phân lớp bằng cây dữ liệu.
+ Thuật toán cây quyết định trong khai phá dữ liệu.
4. Phƣơng pháp nghiên cứu
a) Nghiên cứu lý thuyết
- Nghiên cứu tài liệu, ngôn ngữ và các cơng nghệ có liên quan.
- Tổng hợp và phân tích và tổng hợp các tài liệu để lựa chọn các phƣơng pháp
thích hợp triển khai ứng dụng: Tài liệu về khai phá dữ liệu sử dụng thuật toán
về Decision Tree, phân loại dữ liệu, mơ hình dự báo.
b) Nghiên cứu thực nghiệm
- Tiến hành thu thập và tổng hợp các tài liệu liên quan đến hƣớng nghiệp chọn
nghề, các phƣơng pháp chọn nghề phù hợp.
- Ứng dụng kết hợp kỹ thuật phân loại và mơ hình cây quyết định để xây dựng
ứng dụng hỗ trợ học sinh đƣa ra kết luận chọn nghề.
- Tiến hành kiểm thử, so sánh đánh giá hiệu suất của ứng dụng.
5. Ý nghĩa khoa học và thực tiễn của luận văn
Áp dụng lý thuyết về khai phá dữ liệu vào việc hỗ trợ ra quyết định chọn nghề
cho học sinh trong tƣơng lai.
Về mặt thực tiễn, ứng dụng có khả năng phân tích dữ liệu nghề nghiệp: đặc
điểm nghề nghiệp, yêu cầu của nghề nghiệp, xu hƣớng thị trƣờng nghề nghiệp. Phân
tích dữ liệu về cá nhân: tƣ duy, tính cách, khả năng thích ứng với nghề nghiệp theo
xu hƣớng thị trƣờng nghề nghiệp trong tƣơng lai.
Giúp cho việc dự đoán nhằm hỗ trợ ra quyết định một cách khoa học, tránh

đƣợc các tình huống chọn nghề theo phong trào, theo cảm tính.
6. Cấu trúc luận văn
Luận văn đƣợc chia thành 3 chƣơng nhƣ sau:


3
MỤC LỤC
LỜI CAM ĐOAN
LỜI CẢM ƠN
KẾT QUẢ NGHIÊN CỨU LUẬN VĂN
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
MỞ ĐẦU
Chƣơng 1: Khái quát phát hiện tri thức và khai phá dữ liệu.
Trình bày tổng quan về phát hiện tri thức từ cơ sở dữ liệu, làm rõ mối liên hệ
giữa phát hiện tri thức từ cơ sở dữ liệu và khai phá dữ liệu (Data Mining) với cơ sở
dữ liệu. Chƣơng này tìm hiểu về các kỹ thuật KPDL, đặc biệt kỹ thuật khai phá dữ
liệu bằng cây quyết định. Ngồi ra chƣơng cịn giới thiệu các cơng cụ đƣợc sử dụng
trong KPDL, các lĩnh vực liên quan, …
Chƣơng 2: Cây quyết định trong chọn nghề.
Chƣơng này tìm hiểu về bài tốn chọn nghề, phân tích và thiết kế chƣơng
trình cho bài tốn chọn nghề. Trong chƣơng mơ tả mơ hình bài tốn chọn nghề, các
chức năng cần có trong hệ thống chọn nghề, xác định mối quan hệ cây quyết định
C4.5 trong bài toán chọn nghề,…
Chƣơng 3: Xây dựng hệ thống
Chƣơng này tiến hành xây dựng CSDL cho hệ thống, đồng thời tiến hành áp
dụng quy trình KPDL bằng cây quyết định C4.5 cho bài toán chọn nghề trên CSDL
đƣợc xây dựng. Tiến hành áp dụng dữ liệu thực nghiệm cho bài tốn, xác định độ
chính xác cây quyết định, xây dựng tập luật và kết quả thực nghiệm khi học sinh

thực hiện chọn nghề trên hệ thống chọn nghề,…
KẾT LUẬN
TÀI LIỆU THAM KHẢO
PHỤ LỤC


4
Chƣơng 1:
KHÁI QUÁT PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
Chƣơng này trình bày tổng quan về phát hiện tri thức, KPDL từ cơ sở dữ
liệu, làm rõ mối liên hệ giữa phát hiện tri thức từ cơ sở dữ liệu và khai phá dữ liệu
(Data Mining). Chƣơng này tìm hiểu về các kỹ thuật KPDL, đặc biệt kỹ thuật khai
phá dữ liệu bằng cây quyết định. Ngoài ra chƣơng cịn giới thiệu các cơng cụ đƣợc
sử dụng trong KPDL, các lĩnh vực liên quan, các khó khăn khi ứng dụng vào thực
tế, …
1.1.
Phát hiện tri thức (Knowledge Discovery in Databases – PHTT)
Sự phát triển khoa học và công nghệ, đặc biệt công nghệ thông tin và truyền
thông, thế giới đang chuyển biến tới một nền kinh tế và xã hội mà thông tin và tri
thức đƣợc xem là nguồn lực chủ yếu. Vì vậy kỹ thuật khai phá dữ liệu ra đời giúp
con ngƣời khai thác tri thức để phát huy mọi tiềm năng của tri thức, đem lại những
lợi ích về mặt kinh tế, quản lý, giáo dục, ...
1.1.1. Một số khái niệm:
1.1.1.1. Thông tin
Từ Latin ―Informatio‖, gốc của từ hiện đại ―Information‖ (thông tin), thuật
ngữ thông tin có thể hiểu theo hai hƣớng nghĩa: thứ nhất, thơng tin là nói về một
hành động cụ thể để tạo ra một hình dạng; thứ hai, thơng tin là nói về sự truyền đạt
một ý tưởng, một khái niệm hay một biểu tư ng. [4]
Theo quan điểm triết học, thông tin là sự phản ánh của tự nhiên và xã hội
(thế giới vật chất) bằng ngôn từ, ký hiệu, hình ảnh…hay nói rộng hơn bằng tất cả

các phƣơng tiện tác động lên giác quan của con ngƣời.
Trong tin học: Thông tin là một khái niệm rất trừu tƣợng. Thông tin đƣợc
hiểu nhƣ là sự thông báo, trao đổi, giải thích về một đối tƣợng nào đó và thƣờng
đƣợc thể hiện dƣới dạng các tín hiệu nhƣ chữ số, chữ viết, âm thanh, dịng điện...
chẳng hạn thơng tin về kết quả học tập của học sinh đƣợc giáo viên chủ nhiệm ghi
trong sổ liên lạc giúp cho các bậc phụ huynh biết về tình hình học tập của con em
mình.
Ta có thể hiểu thơng tin là khái niệm chung nhất bao gồm mọi hiểu biết về
các sự vật, hiện tƣợng, quan hệ...mà con ngƣời thu nhận đƣợc qua trực giác, giao
tiếp, khảo sát, thực nghiệm, lý giải, nghiên cứu...
Data - D liệu là một khái niệm trừu tƣợng, là thông tin đã đƣợc đƣa vào
máy tính. Dữ liệu sau khi tập hợp lại và xử lí sẽ cho ta thơng tin. Dữ liệu thƣờng
đƣợc cho bởi các giá trị mô tả các sự kiện, hiện tƣợng cụ thể; Dữ liệu là số liệu, đặc
điểm, chi tiết của một sự vật hiện tƣợng đƣợc lƣu trữ trong máy tính. Ví dụ: điểm


5
thi của một thí sinh, thơng tin của một thí sinh, hình ảnh, âm thanh, … đƣợc lƣu
trong máy tính.
1.1.1.2. Tri thức
Davenport và Prusak (1998) cho rằng: ―Tri thức là một dạng tổng hợp các
kinh nghiệm, giá trị, các thông tin ngữ cảnh, các hiểu biết chuyên sâu cung cấp một
khung sƣờn để đánh giá và thu nạp thêm kinh nghiệm và thơng tin mới. Nó phát
xuất và nhúng vào trong tƣ duy của ngƣời biết. Trong các tổ chức, tri thức khơng
chỉ đƣợc tìm thấy dƣới dạng các văn bản và kho lƣu trữ, mà cịn ở các thói quen của
tổ chức, các quy trình, các biện pháp thực hành, và các chuẩn mực‖ [5].
Theo Nonaka: ―Tri thức là một quá trình điều chỉnh niềm tin cá nhân hƣớng
tới chân lí‖ [6].
Ta có thể xem tri thức là những hiểu biết có mức độ khái quát nào đó, về các
mối quan hệ giữa các thuộc tính, các sự vật, hiện tƣợng, mang tính ―qui luật‖ ở

chừng mực nhất định, mà con ngƣời thu đƣợc qua từng trải kinh nghiệm, qua phân
tích số liệu, qua nghiên cứu, lý giải, suy luận...
1.1.2. Tổ chức và khai thác thông tin truyền thống
Thông tin đƣợc chuyển thành dữ liệu lƣu trữ trong các CSDL để lƣu trữ và
khai thác từ những năm 1960. Từ đó đến nay có nhiều mơ hình cơ sở dữ liệu, hệ
quản trị CSDL (Database Management System – HỆ QUẢN TRỊ CƠ SỞ DỮ
LIỆU) đã ra đời, phát triển và khai thác thông tin ở mọi quy mô và tất cả các lĩnh
vực: kinh doanh, tài chính, quản lý, giáo dục,… Nhiều hệ quản trị cơ sở dữ liệu
mạnh với các công cụ phong phú và thuận tiện đã giúp con ngƣời khai thác có hiệu
quả các nguồn tài ngun dữ liệu. Mơ hình cơ sở dữ liệu quan hệ và ngơn ngữ truy
vấn chuẩn SQL đã có vai trò hết sức quan trọng trong việc tổ chức và khai thác
thông tin từ các CSDL.


6
1.1.3. Phát hiện tri thức
1.1.3.1. Sự cần thiết của phát hiện tri thức
Có thể nói nguời có đầy đủ thơng tin chính xác sẽ là nguời chiến thắng;
Trong đại dƣơng thông tin, làm thế nào để biết chọn những dữ liệu hay những thơng
tin mà mình mong muốn - những thơng tin chính thống? Đặc biệt đó là những thơng
tin kinh tế, các thông tin hỗ trợ ra quyết định, … Trong đại dƣơng của thông tin
đƣợc truyền tải hàng ngày trên mạng, làm thế nào để biết chọn những dữ liệu mà
khách hàng hay các doanh nghiệp quan tâm? Việc này bản thân những nhà lãnh đạo
doanh nghiệp sẽ khơng có đủ sức để tự mình tra cứu; nhƣng họ lại rất cần những
thơng tin; dữ liệu hữu ích cho từng lĩnh vực khác nhau đang trở thành một trong
những đòi hỏi căn bản.
Dữ liệu do con ngƣời tạo ra ngày càng nhiều hơn về số lƣợng, tăng nhanh về
khối lƣợng. Các hệ thống thông tin đƣợc chuyên môn hóa, phân hoạch theo các lĩnh
vực ứng dụng nhƣ sản xuất, hành chính, tài chính, kinh tế, quản lý, giáo dục …Và
trong thời đại công nghệ thông tin hiện nay, qua mạng viễn thơng và vệ tinh tồn

cầu, mạng internet,… chỉ trong vịng một giây đã có tới vài nghìn các loại thơng tin
khác nhau đƣợc chuyển tải. Vì vậy, hệ thống thông tin bên cạnh chức năng khai
thác dữ liệu có tính chất tác nghiệp cịn phải có tính linh hoạt và sẵn sàng đáp lại
những yêu cầu trong thực tế, CSDL cần đem lại những ―tri thức‖ hơn là chính
những dữ liệu đó. Các quyết định cần phải có càng nhanh càng tốt và phải chính xác
dựa trên những dữ liệu sẵn có. Lúc này các mơ hình CSDL truyền thống và ngôn
ngữ SQL đã cho thấy không có khả năng thực hiện cơng việc này.
Vì các phƣơng thức truyền thống nhằm chuyển dữ liệu thành các tri thức phụ
thuộc vào các phân tích và giải thích của các chuyên gia. Chẳng hạn nhƣ trong lĩnh
vực chăm sóc sức khỏe, các chuyên gia thƣờng phải định kỳ phân tích các xu hƣớng
hiện tại và các thay đổi trong dữ liệu chăm sóc sức khỏe. Sau đó họ sẽ lập một báo
cáo phân tích chi tiết để gửi lên trên, báo cáo này sẽ là cơ sở để đƣa ra các quyết
định trong tƣơng lai và lập kế hoạch cho công tác quản lý y tế. Trong rất nhiều lĩnh
vực khác nhƣ khoa học, tài chính, tiếp thị, hoạt động bán lẻ ... hoạt động phân tích
dữ liệu đều chủ yếu nhờ vào các chuyên gia có kinh nghiệm [7]
Vì vậy những kỹ thuật có khả năng hợp nhất các dữ liệu từ các hệ thống giao
dịch khác nhau, chuyển đổi thành một tập hợp các cơ sở dữ liệu ổn định, có chất
lƣợng để khai thác tri thức trong đại dƣơng dữ liệu đã ra đời. Các kỹ thuật đó đƣợc
gọi chung là kỹ thuật tạo kho dữ liệu (data warehous-ing) và mơi trƣờng các dữ liệu
có đƣợc gọi là các kho dữ liệu (data warehouse). Với những thách thức nhƣ vậy, các


7
nhà nghiên cứu đã đƣa ra một phƣơng pháp mới trên kho dữ liệu đáp ứng cả nhu
cầu trong khoa học cũng nhƣ trong hoạt động thực tiễn. Đó chính là công nghệ phát
hiện tri thức từ cơ sở dữ liệu.[1]
a.

1.1.3.2. Q trình PHTT
Khái niệm PHTT


Ngồi thuật ngữ phát hiện tri thức - PHTT, ngƣời ta còn dùng một số thuật
ngữ khác có ý nghĩa tƣơng tự nhƣ phân tích dữ liệu/mẫu, khai mỏ dữ liệu, khai phá
dữ liệu… Nhƣng tóm lại, về bản chất phát hiện tri thức liên quan đến việc phân tích
các dữ liệu và sử dụng các kỹ thuật đặc biệt để tìm ra các mẫu đặc trƣng trong một
tập dữ liệu khổng lồ. Có nhiều định nghĩa về phát hiện tri thức đã đƣợc các tác giả
khác nhau đƣa ra, theo định nghĩa của Fayyad: ―PHTT là q trình khơng tầm
thƣờng của việc xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể
hiểu đƣợc trong dữ liệu‖ [7].
Tiến trình PHTT bao gồm các giai đoạn: Chuẩn bị dữ liệu, tìm kiếm mơ
hình, khai phá dữ liệu, đánh giá mẫu và sử dụng tri thức khai phá đƣợc. Thuật ngữ
―mẫu tiềm ẩn‖ đƣợc hiểu là mối quan hệ trong dữ liệu chẳng hạn nhƣ những sinh
viên học giỏi toán và tiếng anh thì có điểm trung bình cuối khóa cao, ―hợp lệ‖ bởi vì
chứng minh đƣợc tính đúng của mơ hình. Thuật ngữ ―mới lạ‖ hàm ý rằng những
mẫu khai phá đƣợc là khơng biết trƣớc.
b. Q trình PHTT
Giai đoạn 1: Chọn lọc dữ liệu: Đây là giai đoạn tập hợp các dữ liệu đƣợc khai
thác từ một CSDL, một kho dữ liệu, thậm chí từ các nguồn ứng dụng web vào một
CSDL riêng. Chúng ta chỉ chọn ra những dữ liệu cần thiết cho các giai đoạn sau.
Thực hiện giai đoạn này gồm các bƣớc sau:


8
 Bước 1: Nghiên cứu lĩnh vực
Ta cần phải tìm hiểu lĩnh vực ứng dụng, xác định rõ mục tiêu và nhiệm vụ
của bài toán. Giai đoạn này giúp ta xác định những tri thức cần chắc và lựa chọn kỹ
thuật khai phá dữ liệu thích hợp với mục tiêu của ứng dụng và đặc điểm của dữ liệu.
 Bước 2: Thu thập dữ liệu
Sau khi xác định đƣợc mục tiêu của bài tốn, có các mơ tả đầy đủ về mục
tiêu cần đạt tới ta tiến hành thu thập các dữ liệu liên quan (các thông tin cần thiết,

phù hợp với mục tiêu của quá trình khai phá dữ liệu bao gồm cả các thuộc tính sẽ
đƣợc xem xét). Công việc này bao gồm thu thập những dữ liệu có sẵn, thu thập dữ
liệu cần thiết bổ sung. Sau đó, ta tích hợp tất cả xây dựng tập tin để lƣu trữ các dữ
liệu đầu vào để máy tính có thể lƣu trữ và xử lý.
Giai đoạn 2: Tiền xử lý dữ liệu
Ở bƣớc này ta tiến hành bỏ bớt những dữ liệu rƣờm rà, không cần thiết, tinh
chỉnh lại cấu trúc của dữ liệu và mã hóa chúng để tiện cho quá trình xử lý.
Dữ liệu trong thực tế thƣờng chƣa sẵn sàng cho việc khai phá dữ liệu chẳng
hạn nhƣ thiếu các thuộc tính quan tâm, thiếu giá trị của thuộc tính. Vì vào thời điểm
thu thập chúng không đƣợc coi là quan trọng, các dữ liệu liên quan không đƣợc ghi
lại do một nguyên nhân chủ quan, hoặc do sự cố thiết bị. Ngoài ra cũng có trƣờng
hợp các dữ liệu đã đƣợc lƣu trữ nhƣng vì một lý do nào đó đã bị xóa đi, cũng nhƣ
việc ghi chép sự biến đổi mang tính lịch sử của các giao dịch có thể bị bỏ qua mà
chỉ giữ lại những thông tin tổng hợp vào thời điểm xét. Việc trùng lặp hoặc thiếu dữ
liệu có thể dẫn tới việc thống kê khơng chính xác, thậm chí là cho một kết quả sai
hay nói một cách khác dữ liệu không chất lƣợng cho kết quả khai phá không tốt,
những quyết định đúng đắn phải dựa trên các dữ liệu chính xác, dữ liệu tốt là chìa
khóa tạo ra các mơ hình giá trị và đáng tin cậy. Do đó dữ liệu cần phải đƣợc tiền xử
lý.
Q trình này địi hỏi phải có một kỹ thuật phù hợp sao cho dữ liệu sau khi
đƣợc rút gọn vẫn có khả năng đƣợc khai phá hiệu quả. Việc rút gọn dữ liệu bao gồm
các phƣơng pháp nhƣ tổng hợp và tổng quát hóa, giảm chiều dữ liệu, nén dữ liệu,
giảm số lƣợng các bản ghi, rời rạc hóa.
 Tổng hợp dữ liệu và tổng quát hóa dữ liệu: tổ hợp từ hai thuộc tính trở lên
thành một thuộc tính, tổng quát dữ liệu cấp thấp sang dữ liệu cấp cao
chẳng hạn nhƣ các thành phố tổng hợp vào vùng, khu vực, nƣớc…
 Giảm chiều dữ liệu: thực hiện trích chọn đặc trƣng, tìm ra tập các thuộc
tính có khả năng khai phá tốt nhất loại bỏ các thuộc tính khơng liên quan,



9
dƣ thừa bằng phƣơng pháp vét cạn, phƣơng pháp heuristic, cây quyết
định khi đó các thuộc tính nằm trong cấu trúc cây quyết định sẽ đƣợc lựa
chọn để khai phá dữ liệu. Thuộc tính nào khơng đƣợc đƣa vào cây quyết
định sẽ bị loại bỏ, do thuộc tính đó có ảnh hƣởng không lớn đến kết quả.
 Cách tiếp cận chính để làm giảm số bản ghi dữ liệu là lấy mẫu ngẫu
nhiên. Thay vì tiến hành khai phá trên tập toàn bộ các trƣờng hợp, các
mẫu ngẫu nhiên đƣợc thu thập. Có hai cách để lấy mẫu:
o Mẫu tăng dần: Phƣơng pháp này tiến thử nghiệm với một tập mẫu
lấy từ dữ liệu nguồn, dùng mẫu này để đánh giá hiệu quả. Tiếp
theo lấy các mẫu với số lƣợng trƣờng hợp tăng dần và so sánh độ
hiệu quả với tập mẫu trƣớc đó. Nếu hiệu quả đƣợc cải thiện thì tiếp
tục quá trình lấy mẫu, ngƣợc lại quá trình sẽ dừng.
o Mẫu trung bình: nếu chƣơng trình chỉ có khả năng xử lý N trƣờng
hợp thì lấy k mẫu, mỗi mẫu có N trƣờng hợp để xử lý
Dữ liệu đƣợc lấy từ các mẫu trên sẽ có kích thƣớc nhỏ hơn nhiều so với toàn
bộ kho dữ liệu. Ngoài ra, việc tổng hợp các kết quả để thu đƣợc kết quả cuối có độ
sai lệch thấp hơn so với chỉ lấy một tập mẫu. Nếu số mẫu lấy đủ lớn, kết quả thu
đƣợc sẽ tƣơng đƣơng với kết quả từ việc xử lý cả kho dữ liệu.
Nhiệm vụ làm sạch dữ liệu bao gồm các công đoạn: Điền các giá trị còn thiếu;
xác định các sai biệt và khử dữ liệu tạp, nhiễu; sửa chữa các dữ liệu mâu thuẫn.
Đối với việc xử lý dữ liệu bị thiếu có một số giải pháp sau:
 Bỏ qua mẫu dữ liệu đó nếu mẫu dữ liệu chứa nhiều thuộc tính thiếu giá trị.
 Điền vào các giá trị thiếu bằng tay: Phƣơng pháp này thƣờng tốn thời gian và
có thể khơng khả thi cho một tập dữ liệu nguồn lớn với nhiều giá trị bị thiếu.
 Bổ sung các giá trị thiếu này bằng phƣơng pháp tốn học, có thể chọn một
trong ba cách sau:
o Thay thế giá trị thiếu bằng một hằng số chuẩn.
o Thay thế giá trị thiếu bằng giá trị trung bình cùng thuộc tính.
o Thay thế giá trị thiếu bằng giá trị trung bình cùng thuộc tính và lớp

Phƣơng pháp này có ƣu điểm là đơn giản, nhƣng có hạn chế là giá trị thay
thế khơng phải giá trị đúng hoàn toàn. Nếu thay thế giá trị thiếu bằng một hằng số
hoặc một vài giá trị định trƣớc sẽ làm cho dữ liệu mất tính khách quan. Ví dụ nếu
giá trị thiếu đƣợc thay thế bằng trung bình của thuộc tính cùng lớp sẽ làm cho các
giá trị này hội tụ vào một tập tƣơng ứng với lớp có số trƣờng hợp bị thiếu lớn nhất.


10
 Bổ sung các giá trị thiếu sử dụng phƣơng pháp logic, thƣờng sử dụng
các kỹ thuật cây quyết định hoặc luật quyết định. Phƣơng pháp này tỏ
ra có ƣu thế hơn phƣơng pháp toán học do tập luật đƣợc xây dựng trên
dữ liệu thực, vì thế kết quả có độ tin cậy cao hơn.
Đối với việc xử lý dữ liệu nhiễu có một số giải pháp sau:
 Phƣơng pháp chia giỏ: sắp xếp và chia dữ liệu vào các giỏ theo độ
rộng (chia vùng giá trị thành N khoảng cùng kích thƣớc), hoặc theo độ
sâu (chia vùng giá trị thành N khoảng mà mỗi khoảng có chứa gần
nhƣ cùng số lƣợng mẫu). Khử nhiễu bằng giá trị trung bình, trung
tuyến, biên giỏ…
 Hồi quy: Phƣơng pháp thƣờng dùng là hồi quy tuyến tính, để tìm ra
đƣợc một mối quan hệ tốt nhất giữa hai thuộc tính (hoặc các biến), từ
đó một thuộc tính có thể dùng để dự đốn thuộc tính khác.
 Phân cụm: Các giá trị tƣơng tự nhau đƣợc tổ chức thành các nhóm
hay cụm. Các giá trị rơi ra bên ngồi các nhóm này sẽ đƣợc xem xét
để làm mịn.
Giai đoạn 3: Chuy n đ i dữ liệu
Trong giai đoạn này dữ liệu sẽ đƣợc chuyển đổi về dạng thuận tiện để tiến
hành các thuật toán khai phá dữ liệu.
Một số kỹ thuật áp dụng cho quá trình chuyển đổi dữ liệu:
 Chuyển đổi kiểu dữ liệu: Đây là một kỹ thuật đơn giản nhất. Chẳng
hạn nhƣ chuyển các cột dữ liệu kiểu logic sang dạng nguyên và ngƣợc lại.

 Rời rạc hóa: biến đổi miền giá trị thuộc tính liên tục thành từng
khoảng, lƣu nhãn của khoảng thay cho giá trị thực. Chẳng hạn nhƣ thay thế
giá trị tuổi bằng các nhãn nhƣ trẻ, trung niên, già.
 Nhóm: Kỹ thuật này phân loại các giá trị trong một cột thành các
nhóm, sau đó ánh xạ giá trị ban đầu sang các giá trị nhóm tƣơng ứng. Chẳng
hạn cột nghề nghiệp có những giá trị khác nhau nhƣ kỹ sƣ cơ khí, kỹ sƣ cơng
nghệ thơng tin, kỹ sƣ xây dựng… thì chúng ta có thể nhóm chúng lại thành
nhóm kỹ sƣ.
 Tập hợp: những thơng tin lƣu trữ trong cơ sở dữ liệu là rất chi tiết,
chúng ta có thể tập hợp chúng lại thành vài thuộc tính tổng hợp. Chẳng hạn
chúng ta muốn phân loại khách hàng dựa trên những thông tin sử dụng điện
thoại hàng tháng của khách hàng, chúng ta có thể tập hợp những thông tin này


11
thành một vài thuộc tính tổng hợp nhƣ tổng số cuộc gọi hay thời gian trung
bình các cuộc gọi.
 Tổng quát hóa: Dữ liệu ở mức thấp (dữ liệu nguyên thủy) có thể đƣợc
thay thế bằng các khái niệm ở mức cao hơn. Chẳng hạn những lồi cây có thể
đƣợc tổng quát ở mức cao hơn là thực vật.
 Chuẩn hóa: Một thuộc tính đƣợc chuẩn hóa bằng cách ánh xạ một
cách có tỉ lệ dữ liệu về một khoảng xác định ví dụ nhƣ 0.0 đến 1.0. Chuẩn hóa
là một phần hữu ích của thuật tốn phân lớp trong mạng noron, hoặc thuật
tốn tính tốn độ lệch sử dụng trong việc phân lớp hay nhóm cụm các phần tử
liền kề.
Giai đoạn 4: Khai phá dữ liệu
Trong giai đoạn này ta sử dụng các kỹ thuật nhằm phát hiện ra các tri thức
tiềm ẩn trong dữ liệu.
Giai đoạn này gồm các bƣớc sau:
 Bước 1: Chọn kỹ thuật khai phá dữ liệu

Tùy thuộc vào yêu cầu của bài toán để chọn kỹ thuật khai phá phù hợp.
Bao gồm các kỹ thuật khai phá nhƣ:


Phân lớp: Là việc xác định một hàm ánh xạ từ một mẫu dữ liệu vào

một trong số các lớp đã đƣợc biết trƣớc đó. Mục tiêu của thuật tốn phân lớp là
tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp. Một
điều cần chú ý là khác với bài tốn phân cụm, dữ liệu dùng để xây dựng mơ
hình (Training Data) trong bài toán phân lớp phải đƣợc xác định lớp trƣớc
(pre-Labeled). Ví dụ xác định một sinh viên thuộc có nguy cơ thơi học hoặc
khơng thơi học, hay dự đoán bệnh dựa vào các triệu chứng lâm sàng của ngƣời
bệnh. Quá trình phân lớp dữ liệu thƣờng gồm các bƣớc: huấn luyện mơ hình,
kiểm thử mơ hình và tính tốn sai số để đánh giá mơ hình. Dữ liệu gốc sẽ đƣợc
chia thành 2 phần là tập dữ liệu huấn lun để xây dựng mơ hình và tập dữ liệu
kiểm thử để kiểm định mơ hình tƣơng ứng với hai bƣớc trên. Trong kỹ thuật
phân lớp chúng ta có thể sử dụng các phƣơng pháp nhƣ: cây quyết định, K –
láng giềng gần nhất, mạng noron, giải thuật di truyền, mạng Bayesian, tập mờ
và tập thô.


Hồi qui: Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một

biến dự đốn có giá trị thực. Nhiệm vụ của hồi quy tƣơng tự nhƣ phân lớp,
điểm khác nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ không phải
rời rạc.


12



Phát hiện mẫu tuần tự: tƣơng tự nhƣ phát hiện luật kết hợp nhƣng có

thêm tính thứ tự và tính thời gian. Hƣớng tiếp cận này có tính dự báo cao.

Phân cụm: Mục tiêu chính của việc phân cụm dữ liệu là nhóm các đối
tƣợng tƣơng tự nhau trong tập dữ liệu vào các cụm sao cho mức độ tƣơng tự
nhau trong cùng một cụm là lớn nhất và mức độ tƣơng tự nhau giữa các đối
tƣợng nằm trong các cụm khác nhau là nhỏ nhất. Các cụm có thể tách rời nhau
hoặc phân cấp hay gối lên nhau. Có nghĩa là một đối tƣợng có thể vừa thuộc
cụm này lại vừa thuộc cụm khác. Không giống nhƣ phân lớp dữ liệu, phân
cụm dữ liệu khơng địi hỏi phải định nghĩa trƣớc các mẫu dữ liệu huấn luyện
do đó có thể coi phân cụm dữ liệu là một cách học bằng quan sát còn phân lớp
dữ liệu là học bằng ví dụ. Với phƣơng pháp này sẽ khơng thể biết kết quả các
cụm thu đƣợc sẽ nhƣ thế nào khi bắt đầu q trình cho nên thơng thƣờng cần
một chun gia về lĩnh vực đó để đánh giá các cụm thu đƣợc. Phân cụm dữ
liệu đƣợc ứng dụng nhiều trong phân đoạn thị trƣờng, phân loại khách hàng,
nhận dạng mẫu,… Ngồi ra phân cụm dữ liệu cịn đƣợc sử dụng nhƣ một bƣớc
tiền xử lý cho các thuật toán khai phá dữ liệu khác. Một số thuật toán phân
cụm điển hình: K-means, PAM, EM.


Phân tích luật kết hợp: Mục tiêu của phƣơng pháp này là phát hiện và

đƣa ra các mối liên hệ giữa các giá trị dữ liệu biểu diễn dƣới dạng luật. Trong
kỹ thuật phân tích luật kết hợp chúng ta có thể sử dụng các giải thuật nhƣ:
thuật toán Apriori, thuật toán FP-Growth.
 Bước 2: Chọn thuật tốn khai phá
Trong mỗi kỹ thuật khai phá có thể có nhiều giải thuật khai phá, việc
chọn thuật tốn nào để có hiệu quả cao phụ thuộc vào rất nhiều yếu tố nhƣ độ

lớn của tập dữ liệu khai phá, cấu trúc của tập dữ liệu, tập dữ liệu có hay
khơng có thuộc tính bị thiếu nhiều giá trị…
 Bước 3: Khai phá dữ liệu
Với một tập dữ liệu đã đƣợc tiền xử lý ta tiến hành khai phá dữ liệu
bằng kỹ thuật khai phá đã chọn. Trong bƣớc này, chúng ta có thể cần phải
thực hiện các thuật tốn nhiều lần cho đến khi thu mơ hình với độ chính xác
chấp nhận đƣợc.
Giai đoạn 5: ánh giá kết quả m u
Đây là giai đoạn cuối cùng trong tiến trình PHTT. Trong giai đoạn này, các
mẫu dữ liệu đƣợc chiết xuất bởi các phần mềm khai phá dữ liệu. Không phải bất cứ


13
mẫu nào cũng đều có ích, thậm chí cịn bị sai lệch. Chính vì vậy, cần phải xác định
và lựa chọn những tiêu chuẩn đánh giá sao cho sẽ chiết xuất ra các tri thức cần thiết.
Giai đoạn này có thể chia thành các bƣớc sau:
 Bước 1: ánh giá mơ hình
Trong giai đoạn này, ta đánh giá độ tin cậy của mơ hình khai phá đƣợc cũng
nhƣ tính hữu dụng của các mơ hình đối với các mục tiêu đƣợc xác định ban đầu.
 Bước 2: Sử dụng các tri thức phát hiện được
Đây là giai đoạn cuối cùng của quá trình phát hiện tri thức, tri thức khai phá
đƣợc có thể đƣợc sử dụng trực tiếp hoặc đƣợc biểu diễn dƣới các hình thức thuận
tiện cho ngƣời sử dụng cuối.
`

Hình 1.1 Quá trình phát hiện tri thức từ dữ liệu
1.1.4. Q trình PHTT và KPDL
Nếu PHTT là tồn bộ quá trình chiết xuất tri thức từ các CSDL thì KPDL là
giai đoạn chủ yếu của q trình đó. Trong quá trình phát hiện tri thức, khâu KPDL
đƣợc thực hiện sau các khâu tinh lọc và tiền xử lý dữ liệu, tức là việc khai phá để

tìm ra các mẫu có ý nghĩa đƣợc tiến hành trên tập dữ liệu có hy vọng là sẽ thích hợp
với nhiệm vụ khai phá đó chứ khơng phải là khai phá hết dữ liệu với một thời gian
đủ dài để lấy đƣợc một mẫu khơng thực sự có ích nhƣ khái niệm trong thống kê
trƣớc đây. Vì vậy, KPDL thƣờng bao gồm việc thử tìm mơ hình phù hợp với tập dữ
liệu và tìm kiếm các mẫu từ tập dữ liệu theo mơ hình đó. Chẳng hạn ta có mơ hình
là một luật kết hợp thì mẫu là các yếu tố tham gia cùng với các độ hỗ trợ và độ tin
cậy trong các luật tƣơng ứng. Mặc dù các mẫu có thể đƣợc trích lọc từ bất kỳ CSDL
nào nhƣng chỉ có các mẫu đƣợc xem là đáng quan tâm xét theo một phƣơng diện
nào đó mới đƣợc coi là tri thức. Các mẫu là đáng quan tâm nếu chúng là mới, phù


×