Tải bản đầy đủ (.pdf) (98 trang)

Khai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học thủy lợi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.75 MB, 98 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN XUÂN HẢI

KHAI PHÁ DỮ LIỆU
VÀ ỨNG DỤNG TRONG DỰ BÁO TIẾN TRÌNH HỌC TẬP
CỦA SINH VIÊN ĐẠI HỌC THỦY LỢI

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2016


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN XUÂN HẢI

KHAI PHÁ DỮ LIỆU
VÀ ỨNG DỤNG TRONG DỰ BÁO TIẾN TRÌNH HỌC TẬP
CỦA SINH VIÊN ĐẠI HỌC THỦY LỢI
CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH
MÃ SỐ:

0

60.48.01.01

LUẬN VĂN THẠC SĨ KỸ THUẬT


(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN ĐÌNH HÓA

HÀ NỘI - 2016


i

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất cứ công trình nào.
TÁC GIẢ

Nguyễn Xuân Hải


ii

LỜI CÁM ƠN
Trước hết, tôi xin được bày tỏ lòng biết ơn và gửi lời cám ơn chân thành đến
TS. Nguyễn Đình Hóa - người hướng dẫn khoa học, đã tận tình chỉ bảo và hướng
dẫn tôi tìm ra hướng nghiên cứu, tiếp cận thực tế, tìm kiếm tài liệu, xử lý và phân
tích số liệu, giải quyết vấn đề… Ngoài ra, trong quá trình học tập, nghiên cứu và
thực hiện đề tài tôi còn nhận được nhiều sự quan tâm, góp ý, hỗ trợ quý báu của quý
thầy cô, đồng nghiệp, bạn bè và người thân… nhờ đó tôi mới có thể hoàn thành luận
văn cao học của mình.
Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Cha mẹ và những người thân trong
gia đình đã hỗ trợ, tạo điều kiện thuận lợi cho tôi trong suốt thời gian qua và đặc

biệt trong thời gian tôi theo học khóa thạc sỹ; Các Quý thầy cô tại Học viện Công
nghệ Bưu chính Viễn thông đã truyền đạt cho tôi những kiến thức bổ ích trong suốt
hai năm học vừa qua; Ban Giám hiệu, các Phòng chức năng và đặc biệt là Phòng
Đào tạo ĐH&SĐH – Trường Đại học Thủy lợi đã tạo điều kiện tối đa cho tôi được
học tập, nghiên cứu trong suốt thời gian qua.
Trong quá trình nghiên cứu của mình, mặc dù được sự hướng dẫn rất nhiệt
tình, nghiêm túc của TS. Nguyễn Đình Hóa và các thầy cô giáo trong Học viện
Công nghệ Bưu Chính Viễn thông, Đại học Thủy lợi cùng với sự nỗ lực của cá nhân
nhưng cũng không thể tránh được những thiếu sót. Tác giả chân thành mong nhận
được những ý kiến đóng góp từ quý Thầy, Cô và các bạn bè đồng nghiệp.
Trân trọng cám ơn.
Tác giả
Nguyễn Xuân Hải


iii

MỤC LỤC
LỜI CAM ĐOAN ................................................................................................................... i
LỜI CÁM ƠN………………………………………………………………………………………………ii
MỤC LỤC….…………………………………………………………………………………………….…iii
DANH MỤC TỪ VIẾT TẮT ................................................................................................ v
DANH MỤC CÁC BẢNG BIỂU ......................................................................................... vi
DANH MỤC CÁC HÌNH VẼ ............................................................................................. vii
MỞ ĐẦU……………………………..………………………………………………………………………1
Tính cấp thiết của đề tài..................................................................................................... 1
Tổng quan về vấn đề nghiên cứu ....................................................................................... 2
Mục đích, đối tượng, phạm vi và phương pháp nghiên cứu .............................................. 2
Cấu trúc luận văn ............................................................................................................... 3
CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU TRONG BÀI TOÁN DỰ BÁO ... 4

1.1 Tổng quan về khai phá dữ liệu ................................................................................ 4
1.2

Một số phương pháp khai phá dữ liệu ..................................................................... 6
Phân lớp (Classification) .................................................................................. 6
Phân cụm (Clustering) ...................................................................................... 7
Luật kết hợp (Association Rules) ..................................................................... 7

1.3

Tổng quan về bài toán dự báo.................................................................................. 7
Khái niệm cơ bản .............................................................................................. 7
Đặc điểm của bài toán dự báo .......................................................................... 8
Các phương pháp đánh giá cho bài toán phân lớp, dự báo ............................. 10

1.4

Một số kỹ thuật khai phá dữ liệu trong bài toán dự báo/phân lớp ......................... 11
Các phương pháp cây quyết định ................................................................... 11
Các phương pháp K-láng giềng gần nhất ....................................................... 12
Các phương pháp dựa trên luật ....................................................................... 13
Các phương pháp Bayes «ngây thơ» và mạng tin cậy Bayes ......................... 14

1.5

Kết luận chương 1.................................................................................................. 14

CHƯƠNG 2. KHAI PHÁ DỮ LIỆU VÀ CÁC CÔNG CỤ HỌC MÁY ............................ 16
2.1 Cây quyết định ....................................................................................................... 16
Tổng quan về cây quyết định.......................................................................... 16

Cấu trúc của cây quyết định ........................................................................... 17
Xây dựng cây quyết định ................................................................................ 18
Biến đổi cây quyết định thành luật ................................................................. 22
Một số thuật toán xây dựng cây quyết định.................................................... 22


iv

2.2. K Láng giềng gần nhất ............................................................................................. 41
2.2.1. Tổng quan về K láng giềng gần nhất ................................................................ 41
2.2.2. Thuật toán K láng giềng gần nhất ..................................................................... 41
2.3. Kết luận chương 2 .................................................................................................... 52
CHƯƠNG 3. DỰ BÁO TIẾN TRÌNH HỌC TẬP CỦA SINH VIÊN ĐẠI HỌC THỦY
LỢI………………………………………………………………………………………………………..…53
3.1 Giới thiệu bài toán ................................................................................................. 53
3.2

Phân tích và xây dựng mô hình bài toán................................................................ 53
Phân tích bài toán ........................................................................................... 53
Mô hình bài toán ............................................................................................. 54

3.3

Thực nghiệm .......................................................................................................... 59
Phương pháp đánh giá tập dữ liệu .................................................................. 59
Các độ đo được dùng để dự báo ..................................................................... 59
Mô hình dự báo tiến trình học tập của sinh viên ............................................ 60

3.4


Đánh giá thuật toán ................................................................................................ 64

3.5

Kết luận chương 3.................................................................................................. 65

KẾT LUẬN……………………………………………...…………………………………………………67
TÀI LIỆU THAM KHẢO ................................................................................................... 69
PHỤ LỤC………..…………………………………………………………………………………………70
PHỤ LỤC 1. KẾT QUẢ DỰ BÁO TIẾN TRÌNH HỌC TẬP VỚI GIẢI THUẬT CÂY
QUYẾT ĐỊNH ID3 ......................................................................................................... 70
PHỤ LỤC 2. KẾT QUẢ DỰ BÁO TIẾN TRÌNH HỌC TẬP VỚI GIẢI THUẬT CÂY
QUYẾT ĐỊNH C4.5 ........................................................................................................ 76
PHỤ LỤC 3. KẾT QUẢ DỰ BÁO TIẾN TRÌNH HỌC TẬP VỚI GIẢI THUẬT K
LÁNG GIỀNG GẦN NHẤT ........................................................................................... 83


v

DANH MỤC TỪ VIẾT TẮT
STT

Từ viết tắt

Ý nghĩa

1

CNTT


Công nghệ thông tin

2

CSDL

Cơ sở dữ liệu

3

ĐATN

Đồ án tốt nghiệp

4

ĐHTL

Đại học Thủy lợi

5

GD&ĐT

Giáo dục và Đào tạo

6

KNN


7

KDD

8

K-fold

9

SV

Sinh viên

10

TBTLDK

Điểm trung bình tích lũy đến kỳ

11

TBTLK

Điểm trung bình tích lũy kỳ

12

TCTLDK


Tổng số tín chỉ tích lũy đến kỳ

13

TCTLK

Tổng số tín chỉ tích lũy kỳ

K Nearest Neighbors
(K láng giềng gần nhất)
Knowlegde Discovery in Databases
(Quy trình khám phá tri thức trong cơ sở dữ liệu)
K-fold cross validation
(Đánh giá chéo dựa trên k phần)


vi

DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1. Tập mẫu huấn luyện chơi đá bóng (1)................................................................. 24
Bảng 2.2. Tập mẫu huấn luyện chơi đá bóng (2)................................................................. 30
Bảng 2.3. Tập mẫu huấn luyện chơi đá bóng (3)................................................................. 32
Bảng 2.4. Tỷ lệ Gain cho thuộc tính Độ ẩm ở lần tạo cây thứ nhất .................................... 34
Bảng 2.5. Tỷ lệ Gain cho thuộc tính Độ ẩm ở lần tạo cây thứ hai ...................................... 37
Bảng 2.6. Chuẩn hóa Min – Max, Z-Score thuộc tính tuổi .................................................. 44
Bảng 2.7. Chuẩn hóa Min - Max thuộc tính tuổi và tỷ lệ Na/K ........................................... 47
Bảng 2.8. Ước tính huyết áp cho bệnh nhân 17 tuổi với tỷ lệ Na/K=12.5 .......................... 50
Bảng 3.1. Danh sách các thuộc tính đầu vào của bài toán ................................................. 56
Bảng 3.2. Danh sách các thông tin đầu ra của bài toán ..................................................... 57
Bảng 3.3. Các độ đo dùng để dự báo................................................................................... 59

Bảng 3.4. So sánh tỷ lệ dự báo tiến độ chính xác giữa 2 phương án lấy dữ liệu đầu vào... 61
Bảng 3.5. So sánh tỷ lệ dự báo xử lý học vụ chính xác giữa 2 phương án lấy dữ liệu đầu vào ... 61


vii

DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Quá trình khám phá, phát hiện tri thức từ dữ liệu [4] ........................................... 4
Hình 1.2. Ví dụ về quá trình học trong kỹ thuật phân lớp ..................................................... 9
Hình 1.3. Ví dụ quá trình phân lớp, dự báo ........................................................................... 9
Hình 1.4. Đánh giá độ chính xác phân lớp với phương pháp holdout [8] .......................... 10
Hình 1.5. Cây quyết định cho sự kiện mua máy tính ........................................................... 11
Hình 2.1. Ví dụ về phép phân tách tốt và kém [4] ............................................................... 19
Hình 2.2. Cấp đầu tiên của Cây quyết định (ID3) với nút gốc là Quang cảnh ................... 26
Hình 2.3. Cấp thứ hai của Cây quyết định (ID3) với nhánh Nhiệt độ ................................. 26
Hình 2.4. Cấp thứ hai của Cây quyết định (ID3) với nhánh Gió ........................................ 27
Hình 2.5. Cấp thứ hai của Cây quyết định (ID3) với nhánh Độ ẩm .................................... 27
Hình 2.6. Cấp thứ hai của Cây quyết định (ID3) với nút kế tiếp là thuộc tính Độ ẩm ........ 28
Hình 2.7. Mô hình cây quyết định xây dựng bằng thuật toán ID3 ...................................... 28
Hình 2.8. Cấp đầu tiên của Cây quyết định (C4.5) với nút gốc là Quang cảnh .................. 32
Hình 2.9. Cấp đầu tiên của Cây quyết định (C4.5) với nút gốc là Gió ............................... 33
Hình 2.10. Cấp đầu tiên của Cây quyết định (C4.5) với nút gốc là Độ ẩm ......................... 34
Hình 2.11. Cấp đầu tiên của Cây quyết định (C4.5) với nút gốc là Nhiệt độ ...................... 35
Hình 2.12. Cấp thứ hai của Cây quyết định (C4.5) với nhánh Nhiệt độ ............................. 36
Hình 2.13. Cấp thứ hai của Cây quyết định (C4.5) với nhánh Gió ..................................... 37
Hình 2.14. Cấp thứ hai của Cây quyết định (C4.5) với nhánh Ngày................................... 38
Hình 2.15. Mô hình Cây quyết định xây dựng bằng thuật toán C4.5 .................................. 39
Hình 2.16. Ví dụ minh họa thuật toán K-NN (1).................................................................. 42
Hình 2.17. Ví dụ minh họa thuật toán K-NN (2).................................................................. 46
Hình 2.18. Minh họa phân loại hồ sơ sử dụng thuật toán K-NN ......................................... 51

Hình 3.1. Mô hình bài toán .................................................................................................. 55
Hình 3.2. Thông tin về tiến trình học tập của sinh viên ....................................................... 55
Hình 3.3. Quá trình phân lớp............................................................................................... 58
Hình 3.4. Tỷ lệ dự báo chính xác theo Cây quyết định (ID3) .............................................. 62
Hình 3.5. Tỷ lệ dự báo chính xác theo Cây quyết định (C4.5)............................................. 63
Hình 3.6. Tỷ lệ dự báo chính xác theo K láng giềng gần nhất ............................................ 64
Hình 3.7. Đánh giá độ chính xác của 3 phương pháp khi dự báo kết quả học vụ ............... 65
Hình 3.8. Đánh giá độ chính xác của 3 phương pháp khi dự báo tiến độ học tập .............. 65


1

MỞ ĐẦU
Tính cấp thiết của đề tài
Mục tiêu chung của các em sinh viên cũng như của các bậc phụ huynh khi
bước chân vào Trường Đại học chính là tấm bằng Đại học. Tuy nhiên, với mô hình
đào tạo theo tín chỉ hiện nay tại hầu hết các trường Đại học nói chung và Đại học
Thủy lợi nói riêng thì việc tìm hiểu, thích nghi với quy chế đào tạo mới là một điều
không hề dễ dàng (trong quá trình học 12 năm phổ thông thì người học được đào
tạo theo niên chế). Trong thực tế, rất nhiều sinh viên vẫn giữ thói quen cũ từ thời
phổ thông (thang điểm, phương thức học tập…) trong quá trình học đại học, từ đó
phát sinh ra những trường hợp đáng tiếc mà do thiếu hiểu biết, các em đã bỏ lỡ mất
cơ hội của mình. Ví dụ như tại Đại học Thủy lợi, có trường hợp sinh viên học đạt
hầu hết các môn (Điểm D tức là từ 4-5.4 điểm theo thang 10 là đạt [1]) nhưng lại
không đủ điều kiện làm Đồ án tốt nghiệp (điều kiện làm Đồ án tốt nghiệp là không
nợ môn và điểm trung bình chung các môn là 2.0 theo thang điểm 4 [3]), từ đó dẫn
đến việc em bị chậm tiến độ học tập…
Để các em sinh viên và phụ huynh phần nào có cái nhìn rõ ràng hơn về tương
lai việc học tập tại Trường Đại học mà không cần phải hiểu sâu về quy chế đào tạo
theo tín chỉ: Đó là khả năng hoàn thành chương trình học như thế nào? Có đảm bảo

tiến độ theo khung chung của nhà trường hay không? Có nguy cơ bị cảnh báo học
tập hay không?... Từ đó, các em và gia đình có thể có những quyết định hợp lý, kịp
thời trong thời gian học tập. Giải pháp tác giả đưa ra là cung cấp cho sinh viên và
gia đình thông tin dự báo về tiến trình học tập trong tương lai của sinh viên dựa trên
những dữ liệu hiện tại của sinh viên. Thông qua đó, sinh viên sẽ có thể đưa ra được
những quyết định kịp thời, hợp lý cho việc học tập của mình; nhà trường cũng có
thể có những giải pháp kịp thời để quan tâm, cảnh báo, khuyến khích các em sinh
viên; gia đình cũng có thể nhìn nhận và hỗ trợ, động viên con em của mình…
Xuất phát từ thực tế và mục tiêu như vậy, tác giả thực hiện đề tài luận văn có
tên “Khai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên
Đại học Thủy lợi” để giải quyết vấn đề nêu trên.


2

Tổng quan về vấn đề nghiên cứu
Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các
tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có. Khai phá dữ liệu đã và
đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực hiện nay như: Tài chính,
chứng khoán; Sinh học; Viễn thông...
Dự báo là tiên đoán những sự việc sẽ xảy ra trong tương lai, trên cơ sở phân
tích khoa học về các dữ liệu đã thu thập được; nói cách khác, dự báo được rút ra từ
mô hình được xây dựng từ các đặc trưng dữ liệu được trích xuất ra từ bộ dữ liệu ban
đầu sau khi khai phá dữ liệu. Trong thời đại công nghệ thông tin và toàn cầu hóa, dự
báo đóng vai trò ngày càng quan trọng khi nhu cầu về thông tin tại thời điểm nào đó
trong tương lai ngày càng lớn. Trong thực tế, có rất nhiều các mô hình dự báo được
ứng dụng trong rất nhiều lĩnh vực thực tế, ví dụ như dự báo khí tượng thủy văn (sử
dụng mô hình GSM, HRM…), dự báo tỷ giá hay chứng khoán (sử dụng mô hình
ARIMA), dự báo về sử dụng điện năng (mô hình mạng nơron…), hay trong giáo
dục, gần đây có nghiên cứu về dự báo kết quả thi đại học từ kết quả thi đại học và

dữ liệu điểm các môn học sẽ thi đại học từ 03 năm học phổ thông.
Tuy nhiên, hiện vẫn chưa có nghiên cứu cụ thể nào có thể giải quyết bài toán
thực tế mà đề tài luận văn nhắc đến ở trên. Do đó, tác giả tiến hành thực hiện đề tài
luận văn nghiên cứu về vấn đề khai phá dữ liệu và ứng dụng vào giải quyết bài toán
thực tế là dự đoán tiến trình học tập của sinh viên Đại học Thủy lợi

Mục đích, đối tượng, phạm vi và phương pháp nghiên cứu
Luận văn tiến hành nghiên cứu, tìm hiểu các vấn đề cơ bản về khai phá dữ
liệu, các công cụ học máy. Từ đó ứng dụng vào việc xây dựng mô hình dự báo tiến
trình học tập của sinh viên Đại học Thủy lợi. Qua luận văn này, tác giả mong muốn
có những nghiên cứu lý thuyết về khai phá dữ liệu, các công cụ học máy và các
thuật toán dự báo (Cây quyết định, K láng giềng gần nhất); thực nghiệm, phân tích
được kết quả dự báo tiến trình học tập của sinh viên.
Thông qua phương pháp nghiên cứu lý thuyết và phương pháp nghiên cứu
thực nghiệm, tác giả đã tiếp cận nghiên cứu các văn bản pháp quy và các hướng dẫn


3

thực hiện quy chế đào tạo theo tín chỉ; dữ liệu về chương trình đào tạo tạo, điểm,
kết quả học vụ của sinh viên Đại học Thủy lợi hay các công nghệ liên quan đến khai
phá dữ liệu để tổng hợp thu thập thông tin. Từ đó phân tích được các yêu cầu của
công việc, vận dụng các kết quả lý thuyết vào bộ dữ liệu cụ thể của Trường Đại học
Thủy lợi để đánh giá và phân tích kết quả

Cấu trúc luận văn
Nội dung của luận văn được trình bày trong ba phần chính như sau:
1. Phần mở đầu
2. Phần nội dung: bao gồm ba chương
Chương 1: Tổng quan về Khai phá dữ liệu trong bài toán dự báo

Nội dung của chương trình bày một số kiến thức tổng quan về khai phá dữ
liệu, những kiến thức cơ bản nhất về bài toán dự báo và một số kỹ thuật khai phá
dữ liệu trong bài toán dự báo. Đề xuất phương pháp sử dụng để ứng dụng vào
giải quyết bài toán dự báo của luận văn
Chương 2: Khai phá dữ liệu và các công cụ học máy
Chương này trình bày khái quát về các phương pháp khai phá dữ liệu
trong bài toán dự báo; so sánh, đánh giá ưu nhược điểm của các phương pháp.
Trong chương này, tác giả cũng phân tích để đưa ra quyết định lựa chọn các công
cụ học máy là hai thuật toán Cây quyết định, và thuật toán K láng giềng gần nhất
để xây dựng mô hình dự báo mà luận văn đưa ra.
Chương 3: Dự báo tiến trình học tập của sinh viên Đại học Thủy lợi
Trong chương này, tác giả giới thiệu về bài toán dự báo tiến độ học tập,
cảnh báo sinh viên khi thuộc đối tượng bị cảnh báo học tập, xây dựng mô hình
của bài toán, đưa ra kết quả thực nghiệm của bài toán với các phương pháp đã
lựa chọn ở chương 2. Tác giả có sử dụng phương pháp đánh giá độ chính xác của
thuật toán. Tại chương này tác giả cũng giới thiệu về quá trình thực nghiệm cho
bài toán, tổng hợp, so sánh và đánh giá các kết quả của bài toán.
3. Phần kết luận


4

CHƯƠNG 1.

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
TRONG BÀI TOÁN DỰ BÁO

1.1 Tổng quan về khai phá dữ liệu
Có nhiều định nghĩa về khai phá dữ liệu, trong đó có thể kể đến như [5]:
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp

được dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ
và các mẫu chưa biết bên trong dữ liệu”
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong cơ sở dữ
liệu lớn”.
Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm
thường nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu
được”.
Như vậy có thể nói rằng: Khai phá dữ liệu (data mining) là quá trình khám
phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã
có. Ví dụ: từ các dữ liệu đã có về độ ẩm, nhiệt độ,… người ta có thể đưa ra dự đoán
được được thời tiết của một ngày; hay từ các dữ liệu về huyết áp, tỷ lệ mỡ trong
máu… người ta có thể dự đoán khả năng bị bệnh của một bệnh nhân.

Hình 1.1. Quá trình khám phá, phát hiện tri thức từ dữ liệu [4]


5

Quy trình khám phá tri thức trong cơ sở dữ liệu (KDD) thường tuân theo các
bước như hình 1.1 trên đây:
Bước 1- Gom dữ liệu: là tập hợp dữ liệu từ các nguồn khác nhau. Dữ liệu
được gom lại từ một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các
nguồn ứng dụng Web.
Bước 2 - Trích lọc dữ liệu: dữ liệu được lựa chọn hoặc phân chia theo một số
tiêu chuẩn nào đó phục vụ mục đích khai thác. Ví dụ trong bộ dữ liệu của sinh viên
thì chỉ lọc ra những dữ liệu như: điểm trung bình tích lũy từng học kỳ, điểm trung
bình tích lũy toàn khóa tính đến thời điểm xét, số tín chỉ tích lũy từng học kỳ, số tín
chỉ tích lũy toàn khóa tính đến thời điểm xét, kết quả xử lý học vụ từng kỳ.
Bước 3 - Làm sạch, tiền xử lý dữ liệu: đây là một bước rất quan trọng trong

quá trình khai phá dữ liệu để tránh những kết quả sai lệch nghiêm trọng. Trong quá
trình gom dữ liệu thường mắc phải một số lỗi khiến cho dữ liệu không đủ chặt chẽ,
thiếu sự logic. Điều đó dẫn đến dữ liệu thường chứa các giá trị vô nghĩa và không
có khả năng kết nối dữ liệu. Ví dụ: trong bài toán sử dụng kết quả thi cuối năm,
người dùng nhập điểm thi = 95 hay có thể nhập 9,5 thay vì phải nhập là 9.5, ... Các
thao tác thực hiện ở giai đoạn này là tiến hành xử lý những dạng dữ liệu không chặt
chẽ nói trên.
Bước 4 - Chuyển đổi dữ liệu: giai đoạn này dùng để chuyển đổi, tổ chức
chức lại dữ liệu về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác
nhóm hoặc tập hợp.
Bước 5 - Khai phá dữ liệu: Đây là bước mang tính tư duy trong khai phá dữ
liệu. Ở giai đoạn này thường sử dụng các thuật toán phân lớp, phân cụm, luật kết
hợp hoặc mô hình hóa dữ liệu… để trích ra các thông tin mô tả cho các mẫu dữ liệu.
Bước 6 - Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, một số
tiêu chuẩn đánh giá (phép đo) được sử dụng để đánh giá sự hữu ích của các mẫu
biểu diễn tri thức đạt được ở Bước 5. Quá trình đánh giá thường phụ thuộc vào các
mẫu dữ liệu mới. Ở đây không phải mẫu dữ liệu nào cũng đều chính xác, đôi khi có


6

thể bị sai lệch. Sau đó sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để
lựa chọn và biểu diễn tri thức được khai phá cho người sử dụng.
Quá trình khám phá tri thức bắt đầu là kho dữ liệu thô và kết thúc với tri thức
được chiết xuất ra. Về lý thuyết thì có vẻ rất đơn giản nhưng thực tế đây là một quá
trình rất khó khăn khi thực hiện gặp phải rất nhiều vướng mắc như: quản lý các tập
dữ liệu, phải lặp đi lặp lại toàn bộ quá trình, v.v...
Tóm lại: khám phá tri thức từ dữ liệu là một quá trình kết xuất ra tri thức từ
kho dữ liệu mà trong đó khai phá dữ liệu là công đoạn quan trọng nhất [5].


1.2 Một số phương pháp khai phá dữ liệu
Phân lớp (Classification)
Phân lớp là việc xác định một hàm ánh xạ từ một mẫu dữ liệu vào một trong
số các lớp đã được biết trước đó. Mục tiêu của phương pháp phân lớp dữ liệu là dự
đoán nhãn lớp cho các mẫu dữ liệu. Như thế quá trình phân lớp có thể sử dụng mối
quan hệ này để dự báo cho các mục (cá thể, mẫu) mới. Các kiến thức được phát
hiện biểu diễn dưới dạng các luật theo cách sau: “Nếu các thuộc tính dự báo của
một mục thoả mãn điều kiện của các tiền đề thì mục nằm trong lớp chỉ ra trong kết
luận”[6].
Quá trình phân lớp, hay phân loại dữ liệu thường gồm 2 bước: Xây dựng mô
hình và sử dụng mô hình để phân lớp dữ liệu. Ví dụ: Giả sử có một mục biểu diễn
thông tin về bệnh nhân và có các thuộc tính dự báo là: họ tên, tuổi, giới tính, tỷ lệ
Na/k, chỉ số huyết áp… và thuộc tính phân loại là có bị ung thư hay không.
Các bài toán phân lớp có thể được chia thành hai dạng cơ bản :
a. Phân lớp nhị phân/đa lớp: Phân lớp nhị phân là phân lớp mà giá trị của
thuộc tính cần dự đoán chỉ có 2 giá trị ví dụ Yes/No, còn phân lớp đa lớp là phân
lớp mà giá trị của thuộc tính cần dự đoán có hơn 2 giá trị. Ví dụ như phân loại kết
quả của sinh viên ở trường ĐHTL thì mỗi em có khả năng nhận các giá trị: Xuất
sắc, giỏi, khá, trung bình, yếu kém.


7

b. Phân lớp đơn nhãn/ đa nhãn: Phân lớp đơn nhãn là phân lớp mà mỗi mẫu
cần dự đoán sẽ được gán vào chính xác một lớp. Ví dụ như dự đoán 1 bệnh nhân có
mắc virut H5N1 hay không thì hệ thống chỉ có thể dự đoán là có hoặc không. Trong
trường hợp phân lớp đa nhãn, một mẫu mới có thể được gán vào nhiều hơn một lớp.
Ví dụ như hệ thống dự đoán xem máy tính bị nhiễm những loại virut nào.

Phân cụm (Clustering)

Phân cụm là việc mô tả chung để tìm ra các tập hay các nhóm, loại mô tả dữ
liệu. Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau. Có nghĩa là dữ
liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác. Mục tiêu chính của
phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ
liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các
đối tượng thuộc các cụm khác nhau sẽ không tương đồng.
Các ứng dụng khai phá dữ liệu có nhiệm vụ phân nhóm như phát hiện tập các
khách hàng có phản ứng giống nhau trong CSDL tiếp thị; xác định các quang phổ từ
các phương pháp đo tia hồng ngoại, Liên quan chặt chẽ đến việc phân nhóm là
nhiệm vụ đánh giá dữ liệu, hàm mật độ xác suất đa biến/ các trường trong CSDL.

Luật kết hợp (Association Rules)
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ
liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm
được. Một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A
và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong
cùng bản ghi đó: A => B

1.3 Tổng quan về bài toán dự báo
Khái niệm cơ bản
Dự báo (hay còn gọi là dự đoán, tiên lượng) là tiên đoán những sự việc sẽ
xảy ra trong tương lai, dựa trên cơ sở phân tích khoa học về các dữ liệu đã thu thập
được; nói cách khác, dự báo được rút ra từ mô hình được xây dựng từ các đặc trưng
dữ liệu được trích xuất ra từ bộ dữ liệu ban đầu sau khi khai phá dữ liệu.


8

Trong thời đại công nghệ thông tin và toàn cầu hóa, dự báo đóng vai trò ngày
càng quan trọng khi nhu cầu về thông tin tại thời điểm nào đó trong tương lai ngày

càng lớn. Trong thực tế, có rất nhiều các mô hình dự báo được ứng dụng trong rất
nhiều lĩnh vực thực tế, ví dụ như dự báo khí tượng thủy văn (sử dụng mô hình
GSM, HRM…), dự báo tỷ giá hay chứng khoán (sử dụng mô hình ARIMA), dự báo
về sử dụng điện năng (mô hình mạng nơron…).
Dự báo dữ liệu là một quá trình gồm hai bước, nó gần giống với quá trình
phân lớp. Tuy nhiên để dự đoán, chúng ta bỏ qua khái niệm nhãn phân lớp bởi vì
các giá trị được dự đoán là liên tục (được sắp xếp) hơn là các giá trị phân loại. Ví dụ
thay vì phân loại xem một khoản vay có là an toàn hay rủi ro thì chúng ta sẽ dự
đoán xem tổng số tiền cho vay của một khoản vay là bao nhiêu thì khoản vay đó là
an toàn. Do đó, ta có thể thấy rằng tất cả những đặc điểm của bài toán phân lớp hiện
hữu trực tiếp tại bài toán dự báo

Đặc điểm của bài toán dự báo
Quá trình dự báo thường gồm 2 bước:
Bước 1: Xây dựng mô hình
Trong bước này, một mô hình sẽ được xây dựng dựa trên việc phân tích các
mẫu dữ liệu sẵn có. Đây là quá trình học, trong đó một thuật toán phân lớp được
xây dựng bằng cách phân tích hoặc “học” từ tập dữ liệu huấn luyện được xây dựng
sẵn bao gồm nhiều bộ dữ liệu (xem ví dụ ở Hình 1.2).
Đầu vào của quá trình này là một tập dữ liệu có cấu trúc được mô tả bằng các
thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính đó. Mỗi bộ giá trị
được gọi chung là một mẫu (sample). Trong tập dữ liệu này, mỗi mẫu dữ liệu X
biểu diễn bằng một vector n chiều, X = (x1, x2,…, xn), đây là các giá trị cụ thể của
một tập n thuộc tính của nguồn dữ liệu {A 1, A2, …, An}. Mỗi mẫu được giả sử
thuộc về một lớp định nghĩa trước, lớp ở đây là giá trị của một thuộc tính được chọn
làm thuộc tính gán nhãn lớp hay thuộc tính quyết định.
Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng luật dạng ifthen (nếu-thì), công thức logic, hay các công cụ phân lớp như mạng nơron, cây
quyết định, SVM…



9

Quá trình đầu tiên của phân lớp có thể được xem như việc xác định ánh xạ từ
các dữ liệu có sẵn sang tập các nhãn dữ liệu, thường được biểu diễn bằng hàm y =
f(X), hàm này gán nhãn y cho mẫu X. Nghĩa là với mỗi lớp dữ liệu chúng ta cần học
(xây dựng) một ánh xạ hoặc một hàm tương ứng [8].

Hình 1.2. Ví dụ về quá trình học trong kỹ thuật phân lớp

Bước 2: Sử dụng mô hình đã xây dựng để phân lớp, dự báo dữ liệu
Trong bước này mô hình thu được sẽ được sử dụng để phân lớp, dự báo;
việc đầu tiên trong bước này là phải tính độ chính xác của mô hình. Để đảm bảo
tính khách quan nên áp dụng mô hình này trên một tập kiểm thử hơn là làm trên tập
dữ liệu huấn luyện ban đầu. Tính chính xác của mô hình phân lớp trên tập dữ liệu
kiểm thử là số phần trăm các bộ dữ liệu kiểm tra được đánh nhãn đúng bằng cách so
sánh chúng với các mẫu trong bộ dữ liệu huấn luyện. Nếu như độ chính xác của mô
hình dự đoán là chấp nhận được thì chúng ta có thể sử dụng mô hình để dự đoán
nhãn lớp cho các mẫu dữ liệu khác với thông tin nhãn phân lớp chưa xác định trong
tương lai [8] (xem minh họa ở Hình 1.3).

Hình 1.3. Ví dụ quá trình phân lớp, dự báo


10

Các phương pháp đánh giá cho bài toán phân lớp, dự báo
Đánh giá độ chính xác đóng vai trò quan trọng trong việc phân lớp. Dữ liệu
để đánh giá là dữ liệu không dùng để huấn luyện phân lớp, độ chính xác một phân
lớp là độ phù hợp của nhãn dữ liệu tương lai. Ví dụ, huấn luyện một phân lớp từ dữ
liệu bán hàng để dự đoán thói quen mua sắm của khách hàng, cần đánh giá độ chính

xác phân lớp có thể dự đoán thói quen mua sắm của các khách hàng tương lai như
thế nào. Độ chính xác đánh giá này sẽ trợ giúp cho việc so sánh các phân lớp khác
nhau.
Có nhiều kỹ thuật để có thể đánh giá độ chính xác của các thuật toán phân
lớp. Trong đó Holdout và K-fold cross validation (đánh giá chéo dựa trên k phần) là
hai kỹ thuật phổ biến để đánh giá độ chính xác phân lớp dựa trên các phân chia lấy
mẫu ngẫu nhiên từ dữ liệu cho trước [8].

Hình 1.4. Đánh giá độ chính xác phân lớp với phương pháp holdout [8]

Trong phương pháp holdout, dữ liệu đã cho được phân chia ngẫu nhiên vào
trong hai tập độc lập: một tập huấn luyện và một tập kiểm định. Thông thường, hai
phần ba dữ liệu được chỉ định là tập huấn luyện và còn lại một phần ba được chỉ
định là tập kiểm định. Tập huấn luyện được dùng để phân lớp, độ chính xác của nó
được đánh giá với tập kiểm định (Hình 1.4). Việc đánh giá này là lạc quan bởi chỉ
một phần dữ liệu ban đầu được dùng để phân lớp. Lấy mẫu con ngẫu nhiên là một
sự thay đổi của phương pháp holdout trong đó phương pháp holdout được lặp lại k
lần. Độ chính xác phân lớp bằng giá trị trung bình của các độ chính xác có được từ
mỗi lần lặp.


11

Trong K-fold, dữ liệu ban đầu được phân chia ngẫu nhiên vào trong k tập con
riêng biệt ("các fold – phần dữ liệu") S1S2,...,Sk, chúng có kích thước xấp xỉ bằng
nhau. Huấn luyện và kiểm định được thực hiện k lần. Trong lần lặp thứ i, tập con Si
đóng vai trò như một tập kiểm định và các tập con còn lại được dùng chung để huấn
luyện phân lớp. Tức là phân lớp của lần lặp đầu tiên được huấn luyện trên các tập
con S2,S3,...,Sk và được kiểm định trên S1; phân lớp của lần lặp thứ 2 được huấn
luyện trên các tập con S1,S3,...,Sk và được kiểm định trên S2, v.v... Độ chính xác phân

lớp là toàn bộ số lượng các phân loại chính xác từ k lần lặp chia cho tổng số lượng
các mẫu trong dữ liệu ban đầu. Trong hợp lệ chéo phân tầng, các phần dữ liệu được
phân tầng để sự phân bố lớp của các mẫu trong mỗi fold xấp xỉ như sự phân bố lớp
trong dữ liệu ban đầu [8].

1.4 Một số kỹ thuật khai phá dữ liệu trong bài toán dự báo/phân lớp
Các phương pháp cây quyết định
Cây quyết định (Decision Tree) là cấu trúc cây có dạng biểu đồ luồng, mỗi
nút trong là kiểm định trên một thuộc tính, mỗi nhánh đại diện cho một kết quả
kiểm định, các nút lá đại diện cho các lớp. Nút cao nhất trên cây là nút gốc.

Hình 1.5. Cây quyết định cho sự kiện mua máy tính

Ví dụ: Hình 1.5 thể hiện cây quyết định biểu diễn hoạt động mua máy tính.
Nó dự đoán liệu một khách hàng nào đó có mua máy tính hay không. Hình chữ nhật
biểu thị các nút trong, hình elip biểu thị các nút lá.


12

Để phân loại một mẫu chưa biết, các giá trị thuộc tính của mẫu sẽ được kiểm
định trên cây. Đường đi từ gốc tới một nút lá cho biết dự đoán lớp đối với mẫu đó.
Cây quyết định có thể dễ dàng chuyển đổi thành các luật phân loại.
Với kỹ thuật phân lớp dựa trên cây quyết định, kết quả của quá trình xây
dựng mô hình sẽ cho ra một cây quyết định. Cây này được sử dụng trong quá trình
phân lớp các đối tượng dữ liệu chưa biết hoặc đánh giá độ chính xác của mô hình.
Tương ứng với hai giai đoạn trong quá trình phân lớp là quá trình xây dựng và sử
dụng cây quyết định.
Quá trình xây dựng cây quyết định bắt đầu từ một nút đơn biểu diễn tất cả
các mẫu dữ liệu. Sau đó, các mẫu sẽ được phân chia một cách đệ quy dựa vào việc

lựa chọn các thuộc tính. Nếu các mẫu có cùng một lớp thì nút sẽ trở thành lá, ngược
lại sử dụng một độ đo thuộc tính để chọn ra thuộc tính tiếp theo làm cơ sở để phân
chia các mẫu ra các lớp. Theo từng giá trị của thuộc tính vừa chọn, tạo ra các nhánh
tương ứng và phân chia các mẫu vào các nhánh đã tạo. Lặp lại quá trình trên cho tới
khi tạo ra được cây quyết định, tất cả các nút triển khai thành lá và được gán nhãn.
Quá trình đệ quy sẽ dừng lại khi một trong các điều kiện sau được thỏa mãn:
(1) Tất cả các mẫu thuộc cùng một nút; (2) Không còn một thuộc tính nào để lựa
chọn; (3) Nhánh không chứa mẫu nào.
Phần lớn các giải thuật sinh cây quyết định đều có hạn chế chung là sử dụng
nhiều bộ nhớ. Lượng bộ nhớ sử dụng tỷ lệ thuận với kích thước của mẫu dữ liệu
huấn luyện. Một chương trình sinh cây quyết định có hỗ trợ sử dụng bộ nhớ ngoài
song lại có nhược điểm về tốc độ thực thi. Do vậy, vấn đề tỉa bớt cây quyết định trở
nên quan trọng. Các nút lá không ổn định trong cây quyết định sẽ được tỉa bớt. Kỹ
thuật tỉa trước là việc dừng sinh cây quyết định khi chia dữ liệu không có ý nghĩa.

Các phương pháp K-láng giềng gần nhất
Sự miêu tả các bản ghi trong tập dữ liệu khi trỏ vào không gian nhiều chiều
là rất có ích đối với việc phân tích dữ liệu. Với việc dùng các miêu tả này, nội dung
của vùng lân cận được xác định, trong đó các bản ghi gần nhau trong không gian
được xem xét thuộc về lân cận (hàng xóm – láng giềng) của nhau. Khái niệm này


13

được dùng trong khoa học kỹ thuật với tên gọi K-láng giềng gần nhất, trong đó K là
số láng giềng được sử dụng. Phương pháp này rất hiệu quả nhưng lại đơn giản. Ý
tưởng thuật toán học K-láng giềng gần là “thực hiện như các láng giềng gần của bạn
đã làm”. Để dự đoán hoạt động của một mẫu xác định, K-láng giềng tốt nhất của
mẫu đó sẽ được xem xét, và trung bình các hoạt động của các láng giềng gần sẽ đưa
ra được dự đoán về hoạt động của mẫu đó.

Ví dụ: Để dự đoán điểm thi tiến độ học tập của một sinh viên với số láng
giềng K=5. Sau khi xác định được 5 sinh viên gần nhất với sinh viên cần dự đoán
(bằng cách tính khoảng cách) và xác định được trong 5 sinh viên đó thì có 4 em
thực hiện đúng tiến độ và 1 không thực hiện đúng tiến độ thì sẽ dự đoán sinh viên
này sẽ thực hiện đúng tiến độ học tập.
Kỹ thuật K-láng giềng gần nhất là một phương pháp tìm kiếm đơn giản. Tuy
nhiên, nó có một số mặt hạn chế là giới hạn phạm vi ứng dụng của nó. Đó là thuật
toán này có độ phức tạp tính toán là luỹ thừa bậc 2 theo số bản ghi (mẫu) của tập dữ
liệu.
Vấn đề chính liên quan đến thuộc tính của bản ghi, một bản ghi gồm nhiều
thuộc tính độc lập, nó bằng một điểm trong không gian tìm kiếm có số chiều lớn.
Trong các không gian có số chiều lớn, giữa hai điểm bất kỳ hầu như có cùng
khoảng cách. Vì thế mà kỹ thuật K-láng giềng rất khó có thể cho thêm một thông tin
có ích nào để dự đoán cho điểm hiện tại, vì khi tất cả các cặp điểm đều có thể coi
các láng giềng của nó. Cuối cùng, phương pháp K-láng giềng không đưa ra lý
thuyết để hiểu cấu trúc dữ liệu như những quy luật mà con người có thể nhìn vào đó
hiểu được. Hạn chế đó có thể được khắc phục bằng kỹ thuật cây quyết định.

Các phương pháp dựa trên luật
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ
liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết
hợp tìm được. Một ví dụ đơn giản về luật kết hợp là sự kết hợp giữa hai thành phần
A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B
trong cùng bản ghi đó: A => B.


14

Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật
A=>B sao cho tần số của luật không nhỏ hơn ngưỡng σ cho trước và độ tin cậy của

luật không nhỏ hơn ngưỡng θ cho trước. Từ một cơ sở dữ liệu có thể tìm được hàng
nghìn và thậm chí hàng trăm nghìn các luật kết hợp.
Các luật kết hợp có thể là một cách hình thức hóa đơn giản. Chúng rất thích
hợp cho việc tạo ra các kết quả có dữ liệu dạng nhị phân. Giới hạn cơ bản của
phương pháp này là ở chỗ các quan hệ cần phải thưa theo nghĩa không có tập
thường xuyên nào chứa nhiều hơn 15 thuộc tính. Giải thuật tìm kiếm các luật kết
hợp tạo ra số luật ít nhất phải bằng với số các tập phổ biến và nếu như một tập phổ
K

biến có kích thước K thì phải có ít nhất là 2 tập phổ biến. Thông tin về các tập phổ
biến được sử dụng để ước lượng độ tin cậy của các tập luật kết hợp [8].

Các phương pháp Bayes «ngây thơ» và mạng tin cậy Bayes
Phân lớp Bayesian là phân lớp thống kê. Phân lớp Bayesian dựa trên định lý
Bayes. Một phân lớp đơn giản của Bayesian đó là Naive Bayesian, so với việc thực
thi của phân lớp cây quyết định và mạng nơron, phân lớp Bayesian đưa ra độ chính
xác cao và nhanh khi áp dụng vào các cơ sở dữ liệu lớn.
Các phân lớp Naive Bayesian giả định rằng hiệu quả của một giá trị thuộc
tính trên một lớp là độc lập so với giá trị của các thuộc tính khác. Giả định này được
gọi là độc lập có điều kiện lớp. Như vậy sẽ đơn giản hoá các tính toán rắc rối, vì thế
coi nó là "ngây thơ".
Các mạng belief (dựa trên) Bayesian là các mô hình đồ thị, nó không giống
như phân lớp Bayesian ngây thơ, cho phép biểu diễn sự phụ thuộc giữa các tập con
của các thuộc tính. Các mạng belief Bayesian cũng được dùng cho phân loại [8].

1.5 Kết luận chương 1
Khai phá dữ liệu là lĩnh vực đã và đang trở thành một trong những hướng
nghiên cứu thu hút được sự quan tâm của nhiều chuyên gia về CNTT trên thế giới.
Trong những năm gần đây, rất nhiều các phương pháp và thuật toán mới liên tục



15

được công bố. Điều này chứng tỏ những ưu thế, lợi ích và khả năng ứng dụng thực
tế to lớn của khai phá dữ liệu.
Nội dung của chương đã trình bày một số kiến thức tổng quan về khai phá dữ
liệu, những kiến thức cơ bản nhất về bài toán phân lớp dữ liệu và một số kỹ thuật
khai phá dữ liệu trong bài toán phân lớp, dự báo như phương pháp cây quyết định,
phương pháp K láng giềng gần nhất, phương pháp dựa trên luật, phương pháp
Bayes. Chương này cũng đã đưa ra được đánh giá về ưu và nhược điểm với mỗi
phương pháp. Ví dụ như phương pháp K láng giềng gần nhất thì đây là phương
pháp đơn giản nhưng lại hạn chế là giới hạn phạm vi ứng dụng của nó và nó không
rút ra được những quy luật mà khi nhìn vào đó chúng ta có thể hiểu được. Phương
pháp cây quyết định có điểm hạn chế là khi sinh cây quyết định nó sẽ tốn nhiều bộ
nhớ. Trong trường hợp có hỗ trợ sử dụng bộ nhớ ngoài thì nó lại có nhược điểm về
tốc độ thực thi. Tuy nhiên, cây quyết định lại có khả năng biểu diễn các dữ liệu
phức tạp thành một cấu trúc đơn giản. Phương pháp dựa trên luật kết hợp là phương
pháp nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ
liệu, nó thích hợp cho việc tạo ra các kết quả có dữ liệu dạng nhị phân nhưng lại bị
giới hạn là không có tập nào chứa hơn 15 thuộc tính. Mặc dù K láng giềng gần nhất,
và cây quyết định có một số nhược điểm kể trên, nhưng chúng được sử dụng rất
rộng rãi vì tính dễ minh họa và giải thích cho việc lựa chọn phân lớp. Chính vì vậy,
trong bản luận văn này hai kĩ thuật này sẽ được sử dụng cho bài toán dự báo tiến
trình học tập của sinh viên. Nội dung của chương sau sẽ đi vào tìm hiểu kỹ hơn về
kỹ thuật khai phá dữ liệu bằng cây quyết định và K láng giềng gần nhất.


16

CHƯƠNG 2.


KHAI PHÁ DỮ LIỆU VÀ CÁC CÔNG CỤ
HỌC MÁY

2.1 Cây quyết định
Tổng quan về cây quyết định
2.1.1.1 Giới thiệu chung
Cây quyết định (decision tree) là một phương pháp mạnh và thường được sử
dụng cho cả hai nhiệm vụ của khai phá dữ liệu là phân loại và dự báo. Mặt khác,
cây quyết định còn có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri
thức với các luật If-Then.
Cây quyết định là cấu trúc biễu diễn dưới dạng cây. Trong đó, mỗi nút trong
(internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị có thể
có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng
của cây gọi là nút gốc (root). Cây quyết định có thể được dùng để phân lớp bằng
cách xuất phát từ gốc của cây và di chuyến theo các nhánh cho đến khi gặp nút lá.
Cũng trên cơ sở phân lớp này có thể chuyển đổi về các luật quyết định.
Cây quyết định thường được sử dụng để xây dựng một kế hoạch nhằm đạt
được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra
quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây. Tạo cây quyết
định chính là quá trình phân tích cơ sở dữ liệu, phân lớp và đưa ra dự đoán. Cây
quyết định được tạo thành bằng cách lần lượt chia (đệ quy) một tập dữ liệu thành
các tập dữ liệu con, mỗi tập con được tạo thành chủ yếu từ các phần tử của cùng
một lớp. Việc lựa chọn thuộc tính để tạo nhánh của cây được thực hiện thông qua
Entropy và Gain.
Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai
phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện
cho các phân loại còn các nhánh của cây đại diện cho các kết hợp của các thuộc tính
dẫn tới phân loại đó. Một cây quyết định có thể được học bằng cách chia tập hợp
nguồn thành các tập con dựa theo việc kiểm tra giá trị thuộc tính. Quá trình này



×