BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ
NGUYỄN VĂN CHIẾN
ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN
LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ
BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH
TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ
MINH”
NGÀNH: KHOA HỌC MÁY TÍNH – 60480101
S K C0 0 7 0 6 0
Tp. Hồ Chí Minh, tháng 11/2020
Luan van
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ
NGUYỄN VĂN CHIẾN
ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT
KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH
HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN
ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH”
NGÀNH: KHOA HỌC MÁY TÍNH – 60480101
Tp. Hồ Chí Minh, tháng 11 năm 2020.
Luan van
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ
NGUYỄN VĂN CHIẾN
ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT
KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH
HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN
ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH”
NGÀNH: KHOA HỌC MÁY TÍNH – 60480101
Hướng dẫn khoa học:
TS. NGUYỄN THÀNH SƠN
Tp. Hồ Chí Minh, tháng 11 năm 2020.
Luan van
QUYẾT ĐỊNH GIAO ĐỀ TÀI
i
Luan van
LÝ LỊCH KHOA HỌC
ii
Luan van
iii
Luan van
iv
Luan van
v
Luan van
vi
Luan van
vii
Luan van
viii
Luan van
ix
Luan van
x
Luan van
LỜI CAM ĐOAN
Tôi cam đoan đề tài “Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo
vào giải bài tốn dự báo tình hình nghỉ, bỏ học của học sinh trung học trên địa bàn
Thành phố Hồ Chí Minh” là kết quả của tự bản thân tơi học tập, tìm hiểu và nghiên
cứu.
Các số liệu nêu trong luận văn là trung thực được tham khảo trích dẫn có nguồn
gốc rõ ràng. Kết quả thực nghiệm chưa từng được ai cơng bố trong bất kỳ cơng trình
nào khác.
Tp. Hồ Chí Minh, ngày 27 tháng 11 năm 2020
Nguyễn Văn Chiến
xi
Luan van
LỜI CẢM ƠN
Để hoàn thành nội dung luận văn như này hôm nay, em luôn ghi nhớ công ơn
của các Thầy Cơ, đồng mơn, đồng nghiệp và gia đình, những người đã truyền đạt tri
thức và tạo điều kiện cho em trong suốt quá trình học tập, nghiên cứu.
Trước hết, Em muốn gửi lời cảm ơn đến các Thầy Cô giảng viên trường Đại
học Sư phạm kỹ thuật Thành phố Hồ Chí Minh đã quan tâm tổ chức hướng dẫn và
trực tiếp giảng dạy khóa cao học của chúng em. Đặc biệt, em xin gửi lời cảm ơn sâu
sắc đến giảng viên hướng dẫn Thầy Tiến sỹ Nguyễn Thành Sơn, người đã tận tình chỉ
bảo và góp ý về mặt chun mơn, phương hướng cho em trong suốt q trình làm
luận văn.
Cũng qua đây, tôi xin gửi lời cảm ơn đến Ban giám hiệu trường THPT Đào
Sơn Tây nơi tôi đang công tác và lãnh đạo các trường trung học thuộc Sở Giáo dục
và đào tạo Tp. Hồ Chí Minh đã tạo điều kiện cung cấp số liệu về thực trạng học sinh
trong suốt quá trình làm luận văn.
Cuối cùng xin cảm ơn gia đình, đồng nghiệp đã quan tâm giúp đỡ về mọi mặt
tôi trong suốt thời gian học tập và hồn thành luận văn này.
Trong q trình làm luận văn, bản thân em đã cố gắng tập trung tìm hiểu,
nghiên cứu và tham khảo thêm nhiều tài liệu liên quan. Tuy nhiên, do bản thân mới
bắt đầu trên con đường nghiên cứu khoa học, chắc chắn bản luận văn vẫn cịn nhiều
thiếu sót. Em rất mong được nhận được nhận sự chỉ bảo của các thầy cô giáo và các
góp ý của bạn bè, đồng nghiệp để luận văn được hồn thiện hơn.
Tp. Hồ Chí Minh, tháng 11 năm 2020
Nguyễn Văn Chiến
xii
Luan van
TÓM TẮT
Nội dung của luận văn là những kiến thức về phân lớp dựa trên luật kết hợp dự
báo, tìm hiểu các giải thuật phân lớp kết hợp như Apriori, Apriori-TID, FP-Growth,
FOIL, PRM là cách thức tạo ra bộ luật tinh gọn với độ chính xác cao, sử dụng luật
kết hợp tìm được để dự đốn nhãn lớp cho tập dữ liệu mới. Khai phá luật kết hợp và
phân lớp kết hợp sử dụng giải thuật CPAR (Classification based on Predictive
Association Rules), cách thức sử dụng giải thuật CPAR-GR (predictive association
rule based classifier using gain ratio) một giải thuật cải tiến của CPAR vào trong bài
tốn phân tích ngun nhân, tình hình nghỉ bỏ học của học sinh trung học.
Tìm hiểu giải thuật CPAR-GR và cài đặt giải thuật để khai phá dữ liệu và phát
hiện luật kết hợp áp dụng vào bài tốn phân tích ngun nhân tình hình nghỉ bỏ học
của học sinh trung học.
Luận văn gồm có 3 chương, với các nội dung như sau:
Chương 1: Tổng quan về phân lớp dựa trên luật kết hợp
Chương này giới thiệu luật kết hợp và các khái niệm cơ bản, tìm hiểu một số
giải thuật khai phá luật kết hợp và giới thiệu về phân lớp kết hợp cùng một số giải
thuật phổ biến thực hiện phân lớp kết hợp. Ngồi ra cịn nêu một số vấn đề gặp phải
khi áp dụng phân lớp kết hợp trên cơ sở dữ liệu.
Chương 2: Tìm hiểu một số thuật tốn phân lớp dựa trên luật kết hợp dự báo.
Nội dung của chương chủ yếu trình bày về thuật tốn phân lớp dựa trên luật kết
hợp có kế thừa và cải tiến một số vấn đề còn tồn tại của các thuật toán ra đời trước
như FOIL, PRM, CPAR, CPAR-GR. Tiến hành so sánh, kết luận về tính khả thi của
các thuật toán về thời gian, tài nguyên, số lượng luật và đặc biệt là độ chính xác của
phân lớp.
Chương 3: Đánh giá bằng thực nghiệm thông qua ứng dụng giải thuật CPARGR vào phân tích số liệu học sinh nghỉ bỏ học.
xiii
Luan van
SUMMARY
The content of the dissertation is about the knowledge of classification which
based on the association rule, understanding the typical algorithms like Apriori,
Apriori-TID, FP-Growth, FOIL, PRM is the way to create the association rule in the
direction of using Gain_Ratio to have a streamlined code with high accuracy, using
the found association rule to predict class labels for new data sets. Breaking the
association rule and classification based on Predictive Association Rules (CPARGR), the usage of CPAR-GR (predictive association rule based classifier using gain
ratio) algorithm - an improved algorithm of CPAR into analyzing the causes of
dropping out of high school students.
Studying CPAR-GR algorithms and installing algorithms to explore data and
detect association rule that applies to analyzing the causes of high school dropout.
The dissertation consists of 3 chapters, with the following contents:
Chapter 1: An overview of the association rule which bases on classification
combining. This chapter introduces the association rule of combining and basic
concepts, exploring some algorithms that explore the association rule of combining
as well as it also introduces the classification combined with some common
algorithms that perform combined layering. Besides, it also shows some issues which
occur when applying combination layering on a database.
Chapter 2: Learning some algorithm classifications that base on forecasting
association rule. The chapter's content mainly presents a association rule basing on
classification algorithm that inherits and improves some of the remaining problems
of pre-existing algorithms such as FOIL, PRM, CPAR, CPAR-GR. Conduct
comparisons, conclusions about the positiveity of algorithms on time, resources,
number of association rule and especially the accuracy of layering.
Chapter 3: Experimental evaluation of customs clearance and application of
CPAR-GR algorithm to analyze the data on dropout of students.
xiv
Luan van
MỤC LỤC
Tựa
Trang
Quyết định giao đề tài
i
Lý lịch khoa học
ii
Lời cam đoan
xi
Lời cảm ơn
xii
Tóm tắt
xiii
Mục lục
xv
Danh sách các chữ viết tắt
xix
Danh sách các bảng
xx
Danh sách các hình
xxii
Chương 1. TỔNG QUAN VỀ PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP. 1
1.1. Giới thiệu luật kết hợp và một số khái niệm cơ bản.
1
1.1.1. Giới thiệu luật kết hợp.
1
1.1.2. Một số khái niệm cơ bản.
2
1.1.3. Hướng tiếp cận khai phá luật kết hợp.
6
1.2. Một số giải thuật khai phá luật kết hợp.
8
1.2.1. Giải thuật AIS
8
1.2.2. Giải thuật SETM
9
1.2.3. Giải thuật Apriori
10
1.2.4. Giải thuật Apriori-TID
13
1.2.5. Giải thuật FP Growth
19
1.3. Giới thiệu về phân lớp dựa trên luật kết hợp
1.3.1. Quá trình phân lớp kết hợp.
21
21
xv
Luan van
1.3.2. Độ tin cậy của luật kết hợp trong phân lớp.
22
1.3.3. Các giai đoạn trong phân lớp kết hợp.
23
1.3.4. Giới thiệu một số giải thuật phân lớp dựa trên luật kết hợp
25
1.3.5. Một số vấn đề trong phân lớp kết hợp.
27
Chương 2. TÌM HIỂU MỘT SỐ GIẢI THUẬT PHÂN LỚP DỰA TRÊN
LUẬT KẾT HỢP DỰ BÁO.
28
2.1. Một số khái niệm cơ bản.
28
2.1.1. Bộ dữ liệu (Tuple)
28
2.1.2. Vị từ (Literal).
28
2.1.3. Luật (Rules)
28
2.2. Giải thuật FOIL.
28
2.2.1. Giới thiệu giải thuật.
28
2.2.2. Nội dung giải thuật.
29
2.3. Giải thuật PRM.
30
2.3.1. Ý tưởng.
30
2.3.2. Nội dung giải thuật.
30
2.4. Giải thuật CPAR.
31
2.4.1. Giới thiệu giải thuật.
31
2.4.2. Nội dung giải thuật.
32
2.5. Giải thuật CPAR-GR
33
2.5.1. Giới thiệu giải thuật.
33
2.5.2. Xây dựng luật và phân lớp kết hợp.
34
2.6. So sánh hiệu quả thực hiện các giải thuật.
41
2.6.1. So sánh kết quả thực nghiệm FOIL, PRM và CPAR.
xvi
Luan van
41
2.6.2. So sánh kết quả thực nghiệm CPAR và CPAR-GR.
2.7. Các cơng trình liên quan
44
44
2.7.1. Classification based on Small Key Itemsets
44
2.7.2. Classification Based on Consistent Itemset Rules
45
2.7.3. Construct Concise and Accurate Classifier by Atomic Association 45
2.7.4. Phân lớp nhanh dựa trên thuật toán luật kết hợp.
45
2.7.5. Phân lớp dựa trên lựa chọn đặc điểm với khai phá luật kết hợp.
46
2.7.6. Khai phá luật kết hợp để quản lý dự án công nghệ thông tin
46
2.7.7. Sử dụng luật kết hợp để phát hiện lỗi vòng bi.
47
Chương 3. ỨNG DỤNG GIẢI THUẬT CPAR-GR VÀO PHÂN TÍCH DỮ
LIỆU HỌC SINH NGHỈ BỎ HỌC
48
3.1. Mơ tả bài tốn thực trạng học sinh
48
3.2. Phương pháp giải quyết.
49
3.3. Tổ chức xây dựng chương trình
60
3.3.1. Cài đặt giải thuật phân lớp dựa trên luật kết hợp dự báo.
60
3.3.2. Giao diện ứng dụng thực nghiệm.
63
3.4. Đánh giá kết quả.
65
3.4.1. Thực nghiệm giải thuật trên bộ dữ liệu Breast cancer [23]
65
3.4.2. Thực nghiệm giải thuật trên bộ dữ liệu Cleve [23].
67
3.4.3. Thực nghiệm giải thuật trên bộ dữ liệu Hepatitis [23]
68
3.4.4. Thực nghiệm giải thuật trên bộ dữ liệu Heart.
69
3.4.5. Thực nghiệm giải thuật trên bộ dữ liệu Pima [23].
70
3.4.6. Thực nghiệm giải thuật trên bộ dữ liệu Mushroom [23]
71
3.4.7. So sánh hiệu quả thực nghiệm giải thuật trên các bộ dữ liệu
73
xvii
Luan van
3.5. Ứng dụng phân tích dữ liệu học sinh dự báo tình hình nghỉ bỏ học của học
sinh.
74
3.5.1. Thơng tin về dữ liệu học sinh.
74
3.5.2. Thực nghiệm giải thuật trên bộ dữ liệu nghỉ, bỏ học của học sinh.
76
3.5.3. Ứng dụng dự báo tình hình học sinh nghỉ bỏ học.
78
Kết luận
79
Tài liệu tham khảo
81
Phụ lục
84
Bài báo
xviii
Luan van
DANH SÁCH CÁC CHỮ VIẾT TẮT
Chữ viết tắt
Ck
Conf
D
Di
I
Itemset
k-itemset
Lk
minconf
minsup
Supp(X)
Supp(X Y)
Conf(X Y,D)
T
TID
XY
AC
CAR
AIS
SETM
FOIL
PRM
CPAR
CPAR-GR
CMAR
LGT
∑W(P)
MGV
TWT
CT
GSR
RA
R
A[n]
Nghĩa của chữa viết tắt
Tập các k-itemset ứng viên (Cadidate sets)
Độ tin cậy (Confidence)
Cơ sở dữ liệu giao dịch
Phần thứ i của cơ sở dữ liệu D
Mục (Item)
Tập mục
Tập mục gồm k mục
Tập các k-itemset phổ biến
Ngưỡng tin cậy tối thiểu (minimum confidence)
Ngưỡng hỗ trợ tối thiểu (minimum support)
Độ phổ biến của tập mục X trong cơ sở dữ liệu D
Độ phổ biến của luật kết hợp XY trong cơ sở dữ liệu D
Độ tin cậy của một luật kết hợp X Y trong cở sở dữ liệu D
Giao dịch (Transaction)
Định danh của giao dịch (Unique Transaction Identifer)
Luật kết hợp (Với X là vế điều kiện, Y là vế hệ quả)
Phân lớp kết hợp
Luật kết hợp
Agrawal Imielinski Swami
Sifting And Evaluation Trust Management
First Order Inductive Learner
Predictive Rule Mining
Classification Based on Predictive Association Rules
Predictive association rule based classifier using gain ratio
Classification Based on Multiple Association Rules
Ngưỡng Gain tối thiểu
Tổng trọng số của tập P
Giá trị Gain Tối thiểu
ngưỡng trọng số tối thiểu của P
ngưỡng bao phủ của tuple
Hệ số lấy khoảng giá trị Gain_ratio
tập luật dự tuyển
Tập luật chính thức
Tập thuộc tính
xix
Luan van
DANH SÁCH CÁC BẢNG
Bảng
Trang
Bảng 1.1 Dữ liệu mua hàng siêu thị.
4
Bảng 1.2 Ví dụ về cơ sở dữ liệu giao tác
15
Bảng 1.3 Tập mục phổ biến và độ hỗ trợ lần 1
16
Bảng 1.4 Tập mục phổ biến và độ hỗ trợ lần 2
17
Bảng 1.5 Tập mục phổ biến và độ hỗ trợ lần 3
18
Bảng 1.6 Kết quả sau kết thúc vịng lặp,
19
Bảng 2.1 So sánh độ chính xác của FOIL, PRM, CPAR được báo cáo tạo ra bằng
cách sử dụng Ten Cross Vlaidation (TCV) [2].
42
Bảng 2.2 So sánh thời gian thực hiện của FOIL, PRM, CPAR [2]
42
Bảng 2.3 So sánh số luật được tạo ra của FOIL, PRM, CPAR [2]
43
Bảng 2.4 Độ chính xác của CPAR và CPAR-GR. [16]
44
Bảng 3.1 Minh họa số liệu nguyên nhân nghỉ, bỏ học của học sinh
50
Bảng 3.2 Trích xuất tập dữ liệu huấn luyện sau khi xử lý.
50
Bảng 3.3 Trích xuất một phần của tập dữ liệu thử nghiệm
51
Bảng 3.4 Trích xuất Tập dữ liệu P cùng trọng số
52
Bảng 3.5 Tập dữ liệu N cùng trọng số
52
Bảng 3.6 Bảng Gain_Ratio lần 1
53
Bảng 3.7 Bảng trọng số của tập P sau lần 1
54
Bảng 3.8 Bảng Gain_Ratio lần 2
54
Bảng 3.9 Bảng trọng số của tập P sau lần 2
55
Bảng 3.10 Bảng Gain_Ratio lần 3
56
Bảng 3.11 Bảng trọng số của tập P sau lần 3
57
Bảng 3.12 Tập luật được tạo ra trên tập huấn luyện
57
Bảng 3.13 Độ chính xác của các luật kết hợp
58
Bảng 3.14 Dự đốn nhãn lớp cho các tuple trong T
59
Bảng 3.15 Độ chính xác của các luật trên bộ dữ liệu Breast Cancer
66
xx
Luan van
Bảng 3.16 Độ chính xác của luật trên bộ Cleve
68
Bảng 3.17 Độ chính xác của luật trên tập dữ liệu Hepatitis
69
Bảng 3.18 Độ chính xác của luật trên tập dữ liệu Heart
70
Bảng 3.19 Độ chính xác của luật trên tập dữ liệu Pima
71
Bảng 3.20 Độ chính xác của luật trên tập dữ liệu Mushroom
73
Bảng 3.21 So sánh độ chính xác của CPAR và CPAR-GR (%)
73
Bảng 3.22 Thời gian thực hiện trên bộ dữ liệu Nghỉ bỏ học của học sinh (đơn vị tính
mili giây - ms)
74
Bảng 3.23 So sánh sử dụng tài nguyên của giải thuật trên cơ sở dữ liệu học sinh. 74
Bảng 3.24 Trích dẫn thơng tin học sinh.
75
Bảng 3.25 Các luật được tạo ra trên bộ dữ liệu học sinh
77
Bảng 3.26 Độ chính xác của các luật trên bộ dữ liệu học sinh
77
xxi
Luan van
DANH SÁCH CÁC HÌNH
Hình
Trang
Hình 1.1 Mơ hình giải bài tốn tạo luật kết hợp
2
Hình 1.2 Minh họa định nghĩa Item, Itemset, Transaction
3
Hình 1.3 Quy trình phân lớp kết hợp
22
Hình 1.4 Các bước trong quy trình phân lớp kết hợp [12]
24
Hình 2.1 Các giai đoạn phân lớp kết hợp sử dụng giải thuật CPAR-GR
34
Hình 3.1 Giao diện nhập dữ liệu đầu vào
63
Hình 3.2 Giao diện thực hiện giải thuật CPAR
64
Hình 3.3 Giao diện thực hiện giải thuật CPAR-GR
64
Hình 3.4 Minh họa tập dữ liệu Breast cancer
66
Hình 3.5 Trích dẫn tập dữ liệu Cleve.
68
xxii
Luan van