Tải bản đầy đủ (.docx) (138 trang)

(Luận văn thạc sĩ) ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn thành phố hồ chí minh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.77 MB, 138 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

LUẬN VĂN THẠC SĨ
NGUYỄN VĂN CHIẾN

ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN
LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ
BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH
TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ
MINH”

NGÀNH: KHOA HỌC MÁY TÍNH – 60480101

SKC007060

Tp. Hồ Chí Minh, tháng 11/2020


BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ
NGUYỄN VĂN CHIẾN

ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT
KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH
HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN
ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH”

NGÀNH: KHOA HỌC MÁY TÍNH – 60480101


Tp. Hồ Chí Minh, tháng 11 năm 2020.


BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ
NGUYỄN VĂN CHIẾN

ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT
KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH
HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN
ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH”

NGÀNH: KHOA HỌC MÁY TÍNH – 60480101
Hướng dẫn khoa học:
TS. NGUYỄN THÀNH SƠN

Tp. Hồ Chí Minh, tháng 11 năm 2020.


QUYẾT ĐỊNH GIAO ĐỀ TÀI

i


LÝ LỊCH KHOA HỌC

ii



iii


iv


v


vi


vii


viii


ix


x


LỜI CAM ĐOAN
Tôi cam đoan đề tài “Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo
vào giải bài tốn dự báo tình hình nghỉ, bỏ học của học sinh trung học trên địa bàn
Thành phố Hồ Chí Minh” là kết quả của tự bản thân tơi học tập, tìm hiểu và nghiên
cứu.
Các số liệu nêu trong luận văn là trung thực được tham khảo trích dẫn có nguồn

gốc rõ ràng. Kết quả thực nghiệm chưa từng được ai cơng bố trong bất kỳ cơng trình
nào khác.
Tp. Hồ Chí Minh, ngày 27 tháng 11 năm 2020

Nguyễn Văn Chiến

xi


LỜI CẢM ƠN
Để hoàn thành nội dung luận văn như này hôm nay, em luôn ghi nhớ công ơn
của các Thầy Cơ, đồng mơn, đồng nghiệp và gia đình, những người đã truyền đạt tri
thức và tạo điều kiện cho em trong suốt quá trình học tập, nghiên cứu.
Trước hết, Em muốn gửi lời cảm ơn đến các Thầy Cô giảng viên trường Đại
học Sư phạm kỹ thuật Thành phố Hồ Chí Minh đã quan tâm tổ chức hướng dẫn và
trực tiếp giảng dạy khóa cao học của chúng em. Đặc biệt, em xin gửi lời cảm ơn sâu
sắc đến giảng viên hướng dẫn Thầy Tiến sỹ Nguyễn Thành Sơn, người đã tận tình
chỉ bảo và góp ý về mặt chun mơn, phương hướng cho em trong suốt q trình
làm luận văn.
Cũng qua đây, tôi xin gửi lời cảm ơn đến Ban giám hiệu trường THPT Đào
Sơn Tây nơi tôi đang công tác và lãnh đạo các trường trung học thuộc Sở Giáo dục
và đào tạo Tp. Hồ Chí Minh đã tạo điều kiện cung cấp số liệu về thực trạng học sinh
trong suốt quá trình làm luận văn.
Cuối cùng xin cảm ơn gia đình, đồng nghiệp đã quan tâm giúp đỡ về mọi mặt
tôi trong suốt thời gian học tập và hồn thành luận văn này.
Trong q trình làm luận văn, bản thân em đã cố gắng tập trung tìm hiểu,
nghiên cứu và tham khảo thêm nhiều tài liệu liên quan. Tuy nhiên, do bản thân mới
bắt đầu trên con đường nghiên cứu khoa học, chắc chắn bản luận văn vẫn cịn nhiều
thiếu sót. Em rất mong được nhận được nhận sự chỉ bảo của các thầy cô giáo và các
góp ý của bạn bè, đồng nghiệp để luận văn được hồn thiện hơn.

Tp. Hồ Chí Minh, tháng 11 năm 2020

Nguyễn Văn Chiến

xii


TÓM TẮT
Nội dung của luận văn là những kiến thức về phân lớp dựa trên luật kết hợp dự
báo, tìm hiểu các giải thuật phân lớp kết hợp như Apriori, Apriori-TID, FP-Growth,
FOIL, PRM là cách thức tạo ra bộ luật tinh gọn với độ chính xác cao, sử dụng luật
kết hợp tìm được để dự đốn nhãn lớp cho tập dữ liệu mới. Khai phá luật kết hợp và
phân lớp kết hợp sử dụng giải thuật CPAR (Classification based on Predictive
Association Rules), cách thức sử dụng giải thuật CPAR-GR (predictive association
rule based classifier using gain ratio) một giải thuật cải tiến của CPAR vào trong bài
tốn phân tích ngun nhân, tình hình nghỉ bỏ học của học sinh trung học.
Tìm hiểu giải thuật CPAR-GR và cài đặt giải thuật để khai phá dữ liệu và phát
hiện luật kết hợp áp dụng vào bài tốn phân tích ngun nhân tình hình nghỉ bỏ học
của học sinh trung học.
Luận văn gồm có 3 chương, với các nội dung như sau:
Chương 1: Tổng quan về phân lớp dựa trên luật kết hợp
Chương này giới thiệu luật kết hợp và các khái niệm cơ bản, tìm hiểu một số
giải thuật khai phá luật kết hợp và giới thiệu về phân lớp kết hợp cùng một số giải
thuật phổ biến thực hiện phân lớp kết hợp. Ngồi ra cịn nêu một số vấn đề gặp phải
khi áp dụng phân lớp kết hợp trên cơ sở dữ liệu.
Chương 2: Tìm hiểu một số thuật tốn phân lớp dựa trên luật kết hợp dự báo. Nội
dung của chương chủ yếu trình bày về thuật tốn phân lớp dựa trên luật kết

hợp có kế thừa và cải tiến một số vấn đề còn tồn tại của các thuật toán ra đời trước
như FOIL, PRM, CPAR, CPAR-GR. Tiến hành so sánh, kết luận về tính khả thi của

các thuật toán về thời gian, tài nguyên, số lượng luật và đặc biệt là độ chính xác của
phân lớp.
Chương 3: Đánh giá bằng thực nghiệm thông qua ứng dụng giải thuật CPARGR vào phân tích số liệu học sinh nghỉ bỏ học.

xiii


SUMMARY
The content of the dissertation is about the knowledge of classification which
based on the association rule, understanding the typical algorithms like Apriori,
Apriori-TID, FP-Growth, FOIL, PRM is the way to create the association rule in the
direction of using Gain_Ratio to have a streamlined code with high accuracy, using
the found association rule to predict class labels for new data sets. Breaking the
association rule and classification based on Predictive Association Rules (CPARGR), the usage of CPAR-GR (predictive association rule based classifier using gain
ratio) algorithm - an improved algorithm of CPAR into analyzing the causes of
dropping out of high school students.
Studying CPAR-GR algorithms and installing algorithms to explore data and
detect association rule that applies to analyzing the causes of high school dropout.
The dissertation consists of 3 chapters, with the following contents:
Chapter 1: An overview of the association rule which bases on classification
combining. This chapter introduces the association rule of combining and basic
concepts, exploring some algorithms that explore the association rule of combining
as well as it also introduces the classification combined with some common
algorithms that perform combined layering. Besides, it also shows some issues
which occur when applying combination layering on a database.
Chapter 2: Learning some algorithm classifications that base on forecasting
association rule. The chapter's content mainly presents a association rule basing on
classification algorithm that inherits and improves some of the remaining problems
of pre-existing algorithms such as FOIL, PRM, CPAR, CPAR-GR. Conduct
comparisons, conclusions about the positiveity of algorithms on time, resources,

number of association rule and especially the accuracy of layering.
Chapter 3: Experimental evaluation of customs clearance and application of
CPAR-GR algorithm to analyze the data on dropout of students.

xiv


MỤC LỤC
Tựa
Quyết định giao đề tài
Lý lịch khoa học
Lời cam đoan
Lời cảm ơn
Tóm tắt
Mục lục
Danh sách các chữ viết tắt
Danh sách các bảng
Danh sách các hình
Chương 1. TỔNG QUAN VỀ PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP. 1
1.1. Giới thiệu luật kết hợp và một số khái niệm cơ bản.
1.1.1. Giới thiệu luật kết hợp.
1.1.2. Một số khái niệm cơ bản.
1.1.3. Hướng tiếp cận khai phá luật kết hợp.
1.2. Một số giải thuật khai phá luật kết hợp.
1.2.1. Giải thuật AIS
1.2.2. Giải thuật SETM
1.2.3. Giải thuật Apriori
1.2.4. Giải thuật Apriori-TID
1.2.5. Giải thuật FP Growth
1.3. Giới thiệu về phân lớp dựa trên luật kết hợp

1.3.1. Quá trình phân lớp kết hợp.

xv


1.3.2. Độ tin cậy của luật kết hợp trong phân lớp.
1.3.3. Các giai đoạn trong phân lớp kết hợp.
1.3.4. Giới thiệu một số giải thuật phân lớp dựa trên luật kết hợp
1.3.5. Một số vấn đề trong phân lớp kết hợp.
Chương 2. TÌM HIỂU MỘT SỐ GIẢI THUẬT PHÂN LỚP DỰA TRÊN
LUẬT KẾT HỢP DỰ BÁO.
2.1. Một số khái niệm cơ bản.
2.1.1. Bộ dữ liệu (Tuple)
2.1.2. Vị từ (Literal).
2.1.3. Luật (Rules)
2.2. Giải thuật FOIL.
2.2.1. Giới thiệu giải thuật.
2.2.2. Nội dung giải thuật.
2.3. Giải thuật PRM.
2.3.1. Ý tưởng.
2.3.2. Nội dung giải thuật.
2.4. Giải thuật CPAR.
2.4.1. Giới thiệu giải thuật.
2.4.2. Nội dung giải thuật.
2.5. Giải thuật CPAR-GR
2.5.1. Giới thiệu giải thuật.
2.5.2. Xây dựng luật và phân lớp kết hợp.
2.6. So sánh hiệu quả thực hiện các giải thuật.
2.6.1. So sánh kết quả thực nghiệm FOIL, PRM và CPAR.


xvi


2.6.2. So sánh kết quả thực nghiệm CPAR và CPAR-GR.
2.7. Các cơng trình liên quan
2.7.1. Classification based on Small Key Itemsets
2.7.2. Classification Based on Consistent Itemset Rules
2.7.3. Construct Concise and Accurate Classifier by Atomic Association
2.7.4. Phân lớp nhanh dựa trên thuật toán luật kết hợp.
2.7.5. Phân lớp dựa trên lựa chọn đặc điểm với khai phá luật kết hợp.
2.7.6. Khai phá luật kết hợp để quản lý dự án công nghệ thông tin
2.7.7. Sử dụng luật kết hợp để phát hiện lỗi vòng bi.
Chương 3. ỨNG DỤNG GIẢI THUẬT CPAR-GR VÀO PHÂN TÍCH DỮ
LIỆU HỌC SINH NGHỈ BỎ HỌC
3.1.

Mơ tả bài toán thực trạng học sinh

3.2.

Phương pháp giải quyết.

3.3.

Tổ chức xây dựng chương trình

3.3.1. Cài đặt giải thuật phân lớp dựa trên luật kết hợp dự báo.
3.3.2. Giao diện ứng dụng thực nghiệm.
3.4.


Đánh giá kết quả.

3.4.1. Thực nghiệm giải thuật trên bộ dữ liệu Breast cancer [23]
3.4.2. Thực nghiệm giải thuật trên bộ dữ liệu Cleve [23].
3.4.3. Thực nghiệm giải thuật trên bộ dữ liệu Hepatitis [23]
3.4.4. Thực nghiệm giải thuật trên bộ dữ liệu Heart.
3.4.5. Thực nghiệm giải thuật trên bộ dữ liệu Pima [23].
3.4.6. Thực nghiệm giải thuật trên bộ dữ liệu Mushroom [23]
3.4.7. So sánh hiệu quả thực nghiệm giải thuật trên các bộ dữ liệu

xvii


3.5. Ứng dụng phân tích dữ liệu học sinh dự báo tình hình nghỉ bỏ học của học
sinh.
3.5.1. Thơng tin về dữ liệu học sinh.
3.5.2. Thực nghiệm giải thuật trên bộ dữ liệu nghỉ, bỏ học của học sinh.
3.5.3. Ứng dụng dự báo tình hình học sinh nghỉ bỏ học.
Kết luận
Tài liệu tham khảo
Phụ lục
Bài báo

xviii


Chữ viết tắt
Ck
Conf
D

Di
I
Itemset
k-itemset
Lk
minconf
minsup
Supp(X)
Supp(X Y)
Conf(X Y,D)
T
TID
X Y
AC
CAR
AIS
SETM
FOIL
PRM
CPAR
CPAR-GR
CMAR
LGT
∑W(P)
MGV
TWT
CT
GSR
RA
R

A[n]

xix


DANH
Bảng
Bảng 1.1 Dữ liệu mua hàng siêu thị.
Bảng 1.2 Ví dụ về cơ sở dữ liệu giao tác
Bảng 1.3 Tập mục phổ biến và độ hỗ trợ lần 1
Bảng 1.4

Tập mục phổ biến và độ

Bảng 1.5

Tập mục phổ biến và độ

Bảng 1.6

Kết quả sau kết thúc vòn

Bảng 2.1 So sánh độ chính xác của FOIL, PRM, CPAR được báo cáo tạo ra bằng
cách sử dụng Ten Cross Vlaidation (TCV) [2].
Bảng 2.2 So sánh thời gian thực hiện của FOIL, PRM, CPAR [2]
Bảng 2.3 So sánh số luật được tạo ra của FOIL, PRM, CPAR [2]
Bảng 2.4 Độ chính xác của CPAR và CPAR-GR. [16]
Bảng 3.1 Minh họa số liệu nguyên nhân nghỉ, bỏ học của học sinh
Bảng 3.2 Trích xuất tập dữ liệu huấn luyện sau khi xử lý.
Bảng 3.3 Trích xuất một phần của tập dữ liệu thử nghiệm

Bảng 3.4 Trích xuất Tập dữ liệu P cùng trọng số
Bảng 3.5 Tập dữ liệu N cùng trọng số
Bảng 3.6

Bảng Gain_Ratio lần 1

Bảng 3.7

Bảng trọng số của tập P

Bảng 3.8

Bảng Gain_Ratio lần 2

Bảng 3.9

Bảng trọng số của tập P

Bảng 3.10 Bảng Gain_Ratio lần 3
Bảng 3.11 Bảng trọng số của tập P sau lần 3
Bảng 3.12

Tập luật được

Bảng 3.13

Độ chính xác

Bảng 3.14


Dự đốn nhãn

Bảng 3.15

Độ chính xác

xx


Bảng 3.16 Độ chính xác của luật trên bộ Cleve
Bảng 3.17 Độ chính xác của luật trên tập dữ liệu Hepatitis
Bảng 3.18

Độ chính xác

Bảng 3.19

Độ chính xác

Bảng 3.20

Độ chính xác

Bảng 3.21

So sánh độ ch

Bảng 3.22 Thời gian thực hiện trên bộ dữ liệu Nghỉ bỏ học của học sinh (đơn vị tính
mili giây - ms)
Bảng 3.23


So sánh sử dụ

Bảng 3.24

Trích dẫn thơn

Bảng 3.25

Các luật được

Bảng 3.26

Độ chính xác

xxi


DANH
Hình
Hình 1.1 Mơ hình giải bài tốn tạo luật kết hợp
Hình 1.2 Minh họa định nghĩa Item, Itemset, Transaction
Hình 1.3 Quy trình phân lớp kết hợp
Hình 1.4 Các bước trong quy trình phân lớp kết hợp [12]
Hình 2.1 Các giai đoạn phân lớp kết hợp sử dụng giải thuật CPAR-GR
Hình 3.1 Giao diện nhập dữ liệu đầu vào
Hình 3.2 Giao diện thực hiện giải thuật CPAR
Hình 3.3

Giao diện thực hiện giải t


Hình 3.4

Minh họa tập dữ liệu Bre

Hình 3.5

Trích dẫn tập dữ liệu Clev

xxii


×