Tải bản đầy đủ (.pdf) (128 trang)

(Luận văn thạc sĩ hcmute) ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn thành phố hồ chí minh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.52 MB, 128 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

LUẬN VĂN THẠC SĨ
NGUYỄN VĂN CHIẾN

ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN
LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ
BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH
TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ
MINH”

NGÀNH: KHOA HỌC MÁY TÍNH – 60480101

S K C0 0 7 0 6 0

Tp. Hồ Chí Minh, tháng 11/2020

Luan van


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ
NGUYỄN VĂN CHIẾN

ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT
KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH
HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN


ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH”

NGÀNH: KHOA HỌC MÁY TÍNH – 60480101

Tp. Hồ Chí Minh, tháng 11 năm 2020.

Luan van


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ
NGUYỄN VĂN CHIẾN

ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT
KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH
HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN
ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH”

NGÀNH: KHOA HỌC MÁY TÍNH – 60480101
Hướng dẫn khoa học:
TS. NGUYỄN THÀNH SƠN

Tp. Hồ Chí Minh, tháng 11 năm 2020.

Luan van


QUYẾT ĐỊNH GIAO ĐỀ TÀI


i

Luan van


LÝ LỊCH KHOA HỌC

ii

Luan van


iii

Luan van


iv

Luan van


v

Luan van


vi


Luan van


vii

Luan van


viii

Luan van


ix

Luan van


x

Luan van


LỜI CAM ĐOAN
Tôi cam đoan đề tài “Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo
vào giải bài tốn dự báo tình hình nghỉ, bỏ học của học sinh trung học trên địa bàn
Thành phố Hồ Chí Minh” là kết quả của tự bản thân tơi học tập, tìm hiểu và nghiên
cứu.
Các số liệu nêu trong luận văn là trung thực được tham khảo trích dẫn có nguồn
gốc rõ ràng. Kết quả thực nghiệm chưa từng được ai cơng bố trong bất kỳ cơng trình

nào khác.
Tp. Hồ Chí Minh, ngày 27 tháng 11 năm 2020

Nguyễn Văn Chiến

xi

Luan van


LỜI CẢM ƠN
Để hoàn thành nội dung luận văn như này hôm nay, em luôn ghi nhớ công ơn
của các Thầy Cơ, đồng mơn, đồng nghiệp và gia đình, những người đã truyền đạt tri
thức và tạo điều kiện cho em trong suốt quá trình học tập, nghiên cứu.
Trước hết, Em muốn gửi lời cảm ơn đến các Thầy Cô giảng viên trường Đại
học Sư phạm kỹ thuật Thành phố Hồ Chí Minh đã quan tâm tổ chức hướng dẫn và
trực tiếp giảng dạy khóa cao học của chúng em. Đặc biệt, em xin gửi lời cảm ơn sâu
sắc đến giảng viên hướng dẫn Thầy Tiến sỹ Nguyễn Thành Sơn, người đã tận tình chỉ
bảo và góp ý về mặt chun mơn, phương hướng cho em trong suốt q trình làm
luận văn.
Cũng qua đây, tôi xin gửi lời cảm ơn đến Ban giám hiệu trường THPT Đào
Sơn Tây nơi tôi đang công tác và lãnh đạo các trường trung học thuộc Sở Giáo dục
và đào tạo Tp. Hồ Chí Minh đã tạo điều kiện cung cấp số liệu về thực trạng học sinh
trong suốt quá trình làm luận văn.
Cuối cùng xin cảm ơn gia đình, đồng nghiệp đã quan tâm giúp đỡ về mọi mặt
tôi trong suốt thời gian học tập và hồn thành luận văn này.
Trong q trình làm luận văn, bản thân em đã cố gắng tập trung tìm hiểu,
nghiên cứu và tham khảo thêm nhiều tài liệu liên quan. Tuy nhiên, do bản thân mới
bắt đầu trên con đường nghiên cứu khoa học, chắc chắn bản luận văn vẫn cịn nhiều
thiếu sót. Em rất mong được nhận được nhận sự chỉ bảo của các thầy cô giáo và các

góp ý của bạn bè, đồng nghiệp để luận văn được hồn thiện hơn.
Tp. Hồ Chí Minh, tháng 11 năm 2020

Nguyễn Văn Chiến

xii

Luan van


TÓM TẮT
Nội dung của luận văn là những kiến thức về phân lớp dựa trên luật kết hợp dự
báo, tìm hiểu các giải thuật phân lớp kết hợp như Apriori, Apriori-TID, FP-Growth,
FOIL, PRM là cách thức tạo ra bộ luật tinh gọn với độ chính xác cao, sử dụng luật
kết hợp tìm được để dự đốn nhãn lớp cho tập dữ liệu mới. Khai phá luật kết hợp và
phân lớp kết hợp sử dụng giải thuật CPAR (Classification based on Predictive
Association Rules), cách thức sử dụng giải thuật CPAR-GR (predictive association
rule based classifier using gain ratio) một giải thuật cải tiến của CPAR vào trong bài
tốn phân tích ngun nhân, tình hình nghỉ bỏ học của học sinh trung học.
Tìm hiểu giải thuật CPAR-GR và cài đặt giải thuật để khai phá dữ liệu và phát
hiện luật kết hợp áp dụng vào bài tốn phân tích ngun nhân tình hình nghỉ bỏ học
của học sinh trung học.
Luận văn gồm có 3 chương, với các nội dung như sau:
Chương 1: Tổng quan về phân lớp dựa trên luật kết hợp
Chương này giới thiệu luật kết hợp và các khái niệm cơ bản, tìm hiểu một số
giải thuật khai phá luật kết hợp và giới thiệu về phân lớp kết hợp cùng một số giải
thuật phổ biến thực hiện phân lớp kết hợp. Ngồi ra cịn nêu một số vấn đề gặp phải
khi áp dụng phân lớp kết hợp trên cơ sở dữ liệu.
Chương 2: Tìm hiểu một số thuật tốn phân lớp dựa trên luật kết hợp dự báo.
Nội dung của chương chủ yếu trình bày về thuật tốn phân lớp dựa trên luật kết

hợp có kế thừa và cải tiến một số vấn đề còn tồn tại của các thuật toán ra đời trước
như FOIL, PRM, CPAR, CPAR-GR. Tiến hành so sánh, kết luận về tính khả thi của
các thuật toán về thời gian, tài nguyên, số lượng luật và đặc biệt là độ chính xác của
phân lớp.
Chương 3: Đánh giá bằng thực nghiệm thông qua ứng dụng giải thuật CPARGR vào phân tích số liệu học sinh nghỉ bỏ học.

xiii

Luan van


SUMMARY
The content of the dissertation is about the knowledge of classification which
based on the association rule, understanding the typical algorithms like Apriori,
Apriori-TID, FP-Growth, FOIL, PRM is the way to create the association rule in the
direction of using Gain_Ratio to have a streamlined code with high accuracy, using
the found association rule to predict class labels for new data sets. Breaking the
association rule and classification based on Predictive Association Rules (CPARGR), the usage of CPAR-GR (predictive association rule based classifier using gain
ratio) algorithm - an improved algorithm of CPAR into analyzing the causes of
dropping out of high school students.
Studying CPAR-GR algorithms and installing algorithms to explore data and
detect association rule that applies to analyzing the causes of high school dropout.
The dissertation consists of 3 chapters, with the following contents:
Chapter 1: An overview of the association rule which bases on classification
combining. This chapter introduces the association rule of combining and basic
concepts, exploring some algorithms that explore the association rule of combining
as well as it also introduces the classification combined with some common
algorithms that perform combined layering. Besides, it also shows some issues which
occur when applying combination layering on a database.
Chapter 2: Learning some algorithm classifications that base on forecasting

association rule. The chapter's content mainly presents a association rule basing on
classification algorithm that inherits and improves some of the remaining problems
of pre-existing algorithms such as FOIL, PRM, CPAR, CPAR-GR. Conduct
comparisons, conclusions about the positiveity of algorithms on time, resources,
number of association rule and especially the accuracy of layering.
Chapter 3: Experimental evaluation of customs clearance and application of
CPAR-GR algorithm to analyze the data on dropout of students.

xiv

Luan van


MỤC LỤC
Tựa

Trang

Quyết định giao đề tài

i

Lý lịch khoa học

ii

Lời cam đoan

xi


Lời cảm ơn

xii

Tóm tắt

xiii

Mục lục

xv

Danh sách các chữ viết tắt

xix

Danh sách các bảng

xx

Danh sách các hình

xxii

Chương 1. TỔNG QUAN VỀ PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP. 1
1.1. Giới thiệu luật kết hợp và một số khái niệm cơ bản.

1

1.1.1. Giới thiệu luật kết hợp.


1

1.1.2. Một số khái niệm cơ bản.

2

1.1.3. Hướng tiếp cận khai phá luật kết hợp.

6

1.2. Một số giải thuật khai phá luật kết hợp.

8

1.2.1. Giải thuật AIS

8

1.2.2. Giải thuật SETM

9

1.2.3. Giải thuật Apriori

10

1.2.4. Giải thuật Apriori-TID

13


1.2.5. Giải thuật FP Growth

19

1.3. Giới thiệu về phân lớp dựa trên luật kết hợp
1.3.1. Quá trình phân lớp kết hợp.

21
21

xv

Luan van


1.3.2. Độ tin cậy của luật kết hợp trong phân lớp.

22

1.3.3. Các giai đoạn trong phân lớp kết hợp.

23

1.3.4. Giới thiệu một số giải thuật phân lớp dựa trên luật kết hợp

25

1.3.5. Một số vấn đề trong phân lớp kết hợp.


27

Chương 2. TÌM HIỂU MỘT SỐ GIẢI THUẬT PHÂN LỚP DỰA TRÊN
LUẬT KẾT HỢP DỰ BÁO.

28

2.1. Một số khái niệm cơ bản.

28

2.1.1. Bộ dữ liệu (Tuple)

28

2.1.2. Vị từ (Literal).

28

2.1.3. Luật (Rules)

28

2.2. Giải thuật FOIL.

28

2.2.1. Giới thiệu giải thuật.

28


2.2.2. Nội dung giải thuật.

29

2.3. Giải thuật PRM.

30

2.3.1. Ý tưởng.

30

2.3.2. Nội dung giải thuật.

30

2.4. Giải thuật CPAR.

31

2.4.1. Giới thiệu giải thuật.

31

2.4.2. Nội dung giải thuật.

32

2.5. Giải thuật CPAR-GR


33

2.5.1. Giới thiệu giải thuật.

33

2.5.2. Xây dựng luật và phân lớp kết hợp.

34

2.6. So sánh hiệu quả thực hiện các giải thuật.

41

2.6.1. So sánh kết quả thực nghiệm FOIL, PRM và CPAR.

xvi

Luan van

41


2.6.2. So sánh kết quả thực nghiệm CPAR và CPAR-GR.
2.7. Các cơng trình liên quan

44
44


2.7.1. Classification based on Small Key Itemsets

44

2.7.2. Classification Based on Consistent Itemset Rules

45

2.7.3. Construct Concise and Accurate Classifier by Atomic Association 45
2.7.4. Phân lớp nhanh dựa trên thuật toán luật kết hợp.

45

2.7.5. Phân lớp dựa trên lựa chọn đặc điểm với khai phá luật kết hợp.

46

2.7.6. Khai phá luật kết hợp để quản lý dự án công nghệ thông tin

46

2.7.7. Sử dụng luật kết hợp để phát hiện lỗi vòng bi.

47

Chương 3. ỨNG DỤNG GIẢI THUẬT CPAR-GR VÀO PHÂN TÍCH DỮ
LIỆU HỌC SINH NGHỈ BỎ HỌC

48


3.1. Mơ tả bài tốn thực trạng học sinh

48

3.2. Phương pháp giải quyết.

49

3.3. Tổ chức xây dựng chương trình

60

3.3.1. Cài đặt giải thuật phân lớp dựa trên luật kết hợp dự báo.

60

3.3.2. Giao diện ứng dụng thực nghiệm.

63

3.4. Đánh giá kết quả.

65

3.4.1. Thực nghiệm giải thuật trên bộ dữ liệu Breast cancer [23]

65

3.4.2. Thực nghiệm giải thuật trên bộ dữ liệu Cleve [23].


67

3.4.3. Thực nghiệm giải thuật trên bộ dữ liệu Hepatitis [23]

68

3.4.4. Thực nghiệm giải thuật trên bộ dữ liệu Heart.

69

3.4.5. Thực nghiệm giải thuật trên bộ dữ liệu Pima [23].

70

3.4.6. Thực nghiệm giải thuật trên bộ dữ liệu Mushroom [23]

71

3.4.7. So sánh hiệu quả thực nghiệm giải thuật trên các bộ dữ liệu

73

xvii

Luan van


3.5. Ứng dụng phân tích dữ liệu học sinh dự báo tình hình nghỉ bỏ học của học
sinh.


74

3.5.1. Thơng tin về dữ liệu học sinh.

74

3.5.2. Thực nghiệm giải thuật trên bộ dữ liệu nghỉ, bỏ học của học sinh.

76

3.5.3. Ứng dụng dự báo tình hình học sinh nghỉ bỏ học.

78

Kết luận

79

Tài liệu tham khảo

81

Phụ lục

84

Bài báo

xviii


Luan van


DANH SÁCH CÁC CHỮ VIẾT TẮT
Chữ viết tắt
Ck
Conf
D
Di
I
Itemset
k-itemset
Lk
minconf
minsup
Supp(X)
Supp(X Y)
Conf(X Y,D)
T
TID
XY
AC
CAR
AIS
SETM
FOIL
PRM
CPAR
CPAR-GR
CMAR

LGT
∑W(P)
MGV
TWT
CT
GSR
RA
R
A[n]

Nghĩa của chữa viết tắt
Tập các k-itemset ứng viên (Cadidate sets)
Độ tin cậy (Confidence)
Cơ sở dữ liệu giao dịch
Phần thứ i của cơ sở dữ liệu D
Mục (Item)
Tập mục
Tập mục gồm k mục
Tập các k-itemset phổ biến
Ngưỡng tin cậy tối thiểu (minimum confidence)
Ngưỡng hỗ trợ tối thiểu (minimum support)
Độ phổ biến của tập mục X trong cơ sở dữ liệu D
Độ phổ biến của luật kết hợp XY trong cơ sở dữ liệu D
Độ tin cậy của một luật kết hợp X  Y trong cở sở dữ liệu D
Giao dịch (Transaction)
Định danh của giao dịch (Unique Transaction Identifer)
Luật kết hợp (Với X là vế điều kiện, Y là vế hệ quả)
Phân lớp kết hợp
Luật kết hợp
Agrawal Imielinski Swami

Sifting And Evaluation Trust Management
First Order Inductive Learner
Predictive Rule Mining
Classification Based on Predictive Association Rules
Predictive association rule based classifier using gain ratio
Classification Based on Multiple Association Rules
Ngưỡng Gain tối thiểu
Tổng trọng số của tập P
Giá trị Gain Tối thiểu
ngưỡng trọng số tối thiểu của P
ngưỡng bao phủ của tuple
Hệ số lấy khoảng giá trị Gain_ratio
tập luật dự tuyển
Tập luật chính thức
Tập thuộc tính

xix

Luan van


DANH SÁCH CÁC BẢNG
Bảng

Trang

Bảng 1.1 Dữ liệu mua hàng siêu thị.

4


Bảng 1.2 Ví dụ về cơ sở dữ liệu giao tác

15

Bảng 1.3 Tập mục phổ biến và độ hỗ trợ lần 1

16

Bảng 1.4 Tập mục phổ biến và độ hỗ trợ lần 2

17

Bảng 1.5 Tập mục phổ biến và độ hỗ trợ lần 3

18

Bảng 1.6 Kết quả sau kết thúc vịng lặp,

19

Bảng 2.1 So sánh độ chính xác của FOIL, PRM, CPAR được báo cáo tạo ra bằng
cách sử dụng Ten Cross Vlaidation (TCV) [2].

42

Bảng 2.2 So sánh thời gian thực hiện của FOIL, PRM, CPAR [2]

42

Bảng 2.3 So sánh số luật được tạo ra của FOIL, PRM, CPAR [2]


43

Bảng 2.4 Độ chính xác của CPAR và CPAR-GR. [16]

44

Bảng 3.1 Minh họa số liệu nguyên nhân nghỉ, bỏ học của học sinh

50

Bảng 3.2 Trích xuất tập dữ liệu huấn luyện sau khi xử lý.

50

Bảng 3.3 Trích xuất một phần của tập dữ liệu thử nghiệm

51

Bảng 3.4 Trích xuất Tập dữ liệu P cùng trọng số

52

Bảng 3.5 Tập dữ liệu N cùng trọng số

52

Bảng 3.6 Bảng Gain_Ratio lần 1

53


Bảng 3.7 Bảng trọng số của tập P sau lần 1

54

Bảng 3.8 Bảng Gain_Ratio lần 2

54

Bảng 3.9 Bảng trọng số của tập P sau lần 2

55

Bảng 3.10 Bảng Gain_Ratio lần 3

56

Bảng 3.11 Bảng trọng số của tập P sau lần 3

57

Bảng 3.12 Tập luật được tạo ra trên tập huấn luyện

57

Bảng 3.13 Độ chính xác của các luật kết hợp

58

Bảng 3.14 Dự đốn nhãn lớp cho các tuple trong T


59

Bảng 3.15 Độ chính xác của các luật trên bộ dữ liệu Breast Cancer

66

xx

Luan van


Bảng 3.16 Độ chính xác của luật trên bộ Cleve

68

Bảng 3.17 Độ chính xác của luật trên tập dữ liệu Hepatitis

69

Bảng 3.18 Độ chính xác của luật trên tập dữ liệu Heart

70

Bảng 3.19 Độ chính xác của luật trên tập dữ liệu Pima

71

Bảng 3.20 Độ chính xác của luật trên tập dữ liệu Mushroom


73

Bảng 3.21 So sánh độ chính xác của CPAR và CPAR-GR (%)

73

Bảng 3.22 Thời gian thực hiện trên bộ dữ liệu Nghỉ bỏ học của học sinh (đơn vị tính
mili giây - ms)

74

Bảng 3.23 So sánh sử dụng tài nguyên của giải thuật trên cơ sở dữ liệu học sinh. 74
Bảng 3.24 Trích dẫn thơng tin học sinh.

75

Bảng 3.25 Các luật được tạo ra trên bộ dữ liệu học sinh

77

Bảng 3.26 Độ chính xác của các luật trên bộ dữ liệu học sinh

77

xxi

Luan van


DANH SÁCH CÁC HÌNH

Hình

Trang

Hình 1.1 Mơ hình giải bài tốn tạo luật kết hợp

2

Hình 1.2 Minh họa định nghĩa Item, Itemset, Transaction

3

Hình 1.3 Quy trình phân lớp kết hợp

22

Hình 1.4 Các bước trong quy trình phân lớp kết hợp [12]

24

Hình 2.1 Các giai đoạn phân lớp kết hợp sử dụng giải thuật CPAR-GR

34

Hình 3.1 Giao diện nhập dữ liệu đầu vào

63

Hình 3.2 Giao diện thực hiện giải thuật CPAR


64

Hình 3.3 Giao diện thực hiện giải thuật CPAR-GR

64

Hình 3.4 Minh họa tập dữ liệu Breast cancer

66

Hình 3.5 Trích dẫn tập dữ liệu Cleve.

68

xxii

Luan van


×