Tải bản đầy đủ (.pdf) (78 trang)

Khai thác điểm học tập để dự đoán kết quả thi trung học phổ thông quốc gia cho học sinh trung học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.51 MB, 78 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

LÂM QUỐC CƯỜNG

KHAI THÁC ĐIỂM HỌC TẬP ĐỂ
DỰ ĐOÁN KẾT QUẢ THI TRUNG HỌC
PHỔ THÔNG QUỐC GIA CHO
HỌC SINH TRUNG HỌC

LUẬN VĂN THẠC SĨ
Chuyên ngành: CÔNG NGHỆ THÔNG TIN
Mã số ngành: 60480201

TP. HỒ CHÍ MINH, tháng 7 năm 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

LÂM QUỐC CƯỜNG

KHAI THÁC ĐIỂM HỌC TẬP ĐỂ
DỰ ĐOÁN KẾT QUẢ THI TRUNG HỌC
PHỔ THÔNG QUỐC GIA CHO
HỌC SINH TRUNG HỌC
LUẬN VĂN THẠC SĨ


Chuyên ngành: CÔNG NGHỆ THÔNG TIN
Mã số ngành: 60480201
CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS. TS. VÕ ĐÌNH BẢY
TP. HỒ CHÍ MINH, tháng 7 năm 2016


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

Cán bộ hướng dẫn khoa học: PGS. TS. VÕ ĐÌNH BẢY

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. Hồ Chí
Minh ngày 10 tháng 9 năm 2016.
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
TT

Họ và tên

Chức danh Hội đồng

1

PGS. TS. Quản Thành Thơ

Chủ tịch

2

TS. Lư Nhật Vinh


Phản biện 1

3

TS. Nguyễn Thị Thúy Loan

Phản biện 2

4

TS. Lê Văn Quốc Anh

5

TS. Phạm Thị Thiết

Ủy viên
Ủy viên, Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được
sửa chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV

PGS. TS. Quản Thành Thơ


TRƯỜNG ĐH CÔNG NGHỆ TP. HCM
PHÒNG QLKH – ĐTSĐH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày 30 tháng 7 năm 2016

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên:

Lâm Quốc Cường

Giới tính: Nam

Ngày, tháng, năm sinh:

27/7/1978

Nơi sinh: Sóc Trăng

Chuyên ngành:

Công nghệ thông tin

MSHV: 1441860033

I- Tên đề tài:
Khai thác điểm học tập để dự đoán kết quả thi trung học phổ thông quốc gia cho học
sinh trung học.
II- Nhiệm vụ và nội dung:
- Nghiên cứu luật phân lớp, dự đoán.
- Nghiên cứu các phương pháp để phân lớp và dự đoán kết quả thi trung học phổ thông
quốc gia.
- Sử dụng các thuật toán của cây quyết định để phân lớp và dự đoán kết quả thi trung

học phổ thông quốc gia và tìm ra thuật toán có độ chính xác cao nhất.
III- Ngày giao nhiệm vụ:

23/01/2016

IV- Ngày hoàn thành nhiệm vụ: 30/7/2016
V- Cán bộ hướng dẫn: PGS. TS. VÕ ĐÌNH BẢY
CÁN BỘ HƯỚNG DẪN

PGS. TS. VÕ ĐÌNH BẢY

KHOA QUẢN LÝ CHUYÊN NGÀNH


i

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ
công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn
gốc.
Học viên thực hiện Luận văn

Lâm Quốc Cường


ii


LỜI CÁM ƠN
Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS. TS. Võ Đình Bảy,
thầy đã tận tình giúp đỡ, hướng dẫn, động viên và tạo mọi điều kiện giúp tôi tiếp cận và
hoàn thành luận văn này theo đúng yêu cầu.
Tôi cũng xin bày tỏ lòng biết ơn tới Quý thầy, cô Khoa Công nghệ thông tin và
cán bộ phòng Quản lý khoa học - Đào tạo sau đại học trường Đại học Công nghệ
Thành phố Hồ Chí Minh đã tạo mọi điều kiện thuận lợi và hướng dẫn tận tình về các
thủ tục, văn bản liên quan đến luận văn.
Tôi xin chân thành cảm ơn đến Quý thầy, cô trong Hội đồng đánh giá Luận văn
Thạc sĩ đã đóng góp ý kiến quý báo, chân tình để tôi hoàn thiện luận văn này.
Cuối cùng, tôi xin cảm ơn gia đình, quý đồng nghiệp, quý lãnh đạo cơ quan đã tạo
điều kiện tốt nhất và động viên tôi trong suốt thời gian thực hiện luận văn này.
Lâm Quốc Cường


iii

TÓM TẮT
Ngày nay, giáo dục và đào tạo là quốc sách hàng đầu đã được Đảng, Nhà
nước và toàn dân ta xác định, giáo dục luôn luôn được ưu tiên trong kế hoạch phát
triển kinh tế, xã hội của đất nước. Trong năm 2015, Bộ Giáo dục và Đào tạo đã thực
hiện đổi mới kiểm tra, đánh giá, cụ thể là trong kỳ thi trung học phổ thông quốc gia
đó là kỳ thi hai trong một, nghĩa là học sinh có thể lấy kết quả thi trung học phổ
thông quốc gia để xét công nhận tốt nghiệp trung học phổ thông và làm căn cứ để
xét tuyển sinh đại học, cao đẳng.
Đề tài “Khai thác điểm học tập để dự đoán kết quả thi trung học phổ thông
quốc gia của học sinh trung học” nhằm hỗ trợ học sinh lớp 12 trong việc dự đoán
kết quả trong kỳ thi trung học phổ thông quốc gia. Hiện nay, phân lớp và dự đoán là
để tìm ra dữ liệu có ích phục vụ cho nhu cầu cần thiết để đưa ra các quyết định
thông minh hỗ trợ người dùng trong công việc thuộc các lĩnh vực như y tế, giáo

dục, kinh doanh, .... Đề tài sử dụng phương pháp cây quyết định (Decision Tree) đó
là phương pháp đơn giản, dễ sử dụng và có độ tin cậy khá cao và phù hợp với nội
dung của đề tài để thực hiện việc dự đoán kết quả của học sinh trong kỳ thi trung
học phổ thông quốc gia, cụ thể là đề tài thử nghiệm trên ba thuật toán là C5.0,
CART và Random Forest.
Bên cạnh việc nghiên cứu cơ sở lý thuyết về phương pháp cây quyết định, đề
tài sử dụng ngôn ngữ R, đây là ngôn ngữ lập trình cấp cao, hỗ trợ rất mạnh mẽ cho
việc phân tích dữ liệu, tính toán xác suất thống kê, giải thuật học tự động, … để xây
dựng ứng dụng hỗ trợ học sinh dự đoán kết quả trong các kỳ thi trung học phổ
thông quốc gia hàng năm do Bộ Giáo dục và Đào tạo tổ chức.


iv

ABSTRACT
Today, education and training is a top national policy was the Party, State and
people identification, education has always been a priority in the economic
development plan, the country's society. In 2015, the Ministry of Education and
Training has implemented innovative inspection and evaluation, particularly in the high
school exams that country is in a second exam, which means students can get results
exam national high school recognized at graduation for high school and as a basis for
college admission and college.
The theme “Mining to predict academic test results National High School High
School Student” in support of 12th graders in predicting the results of examinations
National High School. Currently, classification and prediction is to find useful data in
service needs to make smart decisions to support users in their work in fields such as
health, education, economic business, .... the theme uses a decision tree method
(decision tree) methods that are simple, easy to use and high reliability, and consistent
with the content of the subject to perform the project guess the outcome of the exam
students in the national high school, namely the three subjects tested on the C5.0

algorithm, CART and Random Forest.
Besides the study of the theoretical basis of the decision tree method, subjects
using the R language, this is a high-level programming language, very strong support
for data analysis, probability calculation system Statistics, automatic learning
algorithm, ... to build applications that support students predict the outcome of the high
school exams annually by the national Ministry of Education and Training held.


v

MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CÁM ƠN ............................................................................................................. ii
TÓM TẮT.................................................................................................................. iii
ABSTRACT .............................................................................................................. iv
MỤC LỤC ...................................................................................................................v
DANH MỤC CÁC TỪ VIẾT TẮT ......................................................................... vii
DANH MỤC CÁC BẢNG........................................................................................ ix
DANH MỤC CÁC BIỂU ĐỒ, ĐỒ THỊ, SƠ ĐỒ, HÌNH ẢNH ..................................x
CHƯƠNG 1: MỞ ĐẦU ..............................................................................................1
1.1. Đặt vấn đề .........................................................................................................1
1.2. Lý do chọn đề tài ..............................................................................................1
1.3. Mục tiêu, nội dung và phương pháp nghiên cứu ..............................................2
1.3.1. Mục tiêu .....................................................................................................2
1.3.2. Nội dung ....................................................................................................3
1.3.3. Phương pháp ..............................................................................................3
1.4. Bố cục Luận văn ...............................................................................................3
CHƯƠNG 2: TỔNG QUAN VÀ CƠ SỞ LÝ THUYẾT ............................................4
2.1. Giới thiệu kỳ thi THPT quốc gia ......................................................................4
2.2. Khai thác dữ liệu ..............................................................................................5

2.2.1. Khai thác luật phân lớp, dự đoán ...............................................................5
2.2.2. Các vấn đề liên quan đến phân lớp dữ liệu ................................................7
2.2.3. Đánh giá độ chính xác của phân lớp ..........................................................7
2.2.4. Ví dụ về phân lớp và dự đoán ..................................................................12
2.3. Phương pháp phân lớp dựa trên cây quyết định .............................................17
2.3.1. Giới thiệu .................................................................................................17
2.3.2. Một số lưu ý khi sử dụng cây quyết định ................................................19
2.3.3. Đánh giá hiệu quả phương pháp cây quyết định .....................................20
2.3.4. Xây dựng cây quyết định .........................................................................21


vi

2.4. Thuật toán C5.0 ..............................................................................................22
2.5. Thuật toán CART ...........................................................................................27
2.6. Thuật toán RF .................................................................................................30
2.7. Tổng quan vấn đề nghiên cứu ........................................................................32
2.7.1. Giới thiệu tổng quan ................................................................................32
2.7.2. Tình hình nghiên cứu trên thế giới ..........................................................33
2.7.3. Tình hình nghiên cứu trong nước ............................................................35
CHƯƠNG 3: XÂY DỰNG MÔ HÌNH ....................................................................36
3.1. Xây dựng mô hình hệ thống ...........................................................................36
3.1.1. Dữ liệu vào...............................................................................................36
3.1.2. Thuật toán cây quyết định........................................................................40
3.1.3. Kết quả ra .................................................................................................43
3.2. Xây dựng các thuật toán .................................................................................44
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ .....................................................45
4.1. Môi trường thực nghiệm.................................................................................45
4.2. Giới thiệu cơ sở dữ liệu thực nghiệm .............................................................45
4.3. Áp dụng các thuật toán phân lớp dựa trên phương pháp cây quyết định .......45

4.3.1. Xây dựng phần chung ..............................................................................45
4.3.2. Thuật toán C5.0 .......................................................................................50
4.3.3. Thuật toán CART ....................................................................................54
4.3.4. Thuật toán RF ..........................................................................................56
4.4. Đánh giá và so sánh ........................................................................................57
4.4.1. Đánh giá hiệu suất của các giải thuật.......................................................57
4.4.2. So sánh các thuật toán..............................................................................58
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................60
5.1. Kết luận ..........................................................................................................60
5.2. Ưu điểm và hạn chế ........................................................................................60
5.3. Hướng phát triển .............................................................................................60
TÀI LIỆU THAM KHẢO .........................................................................................62


vii

DANH MỤC CÁC TỪ VIẾT TẮT
Tiếng Việt

Từ viết tắt

STT

Viết rõ

1

THPT

Trung học phổ thông


2

Gioi

Giỏi

3

Kha

Khá

4

Tbinh

Trung bình

5

Yeu

Yếu

6

Kem

Kém


7

DoGioi

Đỗ loại giỏi

8

DoKha

Đỗ loại khá

9

DoKTB

Đỗ loại trung bình khá

10

DoTB

Đỗ loại trung bình

11

Hong

Hỏng


12

TOAN10

Điểm trung bình môn Toán lớp 10

13

VL10

Điểm trung bình môn Vật lí lớp 10

14

HH10

Điểm trung bình môn Hóa học lớp 10

15

SH10

Điểm trung bình môn Sinh học lớp 10

16

NV10

Điểm trung bình môn Ngữ văn lớp 10


17

LS10

Điểm trung bình môn Lịch sử lớp 10

18

DL10

Điểm trung bình môn Địa lí lớp 10

19

NN10

Điểm trung bình môn Ngoại ngữ lớp 10

20

TB10

Điểm trung bình cả năm lớp 10

21

TOAN11

Điểm trung bình môn Toán lớp 11


22

VL11

Điểm trung bình môn Vật lí lớp 11

23

HH11

Điểm trung bình môn Hóa học lớp 11

24

SH11

Điểm trung bình môn Sinh học lớp 11


viii

Từ viết tắt

STT

Viết rõ

25


NV11

Điểm trung bình môn Ngữ văn lớp 11

26

LS11

Điểm trung bình môn Lịch sử lớp 11

27

DL11

Điểm trung bình môn Địa lí lớp 11

28

NN11

Điểm trung bình môn Ngoại ngữ lớp 11

29

TB11

Điểm trung bình cả năm lớp 11

30


TOAN12

Điểm trung bình môn Toán lớp 12

31

VL12

Điểm trung bình môn Vật lí lớp 12

32

HH12

Điểm trung bình môn Hóa học lớp 12

33

SH12

Điểm trung bình môn Sinh học lớp 12

34

NV12

Điểm trung bình môn Ngữ văn lớp 12

35


LS12

Điểm trung bình môn Lịch sử lớp 12

36

DL12

Điểm trung bình môn Địa lí lớp 12

37

NN12

Điểm trung bình môn Ngoại ngữ lớp 12

38

TB12

Điểm trung bình cả năm lớp 12

39

KETQUA

Kết quả thi THPT quốc gia

Tiếng Anh


Từ viết tắt

STT

Viết rõ

1

CART

Classification And Regression Tree

2

NBC

Naive Bayes Classification

3

ANN

Artificial Neural Network

4

CBA

Classification Based on Associations


5

SVM

Support Vector Machines

6

ILA

Inductive Learning Algorithm

7

RF

Random Forest

8

DT

Decision Tree

9

KNN

K nearest neighbors



ix

DANH MỤC CÁC BẢNG
Bảng 2.1. Tập cơ sở dữ liệu ....................................................................................12
Bảng 2.2. Tập dữ liệu huấn luyện ..........................................................................13
Bảng 2.3. Tập dữ liệu kiểm tra ...............................................................................14
Bảng 2.4. Mẫu cụ thể .............................................................................................14
Bảng 2.5. Kết quả cho mẫu cụ thể .........................................................................14
Bảng 2.6. Tập cơ sở dữ liệu ...................................................................................15
Bảng 2.7. Tập dữ liệu kiểm tra fold_1 ...................................................................15
Bảng 2.8. Tập dữ liệu huấn luyện ..........................................................................15
Bảng 2.9. Tập dữ liệu kiểm tra fold_2 ...................................................................16
Bảng 2.10. Tập dữ liệu huấn luyện ........................................................................16
Bảng 2.11. Tập dữ liệu kiểm tra fold_10 ...............................................................16
Bảng 2.12. Tập dữ liệu huấn luyện ........................................................................16
Bảng 2.13. Mẫu cụ thể ...........................................................................................17
Bảng 2.14. Kết quả cho mẫu cụ thể .......................................................................17
Bảng 3.1. Kết quả của các thuật toán ......................................................................43
Bảng 4.1. Độ chính xác các thuật toán ...................................................................58


x

DANH MỤC CÁC BIỂU ĐỒ, ĐỒ THỊ, SƠ ĐỒ, HÌNH ẢNH
Hình 2.1. Mô hình bài toán phân lớp .......................................................................6
Hình 2.2. Mô hình phân lớp .....................................................................................8
Hình 2.3. Mô hình phân lớp theo phương pháp holdout ..........................................9
Hình 2.4. Mô hình phân lớp theo phương pháp k-fold cross-validation ................10
Hình 2.5. Mô hình sử dụng fold_1 làm tập kiểm tra ..............................................10

Hình 2.6. Mô hình sử dụng fold_2 làm tập kiểm tra ..............................................11
Hình 2.7. Mô hình sử dụng fold_3 làm tập kiểm tra ..............................................11
Hình 2.8. Mô hình sử dụng fold_10 làm tập kiểm tra ............................................12
Hình 2.9. Cây quyết định mua máy tính hay không, dựa vào độ tuổi, sinh viên và tín
dụng ........................................................................................................................18
Hình 2.10. Giải thuật rừng ngẫu nhiên (RF-Random Forest) ................................31
Hình 3.1. Mô hình hệ thống ...................................................................................36
Hình 3.2. Mô hình dữ liệu vào ...............................................................................36
Hình 3.3. Bảng điểm học sinh lớp 10 của một trường THPT ................................37
Hình 3.4. Bảng điểm học sinh thi THPT quốc gia .................................................37
Hình 3.5. Tập tin cơ sở dữ liệu dạng excel ............................................................38
Hình 3.6. Tập tin cơ sở dữ liệu dạng csv ...............................................................39
Hình 3.7. Cơ sở dữ liệu đầu vào dạng csv .............................................................40
Hình 3.8. Cây quyết định .......................................................................................41
Hình 3.9. Lưu đồ của các thuật toán ......................................................................42
Hình 4.1. Dữ liệu các thuộc tính lưu trong bảng HocSinh .....................................46
Hình 4.2. Tập dữ liệu huấn luyện (trainingData) ...................................................47
Hình 4.3. Tập dữ liệu kiểm tra (testingData) .........................................................48
Hình 4.4. Kích thước dữ liệu chia thành 10 fold ....................................................48
Hình 4.5. Fold01 của tập dữ liệu có kích thước 807 mẫu tin .................................49
Hình 4.6. Fold10 của tập dữ liệu có kích thước 807 mẫu tin .................................49
Hình 4.7. Kết quả thử nghiệm của tập dữ liệu huấn luyện .....................................50


xi

Hình 4.8. Luật được sinh ra của lớp DoGioi ...........................................................51
Hình 4.9. Luật được sinh ra của lớp DoKha ...........................................................51
Hình 4.10. Luật được sinh ra của lớp DoKTB .......................................................52
Hình 4.11. Luật được sinh ra của lớp DoTB ..........................................................52

Hình 4.12. Luật được sinh ra của lớp Hong ...........................................................52
Hình 4.13. Kết quả phân lớp của tập huấn luyện trong thuật toán C5.0 .................53
Hình 4.14. Kết quả phân lớp của tập kiểm tra trong thuật toán C5.0 ....................53
Hình 4.15. Độ quan trọng của các thuộc tính ảnh hưởng đến phân lớp và dự đoán
của thuật toán C5.0 .................................................................................................54
Hình 4.16. Độ quan trong của tập dữ liệu huấn luyện trong thuật toán CART ......54
Hình 4.17. Kết quả dự đoán của thuật toán CART ................................................55
Hình 4.18. Độ quan trọng của các thuộc tính ảnh hưởng đến phân lớp và dự đoán
của thuật toán CART ..............................................................................................56
Hình 4.19. Kết quả dự đoán của giải thuật RF .......................................................56
Hình 4.20. Độ quan trọng của các thuộc tính ảnh hưởng đến phân lớp và dự đoán
thuật toán của RF ...................................................................................................57
Hình 4.21. Độ chính xác trung bình của các thuật toán ..........................................58
Hình 4.22. Độ chính xác 10 fold của các thuật toán ..............................................59


1

CHƯƠNG 1: MỞ ĐẦU
1.1. Đặt vấn đề
Giáo dục và đào tạo là quốc sách hàng đầu đã được Đảng, Nhà nước và toàn
dân ta xác định và đầu tư cho giáo dục là đầu tư cho sự phát triển, giáo dục luôn
luôn được ưu tiên trong kế hoạch phát triển kinh tế, xã hội của đất nước. Trong quá
trình đổi mới của đất nước thì giáo dục cần phải được đổi mới một cách căn bản và
toàn diện để từ đó tạo ra con người phát triển toàn diện như đã được nêu lên trong
Nghị quyết số 29-NQ/TW ngày 04/11/2013 của Ban Chấp hành Trung ương Đảng.
Kỳ thi THPT quốc gia mới được Bộ Giáo dục và Đào tạo triển khai thực hiện từ
năm 2015 và mục đích của kỳ thi lấy kết quả để xét công nhận tốt nghiệp THPT và
xét tuyển sinh đại học, cao đẳng.
Hiện nay, có rất có nhiều mô hình phân lớp được đề xuất như cây quyết định,

phân lớp NBC, ILA, ANN, SVM, KNN. Vấn đề phân lớp dữ liệu và dự đoán đã
được quan tâm trong nhiều lĩnh vực như y tế, giáo dục, kinh tế, bảo hiểm, ngân
hàng…, chúng ta có thể dựa vào phân lớp dữ liệu để tạo ra mô hình phân lớp và dự
đoán để biết được khuynh hướng của dữ liệu trong tương lai. Trong y tế, dựa vào
các thông số xét nghiệm có thể dự đoán được các bệnh và hỗ trợ đưa ra các quyết
định trong việc chẩn đoán; trong ngân hàng, dựa vào các thông tin từ khách hàng
mà ngân hàng đưa ra quyết định cho hay không cho và cho với mức vay là bao
nhiêu để có khả năng thu hồi và tăng lợi nhuận; trong giáo dục, từ phân lớp dữ liệu
và dự đoán ta có thể dựa vào điểm học tập của học sinh để từ đó có thể dự đoán
được kết quả thi THPT quốc gia.
1.2. Lý do chọn đề tài
Học sinh trường THPT muốn bước vào ngưỡng cửa của các trường đại học,
cao đẳng thì các em có thể phải trải qua kỳ thi THPT quốc gia và kỳ thi này rất quan
trọng quyết định về tương lai sau này của các em. Năm 2015, Bộ Giáo dục và Ðào
tạo đã thực hiện đổi mới trong kiểm tra, đánh giá được thể hiện trong kỳ thi THPT
quốc gia [1], đây là kỳ thi hai trong một, trong kỳ thi này có những môn bắt buộc và


2

các môn tự chọn và học sinh phải có định hướng học như thế nào đối với các môn
bắt buộc và các em phải biết chọn các môn nào là thế mạnh của mình để chắt chắn
thi đạt trong kỳ thi này.
Trong kỳ thi THPT quốc gia tại tỉnh Sóc Trăng, để xét công nhận tốt nghiệp
THPT học sinh sẽ thi bốn môn trong đó có hai môn bắt buộc là Toán, Ngữ văn và
hai môn tự chọn trong các môn Vật lí, Hóa học, Sinh học, Lịch sử, Địa lí, Tiếng
Anh. Vì thế từ những năm học lớp 10, 11 các em có thể định hướng các môn thi để
đến năm lớp 12 các em có kế hoạch và lựa chọn các môn thi cho phù hợp với khả
năng của mình và đặc biệt là được xét công nhận tốt nghiệp THPT từ đó làm căn cứ
để xét vào các trường đại học, cao đẳng.

Từ những vấn đề đã nêu trên, tôi nhận thấy cần phải có một công cụ hỗ trợ để
học sinh có thể dự đoán kết quả trong kỳ thi THPT quốc gia để học sinh có thể điều
chỉnh khả năng học tập và có căn cứ khoa học hơn trong việc lựa chọn môn thi từ
điểm các môn học của lớp 10, lớp 11 và lớp 12. Vì vậy, tôi chọn đề tài “Khai thác
điểm học tập để dự đoán kết quả thi trung học phổ thông quốc gia của học sinh
trung học” sử dụng các thuật toán của cây quyết định để tìm ra thuật toán có độ
chính xác cao nhất cho đề tài.
1.3. Mục tiêu, nội dung và phương pháp nghiên cứu
1.3.1. Mục tiêu
Mục tiêu của đề tài là bước đầu nghiên cứu về khai thác dữ liệu, xây dựng ứng
dụng khai thác điểm học tập để dự đoán kết quả thi THPT quốc gia của học sinh
trung học và để làm được điều này, đề tài cần được thực hiện các nội dung sau:
- Thực hiện tìm hiểu, phân tích và tổng hợp kết quả học tập của học sinh từ lớp
10 đến lớp 12 để từ đó xác định được những môn thế mạnh cũng như những môn
hạn chế.
- Nghiên cứu phương pháp phân lớp dữ liệu cụ thể là phương pháp cây quyết
định (Decision Tree) để tìm ra thuật toán có độ chính xác cao nhất. Sử dụng dữ liệu
kết quả học tập và kết quả thi THPT quốc gia năm 2015 để dự đoán kết quả thi
THPT quốc gia của học sinh cho những năm tiếp theo.


3

- Sử dụng ngôn ngữ R [16] để kiểm định độ chính xác của các thuật toán theo
phương pháp cây quyết định.
1.3.2. Nội dung
- Sử dụng công cụ để kiểm định kết quả khi sử dụng phân lớp và dự đoán dữ
liệu dựa trên phương pháp cây quyết định, các thuật toán tiêu biểu được sử dụng là
C5.0, CART và RF.
- Sử dụng ngôn ngữ R để kiểm định các thuật toán trên, để lựa chọn thuật toán

có độ chính xác cao nhất.
1.3.3. Phương pháp
- Nghiên cứu tài liệu, các văn bản, thông tư, hướng dẫn của Bộ Giáo dục và
Đào tạo, của Sở Giáo dục và Đào tạo tỉnh Sóc Trăng có liên quan đến việc đánh giá
kết quả học tập, kỳ thi THPT quốc gia năm 2015 [1][2][3].
- Thu thập, tổng hợp dữ liệu.
- Làm sạch, phân tích và biến đổi dữ liệu theo đúng yêu cầu.
- Tiến hành kiểm thử và đánh giá hiệu suất của các thuật toán dựa trên dữ liệu
kết quả thi THPT quốc gia năm 2015.

1.4. Bố cục Luận văn
Luận văn được chia thành 5 chương, cụ thể như sau:
Chương 1: Từ vấn đề cần giải quyết đưa ra lý do chọn đề tài và nêu mục tiêu,
nội dung và phương pháp nghiên cứu
Chương 2: Giới thiệu khai thác dữ liệu, luật phân lớp và dự đoán cụ thể là
phương pháp cây quyết định và các nghiên cứu liên quan
Chương 3: Nghiên cứu các thuật toán phân lớp dữ liệu bằng phương pháp
cây quyết định, kiểm định các thuật toán và đưa ra thuật toán có độ chính xác cao
nhất
Chương 4: Thực nghiệm và đánh giá kết quả thu được từ việc sử dụng
phương pháp cây quyết định trên cơ sở dữ liệu cụ thể
Chương 5: Kết luận, nhận xét và hướng phát triển của đề tài


4

CHƯƠNG 2: TỔNG QUAN VÀ CƠ SỞ LÝ THUYẾT
2.1. Giới thiệu kỳ thi THPT quốc gia
Năm 2015, Bộ Giáo dục và Đào tạo đã đổi mới trong kỳ thi THPT quốc gia,
cụ thể là Bộ Giáo dục và Đào tạo đã có Thông tư số 02/2015/TT-BGDĐT ngày

26/02/2015 Ban hành Quy chế thi THPT quốc gia [1] và Thông tư số 03/2015/TTBGDĐT ngày 26/02/2015 Ban hành Quy chế tuyển sinh đại học, cao đẳng hệ chính
quy [2], bên cạnh đó Cục Khảo thí và Kiểm định chất lượng giáo dục có công văn
số 1388/BGDĐT-KTKĐCLGD ngày 25/3/2016 về việc hướng dẫn thực hiện Quy
chế thi trong tổ chức thi THPT quốc gia và xét công nhận tốt nghiệp trung học phổ
thông [3]. Đối với tỉnh Sóc Trăng trong kỳ thi này học sinh phải thi hai môn bắt
buộc và được phép lựa chọn hai môn còn lại để xét công nhận tốt nghiệp THPT và
làm căn cứ tuyển sinh đại học, cao đẳng. Đối với các môn tự chọn phần lớn học sinh
chưa biết cách chọn có thể chọn theo bạn bè, theo sự tư vấn của thầy cô, theo sự
quyết định của cha mẹ vì thế khi tham gia kỳ thi thì kết quả sẽ không như mong
muốn và có thể ảnh hưởng đến việc xét vào các trường đại học, cao đẳng sau này.
Để giúp cho học sinh tự tin trong việc lựa chọn các môn thi, đề tài đã sử dụng kết
quả học tập các môn của từng năm học lớp 10, lớp 11 và lớp 12 để từ đó đưa ra dự
đoán kết quả thi THPT quốc gia của học sinh trung học.
Trong kỳ thi THPT quốc gia tổ chức thi tám môn Toán, Ngữ văn, Lịch sử,
Địa lí, Vật lí, Hóa học, Sinh học, Ngoại ngữ. Tỉnh Sóc Trăng, để xét công nhận tốt
nghiệp THPT thí sinh phải thi bốn môn gồm hai môn bắt buộc là Toán và Ngữ văn
và hai môn do thí sinh tự chọn trong các môn còn lại. Nếu thí sinh muốn xét công
nhận tốt nghiệp THPT và xét tuyển sinh đại học, cao đẳng thí sinh phải thi hai môn
bắt buộc Toán, Ngữ văn và thi ít nhất hai môn tự chọn trong các môn còn lại và
đăng ký dự thi thêm các môn phù hợp với tổ hợp các môn thi để xét tuyển sinh do
trường đại học, cao đẳng quy định. Kỳ thi THPT quốc gia năm 2015 đáp ứng theo
Nghị quyết số 29-NQ/TW ngày 04/11/2013 của Ban Chấp hành Trung ương Đảng
về đổi mới căn bản toàn diện giáo dục và cụ thể là đổi mới trong thi cử.


5

2.2. Khai thác dữ liệu
Khai thác dữ liệu (Data mining) là một quá trình khai thác các tri thức mới
và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu lớn hiện có được lưu trữ

trong cơ sở dữ liệu hay kho dữ liệu. Khai thác dữ liệu là một bước của quá trình
khai thác tri thức (Knowledge Discovery Process). Trong khai thác tri thức gồm các
bước sau: Chọn dữ liệu (data selection): chọn dữ liệu cần thiết; Làm sạch dữ liệu
(data cleaning): loại bỏ dữ liệu không thích hợp và dữ liệu nhiễu; Làm giàu dữ liệu
(enrichment): bổ sung thêm các thông tin cho dữ liệu phong phú hơn; Chuyển đổi
dữ liệu hoặc mã hóa (data transformation or encoding ): chuyển đổi dữ liệu về dạng
phù hợp để thích hợp cho việc khai thác dữ liệu; Khai thác dữ liệu (data mining): sử
dụng các phương pháp thích hợp để kết xuất dữ liệu; Báo cáo và trình bày dữ liệu
khai thác: sử dụng các kỹ thuật để biểu diễn tri thức cho người sử dụng.
2.2.1. Khai thác luật phân lớp, dự đoán
Ngày nay phân lớp dữ liệu là hướng nghiên cứu chính của vấn đề khai thác
dữ liệu, từ nhu cầu thực tế đặt ra là dữ liệu ngày càng lớn và để tìm ra dữ liệu có ích
phục vụ cho nhu cầu cần thiết để đưa ra các quyết định thông minh. Phân lớp và dự
đoán là hai dạng của phân tích dữ liệu nhằm rút trích ra mô hình dữ liệu quan trọng
và dự đoán xu hướng dữ liệu trong tương lai. Trong những năm qua, phân lớp dữ
liệu đang phát triển mạnh mẽ trong nhiều lĩnh vực khác nhau như máy học, hệ
chuyên gia, thống kê, ..., và được ứng dụng nhiều trong các lĩnh vực như giáo dục, y
tế, thương mại, kinh doanh, nghiên cứu thị trường, bảo hiểm, .... Ví dụ như mô hình
dự báo thời tiết, muốn dự đoán thời tiết ngày mai là mưa hay nắng thì dựa vào nhiệt
độ, độ ẩm của ngày hôm nay và các ngày trước đó từ đó sẽ đưa ra kết quả dự đoán.
Khai thác luật phân lớp được tóm tắt bằng bài toán là ta có cơ sở dữ liệu D
với các thuộc tính là (A1, A2, ..., An) trong đó A1 chứa các giá trị (ai1, ai2, ..., ain) và
thuộc tính phân lớp là C với k lớp là các lớp nhãn (c1, c2, ..., ck). Sử dụng tập dữ liệu
đã cho khi đó thuật toán phân lớp sẽ tìm ra các luật của dữ liệu và hình thành nên bộ
phân lớp, trên cơ sở đó có thể dự đoán được lớp của các mẫu mới.


6
LỚP C1
DỮ

LIỆU
VÀO

THUẬT TOÁN
PHÂN LỚP

LỚP C2
………

LỚP Ck

Hình 2.1. Mô hình bài toán phân lớp
Phân lớp dữ liệu là tạo ra bộ phân lớp hay mô hình phân lớp từ dữ liệu, quá
trình phân lớp gồm có hai bước: [9]
- Bước huấn luyện: Dữ liệu huấn luyện được phân tích bởi thuật toán phân
lớp (có thuộc tính nhãn lớp) để tạo ra bộ phân lớp. Đầu vào của bước huấn luyện là
một tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính và được tạo ra từ tập các
bộ giá trị của các thuộc tính. Đầu ra của bước này là các quy tắc phân lớp dưới dạng
phương pháp cây quyết định (Decision Tree), cụ thể là các phương pháp dựa trên
mô hình cây như C5.0, CART và RF.
- Bước phân lớp: Dữ liệu kiểm tra được dùng để ước lượng độ chính xác của
bộ phân lớp. Độ chính xác mang tính chất dự đoán của mô hình phân lớp, nếu độ
chính xác là chấp nhận được thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ
liệu mới. Cần sử dụng tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo. Nếu độ
chính xác của mô hình là chấp nhận được thì mô hình đó được sử dụng cho để phân
lớp dữ liệu trong tương lai.
Trong mô hình phân lớp thì thuật toán phân lớp là đóng vai trò quyết định tới
sự thành công hay thất bại của mô hình. Vì vậy cần phải tìm ra được một thuật toán
phân lớp hiệu quả, nhanh chóng, có độ chính xác cao và có khả năng mở rộng cho
các tập dữ liệu lớn [9]. Hiện nay có các kỹ thuật phân lớp như sau: phương pháp cây

quyết định, NBC, ANN, CBA, KNN, SVM, ILA, phân tích thống kê, thuật toán di
truyền, phương pháp tập thô, .... Đề tài sử dụng phương pháp cây quyết định với các
thuật toán là C5.0, CART và RF để xác định dộ chính xác khi dự đoán.


7

2.2.2. Các vấn đề liên quan đến phân lớp dữ liệu
Chuẩn bị dữ liệu: dữ liệu cần phải được chuẩn bị trước cho quá trình phân
lớp, việc xử lý dữ liệu là một công việc không thể thiếu và đóng vai trò quyết định
tới sự áp dụng được hay không được của các mô hình phân lớp. Các công việc
chuẩn bị dữ liệu [9]:
- Thu thập dữ liệu: thực hiện thu thập các thông tin, dữ liệu cần thiết phục vụ
cho nhu cầu của đề tài.
- Làm sạch dữ liệu: thực hiện tìm và thay thế những giá trị thiếu trong dữ liệu
ban đầu. Giá trị thiếu có thể do lỗi chủ quan của người nhập liệu, trường hợp này ta
có thể thay bằng giá trị phổ biến nhất của tập thuộc tính đó.
- Chọn lọc dữ liệu: có nhiều thuộc tính không cần thiết hay không liên quan
đến vấn đề cần xử lí, ta có thể loại bỏ những thuộc tính này vì có thể những thuộc
tính đó làm ảnh hưởng đến quá trình học của thuật toán phân lớp.
- Biến đổi dữ liệu: có những dữ liệu của một số thuộc tính là dạng liên tục
nên có thể biến đổi sang dạng rời rạc, việc biến đổi này làm cô đọng dữ liệu nên các
thao tác vào, ra liên quan sẽ tối ưu hơn trong quá trình học. Ví dụ như điểm trung
bình của học sinh nếu có giá trị liên tục thì rất nhiều và ta có thể chuyển sang dạng
rời rạc gồm giỏi, khá, trung bình, yếu và kém.
So sánh các mô hình phân lớp: mỗi ứng dụng cần lựa chọn một mô hình phù
hợp dựa trên các tiêu chí như độ chính xác khi dự đoán, tốc độ thực hiện, khả năng
tạo ra mô hình dự đoán đúng, khả năng thực hiện hiệu quả trên mô hình đã học,
mức độ hiểu và hiểu rõ kết quả sinh ra bởi mô hình đã học.
2.2.3. Đánh giá độ chính xác của phân lớp

Hiện nay có rất nhiều phương pháp đánh giá độ chính xác của phân lớp, độ
chính xác của phân lớp giúp cho dự đoán kết quả của phân lớp dữ liệu trong tương
lai, ngoài ra độ chính xác còn giúp so sánh các mô hình phân lớp. Có hai phương
pháp được sử dụng phổ biến dựa trên phân hoạch ngẫu nhiên tập dữ liệu ban đầu đó
là holdout (splitting) và k-fold cross-validation. Mô hình phân lớp dạng tổng quát.


8

Mẫu mới

Tập dữ liệu
kiểm tra

Phân
lớp
Tập
dữ liệu

Thuật toán
phân lớp
Tập dữ liệu
huấn luyện

Độ
chính
xác
Lớp

Hình 2.2. Mô hình phân lớp

Trong mô hình trên, ta thấy tập dữ liệu được chia làm hai phần là tập dữ liệu
kiểm tra và tập dữ liệu huấn luyện, trong tập dữ liệu huấn luyện ta dùng các thuật
toán phân lớp thực hiện phân lớp trên tập dữ liệu kiểm tra cho kết quả là độ chính
xác của mô hình phân lớp. Cụ thể là khi có mẫu mới khi đưa vào phân lớp thì kết
quả là mẫu mới đó thuộc lớp nào.
Việc ước lượng độ chính xác của phân lớp là rất quan trọng cho phép dự
đoán độ chính xác của các kết quả phân lớp những dữ liệu tương lai. Độ chính xác
còn giúp so sánh các mô hình phân lớp khác nhau về tính hiệu quả và khả năng đáp
ứng của thuật toán. Độ chính xác bộ phân lớp trên tập kiểm tra cho trước là phần
trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp đúng lớp, dựa vào công
thức sau:


9

- Phương pháp holdout, tập dữ liệu sẽ được chia thành hai phần ngẫu nhiên
gồm tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Phương pháp holdout chia 2/3
tập dữ liệu huấn luyện và 1/3 tập dữ liệu kiểm tra và thực hiện phân lớp để tính độ
chính xác của phân lớp. Độ chính xác của bộ phân lớp trên tập kiểm tra cho trước là
phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp đúng lớp.
Mô hình phân lớp theo phương pháp holdout

2/3
TẬP HUẤN
LUYỆN
PHÂN
LỚP

TẬP
DỮ

LIỆU
1/3
TẬP KIỂM
TRA

ĐỘ
CHÍNH XÁC

Hình 2.3. Mô hình phân lớp theo pương pháp holdout
- Phương pháp k-fold cross-validation, tập dữ liệu sẽ được phân chia ngẫu
nhiên thành k-fold có kích thước bằng nhau S1, S2, ..., Sk. Việc huấn luyện và kiểm
tra được thực hiện k lần, trong đó một fold được giữ lại làm tập dữ liệu kiểm tra và
k-1 fold còn lại làm tập dữ liệu huấn luyện. Lần lược mỗi k-fold được giữ lại làm
tập dữ liệu kiểm tra, tức là lần lặp thứ i, Si là tập dữ liệu kiểm tra (với i = 1...k) và
các tập dữ liệu còn lại hợp thành tập dữ liệu huấn luyện. Mô hình phân lớp theo
phương pháp k-fold cross-validation với k = 10, tập dữ liệu được chia ngẫu nhiên từ
fold_1, fold_2, ..., fold_10 có kích thước gần bằng nhau.


10

TẬP
DỮ
LIỆU

k=1

fold_1

k=2


fold_2

k=3

fold_3

k=4

fold_4

k=5

fold_5

k=6

fold_6

k=7

fold_7

k=8

fold_8

k=9

fold_9


k = 10

fold_10

Hình 2.4. Mô hình phân lớp theo phương pháp k-fold cross-validation
Bước 1: chia tập dữ liệu thành hai phần, lấy fold_1 làm dữ liệu kiểm tra, còn
9 fold còn lại làm dữ liệu huấn luyện.

TẬP
DỮ
LIỆU

k=1

fold_1

k=2

fold_2

k=3

fold_3

k=4

fold_4

k=5


fold_5

k=6

fold_6

k=7

fold_7

k=8

fold_8

k=9

fold_9

k = 10

fold_10

TẬP KIỂM TRA

TẬP
HUẤN
LUYỆN

Hình 2.5. Mô hình sử dụng fold_1 làm tập kiểm tra



×