Dự đoán kết quả thi hết môn của học sinh sử dụng một số kỹ thuật khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (168.09 KB, 3 trang )

Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0

DỰ ĐỐN KẾT QUẢ THI HẾT MƠN CỦA HỌC SINH
SỬ DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU
Vũ Thị Hạnh

Trường Đại học Thuỷ lợi, email:

1. GIỚI THIỆU CHUNG

Nguồn dữ liệu thu được hiện nay là khổng
lồ và chứa đựng một kho tàng tri thức cần
được khám phá. Lưu ý đến sự gia tăng về
tính khả dụng của dữ liệu học tập được gán
nhãn, khai thác dữ liệu được giám sát đã đạt
được những giá trị nhất định trong việc hiểu
rõ và tối ưu hố q trình học tập và mơi
trường học tập mà nó đang diễn ra (Huang và
các cộng sự, 2021).
Dự đoán kết quả thi hết mơn học được coi
là quan trọng vì lợi ích của việc xác định
được khả năng cá nhân hoặc nhóm học sinh
có nguy cơ cao khơng đạt kỳ thi cuối kỳ giúp
sinh viên có thể nhận thức và điều chỉnh hành
vi, thói quen, kế hoạch của bản thân để ngăn
việc dự đốn đó xảy ra (Nikola và các cộng
sự, 2020). Đồng thời, nó cũng có thể cung
cấp các thơng tin liên quan cho các nhà giáo
dục để có thể lên kế hoạch can thiệp để hỗ trợ
cá nhân hoặc một nhóm học sinh kịp thời,
hoặc xác định các khoá học và chương trình

giảng dạy cần cải tiến, đặc biệt trong bối
cảnh học online đang kéo dài như hiện nay.
Bài viết này sử dụng một số kỹ thuật khai
phá dữ liệu để dự đoán kết quả kỳ thi của học
sinh vào hai lớp là “qua mơn” hay “trượt
mơn”, từ đó xem xét mối quan hệ giữa một
số yếu tố đầu vào chính ảnh hưởng đến thành
tích học tập của học sinh. Câu hỏi nghiên cứu
đặt ra là: Những nhân tố nào tác động mạnh
đến thành tích học tập của học sinh?
2. PHƯƠNG PHÁP NGHIÊN CỨU

2.1. Tiền xử lý dữ liệu
Trước khi lựa chọn phương pháp tiếp cận
dự đoán kết quả kỳ thi, trước tiên là phải xác

định bộ dữ liệu đầu vào tối ưu từ bộ dữ liệu
thô. Bộ dữ liệu kết quả học tập được tuyển
chọn từ hai trường trung học cơ sở ở Bồ
Đào Nha trong một năm học. Tổng số 32
thuộc tính được thu thập trên mỗi học sinh
bao gồm điểm thành phần, các thông tin
nhân khẩu học, xã hội, các thông tin liên
quan đến trường học (như sex, famsize,
traveltime, studytime, failures, activities,
internet, freetime, health,...). Mỗi bộ thông
tin được dán nhãn thành hai lớp là “qua
môn” hoặc “trượt môn”. Kiểu dữ liệu của
các thuộc tính là kiểu số, kiểu nhị phân và
kiểu định tính. Những thuộc tính có kiểu

định tính sẽ được ánh xạ sang các giá trị số,
những thuộc tính có giá trị nhị phân được
ánh xạ sang 0 và 1. Những thuộc tính kiểu
số giá trị khơng thay đổi. Việc chuẩn hoá
giá trị cho bộ dữ liệu giúp cải thiện tốc độ
trong giai đoạn học tập.
Bộ dữ liệu kết quả học tập của học sinh
được tách ra thành hai phần: 70% dữ liệu
được sử dụng như một tập huấn luyện, 30%
dữ liệu được sử dụng như tập kiểm thử. Tập
huấn luyện được sử dụng để điều chỉnh hoặc
huấn luyện một mơ hình dự đốn, phân loại
các giá trị đã biết trong tập huấn luyện. Tập
kiểm thử được sử dụng để kiểm tra mơ hình
được đào tạo.
2.2. Phương pháp nghiên cứu
Bài viết này sử dụng ba kỹ thuật của khai
phá dữ liệu là Decision Tree (DT), Support
Vector Machine (SVM) và K-Nearest
Neighbours (KNN) để dự đoán kết quả thi
hết mơn của học sinh vào hai lớp dự đốn là
qua môn hay trượt môn (P,F).

95

Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0

2.3. Decision Tree
Cây quyết định là một cách tiếp cận mơ

hình sử dụng biểu đồ cây hoặc mơ hình về
các quyết định có thể xảy ra và các hệ quả
tương ứng của chúng như kết quả của các sự
kiện ngẫu nhiên. Nó là một cấu trúc luồng
trong đó mỗi nút bên trong đại diện cho một
phép thử trên thuộc tính, mỗi nhánh đại diện
cho kết quả thử nghiệm và mỗi lá đại diện
cho một nhãn lớp. Quyết định được đưa ra
sau khi đếm tất cả các thuộc tính. Cây đồ thị
được trực quan hoá dưới dạng biểu đồ cây
giúp người dùng có thể dễ dàng liên kết các
giả thuyết được đặt ra.

kỳ thi cuối kỳ. Đồng thời, các thuộc tính liên
quan đến gia đình như nghề nghiệp của mẹ,
mối quan hệ trong gia đình cũng đóng một
vai trị quan trọng trọng đến kết quả học tập
của học sinh. Một số thuộc tính như giới tính,
địa chỉ, quy mơ gia đình và một số thuộc tính
khác dường như ít hoặc khơng ảnh hưởng đến
thành tích của học sinh. Bảng 1 dưới đây liệt
kê một số thuộc tính đóng vai trị quan trọng
ảnh hưởng đến kết quả cuối kỳ của học sinh.

2.4. Support Vector Machine (SVM)
Mơ hình SVM biểu diễn các vectơ đặc
trưng dưới dạng các điểm trong không gian đa
chiều, được ánh xạ sao cho các vectơ thuộc
các loại khác nhau được phân chia bởi một
siêu phẳng. SVM có thể phân loại phi tuyến

tính một cách hiệu quả bằng cách sử dụng các
phương pháp hạt nhân (kernal method), ánh
xạ ngầm các vectơ đặc trưng đầu vào vào một
một không gian chiều cao hơn nơi mà chúng
trở nên có thể phân tách được.
2.5. K-Nearest Neighbours (KNN)
KNN, thuật toán k-láng giềng gần nhất là
một thuật tốn học máy đơn giản, có giám
sát. KNN hoạt động bằng cách tìm khoảng
cách giữa dữ liệu mới chưa được gán nhãn
với tất cả các dữ liệu đã được dán nhãn. Nhãn
của một dữ liệu mới hay dự đoán kết quả kỳ
thi của một học sinh được suy ra trực tiếp từ
K điểm dữ liệu gần nhất trong tập dữ liệu
huấn luyện. Nhãn của một dữ liệu mới cần dự
đoán sẽ được quyết định bằng số lượng phiếu
bầu lớn hơn giữa các điểm gần nhất.

Bảng 1. Các thuộc tính có ảnh hưởng cao
đến kết quả học tập của học sinh
TT

Thuộc tính

1 Điểm số đợt 1 (G1)

[0 -20]

2 Điểm số đợt 2 (G2)

[0 -20]

3 Thời gian học hàng
tuần (Studytime)

(1) < 2h, (2) 2-5h,
(3) 5-10h, (4) >10h

4 Số lần trượt mơn
trước đây
(Failures)

[1-3] hoặc (4) > =4

5 Tình trạng sức khoẻ Rất xấu (1), xấu (2),
(Health)
bình thường (3), tốt
(4), rất tốt (5)
6 Số buổi nghỉ học
(Abscences)
7 Thời gian di chuyển
đến trường
(Traveltime)

Bài báo này sử dụng thư viện scikitlearning và matplotlib của Python để thực
nghiệm ba kỹ thuật khai phá được sử dụng
trong bài. Kết quả phân tích trọng số của các
thuộc tính thu được từ cây quyết định cho
thấy rằng điểm số đợt 1, đợt 2 và số lần trượt
môn trước đây có tác động đáng kể đến điểm

96

[0-93]
[1-4] tương
(<15p - >1h)

ứng

8 Nghề nghiệp của mẹ Giáo viên (1), công
(Mjob)
việc liên quan đến y
tế (2), hành chính
(3), nội trợ (4), khác
(5)
9 Mối quan hệ trọng
gia đình (Famrel)

3. KẾT QUẢ NGHIÊN CỨU

Phạm vi giá trị
thuộc tính

Rất xấu (1), xấu (2),
bình thường (3), tốt
(4), rất tốt (5)

10 Ra ngoài với bạn bè [1-5] tương ứng từ
(Goout)
thấp - cao
11 Thời gian rảnh sau

giờ học (Freetime)

Rất ít (1), ít (2), bình
thường (3), nhiều
(4), rất nhiều (5)

Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0

Decision Tree, Support Vector Machine và
K-Nearest Neighbors đã được đánh giá và so
sánh trong bối cảnh của bài toán dự đoán kết
quả thi cuối kỳ của học sinh. Để đảm bảo tính
ổn định của các thước đo đánh giá và định
lượng, các kết quả về độ chính xác sau khi áp
dụng ba kỹ thuật DT, SVM, KNN trong dự
đoán kết quả thi hết môn được thống kê trong
Bảng 2 là kết quả trung bình từ 10 thử
nghiệm độc lập được thực hiện cho mỗi kỹ
thuật được phân tích.
Bảng 2. So sánh độ chính xác của 3 kỹ thuật
DT, SVM và KNN trong dự đoán
kết quả kỳ thi cuối cùng
Thuật
toán

Decision
Tree

Support

Vector
Machine

K-Nearest
Neighbors

Average
Accuracy

0.8971

0.8416

0.8413

Standard
Deviation

0.0717

0.0464

0.0475

Accuracy
Score

92.82 %

đối cao, cao nhất là 92.82% với kỹ thuật cây

quyết định.
Bên cạnh đó, nghiên cứu cũng tìm ra được
các nhân tố như điểm thi thành phần của môn
học (G1, G2), thời gian học hàng tuần, số lần
trượt môn, số buổi nghỉ học, nghề nghiệp của
cha mẹ và mối quan hệ trong gia đình đóng
một vai trị quan trọng tới kết quả thi cuối kỳ
của học sinh.
Từ dự đoán kết quả thi hết môn của học
sinh và mối tương quan giữa các thuộc tính
đầu vào đến kết quả thi, học sinh có thể căn
cứ vào dự đốn kết quả thi cuối kỳ để có thể
tự điều chỉnh bản thân như tăng thời gian học
hàng tuần, giảm số buổi nghỉ học để có thể
ngăn việc rớt mơn xảy ra. Đồng thời, nhà
trường có thể dựa trên dự đốn kết quả thi
cuối kỳ của cả nhân hay nhóm sinh viên để
có thể đưa ra hỗ trợ bổ sung kiến thức kịp
thời, hoặc có thể điều chỉnh nội dung học cho
phù hợp với từng bối cảnh khác nhau.
5. TÀI LIỆU THAM KHẢO

88.72%

87.18%

Trong đó: Average Accuracy là độ chính
xác trung bình, Standard Deviation là độ lệch
chuẩn, Accuracy Score là điểm số phân loại
chính xác.

Kết quả thu được cho bài toán dự đoán kết
quả thi cuối kỳ của học sinh sử dụng một số
kỹ thuật khai phá dữ liệu được thống kê trên
Bảng 2. Dựa trên các kết quả này, có thể
nhận thấy rằng cả DT, SVM và KNN đều
đưa ra dự đoán đúng với độ chính xác cao.
Trong đó, cây quyết định cho thấy kết quả tốt
nhất, SVM và KNN cho kết quả tương đương
nhau và độ chính xác thấp hơn so với DT.

[1] Huang, Chenxi, et al. (2021) "A feature
weighted support vector machine and
artificial neural network algorithm for
academic course performance prediction."
Neural Computing and Applications: 1-13.
[2] Tomasevic, Nikola, Nikola Gvozdenovic,
and Sanja Vranes (2020). "An overview and
comparison of supervised data mining
techniques for student exam performance
prediction." Computers & education
143: 103676.

4. KẾT LUẬN

Bài viết đã dự đoán được kết quả thi hết
môn của học sinh dựa trên ba kỹ thuật
Decision Tree, Support Vector Machine và
K-Nearest Neighbours. Kết quả dự đoán áp
dụng ba kỹ thuật khai phá dữ liệu trên đã cho
ra kết quả dự đốn với độ chính xác tương

Dự đoán kết quả thi hết môn của học sinh sử dụng một số kỹ thuật khai phá dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về