Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
1
ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG CÔNG CỤ
DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN
THE APPLICATION OF DATA MINING FOR BUILDING TOOL TO FORCAST
THE LEARNING RESULTS OF STUDENTS
SVTH: Nguyễn Thị Thanh Thủy
Lớp 34K14, Khoa Thống kê - Tin học, Trường Đại học Kinh tế, Đại học Đà Nẵng
GVHD: TS. Nguyễn Trần Quốc Vinh
Khoa Thống kê - Tin học, Trường Đại học Kinh tế, Đại học Đà Nẵng
TÓM TẮT
Trên cơ sở dữ liệu thông tin tuyển sinh đầu vào và kết quả học tập đã thu thập được của
sinh viên thuộc hệ đào tạo chính quy của một trường cao đẳng ở Miền Trung, đề tài tiến hành
nghiên cứu các kỹ thuật cho phép phân lớp trong khai phá dữ liệu, ứng dụng các kỹ thuật đó để
xây dựng mô hình dự đoán kết quả học tập của sinh viên. Đề tài tiến hành so sánh kết quả của các
kỹ thuật để lựa chọn kỹ thuật cho kết quả chính xác nhất. Từ đó, xây dựng chương trình dự báo kết
quả học tập cho mỗi sinh viên để tư vấn cho sinh viên chọn lộ trình học phù hợp nhất để đạt được
kết quả học tập cao nhất.
Từ khóa: Sinh viên; các kỹ thuật; kết quả; dự đoán kết quả học tập; dữ liệu
ABSTRACT
Basing on the university entrance examination enrollment and result data of students
studying at a Junior college in central Viet Nam, this studies different techniques for classification
tasks by exploiting the above data and applies these techniques to formulate a model for student’s
academic result prediction. This also compares the effectiveness of each technique to that of the
others to finally select the best one that will be used as the foundation for establishing a program of
student’s academic result prediction so as to advise students the most suitable way of study for the
best academic result.
Key words: Student; techniques; result; academic result prediction; data
1. Đặt vấn đề
Ngày nay, các trường đại học và cao đẳng đã chuyển sang đào tạo theo học chế tín
chỉ. Việc tư vấn học tập, chủ yếu liên quan đến việc lựa chọn lộ trình học phù hợp nhằm đạt
được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quan tâm. Đó cũng là khó
khăn chung không chỉ của mỗi sinh viên, mà còn của các bên tham gia tư vấn, từ các tổ
chức quản lý trong trường đại học cho đến các cán bộ được phân công chuyên trách như
giảng viên chủ nhiệm. Các giảng viên chuyên trách không thể tiếp cận toàn bộ dữ liệu về
điểm của sinh viên. Ngay cả với các cấp quản lý, bằng cảm tính hoặc suy luận thủ công từ
khối dữ liệu khổng lồ để đưa ra những tư vấn tốt trong việc chọn lộ trình học cho mỗi sinh
viên không phải là khả thi. Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực
giáo dục đào tạo còn chưa được quan tâm đúng mức. Đã có một số công trình được công bố
sử dụng hồ sơ cá nhân cũng như điểm đầu vào để dự báo kết quả học tập toàn khoá hoặc
giai đoạn của sinh viên, nhưng tác giả chưa gặp công trình nghiên cứu nào có sử dụng lộ
trình học để dự báo kết quả học tập.
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
2
Vì vậy, đề tài “Ứng dụng khai phá dữ liệu xây dựng công cụ dự đoán kết quả học tập
của sinh viên” đi sâu vào việc khai phá dữ liệu từ thông tin cá nhân, điểm tuyển sinh đầu
vào kết hợp với lộ trình học để dự đoán kết quả học tập của sinh viên. Đề tài tiến hành
nghiên cứu các kỹ thuật cho phép phân lớp trong khai phá dữ liệu, ứng dụng các kỹ thuật
đó để xây dựng các mô hình dự đoán kết quả học tập của sinh viên bằng công cụ SQL
Server Business Intelligence Development Studio. Từ đó, đánh giá và lựa chọn mô hình
cũng như kỹ thuật cho kết quả dự đoán tốt nhất để ứng dụng và xây dựng chương trình dự
báo kết quả học tập cho mỗi sinh viên. Kết quả dự đoán đó có thể được dùng để tư vấn cho
sinh viên lựa chọn lộ trình học phù hợp để đạt được kết quả học tập cao nhất.
2. Phân tích xây dựng mô hình
Quá trình khai phá dữ liệu được tiến hành theo quy trình chuẩn, bao gồm các bước thu
thập, làm sạch, trích lọc, chuyển đổi dữ liệu về dạng phù hợp, ứng dụng kỹ thuật khai phá
dữ liệu để xây dựng mô hình và đánh giá kết quả thu được.
Nguồn dữ liệu cho việc khai phá nhằm dự đoán kết quả học tập sẽ được thu thập từ
nhiều nguồn dữ liệu khác nhau. Hồ sơ cá nhân của sinh viên đã nộp vào trường để dự tuyển
được phân công nhập vào các bảng tính excel, bao gồm các thông tin như họ tên, ngày sinh,
nơi sinh, phái, dân tộc, khu vực, điểm ưu tiên Ngoài hồ sơ mà thí sinh nộp vào trường
còn một nguồn dữ liệu quan trọng khác đó là dữ liệu từ kết quả thi tuyển hằng năm như số
báo danh, khối thi, ngành chọn thi, điểm thi các môn, điểm ưu tiên, kết quả (Đậu, Hỏng).
Nguồn dữ liệu quan trọng nữa, đó là thông tin kết quả học tập toàn khoá cũng như các môn
học mỗi sinh viên chọn học ở mỗi học kỳ như: mã sinh viên, ngành học, môn học, kết quả
Dữ liệu cần xử lý được thu thập từ các bộ phận quản lý. Vì vậy, dữ liệu có tính trung
thực cao, hầu hết đều phản ánh đúng ngữ nghĩa. Tuy nhiên, do bộ phận quản lý hay thay
đổi và hệ thống lưu trữ quản lý thông tin sinh viên chưa được nâng cao, nên dữ liệu thu
thập không được liên tục theo thời gian, một số trường dữ liệu bị thiếu do việc cập nhật ban
đầu không đầy đủ hoặc chưa được nhập liệu. Từ đó loại bỏ ra các bản ghi có trường dữ liệu
bị thiếu hoặc bị trùng lặp, các môn học, ngành học đều được quy ước mã. Kết quả, tác giả
thu được gần 70.000 bản ghi về điểm tổng kết học phần và dữ liệu cá nhân, tuyển sinh cho
hơn 2000 sinh viên thuộc hệ đào tạo chính quy bậc cao đẳng tại một trường cao đẳng ở
Miền Trung.
Dữ liệu trong các tệp excel đó được chuyển vào cơ sở dữ liệu trong hệ quản trị
Microsoft SQL Server 2008 R2 bằng chức năng Import. Sau đó, chúng được tổ chức dưới
dạng có thể sử dụng để khai phá bằng cách thiết kế và thực hiện các lệnh truy vấn SQL.
Đối với dữ liệu cần thiết để thực hiện nghiên cứu là lộ trình học, ta không thể liệt kê và gắn
với mỗi sinh viên bằng các truy vấn SQL đơn giản. Đề tài đề xuất xây dựng một công cụ
riêng để thực hiện việc này bằng ngôn ngữ lập trình C#.
2.1. Bài toán liệt kê lộ trình học của từng sinh viên
Lượng dữ liệu bao gồm thông tin cá nhân và tuyển sinh của hơn 2000 sinh viên thu
thập được tổ chức thành một bảng tương ứng với hơn 2000 bản ghi, cùng với thông tin của
12 ngành học và 330 môn học của tất cả các ngành, cũng như gần 70.000 bản ghi chứa kết
quả tổng kết học phần của số sinh viên đó. Để liệt kê tất cả các lộ trình học mà sinh viên đã
chọn và gắn với mỗi sinh viên, ta cần một cách thức biểu diễn lộ trình học nào đó. Tác giả
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
3
đề xuất phân biệt lộ trình học theo cách thức: a) gắn môn học theo bước học (học kỳ) và
sắp xếp các bộ này theo thứ tự tăng dần của môn học; b) bỏ qua thứ tự các môn học trong
một bước bằng cách sắp xếp môn học theo thứ tự bảng chữ cái; c) so sánh hai lộ trình với
nhau theo từng bộ môn học – học kỳ một từ đầu đến cuối lộ trình. Nếu hai sinh viên học
các môn học giống nhau trong cùng một học kỳ nhưng thứ tự sắp xếp các môn trong cùng
học kỳ khác nhau, thì để nhận dạng đây là 2 lộ trình học khác nhau, ta phải so sánh như so
sánh hai tập hợp. Rõ ràng, cách tiếp cận này yêu cầu phức tạp và đòi hỏi nhiều tài nguyên
hệ thống hơn.
Mỗi lộ trình sẽ được gán với một mã và mã này sẽ gắn với mỗi sinh viên để xác
định lộ trình học của sinh viên đó. Qua đó, có thể liệt kê danh sách tất cả lộ trình học cho
từng ngành học.
2.2. Xây dựng và lựa chọn mô hình
Sau khi nghiên cứu các kỹ thuật khai phá dữ liệu và các thuật toán tương ứng, đề tài
đề xuất lựa chọn mô hình dự đoán kết quả học tập của sinh viên theo cách tiếp cận xây
dựng nhiều mô hình khác nhau theo các kỹ thuật và trường hợp dữ liệu đầu vào cho mô
hình – có hay không có lộ trình học và lựa chọn mô hình cho kết quả dự đoán tốt nhất. Các
kỹ thuật khai phá dữ liệu có thể cho phép phân lớp được đề xuất sử dụng là Decision Trees
(cây quyết định, DT), Association Rules (luật kết hợp, AR) [8, 9] và phân lớp Naive Bayes
(NB). Dữ liệu đầu vào bao gồm các thuộc tính sinh viên, phái, khối thi, dân tộc, huyện-tỉnh,
khu vực, ưu tiên, điểm thi tuyển sinh, ngành học, kết quả học tập toàn khoá và có thể mã lộ
trình học. Nguồn dữ liệu bao gồm hơn 2000 bản ghi được chia thành hai tập với số lượng
bản ghi tương ứng 70% để huấn luyện mô hình (Training Data: 70%) và 30% để kiểm tra
mô hình (Testing data: 30%).
Với công cụ Microsoft Bussines Intelligence Development Studio 2008 R2, tác giả
đã xây dựng được 6 mô hình. Sau đó, dùng biểu đồ Lift Chart để kiểm tra độ chính xác của
mỗi mô hình. Kết quả cho thấy nếu kết hợp với lộ trình học, việc dự đoán kết quả học tập
của sinh viên sẽ chính xác hơn. Trong tường hợp này, mô hình cây quyết định đã xây dựng
với khả năng đạt được mục tiêu là 96,15%, trong khi đó mô hình NaiveBayes là 93,59% và
mô hình luật kết hợp cho kết quả thấp hơn nhiều. Chính vì thế, mô hình DecisionTrees
được lựa chọn để xây dựng ứng dụng dự đoán kết quả học tập của sinh viên, qua đó, tư vấn
cho sinh viên lựa chọn lộ trình học phù hợp để cho kết quả học tập toàn khoá cao nhất.
2.3. Xây dựng ứng dụng dự đoán kết quả học tập
Với ý tưởng đã nêu, ứng dụng dự đoán kết quả học tập của sinh viên được xây dựng
theo sơ đồ (xem Hình 1):
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
4
Hình1. Sơ đồ khối của chức năng dự đoán kết quả học tập
T
Begin
Đọc dữ liệu do người
dùng nhập vào
Kết hợp tất cả các lộ
trình với ngành học
tương ứng
Kết nối đến Analysis
Services
Kết nối
mở
Thông báo
lỗi
Thông báo kết
nối thành công
F
Thực thi câu lệnh
truy vấn để dự đoán
kết quả học tập
Hiển thị kết quả
truy vấn lên
DataGridView
Đóng kết nối
End
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
5
Để trình diễn kết quả nghiên cứu, tác giả chỉ xây dựng giao diện dự đoán kết quả học
tập như trong hình vẽ bên dưới và chỉ cho phép tư vấn cho một sinh viên. Khi triển khai
ứng dụng, giao diện và chức năng sẽ được xây dựng tùy vào nhóm người dùng. Chẳng hạn,
với người dùng là giảng viên chủ nhiệm hoặc các cấp quản lý, ứng dụng có thể liệt kê thông
tin của tất cả các sinh viên theo từng lớp, kết hợp với các lộ trình có thể, thực hiện dự báo
và trên cơ sở đó cho phép tư vấn cho từng sinh viên trong lớp. Đối với sinh viên, giao diện
sẽ được thiết kế trong một trang web để sinh viên có thể truy cập từ xa.
Hình 2. Giao diện dự đoán kết quả học tập
Khi người dùng chọn một lộ trình học, ứng dụng sẽ hiển thị chi tiết các môn học
cùng với học kỳ của lộ trình học đó.
Hình 3. Chi tiết lộ trình học
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
6
Ngoài ra, hệ thống cho phép xem các mô hình đã được xây dựng nhằm hỗ trợ cho
người dùng cuối là các nhà quản lý, không phải là các kỹ thuật viên xây dựng mô hình.
Ngoài ra, dữ liệu đào tạo trong cơ sở dữ liệu có thể được bổ sung theo thời gian, mô hình đề
xuất có thể sẽ không còn là tối ưu. Vì vậy, ứng dụng cung cấp chức năng cho phép người
dùng cuối – các nhà quản lý cập nhật mô hình.
Để xây dựng ứng dụng với các chức năng đã nêu, tác giả đã tiến hành nghiên cứu và
sử dụng thư viện API do Microsoft cung cấp cùng với ngôn ngữ truy vấn khai phá dữ liệu
DMX – Data Mining Extensions.
Hình 4. Giao diện xem các mô hình khai phá dữ liệu
3. Kết luận
Đề tài đã nghiên cứu cơ sở lý thuyết liên quan đến ba kỹ thuật cây quyết định, luật
kết hợp và Naïve Bayes, nghiên cứu quy trình triển khai ứng dụng khai phá dữ liệu. Ngoài
ra, đề tài cũng tìm hiểu các vấn đề cơ bản về dịch vụ Microsoft SQL Server 2008 R2
Analysis Services và các công cụ liên quan.
Đối với bài toán dự đoán kết quả học tập cuối khóa của sinh viên, đề tài đã đề xuất
xây dựng sáu mô hình dự đoán dựa trên các kỹ thuật cây quyết định, luật kết hợp và Naïve
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
7
Bayes với dữ liệu đầu vào bao gồm thông tin cá nhân, điểm tuyển sinh cũng như bao gồm
hoặc không bao gồm lộ trình học. Từ đó, so sánh sáu mô hình với nhau để chọn ra mô hình
tối ưu. Với dữ liệu huấn luyện ban đầu, mô hình cho phép phân tích các yếu tố ảnh hưởng
đến kết quả học tập của sinh viên, mức độ tác động của từng yếu tố đầu vào, từ đó dự đoán
được kết quả học tập cuối khóa của sinh viên qua việc kết hợp thông tin đầu vào và lộ trình
học. Bên cạnh đó, chuyên đề còn xây dựng được chương trình demo hiển thị các mô hình
đã xây dựng đến người dùng cuối.
Nhìn chung, đề tài đã cơ bản hoàn thành các mục tiêu đề ra. Để đưa mô hình dự
đoán vào ứng dụng một cách hiệu quả hơn thì cần tiếp tục đầu tư thu thập dữ liệu sinh viên
nhiều hơn nữa. Triển khai dự đoán, kiểm chứng thực tế và đánh giá kết quả một cách
thường xuyên. Bản thân nhận thấy đây là hướng tiếp cận đúng đắn và có tính thực tiễn cao.
Hướng phát triển của đề tài có thể nghiên cứu thêm một số mô hình mới để áp dụng
vào bài toán khai phá dữ liệu giáo dục. Chẳng hạn: sử dụng các thông tin tuyển sinh đầu
vào và kết quả học tập của học kì 1 để dự đoán xem kết quả học kì 2 sinh viên đạt loại gì
(xuất sắc, giỏi, khá, trung bình…) hoặc sử dụng luật kết hợp để tìm ra các luật liên quan
giữa các môn học mà sinh viên đã học tốt hoặc chưa đạt.
Với việc triển khai hệ thống thử nghiệm cho thấy khả năng ứng dụng kết quả này
trong việc dự đoán kết quả học tập của sinh viên. Hệ thống không chỉ hỗ trợ cho sinh viên
mà còn hỗ trợ cho giáo viên chủ nhiệm, các khoa chuyên ngành, phòng đào tạo và những ai
quan tâm.
+ Đối với sinh viên: giúp cho sinh viên lựa chọn cho mình một lộ trình học phù hợp
với điều kiện và năng lực của bản thân để đạt được kết quả học tập tối ưu.
+ Đối với giáo viên chủ nhiệm: hỗ trợ cho giáo viên chủ nhiệm có thể tư vấn cho
sinh viên trong việc chọn một lộ trình học phù hợp.
+ Đối với các khoa chuyên ngành và phòng đào tạo: hỗ trợ trong việc đánh giá chất
lượng cho từng lộ trình học nhằm nâng cao, cải thiện hơn nữa trong việc xây dựng các lộ
trình học để phù hợp với mọi điều kiện và năng lực của sinh viên.
TÀI LIỆU THAM KHẢO
[1] JamieMacLennan, ZhaoHui Tang, Bogdan Crivat. Data Mining with Microsoft SQL
Server 2008. Published by Wiley Publishing, Inc., Indianapolis, Indiana. 2008
[2] Jiawei Han and Micheline Kamber. Data Mining Concepts and Techniques, Second
Edition. Published by Elsevier Inc 2006
[3] Brian Knight, Devin Knight, Adam Jorgensen, Patrick LeBlanc, Mike Davis. Knight's
Microsoft Business Intelligence 24-Hour Trainer. Published by Wiley Publishing, Inc.
2010
[4] Khai phá dữ liệu (Data Mining). (truy
cập ngày 2/3/2012)
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
8
[5] Developing Application that uses Analysis Services.
/>4460-8953-f566ca0a0cf3 (truy cập ngày 20/2/2012)
[6] SQL server Data Mining.
(truy cập ngày 10/3/2012)
[7] Nguyễn Thái Nghe, Khoa Công nghệ thông tin và Truyền thông, Đại học Cần Thơ.
Một phân tích giữa các kỹ thuật trong dự đoán kết quả học tập.
/>studentGPAprediction.pdf?attredirects=0 (truy cập ngày 15/3/2012)
[8] Mustafa Nofal, Sulieman Bani-Ahmad. Classification based on association rules
mining techniques: a general survey and empirical comparative evalution.
Xiaoxin Yin, Jiawei Han. CPAR: Classification based on Predictive Association
Rules. www.cs.uiuc.edu/~hanj/pdf/sdm03_cpar.pdf
Họ và tên: Nguyễn Thị Thanh Thủy
Địa chỉ: Thanh Khê, Đà Nẵng
Số điện thoại: 01675 298195
Email: