Tải bản đầy đủ (.pdf) (80 trang)

Khai phá dữ liệu kết quả học tập sinh viên trường đại học công nghiệp thực phẩm tp HCM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.69 MB, 80 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

TRẦN THỊ VÂN ANH

KHAI PHÁ DỮ LIỆU KẾT QUẢ HỌC TẬP
SINH VIÊN TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP
THỰC PHẨM TP. HCM

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201

TP. HỒ CHÍ MINH, tháng 6 năm 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

TRẦN THỊ VÂN ANH

KHAI PHÁ DỮ LIỆU KẾT QUẢ HỌC TẬP
SINH VIÊN TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP
THỰC PHẨM TP. HCM
LUẬN VĂN THẠC SĨ
Chuyên ngành : Công nghệ thông tin
Mã số ngành: 60480201
CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS. LƢ NHẬT VINH
TP. HỒ CHÍ MINH, tháng 6 năm 2016




i

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ
công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã đƣợc cảm ơn và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn
gốc.
Học viên thực hiện Luận văn
(Ký và ghi rõ họ tên)

Trần Thị Vân Anh


ii

LỜI CÁM ƠN
Tôi xin chân thành cảm ơn thầy hƣớng dẫn Tiến sĩ Lƣ Nhật Vinh, khoa Công
nghệ thông tin – Trƣờng Đại học Công nghiệp Thực phẩm TP.HCM đã tận tình
hƣớng dẫn tôi trong suốt thời gian thực hiện luận văn.
Hai ngƣời tôi muốn gửi lời cảm ơn sâu sắc nhất đó là ba mẹ đáng kính của tôi
đã chăm sóc con nhỏ để tôi yên tâm học tập, nghiên cứu và làm việc, cảm ơn những
lời động viên tinh thần từ ngƣời chồng đã giúp tôi vƣợt qua mọi khó khăn, cảm ơn
con Ngân Khánh đã mang lại niềm vui và là nguồn động lực cho mẹ.
Tôi cũng xin cảm ơn khoa Công nghệ thông tin – Trƣờng Đại học Công nghệ
Tp. Hồ Chí Minh, thầy Võ Đình Bảy đã góp ý, định hƣớng, động viên tinh thần

thƣờng xuyên cho tập thể lớp Cao học 14SCT11.
Xin cảm ơn bạn bè và đồng nghiệp tại trƣờng Đại học Công nghiệp thực phẩm
TP.HCM, các anh chị, các bạn cùng lớp Cao học đã giúp đỡ và chia sẻ với tôi trong
quá trình học tập và thực hiện luận văn.
Trần Thị Vân Anh


iii

TÓM TẮT
Trong đào tạo tín chỉ, sinh viên đƣợc tự do đăng ký học phần. Trong số các
học phần phải đăng ký có các học phần có thuộc tính là bắt buộc và có học phần có
thuộc tính là tự chọn. Đối với những học phần bắt buộc, sinh viên đƣợc yêu cầu
phải hoàn thành. Đối với học phần tự chọn, sinh viên có quyền chọn học phần theo
ý riêng. Đối với những sinh viên khi chƣa tìm hiểu rõ mục tiêu, tính áp dụng của
các học phần tự chọn thì việc chọn lựa học phần là một điều mới mẽ và gây ra tâm
lý lúng túng. Ngay cả cố vấn học tập của lớp cũng khó có thể tƣ vấn chính xác cho
từng sinh viên do không tiếp cận đƣợc chi tiết dữ liệu điểm. Do đó, luận văn tiến
hành nghiên cứu một số giải thuật học có giám sát trong lĩnh vực máy học trên cơ
sở bộ số liệu thu thập đƣợc là kết quả học tập của sinh viên. Cụ thể, luận văn nghiên
cứu lý thuyết của 3 giải thuật: Mạng nơron nhân tạo – ANN (Artificial Neural
Networks), Máy vector hỗ trợ - SVM (Support Vector Machines) và cây quyết định
- DT (Decision Tree).Trên cơ sở phân tích các giải thuật này, luận văn đề xuất sử
dụng giải thuật ANN cho bài toán đặt ra.
Trƣớc hết, luận văn giới thiệu tổng quan về lĩnh vực khai thác dữ liệu giáo
dục (EDM) và các công trình nghiên cứu liên quan. Đặc biệt, luận văn tập trung vào
những nghiên cứu áp dụng giải thuật học có giám sát để khai thác dữ liệu học tập
của sinh viên. Nội dung chƣơng 2, luận văn giới thiệu về các giải thuật học có giám
sát và đi vào nghiên cứu chi tiết từng giải thuật ANN, SVM và DT. Dựa trên ngôn
ngữ C#, trong chƣơng 3 của luận văn sẽ trình bày phần cài đặt thực nghiệm trên giải

thuật ANN. Trong chƣơng 4, luận văn tiến hành đánh giá kết quả thực nghiệm và
đƣa ra kết luận đồng thời trình bày những hạn chế chƣa thực hiện đƣợc sẽ là định
hƣớng phát triển trong tƣơng lai.


iv

ABSTRACT
In academic credit system, students need to register subjects by themselves.
Some of these subjects are compulsory and some others are optional. For the
compulsory subjects, students have to complete all of these subjects. For the
optional subjects, students can select the subjects that they prefer.
In case students without understanding the objectives and applicability of the
optional subjects, selecting new subjects may cause embarrassed. Moreover, their
advisors may also hardly provide suitable advices to students as these advisors do
not clear about the ability of each student. Therefore, this thesis studied some
supervised learning algorithms in the field of machine learning based on student
result. Specifically, we applied theoretically three algorithms: ANN (Artificial
Neural Networks), SVM (Support Vector Machines) and DT (Decision Tree). The
derived results then proposed to use ANN algorithm to solve the given problem.
Firstly, thesis provided an overview of the field of educational data mining
(EDM) and other relevant studies. In particular, the thesis focused on the study
applied supervised learning algorithms for data mining student result. In chapter 2,
thesis introduced generally theory of supervised learning algorithms and focused
more into ANN, SVM and DT algorithms. Based on the C # language, the
experimental settings for the ANN algorithm were given in chapter 3. Finally,
chapter 4 was to assess empirical and provide conclusions. This chapter also
identified some limitations of the thesis and provided the orientation for future
study.



v

MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
LỜI CÁM ƠN .............................................................................................................ii
TÓM TẮT ................................................................................................................. iii
ABSTRACT ............................................................................................................... iv
MỤC LỤC ................................................................................................................... v
DANH MỤC CÁC TỪ VIẾT TẮT ..........................................................................vii
DANH MỤC CÁC BẢNG...................................................................................... viii
DANH MỤC BIỂU ĐỒ, ĐỒ THỊ, HÌNH ẢNH ........................................................ ix
MỞ ĐẦU . ................................................................................................................. 10
CHƢƠNG 1.TỔNG QUAN ...................................................................................... 12
1.1. Giới thiệu ........................................................................................................12
1.2. Giới thiệu về khai thác dữ liệu giáo dục (EDM) ............................................14
1.2.1. EDM ứng dụng trong dự báo và đánh giá khả năng của ngƣời học. ....16
1.2.2. EDM ứng dụng trong phân tích hành vi ngƣời học. .............................17
1.3. Các vấn đề luận văn cần nghiên cứu ..............................................................18
1.4. Tổng kết chƣơng ............................................................................................20
CHƢƠNG 2.CƠ SỞ LÝ THUYẾT .......................................................................... 21
2.1. Tổng quan về học có giám sát (Supervised Learning) ...................................21
2.1.1. Giới thiệu ..............................................................................................21
2.1.2. Tổng quan về giải thuật học có giám sát ..............................................21
2.2. Giải thuật máy vector hỗ trợ - SVM ..............................................................24
2.2.1. Giới thiệu giải thuật SVM ....................................................................24
2.2.2. SVM tuyến tính .....................................................................................24
2.2.3. SVM đa lớp ...........................................................................................34
2.3. Cây quyết định ...............................................................................................35
2.3.1. Cấu trúc của cây quyết định ..................................................................35

2.3.2. Các kiểu Cây quyết định .......................................................................36
2.3.3. Các bƣớc chính để xây dựng cây ..........................................................37


vi

2.3.4. Một số ƣu điểm của cây quyết định ......................................................38
2.3.5. Một số điểm yếu của cây quyết định ....................................................40
2.3.6. Thuật toán ID3 ......................................................................................40
2.3.7. Thuật toán C4.5.....................................................................................48
2.4. Mạng ANN .....................................................................................................55
2.4.1. Giới thiệu ..............................................................................................55
2.4.2. Cấu trúc mạng Nơron............................................................................55
2.4.3. Phân loại cấu trúc mạng Nơron ............................................................56
2.4.4. Hàm hoạt động ......................................................................................57
2.4.5. Tiến trình học ........................................................................................57
2.4.6. Giải thuật Back – Propagation ..............................................................59
2.5. Đánh giá các giải thuật ...................................................................................61
2.6. Tổng kết chƣơng ............................................................................................63
CHƢƠNG 3.CÀI ĐẶT THỰC NGHIỆM ................................................................ 64
3.1. Mô tả bài toán .................................................................................................64
3.2. Tiền xử lý dữ liệu ...........................................................................................66
3.3. Cài đặt thực nghiệm .......................................................................................67
3.3.1. Ví dụ thực nghiệm ................................................................................70
3.4. Tổng kết chƣơng ............................................................................................75
CHƢƠNG 4.KẾT LUẬN.......................................................................................... 76
DANH MỤC TÀI LIỆU THAM KHẢO .................................................................. 77


vii


DANH MỤC CÁC TỪ VIẾT TẮT

Chữ viết tắt

Thuật ngữ tiếng Anh

Diễn giải

ANN

Artificial Neural Networks

Mạng ANN

DM

Data Mining

Khai thác dữ liệu

DT

Decision tree

Cây quyết định

EDM

Education Data Mining


Khai thác dữ liệu giáo dục

LMS

Learning managerment systems

Hệ thống quản trị học

ITS

Intelligent tutoriol system

Hệ thống hƣớng dẫn thông minh

SVM

Support Vector Machines

Máy vector hỗ trợ

KNN

K Nearest Neighbours

K láng giềng gần

NB

Naïve Bayer


Mạng NB

SRM

Structural Risk Minimization

Cực tiểu hóa rủi ro có cấu trúc


viii

DANH MỤC CÁC BẢNG

Bảng 1.1. Kế hoạch đào tạo học kỳ 2 hệ Đại học ngành Công nghệ sinh học ........12
Bảng 2.1. Bảng dữ liệu chơi golf .............................................................................36
Bảng 3.1. Khung chƣơng trình đào tạo học kỳ 1 ngành Công nghệ sinh học .........63
Bảng 3.2. Khung chƣơng trình đào tạo học kỳ 2 ngành Công nghệ sinh học .........64


ix

DANH MỤC BIỂU ĐỒ, ĐỒ THỊ, HÌNH ẢNH
Hình 2.1. Minh họa SVM tuyến tính ....................................................................... 25
Hình 2.2. Minh họa tìm một siêu phẳng tối ƣu ........................................................ 26
Hình 2.3. Xác định siêu phẳng tối ƣu ...................................................................... 26
Hình 2.4. Minh họa trƣờng hợp dữ liệu nhiễu ......................................................... 30
Hình 2.5. Trƣờng hợp dữ liệu nhiễu ........................................................................ 31
Hình 2.6. Minh họa trƣờng hợp SVM đa lớp .......................................................... 34
Hình 2.7. Mô tả chung về cây quyết định ................................................................ 35

Hình 2.8. Cấu trúc một Nơron ................................................................................. 55
Hình 2.9. Cấu trúc một mạng nơron không có lớp ẩn ............................................. 56
Hình 2.10. Cấu trúc mạng neural nhiều lớp .............................................................. 56
Hình 2.11. Tiến trình học của mạng nơron ............................................................... 58
Hình 2.12. Mô hình tính toán một nơron .................................................................. 59
Hình 3.1. Mô hình dự báo kết quả học tập .............................................................. 67
Hình 3.2. Dữ liệu huấn luyện ................................................................................... 71
Hình 3.3. Đánh giá sai số huấn luyện ...................................................................... 71
Hình 3.4. Đánh giá thời gian huấn luyện ................................................................. 72
Hình 3.5. Dữ liệu kiểm thử ...................................................................................... 72
Hình 3.6. Đánh giá sai số kiểm thử ......................................................................... 73
Hình 3.7. Đánh giá thời gian kiểm thử .................................................................... 73
Hình 3.8. Các giá trị kiểm thử ................................................................................. 74


10

MỞ ĐẦU
Tại Việt Nam, hình thức đào tạo tín chỉ đã đƣợc áp dụng từ năm 2001[26].
Việc áp dụng đào tạo theo hình thức tín chỉ tạo nhiều thuận lợi cho ngƣời học bởi
tính liên thông của nó. Học theo tín chỉ tạo điều kiện cho ngƣời học có thể học liên
thông giữa các ngành trong trƣờng, hoặc liên thông giữa các trƣờng trong nƣớc.
Ngoài ra còn có thể dễ dàng hội nhập với giáo dục của thế giới do chƣơng trình học
phân theo từng mô đun cụ thể.
Công nghệ thông tin đã ứng dụng trong hầu hết các lĩnh vực, trong đó ngành
giáo dục đã ứng dụng công nghệ thông tin vào trong giảng dạy rất nhiều nhƣ những
bài giảng điện tử, những hệ thống quản lý sinh viên trực tuyến. Không dừng lại ở
đó, song song với tiến bộ của công nghệ thông tin đặc biệt là trong lĩnh vực khai
thác dữ liệu. Môi trƣờng giáo dục là một trong những môi trƣờng đƣợc các nhà
nghiên cứu tập trung khai thác, với mục đích chính là tìm ra những tri thức tiềm ẩn

để từ đó xem xét đầu tƣ và cải tiến trong các mặt của giáo dục, đồng thời thông qua
đó nâng cao khả năng của những nhà nghiên cứu trong việc nghiên cứu và phát triển
các kỹ thuật khai thác dữ liệu.
Các giải thuật học có giám sát của ngành máy học là những giải thuật đƣợc
sử dụng rộng rãi trong các bài toán phân lớp và dự báo bởi kết quả chính xác mà nó
mang lại [11]. Các giải thuật đó là: giải thuật Mạng ANN, SVM và DT, NB (Naïve
Bayer) và giải thuật K láng giềng gần - KNN (K Nearest Neighbours). Trong số đó:
giải thuật Mạng ANN, Máy vector hỗ trợ SVM và Cây quyết định DT đƣợc sử dụng
rộng rãi trong các bài toán khai thác dữ liệu giáo dục[17]. Trên cơ sở đó, luận văn
thực hiện nghiên cứu chi tiết đối với ba giải thuật trên cho bài toán dự báo kết quả
học của các học phần tự chọn. Mục tiêu nghiên cứu chính của luận văn:
 Đề xuất mô hình bài toán dự báo kết quả học tập của các học phần tự chọn để
từ đó làm cơ sở thực nghiệm đối với tập dữ liệu thu thập đƣợc.
 Đề xuất giải thuật dự báo trên cơ sở nghiên cứu các giải thuật học có giám
sát.


11

 Xây dựng thực nghiệm đã xác định đƣợc kết quả dự báo.
 Đánh giá, so sánh kết quả thực nghiệm.
Trên cơ sở mục tiêu nghiên cứu, luận văn xác định các đối tƣợng cần phải
nghiên cứu nhƣ sau:
Nghiên cứu cấu trúc chung của giải thuật học có giám sát để làm cơ sở
nghiên cứu các giải thuật cụ thể.
Đi sâu nghiên cứu chi tiết từng giải thuật: giải thuật Mạng ANN, Máy vector
hỗ trợ SVM và cây quyết định DT.
Nghiên cứu dữ liệu đầu vào và cài đặt thực nghiệm.
Phạm vi nghiên cứu của luận văn giới hạn trong các giải thuật ANN, SVM
và DT. Ngôn ngữ sử dụng để cài đặt thực nghiệm là C#. Từ đó phân tích tính phù

hợp của các giải thuật và chọn giải thuật để áp dụng cho bài toán dự báo kết quả học
tập. Sau cùng, trình bày kết quả thực nghiệm và đánh giá hiệu suất của giải thuật áp
dụng. Dựa trên kết quả đạt đƣợc, nhìn nhận những hạn chế từ đó đề xuất hƣớng
nghiên cứu tiếp theo.


12

CHƢƠNG 1.

TỔNG QUAN

1.1. Giới thiệu
Hình thức đào tạo tín chỉ là một phƣơng pháp đào tạo tiên tiến trên thế giới
và đang đƣợc áp dụng rộng rãi tại một số trƣờng đại học của Việt Nam hiện nay. Ƣu
điểm của hình thức đào tạo này là tính liên thông giữa các hệ đào tạo, giữa các
trƣờng để tạo điều kiện cho việc hội nhập với giáo dục trong nƣớc và giáo dục thế
giới. Vì lý do đó, chủ trƣơng đã đƣợc thủ tƣớng chính phủ phê duyệt theo Quyết
định 47/2001/QĐ-TT là mở rộng áp dụng hình thức đào tạo tín chỉ trong mạng lƣới
các trƣờng đại học, cao đẳng trong nƣớc giai đoạn 2001- 2010.
Trƣờng Đại học Công nghiệp Thực phẩm Tp. HCM đã áp dụng hình thức
học theo tín chỉ từ năm học 2006 đến nay. Theo tinh thần của tín chỉ, sinh viên có
thể tự xây dựng kế hoạch học tập cho suốt quá trình học tập toàn khóa học, có nghĩa
là tùy theo năng lực và điều kiện của bản thân, sinh viên sẽ đăng ký học phần trong
mỗi học kỳ theo qui định của Nhà trƣờng.
Theo qui chế đào tạo tín chỉ của Nhà trƣờng [25], kế hoạch đào tạo trong một
học kỳ đối với sinh viên bao gồm học phần bắt buộc và học phần tự chọn. Trong đó,
số tín chỉ đăng ký tối thiểu là 14. Theo đặc thù của Nhà trƣờng, trong học kỳ đầu
tiên, sinh viên sẽ đƣợc đăng ký lịch học tự động và trong học kỳ này sinh viên
không thực viện việc chọn học phần tự chọn. Bắt đầu học kỳ thứ 2 trở đi, sinh viên

sẽ tự chọn học phần để đăng ký học, ví dụ:
Bảng 1.1.

Kế hoạch đào tạo học kỳ 2 hệ Đại học ngành Công nghệ sinh học
Học kỳ 2: 22 Tín chỉ

Học phần bắt buộc

20

1

17201002

Giáo dục thể chất 2

2

19200001

Những nguyên lý cơ bản của
chủ nghĩa Mác – Lênin

5(5,0,10)

3

21200002

Anh văn 2


2(2,0,4)

21200001 (a)

4

18200002

Toán cao cấp A2

2(2,0,4)

18200001 (a)

30 tiết

17201001(a)


13

5

18200003

Toán cao cấp A3

2(2,0,4)


6

18200014

Vật lý đại cƣơng 2

2(2,0,4)

18200013 (a)

7

18202015

Thí nghiệm vật lý đại cƣơng

1(0,1,1)

18200014 (c)

8

04200005

Hóa hữu cơ

2(2,0,4)

9


09200009

Môi trƣờng và con ngƣời

2(2,0,4)

10

13200001

Quản trị học

2(2,0,4)

11

04200010

Hóa phân tích

2(2,0,4)

12

04202011 Thí nghiệm Hoá phân tích
Học phần tự chọn

1(0,1,1)
2


1

Phƣơng pháp tính

2(2,0,4)

2

18200009
18200012

Quy hoạch thực nghiệm

2(2,0,4)

3

18200008

Quy hoạch tuyến tính

2(2,0,4)

Trong nhóm học phần tự chọn, sinh viên sẽ phải chọn học phần tự chọn nhƣ
bảng 1.1. Giai đoạn chọn lựa học phần là giai đoạn khó khăn đối với sinh viên vì
phải ra quyết định lựa chọn mà không rõ là học phần nào sẽ cho kết quả tốt hơn, có
nhiều tiêu chí để sinh viên lựa chọn môn học. Thông thƣờng, sinh viên sẽ chọn môn
học theo cảm tính, theo sở thích, theo kinh nghiệm của những sinh viên đi trƣớc mà
chƣa có một cơ sở nào chắc chắn để hỗ trợ sinh viên có thể dự đoán đƣợc điểm của
học phần đã chọn. Theo tình trạng hiện tại, sinh viên thiếu kênh thông tin dự báo để

tham khảo, do đó thiếu tự tin trong việc chọn lựa học phần mặc dù Nhà trƣờng cũng
đã có bộ phận cố vấn học tập để hỗ trợ sinh viên trong vấn đề này. Nhƣng với số
lƣợng sinh viên trong một lớp rất đông và cố vấn học tập cũng không thể tiếp cận
chi tiết đến dữ liệu điểm số của từng sinh viên nên cố vấn học tập chƣa sâu sát đƣợc
đến từng sinh viên để đƣa ra một lời khuyên tốt nhất.
Nắm rõ những khó khăn trên của sinh viên và cố vấn học tập tại trƣờng Đại
học Công nghiệp Thực phẩm Tp. Hồ Chí Minh, luận văn đề xuất nghiên cứu một số
giải thuật học có giám sát của ngành máy học đó là giải thuật SVM, giải thuật cây
quyết định DT và giải thuật Mạng ANN để khai thác dữ liệu kết quả học tập của
sinh viên. Từ đó, luận văn phân tích các giải thuật này. Dựa trên kết quả phân tích


14

này luận văn chọn ra một giải thuật tối ƣu để xây dựng mô hình dự báo từ đó đƣa ra
những gợi ý tƣ vấn cho sinh viên trong việc lựa chọn các học phần tự chọn, mục
đích để đạt đƣợc kết quả nhƣ mong muốn.
1.2. Giới thiệu về khai thác dữ liệu giáo dục (EDM)
Khai thác dữ liệu giáo dục (Education Data Mining- EDM) là một lĩnh vực
nghiên cứu phát triển các kỹ thuật khai thác dữ liệu (Data Mining- DM) trên bộ số
liệu của hệ thống giáo dục [14]. Qua đó, khám phá ra những thông tin tiềm ẩn để trả
lời cho những câu hỏi và những vấn đề chƣa đƣợc giải đáp của lĩnh vực giáo dục.
Từ đó, đƣa ra những cải tiến trong chất lƣợng giảng dạy và các chính sách giáo dục
khác. Những câu hỏi tƣơng tự nhƣ:
Làm sao có thể dự đoán đƣợc thành công của ngƣời học?
Những biểu hiện nào của sinh viên cho thấy có sự tiến bộ hoặc tụt dốc trong
học tập?
Cần phải thay đổi môi trƣờng học tập nhƣ thế nào để ngƣời học có kết quả
tốt hơn?
Làm sao biết đƣợc các yếu tố ảnh hƣởng đến lỷ tệ nhập học của ngƣời học?

EDM đƣợc coi là mỏ vàng của ngành khai thác dữ liệu[14], những dữ liệu
thuộc ngành này đã đƣợc tích lũy nhiều năm và vô cùng phong phú. EDM đóng góp
rất nhiều cho việc phát triển các kỹ thuật DM[7]. EDM không giới hạn các kỹ thuật
khai thác dữ liệu. Hầu nhƣ các kỹ thuật phân lớp (classification), gom cụm
(clustering), rút luật kết hợp (association rule) đều đƣợc áp dụng thành công trong
lĩnh vực giáo dục[14].
Hội thảo quốc tế về lĩnh vực EDM diễn ra tại các nƣớc vào tháng 7 hằng năm
() là cơ hội để những nhà nghiên cứu về lĩnh
vực này công bố những hƣớng nghiên cứu mới. Đồng thời tạp chí jounal of
education data mining cũng là một kênh chính cho những ai theo đuỗi lĩnh vực này
nắm bắt đƣợc tình hình nghiên cứu trên thế giới.


15

Những nghiên cứu của EDM xoay quang 4 đối tƣợng chính [14]:
Sinh viên: chủ yếu là khai thác những thông tin chi tiết của sinh viên, tính
cách cũng nhƣ khả năng kiến thức, các kỹ năng, động lực, sự hài lòng, thái độ mục
tiêu là phát hiện khả năng phát sinh những tác động tiêu cực làm ảnh hƣởng đến quá
trình học.
Ngƣời dạy: Khai thác dữ liệu để tìm ra những yếu tố ảnh hƣởng đến quá
trình dạy từ đó điều chỉnh, cải tiến phƣơng pháp giảng dạy cho phù hợp.
Ngƣời quản lý: Khai thác dữ liệu để tìm ra những nguy cơ, những rủi ro ảnh
hƣởng đến chiến lƣợc, mục tiêu của Trƣờng học, những lỗ hổng trong quản lý và để
cải thiện hơn trong quản lý nhân sự hoặc xem xét các yếu tố cải thiện cơ sở vật chất.
Nhà nghiên cứu: phát triển và so sánh các kỹ thuật khai thác dữ liệu ứng
dụng trong các vấn đề cụ thể từ đó đƣa ra những kiến nghị có lợi trong việc lựa
chọn kỹ thuật khai thác dữ liệu phù hợp.
Những nghiên cứu gần đây: trong bài báo về phân tích hiệu suất và dự báo
trong khai thác dữ liệu giáo dục[7] đã trình bày cuộc khảo sát toàn diện về EDM (từ

năm 2002 đến 2014) bao gồm các nghiên cứu của các tác giả trong tài liệu [7]: đã sử
dụng phƣơng pháp thống kê và gom cụm để khai thác dữ liệu giáo dục và đƣa ra các
bài báo đã chia cách tiếp cận khai thác dữ liệu giáo dục theo phân loại hệ thống giáo
dục, ngành học, nhiệm vụ, phƣơng pháp, và các giải thuật áp dụng. Trong nội dung
bài báo còn khảo sát các nghiên cứu về EDM tập trung chủ yếu là dự báo kết quả
học tập dựa vào các yếu tố nhập học của ngƣời học. Hầu hết các tài liệu nghiên cứu
về EDM đều thuộc thể loại này. Bài viết mới nhất trên tạp chí Computer Science
and Mobile Computing [7] mô tả quá trình tìm kiếm các nhóm học sinh yếu dựa
trên số liệu điểm tốt nghiệp. Ngoài ra còn một số nghiên cứu khác cũng nhằm mục
đích dự báo những học sinh yếu [17] .Trong một nghiên cứu khác dùng kỹ thuật cây
quyết định để khai thác dữ liệu nhằm hỗ trợ sinh viên trong việc ghi danh các khóa
học. Trong một bài báo khác năm 2010, cũng khai thác các thuộc tính tuyển sinh để
dự báo khả năng học tập của sinh viên [9].


16

Nhìn chung, các nghiên cứu về EDM có thể phân chia theo hai hƣớng tiếp
cận. Thứ nhất, EDM ứng dụng trong dự báo và đánh giá khả năng ngƣời học. Thứ
hai, EDM ứng dụng trong phân tích hành vi ngƣời học.
1.2.1. EDM ứng dụng trong dự báo và đánh giá khả năng của ngƣời học.
Hiện nay đã có nhiều ứng dụng khai thác dữ liệu trong giáo dục đóng vai trò
quan trọng trong việc phát triển hệ thống giáo dục:
Theo tài liệu [18], EDM đƣợc ứng dụng chủ yếu trong các hệ thống quản trị
học tập (Learning Managerment Systems - LMS) và hệ thống tài liệu thông minh
(Intelligent tutoriol system- ITS)
Hệ thống LMS tiêu biểu nhất là Moodle. Thông qua hoạt động học của sinh
viên trên hệ thống Moodle, Jovanovica và cộng sự đã xây dựng mô hình phân loại
ứng dụng dựa trên kỹ thuật phân cụm để dự đoán kết quả học của sinh viên [18]. Hệ
thống này đã đƣợc thiết kế trên Moodle để trích xuất dữ liệu cần thiết một cách tự

động. Kết quả đã giúp ích cho hoạt động dạy của giảng viên. Một nghiên cứu khác
của Falakmusic và jafar cũng cho thấy lợi ích của khai thác dữ liệu khi dùng cây
quyết định để khai thác hồ sơ truy cập Moodle của sinh viên[18]. Kết quả là có thể
xác định và xếp hạng chính xác kết quả thi cuối kỳ của sinh viên thông qua việc
tham gia các lớp trên Moodle. Romero và cộng sự cũng đã thực hiện nhiều thử
nghiệm khai thác dữ liệu của hệ thống e-learning để dự đoán điểm cuối khóa của
sinh viên, đồng thời cũng xác định đƣợc nhiều ứng dụng phân loại trong môi trƣờng
giáo dục nhƣ: phát hiện các nhóm sinh viên có cùng đặc trƣng, xác định nhóm
ngƣời học có động cơ thấp để đề xuất hƣớng khắc phục, dự đoán và phân loại nhóm
sinh viên có sử dụng hệ thống tài liệu thông minh. Song song với việc dự đoán kết
quả học của ngƣời học qua việc truy cập thƣờng xuyên trên hệ thống học Moodle
còn giúp ngƣời hƣớng dẫn phát hiện những truy cập không thƣờng xuyên của sinh
viên.
Các nghiên cứu của EDM đã sử dụng nhiều kỹ thuật (phân tích nhân tố và
hồi quy logictic, cây quyết định, máy hỗ trợ vector (SVM), mạng Bayes) để xây


17

dựng mô hình khai thác dữ liệu có thể giúp dự đoán kết quả sinh viên. Song song
với việc dự đoán là phân tích kết quả học tập để tìm ra những yếu tố ảnh hƣởng và
đƣa ra những hành động khắc phục trong các cơ sở giáo dục đại học.
Nghiên cứu về ITS, Dominguez và cộng sự đã tạo một hệ thống tiếp nhận
thông tin phản hồi của sinh viên và theo dõi việc sinh viên chia sẽ những tài liệu
học, họ phát hiện ra rằng những sinh viên tham gia vào hệ thống và thời gian lƣu lại
lâu hơn có kết quả tốt hơn đáng kễ so với những ngƣời không tham gia[2].
Gorissen và cộng sự đã phân tích tƣơng tác của sinh viên với các bài giảng
đƣợc ghi bằng các kỹ thuật khai thác dữ liệu giáo dục. Cho thấy sự khác biệt cũng
nhƣ sự tƣơng đồng giữa các báo cáo bằng lời nói của học sinh và thực tế cách sử
dụng nhƣ đăng nhập bằng các máy chủ bài giảng ghi lại. Dữ liệu cho thấy rằng

những sinh viên này có kết quả thi tốt hơn [14].
1.2.2. EDM ứng dụng trong phân tích hành vi ngƣời học.
Xác định đƣợc hành vi và thái độ của ngƣời học là một yếu tố quan trọng
trong việc cải tiến phƣơng pháp giảng dạy. Trong một số nghiên cứu về phân tích
hành vi ngƣời học [18], đa số sử dụng các kỹ thuật phân lớp và gom cụm để thực
hiện các mục tiêu nhƣ: phân tích việc sinh viên sử dụng tài liệu học tập của khóa
học, Phân tích hành vi của ngƣời học thông qua quá trình làm bài tập,.. phân tích
hành vi nên đƣợc thực hiện trong thời gian thực để cung cấp thông tin phản hồi kịp
thời cho giáo viên cũng nhƣ ngƣời học để nâng cao việc theo dõi và dạy kèm cho
sinh viên. Những nghiên cứu dựa trên hành vi ngƣời học góp phần không nhỏ trong
việc cải thiện môi trƣờng học tập.
Các công trình ngoài nƣớc đã đề cập nhiều đến các kỹ thuật ứng dụng trong
EDM nhƣ: classification, clustering, assosiation rule,…trong đó có ba kỹ thuật đƣợc
đánh giá cao là Máy vecto hỗ trợ SVM, cây quyết định và mạng nơ ron nhân tạo
ANN [17]. Do đó tác giả lựa chọn ba kỹ thuật này để tiến hành nghiên cứu là một
cách tiếp cận tốt và khả thi.


18

Trong nƣớc cũng có một số nghiên cứu áp dụng khai thác dữ liệu vào lĩnh
vực giáo dục chủ yếu là ứng dụng khai thác dữ liệu từ thông tin cá nhân của sinh
viên, kết hợp khai thác dữ liệu từ thông tin và kết quả tuyển sinh của sinh viên để
dự đoán kết quả học tập. Trong luận văn này, tác giả sẽ tiến hành khai thác dữ liệu
từ kết quả học của những sinh viên khóa trƣớc. Từ đó, đƣa ra những dự báo kết quả
cho sinh viên đang học. Ngoài ra, còn phục vụ cho mục đích tƣ vấn của cố vấn học
tập đối với lớp học nhằm tăng cƣờng vai trò của ngƣời cố vấn trong các hoạt động
đào tạo.
1.3. Các vấn đề luận văn cần nghiên cứu
Trên cơ sở nhu cầu cần một công cụ tƣ vấn cấp thiết tại Trƣờng Đại học

Công nghiệp Thực phẩm Tp. HCM, luận văn tiến hành tiếp cận nghiên cứu kỹ thuật
học có giám sát của ngành máy học. Cụ thể là SVM, DT và ANN từ đó lựa chọn
một kỹ thuật tối ƣu để áp dụng vào bài toán dự báo kết quả học tập. Do đó, luận văn
sẽ tập trung nghiên cứu những nội dung chính nhƣ sau:
Nghiên cứu giải thuật Máy vecto hỗ trợ (SVM) và các lĩnh vực ứng dụng.
Nghiên cứu giải thuật Cây quyết định (DT) và các lĩnh vực ứng dụng.
Nghiên cứu giải thuật Mạng nơ ron nhân tạo (ANN) và các lĩnh vực ứng
dụng.
Nghiên cứu bài toán khai thác dữ liệu trên kết quả học tập của ngƣời học
So sánh ƣu nhƣợc điểm của SVM, DT và ANN áp dụng cho bài toán dự đoán
kết quả học tập.
Đóng góp chính của luận văn gồm ba phần chính nhƣ sau:
Phân tích đánh giá và lựa chọn giải thuật phù hợp với bài toán đặt ra.
Đề xuất xây dựng mô hình cho bài toán khai thác dữ liệu trên kết quả học tập
của ngƣời học tại Trƣờng Đại học Công nghiệp Thực phẩm Tp. HCM.


19

Cài đặt chƣơng trình trực quan tƣ vấn cho sinh viên trong việc lựa chọn học
phần.
Nội dung của luận văn bao gồm 4 chƣơng:
Chƣơng 1- Tổng quan: trong chƣơng này luận văn khảo sát tổng quan về
khai thác dữ liệu trong giáo dục và các công trình liên quan. Dựa trên các nội dung
khảo sát, trong chƣơng này lần lƣợt phân tích các đặc điểm của các nghiên cứu đã
công bố từ đó đánh giá tính khả thi của đề tài luận văn cũng nhƣ định hƣớng nghiên
cứu cho luận văn. Trên cơ sở các định hƣớng nghiên cứu này, luận văn sẽ dần đi
vào cụ thể từng đối tƣợng dựa trên phƣơng pháp nghiên cứu lý thuyết.
Chƣơng 2- Cơ sở lý thuyết: Trong chƣơng này luận văn sẽ khảo sát tổng
quan về máy học, cụ thể là các thuật toán học có giám sát. Sau đó, phân tích các đặc

tính tổng quát của các giải thuật này cụ thể là ba giải thuật SVM, DT và ANN từ đó
đƣa ra sự phù hợp của việc giải bài toán dự báo kết quả học tập. Nội dung của
chƣơng này cũng sẽ phân tích các giải thuật học có giám sát và mô hình tổng quát
của bài toán dự báo. Trong chƣơng này, lần lƣợt giới thiệu các giải thuật SVM, DT
và giải thuật ANN.
Chƣơng 3- Cài đặt thực nghiệm: Trong chƣơng này luận văn trình bày mô tả
bài toán khai thác dữ liệu kết quả học tập của sinh viên Trƣờng Đại học Công
nghiệp Thực phẩm Tp. HCM, phân tích các tham số đầu vào và cài đặt thực nghiệm
trên giải thuật đã lựa chọn.
Chƣơng 4- Đánh giá, Kết luận và hƣớng phát triển: Trong chƣơng này, luận
văn đƣa ra đánh giá sau quá trình nghiên cứu. Trên căn cứ đánh giá này nêu ra các
kết luận về lý thuyết cũng nhƣ thực nghiệm cho giải thuật áp dụng cho bài toán đã
đặt ra. Bên cạnh đó, luận văn cũng nêu ra những mặt còn hạn chế và những định
hƣớng phát triển trong tƣơng lai.


20

1.4. Tổng kết chƣơng
Trong chƣơng này, luận văn đã nêu tổng quan cũng nhƣ nhu cầu cần thiết
phải giải quyết bài toán dự báo kết quả học tập để từ đó tƣ vấn cho sinh viên trong
vấn đề lựa chọn học phần. Bên cạnh đó, trong chƣơng này, luận văn cũng đã khảo
sát những công trình nghiên cứu gần đây, từ đó cho thấy vấn đề nghiên cứu của luận
văn khả thi và có nhiều cơ sở khoa học. Trên cơ sở này, luận văn đã xác định đƣợc
các đối tƣợng, mục tiêu và phạm vi nghiên cứu. Vì vậy, trong chƣơng này luận văn
đã định hƣớng nội dung các chƣơng cần nghiên cứu để giải quyết bài toán đặt ra
nhằm đóng góp một phần công sức trong quá trình thực nghiệm trong lĩnh vực khai
thác dữ liệu giáo dục.



21

CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
2.1. Tổng quan về học có giám sát (Supervised Learning)
2.1.1. Giới thiệu
Giải thuật học có giám sát là một nhánh trong ngành máy học (machine
learning) [11]. Một số kỹ thuật của giải thuật học có giám sát đƣợc ứng dụng hiệu
quả nhƣ: ANN, SVM, DT, NB, KNN…[21]. Các ứng dụng phổ biến của giải thuật
học có giám sát bao gồm các bài toán phân lớp hay dự báo nhƣ: bài toán dự báo giá
cổ phiếu trong lĩnh vực chứng khoán, bài toán dự báo rủi ro thƣơng mại, bài toán
phát hiện gian lận tín dụng, thực phẩm, y khoa, sinh học …[11]. Trong chƣơng này,
luận văn sẽ tiếp cận các khái niệm tổng quan về giải thuật học có giám sát, từ đó
phân tích cách giải thuật nhƣ mạng ANN, SVM và DT. Dựa trên các phân tích này,
luận văn chọn lựa giải thuật phù hợp cho bài toán dự báo kết quả học tập của sinh
viên.
2.1.2. Tổng quan về giải thuật học có giám sát
Giải thuật học có giám sát thƣờng giải quyết dƣới dạng các bài toán phân lớp
và dự báo. Trong bài toán này thực hiện cực tiểu hóa rủi ro có cấu trúc (Structural
Risk Minimization- SRM) [19].Theo nhƣ tài liệu [11], giải thuật có giám sát là kỹ
thuật học dựa trên dữ liệu đã đƣợc gán nhãn (training set), thông qua quá trình học
từ bộ dữ liệu này thực hiện gán nhãn cho tập dữ liệu mới (test set) có cùng đặc
trƣng so với mẫu dữ liệu cũ. Máy học đã đƣợc ứng dụng rộng rãi trên hầu hết các
lĩnh vực, sự đóng góp của các giải thuật học có giám sát đã giúp ích cho vấn đề
phân lớp và dự báo trên các dữ liệu có kích thƣớc lớn.
Một số giải thuật học có giám sát bao gồm các kỹ thuật phân lớp sau: giải
thuật mạng nơron nhân tạo ANN, SVM, giải thuật cây quyết định DT, giải thuật
NB, giải thuật KNN.
Theo nhƣ tài liệu [11], học có giám sát là một kỹ thuật của ngành máy học để
xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp đối



22

tƣợng đầu vào và đầu ra. Đầu vào thƣờng có dạng vector. Đầu ra của một hàm có
thể là một giá trị liên tục (gọi là hồi quy), hay có thể là dự đoán một nhãn phân lớp
cho một đối tƣợng đầu vào (gọi là phân lớp). Nhiệm vụ của chƣơng trình học có
giám sát là dự đoán giá trị của hàm cho một đối tƣợng bất kỳ là đầu vào hợp lệ, sau
khi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tƣơng
ứng). Để đạt đƣợc điều này, chƣơng trình học phải tổng quát hoá từ các dữ liệu sẵn
có để dự đoán những tình huống chƣa gặp phải một cách hợp lý. Để giải quyết một
bài toán nào đó của học có giám sát, phải xem xét nhiều bƣớc khác nhau:
(1) Để thực hiện phân lớp, trƣớc tiên phải chuẩn bị một tập dữ liệu huấn
luyện (training data set), để có tập dữ liệu huấn luyện phải thực hiện gán
nhãn cho dữ liệu ban đầu, đây đƣợc gọi là quá trình thu thập tập huấn
luyện.
(2) Lựa chọn một thuật toán phân lớp xây dựng bộ phân lớp để học tập dữ
liệu huấn luyện. Hay nói cách khác, dùng tập dữ liệu huấn luyện để huấn
luyện bộ phân lớp. Thuật ngữ học có giám sát đƣợc hiểu là học tập dữ
liệu đã đƣợc gán nhãn trƣớc (các dữ liệu kèm theo nhãn tƣơng ứng này
coi nhƣ đã đƣợc giám sát bởi ngƣời thực hiện gán nhãn).
(3) Sử dụng một tập dữ liệu kiểm tra (test set) đã đƣợc gán nhãn trƣớc, để
kiểm tra tính đúng đắn của bộ phân lớp. Sau đó, có thể dùng bộ phân lớp
để phân lớp cho các dữ liệu mới.
Tóm lại, giải thuật học có giám sát là các chiến lƣợc tìm kiếm không gian
của những giả thuyết có thể bằng cách sử dụng nhiều phƣơng pháp khác nhau. Theo
[11]có thể mô hình hoá một vấn đề học có giám sát nhƣ sau:
Giải thuật học có giám sát gồm tập dữ liệu huấn luyện M cặp

S  ( xi , c j ) i  1,..., M ; j  1,..., C
 Các cặp huấn luyện này gọi là mẫu, với xi là vector n-chiều còn gọi là vector

đặc trưng, c j là lớp thứ j đã biết trƣớc.


23

 Giải thuật học có giám sát tìm kiếm không gian của những giả thuyết có thể,
gọi là H. Đối với một hay nhiều giả thuyết mà ƣớc lƣợng tốt nhất hàm

f : x c
 Đối với việc phân lớp có thể xem giả thuyết nhƣ một tiêu chí phân lớp.
 Thuật toán máy học tìm ra những giả thuyết bằng cách khám phá ra những
đặc trƣng chung của những mẫu thể hiện cho mỗi lớp.
 Kết quả nhận đƣợc thƣờng ở dạng luật (Nếu…thì).
 Khi áp dụng những mẫu dữ liệu mới, cần dựa trên những giả thuyết đã có để
dự báo những phân lớp tƣơng ứng của chúng. Nếu nhƣ không gian giả thuyết
lớn, thì cần một tập dữ liệu huấn luyện đủ lớn nhằm tìm kiếm một hàm xấp
xỉ f tốt nhất.
Tùy vào mức độ của thuật toán học có giám sát, có những mô hình học giám
sát nhƣ sau [11]:
 Học vẹt (rote): hệ thống luôn đƣợc dạy những luật đúng, sau có học hội tụ
 Học bằng phép loại suy (analogy): hệ thống đƣợc dạy phản hồi đúng cho một
công việc tƣơng tự nhƣng không xác định. Vì thế, hệ thống phải hiệu chỉnh
phản hồi trƣớc đó bằng cách tạo ra một luật mới có thể áp dụng cho trƣờng
hợp mới.
 Học dựa trên trƣờng hợp (case- based learning): trong trƣờng hợp này, hệ
thống học lƣu trữ tất cả các trƣờng hợp cùng với kết quả đầu ra của chúng.
Khi bắt gặp một trƣờng hợp mới hệ thống sẽ cố gắng hiệu chỉnh trƣờng hợp
mới này đến cách xử lý đã đƣợc lƣu trữ trƣớc đó.
 Học dựa trên sự giải thích (explanation- based learning): hệ thống sẽ phân
tích tập hợp những giải pháp nhằm chỉ ra tại sao mỗi phƣơng pháp là thành

công hay không thành công. Sau khi tạo ra các giải thích, những giải thích
này sẽ đƣợc dùng để giải quyết các vấn đề mới.


×