Tải bản đầy đủ (.pdf) (81 trang)

Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.54 MB, 81 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ XUÂN LÂM

NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT
TRONG KHAI PHÁ DỮ LIỆU HỖ TRỢ HỌC TẬP
CHO SINH VIÊN

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2020


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ XUÂN LÂM

NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT
TRONG KHAI PHÁ DỮ LIỆU HỖ TRỢ HỌC TẬP
CHO SINH VIÊN

Ngành: Công nghệ Thông tin
Chuyên ngành: Quản lý Hệ thống Thông tin
Mã số: 8480205.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM

Hà Nội – 2020




LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS. Nguyễn Hà Nam, Trường
Đại học Công nghệ - Đại học Quốc gia Hà Nội, người thầy đã dành nhiều
thời gian tận tình chỉ bảo, hướng dẫn, giúp đỡ tơi trong suốt q trình tìm
hiểu, nghiên cứu. Thầy là người định hướng và đưa ra nhiều góp ý quý báu
trong q trình tơi thực hiện luận văn.
Tơi xin gửi lời cảm ơn chân thành tới các thầy, cô ở khoa Công nghệ thông
tin – Trường Đại học Công nghệ - ĐHQGHN đã trang bị những kiến thức và tạo
điều kiện thuận lợi cho tơi trong suốt q trình học tập tại trường.
Tơi cũng xin bày tỏ lịng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng
nghiệp đã cung cấp dữ liệu, tài liệu và cho tôi những lời khun q báu. Tơi xin
cảm ơn gia đình, người thân, bạn bè luôn động viên và tạo mọi điều kiện tốt nhất
cho tôi.
Tôi xin chân thành cảm ơn!

Hà Nội, tháng 9 năm 2020
Học viên

Lê Xuân Lâm

1


LỜI CAM ĐOAN
Tơi xin cam kết cơng trình nghiên cứu này là của tôi, được thực hiện dưới sự
hướng dẫn của PGS.TS. Nguyễn Hà Nam.
Các số liệu, kết quả được nêu trong luận văn là trung thực và chưa được ai
cơng bố ở bất cứ cơng trình nào khác.


Hà Nội, tháng 9 năm 2020
Học viên

Lê Xuân Lâm

ii


MỤC LỤC
LỜI CẢM ƠN ........................................................................................................ i
LỜI CAM ĐOAN ................................................................................................. ii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ........................................... v
LỜI MỞ ĐẦU ....................................................................................................... 1
Chương 1. Giới thiệu............................................................................................. 3
1.1.Quy trình quản lý đào tạo tại trường CĐ.ANND I ..................................... 3
1.2.Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường
CĐ.ANND I ....................................................................................................... 6
1.3.Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục ................ 8
1.4.Hướng tiếp cận của luận văn ....................................................................... 9
1.5.Kết luận chương 1 ..................................................................................... 10
Chương 2. Cơ sở lý thuyết .................................................................................. 11
2.1.Khai phá dữ liệu ........................................................................................ 11
2.1.1. Khái niệm .......................................................................................... 11
2.1.2. Những hướng tiếp cận trong KPDL .................................................. 12
2.1.3. Các bước xây dựng một giải pháp về KPDL .................................... 13
2.1.4. Các lĩnh vực ứng dụng của KPDL .................................................... 13
2.2.Một số kỹ thuật KPDL trong phân lớp, dự đoán ...................................... 15
2.2.1. Cây quyết định .................................................................................. 15
2.2.2. Phân lớp Naïve Bayes ....................................................................... 16

2.2.3. Luật kết hợp ...................................................................................... 17
2.2.4 Hồi quy tuyến tính.............................................................................. 19
2.2.5 Mạng nơ-ron nhân tạo ........................................................................ 21
2.3.KPDL với MS SQL Server ....................................................................... 23
2.3.1. Giới thiệu chung ................................................................................ 23
2.3.2. Data Mining eXtensions.................................................................... 25
2.3.3. Bộ công cụ SQL Server Data Tool – Business Intelligence ............. 29
2.3.4. Lập trình KPDL với ADODE.NET .................................................. 30
iii


2.3.5. Đánh giá tính hiệu quả các mơ hình KPDL trong SSDT-BI ............ 31
2.4.Kết luận chương 2 ..................................................................................... 32
Chương 3. Giải quyết bài toán ............................................................................ 33
3.1.Phát biểu bài toán ...................................................................................... 33
3.2.Mô tả một số giải thuật sử dụng trong bài toán 1 và bài toán 2 ................ 33
3.2.1. Thuật toán Apriori ............................................................................. 33
3.2.2. Thuật toán C4.5 ................................................................................. 35
3.2.3. Thuật toán hồi quy tuyến tính của Microsoft .................................... 36
3.2.4. Thuật tốn Back propagation ............................................................ 38
3.3.Xây dựng CSDL ........................................................................................ 39
3.4.Xây dựng mô hình KPDL ......................................................................... 43
3.5.Lập trình KPDL với ADOMD.NET ......................................................... 55
3.6.Đánh giá mơ hình ...................................................................................... 57
3.6.1 Đánh giá mơ hình với Lift Chart ........................................................ 57
3.6.2 Đánh giá mơ hình với Classification Matrix...................................... 63
3.7.Xây dựng ứng dụng hỗ trợ tư vấn học tập ................................................ 64
3.8.Kết luận chương 3 ..................................................................................... 69
KẾT LUẬN ......................................................................................................... 70
HƯỚNG PHÁT TRIỂN ...................................................................................... 70

TÀI LIỆU THAM KHẢO ................................................................................... 71

iv


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Chữ viết tắt

Ý nghĩa

CĐ.ANND I

Cao đẳng An ninh nhân dân I

CSDL

Cơ sở dữ liệu

DMX

Data Mining eXtensions

DMM

Data Mining Model

KPDL

Khai phá dữ liệu


MS
SSDT-BI
QLĐT

Microsoft
SQL Server Data Tool - Bussiness Intelligence
Quản lý Đào tạo

v


DANH MỤC CÁC BẢNG
Bảng 2.1: Lựa chọn các thuật toán KPDL theo mục đích .................................. 24
Bảng 2.2: Bảng danh sách thư viên API Analysis Services................................ 30
Bảng 3.1: Bảng quy đổi thang điểm .................................................................... 40
Bảng 3.2: Thông tin dữ liệu cho bài toán 1 ......................................................... 41
Bảng 3.3: Bảng giá trị Mining Legend................................................................ 59
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Q trình của khai thác tri thức........................................................... 11
Hình 2.1: Cấu trúc của cây quyết định ................................................................ 15
Hình 2.2: Cây quyết định dự báo khả năng khách hàng ..................................... 16
Hình 2.3: Biểu đồ hồi quy tuyến tính đơn ........................................................... 20
Hình 2.4: Mơ hình nơ-ron đơn lẻ ........................................................................ 21
Hình 2.5: Mơ hình mạng nơ-ron đa tầng............................................................. 21
Hình 2.6: Mạng nơ-ron trong MS Neural Network ............................................ 22
Hình 2.7: Kiến trúc tổng quan KPDL với MS SQL Server ................................ 23
Hình 2.8: Biểu đồ đánh giá Lift Chart................................................................. 31
Hình 2.9: Đánh giá mơ hình với Classification Matrix....................................... 32
Hình 3.1: Danh sách kết quả các luật .................................................................. 34

Hình 3.2: Kết quả mơ hình cây quyết định ......................................................... 36
Hình 3.3: Kết quả mơ hình hồi quy tuyến tính.................................................... 37
Hình 3.4: Dạng tổng quát của mạng nơ-ron truyền thẳng nhiều lớp .................. 38
Hình 3.5: Lược đồ CSDL quan hệ ...................................................................... 41
Hình 3.6: Bộ dữ liệu sử dụng cho bài tốn số 1 .................................................. 42
Hình 3.7: Sơ đồ liên quan đến dữ liệu điểm ....................................................... 43
Hình 3.8: Danh sách điểm của các học viên ....................................................... 43
Hình 3.9: Tạo một dự án Data mining ................................................................ 44
Hình 3.10: Tạo Data Source ................................................................................ 44
Hình 3.11: Tạo Data Source View ...................................................................... 45
Hình 3.12: Lựa chọn Mining model structure..................................................... 45
Hình 3.13: Thiết lập thuộc tính cho dự báo ........................................................ 46
Hình 3.14: Xác định kiểu dữ liệu các thuộc tính cho dự báo .............................. 46
Hình 3.15: Thiết lập dataset với training và testing ............................................ 47
Hình 3.16: Một Mining Structure và Mining Model được tạo ........................... 47
Hình 3.17: Thêm mới một Mining Model .......................................................... 48
Hình 3.18: Tạo 04 mơ hình cho một Mining Structure....................................... 49
vi


Hình 3.19: Kết quả viewer mơ hình Cây quyết định .......................................... 49
Hình 3.20: Kết quả viewer mơ hình Luật kết hợp............................................... 50
Hình 3.21: Kết quả viewer mơ hình Nạve Bayes............................................... 50
Hình 3.22: Kết quả viewer mơ hình mạng nơ-ron nhân tạo ............................... 51
Hình 3.23: Biểu đồ Lift Chart cho 04 mơ hình ................................................... 51
Hình 3.24: Kết quả Classification Matrix của 04 mơ hình ................................. 52
Hình 3.25: Thiết kế truy vấn Singleton Query DMX với mơ hình ..................... 53
Hình 3.26: Kết quả truy vấn Singleton Query với mơ hình ................................ 53
Hình 3.27: Tạo 3 mơ hình cho bài tốn 2............................................................ 54
Hình 3.28: Biểu đồ Lift chart cho 3 mơ hình ...................................................... 54

Hình 3.29: Sử dụng ADMOD.NET trong C# ..................................................... 55
Hình 3.30: Lựa chọn Lift Chart với thuộc tính dự báo xác định ........................ 57
Hình 3.31: Kết quả Lift Chart với ĐTBKY2 = “K” cho 04 mơ hình ................. 58
Hình 3.32: Lift Chart cho tất cả các trường hợp của thuộc tính dự đốn ........... 60
Hình 3.33: Biểu đồ Lift Chart tất cả trường hợp của thuộc tính dự đốn ........... 60
Hình 3.34: Mạng phụ thuộc mơ hình CayQĐ ..................................................... 61
Hình 3.35: Mạng phụ thuộc mơ hình CayQĐ ..................................................... 62
Hình 3.36: Biểu đồ phân tán đánh giá 3 mơ hình ............................................... 62
Hình 3.37: Đánh giá 3 mơ hình với Classifications Matrix ................................ 64
Hình 3.38: Sơ đồ hoạt động hệ thống.................................................................. 65
Hình 3.39: Giao diện chính của hệ thống............................................................ 66
Hình 3.40: Kết quả Ví dụ 1 ................................................................................. 67
Hình 3.41: Kết quả Ví dụ 2 ................................................................................. 67
Hình 3.42: Kết quả ví dụ 3 .................................................................................. 68

vii


LỜI MỞ ĐẦU
Trong những năm gần đây, việc ứng dụng các kỹ thuật khai phá dữ liệu và
phát hiện tri thức trong các lĩnh vực giáo dục, tài chính, ngân hàng, xây dựng…rất
được quan tâm nghiên cứu. Đối với giáo dục, đào tạo sinh viên trong các trường
Đại học, Cao đẳng theo hình thức đào tạo tín chỉ địi hỏi học viên phải có sự chủ
động cao. Sinh viên trong quá trình học tập phải tự mình lựa chọn, phân bổ các
mơn học cho từng kỳ sao cho tích lũy đủ số tín chỉ theo quy chế đào tạo, Sinh viên
hồn tồn có thể ra trường sớm hoặc đúng hạn. Qua quá trình dạy học tại trường
Cao đẳng An ninh nhân dân I, tôi nhận thấy tỉ lệ học viên học tập tại trường đạt
kết quả chưa cao. Nguyên nhân là do các em mới bước chân từ môi trường giáo
dục THPT vào mơi trường Đại học, Cao đẳng cịn nhiều bỡ ngỡ, khó khăn trong
việc định hướng học tập, làm ảnh hưởng tới kết quả học tập của bản thân cũng

như đối với nhà trường. Chúng ta có thể áp dụng lĩnh vực khai phá dữ liệu và phát
hiện tri thức để giải quyết vấn đề trên, nhằm hỗ trợ cho học viên có những định
hướng trong việc lựa chọn, xây dựng thời khóa biểu phù hợp bản thân mang lại
đạt kết quả cao trong quá trình học tập tại trường.
Từ cơ sở thực tiễn đó, tơi đã chọn đề tài: “Nghiên cứu ứng dụng các kỹ
thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên”. Mục đích của đề
tài này là đi sâu tìm hiểu việc phân tích dữ liệu thơng tin cá nhân của sinh viên,
kết hợp với kết quả học tập thực tế trong các kỳ nhằm hỗ trợ sinh viên lựa chọn
môn học phù hợp, đạt được kết quả cao nhất.
Nội dung trình bày luận văn “Nghiên cứu ứng dụng các kỹ thuật trong
khai phá dữ liệu hỗ trợ học tập cho học viên” được bố cục gồm 3 chương:
Chương 1: Giới thiệu
Chương này trình bày về hiện trạng cơng tác quản lý đào tạo của trường
CĐ.ANND I, các đối tượng, phạm vi và hướng nghiên cứu của luận văn.
Chương 2: Cơ sở lý thuyết
Chương này trình bày cơ sở về khai phá dữ liệu và phát hiện tri thức, các
kỹ thuật khai phá dữ liệu Cây quyết định, Luật kết hợp, Hồi quy tuyến tính, Neural
Networks và Nạve Bayes, Cơng cụ SSDT-BI của SQL Server 2012.
Chương 3: Giải quyết bài tốn
Mơ tả, xây dựng bài toán dự đoán kết quả học tập cuối kỳ cho học viên, bài
toán dự đoán kết quả của một môn học sắp tới. Tổng hợp và xử lý các dữ liệu liên
1


quan dùng cho phát triển hệ thống. Xây dựng một số mơ hình: Hồi quy tuyến tính,
Luật kết hợp, Neural Networks, Cây quyết định, Naïve Bayes và đưa ra đánh giá
các mơ hình tương ứng
Xây dựng cơ sở dữ liệu quản lý học viên và chuyển cơ sở dữ liệu thành kho
dữ liệu. Sau đó tiến hành phân tích báo cáo và xây dựng mơ hình dựa trên cơng
cụ Business Intelligence của SQL Server 2012, đánh giá các mơ hình.

Xây dựng ứng dụng thực nghiệm tư vấn cho học viên, dựa trên mơ hình
đánh giá cho kết quả tốt nhất.

2


Chương 1. Giới thiệu
1.1. Quy trình quản lý đào tạo tại trường CĐ.ANND I
Quy trình nghiệp vụ quản lý đào tạo cho hệ Cao đẳng tại trường CĐ.ANND
I được tổ chức thực hiện theo Quyết định số 17/VBHN-BGDĐT, ngày 15 tháng
5 năm 2014 của Bộ trưởng Bộ giáo dục và Đào tạo ban hành Quy chế đào tạo đại
học và cao đẳng hệ chính quy theo hệ thống tín chỉ; Hướng dẫn số 11792/HDX11-X14 của Tổng cục Chính trị Cơng an nhân dân hướng dẫn thực hiện quy chế
đào tạo đại học, cao đẳng theo tín chỉ; Quyết định số 499/QĐ-T33(P5), ngày 27
tháng 5 năm 2016 của Hiệu trưởng Trường Cao đẳng An ninh nhân dân I ban hành
Quy định đào tạo cao đẳng hệ chính quy theo hệ thống tín chỉ. Lưu đồ sau được
xây dựng quy định trách nhiệm, phương pháp tổ chức thực hiện và quản lý việc
giảng dạy của Phòng Quản lý Đào tạo, các Khoa, Bộ mơn và các Phịng chức năng
khác liên quan.
Bước

1

Cơng đoạn

Hồ sơ

Kết quả tuyển sinh

Quyết định và danh sách thí sinh
trúng tuyển các khóa.

Quyết định thành lập khố học.

Thành lập khố học

2

Đề cương mơn học

3

Lập khung thời gian khố học

4

Xem xét/ điều chỉnh

Lịch giảng dạy
C
ó

Lịch giảng dạy chi tiết

Lập Thời khố K
biểu chi tiết

5

hông

Thực hiện công tác giảng dạy


6

7

Quản lý
nội dung
giảng dạy

Quản lý tổ
chức
giảng dạy

Quản lý
tiến
độ
khoá học

3

Phiếu báo giảng dạy
Sổ đầu bài


Đề thi

Quản lý đánh giá kết quả giảng dạy

8


Bài thi
Kết quả thi
Bảng điểm

Quản lý kết quả học tập

Mạng nội bộ

9

11

Quy chế xét và cấp bằng tốt nghiệp

Xét tốt nghiệp

10

Báo cáo tổng hợp tình hình giảng
dạy

Cập nhật & lưu giữ hồ sơ

Mô tả lưu đồ:
- Bước 1: Hàng năm, căn cứ vào chỉ tiêu tuyển sinh do Bộ Công an phê
quyệt, nhà trường thực hiện công tác tuyển sinh, họp xét điểm chuẩn, lập quyết
định và danh sách thí sinh trúng tuyển;
- Bước 2: Căn cứ danh sách thí sinh trúng tuyển, phịng QLĐT tiến hành
phân lớp, phân cơng cán bộ quản lý đào tạo theo Quyết định thành lập từng khóa
học;

- Bước 3: Hàng năm, căn cứ vào chương trình đào tạo và tiến độ đào tạo
của các khóa học, phòng QLĐT lập kế hoạch giảng dạy dự kiến của cả năm học;
- Bước 4: Kế hoạch giảng dạy dự kiến được cán bộ phịng QLĐT bố trí lịch
giảng cụ thể cho từng mơn học. Sau đó chuyển đến các khoa đào tạo để phân công
giảng viên và đề nghị điều chỉnh lịch (nếu có);
- Bước 5: Căn cứ kế hoạch lịch giảng của năm học, cán bộ quản lý tiến
hành lập lịch giảng chi tiết cho các khóa (thực hiện cho cả năm học) kèm với phiếu
báo lịch giảng cho từng môn học;
- Bước 6: Giảng viên thực hiện theo các lịch giảng chi tiết;
- Bước 7: Quản lí q trình giảng dạy
Phân cấp trách nhiệm quản lí q trình giảng dạy
+ Trưởng Khoa, Bộ mơn
✓ Phân cơng giảng viên phụ trách các học phần và báo về phòng
QLĐT;
4


✓ Kiểm tra giáo trình, giáo án của các giảng viên, tổ chức kiểm tra việc
thực hiện lịch trình giảng dạy, chất lượng giảng dạy và công tác phục
vụ giảng dạy;
✓ Nắm khối lượng và tình hình giảng dạy của giảng viên, học tập của
sinh viên thông qua Giáo vụ khoa, bộ môn.
✓ Chịu trách nhiệm về chất lượng giảng dạy của Khoa, Bộ môn;
✓ Tổ chức sinh hoạt bộ môn theo đúng quy chế của Trường;
+ Giáo vụ khoa, bộ mơn
✓ Cập nhật thời khố biểu, lịch trình, lịch thi;
✓ Theo dõi việc thực hiện công tác giảng dạy và học tập của giảng viên
và sinh viên trong Khoa;
✓ Quản lý điểm;
+ Chuyên viên Phòng QLĐT

✓ Trực kiểm tra việc thực hiện giờ lên lớp theo kế hoạch giảng dạy của
năm học;
✓ Kiểm tra tiến độ giảng dạy theo lịch trình giảng dạy và quản lý sổ
theo dõi giảng dạy. Căn cứ vào việc thực hiện giờ lên lớp, thống kê
số giờ còn thiếu và yêu cầu dạy bù đủ số tiết;
✓ Tổng hợp (1 tháng /1lần) các trường hợp sai phạm và các trường hợp
phát sinh: vắng tiết, quên giờ, bỏ giờ,.... lập báo cáo gửi về phòng
Quản lý học viên.
+ Chun viên Phịng thanh tra: Có trách nhiệm kiểm tra:
✓ Việc thực hiện giờ lên lớp theo quy định chung;
✓ Tiến độ giảng dạy theo lịch trình giảng dạy;
✓ Việc ghi chép, sử dụng theo biểu mẫu, sổ sách và quản lý giờ giảng.
+ Ban Giám hiệu
✓ Là cấp có thẩm quyền quyết định hình thức kỷ luật khi có các giảng
viên vi phạm. Trong trường hợp nghiêm trọng, Hiệu trưởng - Chủ
tịch Hội đồng khen thưởng, kỷ luật Trường sẽ triệu tập họp để xét
khen thưởng hoặc kỷ luật các đơn vị và cá nhân liên quan.
Quản lí nội dung giảng dạy
Căn cứ vào phân cơng trách nhiệm, quản lý nội dung giảng dạy gồm:
+ Quản lý khung chương trình.
5


+ Quản lý đề cương chi tiết của các học phần.
+ Quản lý giáo trình, giáo án.
+ Đảm bảo số giáo trình, tài liệu tham khảo của các mơn học.
+ Bổ sung, cập nhật các thay đổi về chương trình giảng dạy sau khi đã có
sự thống nhất của Hội đồng khoa học Khoa hoặc Hội đồng khoa học Trường
Quản lý tiến độ giảng dạy
Căn cứ vào phân công trách nhiệm, nội dung quản lý tiến độ gồm:

+ Tại các lớp học lý thuyết, việc thực hiện giờ giảng cho từng môn học
được ghi chép vào Sổ theo dõi giảng dạy và học tập.
+ Quản lý danh sách giảng viên báo nghỉ dạy và kiểm tra việc thực hiện
dạy bù.
+ Phòng QLĐT căn cứ vào theo dõi thực hiện thời khố biểu sẽ thống kê
số giờ cịn thiếu và u cầu giảng viên dạy bù đủ số tiết.
- Bước 8: Phịng Khảo thí đảm bảo chất lượng thực hiện việc tổ chức thi
hết học phần cho các khóa, thực hiện việc chuyển đề thi và nhận bài thi (theo quy
trình phối hợp), tổ chức chấm thi và chuyển điểm về phòng QLĐT theo thời gian
quy định;
- Bước 9: Khi nhận bảng điểm từ phịng Khảo thí đảm bảo chất lượng,
phịng QLĐT photo 2 bản: 1 bản chuyển các khoa, bộ môn, 1 bản chuyển công bố
cho SV. Tổ điểm gốc tiến hành nhập điểm vào hệ thống mạng nội bộ;
- Bước 10: Căn cứ tiến độ đào tạo của từng khóa học và quy chế đào tạo,
phịng QLĐT tiến hành xét chuyển giai đoạn, xét điều kiện dự thi tốt nghiệp và
xét tốt nghiệp cho học viên. Sau khi được Hội đồng họp xét thông qua, kết quả
xét được công bố cho học viên và phòng QLĐT thực hiện các bước tiếp theo của
khóa học;
- Bước 11: Cập nhật và lưu trữ hồ sơ.
1.2.Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường
CĐ.ANND I
Trường Cao đẳng An ninh nhân dân I là trường thuộc Bộ Công an có nhiệm
vụ đào tạo, huấn luyện chiến sĩ có trình độ cao, phẩm chất chính trị vững vàng,
đáp ứng nhu cầu nhân lực cho lực lượng vũ trang Công an nhân dân Việt Nam.
Về ngành, nghề đào tạo: Trong hơn 50 năm xây dựng và phát triền, nhà
6


trường đã xây dựng và đào tạo 3 chuyên ngành đào tạo cao đẳng chính quy, 4
chuyên ngành đạo tạo Trung cấp chuyên nghiệp và nhiều chương trình đào tạo

ngắn hạn khác.
Các lĩnh vực đào tạo: An ninh, Ngoại tuyến, Cảnh vệ
Nhiệm vụ đặt ra đối với trường CĐ.ANND I hiện nay là làm sao nâng cao
được chất lượng học tập của học viên trong trường, đáp ứng được nhu cầu đào tạo
trước tình hình mới là điểm trọng tâm hàng đầu được nhà trường quan tâm.
Trường CĐ.ANND I đã triển khai đào tạo tín chỉ từ năm 2013-2018. Qua
thực hiện triển khai mơ hình giảng dạy theo tín chỉ tại Trường có rất nhiều vấn đề
bất cập cần sửa đổi theo đúng nghĩa của mơ hình đào tạo theo tín chỉ, cụ thể như:
- Chưa đáp ứng được yêu cầu đăng ký học tập của học viên (như phần mềm
hỗ trợ đăng ký, theo dõi lịch học…)
- Quản lý dữ liệu về học viên chủ yếu cịn thủ cơng bằng Excel gặp nhiều
khó khăn.
- Chưa tổ chức cho học viên đăng ký theo khối lượng học tập, rút bớt học
phần đăng ký mà học viên được học theo các học phần Nhà trường bố trí và lựa
chọn.
- Việc tổ chức cho học viên học cùng lúc hai chương trình chưa được thực
hiện do quy định của ngành Công an hiện nay.
Chính vì vậy nhu cầu tư vấn học tập của học viên thực sự khơng nhiều, ít
thường xun, chủ yếu tập trung trong thời điểm đầu khóa mới nhập học. Vai trò
của đội ngũ cố vấn học tập cũng chưa thể hiện nhiều trong suốt quá trình đạo tạo.
Thực tế tại các trường Đại học, Cao đẳng ở Việt Nam hiện nay, việc học
viên tự chủ động đăng ký lựa chọn mơn học phù cho bản thân cịn chưa hiệu quả,
chưa tận dụng được ưu điểm của việc học theo tín chỉ, chưa xây dựng được lộ
trình học tập phù hợp với từng sinh viên. Nhằm giúp phần hỗ trợ cho học viên lựa
chọn được những môn học phù hợp với năng lực, đảm bảo hồn thành khóa học
sớm hoặc đúng hạn thì rất cần tới sự trợ giúp của giáo viên cố vấn. Tuy nhiên,
ngoài những kinh nghiệm của bản thân mình thì giáo viên cố vấn sẽ phải tra kết
quả học tập của mỗi học viên để trợ giúp tùy theo năng lực cá nhân của mỗi em,
điều đó khá tốn thời gian và mất nhiều cơng sức. Việc dự đốn kết quả mơn học
sắp tới của học viên dựa trên các thông tin về những môn học đã học và kết quả

của mơn đó sẽ giúp cho học viên có thể đánh giá được năng lực của mình để có
7


kế hoạch học tập phù hợp, đồng thời giúp cho cố vấn học tập cảnh báo sớm tới
các học viên đạt kết quả thấp là một việc làm hết sức thiết thực.
Xuất phát từ những điểm nêu trên tác giả đề xuất 2 bài toán dự đoán kết quả học
tập của học viên như sau:
Bài toán 1: Dựa vào các thơng tin nhân khẩu học: Giới tính, điểm thi đầu
vào…và điểm trung bình của học kỳ trước đó nhằm dự đốn điểm trung bình kỳ
tới của học viên.
Bài tốn 2: Dựa vào kết quả các môn học đã học của học viên, dự đốn kết
quả đạt được của mơn học sắp tới.
1.3.Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục
Khai phá dữ liệu cho giáo dục ngày càng được các nhà nghiên cứu trên toàn
thế giới quan tâm. Sự quan tâm đến việc phát triển các kỹ thuật để phân tích dữ
liệu được tạo ra trong môi trường giáo dục được thể hiện bằng hàng loạt các hội
thảo Education Data Mining. Năm 2008, một nhóm các nhà nghiên cứu đã thành
lập hội nghị nghiên cứu quốc tế thường niên về Education Data Mining, hội nghị
đầu tiên diễn ra tại Montreal, Quebec, Canada. Rất nhiều các cơng trình, bài báo
về Education Data Mining được xuất bản tại hội nghị International Conference on
Educational Data Mining được tổ chức diễn ra hàng năm. Có thể liệt kê ra một số
cơng trình, bài báo về Educational Data Mining như:
Trong "Conceptual Framework of Data Mining Process in Management
Education in India: An Institutional Perspective" (Ranjan & Khalil, 2008) các tác
giả Ranjan J. và Khalil S. đã sử dụng cây quyết định và mạng Bayes để hỗ trợ quá
trình nhập học, phân tích chất lượng của q trình giáo dục và kết quả học tập của
học sinh ở Ấn Độ. "Data mining for adaptive learning sequence in English
language instruction" (Y. H. Wang, Tseng, & Liao, 2009) được phát triển bởi
Wang Y., Tseng M. và Liao H., đã sử dụng cây quyết định để đề xuất trình tự học

tối ưu nhằm tạo điều kiện cho quá trình học tập của học sinh và để tối đa hóa kết
quả học tập của họ. "Recommender system for predicting student performance"
(Thai-Nghe, Drumond, Krohn-Grimberghe, & Schmidt-Thieme, 2010) một bài
báo của các tác giả Thai-Nghe N., Drumond L., Krohn-Grimberghe A. và
Schmidt-Thieme L., đã đề xuất một cách tiếp cận để sử dụng các kỹ thuật khai
thác dữ liệu, đặc biệt là những kỹ thuật dự đoán kết quả hoạt động của học sinh.
"Mining log data for the analysis of learners' Behavior in web-based learning
management systems" (Psaromiligkos, Orfanidou, Kytagias, & Zafiri, 2011) trong
đó Psaromiligkos Y., Orfanidou., Kytagias C. và Zafiri E., đã sử dụng các quy tắc
8


kết hợp để cải thiện quy trình phản hồi liên tục trong suốt quá trình giáo dục.
"Application of data mining in academic educational databases for predicting
trends and patterns" (Parack, Zahid, & Merchant, 2012) Parack S. Merchant và
Zahid F. Z. đã sử dụng các quy tắc kết hợp và phân cụm để xác định hồ sơ của
sinh viên. "Improving the Student's Performance Using Educational Data
Mining" (Priya, 2013) đã sử dụng cây quyết định để cải thiện hiệu suất của học
sinh trong các khóa học. "Data Mining: A prediction for Student's Performance
Using Classification Method" (Badr, Din, & Elaraby, 2014) do Ahmed A. và
Elaraby I. phát triển, trong đó cây quyết định được sử dụng để dự đoán điểm của
học sinh cuối cấp. "Educational Data Mining: Performance Evaluation of
Decision Tree and Clustering Techniques using WEKA Platform" (Saxena, 2015)
được phát triển bởi Saxena R., bài báo này sử dụng công cụ WEKA để so sánh
hiệu suất của cây quyết định và kỹ thuật phân cụm trong dữ liệu từ lĩnh vực giáo
dục.
Có nhiều nghiên cứu điển hình trong đó các kỹ thuật khai thác dữ liệu được
áp dụng cho giáo dục, mỗi nghiên cứu sẽ tìm kiếm câu trả lời cho một tình huống
cụ thể trong Educational Data Mining. Việc tri thức được khai phá khơng chỉ
nhằm mục đích cho người khai phá sử dụng mà cịn nhắm tới cả người sử hữu

cũng có thể sử dụng. Do dó, việc ứng dụng khai phá dữ liệu trong giáo dục có thể
hướng tới nhiều tác nhân khác nhau dưới các góc nhìn như:
Hướng tới học viên: tư vấn, đề xuất kinh nghiệm học tập: chọn ngành học,
chọn mơn học, chọn lộ trình học…
Hướng tới giáo viên: tư vấn, đề xuất cho giáo viên các phương pháp dạy
học thích hợp dựa trên việc phân lớp các học viên thành những nhóm theo tùy
mức độ, đưa ra các điểm mâu thuẫn, bất thường trong lộ trình học của học viên,
liệt kê ra các hoạt động hiệu quả giúp giáo viên cải thiện, xây dựng lại nội dung
bài giảng của mình một cách hợp lý, đạt kết quả tốt hơn.
Hướng tới nhà quản lý: giúp nhà quản lý đưa ra các phân tích, đánh giá
chính xác về kết quả học tập của học viên qua đó đề ra các định hướng, hoạch
định trong: đầu tư bồi dưỡng giáo viên hàng năm, phát hiện các học viên giỏi để
bồi dưỡng, hoặc các học viên yếu trong diện cần nhắc nhở, có kế hoạch tăng giờ,
tăng số tiết v.v…
1.4. Hướng tiếp cận của luận văn
Luận văn trú trọng tới việc nghiên cứu về lý thuyết khai phá dữ liệu bằng
việc sử dụng công cụ khai phá dữ liệu SSDT-BI do Microsoft phát triển. Dữ liệu
9


được sử dụng để khai phá dữ liệu là điểm thực tế của học viên trường Cao đẳng
ANND I.
Để giải quyết bài toán về dự báo, dự đoán kết quả học tập của học viên luận
văn sử dụng một số thuật toán KDPL được hỗ trợ trong SQL Server.
Từ các mơ hình dự đốn, tác giả sẽ lựa chọn ra mơ hình dự đốn tốt nhất
và xây dựng chương trình thực nghiệm để hỗ trợ học tập cho học viên.
1.5.Kết luận chương 1
Chương này giới thiệu về bài toán thực tế tại Trường Cao đẳng ANND I,
những vấn đề đặt ra cần giải quyết đối với bài toán, một số hướng nghiên cứu của
KDPL trong giáo dục hiện nay và hướng tiếp cận của luận văn.


10


Chương 2. Cơ sở lý thuyết
2.1.Khai phá dữ liệu
2.1.1. Khái niệm
Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai
thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu
khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó
[1].
Hình 1.1 cho thấy khai phá dữ liệu là một bước trong quá trình KDD
(Knowledge Discovery in Database) và KDD được tiến hành qua 6 giai đoạn [3].

Hình 1.1: Quá trình của khai thác tri thức
1. Gom dữ liệu: là bước đầu tiên trong quá trình KPDL bằng việc thu thập
dữ liệu từ CSDL, kho dữ liệu hay là từ các Website.
2. Trích lọc dữ liệu: Dữ liệu được tuyển chọn hoặc phân chia theo một tiêu
chí nhất định dùng cho việc khai tác. Ví dụ: chọn ra cá học viên có điểm trung
bình học kỳ lớn hơn 7.0 và là người dân tộc thiểu số.
3. Làm sạch, tiền xử lý dữ liệu: Là việc xử lý loại bỏ những dữ liệu dư thừa,
thiếu logic dẫn tới kết quả bị sai lệch. Ví dụ: Điểm Trung bình = 11.5.
4. Chuyển đổi dữ liệu: Là đưa dữ liệu về dạng phù hợp, thuận tiện cho khai
phá bằng cách nhóm hoặc tập hợp. Ví dụ: Điểm TB học kỳ của học viên là biến
số, biến định lượng, nếu muốn đánh giá học lực của các học viên chúng ta phải
tạo cột dữ liệu mới với biến định danh có giá trị “Giỏi”, “Khá”, “Trung bình”, “
Kém”, “Yếu” được đặt ra bằng cách phân theo điều kiện của mức điểm trung bình.
11



5. Khai phá dữ liệu: Đây là bước thể hiện tư duy trong KPDL. Trong giai
đoạn này sử dụng các thuật tốn, phương pháp, các mơ hình phân tích khác nhau
như: Decision Tree, Classification, Association, Regression, …mục đích phát
hiện, trích xuất các thơng tin hữu ích, giá trị tiềm năng từ những mẫu dữ liệu, quy
luật và xu hướng dữ liệu.
6. Đánh giá luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu hay
thông tin thu được từ quá trình khai khác sẽ được đánh giá, xác định mức độ chính
xác bằng việc xây dựng các giả thuyết và tiến hành kiểm định, dựa trên mức độ
tin cậy và kết quả kiểm định để xem xét. Sau đó thể hiện kết quả bằng các cơng
cụ trực quan hóa, sử dụng đồ thị, bảng, biểu đồ để dễ dàng diễn giải kết quả đến
người xem.
2.1.2. Những hướng tiếp cận trong KPDL
Về cơ bản KPDL được chia theo một số hướng chính sau:
2.1.2.1 Mơ tả khái niệm:
Mục đích là đưa ra những đặc trưng, tính chất thuộc về khái niệm. Một số
dạng điển hình như: Tổng qt hóa, tóm tắt, phát hiện đặc trưng rằng buộc, tương
phản…
2.1.2.2 Luật kết hợp:
Bài toán khai phá luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh
doanh, y học, giáo dục, viễn thơng, tài chính, thị trường chứng khốn…
Phân tích luật kết hợp sẽ khám phá được các luật kết hợp giữa các thuộc
tính hay xuất hiện cùng nhau ở trong tập dữ liệu.
Ví dụ: “70% nam giới mua bia thì có tới 80% trong số đó sẽ mua thêm lạc”
2.1.2.3 Phân lớp và dự đoán
Là một dạng phổ biến thường gặp trong KPDL bằng việc sắp xếp một đối
tượng vào một lớp đã biết trước, ví dụ: “phân lớp vùng địa lý theo dữ liệu thời
tiết, phân lớp bệnh nhân theo dữ liệu hồ sơ bệnh án…”. Với hướng tiếp cận này
thường sử dụng một số kỹ thuật học máy như: cây quyết định, mạng nơ ron nhân
tạo...lớp bài toàn này cịn được gọi là học có giám sát (Supervised learning)
2.1.2.4 Phân cụm:

Phân cụm dữ liệu là bài toán gom các đối tượng dữ liệu vào thành từng
nhóm/ cụm sao cho các đối tượng trong cùng một cụm có sự tương đồng theo một
tiêu chí nào đó. Trong bài tốn phân cụm thì số lượng cũng như tên cụm chưa
12


được biết trước.
Các đối tượng sẽ được gom cụm với mức độ tương quan giữa các đối tượng
trong cùng một cụm là lớn nhất và mức độ tương quan giữa các đối tượng nằm
trong các cụm khắc nhau là nhỏ nhất. Bài tốn phân cụm thường được gọi là học
khơng giám sát (Unsupervised learning)
2.1.2.5 Phân tích chuỗi theo thời gian:
Giống như KPDL với luật kết hợp nhưng được kết hợp thêm tính thứ tự và
tính thời gian. Với luật mơ tả tuần tự có dạng tiêu biểu X → Y, phản ánh sự xuất
hiện của biến có X sẽ dẫn đến xuất hiện biến cố Y. Các lĩnh vực có tính chất dự
báo thường được ứng dụng theo hướng tiếp cận này như: lĩnh vực tài chính và thị
trường chứng khốn.
2.1.3. Các bước xây dựng một giải pháp về KPDL
Có thể liệt kê ra các bước của một hệ thống KPDL như sau:
- Bước 1: Xác định mục tiêu
- Bước 2: Tổng hợp dữ liệu.
- Bước 3: Làm sạch, chuyển đổi dữ liệu.
- Bước 4: Tạo mơ hình khai phá.
- Bước 5: Đánh giá mơ hình
- Bước 6: Báo cáo.
- Bước 7: Dự đốn.
- Bước 8: Tích hợp với ứng dụng
- Bước 9: Quản lý mơ hình
2.1.4. Các lĩnh vực ứng dụng của KPDL
Khai phá dữ liệu là lĩnh vực nhận được rất nhiều sự quan tâm của các nhà

nghiên cứu nhờ vào những ứng dụng thực hiện của nó trong đời sống. Dưới dây
là một số những ngành và lĩnh vực KPDL đem lại những lợi ích sau:
- Trong lĩnh vực tài chính, ngân hàng: Hỗ trợ xác định phân khúc khách
hàng hiệu quả, dự đoán khả năng vay và trả nợ các khoản tín dụng của từng khách
hàng, tự động phát hiện và ngăn chặn các giao dịch gian lận, tội phạm tài chính.
- Trong lĩnh vực y tế, chăm sóc sức khỏe: hỗ trợ kiểm sốt các loại dịch
bệnh thơng qua thu thập và phân tích dữ liệu về nhân khẩu học, hồ sơ bệnh nhân
13


tại các bệnh viện. Phát hiện các mồi quan hệ giữa những bệnh, triệu chứng bệnh,
với những phương pháp chữa trị. Dự đốn khả năng bệnh nhân có thể mắc các
bệnh gì dựa trên các yếu tố rủi ro.
- Trong lĩnh vực viên thông: Giúp phân khúc khách hàng theo nhiều yếu tố
khác nhau, giới thiệu, cung cấp các dịch vụ phù hợp với khách hàng. Xác định,
dự báo các yếu tố ảnh hưởng khiến khách hàng rời dịch vụ.
- Trong lĩnh vực Sales và Marketing: Giúp phát hiện ra các xu hướng, thơng
tin hữu ích, dự đốn được xu hướng tiêu dùng, xác định hành vi tiêu dùng của
khác hàng. Tìm ra sự phối hợp, sự kết hợp có liên quan giữa các sản phẩm với
nhau.
- Trong lĩnh vực E-commerce: Xây dựng hệ thống khuyến nghị sử dụng các
thuật tốn Data mining để phân tích hành vi khách hàng, dữ liệu lịch sử giao dịch
hay những tương tác của họ trên các website bán hàng, hay các trang mạng xã hội.
Ví dụ: tìm hiểu sản phẩm nào họ đang tìm kiếm và quan tâm nhất, những poster
quản cáo, chương trình khuyến mãi nào thu hút để họ nhấn vơ tìm hiểu.
Ngồi ra KPDL cịn hỗ trợ phân tích cảm xúc của khách hàng dựa vào phân
tích các nhận xét, các đoạn đối thoại với khác hàng trên mạng xã hội dưới hình
thức văn bản.
- Trong lĩnh vực bán lẻ: Bên cạnh phân tích dữ liệu khách hàng để phân
khúc khách hàng theo các nhóm có cùng sở thích, nhu cầu giúp triển khai các

chiến lược. KPDL còn giúp dự báo doanh số, lập các kế hoạch dự phòng hàng tồn
kho, kế hoạch phân phối hàng hóa hợp lý qua các hoạt động quản lý chuỗi cung
ứng bằng việc phân tích một khối lượng lớn dữ liệu từ dữ liệu về doanh số từng
mặt hàng qua từng thời kỳ, lịch sử giao dịch, mua hàng của khách hàng, dữ liệu
về quá trình vận chuyển sản phẩm, dữ liệu về lượng tiêu thụ sản phẩm.
- Trong lĩnh vực sinh học: KPDL hỗ trợ thu thập, lưu trữ và phân tích các
dữ liệu về di truyền học, dữ liệu trong nghiên cứu các căn bệnh, nghiên cứu các
chất dinh dưỡng, … KPDL giúp các nhà nghiên cứu phát hiện, khám phá cấu trúc
gen, … và trực quan hóa bằng các bảng biểu và đồ thị.
- Trong lĩnh vực bảo mật, phòng chống tội phạm: Hệ thống KPDL cho phép
lưu trữ dữ liệu về tội phạm, dữ liệu về các kẻ tình nghi, người dân, … ; và phân
tích dữ liệu để tìm ra các hành vi phạm tội, nhận diện khuôn mặt. Đối với bảo mật
thông tin, chống tin tặc, KPDL giúp phát hiện các hành vi thâm nhập hệ thống bất
hợp pháp, ngăn chặn các e-mail spam, tin rác, phần mềm độc hại.
14


- Trong lĩnh vực giáo dục: KPDL giúp phát triển các phương pháp học tập.
KPDL hỗ trợ thu thập và lưu trữ dữ liệu trong môi trường giáo dục, phân tích dữ
liệu để xác định tình hình học tập của mỗi học sinh và dự báo kết quả học tập
trong tương lai để tìm hiểu vấn đề, đưa ra phương pháp dạy, phương pháp học
phù hợp với học sinh. Đây cũng chính là vấn đề nghiên cứu chính của luân văn.
Tóm lại, KPDL có thể được ứng dụng trong tất cả các lĩnh vực khác nhau
miễn là lĩnh vực ấy có thể tiếp cận, thu thập dữ liệu từ các nguồn và có nhu cầu
phân tích dữ liệu để tìm kiếm các thơng tin có giá trị phục vụ cho những mục đích
riêng.
2.2.Một số kỹ thuật KPDL trong phân lớp, dự đoán
2.2.1. Cây quyết định
Cây quyết định (Decision Tree) là các thuật toán cổ điển, được tổ chức theo
cấu trúc giống cây, trong đó mỗi nút bên trong đại diện cho một 'thử nghiệm' trên

một thuộc tính [10].
Decision Trees bao gồm các nút (node), nhánh (branches) và lá (leafs). Mỗi
nút đại diện cho một thuộc tính hoặc tính năng, mỗi nhành đại diện cho một quy
tắc hoặc quyết định và mỗi nút đại diện cho một kết quả. Độ sâu của cây được xác
định bởi số cấp và không bao gồm nút gốc.

Hình 2.1: Cấu trúc của cây quyết định
Trong Hình 2.1 chúng ta có thể thấy:
Root: điểm ngọn chứa giá trị của biến đầu tiên được dùng để phân nhánh.
Internal node: các điểm bên trong thân cây là các biến chứa các thuộc tính,
gía trị dữ liệu được dùng để xét cho các phân nhánh tiếp theo.
15


Leaf node: là các lá cây chứa giá trị của biến phân loại sau cùng.
Branch: là quy luật phân nhánh, hay nói đơn giản là mối quan hệ giữa giá
trị của biến độc lập (Internal node) và giá trị của biến mục tiêu (Leaf node)
Trong khai phá dữ liệu hay Machine learning Decision tree được ứng dụng
để dự báo khả năng xảy ra dựa vào các thông tin đầu vào. Chúng ta cùng đi xem
xét Hình 2.3 về ứng dụng của Decision tree trong lĩnh vực ngân hàng dự báo khả
năng khách hàng có thể trả được nợ - no default, hoặc không trả được nợ - default
dựa trên các thông tin về khoản tiết kiệm – Savings, thu nhập – Income, và tài sản
– Assets.

Hình 2.2: Cây quyết định dự báo khả năng khách hàng
Nhìn vào Hình 2.2 chúng ta thấy, nếu savings = medium, khách hàng có
khoản tiết kiệm trung bình thì chắc chắn sẽ khơng có nợ xấu, nếu khác hàng có
savings = high chúng ta phải xét thêm thu nhập có lớn hơn 10000k, nếu lớn hơn
thì sẽ có khả năng thanh tốn được nợ, ngược lại khách hàng khó trả được nợ.
Nhiệm vụ sau cùng của Decision tree là phân loại đối tượng dữ liệu chưa

được phân loại trước đó vào các nhóm, các lớp phù hợp. Tóm lại, Decision tree là
một trong những phướng pháp KPDL được sử dụng nhiều nhất trong các dự án
nghiên cứu dữ liệu, là phương pháp học có giám sát mang lại kết quả dự báo, phân
loại chính xác, ổn định và dễ diễn giải.
2.2.2. Phân lớp Naïve Bayes
Naive Bayes Classification (NBC) là một thuật toán phân loại dựa trên tính
tốn xác suất áp dụng định lý Bayes [5].
16


×