BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
TRƯƠNG MINH TUẤN
NGHIÊN CỨU MỘT SỐ THUẬT TỐN PHÂN
CỤM MỜ VÀ ỨNG DỤNG VÀO BÀI TOÁN
PHÂN LOẠI SINH VIÊN
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã chuyên ngành: 60480101
LUẬN VĂN THẠC SĨ
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2021
Cơng trình được hồn thành tại Trường Đại học Cơng nghiệp TP. Hồ Chí Minh.
Người hướng dẫn khoa học: Tiến sĩ Đặng Quang Vinh
Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường
Đại học Cơng nghiệp thành phố Hồ Chí Minh ngày 18 tháng 11 năm 2021
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. PGS.TS. Huỳnh Trung Hiếu ........................... - Chủ tịch Hợi đồng
2. PGS.TS. Nguyễn Hồ ..................................... - Phản biện 1
3. TS. Lê Thành Sách .......................................... - Phản biện 2
4. TS. Lê Nhật Duy ............................................. - Ủy viên
5. TS. Phạm Thị Thiết ......................................... - Thư ký
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA
CÔNG NGHỆ THÔNG TIN
BỘ CƠNG THƯƠNG
TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP
THÀNH PHỐ HỒ CHÍ MINH
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Trương Minh Tuấn
MSHV: 18104761
Ngày, tháng, năm sinh: 29/09/1987
Nơi sinh: Long An
Chuyên ngành: Khoa học máy tính
Mã chuyên ngành: 60480101
I. TÊN ĐỀ TÀI:
Nghiên cứu mợt số thuật tốn phân cụm mờ và ứng dụng vào bài toán phân loại
sinh viên.
NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu phương pháp phân cụm với thuật toán K-Means, thuật toán FCM
(Fuzzy C-means, thuật tốn εFCM (ε Insensitive Fuzzy C-means).
- Áp dụng mơ hình phân cụm để giải quyết bài tốn phân loại kết quả học tập sinh
viên tại trường Cao đẳng Y tế Đồng Tháp.
II. NGÀY GIAO NHIỆM VỤ: 29/12/2020
III. NGÀY HOÀN THÀNH NHIỆM VỤ: 20/10/2021
IV. NGƯỜI HƯỚNG DẪN KHOA HỌC: Tiến sĩ Đặng Quang Vinh
Tp. Hồ Chí Minh, ngày … tháng … năm 2021
NGƯỜI HƯỚNG DẪN
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
Ts. Đặng Quang Vinh
TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN
LỜI CẢM ƠN
Để hoàn thành được luận văn này, ngoài sự nỗ lực của cá nhân, em xin chân thành
cảm ơn quý Thầy cô trong Khoa Công nghệ thông tin, trường Đại học Cơng nghiệp
TPHCM đã tận tình giảng dạy, trang bị cho em những kiến thức quý báo trong
những chương trình đào tạo Cao học.
Đặc biệt, em xin bày tỏ lòng biết ơn chân thành đến Thầy Tiến sĩ Đặng Quang Vinh
– người trực tiếp hướng dẫn em. Nhờ sự định hướng đúng đắng ngay từ đầu của
Thầy nên em mới có thể hồn thành luận văn cao học của mình.
Ngồi ra, em xin chân thành cảm ơn TS. Lê Nhật Duy – Phó trưởng khoa Cơng
nghệ thơng tin đã hướng dẫn và giúp đỡ em trong quá trình học tập cũng như các
quy trình, biểu mẫu để hồn thành luận văn này, từ khi bắt đầu đăng ký đề cương
đến khi bảo vệ luận văn.
Em cũng xin cám ơn đến Trường Cao đẳng Y tế Đồng Tháp đã tạo điều kiện tốt
nhất trong việc sử dụng dữ liệu nhà trường cho mục đích nghiên cứu luận văn này,
đồng thời vừa giúp em vừa hồn thành cơng việc cơ quan, vừa có thể học tập,
nghiên cứu và hồn thành chương trình cao học.
Và cuối cùng, em xin chân thành cảm ơn sự đợng viên từ gia đình, bạn bè và đặc
biệt là sự chia sẽ, thấu hiểu từ vợ Lê Thị Huỳnh Anh để em có thể tập trung hồn
thành khố học và làm tốt nghiên cứu luận văn này.
Một lần nữa, xin trân trọng cảm ơn!
i
TÓM TẮT LUẬN VĂN THẠC SĨ
Đánh giá kết quả học tập và phân loại sinh viên là một trong những vấn đề quan
trọng của q trình đào tạo trong mơi trường giáo dục. Hiện nay các quy định của
Bộ Lao động Thương binh – Xã hội [1] về xếp loại học lực và rèn luyện của sinh
viên đều dựa theo thang điểm cứng, kết quả học tập của các cơ sở đào tạo, các đối
tượng sinh viên khác nhau trong cùng mợt trường đào tạo thường có sự khác biệt do
chủ quan trong đánh giá kết quả học tập của từng học phần, module. Do đó, nhà
trường cần có mợt cơng cụ xếp loại mềm, sử dụng nhiều tiêu chí đánh giá và công
cụ để so sánh, điều chỉnh kết quả phân loại học tập của sinh viên theo các nhóm đối
tượng khác nhau, điều này giúp cho Nhà trường, nhà tuyển dụng dễ dàng trong việc
giới thiệu ứng cử viên sau khoá học. Đây cũng là mục tiêu kiểm định chất lượng
đào tạo, hướng đến nhà trường số hoá quy trình và đánh giá chất lượng kết quả đào
tạo một cách rõ ràng, công tâm và đặc biệt là nâng cao chất lượng dạy và học, kết
hợp vận dụng Y đức sau khi sinh viên tốt nghiệp.
Tác giả từng bước cài đặt thuật toán phân cụm K-mean, phân cụm Fuzzy C-mean
(FCM) [2], phân cụm ε Insensitive Fuzzy C-Means (εFCM) để kiểm tra kết quả so sánh
với 15 tập dữ liệu khi xuất ra bao gồm hệ cao đẳng chính quy các ngành Dược học,
Điều dưỡng, Kỹ thuật xét nghiệm, Phục hồi chức năng, hệ cao đẳng liên thông các
ngành Dược học, Điều dưỡng, Hộ sinh và hệ trung cấp Y sỹ chính quy quốc tế
Campuchia. Từ những kết quả thu được, tác giả thực hiện biễu mẫu để so sánh các kết
quả cụ thể từ quy chế cứng của Bợ và thơng qua các thuật tốn phân cụm đã cài đặt.
ii
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của bản thân tôi. Những kết quả
nghiên cứu, phân tích và các kết luận trong luận văn này hồn tồn là trung thực và
khơng sao chép từ bất kỳ mợt nguồn nào hay dưới bất kỳ hình thức nào. Việc tham
khảo các nguồn tài liệu (nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu
tham khảo đúng quy định.
Học viên
Trương Minh Tuấn
iii
MỤC LỤC
LỜI CAM ĐOAN ..................................................................................................... iii
MỤC LỤC
...................................................................................................... iv
DANH MỤC HÌNH ẢNH ....................................................................................... vii
DANH MỤC BẢNG BIỂU ...................................................................................... ix
DANH MỤC TỪ VIẾT TẮT .................................................................................... xi
MỞ ĐẦU
........................................................................................................1
1. Đặt vấn đề ...............................................................................................................1
2. Mục tiêu nghiên cứu ................................................................................................2
3. Đối tượng và phạm vi nghiên cứu ...........................................................................2
4. Cách tiếp cận và phương pháp nghiên cứu .............................................................3
5. Ý nghĩa thực tiễn của đề tài .....................................................................................4
CHƯƠNG 1
TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU ............................6
1.1 Tổng quan về đề tài ............................................................................................6
1.2 Tổng quan nghiệp vụ xếp loại sinh viên.............................................................6
1.2.1 Cách tính điểm kết quả học tập học kỳ/năm học/khoá học ................................7
1.2.2 Cách quy đổi điểm kết quả học tập học kỳ/năm học/khoá học ..........................8
1.2.3 Xếp loại tốt nghiệp .............................................................................................9
1.3 Các hướng tiếp cận .............................................................................................9
1.4 Khó khăn và thách thức ....................................................................................10
1.5 Đề xuất hướng giải quyết .................................................................................10
1.6 Bố cục luận văn ................................................................................................11
CHƯƠNG 2
CƠ SỞ LÝ THUYẾT ...................................................................12
2.1 Tổng quan về khai phá dữ liệu: ........................................................................12
2.1.1 Giới thiệu khai phá dữ liệu ...............................................................................12
2.1.2 Quá trình khám phá tri thức..............................................................................12
2.1.3 Các giai đoạn của quá trình khai phá dữ liệu ...................................................13
2.1.4 Các phương pháp khai phá dữ liệu ...................................................................14
2.1.5 Các hướng tiếp cận cơ bản và kỹ thuật áp dụng ...............................................14
iv
2.1.6 Các thách thức khó khăn trong KPTT và KPDL..............................................15
2.1.7 Kết luận ............................................................................................................15
2.2 Tổng quan về phân cụm dữ liệu .......................................................................15
2.2.1 Các khái niệm ...................................................................................................15
2.2.2 Các ứng dụng của phân cụm ............................................................................16
2.2.3 Những kỹ thuật tiếp cận trong phân cụm dữ liệu .............................................17
2.3 Kỹ thuật phân cụm dữ liệu mờ .........................................................................17
2.3.1 Giới thiệu về phân cụm mờ ..............................................................................17
2.3.2 Lý thuyết gom cụm (Clustering): .....................................................................19
2.3.3 Thuật toán K-Means: ........................................................................................19
2.3.4 Thuật toán FCM (Fuzzy C-Means): .................................................................21
2.3.5 Thuật toán 𝜺FCM (𝜺 −Insensitive Fuzzy C-Means) ........................................22
CHƯƠNG 3
ÁP DỤNG KẾT QUẢ NGHIÊN CỨU ........................................24
3.1 Cách tổ chức thực nghiệm ................................................................................24
3.2 Chuẩn bị cài đặt thực nghiệm: ..........................................................................26
3.3 Thực nghiệm với tập dữ liệu và đánh giá kết quả: ...........................................28
3.3.1 Thực nghiệm với dữ liệu CĐCQ Dược học khoá 6 .........................................28
3.3.2 Thực nghiệm với dữ liệu CĐCQ Điều dưỡng khoá 6 ......................................30
3.3.3 Thực nghiệm với dữ liệu CĐCQ Kỹ thuật xét nghiệm khoá 6 ........................32
3.3.4 Thực nghiệm với dữ liệu CĐCQ Phục hồi chức năng khoá 6 ..........................34
3.3.5 Thực nghiệm với dữ liệu CĐCQ Dược học khoá 7 .........................................36
3.3.6 Thực nghiệm với dữ liệu CĐCQ Điều dưỡng khoá 7 ......................................38
3.3.7 Thực nghiệm với dữ liệu CĐCQ Kỹ thuật xét nghiệm khoá 7 ........................40
3.3.8 Thực nghiệm với dữ liệu CĐCQ Phục hồi chức năng khoá 7 ..........................42
3.3.9 Thực nghiệm với dữ liệu CĐLT Dược học khoá 4 ..........................................44
3.3.10 Thực nghiệm với dữ liệu CĐLT Điều dưỡng khoá 4 .....................................46
3.3.11 Thực nghiệm với dữ liệu CĐLT Hộ sinh khoá 4 ...........................................48
3.3.12 Thực nghiệm với dữ liệu CĐLT Dược học khoá 5 ........................................50
3.3.13 Thực nghiệm với dữ liệu CĐLT Điều dưỡng khoá 5.....................................52
3.3.14 Thực nghiệm với dữ liệu CĐLT Hợ sinh khố 5 ...........................................54
v
3.3.15 Thực nghiệm với dữ liệu TCCQ Y sỹ khoá 6 Campuchia .............................56
3.4 Bàn luận thực nghiệm .......................................................................................58
KẾT LUẬN VÀ KIẾN NGHỊ...................................................................................59
DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA HỌC VIÊN ............................61
TÀI LIỆU THAM KHẢO .........................................................................................62
LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN .........................................................64
vi
DANH MỤC HÌNH ẢNH
Hình 2.1 Q trình khám phá tri thức .......................................................................12
Hình 2.2 Quá trình khai phá dữ liệu ..........................................................................13
Hình 2.3 Mô tả tập dữ liệu được phân thành 3 cụm .................................................16
Hình 2.4 Minh hoạ khái niệm gọm cụm ...................................................................19
Hình 3.1 Mơ hình cơ sở dữ liệu quan hệ trên phần mềm ..........................................24
Hình 3.2 Tập dữ liệu sau khi xử lý ............................................................................26
Hình 3.3 Data Visualization Kmean với dữ liệu CĐCQ Dược học khố 6 ..............28
Hình 3.4 Data Visualization FCM với dữ liệu CĐCQ Dược học khố 6 .................28
Hình 3.5 Data Visualization εFCM với dữ liệu CĐCQ Dược học khố 6................28
Hình 3.6 Data Visualization Kmean với dữ liệu CĐCQ Điều dưỡng khố 6 ...........30
Hình 3.7 Data Visualization FCM với dữ liệu CĐCQ Điều dưỡng khố 6 ..............30
Hình 3.8 Data Visualization εFCM với dữ liệu CĐCQ Điều dưỡng khố 6 ............30
Hình 3.9 Data Visualization Kmean với dữ liệu CĐCQ KTXN khoá 6 ...................32
Hình 3.10 Data Visualization FCM với dữ liệu CĐCQ KTXN khố 6 ....................32
Hình 3.11 Data Visualization εFCM với dữ liệu CĐCQ KTXN khố 6 ..................32
Hình 3.12 Data Visualization Kmean với dữ liệu CĐCQ PHCN khố 6 .................34
Hình 3.13 Data Visualization FCM với dữ liệu CĐCQ PHCN khố 6 ....................34
Hình 3.14 Data Visualization εFCM với dữ liệu CĐCQ PHCN khoá 6 ...................34
Hình 3.15 Data Visualization Kmean với dữ liệu CĐCQ Dược học khố 7 ............36
Hình 3.16 Data Visualization FCM với dữ liệu CĐCQ Dược học khố 7 ...............36
Hình 3.17 Data Visualization εFCM với dữ liệu CĐCQ Dược học khố 7 .............36
Hình 3.18 Data Visualization Kmean với dữ liệu CĐCQ Điều dưỡng khố 7 .........38
Hình 3.19 Data Visualization FCM với dữ liệu CĐCQ Điều dưỡng khố 7 ............38
Hình 3.20 Data Visualization εFCM với dữ liệu CĐCQ Điều dưỡng khố 7 ..........38
Hình 3.21 Data Visualization Kmean với dữ liệu CĐCQ KTXN khoá 7 .................40
Hình 3.22 Data Visualization FCM với dữ liệu CĐCQ KTXN khố 7 ....................40
Hình 3.23 Data Visualization εFCM với dữ liệu CĐCQ KTXN khố 7 ..................40
Hình 3.24 Data Visualization Kmean với dữ liệu CĐCQ PHCN khoá 7 .................42
vii
Hình 3.25 Data Visualization FCM với dữ liệu CĐCQ PHCN khố 7 ....................42
Hình 3.26 Data Visualization εFCM với dữ liệu CĐCQ PHCN khố 7 ...................42
Hình 3.27 Data Visualization Kmean với dữ liệu CĐLT Dược học khố 4 .............44
Hình 3.28 Data Visualization FCM với dữ liệu CĐLT Dược học khoá 4 ................44
Hình 3.29 Data Visualization εFCM với dữ liệu CĐLT Dược học khố 4 ..............44
Hình 3.30 Data Visualization Kmean với dữ liệu CĐLT Điều dưỡng khố 4 .........46
Hình 3.31 Data Visualization FCM với dữ liệu CĐLT Điều dưỡng khố 4 ............46
Hình 3.32 Data Visualization εFCM với dữ liệu CĐLT Điều dưỡng khố 4 ...........46
Hình 3.33 Data Visualization Kmean với dữ liệu CĐLT Hợ sinh khố 4 ................48
Hình 3.34 Data Visualization FCM với dữ liệu CĐLT Hợ sinh khố 4 ...................48
Hình 3.35 Data Visualization εFCM với dữ liệu CĐLT Hợ sinh khố 4 .................48
Hình 3.36 Data Visualization Kmean với dữ liệu CĐLT Dược học khố 5 .............50
Hình 3.37 Data Visualization FCM với dữ liệu CĐLT Dược học khố 5 ................50
Hình 3.38 Data Visualization εFCM với dữ liệu CĐLT Dược học khoá 5 ..............50
Hình 3.39 Data Visualization Kmean với dữ liệu CĐLT Điều dưỡng khố 5 .........52
Hình 3.40 Data Visualization FCM với dữ liệu CĐLT Điều dưỡng khố 5 ............52
Hình 3.41 Data Visualization εFCM với dữ liệu CĐLT Điều dưỡng khố 5 ...........52
Hình 3.42 Data Visualization Kmean với dữ liệu CĐLT Hộ sinh khố 5 ................54
Hình 3.43 Data Visualization FCM với dữ liệu CĐLT Hợ sinh khố 5 ...................54
Hình 3.44 Data Visualization εFCM với dữ liệu CĐLT Hợ sinh khố 5 .................54
Hình 3.45 Data Visualization Kmean với dữ liệu TCCQ Y sỹ khoá 6 Campuchia ..56
Hình 3.46 Data Visualization FCM với dữ liệu TCCQ Y sỹ khố 6 Campuchia .....56
Hình 3.47 Data Visualization εFCM với dữ liệu TCCQ Y sỹ khoá 6 Campuchia ...56
viii
DANH MỤC BẢNG BIỂU
Bảng 1.1 Bảng quy đổi từ điểm chữ qua điểm số .......................................................8
Bảng 1.2 Xếp loại tốt nghiệp.......................................................................................9
Bảng 3.1 Bảng bộ dữ liệu mẫu ..................................................................................25
Bảng 3.2 Ghi nhận kết quả với dữ liệu CĐCQ Dược học khoá 6 .............................29
Bảng 3.3 Kết quả phân loại với dữ liệu CĐCQ Dược học khoá 6 ............................29
Bảng 3.4 Ghi nhận kết quả với dữ liệu CĐCQ Điều dưỡng khoá 6 .........................31
Bảng 3.5 Kết quả phân loại với dữ liệu CĐCQ Điều dưỡng khoá 6 ........................31
Bảng 3.6 Ghi nhận kết quả với dữ liệu CĐCQ KTXN khoá 6 .................................33
Bảng 3.7 Kết quả phân loại với dữ liệu CĐCQ KTXN khoá 6 ................................33
Bảng 3.8 Ghi nhận kết quả với dữ liệu CĐCQ PHCN khoá 6 ..................................35
Bảng 3.9 Kết quả phân loại với dữ liệu CĐCQ PHCN khoá 6 .................................35
Bảng 3.10 Ghi nhận kết quả với dữ liệu CĐCQ Dược học khoá 7 ...........................37
Bảng 3.11 Kết quả phân loại với dữ liệu CĐCQ Dược học khoá 7 ..........................37
Bảng 3.12 Ghi nhận kết quả với dữ liệu CĐCQ Điều dưỡng khoá 7 .......................39
Bảng 3.13 Kết quả phân loại với dữ liệu CĐCQ Điều dưỡng khoá 7 ......................39
Bảng 3.14 Ghi nhận kết quả với dữ liệu CĐCQ KTXN khoá 7 ...............................41
Bảng 3.15 Kết quả phân loại với dữ liệu CĐCQ KTXN khoá 7 ..............................41
Bảng 3.16 Ghi nhận kết quả với dữ liệu CĐCQ PHCN khoá 7 ................................43
Bảng 3.17 Kết quả phân loại với dữ liệu CĐCQ PHCN khoá 7 ...............................43
Bảng 3.18 Ghi nhận kết quả với dữ liệu CĐLT Dược học khoá 4 ...........................45
Bảng 3.19 Kết quả phân loại với dữ liệu CĐLT Dược học khoá 4 ..........................45
Bảng 3.20 Ghi nhận kết quả với dữ liệu CĐLT Điều dưỡng khoá 4 ........................47
Bảng 3.21 Kết quả phân loại với dữ liệu CĐLT Điều dưỡng khoá 4 .......................47
Bảng 3.22 Ghi nhận kết quả với dữ liệu CĐLT Hộ sinh khoá 4...............................49
Bảng 3.23 Kết quả phân loại với dữ liệu CĐLT Hợ sinh khố 4 ..............................49
Bảng 3.24 Ghi nhận kết quả với dữ liệu CĐLT Dược học khoá 5 ...........................51
Bảng 3.25 Kết quả phân loại với dữ liệu CĐLT Dược học khoá 5 ..........................51
ix
Bảng 3.26 Ghi nhận kết quả với dữ liệu CĐLT Điều dưỡng khoá 5 ........................53
Bảng 3.27 Kết quả phân loại với dữ liệu CĐLT Điều dưỡng khoá 5 .......................53
Bảng 3.28 Ghi nhận kết quả với dữ liệu CĐLT Hộ sinh khoá 5...............................55
Bảng 3.29 Kết quả phân loại với dữ liệu CĐLT Hợ sinh khố 5 ..............................55
Bảng 3.30 Ghi nhận kết quả với dữ liệu TCCQ Y sỹ khoá 6 Campuchia ................57
Bảng 3.31 Kết quả phân loại với dữ liệu TCCQ Y sỹ khoá 6 Campuchia ...............57
x
DANH MỤC TỪ VIẾT TẮT
CĐCQ
Cao đẳng chính quy
CĐLT
Cao đẳng liên thông
CĐYT
Cao Đẳng Y tế
CNTT
Công nghệ thông tin
CSDL
Cơ sở dữ liệu
DL
Dữ liệu
ĐTB
Điểm trung bình
EDUMAN
Hệ thống Quản lý Đào tạo
FCM
Fuzzy C-Means
HMT
Hàm mục tiêu
KPDL
Khai phá dữ liệu
KPTT
Khám phá tri thức
KQHT
Kết quả học tập
KTXN
Kỹ thuật xét nghiệm
PCDL
Phân cụm dữ liệu
PCM
Phân cụm mờ
PHCN
Phục hồi chức năng
QCĐT
Quy chế đào tạo
SV
Sinh viên
TCCQ
Trung cấp chính quy
THPT
Trung học phổ thông
T-SQL
Transact-SQL
xi
MỞ ĐẦU
1. Đặt vấn đề
Những năm gần đây cùng với tiêu chí đổi mới Giáo dục thì việc xếp loại kết quả
học tập của sinh viên cũng đã có những thay đổi tích cực từ việc điểm số theo quy
định mới của Bộ cho đến việc đánh giá điểm rèn luyện của sinh viên luôn được cập
nhật theo các tiêu chí mà từng trường đưa ra. Đánh giá kết quả học tập và phân loại
sinh viên là một trong những vấn đề quan trọng của quá trình đào tạo tại mỗi
trường. Hiện nay các quy định của Bộ Lao động Thương binh – Xã hội về việc xếp
loại học lực và rèn luyện của sinh viên đều dựa theo thang điểm cứng - kết quả học
tập trong học kỳ, khoá học; vì thế, kết quả học tập và năng lực kinh nghiệm thật sự
của sinh viên sau quá trình đào tạo có sự khác biệt nhau về vị trí việc làm, mức
lương và sự đánh giá thực tế của các đơn vị sử dụng lao động.
Tuy nhiên, việc sắp xếp này chưa thể đánh giá hết mọi khía cạnh trong quản lý đào
tạo, đặc biệt là chất lượng đào tạo, chương trình đào tạo, khả năng tiếp thu của
người học cho đến góc đợ tầm quản lý của Nhà quản lý đào tạo. Song song việc
nâng cao chất lượng dạy và học thì vấn đề có việc làm đối với sinh viên sau khi ra
trường được đặt lên hàng đầu, vì nó đánh giá và quyết định thương hiệu, chất lượng
đào tạo của Nhà trường cũng như việc đồng hành giữa nhà trường và đơn vị tuyển
dụng nhân sự.
Nếu theo quy chế của Bợ quy định thì nhà trường đã áp dụng xếp loại sinh viên theo
mợt khía cạnh điểm số nhưng không thể đánh giá cụ thể năng lực của sinh viên thế
nào, đồng thời, vấn đề việc làm cho sinh viên khi nhà tuyển dụng đặt ra các vấn đề
tiêu chí cụ thể như điểm khố học, điểm kỹ năng, khơng tính các học phần điều
kiện, học phần khơng tiên quyết,...thì xếp loại sinh viên theo Quy định của Bộ là
chưa phù hợp với nhà tuyển dụng. Do đó, nhà trường cần có mợt cơng cụ xếp loại
mềm dẻo hơn, sử dụng nhiều tiêu chí đánh giá hơn để so sánh, điều chỉnh kết quả
phân loại của các nhóm đối tượng khác nhau mợt cách khách quan là cần thiết.
1
Trên thực tế thì bài tốn này khơng mới, nhiều tác giả đã nghiên cứu và có những
kết quả rất khả quan, cũng như việc áp dụng tại cơ sở. Với sự nâng cao chất lượng
đào tạo, hội nhập ASEAN tại Trường Cao đẳng Y tế Đồng Tháp thì việc phân loại
sinh viên nằm trong tiêu chí kiểm định chất lượng của nhà trường, là tiêu chí rất
quan trọng trong việc lựa chọn những sinh viên ưu tú, có kinh nghiệm cả kiến thức
và năng lực thực tế để ứng tuyển tại các đơn vị sử dụng lao động trong nước, đặc
biệt là các nước tiên tiến như Nhật, Đài Loan, Đức,...
Một trong những thế mạnh của khai phá dữ liệu trong thời đại ngày nay như ứng
dụng tài chính [3], chăm sóc sức khoẻ [4], ngành cơng nghiệp [5], giáo dục [6],..
Trong nghiên cứu này, tác giả chọn lĩnh vực giáo dục để nghiên cứu, cụ thể là
nghiên cứu mợt số thuật tốn phâm cụm mờ và ứng dụng vào bài toán phân loại
sinh viên với tập dữ liệu được chọn trên phần mềm quản lý đào tạo tại Trường Cao
đẳng Y tế Đồng Tháp. Đồng thời, tác giả tiến hành so sánh kết quả học tập giữa quy
định của Bợ và các thuật tốn phân cụm mà tác giả đã tìm hiểu trong nghiên cứu
này.
2. Mục tiêu nghiên cứu
Mục tiêu của đề tài là cài đặt các thuật toán phân cụm mờ thực tế trên dữ liệu của
phần mềm quản lý Đào tạo tại trường CĐYT Đồng Tháp, qua đó so sánh các kết
quả xếp loại của sinh viên theo tiêu chí của Bợ Lao đợng Thương binh – Xã hợi và
các thuật tốn phân cụm. Mơ hình bao gồm các phần chính:
-
Tìm hiểu các thuật tốn phân cụm mờ.
-
Cài đặt thuật toán phân cụm và đưa ra kết quả xếp loại.
-
So sánh kết quả xếp loại của sinh viên theo quy chế đào tạo và các thuật toán
phân cụm mờ.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
-
Kết quả học tập của sinh viên Cao đẳng chính quy khóa 6, 7 ngành Dược học,
Điều dưỡng, Kỹ thuật xét nghiệm, Phục hồi chức năng đã hoàn thàanh khoá
2
học tại Trường CĐYT Đồng Tháp theo quy định Bộ Lao động – Thương binh
xã hội.
-
Kết quả học tập của sinh viên Cao đẳng liên thơng khóa 4, 5 ngành Dược học,
Điều dưỡng, Hợ sinh đã hồn thành khố học tại Trường CĐYT Đồng Tháp
theo quy định Bộ Lao động – Thương binh xã hội.
-
Kết quả học tập của sinh viên quốc tế Campuchia hệ trung cấp chính quy khóa
6 ngành Y sỹ đa khoa đã hồn thành khố học tại Trường CĐYT Đồng Tháp
theo quy định Bộ Lao động – Thương binh xã hội.
-
Loại trừ các kết quả học tập của sinh viên bảo lưu hoặc thôi học hoặc bị đình
chỉ hoặc khơng đủ dữ liệu các học phần trong kết quả học tập của tất cả các hệ
đào tạo trong đối tượng nghiên cứu trên.
Phạm vi nghiên cứu:
-
Lĩnh vực máy học.
-
Cơ sở dữ liệu sử dụng cho nghiên cứu là hệ quản trị cơ sỡ dữ liệu SQL Server,
được trích xuất từ hệ thống phần mềm quản lý đào tạo tại Trường CĐYT
Đồng Tháp với các khoá đã ra trường cho đối tượng sinh viên Việt Nam và
Campuchia
-
Cài đặt và hiện thực thuật toán trên dữ liệu phần mềm Quản lý đào tạo.
4. Cách tiếp cận và phương pháp nghiên cứu
Cách tiếp cận:
-
Chọn tồn bợ kết quả học tập sinh viên cao đẳng chính quy khóa 6, 7 ngành
Dược học, Điều dưỡng, Kỹ thuật xét nghiệm, Phục hồi chức năng và cao đẳng
liên thơng khóa 4, 5 ngành Dược học, Điều dưỡng, Hợ sinh và sinh viên chính
quy quốc tế Campuchia hệ trung cấp chính quy khóa 6 ngành Y sỹ đa khoa, loại
trừ sinh viên bảo lưu hoặc thơi học hoặc bị đình chỉ hoặc khơng đủ dữ liệu các
học phần đang theo học tại Trường CĐYT Đồng Tháp.
-
Kết quả học tập của sinh viên được thu thập từ số liệu có sẵn thơng qua phần
mềm hệ thống Quản lý đào tạo tại Trường CĐYT Đồng Tháp.
3
Phương pháp nghiên cứu:
-
Phương pháp nghiên cứu dựa trên tài liệu: Thu thập, phân tích, xử lý thơng tin
trên các tài liệu có sẵn như báo, tạp chí,.. đã in ấn hoặc tài liệu đã công bố trên
internet liên quan đến đề tài.
-
Phương pháp nghiên cứu dựa trên thực nghiệm: Xây dựng và cài đặt thuật tốn
phân cụm mờ thơng qua việc thử nghiệm dựa trên cơ sở dữ liệu phần mềm quản
lý đào tạo hiện có tại trường; từ đó đưa ra kết quả so sánh theo các hình thức
xếp loại sinh viên cụ thể.
Phương tiện nghiên cứu:
-
Hệ quản trị cơ sở dữ liệu SQL Server 2014
-
Ngôn ngữ lập trình Python và cơng cụ phát triển phần mềm Jupyter Notebook.
-
Thư viện NLP và các gói thư viện hỗ trợ khác.
5. Ý nghĩa thực tiễn của đề tài
Hiện nay, ở Việt Nam, việc áp dụng thuật toán phân cụm cho bài toán phân loại
sinh viên trên các hệ thống phần mềm Quản lý đào tạo là rất ít, đặc biệt ngành Y tế
thì sinh viên có năng lực, có đạo đức với nghề được đặt lên hàng đầu. Mặc dù, nhà
trường cũng đã có đánh giá xếp loại cho từng sinh viên thông qua quy chế đào tạo;
tuy nhiên, nhà trường hướng đến việc đánh giá chất lượng dạy và học, quản lý đào
tạo, kiểm định chất lượng,…thì kết quả phân loại theo tiêu chí của nhà tuyển dụng
là hết sức cấp bách, vì nó giải quyết nhiều vấn đề sinh viên như chỉ học lý thuyết
sng, thực tập ít va chạm, kết quả điểm học tập thì lại cao trong khi việc làm thì
khơng có.
Từ những kết quả bước đầu của nghiên cứu này, nhà trường có cái nhìn tổng quát
hơn trong quá trình đào tạo của nhà trường, đặc biệt là vấn để việc làm của sinh
viên sau khi tốt nghiệp. Kết quả nghiên cứu là một phần quan trọng trong tiêu chí
đánh giá, xếp loại nhà trường, và tiến đến trường đào tạo chất lượng cao, hội nhập
quốc tế ASEAN. Song song đó, nhà trường muốn hướng đến chuyển đổi số bằng
mơ hình hiện thực hố mọi quá trình đào tạo từ khâu tư vấn tuyển sinh tại các
4
trường THPT đến quá trình đào tạo tại trường và kết quả đầu ra, làm việc tại các cơ
sở doanh nghiệp.
5
CHƯƠNG 1
TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU
1.1 Tổng quan về đề tài
Đánh giá kết quả học tập và phân loại sinh viên là một trong những vấn đề quan
trọng trong quá trình đào tạo. Hiện nay các quy định của Bộ Lao động Thương Binh
– Xã hội [1] về xếp loại học lực và rèn luyện của sinh viên đều dựa theo thang điểm
cứng, kết quả học tập của các cơ sở đào tạo, các đối tượng sinh viên khác nhau
trong cùng mợt trường thường có sự khác biệt do chủ quan đánh giá kết quả học tập
của từng học phần, từng module. Do đó, nhà trường cần có một công cụ xếp loại
phần mềm mềm dẻo hơn, sử dụng nhiều tiêu chí đánh giá và cơng cụ để so sánh,
điều chỉnh kết quả phân loại của các nhóm đối tượng khác nhau một cách khách
quan là cần thiết. Ngoài ra, nhu cầu tuyển dụng của các đơn vị tuyển dụng ngày
càng khắt khe hơn về kinh nghiệm nghề, kỹ năng và điểm số chun mơn; do đó,
nếu chỉ áp dụng cứng như hiện nay thì cơ hợi dành cho những bạn thật sự có năng
lực bị hạn chế dẫn đến đánh mất cơ hội. Đây cũng là mục tiêu kiểm định chất lượng
đào tạo, hướng đến nhà trường số hố quy trình và đánh giá chất lượng kết quả đào
tạo một cách rõ ràng, công tâm và nâng cao chất lượng dạy và học, kết hợp vận
dụng y đức sau khi sinh viên tốt nghiệp.
1.2 Tổng quan nghiệp vụ xếp loại sinh viên
Trường Cao đẳng Y tế Đồng Tháp được thành lập theo quyết định số 1407/QĐBGDĐT ngày 09 tháng 04 năm 2011 của Bộ Giáo dục và Đào tạo dựa trên cơ sở
Trường Trung cấp Y tế Đồng Tháp. Nhà trường căn cứ theo Thông tư số
09/2017/TT-BLĐTBXH [1] về việc tổ chức thực hiện chương trình đào tạo trình đợ
trung cấp, cao đẳng theo niên chế hoặc theo phương thức tích luỹ mơ-đun hoặc tín
chỉ; quy chế kiểm tra, thi, xét công nhận tốt nghiệp. Nhà trường bám sát 38 điều
trong Thông tư để xây dựng các tiêu chí riêng cho việc tổ chức thực hiện chương
trình đạo tạo trình đợ trung cấp, cao đẳng theo phương thức tích lỹ mơ-đun hoặc tín
chỉ và được áp dụng từ năm 2017 đến nay cho các ngành đang đào tạo. Trong đó có
mợt vấn đề rất quan trọng đó là đánh giá kết quả sinh viên tồn khố học, bởi vì
6
đánh giá kết quả học tập sinh viên là một trong những yếu tố quan trọng nhất trong
giáo dục đại học. Kết quả đánh giá sẽ ảnh hưởng sâu sắc đến sự nghiệp của sinh
viên sau này. Vì vậy, việc đánh giá cần được thực hiện một cách chuyên nghiệp
trong đó cần tập trung nhiều vào đánh giá kiến thức thơng qua q trình kiểm tra và
thi cử, cung cấp cho nhà trường các thơng tin có giá trị về hiệu quả giảng dạy và các
hoạt động dịch vụ hỗ trợ người học.
1.2.1 Cách tính điểm kết quả học tập học kỳ/năm học/khố học
Điểm mơn học, mơ-đun: bao gồm ĐTB các điểm kiểm tra có trọng số 0,4 và điểm thi
kết thúc có trọng số 0,6. ĐTB điểm kiểm tra là trung bình cợng của các điểm kiểm tra
thường xun, điểm kiểm tra định kỳ theo hệ số của từng loại điểm. Trong đó, điểm
kiểm tra thường xun tính hệ số 1, điểm kiểm tra định kỳ tính hệ số 2. Điểm mơn
học, mơ-đun đạt u cầu khi có điểm theo thang điểm 10 đạt từ 4,0 trở lên.
Điểm trung bình chung học kỳ/năm học/khố học và điểm trung bình chung tích luỹ
được tính theo cơng thức sau:
n
A
a n
i
i 1
i
n
n
i 1
i
Trong đó:
-
A: là điểm trung bình chung học kỳ/năm học/khố học hoặc điểm trung bình
chung tích luỹ.
-
i: là số thứ tự môn học, mô-đun.
-
Ai: là điểm của môn học, mô-đun thứ i;
-
ni: là số tín chỉ của mơn học, mơ-đun thứ i;
-
n: tổng số môn học, mô-đun trong học kỳ/năm học/khố học hoặc số mơn học,
mơ-đun đã tích luỹ.
7
Điểm trung bình chung tích luỹ là ĐTB của các mơn học, mơ-đun mà người học đã
tích luỹ được, tính từ đầu khoá học cho tới thời điểm được xem xét vào lúc kết thúc
mỗi học kỳ. Điểm trung bình chung học kỳ/năm học/khố học, ĐTB chung tích luỹ
bao gồm cả điểm môn học, mô-đun được bảo lưu, không bao gồm điểm môn học,
mô-đun được miễn trừ và môn học điều kiện. Trường hợp người học được tạm hỗn
học mơn học, mơ-đun thì chưa tính khối lượng học tập của mơn học, mơ-đun đó
trong thời gian tạm hỗn. Điểm trung bình chung học kỳ, năm học, ĐTB chung tích
luỹ để xét học bổng, khen thưởng sau mỗi học kỳ, năm học hoặc khố học được tính
theo kết quả điểm thi kết thúc môn học, mô-đun lần thứ nhất; để xét điều chỉnh tiến
đợ học, ḅc thơi học được tính theo kết quả thi kết thúc mơn học, mơ-đun có điểm
cao nhất. Môn học Giáo dục thể chất, Giáo dục quốc phịng và an ninh là 2 mơn
điều kiện, kết quả đánh giá 2 mơn học này khơng tính vào ĐTB chung học kỳ, năm
học, điểm trung bình chung tích luỹ, xếp loại tốt nghiệp nhưng là một trong các điều
kiện để xét hoàn thành khối lượng học tập, xét điều kiện dự thi tốt nghiệp hoặc bảo
vệ chuyên đề, khoá luận tốt nghiệp và được ghi vào bảng điểm cấp kèm theo bằng
tốt nghiệp.
1.2.2 Cách quy đổi điểm kết quả học tập học kỳ/năm học/khố học
Quy đổi điểm mơn học, mơ-đun: được tính theo khoản 1 Điều 15 của Thơng tư
BLĐTBXH [1] theo thang điểm 10 sau khi làm tròn đến một chữ số thập phân sẽ
được chuyển thành điểm chữ, và quy đổi từ điểm chữ qua điểm số theo thang điểm 4
Bảng 1.1 Bảng quy đổi từ điểm chữ qua điểm số
Điểm chữ
Điểm 10
Loại
A
8,5 – 10
Giỏi
4
B
7,0 – 8,4
Khá
3
C
5,5 – 6,9
Trung bình
2
D
4,0 – 5,4
Trung bình yếu
1
F
< 4,0
Khơng đạt
0
8
Điểm 4
1.2.3 Xếp loại tốt nghiệp
Xếp loại tốt nghiệp được xác định theo điểm trung bình chung tích luỹ của tồn
khố học theo thang điểm 4, như sau:
Bảng 1.2 Xếp loại tốt nghiệp
Loại
Diễn giải
Loại X́t sắc
Điểm trung bình chung tích luỹ từ 3,60 đến 4,00
Loại Giỏi
Điểm trung bình chung tích luỹ từ 3,20 đến 3,59
Loại Khá
Điểm trung bình chung tích luỹ từ 2,50 đén 3,19
Loại Trung bình
Điểm trung bình chung tích luỹ từ 2,00 đến 2,49
Người học có điểm xếp loại tốt nghiệp đạt từ loại giỏi trở lên sẽ bị giảm đi một mức
xếp loại tốt nghiệp nếu thuộc một trong các trường hợp như: có mợt mơn học hoặc
mợt mơ-đun trở lên trong khố học phải thi lại; bị kỷ luật từ mức cảnh cáo trở lên
trong thời gian học tập tại trường.
1.3 Các hướng tiếp cận
Tìm hiểu về Thông tư số 09/2017/TT-BLĐTBXH về cách xếp loại điểm trung bình
chung khố học của sinh viên và từ phần mềm quản lý đào tạo hiện có tại trường,
qua đó tìm hiểu cấu trúc của Cơ sở dữ liệu để có những đánh giá sơ bợ về phần
mềm. Từ đó, tác giả tìm hiểu về kết quả học tập của sinh viên theo khố học có trên
phần mềm để có cơ sở tổng hợp những kết quả theo quy định, làm tiền đề cho việc
so sánh với kết quả khi sử dụng các thuật toán phân cụm mờ trong đề tài.
Trong quá trình tìm hiểu về dữ liệu, tác giả cũng viết một thủ tục với các tham số
khác nhau như ngành đào tạo, khoá học để truy xuất dữ liệu từ hệ thống phần mềm
quản lý đào tạo hiện có để có cái nhìn tổng quan về dữ liệu của hệ thống với các
khoá đã tốt nghiệp ra trường; sau đó, tác giả tiến đến việc làm sạch dữ liệu và mã
hoá dữ liệu theo từng ngành đào tạo cụ thể.
9
Tác giả từng bước cài đặt thuật toán K-means, thuật toán FCM (Fuzzy c-means) [2],
thuật toán εFCM (ε-Insensitive Fuzzy c-means) để kiểm tra với 15 tập dữ liệu cụ thể
khi xuất ra bao gồm hệ cao đẳng chính quy các ngành Dược học, Điều dưỡng, Kỹ
thuật xét nghiệm, Phục hồi chức năng, hệ cao đẳng liên thông các ngành Dược học,
Điều dưỡng, Hộ sinh và hệ trung cấp Y sỹ chính quy quốc tế Campuchia.
Từ những kết quả thu được, tác giả thực hiện biễu mẫu để so sánh các kết quả cụ thể
từ quy chế cứng của Bộ và thơng qua các thuật tốn phân cụm đã cài đặt.
1.4 Khó khăn và thách thức
Hệ thống Quản lý đào tạo hiện có tại trường đang lưu trữ nhiều kết quả điểm của
sinh viên, trong đó có cả những sinh viên bỏ học ngang hoặc bảo lưu, và có 2 học
phần khơng được tính vào kết quả học tập tồn của sinh viên như Giáo dục thể chất,
giáo dục Quốc phòng – an ninh; vì thế, việc thống kê đánh kết quả để so sánh các
hình thức xếp loại sinh viên khác nhau dẫn đến nhiều kết quả khơng mong muốn.
Ngồi khó khăn trên thì hệ thống cịn phải lưu trữ nhiều quy chế tính điểm khác
nhau theo quy định từ Bợ, qua đó, mỗi quy chế lại có cách lưu trữ và tính điểm khác
nhau, dẫn đến việc khơng đồng nhất trong q trình đánh giá phân loại của mợt sinh
viên.
Để kết xuất dữ liệu từ hệ thống quản lý đào tạo, tác giả phải viết thủ tục truy vấn cơ
sở dữ liệu T-SQL để có thể truy xuất được các kết quả mong muốn và phải thực
hiện tiền xử lý dữ liệu thơ để có tập dữ liệu phù hợp; ngồi ra, do việc cài đặt thuật
tốn thử nghiệm trên nhiều ngành, khoá học khác nhau cũng dẫn đến việc xử lý dữ
liệu cần thận trọng và cần nhiều thời gian.
1.5 Đề xuất hướng giải quyết
Tác giả đã xin số liệu từ cơ sở dữ liệu hiện có trên phần mềm Quản lý đào tạo tại
trường Cao đẳng Y tế Đồng Tháp với các khố đã tốt nghiệp có đầy đủ dữ liệu, bao
gồm hệ cao đẳng chính quy các ngành Dược học, Điều dưỡng, Kỹ thuật xét nghiệm,
Phục hồi chức năng, hệ cao đẳng liên thông các ngành Dược học, Điều dưỡng, Hộ
sinh và hệ trung cấp Y sỹ chính quy quốc tế Campuchia. Số dữ liệu được thu thập từ
10
năm 2017 với các khoá học 2017-2020, 2017-2019, 2018-2020, 2018-2021, 20182019. Qua đó tác giả truy vấn T-SQL trực tiếp trên hệ thống cơ sở dữ liệu phần
mềm và kết xuất kết quả ra 15 tập tin excel với định dạng CSV (comma delimited)
khác nhau tương ứng với từng ngành, từng khoá học như hướng tiếp cận trên. Dữ
liệu được kết xuất ra bao gồm các cột cần thiết như studentID, subjectID, score4,
result; đây là 4 cột rất quan trọng trong việc áp dụng các giải thuật phân cụm; đặc
biệt, tác giả khơng cần phải mã hố dữ liệu x́t ra do kết quả điểm (score4) theo
thang điểm 4 (1-4) đã tương thích với việc mã hố dữ liệu, tác giả chỉ mã hố cợt
kết quả (result) theo sắp xếp alphabet khi thử nghiệm với các thuật toán.
Tác giả dùng ngơn ngữ lập trình Python để xử lý dữ liệu và đạt kết quả như mong đợi
trong quá trình nghiên cứu. Kết quả sẽ được trình bày cụ thể trong chương tiếp theo.
1.6 Bố cục luận văn
Luận văn được chia thành ba chương:
Chương 1: Trình bày bài tốn cần nghiên cứu trong luận văn này, đó là xây dựng
mợt mơ hình để phân cụm dữ liệu cụ thể và các hướng tiếp cận cho bài tốn đặt ra.
Chương 2: Trình bày cơ sở lý thuyết cho việc phân cụm dữ liệu. Chương này trình
bày các cơ sở lý thuyết để xây dựng mơ hình phân cụm với thuật tốn K-means, thuật
toán FCM (Fuzzy c-means) và thuật toán εFCM (ε-Insensitive Fuzzy c-means).
Chương 3: Trình bày kết quả đạt được của nghiên cứu, bàn luận và hướng phát triển.
11