Tải bản đầy đủ (.pdf) (77 trang)

Fintech trong giáo dục hệ thống chấm điểm tín dụng dành cho sinh viên cao học ngành hệ thống thông tin quản lý trường đại học bách khoa tp hcm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.55 MB, 77 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------

NGUYỄN HỮU HƯƠNG XUÂN

FINTECH TRONG GIÁO DỤC:
HỆ THỐNG CHẤM ĐIỂM TÍN DỤNG
DÀNH CHO SINH VIÊN CAO HỌC
NGÀNH HỆ THỐNG THÔNG TIN QUẢN LÝ
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM

Chuyên ngành:
Mã số:

HỆ THỐNG THÔNG TIN QUẢN LÝ
83 40 405

LUẬN VĂN THẠC SĨ

TP.HỒ CHÍ MINH, tháng 08 năm 2020


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG – TP. HCM
Cán bộ hướng dẫn khoa học: PGS. TS. ĐẶNG TRẦN KHÁNH

Cán bộ chấm nhận xét 1: PGS. TS. HUỲNH TRUNG HIẾU

Cán bộ chấm nhận xét 2: PGS. TS. VŨ THANH NGUYÊN



Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG TP.
HCM ngày 24 tháng 8 năm 2020.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. Chủ tịch: TS. LÊ LAM SƠN
2. Thư ký: TS. TRƯƠNG TUẤN ANH
3. Phản biện 1: PGS. TS. HUỲNH TRUNG HIẾU
4. Phản biện 2: PGS. TS. VŨ THANH NGUYÊN
5. Ủy viên: PGS.TS. TRẦN MINH QUANG
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN HỮU HƯƠNG XUÂN
Ngày, tháng, năm sinh: 18/12/1992
Chuyên ngành: Hệ Thống Thông Tin Quản Lý

MSHV: 1870310
Nơi sinh: TP. Hồ Chí Minh

Mã số : 83.40.405

TÊN ĐỀ TÀI:
Fintech Trong Giáo Dục: Hệ Thống Chấm Điểm Tín Dụng Dành Cho Sinh Viên
Cao Học Ngành Hệ Thống Thông Tin Quản Lý Trường Đại Học Bách Khoa TP.
HCM.
NHIỆM VỤ VÀ NỘI DUNG:
- Đề xuất nghiên cứu và xây dựng một hệ thống chấm điểm tín dụng dành
cho sinh viên, cụ thể là ngành Hệ thống thơng tin quản lý.
- Hồn thiện quy trình hỗ trợ tín dụng cho SV, với mục tiêu minh bạch và
hạn chế được sự sai sót do con người.
- Xây dựng một hệ thống mẫu – prototype để mô phỏng cách vận hành một
hệ thống chấm điểm tín dụng một cách tự động hóa, theo định hướng dữ
liệu.
NGÀY GIAO NHIỆM VỤ : 11/05/2020
NGÀY HOÀN THÀNH NHIỆM VỤ: 03/08/2020
CÁN BỘ HƯỚNG DẪN: PGS. TS. ĐẶNG TRẦN KHÁNH
PGS. TS. NGUYỄN THANH BÌNH
TP. HCM, ngày 03 tháng 08 năm 2020
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

PGS. TS. ĐẶNG TRẦN KHÁNH
TRƯỞNG KHOA


LỜI CÁM ƠN
Để hoàn thành được luận văn thạc sĩ này, tơi xin bày tỏ sự cảm kích đặc biệt tới
Phó Giáo Sư. Tiến Sĩ Đặng Trần Khánh- Người đã định hướng, trực tiếp dẫn dắt và

cố vấn cho tôi trong suốt thời gian thực hiện đề tài nghiên cứu khoa học. Xin chân
thành cảm ơn những tài liệu, và phương pháp nghiên cứu mà thầy đã chia sẻ trong
hơn một năm qua. Đồng thời, thầy cũng là người luôn cho tôi những lời khuyên vô
cùng quý giá về cả kiến thức chuyên môn cũng như định hướng phát triển sự
nghiệp. Một lần nữa, tôi xin gửi lời cảm ơn đến thầy bằng tất cả tấm lòng và sự biết
ơn của mình.
Tơi cũng xin gửi lời cảm ơn chân thành đến Phó Giáo Sư. Tiến sĩ Nguyễn
Thanh Bình đã truyền đạt cho tôi những kiến thức nền tảng về môn học Khoa Học
Dữ Liệu, và Khai Phá Dữ Liệu. Những kiến thức nền tảng trong học kỳ đầu, đã
khuyến khích, tạo động lực cho tơi tìm hiểu, nghiên cứu và vận dụng trong q trình
thực hiện luận văn này.
Ngồi ra, tơi cũng xin bày tỏ lịng biết ơn chân thành và cảm ơn các anh, chị những người đã và đang theo học chương trình cao học Hệ Thống Thơng Tin Quản
Lý tại trường Đại học Bách Khoa. Khơng có sự nhiệt thành chia sẻ thông tin, cung
cấp những phản hồi có giá trị từ các anh, chị, Tơi khơng thể hồn thành luận án này.
Tơi muốn bày tỏ sự cảm kích sâu sắc và chân thành nhất dành cho mẹ và hai chị gái
của mình. Khơng có tình u vô điều kiện, và sự nghiêm khắc từ mẹ, tôi đã không đạt
được thành công ngày hôm nay. Tiếp bước tại ngôi trường mà ba đã từng học, theo đuổi
con đường học vấn chuyên sâu, con biết ba đang rất vui và tự hào về con.
Sau cùng, tôi xin tỏ lòng biết ơn đến người bạn tri kỷ Phan Trường Giang, đã
luôn bên cạnh định hướng, chia sẻ, và ủng hộ tơi trong q trình học tập cũng như
trong thời gian hoàn thành luận văn thạc sĩ.
Gửi đến bé, Phan Nguyễn Ngọc Khánh, con là động lực và nguồn cảm hứng lớn
cho mẹ để mẹ có thể hồn thành luận án của mình với niềm vui và hạnh phúc.
Trong quá trình thực hiện luận văn, dù có nhiều cố gắng hồn thiện nhưng do
khả năng và kinh nghiệm cịn hạn chế, nên luận văn khơng thể tránh khỏi những
thiếu sót. Vì vậy, tơi rất mong nhận được sự góp ý chân thành từ q Thầy Cơ,
nhằm bổ sung và hồn thiện trong quá trình nghiên cứu tiếp theo
Xin chân thành cảm ơn.



TÓM TẮT
Trường Đại học Bách Khoa là một trong những trường đại học hàng đầu tại
Việt Nam. Tuy nhiên trong nhiều năm qua, ln có một số lượng sinh viên bậc đại
học và sau đại học khơng thể hồn thành trọn vẹn chương trình đào tạo tại trường vì
khó khăn về mặt tài chính. Vì vậy, tác giả đề xuất nghiên cứu và xây dựng một hệ
thống chấm điểm tín dụng dành cho sinh viên, cụ thể là ngành Hệ thống thông tin
quản lý. Với mục tiêu kịp thời giúp sinh viên có hồn cảnh khó khăn tập trung vào
trau dồi kiến thức mà không phải chịu áp lực chi phí học tập. Thứ hai, thơng qua
cơng tác chấm điểm tín dụng của sinh viên, nhà trường sẽ nắm bắt được những điều
kiện cần để nâng cao chất lượng đào tạo cũng như khả năng tốt nghiệp của sinh
viên. Thứ ba, với một hệ thống cơng nghệ thơng tin hồn thiện, quy trình hỗ trợ tín
dụng cho SV sẽ minh bạch và hạn chế được sự sai sót do con người. Mơ hình được
sử dụng trong nghiên cứu là mơ hình cây quyết định. Kết quả độ chính xác của mơ
hình là 91,7%. Luận văn đã xây dựng được một hệ thống mẫu – prototype để mô
phỏng cách vận hành một hệ thống chấm điểm tín dụng một cách tự động hóa, theo
định hướng dữ liệu. Đây là bước đầu tiên để xây dựng một hệ thống hoàn chỉnh
trong tương lai, thay thế các hoạt động thủ công, tiêu tốn rất nhiều nhân lực và thời
gian để xử lý.


ABSTRACT
Ho Chi Minh City University of Technology is a leading university in Vietnam.
However, in recent years, there is always a certain number of students cannot
complete the program; due to financial difficulties. Therefore, the author of the
research would like to propose a solution by developing a credit scoring system for
students, specifically for Management Information System Program. The future
system would help the university in three aspects. Firstly, Bach Khoa University
could be able to identify students who has financial difficulties at the enrollment
stage. As a result, HCMUT could provide financial support to help students to focus
on improving knowledge without being pressured by the learning costs. Secondly,

this system can grasp the necessary conditions to improve the quality of teaching
and graduation. Finally, the credit scoring solution for students provide a
transparent mechanism to reduce the human errors and bias in the process of
reviewing financial aid for students; because the scoring process will be done by
algorithms. The model to be built in the solution is based on Decision Tree
algorithms and the accuracy is 91,7%. The thesis has built a prototype to simulate
how to operate a credit scoring system for students in an automated and data-driven
approach. This is the first step to build a complete system in the future and to
replace manual operations, consuming a lot of human resources and time for
processing.


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn về đề tài “Fintech Trong Giáo Dục: Hệ Thống Chấm
Điểm Tín Dụng Dành Cho Sinh Viên Cao Học Ngành Hệ Thống Thông Tin Quản
Lý Trường Đại Học Bách Khoa Tp. HCM” là cơng trình nghiên cứu cá nhân của tơi
trong thời gian qua.
Mọi số liệu sử dụng trong luận văn và kết quả nghiên cứu là do tơi thu thập, phân
tích một cách khách quan, trung thực, có nguồn gốc rõ ràng và chưa được cơng bố
dưới bất kỳ hình thức nào. Tơi xin chịu hồn tồn trách nhiệm nếu có sự khơng
trung thực trong thơng tin sử dụng trong cơng trình nghiên cứu này.
Hồ Chí Minh, ngày 3 tháng 8 năm 2020
Tác giả luận văn

Nguyễn Hữu Hương Xuân


MỤC LỤC
CHƯƠNG 1 - GIỚI THIỆU TỔNG QUAN ĐỀ TÀI.............................................6
1.1. Lý Do Chọn Lựa Đề Tài ...................................................................................6

1.2. Mục Tiêu Của Nghiên Cứu ...............................................................................7
1.3. Đối Tượng Nghiên Cứu ....................................................................................7
1.4. Giới Hạn Của Nghiên Cứu ...............................................................................8
1.5. Ý Nghĩa Thực Tiễn ............................................................................................8
1.6. Cấu Trúc Luận Văn ..........................................................................................9
CHƯƠNG 2 - TỔNG QUAN CÁC LĨNH VỰC NGHIÊN CỨU .......................10
2.1. Khái Quát Về Lý Thuyết Hệ Thớng Thơng Tin (Information System) ............10
2.2. Chấm điểm tín dụng........................................................................................11
2.2.1. Giới thiệu về chấm điểm tín dụng ...........................................................11
2.2.2. Mơ hình chấm điểm tín dụng ...................................................................12
2.2.3. Ưu điểm và nhược điểm của hai phương thức chấm điểm tín dụng........14
2.2.3.1. Ưu điểm ................................................................................................14
2.2.3.2. Nhược điểm ..........................................................................................15
2.2.4. Các mơ hình thuật tốn được sử dụng trong phân loại, xếp hạng và chấm
điểm tín dụng dành cho sinh viên ......................................................................16
2.2.4.1. Cây quyết đinh (Decision Tree) ............................................................17
2.2.4.2. Phân loại Naive Bayes ..........................................................................17
2.2.4.3. Neural Network ....................................................................................18
2.2.4.4. K-Nearest Neighbors ............................................................................18
2.3. Đào tạo sau đại học tại Việt Nam ..................................................................19
2.3.1. Hiện trạng giáo dục sau đại học tại Việt Nam nói chung và tại trường
ĐHBK TPHCM nói riêng ..................................................................................19
2.3.2. Các yếu tố ảnh hưởng đến kết quả học tập bậc cao học ..........................19
2.4. Các cơng trình nghiên cứu liên quan đến việc chấm điểm SV và dự đoán kết
quả học tập ............................................................................................................20
2.5. Tóm tắt ............................................................................................................21
CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU ..................................................23
3.1. Đề xuất phương pháp tiếp cận .......................................................................23
3.1.1. Quy trình hỗ trợ SV hiện tại ....................................................................24
1



3.1.1.1. Mơ tả quy trình .....................................................................................25
3.1.1.2. Các vấn đề được xác định với hệ thống hiện có ...................................26
3.1.2. Đề xuất quy trình .....................................................................................27
3.1.2.1. Mơ tả hệ thống được đề xuất ................................................................30
3.1.2.2. Quy trình chấm điểm được xây dựng trong bản prototype ..................31
3.2. Mô tả kết quả đầu ra ......................................................................................32
3.2.1. Cách tiếp cận chấm điểm tín dụng trong bối cảnh trường ĐHBK ..........32
3.2.2. Phương pháp chấm điểm tín dụng trong bối cảnh trường ĐHBK ...........33
3.2.3. Định nghĩa điều kiện loại bản ghi không hợp lệ ra khỏi tập dữ liệu dùng
để xây dựng mơ hình .........................................................................................35
3.2.4. Kết quả của mơ hình ................................................................................35
3.3. Phạm vi đề tài .................................................................................................36
3.4. Phương pháp thu thập sớ liệu ........................................................................37
3.5. Mơ hình Cây Quyết Định (Decision Tree) .....................................................37
CHƯƠNG 4: THỰC NGHIỆM VÀ KẾT QUẢ THỰC NGHIỆM ....................39
4.1. Dữ liệu ............................................................................................................39
4.1.1. Mơ tả dữ liệu ............................................................................................39
4.1.2. Phân tích kết quả ......................................................................................44
4.2. Kết quả thực nghiệm .......................................................................................48
4.2.1. Giao diện nhập liệu .................................................................................49
4.2.2. Trường hợp Sinh Viên không thuộc ĐHBK ...........................................49
4.2.3. Trường hợp Sinh Viên thuộc ĐHBK ......................................................50
CHƯƠNG 5: KẾT LUẬN, VÀ CÁC HƯỚNG NGHIÊN CỨU TRONG
TƯƠNG LAI ............................................................................................................54
5.1. Kết luận ..........................................................................................................54
5.1.1 Đóng góp của nghiên cứu .........................................................................54
5.1.2. Hạn chế của nghiên cứu ...........................................................................55
5.2. Nghiên cứu trong tương lai ............................................................................55

DANH MỤC TÀI LIỆU THAM KHẢO ...............................................................57
Phụ lục 1: Nội dung bảng câu hỏi khảo sát...........................................................60
Phụ lục 2: Bảng thu thập dữ liệu SV Cao học- Ngành Quản lý hệ thống thông
tin trường ĐHBK. TP HCM ..................................................................................67
2


DANH MỤC CHỮ VIẾT TẮT
Sinh Viên

SV

Đại Học Bách Khoa

ĐHBK

Đại học Quốc gia TPHCM

ĐHQG TPHCM

Thạc sĩ

Th. S

Tiến sĩ

TS

Công Nghệ Thông Tin


CNTT

Hệ thống thơng tin quản lý

HTTTQL

Bộ Gíao Dục Và Đào Tạo

Bộ GD&ĐT

Đại Học

ĐH

Cao Đẳng



Ngân Hàng Nhà Nước

NHNN

Nhà Cung Cấp

NCC

Hệ Thống Thông Tin

HTTT


Khai Phá Dữ Liệu Giáo Dục

KPDLGD

Nghiên cứu khoa học

NCKH


DANH MỤC HÌNH
Hình 01: Mơ tả các cấu phần trong một Hệ thống thơng tin .....................................10
Hình 02: Màn hình nhập dữ liệu để khởi tạo quá trình để thực hiện chấm điểm tín
dụng ...........................................................................................................................27
Hình 03: Màn hình nhập đối sốt với dữ liệu MSSV để kiểm tra bước đầu ............28
Hình 04: Màn hình nhập dữ liệu điểm quá trình để thực hiện chấm điểm tín dụng .28
Hình 05: Màn hình nhập dữ liệu nhân khẩu học để thực hiện chấm điểm tín dụng .29
Hình 06: Dữ liệu nhập vào mơ hình để đưa ra kết quả. ............................................29
Hình 07: Hiển thị kết quả sau khi nhập dữ liệu.........................................................29
Hình 08: Mơ phỏng hệ thống chấm điểm tín dụng dành cho SV tại trường ĐH BK30
Hình 09: Quy trình chấm điểm tín dụng được thực hiện thí điểm trong luận văn ....31
Hình 10: Dữ liệu SV..................................................................................................39
Hình 11: Mức độ chính xác của mơ hình cây quyết định .........................................45
Hình 12: Mơ hình cây quyết định .............................................................................48
Hình 13: Màn hình nhập liệu ....................................................................................49
Hình 14: Màn hình kết quả chấm điểm, kết thúc quy trình nộp hồ sơ đối với SV cần
cân nhắc. ....................................................................................................................50
Hình 15: Màn hình nhập thơng tin nhân khẩu học ....................................................51
Hình 15 mơ phỏng màn hình nhập thơng tin nhân khẩu học của người nộp đơn. Tại
đây, các trường thuộc về thông tin nhân khẩu học, bắt buộc phải được khai báo đầy
đủ. ..............................................................................................................................51

Hình 16: Màn hình nhập thơng tin điểm q trình ....................................................52
Hình 17: Màn hình kết quả chấm điểm, kết thúc quy trình nộp hồ sơ đối với SV
tiềm năng. ..................................................................................................................53
Hình 18: Bảng câu hỏi về nhân khẩu học .................................................................67
Hình 19: Bảng câu hỏi về quá trình học tập ..............................................................68
Hình 20: Kết quả bảng câu hỏi được lưu trữ trên Google form ................................69

4


DANH MỤC BẢNG
Bảng 01: Ví dụ các sản phẩm chấm điểm tín dụng sử dụng dữ liệu phi truyền thống14
Bảng 02: Bảng mô tả phân bổ dữ liệu đầu vào ......................................................... 44
Bảng 03: Mức độ chính xác của dữ liệu theo từng tập dữ liệu ................................. 47
Bảng 04: Confusion Matrix ....................................................................................... 47

5


CHƯƠNG 1 - GIỚI THIỆU TỔNG QUAN ĐỀ TÀI
1.1. Lý Do Chọn Lựa Đề Tài
Xã hội ngày càng phát triển thì nhu cầu được học tập của người dân ngày càng
cao, nhất là đối với những người có thu nhập thấp muốn vươn lên. Trước đây, nhiều
sinh viên (SV) có học lực khá, giỏi đủ điểm vào các trường đại học, dạy nghề, …
nhưng đành gác lại những mơ ước hết sức chính đáng của mình do khơng đủ tài
chính, cịn có những trường hợp học đến năm cuối nhưng do hồn cảnh khó khăn.
Theo báo cáo được thực hiện bởi Bộ GD&ĐT, trong 180 trường ĐH, CĐ có
1.163 em (556 SV học hệ ĐH và 607 SV học hệ CĐ), nghỉ học vì khơng có khả
năng đóng học phí, chiếm tỷ lệ khoảng 0,12% trên tổng số sinh viên (SV). Bên cạnh
đó, số lượng SV phải bỏ học tập trung ở một số trường đóng trên các địa bàn cịn

khó khăn về kinh tế khoảng 30%. Thời điểm SV bỏ học tập trung vào năm thứ nhất
hoặc năm thứ hai (1.029 SV, chiếm 88%). [1]
Theo báo cáo của Ngân hàng Nhà Nước (NHNN), cụ thể, từ năm 1994, Việt
Nam đã bắt đầu áp dụng hình thức cho SV vay vốn từ Quỹ tín dụng đào tạo. Với số
vốn ban đầu khoảng 65,5 tỷ đồng và việc huy động gặp khó khăn nên trong suốt gần
10 năm thực hiện, Quỹ chỉ đáp ứng được một phần nhỏ nhu cầu vay vốn của SV
nghèo. Từ năm 1994 đến năm 2010 đã có khoảng 1,9 triệu SV vay được vốn. Xét
vào năm 2018, Ngân hàng Việt Nam đã hỗ trợ gần 51 nghìn HS, SV có hồn cảnh
khó khăn được vay vốn học tập. [2]. Tuy nhiên, giáo dục đại học năm học 2018,
Việt Nam có 235 trường đại học, 1,76 triệu SV. Như vậy, tổng số SV tiếp cận được
nguồn hỗ trợ vay vốn cho đi học chỉ chiếm 0.35%.
Cụ thể, tại trường ĐHBK TP. HCM theo TS. Lê Chí Thơng, Trưởng phòng Đào
tạo Trường ĐHBK TP.HCM, tỷ lệ “rơi rụng” mỗi khóa lên tới 30%. Với hơn 4.000
SV nhập học sẽ có khoảng 1.200 SV khơng thể tốt nghiệp. Theo TS. Lê Chí Thơng,
số SV bỏ học sau năm thứ nhất khá nhiều và nhiều nhất trong các năm. Những SV
vượt qua được năm thứ nhất thì sẽ dễ dàng vượt qua các năm sau đó. Chỉ sau năm
đầu tiên này, tỷ lệ bỏ học có thể lên tới 15% trên tổng số nhập học. [3].
Lý do thôi học đến từ nhiều nguyên nhân như các em đi du học nước ngồi, học
lại chương trình hoặc học lại trường khác. Nhưng cũng có trường hợp chọn một
hướng đi khác hoặc không theo đại học nữa. Tuy nhiên, để hạn chế và giảm thiểu tỷ
lệ SV thơi học vì lý do tài chính ngay từ năm 1, năm 2, nhà trường cần một cách
6


tiếp cận với các Quỹ hỗ trợ tài chính một cách nhanh chóng, thiết thực và hiệu quả
hơn.
Do đó, việc vận dụng thế mạnh về CNTT, kết hợp với nghiên cứu về khai thác
dữ liệu dựa trên lý thuyết chấm điểm tín dụng, tác giả đề xuất xây dựng một hệ
thống tự động chấm điểm và phân loại SV. Đây cũng là lý do hình thành đề tài: “Hệ
Thống Chấm Điểm Tín Dụng Dành Cho Sinh Viên Cao Học Ngành Hệ Thống

Thông Tin Quản Lý Trường Đại Học Bách Khoa TP. HCM”
1.2. Mục Tiêu Của Nghiên Cứu
Nghiên cứu này được thực hiện với mục tiêu xây dựng một hệ thống chấm điểm
tín dụng linh hoạt, và minh bạch giúp cho SV được hỗ trợ để tiếp tục đến trường,
trở thành chỗ dựa vững chắc cho HSSV nghèo theo đuổi ước mơ học tập.
Mục tiêu của nghiên cứu là:
- Đề xuất mô hình đánh giá chấm điểm tín dụng dành cho SV cao học ngành
HTTTQL.
- Xây dựng mơ hình chấm điểm tín dụng dựa trên dữ liệu SV cao học ngành
HTTTQL.
- Dựa trên kết quả phân loại SV cao học ngành HTTTQL, sự giàu có về mặt dữ
liệu theo thời gian, nhà trường sẽ bắt đầu có định hướng về lộ trình đào tạo.
Từ đó nâng cao chất lượng đào tạo, và khả năng tốt nghiệp.
1.3. Đối Tượng Nghiên Cứu
Đối tượng nghiên cứu: là SV cao học ngành HTTTQL từ năm 2014-2019, thuộc
trường ĐHBK
- Phạm vi thực hiện:
• Đề tài được thực hiện giới hạn trong phạm vi ngành HTTTQL, bậc sau đại
học của trường ĐHBK
• Đề tài chỉ sử dụng phương pháp khai phá dữ liệu, dựa vào mơ hình cây
quyết định để phân lớp dữ liệu và đưa ra kết quả tham khảo cho người
thực hiện chấm điểm.
• Đề tài khơng định hướng cụ thể các gói hỗ trợ SV (bao gồm hiện vật và
hiện kim) để ứng dụng trong thực tế.
- Thời gian thực hiện: từ tháng 9/2019 đến tháng 7/2020
7


1.4. Giới Hạn Của Nghiên Cứu



Về đối tượng nghiên cứu, hiện tại, vì khơng có dữ liệu mẫu từ các trường
đại học nói chung, hoặc trường Đại học Bách Khoa nói riêng, nên đối
tượng nghiên cứu được giới hạn cho SV cao học ngành HTTTQL.



Về mơ hình chấm điểm, luận văn được xây dựng dựa trên việc tham
khảo nghiên cứu “Phương Pháp Dự đoán, xếp hạng và khai thác dữ liệu
giáo dục bậc cao học” của Asmaa A. Elbadrawy và nghiên cứu về “Điều
tra các yếu tố ảnh hưởng đến hiệu suất học tập của SV trong trường đại
học” do Abigale Wynn thực hiện



Về kết quả chấm điểm tín dụng, tác giả chỉ đề xuất tên gọi, không gắn
liền với sản phẩm, hay đơn vị tài chính thực tiễn.

1.5. Ý Nghĩa Thực Tiễn
- Về xã hội, hệ thống này hướng tới ba mục tiêu chính.


Mục tiêu đầu tiên là giúp SV có hồn cảnh khó khăn có cơ hội đến
trường và tập trung trau dồi kiến thức.



Mục tiêu thứ hai, với kết quả học tập mà SV đạt được thông qua từng
học kỳ, mỗi SV sẽ có một chương trình khuyến học khác nhau để khuyến
khích SV hồn thành chương trình học với kết quả tốt nhất.




Cuối cùng, về phía nhà trường, thơng qua phân tích kết quả của SV, nhà
trường sẽ đánh giá được khả năng tốt nghiệp và phát triển của SV (tại bất
kì thời điểm nào so với thời điểm nhập học). Từ đó, nhà trường có thể
đánh giá khung chương trình giảng dạy, có phương án nâng cấp vả cải
thiện chất lượng giảng dạy, tỷ lệ tốt nghiệp trong tương lai.

-

Về ý nghĩa khoa học, đề tài này đề xuất hỗ trợ chấm điểm tín dụng cho SV
ngành HTTTQL theo hướng khai phá dữ liệu (data mining). Có ba khía cạnh
khoa học đạt được sau khi triển khai hệ thống này, bao gồm:


Thứ nhất, một hệ thống CNTT áp dụng vào lĩnh vực giáo dục, cụ thể là
hỗ trợ tín dụng. Tạo tiền đề cho các nghiên cứu sâu về ứng dụng CNTT
trong các lĩnh vực khác thuộc ngành giáo dục. Hạn chế sự phụ thuộc vào
các nhà cung cấp (NCC) phần mềm bên ngoài thị trường.



Thứ hai, trước đây, việc hỗ trợ tín dụng cho vay hỗ trợ đến trường thường
được thực hiện một cách thủ công, dựa trên các chứng từ, hồ sơ. Với hệ
8


thống này, trình hỗ trợ tín dụng cho SV sẽ minh bạch và hạn chế được sự sai
sót và thiên kiến của người dùng, bởi vì việc chấm điểm và hỗ trợ tín dụng sẽ

hồn tồn được thực hiện bằng thuật tốn, và cơng nghệ.


Cuối cùng, với hệ thống gần như trong thời gian thực (realtime) việc hỗ
trợ tín dụng có thể thực hiện ở mọi lúc, mọi nơi.

1.6. Cấu Trúc Luận Văn
Đề tài luận văn bao gồm 6 chương:
Chương 1 - Giới thiệu đề tài, lý do vì sao chọn đề tài và các ý nghĩa thực tiễn cũng
như khoa học sau nghiên cứu.
Chương 2 – Diễn giải các khái niệm chính về Hệ thống thơng tin quản lý, Chấm
điểm tín dụng, các mơ hình chấm điểm tín dụng. Bên cạnh đó, tác giả cũng định
hướng phương pháp thực hiện chiếm điểm tín dụng của SV dựa trên các cơng
trình nghiên cứu khoa học trước đây.
Chương 3 - Diễn dịch phương pháp nghiên cứu được thông qua để đạt được các
mục tiêu của luận văn này. Đầu tiên là phương pháp nghiên cứu, các bước tiếp
cận vấn đề và phạm vi đề tài.
Chương 4 – Mô tả chi tiết các nội dung được nêu trong phương pháp luận ở chương
03. Bao gồm, phân tích quy trình hiện tại, đề xuất hướng tiếp cận mới, giữa hai
phương pháp, những gì cịn thiếu sót sẽ được ghi nhận tại phân tích GAP. Sau
đó, tác giả sẽ đi sâu vào bộ xử lý lõi của HTTT – Mơ hình dữ liệu. Đầu tiên, dữ
liệu được sử dụng trong nghiên cứu sẽ được mô tả về nguồn cung cấp, loại dữ
liệu và phương pháp nghiên cứu được sử dụng cho dữ liệu đó. Phần cuối của
chương 04, sẽ đánh giá độ chính xác của mơ hình để áp dụng cho cơng việc tạo
mơ đun lõi xử lý của hệ thống.
Chương 05 – Trình bày kết quả thực nghiệm.
Chương 06 – Trình bày kết luận các kết quả nghiên cứu và trình bày cơng việc và
khuyến nghị trong tương lai.

9



CHƯƠNG 2 - TỔNG QUAN CÁC LĨNH VỰC NGHIÊN CỨU
Mục tiêu nghiên cứu của chương này nhằm tiếp cận một số cơ sở lý luận về HTTT,
các yếu tố liên quan và các phương pháp tiếp cận lĩnh vực xếp hạng tín dụng nói
chung, xếp hạng dành cho SV nói riêng. Từ đó, hình thành cơ sở và phương pháp
luận để tiếp tục nghiên cứu trong các chương tiếp theo.
2.1. Khái Quát Về Lý Thuyết Hệ Thống Thông Tin (Information System)
Hệ thống thông tin là một tập hợp các thành phần liên quan với nhau để thực hiện
chuỗi công việc từ thu thập đầu vào (input), xử lý (process), lưu trữ (store) và đầu ra
(output) dữ liệu (data) hoặc thông tin (information) để phản hồi một yêu cầu nào đó.
Cơ chế thu thập, xử lý và phản hồi này được một tổ chức nào đó sử dụng để đạt
được mục đích nào đó ví dụ mục đích tăng lợi nhuận của hoạt động kinh doanh
hoặc giảm chi phí vận hành [4].

Hình 01: Mơ tả các cấu phần trong một Hệ thống thông tin
Đầu vào - Input
Trong một hệ thống thông tin, thu thập đầu vào (collect input) là một tập hợp các
hoạt động thu thập dữ liệu thơ [4]. Ví dụ:
• Khách hàng phải nhập mã PIN vào màn hình máy ATM để được xác thực
trước khi thực hiện giao dịch.
• Giảng viên phải nhập liệu điểm của SV vào hệ thống của nhà trường để hệ
thống xử lý và lưu trữ trước khi gửi điểm đến SV.
Xử lý – Processing

10


Trong một hệ thống thơng tin, xử lý (processing) có nghĩa thực hiện biến đổi dữ liệu
thô đầu vào thành thơng tin đầu ra có giá trị (useful output) (Ralph M. Stair, George

W. Reynolds, 2015, p.9). Quá trình xử lý có thể bao gồm thực hiện tính tốn như
cộng trừ nhân chia, so sánh dữ liệu đầu vào với dữ liệu từ một nguồn khác hoặc tìm
phương pháp thay thế để xử lý như xóa bớt một số bản ghi trong tập dữ liệu đầu vào
[4].
Sau khi quá trình biến đổi hoàn tất kết quả sẽ được lưu lại để phục vụ cho lần sử
dụng tiếp theo.
Đầu ra – Output
Trong một hệ thống thông tin, đầu ra thường là những thơng tin có giá trị (useful
information) và các thơng tin này thường được thể hiện trong dạng báo cáo hoặc
văn bản. [4].
Ví dụ: Thơng tin đầu ra có thể là bảng điểm tổng hợp các môn trong học kỳ của SV.
Phản hồi – Feedback
Phản hồi là thông tin được hệ thống tạo ra để thay đổi dữ liệu đầu vào hoặc thay đổi
q trình xử lý dữ liệu.
Ví dụ: Điểm thi của SV chỉ nằm trong khoảng từ 0 tới 10, tuy nhiên giảng viên nhập
vào hệ thống là 11. Khi đó hệ thống sẽ phản hồi bằng thơng báo lỗi số điểm nhập
vào không hợp lệ và giảng viên cần nhập liệu lại.
2.2. Chấm điểm tín dụng
2.2.1. Giới thiệu về chấm điểm tín dụng
Các khái niệm về chấm điểm và xếp hạng tín dụng bắt đầu từ thập kỷ 70, dự báo rủi
ro tài chính đã trở thành một hướng phát triển mạnh mẽ của mơ hình hóa xác suất
thống kê. Trong đó, chấm điểm tín dụng, là q trình thu thập, phân tích và phân
loại các biến khác nhau liên quan đến tín dụng để đưa ra các quyết định tín dụng,
Hand và Jacka, (1998, tr. 106) và Anderson (2007). Kết quả đầu ra của quá trình
này thường là một báo cáo tín dụng và trong báo cáo này thước đo chính là điểm tín
dụng của cá nhân hay tổ chức có nhu cầu vay vốn. Đối với các tổ chức tài chính –
ngân hàng (bên cho vay) thì điểm tín dụng thể hiện “uy tín” của người đi vay và mô
11



tả về khả năng tương đối mà người đi vay có thể mất khả năng thanh tốn trong
tương lai [5].
Hay hiểu một cách đơn giản, các tổ chức tài chính sử dụng kết quả của q trình
chấm điểm tín dụng để đánh giá khả năng thanh toán đúng hạn các khoản gốc và lãi
của người đi vay. Điểm tín dụng giúp tổ chức tài chính phân biệt giữa người vay tốt
và không tốt. Một người vay tốt chỉ đơn giản là người thanh toán các khoản lãi và
gốc theo đúng lịch trình mà tổ chức tín dụng đặt ra.
2.2.2. Mơ hình chấm điểm tín dụng
Để có thể tạo ra báo cáo tín dụng cho một cá nhân hay tổ chức đi vay, các tổ chức
tài chính – ngân hàng đã áp dụng hai kỹ thuật: “Cán bộ thẩm định khoản vay sẽ ghi
đánh giá chủ quan của họ vào báo cáo hoặc tổ chức tài chính – ngân hàng sử dụng
phương pháp chấm điểm tín dụng” (Crook, 1996). Trong phương pháp chấm điểm
tín dụng cũng tồn tại hai mơ hình chấm điểm khác nhau là mơ hình chấm điểm tín
dụng truyền thống và mơ hình chấm điểm tín dụng phi truyền thống. [6, 7]
Điểm tín dụng ban đầu được đánh giá một cách chủ quan theo kinh nghiệm cá nhân
và sau đó nó được dựa trên năm tiêu chuẩn: đặc điểm tiêu dùng, vốn, tài sản thế
chấp, năng lực và điều kiện kinh tế. Cụ thể, mơ hình chấm điểm tín dụng truyền
thống thường được các ngân hàng áp dụng chỉ sử dụng các biến (trường dữ liệu)
liên quan tới hành vi tín dụng của người hoặc tổ chức đi vay [8]. Trong đó, Fair
Isaac Corporation (FICO) tại Hoa Kỳ là đơn vị dẫn đầu trên thế giới về mô hình
chấm điểm tín dụng truyền thống và phi truyền thống. Đối với mơ hình chấm điểm
tín dụng truyền thống FICO thu thập, phân tích và xây dựng thuật tốn chấm điểm
dựa trên báo cáo tín dụng/tài chính của người tiêu dùng trên khắp Hoa Kỳ và nhiều
khu vực trên thế giới. Theo CFPB vào năm 2010 khoảng 90% các tổ chức cho vay
tại Hoa Kỳ sử dụng điểm tín dụng từ FICO để ra quyết định cho vay.
Nhưng với sự gia tăng mạnh mẽ về số lượng các khách hàng, chấm điểm tín dụng
khơng thể tiến hành thủ cơng được nữa. Nhiều tổ chức tín dụng đang phát triển mơ
hình chấm điểm mới để hỗ trợ các quyết định tín dụng của mình, nếu nhiều khách
hàng xứng đáng được cấp tín dụng hơn cũng đồng nghĩa lợi nhuận của họ cũng tăng
lên.

12


Mơ hình chấm điểm tín dụng phi truyền thống thường sử dụng các biến (dữ liệu)
thay thế khác (alternative data) như dữ liệu thuê nhà, dữ liệu hóa đơn điện [9] hoặc
dữ liệu về lịch sử lướt web hay dữ liệu về tọa độ địa lí có liên quan tới các hoạt
động xã hội, vui chơi giải trí.
Theo Hurley and Adebayo, trong bài viết “Credit Scoring in The Era of Big Data”
[8], Một số ví dụ về các cơng ty tại Hoa Kỳ cung cấp dịch vụ chấm điểm tín dụng
phi truyền thống:
Cơng Ty Và

Ví Dụ Về Dữ Liệu Đầu Vào

Sản Phẩm
Lexisnexis

-

Ổn định dân cư, quyền sở hữu tài sản, phân tích giai đoạn
cuộc sống, hành vi và thế chấp tài sản, hồ sơ thuế, lịch sử tội

riskview

phạm, lịch sử việc làm và địa chỉ, thế chấp và phán quyết của tòa
án, xác minh ID, và giấy phép làm việc.
FICO

-


Kế hoạch thanh toán, kiểm tra tài khoản, dữ liệu tài sản, hồ

Expansion

sơ công khai, hồ sơ tài khoản tiền gửi khơng kỳ hạn, thơng tin hóa

Score

đơn điện thoại di động và điện thoại cố định, phá sản, thế chấp,
phán quyết tòa án, hồ sơ câu lạc bộ tham dự, dữ liệu ghi nợ và
thơng tin tài sản.

Experian



Dữ liệu thanh tốn cho các dịch vụ, dữ liệu hỗ sơ công cộng.

Income
Insight
EquifaxDecision 360

Thanh tốn tiện ích phía mạng dịch vụ, việc làm được xác
minh, thu nhập được mơ hình hóa, việc thu nợ xảy ra đúng hạn,
khả năng chi tiêu, thông tin tài sản, thanh tốn theo lịch trình, tỷ lệ
nợ trên thu nhập, điểm phá sản.

Transunioncreditvision
Zest Finance


Lịch sử địa chỉ, số dư trên các dịng thương mại, hạn mức tín
dụng, số tiền quá hạn, số tiền thanh toán thực tế.
Báo cáo tín dụng chính của cục và hàng ngàn biến số khác
"bao gồm thơng tin tài chính, khách hàng sử dụng công nghệ và
13


tốc độ lướt qua các điều khoản dịch vụ nhanh như thế nào.
Báo cáo tín dụng, dữ liệu mạng xã hội, người dùng lướt qua

Lendup

trang web Lendup nhanh như thế nào.
Dữ liệu vị trí (ví dụ: GPS), biểu đồ xã hội (thích làm gì, bạn

Kreditech

(Khơng có ở bè, địa điểm, bài đăng), phân tích hành vi (chuyển động và thời
Mỹ)

lượng trên trang web), thương mại điện tử, hành vi mua sắm, dữ
liệu thiết bị (cài đặt ứng dụng, hệ điều hành).
Công việc hiện tại, tiền lương, lịch sử giáo dục, số dư trong

Earnest

tài khoản tiết kiệm hoặc hưu trí, dữ liệu hồ sơ trực tuyến (ví dụ:
Linkedln) và thơng tin thẻ tín dụng
Điểm tín dụng, xác minh nghề nghiệp, kiểm tra gian lận, ổn


Demyst Data

định việc làm, lịch sử công việc và dấu vết trên các mạng xã hội
trực tuyến.
Bảng 01: Ví dụ các sản phẩm chấm điểm tín dụng sử dụng dữ liệu phi
truyền thống
2.2.3. Ưu điểm và nhược điểm của hai phương thức chấm điểm tín dụng
2.2.3.1. Ưu điểm
Cả hai mơ hình chấm điểm tín dụng truyền thống và phi truyền thống đều mang
lại lợi ích thiết thực cho cả người vay và người cho vay. Theo Loretta J. Mester
(1997), lợi ích lớn nhất của mơ hình chấm điểm tín dụng là giúp rút ngắn thời gian
thẩm định và ra quyết định tín dụng đi đáng kể từ vài tuần còn từ 2 giờ đến 12 giờ
đồng hồ. Điều này giúp bên cho vay và bên cần vay tiết kiệm được rất nhiều chi phí
liên quan. Ngồi ra việc lượng hóa được rủi ro mà người vay có thể mất khả năng
thanh toán cũng giúp bên cho vay có được lợi ích đáng kể (Schreiner, 2002;
Schreiner, 2004; De Young, Glennon & Nigro, 2008). Cụ thể bên cho vay có thể
giảm rủi ro phải trích lập nguồn vốn để dự phòng trường hợp khách hàng vỡ nợ
bằng cách với những khách hàng có rủi ro vỡ nợ cao họ sẽ phải chịu lãi suất cao
hơn và các điều khoản thanh toán chặt chẽ hơn. Đối với những khách hàng có rủi ro
vỡ nợ thấp họ có thể nhận được lãi suất vay thấp hơn cũng như các ưu đãi khác như
giãn cách thời gian giữa hai lần thanh toán sẽ dài hơn.
14


2.2.3.2. Nhược điểm
Tuy nhiên, mơ hình chấm điểm tín dụng truyền thống và phi truyền thống đều
tồn tại những khuyết điểm cần phải lưu ý trong quá trình triển khai và sử dụng.
Điểm đầu tiên Loretta J. Mester (1997), mô hình chấm điểm tín dụng truyền thống
và phi truyền thống chỉ có thể dự đốn khả năng tương đối một người vay có thể trở
thành khách hàng xấu hoặc tốt chứ khơng thể cam kết sự kiện nào có thể xảy ra

trong tương lai.
Riêng đối với mơ hình chấm điểm tín dụng truyền thống, khuyết điểm lớn nhất
của phương pháp này khơng thể dự đốn xác suất một khách hàng có thể trở thành
khách hàng xấu hay tốt nếu người này chưa từng có lịch sử tín dụng với các tổ chức
tài chính – ngân hàng [7]. Trong trường hợp này, bên cho vay cần nghiên cứu các
nguồn dữ liệu thay thế (alternative data) để thực hiện chấm điểm để tránh tình trạng
người có nhu cầu vay khơng thể vay vì họ khơng có lịch sử tín dụng, báo cáo và
điểm tín dụng. Tuy nhiên, người có nhu cầu vay sẽ khơng có lịch sử tín dụng, báo
cáo và điểm tín dụng nếu họ khơng được cấp tín dụng lần đầu tiên để sử dụng.
Đối với mơ hình chấm điểm phi truyền thống, khuyết điểm lớn nhất của
phương pháp này là việc đảm bảo quyền riêng tư (privacy) của người có nhu cầu
vay. Các giải pháp chấm điểm tín dụng phi truyền thống hiện nay có thể truy cập vơ
số các nguồn dữ liệu khác nhau về người có nhu cầu vay mà người này có thể
khơng hề hay biết [8]. Hơn thế nữa, việc mơ hình chấm điểm tín dụng phi truyền
thống có thể truy cập và thu thập những dữ liệu sai về người có nhu cầu vay từ
khơng gian mạng, những nguồn dữ liệu khơng chính xác dẫn tới kết quả đầu ra
khơng chính xác vào các tổ chức tín dụng có thể sử dụng những kết quả sai lệch này
để ra các quyết định tín dụng khơng cơng bằng với người có nhu cầu vay.
Có thể thấy mơ hình chấm điểm tín dụng là mơ hình tiên tiến và có nhiều ưu
điểm mang lại lợi ích cho các bên. Tuy nhiên bên cạnh đó mơ hình này vẫn có tồn
tại những khuyết điểm đáng lưu ý và cần phải được nhấn mạnh trong quá trình xây
dựng và áp dụng vào thực tế để đảm bảo mọi người có cơ hội tiếp cận nguồn tín
dụng một cách công bằng và không bị phân biệt đối xử.

15


2.2.4. Các mơ hình thuật tốn được sử dụng trong phân loại, xếp hạng và chấm
điểm tín dụng dành cho sinh viên
Phân loại là thuật toán xây dựng các cấu trúc từ các dữ liệu trong quá khứ, để

tạo thành nền tảng trong các quyết định ở tương lai [10]. Phân loại dữ liệu là một
quá trình gồm hai bước.
Trong bước đầu tiên, một mơ hình được xây dựng bằng cách phân tích từ bộ dữ
liệu huấn luyện với một tập các thuộc tính. Đối với mỗi bộ dữ liệu huấn luyện, giá
trị đầu ra được xác định trước. Thuật toán phân loại được áp dụng trên bộ dữ liệu
đào tạo để tạo ra mơ hình.
Trong bước thứ hai của phân loại, dữ liệu thử nghiệm được sử dụng để kiểm tra
độ chính xác của mơ hình. Nếu độ chính xác của mơ hình có thể chấp nhận được thì
mơ hình có thể được sử dụng để phân loại. Mức độ chính xác của mơ hình được xác
định bởi người vận hành hệ thống. Các kỹ thuật cơ bản để phân loại là cảm ứng cây
quyết định, phân loại Naives Bayes, mạng lưới thần kinh...
Nhiều nghiên cứu đã được phát triển trong việc phân loại, xếp hạng để dự đoán
thành tích của SV. Trong nghiên cứu của Saurabh Pal [11] đã xây dựng một mơ
hình sử dụng các phương pháp khai thác dữ liệu để dự đốn SV nào có thể bỏ học
trong năm đầu tiên trong một chương trình đại học. Nghiên cứu đó đã sử dụng thuật
tốn phân loại Nave Bayes để xây dựng mơ hình dự đốn dựa trên dữ liệu quá khứ.
Kết quả của hệ thống rất hứa hẹn cho việc xác định các SV cần đặc biệt chú ý để
giảm tỷ lệ bỏ học.
Leila Dadkhahan [12] đã cố gắng liệt kê các hoạt động cần thiết cho việc giữ
chân SV tại các cơ sở giáo dục đại học để giảm số lượng SV bỏ học. Dựa vào đó,
việc sử dụng các kỹ thuật khai thác dữ liệu đã dẫn đến tăng tỷ lệ giữ chân SV và tỷ
lệ tốt nghiệp. Mohammad Alsuwaiket [13] đã sử dụng Neural Networks (ANN), và
k-Nearest Neighbors (knn) để phân loại và Đo lường kết quả học tập của SV trong
giáo dục cao học.
R. R. Kabra [14] đã sử dụng thuật tốn cây quyết định được áp dụng để tạo mơ
hình dự đoán hiệu suất của SV kỹ thuật dựa vào dữ liệu trong quá khứ.

16



2.2.4.1. Cây quyết đinh (Decision Tree)
Cây quyết định có cấu trúc giống biểu đồ dòng chảy. Cây quyết định được dùng
để phân lớp các đối tượng dựa vào dãy các luật (series of rules). Các thuộc tính của
đối tượng (ngoại trừ thuộc tính phân lớp – Category attribute) có thể thuộc các kiểu
dữ liệu khác nhau (Binary, Nominal, Ordinal, Quantitative values) trong khi đó
thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal. Mục tiêu của cây
quyết định là sau khi đưa dữ liệu đầu vào, thuật toán sẽ sinh ra các luật để dự đoán
lớp của các dữ liệu chưa biết.
Ưu điểm của thuật toán cây quyết định là tính đơn giản và phổ biến. Với mơ
hình sinh ra từ các dữ liệu ban đầu, thuật toán sẽ hiển thị thành các quy tắc dễ hiểu
cho người đọc, tạo ra bộ luật với mỗi nhánh. Thứ hai, dữ liệu đầu vào có thể là là dữ
liệu missing, khơng cần chuẩn hóa hoặc tạo biến giả. Thứ ba, mơ hình có thể được
xác thực độ chính xác bằng cách sử dụng các kiểm tra thống kê.
Tuy nhiên, bên cạnh đó, Mơ hình cây quyết định cũng có nhiều khuyết điểm.
Đầu tiên, mơ hình phụ thuộc rất lớn vào dữ liệu. Với một sự thay đổi nhỏ trong bộ
dữ liệu, cấu trúc mơ hình cây quyết định có thể bị thay đổi. Thêm nữa, với độ phân
bổ không đồng đều về phân bổ dữ liệu, cây quyết định hay gặp vấn đề overfitting
2.2.4.2. Phân loại Naive Bayes
Naive Bayes Classification (NBC) là một thuật toán phân loại dựa trên tính
tốn xác suất áp dụng định lý Bayes. Phân loại Bayesian là phương pháp phân loại
sử dụng tri thức các xác suất đã qua huấn luyện. Phương pháp này thích hợp với
những lớp bài tốn địi hỏi phải dự đốn chính xác lớp của mẫu cần kiểm tra dựa
trên những thông tin từ tập huấn luyện ban đầu.
Naive Bayes là một trong những giải thuật Machine learning cổ điển được đề
cập nhiều trong thập niên 1950-1960 để giải quyết các bài tốn phân loại văn bản.
Phương pháp Naive Bayes có mối liên hệ mật thiết với ngành thống kê vì cơ chế
của nó dựa vào định lý Bayes.
Ưu điểm của thuật tốn này là, khi giả định về tính độc lập của các biến, thêm
vào đó, Nạve Bayes hoạt động tốt trong trường hợp các biến đầu vào là biến Nhóm
(Categorical Variable) hơn là các biến Số (Numerical Variable).

17


Nhược điểm, mơ hình Nạve Bayes chỉ sử dụng tại 1 thời điểm trong tương lai,
khơng mang tính liên tục, do Naive Bayes giả định của các biến dự đoán mang tính
độc lập.
2.2.4.3. Neural Network
Một trình phân loại mạng nơ ron (Bishop, 1995) bao gồm một số đơn vị xử lý
(nút) được tổ chức thành các lớp khác nhau. Các nút giữa mỗi lớp được liên kết với
nhau và mỗi kết nối có thể có mức độ phức tạp khác nhau. Dữ liệu lớp đầu vào và đi
qua mạng, từng nút, từng lớp, cho đến khi đến lớp cuối và trả kết quả sau cùng.
Trong quá trình chạy dữ liệu, bằng cách so sánh sự khác biệt giữa các giá trị đầu ra
mong muốn và giá trị đầu ra thực tế, từ đó sẽ thay đổi các lớp để cho ra kết quả phù
hợp. Đây là một phương pháp kết hợp nhiều thuật toán phân loại, nhằm đưa ra kết
quả đa dạng theo yêu cầu người dùng.
Hạn chế lớn của Neural Network là thiếu khả năng giải thích. Mặc dù thuật
tốn có thể đạt được tỷ lệ chính xác dự đốn cao, nhưng giữa các nút mạng, người
dùng khơng thể giải thích các kết quả của thuật tốn. Ví dụ, trong trường hợp khoản
vay bị từ chối, mạng Neural Noetwork chỉ có thể trả kết quả có hoặc khơng, mà
khơng đưa ra được lý do nào, biến nào hoặc yếu tố nào tác động vào kết quả đó.
Do đó, gần như không thể sử dụng mạng lưới thần kinh cho mơ hình chấm
điểm tín dụng để quyết định ứng dụng và quản lý giới hạn và vẫn tuân thủ Đạo luật
tín dụng quốc gia.
2.2.4.4. K-Nearest Neighbors
KNN (K-Nearest Neighbors) là một trong những thuật tốn học có giám sát
đơn giản nhất được sử dụng nhiều trong khai phá dữ liệu và học máy. Mọi tính tốn
được thực hiện khi nó cần dự đoán nhãn của dữ liệu mới. Lớp (nhãn) của một đối
tượng dữ liệu mới có thể dự đốn từ các lớp (nhãn) của k hàng xóm gần nó nhất.
Ưu điểm của thuật tốn là mau chóng có kết quả, thời gian chạy thuật tốn
khơng lâu. Một lợi thế của phương pháp này là bản chất không tham số của phương

pháp này cho phép mơ hình hóa các bất thường trong hàm rủi ro (Christine Bolton,
(2019), “Logistic regression and its application in credit scoring”. Pg. 21).

18


×