Tải bản đầy đủ (.docx) (91 trang)

Luận văn xây dựng hệ thống dự đoán khả năng nhập học của học sinh vào trường cao đẳng kỹ thuật công nghệ bà rịa vũng tàu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.35 MB, 91 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU

BARIA VUNGTAU
UNIVERSITY
CAP SAINT lACQUfs

NGUYỄN THỊ HẢI HÀ

XÂY DỰNG HỆ THỐNG DỰ ĐỐN KHẢ NĂNG
•••
NHẬP HỌC CỦA HỌC SINH VÀO TRƯỜNG
•••
CAO ĐẲNG KỸ THUẬT CƠNG NGHỆ
••
BÀ RỊA VŨNG TÀU

LUẬN VĂN THẠC SĨ
••


Bà Rịa - Vũng Tàu, tháng 4 năm 2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU

BAR.1A VUNGTAU
UNIVERSITY
CAP SAINT IACQUES

NGUYỄN THỊ HẢI HÀ


XÂY DỰNG HỆ THỐNG DỰ ĐOÁN KHẢ NĂNG
•••

NHẬP HỌC CỦA HỌC SINH VÀO TRƯỜNG
•••

CAO ĐẲNG KỸ THUẬT CƠNG NGHỆ
••

BÀ RỊA VŨNG TÀU

LUẬN VĂN THẠC SĨ

••
Chun ngành : Công nghệ thông tin
Mã ngành : 8480201
CÁN BỘ HƯỚNG DẪN KHOA HỌC:
TS. BÙI THỊ THU TRANG


Bà Rịa-Vũng Tàu, tháng 4 năm 2021


1

LỜI CAM ĐOAN

Tôi xin cam đoan đây là bài luận văn của riêng tơi, do chính tơi nghiên cứu.
Các dữ liệu sử dụng được thu thập thực tế và kết quả nghiên cứu trong Luận văn là
hoàn toàn trung thực và chưa từng được ai công bố trong bất kỳ cơng trình nào khác.

Tơi cũng xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện nghiên cứu này
đều đã được cảm ơn và trích dẫn đầy đủ trong bài luận văn.
rr

r_

_ • 2 T __ A_______________________

Tác giả Luận văn

(Ký và ghi rõ họ tên)


LỜI CẢM ƠN
Đầu tiên, tác giả xin được gửi tới các thầy cô trong Viện Đào tạo quốc tế và sau
đại học, các thầy cô giảng viên cơ hữu cũng như thỉnh giảng của trường Đại học Bà
Rịa Vũng Tàu, lời cảm ơn chân thành nhất vì đã hướng dẫn và giúp đỡ tác giả hồn
thành chương trình Cao học chuyên ngành Công nghệ thông tin một cách tốt nhất,
cũng như đã hướng dẫn em những kiến thức mới làm nền tảng cho em thực hiện
được bài luận văn này, và trang bị được nhiều kiến thức hữu ích cho cơng việc.
Tác giả cũng xin chân thành bày tỏ lịng cảm ơn sâu sắc đến TS. Bùi Thị Thu
Trang đã tận tình hướng dẫn tác giả thực hiện bài luận văn này. Dưới sự hướng dẫn
của Cô, tác giả đã từng bước tiếp cận được với công việc nghiên cứu khoa học, biết
cách kết hợp nghiên cứu dựa trên lý thuyết và thực tiễn, đồng thời biết ứng dụng
phần mềm cho việc nghiên cứu. Sau khi hoàn thành bài luận văn, em nhận thấy kiến
thức của mình trong suốt quá trình học đã được xâu chuỗi lại một cách có hệ thống
và bước đầu biết cách thực hiện nghiên cứu khoa học theo đúng lộ trình.
Tác giả cũng xin được chân thành cảm ơn các anh chị đồng nghiệp đã hỗ trợ
tác giả có được các thơng tin và dữ liệu hữu ích cho việc thực hiện nghiên cứu.
Một lần nữa, tác giả xin chân thành cảm ơn sự hướng dẫn và giúp đỡ của tất cả

các thầy cô, các anh chị và các bạn. Kính chúc các thầy cơ và các bạn nhiều sức khỏe
và thành cơng.
rp

r_

_ •2

1 A_______ w________

Tác giả luận văn


MỤC LỤC
LỜI CAM ĐOAN ..................................................................................................i
LỜI CẢM ƠN ........................................................................................................ii
DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................v
DANH MỤC CÁC BẢNG BIỂU...........................................................................vi
DANH MỤC CÁC HÌNH VẼ................................................................................vii
TĨM TẮT ..............................................................................................................1
MỞ ĐẦU ................................................................................................................2
1. Lý do chọn đề tài............................................................................................. 2
2. Tính cấp thiết của đề tài................................................................................... 3
3. Mục tiêu, nội dung và phương pháp nghiên cứu ............................................ 3
4. Nội dung nghiên cứu ..................................................................................... 4
5. Phương pháp luận và phương pháp nghiên cứu.............................................. 4
6. Kết cấu luận văn.............................................................................................. 5
TÓM TẮT PHẦN MỞ ĐẦU .................................................................................6
CHƯƠNG 1. GIỚI THIỆU MACHINE LEARNING CƠ BẢN ........................7
1.1. Khái niệm về Machine learning................................................................... 7

1.2. Phân nhóm................................................................................................... 11
1.2.1. Phân nhóm dựa trên phương thức học...................................................11
1.1.2. Phân nhóm dựa trên chức năng ............................................................16
TĨM TẮT CHƯƠNG 1 ........................................................................................25
CHƯƠNG 2. ỨNG DỤNG MẠNG NEURAL NETWORK CHO BÀI TOÁN
DỰ ĐOÁN KHẢ NĂNG NHẬP HỌC CỦA HỌC SINH VÀO TRƯỜNG CAO
ĐẲNG KỸ THUẬT CÔNG NGHỆ BÀ RỊA -VŨNG TÀU ................................26
2.1. Giới thiệu Neural Network.......................................................................... 26
2.1.1 Khái niệm ...............................................................................................26
2.1.2. Lịch sử phát triển của mạng nơron nhân tạo.........................................27
2.1.3. Ứng dụng..............................................................................................28
2.2. Cấu tạo và phân loại của mạng nơron nhân tạo ......................................... 29
2.2.1. Cấu tạo của mạng nơron nhân tạo ........................................................29
2.2.2. Phân loại mạng nơron nhân tạo............................................................30
2.3. Các thành phần cơ bản của mạng nơron nhân tạo ..................................... 32

2.3.1. Đơn vị xử lý ........................................................................................32
3.3.2. Hàm kết hợp ........................................................................................33
3.3.3. Hàm kích hoạt .....................................................................................33
2.4. Mạng truyền thẳng nhiều lớp và thuật toán lan truyền ngược ................... 34

2.4.1.................................................................................................................Mạn
g truyền thẳng nhiều lớp .........................................................................................34
2.4.2. Thuật toán lan truyền ngược (Back - Propagation Algorithm)..............38


2.5. Ứng dụng mạng nơ ron giải quyết bài toán................................................ 45

TĨM TẮT CHƯƠNG 2 .......................................................................................47
CHƯƠNG 3. XÂY DỰNG MƠ HÌNH DỰ ĐOÁN KHẢ NĂNG NHẬP HỌC CỦA

HỌC SINH VÀO TRƯỜNG CAO ĐẲNG KỸ THUẬT CÔNG NGHỆ BÀ RỊA VŨNG TÀU............................................................................................................48
3.1. Giới thiệu trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa - Vũng Tàu ....... 48
3.2. Tiến trình nghiên cứu ................................................................................ 49
3.3. Thu thập dữ liệu ........................................................................................ 51
3.4. Phân tích và lựa chọn đặc trưng................................................................. 52
3.5. Tiền xử lý dữ liệu ................................................................................................. 60

3.6 Cấu trúc mạng nơ-ron .................................................................................. 59
3.7. Huấn luyện mạng nơ-ron model .................................................................. 60
3.8 Kiểm tra mạng nơ-ron Test ........................................................................... 67
TÓM TẮT CHƯƠNG 3 .......................................................................................70
NHẬN XÉT KẾT LUẬN, HƯỚNG PHÁT TRIỂN............................................71
••7
1. Ưu điểm ....................................................................................................... 71
2. Nhược điểm .................................................................................................. 71
3. Phạm vi ứng dụng ........................................................................................ 71
4. Hướng phát triển tiếp theo............................................................................. 72

TÀI LIỆU THAM KHẢO ....................................................................................73


DANH MỤC CÁC TỪ VIẾT TẮT
TT

TÊN VIẾT TẮT

1

AI


2
3

ANN
BP

TÊN ĐẦY ĐỦ

DIỄN GIẢI

Artificial Intelligence

Trí tuệ nhân tạo

Artificial Neural Network

Mạng nơron nhân tạo

Back Propagation

Lan truyền ngược
Nghề đăng ký nhập học

4

CNTT

Công nghệ thông tin

là Công nghệ thông tin

Nghề đăng ký nhập học

5

CBTP

Chế biến thực phẩm

6
7

MLP

MultiLayer Perceptron

Mạng nơron nhiều lớp

LMS

Least Mean Square

Bình phương nhỏ nhất

8

THCS

Trung học cơ sở

là Chế biến thực phẩm


Trình độ học sinh là
Trung học cơ sở
Trình độ học sinh là
9

THPT

Trung học phổ thông

Trung học phổ thông


DANH MỤC CÁC BẢNG BIỂU
Bảng 3.1. Dữ liệu tạo Model với một số đặc trưng cơ bản .....................................63
Bảng 3.2. Một số đặc trưng giá trị trung bình.........................................................63
Bảng 3.3. Thơng số trong model.............................................................................64
Bảng 3.4. Mạng nơ ron với số đầu vào và ra...........................................................64


DANH MỤC CÁC HÌNH VẼ


Hình 1.1. Dữ liệu được phân chia làm hai tập điểm ...............................................9
Hình 1.2. Dữ liệu phức tạp, khơng được phân chia ................................................10
Hình 1.3. MNIST Bộ cơ sở dữ liệu của chữ số viết tay ..........................................12
Hình 1.4. AlphaGo chơi cờ vây với Lee Sedol. AlphaGo là một ví dụ của
Reinforcement learning ..........................................................................................15
Hình 1.5. Regression Algorithms.............................................................................16
Hình 1.6. Instance-based Algorithms ......................................................................17

Hình 1.7. Regularization Algorithms ......................................................................18
Hình 1.8. Decision Tree Algorithms .......................................................................18
Hình 1.9. Bayesian Algorithms................................................................................19
Hình 1.10. Clustering Algorithms............................................................................20
Hình 1.11. Association Rule Learning Algorithms..................................................21
Hình 1.12. Deep Learning Algorithms ...................................................................21
Hình 1.13. Dimensional Reduction Algorithms ......................................................22
Hình 1.14. Ensemble Algorithms.............................................................................23
Hình 1.15. Artificial Neural Network Algorithms....................................................23
Hình 2.1. Mơ hình một mạng nơron nhân tạo .........................................................29
Hình 2.2. Phân loại mạng nơron .............................................................................31
Hình 2.3. Mơ hình mạng Noron nhân tạo................................................................33
Hình 2.4. Mạng truyền thẳng nhiều lớp ..................................................................35
Hình 3.1. Sơ đồ tiến trình nghiên cứu .....................................................................50
Hình 3.2. Biểu đồ thể hiện sự phân bổ của dữ liệu Năm tốt nghiệp ........................53
Hình 3.3. Biểu đồ thể hiện sự phân bổ của dữ liệu Năm xét tuyển .........................54
Hình 3.4. Biểu đồ thể hiện sự phân bổ của dữ liệu Trình độ THCS và THPT.........55
Hình 3.5. Biểu đồ thể hiện sự phân bổ của dữ liệu Giới tính ..................................55
Hình 3.6. Biểu đồ thể hiện sự phân bổ của dữ liệu Ngành Cơ khí ..........................56
Hình 3.7. Biểu đồ thể hiện sự phân bổ của dữ liệu Ngành Điện .............................56
Hình 3.8. Biểu đồ thể hiện sự phân bổ của dữ liệu Ngành Công nghệ thơng tin ....57
Hình 3.9. Biểu đồ thể hiện sự phân bổ của dữ liệu Ngành Chế biến thực phẩm......57
Hình 3.10. Biểu đồ thể hiện sự phân bổ của dữ liệu Sinh viên ở thành phố ...........58
Hình 3.11. Biểu đồ thể hiện sự phân bổ của dữ liệu Sinh viên ở trong tỉnh ............58
Hình 3.12. Mơ hình cấu trúc mạng Noron MLP......................................................61
Hình 3.13. Giá trị loss sau mỗi epoch ....................................................................66


1


TÓM TẮT
Mục tiêu nghiên cứu của đề tài là: Ứng dụng công nghệ máy học để xây dựng
hệ thống dự đoán khả năng nhập học của học sinh vào trường Cao đẳng Kỹ thuật
Công nghệ Bà Rịa - Vũng Tàu. Kết quả nghiên cứu sẽ được dùng làm cơ sở đề xuất
những chiến lược tuyển sinh phù hợp đồng thời đưa các chế độ và chính sách hấp
dẫn nhằm nâng cao khả năng nhập học của học sinh.
Phương pháp nghiên cứu là kết hợp phương pháp định tính và phương pháp
định lượng; tác giả đã tiến hành nghiên cứu sơ bộ, nghiên cứu chính thức và đưa ra
được quy trình nghiên cứu.
Tác giả tiến hành lấy dữ liệu tuyển sinh trong vòng 5 năm từ năm 2015 đến
năm 2019 tại trường. Từ kết quả nghiên cứu của mơ hình cho thấy trong số dữ liệu
được đưa vào mơ hình phân tích, có những dữ liệu có ảnh hưởng đến khả năng nhập
học của học sinh sinh viên như là: ngành đào tạo, năm tốt nghiệp, điểm toán, điểm
lý, điểm tổng, điểm sàn, học sinh sinh viên ở trong tỉnh, học sinh sinh viên ở ngoài
tỉnh, học sinh sinh viên ở thành phố và học sinh sinh viên ở các huyện.
Từ kết quả phân tích, tác giả đã đề xuất phương án nhằm nâng cao khả năng
nhập học của học sinh sinh viên vào học tại Trường Cao đẳng Kỹ thuật Công nghệ
Bà Rịa - Vũng Tàu.
Hy vọng kết quả nghiên cứu sẽ góp phần tạo cơ sở khoa học giúp lãnh đạo của
Trường nghiên cứu đưa ra những chính sách, chế độ quản lý phù hợp nhằm nâng cao
tỷ lệ nhập học của học sinh sinh viên vào Trường Cao đẳng Kỹ thuật Công nghệ Bà
Rịa - Vũng Tàu.


MỞ ĐẦU
1. Lý do chọn đề tài
Bắt đầu từ năm 2018 Bộ Giáo dục và Đào tạo không quy định chung ngưỡng
đảm bảo chất lượng đầu vào (điểm sàn) cho các trường như năm 2017 trở về trước.
Thay vào đó các trường tự xác định điểm sàn theo tình hình thực tế, đây là một hình
thức trong quy định tự chủ đại học được bắt đầu bằng hình thức tự chủ tuyển sinh.

Cũng từ năm 2018, Bộ Giáo dục và Đào tạo đã cho phép các trường tự xác định điểm
sàn, các trường có thể tuyển sinh riêng bằng cách xét học bạ, tuyển thẳng... Đến thời
điểm hiện tại nhiều trường đã cơng bố phương án tuyển sinh các trình độ đào tạo của
trường mình bằng nhiều hình thức. Tuy nhiên đa phần các trường vẫn tin dùng kết
quả thi tuyển của kỳ thi trung học phổ thông quốc gia do Bộ Giáo dục và Đào tạo tổ
chức. Ngoài ra nhiều trường cũng dùng thêm các phương án tuyển sinh riêng như bài
thi đầu vào, tuyển thẳng thí sinh, hay xét bằng hình thức học bạ trung học phổ thơng.
Trên thực tế các trường cũng khơng tuyển được nhiều thí sinh theo các phương thức
này. Không phải tất cả các cơ hội trúng tuyển đều hấp dẫn thí sinh và ngay cả một số
trường công lập cũng đang lo lắng không tuyển đủ chỉ tiêu [1].
Trải qua hơn 20 năm hình thành và phát triển, với phương châm “Ln ln
đổi mới vì nguồn nhân lực chất lượng cao” Trường Cao Đẳng Kỹ thuật Công nghệ
Bà Rịa - Vũng Tàu đã đạt được nhiều thành tích, đồng thời cũng đã xây dựng được
một thương hiệu uy tín và có chất lượng, là một trong 40 trường trọng điểm quốc gia
về lĩnh vực đào tạo nghề. Tuy nhiên, một thực tế cho thấy rằng trường Cao đẳng Kỹ
thuật Công nghệ Bà Rịa - Vũng Tàu năm 2020 cũng đang đứng trước nỗi lo tuyển
sinh không đủ chỉ tiêu. Trường cũng đưa ra những phương thức tuyển sinh mới để
thu hút học sinh tới tham quan, trải nghiệm với các ngành nghề tại trường. Số học
sinh tới trường nộp hồ sơ đã tăng lên nhưng do học sinh có rất nhiều cơ hội vào học
tại các trường đại học dẫn đến trường hợp học sinh nộp hồ sơ nhưng lại không đến
làm thủ tục nhập học.
Với vai trò là giảng viên kiêm nhiệm chuyên viên đào tạo, tác giả đã nhận thấy
được vai trò quan trọng của việc tuyển sinh đạt chỉ tiêu tại trường, tác giả mong


muốn đóng góp một phần nhỏ giúp ban lãnh đạo trường hiểu rõ hơn các nhân tố ảnh
hưởng đến khả năng nhập học của học sinh sinh viên. Với những lý do trên, tác giả
chọn đề tài “Xây dựng hệ thống dự đoán khả năng nhập học của học sinh vào
Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa — Vũng Tàu” làm nội dung luận
văn tốt nghiệp Thạc sĩ.


2. Tính cấp thiết của đề tài
Có thể nói rằng, tuyển sinh đủ chỉ tiêu có vai trị quyết định đến sự tồn tại và
phát triển của các trường, đặc biệt trong thời kỳ các trường phải tự chủ. Do đó, để
tuyển được học sinh sinh viên mỗi trường cần xây dựng thương hiệu và phải có
phương án tuyển sinh cho phù hợp.
Trong bối cảnh hiện nay các trường Cao đẳng, Đại học cạnh tranh nhau tuyển
sinh do đó học sinh có nhiều nguyện vọng học tại các trường khác nhau. Vì vậy khi
học sinh đến tìm hiểu thơng tin về trường và nộp hồ sơ thì trường phải xây dựng
được mơ hình dự đốn khả năng nhập học của học sinh để từ kết quả đó nắm bắt cơ
hội, nhận diện những học sinh có khả năng cao chắc chắn sẽ nhập học vào trường.
Căn cứ kết quả dự đoán đưa ra những chế độ, chính sách hấp dẫn để thu hút học sinh
tới nhập học.
Việc xây dựng mơ hình dự báo khả năng nhập học của học sinh vào trường
dựa vào các đặc trưng của học sinh như kết quả xét điểm học bạ, năm tốt nghiệp, khu
vực, hộ khẩu thường trú,... và áp dụng mạng nơron là cần thiết và mang tính khả thi
cao.

3. Mục tiêu, nội dung và phương pháp nghiên cứu
- Đối tượng nghiên cứu: Đề tài lần lượt nghiên cứu thông tin của học sinh để
từ đó phân loại các nhân tố ảnh hưởng đến việc học sinh tới nhập học tại trường Cao
đẳng Kỹ thuật Công nghệ Bà Rịa - Vũng Tàu. Các thuật tốn được nghiên cứu trong
đề xuất q trình huấn luyện mạng nơ ron cũng như phân lớp cho học sinh tới nhập
học tại trường.
- Phạm vi nghiên cứu: thu thập thơng tin nộp hồ sơ của học sinh trong vịng 5


năm từ năm 2015 đến năm 2019. Tác giả tiến hành phân loại, đánh giá các thông tin
của học sinh.
- Mục tiêu tổng quát: Ứng dụng công nghệ máy học để xây dựng hệ thống

dự đoán khả năng nhập học của học sinh vào trường từ đó đưa ra các chế độ và chính
sách hấp dẫn để thu hút học sinh đến nhập học tại trường Cao đẳng Kỹ thuật Công
nghệ Bà Rịa - Vũng Tàu.
- Mục tiêu cụ thể:
+ Hệ thống hóa, phân loại các thơng tin từ học sinh tới nộp hồ sơ;
+ Xác định những thông tin ảnh hướng tới việc nhập học của học sinh. Cụ thể
như ngành đào tạo, giới tính, điểm xét học bạ, hộ khẩu thường trú,..
+ Xây dựng được mơ hình dự đốn khả năng nhập học từ đó đề xuất những
phương án tư vấn tuyển sinh để thu hút học sinh đến nhập học tại trường Cao đẳng
Kỹ thuật Công nghệ Bà Rịa - Vũng Tàu.

4. Nội dung nghiên cứu
- Nghiên cứu cơ sở lý luận về các thuật toán Neural Network, bài toán phân
loại 2 class,..;
- Nghiên cứu các đặc trưng của học sinh ảnh hưởng trực tiếp và gián tiếp đến
việc nhập học, dữ liệu thông tin nộp hồ sơ của học sinh từ năm 2015 đến năm 2019;
- Xác định được vị trí và tầm quan trọng của việc dự đoán học sinh tới nhập
học;
- Ứng dụng các thuật toán để đưa ra kết quả dự đoán khả năng nhập học
chính xác nhất.

5. Phương pháp luận và phương pháp nghiên cứu
Trong quá trình nghiên cứu, tác giả luận văn thu thập thông tin theo nhiều
cách thức khác nhau, cụ thể:
Tiếp cận về lý thuyết: Tìm kiếm, tổng hợp những lý thuyết Machine learning
và các thuật toán Neural Network từ nhiều nguồn khác nhau như sách báo, giáo trình,
internet.


rri«A_________


_

ĩ

_ A______j|______________ J A


Tiếp cận thực tế:
- Thu thập thông tin của học sinh nộp hồ sơ vào học tại trường Cao đẳng Kỹ
thuật Công nghệ Bà Rịa - Vũng Tàu.
- Từ những thông tin thu thập được, tác giả sẽ áp dụng các thuật toán để đưa
ra những dự đoán khả năng nhập học của học sinh nhằm định hướng cho nhà trường
có các chiến lược tư vấn tuyển sinh phù hợp.

6. Kết cấu của luận văn
Luận văn gồm có 3 chương, được trình bày theo kết cấu như sau:
MỞ ĐẦU
CHƯƠNG 1: Giới thiệu Machine learning cơ bản
CHƯƠNG 2: Ứng dụng mạng Neural network cho bài toán dự đoán khả năng
nhập học của học sinh vào Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa -Vũng
Tàu
CHƯƠNG 3: Xây dựng mơ hình dự đoán khả năng nhập học của học sinh vào
trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa - Vũng Tàu
NHẬN XÉT KẾT LUẬN, HƯỚNG PHÁT TRIỂN
••7


TÓM TẮT MỞ ĐẦU
Trong phần mở đầu tác giả đã trình bày lý do chọn đề tài, phân tích một số

cơng trình nghiên cứu đã cơng bố liên quan đến đề tài. Đồng thời đưa ra mục tiêu
nghiên cứu bao gồm mục tiêu tổng quát và mục tiêu cụ thể, đối tượng và phạm vi
nghiên cứu, phương pháp nghiên cứu và kết cấu 3 chương của luận văn.


CHƯƠNG 1. GIỚI THIỆU MACHINE LEARNING CƠ BẢN
1.1. Khái niệm về Machine learning
Machine Learning là một tập con của Artificial Intelligence (AI). Theo định
nghĩa của Tom Michell “Definition: A computer program is said to learn from
experience E with respect to some class of tasks T and performance measure P, if its
performance at tasks in T, as measured by P, improves with experience E.” Nói cách
khác, Machine Learning là một lĩnh vực nhỏ của Khoa học máy tính, nó có thể tự
học hỏi dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể [2].
Machine learning đã tạo ra cơn sốt công nghệ trên cả Việt Nam và tồn thế giới
trong vài năm gần đây. Các cơng ty lớn như Facebook, Google, Microsoft đến các
công ty nhỏ và vừa đều đầu tư vào Machine learning. Trong cuộc sống hiện nay các
ứng dụng sử dụng Machine learning xuất hiện trên mọi lĩnh vực từ ngành khoa học
máy tính đến những ngành ít liên quan hơn như cơng nghệ hóa học, vật lý, y học,
chính trị. Cỗ máy đánh cờ vây AlphaGo là một trong những ví dụ tiêu biểu cho sự
phát triển vượt trội của Machine learning so với các phương pháp cổ điển, với khả
năng tính tốn trong một khơng gian có số lượng phần tử lớn hơn số lượng hạt trong
vũ trụ, tối ưu hơn cả đại kì thủ [3].
Để giới thiệu cụ thể hơn về Machine learning, dựa vào mối quan hệ của nó với
ba khái niệm sau:

>
>
>

Machine learning và Trí tuệ nhân tạo (Artificial Intelligence hay AI)

Machine learning và thuật ngữ “Big Data”.
Machine learning và Dự đốn tương lai.
Trí tuệ nhân tạo (AI) được nhắc tới như một ngành của khoa học máy tính.
Nó liên quan trực tiếp đến việc tự động hóa các hành vi thông minh. Các nhà khoa
học đặt ra một số mục tiêu cụ thể đó là làm cho máy tính lừa được Turing Test. Alan
Turing (1912-1954) đã tạo ra Turing Test, ông được xem là cha đẻ của ngành khoa
học máy tính hiện đại, ứng dụng này giúp phân biệt đối tượng đối diện có phải là
người hay khơng [3], [12].
Nếu Machine learning là một phương tiện được kỳ vọng sẽ giúp con người đạt


được mục tiêu thì AI sẽ thể hiện mục tiêu đó của con người. Rõ ràng Machine
learning đã mang con người chúng ta đi rất xa trên quãng đường chinh phục AI.
Nhưng con người vẫn cần phải đi quãng đường xa hơn rất nhiều. Nhắc tới AI người
ta sẽ nhớ ngay tới Machine learning nhưng khơng nó khơng giống nhau vì nếu
Machine learning là phương tiện thì AI là mục tiêu. Mục đích tối thượng của
Machine learning là chinh phục AI, nhưng hiện tại Machine learning tập trung vào
những mục tiêu ngắn hạn hơn như: Làm cho máy tính có những khả năng nhận thức
cơ bản của con người như nhìn, nghe, hiểu được ngơn ngữ lập trình, giải tốn, .. .và
hỗ trợ con người trong việc xử lý một khối lượng thông tin khổng lồ mà chúng ta
phải đối mặt hàng ngày, hay còn gọi là Big Data [14].
Big Data thực chất không phải là một ngành khoa học cụ thể. Hiện nay Big
Data là một cụm từ được giới truyền thơng dùng để nhấn mạnh thời kì bùng nổ của
dữ liệu. Nó cũng khơng khác gì với những cụm từ như "kỷ nguyên phần mềm",
"cách mạng công nghiệp". Big Data là kết quả của việc hàng ngày càng có nhiều
người kết nối mạng Internet. Với sự ra đời của các mạng xã hội như Facebook,
Twitter, Instagram nhu cầu chia sẻ thông tin của con người ngày càng tăng lên vượt
bậc. Mạng xã hội khơng chỉ có Facebook mà ngồi ra cịn có cả Youtube nơi mọi
người có thể chia sẻ các video và bình luận ở đó. Quy mơ của Big Data lớn như thế
nào thì hãy xem qua những con số “biết nói” sau đây:



Mỗi phút trên youtube có khoảng 300 giờ video được upload (theo

/>•

Mỗi ngày có hơn 900 triệu người truy cập vào Facebook, 82.8% trong số đó

ở ngồi Mỹ và Canada (theo />•

Mọi người càng chia sẻ nhiều thơng tin thì nhu cầu tìm kiếm thông tin ngày

càng tăng. Google phải xử lý 100 tỉ lượt tìm kiếm mỗi tháng, tức là 3,4 tỉ lượt mỗi
ngày và 39.000 lượt mỗi giây (theo [3].
Khi chúng ta hiểu được giá trị của thông tin ẩn chứa bên trong dữ liệu thì Big
Data đã thực sự xuất hiện, và có đủ cơng nghệ cũng như tài nguyên để có thể khai


thác chúng trên quy mơ khổng lồ. Ở đây có một quan hệ tương đương và hỗ trợ giữa
Big Data và Machine Learning: Machine learning phát triển nhờ vào sự gia tăng của
khối lượng dữ liệu, ngược lại giá trị của Big Data phụ thuộc vào khả năng khai thác
tri thức từ dữ liệu của Machine learning [3].
Thuật toán Perceptron được phát minh ra bởi Frank Rosenblatt vào năm 1957
là một trong những thuật toán cơ bản của Machine learning. Đây là một thuật tốn
hữu ích dùng để phân loại hai đối tượng khác nhau. Một ví dụ đơn giản là phân loại
thư rác (hình tam giác) và thư bình thường (hình vng). Những điểm hình tam giác
và hình vng trong hình 2.1 đại diện cho những email đã biết nhãn trước. Chúng
được dùng để "đào tạo" (train) perceptron. Sau khi kẻ đường thẳng để chia hai tập
điểm, sẽ có thêm các điểm chưa được dán nhãn, đại diện cho các email cần được
phân loại (điểm hình trịn). Khi đó ta sẽ gán nhãn của một điểm giống như nhãn của

các điểm nằm trong cùng nửa mặt phẳng với điểm đó [5].
Đối với perceptron, việc phân chia này giống như việc vẽ một đường thẳng trên
mặt phẳng để chia mặt phẳng thành hai tập điểm:

Hình 1.1. Dữ liệu được phân chia làm hai tập điểm
Sơ lược quy trình phân loại thư được mô tả như sau: Trước hết, ta cần một
thuật toán để chuyển email thành những điểm dữ liệu. Đây là cơng đoạn quan trọng
vì nếu ta chọn được cách biểu diễn phù hợp, công việc của perceptron sẽ diễn ra
nhanh hơn rất nhiều. Tiếp đến, perceptron sẽ cho biết tọa độ của từng điểm và sử
dụng để cập nhật tham số của đường kẻ phân chia. Do là một thuật toán khá đơn giản


nên có rất nhiều vấn đề có thể nảy sinh với perceptron, ví dụ như điểm cần phân loại
nằm ngay trên đường thẳng phân chia hoặc xấu hơn là với một tập dữ liệu phức tạp,
ta khơng tìm thấy đường thẳng phân chia:

Hình 1.2. Dữ liệu phức tạp, khơng được phân chia
Lúc này, ta cần các loại đường phân chia "khơng thẳng". Perceptron là một
thuật tốn của Machine learning gọi là Supervised learning: ta đưa cho máy tính rất
nhiều các ví dụ cùng với câu trả lời mẫu để mong muốn máy tính sẽ tìm được những
đặc điểm cần thiết để dự đốn cho những ví dụ khác chưa có câu trả lời trong tương
lai. Ngược lại, cũng có những thuật toán Machine learning sẽ giải quyết những bài
toán mà khơng có câu trả lời trước, được gọi là Unsupervised learning. Đối với
trường hợp khơng có câu trả lời sẵn, máy tính cố gắng phân tích để tìm ra cấu trúc ẩn
của một tập dữ liệu. Một loại Machine learning nữa được gọi là Reinforcement
learning. Reinforcement learning cũng khơng có câu trả lời có sẵn, tuy nhiên máy
tính nhận được kết quả trả lời lại khi mỗi hành động xảy ra. Dựa vào kết quả trả lời
tốt hay xấu mà máy tính sẽ nghiên cứu đưa ra các hướng dẫn chỉnh sửa cho phù hợp
[5].
Machine learning có mối quan hệ rất chặt chẽ đối với statistics (thống kê).

Machine learning sẽ lưu lại sự phân bố của dữ liệu nhờ vào các mơ hình thống kê.
Ngồi ra, khi nhìn thấy dữ liệu Machine learning sẽ có khả năng tổng quát hóa những


dữ liệu đó để tạo cơ sở dự đốn cho những dữ liệu chưa gặp bao giờ. Có thể tưởng
tượng một mơ hình Machine learning khơng có khả năng tổng quát như một đứa trẻ
lên ba học vẹt, đứa trẻ chỉ trả lời được những câu hỏi mà nó đã học thuộc lịng đáp
án. Machine learning khơng có khả năng tổng qt hóa tự nhiên và kì diệu như con
người: ví dụ như khơng thể nhận ra khn mặt của từng người trên thế giới nhưng có
thể nhận biết được một thứ có phải là khn mặt người hay khơng phải với xác suất
đúng gần như tuyệt đối. Điểm tối cao của Machine learning là sẽ có được khả năng
tổng quát hóa và suy luận của con người [12].
Nhắc đến Machine learning là nhắc đến "dự đoán", từ khả năng dự đoán gãn
nhãn, phân loại đến dự đoán hành động. Do vậy Machine learning có thể dự đốn
được tương lai hay không? Đây là câu trả lời mà đáp án có thể là có hoặc cũng có thể
là khơng. Nếu trong tương lai có những mối liên quan với hiện tại thì khả năng
Machine learning có thể dự đốn được tương lai là rất cao [3].

1.2. Phân nhóm
1.2.1. Phân nhóm dựa trên phương pháp và cách thức học
Các thuật toán của Machine Learning được chia làm bốn nhóm đó là: Supervise
learning, Unsupervised learning, Semi-supervised lerning và Reinforcement learning
[2].
• Supervised Learning (Học có giám sát)

Supervised learning là thuật tốn dự đốn kết quả đầu ra của một dữ liệu mới
dựa trên kết quả dữ liệu của các cặp đầu vào và đầu ra đã biết trước. Họ có thể gọi
cặp dữ liệu vào ra này là dữ liệu, nhãn. Thuật toán Supervised learning là thuật toán
thường được sử dụng nhiều nhất trong số các thuật toán Machine Learning.
Trong toán học, Supervised learning là khi có một tập hợp biến đầu vào

X={xi,X2, ...,Xn} và một tập hợp nhãn tương ứng Y={yi,y2, -.,yn}, trong đó Xi,yi là các
vector. Các cặp dữ liệu vào ra đã biết trước (xi,yỉ) E X Y' được gọi là tập dữ liệu huấn
luyện. Từ tập huấn luyện này, ta cần tìm ra một hàm số ánh xạ mỗi phần tử từ tập X
sang một phần tử (xấp xỉ) tương ứng của tập Y:
yi~f(xi), Vz=1,2,...,n.


Mục đích của hàm số f xấp xỉ thật tốt để khi có một dữ liệu x mới, chúng ta có
thể tìm ra nhãn tương ứng của nó y=f(x).
Ví dụ 1: Trong việc nhận dạng chữ viết tay, ta đưa các bức ảnh của hàng nghìn
mỗi chữ số được viết bởi nhiều người khác nhau vào trong một thuật toán và huấn
luyện cho biết mỗi bức ảnh tương ứng với chữ số nào. Sau khi huấn luyện thuật toán
sẽ tạo ra một mơ hình, tức là đối với một hàm số mà đầu vào là một bức ảnh và đầu
ra là một chữ số, khi đưa một bức ảnh mới vào mà mơ hình chưa nhìn thấy bao giờ,
nó sẽ dự đốn được bức ảnh đó chứa chữ số nào.
q3Ị

s 3 H 9 % ó te s o 7 G 6 ( (o f <\ 5 4
4 ỉ te (ị te Y â I 4 2 I 3 /
? íU í I ẳ Ỹ ỉ
I\97
6c9797àQ333Ị<
6 3 ổ 4 Ũ 3 c â^ỡ/ / 6 93 / s
ơHO
? 7 \ Ơ3qỵ V 8 /?LL
3
lm
3
3 ^3.s 2.^ / 4 4 ể 3
I 1 ?íĩớ43775đ*íưoỹ//ị4-^S20ớ5 l °í 3> ì í / a s 5 à c r I i / 7

V 7 7 6 5 / ?
»ỉ ỵ / Ié r A 3 3 ữ 4 3 ỹ 5 9 u 7
0^1 ừ/nOÍ
5
6 5 9 Í6v l
523z
3 5- í 3 ? ỒT-O^Ĩ 7 4 7 i
ỊW\ ồồ^ổinũìl ? ỉ 6 9 3 9 3 I ZcS3^đ3?í-7^3J’
ÚÍSỈ\Ĩ&7 1053 í3/ ỹ X7 Ã ÍH 3 n V
7 / 7 Ã 7 -^3 7 l* 3. 0 4 5 <Ị o o 4 ồ
te °! 3 4 ĩ I ì (5/ 1-5^7
/ 6, q ỹ te 4 / 1 V I 3 \
3 A ? I 5 5 C)-? 1 4 8 4 S' te *-2. 3 4 0 7 í /
ỐH / I b-ĩí-Ịteỗte^ỉĩÃirS^ÍSSSAiSSSSiO^Ĩ Ì77 ỉ 3Ũ^3ỹí ĩ / í 73
9^73» / 3 9 7 4 3 a> 2.4 ỹ
$4 / tes’y.r 4 1 /

5

Hình 1.3. Bộ cơ sở dữ liệu của chữ số viết tay MNIST
(Nguồn: Simple Neural Network implementation in Ruby)
Ví dụ: Đối với các đứa trẻ lúc bắt đầu học chữ cái. Cha mẹ sẽ lấy bảng chữ cái
và chỉ cho một đứa trẻ biết đây là chữ A, đây là chữ B. Sau một vài lần được dạy thì
khi đưa ra một quyển truyện mới tinh chúng sẽ nhận ra được chữ A hoặc B trong đó.
Ví dụ 2: Thuật tốn nhận biết khuôn mặt người trong một bức ảnh đã được sử
dụng từ rất lâu. Ứng dụng facebook sử dụng thuật tốn nhận biết khn mặt người để
chỉ ra các khuôn mặt trong một bức ảnh và yêu cầu người dùng đặt tên, gán nhãn cho
mỗi khn mặt đó tag friends. Càng nhiều người tham gia gán nhãn (khuôn mặt, tên
người), thì độ chính xác ở những lần tự động tag tiếp theo sẽ càng cao.
Ví dụ 3: Thuật tốn nhận dạng các khuôn mặt trong một bức ảnh cũng là một

thuật toán Supervised learning với training data (dữ liệu huấn luyện) là rất nhiều cặp
(ảnh, mặt người) và (ảnh, khơng phải mặt người) được đưa vào. Thuật tốn này chỉ
đưa ra kết quả bức ảnh đó có phải ảnh mặt người hay khơng chứ khơng có khả năng


nhận diện khuôn mặt của từn người khác nhau.
Người ta tiếp tục chia nhỏ thuật toán supervised learning thành hai loại chính:
Classification (Phân loại)
Một bài tốn thuộc nhóm classification nếu các label của input data được chia
làm một số hữu hạn nhóm. Ví dụ: Trong Gmail muốn kiểm tra xem email có phải là
spam hay khơng; các ngân hàng muốn xác định xem một khách hàng sẽ có khả năng
trả nợ các khoản vay cho nhân hàng hay không. Ba ví dụ vừa nêu được xếp vào loại
này.
Regression (Hồi quy)
Nếu label khơng chia thành các nhóm mà lại chia theo một giá trị thực cụ thể.
Ví dụ như một cái xe có x chỗ, có y phụ kiện và mức độ tiêu thu xăng là z lít sẽ có
giá là bao nhiêu tiền?
Gần đây, Microsoft có đưa ra ứng dụng dự đốn tuổi và giới tính dựa trên khn

mặt. Ứng dụng dự đốn giới tính sử dụng thuật tốn Classification, cịn ứng dụng dự
đốn tuổi có thể coi là thuật tốn Regression. Đặc biệt phần dự đốn tuổi cũng có thể
coi là Classification nếu coi tuổi là một số nguyên dương nhỏ hơn 150, thì sẽ có 150
class (lớp) khác nhau [4].
• Unsupervised Learning (Học khơng có giám sát)

Đối với thuật tốn unsupervised learning, ta sẽ khơng biết được outcome hay
nhãn mà chỉ có dữ liệu đầu vào. Thuật tốn này phân tích tìm ra cấu trúc của dữ liệu
để áp dụng cho một yêu cầu cụ thể nào đó, ví dụ như phân nhóm dữ liệu (clustering)
hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc tính
tốn và lưu trữ.

Theo tốn học, nếu dữ liệu đầu vào là X mà không biết dữ liệu đầu ra nhãn Y
được gọi là thuật toán Unsupervised learning. Bởi vì khơng giống như Supervised
learning, đối với mỗi dữ liệu đầu vào ta sẽ khơng có câu trả lời chính xác cho nó.
Điều này giống trong việc học, thầy cơ giáo sẽ khơng chỉ cho ta biết đó là chữ A hay
chữ B. Cụm từ không giám sát được đặt tên theo ý nghĩa này [2].


• Semi-Supervised Learning (Học bán giám sát)

Là thuật toán khi có một lượng lớn dữ liệu X nhưng ta chỉ gán nhãn được một
phần của nó.
Một ví dụ tiêu biểu của nhóm này là chỉ có một phần văn bản hoặc ảnh được
gán nhãn (ví dụ bức ảnh về động vật, con người, hoặc các văn bản khoa học, chính
trị, pháp luật) và phần lớn các văn bản, bức ảnh khác chưa được gán nhãn được lấy
từ mạng internet. Có rất nhiều các bài tốn Machine Learning thuộc vào nhóm này vì
dữ liệu thậm chí cần phải có chun gia mới gán nhãn được (ví dụ như các hình ảnh
thuộc lĩnh vực y học). Ngược lại, có những dữ liệu chưa có nhãn có thể tìm kiếm rất
dễ dàng từ mạng internet [2], [13].
• Reinforcement Learning (Học Củng Cố)

Reinforcement learning là các bài toán giúp cho một hệ thống tự động xác định
công việc dựa trên cấu trúc dữ liệu có sẵn để đạt được lợi ích cao nhất (maximizing
the performance). Hiện tại, Reinforcement learning là thuật toán chủ yếu được áp
dụng vào Trò Chơi Lý Thuyết (Game Theory), các thuật toán sẽ xác định nước đi
tiếp theo để đạt được điểm số tối đa.

Hình 1.4. AlphaGo chơi cờ vây với Lee Sedol.
(Nguồn: AlphaGo AI Defeats Sedol Again, With 'Near Perfect Game')
Ví dụ 1: Ứng dụng AlphaGo được biết đến khi con người chơi cờ vây thua nó.
Cờ vây được xem là trị chơi trí tuệ có độ phức tạp cao với tổng số nước đi là xấp xỉ



1076110761, so với cờ vua là 1012010120 và tổng số nguyên tử trong toàn vũ trụ là
khoảng 10801080. Do vậy, thuật toán phải chọn ra một nước đi tối ưu nhất và đương
nhiên, khơng thể áp dụng thuật tốn tương tự như IBM Deep Blue (IBM Deep Blue
đã thắng con người trong mơn cờ vua 20 năm trước). Thuật tốn được sử dụng trong
AlphaGo là các thuật toán thuộc cả Supervised learning và Reinforcement learning.
Đối với thuật toán Supervised learning, cách đi các nước cờ của con người được đưa
vào để phân tích, huấn luyện. Các nhà khoa học muốn AlphaGo có thể chơi như con
người và mục tiêu cuối cùng là chơi thắng cả con người. Do vậy, sau khi ghi nhớ
xong các nước cờ của con người, AlphaGo sẽ chơi với chính nó với hàng ngàn ván
cờ để tìm ra các nước đi mới tối ưu hơn. Trong phần tự chơi đã áp dụng thuật toán
thuộc loại Reinforcement learning [2],[13].
Ví dụ 2: Huấn luyện cho máy tính chơi game Mario. Game Mario là một
chương trình thú vị trong máy tính. Trị chơi này dễ dàng chơi hơn cờ vây vì tại một
thời điểm, người chơi chỉ cần bấm một số lượng nhỏ các nút (nhảy, bắn đạn, di
chuyển) hoặc không cần bấm nút nào. Công việc của máy cũng đẽ dàng và giống
nhau ở mỗi lần chơi (cụ thể tại một thời điểm sẽ nhận thấy một chướng ngại vật có
sẵn ở một vị trí cố định). Thuật toán với đầu vào là sơ đồ đang xuất hiện trên màn
hình tại thời điểm đó, nhiệm vụ của thuật tốn là với đầu vào đó, tổ hợp phím nào
phải được bấm chọn. Việc huấn luyện này được dựa trên số điểm tính cho việc di
chuyển bao xa trong thời gian bao lâu, nếu càng xa và càng nhanh thì được số điểm
thưởng càng cao (điểm thưởng này không phải là số điểm của trò chơi mà là số điểm
do người lập trình tạo ra). Qua quá trình huấn luyện, thuật tốn sẽ tìm ra một cách tối
ưu để đạt được số điểm tối đa, qua đó đạt được mục đích cuối cùng trong game là
cứu cơng chúa [2],[13].
1.1.2. Phân nhóm dựa trên các chức năng
Cách thứ hai đó là dựa trên chức năng của các thuật toán để phân nhóm.



×