Tải bản đầy đủ (.pdf) (93 trang)

Luận văn Thạc sĩ Tài chính ngân hàng: Ứng dụng kỹ thuật học máy trong xây dựng mô hình dự báo tài chính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.37 MB, 93 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG

LUẬN VĂN THẠC SĨ

ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG XÂY DỰNG
MƠ HÌNH DỰ BÁO TÀI CHÍNH

Chun ngành: Tài chính – Ngân hàng

NGUYỄN THÀNH TRUNG

HÀ NỘI - 2020


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG

LUẬN VĂN THẠC SĨ

ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG XÂY DỰNG
MƠ HÌNH DỰ BÁO TÀI CHÍNH

Chun ngành: Tài chính – Ngân hàng
Mã số: 8340201

Họ và tên học viên: Nguyễn Thành Trung
Người hướng dẫn: TS. Vũ Thị Phương Mai

HÀ NỘI - 2020



LỜI CAM ĐOAN
Tôi đã đọc và hiểu về các hành vi vi phạm sự trung thực trong học thuật. Tôi
cam kết bằng danh dự cá nhân rằng bản luận văn này do tôi thực hiện và không vi
phạm yêu cầu về sự trung thực trong học thuật.
Hà Nội, ngày

tháng

năm 2020

Học viên

Nguyễn Thành Trung


LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn tới Quý thầy cô Khoa Sau đại học – Trường Đại học Ngoại
Thương, đặc biệt tôi xin chân thành cảm ơn TS. Vũ Thị Phương Mai đã tận giúp
đỡ và hướng dẫn cho tơi hồn thành luận văn này.
Hà Nội, ngày

tháng

năm 2020

Học viên

Nguyễn Thành Trung



MỤC LỤC
LỜI CAM ĐOAN
LỜI CẢM ƠN
MỤC LỤC
DANH MỤC TỪ VIẾT TẮT
DANH MỤC BẢNG
DANH MỤC HÌNH
TĨM TẮT KẾT QUẢ NGHIÊN CỨU
LỜI MỞ ĐẦU....................................................................................................................... 1
CHƯƠNG 1: GIỚI THIỆU VỀ HỌC MÁY VÀ CÁC MƠ HÌNH HỌC MÁY ............. 7
1.1.

KHÁI NIỆM .............................................................................................................. 7

1.2.

CÁC BÀI TỐN CƠ BẢN TRONG HỌC MÁY .................................................. 7

1.3.

PHÂN NHĨM CÁC THUẬT TOÁN HỌC MÁY ................................................. 9

1.4.

LỊCH SỬ CÁC SỰ KIỆN LIÊN QUAN TỚI HỌC MÁY .................................. 11

1.5.

HÀM TỔN THẤT VÀ THAM SỐ MƠ HÌNH..................................................... 13


1.6.

MỘT SỐ THUẬT TỐN TỐI ƯU THƠNG DỤNG TRONG HỌC MÁY ...... 13

1.7.

THUẬT TỐN K-NEAREST NEIGHBOR (KNN) ............................................ 19

1.8.

MƠ HÌNH HỒI QUY LOGISTIC ........................................................................ 20

1.9.

THUẬT TOÁN CÂY QUYẾT ĐỊNH (DECISION TREE) ................................ 24

1.10. THUẬT TOÁN RANDOM FOREST (RỪNG NGẪU NHIÊN)......................... 29
1.11. THUẬT TOÁN SUPPORT VECTOR MACHINE (SVM)................................. 31
1.12. MƠ HÌNH MẠNG NƠRON NHÂN TẠO (ARTIFICIAL NEURAL
NETWORK- ANN) ............................................................................................................ 41
1.13. PHÂN LOẠI ĐA LỚP TRONG HỌC MÁY – MƠ HÌNH SOFTMAX ............ 49


1.14. GIỚI THIỆU VỀ PYTHON VÀ CÁC THƯ VIỆN HỖ TRỢ CÀI ĐẶT THUẬT
TOÁN .................................................................................................................................. 52
CHƯƠNG 2: DỰ BÁO KHẢ NĂNG TRẢ NỢ CỦA KHÁCH HÀNG ........................ 54
2.1. GIỚI THIỆU BÀI TOÁN.......................................................................................... 54
2.2. DỮ LIỆU VÀ XỬ LÝ DỮ LIỆU .............................................................................. 54
2.3. KẾT QUẢ ................................................................................................................... 57

CHƯƠNG 3: DỰ BÁO CHO DỮ LIỆU CHUỖI THỜI GIAN..................................... 64
TRONG TÀI CHÍNH ........................................................................................................ 64
3.1. TIẾP CẬN BÀI TOÁN: ............................................................................................ 64
3.2. DỮ LIỆU CỦA BÀI TỐN ...................................................................................... 64
3.3. ĐO LƯỜNG TÍNH CHÍNH XÁC CỦA MƠ HÌNH DỰ BÁO .............................. 67
3.4. KẾT QUẢ CỦA BAI TOAN ..................................................................................... 68
3.5. NHẬN XÉT KẾT QUẢ ............................................................................................. 72
3.6. NHẬN XÉT VỀ MƠ HÌNH ANN ............................................................................. 73
3.7. ĐÁNH GIÁ VIỆC XÂY DỰNG MƠ HÌNH DỰ BÁO TÀI CHÍNH BẰNG
PHƯƠNG PHÁP HỌC MÁY ........................................................................................... 74
3.8. MỘT SỐ KHUYẾN NGHỊ CHÍNH SÁCH ............................................................. 75
KẾT LUẬN......................................................................................................................... 77
TÀI LIỆU THAM KHẢO ................................................................................................. 78
PHỤ LỤC: KẾT QUẢ MỘT SỐ MƠ HÌNH CHƯƠNG 3 ............................................ 81


DANH MỤC TỪ VIẾT TẮT
KNN: K Nearest Neighbors
SVM: Support Vector Machine
ANN: Artificial Neural Network
KKT: Karush-Kuhn-Tucker
SMO: Sequential Minimal Optimization
NN: Neural Network
DT: Decision Tree
LR: Logistic Regression
ARDL: Autoregressive Distributed Lag
ARIMA: Autoregressive integrated moving average

DANH MỤC BẢNG
Bảng 2.1. Tổng hợp kết quả các mô hình

Bảng 3.1: Kết quả sai số của các mơ hình
Bảng 3.2. Kết quả so sánh mơ hình 6 và bài báo [13]


DANH MỤC HÌNH
Hình 0.1. Minh họa hàm lồi
Hình 0.2. Minh họa hàm lõm
Hình 0.3. Minh họa thuật tốn giảm gradient
Hình 0.4. Minh họa thuật tốn Newton-Raphson
Hình 0.5. Thuật tốn giảm gradient với hàm khơng lồi
Hình 1.1. Ví dụ bài tốn Cây quyết định
Hình 1.2. Cơ chế lọc dữ liệu của Cây quyết định
Hình 1.3. Cơ chế tiên phân loại cho nút gốc của Cây quyết định
Hình 1.4. Kết quả phân loại của Cây quyết định
Hình 1.5. Ví dụ về sự phân chia tuyến tính
Hình 1.6. Ví dụ về sự phân chia hai chiều
Hình 1.7. Ví dụ về sự phân chia ba chiều
Hình 1.8. Các trường hợp phân chia dữ liệu
Hình 1.9. Minh họa bài tốn SVM lề cứng
Hình 1.10. Minh họa dữ liệu nhiễu trong bài tốn SVM
Hình 1.11. Bài tốn SVM lề mềm
Hình 1.12. Minh họa mạng nơ ron nhân tạo
Hình 1.13. Minh họa đầu ra của nốt trong mạng nơ ron
Hình 1.14. Ví dụ mạng nơ ron ba lớp
Hình 2.1. Mơ tả dữ liệu khách hàng
Hình 2.2. Thơng tin cơ bản về dữ liệu được xuất từ Python
Hình 2.3. Điểm dữ liệu sau khi đã thực hiện chuẩn hóa theo cách 1
Hình 2.4. Kết quả độ chính xác các mơ hình theo cách 1



Hình 2.5. Kết quả độ chính xác các mơ hình theo cách 2
Hình 2.6. Kết quả dự báo thơng tin thiếu trường ‘Saving accounts’
Hình 2.7. Kết quả dự báo thơng tin thiếu trường ‘Checking account’
Hình 2.8. Kết quả độ chính xác các mơ hình theo cách 3
Hình 2.9. So sánh kết quả của mơ hình theo cách 1 và cách 2
Hình 2.10. So sánh kết quả của mơ hình theo cách 2 và cách 3
Hình 3.0. Dữ liệu VN-Index từ 2010 đến 2019
Hình 3.1. Kết quả dự báo mơ hình 1
Hình 3.2. Kết quả dự báo mơ hình 2
Hình 3.3. Kết quả dự báo mơ hình 3
Hình 3.4. Kết quả dự báo mơ hình 4
Hình 3.5. Kết quả dự báo mơ hình 5
Hình 3.6. Kết quả dự báo mơ hình 6


TĨM TẮT KẾT QUẢ NGHIÊN CỨU
Luận văn đã trình bày những nét chính về khái niệm học máy và các kỹ thuật
thường được sử dụng trong học máy. Cụ thể luận văn đã thực hiện phân loại các bài
toán học máy và giới thiệu những mơ hình học máy đang được triển khai trong lĩnh
vực tài chính như: K láng giềng gần nhất (K nearest neighbor), Hồi quy logistic,
Cây quyết định (Decision Tree), Rừng ngẫu nhiên (Random Forest), Support Vector
Machine, mạng Nơ-ron nhân tạo và mơ hình Softmax. Luận văn đã đi sâu vào phân
tích cách thức các mơ hình này học hỏi tri thức từ dữ liệu và áp dụng cho các vấn đề
trong thực tiễn.


1

LỜI MỞ ĐẦU
1. Lý do chọn đề tài

Học máy (machine learning) là một nhánh trong lĩnh vực khoa học máy tính và
cũng là tập con của trí tuệ nhân tạo. Học máy sử dụng các thuật tốn cho phép máy
tính có thể học được từ dữ liệu để thực hiện các cơng việc, có thể tự thay đổi và cải
thiện các thuật tốn của chúng thay vì phải được lập trình một cách cụ thể rõ ràng.
Học máy được ứng dụng trong hầu hết mọi ngành cơng nghiệp có làm việc với một
lượng lớn dữ liệu từ các ngành công nghiệp sản xuất, dịch vụ,… đến cả các ngành
công nghiệp quốc phịng, an ninh,… có thể kể ra một số ví dụ như: xe tự hành, hệ
thống nhận diện khn mặt, chuẩn đốn y khoa, nhận dạng tiếng nói và chữ viết,
dịch tự động, trợ lý ảo, chatbots, dự báo thời tiết, phân tích kinh tế, phân tích thị
trường chứng khoán, …
Các cơ sở toán học của học máy, các mơ hình học máy đã được phát triển lý
thuyết từ những thập niên cuối của thế kỷ trước. Nhưng học máy cũng chỉ mới
bùng nổ trong khoảng hơn một chục năm trở lại đây do năng lực tính tốn của
máy tính đã đáp ứng được sự địi hỏi của các mơ hình lý thuyết và độ lớn của
dữ liệu. Học máy đã và vẫn đang được coi là công cụ mạnh mẽ để tạo ra những
dự đốn có độ chính xác cao cho lời giải của nhiều bài toán trong thực tế thuộc
hầu khắp các lĩnh vực, ngành tài chính – ngân hàng nói riêng cũng khơng phải
là ngoại lệ.
Trong xã hội và nền kinh tế hiện nay, công tác dự báo ln được chú trọng vì nó
cung cấp các thơng tin cần thiết một cách có căn cứ nhằm phát hiện và bố trí sử
dụng các nguồn lực trong tương lai một cách hợp lý nhất. Ở mức độ vĩ mô, với
những thông tin mà dự báo đưa ra thì các nhà hoạch định chính sách khơng những
có thể có những quyết định về việc xây dựng các chiến lược phát triển, các quy
hoạch tổng thể, quyết định về đầu tư cơng, các chính sách về kinh tế vĩ mơ, chính
sách về tài khóa, tiền tệ một cách có cơ sở khoa học mà cịn có thể cho phép xem
xét một cách toàn diện về khả năng thực hiện kế hoạch và hiệu chỉnh kế hoạch
nhằm tối đa hóa được mục tiêu phát triển. Ở mức độ vi mô, dự báo trước những


2


biến số quan trọng sẽ giúp cho doanh nghiệp, cá nhân có thể ra được những quyết
định chính xác về đầu tư, quyết định về sản xuất, về tiết kiệm, tiêu dùng. Các nhà
quản trị doanh nghiệp có thể chủ động trong việc đề ra các kế hoạch và các quyết
định cần thiết phục vụ cho quá trình sản xuất kinh doanh, tiếp thị, quy mô sản xuất,
kênh phân phối sản phẩm, nguồn cung cấp tài chính
Chính vì lý do như vậy, học viên đã quyết định chọn tên đề tài “Ứng dụng kỹ
thuật học máy trong xây dựng mô hình dự báo tài chính” làm hướng nghiên cứu cho
luận văn cao học của mình.
2. Mục đích và nhiệm vụ nghiên cứu
Luận văn nghiên cứu sâu về mặt lý thuyết các mơ hình thường được sử dụng
trong học máy. Bên cạnh đó luận văn cũng sẽ tập trung làm nổi bật tính ứng dụng
thực tế áp dụng cho mục đích dự báo. Cụ thể luận văn sẽ giải quyết các vấn đề sau:
• Nghiên cứu sâu về các mơ hình học máy thông dụng và quan trọng hiện đang
được triển khai trong lĩnh vực tài chính – ngân hàng
• Ứng dụng các kỹ thuật và mơ hình học máy này vào giải quyết bài toán dự báo
trên thực tế.
3. Đối tượng và phạm vi nghiên cứu
Luận văn sử dụng các mơ hình trong học máy như: K láng giềng gần nhất (K
nearest neighbor), Hồi quy logistic, Cây quyết định (Decision Tree), Rừng ngẫu
nhiên (Random Forest), Support Vector Machine, mạng Nơ-ron nhân tạo và mơ
hình Softmax để thực hiện giải quyết các bài tốn dự báo tài chính.
4. Phương pháp thực hiện nghiên cứu
Luận văn sử dụng phương pháp định lượng được ứng dụng trong học máy,
thống kê trên nền tảng lý thuyết về tốn cao cấp điển hình là lý thuyết về ma trận,
giải tích, lý thuyết về tối ưu hóa tốn học, xử lý dữ liệu, kỹ thuật lập trình để thực
hiện xây dựng các mơ hình dự báo.


3


5. Tổng quan tình hình nghiên cứu
5.1. Tình hình nghiên cứu trong nước
Ở Việt Nam những nghiên cứu về các kỹ thuật học máy trong dự báo tài chính
chưa nhiều và cũng khơng dễ để tìm kiếm các bài báo khoa học về chủ đề này. Vì
vậy học viên sẽ đưa ra những nghiên cứu gần nhất với nội dung nghiên cứu trong
luận văn của mình:
Nghiên cứu của Nguyễn Tiến Hưng, Lê Thị Huyền Trang (2018), ‘Mơ hình
chấm điểm tín dụng dựa trên sự kết hợp giữa mơ hình Cây quyết định, Logistic
Regression, K láng giềng gần nhất và Mạng thần kinh nhân tạo’. Các tác giả đã tìm ra
khoảng trống nghiên cứu, đề cập và sử dụng các mô hình học máy như Cây quyết
định (DT), Logistic Regression (LR), K láng giềng gần nhất (KNN), Mạng thần kinh
nhân tạo (ANN) trong xây dựng mơ hình chấm điểm tín dụng nhằm nâng cao tính
chính xác của các mơ hình này. Bài nghiên cứu hướng đến việc giới thiệu sơ qua các
thuật tốn học máy và sau đó đề xuất, đánh giá mơ hình kết hợp DT – LR, DT –
KNN, DT – ANN so với các mơ hình đơn lẻ. Kết quả chỉ ra rằng mơ hình DT – ANN
có hiệu quả nhất trong khi hai mơ hình cịn lại là DT – LR, DT – KNN thì chưa có
được hiệu quả tốt so với các mơ hình đơn lẻ tuy nhiên các tác giả cũng thừa nhận
rằng mơ hình DT – ANN cần phải có cơ sở dữ liệu lịch sử khách hàng vay lớn, đa
dạng và trong một khoảng thời gian dài để mơ hình thực sự có hiệu quả phân loại tốt.
Nghiên cứu của Nguyễn Khắc Hiếu, Nguyễn Thị Anh Vân (2014), ‘Dự báo
lạm phát tại Việt Nam bằng mơ hình mạng thần kinh nhân tạo’. Bài viết nhằm so
sánh hiệu quả dự báo của mơ hình mạng thần kinh nhân tạo và mơ hình phân phối
trễ tự hồi quy (ARDL) trong dự báo lạm phát theo tháng tại Việt Nam. Kết quả cho
thấy mơ hình ANN dự báo lạm phát tại Việt Nam tốt hơn mô hình ARDL
Nghiên cứu của Lê Đạt Chí (2011), Luận án Tiến sỹ: ‘Ứng dụng mơ hình
mạng thần kinh nhân tạo trong dự báo kinh tế’. Luận án đã tìm hiểu cơ chế vận
hành của mơ hình mạng ANN qua đó khảo sát khả năng dự báo giá chứng khoán
trên thị trường Việt Nam. Luận án đã chỉ ra cấu trúc mạng truyền thẳng với hàm
truyền là phi tuyến sẽ cho ra kết quả dự báo tốt hơn các cấu trúc mạng ANN khác



4

điều là hiển nhiên tại thời điểm hiện tại. Luận án đã chứng minh tính hiệu quả của
mơ hình ANN hơn hẳn mơ hình hồi quy truyền thống được áp dụng trên thị trường
vào thời điểm năm 2011
5.2. Tình hình nghiên cứu trên thế giới
Theo hiểu biết của học viên, tính tới nay hầu như ít có nghiên cứu về học máy
dành riêng cho lĩnh vực tài chính. Phần lớn các nghiên cứu chuyên sâu về học máy
sẽ tập trung vào giải quyết những vấn đề về mặt thuật toán, về việc tạo ra các mơ
hình mới, các khía cạnh mới còn chưa được khai thác trong khoa học máy tính,
khoa học dữ liệu để giúp cho máy tính có thể học hỏi từ dữ liệu một cách tốt hơn,
nhanh hơn và chính xác hơn. Việc sử dụng học máy trong lĩnh vực tài chính – ngân
hàng thường được tiếp cận theo hướng ứng dụng thành quả của các kỹ thuật học
máy nói chung hơn là việc nghiên cứu thuật toán mới dành riêng cho lĩnh vực này.
Trong những năm gần đây, nhiều nghiên cứu đã áp dụng các mô hình mạng
nơron nhân tạo trong dự báo chuỗi thời gian và đạt được một số kết quả nhất định.
Kumar Abhishek, Anshul Khairwa, Tej Pratap, Surya Prkash (2012), sử dụng mạng
nơ ron nhân tạo trong dự báo chứng khoán trên tập dữ liệu của tập đoàn Microsoft
từ 1/1/2011 đến 31/12/2011 gồm 2 lớp đơn giản trong mạng (10 nơron lớp đầu vào,
1 nơron lớp đầu ra), độ chính xác dự báo lên đến 99%.
Moshiri & Cameron (2000) khẳng định trong bài nghiên cứu của mình rằng
trong dài hạn lạm phát tại Canada dự báo bằng mơ hình ANN cho kết quả tốt hơn
mơ hình VAR, ARIMA.
Duzgun (2010) sử dụng mơ hình ANN để dự báo lạm phát tại Thổ Nhĩ Kỳ và
khẳng định mơ hình ANN dự báo lạm phát tốt hơn so với mơ hình ARIMA.
H. Abdou, J. Pointon, and A. Elmasry (2008) và E. Angelini, G.D. Tollo, and
A.Roil (2008) trong hai bài viết: “Neural Nets Versus Conventional Techniques in
Credit Scoring in Egyptian Banking” và “A Neural Network Approach for Credit

Risk Evaluation” đã chỉ ra rằng mơ hình được xây dựng từ kỹ thuật mạng thần kinh
nhân tạo đã cho ra một tỷ lệ chính xác cao hơn so với các mơ hình trước đó khi họ
tiến hành nghiên cứu tại Ai Cập và Italia.


5

K. S. Shin, T. S. Lee, and H. Kim (2005) với bài báo “An application of support
vector machines in bankruptcy prediction model” và T.V.Gestel, B.Baesens,
J.A.Suykens, D.Van den Poel, D.-E.Baestaens, B.Willekens (2006) với bài
“Bayesian kernel based classification for financial distress detection” đã chỉ ra rằng
các kỹ thuật trong lĩnh vực học máy như Cây quyết định, SVM, thuật toán di truyền
và mạng thần kinh (NN) là các kỹ thuật tối ưu trong đánh giá rủi ro tín dụng. Các
bài báo cũng chỉ ra điểm tốt hơn của các mơ hình học máy so với các mơ hình thống
kê truyền thống là việc học máy không cần tới sự giả định về việc dữ liệu phải tuân
theo một phân phối xác định nào đó mà những kỹ thuật này sẽ tự động cập nhật tri
thức và kinh nghiệm từ dữ liệu một cách khách quan hơn. Hai bài báo này cũng chỉ
ra các mơ hình học máy là tốt hơn các mơ hình thống kê truyền thống trong việc
đánh giá rủi ro tín dụng của doanh nghiệp
Các tác giả B.Baesens, T.Van Gestel, S.Viaene, M.Stepanova, J. Suykens và
J.Vanthienen (2003) trong bài báo “Benchmarking state-of-art classification
algorithm for credit scoring” đã tiến hành nghiên cứu xây dựng mơ hình chấm
điểm tín dụng từ 17 kỹ thuật phân loại khác nhau dựa trên tám bộ dữ liệu thực tế
và đã cho thấy SVM là mơ hình tốt nhất trong các mơ hình được kiểm nghiệm
dựa trên tiêu chí về tỷ lệ chính xác phân loại được khách hàng có trả được nợ của
mình hay khơng.
6. Dự kiến kết quả
Các kỹ thuật điển hình được sử dụng trong học máy sẽ được giới thiệu và trình
bày thơng qua việc giải quyết hai bài toán dự báo là: dự báo khả năng trả nợ của
khách hang và dự báo chuỗi thời gian trong tài chính.

Với bài tốn về dự báo khả năng trả nợ của khách hàng, luận văn sẽ trình bày
cách xây dựng các mơ hình đánh giá và so sánh kết quả của chúng để đi đến những
kết luận cuối cùng.
Với bài toán về dự báo chuỗi thời gian trong tài chính, luận văn sẽ sử dụng mơ
hình học máy mạng nơ-ron nhân tạo với những cách xây dựng mạng khác nhau để
dự báo cho giá đóng cửa của Vn-Index.


6

7. Bố cục luận văn
Ngoài danh mục từ viết tắt, danh mục bảng biểu, danh mục hình, lời mở đầu,
phần kết luận thì luận văn được chia làm 3 chương như sau :
Chương I: Giới thiệu về học máy và các mơ hình học máy
Chương II: Bài tốn dự báo khả năng trả nợ của khách hàng
Chương III: Bài toán dự báo chuỗi thời gian tài chính


7

CHƯƠNG 1: GIỚI THIỆU VỀ HỌC MÁY VÀ CÁC MÔ HÌNH HỌC MÁY
1.1. Khái niệm
Theo Giáo sư Tom Mitchell của Đại học Carnegie Mellon: Học máy là một
chương trình máy tính được nói là học hỏi từ kinh nghiệm E từ các tác vụ T và với
độ đo hiệu suất P. Nếu hiệu suất của nó áp dụng trên tác vụ T và được đo lường bởi
độ đo P tăng từ kinh nghiệm E.
Các tác vụ trong học máy được mô tả thông qua việc một hệ thống xử lý một
điểm dữ liệu (hay còn được hiểu là một bản ghi) đầu vào như thế nào. Kinh nghiệm
trong học máy là bộ dữ liệu được dùng để xây dựng mô hình. Trong q trình xây
dựng mơ hình, bộ dữ liệu thường được chia ra thành hai tập dữ liệu không giao

nhau: là tập huấn luyện (training set) và tập kiểm tra (test set). Tập huấn luyện bao
gồm các điểm dữ liệu được sử dụng trực tiếp trong việc xây dựng mơ hình. Tập
kiểm tra gồm các dữ liệu được dùng để đánh giá hiệu quả của mơ hình. Tập kiểm tra
khơng được sử dụng trong q trình xây dựng mơ hình.
Về bản chất của học máy được cơng nhận một cách chung nhất, việc xây dựng
mơ hình học máy chính là việc đi tìm hàm số f ánh xạ một điểm dữ liệu x vào một
phần tử y  Y : f (x) = y
1.2. Các bài toán cơ bản trong học máy
1.2.1. Bài toán phân loại:
Phân loại là một trong những bài toán phổ biến và được nghiên cứu nhiều nhất
trong học máy. Trong bài tốn này, chương trình được yêu cầu xác định nhãn của
một điểm dữ liệu trong số C nhãn khác nhau. Cặp (dữ liệu, nhãn) được ký hiệu là
(x, y) với y nhận một trong C giá trị của tập đích Y .

Ví dụ 1: Bài toán phân loại khả năng trả nợ của khách hàng (có hoặc khơng)
Kinh nghiệm: dữ liệu đã biết về khả năng trả nợ của khách hàng hiện hữu
Tác vụ: xác định được khách hàng có khả năng trả nợ hay khơng.
Độ đo hiệu suất: số lượng dự đốn đúng trong tập kiểm tra


8

Ví dụ 2: Bài tốn phân loại khách hàng theo điểm tín dụng (xếp hạng tín dụng
khách hàng)
Kinh nghiệm: dữ liệu đã biết về thứ hạng tín dụng của khách hàng hiện hữu
Tác vụ: xác định được khách hàng thuộc thứ hạng nào hoặc khoảng điểm nào.
Độ đo hiệu suất: số lượng dự đoán đúng trong tập kiểm tra
1.2.2. Bài toán hồi quy:
Tương tự như bài toán Phân loại, nhưng khi tập đích Y gồm các giá trị là số thực
thì bài tốn được gọi là hồi quy. Trong bài tốn này ta cần xây dựng một hàm số


f:

D



Ví dụ 1: Dự báo giá nhà dựa trên D trường thông tin về một căn nhà như diện
tích, số phịng ngủ, vị trí, số tầng, hướng căn nhà, …
Ví dụ 2: Dự báo chỉ số VN-Index
1.2.3. Bài toán phân cụm:
Phân cụm là bài tốn với mục đích chính là phân chia dữ liệu hiện có thành
các cụm nhỏ hơn dựa trên sự liên quan giữa các dữ liệu trong mỗi cụm. Trong
bài tốn này, dữ liệu khơng được gán nhãn do đó sẽ khơng cịn dữ liệu huấn
luyện và dữ liệu kiểm tra như các bài tốn trên. Mơ hình sẽ phân dữ liệu thành
các cụm khác nhau.
Ví dụ: phân cụm khách hàng dựa trên hành vi tài chính hay mua hàng. Dựa trên
dữ liệu đã có về hành vi tài chính hay tiêu dùng của khách hàng để có thể phân
khách hàng vào các cụm có hành vi giống nhau. Từ đó có thể đưa ra sự gợi ý về các
dịch vụ mà khách hàng có thể quan tâm.
1.2.4. Bài tốn hồn thiện dữ liệu:
Trong thực tế, việc một bộ dữ liệu thiếu thông tin, dữ liệu thu thập không chính
xác, hoặc có thể việc thu thập các đặc trưng cần thiết cho bộ dữ liệu không dễ dàng
là một điều thường xun xảy ra. Và bài tốn hồn thiện dữ liệu là bài toán được
đưa ra để khắc phục, sửa chữa những hạn chế như vậy. Hoàn thiện dữ liệu là bài


9

tốn dự đốn các trường dữ liệu cịn thiếu, dự đoán những giá trị thiếu của dữ liệu

dựa trên mối tương quan giữa các điểm dữ liệu.
1.3. Phân nhóm các thuật tốn học máy
Dựa trên tính chất của tập dữ liệu, các thuật tốn học máy có thể được phân
thành 4 nhóm chính như sau:
✓Học có giám sát (Supervised Learning)
✓Học khơng có giám sát (Unsupervised Learning)
✓Học bán giám sát (Semi-Supervised Learning)
✓Học tăng cường (Reinforcement Learning)
1.3.1. Học có giám sát
Một thuật tốn học máy được gọi là học có giám sát nếu việc xây dựng mơ hình
dự đốn mối quan hệ giữa đầu vào và đầu ra được dựa trên các cặp đầu vào-đầu ra
đã biết trong tập huấn luyện.
Diễn giải: học có giám sát xảy ra khi việc dự đốn quan hệ giữa đầu vào x và dữ
liệu đầu ra y được thực hiện dựa trên các cặp (x1; y1 ); (x 2 ; y2 ); ... ; (x N ; yN ) trong
tập huấn luyện với mỗi x là một vector đặc trưng D chiều thể hiện D thuộc tích của
một điểm dữ liệu x. Nhiệm vụ của thuật tốn là phải thiết lập được một cách tính
tốn như thế nào đó để sao cho với mỗi vector đặc trưng D chiều dầu vào thì sai số
giữa giá trị đầu ra của mơ hình và giá trị thực tế tương ứng là nhỏ nhất. Hay nói
cách khác việc huấn luyện là việc xây dựng một hàm số f sao cho với mọi i =
1,2,...,N thì f (x i ) gần với yi nhất có thể. Hơn nữa khi có một điểm dữ liệu x nằm
ngồi tập huấn luyện thì đầu ra dự đốn của mơ hình là f (x) cũng gần với giá trị
đầu ra thực tế là y.
Ví dụ như: dự báo khả năng trở nợ của một khách hàng mới với mơ hình được
xây dựng từ dữ liệu của các khách hàng đã biết về thông tin các thuộc tính và khả
năng trả nợ của những khách hàng này


10

1.3.2. Học khơng giám sát

Trong thuật tốn này, dữ liệu huấn luyện chỉ bao gồm các dữ liệu đầu vào x mà
khơng có đầu ra y tương ứng như trong học có giám sát. Trong bài tốn học khơng
giám sát tập dữ liệu huấn luyện được cho dưới dạng D = (x1 , x 2 ,..., x N  mỗi x là
một vector đặc trưng D chiều.
Nhiệm vụ của thuật toán là phải phân chia tập dữ liệu D thành các nhóm con sao
cho các điểm dữ liệu có đặc tính giống nhau vào từng nhóm. Ví dụ như phân cụm
các khách hàng có hành vi tài chính hoặc tiêu dùng giống nhau vào cùng một nhóm.
1.3.3. Học bán giám sát
Thuật toán mà tập huấn luyện bao gồm các cặp đầu vào-đầu ra nhưng dữ liệu
ngồi tập huấn luyện thì chỉ có dữ liệu đầu vào x mà khơng có dữ liệu đầu ra y thì
được gọi là học bán giám sát.
1.3.4. Học tăng cường
Học tăng cường đơi khi cịn được gọi là học thưởng-phạt (reward-penalty
learning), thuật toán học máy này có thể khơng u cầu dữ liệu huấn luyện mà mơ
hình sẽ học cách ra quyết định bằng cách giao tiếp trực tiếp với môi trường xung
quanh. Các thuật tốn thuộc nhóm này liên tục ra quyết định và nhận phản hồi từ
môi trường để củng cố hành vi của mình. Phương pháp này cụ thể như sau: với
vector đầu vào, thuật tốn học máy sẽ tính vector đầu ra. Nếu kết quả được xem là
“tốt” thì mạng sẽ được thưởng theo nghĩa tăng các trọng số kết nối lên; ngược lại
mạng sẽ bị phạt, các trọng số kết nối khơng thích hợp sẽ được giảm xuống.
Ví dụ như AlphaGo chơi cờ vây thắng con người trong bối cảnh cờ vây là một
trị chơi có độ phức tạp cao với tổng số thế cờ xấp xỉ 10761 . Hay Google DeepMind
không cần học dữ liệu từ các ván cờ của con người, hệ thống này tự chơi với chính
mình để tìm ra các chiến thuật tối ưu và thắng tất cả con người và hệ thống khác bao
gồm cả AlphaGo


11

1.4. Lịch sử các sự kiện liên quan tới Học máy

1950 - Nhà bác học Alan Turing đã tạo ra "Turing Test (phép thử Turing)" để
xác định xem liệu một máy tính có trí thơng minh thực sự hay khơng. Để vượt qua
bài kiểm tra đó, một máy tính phải có khả năng đánh lừa một con người tin rằng nó
cũng là con người.
1952 - Arthur Samuel đã viết ra chương trình học máy (computer learning) đầu
tiên. Chương trình này là trị chơi cờ đam, và hãng máy tính IBM đã cải tiến trị
chơi này để nó có thể tự học và tổ chức những nước đi trong chiến lược để giành
chiến thắng.
1957 - Frank Rosenblatt đã thiết kế mạng nơron (neural network) đầu tiên cho
máy tính, trong đó mơ phỏng quá trình suy nghĩ của bộ não con người.
1967 - Thuật toán "nearest neighbor" đã được viết, cho phép các máy tính bắt
đầu sử dụng những mẫu nhận dạng (pattern recognition) rất cơ bản. Nó được sử
dụng để vẽ ra lộ trình cho một người bán hàng có thể bắt đầu đi từ một thành phố
ngẫu nhiên nhưng đảm bảo anh ta sẽ đi qua tất cả các thành phố khác theo một
quãng đường ngắn nhất.
1979 - Sinh viên tại trường đại học Stanford đã phát minh ra giỏ hàng "Stanford
Cart" có thể điều hướng để tránh các chướng ngại vật trong một căn phòng.
1981 - Gerald Dejong giới thiệu về khái niệm Explanation Based Learning
(EBL), trong đó một máy tính phân tích dữ liệu huấn luyện và tạo ra một quy tắc
chung để nó có thể làm theo bằng cách loại bỏ đi những dữ liệu không quan trọng.
1985 - Terry Sejnowski đã phát minh ra NetTalk, nó có thể học cách phát âm
các từ giống như cách một đứa trẻ tập nói.
1990s - Machine Learning đã dịch chuyển từ cách tiếp cận hướng kiến thức
(knowledge-driven) sang cách tiếp cận hướng dữ liệu (data-driven). Các nhà khoa
học bắt đầu tạo ra các chương trình cho máy tính để phân tích một lượng lớn dữ liệu
và rút ra các kết luận - hay là "học" từ các kết quả đó.
1997 - Deep Blue của hãng IBM đã đánh bại nhà vô địch cờ vua thế giới.


12


2006 - Geoffrey Hinton đã đưa ra một thuật ngữ "deep learning" để giải thích
các thuật tốn mới cho phép máy tính "nhìn thấy" và phân biệt các đối tượng và văn
bản trong các hình ảnh và video.
2010 - Microsoft Kinect có thể theo dõi 20 hành vi của con người ở một tốc độ
30 lần mỗi giây, cho phép con người tương tác với máy tính thơng qua các hành
động và cử chỉ.
2011 - Máy tính Watson của hãng IBM đã đánh bại các đối thủ là con người tại
Jeopardy.
2011 - Google Brain đã được phát triển, và mạng deep nơron (deep neural
network) của nó có thể học để phát hiện và phân loại nhiều đối tượng theo cách mà
một con mèo thực hiện.
2012 - X Lab của Google phát triển một thuật tốn machine learning có khả
năng tự động duyệt qua các video trên YouTube để xác định xem video nào có chứa
những con mèo.
2014 - Facebook phát triển DeepFace, một phần mềm thuật tốn có thể nhận
dạng hoặc xác minh các cá nhân dựa vào hình ảnh ở mức độ giống như con người
có thể.
2015 - Amazon ra mắt nền tảng machine learning riêng của mình.
2015 - Microsoft tạo ra Distributed Machine Learning Toolkit, trong đó cho
phép phân phối hiệu quả các vấn đề machine learning trên nhiều máy tính.
2015 - Hơn 3.000 nhà nghiên cứu AI và Robotics, được sự ủng hộ bởi những
nhà khoa học nổi tiếng như Stephen Hawking, Elon Musk và Steve Wozniak (và
nhiều người khác), đã ký vào một bức thư ngỏ để cảnh báo về sự nguy hiểm của vũ
khí tự động trong việc lựa chọn và tham gia vào các mục tiêu mà khơng có sự can
thiệp của con người.
2016 - Thuật tốn trí tuệ nhân tạo của Google đã đánh bại nhà vơ địch trị chơi
Cờ Vây, được cho là trị chơi phức tạp nhất thế giới (khó hơn trò chơi cờ vua rất



13

nhiều). Thuật toán AlphaGo được phát triển bởi Google DeepMind đã giành chiến
thắng 4/5 trước nhà vô địch Cờ Vây.
1.5. Hàm tổn thất và tham số mơ hình
Các mơ hình học máy thường được mô tả bằng bộ các tham số của mơ hình.
Cơng việc của một mơ hình học máy là đi tìm các tham số tối ưu của mơ hình
sao cho kết quả của bài tốn là tốt nhất. Ví dụ trong bài tốn phân loại, kết quả
có thể được hiểu là tốt khi số điểm dữ liệu dự đoán đúng là cao. Trong bài toán
hồi quy, kết quả tốt là khi sự sai lệch giữa giá trị đầu ra thực tế và giá trị đầu ra
dự đoán là nhỏ.
Mối quan hệ giữa các tham số của mô hình và độ đo hiệu suất được mơ tả thơng
qua một hàm số gọi là hàm tổn thất (hay còn có những tên gọi khác như hàm mất
mát, hàm chi phí). Hàm số này thường có giá trị nhỏ khi phép đánh giá cho kết quả
tốt và ngược lại. Việc đi tìm các tham số mơ hình sao cho độ đo hiệu suất là tốt nhất
thì chính là việc đi tìm tham số sao cho hàm tổn thất là tối thiểu. Như vậy việc đi
tìm các tham số của mơ hình hay chính là việc xây dựng mơ hình học máy thực chất
là đi giải quyết một bài toán tối ưu.
1.6. Một số thuật tốn tối ưu thơng dụng trong học máy
1.6.1. Hàm lồi:
Định nghĩa: hàm f :

n



được gọi là hàm lồi nếu với x1 , x2 

  [0,1] thì:


f (  x1 + (1 −  ) x2 )   f ( x1 ) + (1 −  ) f ( x2 )

n




14

Hình 0.1. Minh họa hàm lồi
Nguồn: [1]
1.6.2. Hàm lõm:
Hàm f được gọi là hàm lõm nếu − f là hàm lồi.

Hình 0.2. Minh họa hàm lõm
Nguồn: [1]
Lý do cho sự quan trọng của hàm lồi hay hàm lõm là nếu f ( x) là một hàm lồi
hoặc hàm lõm thì các thuật tốn sẽ đảm bảo tìm được điểm tối ưu tồn cục. Ngồi ra
trong bài tốn đối ngẫu thì ta có khi giải một bài tốn tối ưu cho hàm lồi thỏa mãn
tiêu chuẩn Slater thì đối ngẫu mạnh xảy ra và khi đó nghiệm của bài tốn chính là
nghiệm của hệ điều kiện Karush-Kuhn-Tucker (KKT) là một cách giải thơng dụng
trong các bài tốn tối ưu có ràng buộc.


15

1.6.3. Thuật tốn giảm Gradient (Gradient Descent)
Trong Học máy nói riêng và Tối ưu hóa tốn học nói chung, ta thường xuyên
phải tìm giá trị nhỏ nhất hoặc lớn nhất của một hàm số nào đó. Như trong luận văn
này sẽ là tìm giá trị nhỏ nhất của hàm tổn thất. Việc tìm điểm tối ưu tồn cục cho

hàm tổn thất trong học máy là rất phức tạp, thậm chí là có thể khơng tìm được. Thay
vào đó người ta cố gắng tìm các điểm cực trị địa phương và có thể chấp nhận đó là
nghiệm của bài tốn ở mức độ chấp nhận nào đó.
Các điểm cực trị địa phương là nghiệm của phương trình đạo hàm bằng khơng.
Tuy nhiên trong hầu hết các bài toán Học máy việc giải những phương trình đạo
hàm riêng này là rất khó khăn do sự phức tạp của đạo hàm, do số chiều lớn của các
điểm dữ liệu hay do việc tập dữ liệu có quá nhiều điểm dữ liệu. Và thuật tốn giảm
Gradient được phát triển để có thể giải quyết tình huống này.
Thuật tốn giảm Gradient là một thuật tốn tối ưu lặp được sử dụng phổ biến
trong các bài toán Học máy. Gradient của một hàm số là đạo hàm của hàm số đó
tương ứng với mỗi biến của hàm số. Descent là từ viết tắt của descending nghĩa là
giảm dần. Thuật tốn được hiểu là với vị trí ban đầu bất kì, khi ta đi ngược hướng
đạo hàm thì ta sẽ tìm được điểm cực trị.

Hình 0.3. Minh họa thuật toán giảm gradient
Nguồn: [1]


×