Tải bản đầy đủ (.docx) (36 trang)

Nghiên cứu khả năng sử dụng trí tuệ nhân tạo để dự báo biến động các

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (699.83 KB, 36 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
••

BÁO CÁO TĨM TẮT
ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP BỘ
•••

NGHIÊN CỨU KHẢ NĂNG SỬ DỤNG
TRÍ TUỆ NHÂN TẠO ĐỂ DỰ BÁO BIẾN ĐỘNG
••••

CÁC BIẾN SỐ TÀI CHÍNH VĨ MƠ VIỆT NAM
Mã số: B2019-DNA-08

Chủ nhiệm đề tài: PGS.TS. Nguyễn Ngọc Vũ


Đà Nẵng, Tháng 3/2021
Bộ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẲNG

BÁO CÁO TĨM TẮT

ĐÈ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP BỘ

NGHIÊN CỨU KHẢ NĂNG sử DUNG TRÍ TUỆ NHÂN TẠO ĐẺ Dự BÁO BIẾN
ĐỘNG CÁC BIÉN SỔ TÀI CHÍNH vĩ MƠ VIỆT NAM

Mã số: B2019-DNA-08


PGS.TS. Ngun Lê Hùng
Đà Nang, Tháng 3/2021


DANH SÁCH CÁC THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI
TT

Đơn vị cơng tác

Họ và tên

Vai trị

1

PGS.TS. Nguyễn Ngọc Vũ

Đại học Đà Nẵng

Chủ nhiệm đề tài

2

TS. Nguyễn Thành Đạt

Trường Đại học Kinh tếĐại học Đà Nẵng

Thành viên chính, Thư ký
khoa học


3

PGS.TS. Phan Đinh Hồng Bách

Taylor's University,
Malaysia

Thành viên chính

4

ThS. Nguyễn Ngọc Trà

Trường Đại học Kinh tếĐại học Đà Nẵng

Thành viên chính

5

TS. Hồ Phước Tiến

Trường Đại học Bách
Khoa-Đại học Đà Nẵng

Thành viên chính

6

Nguyễn Thị Thúy Ngân


Đại học Đà Nẵng

Thành viên chính

1


MỤC LỤC
DANH SÁCH CÁC THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI .................................... i
MỤC LỤC............................................................................................................................................ ii
DANH MỤC CÁC HÌNH .................................................................................................................. iii
DANH MỤC CÁC BẢNG ................................................................................................................. iv
THÔNG TIN KẾT QUẢ NGHIÊN CỨU ......................................................................................... v
MỞ ĐẦU ............................................................................................................................................. 1
1. Tính cấp thiết của đề tài.............................................................................................................. 1
2. Mục tiêu nghiên cứu .................................................................................................................. 1
3. Đối tượng và phạm vi nghiên cứu ............................................................................................. 2
4. Phương pháp nghiên cứu ........................................................................................................... 2
5. Ý nghĩa khoa học và thực tiễn của đề tài................................................................................... 3
6. Bố cục của đề tài......................................................................................................................... 3
CHƯƠNG 1: BIẾN ĐỘNG BIẾN SỐ TÀI CHÍNH VĨ MƠ..............................................................4
1.1. Dự báo các biến số tài chính vĩ mơ ................................................................................................. 4
1.2. Dự báo về biến động của thị trường chứng khốn ......................................................................... 4
1.3. Tổng quan tình hình nghiên cứu trong nước .................................................................................. 4
1.4. Tổng quan tình hình nghiên cứu ngồi nước................................................................................... 4
CHƯƠNG 2: KỸ THUẬT DỰ BÁO BIẾN ĐỘNG CỦA DỮ LIỆU CHUỖI THỜI GIAN .......... 5
2.1. Các kĩ thuật liên quan đến hồi quy ................................................................................................. 5
2.1.1. Mơ hình bình phương nhỏ nhất cơ bản (OLS) .................................................................... 5
2.1.2. Mơ hình phương sai thay đổi có điều kiện tổng quát (GARCH)........................................ 6
2.1.3. Mơ hình bình phương tối thiểu tổng qt khả thi (FGLS)................................................... 7

2.2. Các kỹ thuật học tự động (machine learning) và trí tuệ nhân tạo................................................... 8
2.2.1. PCA (Principal Component Analysis).................................................................................. 8
2.2.2. SVM (Support Vector Machine) .......................................................................................... 8
2.2.3. Cây quyết định (Decision Tree)............................................................................................ 9
2.2.4. Phương pháp mạng neuron .................................................................................................. 9
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT TRÍ TUỆ NHÂN TẠO TRONG VIỆC DỰ ĐỐN BIẾN
ĐỘNG BIẾN SỐ TÀI CHÍNH ..........................................................................................................11
3.1. Dữ liệu tài chính ..............................................................................................................................11
3.2. Tổng quan về bài tốn dự báo .........................................................................................................12
3.3. Phương pháp machine learning truyền thống cho bài toán dự báo ................................................13
3.3. Phương pháp học sâu cho bài tốn dự báo biến động chỉ số tài chính .........................................14
3.3.1. Mơ tả bài tốn .....................................................................................................................14
3.3.2. Mơ hình dự đốn .................................................................................................................14
3.4. Dữ liệu.............................................................................................................................................15
3.4.1. Dữ liệu VNINDEX .............................................................................................................15
3.4.2. Dữ liệu HNX .......................................................................................................................16
CHƯƠNG 4: KẾT QUẢ DỰ BÁO BIẾN ĐỘNG CHỈ SỐ CHỨNG KHOÁN VIỆT NAM .........16
4.1. Các yếu tố tác động đến chỉ số chứng khoán Việt Nam..................................................................16
4.2. Dự báo biến động chỉ số chứng khoán Việt Nam bằng Machine Learning ...................................22
4.3. Dự đoán tỷ suất lợi tức trong ngày của HNX Index sử dụng kỹ thuật machine learning .............23
KẾT LUẬN ........................................................................................................................................25
ii


DANH MỤC CÁC HÌNH
Hình 2.1. Lợi suất hàng ngày của chỉ số VN-Index (hình trái) và chỉ số HNX Index (hình phải) trong
giai đoạn 2000-2019................................................................................................................................... 7
Hình 2.2. Khối trích thuộc tính và phân loại trong một mơ hình phân loại hay dự báo......................... 8
Hình 2.3. SVM với bài tốn phân loại hai lớp. ....................................................................................... 8
Hình 2.4. Ví dụ về cây quyết định............................................................................................................ 9

Hình 2.5. Cấu trúc một mạng MLP.......................................................................................................... 9
Hình 2.7. Cấu trúc của LSTM..................................................................................................................11
Hình 3.1. Chỉ số chứng khốn NASDAQ-100 ........................................................................................12
Hình 3.2. Mơ hình machine learning truyền thống. ................................................................................13
Hình 3.3. Mơ hình dự báo dựa trên kĩ thuật học sâu. ..............................................................................15
Hình 3.7. Xây dựng bộ dữ liệu..................................................................................................................16
Hình 4.1. Kết quả của mơ hình LSTM theo từng kích cỡ phần kiểm tra (test size)................................22
Hình 4.2. Kết quả của các mơ hình theo số lượng tính tăng ...................................................................23
Hình 4.3. Kết quả của các mơ hình theo độ dài huấn luyện. ..................................................................24


DANH MỤC CÁC BẢNG
Bảng 4.1. Thống kê mô tả .......................................................................................................................18
Bảng 4.2. Kết quả sơ bộ tác động của giá dầu và tỷ giá hối đoái đến chỉ số chứng khoán ...................18
Bảng 4.3. Kết quả ước lượng tác động của giá dầu và tỷ giá hối đoái đến chỉ số chứng khoán ...........19
Bảng 4.4. Kiểm định bền vững tác động của giá dầu và tỷ giá hối đoái đến chỉ số chứng khoán ........19
Bảng 4.5. Kết quả dự báo các chỉ số chứng khoán trong mẫu. ..............................................................20
Bảng 4.6. Kết quả dự báo các chỉ số chứng khốn ngồi mẫu ...............................................................21


Bộ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NÃNG

THÔNG TIN KẾT QUẢ NGHIÊN cứu
1. Thơng tín chung:
- Tên đề tài: Nghiên cứu khả năng sử dụng trí tuệ nhân tạo để dự báo biến động các biến số tài
chính vĩ mô Việt Nam
-Mã số: B2019-DNA-08

-


-

Chủ nhiệm đề tài: PGS.TS. Nguyễn Ngọc Vũ

-

Tổ chức chủ trì: Đại học Đà Nang

Thời gian thực hiện: 2019-2020
2. Mục tiêu:
Đề xuất được khung lý thuyết sử dụng trí tuệ nhân tạo để dự báo biến động các biến số tài chính vĩ
mơ và ứng dụng được lý thuyết sử dụng trí tuệ nhân tạo trong việc dự báo biến động các biến số tài
chính vĩ mô của Việt Nam. Các mục tiêu cụ thể như sau:
-

-

Đề xuất được khung lý thuyết sử dụng trí tuệ nhân tạo trong dự báo biến động các biến số tài
chính vĩ mơ.
- Sử dụng các mơ hình đã đề xuất để dự báo biến động các biến số tài chính vĩ mơ của Việt Nam.
So sánh mơ hình đề xuất với một số mơ hình kinh tế lượng khác.
- Bổ sung được các nghiên cứu hiện tại về dự báo biến dộng các biến số tài chính vĩ mơ Việt
Nam.
- Đưa ra các phát hiện mới về việc dự báo biến động các biến số tài chính vĩ mơ Việt Nam và các
hàm ý cũng như khuyến nghị.
3. Tính mới và sáng tạo:
Đồ tài này khảo sát và đề xuất các mơ hình để dự báo dữ liệu chuỗi thịi gian, cụ thể là các chi
số tài chính. Các mơ hình này đi từ các phương pháp hồi quy truyền thống đến các phương pháp dựa
trên kĩ thuật học tự động. Đối với các kĩ thuật hồi quy truyền thống, các tác giả đã xem xét các mơ hình

phương sai thay đổi có điều kiện GARCH và mơ hình bình phương nhỏ nhất tổng quát khả thi FGLS.
Với cách tiếp cận học tự động, các mơ hình như LSTM, SVM và cây quyết định được khảo sát và so
sánh với một số mơ hình dự báo truyền thống.
4. Kết quả nghiên cứu:
Kết quả nghiên cứu cho thấy các mô hình như LSTM, SVM và cây quyết định có khả năng dự
báo hiệu quả so với các mơ hình truyền thống như mơ hình trinh bình và mơ hình hồi


quy logistic. Đề tài cũng chỉ ra rằng, để thiết kế một mơ
hình dự báo tốt, ta cần chọn cấu trúc mạng và dữ liệu huấn
luyện phù họp.
5. Sản phẩm:
02 bài báo được cơng bố trên tạp chí thuộc danh mục Scopus:
1. Nguyễn Ngọc Trà, Nguyễn Thành Đạt, Nguyễn Ngọc Vũ (2020). The impacts of oil price
and exchange rate on Vietnamese stock market. Journal of Asian Finance, Economics and
Business, vol 7, No 8 (2020), 143-150.
2. Nguyễn Ngọc Vũ, Nguyễn Thành Đạt (2020). Can crude oil price be a predictor of stock
index return? Evidence from Vietnamese stock market. Asian Economic and Financial
Review, vol 10, No 1, 13-21
02 bài báo được công bố trên tạp chí thuộc danh mục của HĐCDGSNN:
1. Nguyễn Ngọc Trà, Hồ Phước Tiến, Nguyễn Thành Đạt và Nguyễn Ngọc Vũ (2019). VNindex trend prediction using Long-short term memory neural networks. Journal of Science
and Technology: Issue on information and communications technology, vol 17, no 12.2,
2019.
2. Nguyễn Ngọc Trà, Hồ Phước Tiến, Nguyễn Thành Đạt, Mạc Như Minh (2020). Stock return
prediction using machine learning-based techniques. Journal of Science and Technology:
Issue on information and communications technology.
01 học viên cao học, 01 báo cáo khoa học tổng kết đề tài, 01 bản đề xuất mơ hình ứng dụng trí tuệ
nhân tạo để dự báo biến động của các biến số tài chính vĩ mô Việt Nam.
6. Phương thức chuyển giao, địa chỉ ứng dụng, tác động và lợi ích mang lại của kết quả
nghiên cửu:

Phương thức chuyểo giao: Báo cáo tổng hợp và bản đề xuất mơ hình ứng dụng trí tuệ nhân
tạo để dự báo biến động của các biến số tài chính vĩ mơ Việt Nam được chuyển giao cho Đại học
Đà Nằng và các doanh nghiệp tại Đà Nằng (nếu có nhu cầu).
Tác động và lợi ích:
- Đối với lĩnh vực giáo dục và đào tạo: góp phần phát triển lĩnh vực trí tuệ nhân tạo trong
đào tạo đại học và sau đại học.
- Đối với lĩnh vực khoa học và cơng nghệ có liên quan: Mở rộng thêm các ứng dụng của trí
tuệ nhân tạo trong cơng nghệ tài chính.
- Đối với phát triển kinh tế-xã hội: Cơng tác dự báo biến động biến số tài chính vĩ mơ đạt
kết quả tin cậy hơn. Nhị' đó, các hành động can thiệp vào nền kinh tế từ hàm ý chính sách (dựa vào
các kết quả dự báo) sẽ chính xác và kịp thời hơn.
Ngày 19 tháng 3 năm 2021
Chủ nhiệm đề tài
Tổ chức chủ trì „
£
(ký, họ và tên)
(ký, họ và tên,
ĐOC
TRƯỞNG BAN
KHCN & MT

PGS.TS. Nguyễn Ngọc Vũ

PGS. TS. Nguyến Lê Hùng

v
ii


INFORMATION ON RESEARCH RESULTS

1. General information:
Project title: Research on the possibility of using artificial intelligence to forecast fluctuations in
macro-financial variables in Vietnam
Code number: B2019-DNA-08
Coordinator: Associate Professor PhD Nguyen Ngoc Vu
Implementing institution: The University of Danang
Duration: from 2019 to 2020
2. Objective(s):
Proposing a theoretical framework using artificial intelligence to forecast fluctuations in
macro-financial variables and applying artificial intelligence in forecasting fluctuations of macrofinancial variables of Vietnam. The specific objectives are as follows:
- Proposing the theoretical background of using artificial intelligence in forecasting
fluctuations of macro-financial variables.
- Using proposed models to forecast fluctuations in macro-finance variables in Vietnam.
- Compare the proposed model with some other econometric models.
- Contributing to the existing literature on forecasting fluctuations of macro-financial variables
in Vietnam.
- Providing new findings on forecasting fluctuations of macro-financial variables in Vietnam
and implications as well as recommendations.
3. Creativeness and innovativeness:
This project examines and proposes models for forecasting time-series data, specifically
financial indicators. These models range from traditional regression methods to machine learning
methods. For traditional regression techniques, the authors considered the GARCH model and the
FGLS model. With maching learning approach, models such as LSTM, SVM and decision tree are
surveyed and compared with some traditional models.
4. Research results:
The research results show that models such as LSTM, SVM and decision trees are able to
predict effectively compared to traditional models such as the average model and the logistic regression
model. The topic also shows that, to design a good predictive model, we need to choose the appropriate
network structure and training data.
5. Products:

02 publications on Scopus indexed journals:
1. Nguyen Ngoc Tra, Nguyen Thanh Dat, Nguyen Ngoc Vu (2020). The impacts of oil price and
exchange rate on Vietnamese stock market. Journal of Asian Finance, Economics and
Business, vol 7, No 8 (2020), 143-150.
2. Nguyen Ngoc Vu, Nguyen Thanh Dat (2020). Can crude oil price be a predictor of stock index
return? Evidence from Vietnamese stock market. Asian Economic and Financial Review, vol
10, No 1, 13-21
02 publications on journals listed by the State Council for Professorship:
1. Nguyen Ngoc Tra, Ho Phuoc Tien, Nguyen Thanh Dat và Nguyen Ngoc Vu (2019). VN-index
trend prediction using Long-short term memory neural networks. Journal of Science and
Technology: Issue on information and communications technology, vol 17, no 12.2, 2019.
7


2. Nguyen Ngoc Tra, Ho Phuoc Tien, Nguyen Thanh Dat, Mac Nhu Minh (2020). Stock return
prediction using machine learning-based techniques. Journal of Science and Technology: Issue
on information and communications technology.
01 master student, 01 scientific report, 01 proposal for application of artificial intelligence to forecast
fluctuations of Vietnam's macro-financial variables.
6. Transfer alternatives, application institutions, impacts and benefits of research results:
Transfer alternatives: Summarized report and proposal for application of artificial intelligence to
forecast fluctuations of Vietnam's macro-financial variables are transferred to the University of Danang
and enterprises in Da Nang.
Impacts and benefits of research results
- For education and training: Contribute to the development of artificial intelligence in
undergraduate and graduate training.
- For relevant research fields: Expanding applications of artificial intelligence in financial
technology.
- For socio-economic development: The macro-financial variable forecasting has provided more
reliable results. As a result, the actions to intervene in the economy from policy implications (based on

the forecasting results) will be more accurate and timelier.

8


MỞ ĐẦU
1. Tính cấp thiết của đề tài
Mặc dù đã có nhiều nghiên cứu trên thế giới về dự đốn hoặc giải thích sự biến động của chỉ số
tài chính, các nghiên cứu này hầu hết tập trung vào các thị trường phát triển như Mỹ, Anh, v.v. Điều
này đòi hỏi sự cần thiết trong việc mở rộng nghiên cứu thực nghiệm về vấn đề này ở các quốc gia khác
nhau, đặc biệt là ở các thị trường đang phát triển như Việt Nam. Sự khác nhau về môi trường thể chế,
và mức độ phát triển của thị trường liệu có ảnh hưởng đến khả năng dự đốn các chỉ số tài chính là một
câu hỏi cần được làm rõ. Bên cạnh đó, mặc dù đã có rất nhiều cơng trình được thực hiện, các nhà
nghiên cứu vẫn chưa thể thống nhất được các nhân tố nào quyết định đến sự biến động của chỉ số tài
chính, cụ thể là giá cổ phiếu, và từ đó làm thế nào để có thể dự báo chỉ số tài chính một cách đáng tin
cậy. Nhiều nghiên cứu trước đây tuy cho kết quả dự đoán trong mẫu tốt nhưng khi dự đoán ngồi mẫu
lại khơng đáng tin cậy do việc sử dụng mơ hình hồi quy trong dự đốn (Nelson và Kim (1993),
Stambaugh (1999) và Westerlund và Narayan (2015). Áp dụng học tự động (machine learning) vào việc
dự báo các chỉ số tài chính hứa hẹn giải quyết được một số vấn đề của các mơ hình trước đây để đưa ra
các mơ hình mới có khả năng dự đốn tốt hơn, tuy nhiên lĩnh vực này vẫn cần được đẩy mạnh nghiên
cứu. Hơn nữa, trong bối cảnh cuộc cách mạng công nghiệp 4.0, sự phát triển và ứng dụng mạnh mẽ của
cơng nghệ mà nổi bật là trí tuệ nhân tạo và tự động hóa vào tất cả các lĩnh vực trong đó có cả tài chính
(fintech) khiến việc nghiên cứu về ứng dụng “machine learning” trong nghiên cứu tài chính càng trở
nên cấp thiết hơn bao giờ hết. Tính riêng trong năm 2017, đã có 31 tỷ USD được đầu tư trong lĩnh vực
fintech trên toàn cầu, và trong giai đoạn 2015-2017 con số này là 122 tỷ USD. Có thể thấy đẩy mạnh
nghiên cứu về “machine learning” trong tài chính là xu thế của thế giới, có ý nghĩa không chỉ trong
nghiên cứu mà cả trong thực tiễn. Tuy nhiên cho đến nay, chưa có nhiều nghiên cứu về vấn đề này được
thực hiện tại Việt Nam.
Nghiên cứu này có ý nghĩa quan trọng cả về mặt học thuật và thực tiễn. Trước hết về mặt học
thuật, nghiên cứu này trước tiên có tiềm năng cải thiện được khả năng dự báo chỉ số tài chính so với các

mơ hình sử dụng hồi quy trước đây. Thứ hai, phương pháp học tự động cho phép tự động hóa quá trình
xử lý dữ liệu để tìm ra được mơ hình phù hợp nhất, do vậy cho phép tích hợp một số lượng lớn dữ liệu
đầu vào của nhiều biến số. Như vậy, bên cạnh việc dự đoán chỉ số tài chính, nghiên cứu cũng sẽ cung
cấp thêm bằng chứng cho việc nhân tố nào ảnh hưởng đến sự biến động của chỉ số tài chính. Về mặt
thực tiễn, việc dự đốn chỉ số tài chính có ý nghĩa quan trọng đối với cả cơ quan quản lý và những
người tham gia thị trường. Cơ quan quản lý có thể đưa ra những quyết định nhanh và chính xác trong
thời gian thực để có thể bình ổn thị trường khi có biến động lớn xảy ra. Nhà đầu tư có thể đưa ra quyết
định tốt hơn nếu mơ hình phân tích và dự đốn đáng tin cậy hơn. Bên cạnh đó, việc sử dụng “machine
learning” có tiềm năng cho phép xây dựng các mơ hình động phức tạp hơn cho phép diễn tả và quản lý
nền kinh tế tốt hơn, giúp đưa ra các chính sách vĩ mơ phù hợp.
2. Mục tiêu nghiên cứu
Đề tài này nhằm mục tiêu đề xuất được khung lý thuyết sử dụng trí tuệ nhân tạo để dự báo biến
động các biến số tài chính vĩ mơ và ứng dụng được lý thuyết sử dụng trí tuệ nhân tạo trong việc dự báo
biến động các biến số tài chính vĩ mơ của Việt Nam. Các mục tiêu cụ thể như sau :
- Đề xuất được khung lý thuyết sử dụng trí tuệ nhân tạo trong dự báo biến động các biến số tài
chính vĩ mơ.
- Sử dụng các mơ hình đã để xuất để dự báo biến động các biến số tài chính vĩ mơ của Việt Nam.
- So sánh mơ hình đề xuất với một số mơ hình kinh tế lượng khác.
- Bổ sung được các nghiên cứu hiện tại về dự báo biến dộng các biến số tài chính vĩ mơ Việt Nam.
- Đưa ra các phát hiện mới về việc dự báo biến động các biến số tài chính vĩ mơ Việt Nam và các
hàm ý cũng như khuyến nghị.
3. Đối tượng và phạm vi nghiên cứu
a) Đối tượng nghiên cứu

1


Trong đề tài này, đối tượng nghiên cứu của đề tài là khả năng sử dụng trí tuệ nhân tạo để dự
báo biến động các biến số tài chính vĩ mô Việt Nam.
b) Phạm vi nghiên cứu

- Phạm vi không gian : đề tài tập trung vào các biến số tài chính vĩ mơ của Việt Nam, cụ thể là
các biến số liên quan đến thị trường chứng khoán.
- Phạm vi thời gian : Dữ liệu được thu thập trong giai đoạn từ 2006 trở về sau.
4. Phương pháp nghiên cứu
a. Khảo sát các phương pháp truyền thống dùng cho việc dự báo biến động tài chính
Hầu hết các mơ hình dự báo biến động tài chính trước đây được dựa trên phương pháp hồi quy
truyền thống, trong đó giá trị dự báo được xem như là một hàm phụ thuộc vào các đại lượng khác.
Bằng cách tìm ra (một xấp xỉ) hàm này, ta có thể dự đốn được kết quả mà ta đang quan tâm. Ngoài ra,
kết quả dự báo cũng có thể có được bằng cách kết hợp nhiều mơ hình hồi quy đơn giản khác nhau. Rõ
ràng chất lượng của mơ hình dự báo phụ thuộc vào sự chính xác trong việc xấp xỉ hàm. Thực tế cho
thấy phần lớn các mơ hình cho kết quả tốt khi dự đốn trong mẫu, và gặp nhiều khó khăn khi dự đốn
ngồi mẫu. Ngun nhân chính đến từ mơ hình hồi quy chưa thật sự phù hợp. Bên cạnh đó, sự tương
tác giữa các biến cũng là một vấn đề quan trọng, mà có thể các mơ hình hồi quy chưa thể hiện tốt. Đó
cũng là lí do mà nhiều mơ hình phức tạp vẫn khơng thực sự tốt hơn một mơ hình rất đơn giản, như mơ
hình thực hiện dự đốn dựa trên giá trị trung bình của các giá trị trong quá khứ.
b. Phân tích khả năng ứng dụng “Machine learning” để dự báo các biến số tài chính
Đề tài này sẽ giải quyết bài tốn dự báo chỉ số kinh tế theo cách tiếp cận của machine learning
(học tự động). Các chỉ số kinh tế là các đại lượng phức tạp, thay đổi theo thời gian. Tuy nhiên, chỉ số
kinh tế có thể khơng hồn toàn ngẫu nhiên, mà tuân theo quy luật. Cụ thể, một chỉ số nào đó phụ thuộc
vào các đại lượng khác, cũng như phụ thuộc vào các giá trị của chính nó (và các đại lượng khác) trong
q khứ. Phương pháp “machine learning” cho phép tìm ra một quy luật như vậy từ dữ liệu đã có.
Trong nhiều năm qua, Machine Learning được ứng dụng trong rất nhiều lĩnh vực khác nhau, liên quan
đến bài toán phân loại và hồi quy. Khi làm việc với dữ liệu có yếu tố thời gian, ta thường quan tâm đến
bài toán dự báo. Trên cơ sở đó, những kĩ thuật Machine Learning có nhiều tiềm năng lớn trong các ứng
dụng về dự báo biến số tài chính. Bên cạnh những phương pháp truyền thống đã nêu ở trên, ta có thể
xem xét những phương pháp phổ biến khác của Machine Learning mà có xét đến yếu tố thời gian như
Hidden Markov Model hay Kalman filter. Đặc biệt, mạng neuron là một công cụ rất hữu hiệu để xử lý
bài toán phân loại và hồi quy. Nhìn chung, mạng neuron được xem như thực hiện xấp xỉ một hàm nào
đó như phương pháp hồi quy truyền thống. Tuy nhiên, ưu điểm của mạng neuron là có thể mơ tả một
hàm rất phi tuyến trong một khơng gian có số chiều lớn. Mạng neuron rất đa dạng và đang là chủ đề

quan tâm lớn hiện nay, trong hầu hết các ngành khoa học, kĩ thuật, y học, kinh tế, và cả mỹ thuật. Trong
đề tài này, ta sẽ khai thác mơ hình mạng neuron để dự báo các biến số tài chính và, do đó, sẽ tập trung
mô tả nguyên lý dùng mạng neuron cho bài tốn này trong phần dưới đây.
c. Mơ tả phương pháp/nguyên lý dùng “Machine learning” để dự báo biến động các biến
số tài chính
Dựa trên cách thức huấn luyện, nhìn chung, mạng neuron được sử dụng theo hai phương pháp:
học có giám sát và học khơng giám sát. Trong học có giám sát, dữ liệu cần được đánh nhãn (ta biết đối
tượng thuộc lớp nào); trong khi đó, với học khơng giám sát, ta khơng có được thơng tin đó. Trong bài
tốn dự báo biến số tài chính, ta sẽ sử dụng phương pháp học có giám sát.
Trước hết, ta cần xác định biến số cần dự báo, ví dụ VN-Index, và các đại lượng khác có khả
năng tác động đến sự thay đổi của VN-Index. Các đại lượng này cần được lựa chọn kĩ càng và sử dụng
kiến thức về kinh tế, tài chính. Một vấn đề quan trọng khác của mạng neuron là dữ liệu dùng để huấn
luyện: dữ liệu tốt sẽ giúp tạo ra một mơ hình dự báo tốt. Do đó, cần phải chọn dữ liệu đủ lớn và có độ
tin cậy cao.
Tiếp đến là cấu trúc mạng neuron. Nếu như đầu vào và đầu ra của mạng được quyết định bởi
các đại lượng tác động và biến số cần quan tâm, thì số lượng lớp ẩn và số neuron trong mỗi lớp ẩn là
2


yếu tố quan trọng cần lựa chọn kĩ lưỡng. Những tham số này sẽ ảnh hưởng lớn đến quá trình huấn
luyện và chất lượng dự báo.
Mạng neuron được huấn luyện để sao cho phù hợp với dữ liệu đã biết, nhưng cũng đảm bảo dự
báo tốt những giá trị mới. Trong quá trình huấn luyện, ta sẽ cập nhật các trọng số của mạng bằng giải
thuật lan truyền ngược.
Cuối cùng, khi kết thúc q trình huấn luyện, ta có được mạng neuron, cụ thể là tập các trọng
số, và dùng nó để dự báo giá trị trong tương lai.
5. Ý nghĩa khoa học và thực tiễn của đề tài
Đề tài nghiên cứu có ý nghĩa khoa học và thực tiễn như sau:
- Về mặt khoa học: đề tài góp phần hệ thống hóa một số mơ hình sử dụng để dự báo và cung
cấp những phát hiện nhằm bổ sung những kiến thức mới về khả năng sử dụng trí tuệ nhân tạo để dự báo

biến động các biến số tài chính vĩ mơ Việt Nam.
- Về mặt thực tiễn: kết quả nghiên cứu của đề tài là tài liệu khoa học hữu ích góp phần phát
triển lĩnh vực trí tuệ nhân tạo trong đào tạo đại học và sau đại học, mở rộng thêm các ứng dụng của trí
tuệ nhân tạo trong cơng nghệ tài chính. Bên cạnh đó, đề tài đề xuất một số mơ hình dự báo nhằm giúp
công tác dự báo biến động biến số tài chính vĩ mơ đạt kết quả tin cậy hơn. Nhờ đó, các hành động can
thiệp vào nền kinh tế từ hàm ý chính sách (dựa vào các kết quả dự báo) sẽ chính xác và kịp thời hơn.
6. Bố cục của đề tài
Ngoài phần Mở đầu và Kết luận, nội dung của đề tài được bố cục như sau:
- Chương 1: Biến động biến số tài chính vĩ mơ
- Chương 2: Kỹ thuật dự báo biến động của dữ liệu chuỗi thời gian
- Chương 3: Cơ sở lý thuyết trí tuệ nhân tạo trong việc dự đoán biến động biến số tài chính
- Chương 4: Kết quả dự báo biến động chỉ số chứng khoán Việt Nam

3


CHƯƠNG 1: BIẾN ĐỘNG BIẾN SỐ TÀI CHÍNH VĨ MƠ
1.1. Dự báo các biến số tài chính vĩ mơ
Việc dự đốn các biến số kinh tế-tài chính vĩ mơ (GDP, lãi suất, lạm phát, chỉ số thị trường
chứng khoán, v.v...) là một trong những vấn đề cơ bản trong kinh tế và có ý nghĩa cả về mặt học thuật
lẫn ứng dụng thực tiễn. Do đó, chủ đề này nhận được rất nhiều sự quan tâm không chỉ của các nhà
nghiên cứu, nhà hoạch định chính sách mà cịn của các doanh nghiệp, các nhà đầu tư. Các dự báo về
triển vọng phát triển kinh tế hằng năm của các tổ chức như Quỹ tiền tệ quốc tế (IMF), Ngân hàng Thế
giới (World Bank), Tổ chức Hợp tác và Phát triển Kinh tế (OECD), hay của các Ngân hàng Trung ương
lớn như Mỹ (FED) và Châu Âu (ECB) luôn được coi là những tin tức kinh tế quan trọng và được theo
dõi sát sao bởi các chính phủ cũng như các cá nhân, tổ chức. Tại Việt Nam, Ngân hàng Nhà nước và
Tổng cục Thống kê cũng thường xuyên theo dõi và đưa ra những dự báo về kinh tế vĩ mô như GDP, tỷ
giá, lãi suất và lạm phát. Những dự báo này đóng vai trị quan trọng cho việc hoạch định chính sách và
ứng phó với các biến động kinh tế.
1.2. Dự báo về biến động của thị trường chứng khốn

Trong các chỉ số tài chính vĩ mơ, chỉ số thị trường chứng khoán là một trong những chỉ số được
quan tâm và theo dõi thường xuyên nhất. Chỉ số thị trường chứng khốn có thể được coi như là phong
vũ biểu của nền kinh tế, phản ánh sức khỏe của thị trường tài chính của quốc gia. Thị trường chứng
khốn cịn phản ánh kỳ vọng của các nhà đầu tư về triển vọng của nền kinh tế nói chung và các cơng ty
trên thị trường nói riêng. Như đã đề cập ở trên, các biến số tài chính vĩ mơ, như là tổng sản phẩm quốc
nội (GDP), chỉ số giá tiêu dùng (CPI), tỷ lệ lạm phát, v.v..., luôn là mối quan tâm rất lớn của các quốc
gia trên thế giới. Thông thường, các biến số này ln có mối liên hệ và dao dộng cùng nhau. Thường
khi dự đoán được biến số này, chúng ta cũng biết được xu hướng thay đổi của các biến số cịn lại. Thị
trường chứng khốn của một quốc gia cũng khơng nằm ngồi xu hướng này, các biến số tài chính vĩ mơ
kể trên đều có sự liên hệ với chỉ số của thị trường chứng khốn. Chính vì sự liên hệ này, nên khi dự
đoán được chỉ số thị trường chứng khốn thì chúng ta cũng phần nào biết được xu hướng của các biến
số tài chính vĩ mơ kể trên. Do đó, trong cơng trình nghiên cứu này, các tác giả sẽ tập trung vào việc dự
đoán chỉ số thị trường chứng khoán của Việt Nam.
1.3. Tổng quan tình hình nghiên cứu trong nước
Mặc dù, đã có một số các nghiên cứu đề cập đến khả năng dự đoán chỉ số chứng khoán của
Việt Nam, tuy nhiên đa phần các nghiên cứu này sử dụng các phương pháp định lượng truyền thống
như hồi quy tuyến tính, mơ hình tự hồi quy trung bình động và hình tự hồi quy với phương sai thay đổi
có điều kiện tổng quát cùng một số biến thể từ các mơ hình này. Các nghiên cứu này chủ yếu tập trung
vào dự đoán trong mẫu, ngoại trừ bài viết của hai nhóm tác giả Đỗ Văn Thành và Nguyễn Minh Hải
(2016) và Huỳnh Viết Thắng và cộng sự (2018. Tuy nhiên, dữ liệu dự đoán của hai nghiên cứu này vẫn
chưa đủ dài và độ chính xác của các mơ hình dự đốn được đề xuất cần được tiếp tục kiểm định. Hơn
thế nữa, theo hiểu biết của các tác giả của đề tài này, vẫn chưa có có nghiên cứu nào về lĩnh vực dự
đốn các chỉ số tài chính vĩ mơ của Việt Nam sử dụng các kỹ thuật machine learning. Vì vậy, có thể
thấy được khoảng trống nghiên cứu đối với lĩnh vực này cịn rất lớn. Đây chính là điểm mà đề tài của
nhóm tác giả có thể đóng góp trong lĩnh vực nghiên cứu này.
1.4. Tổng quan tình hình nghiên cứu ngồi nước
Gần đây phương pháp machine learning lại được chú ý bởi thành cơng của nó trong nhiều lĩnh
vực. Nền tảng của thành công này là sự phát triển của học sâu (deep learning) (LeCun, Bengio và
Hilton, 2015). Mặc dù đã được ứng dụng thành công ở nhiều lĩnh vực khác như xử lý hình ảnh (image
classification), xử lý ngôn ngữ tự nhiên (natural language processing) và các vấn đề liên quan đến chuỗi

thời gian, nhưng có rất ít các nghiên cứu ứng dụng kỹ thuật này trong việc dự đốn các biến số tài
chính. Theo tìm hiểu của nhóm tác giả, một số nghiên cứu thực hiện theo hướng này có thể kể đến như
là Yoshihara và cộng sự (2014), Ding và cộng sự (2015) và Kim và Kim (2019). Tuy nhiên, các nhóm
tác giả này nghiên cứu về mối quan hệ giữa những sự kiện trong quá khứ và những thay đổi trong thị
trường chứng khoán.


CHƯƠNG 2: KỸ THUẬT Dự BÁO BIẾN ĐỘNG CỦA DỮ LIỆU CHUỖI THỜI GIAN
Trong nội dung này, các tác giả sẽ giới thiệu một số kỹ thuật/mơ hình thường được sử dụng
trong dự báo tài chính vĩ mơ. Cụ thể, nội dung sẽ tập trung trình bày về mơ hình hồi quy bình phương
nhỏ nhất, mơ hình phương sai thay đổi có điều kiện tổng qt GARCH và mơ hình bình phương nhỏ
nhất tổng qt khả thi FGLS. Ngồi ra, trong phần thứ hai của chương này, chúng ta cũng sẽ xem xét
một số phương pháp học tự động (machine learning) và trí tuệ nhân tạo mà có thể khai thác cho bài tốn
dự báo tài chính.
2.1. Các kĩ thuật liên quan đến hồi quy
2.1.1. Mơ hình bình phương nhỏ nhất cơ bản (OLS)
Hầu hết các mơ hình dự báo biến động tài chính trước đây được dựa trên phương pháp hồi quy
tuyến tính truyền thống, trong đó giá trị dự báo được xem như là một hàm phụ thuộc vào các đại lượng
khác. Giả thuyết cơ bản trong mô hình hồi quy tuyến tính là các trị trung bình này sẽ nằm trên một
đường thẳng, đây là hàm hồi quy của tổng thể và là trung bình có điều kiện (kỳ vọng). Cơng thức tổng
qt của mơ hình hồi quy tuyến tính đa biến có dạng:
(2.1)
trong đó, và

là trị quan sát thứ t (t = 1 đến n) của biến độc lập và biến phụ thuộc,

tiếp theo a và p , p , ..., p là các tham số chưa biết và sẽ được ước lượng; và ut là số hạng sai số. a và
được gọi là hệ số hồi quy. t thể hiện thời điểm trong chuỗi thời gian hoặc là trị quan sát trong một chuỗi
dữ liệu chéo. Có thể thấy được phương trình (1) gồm hai thành phần. Một là phần xác định
,

thành phần này cho biết giá trị trung bình có điều kiện của Y theo các giá
trị cho trước của các biến X. Hai là, thành phần ngẫu nhiên , đây là phần không quan sát được, đại diện
cho tất cả các yếu tố khác có ảnh hưởng lên Yt ngoại trừ các biến
, và được giả
định là biến ngẫu nhiên với một số đặc tính nhất định.
1

2

k

Để dễ hiểu hơn, các tác giả sẽ trình bày một mơ hình hồi quy đa biến đơn giản. Giả sử ta có hàm hồi
quy đa biến như sau:
(2.2)

Yt = â + faXi t + faX2 t +

Theo phương pháp bình phương tối thiểu (ordinary least square, OLS), ta cần tìm các giá trị ẫ, fa và fa.
Ta có tổng bình phương phần dư, kí hiệu là RSS, được tính theo cơng thức sau:
(2.3)

y ” X=y d (Yt - Ỹt) 2=y ” (Yt -«+faX!t+faX2 t)2
L—It=i
Y—It=i
Y—It=i

Để tối thiệu hóa RSS, ta đạo hàm RSS theo các giá trị â, fa và fa và cho các đạo hàm này bằng khơng.
Kết qua cho ra hệ phương trình sau:
yy


V YtX! t=ây
V YtX2 t=^y
Giải hệ phương trình này, ta có kết
quả:

á+

y faX

!t +

(2.4)

y faX

2t

(2.5)

fay fay
fay
â = ỹ -faỸỸ.-faỸỸỸ

fay

(2.6)

(2.7)



(2.8)
(2.9)

=

gyt^i t

)

gxjt)

(Zv

Mt)

V ar ( â) =

(Z V )

-

yt

2t)

2t

-(Z

(Ẹ


Z
(Zv(Z (Zv-(Z
- (Zv V ) 2
ZV
) i t)
it 2t .

A'-Y
(ZAA
.-V 2AA
t). (Exit2AAAAY.V
) - gyt^i t) ( . tx2t •
ft)

(2.10)

n*2 t)

Ơ
Dựa trên các giải định của Var
mơ hình hồi quy tuyến
tính truyền thống thì các hệ số hồi quy
thỏa
(2.11)
( -r 2 )
= không chệch,
mãn các tính chất quan trọng như tuyến(01)
tính,
hiệu

quả

nhất
quán.
Đồng
thời
các
ước
1 i2
lượng của các hệ số cũng được phân phối chuẩn với phương sai như sau:
Ơ
(2.12)sẽ
Cần lưu ý rằng, khi cở mẫu
tăng,
trong Z và Z sẽ tăng nên giá trị Z và Z cũng
Var
( thì
) sốZhạng
= V2t ( 1 - ri22 )
tăng. Như vậy, khi số quan sát tăng thì độ chính xác trong việc ước lượng giá trị thực của các hệ số càng
cao.
Hệ số xác định fí2 và rí2 điều chỉnh (R 2 ) được tính theo cơng thức sau:
2

Mt

2

^2


Z v

& yt

it+

Z v

^ yt

2t

(2 13)

.

Zy

2

( -

2

Z rỉ Ị n fc)

(2 14)

.


M ' O-1 )
Trong đó, k là số hệ số ước lượng trong mơ hình. Như vậ y khi k = 1 thì r2 = R2, nghĩa là khi số biến giải
thích tăng thì R 2 sẽ tăng ít hơn r2. Ngồi ra, R 2 cũng có thể là một đại lượng âm.
2.1.2. Mơ hình phương sai thay đổi có điều kiện tổng qt (GARCH)
Mơ hình hồi quy bình phương nhỏ nhất cơ bản yêu cầu một giả thiết là phần sai số bình phương
khơng thay đổi ở tất cả các quan sát của dữ liệu. Tuy nhiên, với sự biến động của dữ liệu chuỗi thời
gian, phương sai không thể được giả định là cố định trong mọi trường hợp. Nếu nhìn vào dữ liệu thời
gian trong tài chính, chúng ta có thể thấy ở một vài giai đoạn, dữ liệu có sự biến động nhiều hơn so với
các giai đoạn khác. Đối với dữ liệu chuỗi thời gian của các biến số vĩ mô, đặc biệt là các đại lượng có
tần suất cao, ví dụ như chỉ số chứng khốn (hàng ngày, thậm chí là hàng giờ) thì thường gặp phải hiện
tượng này. Hình 2.1 cho thấy lợi suất hàng ngày của chỉ số của hai sàn chứng khoán HOSE và HNX tại
Việt Nam. Có thể thấy được, trong một số giai đoạn biến động của lợi tức chỉ số chứng khoán cao và
trong một số giai đoạn khác biến động này nhỏ hơn. Ví dụ, biến động của lợi suất chỉ số HNX Index
trong giai đoạn 2005-2012 lớn hơn rất nhiều so với giai đoạn 2012-2019.


Hình 2.1. Lợi suất hàng ngày của chỉ số VN-Index (hình trái) và chỉ số HNX Index (hình phải)
trong giai đoạn 2000-2019
Như vậy, khi chúng ta hiệu chỉnh một mô hình, điều này sẽ dẫn đến việc phần dư có cường độ
lớn hơn. Thêm vào đó, những "đỉnh nhọn" của phương sai không phải là ngẫu nhiên được sắp đặt theo
thời gian mà có tác động tự tương quan (auto- correlation). Nói đơn giản, chúng ta gọi nó là "volatility
clustering", nghĩa là những thời đoạn mà phương sai lớn có xu hướng nhóm lại cùng nhau. Hiện tượng
này được gọi là hiện tượng phương sai thay đổi có điều kiện tổng quát (General AutoRegressive
Conditional Heteroskedasticity, GARCH). Nói các khác phương sai của của sai số trong phương trình
(1) là một hàm phụ thuộc vào độ lớn của sai số u cũng như độ lớn của phương sai của u trong quá khứ.
Quy trình GARCH được phát triển bởi Engle (1982). Một mơ hình GARCH (p, q) tổng qt
được trình bày như sau:
(2.15)
(2.16)
Tương tự như đã trình bày ở trên,

và là trị quan sát thứ t (t = 1 đến n) của biến độc
lập và biến phụ thuộc, tiếp theo a và P 1, p , ..., p là các tham số chưa biết và sẽ được ước lượng; và u là
số hạng sai số. và
được gọi là hệ số hồi quy. t thể hiện thời điểm trong chuỗi thời
gian. Trong đó, p là thứ tự của phương sai nhiễu và q là thứ tự của sai số .
2.1.3. Mơ hình bình phương tối thiểu tổng qt khả thi (FGLS)
Thơng thường, trong một số mơ dự đốn khi sử dụng biến dự đốn là một số đại lượng kinh tế
vĩ mơ thì bản thân các biến này cũng có tính chất tự tương quan (autoregressive). Ví dụ, biến trong
phương trình (1) là một chuỗi tự tương quan có dạng:
(2.17)
(2.18)
Với giả định rằng \p | < 1. Thông thường, phần dư của phương trình hồi quy tuyến tính (1) và phương
trình (5) được giả định là có giá trị trung bình bằng 0 và khơng có mối tương quan, nghĩa là . Tuy nhiên,
nếu điều kiện này khơng thỏa mãn thì mơ hình này mắc phải hiện tượng nội sinh. Thêm vào đó, theo
các lý thuyết trước đây thì các biến phụ thuộc phải có tính dừng, tuy nhiên thực tế điều kiện này ít khi
được thỏa mãn. Vì vậy, để giải quyết hiện tượng nội sinh trong mơ hình hồi quy tuyến tính, Westerlund
và Narayan (2015) đã đề xuất một mơ hình bình phương tối thiểu tổng quát khả thi FGLS (Feasible
Generalized Least Square) bằng cách thay thế phương trình (5) và (6) vào phương trình hồi quy (1) như
sau:
Với là hệ số góc điều chỉnh và hệ số này có thể được ước lượng bằng cách áp dụng phương pháp hồi
quy với bình phương nhỏ nhất cho phương trình (7). Hệ số được đặt bằng c , .
1 A 1 /V Ấ
J. 1
.X
1/K
TLTẤ
với c < 0 là hệ số trượt đo lượng cho độ tự tương quan của biến độc lập Xỵ. Nếu c = 0 thì Xỵ có
một nghiệm đơn vị (khơng có tính dừng) và nếu thì có tính dừng và tiến tới 1 khi T tăng lên. Với
phương pháp này, không cần phải thỏa mãn điều kiện có tính dừng. Thêm vào đó, phương pháp bình
phương tối thiếu tổng qt khả thi cịn chứa thơng tin về cấu trúc phương sai thay đổi có điều kiện

(ARCH) của phần sai số.
2

k

t

(2.19
)
7


2.2. Các kỹ thuật học tự động (machine learning) và trí tuệ nhân tạo
2.2.1. PCA (Principal Component Analysis)
Đầu tiên ta quan tâm đến kĩ thuật PCA, đây là phương pháp cho phép trích xuất thuộc tính,
hiển thị và giảm số chiều một cách hiệu quả. Thông thường, dữ liệu đầu vào của chúng ta thường có số
chiều rất lớn. Do đó, để thuận tiện cho việc tính tốn cũng như tăng sự hiệu quả của mơ hình, ta thường
chọn ra những thuộc tính quan trọng và hữu ích nhất bằng cách giảm số chiều thơng qua PCA. Hình 2.2
minh họa vị trí của khối thực hiện PCA trong một mơ hình nhận dạng hay dự báo: dữ liệu ban đầu được
xử lý thơng qua PCA để tìm ra những thuộc tính thích hợp nhất, sau đó vector thuộc tính mới này sẽ
được nhận dạng hay dự đốn thơng qua khối xử lý tiếp theo.

Hình 2.2. Khối trích thuộc tính và phân loại trong một mơ hình phân loại hay dự báo.
2.2.2. SVM (Support Vector Machine)
Có thể nói SVM là một trong những công cụ được sử dụng phổ biến nhất của học tự động.
SVM được dùng cho bài toán phân loại, hồi quy hay dự đốn. SVM có thể dùng cho bài toán phân loại
hai lớp hay nhiều lớp. Tương tự như PCA, SVM cũng có thể kết hợp với hàm kernel để trở thành kernel
SVM. Kĩ thuật kernel SVM rất hữu hiệu cho các dữ liệu không tách biệt một cách tuyến tính.
Ở đây để đơn giản cho việc theo dõi ý tưởng của SVM, ta sẽ xem xét dạng cơ bản của SVM, đó
là hard-margin SVM. Những dạng SVM khác có thể dễ dàng nắm được dựa trên các ý tưởng cơ bản

được trình bày dưới đây.

Hình 2.3. SVM với bài toán phân loại hai lớp.
Ta xét bài toán phân loại hai lớp (phân loại nhị phân) đối với tập dữ liệu
{}
với
, và mỗi phần tử có nhãn {
}. Nhãn này chỉ thuộc một trong hai giá trị nên gọi là
phân loại nhị phân.

8


Một cách ngắn gọn, mục tiêu của SVM là đi tìm một siêu phẳng có dạng để phân chia hai
nhóm dữ liệu, đồng thời ta cũng muốn khoảng cách (biên) giữa hai nhóm dữ liệu này là xa nhất có thể.
2.2.3. Cây quyết định (Decision Tree)
Cây quyết định thuộc dạng phương pháp sớm nhất của học tự động, nó thường được dùng cho
bài tốn phân loại, dù vẫn có thể áp dụng cho bài toán hồi quy. Cây quyết định có cấu trúc dạng cây.
Cách thức xây dựng cây quyết định được mô tả như sau.
Xuất phát từ gốc, ta sẽ duyệt qua các nút. Tại mỗi nút trung gian, ta sẽ tìm một thuộc tính và
một ngưỡng để phân chia tập dữ liệu thành hai tập con, mỗi tập con này có sự đồng nhất về nhãn hơn
so với tập ban đầu (trước khi phân chia). Ở mức thấp nhất là nút lá, thể hiện nhãn tương ứng.
Quá trình huấn luyện ứng với việc tìm các thuộc tính và ngưỡng dùng để so sánh. Khi có một
phần tử mới đưa vào, ta sẽ duyệt nó dọc theo cây quyết định, và dùng nhãn ở nút lá mà nó đạt đến để
phân loại ví dụ này. Hình 2.4 minh họa một ví dụ về cây quyết định. Cây quyết định này dùng để phân
loại hai lớp: Pos (positive) và Neg (negative), các nút lá (hình trịn) thể hiện các lớp này.
Cây quyết định rất dễ hiểu và dễ thực hiện, chỉ cần dùng các luật “nếu-thì”. Tuy nhiên, nhược
điểm của nó là phụ thuộc nhiều vào dữ liệu, và dễ bị overfitting (học vẹt). Để tránh hiện tượng này,
đồng thời giúp mơ hình dự đốn chính xác hơn, người ta thường kết hợp kết quả từ nhiều cây quyết
định lại với nhau. Các cây quyết định này có thể được huấn luyện trên các tập con dữ liệu khác nhau.

Và sự kết hợp kết quả có thể được thực hiện thơng qua phép lấy trung bình hay mode (ứng với xác suất
lớn nhất).

Hình 2.4. Ví dụ về cây quyết định
2.2.4. Phương pháp mạng neuron
2.2.4.1. Mạng MultiLayer Perceptron (MLP)

Hình 2.5. Cấu trúc một mạng MLP.
9


Mạng MLP có thể xấp xỉ được một hàm có độ phức tạp bất kì. Một mạng MLP đơn giản được minh
họa ở hình 2.5. Mạng này bao gồm 2 lớp: một lớp ẩn và một lớp đầu ra (lớp đầu vào khơng tính là một lớp vì
khơng thực hiện tính tốn). Ở đây, đầu vào gồm 4 neuron, lớp ẩn chứa 5 neuron, và đầu ra chứa 1 neuron. Với
bài toán dự báo, ta chỉ cần một đầu ra để thể hiện giá trị dự báo. Tuy nhiên, trong trường hợp tổng quát, lớp ra
có thể chứa nhiều neuron. Tương tự, ta có thể bổ sung nhiều lớp ở giữa để có nhiều hơn một lớp ẩn.
Đặc điểm của mạng MLP là mỗi neuron tại một lớp đều được nối với tồn bộ các neuron ở lớp trước
đó. Đầu ra
của neuron tại lớp được tính như sau:
( ) (2.30)
với
(2.31)
z= z
j=l

Trong đó,
là số lượng neuron ở lớp
, là trọng số của liên kết giữa neuron tại
lớp
và neuron tại lớp , và là giá trị bias. là hàm kích hoạt. Ví dụ, hàm kích hoạt

sigmoid có dạng:
Q trình huấn luyện mạng nhằm tìm ra các giá 1trị trọng số
và . Nói chung, các trọng số (2.32)
z (backpropagation), đây là công cụ cơ bản được
này được tìm nhờ vào giải thuật lan truyền/■(z)
ngược gradient
1 + e~ '
dùng trong tuyệt đại đa số các mơ hình mạng neuron hiện nay, dù là truyền thống hay học sâu.
Sau quá trình huấn luyện, với

tìm được (bây giờ trở thành tham số cố định), ta có thể
tính đầu ra khi biết đầu vào, theo q trình đi từ trái sang phải.
Chi tiết về mạng MLP, cách huấn luyện và sử dụng nó có thể được dễ dàng tìm thấy trong nhiều tài
liệu tham khảo liên quan đến mạng neuron.
2.2.4.2. Học sâu (deep learning)
Gần đây mơ hình mạng neuron nhân tạo (ANN) được chú ý trở lại nhờ vào thành cơng của nó trong
nhiều lĩnh vực khác nhau. Nền tảng của thành công này là sự phát triển của mơ hình deep learning. Deep
learning đặc biệt thành cơng với các ứng dụng về xử lý hình ảnh (image classification), xử lý tiếng nói (speech
processing), xử lý ngơn ngữ tự nhiên (natural language processing) và các vấn đề liên quan đến chuỗi thời
gian. Do đó, nó cũng là một cơng cụ tiềm năng cho bài tốn dự báo sự biến động các chỉ số tài chính.
Deep learning có thể chia thành hai nhóm: mạng CNN (Convolutional Neural Network) và mạng
RNN (Recurrent Neural Network). Hai kiểu mạng này được đề cập rộng rãi trong các tài liệu tham khảo về
học sâu. Trong đó, mạng RNN có xét đến yếu tố thời gian và có thể được khai thác cho bài tốn dự báo chỉ số
tài chính. Ta sẽ tập trung vào kiểu mạng này.
RNN cũng tương đối đa dạng. Ở đây, ta sẽ xem xét một dạng phổ biến nhất có tên gọi là LSTM (Long
Short Term Memory), đây chính là kiểu mạng deep learning đã mang đến nhiều thành công trong thời gian vừa
qua liên quan đến các bài tốn có yếu tố thời gian.
Hình 2.7 thể hiện cấu trúc của một LSTM. Sức mạnh của LSTM thể hiện ở đặc điểm có thể cho phép
mạng RNN học được một chuỗi thời gian rất dài, từ đó có thể khai thác các mối quan hệ thời gian một cách tốt
hơn. Với đầu vào

, đầu ra
được tính dựa theo các phương trình sau:
(2.34)
Ct = tanh (W x + Wh h _ 1 + b ),
xc

Ct = ft

0

t

c

Ct _ 1 + it

t

0

c

C t,

(2.35)

(2.36)
(2.37)
(2.38)


( ) (2.33)
10


Trong đó, , {
}, và
là các ma trận trọng số. thể
hiện bias. Toán tử thể hiện phép nhân theo phần tử. là hàm sigmoid đã biết.
XfA 1

Hình 2.7. Cấu trúc của LSTM.
Bằng cách kết hợp nhiều LSTM lại với nhau, cùng với các lớp cơ bản thường dùng trong mạng
neuron, ta có thể tạo ra một RNN để phân tích và dự báo các chỉ số tài chính.
Tương tự như trong mạng MLP, quá trình huấn luyện LSTM nhằm tìm ra các ma trận trọng số và bias.
Quá trình này tương đối phức tạp. Tuy nhiên, hiện nay ta có các nền tảng (platform) như Tensorflow hay Keras
có thể giúp ta thực hiện việc huấn luyện một cách thuận lợi.
Cùng với nền tảng phần cứng khá mạnh hiện nay, ta có thể áp dụng các mạng nhiều lớp sử dụng
LSTM để có thể học và khai thác được các mối quan hệ thời gian trong các chỉ số tài chính và giữa các chỉ số
này với nhau. Và từ đó, có thể thực hiện việc dự đốn những biến động chỉ số tài chính.

CHƯƠNG 3: CƠ SỞ LÝ THUYẾT TRÍ TUỆ NHÂN TẠO TRONG VIỆC Dự ĐOÁN
BIẾN ĐỘNG BIẾN SỐ TÀI CHÍNH
Trong chương này các tác giả sẽ trình bày một cách khái quát dữ liệu chuỗi thời gian, và đặc biệt là dữ
liệu tài chính, và các cơng cụ phân tích, dự báo chúng. Sau khi xem xét một cách ngắn gọn các phương pháp
dự báo truyền thống, các tác giả sẽ tập trung vào cách tiếp cận thông qua mạng neuron, và nhất là mạng neuron
nhiều lớp. Để khai thác hiệu quả mối quan hệ thời gian trong dữ liệu tài chính, LSTM có thể là một phương
pháp thích hợp. Bằng cách kết hợp LSTM với MLP truyền thống ta tạo ra được mạng neuron nhiều lớp, nhằm
dự báo xu hướng biến động của chỉ số tài chính.
3.1. Dữ liệu tài chính
Dữ liệu chuỗi thời gian là đối tượng thu hút nhiều sự quan tâm trong khoa học, kĩ thuật, kinh tế, y tế

và nhiều lĩnh vực khác, bởi nó liên quan đến nhiều ứng dụng quan trọng. Tùy theo từng lĩnh vực mà các dữ
liệu chuỗi thời gian này có các đặc tính khác nhau. Ví dụ, nhiệt độ đo được tại một thành phố theo thời gian có
những tính chất khác với thân nhiệt của một người nào đó. Một trong những bài tốn quan trọng liên quan đến
dữ liệu chuỗi thời gian chính là dự báo chuỗi thời gian. Dự báo có thể là dự báo giá trị chính xác của đối tượng
mà ta quan tâm tại một thời điểm trong tương lai, hoặc xu hướng biến thiên của đối tượng đó. Rất nhiều mơ
hình và phương pháp dự báo đã được đề xuất trong các lĩnh vực tốn học, xử lý tín hiệu, thống kê... Những
phương pháp như Prony’s method xuất hiện từ hơn hai trăm năm trước (1795).
Dữ liệu tài chính cũng là một dạng dữ liệu chuỗi thời gian. Cùng với sự phát triển của lĩnh vực kinh tế,
tài chính, loại dữ liệu này đã trở thành một đối tượng nghiên cứu quan trọng. Bằng cách xem xét dữ liệu tài
chính theo thời gian, ta có thể tìm ra được mối quan hệ phụ thuộc giữa các chỉ số kinh tế, góp phần giải thích
được nhiều hiện tượng trong lĩnh vực này. Bên cạnh đó, ta cũng có thể dự báo một chỉ số kinh tế trong tương
lai, hoặc xu hướng biến động của nó. Đây là bài tốn có ý nghĩa vô cùng quan trọng trong hoạt động của các tổ
chức kinh tế và các cơ quan hoạch định chính sách. Các ngân hàng lớn trên thế giới đều có đội ngũ nghiên cứu
11


về dự báo, từ đó làm cơ sở cho các quyết định của ngân hàng.
Hình 3.1 minh họa một ví dụ về dữ liệu tài chính, cụ thể là chỉ số chứng khoán NASDAQ-100 trong
khoảng thời gian từ 1/1/2003 đến 31/12/2014. Chú ý rằng ở đây, chỉ số NASDAQ-100 được thu thập theo từng
ngày và được dùng để vẽ đường cong trong hình 3.1. Tuy nhiên, để thuận tiện cho việc quan sát, ta chỉ hiển thị
các mốc thời gian theo từng năm.
Do dữ liệu tài chính cũng là một dạng dữ liệu chuỗi thời gian nên ta có thể sử dụng các phương pháp
phân tích, xử lý, và dự báo đối với chuỗi thời gian cho dữ liệu tài chính. Gần đây, với số lượng dữ liệu tài
chính được thu thập ngày càng lớn, khả năng tính tốn được nâng cao, và, tất nhiên, vai trị của nó trong các
hoạt động kinh tế, việc dự báo chỉ số tài chính ngày càng trở nên quan trọng và thu hút sự quan tâm của các
nhà nghiên cứu, không chỉ trong lĩnh vực kinh tế, mà cả trong các lĩnh vực liên quan như thống kê và trí tuệ
nhân tạo.

.NDX(PI)


Hình 3.1. Chỉ số chứng khoán NASDAQ-100
3.2. Tổng quan về bài toán dự báo
Hầu hết các mơ hình dự báo biến động tài chính trước đây được dựa trên phương pháp hồi quy truyền
thống, trong đó giá trị dự báo được xem như là một hàm phụ thuộc vào các đại lượng khác có dạng:
y = f(x1,x2,...,xN\
(1)
với là giá trị cần dự báo và
là các biến có thể ảnh hưởng đến giá trị .
Bằng cách tìm ra (một xấp xỉ) hàm này, và với
đã biết (từ kết quả thu thập, đo
đạc) ta có thể dự đốn được giá trị mà ta đang quan tâm.
Một cách tổng quát, hàm có thể phụ thuộc vào giá trị của trong quá khứ và giá trị của ở hiện tại và
trong quá khứ.
Kết quả dự báo cũng có thể có được bằng cách kết hợp nhiều mơ hình hồi quy đơn giản khác nhau. Rõ
ràng chất lượng của mơ hình dự báo phụ thuộc vào sự chính xác trong việc xấp xỉ hàm . Thực tế cho thấy phần
lớn các mơ hình cho kết quả tốt khi dự đốn trong mẫu, và gặp nhiều khó khăn khi dự đốn ngồi mẫu.
Ngun nhân chính đến từ mơ hình hồi quy chưa thật sự phù hợp với dữ liệu mà ta đang quan tâm. Bên cạnh
đó, sự tương tác giữa các biến cũng là một vấn đề quan trọng, mà có thể các mơ hình hồi quy chưa thể hiện tốt.
Đó cũng là lí do mà nhiều mơ hình phức tạp vẫn khơng thực sự tốt hơn một mơ hình rất đơn giản, như mơ hình
thực hiện dự đốn dựa trên giá trị trung bình của các giá trị trong q khứ.
Một số mơ hình dự báo chuỗi thời gian truyền thống có thể áp dụng cho dữ liệu tài chính như mơ hình
AR, ARMA, hay bộ lọc Kalman. Thực tế, việc lựa chọn hàm thực sự rất khó khăn, vì nói chung, ta thường
khơng nắm được rõ ràng sự tác động của các yếu tố khác nhau đến giá trị cần dự báo.
Dưới đây, ta sẽ quan tâm đến việc tìm hàm theo cách tiếp cận khác, cụ thể là cách tiếp cận dựa trên
machine learning, bao gồm hai nhóm: phương pháp machine learning truyền thống và phương pháp mạng
neuron học sâu. Với các phương pháp truyền thống, mơ hình thường đơn giản, số lượng trọng số cần tìm
khơng q lớn; tuy nhiên, đơi lúc cũng rất hữu ích, đặc biệt khi dữ liệu khơng có nhiều. Trong khi đó, với
phương pháp mạng nơ-ron, mối liên hệ giữa đầu vào và đầu ra được thể hiện thông qua các tham số (trọng số)
ở các lớp của mạng; những trọng số này được tự động học thông qua các ví dụ đã biết. Hàm được biểu diễn
bởi mạng neuron là một hàm rất phức tạp và có tính phi tuyến cao, và từ đó được kì vọng sẽ “bắt” được mối

quan hệ giữa giá trị cần dự báo và các yếu tố đầu vào.
12


3.3. Phương pháp machine learning truyền thống cho bài toán dự báo
Một cách tổng quát, phương pháp machine learning truyền thống có thể được tóm tắt trong hình 3.2.
Đầu tiên, đầu vào sẽ qua bước tiền xử lý nhằm trích ra các thuộc tính quan trọng của dữ liệu. Thơng thường,
bước này cũng sẽ làm giảm số chiều của đầu vào, nhằm giúp khối tiếp theo xử lý nhẹ hơn. Kỹ thuật PCA mô tả
trong chương 2 là một trong những phương pháp phổ biến để thực hiện công việc này.

Hình 3.2. Mơ hình machine learning truyền thống.
Sau đó, kết quả của khối tiền xử lý sẽ tiếp tục được xử lý để phục vụ mục tiêu dự báo thông qua bộ
phân loại hay hồi quy. Có rất nhiều phương pháp có thể lựa chọn cho khối phân loại hay hồi quy này. Một số
phương pháp có thể áp dụng cho cả hai. Ta có thể kể ra ở đây những giải thuật phổ biến như Logistic
Regression, SVM, Decision Trees, KNN (K Nearest Neighbors)...
Ở đây, ta sẽ sử dụng PCA kết hợp với một trong các phương pháp Logistic Regression, SVM và
Decision Tree để thực hiện bài toán dự báo. Riêng với phương pháp Decision Tree, ta sẽ sử dụng hai phiên bản
phổ biến là Random Forest và Extra Trees Classifier. Những phương pháp này đã được mô tả trong chương 2.
Cụ thể, phương pháp PCA (hay chính xác hơn là Kernel PCA) sẽ được dùng để giảm số chiều của đầu
vào từ 30 xuống k. Đồng thời, để đánh giá ảnh hưởng của số thuộc tính lên kết quả dự báo, ta sẽ cho k thay đổi
từ 2 đến 10. Với mỗi trường hợp của k, ta sẽ huấn luyện và đánh giá các mơ hình. Tương tự, ảnh hưởng của
khối lượng dữ liệu huấn luyện cũng sẽ được xem xét. Ví dụ, số ngày của dữ liệu huấn luyện có thể là 20, 30,
40,. Cuối cùng, ta sẽ so sánh các phương pháp phân loại đã đề cập ở trên. Kết quả thực hiện của các thử
nghiệm này sẽ được trình bày chi tiết trong chương 4.
3.3. Phương pháp học sâu cho bài toán dự báo biến động chỉ số tài chính
3.3.1. Mơ tả bài tốn
Trong phần này, ta sẽ mô tả chi tiết dữ liệu đầu vào và mục tiêu của bài toán dự báo. Cụ thể, ta quan
tâm đến chỉ số chứng khoán Việt Nam (VN-index): giả sử ta có một chuỗi giá trị VN-index từ quá khứ đến
hiện tại và sẽ dùng những thông tin này để dự đoán xu hướng tăng/giảm của VN-index tại một thời điểm nào
đó trong tương lai. Ta biểu diễn chuỗi dữ liệu chiều dài p đã biết đến thời điểm t như sau: {

}. Mơ hình
sẽ dự đốn xu hướng tăng hoặc giảmtại thời điểm
s trong tương lai (s > t). được biểu diễn như sau:
yt = Sgn(xs - xứ),

(2)

với

lần lượt thể hiện xu hướng tăng và giảm của chỉ số VN-index. Do chỉ dự đoán
hai xu hướng: tăng hoặc giảm, nên đây cũng có thể xem là bài toán phân loại nhị phân (chỉ gồm hai lớp).
Do phương pháp được dùng ở đây là học sâu với mạng nơ-ron, ta cần chuẩn bị dữ liệu cho việc huấn
luyện và đánh giá (kiểm tra) mơ hình. Cụ thể, bộ dữ liệu huấn luyện
gồm N phần tử có
dạng: { } . Chú ý, mỗi phần tử trong tập huấn luyện là một dãy thời gian { } và nhãn tương ứng là . Ngoài ra,
trong tập huấn luyện, ta đã biết , nên biết được . Tuy nhiên, với một phần tử mới (khi kiểm tra) thì chưa biết,
và nó sẽ được dự đốn thơng qua mơ hình đã được huấn luyện. Đó cũng chính là mục tiêu của bài toán chúng
ta đang xét.
Thời điểm dự báo trong tương lai, tức s, tùy thuộc vào bài toán cụ thể. Ở đây, ta chọn
với lí do như sau. Ở thị trường chứng khoán Việt Nam, nếu một nhà đầu tư mua cổ phiếu hơm nay thì nhà
đầu tư này phải đợi đến ngày thứ ba (kể từ hơm nay) để có thể bán cổ phiếu. Do đó, dự đốn xu hướng
tăng/giảm của chỉ số VN-index giữa hôm nay và sau ba ngày có ý nghĩa quan trọng, đặc biệt với những nhà
đầu tư có xu hướng đầu tư ngắn hạn.

13


3.3.2. Mơ hình dự đốn
Mục này sẽ trình bày mơ hình đề xuất để dự báo xu hướng tăng/giảm của VN-index trong tương lai.
Mơ hình này khai thác những kĩ thuật học sâu gần đây: cụ thể, mơ hình sử dụng LSTM kết hợp với lớp FC

(fully-connected). Hình 3.3 mơ tả các thành phần chính trong mơ hình đề xuất.
Trước hết, ta có một số nhận xét về mơ hình trên như sau. Đây là mơ hình được xây dựng theo phương
pháp học sâu hay mạng nơ-ron. Do đó, dữ liệu đầu vào được trực tiếp xử lý bởi mô hình dự báo. Điều này
khác với các phương pháp truyền thống, mà ở đó dữ liệu đầu vào thường được tiền xử lý thơng qua việc trích
thuộc tính hoặc giảm số chiều, trước khi đưa vào bộ phân loại. Phương pháp PCA trình bày ở chương 2 phục
vụ cho bước trích thuộc tính trong phương pháp truyền thống này. Như vậy, có phải khơng có bước trích thuộc
tính trong mơ hình học sâu? Thực ra, khơng hẳn như vậy. Q trình trích thuộc tính vẫn diễn ra trong mơ hình
học sâu ở trên, nhưng ở dạng không tường minh, tức không tách biệt rõ ràng như trong phương pháp truyền
thống. Trích thuộc tính được thực hiện thơng qua việc biểu diễn dữ liệu trong LSTM.
Bên cạnh đó, trong mơ hình học sâu trên đây, LSTM giữ vai trò khai thác thông tin về mặt thời gian
trong dữ liệu đầu vào. Cụ thể, LSTM tìm ra các mối liên hệ giữa các thành phần tại các thời điểm khác nhau
trong dãy dữ liệu. LSTM được biết đến với khả năng lưu giữ thơng tin qua rất nhiều bước thời gian. Nhìn
chung, các khối LSTM cho phép khai thác các thông tin về mặt thời gian, để sau đó các lớp FC sẽ kết hợp các
thông tin này để thực hiện dự đốn.

Hình 3.3. Mơ hình dự báo dựa trên kĩ thuật học sâu.
Hình 3.3 thể hiện 3 lớp LSTM và 2 lớp FC. Tuy nhiên, ta có thể dễ dàng mở rộng mơ hình ra cho
nhiều lớp hơn nữa. Nói chung, một mạng sâu hơn (nhiều lớp hơn) sẽ có khả năng học tốt hơn; tuy nhiên quá
trình huấn luyện sẽ lâu hơn và yêu cầu cấu hình phần cứng mạnh hơn. Ngoài ra, mạng với rất nhiều lớp cũng
yêu cầu một lượng dữ liệu lớn đáng kể.
Ở đây, để phù hợp với dữ liệu hiện có, ta sẽ dùng một mơ hình cơ bản gồm 3 LSTM và 1 lớp FC. Cụ
thể LSTM1 có 40 nút đầu ra, tương tự như vậy cho LSTM2 và LSTM3. Lớp FC gồm 2 nút. Các siêu tham số
(hyperparameter) này được chọn thông qua thực nghiệm. Ta cũng sẽ so sánh mơ hình cơ bản trên với các kiến
trúc khác, sử dụng nhiều LSTM và FC hơn.
Chi tiết về các kiến trúc khác của mạng nơ-ron dựa trên kiến trúc ở hình 3.3 sẽ được trình bày trong
chương 4, cùng với kết quả tương ứng.
3.4. Dữ liệu
3.4.1. Dữ liệu VNINDEX
Dữ liệu được chọn là giá cuối ngày và khối lượng giao dịch của VNINDEX từ 2000 đến 2019. Dữ liệu
này có thể được lấy miễn phí từ nhiều nguồn, trong đó có />Từ đó, ta tính được biến đầu ra ( ) phản ánh xu hướng của thị trường từ thời điểm t đến thời điểm t+3.

Như đã mô tả trong mục 3.1, sẽ nhận hai giá trị là 1 và -1, lần lượt thể hiện xu hướng tăng và giảm của
VNINDEX. Với mỗi giá trị , ta cũng đồng thời tạo ra một dãy giá trị trong quá khứ như là đầu vào của mơ
hình. Cụ thể, dãy này thể hiện giá và khối lượng giao dịch từ thời điểm đến thời điểm
. Từ đó, một ví dụ
huấn luyện có dạng như
sau {
}, trong đó thể hiện giá và khối lượng giao dịch ở thời điểm t. Ta
xây dựng được một tập dữ liệu gồm N ví dụ như vậy (xem thêm minh họa ở hình 3.7).
14


Sau khi sắp xếp dữ liệu thành các ví dụ như trên, ta sẽ chia bộ dữ liệu này thành hai tập dữ liệu con
gồm: tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Ta cũng định nghĩa tham số “test size” (sẽ dùng cho mô
phỏng trong chương 4) là tỉ lệ dữ liệu dùng cho việc kiểm tra. Ví dụ, test size = 1% có nghĩa là 99% dữ liệu
được dùng cho huấn luyện và 1% còn lại được dùng cho kiểm tra mơ hình.
Để đánh giá sự tác động của tham số “test size” đến chất lượng dự đốn của mơ hình, ta cũng sẽ thay
đổi giá trị của test size. Tất nhiên, với mỗi lần thay đổi test size, mơ hình cần được huấn luyện lại và sau đó
đánh giá lại. Trong chương 4, ta sẽ thực hiện điều này với test size thay đổi từ 1% đến 25%.
Ngồi ra, với bài tốn dự báo thì yếu tố thời gian có vai trị quan trọng. Do đó, ta đặt thêm ràng buộc
trong việc phân chia tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Cụ thể, tập dữ liệu kiểm tra phải nằm sau
tập dữ liệu huấn luyện về mặt thời gian. Điều này cũng phù hợp với thực tế, bởi nếu ta chọn một số ví dụ huấn
luyện nằm sau ví dụ kiểm tra thì điều này tương đương với việc người đầu tư đã biết dữ liệu trong tương lai.

15


×