ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------
TRẦN ĐỖ QUỐC TRUNG
DỰ ĐOÁN GIÁ CỔ PHIẾU DOANH NGHIỆP NGÀNH XÂY
DỰNG VÀ BẤT ĐỘNG SẢN TRÊN THỊ TRƯỜNG CHỨNG
KHOÁN VIỆT NAM DỰA TRÊN TIẾP CẬN MÁY HỌC
Chuyên ngành: Quản Lý Xây Dựng
Mã số
: 8580302
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 08 năm 2021
CƠNG TRÌNH HỒN THÀNH TẠI:
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC QUỐC GIA THÀNH
PHỐ HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học 01: TS. Dương Minh Đức
Chữ ký:
Cán bộ hướng dẫn khoa học 02: TS. Đỗ Tiến Sỹ
Chữ ký:
Cán bộ chấm phản biện 01:
PGS.TS Trần Đức Học
Chữ ký:
Cán bộ chấm phản biện 02:
TS. Phạm Hải Chiến
Chữ ký
Luận văn thạc sĩ được bảo vệ tại trường Đại học Bách Khoa Thành phố
Hồ Chí Minh vào ngày 20 tháng 08 năm 2021 (trực tuyến).
Thành phần hội đồng đánh giá LVThs gồm:
1. Chủ tịch hội đồng
TS. Nguyễn Anh Thư
2. Ủy viên Thư ký
TS. Phạm Vũ Hồng Sơn
3. Ủy viên
TS. Nguyễn Hoài Nghĩa
4. Phản biện 1
PGS.TS Trần Đức Học
5. Phản biện 2
TS. Phạm Hải Chiến
Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn và Trưởng Khoa quản lý
chuyên ngành sau khi Luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
KHOA KỸ THUẬT XÂY DỰNG
ĐẠI HỌC QUỐC GIA TP.HCM
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT
TRƯỜNG ĐẠI HỌC BÁCH KHOA
NAM Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên
: TRẦN ĐỖ QUỐC TRUNG
MSHV: 1870107
Ngày sinh
: 29/08/1980
Nơi sinh: Vĩnh Long
Chuyên ngành
: Quản Lý Xây Dựng
Mã số: 8580302
TÊN ĐỀ TÀI: “Dự đoán giá cổ phiếu DN Ngành XD và BĐS trên thị trường
chứng khoán Việt Nam dựa trên tiếp cận máy học”
NHIỆM VỤ VÀ NỘI DUNG:
1. Tìm hiểu các mơ hình KNN, SVM, LSTM, ARIMA, Linear Regressive.
2. Chạy thực nghiệm 05 mơ hình trên cùng bộ dữ liệu.
3. Nhận xét, so sánh các mơ hình. Đề xuất mơ hình phù hợp cho bộ dữ
liệu.
4. Đề ra giải pháp cho nhà đầu tư và doanh nghiệp.
NGÀY GIAO NHIỆM VỤ :
21/09/2020
NGÀY HOÀN THÀNH NHIỆM VỤ:
24/07/2021
CÁN BỘ HƯỚNG DẪN: TS. Dương Minh Đức; TS. Đỗ Tiến Sỹ
TP. HCM, ngày
CÁN BỘ HƯỚNG DẪN 1
tháng
CÁN BỘ HƯỚNG DẪN 2
năm 2021
CHỦ NHIỆM
BỘ MÔN ĐÀO TẠO
TS. DƯƠNG MINH ĐỨC
TS. ĐỖ TIẾN SỸ
TRƯỞNG KHOA KỸ THUẬT XÂY DỰNG
i
LỜI CẢM ƠN
Ai đó đã từng nói: “You were born an original, don’t die a copy”. Thật vậy, mỗi
người từ lúc sinh ra đã là một nguyên bản, một cá thể độc lập. Chính điều đó làm nên
sự đa dạng của cuộc đời và giúp cho xã hội phát triển. Cho nên, trách nhiệm của mỗi
người là gìn giữ mình như một bản thể đẹp đẽ và độc lập, không thể là phiên bản sao
chép của một ai khác. Để làm được điều đó khơng phải là nhiệm vụ dễ dàng, mà là
một nhiệm vụ đầy thách thức và cam go đòi hỏi chúng ta cần phải thường xuyên học
tập, rèn luyện khơng ngừng, ln ln tìm kiếm khám phá và chinh phục những vùng
trời tri thức không mệt mỏi đầy khổ luyện. Đó là nhiệm vụ, là ước mơ của mỗi con
chúng ta trong những năm tháng của cuộc đời.
Sẽ khơng có chúng ta của ngày hơm nay cũng như chúng ta của ngày mai nếu
khơng có sự hy sinh thầm lặng của gia đình; sự tận tụy, tâm huyết của những người
thầy, người cơ đáng kính; sự động viên chân thành, lớn lao từ phía bạn bè và sự hỗ
trợ nhiệt tình của lãnh đạo trường Đại học Bách Khoa thành phố Hồ Chí Minh.
Đặc biệt, tơi xin gởi lời tri ân sâu sắc đến Thầy Ts. Đỗ Tiến Sỹ và Thầy Ts.
Dương Minh Đức – những người đã luôn ở bên cạnh tôi, giúp đỡ, động viên tơi trong
q trình học tập và nghiên cứu. Xin cảm ơn hai Thầy rất nhiều, bằng tất cả sự chân
thành trong trái tim tôi!
Trân trọng!
TP.HCM, Ngày 09 tháng 07 năm 2021
Người thực hiện luận văn
Trần Đỗ Quốc Trung
ii
TÓM TẮT
Quản lý xây dựng là việc sử dụng kinh nghiệm, kiến thức chun mơn để lập
kế hoạch kiểm sốt chi phí, tiến độ, an tồn và chất lượng nhằm hồn thành dự án
một cách tốt nhất có thể và đạt được hiệu quả của dự án. Cũng có thể nói, mục tiêu
cuối cùng của việc quản lý là tạo ra lợi nhuận và giá trị cho doanh nghiệp trong lĩnh
vực bất động sản, xây dựng và các giá trị xã hội nhân văn mà dự án mang lại. Hai
ngành này chiếm tỷ trọng lớn và có ảnh hưởng đến triển vọng kinh tế vĩ mô của một
Quốc gia. Một đất nước với bức tranh kinh tế ảm đạm, trì trệ sẽ kéo theo giá cổ phiếu
tụt giảm ngược lại, khi đất nước có nền kinh tế năng động, phát triển thì thị trường
chứng khốn sẽ sơi sục giá cổ phiếu cũng sẽ tăng đặc biệt trong hai lĩnh vực trên.
Những năm trở lại đây, tình hình thị trường chứng khoán nước ta tăng giảm thất
thường khiến một số doanh nghiệp khơng kịp trở tay và lâm vào tình cảnh khó khăn.
Với tinh thần trách nhiệm cao của một người từng tham gia hoạt động nhiều năm
trong nghề đã thôi thúc tôi nghiên cứu đề xuất một công cụ dự báo tiên tiến có độ
chuẩn xác cao theo hướng tiếp cận máy học.
Phạm vi bài luận này sẽ nghiên cứu ứng dụng 05 mơ hình ANN, KNN,
LSTM, ARIMA, Linear Regressive trong việc dự đoán dựa trên bộ dữ liệu chứng
khoán của 175 doanh nghiệp (trong đó có 80 DN bất động sản và 95 DN ngành
xây dựng) được niêm yết trên sàn chứng khoán Việt Nam từ 2017 đến 21/01/2021
lấy từ các website đáng tin cậy (Vietstock, Vndirect,…) trong phân tích và đánh
giá đối sánh nhằm tìm một mơ hình đạt hiệu suất tốt nhất cho bộ dữ liệu này. Ngoài
ra, bài luận cũng nêu ra các giải pháp cho doanh nghiệp và đầu tư với xu hướng tăng,
giảm của giá trị cổ phiếu.
Trong khoảng thời gian này, học viên đã tham gia nghiên cứu và công bố bài
báo “Applying Transfer Learning in Stock Prediction Based on Financial New”
[10] với vai trị đồng tác giả trên tạp chí Springer LNEE, 3-2021 (Scopus – Q3).
ABSTRACT
iii
Construction management is the use of experience, expertise to plan cost
control, schedule, safety and quality to complete the project in the best possible
way and achieve the effectiveness of the project. judgment. It can also be said that
the ultimate goal of management is to create profits and values for businesses in
the field of real estate, construction and humane social values that the project
brings. These two industries account for a large proportion and have an impact on
the macroeconomic outlook of a Country. A country with a gloomy and stagnant
economic picture will lead to a decline in stock prices, on the contrary, when the
country has a dynamic and developed economy, the stock market will be boiling.
especially in these two areas. In recent years, the situation of the stock market in
our country has increased and decreased erratically, causing a number of
businesses to be unable to react and fall into difficult situations. With a high sense
of responsibility of a person who has been in the industry for many years, it
prompted me to research and propose an advanced forecasting tool with high
accuracy in the direction of machine learning.
The scope of this essay will study and apply 05 models ANN, KNN, LSTM,
ARIMA, Linear Regressive in predicting based on stock data set of 175
companies (including 80 real estate companies and 95 companies). construction
companies) listed on the Vietnam Stock Exchange from 2017 to January 21, 2021,
taken from reliable websites (Vietstock, Vndirect, ...) in analysis and
benchmarking to find a model. the best performing model for this dataset. In
addition, the essay also outlines solutions for businesses and investments with the
increasing and decreasing trend of stock value.
During the time of researching and implementing this essay, students
participated in the research and published the article "Applying Transfer Learning
in Stock Prediction Based on Financial New" [10] as a co-author in Springer
LNEE, 3-2021 (Scopus – Q3).
iv
LỜI CAM KẾT
Với tinh thần đầy trách nhiệm, tôi cam kết rằng nội dung của bài luận: “Dự
đoán giá cổ phiếu doanh nghiệp ngành Xây dựng và Bất động sản trên thị
trường chứng khoán Việt Nam dựa trên tiếp cận máy học” là dự án do
bản thân nghiên cứu phát triển, chưa được công bố khoa học bởi người
khác.
TP.HCM, Ngày 09 tháng 07 năm 2021
Người thực hiện luận văn
Trần Đỗ Quốc Trung
v
MỤC LỤC
CHƯƠNG 1. GIỚI THIỆU
1
1.1.
Lý do chọn đề tài
1
1.2.
Mục tiêu nghiên cứu
1
1.3.
Đối tượng và phạm vi nghiên cứu
1
1.4.
Ý nghĩa khoa học và thực tiễn của đề tài
2
1.5.
Kết cấu luận văn
2
CHƯƠNG 2. TỔNG QUAN
3
2.1. Các nghiên cứu liên quan
3
2.2. Phạm vi ứng dụng
8
CHƯƠNG 3. CƠ SỞ LÝ THUYẾT
9
3.1. Các khái niệm liên quan chứng khoán
9
3.1.1. Cổ phiếu
9
3.1.2. Phân loại cổ phiếu
9
3.1.3. Đặc điểm của cổ phiếu
9
3.1.4. Các loại giá cổ phiếu
10
3.1.5. Lợi tức của cổ phiếu
11
3.1.6. Rủi ro của cổ phiếu
11
3.1.7. Thị trường chứng khoán
11
3.1.8. Chỉ số chứng khoán
12
3.1.9. Các chủ thể tham gia thị trường chứng khoán
12
3.2. Machine Learning (Học máy)
13
3.2.1. Linear Regression (Hồi quy tuyến tính).
14
3.2.2. K-nearest neighbor
16
3.2.3. Support Vector Machine (SVM)
16
3.2.4. ARIMA model
20
3.2.5. Mạng Nơron (Neural Network)
22
3.2.6. Mạng RNN (Recurrent Neural Network)
27
3.2.7. Mạng Long Short Term Memory (LSTM)
30
CHƯƠNG 4. PHƯƠNG PHÁP LUẬN - MƠ HÌNH ĐỀ XUẤT
33
4.1. Các phương pháp phân tích cơ bản
33
4.1.1. Phương pháp phân tích top – down
33
4.1.2. Phương pháp phân tích bottom – up
35
vi
4.2. Phương pháp phân tích bằng các mơ hình học máy – mơ hình đề xuất.
35
4.2.1. Phương pháp sử dụng mơ hình LSTM
36
4.2.2. Các tiêu chí đánh giá
38
CHƯƠNG 5. PHÂN TÍCH VÀ ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM
40
5.1. Trình tự quy trình xử lý thực nghiệm.
40
5.2. Cài đặt mơi trường thực nghiệm
40
5.2.1. Ngơn ngữ lập trình Python
40
5.2.2. Mơi trường Google colaboratory
40
5.2.3. Các thư viện dùng trong thực nghiệm
41
5.3. Thu thập danh sách mã CP các công ty theo ngành (Code_01)
44
5.4. Tải dữ liệu CK từ các website (Code_02)
44
5.5. Chạy thực nghiệm trên mỗi mã Cổ phiếu (Code_03)
45
5.6. Chạy thực nghiệm trên 03 bộ dữ liệu (80 mã CP nhóm BĐS, 95 mã CP nhóm
XD, 175 mã CP BĐS và XD) (Code_04)
52
5.7. Nhận xét - đánh giá các mơ hình
55
5.7.1. Trường hợp dự đốn giá trên bộ dữ liệu mỗi cơng ty
55
5.7.2. Trường hợp dự đốn giá trên tồn bộ dữ liệu của 175 công ty, 80 công ty lĩnh vực
BĐS, 95 công ty lĩnh vực XD.
56
CHƯƠNG 6. KẾT LUẬN
58
6.1. Kết quả đạt được
58
6.2. Hạn chế của bài nghiên cứu
58
6.3. Hướng phát triển đề tài
59
6.4. Kiến nghị:
59
6.4.2. Khi cổ phiếu giảm
60
DANH MỤC CÁC CƠNG TRÌNH NGHIÊN CỨU
62
TÀI LIỆU THAM KHẢO
63
PHỤ LỤC CÁC HÌNH ẢNH THỰC NGHIỆM
64
PHỤ LỤC CÁC CODE LIÊN QUAN
67
8.1. Code_01: Crawl dữ liệu nhóm ngành
67
8.2. Code_02: Tải dữ liệu chứng khốn
68
8.3. Code_03: Chạy các mơ hình
69
8.4. Code_04: Chạy thực nghiệm cho tất cả công ty
77
vii
DANH MỤC CÁC BIỂU BẢNG
Bảng 2-1 Bảng tổng hợp các nghiên cứu liên quan ...................................................... 4
Bảng 5-1 Tổng hợp các chỉ số của các mơ hình ......................................................... 51
Bảng 5-2 Tổng hợp các chỉ số đo của các bộ dữ liệu ................................................. 54
viii
DANH MỤC HÌNH ẢNH
Hình 3-1”Linear Regression nhạy cảm với nhiễu nhỏ” [10] ...................................... 15
Hình 3-2 Ví dụ về KNN với K=3, K=5 ....................................................................... 16
Hình 3-3 Minh họa hyper-plane trong SVM ............................................................... 17
Hình 3-4 Hình minh họa quy tắc 2 ............................................................................. 17
Hình 3-5 Minh họa quy tắc 3 ..................................................................................... 18
Hình 3-6 Minh họa quy tắc 4 ..................................................................................... 18
Hình 3-7 Minh họa quy tắc 5 ..................................................................................... 19
Hình 3-8 Minh họa quy tắc 5 ..................................................................................... 19
Hình 3-9 Mơ hình mạng nơron .................................................................................. 22
Hình 3-10 Mơ hình neuron dự đốn giá vé máy bay .................................................. 23
Hình 3-11 “Gradient Descent” .................................................................................. 24
Hình 3-12 RNN có vịng lặp ....................................................................................... 27
Hình 3-13 RNN đã được trải ra ................................................................................. 28
“Hình 3-14 RNN phụ thuộc gần”............................................................................... 29
Hình 3-15 RNN phụ thuộc xa ..................................................................................... 29
Hình 3-16 Module lặp trong RNN chuẩn chứa một lớp tanh duy nhất ........................ 30
Hình 3-17 “Module lặp trong LSTM chứa 4 lớpitương tác” ...................................... 30
Hình 3-18 Các ký hiệu trong LSTM ........................................................................... 31
Hình 3-19 Dây chuyền C trong LSTM ........................................................................ 31
Hình 3-20 Cổng điều khiển thơng tin ......................................................................... 31
Hình 4-1 Cổng qn trong LSTM ............................................................................... 36
Hình 4-2 Cổng đầu vào trong LSTM .......................................................................... 37
Hình 4-3 Cập nhật ơ trạng thái trong LSTM .............................................................. 37
Hình 5-1 Giao diện mơi trường Google colaboratory ................................................ 40
Hình 5-2 Trích xuất các thư viện bằng Python ........................................................... 42
Hình 5-3 Truy xuất dữ liệu công ty Hưng Thịnh từ Web bằng Python ........................ 42
Hình 5-4 Biểu đồ giá CP Cơng ty Hưng Thịnh bằng Python ...................................... 43
Hình 5-5 Truy xuất dữ liệu thơ các nhóm ngành sử dụng Python ............................... 44
Hình 5-6 Tải dữ liệu toàn bộ 175 mã CP về Google Colab bằng Python.................... 45
Hình 5-7 Biểu đồ training và testing Công ty UDC .................................................... 47
ix
Hình 5-8 Biểu đồ dự đốn giá CP Cty UDC bằng LSTM ........................................... 47
Hình 5-9 Biểu đồ phóng to giá trị dự đốn của mơ hình LSTM .................................. 48
Hình 5-10 Biểu đồ dự đoán giá CP Cty UDC bằng ARIMA ....................................... 48
Hình 5-11 Biểu đồ dự đốn giá CP Cty UDC bằng Linear regression ....................... 49
Hình 5-12 Biểu đồ dự đốn giá CP Cty UDC bằng KNN ........................................... 49
Hình 5-13 Biểu đồ dự đoán giá CP Cty UDC bằng SVM ........................................... 50
Hình 5-14 Biểu đồ dự đốn giá CP KNN, SVM, LSTM, ARIMA, Linear regression so
với thực tế .................................................................................................................. 51
Hình 5-15 Biểu đồ độ lệch chuẩn bộ dữ liệu tất cả các cơng ty .................................. 53
Hình 5-16 Biểu đồ độ lệch chuẩn bộ dữ liệu các cơng ty BĐS.................................... 53
Hình 5-17 Biểu đồ độ lệch chuẩn bộ dữ liệu các cơng ty XD ..................................... 53
Hình 8-1 Tập Training giá CP cơng ty UDC.............................................................. 64
Hình 8-2 Tập Testing giá CP cơng ty UDC ................................................................ 64
Hình 8-3 Truy xuất kết quả mơ hình LSTM ................................................................ 64
Hình 8-4 Truy xuất kết quả mơ hình ARIMA .............................................................. 65
Hình 8-5 Truy xuất kết quả mơ hình Linear regression .............................................. 65
Hình 8-6 Truy xuất kết quả mơ hình KNN .................................................................. 65
Hình 8-7 Truy xuất kết quả mơ hình SVM .................................................................. 66
Hình 8-8 Truy xuất tổng hợp kết quả các mơ hình...................................................... 66
x
DANH MỤC CÁC TỪ VIẾT TẮT
TỪ VIẾT TẮT
DIỄN GIẢI
TIẾNG VIỆT
NN
Neural Network
Mạng Nơron
RNN
Recurrent Neural Network
Mạng thần kinh tái phát
Autoregressive Intergrated
Đường trung bình động tích
Moving Average
hợp tự động hồi phục
LSTM
Long short-term memory
Bộ nhớ ngắn hạn – dài hạn
AI
Artifical Intelligence
Trí tuệ nhân tạo
ML
Machine Learning
Học máy
GD
Gradient Descent
Giảm độ dốc
ANN
Artificial Neural Network
Mạng thần kinh nhân tạo
KNN
K-nearest neighbors
K-Lân cận
LR
Linear Regressive
Hồi quy tuyến tính
SVM
Support Vector Machine
Máy vector hỗ trợ
ARIMA
CNN
NYSE
Convolutional Neural
Network
New York Stock Exchange
Mạng thần kinh chuyển đổi
Sở giao dịch chứng khoán
New York
XD
Xây dựng
VLXD
Vật liệu xây dựng
DN
Doanh nghiệp
NĐT
Nhà đầu tư
BĐS
Bất động sản
CP
Cổ phiếu
xi
CK
Chứng khoán
NC
Nghiên cứu
MAE
Mean absolute error
MSE
Mean squared error
RMSE
Root Mean Squared
MAPE
ROE
Sai số trung bình tuyệt đối
Sai số tồn phương trung
bình
Căn bậc hai của sai số
bình phương trung bình
Mean absolute percentage
Phần trăm sai số trung
error
bình tuyệt đối
Return On Equity
Lợi nhuận trên vốn
xii
1. CHƯƠNG 1. GIỚI THIỆU
1.1.
Lý do chọn đề tài
Ngành XD và BĐS là những ngành có đặc thù riêng, chúng có sự tác động
qua lại và tỷ lệ thuận với sự phát triển của một nền kinh tế vĩ mô. Những năm gần
đây, giá CP của các công ty trên sàn CK Việt Nam biến động mạnh và diễn biến
rất phức tạp, có thể khiến một số DN, NĐT trong lĩnh vực XD và BĐS kịp thời
phản ứng và đẩy họ vào tình thế khó khăn. Vì vậy, việc nghiên cứu một phương
pháp dự báo với độ chính xác cao là một nhiệm vụ không dễ dàng, đầy thử thách
và cần thiết trong thời điểm hiện nay nhằm góp phần giúp các DN, NĐT có đối
sách, chiến lược hợp lý để giải quyết khó khăn có thể xảy ra trong tương lai. Với
mục đích này, nội dung bài luận sẽ tập trung nghiên cứu dự đoán giá CP bằng
hướng tiếp cận học máy dựa trên dữ liệu CK các công ty XD và BĐS tại Việt
Nam, cụ thể áp dụng các mơ hình ANN, KNN, LSTM, ARIMA, Hồi quy tuyến
tính (Linear Regressive) trong phân tích và đánh giá đối sánh nhằm tìm một mơ
hình đạt hiệu suất tốt nhất cho bộ dữ liệu này. Ngoài ra, bài luận cũng nêu ra các
giải pháp cho DN và NĐT với xu hướng tăng, giảm của giá trị CP.
1.2.
Mục tiêu nghiên cứu
- Tìm hiểu các vấn đề có liên quan đến TTCK…
- Hệ thống và cập nhật kiến thức về các mơ hình học máy tiên tiến: Thuật
toán ANN, KNN, LSTM, SVM, Linear Regressive …
- Dựa vào các chỉ số đo MAPE, MSE, RMSE, MAE của các mơ hình tìm
ra phương pháp dự đốn có độ chính xác cao nhất.
- Kết hợp giữa kết quả dự đoán và các chỉ số đo cần thiết nhằm khuyến cáo
cho NĐT, các DN kịp thời có những quyết sách hợp lý.
1.3.
Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: là giá trị CP của 175 DN ngành XD, BĐS trên sàn
CK Việt Nam, giá dự đốn sẽ là “giá đóng cửa theo ngày”.
1
- Phạm vi nghiên cứu: Các mơ hình học máy dựa vào các số liệu giá lịch
sử từ 2017 đến 21/01/2021 của các công ty BĐS và XD lấy từ các website đáng
tin cậy (Vietstock, Vndirect,…) nên độ chính xác và giá trị thực tiễn cao. Đồng
thời bài luận còn tìm hiểu về TTCK cũng như các nguyên tắc hoạt động của nó.
1.4.
Ý nghĩa khoa học và thực tiễn của đề tài
- Về thực tiễn: Luận văn có ý nghĩa thực tiễn với các báo cáo thực nghiệm
trên các mô hình phân tích, dự báo và đối sánh với thực tế trên dữ liệu thực tế từ
các sàn CK tại Việt Nam. Đề tài có thể áp dụng để dự báo trên bộ dữ liệu các
ngành khác trên TTCK.
- Về khoa học: Đề tài nghiên cứu và áp dụng các kỹ thuật học máy tiên tiến
đang được sử dụng rộng rãi hiện nay cho việc dự báo, các kết quả đã được phân
tích đánh giá, làm rõ với độ chính xác đáng tin cậy.
1.5.
Kết cấu luận văn
Chương 1: Giới thiệu
Chương 2: Tổng quan
Chương 3: Cơ sở lý thuyết
Chương 4: Phương pháp luận - Mơ hình đề xuất
Chương 5: Phân tích và đánh giá kết quả thực nghiệm
Chương 6: Kết luận và đề xuấti hướng nghiên cứu
2
2. CHƯƠNG 2. TỔNG QUAN
2.1. Các nghiên cứu liên quan
Năm 2012, mạng học sâu AlexNet đánh dấu bước nhảy vọt của học sâu và đánh
bại các thuật toán học máy khác. Mạng LSTM được đề xuất bởi Sepp Hochreiter và
Jürgen Schmidhuber [1] vào năm 1997, với tính chất tuần tự thì việc áp dụng giải quyết
các vấn đề liên quan đến chuỗi thời gian như giá chứng khoán rất hợp lý. Mãi đến năm
2013, mạng học sâu LSTM mới trở thành đối thủ đáng gờm trong các cuộc thi về nhận
dạng giọng nói, chữ viết. Đến năm 2016, LSTM trở thành nền tảng không thể thiếu
trong các sản phẩm mới của các hãng công nghệ khổng lồ như Google, Apple,
Microsoft. Cũng nhờ đó việc cài đặt mạng LSTM trên thực tế và thử nghiệm trở nên
dễ dàng hơn nhờ các công cụ phần mềm mã nguồn mở. Đặc biệt với tính chất dễ tiếp
cận cũng như khả năng hiện thực hoá lợi nhuận đơn giản như thị trường chứng khoán
hay tiền điện tử đã thu hút rất nhiều người tham gia với các thuật toán học máy, đặc
biệt là LSTM. Nhưng việc chọn mơ hình tinh chỉnh các tham số chuẩn là một cơng
việc cần có kinh nghiệm chun sâu về cả cổ phiếu lẫn học máy. Việc thực hiện tinh
chỉnh bằng tay hoặc ngẫu nhiên thì tốn rất thời gian và chí phí mà khơng đảm bảo
được hiệu quả.
Dự báo giá CP là một việc rất phức tạp. Hầu hết các tổ chức kinh doanh trong
lĩnh vực này thường sử dụng phân tích chuỗi kỹ thuật, cơ bản hoặc phân tích chuỗi
thời gian trong việc cố gắng dự đốn giá CP. Tuy nhiên, các chiến lược này không dẫn
đến kết quả đáng tin cậy vì chúng hướng dẫn về xu hướng và khơng phải là giá có độ
chính xác cao nhất. Cần phải sử dụng các phương pháp nâng cao để dự đốn kết quả
chính xác nhất. Nhiều nhà NC cũng đã dùng nhiều phương pháp khác nhau với nhiều
bộ tham số đầu vào khác nhau để dự đoán giá CP trong vài thập kỷ qua. Hiện tại, các
vấn đề về phân tích dữ liệu chuỗi lịch sử giá CP với nhiều mơ hình học máy trong việc
dự đốn được sử dụng rộng rãi trong và ngoài nước. Chúng được tóm tắt ngắn gọn và
liệt kê trong bảng sau:
3
Bảng 2-1 Bảng tổng hợp các nghiên cứu liên quan
Stt
01
Tác giả - tạp chí
Tên đề tài
Mục tiêu NC
Phương pháp NC
i
Kết quả NC
-“A. Adebiy, A.
Sử dụng đối sánh
“Tác giả so sánh
“Nghiên cứu sử dụng dữ “ARIMA và ANN
Adewumi and C.
mơ hình ANN và
hiệu suất dự báo của liệu công bố từ NYSE
Ayo”
ARIMA trong việc ARIMA và ANN
- iJournal of Applied
dự đoán giá cổ
với dữ liệu CK được ARIMA và ANN được
hình khá thấp trong
iMathematics, vol.
phiếu.
công bố thu được từ
dự báo ngắn hạn.
trên các mơ hình
phát triển.
đạt hiệu suất dự báo
tốt, sai số của hai mô
2014, pp. 1-7, 3
Sở giao dịch CK
Tuy nhiên, ANN vẫn
2014”[2]
New York”
tốt hơn so với
ARIMA”
02
-“B. Wanjawa and L.
Dự đốn giá cổ
“Đề xuất mơ hình
“Dữ liệu được sử dụng
“Nghiên cứu cho kết
Muchemi - 8
phiếu bằng mơ
ANN trong dự đốn
là giá đóng cửa hàng
quả dự đốn với
2014”[3]
hình ANN
giiá CP trên các thị
ngày của từng CP riêng
MAPE trong khoảng
trường CK điển
lẻ
0,71% đến 2,77%”
hình”
(khoảng 60 cơng ty) của
i
i
sàn CK Nairobi (NSE)
trong thời gian 5 năm,
4
2008 đến 2012 (1.000
hàng dữ liệu) thu từ
(Synergy 2013)
“Mơ hình cơ sở ban đầu
sử dụng tỷ lệ dữ liệu thử
nghiệm và đào tạo
70:30, với cấu hình là 5:
11: 11: 1, 70% dữ liệu
đào tạo là
từ tháng 1/2008 –
12/2012”
“Thời gian kiểm tra
trong 3 tháng từ nhóm
30% dữ liệu cịn lại”
03
-“Khaliid Alkhatiib,
Sử dụng mơ hình
“Sử dụng KNN dự
“Áp dụng thuật tốn
“Theo kết quả, thuật
Hassan Najiadat,
KNN cho việc dự
đoán nhằm hỗ trợ
KNN (k=5) và phương
toán KNN ổn định và
Ismail Hmeiidi,
báo giá cổ phiếu
các NĐT, ban quản
pháp hồi quy phi tuyến
mạnh mẽ với tỷ lệ sai
Mohammed K. Ali
lý, người ra quyết
để dự đoán giá CP cho
số nhỏ nên kết quả
Shatnawi”
định và người dùng
một mẫu gồm năm DN
đưa ra là hợp lý”.
5
- “International
đưa ra giá trị chính
lớn được niêm yết trên
Journal of Business,
xác và các quyết
thị trường CK Jordan”
Humanties and
định đầu tư sáng
Technology, Vol. 3
suốt”
i
i
i
i
No. 3; March 2013”
i
[4]
04
-“WEN Fenghuaa,
Dự báo giá cổ
XIAO Jihong, HE
phiếu dựa vào SSA SVM để dự đoán giá giá đóng cửa Chỉ số
Zhifang, GONG Xu”
and SVM
- “2nd International
i
Đề xuất thuật toán
“Dựa trên SSA và lấy
“Dự đoán kết hợp
bằng cách phân tách
CP có độ chính xác
tổng hợp của sàn
chuỗi chỉ số ban đầu
cao
Thượng Hải (SSE) từ
thành các chuỗi có
Conference on
ngày 5/1/2009 đến ngày hàm ý kinh tế được
Information
30/9/2013”
mong muốn hơn là
Technology and
Tác giả giới thiệu
đưa ra các dự đoán
Quantitative
phương pháp SVM để
SVM đơn thuần và
Management,
dự đoán
các dự đoán kết hợp
ITQM 2014”[5]
So sánh hiệu quả kết
hợp SSA-SVM với
với các dự đoán kết
SVM và kết hợp
hợp EEMD-SVM”
EEMD-SVM
6
SSA-SVM tốt hơn so
05
-“Nguyen Le Nam
“Ứng dụng mô
“Dự báo chỉ số VN-
“Sử dụng chuỗi dữ liệu
“Mơ hình GARCH
Phương”
hình ARIMA,
Index trong tuần đầu đã có tính dừng để ước
(1, 1) sửa lỗi được
- “Trường Đại học
ARCH/GARCH để tiên 5/2015 để đề
lượng một loạt các mô
hiện tượng phương
Kinh tế Huế, 2014.”
dự báo chỉ số VN-
xuất xu hướng chiỉ
hình ARIMA sử dụng
sai sai số thay đổi mà
[6]
Index trong ngắn
số CK và tìinh hình
các chỉ tiêu như AIC,
mơ hình ARIMA (2,
hạn”
thị trường để NĐT
SIC,…để lựa chọn mơ
1, 2) khơng làm
và DN có cái nhìn
hình ARIMA tốt nhất.”
được, vừa đơn giản
i
i
i
i
i
i
i
i
tổng quan về TTCK
và có độ tổng quát
có đối sách trong
cao hơn so với mơ
thờii giian ngắn
hình ARCH.”
hạn”
7
2.2. Phạm vi ứng dụng
Bài luận đã nêu ra các kỹ thuật học máy tiên tiến có độ tin cậy cao trong
việc dự đoán các mục vấn đề dựa vào dữ liệu quá khứ. Thuật toán xử lý được
các bài tốn phi tuyến với nhiều yếu tố ảnh hưởng.
Chính vì thế, thuật tốn có thể đưa ra các dự báo trong một số lĩnh vực
như sau:
+ Kinh tế, tài chính: Dự báo giá CP, chỉ số CK ...
+ Bất động sản: Dự báo giá nhà, giá nhà cho thuê, giá đất ...
+ Lĩnh vực y tế: Chẩn đoán bệnh…
+ Lĩnh vực XD: Có thể dự đốn các vết nứt, sụt lún theo thời gian và nhiều
lĩnh vực khác.
8
3. CHƯƠNG 3. CƠ SỞ LÝ THUYẾT
3.1. Các khái niệm liên quan chứng khoán
3.1.1. Cổ phiếu
Theo khoản 2, điều 4 Luật chứng khoán số 54/2019/QH14 ngày
26/11/2019 nêu rõ [7] “Cổ phiếu là loại chứng khoán xác nhận quyền và lợi ích
hợp pháp của người sở hữu đối với một phần vốn cổ phần của tổ chức phát
hành”.
3.1.2. Phân loại cổ phiếu
- CP thường: “Là CP thông dụng nhất trong công ty cổ phần, nó cịn được
gọi là CP phổ thơng, người nắm giữ loại CP này được hưởng quyền lợi nhất
định” [8].
- CP ưu đãi:
+ CP ưu đãi biểu quyết: Được hiểu là CP có số phiếu biểu quyết nhiều hơn
so với CP phổ thông. Tùy thuộc vào điều lệ mỗi DN sẽ quy định số phiếu biểu
quyết của một cổ phần ưu đãi là bao nhiêu, còn pháp luật không quy định
+ CP ưu đãi cổ tức: Loại CP này có mức cổ tức cao hơn so với CP thường
hoặc mức ổn định hằng năm.
+ CP ưu đãi hoàn lại: Là CP sẽ được công ty trả lại phần giá trị góp vốn
nếu chủ sở hữu yêu cầu hoặc theo quy định ghi trên CP này, đồng thời có thể
được chuyển đổi thành CP thường theo quyết định của Đại hội cổ đơng.
+ Ngồi ra các CP ưu đãi nêu trên một số DN có các loại CP ưu đãi riêng.
3.1.3. Đặc điểm của cổ phiếu
- Khơng có kỳ hạn và khơng hồn vốn ngoại trừ các loại CP ưu đãi hoàn lại
hoặc CP ưu đãi khác do mỗi DN quy định.
9
- Tính thanh khoản: là khả năng chuyển đổi tài sản hữu hình thành tiền mặt,
thời gian và chi phí chuyển đổi sẽ quyết định khả năng nhanh hay chậm. Các loại
CK khác nhau có mức độ chuyển nhượng khác nhau.
- Giá CP không ổn định và thay đổi theo hiệu quả SXKD của từng DN
mang lại.
- Khi tham gia mua, bán CP có nghĩa là chúng ta đang chơi một trò trơi
đầy rủi ro.
3.1.4. Các loại giá cổ phiếu
- Mệnh giá: Giá trị danh nghĩa của CP. Do sự tăng trưởng của DN và sự
thay đổi của thị trường dẫn đến giá bán CP ngày càng tách khỏi giá trị danh
nghĩa của CP. Khi một công ty mới được thành lập, nó có cơng thức tính như
sau:
(3.1)
Điều 13 Luật CK số 54/2019/QH14 ngày 29/11/2019 [7] quy định: “Mệnh
giá của CP lần đầu chào bán ra công chúng là 10.000 đồng Việt Nam”
- Thư giá: Hay còn gọi là giá trị ghi trong văn bản thể hiện vốn góp của
DN tại một mốc thời gian nào đó.
(3.2)
- Giá trị nội tại: Thể hiện giá trị thực của CP tại thời điểm xem xét. Căn
cứ giá trị cổ tức, triển vọng tăng trưởng của DN và lãi suất thị trường để tính
giá trị nội tại. Giá trị này là mấu chốt quan trọng để thẩm định giá trị thực của
CP, so sánh với giá giao dịch trên thị trường, giúp chọn được phương án tối ưu.
10
- Thị giá: Là giá của CP được mua bán ngay thời điểm giao dịch, theo đó
giá này có thể cao hơn, thấp hơn hoặc bằng đúng giá trị thực vào thời điểm giao
dịch.
3.1.5. Lợi tức của cổ phiếu
+ Cổ tức: Lấy khoản sinh lợi sau thuế trừ phần chi trả cổ tức ưu đãi và giữ
lại một khoản để tái đầu tư còn lại đem chia cho mỗi CP. Mức cổ tức tùy vào
lợi nhuận và chính sách cổ tức DN [9].
+ Lợi tức do chênh lệch giá: Là phần dư ra giữa giá bán ra và mua vào
của một CP. Hầu hết, các NĐT với chiến lược giao dịch ngắn hạn sẽ bán ra khi
giá tăng để hưởng chênh lệch [9].
3.1.6. Rủi ro của cổ phiếu
+ Rủi ro hệ thống: Là các rủi ro do tác động bởi các yếu tố ngồi tầm kiểm
sốt bên ngồi DN, có tác động lớn đến toàn bộ các loại CK, chẳng hạn như
dịch bệnh, thiên tai, chiến tranh, lạm phát…
+ Rủi ro phi hệ thống: Các rủi ro gây ra bởi các yếu tố tồn tại trong DN
mà ta có thể làm giảm hoặc kiểm soát khả năng ảnh hưởng của chúng. Nó chỉ
ảnh hưởng đến một ngành, một cơng ty, một hoặc nhiều CK. Các yếu tố này
chủ yếu do trình độ, năng lực, tư duy quản lý điều hành, các điều kiện thực tại
của DN.
3.1.7. Thị trường chứng khoán
TTCK là nơi các tổ chức giao dịch CK hoặc tài chính khác (trái phiếu được
cung cấp cho thương mại)... Đối với cổ phiếu, thị trường thường hoạt động một giao
dịch người mua đưa ra mong muốn mức giá muốn mua, người bán đưa ra mức giá
muốn bán, và nếu có người mua và người bán đều có mức giá phù hợp với nhau thì
giao dịch sẽ được diễn ra. Nếu khơng thì sẽ khơng có giao dịch nào diễn ra và chờ
đợi một mức giá trong tương lai hoặc hết hạn. Trong hầu hết các sản phẩm giao
11