ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
NGUYỄN PHI PHÚ
VŨ ANH KHOA
KHÓA LUẬN TỐT NGHIỆP
HỆ HỖ TRỢ DỰ BÁO XU HƯỚNG GIÁ CỔ PHIẾU THEO
NGÀNH TẠI TTCK VIỆT NAM
THE SUPPORT SYSTEM FOR FORECASTING STOCK PRICE
TRENDS BY INDUSTRY IN VIETNAM’S STOCK MARKET
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
TP. HỒ CHÍ MINH, 2021
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
NGUYỄN PHI PHÚ - 16520935
VŨ ANH KHOA - 16520608
KHÓA LUẬN TỐT NGHIỆP
HỆ HỖ TRỢ DỰ BÁO XU HƯỚNG GIÁ CỔ PHIẾU THEO
NGÀNH TẠI TTCK VIỆT NAM
THE SUPPORT SYSTEM FOR FORECASTING STOCK PRICE
TRENDS BY INDUSTRY IN VIETNAM’S STOCK MARKET
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
TS. DƯƠNG MINH ĐỨC
TP. HỒ CHÍ MINH, 2021
THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………… ngày
………………….. của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI: Hệ hỗ trợ dự báo xu hướng giá cổ phiếu theo ngành tại TTCK Việt Nam
Cán bộ hướng dẫn: TS. Dương Minh Đức
Thời gian thực hiện: Từ ngày 07/09/2020 đến ngày 02/01/2021
Sinh viên thực hiện:
Nguyễn Phi Phú – 16520935
Vũ Anh Khoa - 16520608
Nội dung đề tài:(Mô tả chi tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,
kết quả mong đợi của đề tài)
Hiện trạng:
-
Ngày nay, TTCK ngày càng có vai trị quan trọng trong nền kinh tế, là thước đo
hiệu quả các hoạt động và sự phát triển kinh tế của một quốc gia. TTCK tạo điều
kiện thuận lợi cho việc thực hiện chính sách mở cửa, cải cách kinh tế thông qua
việc phát hành chứng khốn ra nước ngồi.
-
Tuy chứng khốn là kênh đầu tư có khả năng sinh lợi cao nhưng chứng khốn cũng
tiềm ẩn nhiều rủi ro. Nhiều nghiên cứu hiện nay trong lĩnh vực TTCK cố gắng dự
đốn chính xác giá trị của giá cổ phiếu hoặc dự đoán xu hướng giá cổ phiếu trong
tương lai. Tuy nhiên, điều này là rất khó bởi sự biến động phức tạp của chuỗi giá,
vì giá cổ phiếu chịu tác động bởi rất nhiều yếu tố như tình hình chính trị, xã hội,
kinh tế, tin tức của công ty, hiệu suất, báo cáo hoạt động kinh doanh, … Tuy nhiên,
sự biến động của TTCK khơng ngẫu nhiên mà có khả năng dự báo được.
-
Một mơ hình dự đốn có hiệu quả là mơ hình dự đốn chính xác xu hướng của một
mã cổ phiếu tăng hoặc giảm trong tương lai, giúp nhà đầu tư đưa ra quyết định đầu
tư đúng đắn trong việc mua, bán cổ phần của cổ phiếu mà họ đang nắm giữ nhằm
thu lợi nhuận cao nhất và giảm thiểu rủi ro đến mức thấp nhất. Tuy nhiên nó vẫn
cịn hạn chế vì các mơ hình hiện nay chưa có độ chính xác cao.
Mục tiêu:
-
Tìm hiểu các thuật tốn mới để cải tiến hiệu năng dự đoán trong việc mua bán
chứng khoán.
-
Áp dụng phương pháp đơn giản hơn nhưng hiệu quả để cải thiện những thơng tin
cho việc dự đốn sự biến động của thị trường chứng khốn.
-
Mơ hình dự đốn xu hướng của thị trường chứng khốn có độ chính xác cao.
Phạm vi nghiên cứu:
-
Thị trường chứng khoán Thượng Hải.
-
Các phương pháp, thuật toán tối ưu của Machine Learning, Deep Learning.
Đối tượng:
-
Thị trường chứng khoản Việt Nam
Kết quả:
-
Hiểu và nắm rõ được các công nghệ đã sử dụng trong dự án.
-
Nắm vững Machine Learning cơ bản cũng như nâng cao.
-
Biết các lập ra kiểu dữ liệu, phân tích dữ liệu đầu vào và đầu ra.
-
Tối ưu được thuật toán dựa trên tiêu chí: Thời gian, khơng gian, …
-
Mơ hình dự đoán xu hướng chứng khoán dựa trên tin tức trên thời gian thực.
-
Xây dựng hệ thống website cho mơ hình dự đoán.
-
Quan trọng là áp dụng được kiến thức cho dự án thực tế.
Kế hoạch thực hiện:(Mô tả kế hoạch làm việc và phân công công việc cho từng sinh
viên tham gia)
Dự án được chia ra làm 6 sprint (01/10/2020 – 31/01/2021) theo nội dung sau:
1. Sprint 1 (01/10/2020 – 15/10/2020): - Cài đặt mơi trường, mơ hình và một số thuật
tốn liên quan đến dự án - Tìm hiểu về các công cụ, cài đặt và chạy thử một vài mơ
hình - So sánh các mẫu số liệu, tính tốn các chỉ số liên quan, đưa ra mơ hình và
cách thức phù hợp.
2. Sprint 2 (16/10/2020 – 31/10/2020): - Cài đặt thực nghiệm với bộ dữ liệu thật. - So
sánh kết quả của các lần chạy. - Đưa ra kết quả và báo cáo, tính tốn các chỉ số giữa
bộ dữ liệu thực tế và bộ dữ liệu nhận được. - Vì dự án dự báo nên sẽ rất cần quan
tâm đến tỉ lệ đưa ra dự báo đúng hoặc dự báo sai.
3. Sprint 3 (01/11/2020 – 15/11/2020): - Giai đoạn cải tiến thuật toán, đưa ra những
chỉ số, chiều của dữ liệu có thể ảnh hưởng đến kết quả. - Đặt ra các giả thuyết có
thể có kết quả tốt hơn cho mơ hình cũng như thuật tốn. - Tranh luận giữa các thành
viên về các giả thuyết đưa ra. - Bắt đầu đưa ra kế hoạch để thực hiện việc cải tiến
mơ hình hoặc là thuật tốn.
4. Sprint 4 (16/11/2020 – 16/12/2020): - Thực hiện kế hoạch cải tiến thuật toán. - Thu
thập và đưa ra số liệu về việc cải tiến và so sánh các chỉ số đó với chỉ số cũ. - Đưa
ra các thực hiện thực nghiệm, hỏi ý kiến giáo viên hướng dẫn về sự cải tiến vừa
qua.
5. Sprint 5 (17/12/2020 – 01/01/2020): - Xây dựng giao diện Web để trực quan hóa
đề tài (Back end + Front End).
6. Sprint 6 (02/01/2020 – 31/01/2020): - Chuẩn bị giao diện, báo cáo, dữ liệu, các dữ
liệu liên quan để viết báo cáo.
Xác nhận của CBHD
TP. HCM, ngày…. tháng ….. năm…..
(Ký tên và ghi rõ họ tên)
Sinh viên
(Ký tên và ghi rõ họ tên)
LỜI CẢM ƠN
Lời đầu tiên, Nhóm em xin bày tỏ sự cảm ơn chân thành đối với thầy giáo TS. Dương
Minh Đức – giáo viên hướng dẫn trực tiếp của nhóm. Thầy Đức đã truyền cảm hứng cho
nhóm em tiếp cận những kiến thức về trí tuệ nhân tạo từ những thuật toán cơ bản đến nâng
cao và các kiến thức về thị trường chứng khốn trong suốt q trình nghiên cứu và hồn thiện
luận văn tốt nghiệp này.
Nhóm em cũng xin gửi lời cảm ơn tới các thầy cô trong khoa Công nghệ phần mềm,
trường Đại học Công Nghệ Thông Tin, chỉ bảo và tạo điều kiện cho chúng tôi học tập và
nghiên cứu tại trường trong suốt thời gian qua.
Mặc dù đã cố gắng hoàn thành luận văn nhưng chắc chắn sẽ khơng tránh khỏi những
sai sót, nhóm em kính mong nhận được sự thơng cảm và những ý kiến đánh giá chân thành
của thầy cô và các bạn để nhóm em khắc phục hồn thiện bản thân và dự án này. Nhóm em
xin chân thành cảm ơn.
........, ngày......, tháng......, năm.......
MỤC LỤC
Chương 1.
TỔNG QUAN ĐỀ TÀI ..................................................................................2
1.1. Lý do chọn đề tài .......................................................................................................2
1.2. Mục tiêu và phạm vi ..................................................................................................5
1.3. Các nghiên cứu liên quan ..........................................................................................5
1.4. Kết quả .......................................................................................................................6
1.5. Tổng quát ...................................................................................................................6
Chương 2.
KIẾN THỨC NỀN TẢNG ............................................................................8
2.1. Tổng quan về chứng khoán và thị trường chứng khoán ............................................8
Chứng khoán ...................................................................................................8
2.1.1.1. Khái niệm về chứng khoán ..........................................................................8
2.1.1.2. Phân loại chứng khoán.................................................................................8
Thị trường chứng khoán ..................................................................................9
2.1.2.1. Khái niệm thị trường chứng khoán ..............................................................9
2.1.2.2. Vai trị của thị trường chứng khốn ...........................................................10
2.2. Tổng quan về Deep Learning ..................................................................................10
Deep Learning là gì ? ....................................................................................10
2.2.1.1. Artificial intelligence với Machine Learning ............................................10
2.2.1.2. Supervised Learning (Học có giám sát) ....................................................11
2.2.1.3. Unsupervised Learning (Học không giám sát) ..........................................12
2.2.1.4. Cách hoạt động của Deep Learning ...........................................................13
2.2.1.5. Mạng Neuron (Neural Network) ...............................................................13
2.2.1.6. Mạng hồi quy RNN ...................................................................................20
2.2.1.7. Mạng LSTM: .............................................................................................21
2.2.1.8. Vấn đề Overfitting .....................................................................................25
Độ đo so sánh kết quả mơ hình: ....................................................................27
2.2.2.1. Sai số tuyệt đối trung bình: ........................................................................27
2.2.2.2. Sai số tồn phương trung bình: ..................................................................28
2.2.2.3. Căn bậc hai của sai số tồn phương trung bình .........................................28
Chương 3.
XÂY DỰNG MƠ HÌNH LSTM .................................................................29
3.1. Nguồn dữ liệu ..........................................................................................................29
3.2. Xử lý dữ liệu ............................................................................................................30
Chọn dữ liệu ..................................................................................................30
Xử lý dữ liệu ..................................................................................................30
3.3. Mơ hình LSTM ........................................................................................................31
Chương 4.
KẾT QUẢ THỰC NGHIỆM ......................................................................33
4.1. Bộ dữ liệu thực nghiệm ...........................................................................................33
Sàn chứng khoán Thượng Hải .......................................................................33
Sàn chứng khoán Việt Nam...........................................................................33
4.2. Các giá trị siêu tham số ...........................................................................................33
4.3. Phương pháp đánh giá .............................................................................................34
4.4. Công nghệ sử dụng ..................................................................................................35
4.5. Kết quả thực nghiệm................................................................................................35
Sàn chứng khoán Thượng Hải .......................................................................35
4.5.1.1. Cổ phiếu Shanghai A-share Composite Index ...........................................35
Sàn chứng khoán Việt Nam...........................................................................37
4.5.2.1. Cổ phiếu ngành thực phẩm ........................................................................37
4.5.2.2. Cổ phiếu ngành giáo dục ...........................................................................38
4.5.2.3. Cổ phiếu ngành vận tải ..............................................................................40
Chương 5.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................42
5.1. Kết luận: ..................................................................................................................42
Kết quả đạt được: ..........................................................................................42
Ý nghĩa khoa học:..........................................................................................42
5.2. Hướng phát triển ......................................................................................................43
DANH MỤC HÌNH
Hình 1.1. Cơng thức chuẩn hóa về miền [0,1] ........................................................................7
Hình 2.1. Kiến trúc tổng quan về mơ hình ANN ..................................................................14
Hình 2.2. Quá trình xử lý Input của ANN ............................................................................15
Hình 2.3. Cơng thức của Sum Function ................................................................................16
Hình 2.4. Giải thích hàm tổng với nhiều Neuron trong cùng lớp .........................................16
Hình 2.5. Minh họa Transfer Function .................................................................................17
Hình 2.6. Kiến trúc trí nhớ liên kết .......................................................................................19
Hình 2.7. Mơ hình ANN chỉ có hai lớp.................................................................................19
Hình 2.8. Mơ hình mạng RNN có thể đưa ra output và có thể nhớ được. ............................20
Hình 2.9. Loại bài tốn mà RNN thường gặp .......................................................................21
Hình 2.10. Mơ hình LSTM ..................................................................................................22
Hình 2.11. Trạng thái tế bào trong LSTM ............................................................................23
Hình 2.12. Mơ hình chống vanishing gradient.....................................................................24
Hình 2.13. Ví dụ về Overfitting ............................................................................................25
Hình 2.14. Tương quan giữa Thời gian huấn luyện và Overfitting ......................................27
Hình 2.15. Cơng thức tính MAE ...........................................................................................27
Hình 2.16. Cơng thức tính MSE............................................................................................28
Hình 2.17. Cơng thức tính RMSE .........................................................................................28
DANH MỤC BẢNG
Bảng 3.1. Danh sách các siêu tham số ..................................................................................31
Bảng 4.1. Danh sách các siêu tham số kèm giá trị ................................................................33
Bảng 4.2. Phân chia data Cổ phiếu A-share Composite Index .............................................35
Bảng 4.3. Bảng so sánh LSTM-cải tiến và ELSTM .............................................................35
Bảng 4.4. Phân chia Data Cổ phiếu thực phẩm ....................................................................37
Bảng 4.5. Bảng so sánh khi sử dụng Gauss Filter.................................................................37
Bảng 4.6. Bảng phân chia Data cổ phiếu ngành giáo dục.....................................................38
Bảng 4.7. Bảng so sánh khi dùng Gauss Filter cổ phiếu Ngành giáo dục ............................38
Bảng 4.8. Bảng phân chia Data của ngành Vận Tải .............................................................40
Bảng 4.9. Bảng phân so sánh khi dùng Gauss Filter với cổ phiếu Ngành Vận Tải ..............40
BẢNG CÁC TỪ VIẾT TẮT
Viết tắt
Đầy đủ
Ý nghĩa
AI
Artificial Intelligence
Trí tuệ nhân tạo
ANN
Artificial Neural Network
Mạng neural nhân tạo
ARIMA
Tự hồi quy tích hợp trung bình trượt
CNN
Autoregressive Integrated Moving
Average
Convolutional Neural network
LSTM
Long short-term memory
RNN
Recurrent Neural Network
Mạng neural cải tiến giải quyết vấn
đề phụ thuộc từ quá dài
Mạng neural hồi quy
TTCK
Thị trường chứng khoán
Thị trường chứng khốn
Mạng neural tích chập
TÓM TẮT KHÓA LUẬN
-
Tổng quan đề tài: đặt vấn đề, lý do chọn đề tài, mục tiêu và phạm vi tiếp cận đề tài
-
Tìm hiểu thực trạng, thị trường, khả năng phát triển.
-
Nghiên cứu các công nghệ, cấu trúc, cơ chế hoạt động của các mơ hình train data.
-
Tìm hiểu các cách để xây dựng model để dự đoán cổ phiếu dự trên bài báo có sẵn.
-
Xây dựng model dự đốn cổ phiếu dự trên bài báo có sẵn.
-
Phát triển model dự đoán cổ phiếu để tăng tỉ lệ độ chính xác.
-
Chỉnh sửa model dự đốn cổ phiếu ngành tại việt nam.
-
Xây dựng Hệ thống hiển thị kết quả dự đốn của các ngành lên giao diện.
-
Trình bày kết luận và hướng phát triển trong ngành.
1
Chương 1. TỔNG QUAN ĐỀ TÀI
1.1. Lý do chọn đề tài
Bài tốn dự báo giá chứng khốn ln là một trong những vấn đề cổ điển được nghiên
cứu trên toàn thế giới. Nhiều nghiên cứu chỉ ra rằng giá chứng khốn bị tác động bởi các yếu
tố vĩ mơ như lạm phát, tỷ giá hối đoái, tổng sản phẩm quốc nội, cung tiền, lãi suất ngắn hạn
(Gan và cộng sự, 2006). Và cả các yếu tố liên quan đến công ty hoặc tổ chức đang bảo trợ
cho chính cổ phiếu đó, có thể là một tin tức thất thiệt, một sự cố ảnh hưởng đến hiệu suất của
công ty, yếu tố chính trị của một quốc gia cũng ảnh hưởng đáng kể đến thị trường cổ phiếu,
vì sự ảnh hưởng khó nắm bắt này đã dẫn đến rất nhiều khó khăn cho các nhà đầu tư và cũng
như là việc dự đoán giá cổ phiếu. Tuy vậy nhưng thị trường chứng khoán vẫn là mảnh đất
màu mỡ để các nhà đầu tư có thể kiếm lợi nhuận lên đến hàng triệu đơla. Bên cạnh đó nhu
cầu về một dự báo mang tính đúng hoặc gần đúng cũng là một vấn đề hấp dẫn các nhà phân
tích dữ liệu lâu năm trên thế giới và một dự báo chính xác cũng cung cấp rất nhiều thông tin
không chỉ về thị trường chứng khốn mà cịn ảnh hưởng đến các thị trường khác như nhà đất,
ngân hàng…
Nghiên cứu sự thay đổi giá của chứng khoán đã thu hút nhiều sự chú ý của nhiều học
giả. Nhiều mơ hình mơ phỏng, dự đốn sự thay đổi giá chứng khoán đã được đề xuất. Vào
năm 1990, nhà toán học người Pháp, Louis Bachelier đã đưa ra giả định rằng sự chuyển động
của giá chứng khoán tuân theo chuyển động Brown (Brownian motion) mặc dù nhiều nghiên
cứu thực nghiệm đã chỉ ra rằng sự biến động của giá chứng khốn trong tương lai là khơng
thể đoán trước. Kendall (1953) lần đầu tiên sử dụng thuật ngữ bước đi ngẫu nhiên trong lý
thuyết tài chính, dựa trên quan sát 22 chỉ số chứng khoán Anh và giá cả hàng hóa Mỹ để tìm
ra chu kỳ giá thường xuyên. Osborne (1959) đã chứng minh giá cổ phiếu Hoa Kỳ chuyển
động ngẫu nhiên giống như các hạt phân tử.
Vì giá chứng khốn chuyển động theo bước đi ngẫu nhiên nên các nhà nghiên cứu lập
luận rằng thông tin tài chính của cơng ty sẽ được phản ánh theo giá hiện tại một cách có hệ
thống. Fama (1965) đã thảo luận một số bằng chứng thực nghiệm hỗ trợ lý thuyết bước đi
ngẫu nhiên và đưa ra giả thuyết thị trường hiệu quả. Theo tác giả, thị trường hiệu quả
2
(Efficient Market Hypothesis – EMH) (Malkiel và Fama, 1970) là thị trường mà tại đó giá
ln phản ánh những thơng tin sẵn có. Có ba dạng của thị trường hiệu quả: dạng yếu (weak
– form), dạng trung bình (semi-strong form) và dạng mạnh (strong form). Đối với thị trường
hiệu quả dạng yếu, giả định giá chứng khoán phản ánh kịp thời tồn bộ thơng tin có thể có
được từ dữ liệu giao dịch trong quá khứ như giá, khối lượng giao dịch và tỉ suất thu nhập
được đề xuất. Ví dụ, nếu dữ liệu giá trong quá khứ được công khai và nhà đầu tư có thể dễ
dàng tiếp cận, họ sẽ khai thác và sử dụng thơng tin đó để tìm kiếm lợi nhuận. Giả thuyết thị
trường hiệu quả dạng trung bình giả định rằng tất cả thơng tin liên quan tới công ty đã được
công bố rộng rãi và các thông tin quá khứ đều được phản ánh vào giá chứng khoán. Giả
thuyết thị trường hiệu quả dạng mạnh khẳng định tất cả các thông tin liên quan đến chứng
khốn bao gồm cả thơng tin nội bộ cũng đã phản ánh vào giá chứng khoán.
Tuy nhiên, giả thuyết thị trường hiệu quả chỉ đúng với những cổ phiếu riêng lẻ và khơng
hồn tồn đúng với tồn thị trường. Thị trường chứng khốn trong dài hạn có những biến
động mà nhiều nhà kinh tế học nhận định rằng nó bị ảnh hưởng một phần nào đó tâm lý của
những người tham gia. Dựa trên quan sát này, nhiều suy nghĩ tiên phong đề xuất một lĩnh
vực nghiên cứu tài chính hành vi để giải thích sự thay đổi của thị trường chứng khốn một
cách đầy đủ hơn. Tài chính hành vi đã trở thành nền tảng của hai phương pháp tiếp cận cổ
điển dùng để phân tích giá chứng khốn quen thuộc: phân tích kỹ thuật và phân tích cơ bản
(Shiller, 2003).
Phân tích kỹ thuật là dự báo biến động giá trong tương lai dựa trên biến động giá trong
quá khứ. Tuy nhiên, phân tích kỹ thuật cho rằng giá chứng khoán chỉ chịu tác động của cung
và cầu chứng khoán và chỉ hoạt động tốt dựa trên ba giả định thanh khoản cao: các cổ phiếu
giao dịch lớn cho phép các nhà đầu tư giao dịch nhanh chóng và dễ dàng, mà không làm thay
đổi đáng kể giá của cổ phiếu. Cổ phiếu giao dịch nhỏ là khó khăn hơn, bởi vì khơng có nhiều
người mua hoặc người bán hàng tại bất kỳ thời điểm nào. Do đó người mua và người bán có
thể phải thay đổi giá của họ mong muốn đáng kể để thực hiện một giao dịch. Bên cạnh đó,
cổ phiếu thanh khoản thấp thường có giá rất thấp, có nghĩa là giá của chúng có thể dễ dàng
bị thaotúng bởi các nhà đầu tư cá nhân. Các lực lượng bên ngoài hoạt động trên các cổ phiếu
có thanh khoản thấp làm cho chúng khơng phù hợp để phân tích kỹ thuật khơng có hiện tượng
3
giá giả: chia nhỏ, cổ tức và phân phối là những nguyên nhân phổ biến nhất tạo ra giá giả.
Mặc dù khơng có sự khác biệt về giá trị của khoản đầu tư nhưng tạo ra giá giả có thể ảnh
hưởng đáng kể đến biểu đồ giá và làm cho phân tích kỹ thuật khó áp dụng và khơng có tin
tức cực đoan: phân tích kỹ thuật khơng thể dự đoán các sự kiện cực đoan, bao gồm các sự
kiện kinh doanh và các sự kiện chính trị.
Theo Thomsett (1998), phân tích cơ bản là nghiên cứu về các yếu tố ảnh hưởng đến
cung và cầu. Dữ liệu quan trọng được sử dụng để phân tích cơ bản là dữ liệu của các cơng ty
như báo cáo tài chính, báo cáo hàng năm của công ty và bảng cân đối kế tốn. Tin tức cũng
đóng một vai trị trong phân tích cơ bản vì nó phản ánh chuỗi cung và cầu hiện tại trên thị
trường. Các thông tin được xem xét như triển vọng tương lai, so sánh ngành, môi trường thị
trường và thay đổi chính sách của chính phủ. Phương pháp phổ biến hơn là phân tích chuỗi
thời gian bao gồm các phương pháp để phân tích dữ liệu chuỗi thời gian nhằm trích xuất các
thuộc tính thống kê có ý nghĩa và các đặc điểm của dữ liệu. Phương pháp này sẽ nghiên cứu
hành vi, khuôn mẫu trong quá khứ của các biến số và sử dụng các thơng tin này để dự đốn
những thay đổi trong tương lai. Phân tích chuỗi thời gian là một phương pháp ngoại suy phức
tạp.
Các phương pháp học sâu được ứng dụng trong dự báo giá chứng khoán như mạng
neural nhân tạo (Arfitical Neural Network - ANN), mạng hồi quy (Recurent Neural Network
– RNN), mạng LSTM (Long Short-Term Memory – LSTM) và một số phương pháp khác.
Về mặt kỹ thuật, các phương pháp này sử dụng cơ chế xấp xỉ một hàm liên tục và tự điều
chỉnh dữ liệu với ít giả định hơn nên mang lại sự chính xác cao và hiệu quả hơn trong việc
giải quyết các vấn đề phi tuyến.
Đối với bài toán dạng chuỗi thời gian, phương pháp học sâu đặc biệt là mơ hình LSTM
– mơ hình học sâu với kiến trúc cho phép ghi nhớ các thông tin dài trong quá khứ, là một
phiên bản cải tiến của mạng RNN – mang lại hiệu quả cao. Được sinh ra từ năm 1995 và cho
đến nay đã được 26 năm và LSTM đã là một mơ hình mang lại rất nhiều khả năng bất ngờ
không chỉ cho việc dự đốn kết quả cổ phiếu mà cịn ở rất nhiều bài tốn hóc búa khác nhau.
Và cho đến năm 2017 đã có một cột mốc quan trọng là Facebook đã thực hiện được 4.5 triệu
4
lượt dịch chỉ với LSTM, như vậy đủ thấy khả năng của mơ hình có thể ghi nhớ này đã phát
triển đến mức như thế nào. Dựa vào nhu cầu về một dự đốn kết quả mang tính chính xác
cao thì nhóm chúng em xin đưa ra đề tài là sử dụng mơ hình LSTM để dự đốn kết quả cổ
phiếu ngành ở Việt Nam và sử dụng thêm một số thuật tốn như tìm siêu tham số và bộ lọc
Gauss Filter để mang đến kết quả dự đoán cổ phiếu một cách chính xác nhất.
1.2. Mục tiêu và phạm vi
-
Mục tiêu:
o Dự đoán xu hướng giá theo ngành và theo từng ngày của các cổ phiếu đang có
trên sàn chứng khoán Việt Nam
-
Phạm vi:
o Dự đoán xu hướng giá của mã cổ phiếu Sinopec và chỉ số A-share Composite
Index trên sàn chứng khoán Thượng hải
o Đưa ra được xu hướng giá dự đoán theo ngày của cổ phiếu trên sàn chứng
khoán Việt Nam theo ngành
1.3. Các nghiên cứu liên quan
Dự báo giá cổ phiếu là một việc cực kì phức tạp. Hầu hết các nhà môi giời sử dụng cách
phân tích chuỗi kỹ thuật, cơ bản hoặc phân tích chuỗi thời than trong việc cố gắng dự đoán
giá cổ phiếu. Tuy nhiên, các cách này không dẫn đến kết quả đáng tin cậy và sẽ dẫn đến các
kết quả khơng có độ chính xác cao và các thuật tốn tối ưu hóa đầu vào và đầu ra của tập dữ
liệu ln là vấn đề khiến các nhà phân tích đau đầu.
Các nghiên cứu thực nghiệm khai khác sử dụng mơ hình lai giữa LSTM và Gated
Recurrent Unit (GRU) đã cải thiện độ hiệu quả trên tập dữ liệu chỉ số S&P 500 từ năm 1950
đến 2016 (Houssain và cộng sự, 2018). Một nghiên cứu khác của Nelson và cộng sự (2017)
đã đề xuất mơ hình LSTM bằng cách sử dụng các chỉ báo kỹ thuật để dự báo xu hướng giá
chứng khoán và áp dụng trên tập dữ liệu của các mã chứng khoán tại Brazil từ năm 2008 đến
năm 2015 và đạt kết quả cao nhất đối với mã Banco Bradesco SA với độ chính xác là 55,9%.
Milosevic (2016) áp dụng đồng thời phương pháp học sâu và kỹ thuật trích xuất đặc trưng
5
bằng thuật toán máy học và thực nghiệm trên 1739 mã chứng khoán trong các danh mục S&P
1000, FTSE 1000 và S&P Europe 350 từ năm 2012 đến năm 2015 để dự báo xu hướng giá
chứng khoán. Kết quả cho thấy sự vượt trội của phương pháp học sâu khi kết hợp cùng thuật
tốn máy học Random Forest để trích xuất đặc trưng của bộ dữ liệu có khi đem lại độ chính
xác lên tới 75.1%.
Barack Wamkaya Wanjawa và Lawrence Muchemi [1] đã đề xuất ý tưởng sử dụng
mạng thần kinh nhân tạo là feedforward multi-layer perceptron with error
backpropagation. Họ đã phát triền mơ hình có cấu hình là 5:21:21:1 với 80% dữ liệu đào
tạo trong vòng 130000 chu kỳ. Nghiên cứu phát triển dựa trên bộ dữ liệu là thị trường chứng
khoán NewYork từ năm 2008-2012 và kết quả dự đoán cho thấy MAPE từ 0.71% đến 2.77%.
Adebiyi, Ayodele Ariyo; Adewumi, Aderemi Oluyinka; Ayo, Charles Korede, [2] đã
xây dựng mơ hình Autoregressive integrated moving average (ARIMA) và kết quả cho thấy
tuy đã có mặt khá lâu đời nhưng trong các bài tốn dự đốn ngắn hạn thì ARIMA vẫn có thể
cho ra kết quả khơng q thấp.
1.4. Kết quả
-
So sánh kết quả với mơ hình ELSTM với mã cổ phiếu Sinopec và chỉ số A-Share
Composite Index.
-
Đưa ra được xu hướng giá theo ngày của cổ phiếu trên sàn chứng khoán Việt Nam
theo ngành.
-
Hệ thống lấy lịch sử giá và cung cấp dự đoán.
-
Website hiển thị kết quả dự đoán theo ngành.
1.5. Tổng quát
-
Input:
o Giá cổ phiếu theo ngày các cột <OPEN>,<CLOSE>,<HIGH>,<LOW>, từ
phiên t đến phiên t + n.
6
-
Process:
o Tách các bộ data huấn luyện / xác minh / kiểm thử.
o Chuẩn hóa về miền [0,1] bằng cơng thức.
Hình 1.1. Cơng thức chuẩn hóa về miền [0,1] Nguồn:
/>o Huấn luyện mơ hình bằng các siêu tham số tìm được.
-
Output:
o Xu hướng giá phiên thứ t + n + 1
7
Chương 2. KIẾN THỨC NỀN TẢNG
2.1. Tổng quan về chứng khoán và thị trường chứng khoán
Chứng khoán
2.1.1.1. Khái niệm về chứng khốn
Chứng khốn [3] là các cơng cụ để huy động vốn trung và dài hạn, các giấy tờ có giá, có
khả năng chuyển đổi, chuyển nhượng nhằm xác nhận quyền sở hữu, quan hệ vay nợ giữa
người nắm giữ nó và chủ thể phát hành ra nó. Đối với mỗi loại chứng khốn thường có các
tính chất sau:
- Tính thanh khoản (tính lỏng) của một chứng khốn là khả năng chuyển đổi giữa
chứng khốn đó sang tiền mặt. Tính lỏng của chứng khốn thể hiện qua việc chứng khốn
đó được mua bán, trao đổi trên thị trường.
- Tính sinh lời: Thu nhập của nhà đầu tư được sinh ra từ việc tăng giá chứng khoán
trên thị trường, hay các khoản tiền lói được trả hàng năm.
- Tính rủi ro: Đây là đặc trưng cơ bản của chứng khoán. Trong quá trỡnh trao đổi, mua
đi bán lại, giá của chứng khốn bị giảm hoặc mất hồn tồn ta gọi là rủi ro
2.1.1.2. Phân loại chứng khoán
1) Cổ phiếu:
▪ Là loại chứng khốn xác nhận quyền sở hữu và lợi ích hợp pháp đối với
thu nhập và tài sản của công ty cổ phần. Số vốn đóng góp để thành lập
cơng ty được chia ra thành nhiều phần nhỏ bằng nhau gọi là cổ phần.
Người mua cổ phần gọi là cổ đơng. Cổ phiếu có thể được phát hành
dưới dạng chứng chỉ vật chất hoặc bút tốn ghi sổ, chỉ có cơng ty cổ
phần mới có cổ phiếu. Giá trị ban đầu ghi trên cổ phiếu là mệnh giá của
cổ phiếu. Mệnh giá là giá trị danh nghĩa. Số tiền nhận được từ khoản
góp vốn gọi là cổ tức.Giá cổ phiếu giao động qua các phiên giao dịch
trên thị trường chứng khoán và tách rời so với mệnh giá.Cổ phiếu được
chia thành 2 loại: cổ phiếu thường và cổ phiếu đói.
8
2) Trái phiếu:
▪ Là loại chứng khoán quy định nghĩa vụ của người phát hành phải trả
cho người nắm giữ chứng khốn đó một khoản tiền xác định vào những
thời hạn cụ thể và theo những điều kiện nhất định. Đây là những chứng
khoán nợ, được phát hành dưới dạng chứng chỉ vật chất hoặc bút toán
ghi sổ.
3) Chứng chỉ quỹ đầu tư:
▪ Là chứng khoán được phát hành bởi công ty quản lý quỹ để huy động
vốn từ các nhà đầu tư. Vốn được dùng để mua bán kinh doanh các loại
chứng khốn khác để kiếm lời, sau đó chia tiền lời đó cho các nhà đầu
tư
-
Cổ phiếu ngành là cổ phiếu được tính tốn tổng hợp giữa nhiều cổ phiếu do nhiều cổ
phiếu của các công ty trong lĩnh vực cùng ngành.
Thị trường chứng khoán
2.1.2.1. Khái niệm thị trường chứng khoán
Thị trường chứng khoán [4] là nơi diễn ra hoạt động phát hành, trao đổi mua bán các
loại chứng khoán trung và dài hạn. Chứng khoán được phát hành để huy động vốn cho doanh
nghiệp và chính phủ.
TTCK là một bộ phận quan trọng của Thị trường vốn, hoạt động của nó nhằm huy
động những nguồn vốn nhỏ trong xã hội tập trung thành nguồn vốn lớn tài ngun lớn để
cho các doanh nghiệp và chính phủ có thể sử dụng.
Ví dụ: TTCK New York (NYSE), TTCK Hồ Chí Minh (HOSE), TTCK Hà
Nội(HNX),…
Chức năng cơ bản của TTCK:
o Huy động vốn đầu tư cho nền kinh tế.
o Cung cấp môi trường đầu tư cho công chúng.
9
o Tạo môi trường giúp cho các cơ quan nhà nước, chính phủ thực hiện các dự án
mang tầm vĩ mô.
o Đánh giá việc hoạt động của các doanh nghiệp.
2.1.2.2. Vai trị của thị trường chứng khốn
TTCK đang đóng vai trò ngày càng quan trọng trong nền kinh tế của các nước trên thế
giới. Khi nền kinh tế của các nước phát triển đến một mức độ nào đó sẽ cần tới TTCK để hỗ
trợ quá trình phát triển.
Sự phát triển mạnh mẽ của TTCK có tác động tích cực đến sự phát triển của các quốc
gia. Thực tế cho thấy TTCK đã góp phần tạo ra phần vốn khả dụng cho các doanh nghiệp
cũng như cho các quốc gia đó.
2.2. Tổng quan về Deep Learning
Deep Learning là gì ?
Artificial intelligence (AI) và Machine Learning (ML) [5] là một trong những chủ đề
nghiên cứu nóng bỏng nhất hiện nay, và dễ dàng thấy nhắc đến rất nhiều trên mạng Internet
và các bài báo công nghệ.
Thuật ngữ “AI” là một thuật ngữ đi đâu cũng được nghe đến, đến cả cuộc nói chuyện của
những người khơng chun về ngành cũng có nói về AI. Các nhà cung cấp dịch vụ cũng
thường xuyên giới thiệu với khách hàng rằng trong tương lai gần thì cơng ty chúng tơi sẽ
cung cấp các dịch vụ dựa vào trí thơng minh nhân tạo để tạo ra hiệu suất tốt hơn, nhưng họ
vẫn chưa nhận ra được vấn đề rằng họ chưa thực sự hiểu hoàn tồn khái niệm về AI.
Vì vậy, phần này cần các bạn đọc thật kĩ để hiểu được những điều cơ bản về AI cũng như
ML hay sâu hơn là Deep Learning, để nắm được cách thức mà Deep Learning – một loại
Core-ML phổ biến nhất hiện nay
2.2.1.1. Artificial intelligence với Machine Learning
Artificial intelligence là sự mơ phỏng trí thơng minh của con người vào trong máy
tính, mong muốn máy tính có thể thực hiện những hành vi giống con người và sự mong đợi
10
lớn nhất là có thể suy luận những cơng việc mà con người không thể như việc đưa ra dự báo,
đưa ra quyết định (Yes / No).
Khái niệm về công nghệ AI xuất hiện đầu tiên bởi John McCarthy, một nhà khoa học
máy tính Mỹ, vào năm 1956 tại Hội nghị The Dartmouth. Ngày nay, công nghệ AI là một
thuật ngữ bao gồm tất cả mọi thứ từ quá trình tự động hố robot đến người máy thực tế.
Cơng nghệ AI gần đây trở nên nổi tiếng, nhận được sự quan tâm của nhiều người là nhờ
Dữ liệu lớn (Big Data), mối quan tâm của các doanh nghiệp về tầm quan trọng của dữ liệu
cùng với công nghệ phần cứng đã phát triển mạnh mẽ hơn, cho phép xử lý công nghệ AI với
tốc độ nhanh hơn bao giờ hết.
Machine Learning theo định nghĩa cơ bản là ứng dụng các thuật tốn để phân tích cú pháp
dữ liệu, học hỏi từ nó, và sau đó thực hiện một quyết định hoặc dự đốn về các vấn đề có
liên quan. Vì vậy, thay vì code phần mềm bằng cách thức thủ cơng với một bộ hướng dẫn cụ
thể để hồn thành một nhiệm vụ cụ thể, máy được “đào tạo” bằng cách sử dụng một lượng
lớn dữ liệu và các thuật tốn cho phép nó học cách thực hiện các tác vụ.
2.2.1.2. Supervised Learning (Học có giám sát)
Supervised learning là thuật toán dự đoán đầu ra (output) của một dữ liệu mới (input)
dựa trên các cặp (input, output) đã biết từ trước. Cặp dữ liệu này còn được gọi là (data, label),
tức (dữ liệu, nhãn). Supervised learning là nhóm phổ biến nhất trong các thuật tốn Machine
Learning.
Một cách tốn học, thì khi chúng ra có một tập hơn biến đầu vào
(Nguồn: />Và một tập hợp nhãn tương ứng
(Nguồn: />11