ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
Vương Bảo Minh
Nguyễn Vĩnh Duyệt
KHĨA LUẬN TỐT NGHIỆP
DỰ ĐỐN CỔ PHIẾU BẰNG TIẾP CẬN PHỐI HỢP SỰ TƯƠNG
ĐỒNG VÀ PHÂN LỚP CỔ PHIẾU
Improving stock prediction with a hybrid approach that combines stock
similarity and classification
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
TP. HỒ CHÍ MINH, 2021
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
Vương Bảo Minh - 17520768
Nguyễn Vĩnh Duyệt - 17520411
KHĨA LUẬN TỐT NGHIỆP
DỰ ĐỐN CỔ PHIẾU BẰNG TIẾP CẬN PHỐI HỢP SỰ TƯƠNG
ĐỒNG VÀ PHÂN LỚP CỔ PHIẾU
Improving stock prediction with a hybrid approach that combines stock
similarity and classification
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
TS. DƯƠNG MINH ĐỨC
TP. HỒ CHÍ MINH, 2021
DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………
ngày ………………….. của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1. TS. Dương Minh Đức – Chủ tịch.
2.
3.
3
ĐHQG TP. HỒ CHÍ MINH
CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
Độc Lập – Tự Do – Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày 20 tháng 07 năm 2021
NHẬN XÉT KHOÁ LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ HƯỚNG DẪN)
Tên khố luận:
DỰ ĐỐN CỔ PHIẾU BẰNG TIẾP CẬN PHỐI HỢP SỰ TƯƠNG ĐỒNG VÀ
PHÂN LỚP CỔ PHIẾU
Improving stock prediction with a hybrid approach that combines stock
similarity and classification
Nhóm SV thực hiện:
Cán bộ hướng dẫn:
Vương Bảo Minh
17520768
Nguyễn Vĩnh Duyệt
17520411
Tiến sĩ: Dương Minh Đức
Đánh giá khoá luận:
1. Về cuốn báo cáo:
Số trang:
…
Số chương:
…
Số bảng số liệu:
…
Số hình vẽ:
…
Số tài liệu tham khảo:
…
Sản phẩm:
…
Một số nhận xét về hình thức cuốn báo cáo:
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………..
2. Về nội dung nghiên cứu:
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
4
…………………………………………………………………………………………
…………………………………………………………………………...………………
………………………………………………….
3. Về chương trình ứng dụng:
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………...………………
………………………………………………….
4. Về thái độ làm việc của sinh viên:
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
……………………………………………………
Đánh giá chung:
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………...………………
………………………………………………….
Điểm từng sinh viên:
Vương Bảo Minh:
/10
Nguyễn Vĩnh Duyệt:
/10
Người nhận xét
(Ký tên và ghi rõ họ tên)
5
LỜI CẢM ƠN
Sau 4 năm học tập và rèn luyện tại trường Đại học Công nghệ Thông tin – Đại
học Quốc gia Thành phố Hồ Chí Minh, được sự chỉ bảo và giảng dạy nhiệt tình của
q thầy cơ, đặc biệt là quý thầy cô trong khoa Công nghệ phần mềm, chúng em đã
tiếp thu được rất nhiều kiến thức bổ ích cả về lý thuyết lẫn thực hành trong lĩnh vực
cơng nghệ thơng tin nói chung cũng như lĩnh vực cơng nghệ phần mềm nói riêng.
Trong khoảng thời gian thực hiện luận văn tốt nghiệp, nhóm chúng em đã có cơ hội
học hỏi thêm khá nhiều những kiến thức mới cũng như có cơ hội tích lũy được những
kinh nghiệm quý báu để áp dụng và hoàn thành được luận văn tốt nghiệp theo đúng kế
hoạch cũng như thời hạn đã đề ra.
Xin chân thành cảm ơn quý thầy cô khoa Công nghệ phần mềm, đặc biệt là
thầy: TS. Dương Minh Đức đã tận tình hướng dẫn chúng em trong suốt quá trình thực
hiện luận văn tốt nghiệp này.
Bên cạnh đó, chúng em xin chân thành cảm ơn nhóm các bạn cùng lớp làm
khóa luận đã động viên, thảo luận và góp ý cho nhóm cũng như tiếp thêm nguồn động
lực quý giá để nhóm chúng em có thể tự tin vượt qua những giai đoạn khó khăn trong
quá trình thực hiện luận văn tốt nghiệp.
Ngồi ra, chúng em cũng xin chân thành cảm ơn các anh, chị, bạn bè và gia
đình đã giúp đỡ và tạo điều kiện thuận lợi nhất để chúng em có thể hồn thành luận
văn tốt nghiệp này.
Mặc dù đã cố gắng hết sức, tuy nhiên vì khả năng cũng như thời gian thực hiện
đề tài khóa luận có hạn nên luận văn của chúng em chắc chắn khơng thể tránh khỏi
những thiếu sót. Chúng em rất mong nhận được sự thông cảm và góp ý chân tình từ
q thầy cơ và các bạn để luận văn này ngày càng được hoàn thiện hơn. Một lần nữa
nhóm chúng em xin chân thành cảm ơn.
Thành phố Hồ Chí Minh, tháng 07 năm 2021
Vương Bảo Minh
Nguyễn Vĩnh Duyệt
6
MỤC LỤC
CHƯƠNG 1: TỔNG QUAN ................................................................................................................. 12
1.1 GIỚI THIỆU ............................................................................................................................... 12
1.2 TÌNH HÌNH NGHIÊN CỨU VỀ ĐỀ TÀI TRONG NƯỚC VÀ THẾ GIỚI .............................. 12
1.2.1 NGHIÊN CỨU THẾ GIỚI ................................................................................................... 12
1.2.2 NGHIÊN CỨU TRONG NƯỚC .......................................................................................... 14
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ..................................................................................................... 18
2.1 GIỚI THIỆU CÁC MƠ HÌNH ĐƯỢC SỬ DỤNG .................................................................... 18
2.2 LONG SHORT TERM MEMORY (LSTM) .............................................................................. 18
2.3 LINEAR REGRESSIVE ............................................................................................................. 23
2.4 SUPPORT VECTOR MACHINES (SVM) ................................................................................ 25
2.5 K-NEAREST NEIGHBORS (KNN) .......................................................................................... 32
2.6 AUTO ARIMA ........................................................................................................................... 34
CHƯƠNG 3: MÔI TRƯỜNG CÀI ĐẶT VÀ CÁC NỀN TẢNG CÔNG NGHỆ ................................ 41
3.1 NGƠN NGỮ LẬP TRÌNH PYTHON......................................................................................... 41
3.2 MƠI TRƯỜNG GOOGLE COLABORATORY ........................................................................ 42
3.3 CÁCH CÀI ĐẶT CÁC THƯ VIỆN DÙNG TRONG THỰC NGHIỆM ................................... 47
3.3.1 THƯ VIỆN MATH .............................................................................................................. 47
3.3.2 THƯ VIỆN PANDAS_DATAREADER ............................................................................. 48
3.3.3 THƯ VIỆN MATPLOTLIB ................................................................................................. 49
3.3.4 THƯ VIỆN PANDAS .......................................................................................................... 50
3.3.5 THƯ VIỆN SELENIUM ...................................................................................................... 52
CHƯƠNG 4: THỰC NGHIỆM – PHÂN TÍCH VÀ ĐÁNH GIÁ ........................................................ 55
4.1 MÔ TẢ DỮ LIỆU ....................................................................................................................... 55
4.1.1 BỘ 1: TOÀN BỘ DỮ LIỆU CRAWL ĐƯỢC ..................................................................... 55
4.1.2 BỘ 2: CÁC CƠNG TY CĨ NHĨM NGÀNH LIÊN QUAN TỚI BẤT ĐỘNG SẢN, XÂY
DỰNG ........................................................................................................................................... 61
4.1.3 BỘ 3: TOP 10 CƠNG TY THUỘC NHĨM NGÀNH BẤT ĐỘNG SẢN, XÂY DỰNG CÓ
VỐN HÓA CAO NHẤT ............................................................................................................... 64
4.1.4 BỘ 4: TOP 3 CƠNG TY THUỘC NHĨM NGÀNH BẤT ĐỘNG SẢN, XÂY DỰNG CÓ
VỐN HÓA CAO NHẤT ............................................................................................................... 66
4.1.5 CÁC KHẢO NGHIỆM ĐƯỢC THỰC HIỆN ..................................................................... 68
4.1.6 SO SÁNH ĐỘ CHÍNH XÁC CỦA 5 MƠ HÌNH LSTM, LINEAR REGRESSIVE, SVM,
KNN, AUTO ARIMA ................................................................................................................... 69
4.1.7 KHẢO NGHIỆM TRÊN 2 PHƯƠNG DIỆN....................................................................... 69
4.1.8 KIỂM TRA ĐỘ CHÍNH XÁC CỦA CÁC MƠ HÌNH TRÊN THỊ TRƯỜNG CHỨNG
KHOÁN VIỆT NAM .................................................................................................................... 71
7
4.1.9 SO SÁNH ĐỘ CHÍNH XÁC CỦA 5 MƠ HÌNH VÀ HIỆU QUẢ CỦA PHÂN NHÓM
NGÀNH ........................................................................................................................................ 71
4.2 CRAWL VÀ XỬ LÝ DỮ LIỆU ................................................................................................. 72
4.2.1 XỬ LÝ CÁC TẬP DỮ LIỆU ............................................................................................... 72
4.2.2 MƠ TẢ TIẾN TRÌNH CRAWL DỮ LIỆU ......................................................................... 72
4.3 CHIA TẬP TRAIN, TEST CHO MỖI BỘ DỮ LIỆU, SETUP INPUT, OUPUT CỦA CÁC MƠ
HÌNH ................................................................................................................................................. 83
4.4 TRAINING CÁC MƠ HÌNH VỚI CÁC BỘ DỮ LIỆU ............................................................. 86
4.4.1 MODEL LSTM .................................................................................................................... 86
4.4.2 MODEL LINEAR REGRESSIVE ....................................................................................... 88
4.4.3 MODEL SVM ...................................................................................................................... 89
4.4.4 MODEL KNN ...................................................................................................................... 89
4.4.5 MODEL AUTO ARIMA ..................................................................................................... 89
4.5 KẾT QUẢ VÀ ĐÁNH GIÁ ........................................................................................................ 90
4.5.1 KHẢO NGHIỆM 1: DỰ ĐỐN GIÁ TRỊ CHÍNH XÁC CỦA GIÁ CỔ PHIẾU .............. 90
4.5.1.1 ĐÁNH GIÁ 1 ................................................................................................................ 90
ĐÁNH GIÁ 1.1 ..................................................................................................................... 90
ĐÁNH GIÁ 1.2 ..................................................................................................................... 90
ĐÁNH GIÁ 1.3 ..................................................................................................................... 91
ĐÁNH GIÁ 1.4 ..................................................................................................................... 91
4.5.1.2 ĐÁNH GIÁ 2 ................................................................................................................ 92
ĐÁNH GIÁ 2.1 ..................................................................................................................... 93
ĐÁNH GIÁ 2.2 ..................................................................................................................... 93
ĐÁNH GIÁ 2.3 ..................................................................................................................... 93
ĐÁNH GIÁ 2.4 ..................................................................................................................... 94
4.5.2 KHẢO NGHIỆM 2: THỬ NGHIỆM NÀY CHỈ ĐÁNH GIÁ XEM DỰ ĐOÁN LÀ TĂNG
HAY TĂNG .................................................................................................................................. 94
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................................................................... 97
5.1
KẾT LUẬN ........................................................................................................................... 97
5.2 HƯỚNG PHÁT TRIỂN .............................................................................................................. 99
5.2.1 HƯỚNG 1: TĂNG CHẤT LƯỢNG DỮ LIỆU ................................................................... 99
5.2.2 HƯỚNG 2: TĂNG CƯỜNG ĐÀO TẠO CHO CÁC MƠ HÌNH ........................................ 99
TÀI LIỆU THAM KHẢO: .................................................................................................................. 100
8
DANH MỤC HÌNH ẢNH
Hình 1.1. Những tính chất khác nhau thể hiện tính tương đồng của cổ phiếu[1].................................. 13
Hình 1.2. Quy trình tiến hành việc dự đốn cổ phiếu[1] ....................................................................... 13
Hình 1.3. Biểu đồ cho thấy sự vượt trội của việc train các loại cổ phiếu có tính chất tương đồng so với
các loại cổ phiếu ngẫu nhiên khác[1] .................................................................................................... 14
Hình 2.1. Cấu trúc của nơron sinh học [6] ............................................................................................ 18
Hình 2.2. Mơ hình Perceptron [6] ........................................................................................................ 19
Hình 2.3. Mơ hình mạng nơron nhân tạo [6]......................................................................................... 19
Hình 2.4. Mơ hình Deep Neural Network [6] ....................................................................................... 20
Hình 2.5. RNN có vịng lặp [6] ............................................................................................................ 21
Hình 2.6. RNN khi được “trải ra” [6]................................................................................................... 21
Hình 2.7. RNN phụ thuộc xa [6] .......................................................................................................... 22
Hình 2.8. Cấu trúc của đơn vị LSTM [6] ............................................................................................. 23
Hình 2.9. Biểu đồ thể hiện mơ hình Linear Regressive [6] ................................................................... 24
Hình 2.10. Mơ hình thể hiện ý tưởng của mơ hình SVM ...................................................................... 26
Hình 2.11. SVM khơng chỉ có một siêu phẳng ..................................................................................... 27
Hình 2.12. Cách thức xác định siêu phẳng tối ưu ................................................................................. 30
Hình 2.13. Trường hợp đặc biệt của SVM ............................................................................................ 31
Hình 2.14 Bản đồ của 1NN [11] ........................................................................................................... 34
Hình 2.15. Đồ thị về chuỗi nhiệt độ trung bình theo tháng thể hiện yếu tố mùa vụ. [12] .................... 35
Hình 2.16: Đồ thị về yếu tố xu hướng trong chuỗi thời gian của chuỗi giá.[12] .................................. 36
Hình 3.1. Biểu tượng Python phiên bản 3.9 .......................................................................................... 41
Hình 3.2. Trang chủ Python .................................................................................................................. 42
Hình 3.3. Mơi trường lập trình Python Google Colab .......................................................................... 42
Hình 3.4. Cách setup TPU..................................................................................................................... 44
Hình 3.5. Ví dụ về việc thực thi Google Colab ..................................................................................... 45
Hình 3.7. Cách mở file trong Colab ...................................................................................................... 46
Hình 3.8. Cửa sổ sau khi mở file thành công trên colab ....................................................................... 47
Hình 3.9. Cài đặt thư viện Math ............................................................................................................ 47
Hình 3.10. Bộ dữ liệu của công ty Hưng Thịnh .................................................................................... 48
Hình 3.11. Ví dụ vẽ biểu đồ giá chứng khốn cơng ty Hưng Thịnh ..................................................... 50
Hình 3.12. File dữ liệu mẫu được cung cấp .......................................................................................... 51
Hình 3.13. Dữ liệu tập đồn Sao Mai .................................................................................................... 51
Hình 3.14. Danh mục các ngành trên Vietstock .................................................................................... 53
Hình 3.15. Phân tích lấy cú pháp HTML chứa tên tất cả ngành ........................................................... 54
Hình 3.16. Dữ liệu trả về của tất cả các ngành ...................................................................................... 54
Hình 4.1. Cách lấy ra tổng các công ty crawl được .............................................................................. 55
9
Hình 4.2. Lọc ra các cơng ty có thâm niên vẫn cịn hoạt động ............................................................. 57
Hình 4.3. Dữ liệu tập đồn Sao Mai ...................................................................................................... 59
Hình 4.4. Biểu đồ giá cổ phiếu tập đồn Hưng Thịnh........................................................................... 60
Hình 4.5. Cách lọc ra các cơng ty theo nhóm ngành ............................................................................. 61
Hình 4.6. Kết quả lọc các cơng ty theo nhóm ngành............................................................................. 62
Hình 4.7. Dữ liệu của Địa ốc NovaLand ............................................................................................... 63
Hình 4.8. Biểu đồ giá cổ phiếu của Địa ốc NovaLand .......................................................................... 64
Hình 4.9. Dữ liệu tập đồn VINGROUP............................................................................................... 65
Hình 4.10. Biểu đồ giá cổ phiếu tập đồn VINGROUP........................................................................ 65
Hình 4.11. Dữ liệu của CTCP Đầu tư Nam Long ................................................................................. 67
Hình 4.12. Biểu đồ giá cổ phiếu CTCP Đầu tư Nam Long ................................................................... 67
Hình 4.13. Các nhóm ngành trên VietStock.......................................................................................... 73
Hình 4.14. Hình ảnh thực tế của trang web VietStock .......................................................................... 74
Hình 4.15. Phân tích HTML để lấy dữ liệu cụ thể ................................................................................ 75
Hình 4.16. Đường dẫn để truy cập vào các trang con của các ngành.................................................... 76
Hình 4.17. Mã chứng khốn của các cơng ty theo từng nhóm ngành ................................................... 78
Hình 4.18. Dữ liệu thời gian thực của công ty Hưng Thịnh.................................................................. 80
Hình 4.19. Dữ liệu của cơng ty Hưng Thịnh trên Vietstock ................................................................. 81
Hình 4.20. Lưu tồn bộ dữ liệu dưới dạng file csv ............................................................................... 81
Hình 4.21. Dữ liệu của cơng ty trong file csv ....................................................................................... 82
Hình 4.22. Biểu đồ giá cổ phiếu của công ty Hưng Thịnh theo file csv ............................................... 83
Hình 4.23. Chia tập train và test cho bộ dữ liệu .................................................................................... 83
Hình 4.24. Hình minh họa tập dữ liệu train và test ............................................................................... 84
Hình 4.25. Code training cho model LSTM.......................................................................................... 86
Hình 4.26. Code training cho model LSTM.......................................................................................... 87
Hình 4.27. Code training cho model Linear Regressive ....................................................................... 88
Hình 4.28. Code training cho model LSTM.......................................................................................... 88
Hình 4.29. Code training cho model SVM............................................................................................ 89
Hình 4.30. Code training cho model KNN............................................................................................ 89
Hình 4.31. Code training cho model Auto Arima ................................................................................. 89
Hình 4.32. Kết quả khảo nghiệm với tất cả công ty và tất cả cơng ty nhóm ngành bất động sản ......... 90
Hình 4.33. Kết quả khảo nghiệm với bộ dữ liệu các cơng ty Bất động sản .......................................... 91
Hình 4.34. Biểu đồ so sánh giá dự đốn của các mơ hình trên Tập đồn VINGROUP ........................ 92
Hình 4.35. Biểu đồ so sánh giá dự đốn của các mơ hình trên CTCP Địa ốc NovaLand ..................... 92
Hình 4.36. Các độ đo được sử dụng để đánh giá kết quả train mơ hình trên 3 tập dữ liệu ................... 95
Hình 4.37. Kết quả train mơ hình của bài báo liên quan ....................................................................... 95
10
DANH MỤC CÁC BẢNG
Bảng 1.1. Các thông số về việc train 4 loại mơ hình trên tập dữ liệu của tác giả bài báo[1] ................ 14
Bảng 2.1. Bảng so sánh các khái niệm giữa người và máy ................................................................... 33
Bảng 3.1. Cấu hình GPU miễn phí của Colab ....................................................................................... 43
Bảng 4.1. Bảng thống kê các công ty crawl được ................................................................................. 56
Bảng 4.2. Bảng thống kê các công ty sau khi lọc.................................................................................. 58
Bảng 4.3. Bảng thống kê các công ty xây dựng, bất động sản .............................................................. 63
Bảng 4.4. Top 10 công ty xây dựng, bất động sản có vốn hóa cao nhất ............................................... 64
Bảng 4.5. Top 3 công ty xây dựng, bất động sản có vốn hóa cao nhất ................................................. 66
Bảng 4.6. Bảng ví dụ việc dự đốn giá cổ phiếu của 2 mơ hình LSTM và KNN ................................. 70
Bảng 4.7. Thống kê tất cả công ty ......................................................................................................... 79
DANH MỤC TỪ VIẾT TẮT
STT
Thuật ngữ
1
RNN
Recurrent Neural Network, mạng nơron hồi quy
2
LSTM
Long short-term memory, bộ nhớ dài-ngắn hạn
3
Error Term
Phần sai số
4
Predictor
Bộ dự đoán
5
Ý nghĩa
Deterministi Các thành phần ngẫu nhiên và xác định
c and
stochastic
components
6
Cell
7
Input Gate/
Output
Tế bào (nằm trong 1 đơn vị LSTM)
Cổng vào / Cổng ra / Cổng quên (nằm trong 1 đơn vị
LSTM)
Gate/ Forget
Gate
8
Time Series
9
CPI
Chuỗi thời gian
Consumer Price Index (chỉ số cơ bản đo lường giá cả hàng
hoá dịch vụ và cho biết liệu nền kinh tế có bị lạm phát
hoặc giảm phát hay không)
11
CHƯƠNG 1: TỔNG QUAN
1.1 GIỚI THIỆU
Ngày nay với sự phát triển mạnh mẽ của thị trường chứng khoán. Nhu cầu sử
dụng các mơ hình trí tuệ nhân tạo vào việc dự đoán giá chứng khoán, đưa ra gợi ý đầu
tư đã trở nên phổ biến. Không chỉ trên thế giới mà ngay ở nước ta cũng có nhiều trang
web cũng như app sử dụng các mơ hình dự đốn để đưa ra dự báo sớm cho các nhà
đầu tư. Thế thì liệu rằng những dự đốn đó có cơ sở thực nghiệm và độ tin tưởng ra
sao, đặc biệt là khi vận dụng trong thực tế thị trường chứng khoán Việt Nam. Ở báo
cáo này chúng tôi thực nghiệm nhằm kiếm chứng các vấn đề sau đây:
-
Kiểm tra xem độ chính xác của các mơ hình trên thị trường chứng khốn Việt Nam
(data cơng ty Việt Nam)
-
So sánh độ chính xác của 5 mơ hình LSTM, Linear Regressive, SVM, KNN, Auto
Arima
-
So sánh độ chính xác của 5 mơ hình khi được training trên các tập dữ liệu khác nhau
để đưa ra hiệu quả của việc tiền xử lý (phân nhóm ngành) trước khi train model.
-
So sánh khả năng dự đoán sự biến thiên về giá chứng khoán của model, để khảo sát độ
tin cậy của mỗi mơ hình.
1.2 TÌNH HÌNH NGHIÊN CỨU VỀ ĐỀ TÀI TRONG NƯỚC VÀ THẾ GIỚI
1.2.1 NGHIÊN CỨU THẾ GIỚI
Các nghiên cứu về việc dự đoán thị trường chứng khoán thường chỉ bao gồm
các thuật toán về đào tạo dữ liệu cho một loại cổ phiếu cụ thể. Trong một nghiên cứu
liên quan, nhóm tác giả đã làm phong phú thêm dữ liệu chứng khoán với các cổ phiếu
liên quan giống như cách một nhà giao dịch chuyên nghiệp đã thực hiện để cải thiện
các mô hình dự đốn chứng khốn. Họ đã thực nghiệm trên các tính tương đồng khác
nhau và tìm ra được một phương thức tổng hợp để cải thiện hiệu quả dự đốn. Họ đánh
giá các mơ hình về bảy cổ phiếu S&P từ các ngành khác nhau , khoảng thời gian khác
nhau. Mơ hình dự đốn mà họ đã đào tạo trên các cổ phiếu có tính tương đồng có kết
quả tốt hơn đáng kể với độ chính xác trung bình 0,55 và 19,782 lợi nhuận so với mơ
hình hiện đại với độ chính xác là 0,52 và lợi nhuận là 6,6. [1]
12
Hình 1.1. Những tính chất khác nhau thể hiện tính tương đồng của cổ phiếu [1]
Dự đoán về giá cổ phiếu hoặc bất kì ngành tài chính nào đều là vấn đề trọng
tâm nghiên của các nhà nghiên cứu[2] , các nhà giao dịch và các quỹ đầu cơ. Trong
toàn bộ khung giao dịch, các thông tin để phục vụ cho việc dự đoán cho thể thu thập
được từ nhiều nguồn khác nhau. Mục tiêu chúng nhằm giúp cho các nhà đầu tư có thể
lên chiến lược kinh doanh về sau. Các thơng tin đó bao gồm vị trí hiện tại của cổ
phiếu, rủi ro, khả năng lời lỗ, cũng như việc phán đốn xem cổ phiếu đó sẽ tăng hay
giảm trong tương lai. Việc phân tích tính giống nhau trong lĩnh vực tài chính khơng
chỉ mang tính chất thăm dò, mà còn quyết định xu hướng đầu tư trong một ngành tài
chính cụ thể. Trong nghiên cứu của nhóm tác giả, họ muốn xác minh xem việc thêm
các loại cổ phiếu có tính tương đồng có tăng thêm hiệu quả đào tạo của các mơ hình
dự đốn hay khơng. Và đó cũng chính là điều cần xác minh trong nghiên cứu của
chúng tơi.
Hình 1.2. Quy trình tiến hành việc dự đoán cổ phiếu [1]
13
Bảng 1.1. Các thông số về việc train 4 loại mơ hình trên tập dữ liệu của tác giả bài báo[1]
Hình 1.3. Biểu đồ cho thấy sự vượt trội của việc train các loại cổ phiếu có tính
chất tương đồng so với các loại cổ phiếu ngẫu nhiên khác [1]
1.2.2 NGHIÊN CỨU TRONG NƯỚC
Chỉ số chứng khoán Việt Nam (VN-Index) là chỉ số thể hiện xu hướng biến
động giá của tất cả các cổ phiếu niêm yết tại sàn Giao dịch Chứng khoán Thành phố
14
Hồ Chí Minh. Ở tầm vĩ mơ, chỉ số này phản ảnh các quy luật cung cầu của thị trường
chứng khoán (TTCK) và thường được sử dụng để đánh giá sự phát triển của nền kinh
tế Việt Nam. Do đó, việc dự đoán đúng xu thế chỉ số VN-Index sẽ mang lại kết quả tốt
cho nhà đầu tư khi tham gia vào thị trường. Phương pháp phân tích định lượng được
sử dụng rộng rãi để giải quyết bài toán dự đốn biến động chỉ số chứng khốn. Có rất
nhiều các mơ hình định lượng khác nhau được áp dụng để giải quyết bài tốn này như:
phân tích hồi quy q trình Gauss (GPR: Gaussian process regression); mơ hình tự hồi
quy trung bình động (ARMA: Autoregressive moving average); mạng nơron nhân tạo
[7]; mơ hình mạng Bayes; mơ hình máy vector hỗ trợ [9]. Các tác giả trong [7] dự
đốn giá đóng cửa hàng tuần của chỉ số chứng khoán Bombay TTCK Ấn Độ (BSE
SENSEX) sử dụng mạng nơron truyền thẳng nhiều lớp với việc điều chỉnh các trọng
số thông qua thuật tốn lan truyền ngược sai số. Mơ hình mạng có một lớp đầu vào với
800 nơron sử dụng hàm chuyển đổi Tan Sigmoid; ba lớp hàm ẩn tuyến.[8]
Các cơng trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thơng tính
với 600 nơron mỗi lớp và một lớp đầu ra có 1 nơron. Dữ liệu dùng để huấn luyện các
trọng số trên mạng nơ-ron có độ dài 200 tuần, bao gồm giá đóng cửa hàng tuần của chỉ
số BSE SENSEX; sự di chuyển giá trung bình trong 52 tuần giao dịch; sự di chuyển
giá trung bình trong 5 tuần giao dịch; sự biến động giá trong 5 tuần giao dịch; dao
động giá trong 10 tuần giao dịch. Kết quả cho thấy căn bậc hai sai số tồn phương
trung bình (RMSE: Root mean square error) theo phương pháp này là 4.82% và sai số
tuyệt đối trung bình (MAE: Mean absolute error) là 3.93%. Trong phương pháp sử
dụng mạng Bayes, các tác giả trong [8] xây dựng mơ hình nhân quả thể hiện sự phụ
thuộc của xu thế tăng, giảm của chỉ số chứng khoán FTSE100 ở ngày kế tiếp vào xu
thế tăng, giảm của chỉ số đó trong quá khứ, đồng thời trong mối tương quan với chỉ số
Dow30 và chỉ số Nikkei225. Xác suất có điều kiện trên mỗi nút của mạng được tính
tốn dựa trên giải thuật K2 với bộ dữ liệu huấn luyện đầu vào từ tháng 1 năm 2005 đến
tháng 12 năm 2006. Các tác giả tiến hành dự đoán cho các ngày giao dịch từ tháng 1
năm 2007 đến tháng 12 năm 2007. Kết quả cho thấy phương pháp này có độ chính xác
dự đốn xu thế là 61.4%. Mơ hình máy vector hỗ trợ (SVM: Support vector machine)
được giới thiệu trong bài báo [9] để dự đoán xu thế cho chỉ số chứng khoán của 13
công ty khác nhau từ năm 2004-2015. SVM được sử dụng như một công cụ để phân
loại giữa hai lớp là lớp tăng và lớp giảm bằng cách học một siêu phẳng để phân lớp dữ
15
liệu, và dựa vào dữ liệu lịch sử để dự đoán chỉ số chứng khoán của năm tiếp theo của
một công ty thuộc lớp tăng hay lớp giảm. Kết quả cho thấy các tác giả dự đoán đúng
cho xu thế của 10 trên 13 công ty trong năm 2014-2015. Trong phương pháp hồi quy
[2, 3, 10, 11], người ta thường xây dựng mơ hình dự báo theo cách tiếp cận kinh tế
lượng, sử dụng một số biến kinh tế vĩ mơ và biến tài chính tiền tệ mà theo lý thuyết
kinh tế có tác động đến biến động thị trường chứng khốn làm biến giải thích trong mơ
hình hồi quy đa biến.Phương pháp GPR được trình bày chi tiết trong mục II-2 của bài
báo này. Về cơ bản, đây là phương pháp được sử dụng trong học máy nhằm tìm kiếm
các mẫu hình lặp lại trong dữ liệu chuỗi thời gian, qua đó thực hiện dự đốn xu thế tiếp
theo của các điểm trong chuỗi thời gian. Các tác giả trong bài báo [3] thực nghiệm quá
trình Gauss để dự đốn xu thế về giá đóng cửa của các cổ phiếu riêng lẻ theo một số
lớp khác nhau các hàm hiệp phương sai như hàm hiệp phương sai lũy thừa bình
phương, hàm hiệp phương sai lớp Matern, hàm hữu tỷ bậc hai. Dựa vào đánh giá thực
nghiệm, các tác giả khẳng định rằng dữ liệu lịch sử càng dài cho kết quả dự đốn càng
chính xác để tìm ra cổ phiếu tốt, và việc sử dụng hàm hiệp phương sai lũy thừa bình
phương và hàm hiệp phương sai lớp Matern cho kết quả dự đoán xu thế tốt. Các tác
giả trong [6] sử dụng mơ hình tự hồi quy kết hợp trung bình động (ARIMA:
Autoregressive integrated moving verage) để dự đốn giá cổ phiếu của 66 cơng ty từ
bảy ngành khác nhau dựa trên bộ dữ liệu lịch sử giá của cổ phiếu các công ty với độ
dài khoảng 23 tháng và tiến hành dự đoán cho một tháng kế tiếp. Để đánh giá các tham
số cho mơ hình các tác giả sử dụng bộ tham số sao cho tiêu chuẩn thông tin Akaike đạt
giá trị nhỏ nhất. Chi tiết về mơ hình tự hồi quy trung bình động được trình bày trong
mục II-3 của bài báo này. Kết quả dự đốn các tác giả thu được có giá trị sai số phần
trăm trung bình lớn hơn 85% trong tất cả các trường hợp. Các giả cũng đánh giá đây là
hướng tiếp cận khả quan nhất trong dự đoán giá cổ phiếu [2, 3, 6]. Tại Việt Nam hiện
có một số nghiên cứu liên quan đến dự báo chỉ số chứng khoán VN-Index [12–14].
Trong [12], các tác giả đề xuất kết hợp phương pháp chỉ số dẫn báo và hệ số tương
quan giữa chỉ số thị trường chứng khoán của một sàn giao dịch với các biến dữ liệu
giao dịch cổ phiếu trong việc xây dựng mơ hình dự báo chỉ số thị trường chứng khoán
trên dữ liệu. Tác giả thu thập từ dữ liệu sàn giao dịch Thành phố Hồ Chí Minh: dữ liệu
từ 04/01/2010 đến 22/04/2016 được sử dụng để xây dựng mơ hình dự báo, dữ liệu
kiểm định là từ 25/04/2016 đến ngày 05/05/2016 (gồm 7 ngày giao dịch do các ngày
16
từ 30/04/2016 đến 03/05/2016 là những ngày nghỉ lễ, sàn giao dịch không làm việc).
Trong [13, 14], các tác giả áp dụng mơ hình tự hồi quy phương sai khơng đồng nhất
tổng quát (GARCH: Generalized autoregressive conditional heteroskedasticity). [8]
Mẫu dữ liệu bao gồm hai chỉ số của sàn giao dịch chứng khoán Việt Nam là chỉ
số VN-Index và HNX-Index, được cung cấp bởi Sở Giao dịch Chứng khoán Thành
phố Hồ Chí Minh (HOSE) và Sở Giao dịch Chứng khốn Hà Nội (HNX), tương ứng,
trong giai đoạn 2007-2015. Kết quả thực nghiệm cho mơ hình GARCH, các tác giả
khẳng định rằng biến động của các chỉ số chứng khoán trong quá khứ sẽ ảnh hưởng
đến biến động trong hiện tại và có thể dự đốn trước, đồng thời cho thấy rằng Mơ hình
FIAPARCH là mơ hình phù hợp nhất cho việc dự báo chỉ số VN-Index và HNXIndex. Mỗi mơ hình ở trên có những ưu điểm và nhược điểm riêng và được áp dụng
cho các bộ dữ liệu cụ thể. Trong khuôn khổ bài báo này, chúng tôi tập trung nghiên
cứu các mơ hình áp dụng trên bộ dữ liệu chuỗi thời gian, đó là GPR và mơ hình
ARMA. Chúng tôi kế thừa kết quả các phương pháp đã được nghiên cứu trong bài báo
[3, 6, 10] bằng cách đề xuất một giải pháp kết hợp mơ hình GPR và mơ hình ARMA,
gọi là GPR-ARMA. Phương pháp kết hợp GPR-ARMA được áp dụng để dự đoán xu
thế chỉ số VN-Index dựa trên bộ dữ liệu lịch sử giá đóng cửa chỉ số VN-Index qua các
ngày giao dịch.[8]
17
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 GIỚI THIỆU CÁC MÔ HÌNH ĐƯỢC SỬ DỤNG
Theo kết quả khảo sát về các mơ hình trí tuệ nhân tạo thường được ứng dụng
vào việc dự đốn giá chứng khốn, chúng tơi đã lựa chọn ra 5 mơ hình khả thi nhất để
khảo nghiệm
-
Long Short Term Memory (LSTM)
-
Linear Regressive
-
Support Vector Machines (SVM)
-
K-Nearest Neighbors (KNN)
-
Auto Arima
Do thời gian cũng như tài nguyên máy móc hạn chế nên chúng tơi chỉ có thể khảo sát
các mơ hình trên ở mức độ học thuật. Dưới đây là cơ sở lý thuyết của 5 mơ hình.
2.2 LONG SHORT TERM MEMORY (LSTM)
Mạng nơron nhân tạo (Artificial Neural Network) [6]
Một mạng nơ-ron được cấu thành bởi các nơron đơn lẻ được gọi là các perceptron.
Nơron nhân tạo được lấy cảm hứng từ nơron sinh học như hình mơ tả bên dưới.
Hình 2.1. Cấu trúc của nơron sinh học [6]
Từ hình trên, ta có thể thấy rằng một nơron có thể nhận nhiều giá trị đầu vào và
cho ra một kết quả duy nhất. Mơ hình của perceptron cũng tương tự như vậy:
18
Hình 2.2. Mơ hình Perceptron [6]
Mạng nơron nhân tạo được mô phỏng theo hệ thống sinh học thực tế, với các tế
bào thần kinh gọi là nơron liên kết với nhau thành một mạng gọi là mạng nơ-ron. Mỗi
nơron nhận một hoặc nhiều giá trị đầu vào và tạo ra một giá trị thực duy nhất ở đầu ra,
giá trị đầu ra này có thể trở thành đầu vào của một nơron khác. Trong kiến trúc của
mạng nơron nhân tạo, thành phần cốt lõi chính là các perceptron. Một mạng nơron
nhân tạo thường bao gồm các lớp: Input layer (lớp đầu vào), hidden layer (lớp ẩn) và
output layer (lớp đầu ra). Các lớp này có nhiệm vụ xử lý tín hiệu nhận được theo thứ
tự lớp sau sẽ nhận giá trị output của lớp trước. Việc các lớp này xử lý theo cách nào
thường phụ thuộc vào từng yêu cầu khác nhau. Số lượng các lớp ẩn (hidden layer) là
không giới hạn. Số lượng lớp ẩn và cách xử lý ở từng lớp kể trên sẽ quyết định tới kết
quả cũng như hiệu quả của cơng việc cần xử lý.
Hình 2.3. Mơ hình mạng nơron nhân tạo [6]
Deep Neural Network là hệ thống cấu trúc thần kinh phức tạp gồm nhiều đơn
vị neural network mà trong đó, ngồi các lớp nguồn vào (input), nguồn ra (output) thì
có hơn một lớp ẩn (hidden layer). Mỗi lớp này sẽ thực hiện một kiểu phân loại và sắp
19
xếp riêng trong một quá trình ta gọi là “phân cấp tính năng” và mỗi lớp đảm nhiệm
một trọng trách riêng, output của lớp này sẽ là input của lớp sau. Từ “deep” ám chỉ có
nhiều hơn một lớp ẩn.
Deep Neural Network được xây dựng với mục đích mơ phỏng hoạt động não bộ
phức tạp của con người và được áp dụng trong nhiều lĩnh vực khác nhau, mang lại
thành công và những hiệu quả đáng kinh ngạc cho con người.
Deep Learning là khả năng máy tự đào sâu học hỏi nhờ vào deep neural
network để từ đó xử lý và giải quyết những dữ liệu phi định danh hay phi cấu trúc.
Deep Learning là một phần của phương pháp Machine Learning (Học Máy), đại
diện cho một hình thức cụ thể của phương pháp này, là nơi mà các loại hình cơng nghệ
sẽ dùng mọi mặt của lĩnh vực trí tuệ nhân tạo nhằm tìm kiếm và phân loại cũng như
sắp xếp thông tin theo nhiều cách vượt xa các giao thức nguồn vào và nguồn ra ban
đầu. Ta có thể hình dung Deep Learning với q trình mơ phỏng hoạt động não bộ của
chúng ta thông qua các mô hình tốn học.
Hình 2.4. Mơ hình Deep Neural Network [6]
MẠNG NƠRON HỒI QUY (RECURRENT NEURAL NETWORK):
Như chúng ta đã biết thì mạng nơron bao gồm ba phần chính là input layer,
hidden layer và output layer, ta có thể thấy rằng đầu vào và đầu ra của mạng nơ-ron
này hoàn toàn độc lập với nhau. Như vậy mơ hình này khơng phù hợp với những bài
tốn dạng chuỗi như mơ tả, hồn thành câu,... vì những dự đốn tiếp theo như từ tiếp
theo phụ thuộc vào vị trí của nó trong câu và những từ đằng trước nó. Xuất phát từ lý
do đó, RNN ra đời với ý tưởng chính là sử dụng một bộ nhớ để lưu lại thông tin từ
những bước tính tốn xử lý trước để dựa vào đó có thể đưa ra dự đốn chính xác nhất
cho bước dự đốn hiện tại. Chúng là các mạng có vịng lặp, cho phép thơng tin tồn tại.
20
Hình 2.5. RNN có vịng lặp [6]
Trong sơ đồ trên, một đoạn của mạng thần kinh, 𝐴, xem xét một số 𝑥𝑡 đầu vào
và xuất ra một giá trị ℎ𝑡 . Một vịng lặp cho phép thơng tin được truyền từ một bước
của mạng sang bước tiếp theo.
Những vòng lặp này làm cho RNN có vẻ bí ẩn. Tuy nhiên, nếu xem xét kỹ hơn
một chút, chúng ta sẽ nhận ra rằng RNN cũng khơng có sự khác biệt đáng kể nào so
với một mạng nơ-ron bình thường. Một RNN có thể được coi là nhiều bản sao của
cùng một mạng, mỗi bản sao truyền một thông điệp đến một mạng kế thừa.
Hình 2.6. RNN khi được “trải ra” [6]
Chuỗi các đầu vào 𝑥0 , 𝑥1 , . . . , 𝑥𝑡 là những sự kiện xảy ra theo thứ tự thời gian.
Những sự kiện này đều có mối liên hệ về thông tin với nhau và thông tin của chúng sẽ
được giữ lại để xử lý các sự kiện tiếp theo trong RNN. Chính vì tính chất này, RNN
phù hợp với những bài tốn có dữ liệu đầu vào dưới dạng chuỗi với các sự kiện
trong chuỗi có mối liên hệ với nhau.
Bộ nhớ dài hạn-ngắn hạn LSTM (Long short-term memory)
21
VỀ RNN PHỤ THUỘC XA
Kiến trúc Recurrent Neural Network (RNN) được sinh ra để giải quyết các bài
tốn có dữ liệu tuần tự. Tuy vậy, do kiến trúc của nó khá đơn giản nên khả năng liên
kết các thành phần có khoảng cách xa khơng tốt. Vì thế, nếu sử dụng RNN để xử lý
một đoạn văn, nó có thể bỏ qua những chi tiết ở đầu đoạn văn vì lí do bộ nhớ có hạn.
Hình 2.7. RNN phụ thuộc xa [6]
Nguyên nhân của vấn đề này là do RNN chịu ảnh hưởng của việc gradient bị
thấp dần trong quá trình học (vanishing gradient) trong khi gradient lại là thành phần
quan trọng bậc nhất trong việc huấn luyện các model. Vì thế khi giá trị của gradient
được tạo bởi các thành phần phía đầu đoạn văn trở nên quá nhỏ, nó sẽ khơng đóng góp
gì cho việc huấn luyện model.
GIẢI PHÁP:
Với nhược điểm của RNN, ta nhận thấy kiến trúc này khơng hề có cơ chế lọc
những thơng tin khơng cần thiết. Bộ nhớ của kiến trúc có hạn, nếu lưu tất cả những
thông tin không cần thiết này sẽ dẫn đến tình trạng q tải, từ đó qn đi những thứ ở
xa trong quá khứ. Về lý thuyết, RNN hồn tồn có khả năng xử lý các phụ thuộc dài
hạn như vậy, nhưng trong thực tế, RNN không thể tiếp cận với cách học như vậy. Và
vấn đề này cũng đã được tìm ra cách giải quyết bởi Hochreiter (1991) [German] [1] và
Bengio, et al. (1994) [2]
Một đơn vị LSTM thông thường bao gồm một tế bào (cell), một cổng vào
(input gate), một cổng ra (output gate) và một cổng quên (forget gate). Tế bào ghi nhớ
các giá trị trong các khoảng thời gian bất kỳ và ba cổng này sẽ điều chỉnh các luồng
thông tin vào / ra tế bào.
22
Hình 2.8. Cấu trúc của đơn vị LSTM [6]
Từ hình trên, chúng ta có thể thấy rằng trong mỗi module của kiến trúc đều
được trang bị các cổng (gate). Nhiệm vụ các cổng này là giúp kiến trúc đánh giá được
mức độ quan trọng của thơng tin, từ đó đưa ra quyết định nên giữ lại hay bỏ thông tin
này đi. Nhờ cơ chế này, các thông tin quan trọng có thể được truyền đi rất xa mà vẫn
đảm bảo có tác động đáng kể trong tương lai.
2.3 LINEAR REGRESSIVE
Đây là một phương pháp thống kê mà giá trị kỳ vọng của một hay nhiều biến
ngẫu nhiên được dự đoán dựa vào điều kiện của các biến ngẫu nhiên (đã tính tốn)
khác. Cụ thể, có hồi quy tuyến tính, hồi quy logic, hồi quy Poisson và học có giám sát.
Phân tích hồi quy khơng chỉ là trùng khớp đường cong (lựa chọn một đường cong mà
vừa khớp nhất với một tập điểm dữ liệu); nó cịn phải trùng khớp với một mơ hình với
các thành phần ngẫu nhiên và xác định (deterministic and stochastic components).
Thành phần xác định được gọi là bộ dự đoán (predictor) và thành phần ngẫu nhiên
được gọi là phần sai số (error term).
23
Hình 2.9. Biểu đồ thể hiện mơ hình Linear Regressive [6]
Dạng đơn giản nhất của một mơ hình hồi quy chứa một biến phụ thuộc (còn gọi là
"biến đầu ra," "biến nội sinh," "biến được thuyết minh", hay "biến-Y") và một biến độc
lập đơn (còn gọi là "hệ số," "biến ngoại sinh", "biến thuyết minh", hay "biến-X").
Ví dụ thường dùng là sự phụ thuộc của huyết áp Y theo tuổi tác X của một người, hay
sự phụ thuộc của trọng lượng Y của một con thú nào đó theo khẩu phần thức ăn hằng
ngày X. Sự phụ thuộc này được gọi là hồi quy của Y lên X.
Hồi quy thường được xếp vào loại bài tốn tối ưu vì chúng ta nỗ lực để tìm kiếm một
giải pháp để cho sai số và phần dư là tốt nhất. Phương pháp sai số chung nhất được sử
dụng là phương pháp bình phương cực tiểu: phương pháp này tương ứng với một hàm
hợp lý dạng Gauss của các dữ liệu quan sát khi biết biến ngẫu nhiên (ẩn). Về một mặt
nào đó, bình phương cực tiểu là một phương pháp ước lượng tối ưu: xem định lý
Gauss-Markov.
Để giải quyết bài toán tối ưu trong hồi quy thường dùng các giải thuật như giải thuật
hạ bậc gradient descent, giải thuật Gauss-Newton, và giải thuật Levenberg-Marquardt.
Các giải thuật xác suất như RANSAC có thể được dùng để tìm một phù hợp tốt cho
tập mẫu, khi cho trước một mơ hình tham số hóa của hàm đường cong.
24
Hồi quy có thể được biểu diễn bằng phương pháp hàm hợp lý ước lượng các tham số
của một mô hình nào đó. Tuy nhiên, với một lượng nhỏ dữ liệu, ước lượng này có thể
có phương sai lớn (high variance). Các phương pháp Bayesian có thể được sử dụng để
ước lượng các mơ hình hồi quy. Các tham số có một phân phối điều kiện được giả
định trước, nó bao gồm mọi thông tin thống kê đã biết trước về các biến. (Ví dụ, nếu
một tham số được biết là khơng âm thì một phân phối khơng âm sẽ được gán cho nó.)
Phân phối được giả định trước này sau đó được áp dụng cho vector tham số. Phương
pháp Bayes có ưu điểm là khai thác được tồn bộ các thơng tin đã có và nó là ước
lượng chính xác, khơng phải ước lượng chệch và do đó rất tốt cho các tập số liệu nhỏ.
Trong thực hành, người ta sử dụng phương pháp MAP (maximum a posteriori),
phương pháp này đơn giản hơn phân tích Bayes đầy đủ, trong đó các tham số được
chọn sao cho cực đại hóa phân phối giả định trước posterior. Các phương pháp MAP
có liên hệ với Occam's Razor: ở chỗ có sự ưu tiên cho sự đơn giản, khi có nhiều mơ
hình hồi quy (đường cong) cũng như khi có nhiều lý thuyết thì chọn cái đơn giản.
2.4 SUPPORT VECTOR MACHINES (SVM)
Ý tưởng của SVM là tìm một siêu phẳng (hyper lane) để phân tách các điểm dữ liệu.
Siêu phẳng này sẽ chia không gian thành các miền khác nhau và mỗi miền sẽ chứa một
loại dữ liệu. [10]
25