Tải bản đầy đủ (.pptx) (30 trang)

Dự đoán xu hướng chứng khoán rổ VN30 tại sàn HOSE dựa trên tin tức tài chính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (724.96 KB, 30 trang )

Dự đoán xu hướng chứng
khoán rổ VN30 tại sàn HOSE
dựa trên tin tức tài chính
Huỳnh Đức Huy
Cao Hùng Thiên Bảo
Dương Thị Xuân Thoại
Trần Thành Tân
Trường Đại Học Công Nghệ Thông Tin
Nội dung trình bày
1. Đặt vấn đề
2. Mục tiêu nghiên cứu
3. Các phương pháp tiếp cận
4. Phương pháp thực hiện
5. Kết quả thực nghiệm
6. Kết luận
1
Nội dung trình bày
1. Đặt vấn đề
2. Mục tiêu nghiên cứu
3. Các phương pháp tiếp cận
4. Phương pháp thực hiện
5. Kết quả thực nghiệm
6. Kết luận
1
C
h

n
g

k


h
o
á
n
Đặt vấn đề
2
Kênh đầu tư tài chính nghiêm túc
Yêu cầu tính chiến lược cao
Đem lại lợi nhuận lớn
Đặt vấn đề
3
Mô hình
dự đoán
hiệu quả
Quyết định
đầu tư
đúng đắn
Nội dung trình bày
1. Đặt vấn đề
2. Mục tiêu nghiên cứu
3. Các phương pháp tiếp cận
4. Phương pháp thực hiện
5. Kết quả thực nghiệm
6. Kết luận
1
Mục tiêu nghiên cứu
4

Nghiên cứu, phát triển một hệ thống có khả
năng dự báo xu hướng chứng khoán của

trong rổ VN30 thuộc sàn chứng khoán HOSE
dựa trên tin tức tài chính và giá lịch sử của
cổ phiếu theo ngày.

Đảm bảo độ tin cậy, chính xác cho mô hình
sử dụng các giải thuật cải tiến.
Nội dung trình bày
1. Đặt vấn đề
2. Mục tiêu nghiên cứu
3. Các phương pháp tiếp cận
4. Phương pháp thực hiện
5. Kết quả thực nghiệm
6. Kết luận
1
Các phương pháp tiếp cận
5
Nội dung trình bày
1. Đặt vấn đề
2. Mục tiêu nghiên cứu
3. Các phương pháp tiếp cận
4. Phương pháp thực hiện
5. Kết quả thực nghiệm
6. Kết luận
1
Phương pháp thực hiện
6
Tin tức
Tiền xử

Gán nhãn

văn bản
Đánh
trọng số từ
Giảm số
chiều
vector đặc
trưng
Giá cổ
phiếu
Từ điển
trọng số
Máy học
SVM
Mô hình
SVM
Kiểm tra
Sơ đồ hệ thống
HTML Tách từ, loại từ dừng
Phân lớp
Delta TFIDF[7]
LibSVM[1]
OCFS[6
]
Support
vectors[2]
Độ chính xác
Loại tag
VnTokenizer[4
]
Danh sách

từ
Loại từ dừng
Quy trình tiền xử lý văn bản
7
Danh
sách từ
đã được
tối ưu hóa
1. Loại bỏ thẻ trong định dạng html  tin tức (.txt)
2. Tách từ bằng VnTokenizer  danh sách các từ.
3. Loại bỏ từ dừng (à, ừ,…)  danh sách các từ đã được tối ưu.
Phương pháp gán nhãn văn bản
8
Danh
sách từ
được tối
ưu hóa
Văn bản
được phân
lớp
+1: tăng
-1: giảm
Giá chứng
khoán
Tính vector đặc
trưng sử dụng
phương pháp
Delta TFIDF[7]
Giá đóng cửa – giá mở cửa
Phân lớp dựa trên

ngày ra bản tin và
ngày giao dịch
Xây dựng từ điển trọng số
9
Từ điển
tiếng Việt
74k
Từ điển chỉ
gồm tính từ,
động từ
Từ điển gồm
các từ đã
được gán
trọng số
VnTagger[11]
Đánh trọng
số (*)

Trong đó:
t là điểm ứng với ảnh hưởng tích cực của
từ wi trong từ điển.
t là điểm ứng với ảnh hưởng tiêu cực của
từ wi trong từ điển.
|P| là số văn bản được gán nhãn tăng mà
từ t xuất hiện,
|N| là số văn bản được gán nhãn giảm mà
từ t xuất hiện.

(*) Công thức đánh trọng số
Đánh trọng số từ

10
Delta TFIDF[7] là thuật toán tăng độ quan trọng của từ được phân bố
không đều giữa lớp giảm và lớp tăng và giảm độ quan trọng của từ
được phân bố đều giữa lớp giảm và lớp tăng.
Công thức tính:

Trong đó:
Ct,d là số lần luật t xuất hiện trong tin tức d,
Pt là số văn bản được gán nhãn tăng mà luật t xuất hiện,
|P| là số văn bản được gán nhãn tăng trong toàn bộ văn bản,
Nt là số văn bản được gán nhãn giảm mà luật t xuất hiện,
|N| là số văn bản được gán nhãn giảm trong toàn bộ văn bản,
Vt,d là trọng số cho luật t trong văn bản d
Phương pháp giảm số chiều vector
11
OCFS[6] là phương pháp trích chọn đặc trưng trực chuẩn - thuật
toán giảm số chiều tối ưu cả về lưu trữ và thời gian xử lý so với các
phương pháp truyền thống IG, CHI
Nội dung chính của thuật toán:

Tính centroid m=1, 2,…, c cho mỗi phân lớp của bộ huấn luyện

Tính centroid m cho tất cả các phân lớp của bộ huấn luyện

Tính điểm của từng luật i-th

Chọn K luật có điển cao nhất
Nội dung trình bày
1. Đặt vấn đề
2. Mục tiêu nghiên cứu

3. Các phương pháp tiếp cận
4. Phương pháp thực hiện
5. Kết quả thực nghiệm
6. Kết luận
1
Kết quả thực nghiệm
12
Tập mẫu
Số lượng bài báo
Tập huấn
luyện
Tập kiểm tra Tổng số
Mẫu 1 (5 tháng) 1090 465 1555
Mẫu 2 (10 tháng) 1499 640 2139
Mẫu 3 (15 tháng) 1730 741 2471
01/2014 – 05/2015
Rổ VN30
BVH, CII, CSM, DPM, DRC, FLC, FPT,
GMD, HAG, HCM, HPG, HSG, HVG,
IJC, ITA, KBC, KDC, MBB, MSN, OGC,
PPC, PVD, PVT, REE, SSI, STB, VCB,
VIC, VNM, VSM
Các độ đo
13

Độ chính xác giữa dự đoán so với thực tế

Độ chính xác giữa các phân lớp dự đoán

Độ phủ


So sánh các hướng tiếp cận
14
Độ đo
Các phương pháp
TFIDF Delta TFIDF
Delta TFIDF kết
hợp trọng số
Accuracy 0.602 0.696
0.763
Precision 0.626 0.695
0.748
Recall 0.911 0.938
0.945
F-measure 0.7427 0.7959
0.8
TFIDF
Delta TFIDF
Delta TFIDF kết hợp trọng số
Độ chính
xác cao
So sánh các hướng tiếp cận
15
TFIDF Delta TFIDF Delta TFIDF + Trọng số
0
10
20
30
40
50

60
70
80
90
5 tháng
10 tháng
15 tháng
Các phương pháp đánh trọng số
Độ chính xác (%)
Biểu đồ so sánh các hướng tiếp cận theo khoản thời gian
Phương pháp Delta TFIDF kết hợp với
trọng số cho kết quả tốt nhất ở tất cả
các khoản thời gian
So sánh độ chính xác theo thời gian
16
Mẫu 1 (5 tháng) Mẫu 2 (10 tháng) Mẫu 3 (15 tháng)
0
10
20
30
40
50
60
70
80
90
100
Accuracy
Precision
Recall

Mẫu thời gian theo tháng
Phần trăm (%)
Biểu đồ so sánh các mẫu theo khoản thời gian

Độ chính xác và độ phủ ở mẫu 1 là cao nhất

Mẫu 2 và 3 có sự biến đổi không đều do độ nhiễu của tin
So sánh theo xu hướng giá
17
Biểu đồ tương quan giữa dự đoán xu hướng và giá thực tế của rổ VN30
Điểm đánh dấu tròn là thời điểm giá chứng khoán thay đổi xu hướng
Dự đoán sai
Dự đoán đúng
Kết quả dự đoán 5 mã có ảnh hướng nhất
18
Ngày
EIB MSN STB VIC VNM
Mở
cửa
Đóng
cửa
Dự
đoán
Mở
cửa
Đóng
cửa
Dự
đoán
Mở

cửa
Đóng
cửa
Dự
đoán
Mở
cửa
Đóng
cửa
Dự
đoán
Mở
cửa
Đóng
cửa
Dự
đoán
02/03
13.2 13.1 1 85.5 86.5 1 19.5 19.4 1 49.6 49.9 1 108 107 -1
03/03
13.1 13.1 1 87 90 1 19.5 19.4 -1 49.9 52 1 107 108 1
04/03
13.1 13.2 1 91 89.5 1 19.4 19.5 -1 52 51.5 1 108 109 -1
05/03
13.1 13.1 -1 89 88.5 1 19.5 19.3 1 51 51 1 109 108 1
06/03
13.1 13.2 1 88 88 1 19.3 19.6 1 50 49.9 -1 108 107 -1
09/03
13.2 13.2 -1 88 88 -1 19.6 20 -1 49.9 49.7 -1 107 107 1
10/03

13.3 13.3 1 86 87.5 1 20.1 19.8 1 49.5 49.7 1 107 108 1
11/03
13.2 13.2 -1 88 87 1 20.3 20.4 1 49.7 49.3 -1 108 108 1
12/03
13.1 13.2 1 89 87.5 1 20.4 20.4 1 49.3 49.6 1 108 109 1
13/03
13.2 13.2 1 88 87 -1 20.4 20 -1 49.6 49.6 1 108 108 1
Dự đoán đúng
Dự đoán sai
Kết quả đúng: 32/50  64%
Nội dung trình bày
1. Đặt vấn đề
2. Mục tiêu nghiên cứu
3. Các phương pháp tiếp cận
4. Phương pháp thực hiện
5. Kết quả thực nghiệm
6. Kết luận
1

×