Dự báo thị trường chứng khoán dựa trên khai
phá dữ liệu Tweeter
Học viên: Phạm Huyền Trang
GV hướng dẫn: PGS. TS Hà Quang Thụy
1
November 24, 2013
Nội dung chính
Giới thiệu
Các nghiên cứu liên quan
Nghiên cứu của J.Bollen về Dự báo thị trường chứng khoán dựa
trên Tweeter
Kết luận
Định hướng nghiên cứu
2
November 24, 2013
INTRODUCTION
Bài toán dự báo thị trường chứng khoán
Bài toán dự báo thị trường chứng khoán dựa trên Tweeter
3
November 24, 2013
Có thực sự dự đốn được thị trường
Có thực sự dự đoán được thị trường
chứng khoán?
chứng khoán?
Nguyên lý Bước đi ngẫu
nhiên (Walk random)
và giả thuyết Thị trường
hiệu quả
(Efficient Market)
-Không thể dự đốn thị
trường chứng khốn
4
Lý thuyết phân tích
cổ phiếu
(Chartist theory)
- Có thể dự đốn được dựa
vào q khứ
November 24, 2013
Các nghiên cứu liên quan
2005, Gruhl và cộng sự đã nghiên cứu cách làm thế nào để hoạt
5
động chat online có thể dự đốn được việc bán sách
2006, Mishne và Rijke sử dụng các đánh giá của các quan điểm
được thể hiện trên blog để dự đoán việc bán phim
2007, Liu và cộng sự dự đoán việc bán các sản phẩm sử dụng mơ
hình phân tích ngữ nghĩa ẩn xác suất (PLSA) để trích xuất các chỉ sổ
của quan điểm từ các blog.
2009, Schumaker và Chen điều tra mối quan hệ giữa các tin tức về
công ty phá sản với sự thay đổi về giá cả trong thị trường
2010, Asur và Huberman chỉ ra rằng những quan điểm liên quan đến
các phim được thể hiện công khai trên Tweeter thực sự có thể dự
đốn được doanh thu phịng vé
Gần đây, 2011, Johan Bollen và cơng sự đã có nghiên cứu chỉ ra
rằng có thể dự đốn thị trường chứng khốn dựa trên các Tweet của
các cơng ty trong thị trường chứng khốn, với độ chính xác lên đến
> 85%
November 24, 2013
Dự báo thị trường chứng khoán
Kinh tế học hành vi chỉ ra rằng:
Cảm xúc có thể ảnh hưởng đến các hành vi của cá nhân và trong
việc đưa ra 1 quyết định nào đó
Các quyết định tài chính được thúc đẩy bởi cảm xúc và tâm trạng
của con người
⇒ Giả thuyết: Tâm trạng, cảm xúc có thể ảnh hưởng đến giá trị
chứng khoán tương đương với việc các tin tức ảnh hưởng đến thị
trường chứng khoán
Bài toán dự báo thị trường chứng khoán chia thành 2 loại:
Dự báo chỉ số chứng khoán sẽ tăng hay giảm
Dự báo chỉ số chứng khoán sẽ tăng lên bao nhiêu hoặc giảm xuống
bao nhiêu
Ý nghĩa của bài toán:
Giúp các nhà đầu tư đưa ra được các quyết định đầu tư tức thời =>
6
đem lại lợi nhuận cao cho các nhà đầu tư
November 24, 2013
Dự báo thị trường chứng khoán dựa
trên Tweeter
Cộng đồng sử dụng và chia sẻ trạng thái của mình trên
Twitter cho biết họ đang cảm thấy như thế nào về ngày
hơm đó
⇒dẫn dắt các quyết định mua bán trên thị trường
⇒ảnh hưởng đến giá cả trong thị trường chứng khốn
⇒Có thể dự đoán được chỉ số chứng khoán dựa trên
Tweeter
7
November 24, 2013
Tại sao chọn Tweeter?
Có thể trích xuất các nội dung tweet để đánh giá được
tâm trạng của công chúng trực tiếp, theo thời gian thực
một cách nhanh chóng và tiết kiệm
=> Phù hợp đáp ứng cho sự biến động, tăng giảm của chỉ
số chứng khoán
Tweeter là 1 trong các mạng xã hội được sử dụng phổ
biến nhất trên thế giới
=> Là 1 nguồn cấp dữ liệu có quy mô rất lớn
8
November 24, 2013
Phương pháp dự báo thị trường
chứng khoán dựa trên Tweeter của
Johan Bollen và cộng sự
Các bước
Ưu và nhược điểm
9
November 24, 2013
Dữ liệu
Nguồn dữ liệu:
9.83.498 Tweet trên trang Tweeter, được post bởi gần 2.7
triệu người dùng trong các công ty trong thị trường DJIA
Các thơng tin trích xuất trong mỗi tweet gồm:
Thông tin xác định tweet
Ngày submit
Kiểu submit
Nội dung (không quá 140 ký tự)
Thời gian: 28/2/2008 – 19/12/2008
Các bước chuẩn bị dữ liệu:
Loại bỏ từ dừng, dấu chấm câu
Nhóm các tweet được submit trên cùng ngày vào 1 nhóm
Chú ý:
Chỉ quan tâm những tweet chứa tâm trạng rõ ràng của tác giả
10
November 24, 2013
Các bước
Phân tích cảm
xúc người dùng
Đo độ trễ
cảm xúc
Dự đốn
giá cổ
phiếu
11
November 24, 2013
Bước 1: Sinh chuỗi thời gian cảm xúc
(OF và GPOMS)
OpinionFinder:
Phân tích quan điểm ở mức câu
Đo cảm xúc của người dùng: tích cực hay tiêu cực
Xác định tỉ lệ tweet tích cực so với tweet tiêu cực mỗi
ngày
GPOMS:
Đo cảm xúc của người dùng trên 6 chiều khác nhau:
Calm, Alert, Sure, Vital, Kind, Happy
Đo cảm xúc người dùng thành 7 chiều
12
November 24, 2013
Bước 2: Đánh giá OF và GPOMS
13
November 24, 2013
Bước 2: Đánh giá OF và GPOMS – hồi
quy đa biến
14
November 24, 2013
Vây, các sự kiện văn hóa, xã hội có tác động lên
cảm xúc, tâm trạng của cộng đồng.
Có thể đốn được cảm xúc của cộng đồng thông
qua các tweet của mỗi cá nhân trên Tweeter
Câu hỏi đặt ra: Những tâm trạng, cảm xúc đó liên quan
gì đến sự thay đổi trong thị trường chứng khoán, cụ thể
là chỉ số DJIA?
15
November 24, 2013
Bước 3: Phân tích mối quan hệ nhân
quả giữa tâm trạng và giá DJIA
Giả thuyết: Nếu 1 biến X gây ra Y thì những thay đổi
trong X sẽ xuất hiện 1 cách hệ thống trước những thay
đổi trong Y.
=> Các giá trị trễ của X biểu hiện 1 mối tương quan có ý
nghĩa thống kê đối với Y
Áp dụng:
Tâm trạng chung của cộng đồng trên Twitter có sự tương
đồng với thị trường chứng khoán, nhưng chúng phản ánh
trước diễn biến từ 3-4 ngày chứ không phải là một kết quả
trong việc tăng giảm của thị trường.
Nếu người dùng có cảm nhận tích cực về mã chứng khốn
của 1 cơng ty thì trong 1 ngày nào đó trong tương lai, giá cổ
phiếu của cơng ty đó sẽ tăng, và ngược lại
16
November 24, 2013
Bước 3: Phân tích mối quan hệ nhân
quả giữa tâm trạng và giá DJIA (cont.)
17
November 24, 2013
Bước 3: Phân tích mối quan hệ nhân
quả giữa tâm trạng và giá DJIA (cont.)
Ý nghĩa:
Đo độ trễ cảm xúc so với chứng khoán, tức là nên đo cảm
xúc của ngày thứ bao nhiêu ( i – n) để dự đoán giá chứng
khoán ngày i (tác giả chọn giá trị này là 3 ngày))
Giá trị p-values < 0.05
=> Bác bỏ giả thuyết null: chuỗi tâm trạng của người dùng
khơng thể dự đốn được giá trị DJIA
18
November 24, 2013
Bước 4: Dự đốn thị trường chứng
khốn
Sử dụng mơ hình Self-organizing Fuzzy neural
Network(SOFNN) để dự đốn giá trị DJIA trên 2 tập
đầu vào:
Giá trị DJIA 3 ngày trước
Các hoán vị khác nhau của chuỗi cảm xúc
Để dự đoán giá trị DJIA ngày t, đầu vào cho SOFNN
gồm:
Các giá trị DJIA
Các giá trị đo tâm trạng của n ngày trước
19
November 24, 2013
Bước 4: Dự đoán thị trường chứng
khoán (cont.)
Tác giả thử 7 hoán vị của các biến đầu vào đối với mơ hình
SOFNN:
IOF = {DJIAt-3, 2,1 , XOF, t-3,2,1}
Trong đó:
DJIA t-3,2,1: giá trị DJIA và X1,t-3,2,1: giá trị chiều 1 của tâm
trạng được đo bởi GPOMS tại thời điểm t-3, t-2, t-1
I1,3; I1,4; I1,5; I1,6: kết hợp giữa giá trị DJIA trong quá khớ
với chiều 3, 4, 5 , 6 tại thời giẩm t-3, t-2, t-1
20
November 24, 2013
Bước 4: Dự đoán thị trường chứng
khoán (cont.)
Kết quả:
Kết luận:
Cảm xúc được đo bởi OF là không hiệu quả
Ngồi Calm, tác giả tìm thấy độ chính xác cao nhất với I1
Happy khơng có mối quan hệ nhân quả Granger tốt nhưng
khi kết hợp với Caml thì dự đốn chính xác hơn
21
November 24, 2013
Ưu và nhược điểm
Ưu điểm:
Độ chính xác khá cao
Nhược điểm:
Chỉ dự đoán được sự tăng, giảm của thị trường chứng
khoán
Chưa giới hạn được vùng địa lý và ngôn ngữ
Với những sự kiện xảy ra đột ngột (Ví dụ Steve Job mất ,
…) thì độ trễ 3 ngày là quá lớn để dự đoán chứng khoán
22
November 24, 2013
Phương pháp đề xuất
Mơ hình
Phân lớp SVM-kNN
Dự báo thị trường chứng khoán
23
November 24, 2013
Mơ hình
Điểm khác biệt
Tập từ POMS:
J.Bollen: Mở rộng dựa trên n-gram theo Google
Đề xuất: Kết hợp mở rộng dựa trên n-gram theo Google
và tập các từ đồng nghĩa.
Dự đoán chỉ số DJIA:
J.Bollen: dùng Mạng noron mờ tự tổ chức (SOFNN)
Đề xuất: Áp dụng phương pháp phân lớp bán giám sát
SVM-kNN hoặc EM hoặc …