Tải bản đầy đủ (.ppt) (31 trang)

Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (445.53 KB, 31 trang )

Dự báo thị trường chứng khoán dựa trên khai
phá dữ liệu Tweeter
Học viên: Phạm Huyền Trang
GV hướng dẫn: PGS. TS Hà Quang Thụy

1

November 24, 2013


Nội dung chính
 Giới thiệu
 Các nghiên cứu liên quan
 Nghiên cứu của J.Bollen về Dự báo thị trường chứng khoán dựa

trên Tweeter
 Kết luận
 Định hướng nghiên cứu

2

November 24, 2013


INTRODUCTION
 Bài toán dự báo thị trường chứng khoán
Bài toán dự báo thị trường chứng khoán dựa trên Tweeter

3

November 24, 2013




Có thực sự dự đốn được thị trường
Có thực sự dự đoán được thị trường
chứng khoán?
chứng khoán?

Nguyên lý Bước đi ngẫu
nhiên (Walk random)
và giả thuyết Thị trường
hiệu quả
(Efficient Market)
-Không thể dự đốn thị
trường chứng khốn

4

Lý thuyết phân tích
cổ phiếu
(Chartist theory)
- Có thể dự đốn được dựa
vào q khứ

November 24, 2013


Các nghiên cứu liên quan
 2005, Gruhl và cộng sự đã nghiên cứu cách làm thế nào để hoạt









5

động chat online có thể dự đốn được việc bán sách
2006, Mishne và Rijke sử dụng các đánh giá của các quan điểm
được thể hiện trên blog để dự đoán việc bán phim
2007, Liu và cộng sự dự đoán việc bán các sản phẩm sử dụng mơ
hình phân tích ngữ nghĩa ẩn xác suất (PLSA) để trích xuất các chỉ sổ
của quan điểm từ các blog.
2009, Schumaker và Chen điều tra mối quan hệ giữa các tin tức về
công ty phá sản với sự thay đổi về giá cả trong thị trường
2010, Asur và Huberman chỉ ra rằng những quan điểm liên quan đến
các phim được thể hiện công khai trên Tweeter thực sự có thể dự
đốn được doanh thu phịng vé
Gần đây, 2011, Johan Bollen và cơng sự đã có nghiên cứu chỉ ra
rằng có thể dự đốn thị trường chứng khốn dựa trên các Tweet của
các cơng ty trong thị trường chứng khốn, với độ chính xác lên đến
> 85%
November 24, 2013


Dự báo thị trường chứng khoán
 Kinh tế học hành vi chỉ ra rằng:
 Cảm xúc có thể ảnh hưởng đến các hành vi của cá nhân và trong


việc đưa ra 1 quyết định nào đó
 Các quyết định tài chính được thúc đẩy bởi cảm xúc và tâm trạng
của con người
⇒ Giả thuyết: Tâm trạng, cảm xúc có thể ảnh hưởng đến giá trị

chứng khoán tương đương với việc các tin tức ảnh hưởng đến thị
trường chứng khoán

 Bài toán dự báo thị trường chứng khoán chia thành 2 loại:
 Dự báo chỉ số chứng khoán sẽ tăng hay giảm
 Dự báo chỉ số chứng khoán sẽ tăng lên bao nhiêu hoặc giảm xuống

bao nhiêu

 Ý nghĩa của bài toán:
 Giúp các nhà đầu tư đưa ra được các quyết định đầu tư tức thời =>
6

đem lại lợi nhuận cao cho các nhà đầu tư

November 24, 2013


Dự báo thị trường chứng khoán dựa
trên Tweeter
 Cộng đồng sử dụng và chia sẻ trạng thái của mình trên

Twitter cho biết họ đang cảm thấy như thế nào về ngày
hơm đó
⇒dẫn dắt các quyết định mua bán trên thị trường

⇒ảnh hưởng đến giá cả trong thị trường chứng khốn
⇒Có thể dự đoán được chỉ số chứng khoán dựa trên
Tweeter

7

November 24, 2013


Tại sao chọn Tweeter?
 Có thể trích xuất các nội dung tweet để đánh giá được

tâm trạng của công chúng trực tiếp, theo thời gian thực
một cách nhanh chóng và tiết kiệm
=> Phù hợp đáp ứng cho sự biến động, tăng giảm của chỉ
số chứng khoán
 Tweeter là 1 trong các mạng xã hội được sử dụng phổ

biến nhất trên thế giới
=> Là 1 nguồn cấp dữ liệu có quy mô rất lớn

8

November 24, 2013


Phương pháp dự báo thị trường
chứng khoán dựa trên Tweeter của
Johan Bollen và cộng sự
 Các bước

Ưu và nhược điểm

9

November 24, 2013


Dữ liệu
 Nguồn dữ liệu:
 9.83.498 Tweet trên trang Tweeter, được post bởi gần 2.7

triệu người dùng trong các công ty trong thị trường DJIA
 Các thơng tin trích xuất trong mỗi tweet gồm:





Thông tin xác định tweet
Ngày submit
Kiểu submit
Nội dung (không quá 140 ký tự)

 Thời gian: 28/2/2008 – 19/12/2008

 Các bước chuẩn bị dữ liệu:
 Loại bỏ từ dừng, dấu chấm câu
 Nhóm các tweet được submit trên cùng ngày vào 1 nhóm
 Chú ý:
 Chỉ quan tâm những tweet chứa tâm trạng rõ ràng của tác giả

10

November 24, 2013


Các bước
Phân tích cảm
xúc người dùng

Đo độ trễ
cảm xúc

Dự đốn
giá cổ
phiếu
11

November 24, 2013


Bước 1: Sinh chuỗi thời gian cảm xúc
(OF và GPOMS)
 OpinionFinder:
 Phân tích quan điểm ở mức câu
 Đo cảm xúc của người dùng: tích cực hay tiêu cực
 Xác định tỉ lệ tweet tích cực so với tweet tiêu cực mỗi

ngày

 GPOMS:

 Đo cảm xúc của người dùng trên 6 chiều khác nhau:

Calm, Alert, Sure, Vital, Kind, Happy

 Đo cảm xúc người dùng thành 7 chiều
12

November 24, 2013


Bước 2: Đánh giá OF và GPOMS

13

November 24, 2013


Bước 2: Đánh giá OF và GPOMS – hồi
quy đa biến

14

November 24, 2013


Vây, các sự kiện văn hóa, xã hội có tác động lên
cảm xúc, tâm trạng của cộng đồng.
Có thể đốn được cảm xúc của cộng đồng thông
qua các tweet của mỗi cá nhân trên Tweeter
Câu hỏi đặt ra: Những tâm trạng, cảm xúc đó liên quan

gì đến sự thay đổi trong thị trường chứng khoán, cụ thể
là chỉ số DJIA?

15

November 24, 2013


Bước 3: Phân tích mối quan hệ nhân
quả giữa tâm trạng và giá DJIA
 Giả thuyết: Nếu 1 biến X gây ra Y thì những thay đổi

trong X sẽ xuất hiện 1 cách hệ thống trước những thay
đổi trong Y.
=> Các giá trị trễ của X biểu hiện 1 mối tương quan có ý
nghĩa thống kê đối với Y
 Áp dụng:
 Tâm trạng chung của cộng đồng trên Twitter có sự tương

đồng với thị trường chứng khoán, nhưng chúng phản ánh
trước diễn biến từ 3-4 ngày chứ không phải là một kết quả
trong việc tăng giảm của thị trường.
 Nếu người dùng có cảm nhận tích cực về mã chứng khốn
của 1 cơng ty thì trong 1 ngày nào đó trong tương lai, giá cổ
phiếu của cơng ty đó sẽ tăng, và ngược lại
16

November 24, 2013



Bước 3: Phân tích mối quan hệ nhân
quả giữa tâm trạng và giá DJIA (cont.)

17

November 24, 2013


Bước 3: Phân tích mối quan hệ nhân
quả giữa tâm trạng và giá DJIA (cont.)
 Ý nghĩa:
 Đo độ trễ cảm xúc so với chứng khoán, tức là nên đo cảm

xúc của ngày thứ bao nhiêu ( i – n) để dự đoán giá chứng
khoán ngày i (tác giả chọn giá trị này là 3 ngày))
 Giá trị p-values < 0.05

=> Bác bỏ giả thuyết null: chuỗi tâm trạng của người dùng
khơng thể dự đốn được giá trị DJIA

18

November 24, 2013


Bước 4: Dự đốn thị trường chứng
khốn
 Sử dụng mơ hình Self-organizing Fuzzy neural

Network(SOFNN) để dự đốn giá trị DJIA trên 2 tập

đầu vào:
 Giá trị DJIA 3 ngày trước
 Các hoán vị khác nhau của chuỗi cảm xúc

 Để dự đoán giá trị DJIA ngày t, đầu vào cho SOFNN

gồm:
 Các giá trị DJIA
 Các giá trị đo tâm trạng của n ngày trước

19

November 24, 2013


Bước 4: Dự đoán thị trường chứng
khoán (cont.)
 Tác giả thử 7 hoán vị của các biến đầu vào đối với mơ hình

SOFNN:
IOF = {DJIAt-3, 2,1 , XOF, t-3,2,1}

 Trong đó:
 DJIA t-3,2,1: giá trị DJIA và X1,t-3,2,1: giá trị chiều 1 của tâm

trạng được đo bởi GPOMS tại thời điểm t-3, t-2, t-1
 I1,3; I1,4; I1,5; I1,6: kết hợp giữa giá trị DJIA trong quá khớ
với chiều 3, 4, 5 , 6 tại thời giẩm t-3, t-2, t-1
20


November 24, 2013


Bước 4: Dự đoán thị trường chứng
khoán (cont.)
 Kết quả:

 Kết luận:
 Cảm xúc được đo bởi OF là không hiệu quả
 Ngồi Calm, tác giả tìm thấy độ chính xác cao nhất với I1
 Happy khơng có mối quan hệ nhân quả Granger tốt nhưng

khi kết hợp với Caml thì dự đốn chính xác hơn

21

November 24, 2013


Ưu và nhược điểm
 Ưu điểm:
 Độ chính xác khá cao

 Nhược điểm:
 Chỉ dự đoán được sự tăng, giảm của thị trường chứng

khoán
 Chưa giới hạn được vùng địa lý và ngôn ngữ
 Với những sự kiện xảy ra đột ngột (Ví dụ Steve Job mất ,
…) thì độ trễ 3 ngày là quá lớn để dự đoán chứng khoán


22

November 24, 2013


Phương pháp đề xuất
 Mơ hình
Phân lớp SVM-kNN
Dự báo thị trường chứng khoán

23

November 24, 2013


Mơ hình


Điểm khác biệt
 Tập từ POMS:
 J.Bollen: Mở rộng dựa trên n-gram theo Google
 Đề xuất: Kết hợp mở rộng dựa trên n-gram theo Google

và tập các từ đồng nghĩa.
 Dự đoán chỉ số DJIA:
 J.Bollen: dùng Mạng noron mờ tự tổ chức (SOFNN)
 Đề xuất: Áp dụng phương pháp phân lớp bán giám sát

SVM-kNN hoặc EM hoặc …



×