Tải bản đầy đủ (.pdf) (12 trang)

Nghiên cứu khai phá dữ liệu và ứng dụng phân tích xu thế thị trường chứng khoán

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.23 MB, 12 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TR N T

NG
N
P NT

U
UT

P
T

NGỌ

ỆU V
TRƢỜNG

NG
NG

LUẬN VĂN T Ạ SĨ HỆ THỐNG THÔNG TIN

HÀ NỘI – 2015

NG
O N



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TR N T

NG
N
P NT

U
UT

P
T

NGỌ

ỆU V
TRƢỜNG

NG
NG

NG
O N

Ngành: H thống th ng tin
Chuyên ngành: H thống thông tin
Mã số: 60 48 01 04


LUẬN VĂN T Ạ SĨ HỆ THỐNG THÔNG TIN

NGƢỜ

ƢỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM

HÀ NỘI – 2015


1



M ĐO N

T i xin cam đoan luận văn “Nghiên cứu khai phá dữ li u và ứng dụng phân tích
xu thế thị trường chứng khoán" là c ng trình nghiên cứu của riêng t i. Các số li u, kết
quả được trình bày trong luận văn là hoàn toàn trung thực và chưa được c ng bố trên
bất cứ c ng trình nào khác. T i đã trích dẫn đầy đủ các tài li u tham khảo, c ng trình
nghiên cứu liên quan. Ngoại trừ các tài li u tham khảo này, luận văn hoàn toàn là
nghiên cứu của riêng t i.
Luận văn được hoàn thành trong thời gian t i là học viên tại Khoa C ng ngh
th ng tin, Trường Đại học C ng ngh , Đại học Quốc gia Hà Nội.
Hà Nội, ngày 18 tháng 10 năm 2015
ọc viên

Tr n T

c N ọc



2



ẢM ƠN

Lời đầu tiên, t i xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS.
Nguyễn Hà Nam đã tận tình hướng dẫn t i trong suốt quá trình thực hi n luận văn tốt
nghi p.
T i xin trân trọng cảm ơn các Thầy, C giáo đã tận tình chỉ dạy, cung cấp cho t i
những kiến thức quý báu và lu n nhi t tình giúp đỡ, tạo điều ki n thuận lợi nhất trong
suốt quá trình t i học tập tại Trường Đại học C ng ngh .
T i xin gửi lời cảm ơn tới các bạn trong nhóm do thầy Nguyễn Hà Nam hướng
dẫn đã lu n sát cánh và hỗ trợ cho t i trong suốt quá trình học tập cũng như quá trình
làm luận văn.
Cuối cùng, t i muốn được gửi lời cảm ơn tới gia đình, đồng nghi p và bạn bè,
những người lu n bên cạnh, động viên và tạo điều ki n tốt nhất cho t i trong suốt quá
trình học tập và thực hi n luận văn tốt nghi p.
T i xin chân thành cảm ơn!


3

M
LỜI CAM ĐOAN ....................................................................................................................... 1
LỜI CẢM ƠN............................................................................................................................. 2
MỤC LỤC .................................................................................................................................. 3
AN


MỤC

AN

MỤC ẢN

MỞ Đ

N

............................................................................................................ 5
I

........................................................................................................ 6

.................................................................................................................................... 7

1.

Đ tv n

2.

M c tiêu n

3.

Đối tƣợng nghiên c u. ............................................................................................................7

4.


P ƣơn p áp n

...............................................................................................................................7
iên c u ..............................................................................................................7

iên c u. ......................................................................................................7

u tr c uận văn ..................................................................................................................8

5.

Ch
g
N Q AN
R ỜN C
N
O N
C C Ỹ THUẬT
TRUY N THỐNG ..................................................................................................................... 9
1.1.

T

trƣờn c

n

oán .......................................................................................................9


1.2.

Một số kỹ thuật cơ bản dùng trong th trƣờng ch ng khoán. ..........................................10

1.2.1.
Phân tích kỹ thuật (Technical Analysis). ..................................................................................... 10
1.2.1.1. Biểu đồ dạng đường (Line chart). ........................................................................................... 11
1.2.1.2. Biểu đồ dạng then chắn (Bar chart). ....................................................................................... 11
1.2.1.3. Biểu đồ cây nến (Candlestick chart). ...................................................................................... 11
1.2.2.
Một số chỉ báo kỹ thuật cơ bản Technical Indicator . ................................................................ 12
1.2.2.1. Tính hội tụ và phân k của đường trung bình động MACD (Moving Average Convergence
Divergence). ............................................................................................................................................. 12
1.2.2.2. MACD – Histogram. ............................................................................................................... 12
1.2.2.3. Dải băng Bollinger. ................................................................................................................. 13
1.2.2.4. Chỉ số sức mạnh tương đối RSI (Relative Strength Index). .................................................... 13
1.2.2.5. Aroon. ..................................................................................................................................... 14

1.3.

Kỹ thuật dự báo nâng cao....................................................................................................14

1.3.1.
Phân tích hồi quy (Regression Analysis)..................................................................................... 14
1.3.1.1. H số tương quan coefficient correlation . ............................................................................ 14
1.3.1.2. H số xác định coefficient of determination . ........................................................................ 15
1.3.2.
Mô hình RIM
utoRegressive Integrated Moving verage . .............................................. 15
1.3.2.1. Quá trình AR(p). ..................................................................................................................... 16

1.3.2.2. Quá trình MA(q). .................................................................................................................... 16
1.3.2.3. Mô hình ARMA. ..................................................................................................................... 16
1.3.2.4. Quá trình tích hợp I(d). ........................................................................................................... 17
1.3.2.5. M hình RIM p,d,q t ng quát. ......................................................................................... 17

t uận ................................................................................................................................18

1.4.

Ch

g

2.1.

AI P

I

C C Ỹ THUẬT PHÂN TÍCH DỰ BÁO. .............. 19

Khai phá tri th c và khai phá dữ liệu. ...............................................................................19

2.1.1.
2.1.2.

Khai phá tri thức. ......................................................................................................................... 19
Khai phá dữ li u. ......................................................................................................................... 20



4
2.1.2.1.
2.1.2.2.

2.2.

Mạng Neural nhân tạo (Artificial Neural Network). ........................................................22

2.2.1.
2.2.2.
2.2.3.
2.2.4.
2.2.5.

2.3.

Phân lớp. ................................................................................................................................. 20
Đánh giá m hình phân lớp. .................................................................................................... 21
Kiến trúc mạng Neural ................................................................................................................ 22
Mạng Perceptron. ........................................................................................................................ 23
Mạng MLP .................................................................................................................................. 24
Huấn luy n mạng Neural............................................................................................................. 25
Thuật toán lan truyền ngược (Back Propagation)........................................................................ 26

P ƣơn p áp ensemb e .......................................................................................................28

2.3.1.
2.3.2.
2.3.3.


Giới thi u phương pháp ensemble ............................................................................................... 28
Kỹ thuật Bagging ........................................................................................................................ 29
Kỹ thuật Boosting ....................................................................................................................... 29

t uận .................................................................................................................................31

2.4.

Ch
g P
ƠN P P IẢI Q
O N Ự
O
R ỜN C
N
3.1.

Xây dựn b i toán dự báo t

trƣờn c

ỰC N I M
Đ N
I C O
I
O N ............................................................. 32
n

oán .........................................................32


3.1.1.
Mô tả bài toán.............................................................................................................................. 32
3.1.1.1. Tính khả thi của bài toán. ........................................................................................................ 32
3.1.1.2. C ng cụ hỗ trợ giải quyết bài toán. ......................................................................................... 32
3.1.2.
Quy trình giải quyết bài toán. ...................................................................................................... 32
3.1.2.1. Thu thập dữ li u. ..................................................................................................................... 33
3.1.2.2. Tiền xử lý dữ li u. ................................................................................................................... 34
3.1.2.3. T chức dữ li u. ...................................................................................................................... 34
3.1.2.4. Huấn luy n m hình. ............................................................................................................... 35
3.1.2.5. Đánh giá m hình và nhận x t kết quả. ................................................................................... 35

3.2.

M

n

3.3.

Thực nghiệm. ........................................................................................................................36

xu t. ...................................................................................................................35

3.3.1.
Mô hình ARIMA. ........................................................................................................................ 36
3.3.2.
M hình mạng neural truyền thống. ............................................................................................ 37
3.3.2.1. Thực hi n dự đoán theo chu k T+1. ...................................................................................... 37
3.3.2.2. Thực hi n dự đoán theo chu k T+4. ...................................................................................... 39

3.3.3.
Cải tiến 1: M hình mạng neural và b sung một số chỉ báo kỹ thuật. ....................................... 42
3.3.3.1. Phân lớp. ................................................................................................................................. 42
3.3.3.2. Hồi quy. .................................................................................................................................. 43
3.3.4.
Cải tiến 2: Mạng neural có thêm các chỉ báo và sử dụng phương pháp ensemble. ..................... 47
3.3.4.1. Phân lớp. ................................................................................................................................. 47
3.3.4.2. Hồi quy. .................................................................................................................................. 47

3.4.

P

ntc

3.5.

K t luận. ................................................................................................................................51

..............................................................................................................................49

K T LUẬN .............................................................................................................................. 52
I I

AM

ẢO ........................................................................................................ 53


5


N

M

N

V

Hình 1.1: Biểu đồ dạng đường. ..............................................................................................................11
Hình 1.2: Biểu đồ dạng then chắn. .........................................................................................................11
Hình 1.3. Biểu đồ dạng cây nến. ............................................................................................................11
Hình 2.1: Phương pháp Holdout trong bài toán phân lớp. .....................................................................22
Hình 2.2: Mạng truyền thẳng. ................................................................................................................22
Hình 2.3: Mạng phản hồi........................................................................................................................23
Hình 2.4: M hình một Perceptron.........................................................................................................23
Hình 2.5: M hình mạng MLP. ..............................................................................................................25
Hình 2.6: M hình quá trình huấn luy n mạng MLP b ng thuật toán lan truyền ngược. ......................26
Hình 2.7: Giải thuật thuật toán lan truyền ngược. ..................................................................................27
Hình 2.8: Phương pháp Ensemble. .........................................................................................................28
Hình 3.1: Quy trình giải quyết bài toán. .................................................................................................32
Hình 3.2: M hình mạng Neural trong giải quyết bài toán dự báo chứng khoán. ..................................33
Hình 3.3: M hình đề xuất: Mạng Neural có b sung thêm các chỉ báo kỹ thuật. .................................35
Hình 3.4: M hình đề xuất: Mạng neural có thêm các chỉ báo và sử dụng phương pháp ensemble. .....36
Hình 3.5: Luồng công vi c thực nghi m. ...............................................................................................36
Hình 3.6: T l lỗi qua các lần Epoch của m hình mạng Neural. .........................................................38
Hình 3.7: T l lỗi MSE. ........................................................................................................................38
Hình 3.8: H số tương quan R. ...............................................................................................................38
Hình 3.9: T l lỗi qua các lần Epoch của m hình mạng Neural..........................................................39
Hình 3.10: Biểu đồ thống kê kết quả dự báo của mô hình mạng neural theo tiếp cận phân lớp. ...........40

Hình 3.11: T l lỗi MSE. ......................................................................................................................40
Hình 3.12: H số tương quan R. .............................................................................................................40
Hình 3.13: Biểu đồ thể hi n giá trị MSE và h số tương quan qua 20 lần kiểm nghi m. ......................41
Hình 3.14: T l lỗi qua các Epoch của m hình mạng Neural..............................................................42
Hình 3.15: Biểu đồ thống kê kết quả dự báo theo hướng tiếp cận phân lớp sau cải tiến 1. ...................43
Hình 3.16: T l lỗi MSE. ......................................................................................................................44
Hình 3.17: H số tương quan R. .............................................................................................................44
Hình 3.18: Biểu đồ thể hi n giá trị MSE và h số tương quan qua 20 lần kiểm nghi m. ......................44
Hình 3.19: H số tương quan R b ng phương pháp Ensemble cho mạng neural. ..................................48
Hình 3.20: Đồ thị giá đóng cửa thực tế và giá dự đoán..........................................................................49


6

N

M

ẢNG

U

Bảng 3.1: Dữ li u c phiếu MSFT. ........................................................................................................33
Bảng 3.2: So sánh các kết quả thực nghi m b ng m hình rima. ........................................................37
Bảng 3.3: Kết quả dự đoán b ng m hình rima. ..................................................................................37
Bảng 3.4: Kết quả phân lớp b ng mạng Neural. ....................................................................................39
Bảng 3.5: Kết quả dự đoán khi phân tích hồi quy b ng mạng Neural truyền thống. .............................41
Bảng 3.6: So sánh giá trị MAPE trung bình của nhiều mô hình. ...........................................................42
Bảng 3.7: Kết quả phân lớp b ng mạng Neural. ....................................................................................43
Bảng 3.8: Kết quả dự đoán khi phân tích hồi quy b ng mạng Neural cải tiến 1. ...................................45

Bảng 3.9: Kết quả sử dụng mạng neural để phân lớp dữ li u. ...............................................................46
Bảng 3.10: Kết quả sử dụng mạng neural để phân tích hồi quy dữ li u.................................................46
Bảng 3.11: Kết quả dự đoán của mạng Neural truyền thống và mạng Neural cải tiến 1. ......................46
Bảng 3.12: Kết quả phân lớp b ng phương pháp Ensemble cho mạng neural. ......................................47
Bảng 3.13: T ng hợp các kết quả dự đoán của nhiều mô hình thực nghi m. ........................................48
Bảng 3.14: Lời khuyên cho các nhà đầu tư chứng khoán. .....................................................................51


7

MỞ Đ U
1.

Đ tv n
Sự phát triển của công ngh thông tin và những ứng dụng công ngh thông tin

trong nhiều lĩnh vực của đời sống, kinh tế xã hội đã sản sinh ra một lượng dữ li u
kh ng lồ. Các phương pháp quản trị và khai thác dữ li u thủ công, truyền thống tỏ ra
kém hi u quả trước nhu cầu khai thác và phát hi n th ng tin có giá trị ẩn chứa trong
lượng lớn dữ li u này. Sự ra đời của các kỹ thuật mới như là khai phá tri thức
(Knowledge Discovery in Databases) và khai phá dữ li u Data Mining đã đem lại
hi u quả cao trong vấn đề khai thác và phát hi n tri thức, áp dụng trên nhiều lĩnh vực
khác nhau. Đặc bi t trong m i trường kinh doanh, người ta mong muốn có thật nhiều
thông tin hữu ích để hỗ trợ kinh doanh hi u quả. Trong đó, nhu cầu dự báo cho thị
trường chứng khoán để hạn chế rủi ro và thua lỗ được các t chức cũng như các nhà
đầu tư cá nhân đặt làm mối quan tâm hàng đầu.
Dự đoán xu thế của thị trường chứng khoán là một c ng vi c kh ng đơn giản.
Sự không tuyến tính của thị trường kèm theo sự tác động của nhiều yếu tố bên ngoài
cũng làm ảnh hưởng tới giá cả của thị trường chứng khoán. Do đó, vi c xây dựng một
h thống phân tích dự báo với các tiêu chí đầy đủ, khách quan và khoa học cả về định

tính và định lượng, cả về góc độ tài chính và phi tài chính là cần thiết.

2.

M c tiêu n

iên c u

Luận văn của tôi tập trung nghiên cứu cả hai phương pháp định tính và định
lượng với mong muốn có được một h thống dự đoán xu thế thị trường chứng khoán
đủ mạnh hỗ trợ đắc lực cho các nhà đầu tư chứng khoán.

3.

Đối tƣợn n

iên c u

Đối tượng mà luận văn của tôi nghiên cứu chính là xu thế thị trường chứng
khoán. Cụ thể, t i sử dụng giá c phiếu MSFT của công ty Microsoft Corporation thu
thập từ trang finance.yahoo.com niêm yết trên sàn NASDAQ (National Association of
Securities Dealers Automated Quotations) để tiến hành dự đoán.
4.

P ƣơn p áp n

iên c u

Luận văn tập trung vào vi c tìm hiểu m hình khai phá dữ li u và các phân tích
kỹ thuật cơ bản dùng trong lĩnh vực chứng khoán theo cả hai phương pháp định tính và

định lượng. Luận văn thực hi n vi c kết hợp mô hình khai phá dữ li u: mạng neural và
các phân tích kỹ thuật cơ bản, sử dụng phương pháp ensemble giúp gia tăng độ chính
xác cho mạng neural để đưa ra đánh giá nh m hỗ trợ các nhà đầu tư trong vi c ra quyết
định mua bán c phiếu.


8

5.

u tr c uận văn
Bố cục của bài luận văn được trình bày trong 3 chương.
ƣơn 1: Tổng quan v th trƣờn c

n

oán v các kỹ thuật truy n

thống.
Chương này trình bày một số kiến thức nền tảng về thị trường chứng khoán, các
phương pháp nghiên cứu cơ bản và những đặc trưng của thị trường chứng khoán thông
qua các biểu đồ, các chỉ báo như M CD, dải băng Bollinger, RSI, roon . Và tìm
hiểu mô hình hồi quy ARIMA chuyên dụng trong vi c dự đoán giá cả thị trường chứng
khoán.
ƣơn 2: K ai p á dữ iệu v các ỹ t uật p

n t c dự báo

T i tìm hiểu các đặc trưng cơ bản của lĩnh vực khai phá tri thức, khai phá dữ
li u và các bài toán đặc trưng trong lĩnh vực này. M hình mạng neural là một trong

những m hình khai phá dữ li u điển hình, có khả năng áp dụng cao cho bài toán phân
tích xu thế thị trường chứng khoán. Ngoài ra để gia tăng độ chính xác cho m hình
khai phá dữ li u, phương pháp ensemble được coi là một trong những giải pháp tối ưu.
Chương này chủ yếu xây dựng kiến thức nền tảng để t i tiến hành những thực nghi m
ở chương sau.
ƣơn 3: P ƣơn p áp iải quy t, thực nghiệm v
dự báo th trƣờng ch ng khoán.

án

iá c o b i toán

Nội dung chủ yếu của chương 3 là áp dụng các m hình đã tìm hiểu vào vi c dự
báo thị trường chứng khoán. Đầu tiên, t i tiến hành thực nghi m bài toán với mô hình
truyền thống: RIM và mạng neural. Tiếp đó t i cải tiến độ chính xác cho mạng
neural, b ng cách sử dụng bộ dữ li u chứng khoán và b sung thêm một số chỉ báo kỹ
thuật cơ bản như M CD, RSI, roon... Nh m gia tăng độ chính xác cho m hình
mạng neural tôi tiếp tục cải tiến lần 2 với kỹ thuật ensemble. Cuối cùng, tôi tiến hành
đánh giá kết quả dự đoán của từng mô hình để tìm ra lời khuyên tin cậy nhất cho các
nhà đầu tư, nhà kinh doanh chứng khoán.


53

T

ỆU T

M


ẢO

Ti n việt:
1. Nguyễn Trọng Hoài, Phùng Thanh Bình, Nguyễn Khánh Duy, (2009), Dự Báo và
Phân Tích Dữ Liệu trong Kinh Tế và Tài Chính, NXB Thống Kê.
2. Nguyễn Minh Phong, 2007 , "Nhận di n rủi ro trong đầu tư chứng khoán," ạp h
ài h nh
5 511 .
3. Hà Quang Thụy, 2013 , ài giảng nhập m n h i phá dữ liệu, Đại học C ng Ngh ĐHQG Hà Nội.

Ti n an :
4. E. Barnard, L. Wessels, (1992), "Avoiding False Local Minima by Proper
Initialization of Connections", IEEE Trans. on Neural Networks, vol. 3, no. 6, pp. 809905.
5. E. Bauer, R. Kohavi, 1999 , “ n empirical comparison of voting classification
algorithms: Bagging, Boosting and variants”, Machine Learning 36 (1-2) (1999), pp.
105-139.
6. G. Box, G. Jenkins, (1970), Time series analysis: Forecasting and control, Wiley,
San Francisco.
7. Samprit A. Chattefuee, Ali S. Hadi, (2006), Regression Analysis by Example, Fourth
Edition, Wiley Interscience, Canada, pp. 1, 21-44.
8. H. Demuth, M. Beale, (1998), Neural network toolbox for use with MATLAB, The
MathWorks Inc., Massachusetts, USA.
9. H. Drucker, R. Schapire, P. Simard, 1993 , “Improving performance in neural
networks using a boosting algorithm”, Advances in Neural Information Processing
Systems 5, California, pp. 42-49.
10. B. Efron, R. Tibshirani, (1993), An Introduction to the Bootstrap, Chapman &
Hall, New York.
11. David Hand, Heikki Mannila, Padhraic Smyth, (2001), Principles of Data Mining,
MIT Press, Massachusetts.
12. L.K. Hansen, P. Salamon, “Neural network ensembles”, 1990 , IEEE Trans.

Pattern Analysis and Machine Intelligence 12 (10) 993-1001.
13. Rob J Hyndman, George Athanasopoulos, (2014), Forecasting: principles and
practice, OTexts, Australia, pp. 63-77.
14. Kiyoshi Kawaguchi, (2000), A multithreaded software model for backpropagation
neural network applications, MSc. Thesis, The University of Texas at El Paso.


54

15. Zabir Haider Khan, Tasnim Sharmin Alin, Md. Akter Hussain, (2011), "Price
prediction of share market using Artificial Neural Network (ANN)", International
Journal of Computer Applications (0975 – 8887), Volume 22, No.2.
16. Rushi Longadge, (2013), "Class Imbalance Problem in Data Mining: Review",
International Journal of Computer Science and Network, vol. 2, no. 1.
17. Jian Pei, Jiawei Han, Micheline Kamber, (2006), Data Mining: Concepts and
Techniques, 2rd edition, Morgan Kaufmann, pp. 327-337.
18. Jian Pei, Jiawei Han, Micheline Kamber, (2011), Data Mining: Concepts and
Techniques, 3rd edition, Morgan Kaufmann, pp. 377-38.
19. Mariela Qirici, Sebastian Franco, Jonathan Baiden, Craig Nesbitt, (2013), Forex
Trading and Investment, Project Report, Worcester Polytechnic Insitute, pp. 38-55.
20. Saed Sayad, (2015), artificial neural network,
/>21. Neural Network Toolbox (version 8.2.1 – R2014b),
/>22. Joaquín Torres Sospedra, 2011 , Ensembles of Artificial Neural Network and
development of design methods, Ph.D Thesis, The Universitat Jaume in Spanish.
23. Dave Touretzky and Kornel Laskowski, 2006 , “Neural Networks for Time Series
Prediction”, 15-486/782: Artificial Neural Network, School of Computer Science,
Carnagie Mellon.
24. Kuo-Cheng Tseng, Ojoung Kwon, Luna C. Tjung, (2012), "Time series and neural
network forecast of daily stock prices", Investment Management and Financial
Innovations, vol. 9, no. 1.

25. Zhi-Hua Zhou, Jianzin u, ei Tang, 2002 , “Ensembling neural networks:
Many could be better than all”, Artificial Intelligence 137(1-2), pp 239-263.



×