TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ HỮU DŨNG
ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG DỰ BÁO BIẾN
ĐỘNG THỊ TRƢỜNG CHỨNG KHOÁN VIỆT NAM
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
HÀ N 2013
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ HỮU DŨNG
ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG DỰ BÁO BIẾN
ĐỘNG THỊ TRƢỜNG CHỨNG KHOÁN VIỆT NAM
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. NGUYỄN VĂN HÙNG
- 2013
2
MỤC LỤC
2
4
5
6
8
8
1.1.1 Khái niệm về biến động 8
1.1.2 Ứng dụng của biến động 9
1.1.3 Tính độ biến động 10
1.1.4 Biến động của thị trường chứng khoán Việt Nam 12
14
1.2.1 Khái niệm khai phá dữ liệu 14
1.2.2 Quá trình khai phá dữ liệu 15
1.2.3 Các phương pháp khai phá dữ liệu 16
1.2.4 Các ứng dụng của khai phá dữ liệu 17
18
1.3.1 Khái niệm dự báo 18
1.3.2 Ý nghĩa của dự báo 18
1.3.3 Phân loại dự báo 18
1.3.4 Các bước thực hiện dự báo: 19
20
20
2.1.1 Khái niệm về dự báo biến động 20
2.1.2 Phạm vi dự báo 20
2.1.3 Một số tiêu chí dự báo 21
3
2.1.4 Phân loại các mô hình dự báo biến động 22
2.2 Mô hình ARCH/GARCH 22
25
2.3.1 Khái niệm mạng nơ ron nhân tạo 25
2.3.2 Mô hình mạng nơ ron nhân tạo 27
2.3.3 Học của mạng nơ ron nhân tạo 30
2.3.4 Mạng nơ ron lan truyền và giải thuật lan truyền ngược 30
40
2.4.1 Tổng quan về máy vector hỗ trợ 40
2.4.2 Huấn luyện máy vector hỗ trợ 43
2.4.3 Hồi quy vector hỗ trợ 44
2.4.4 Hồi quy vector hỗ trợ với hàm nhân 46
47
47
3.1.1 Chuẩn bị dữ liệu 47
3.1.2 Ngôn ngữ sử dụng 51
3.1.3 Lựa chọn tiêu chí đánh giá mô hình 51
51
3.2.1 Dự báo bằng mô hình ARCH/GARCH 51
3.2.2 Dự báo bằng mô hình mạng nơ ron 52
3.2.3 Dự báo bằng mô hình hồi quy vector hỗ trợ 53
54
56
56
56
57
4
DANH SÁCH CÁC HÌNH VẼ
10
Hình 1.2. 10
13
14
(trên 40%) 14
16
23
27
30
30
31
33
34
36
Hình 2.9: Vector 42
tính 46
49
tra 49
50
Hình 3.4HNX 50
Hình 3.5HNXtra 51
NXINDEX 51
5
DANH SÁCH CÁC BẢNG
/2013 51
52
53
51
53
54
54
54
54
54
55
55
55
6
MỞ ĐẦU
cho các nhà
và
vì .
mình.
Tuy nhiên,
[
1
].
Ứng dụng khai phá dữ liệu trong dự báo biến động thị
trƣờng chứng khoán Việt Nam
mô hình o
m.
:
,
,
1
7
:
Chƣơng 1: Cơ sở lý thuyết
theo dõi .
.
Chƣơng 2: Ứng dụng khai phá dữ liệu dự báo biến động thị trƣờng
chứng khoán
.
Chƣơng 3: Thực nghiệm và đánh giá
các ,
HNXINDEXt
8
CHƢƠNG 1: CƠ SỞ LÝ THUYẾT
Trong c
,
1.1 Biến động của thị trƣờng chứng khoán
1.1.1Khái niệm về biến động
Theo Torben G. Andersen, Tim Bollerslev, Francis X. Diebold và Heiko
EbensBiến động của thị trường tài chính là trọng tâm của các nghiên cứu
mang tính lý thuyết cũng như thực nghiệm về định giá tài sản vốn, phân bổ tài
sản và quản lý rủi ro [17].
.
.
ro
b
c
9
σ
Hình 1.1: B.
Hình 1.2: B
1.1.2 Ứng dụng của biến động
- trong các
-
- Value at Risk)
10
-
chính. - Modern
Portfolio Theory
1.1.3 Tính độ biến động
P có giá
hàng ngày là P
t
t
> 0. L
P
t
= ln
1
sau[20]:
2
Bƣớc 1 :
= ln
1
i
, và P
i-1
i và i-1
Bƣớc 2
=
1
1
2
=1
là giá r
t
2
11
Bƣớc 3
=
Trong .
2
sau:
3
Parkinson (1980):
Garman Klass (1980):
Rogers and satchell (1991):
Trong
-
- o
i
- h
i
- l
i
- c
i
3
12
1.1.4 Biến động của thị trường chứng khoán Việt Nam
Theo hãng Reuters
4
.
Hình 1.3: Bchâu Á
Hay t trang web
,
(
5
).
4
5
13
Hình 1.4: So sánh biVNINDEX
Hình 1.5: (trên 40%)
Qua các hình INDEX trong
cao. 7
.N
2
14
1.2 Tổng quan về khai phá dữ liệu
1.2.1 Khái niệm khai phá dữ liệu
các
Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói
tri thức
-
text mining, web mining .
“Khai phá dữ liệu là quá trình tìm kiếm, phát hiện các tri thức mới, hữu
ích tiềm ẩn trong cơ sở dữ liệu lớn”.
15
KDD)
KDD.
1.2.2 Quá trình khai phá dữ liệu
Hình 1.6
Trích lọc dữ liệu
Tiền xử lý dữ liệu
histograms
16
Biến đổi dữ liệuc chun hóa và làm mn d li liu
v dng thun li nht nhm phc v vic áp dng các k thut khai
phá c sau.
Khai phá dữ liệu c áp dng nhng k thut phân tích (phn
nhiu là các k thut hc máy) nhm khai thác d liu, trích lc nhng
mu tin (information patterns), nhng mi quan h c bit trong d
lic quan trng và tiêu tn thi gian nht ca
toàn b quá trình KDD.
Đánh giá và biểu diễn tri thức: Nhng mu thông tin và mi quan h
trong d lic phát hin c khai phá d lic chuyn
sang và biu din dng gi s d th, cây,
bng biu, lung thng tri thc
c theo nhng tiêu chí nhnh.
1.2.3Các phương pháp khai phá dữ liệu
Kỹ thuật mô tả: Các nhim v mô t vcác tính cht hoc c tính
chung ca d liu trong CSDL hin có. Các k thut này gm có: phân
cm (clustering), tóm tt (summerization), trc quan hóa (visualiztion),
phân tích s phát tri lch (Evolution and deviation analysis),
phân tích lut kt h
Kỹ thuật dự đoán: Có nhim v a vào các suy
din trên d liu hin thi. Các k thut này gm: Phân lp
(classification), h
c
Phân lớp và dự đoán (classification and prediction) : Là vic xp các
ng vào nhng lc. Ví d, phân lp các bnh nhân,
phân lp các loài thc vng tip cng s dng mt
s k thut ca hnh (decision tree), m-
ron nhân to (neural network), . Phân lp và d c gi là
hc có giám sát.
17
Phân cụm (clustering/segmentation) : Là vic xng theo
tng cm t nhiên.
Luật kết hợp (association rules) : Là vic phát hin các lut biu din
tri thi dn. Ví d gii vào siêu th mua
phn thì có ti 80% trong s h
Phân tích hồi quy (regression analysis) : Là vic hc mt hàm ánh x
t mt tp d liu thành mt bin d thc. Nhim v ca
phân tích h a phân lm khác nhau là ch
thuc tính d báo là liên tc ch không phi ri rc.
Phân tích các mẫu theo thời gian (sequential/temporal patterns) :
t kt hn tính th t
theo thi gian.
Mô tả khái niệm (concept description and summarization) : Thiên về
mô t, tng hp và tóm tt các khái nim. Ví d tóm tn.
1.2.4Các ứng dụng của khai phá dữ liệu
kh
18
khai phá
1.3Tổng quan về dự báo
1.3.1 Khái niệm dự báo
ai[4].
1.3.2 Ý nghĩa của dự báo
-
-
-
1.3.3 Phân loại dự báo
a. Dựa vào thời gian
Dự báo ngắn hạn
Dự báo trung hạn
Dự báo dài hạn
19
b. Dựa theo kết quả
Dự báo điểm
Dự báo khoảng
c. Dựa theo đối tƣợng dự báo
Dự báo khoa học
Dự báo kinh tế
Dự báo xã hội
Dự báo tự nhiên, thiên văn học
1.3.4 Các bước thực hiện dự báo:
20
CHƢƠNG 2: ỨNG DỤNG KHAI PHÁ DỮ LIỆU DỰ BÁO BIẾN
ĐỘNG THỊ TRƢỜNG CHỨNG KHOÁN
khoán.
.
2.1 Dự báo biến động
2.1.1 Khái niệm về dự báo biến động
t
-
t
[13,14].
-
t
- hàm f
2.1.2 Phạm vi dự báo
-
ro.
-
-
21
g ngày
2.1.3 Một số tiêu chí dự báo
t
-
t
t
, vì
Mt s hàm sai s f(
1. trung bình ME (Mean Error)
2. MSE (Mean Square Error)
3. RMSE (Root Mean Square Error)
4. MAE (Mean Absolute Error)
5. MAPE (Mean Absolute Percent Error)
22
2.1.4Phân loại các mô hình dự báo biến động
Hình 2.1:
2.2 Mô hình ARCH/GARCH
Mô hình ARCH/
GRACH
Mô hình ARCH[13,14](Autoregressive Conditional Heteroskedasticity)
(Generalized Autoregressive
Conditional Heteroskedasticity) .
23
Mô hình phi
=
,
1
,
2
,
+
2
1
,
2
,
(2.1)
2
.
a. Mô hình ARCH(q)
[13,14]:
= +
=
2
=
0
+
2
=1
(2.2)
-
là
-
-
-
-
0
,
,
0
> 0 và
0, i>0
Mô hình ARC
thiêntheo
-
hay likelihood ratio test), tuy
24
-
(ARCH (4)).
-
mô hình ARCH.
b. Mô hình GARCH
Mô hình Bollerslev (1986) và
Taylor (1986). Mô hình GRACH[11,13,14]
2
=
0
+
2
+
2
(2.3)
2
t
0
)
2
1
2
).
= +
=
2
=
0
+
2
=1
+
2
=1
(2.4)
Trong
-
là