DỰ BÁO GIÁ CHỨNG KHỐN
CỦA NGÂN HÀNG TMCP SÀI GỊN HÀ NỘI VỚI MƠ HÌNH ARIMA
ThS. Lê Văn Hùng
Khoa Hệ thống Thơng tin Quản lý, Học viện Ngân hàng
Tóm tắt
Trong những năm gần đây bài tốn dự báo tài chính ngày càng được nhiều người
quan tâm trong bối cảnh phát triển kinh tế xã hội ở Việt Nam hiện nay. Việc đầu tư vào
thị trường chứng khốn địi hỏi nhiều kinh nghiệm và hiểu biết của các nhà đầu tư. Các
kỹ thuật khai phá dữ liệu được áp dụng nhằm dự báo sự lên xuống của thị trường là gợi
ý tốt giúp cho các nhà đầu tư có thể đưa ra quyết định giao dịch đúng đắn. Trong bài
viết này, tơi trình bày mơ hình dự báo ARIMA và thực hiện dự báo thử nghiệm cho giá
chứng khoán của ngân hàng thương mại cố phần Hà Nội Sài Gòn (SHB).
Từ khóa: dự báo, sai phân, tính dừng, ARIMA, chứng khốn, giao dịch, nhà đầu tư, AR,
MA, SHB, ACF, PACF.
1. Mở đầu
Ra đời vào đầu năm 2000, thị trường chứng khoán Việt Nam đã trở thành một
kênh đầu tư hết sức hấp dẫn đối với các nhà đầu tư, từ các tổ chức đầu tư chuyên nghiệp
cho đến các nhà đầu tư cá nhân nghiệp dư nhỏ lẻ. Tuy nhiên, bên cạnh mức sinh lợi cao,
đây cũng là hoạt động luôn tồn tại nhiều rủi ro tiềm ẩn bởi nhà đầu tư khơng phải lúc
nào cũng dự đốn được chính xác xu hướng của giá cổ phiếu trong tương lai. Do đó,
việc dự báo chính xác sự biến động giá của cổ phiếu để có một sách lược nhằm phục vụ
cho công việc kinh doanh của các cá nhân, tổ chức hay hoạch định chiến lược của một
quốc gia đã thu hút rất nhiều sự quan tâm của các nghiên cứu trong và ngoài nước.
Trong những năm gần đây, khai phá dữ liệu trong cơ sở dữ liệu đang là một xu
hướng quan trọng của nền công nghệ thông tin thế giới. Khai phá dữ liệu có khả
năng ứng dụng vào rất nhiều lớp bài toán thực tế khác nhau. Lĩnh vực tài chính nói
chung và lĩnh vực chứng khốn nói riêng lưu trữ một dữ liệu khổng lồ, bao gồm
thông tin các mã cổ phiếu, thông tin giao dịch và khối lượng giao dịch rịng, thơng
tin dữ liệu về khách hàng…
Có nhiều kỹ thuật để khai phá dữ liệu trong chứng khốn như mơ hình cây
quyết định, mơ hình mạng neural, mơ hình đa nhân tố BARRA, mơ hình chuỗi thời
gian, mơ hình ARIMA… Trong bài viết này, tơi trình bày mơ hình ARIMA để dự
báo chứng khốn. Đây là một trong những mơ hình dự báo tốt cho chứng khốn.
Ngồi khả năng dự báo với độ chính xác cao, mơ hình này cịn có ưu điểm là mềm
dẻo và thích nghi cao với mơi trường, rất thích hợp cho bài toán dự báo với chuỗi
dữ liệu thay đổi theo thời gian.
212
Các hệ thống chứng khoán thường là những hệ thống rất phức tạp vì vậy rất khó
có thể dự đốn được dữ liệu của nó. Nó phụ thuộc vào rất nhiều yếu tố trong đó có những
yếu tố khơng thể định lượng được như tâm lý, sự mù quáng của nhà đầu tư, … Mặc dù
vậy thị trường chứng khoán khơng phải là một q trình ngẫu nhiên và nó có quy luật
của nó, có thể dự đốn được. Việc tìm ra được xu hướng của thị trường chứng khốn
nhằm đưa ra những gợi ý hỗ trợ tốt cho nhà đầu tư chứng khốn.
2. Mơ hình ARIMA (AutoRegressive Integrate Moving Average)
2.1. Hàm tự tuơng quan ACF [6][8]
Hàm tự tương quan đo lường sự phụ thuộc tuyến tính giữa các cặp quan sát y (t )
và y (t k ) ứng với thời đoạn k = 1, 2, 3, … (k còn gọi là độ trễ). Với mỗi độ trễ k, hàm
tự tương quan tại độ trễ k được xác định qua độ lệch giữa các biến ngẫu nhiên Yt, Yt+k
so với các giá trị trung bình và được chuẩn hóa qua phương sai.
Giả thiết rằng các biến ngẫu nhiên trong chuỗi dừng thay đổi quanh giá trị trung bình μ
với phương sai hằng số 2 . Khi đó, hàm tự tương quan tại các độ trễ khác nhau sẽ có
giá trị khác nhau.
Trong thực tế, ta có thể ước lượng hàm tự tương quan tại độ trễ thứ k qua phép
biến đổi trung bình của tất cả các cặp quan sát, phân biệt bằng các độ trễ k, với giá trị
trung bình mẫu là μ. Khi đó, với mỗi chuỗi N điểm, giá trị rk của hàm tự tương quan tại
độ trễ thứ k được tính như sau:
rk
1
N
N k
y (t ) y(t k )
t 1
N
N
y (t )
(1)
2
t 1
N
và 2
y (t )
2
t 1
(2)
N
Nếu rk 0 thì khơng có sự tự tương quan.
2.2. Hàm tự tương quan từng phần PACF [1][4][5][6][7]
Song song với việc xác định hàm tự tương quan giữa các cặp y(t)và y(t+k) ta xác
định hàm tự tương quan từng phần cũng có hiệu lực trong việc can thiệp đến các quan
sát y t 1 ,..., y (t k 1) . Hàm tự tương quan từng phần tại độ trễ k Ckk được giải từ
phương trình hồi quy:
k
y (t k ) Cki . y (t k i ) e(t )
(3)
i 1
Ở đây e(t) là sai số ngẫu nhiên.
Giải phương trình (3) bằng phương pháp Durbin ta được:
213
k 1
rk Ck 1, j .rk j
j 1
k 1
Ckk
(4)
1 Ck 1, j .r j
j 1
(5)
Ckj Ck 1, j Ckk .Ck 1,k j
Trong đó: k 2,3,...
j 1, 2,..., k 1
C11 r1
và C22
r2 r12
1 r12
Hàm tự tương quan ACF và hàm tự tương quan từng phần PACF của chuỗi thời
gian có đặc tính khác nhau. Hàm tự tương quan ACF đo mức độ phụ thuộc tuyến tính
giữa các cặp quan sát. Hàm tự tương quan từng phần PACF đo mức độ phụ thuộc tuyến
tính từng phần. ARIMA khai thác những điểm khác biệt này để xác định cấu trúc mơ
hình cho chuỗi thời gian.
2.3. Mơ hình hồi quy AR(p) – AutoRegressive [1][6]
Căn cứ vào các số liệu quá khứ ở những chu kì trước thì y(t) được tính theo mơ
hình AR(p) như sau:
p
y (t ) a0 ai . y t i e(t )
(6)
i 1
Trong đó:
y(t) : quan sát dừng hiện tại
y(t-1), y(t-2), ... : quan sát dừng quá khứ.
a0, a1, a2, … : các tham số phân tích hồi quy.
e(t) : sai số dự báo ngẫu nhiên của giai đoạn hiện tại. Giá trị trung bình được
mong đợi của e(t) bằng 0.
Y(t) là một hàm tuyến tính của những quan sát dừng quá khứ y(t-1). y(t-2), … Nói cách
khác khi sử dụng phân tích hồi quy y(t) theo các giá trị chuỗi thời gian dừng có độ trễ,
chúng ta sẽ được mơ hình AR. Số quan sát dừng q khứ sử dụng trong mơ hình hàm
tự tương quan là bậc p của mơ hình AR. Chẳng hạn nếu ta sử dụng hai quan sát dừng
q khứ, ta có mơ hình tương quan bậc hai AR(2).
Điều kiện dừng là tổng các tham số phân tích hồi quy nhỏ hơn 1:
(7)
a1 a2 ... a p 1
2.4. Mô hình MA(q) - Moving Average [1][6]
Quan sát dừng hiện tại y(t) là một hàm tuyến tính phụ thuộc các biến sai số dự báo q
khứ và hiện tại. Mơ hình bình quân di động là một trung bình trọng số của những sai số
mới nhất.
214
q
y (t ) b0 e(t ) bi .e(t i )
(8)
i 1
Trong đó :
y(t) : quan sát dừng hiện tại
b0, b1, b2, ... : giá trị trung bình của y(t) và các hệ số bình quân di động.
q : số sai số quá khứ được dùng trong mơ hình bình qn di động, nếu ta sử dụng
hai sai số q khứ thì sẽ có mơ hình bình quân di động bậc 2 là MA(2).
Điều kiện cần là tổng các hệ số bình quân di động phải nhỏ hơn 1.
2.5. Sai phân I(d) [3][4][5][6]
Chuỗi dừng : Chuỗi thời gian được coi là dừng nếu như trung bình và phương sai
của nó khơng đổi theo thời gian và giá trị của đồng phương sai giữa hai thời đoạn chỉ
phụ thuộc vào khoảng cách và độ trễ về thời gian giữa hai thời đoạn này chứ không phụ
thuộc vào thời điểm thực tế mà đồng phương sai được tính.
Sai phân chỉ sự khác nhau giữa giá trị hiện tại và giá trị trước đó. Phân tích sai phân
nhằm làm cho ổn định giá trị trung bình của chuỗi dữ liệu, giúp cho việc chuyển đổi
chuỗi thành một chuỗi dừng.
Sai phân lần 1 (I(1)) : z(t) = y(t) – y(t-1)
(9)
Sai phân lần 2 (I(2)) : h(t) = z(t) – z(t-1)
(10)
2.6. Mơ hình ARIMA (p,q)
[1][2][3][7]
Mơ hình ARMA(p,q): là mơ hình hỗn hợp của AR và MA. Hàm tuyến tính bao
gồm những quan sát dừng quá khứ và những sai số dự báo quá khứ và hiện tại:
p
q
y (t ) a0 ai . y (t i ) e(t ) b j .e(t j )
i 1
j 1
(11)
Đối với mơ hình hỗn hợp thì dạng (p,q) = (1,1) là phổ biến. Tuy nhiên, giá trị p
và q được xem là những độ trễ cho ACF và PACF quan trọng sau cùng. Cả hai điều kiện
bình quân di động và điều kiện dừng phải được thỏa mãn trong mơ hình hỗn hợp ARMA.
Mơ hình ARIMA(p,d,q): Do mơ hình Box-Jenkins chỉ mơ tả chuỗi dừng hoặc
những chuỗi đã sai phân hóa, nên mơ hình ARIMA(p,d,q) thể hiện những chuỗi dữ liệu
không dừng, đã được sai phân (ở đây, d chỉ mức độ sai phân).
Khi chuỗi thời gian dừng được lựa chọn (hàm tự tương quan ACF giảm đột ngột
hoặc giảm đều nhanh), chúng ta có thể chỉ ra một mơ hình dự định bằng cách nghiên
cứu xu hướng của hàm tự tương quan ACF và hàm tự tương quan từng phần PACF.
Theo lý thuyết, nếu hàm tự tương quan ACF giảm đột biến và hàm tự tương quan từng
phần PACF giảm mạnh thì chúng ta có mơ hình tự tượng quan. Nếu hàm tự tương quan
ACF và hàm tự tương quan từng phần PACF đều giảm đột ngột thì chúng ta có mơ hình
hỗn hợp.
215
Về mặt lý thuyết, khơng có trường hợp hàm tự tương quan ACF và hàm tự tương
quan từng phần cùng giảm đột ngột. Trong thực tế, hàm tự tương quan ACF và hàm tự
tương quan từng phần PACF giảm đột biến khá nhanh. Trong trường hợp này, chúng ta
nên phân biệt hàm nào giảm đột biến nhanh hơn, hàm còn lại được xem là giảm đều. Do
đơi lúc sẽ có trường hợp giảm đột biến đồng thời khi quan sát biểu đồ hàm tự tương
quan ACF và hàm tự tương quan từng phần PACF, biện pháp khắc phục là tìm vài dạng
hàm dự định khác nhau cho chuỗi thời gian dừng. Sau đó, kiểm tra độ chính xác mơ
hình tốt nhất.
Mơ hình ARIMA:
(1, 1, 1): y (t ) y(t 1) a0 a1.[ y(t 1) y (t 2) e(t ) b1.e(t 1)]
(12)
2.7. Các bước phát triển mơ hình ARIMA [3]
Theo Box-Jenkins thì các bước phát triển mơ hình ARIMA bao gồm:
Xác định mơ hình.
Ước lượng tham số.
Kiểm định độ chính xác.
Dự báo.
3. Ứng dụng mơ hình ARIMA dự báo chứng khốn của ngân hàng TMCP Sài Gòn
Hà Nội
3.1. Dữ liệu đầu vào
Trong bài toán của chúng ta, dữ liệu chứng khoán được biết tới như một chuỗi thời
gian đa dạng bởi có nhiều thuộc tính cùng được ghi tại một thời điểm nào đó. Với dữ
liệu đang xét, các thuộc tính đó là : Priceopen, Pricehigh, Pricelow, Priceclose, Volume
Priceopen : Giá cổ phiếu tại thời điểm mở cửa trong ngày.
Pricehigh : Giá cổ phiếu cao nhất trong ngày
Pricelow : Giá cổ phiếu thấp nhất trong ngày
Priceclose : Giá cổ phiếu được niêm yết tại thời điểm đóng của sàn giao dịch
Volume: Khối lượng giao dịch cổ phiếu (bán, mua) trong ngày.
Dữ liệu cho quá trình dự báo của SHB được thu thập tại trang web
Dữ liệu để dùng cho dự báo của ngân hàng được lấy từ ngày
15/12/2020 đến ngày 24/03/2021.
216
Hình 1 – Dữ liệu đầu vào của SHB
Trong khn khổ nghiên cứu của mình, tơi tập trung vào nghiên cứu giá đóng
của (Priceclose) của cơng ty để từ đó dự báo giá đóng cửa trong các ngày kế tiếp.
3.2. Kiểm định tính dừng của chuỗi Priceclose
Để kiểm định tính dừng của chuỗi Priceclose ta sử dụng chức năng
Analyze\Forecasting\Sequence Charts ta có kết quả kiểm tra tính dừng của chuỗi
Priceclose như hình 2. Như vậy là chuỗi Priceclose khơng ổn định. Cụ thể, trung bình
của nó có xu hướng tăng hoặc giảm theo từng thời kỳ. Như vậy, ta có thể suy đốn rằng
chuỗi Priceclose khơng dừng.
Hình 2 – Kết quả kiểm tra tính dừng của chuỗi Priceclose
Khi lấy sai phân bậc 1 của chuỗi thì chuỗi mới thu được cũng khơng dừng. Vì
vậy ta thực hiện lấy sai phân bậc 2 của chuỗi Priceclose, thì ta thu được chuỗi mới, chuỗi
này không rõ xu hướng và xoay quanh một giá trị trung bình nhất định (Hình 3). Nên
chuỗi này đã dừng.
217
Hình 3 – Kết quả kiểm tra tính dừng của d(Priceclose)
3.3. Xây dựng mơ hình
Để xây dựng mơ hình ARIMA chúng tôi sử dụng 62 quan sát từ ngày 15/12/2020
đến ngày 24/03/2021.
Bước 1: Nhận dạng mơ hình (xác định các giá trị p, d, q)
Theo kết quả thu được về kiểm tra tính dừng của chuỗi Priceclose ở trên ta có thể
thấy chuỗi sai phân bậc 2 của nó là chuỗi dừng. Vì vậy, ta chọn tham số d=2.
Cách xác định p, q bằng phần mềm SPSS: Chọn Analyze/Forecasting
/Autocorrelations. Sau đó chuyển biến FDI sang ơ Variables, click vào Difference,
Autocorrelations và Partial autocorrelations thì ta thu được kết quả ở hình 4 và hình 5
Hình 4 – Kết quả ACF của mơ hình
218
Hình 5 – Kết quả PACF của mơ hình
Dựa vào kết quả của ACF và PACF ta lựa chọn được q=2 và p=1 hoặc p = 2. Như vậy
ta có hai mơ hình ARIMA có khả năng phù hợp là ARIMA(1,2,2) hoặc ARIMA (2,2,2).
Bước 2: Ước lượng
Sử dụng phần mềm SPSS để ước lượng các hệ số của các mô hình ARIMA(p,d,q)
như đã nhận dạng ở trên. Chọn Analyze/Forecasting/Create Models thì thu được mơ
hình ARIMA(1,2,2) và ARIMA(2,2,2) như hình 6 và hình 7.
Hình 6 – Kết quả ước lượng với mơ hình ARIMA(1,2,2)
219
Hình 7 – Kết quả ước lượng với mơ hình ARIMA(2,2,2)
Theo kết quả thu được từ 2 mơ hình ta thấy mơ hình ARIMA(2,22) phù hợp hơn
vì nó có giá trị BIC và RSME nhỏ hơn.
Bước 3: Thực hiện dự báo
Thực hiện dự báo bằng mơ hình ARIMA(2,2,2) ta thu được kết quả ở hình 8.
Hình 8 – Bảng kết quả dự báo giá chứng khoán SHB trong 8 ngày tới
Sử dụng mơ hình ARIMA(1,1,1) vừa xây dựng chúng ta có bảng kết quả dự báo
như sau:
Ngày
Giá thực tế
Giá dự báo
Sai số
Tỉ lệ %
25/03/2021
17.8
18
0.2
1.12%
26/03/2021
17.1
18.1
1.0
5.85%
29/03/2021
19.5
18.2
1.3
6.67%
Bảng 1-Kết quả dự báo của mô hình
Qua bảng 1 trên ta thấy kết quả dự đốn từ ngày 25/03/2021 tới 29/03/2021 khá
chính xác so với kết quả thực tế của mã chứng khoán SHB. Như vậy, ta có thể nói mơ
hình ARIMA(2,2,2) dự đốn kết quả của mã chứng khoán SHB là khá tốt.
220
4. Kết luận
Kết quả dự báo cho thấy giá trị dự báo xấp xỉ so với giá trị thực tế là đáng tin cậy
(độ tin cậy 95%). Điều này chứng tỏ độ tin cậy của mơ hình dự báo là khá cao. Trong
một vài phiên giao dịch do tác động của các yếu tố ngoại lai lớn như tâm lý nhà đầu tư,
tác động của các thị trường chứng khoán khác, thơng tin về sự thay đổi chính sách...sẽ
làm cho sai số dự báo tăng cao hơn. Do đó kết quả của mơ hình vẫn chỉ mang tính chất
tham khảo nhiều hơn. Tuy nhiên có thể nói mơ hình ARIMA là một mơ hình tốt để dự
báo trong ngắn hạn.
Tài liệu tham khảo
[1] Cao Hao Thi, Pham Phu, Pham Ngoc Thuy, Application of ARIMA model for testing
“serial independence” of stock prices at the HSEC, The Joint 14th Annual PBFEA and
2006 Annual FeAT Conference, Taipei, Taiwan, July, 2006.
[2] Box G E P & Jenkins G M, Time series analysis : Forecasting and control, San
Francisco, CA: Holden-day, 1970.
[3] Roy Batchelor, Box-Jenkins Analysis, Cass Business School, City of Lodon
[4] />[5] /unrestricted
/07Chapter6.pdf
[6] />[7] Jamie Monogan, ARIMA Estimation adapting Maximum Likehood to the special
Issues of Time Series.
[8] />
221