Tải bản đầy đủ (.pdf) (76 trang)

Dự đoán xu thế, giá chỉ số chứng khoán việt nam vn index sử dụng phân tích hồi quy gaussian process và mô hình tự hồi quy trung bình động arma

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.77 MB, 76 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

PHÙNG ĐÌNH VŨ
ĐỀ TÀI LUẬN VĂN

Dự đốn xu thế, giá chỉ số chứng khoán Việt Nam VN-Index
sử dụng phân tích hồi quy Gaussian Process và mơ hình tự hồi quy
trung bình động ARMA

LUẬN VĂN THẠC SĨ KỸ THUẬT
CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN
MÃ CHUYÊN NGÀNH: 60480201

Ngƣời hƣớng dẫn khoa học

PGS.TS. HUỲNH QUYẾT THẮNG

Hà Nội – 2017


CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn: Phùng Đình Vũ
Đề tài luận văn: Dự đốn xu thế, giá chỉ số chứng khốn Việt Nam VN-Index sử dụng
phân tích hồi quy Gaussian Process và mơ hình tự hồi quy trung bình động ARMA
Chun ngành: Cơng Nghệ Thơng Tin
Mã số SV: CB150301


Tác giả, Ngƣời hƣớng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã
sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày 26 tháng 04 năm 2017 với
các nội dung sau:
1. Phần mở đầu luận văn
- Học viên viết lại phần mở đầu của luận văn, thay đổi cách đặt vấn đề, trích dẫn các
phƣơng pháp hiện có ở Việt Nam và trên thế giới trong bài toán dự báo thị trƣờng chứng
khốn (TTCK). Trình bày sơ lƣợc về ƣu, nhƣợc điểm của hai phƣơng pháp Gaussian
Process và ARMA trong bài tốn dự báo TTCK. Tóm tắt mục đích và phƣơng pháp kết
hợp 2 phƣơng pháp trên trong phƣơng pháp kết hợp GPR-ARMA đƣợc tác giả đề xuất.
- Bổ sung phần bố cục luận văn.
2. Chỉnh sửa chương 1
- Mục 1.1: Bổ sung thêm thông tin về chỉ số VN-Index là đối tƣợng thu thập thông tin của
phƣơng pháp. Bổ sung dữ liệu đầu vào của phƣơng pháp là chuỗi thời gian giá đóng cửa
chỉ số VN-Index qua các ngày giao dịch.
- Mục 1.2: Lƣợc bỏ nội dung hiện có. Trình bày về tổng quan, ngắn gọn các phƣơng pháp
đã tồn tại giải bài tốn dự báo TTCK, trong đó tập trung tìm hiểu các kết quả nghiên cứu
hiện có của hai phƣơng pháp (riêng lẻ) áp dụng cho chuỗi thời gian (là đối tƣợng nghiên
cứu của luận văn): phân tích hồi quy Gaussian Process và mơ hình tự hồi quy trung bình
động ARMA (chuyển sang từ mục 2.1)


- Mục 1.3: Lƣợc bỏ nội dung (không liên quan) về các phƣơng pháp phân tích hồi quy.
Tập trung trình bày lý thuyết về ba mơ hình đƣợc sử dụng trong phƣơng pháp GPRARMA: mơ hình chuỗi thời gian, mơ hình tự hồi quy trung bình động ARMA và phân
tích hồi quy Gaussian Process. Vẽ lại hình 1.1 trong mục này (trang 14)
- Mục 1.4: Thay thế bằng phần kết luận cho chƣơng 1.
3. Chỉnh sửa chương 2
- Đổi tên chƣơng thành “XÂY DỰNG PHƢƠNG PHÁP KẾT HỢP GPR-ARMA DỰ
ĐOÁN CHUỖI THỜI GIAN” nhằm nhấn mạnh phạm vi bài toán là dự báo chuỗi thời
gian (áp dụng cho chỉ số chứng khoán).
- Bổ sung mục 2.1.1 nhằm: Định nghĩa tập dữ liệu đầu vào bài toán, xác định phạm vi

đối tƣợng nghiên cứu của luận văn. Lý do lựa chọn tập dữ liệu và tính thực tiễn việc
nghiên cứu chỉ số VN-Index. Chuyển mục 2.1.3 phân tách tập dữ liệu thành tập huấn
luyện và tập kiểm thử về mục 2.1.1 này.
- Thay đổi mục 2.1.2 thành “Phân tích dữ liệu lịch sử chỉ số VN-Index”, học viên tập
trung vào quá trình phân tích dữ liệu và kết quả phân tích để có thể đƣa biến đổi dữ liệu
phù hợp cho phƣơng pháp đề xuất.
- Mục 2.2: Tập trung vào trình bày các bƣớc thực hiện theo trình tự của phƣơng pháp đề
xuất từ việc thu thập dữ liệu đến các bƣớc để tiến hành dự đoán và đƣa ra kết quả dự
đốn.
- Bổ sung mục 2.3 trình bày về quy trình thực hiện phƣơng pháp dự đốn. Chuyển nội
dung mục 2.1.3 về phân tách tập dữ liệu kiểm thử mô hình vào mục 2.3 này.
- Bổ sung mục 2.5 tổng kết chƣơng 2
4. Chỉnh sửa chương 3
- Mục 3.1. Bổ sung mơ tả các lớp trong chƣơng trình thu thập dữ liệu, các chức năng
ngƣời dùng và giao diện của chƣơng trình thu thập dữ liệu.
- Bổ sung mục 3.3.3 về việc so sánh kết quả dự đoán phƣơng pháp kết hợp GPR-ARMA
với từng phƣơng pháp dự đoán riêng lẻ GPR và ARMA.


- Bổ sung mục 3.4 tổng kết chƣơng 3.
5. Chỉnh sửa phần kết luận
- Thay thế các phần liệt kê bằng cách viết thành các đoạn văn hoàn chỉnh.
6. Phần phụ lục
- Lƣợc bỏ một số nội dung (không liên quan) về các chỉ số dùng trong phƣơng pháp phân
tích cơ bản và phân tích kĩ thuật.
7. Sửa một số lỗi về trình bày
- Đánh lại số trang. Sử dụng định dạng i, ii, v.v. cho các trang đầu gồm lời cam đoan, lời
cảm ơn, mục lục, danh mục bảng hình vẽ. Sử dụng định dang số 1, 2, v.v. bắt đầu từ phần
mở đầu luận văn.
- Các công thức, tên hình, tên bảng đƣợc đánh số theo chƣơng.

- Tên các bảng đƣợc đƣa lên đầu mỗi bảng. Tên hình vẽ đặt ở dƣới mỗi hình.
- Các lỗi chính tả, sửa liệt kê các tài liệu tham khảo.
- Bổ sung, trích dẫn các tài liệu gốc.
- Giải thích các đại lƣợng đƣợc sử dụng trong các công thức.
- Các thông tin ngày, tháng, năm đƣợc viết chữ rõ ràng để tránh nhầm lẫn cho ngƣời đọc.
- Đánh số lại đề mục một cách hợp lý hơn theo nội dung luận văn

Ngày…. tháng …. năm 2017
Giáo viên hƣớng dẫn

CHỦ TỊCH HỘI ĐỒNG

Tác giả luận văn


LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của riêng tơi trong đó có sự giúp đỡ rất lớn
của Thầy hƣớng dẫn PGS.TS Huỳnh Quyết Thắng, bộ môn Công nghệ phần mềm, Viện
Công nghệ thông tin và truyền thông, Đại học Bách Khoa Hà Nội.
Các số liệu, kết quả nêu trong luận văn là trung thực, rõ ràng và chƣa từng đƣợc ai
công bố trong bất kỳ cơng trình nào khác.
Trong luận văn tơi có tham khảo đến một số tài liệu đã đƣợc liệt kê tại phần Tài liệu
tham khảo ở cuối luận văn, các nội dung trích dẫn đã ghi rõ nguồn gốc.
Hà Nội, ngày… tháng … năm 2017
Tác giả luận văn

Phùng Đình Vũ

i



LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cám ơn chân thành và sâu sắc tới Thầy PGS.TS. Huỳnh
Quyết Thắng, Bộ môn Công nghệ phần mềm, Viện Công nghệ thông tin và truyền thông,
Đại học Bách Khoa Hà Nội. Trong quá trình thực hiện luận văn, Thầy đã hƣớng dẫn và
chỉ bảo tôi ân cần, cung cấp cho tôi nhiều tài liệu quan trọng là nền tảng để tôi tìm tịi
nghiên cứu sâu hơn về đề tài “Dự đốn xu thế, giá chỉ số chứng khoán Việt Nam VNIndex sử dụng phân tích hồi quy Gaussian Process và mơ hình tự hồi quy trung bình động
ARMA”. Mỗi lời góp ý của Thầy giúp tôi định hƣớng tốt hơn, đúng đắn hơn cho đề tài
mình đã chọn.
Tơi cũng xin gửi lời cám ơn tới các Thầy, Cô trong Viện Công nghệ thông tin và
truyền thông, Viện Đào tạo sau đại học đã tận tình dạy dỗ, giúp đỡ, và cung cấp cho tơi
nhiều kiến thức chun sâu, bổ ích và cần thiết. Để từ đó, tơi có đủ khả năng và hiểu biết
để thực hiện và hoàn thành luận văn này một cách tốt nhất.
Lời tiếp theo tôi xin gửi lời cám ơn chân thành và sâu sắc tới các Thầy, Cô trong hội
đồng chấm luận văn thạc sỹ đã đƣa ra các nhận xét, đánh giá, góp ý quý báu giúp tơi
chỉnh sửa và hồn thành luận văn này một cách tốt nhất.
Cuối cùng tôi xin dành lời cảm ơn tới ngƣời thân gia đình tơi đã quan tâm, chăm sóc,
ủng hộ về vật chất và tinh thần lớn lao để tơi có động lực theo đuổi đề tài này.

ii


MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................. i
LỜI CẢM ƠN .................................................................................................................. ii
MỤC LỤC ...................................................................................................................... iii
DANH MỤC CÁC BẢNG VÀ HÌNH VẼ ...................................................................... v
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT .......................................................... vi
MỞ ĐẦU ......................................................................................................................... 1
CHƢƠNG 1: CƠ SỞ LÝ THUYẾT ................................................................................ 4

1.1. Chỉ số chứng khoán VN-Index ............................................................................. 4
1.2. Các phƣơng pháp phân tích TTCK ...................................................................... 5
1.3. Mơ hình phân tích định lƣợng dựa trên chuỗi thời gian ....................................... 8
1.3.1. Mơ hình chuỗi thời gian ................................................................................ 8
1.3.2. Mơ hình tự hồi quy trung bình động ARMA ................................................ 9
1.3.3. Phân tích hồi quy Gaussian Process ............................................................ 13
1.4. Kết chƣơng ......................................................................................................... 17
CHƢƠNG 2: XÂY DỰNG PHƢƠNG PHÁP KẾT HỢP GPR-ARMA DỰ ĐOÁN
CHUỖI THỜI GIAN ..................................................................................................... 19
2.1. Xây dựng mơ hình dữ liệu đầu vào .................................................................... 19
2.1.1. Mơ tả tập dữ liệu bài tốn ........................................................................... 19
2.1.2. Phân tích dữ liệu lịch sử chỉ số VN-Index .................................................. 22
2.2. Phƣơng pháp dự đoán chuỗi thời gian GPR-ARMA ......................................... 27
2.3. Quy trình thực hiện phƣơng pháp dự đốn ......................................................... 34
2.4. Đánh giá sai số cho phƣơng pháp dự đoán ......................................................... 36
2.5. Kết chƣơng ......................................................................................................... 38
CHƢƠNG 3: CÀI ĐẶT VÀ ĐÁNH GIÁ THỰC NGHIỆM ........................................ 39
3.1. Chƣơng trình thu thập dữ liệu lịch sử chỉ số VN-Index ..................................... 39
3.2. Chƣơng trình dự đốn theo phƣơng pháp GRP-ARMA .................................... 42
3.2.1. Cài đặt các gói phần mềm đƣợc sử dụng .................................................... 42
3.2.2. Thiết kế các module chƣơng trình dự đốn................................................. 43
3.2.3. Triển khai chƣơng trình dự đốn................................................................. 44

iii


3.3. Kết quả thử nghiệm chƣơng trình dự đốn......................................................... 46
3.3.1. Đánh giá kết quả nội suy của phƣơng pháp ................................................ 46
3.3.2. Đánh giá kết quả ngoại suy của phƣơng pháp ............................................ 48
3.3.3. So sánh phƣơng pháp GPR-ARMA với từng phƣơng pháp riêng lẻ .......... 54

3.4. Kết chƣơng ......................................................................................................... 56
KẾT LUẬN VÀ ĐỊNH HƢỚNG PHÁT TRIỂN .......................................................... 57
1. Kết luận ................................................................................................................. 57
2. Định hƣớng phát triển............................................................................................ 60
DANH MỤC TÀI LIỆU THAM KHẢO....................................................................... 62
PHỤ LỤC ...................................................................................................................... 64
P1. Giải thuật Innovations ......................................................................................... 64
P2. Biểu đồ tự tƣơng quan và phân phối thành phần xu thế ..................................... 65
P3. Đánh giá khoảng tin cậy phân phối chuẩn .......................................................... 66
P4. Danh sách đăng ký các máy chủ Google ............................................................ 66

iv


DANH MỤC CÁC BẢNG VÀ HÌNH VẼ
Danh mục các hình vẽ
Hình 1.1: Biểu diễn đồ thị cho phân tích hồi quy Gaussian Process ............................. 14
Hình 2.1: Biểu đồ dữ liệu lịch sử giá đóng cửa chỉ số VN-Index ................................. 20
Hình 2.2: Biểu diễn các thành phần chuỗi thời gian đầu vào ........................................ 24
Hình 2.3: Biểu đồ tự tƣơng quan thành phần ngẫu nhiên .............................................. 25
Hình 2.4: Phân phối các giá trị của thành phần ngẫu nhiên .......................................... 25
Hình 2.5: Biểu đồ tự tƣơng quan thành phần biến đổi của xu thế ................................. 26
Hình 2.6: Phân phối các giá trị thành phần xu thế biến đổi ........................................... 27
Hình 2.7: Các bƣớc thực hiện trong phƣơng pháp GPR-ARMA .................................. 28
Hình 2.8: Quy trình thực hiện phƣơng pháp dự đốn .................................................... 35
Hình 3.1: Quá trình thu thập dữ liệu lịch sử giá ............................................................ 40
Hình 3.2: Giao diện chƣơng trình thu thập dữ liệu chỉ số VN-Index ............................ 41
Hình 3.3: Các module của chƣơng trình dự đốn .......................................................... 43
Hình 3.4: Đồ thị kết quả dự đốn nội suy của phƣơng pháp GPR-ARMA ................... 47
Hình 3.5: Đồ thị kết quả dự đoán theo phƣơng pháp kết hợp GPR-ARMA ................. 53

Hình 3.6: Đồ thị kết quả dự đốn theo phƣơng pháp Gaussian Process....................... 54
Hình 3.7: Đồ thị kết quả dự đoán theo phƣơng pháp ARMA ...................................... 55

Danh mục các bảng
Bảng 1.1: Một số hàm hiệp phƣơng sai trong Gaussian Process ................................... 15
Bảng 2.1: Bảng nhầm lẫn kết quả dự đoán xu thế ......................................................... 37
Bảng 3.1: Danh sách các gói thƣ viện Python đƣợc cài đặt .......................................... 42
Bảng 3.2: Cấu hình và phân phối dữ liệu kiểm thử cho các máy chủ ........................... 45
Bảng 3.3: Đánh giá sai số nội suy của phƣơng pháp GPR-ARMA ............................... 46
Bảng 3.4: Bảng nhầm lẫn nội suy với phân lớp tăng ..................................................... 46
Bảng 3.5: Bảng nhầm lẫn nội suy với phân lớp giảm .................................................... 46
Bảng 3.6: Bảng nhầm lẫn nội suy tổng hợp các phân lớp ............................................. 46
Bảng 3.7: Giá trị các tham số/siêu tham số mơ hình sau mỗi bƣớc lặp ......................... 48
Bảng 3.8: Kết quả dự đoán theo phƣơng pháp GPR-ARMA ........................................ 50
Bảng 3.9: Kết quả dự đoán xu thế theo phƣơng pháp GPR-ARMA ............................. 50
Bảng 3.10: Bảng nhầm lẫn ngoại suy với phân lớp tăng ............................................... 51
Bảng 3.11: Bảng nhầm lẫn ngoại suy với phân lớp giảm .............................................. 52
Bảng 3.12: Bảng nhầm lẫn ngoại suy tổng hợp các phân lớp ....................................... 52
Bảng 3.13: Đánh giá sai số ngoại suy của phƣơng pháp GRP-ARMA ......................... 52
Bảng 3.14: Đánh giá sai số ngoại suy của phƣơng pháp Gaussian Process .................. 55
Bảng 3.15: Đánh giá sai số ngoại suy của phƣơng pháp ARMA .................................. 55

v


DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Chữ viết tắt Tiếng Anh

Nghĩa Tiếng Việt


TTCK

Stock Market

Thị trƣờng chứng khoán

HOSE

Ho Chi Minh Stock Exchanges

Sở giao dịch chứng khốn TP. Hồ Chí
Minh

HNX

Hanoi Stock Exchanges

Sở giao dịch chứng khoán Hà Nội

UPCOM

Unlisted Public Company
Market

Thị trƣờng giao dịch các công ty đại
chúng chƣa niêm yết

CMV

Current Market Value


Tổng giá trị hiện tại của TTCK

BMV

Base Market Value

Tổng giá trị cơ sở của TTCK

ACF

Auto Correlation Function

Hàm tự tƣơng quan

ARMA

Autoregressive Moving Average Mơ hình tự hồi quy trung bình động

ARIMA

Autoregressive Integrated
Moving Average

Mơ hình tự hồi quy kết hợp trung bình
động

GPR

Gaussian Process Regression


Phân tích hồi quy Gaussian Process

ANN

Artificial Neural Network

Mạng Nơron nhân tạo

GA

Genetic Algorithm

Giải thuật di truyền

BN

Bayession Network

Mạng Bayes

SVM

Support Vector Machine

Máy vector hỗ trợ

WN

White Noise


Nhiễu trắng

RMSE

Root Mean Square Error

Căn bậc hai kỳ vọng sai số bình
phƣơng

MAPE

Mean Absolute Percentage Error Kỳ vọng trị tuyệt đối sai số phần trăm

AIC

Akaike Information Criterion

Tiêu chuẩn thông tin Akaike

BIC

Bayesian Information Criterion

Tiêu chuẩn thông tin Bayes

vi


MỞ ĐẦU

Thị trƣờng chứng khoán (TTCK) ở Việt Nam và trên thế giới hiện nay đang thu hút
nhiều chuyên gia, nhà khoa học tham gia giải quyết bài toán phân tích biến động chỉ số
chứng khốn, giá các cổ phiếu trong tƣơng lai nhằm tìm kiếm lợi nhuận từ TTCK.
Phƣơng pháp phân tích kỹ thuật và phân tích cơ bản [1] là hai phƣơng pháp định tính
đƣợc sử dụng phổ biến hiện nay. Cả hai phƣơng pháp này có nhƣợc điểm là mang tính
chất định tính, nghĩa là phụ thuộc vào cảm quan của ngƣời phân tích và do đó khơng
thể sử dụng để tự động hóa trong các chiến lƣợc đầu tƣ. Khắc phục nhƣợc điểm này,
phƣơng pháp phân tích định lƣợng là một hƣớng nghiên cứu đang đƣợc phát triển mạnh
những năm gần đây. Có rất nhiều các mơ hình khác nhau đƣợc áp dụng trong phân tích
định lƣợng để giải bài toán dự đoán TTCK nhƣ: Phân tích hồi quy Gaussian Process
[9]; Mơ hình tự hồi quy trung bình động ARMA [10]; Mạng Nơron nhân tạo (ANN)
[12]; Mạng Nơron kết hợp bộ điều khiển mờ [13]; Giải thuật di truyền (GA) [15]; Mơ
hình mạng Bayes (BN) [16]; Mơ hình máy vector hỗ trợ (SVM) [17], v.v. Mỗi mơ hình
ở trên có những ƣu điểm và nhƣợc điểm riêng và đƣợc áp dụng cho các bộ dữ liệu cụ
thể. Qua tìm hiểu các mơ hình này tác giả nhận thấy đa số các mơ hình dựa trên các bộ
dữ liệu khá phức tạp. Trong khuôn khổ luận văn này tác giả chỉ tập trung nghiên cứu,
tìm hiểu mơ hình áp dụng trên bộ dữ liệu đầu vào là chuỗi thời gian đó là: phân tích hồi
quy Gaussian Proces, mơ hình tự hồi quy trung bình động ARMA. Chuỗi thời gian là
một chuỗi các điểm đƣợc thu thập theo từng khoảnh khắc thời gian liền nhau theo một
tần suất thống nhất. Phân tích hồi quy Gaussian Process là mơ hình phân tích hồi quy
phi tham số, đƣợc sử dụng trong học máy [5]. Dựa trên bộ dữ liệu huấn luyện đầu vào
với độ dài lịch sử đủ lớn, mô hình này có khả năng “học” để tối ƣu hóa các siêu tham
số của mơ hình sao cho cực đại hóa hàm xác suất biên (thể hiện mối quan hệ của đầu ra
ứng với đầu vào cho trƣớc). Nói cách khác, mơ hình phân tích hồi quy Gaussian
Process có khả năng phát hiện các mẫu hình (patterns) xuất hiện trong bộ dữ liệu huấn
luyện [6]. Để tăng khả năng phát hiện các mẫu hình trong phân tích hồi quy Gaussian

1



Process, dữ liệu huấn luyện đầu vào đòi hỏi phải khơng có nhiễu hoặc nhiễu rất nhỏ.
Mơ hình tự hồi quy trung bình động ARMA là mơ hình phân tích hồi quy có tham số,
đƣợc sử dụng nhƣ mơ hình tiêu biểu trong kinh tế lƣợng về dự đoán chuỗi thời gian.
Mơ hình này thể hiện mối quan hệ giữa giá trị tại điểm hiện tại với giá trị tại một số
điểm liền trƣớc trong chuỗi thời gian và sai số nhiễu trắng tại các điểm đó thơng qua
các trọng số. Với tính chất này, mơ hình tự hồi quy trung bình động ARMA đƣợc sử
dụng để dự đốn các chuỗi thời gian ngẫu nhiên có tính dừng, và thƣờng khơng địi hỏi
dữ liệu lịch sử đầu vào đủ lớn [3]. Lý thuyết về mơ hình chuỗi thời gian chỉ ra rằng một
chuỗi thời gian (ký hiệu là Yt) có thể phân tách thành ba thành phần chính: thành phần
xu thế (ký hiệu là Tt), thành phần thời vụ (ký hiệu là St) và thành phần ngẫu nhiên (ký
hiệu là Rt) sao cho Yt = Tt + St + Rt [2]. Sau khi phân tách chuỗi thời gian ta thu đƣợc
thành phần xu thế với biến thiên giá trị nhỏ hơn hay đồ thị đƣờng xu thế “trơn” hơn,
qua đó thể hiện các mẫu hình hay xu thế rõ ràng hơn so với chuỗi thời gian ban đầu.
Thành phần thời vụ có tính chu kì nên ta khơng xem xét khi tiến hành dự đốn. Thành
phần ngẫu nhiên có tính dừng, thể hiện độ tƣơng quan nhỏ giữa các điểm trong chuỗi
thời gian. Với ý nghĩa của từng thành phần chuỗi thời gian nhƣ trên, tác giả đề xuất
phƣơng pháp mới gọi là GRP-ARMA kết hợp các mơ hình: mơ hình chuỗi thời gian,
phân tích hồi quy Gaussian Process và mơ hình tự hồi quy trung bình động ARMA,
nhằm tận dụng những ƣu điểm, khắc phục nhƣợc điểm của từng mơ hình và qua đó
tăng độ chính xác trong kết quả dự đoán của phƣơng pháp kết hợp. Trong phƣơng pháp
GPR-ARMA, phân tích hồi quy Gaussian Process đƣợc áp dụng để dự đốn chuỗi xu
thế, mơ hình tự hồi quy trung bình động ARMA đƣợc áp dụng để dự đốn chuỗi ngẫu
nhiên. Có thể thấy chuỗi thời gian thành phần xu thế đã đƣợc loại bỏ nhiễu từ chuỗi
thời gian ban đầu. Nhiễu ở đây chính là thành phần ngẫu nhiên. Do đó việc sử dụng
phân tích hồi quy Gaussian Process làm tăng khả năng phát hiện các mẫu hình trên
chuỗi xu thế. Chuỗi thời gian thành phần ngẫu nhiên có các tính chất hồn tồn phù
hợp với các điều kiện khi áp dụng mơ hình tự hồi quy trung bình động ARMA. Do vậy
tác giả tiến hành kết hợp các mơ hình cho việc dự đốn các thành phần của chuỗi thời

2



gian nhƣ trên. Kết quả dự đoán các chuỗi thành phần theo từng phƣơng pháp đƣợc tổng
hợp lại để đƣa ra kết quả dự đoán cho chuỗi thời gian ban đầu. Phƣơng pháp GPRARMA có thể áp dụng cho một chuỗi thời gian bất kì. Trong luận văn này tác giả
nghiên cứu và lựa chọn giá đóng cửa của chỉ số VN-Index sau mỗi ngày giao dịch là
chuỗi thời gian đầu vào cho phƣơng pháp kết hợp GPR-ARMA.
Bố cục của luận văn bao gồm phần mở đầu, kết luận và ba chƣơng:
Chương 1: Trình bày ngắn gọn các cơ sở lý thuyết, bao gồm:
-

Mô tả những nét cơ bản về chỉ số VN-Index là đối tƣợng thu thập thông tin và
nghiên cứu trong luận văn.

-

Tìm hiểu tổng quan về các phƣơng pháp dự đốn TTCK hiện có.

-

Tìm hiểu chi tiết lý thuyết về mơ hình chuỗi thời gian, phân tích hồi quy
Gaussian Process và mơ hình tự hồi quy trung bình động. Đây là các mơ hình
đƣợc tác giả sử dụng trong phƣơng pháp kết hợp GPR-ARMA đƣợc đề xuất.

Chương 2: Xây dựng phƣơng pháp dự đoán kết hợp GPR-ARMA
-

Xác định phạm vi, tính thực tiễn bài tốn dự đốn chỉ số chứng khoán. Định
nghĩa tập dữ liệu mẫu và lý do lựa chọn. Phân tích các tính chất của dữ liệu
đầu vào để đƣa ra phƣơng pháp biến đổi dữ liệu phù hợp sử dụng trong
phƣơng pháp GPR-ARMA.


-

Trình bày động cơ việc kết hợp các mơ hình trong phƣơng pháp GPR-ARMA.
Trình tự các bƣớc tiến hành trong phƣơng pháp dự đốn GPR-ARMA.

-

Trình bày về quy trình thực hiện phƣơng pháp dự đoán.

-

Các đại lƣợng đánh giá sai số cho phƣơng pháp dự đoán TTCK.

Chƣơng 3: Cài đặt và đánh giá thực nghiệm phƣơng pháp GPR-ARMA
-

Trình bày về chƣơng trình thu thập dữ liệu

-

Trình bày về chƣơng trình dự đốn theo phƣơng pháp GPR-ARMA

-

Trình bày kết quả thực nghiệm nội suy, ngoại suy của phƣơng pháp GPRARMA và so sánh với từng phƣơng pháp riêng lẻ.

3



CHƢƠNG 1: CƠ SỞ LÝ THUYẾT
Chƣơng này trình bày các vấn đề lý thuyết sau:
 Một số nét cơ bản chỉ số chứng khoán VN-Index
 Tổng quan các phƣơng pháp phân tích TTCK
 Một số mơ hình phân tích định lƣợng TTCK dựa trên chuỗi thời gian
o Mơ hình chuỗi thời gian
o Mơ hình tự hồi quy trung bình động ARMA

o Phân tích hồi quy Gaussian Process
1.1. Chỉ số chứng khốn VN-Index
Ở Việt Nam có ba sàn giao dịch đó là sàn HOSE ở TP. Hồ Chí Minh và hai sàn
HNX, Upcom ở Hà Nội. Chỉ số chứng khoán Việt Nam VN-Index là chỉ số thể hiện xu
hƣớng biến động giá của tất cả cổ phiếu niêm yết và giao dịch tại sàn HOSE. Ở đây, giá
chỉ số VN-Index đƣợc hiểu là giá đóng cửa chỉ số VN-Index sau mỗi ngày giao dịch
trên TTCK Việt Nam. Đây cũng chính là giá tham chiếu (hay giá mở cửa) cho chỉ số
VN-Index trong ngày giao dịch kế tiếp. Dƣới đây là công thức tính chỉ số VN-Index:
VN  Index 

CMV
*100
BMV

(1.1)

Trong đó CMV là tổng giá trị thị trƣờng của các cổ phiếu niêm yết hiện tại, BMV là
tổng giá trị của các cổ phiếu niêm yết cơ sở tính ở thời điểm gốc ngày 28/07/2000,
ngày đầu tiên thị trƣờng chứng khốn chính thức đi vào hoạt động. Giá trị vốn hóa thị
trƣờng cơ sở tính trong cơng thức chỉ số đƣợc điều chỉnh trong các trƣờng hợp nhƣ
niêm yết mới, hủy niêm yết và các trƣờng hợp có thay đổi về vốn niêm yết. Gọi M là số
lƣợng công ty niêm yết trên sàn HOSE; pit, qit tƣơng ứng là giá và số lƣợng cổ phiếu

niêm yết của công ty thứ i trên sàn HOSE tại thời điểm hiện tại; pio, qio tƣơng ứng là giá
và số lƣợng cổ phiếu niêm yết của công ty thứ i trên sàn HOSE tại thời điểm cơ sở.
Cơng thức tính CMV và BMV nhƣ sau:

4


M

CMV   p it * q it

(1.2)

i 1

M

BMV   p io * q io

(1.3)

i 1

Tập giá trị các giá đóng cửa chỉ số VN-Index qua các ngày giao dịch là một chuỗi
thời gian. Chuỗi thời gian chỉ số VN-Index là đối tƣợng nghiên cứu trong luận văn này.
Việc hiểu rõ bản chất và cơng thức tính chỉ số VN-Index giúp tác giả định hình rõ hơn
về phƣơng pháp GPR-ARMA đƣợc sử dụng để dự đoán xu thế và giá chỉ số này.

1.2. Các phƣơng pháp phân tích TTCK
Các phƣơng pháp phân tích TTCK đƣợc phân thành hai loại chính, bao gồm phân

tích định tính và phân tích định lƣợng. Trong phân tích định tính, hai phƣơng pháp
đƣợc sử dụng phổ biến là phân tích cơ bản và phân tích kỹ thuật. Phân tích cơ bản là
việc đánh giá giá trị thật của công ty thông qua các báo cáo tài chính với các chỉ tiêu tài
chính đặc trƣng [1]. Phân tích kỹ thuật là sự nghiên cứu các biến động của thị trƣờng,
chủ yếu thông qua việc sử dụng các đồ thị nhằm mục đích dự đốn các xu thế biến
động của giá trong tƣơng lai. Mục đích của phân tích kỹ thuật là nhằm xác định sự lặp
lại của những dạng biến động của giá đã xuất hiện trong quá khứ, kết hợp với hiện tại
để dự đoán biến động giá trong tƣơng lai [1]. Nhƣợc điểm của các phƣơng pháp phân
tích định tính là kết quả phụ thuộc vào cảm quan của ngƣời phân tích, nên khơng thể tự
động hóa trong các chiến lƣợc đầu tƣ.
Phân tích định lƣợng TTCK có thể hiểu là việc dự đoán sự biến động của giá cổ
phiếu hay chỉ số chứng khốn nhờ xây dựng mơ hình tốn học và sử dụng khả năng
tính tốn của máy tính để tìm lời giải cho mơ hình đó. Phƣơng pháp phân tích định
lƣợng TTCK ngày càng trở nên phổ biến cùng sự phát triển nhanh chóng khả năng tính
tốn của máy tính, cũng nhƣ sự phát triển các lý thuyết toán học áp dụng cho các mơ
hình trong phƣơng pháp. Giả thiết của phƣơng pháp này là các mối liên hệ giữa các yếu

5


tố đƣợc thiết lập trong quá khứ có xu hƣớng lặp lại trong tƣơng lai. Nói cách khác
phƣơng pháp phân tích định lƣợng địi hỏi đầu vào là bộ dữ liệu chứa các thông tin lịch
sử và hiện tại của TTCK nhƣ thông tin về giá cả, thông tin về giao dịch, thơng tin về
tình hình tài chính các cơng ty, hay bất cứ thơng tin gì hữu ích có tác dụng giúp các nhà
nghiên cứu trích rút đƣợc thơng tin cho phép dự đoán biến động giá chỉ số chứng khoán
trong tƣơng lai. Phƣơng pháp này tỏ ra ƣu việt hơn các phƣơng pháp truyền thống khi
nó vận dụng các ƣu điểm của phân tích cơ bản, phân tích kỹ thuật, phân tích thống kê,
kết hợp với khả năng tính tốn, xử lý dữ liệu lớn của máy tính. Phƣơng pháp này dựa
trên nguyên lý khoa học, không phụ thuộc vào cảm tính của con ngƣời nên có thể tự
động hóa trong chiến lƣợc đầu tƣ.

Hiện tại có rất nhiều các mơ hình khác nhau đƣợc sử dụng trong phƣơng pháp định
lƣợng nhằm dự đoán TTCK. Một số tác giả áp dụng mơ hình mạng Nơron để dự đốn
giá đóng cửa hàng tuần chỉ số chứng khốn Ấn Độ BSE SENSEX. Dữ liệu dùng để
huấn luyện các trọng số trên mạng Nơron bao gồm giá đóng cửa hàng tuần chỉ số BSE
SENSEX trong 200 tuần, sự di chuyển giá trung bình trong 52 tuần giao dịch, sự di
chuyển giá trung bình trong 5 tuần giao dịch, sự biến động (trồi sụt) giá trong 5 tuần
giao dịch, dao động giá trong 10 tuần giao dịch [12]. Kết hợp với mô hình mạng
Nơron, bộ điều khiển mờ đƣợc một số tác giả sử dụng nhằm điều chỉnh tốc độ học của
mạng Nơron để cải tiến kết quả dự đoán [13]. Trong giải thuật di truyền, các tác giả
xây dựng bộ gen nhiễm sắc thể để bao hàm không gian lời giải của bài toán. Một quần
thể ngẫu nhiên ban đầu đƣợc khởi tạo. Các toán tử lai ghép, đột biến đƣợc áp dụng trên
nhiễm sắc thể, và lựa chọn các cá thể tốt nhất theo một hàm lợi ích cho thế hệ tiếp theo
trong quần thể. Giải thuật sẽ dừng (hội tụ) khi các luật đầu tƣ đƣợc thỏa mãn. Các luật
đầu tƣ thƣờng dựa trên các chỉ số dùng trong phân tích cơ bản hay phân tích kĩ thuật
[14]. Với mơ hình nhân quả sử dụng mạng Bayes, các tác giả xây dựng mạng thể hiện
mối liên hệ ràng buộc giữa xu thế các chỉ số FTSE100, Nikkei225, DOW30 của ngày
giao dịch kế tiếp dựa trên kết quả giao dịch của một hoặc hai ngày trƣớc đó. Dữ liệu

6


đầu vào là giá đóng cửa các chỉ số này trong khoảng thời gian từ tháng một năm 2005
tới tháng mƣời hai năm 2006 đƣợc sử dụng để huấn luyện các tham số xác suất trong
mạng và sử dụng để dự đoán xu thế các chỉ số này cho năm 2007 [15]. Một điều có thể
nhận thấy là các phƣơng pháp định lƣợng kể trên sử dụng bộ dữ liệu khá phức tạp, thể
hiện nhiều ràng buộc, không chỉ đơn thuần là chuỗi thời gian.
Tiếp theo tác giả tìm hiểu một số phƣơng pháp định lƣợng áp dụng dự đoán dựa trên
chuỗi thời gian. Phân tích hồi quy Gaussian Process đƣợc một số tác giả sử dụng cho
dữ liệu chứng khốn là giá cổ phiếu của các cơng ty. Phƣơng pháp này sử dụng một số
hàm hiệp phƣơng sai khác nhau nhƣ hàm hiệp phƣơng sai lũy thừa bình phƣơng, hàm

hiệp phƣơng sai lớp Matern, hàm hữu tỷ bậc hai. Dựa vào đánh giá thực nghiệm, các
tác giả này khẳng định rằng dữ liệu lịch sử càng dài cho kết quả dự đốn càng chính
xác để tìm ra cổ phiếu tốt; hàm hiệp phƣơng sai lũy thừa bình phƣơng và hàm hiệp
phƣơng sai lớp Matern cho kết quả dự đoán tốt do đó các tác giả khuyên dùng hai hàm
hiệp phƣơng sai này; đồng thời các tác giả cũng đánh giá phƣơng pháp phân tích hồi
quy Gaussian Process địi hỏi thời gian tính tốn lâu nhất là trên bộ dữ liệu lớn [9]. Một
số tác giả khác áp dụng phƣơng pháp tự hồi quy kết hợp trung bình động ARIMA để
dự đốn giá cổ phiếu của 66 cơng ty từ bảy ngành khác nhau dựa trên bộ dữ liệu lịch sử
độ dài khoảng 23 tháng và dự đoán cho một tháng kế tiếp. Để đánh giá các tham số của
mô hình các tác giả sử dụng bộ tham số sao cho thỏa mãn tiêu chuẩn thông tin Akaike
với bộ dữ liệu đầu vào đạt giá trị nhỏ nhất [10].
Đối tƣợng nghiên cứu của luận văn này là chuỗi thời gian, mà cụ thể là giá đóng cửa
chỉ số VN-Index qua các ngày giao dịch. Phạm vi nghiên cứu trong luận văn này nhằm
giải bài toán dự báo chuỗi thời gian. Do đó tác giả tập trung tìm hiểu lý thuyết các
phƣơng pháp định lƣợng áp dụng dự đoán trên chuỗi thời gian bao gồm phân tích hồi
quy Gaussian Process, mơ hình tự hồi quy trung bình động ARMA. Lý thuyết về chuỗi
thời gian cũng đƣợc tác giả trình bày trong phần tiếp theo của luận văn này. Các

7


phƣơng pháp phân tích định lƣợng khác kể trên khơng áp dụng để dự đoán chuỗi thời
gian nên tác giả không xem xét nghiên cứu chi tiết về lý thuyết.

1.3. Mơ hình phân tích định lƣợng dựa trên chuỗi thời gian
1.3.1. Mơ hình chuỗi thời gian
Chuỗi thời gian là một chuỗi các điểm dữ liệu, đƣợc đo theo từng khoảnh khắc thời
gian liền nhau theo một tần suất thời gian thống nhất. Một ví dụ cho chuỗi thời gian là
giá đóng cửa của chỉ số VN-Index qua các ngày giao dịch. Gọi Yt là chuỗi thời gian
đầu vào. Chuỗi thời gian này có thể phân tích thành bốn thành phần [2]:

Thành phần xu thế (gọi là Tt): Xu thế mang tính chất dài hạn, thể hiện mẫu hình
tăng hay giảm của các giá trị trong chuỗi thời gian. Kỹ thuật để xác định giá trị thành
phần xu thế tại vị trí k trong chuỗi thời gian là lấy trung bình giá trị tại các điểm liên
tiếp trong chuỗi thời gian xung quanh lân cận của điểm đó sao cho độ dài bằng khoảng
chu kỳ, và xem đó là giá trị xu thế của chuỗi thời gian tại điểm đó. Trong trƣờng hợp
chu kỳ lẻ có dạng (2C+1), cơng thức tính giá trị thành phần xu thế nhƣ sau:

Tk 

C
1
*  Yi  k
2C  1 i  C

(1.4)

Trong công thức trên k là vị trí của điểm đang xét trong chuỗi thời gian. T k là giá trị
thành phần xu thế tại điểm k. Yi+k là giá trị chuỗi thời gian đầu vào tại điểm (i+k). Ví
dụ với chu kỳ năm ngày, giá trị thành phần xu thế tại điểm k = 10 đƣợc tính theo cơng
thức triển khai sau:

Y  Y9  Y10  Y11  Y12
1 2
T10  *  Yi  k  8
5 i 2
5

(1.5)

Thành phần thời vụ (gọi là St): Tính thời vụ thể hiện sự tuần hoàn của dữ liệu chuỗi

thời gian trong một khoảng thời gian xác định. Thành phần này thể hiện ảnh hƣởng của
mùa vụ nhƣ tuần, tháng, quý, năm lên giá trị chuỗi dữ liệu.
Thành phần chu kỳ (gọi là Ct): Thành phần này đƣợc đặc trƣng bởi hệ số biến đổi
mùa, thể hiện sự tăng giảm lặp lại của các giá trị trong chuỗi thời gian theo một giai

8


đoạn không cố định. Khoảng thời gian chu kỳ thƣờng lớn hơn nhiều so với khoảng thời
gian mùa vụ trong chuỗi thời gian.
Thành phần ngẫu nhiên (gọi là Rt): Là thành phần còn lại sau khi loại bỏ đi ba thành
phần ở trên từ chuỗi thời gian ban đầu. Thành phần ngẫu nhiên có tính dừng. Tính dừng
thể hiện ở hàm tự tƣơng quan (ACF) giữa một điểm với các điểm trong quá khứ là nhỏ,
thƣờng nằm trong khoảng 

1.96
với N là kích thƣớc chuỗi thời gian. Giá trị 1.96 thể
N

hiện khoảng tin cậy 95% của phân phối Gauss chuẩn kỳ vọng 0 và phƣơng sai 1 (Xem
trong Phụ lục 3 – P3).
Có hai cách cơ bản để tổng hợp các thành phần của chuỗi thời gian để thu đƣợc
chuỗi ban đầu. Một là phƣơng pháp cộng, thực hiện bằng cách lấy tổng các thành phần
(Yt = Tt + St + Ct + Rt). Hai là phƣơng pháp nhân, thực hiện bằng cách lấy tích các
thành phần (Yt = Tt * St * Ct * Rt). Trên thực tế các thƣ viện hỗ trợ phân tách chuỗi thời
gian thƣờng không phân biệt thành phần Tt và Ct, và gọi chung đó là thành phần xu thế.
Trong luận văn này tác giả lựa chọn phƣơng pháp cộng khi thực hiện phân tách chuỗi
thời gian đầu vào.

1.3.2. Mơ hình tự hồi quy trung bình động ARMA

Mơ hình tự hồi quy trung bình động ARMA là mơ hình áp dụng trên chuỗi thời gian
đƣợc đề xuất đầu tiên bởi George Box và Gwilym Jenkins [18] vào năm 1970 và đƣợc
phát triển, sử dụng rộng rãi bởi nhiều các tác giả khác nhau về sau này. Mơ hình này
dựa trên giả định là chuỗi thời gian đầu vào phải có tính dừng. Ta có thể hiểu mơ hình
ARMA là một q trình đƣợc tạo ra bởi từ tổ hợp giữa các giá trị của chuỗi trong quá
khứ và các giá trị của nhiễu trong quá khứ và hiện tại. Công thức dƣới đây thể hiện mối
quan hệ giữa các đại lƣợng trong mơ hình [3]:

X t  1X t 1  ....  p X t p  Zt  1Z t 1  ....  q Z t q

(1.6)

(B)X t  (B)Z t
Trong đó chuỗi {Xt} là chuỗi thời gian đầu vào cho phƣơng pháp. Đại lƣợng p là số
lƣợng các tham số ở vế trái của công thức (1.6). Đại lƣợng q là số lƣợng các tham số ở

9


vế phải của công thức (1.6). Các đại lƣợng (Zt, Zt-1,…,Zt-q) là các sai số tƣơng ứng với
nhiễu trắng. Nói cách khác chuỗi {Zt} là một quá trình nhiễu trắng (White Noise
Process), đƣợc ký hiệu là Zt ~ WN(0, 2 ) . Nhiễu trắng là chuỗi các biến ngẫu nhiên
không có sự tƣơng quan với nhau, có kỳ vọng 0 và phƣơng sai 2 . Điều kiện để chuỗi
Zt là nhiễu trắng là:
E(Zt )  0; E(Z2t )  2 ; E(Z t Z h )  0, t  h

(1.7)

Các đại lƣợng (1 , 2 ,..., p , 1 , 2 ,..., q , 2 ) là các tham số của mơ hình ARMA. Nhƣ
vậy mơ hình này có (p+q+1) tham số, và thƣờng đƣợc ký hiệu là ARMA(p, q). Điều

kiện trong công thức (1.6) là đa thức (z)  (1  1z  2z 2  ...  p z p ) và đa thức
(z)  (1  1z  2 z 2  ...  q zq ) là hai đa thức khơng có ƣớc chung. Đại lƣợng B là toán

tử dịch ngƣợc thời gian ( B jXt  Xt  j , B jZt  Zt  j ). Ta có thể thấy mơ hình này là sự kết
hợp của hai thành phần: thành phần tự hồi quy ký hiệu là AR(p) và thành phần trung
bình động ký hiệu là MA(q). Thành phần tự hồi quy AR(p) thể hiện sự hồi quy tuyến
tính của giá trị tại điểm hiện tại so với các điểm quá khứ trong chuỗi thời gian:

Xt  1  1Xt 1  ...  p Xt p

(1.8)

Trong khi đó thành phần trung bình động MA(q) thể hiện sự phụ thuộc tuyến tính
với các sai số dự đoán trong quá khứ và hiện tại:

Xt  Zt  1Zt 1  ...  q Zt q

(1.9)

Mơ hình ARMA(p, q) đƣợc gọi là nhân quả khi giá trị đầu vào Xt tại thời điểm t bất
kỳ đƣợc biểu diễn dƣới dạng tổng vô hạn thành phần MA() nhƣ sau:


X t    j Zt  j  (B)Zt ;
j 0

(B) 

(B)
(B)


(1.10)


Ở trên giả thiết tổng vô hạn trị tuyệt đối các hệ số {i } là hữu hạn ( |  j |  ). Các
j 0

hệ số {i } đƣợc tính bằng phƣơng pháp đồng nhất hệ số khi thay Xt từ công thức (1.6)
vào công thức (1.10), ta thu đƣợc công thức sau với điều kiện 0  1;  j  0 j  q :

10


p

 j   k  jk   j ; j  0,1, 2,...

(1.11)

k 1

Gọi h là độ trễ thời gian, khi đó hàm tự tƣơng quan ký hiệu là (h) của mơ hình
ARMA(p, q) đƣợc tính theo cơng thức sau [3]:

 

 (h)  E(X t  h X t )  E (  jZ t  h  j )(  k Z t  k ) 
k 0
 j0






   j k E(Zt  h  j Zt  k )

(1.12)

j 0 k  0




j 0

j 0

   j  j h  2   2   j  j  h

Mơ hình ARMA(p, q) có (p+q+1) tham số đó là   (1 ,..., p , 1 ,..., q , 2 ) , ta tìm hiểu
phƣơng pháp để đánh giá các tham số này cho mơ hình. Gọi hàm tự tƣơng quan giữa
các điểm đầu vào là (i, j)  E(Xi X j ); (X1* , X*2 ,..., X*n ) là các điểm dự đốn theo mơ hình
ARMA. Ma trận hiệp phƣơng sai thể hiện sự tƣơng quan giữa các điểm đầu vào là:
 (1,1) (1, 2)... (1, n) 
 (2,1) (2, 2)... (2, n) 

K
....................................... 



 (n,1)  (n, n)... (n, n) 

(1.13)

Hàm logarit xác suất khả năng (likelihood) của mơ hình ARMA(p, q) là:
1
1
n
log p( | X)   X T K 1X  log | K |  log 2
(1.14)
2
2
2
Công thức (1.14) là công thức tổng quát đối với bất kì mơ hình nào với giả thiết
chuỗi thời gian đầu vào là chuỗi Gaussian. Đối với mô hình ARMA(p, q) cơng thức
này đƣợc rút gọn về dạng đơn giản hơn, đƣợc cho bởi công thức sau [3]:
log p( | X)  

* 2
1 n (X j  X j ) 1 n 1
n
  log(2 j )  log(2)

2
2 j1   j1
2 j0
2

(1.15)


Trong công thức (1.15) đại lƣợng  i là kỳ vọng sai số bình phƣơng tại bƣớc dự đốn
thứ i. Q trình xác định bộ tham số cho mơ hình ARMA gọi là q trình suy diễn.
Hàm logarit xác suất khả năng log p( | X) là hàm của các tham số của mô hình trong
mối tƣơng quan xác suất với các giá trị chuỗi thời gian đầu vào đã biết. Giá trị bộ tham
số sao cho cực đại hóa hàm logarit xác suất khả năng thể hiện rằng mơ hình ARMA

11


tƣơng ứng với bộ tham số đó là thỏa mãn nhất với bộ dữ liệu đầu vào đã biết. Nhƣ vậy,
các tham số của mơ hình đƣợc xác định bằng cực đại hàm logarit xác xuất khả năng
cho bởi công thức (1.15) ở trên. Phƣơng pháp đƣợc sử dụng để giải bài toán tối ƣu hàm
logarit xác suất khả năng là phƣơng pháp Gradient liên hợp. Sau khi xác định các tham
số của mơ hình, việc dự đốn tại một điểm kế tiếp thu đƣợc bằng cách biến đổi chuỗi
thời gian {Xi} thành chuỗi thời gian mới {Wi}cho bởi công thức sau:
1

 X t
Wt   1

 (B)X t

;1  t  m
;t  m

(1.16)

Ở công thức trên m = max(p, q). Hàm tự tƣơng quan giữa hai điểm (i, j) là w (i, j)
của chuỗi thời gian {Wi} đƣợc tính theo cơng thức sau [3]:
2  (i  j)


p
2   (i  j)    (r  | i  j |) 

r

 
r 1

 w (i, j)  
q

 r r |i  j|
 r 0
0

; 1  i, j  m
; min(i, j)  m  max(i, j)  2m

(1.17)
; min(i, j)  m
; otherwise

Trong công thức (1.17) (h) là hàm tự tƣơng quan theo mơ hình ARMA và đƣợc cho
bởi cơng thức số (1.12). Áp dụng giải thuật Innovations (Xem trong phụ lục 1 – P1)
cho chuỗi thời gian {Wi} ta thu đƣợc công thức xác định giá trị dự đoán tại điểm kế
tiếp cho chuỗi thời gian {Wi} là:
n
*
 nj (Wn 1 j  Wn 1 j ) ; 1  n  m

 j1
Wn*1   q
*
  (W

nj
n 1 j  Wn 1 j ) ; n  m

 j1

(1.18)

Các hệ số nj trong cơng thức (1.18) đƣợc tính từ giải thuật Innovations. Từ cơng
thức (1.16), ta có giá trị dự đoán tại điểm X*n 1 theo Wn*1 là:

X

*
n 1

 W

*
n 1

p

   jX n 1 j
j1


12

(1.19)


Thay công thức (1.18) vào (1.19) và với nhận xét Wt  Wt*  1 (Xt  X*t ); t  1 ta có:
n
*
; 1n m
 nj (X n 1 j  X n 1 j )
j

1

X*n 1   p
p
 X

nj (X n 1 j  X*n 1 j ) ; n  m

j n 1 j

j1
j1

(1.20)

Công thức (1.20) thể hiện kết quả dự đoán tại một điểm kế tiếp (n+1) theo mơ hình
ARMA(p, q). Gọi {i } là kỳ vọng sai số bình phƣơng tại bƣớc dự đốn tiếp theo, đƣợc
xác định từ giải thuật Innovations (Xem trong Phụ lục 1 – P1). Mỗi điểm dự đoán đƣợc

giả thiết là giao động ngẫu nhiên theo phân phối chuẩn với kỳ vọng 0 và phƣơng sai  n
[3]. Khoảng tin cậy 95% đối với kết quả dự đoán theo phƣơng pháp này đƣợc cho bởi
công thức sau (Xem trong Phụ lục 3 – P3):
P(X*n 1  1.96 vn  Xn 1  X*n 1  1.96 vn )=0.95

(1.21)

1.3.3. Phân tích hồi quy Gaussian Process
Gaussian Process chứa một tập hữu hạn (nhƣng không giới hạn) số lƣợng các biến
ngẫu nhiên, mỗi biến ngẫu nhiên có phân phối Gauss. Nói cách khác, Gaussian Process
là phân phối trên không gian các hàm f(x) chứ không phải trên không gian các trọng số.
Trong phân phối Gauss thông thƣờng ta biểu diễn bởi giá trị kỳ vọng  và phƣơng sai
2 , ký hiệu là N(, 2 ). Hàm mật độ xác suất trong phân phối Gauss nhƣ sau:

f (x, , ) 

1
(x  )2
exp[
]
2
 2

(1.22)

Tƣơng tự, phân phối trong Gaussian Process đƣợc biểu diễn bởi một hàm kỳ vọng
m(x) và một hàm hiệp phƣơng sai k(x, x’). Trên thực tế ta thƣờng coi biến ngẫu nhiên
có kỳ vọng m(x) = 0 và chỉ quan tâm tới hàm hiệp phƣơng sai [5].

f (x) ~ GP(0, k(x, x '))

k(x, x ')  E[f (x)f (x ')]

13

(1.23)


Giá trị của hàm hiệp phƣơng sai k(x, x’) biểu thị sự tƣơng quan giữa các đầu ra f(x)
và f(x’) tƣơng ứng với các biến đầu vào x và x’, nói cách khác nó thể hiện sự phân phối
giữa các hàm. Ta có thể lấy tổng hoặc tích các hàm hiệp phƣơng sai để có đƣợc một
hàm hiệp phƣơng sai mới với các tính chất khác biệt so với các hàm hiệp phƣơng sai
ban đầu. Ma trận K biểu diễn mối tƣơng quan giữa tất cả các biến đầu vào gọi là ma
trận hiệp phƣơng sai với kích thƣớc n x n.
 k(x1 , x1 ), k(x1, x 2 ),..., k(x 1, x n ) 
 k(x , x ), k(x , x ),..., k(x , x ) 
2
1
2
2
2
n 
K
.................................................. 


 k(x n , x1 ), k(x n , x 2 ),..., k(x n , x n ) 

(1.24)

Hình 1.1 dƣới đây minh họa bằng đồ thị cho phân tích hồi quy Gaussian Process:

Đầu Ra

Khơng gian hàm
Gaussian Proces

Đầu Vào

Y*

Y1

Y2

f1

f2

f*

X1

X2

X*

Hình 1.1: Biểu diễn đồ thị cho phân tích hồi quy Gaussian Process
Trong Hình 1.1 trên, các hình vng biểu thị các giá trị quan sát đƣợc (đã biết). Hình
trịn biểu thị các giá trị chƣa biết cần phải ƣớc lƣợng. Các giá trị X * nằm trong bộ dữ
liệu kiểm thử cần phải dự đoán. Các giá trị Y* là các giá trị đầu ra cần dự đốn. Các
hàm f1,f2,…,f* có phân phối chuẩn Gauss hình thành nên khơng gian hàm (Function

Space). Trong phân tích hồi quy Gaussian Process, việc lựa chọn hàm hiệp phƣơng sai
k(x, x’) đóng vai trị rất quan trọng. Có rất nhiều các lớp hàm hiệp phƣơng sai đã đƣợc
nghiên cứu nhƣ hàm lũy thừa bình phƣơng, hàm hữu tỷ bậc hai, v.v. Bảng 1.1 dƣới đây

14


chỉ ra một số lớp hàm hiệp phƣơng sai phổ biến đƣợc sử dụng trong phân tích hồi quy
Gaussian Process.
Bảng 1.1: Một số hàm hiệp phƣơng sai trong Gaussian Process
Hàm Hiệp Phƣơng Sai

Cơng Thức

Siêu Tham Số

Hàm lũy thừa bình

 (x  x ') 2 
 exp 

2
 2


2 ,

phƣơng [4]
Hàm hữu tỷ bậc hai [5]


2

2 (1 

2 , , 

(x  x ')2 
)
2 2

Hàm nhiễu [4]

2(x, x ')



Hàm tuyến tính [5]

b 2  v 2 (x  c)(x ' c)

b , v ,c

Hàm tuần hoàn [5]

2sin(
2 exp[

| x  x'|
)
p

2

2 , , p
]

Sau khi xây dựng đƣợc mơ hình Gaussian Process bài toán bây giờ là cho một tập dữ
liệu huấn luyện đầu vào, làm thế nào để tìm đƣợc các siêu tham số của hàm hiệp
phƣơng sai và dự đoán kết quả đầu ra theo bộ dữ liệu kiểm thử. Quá trình tìm bộ siêu
tham số hàm hiệp phƣơng sai gọi là quá trình suy diễn. Gọi X = [X1,X2,…,Xn]T là tập
dữ liệu huấn luyện đầu vào; Y = [Y1,Y2,…,Yn]T là tập dữ liệu đầu ra tƣơng ứng, p là số
lƣợng các siêu tham số hàm hiệp phƣơng sai;   [1 ,..., p ]T là tập các siêu tham số của
hàm hiệp phƣơng sai; f=[f1,f2,…,fn]T là tập các hàm Gauss tƣơng ứng với mỗi điểm đầu
vào. Trong q trình suy diễn, ta sử dụng cơng thức xác suất Bayes nhƣ sau [17]:
p(f | Y, X) 

p(Y | X,f )p(f | X)
p(Y | X)

posterior 

;

likelihood *prior
marginal likelihood

(1.25)

Trong đó p(f | Y, X) gọi là xác suất hậu nghiệm (posterior), p(Y | X,f ) gọi là xác suất
khả năng (likelihood), p(f | X) gọi là xác suất tiền nhiệm (prior), và p(Y|X) gọi là xác


15


×