BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI
Nguyễn Quang Đạt
CẢI TIẾN PHƯƠNG PHÁP HỌC MÁY
TRONG CHUỖI THỜI GIAN
VÀ ỨNG DỤNG
LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội – 2023
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI
Nguyễn Quang Đạt
CẢI TIẾN PHƯƠNG PHÁP HỌC MÁY
TRONG CHUỖI THỜI GIAN
VÀ ỨNG DỤNG
Ngành: Toán học
Mã số: 9460101
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Nguyễn Thị Ngọc Anh
2. PGS.TS. Nguyễn Ngọc Doanh
Hà Nội - 2023
i
LỜI CAM ĐOAN
Tôi - Nguyễn Quang Đạt - cam kết Luận án là cơng trình nghiên cứu của bản thân
tơi dưới sự hướng dẫn của TS. Nguyễn Thị Ngọc Anh và PGS.TS. Nguyễn Ngọc
Doanh. Các kết quả nêu trong luận án là trung thực, có trích dẫn nhưng khơng sao
chép tồn văn của bất kỳ cơng trình nào khác. Các kết quả đạt được trong Luận án
chưa từng được các tác giả khác công bố.
Hà Nội, ngày
tháng
năm 2023
Nghiên cứu sinh
Nguyễn Quang Đạt
Hà Nội, ngày
tháng
TM tập thể hướng dẫn
năm 2023
ii
LỜI CẢM ƠN
Em xin trân trọng cảm ơn tập thể giáo viên hướng dẫn, là TS. Nguyễn Thị Ngọc
Anh và PGS.TS. Nguyễn Ngọc Doanh, đã chỉ dẫn và giúp đỡ em trong các vấn đề
chính của q trình làm nghiên cứu. Từ dẫn hướng của thầy cô, em đã thu được các
kết quả tốt nhất khi hoàn thành luận án này.
Hà Nội, ngày
tháng
năm 2023
Nghiên cứu sinh
Nguyễn Quang Đạt
iii
MỤC LỤC
LỜI CẢM ƠN...........................................................................................ii
MỤC LỤC...............................................................................................iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT......................vi
DANH MỤC CÁC HÌNH VẼ..........................................................viii
DANH MỤC CÁC BẢNG BIỂU.....................................................xii
GIỚI THIỆU ĐỀ TÀI
1
CHƯƠNG 1. Một số mơ hình truyền thống trong dự báo chuỗi
thời gian
10
1.1
Autoregressive Integrated Moving Average - ARIMA..............................10
1.2
Seasonal Autoregressive Integrated Moving Average - SARIMA.............17
1.3
Wavelet Analys - WA................................................................................23
1.4
Artificial neutral network – ANN.............................................................28
1.5
Recurrent neural network – RNN.............................................................31
1.6
Tiêu chí đánh giá các mơ hình.................................................................38
CHƯƠNG 2. Mơ hình học trực tuyến
40
2.1
Dữ liệu thực tế được cập nhật liên tục.......................................................41
2.2
Cơ sở của mơ hình trực tuyến..................................................................42
2.3
Phương pháp giảm gradient trực tuyến....................................................45
2.4
Phương pháp trực tuyến ONS..................................................................49
2.5
Mơ hình trực tuyến cho ARIMA và SARIMA..........................................57
2.6
2.5.1
Mơ hình ARIMA Online Newton step.........................................57
2.5.2
Mơ hình SARIMA Online Newton step.......................................60
Mơ hình RNN trực tuyến.........................................................................71
iv
2.7
2.8
2.6.1
Một số vấn đề trong mơ hình RNN.............................................71
2.6.2
Xây dựng cơ sở thuật tốn trực tuyến.........................................73
2.6.3
Mơ tả thuật tốn.....................................................................79
Thực nghiệm mơ hình SARIMA online với dữ liệu thực tế............................84
2.7.1
Dữ liệu so sánh: dữ liệu Australia.................................................84
2.7.2
Dữ liệu phụ tải điện miền bắc Việt Nam......................................84
Kết quả thực nghiệm thực tế...................................................................85
2.8.1
Dữ liệu so sánh: dữ liệu Australia.................................................85
2.8.2
Dữ liệu phụ tải điện của miền bắc Việt Nam.................................88
CHƯƠNG 3. Mơ hình lai
93
3.1
Mơ hình lai ARIMA và ANN..................................................................96
3.2
Mơ hình lai ARIMA - LSTM được lọc qua bộ lọc MA..................................98
3.3
Mơ hình lai ARIMA - Neural Network có sử dụng lọc nhiễu bằng Wavelet
104
3.4
3.5
Mơ hình lai ARIMA-LSTM được tách dữ liệu bằng MA........................107
3.4.1
Dữ liệu so sánh: dữ liệu Sunspot................................................107
3.4.2
Dữ liệu mực nước........................................................................108
3.4.3
Kết quả.....................................................................................109
Mơ hình lai ARIMA-ANN lọc nhiễu bằng Wavelet.....................................114
3.5.1
Dữ liệu so sánh: dữ liệu Sunspot................................................115
3.5.2
Dữ liệu mực nước sơng Hồng.......................................................115
3.5.3
Kết quả.....................................................................................116
CHƯƠNG 4. Mơ hình lai máy học trực tuyến
4.1
123
Mơ hình lai máy học trực tuyến Multi-seasonal - ARIMA online
- RNN online............................................................................................123
4.2
Thực nghiệm của mơ hình lai máy học trực tuyến Multi-seasonal
- ARIMA online - RNN online.................................................................126
4.2.1
Dữ liệu.........................................................................................126
v
4.2.2
Kết quả.....................................................................................127
KẾT LUẬN
137
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA
LUẬN ÁN
TÀI LIỆU THAM KHẢO
140
143
vi
DANH MỤC CÁC CHỮ VIẾT TẮT VÀ CÁC KÝ HIỆU
CÁC CHỮ VIẾT TẮT
ARIMA
Mơ hình hồi quy tự động kết hợp trung bình trượt
có sử dụng sai phân.
SARIMA
Mơ hình hồi quy tự động kết hợp trung bình trượt
có sử dụng sai phân và tính mùa.
ANN
Mơ hình mạng thần kinh nhân tạo.
RNN
Mơ hình mạng thần kinh hồi quy.
WA
Mơ hình sóng nhỏ (Wavelets Analys).
Online learning
Mơ hình máy học trực tuyến.
Hybrid model
Mơ hình lai.
OGD
Online Gradient Descent: phương pháp giảm gradient trực tuyến.
ONS
Online Newton Step: phương pháp học trực tuyến
Newton Step.
Node
Tế bào/nốt/nút (trong ANN, RNN), là các thành
phần nhỏ nhất của mạng thần kinh nhân tạo.
MSE
Trung bình bình phương sai số (mean square error ).
MAE
Trung bình giá trị tuyệt đối của sai số (mean abso- lute
error ).
MAPE
Trung bình giá trị tuyệt đối của sai số tính theo phần
trăm (mean absolute percentage error ).
vii
MỘT SỐ KÝ HIỆU TOÁN HỌC
∇
Sai phân.
Ai
Ma trận Hessian ở bước thứ i, kích thước (p+m)×(p+m).
K
Tập quyết định.
D
Đường kính của tập quyết định.
L
Hằng số Lipschitz của hàm.
Li(θ)
Hàm mất mát (phụ thuộc tham số θ) tại bước thứ i.
ℓt(xt)
Hàm mất mát (phụ thuộc biến xt) (tại bước thứ t).
A ≻ 0
Ma trận A xác định dương.
A⪰0
Ma trận A xác định khơng âm.
QA
z = P (y) là hình chiếu của y lên P theo ma trận A ⪰
QA
P
0.
(y)
Q
P
(y)
viii
Phép chiếu trực giao
của y lên P.
A·B
Phép nhân ma trận.
A•B
Phép nhân trực tiếp ma trận A • B =
Tr(A)
Vết của ma trận A.
Lt,w(θ; µ)
Hàm time-smoothed loss được định nghĩa tại (2.79).
Σn
i,j=
1
Aij Bij .
DANH MỤC CÁC HÌNH VẼ
Hình 1.1
Phân tách dữ liệu tín hiệu qua 4 bậc. . . . . . . . . . . . . .
26
Hình 1.2
Mơ hình Recurrent Neural Networks . . . . . . . . . . . . . .
31
Hình 1.3
Ví dụ về mơ hình RNN. . . . . . . . . . . . . . . . . . . . . .
32
Hình 1.4
Một mơ hình RNN với nhiều đầu vào và 1 đầu ra. . . . . . .
36
Hình 2.1
Phương hướng giải quyết vấn đề cập nhật dữ liệu của mơ trực
hình tuyến. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
Hình 2.2
Cơ sở của việc tính tốn tham số cho mơ hình trực tuyến. .
44
Hình 2.3
Dữ liệu của Australia. . . . . . . . . . . . . . . . . . . . . . .
86
Hình 2.4
Thực nghiệm mơ hình trực tuyến: Kết quả của mơ hình
SARIMA-ONS khi chạy dữ liệu của Australia (tồn bộ dữ liệu). .
Hình 2.5
87
Thực nghiệm mơ hình trực tuyến: Kết quả của mơ hình
SARIMA-ONS khi chạy dữ liệu của Australia (một số giá trị đầu
tiên của tập dữ liệu con dùng để kiểm tra testing set )................................87
Hình 2.6 Thực nghiệm mơ hình trực tuyến: Tối ưu siêu tham số cho tự hồi
quy và tự hồi quy theo mùa cho mơ hình SARIMA online lúc 05 giờ
sáng, đại diện cho mức tiêu thụ điện thấp. Siêu tham
số tốt nhất là (p, P) = (1, 2)......................................................90
Hình 2.7 Thực nghiệm mơ hình trực tuyến: Tối ưu siêu tham số cho tự hồi
quy và tự hồi quy theo mùa cho mô hình SARIMA online lúc 13 giờ
trưa, đại diện cho mức tiêu thụ điện cao. Siêu tham số
tốt nhất là (p, P) = (0, 5).....................................................90
Hình 2.8 Thực nghiệm mơ hình trực tuyến: Tối ưu siêu tham số cho tự hồi
quy và tự hồi quy theo mùa cho mơ hình SARIMA online lúc 21 giờ
đêm, đại diện cho mức tiêu thụ điện trung bình. Siêu
tham số tốt nhất là (p, P) = (2, 0)...............................................91
Hình 2.9 Thực nghiệm mơ hình trực tuyến: Kết quả dự báo thời điểm 05 giờ
sáng của mơ hình SARIMA-ONS đối với dữ liệu phụ tải
điện miền bắc Việt Nam..........................................................................91
Hình 2.10 Thực nghiệm mơ hình trực tuyến: Kết quả dự báo thời điểm 13
giờ trưa của mơ hình SARIMA-ONS đối với dữ liệu phụ tải
điện miền bắc Việt Nam..........................................................................92
Hình 2.11 Thực nghiệm mơ hình trực tuyến: Kết quả dự báo thời điểm 21 giờ
đêm của mơ hình SARIMA-ONS đối với dữ liệu phụ tải
điện miền bắc Việt Nam..........................................................................92
Hình 3.1
Mơ hình lai ARIMA-LSTM. . . . . . . . . . . . . . . . . . . . 99
Hình 3.2
Mơ hình lai ARIMA - WA - Neural Networks . . . . . . . . . 106
Hình 3.3
Dữ liệu Sunspot từ năm 1870 tới năm 1987.
. . . . . . . . . 108
Hình 3.4
Dữ liệu mực nước từ năm 2016 tới năm 2018.
. . . . . . . . 109
Hình 3.5
tách
Hình 3.6
Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được
dữ liệu bằng MA - Mơ hình ARIMA (Dữ liệu Sunspot). . . . 110
Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được
tách dữ liệu bằng MA - Mơ hình LSTM (Dữ liệu Sunspot)......................111
Hình 3.7
Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được
tách dữ liệu bằng MA - Mơ hình của Babu [3] (Dữ liệu Sunspot). 111 Hình
3.8
Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được
tách dữ liệu bằng MA - Mơ hình ARIMA-LSTM dùng bộ lọc MA
(Dữ liệu Sunspot)..................................................................................112
Hình 3.9
Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được
tách dữ liệu bằng MA - Mơ hình ARIMA (Dữ liệu mực nước)................113
Hình 3.10 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được
tách dữ liệu bằng MA - Mơ hình LSTM (Dữ liệu mực nước)..................113
Hình 3.11 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được
tách dữ liệu bằng MA - Mơ hình ARIMA-LSTM dùng bộ lọc MA
(Dữ liệu mực nước). . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hình 3.12
Sunspot data
Hình 3.13
Dữ liệu mực nước.
114
. . . . . . . . . . . . . . . . . . . . . . . . . . . 115
. . . . . . . . . . . . . . . . . . . . . . . . 116
Hình 3.14 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-WA-ANN Dữ liệu Sunspot, thành phần tuyến tính và phi tuyến...............................118
Hình 3.15 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-WA-ANN So sánh kết quả các mơ hình (ARIMA - RNN/LSTM/GRU khơng
có Wavelet) - Dữ liệu Sunspot...............................................................119
Hình 3.16 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-WA-ANN Dữ liệu mực nước, thành phần tuyến tính và phi tuyến......................120
Hình 3.17 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-WA-ANN So sánh kết quả các mơ hình (ARIMA - RNN/LSTM/GRU khơng
có Wavelet) - Dữ liệu mực nước............................................................121
Hình 3.18 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-WA-ANN So sánh kết quả của các mơ hình (ARIMA - RNN/LSTM/GRU
có sử dụng Wavelet) - Dữ liệu mực nước...............................................122
Hình 4.1
Mơ hình lai trực tuyến đề xuất. . . . . . . . . . . . . . . . . .
125
Hình 4.2
Dữ liệu phụ tải điện của Australia . . . . . . . . . . . . . . .
126
Hình 4.3
Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal -
ARIMA online - RNN online - Mơ hình ARIMA. Đường nét liền màu
xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam là
dữ liệu dự báo (Dữ liệu Australia)..........................................................131
Hình 4.4 Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal - ARIMA
online - RNN online - Mơ hình RNN. Đường nét liền màu xanh lá cây
là dữ liệu gốc, đường nét đứt màu xanh lam là dữ
liệu dự báo (Dữ liệu Australia)...............................................................131
Hình 4.5 Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal - ARIMA
online - RNN online - Mơ hình ARIMA online. Đường nét liền màu
xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh
lam là dữ liệu dự báo (Dữ liệu Australia)...............................................132
Hình 4.6 Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal - ARIMA
online - RNN online - Mơ hình RNN online. Đường nét liền màu
xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam
là dữ liệu dự báo (Dữ liệu Australia)......................................................132
Hình 4.7
Thực nghiệm lai trực tuyến: Mơ hình Multi-seasonal - ARIMA
online - RNN online - Mơ hình đề xuất. Đường nét liền màu xanh lá
cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự
báo (dữ liệu Australia)...........................................................................133
Hình 4.8
Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal -
ARIMA online - RNN online - Mơ hình ARIMA truyền thống.
Đường nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt
màu xanh lam là dữ liệu dự báo (dữ liệu Việt Nam)................................134
Hình 4.9 Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal - ARIMA
online - RNN online - Mơ hình ARIMA online. Đường nét liền màu
xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh
lam là dữ liệu dự báo (dữ liệu Việt Nam)................................................135
Hình 4.10 Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal ARIMA online - RNN online - Mơ hình RNN truyền thống. Đường
nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh
lam là dữ liệu dự báo (dữ liệu Việt Nam)................................................135
Hình 4.11 Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal ARIMA online - RNN online - Mơ hình RNN online. Đường nét liền
màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam
là dữ liệu dự báo (dữ liệu Việt Nam)......................................................136
Hình 4.12 Thực nghiệm lai trực tuyến: Mơ hình Multi-seasonal - ARIMA
online - RNN online - Mơ hình đề xuất. Đường nét liền màu xanh lá
cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự
báo (dữ liệu Việt Nam)..........................................................................136
DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1
Một số nghiên cứu ứng dụng của mơ hình ARIMA trong
dự báo chuỗi thời gian.............................................................................11
Bảng 1.2
Một số nghiên cứu ứng dụng của mơ hình SARIMA trong
dự báo chuỗi thời gian.............................................................................17
Bảng 1.3
Một số nghiên cứu về mơ hình có xử lý dữ liệu bằng Wavelet. 23
Bảng 1.4
Một số nghiên cứu về mạng thần kinh nhân tạo - Artificial
Neural Network.......................................................................................28
Bảng 1.5
Một số nghiên cứu về mơ hình mạng nơ-ron hồi quy - Re- current
Neural Network.......................................................................................32
Bảng 2.1
Mơ hình máy học trực tuyến..........................................................40
Bảng 2.2
So sánh các đặc điểm khác nhau của mơ hình SARIMA giữa
mơ hình máy học truyền thống và mơ hình máy học trực tuyến.................70
Bảng 2.3
So sánh các đặc điểm khác nhau của mơ hình RNN giữa
mơ hình máy học truyền thống và mơ hình máy học trực tuyến.................83
Bảng 2.4
Kết quả của mơ hình đề xuất và so sánh với một số mơ hình
khác trên bộ dữ liệu của Australia...........................................................85
Bảng 2.5
Kết quả mơ hình đề xuất trên bộ dữ liệu phụ tải điện miền
bắc Việt Nam..........................................................................................89
Bảng 3.1
Mô hình lai giữa 2 mơ hình tuyến tính và mạng thần kinh
nhân tạo............................................................................................94
Bảng 3.2
Phương pháp lai cho mơ hình được đề xuất. . . . . . . . . .
101
Bảng 3.3
Các bộ dữ liệu sử dụng. . . . . . . . . . . . . . . . . . . . . .
107
Bảng 3.4
So sánh kết quả dự báo với dữ liệu Sunspot. Giá trị in đậm
là giá trị tốt nhất trong các mơ hình so sánh.............................................109
Bảng 3.5
So sánh kết quả với dữ liệu mực nước. Giá trị in đậm là giá
trị tốt nhất trong các mơ hình so sánh......................................................112
Bảng 3.6
So sánh kết quả dự báo mực nước.....................................................114
Bảng 3.7
Dữ liệu Sunspot...........................................................................115
Bảng 3.8
Dữ liệu mực nước...........................................................................116
Bảng 3.9
So sánh kết quả dự báo: Sunspot (dự báo 25 bước), và mực
nước (dự báo 1 bước). Giá trị in đậm là giá trị tốt nhất trong các
mơ hình so sánh.....................................................................................117
Bảng 4.1
Sử dụng tiêu chí thơng tin Akaike (Akaike information cri- terion -
AIC) để tìm bộ tham số (p, d, q) tốt nhất cho bộ dữ liệu Australia. Thử với
p=1,...,10; d =0,...,5; q =1,...,10..............................................................128
Bảng 4.2
Số lượng epochs và số lượng lớp để tìm kiếm mơ hình RNN
tốt nhất cho bộ dữ liệu Australia. Xem xét Epoch = 1 .. 10, slp
= 2 .. 128. Kết quả tốt nhất là slp=4 và Epoch=7 hoặc 9.....................129
Bảng 4.3
Kết quả một số mơ hình cho bộ dữ liệu Australia. Giá trị
in đậm là giá trị tốt nhất trong các mơ hình so sánh.................................130
Bảng 4.4 Kết quả dự báo bởi một số mơ hình cho bộ dữ liệu miền bắc
Việt Nam. Giá trị in đậm là giá trị tốt nhất trong các mơ hình so sánh.
Kết quả của mơ hình đề xuất là tốt nhất trong tất
cả các mơ hình......................................................................................133
1
GIỚI THIỆU ĐỀ TÀI
Trong chương này, tôi giới thiệu vấn đề cần nghiên cứu gồm bài toán đặt ra,
phương pháp nghiên cứu. Từ đó đó tơi làm rõ mục tiêu của Luận án và bố cục của
Luận án để hướng tới giải quyết mục tiêu đặt ra.
Đặt vấn đề
Với sự phát triển của công nghệ thông tin, hiện nay, ngành nghiên cứu mới là xử
lý dữ liệu lớn đã và đang rất được các tập đồn, các cơng ty và cả các cơ quan quản lý
nhà nước rất quan tâm, đầu tư nghiên cứu. Xử lý các số liệu trên tồn hệ thống có ý
nghĩa rất quan trọng, tỏng đó bao gồm cả việc cố gắng dự báo với độ chính xác cao
nhất nhất các dữ liệu trong tương lai (bao gồm dự báo ngắn hạn, trung hạn và dài
hạn).
Dữ liệu được dự báo trong chuỗi thời gian là rất quan trọng cho việc dự báo tương
lai được nói tới bên trên. Các dữ liệu dự báo này, kết hợp với một số các hệ thống
khác (ví dụ như trong dự báo thời tiết thì gồm có cả hệ thống ảnh vệ tinh và dữ liệu
quan trắc từ các điểm đo) khi được xử lý bằng các mơ hình mới hơn sẽ có thể đưa ra
một kết quả chính xác cao hơn cho hệ thống, nhắm tới mục tiêu vận hành hệ thống
một cách hợp lý nhất.
Động cơ nghiên cứu bài toán
Hiện nay tại Việt Nam đang diễn ra sự số hóa các ngành nghề rất mạnh
mẽ.
Khơng chỉ các ngành nghề có liên quan tới cơng nghệ thơng tin, mà cả các ngành
truyền thống, nhất là quản lý, cũng được tiến hành số hóa rất nhiều. Việc nghiên cứu
và úng dụng dữ liệu lớn (big data) trở thành một vấn đề mang tính thời sự rất cao
trong sự phát triển công nghệ thông tin trong xã hội và nền kinh tế.
2
Một trong các vấn đề của dữ liệu lớn là nghiên cứu chuỗi thời gian (time series).
Một trong những mục tiếu quan trọng nhất trong xử lý chuỗi thời gian là dự báo
(tiếng Anh là prediction hoặc forecasting). Dự báo chuỗi thời gian có tính ứng dụng
rất rộng rãi trong các vấn đề của cuộc sống, như dự báo thời tiết, dự báo chứng
khoán, dự báo dịch bệnh, và nhiều dự báo khác nữa. Vì vậy, nghiên cứu dự báo chuỗi
thời gian đang trở thành một trong những nghiên cứu quan trọng cho thời điểm hiện
nay.
Các nghiên cứu trước đây từ lâu đã đưa ra rất nhiều các mơ hình máy học
(machine learning) nhằm phục vụ cho dự báo chuỗi thời gian. Các mơ hình machine
learning ngày càng phức tạp và mạnh mẽ, dù đòi hỏi tài nguyên ngày càng nhiểu
nhưng độ chính xác cũng ngày một tăng cao. Trong Luận án này, tôi đã thiết lập một
số phương pháp mới và đưa ra một số mơ hình máy học mới, tăng cao hơn nữa độ
chính xác cho các dự báo chuỗi thời gian so với các mơ hình đã được công bố.
Mục tiêu của Luận án
Trong Luận án này, tôi, dưới sự hướng dẫn của tập thể các giảng viên hướng dẫn,
sẽ tập trung nghiên cứu và đề xuất một số mơ hình máy học mới, áp dụng cho dự báo
chuỗi thời gian. Một số lý thuyết trong các mơ hình mới này cần phải được chứng
minh bằng tốn học. Tổng thể mơ hình cần được chứng minh dựa trên kết quả thực
nghiệm với dữ liệu thực tế. Mô hình đề xuất phải là mơ hình mới, chưa được công bố
trước đây.
1. Mục tiêu hàn lâm: nghiên cứu và phân tích các mơ hình đang được sử dụng rộng
rãi về dự báo chuỗi thời gian, từ đó chỉ ra các vấn đề cịn tồn tại của mỗi mơ hình
đã được nghiên cứu. Đề xuất hướng giải quyết vấn đề trên của các mơ hình
truyền thống, từ đó xây dựng nên mơ hình dự báo mới tối ưu hơn.
• Phân tích một số mơ hình dự báo chuỗi thời gian truyền thống, chỉ ra vấn đề
trong các mơ hình này. Trong Luận án, tôi đã trọng tâm nghiên
3
cứu về các mơ hình SARIMA và RNN.
• Đưa ra các đề xuất về các thuật toán mới, xây dựng các mơ hình mới phù
hợp để tính các giá trị dự báo trong tương lai của một chuỗi thời gian được
chọn tại một thời điểm đã chọn. Trong Luận án, tôi đã đề xuất 2 phương
pháp là phương pháp lai (hybrid model ) và phương pháp máy học trực
tuyến (online learning). 2 mơ hình mới được xây dựng dựa vào các thuật
toán này, đồng thời tiếp tục kết hợp cả 2 mơ hình này để tạo ra một mơ
hình phức tạp và mạnh mẽ hơn nữa.
• Thực hành các mơ hình truyền thống và các mơ hình mới trên một số bộ dữ
liệu cơng khai, nhằm chứng minh độ chính xác đã được tăng lên của các mơ
hình đề xuất. Tạo các mơ hình nhắm tới các mục tiêu dự báo ngắn hạn và dự
báo dài hạn (có thể thêm dự báo trung hạn). So sánh kết quả thu được này
của các mơ hình mới với các mơ hình truyền thống.
• Đưa ra các phương hướng phát triển khả thi của nghiên cứu này và định
hướng cho các nghiên cứu trong tương lai.
2.Mục tiêu ứng dụng: sử dụng các mô hình mới để dự báo các chuỗi thời gian trong
bài tốn thực tế đang nghiên cứu. Từ đó đưa ra được kết luận về tính khả thi của
nghiên cứu.
• Ứng dụng các mơ hình nghiên cứu vào các bộ dữ liệu thực tế. Các dữ liệu
thực tế ở đây được sử dụng là các bộ dữ liệu được công khai trên các website
của các cơng ty (ví dụ như dữ liệu tiêu thụ điện ở Úc), hoặc là các bộ dữ liệu
nổi tiếng (ví dụ như dữ liệu điểm đem mặt trời Sunspot ). Các mơ hình sẽ
được chạy với các bộ dữ liệu thực này, sau đó dùng để so sánh các mơ hình
với nhau, ở đây là so sánh kết quả. Các mơ hình dùng để so sánh là một số
mơ hình truyền thống, và một số các mơ hình được các tác giả nghiên cứu
gần đây và đã được công khai phương pháp nghiên cứu trên các tạp chí uy
tín. Một số mơ hình khơng