Tải bản đầy đủ (.doc) (206 trang)

Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.4 MB, 206 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

Nguyễn Quang Đạt

CẢI TIẾN PHƯƠNG PHÁP HỌC MÁY
TRONG CHUỖI THỜI GIAN
VÀ ỨNG DỤNG

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội – 2023


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

Nguyễn Quang Đạt

CẢI TIẾN PHƯƠNG PHÁP HỌC MÁY
TRONG CHUỖI THỜI GIAN
VÀ ỨNG DỤNG
Ngành: Toán học
Mã số: 9460101

LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Nguyễn Thị Ngọc Anh
2. PGS.TS. Nguyễn Ngọc Doanh

Hà Nội - 2023




i

LỜI CAM ĐOAN

Tôi - Nguyễn Quang Đạt - cam kết Luận án là cơng trình nghiên cứu của bản thân
tơi dưới sự hướng dẫn của TS. Nguyễn Thị Ngọc Anh và PGS.TS. Nguyễn Ngọc
Doanh. Các kết quả nêu trong luận án là trung thực, có trích dẫn nhưng khơng sao
chép tồn văn của bất kỳ cơng trình nào khác. Các kết quả đạt được trong Luận án
chưa từng được các tác giả khác công bố.
Hà Nội, ngày

tháng

năm 2023

Nghiên cứu sinh

Nguyễn Quang Đạt

Hà Nội, ngày

tháng

TM tập thể hướng dẫn

năm 2023



ii

LỜI CẢM ƠN

Em xin trân trọng cảm ơn tập thể giáo viên hướng dẫn, là TS. Nguyễn Thị Ngọc
Anh và PGS.TS. Nguyễn Ngọc Doanh, đã chỉ dẫn và giúp đỡ em trong các vấn đề
chính của q trình làm nghiên cứu. Từ dẫn hướng của thầy cô, em đã thu được các
kết quả tốt nhất khi hoàn thành luận án này.
Hà Nội, ngày

tháng

năm 2023

Nghiên cứu sinh

Nguyễn Quang Đạt


iii

MỤC LỤC

LỜI CẢM ƠN...........................................................................................ii
MỤC LỤC...............................................................................................iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT......................vi
DANH MỤC CÁC HÌNH VẼ..........................................................viii
DANH MỤC CÁC BẢNG BIỂU.....................................................xii
GIỚI THIỆU ĐỀ TÀI


1

CHƯƠNG 1. Một số mơ hình truyền thống trong dự báo chuỗi
thời gian

10

1.1

Autoregressive Integrated Moving Average - ARIMA..............................10

1.2

Seasonal Autoregressive Integrated Moving Average - SARIMA.............17

1.3

Wavelet Analys - WA................................................................................23

1.4

Artificial neutral network – ANN.............................................................28

1.5

Recurrent neural network – RNN.............................................................31

1.6

Tiêu chí đánh giá các mơ hình.................................................................38


CHƯƠNG 2. Mơ hình học trực tuyến

40

2.1

Dữ liệu thực tế được cập nhật liên tục.......................................................41

2.2

Cơ sở của mơ hình trực tuyến..................................................................42

2.3

Phương pháp giảm gradient trực tuyến....................................................45

2.4

Phương pháp trực tuyến ONS..................................................................49

2.5

Mơ hình trực tuyến cho ARIMA và SARIMA..........................................57

2.6

2.5.1

Mơ hình ARIMA Online Newton step.........................................57


2.5.2

Mơ hình SARIMA Online Newton step.......................................60

Mơ hình RNN trực tuyến.........................................................................71


iv

2.7

2.8

2.6.1

Một số vấn đề trong mơ hình RNN.............................................71

2.6.2

Xây dựng cơ sở thuật tốn trực tuyến.........................................73

2.6.3

Mơ tả thuật tốn.....................................................................79

Thực nghiệm mơ hình SARIMA online với dữ liệu thực tế............................84
2.7.1

Dữ liệu so sánh: dữ liệu Australia.................................................84


2.7.2

Dữ liệu phụ tải điện miền bắc Việt Nam......................................84

Kết quả thực nghiệm thực tế...................................................................85
2.8.1

Dữ liệu so sánh: dữ liệu Australia.................................................85

2.8.2

Dữ liệu phụ tải điện của miền bắc Việt Nam.................................88

CHƯƠNG 3. Mơ hình lai

93

3.1

Mơ hình lai ARIMA và ANN..................................................................96

3.2

Mơ hình lai ARIMA - LSTM được lọc qua bộ lọc MA..................................98

3.3

Mơ hình lai ARIMA - Neural Network có sử dụng lọc nhiễu bằng Wavelet
104


3.4

3.5

Mơ hình lai ARIMA-LSTM được tách dữ liệu bằng MA........................107
3.4.1

Dữ liệu so sánh: dữ liệu Sunspot................................................107

3.4.2

Dữ liệu mực nước........................................................................108

3.4.3

Kết quả.....................................................................................109

Mơ hình lai ARIMA-ANN lọc nhiễu bằng Wavelet.....................................114
3.5.1

Dữ liệu so sánh: dữ liệu Sunspot................................................115

3.5.2

Dữ liệu mực nước sơng Hồng.......................................................115

3.5.3

Kết quả.....................................................................................116


CHƯƠNG 4. Mơ hình lai máy học trực tuyến
4.1

123

Mơ hình lai máy học trực tuyến Multi-seasonal - ARIMA online
- RNN online............................................................................................123

4.2

Thực nghiệm của mơ hình lai máy học trực tuyến Multi-seasonal
- ARIMA online - RNN online.................................................................126
4.2.1

Dữ liệu.........................................................................................126


v
4.2.2

Kết quả.....................................................................................127

KẾT LUẬN

137

DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA
LUẬN ÁN
TÀI LIỆU THAM KHẢO


140
143


vi

DANH MỤC CÁC CHỮ VIẾT TẮT VÀ CÁC KÝ HIỆU

CÁC CHỮ VIẾT TẮT
ARIMA

Mơ hình hồi quy tự động kết hợp trung bình trượt
có sử dụng sai phân.

SARIMA

Mơ hình hồi quy tự động kết hợp trung bình trượt
có sử dụng sai phân và tính mùa.

ANN

Mơ hình mạng thần kinh nhân tạo.

RNN

Mơ hình mạng thần kinh hồi quy.

WA


Mơ hình sóng nhỏ (Wavelets Analys).

Online learning

Mơ hình máy học trực tuyến.

Hybrid model

Mơ hình lai.

OGD

Online Gradient Descent: phương pháp giảm gradient trực tuyến.

ONS

Online Newton Step: phương pháp học trực tuyến
Newton Step.

Node

Tế bào/nốt/nút (trong ANN, RNN), là các thành
phần nhỏ nhất của mạng thần kinh nhân tạo.

MSE

Trung bình bình phương sai số (mean square error ).

MAE


Trung bình giá trị tuyệt đối của sai số (mean abso- lute
error ).

MAPE

Trung bình giá trị tuyệt đối của sai số tính theo phần
trăm (mean absolute percentage error ).


vii
MỘT SỐ KÝ HIỆU TOÁN HỌC


Sai phân.

Ai

Ma trận Hessian ở bước thứ i, kích thước (p+m)×(p+m).

K

Tập quyết định.

D

Đường kính của tập quyết định.

L

Hằng số Lipschitz của hàm.


Li(θ)

Hàm mất mát (phụ thuộc tham số θ) tại bước thứ i.

ℓt(xt)

Hàm mất mát (phụ thuộc biến xt) (tại bước thứ t).

A ≻ 0

Ma trận A xác định dương.

A⪰0

Ma trận A xác định khơng âm.
QA
z = P (y) là hình chiếu của y lên P theo ma trận A ⪰

QA

P

0.

(y)


Q
P


(y)

viii
Phép chiếu trực giao
của y lên P.

A·B

Phép nhân ma trận.

A•B

Phép nhân trực tiếp ma trận A • B =

Tr(A)

Vết của ma trận A.

Lt,w(θ; µ)

Hàm time-smoothed loss được định nghĩa tại (2.79).

Σn
i,j=
1

Aij Bij .



DANH MỤC CÁC HÌNH VẼ

Hình 1.1

Phân tách dữ liệu tín hiệu qua 4 bậc. . . . . . . . . . . . . .

26

Hình 1.2

Mơ hình Recurrent Neural Networks . . . . . . . . . . . . . .

31

Hình 1.3

Ví dụ về mơ hình RNN. . . . . . . . . . . . . . . . . . . . . .

32

Hình 1.4

Một mơ hình RNN với nhiều đầu vào và 1 đầu ra. . . . . . .

36

Hình 2.1

Phương hướng giải quyết vấn đề cập nhật dữ liệu của mơ trực


hình tuyến. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

Hình 2.2

Cơ sở của việc tính tốn tham số cho mơ hình trực tuyến. .

44

Hình 2.3

Dữ liệu của Australia. . . . . . . . . . . . . . . . . . . . . . .

86

Hình 2.4

Thực nghiệm mơ hình trực tuyến: Kết quả của mơ hình

SARIMA-ONS khi chạy dữ liệu của Australia (tồn bộ dữ liệu). .
Hình 2.5

87

Thực nghiệm mơ hình trực tuyến: Kết quả của mơ hình

SARIMA-ONS khi chạy dữ liệu của Australia (một số giá trị đầu
tiên của tập dữ liệu con dùng để kiểm tra testing set )................................87
Hình 2.6 Thực nghiệm mơ hình trực tuyến: Tối ưu siêu tham số cho tự hồi

quy và tự hồi quy theo mùa cho mơ hình SARIMA online lúc 05 giờ
sáng, đại diện cho mức tiêu thụ điện thấp. Siêu tham
số tốt nhất là (p, P) = (1, 2)......................................................90
Hình 2.7 Thực nghiệm mơ hình trực tuyến: Tối ưu siêu tham số cho tự hồi
quy và tự hồi quy theo mùa cho mô hình SARIMA online lúc 13 giờ
trưa, đại diện cho mức tiêu thụ điện cao. Siêu tham số
tốt nhất là (p, P) = (0, 5).....................................................90


Hình 2.8 Thực nghiệm mơ hình trực tuyến: Tối ưu siêu tham số cho tự hồi
quy và tự hồi quy theo mùa cho mơ hình SARIMA online lúc 21 giờ
đêm, đại diện cho mức tiêu thụ điện trung bình. Siêu
tham số tốt nhất là (p, P) = (2, 0)...............................................91
Hình 2.9 Thực nghiệm mơ hình trực tuyến: Kết quả dự báo thời điểm 05 giờ
sáng của mơ hình SARIMA-ONS đối với dữ liệu phụ tải
điện miền bắc Việt Nam..........................................................................91
Hình 2.10 Thực nghiệm mơ hình trực tuyến: Kết quả dự báo thời điểm 13
giờ trưa của mơ hình SARIMA-ONS đối với dữ liệu phụ tải
điện miền bắc Việt Nam..........................................................................92
Hình 2.11 Thực nghiệm mơ hình trực tuyến: Kết quả dự báo thời điểm 21 giờ
đêm của mơ hình SARIMA-ONS đối với dữ liệu phụ tải
điện miền bắc Việt Nam..........................................................................92
Hình 3.1

Mơ hình lai ARIMA-LSTM. . . . . . . . . . . . . . . . . . . . 99

Hình 3.2

Mơ hình lai ARIMA - WA - Neural Networks . . . . . . . . . 106


Hình 3.3

Dữ liệu Sunspot từ năm 1870 tới năm 1987.

. . . . . . . . . 108

Hình 3.4

Dữ liệu mực nước từ năm 2016 tới năm 2018.

. . . . . . . . 109

Hình 3.5
tách
Hình 3.6

Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được
dữ liệu bằng MA - Mơ hình ARIMA (Dữ liệu Sunspot). . . . 110
Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được

tách dữ liệu bằng MA - Mơ hình LSTM (Dữ liệu Sunspot)......................111
Hình 3.7

Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được

tách dữ liệu bằng MA - Mơ hình của Babu [3] (Dữ liệu Sunspot). 111 Hình
3.8

Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được
tách dữ liệu bằng MA - Mơ hình ARIMA-LSTM dùng bộ lọc MA

(Dữ liệu Sunspot)..................................................................................112

Hình 3.9

Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được

tách dữ liệu bằng MA - Mơ hình ARIMA (Dữ liệu mực nước)................113


Hình 3.10 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được
tách dữ liệu bằng MA - Mơ hình LSTM (Dữ liệu mực nước)..................113
Hình 3.11 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-LSTM được
tách dữ liệu bằng MA - Mơ hình ARIMA-LSTM dùng bộ lọc MA
(Dữ liệu mực nước). . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hình 3.12

Sunspot data

Hình 3.13

Dữ liệu mực nước.

114

. . . . . . . . . . . . . . . . . . . . . . . . . . . 115
. . . . . . . . . . . . . . . . . . . . . . . . 116

Hình 3.14 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-WA-ANN Dữ liệu Sunspot, thành phần tuyến tính và phi tuyến...............................118
Hình 3.15 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-WA-ANN So sánh kết quả các mơ hình (ARIMA - RNN/LSTM/GRU khơng
có Wavelet) - Dữ liệu Sunspot...............................................................119

Hình 3.16 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-WA-ANN Dữ liệu mực nước, thành phần tuyến tính và phi tuyến......................120
Hình 3.17 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-WA-ANN So sánh kết quả các mơ hình (ARIMA - RNN/LSTM/GRU khơng
có Wavelet) - Dữ liệu mực nước............................................................121
Hình 3.18 Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-WA-ANN So sánh kết quả của các mơ hình (ARIMA - RNN/LSTM/GRU
có sử dụng Wavelet) - Dữ liệu mực nước...............................................122
Hình 4.1

Mơ hình lai trực tuyến đề xuất. . . . . . . . . . . . . . . . . .

125

Hình 4.2

Dữ liệu phụ tải điện của Australia . . . . . . . . . . . . . . .

126

Hình 4.3

Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal -

ARIMA online - RNN online - Mơ hình ARIMA. Đường nét liền màu
xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam là
dữ liệu dự báo (Dữ liệu Australia)..........................................................131


Hình 4.4 Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal - ARIMA
online - RNN online - Mơ hình RNN. Đường nét liền màu xanh lá cây
là dữ liệu gốc, đường nét đứt màu xanh lam là dữ
liệu dự báo (Dữ liệu Australia)...............................................................131

Hình 4.5 Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal - ARIMA
online - RNN online - Mơ hình ARIMA online. Đường nét liền màu
xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh
lam là dữ liệu dự báo (Dữ liệu Australia)...............................................132
Hình 4.6 Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal - ARIMA
online - RNN online - Mơ hình RNN online. Đường nét liền màu
xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam
là dữ liệu dự báo (Dữ liệu Australia)......................................................132
Hình 4.7

Thực nghiệm lai trực tuyến: Mơ hình Multi-seasonal - ARIMA

online - RNN online - Mơ hình đề xuất. Đường nét liền màu xanh lá
cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự
báo (dữ liệu Australia)...........................................................................133
Hình 4.8

Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal -

ARIMA online - RNN online - Mơ hình ARIMA truyền thống.
Đường nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt
màu xanh lam là dữ liệu dự báo (dữ liệu Việt Nam)................................134
Hình 4.9 Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal - ARIMA
online - RNN online - Mơ hình ARIMA online. Đường nét liền màu
xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh
lam là dữ liệu dự báo (dữ liệu Việt Nam)................................................135
Hình 4.10 Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal ARIMA online - RNN online - Mơ hình RNN truyền thống. Đường
nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh
lam là dữ liệu dự báo (dữ liệu Việt Nam)................................................135



Hình 4.11 Thực nghiệm lai trực tuyến: Mơ hình lai Multi-seasonal ARIMA online - RNN online - Mơ hình RNN online. Đường nét liền
màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam
là dữ liệu dự báo (dữ liệu Việt Nam)......................................................136
Hình 4.12 Thực nghiệm lai trực tuyến: Mơ hình Multi-seasonal - ARIMA
online - RNN online - Mơ hình đề xuất. Đường nét liền màu xanh lá
cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự
báo (dữ liệu Việt Nam)..........................................................................136


DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1

Một số nghiên cứu ứng dụng của mơ hình ARIMA trong

dự báo chuỗi thời gian.............................................................................11
Bảng 1.2

Một số nghiên cứu ứng dụng của mơ hình SARIMA trong

dự báo chuỗi thời gian.............................................................................17
Bảng 1.3

Một số nghiên cứu về mơ hình có xử lý dữ liệu bằng Wavelet. 23

Bảng 1.4

Một số nghiên cứu về mạng thần kinh nhân tạo - Artificial


Neural Network.......................................................................................28
Bảng 1.5

Một số nghiên cứu về mơ hình mạng nơ-ron hồi quy - Re- current

Neural Network.......................................................................................32
Bảng 2.1

Mơ hình máy học trực tuyến..........................................................40

Bảng 2.2

So sánh các đặc điểm khác nhau của mơ hình SARIMA giữa

mơ hình máy học truyền thống và mơ hình máy học trực tuyến.................70
Bảng 2.3

So sánh các đặc điểm khác nhau của mơ hình RNN giữa

mơ hình máy học truyền thống và mơ hình máy học trực tuyến.................83
Bảng 2.4

Kết quả của mơ hình đề xuất và so sánh với một số mơ hình

khác trên bộ dữ liệu của Australia...........................................................85
Bảng 2.5

Kết quả mơ hình đề xuất trên bộ dữ liệu phụ tải điện miền

bắc Việt Nam..........................................................................................89

Bảng 3.1

Mô hình lai giữa 2 mơ hình tuyến tính và mạng thần kinh

nhân tạo............................................................................................94
Bảng 3.2

Phương pháp lai cho mơ hình được đề xuất. . . . . . . . . .

101

Bảng 3.3

Các bộ dữ liệu sử dụng. . . . . . . . . . . . . . . . . . . . . .

107

Bảng 3.4

So sánh kết quả dự báo với dữ liệu Sunspot. Giá trị in đậm

là giá trị tốt nhất trong các mơ hình so sánh.............................................109


Bảng 3.5

So sánh kết quả với dữ liệu mực nước. Giá trị in đậm là giá

trị tốt nhất trong các mơ hình so sánh......................................................112
Bảng 3.6


So sánh kết quả dự báo mực nước.....................................................114

Bảng 3.7

Dữ liệu Sunspot...........................................................................115

Bảng 3.8

Dữ liệu mực nước...........................................................................116

Bảng 3.9

So sánh kết quả dự báo: Sunspot (dự báo 25 bước), và mực

nước (dự báo 1 bước). Giá trị in đậm là giá trị tốt nhất trong các
mơ hình so sánh.....................................................................................117
Bảng 4.1

Sử dụng tiêu chí thơng tin Akaike (Akaike information cri- terion -

AIC) để tìm bộ tham số (p, d, q) tốt nhất cho bộ dữ liệu Australia. Thử với
p=1,...,10; d =0,...,5; q =1,...,10..............................................................128
Bảng 4.2

Số lượng epochs và số lượng lớp để tìm kiếm mơ hình RNN

tốt nhất cho bộ dữ liệu Australia. Xem xét Epoch = 1 .. 10, slp
= 2 .. 128. Kết quả tốt nhất là slp=4 và Epoch=7 hoặc 9.....................129
Bảng 4.3


Kết quả một số mơ hình cho bộ dữ liệu Australia. Giá trị

in đậm là giá trị tốt nhất trong các mơ hình so sánh.................................130
Bảng 4.4 Kết quả dự báo bởi một số mơ hình cho bộ dữ liệu miền bắc
Việt Nam. Giá trị in đậm là giá trị tốt nhất trong các mơ hình so sánh.
Kết quả của mơ hình đề xuất là tốt nhất trong tất
cả các mơ hình......................................................................................133


1

GIỚI THIỆU ĐỀ TÀI

Trong chương này, tôi giới thiệu vấn đề cần nghiên cứu gồm bài toán đặt ra,
phương pháp nghiên cứu. Từ đó đó tơi làm rõ mục tiêu của Luận án và bố cục của
Luận án để hướng tới giải quyết mục tiêu đặt ra.

Đặt vấn đề
Với sự phát triển của công nghệ thông tin, hiện nay, ngành nghiên cứu mới là xử
lý dữ liệu lớn đã và đang rất được các tập đồn, các cơng ty và cả các cơ quan quản lý
nhà nước rất quan tâm, đầu tư nghiên cứu. Xử lý các số liệu trên tồn hệ thống có ý
nghĩa rất quan trọng, tỏng đó bao gồm cả việc cố gắng dự báo với độ chính xác cao
nhất nhất các dữ liệu trong tương lai (bao gồm dự báo ngắn hạn, trung hạn và dài
hạn).
Dữ liệu được dự báo trong chuỗi thời gian là rất quan trọng cho việc dự báo tương
lai được nói tới bên trên. Các dữ liệu dự báo này, kết hợp với một số các hệ thống
khác (ví dụ như trong dự báo thời tiết thì gồm có cả hệ thống ảnh vệ tinh và dữ liệu
quan trắc từ các điểm đo) khi được xử lý bằng các mơ hình mới hơn sẽ có thể đưa ra
một kết quả chính xác cao hơn cho hệ thống, nhắm tới mục tiêu vận hành hệ thống

một cách hợp lý nhất.
Động cơ nghiên cứu bài toán
Hiện nay tại Việt Nam đang diễn ra sự số hóa các ngành nghề rất mạnh

mẽ.

Khơng chỉ các ngành nghề có liên quan tới cơng nghệ thơng tin, mà cả các ngành
truyền thống, nhất là quản lý, cũng được tiến hành số hóa rất nhiều. Việc nghiên cứu
và úng dụng dữ liệu lớn (big data) trở thành một vấn đề mang tính thời sự rất cao
trong sự phát triển công nghệ thông tin trong xã hội và nền kinh tế.


2
Một trong các vấn đề của dữ liệu lớn là nghiên cứu chuỗi thời gian (time series).
Một trong những mục tiếu quan trọng nhất trong xử lý chuỗi thời gian là dự báo
(tiếng Anh là prediction hoặc forecasting). Dự báo chuỗi thời gian có tính ứng dụng
rất rộng rãi trong các vấn đề của cuộc sống, như dự báo thời tiết, dự báo chứng
khoán, dự báo dịch bệnh, và nhiều dự báo khác nữa. Vì vậy, nghiên cứu dự báo chuỗi
thời gian đang trở thành một trong những nghiên cứu quan trọng cho thời điểm hiện
nay.
Các nghiên cứu trước đây từ lâu đã đưa ra rất nhiều các mơ hình máy học
(machine learning) nhằm phục vụ cho dự báo chuỗi thời gian. Các mơ hình machine
learning ngày càng phức tạp và mạnh mẽ, dù đòi hỏi tài nguyên ngày càng nhiểu
nhưng độ chính xác cũng ngày một tăng cao. Trong Luận án này, tôi đã thiết lập một
số phương pháp mới và đưa ra một số mơ hình máy học mới, tăng cao hơn nữa độ
chính xác cho các dự báo chuỗi thời gian so với các mơ hình đã được công bố.
Mục tiêu của Luận án
Trong Luận án này, tôi, dưới sự hướng dẫn của tập thể các giảng viên hướng dẫn,
sẽ tập trung nghiên cứu và đề xuất một số mơ hình máy học mới, áp dụng cho dự báo
chuỗi thời gian. Một số lý thuyết trong các mơ hình mới này cần phải được chứng

minh bằng tốn học. Tổng thể mơ hình cần được chứng minh dựa trên kết quả thực
nghiệm với dữ liệu thực tế. Mô hình đề xuất phải là mơ hình mới, chưa được công bố
trước đây.
1. Mục tiêu hàn lâm: nghiên cứu và phân tích các mơ hình đang được sử dụng rộng
rãi về dự báo chuỗi thời gian, từ đó chỉ ra các vấn đề cịn tồn tại của mỗi mơ hình
đã được nghiên cứu. Đề xuất hướng giải quyết vấn đề trên của các mơ hình
truyền thống, từ đó xây dựng nên mơ hình dự báo mới tối ưu hơn.
• Phân tích một số mơ hình dự báo chuỗi thời gian truyền thống, chỉ ra vấn đề

trong các mơ hình này. Trong Luận án, tôi đã trọng tâm nghiên


3
cứu về các mơ hình SARIMA và RNN.
• Đưa ra các đề xuất về các thuật toán mới, xây dựng các mơ hình mới phù

hợp để tính các giá trị dự báo trong tương lai của một chuỗi thời gian được
chọn tại một thời điểm đã chọn. Trong Luận án, tôi đã đề xuất 2 phương
pháp là phương pháp lai (hybrid model ) và phương pháp máy học trực
tuyến (online learning). 2 mơ hình mới được xây dựng dựa vào các thuật
toán này, đồng thời tiếp tục kết hợp cả 2 mơ hình này để tạo ra một mơ
hình phức tạp và mạnh mẽ hơn nữa.
• Thực hành các mơ hình truyền thống và các mơ hình mới trên một số bộ dữ

liệu cơng khai, nhằm chứng minh độ chính xác đã được tăng lên của các mơ
hình đề xuất. Tạo các mơ hình nhắm tới các mục tiêu dự báo ngắn hạn và dự
báo dài hạn (có thể thêm dự báo trung hạn). So sánh kết quả thu được này
của các mơ hình mới với các mơ hình truyền thống.
• Đưa ra các phương hướng phát triển khả thi của nghiên cứu này và định


hướng cho các nghiên cứu trong tương lai.
2.Mục tiêu ứng dụng: sử dụng các mô hình mới để dự báo các chuỗi thời gian trong
bài tốn thực tế đang nghiên cứu. Từ đó đưa ra được kết luận về tính khả thi của
nghiên cứu.
• Ứng dụng các mơ hình nghiên cứu vào các bộ dữ liệu thực tế. Các dữ liệu

thực tế ở đây được sử dụng là các bộ dữ liệu được công khai trên các website
của các cơng ty (ví dụ như dữ liệu tiêu thụ điện ở Úc), hoặc là các bộ dữ liệu
nổi tiếng (ví dụ như dữ liệu điểm đem mặt trời Sunspot ). Các mơ hình sẽ
được chạy với các bộ dữ liệu thực này, sau đó dùng để so sánh các mơ hình
với nhau, ở đây là so sánh kết quả. Các mơ hình dùng để so sánh là một số
mơ hình truyền thống, và một số các mơ hình được các tác giả nghiên cứu
gần đây và đã được công khai phương pháp nghiên cứu trên các tạp chí uy
tín. Một số mơ hình khơng



×