Tải bản đầy đủ (.pdf) (77 trang)

Đánh giá các mô hình dự báo chuỗi thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.5 MB, 77 trang )

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP. HCM
KHOA CÔNG NGHỆ THƠNG TIN

KHĨA LUẬN TỐT NGHIỆP

ĐỀ TÀI:
ĐÁNH GIÁ CÁC MƠ HÌNH
DỰ BÁO CHUỖI THỜI GIAN

GVHD:

TS. PHẠM THỊ THIẾT

SVTH:

ĐÀO THỊ HIỀN - 15094711

TP. Hồ Chí Minh, Ngày..... tháng..... năm 2021


INDUSTRIAL UNIVERSITY OF HO CHI MINH CITY
FACULTY OF INFORMATION TECHNOLOGY

GRADUATION THESIS

EVALUATION OF TIME SERIES
FORECASTING MODELS
Major: Computer science

Supervisor: Dr. PHAM THI THIET


Student: DAO THI HIEN - 15094711

HO CHI MINH CITY, 2021


EVALUATION OF TIME SERIES FORECASTING MODELS
Objectives of the study: Research, learn and experiment with time series
forecasting methods ARIMA, LSTM, Prohet. Evaluate and compare the results
achieved between the methods based on experimental results from a standard
database, thereby drawing conclusions about the advantages and disadvantages of
each method.
Problem solved
 General understanding of time series.
 Learn about time series forecasting.
 Learn the application of time series and time series forecasting.
 Learn the theory and implementation of some time series forecasting
models.
Methods of implementation


Theoretical research on models ARIMA, LSTM, Prophet.



Using Python programming language to experimentally simulate models
ARIMA, LSTM, Prophet.



Empirical evaluation on 1 standard data set: “Average monthly temperature

in Vietnam from 1901-2015”.

Conclusion
Accomplishing the goal of the thesis, experimenting with ARIMA, LSTM, Prophet
models on a data set "Average monthly temperature in Vietnam from 1901-2015".
Make a forecast for average monthly temperatures in 2015, based on series data
from 2014 and earlier as historical data for training. The thesis also conducted
many different experiments and made an evaluation of three models ARIMA,
LSTM, Prophet based on experimental results.
Development direction
• Execute on different data sets with larger data sets.
• Combine models together to have ability to obtain more optimal results.


NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................

............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................
............................................................................................


NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN

.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................
.............................................................................................

.............................................................................................
.............................................................................................
.............................................................................................


LỜI CẢM ƠN
Lời đầu tiên, em xin bày tỏ tình cảm và lịng biết ơn của mình đến giảng viên
hướng dẫn TS. Phạm Thị Thiết – người đã tận tình hướng dẫn, giúp đỡ và động
viên em trong quá trình thực hiện khóa luận này. Và gửi lời cảm ơn đến trưởng bộ
mơn Khoa học Máy tính Th.S. Hồ Đắc Quán về sự định hướng và giúp đỡ của
thầy, người đã góp phần khơng nhỏ đến việc hồn thành khóa luận.
Em cũng xin chân thành cảm ơn các thầy cô giáo trong Khoa Công nghệ thông tin
của Trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh, ban giám hiệu nhà
trường, các phòng ban đã tạo điều kiện tốt nhất cho chúng em trong suốt quá trình
học tập tại trường nói chung và q trình thực hiện khóa luận nói riêng, dù đang
trong thời điểm dịch bệnh Covid-19 diễn biến khôn lường.
Mặt dù đã cố gắng rất nhiều trong quá trình thực hiện đề tài nhưng khơng thể tránh
khỏi những thiếu sót, em mong rằng sẽ nhận được các ý kiến đóng góp q báu từ
các thầy cơ giáo để góp phần phát hiện kịp thời những yếu điểm và hoàn thiện hơn
trong những dự án sau này.
Một lần nữa em xin chân thành cảm ơn!

TP.Hồ Chí Minh, Ngày Tháng
Sinh viên thực hiện
Đào Thị Hiền

Năm 2021


LỜI MỞ ĐẦU

Nghiên cứu về dữ liệu chuỗi thời gian là một lĩnh vực nghiên cứu tiềm năng đã thu
hút sự quan tâm của cộng đồng các nhà nghiên cứu trong nhiều thập kỷ qua [[13].
Nó bao gồm việc thu thập và nghiên cứu những quan sát trong quá khứ của chuỗi
thời gian để phát triển một mơ hình thích hợp mơ tả cấu trúc vốn có của chuỗi. Sau
đó, mơ hình này được sử dụng để tạo ra các giá trị trong tương lai cho chuỗi, tức
là để đưa ra dự báo nhằm phục vụ một mục đích nào đó có ý nghĩa. Do đó, dự báo
chuỗi thời gian có thể được gọi là việc dự đốn tương lai bằng cách hiểu rõ các
quy luật hoạt động của dữ liệu trong quá khứ. Do tầm quan trọng không thể thiếu
của dự báo chuỗi thời gian trong nhiều lĩnh vực thực tế như kinh doanh, kinh tế,
tài chính, khoa học và kỹ thuật,… Các nhà nghiên cứu đã nỗ lực rất nhiều trong
nhiều năm để phát triển các mơ hình hiệu quả nhằm cải thiện độ chính xác của dự
báo. Tuy nhiên, một dự báo chuỗi thời gian thành công phụ thuộc vào một mơ hình
phù hợp. Vì vậy, việc lựa chọn một mơ hình phù hợp cho việc dự đốn dựa trên
dữ liệu chuỗi thời gian của mình đóng vai trị vơ cùng quan trọng. Để lựa chọn
được một mơ hình hiệu quả nhất, bên cạnh việc phải hiểu rõ dữ liệu mình đang có,
việc có hiểu biết về các mơ hình dự báo sẵn có cũng là điều tất yếu. Vì thế, khóa
luận này tập trung nghiên cứu tìm hiểu về một số mơ hình dự báo chuỗi thời gian,
ưu nhược điểm cũng như hiệu suất của chúng, và thực nghiệm các mơ hình trên
một tập dữ liệu chuẩn.
Một trong những mơ hình chuỗi thời gian phổ biến nhất và được sử dụng thường
xun là mơ hình Tự hồi quy tích hợp trung bình trượt (ARIMA [1]]). Giả định
cơ bản được đưa ra để thực hiện mơ hình này là chuỗi thời gian được xem xét là
tuyến tính và tuân theo một phân phối thống kê đã biết. Nhưng hạn chế chính của
mơ hình này là chuỗi thời gian được giả định thuộc dạng tuyến tính, nên khơng
phù hợp trong nhiều tình huống thực tế. Để khắc phục nhược điểm này, các mơ
hình ngẫu nhiên phi tuyến tính đã được nghiên cứu và cải tiến sử dụng. Và mạng
neural nhân tạo (ANNs) [[14] đã thu hút sự chú ý ngày càng tăng trong lĩnh vực
dự báo chuỗi thời gian. Mơ hình ANNs được tìm hiếu trong khóa luận này là một
mơ hình khá phổ biến, đó là LSTM [2] – một mơ hình mạng thần kinh nhân tạo
với cấu trúc dạng RNN thích hợp cho việc dự báo chuỗi thời gian. Tính năng vượt



trội của ANNs, khi được áp dụng cho các bài tốn dự báo chuỗi thời gian là khả
năng mơ hình phi tuyến tính vốn có của chúng, mà khơng có bất kỳ giả định nào
về phân phối thống kê theo sau các quan sát. Mơ hình thích hợp được hình thành
có thể thích ứng với dữ liệu đã có sẵn. Ngồi ra, trong khóa luận cũng trình bày về
Prophet [[10] – một mơ hình dự báo chuỗi thời gian đã được Facebook đóng gói
thành thư viện và cơng bố dưới dạng mã nguồn mở, đây một trong những cách tiếp
cận mới mẻ trong việc dự báo chuỗi thời gian.


Đánh giá các mơ hình dự báo chuỗi thời gian

MỤC LỤC
Chương 1 - TỔNG QUAN .................................................................................................. 11
1.1 Giới thiệu................................................................................................................... 11
1.2 Mục tiêu nghiên cứu .................................................................................................. 11
1.3 Nội dung nghiên cứu ................................................................................................. 11
1.4 Đối tượng và phạm vi nghiên cứu ............................................................................. 12
1.5 Phương pháp thực hiện .............................................................................................. 12
Chương 2 - CƠ SỞ LÝ THUYẾT ....................................................................................... 13
2.1 Tổng quan về chuỗi thời gian .................................................................................... 13
2.1.1 Chuỗi thời gian là gì? ......................................................................................... 13
2.1.2 Một số ví dụ về chuỗi thời gian ......................................................................... 13
2.1.3 Ứng dụng của chuỗi thời gian ............................................................................ 15
2.2 Phân tích chuỗi thời gian ........................................................................................... 16
2.2.1 Phân loại ............................................................................................................ 17
2.2.2 Các phương pháp và mục đích sử dụng [9] ....................................................... 17
2.3 Dự báo chuỗi thời gian .............................................................................................. 18
2.3.1 Phân loại ............................................................................................................ 19

2.3.2 Một số mơ hình dự báo chuỗi thời gian ............................................................. 19
2.3.3 Ứng dụng của dự báo chuỗi thời gian ................................................................ 21
Chương 3 - CÁC MƠ HÌNH DỰ BÁO CHUỖI THỜI GIAN............................................ 22
3.1 Mơ hình ARIMA [1] ................................................................................................. 22
3.1.1 Mơ hình AR(p)................................................................................................... 22
3.1.2 Mơ hình MA(q) .................................................................................................. 22
3.1.3 Tích hợp I(d) ...................................................................................................... 23
3.1.4 Mơ hình ARIMA ............................................................................................... 24
3.2 LSTM [2] .................................................................................................................. 33
3.3 Prophet [3] ................................................................................................................ 41

6
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian
Chương 4 - ĐÁNH GIÁ THỰC NGHIỆM ......................................................................... 48
4.1 Môi trường ................................................................................................................ 48
4.2 Thực nghiệm ............................................................................................................. 48
4.2.1 Mơ hình ARIMA ............................................................................................... 48
4.2.2 Mơ hình LSTM .................................................................................................. 58
4.2.3 Mơ hình Prophet ................................................................................................ 65
4.3 Đánh giá .................................................................................................................... 67
Chương 5 - TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN ....................................................... 70
5.1 Tổng kết..................................................................................................................... 70
5.2 Hướng pháp triển....................................................................................................... 70

7

GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian

DANH MỤC HÌNH ẢNH
Hình 2.1 Biểu đồ lượng khách hàng tháng đến Cơng viên Quốc gia Yellowstone với nhiệt độ
trung bình hàng tháng (2014-2016)............................................................................................. 14
Hình 2.2 Dân số của từng vùng theo tỉ lệ phần trăm so với dân số thế giới (1750-2005)........... 14
Hình 2.3 Mức tăng trưởng GDP Việt Nam (2000-2019) ............................................................ 15
Hình 3.1 Tắt dần theo hàm mũ [5] .............................................................................................. 29
Hình 3.2 Dao động tắt dần theo hàm mũ [5] .............................................................................. 29
Hình 3.3 Dao động tắt dần theo quy luật hình sin [5] ................................................................. 29
Hình 3.4 Cấu trúc của đơn vị LSTM........................................................................................... 35
Hình 3.5 Mơ hình mạng LSTM chuẩn ........................................................................................ 36
Hình 3.6 Các ký hiệu trong mơ hình LSTM ............................................................................... 36
Hình 3.7 Ký hiệu cổng trong LSTM ........................................................................................... 37
Hình 3.8 “Tầng cổng quên” trong LSTM ................................................................................... 38
Hình 3.9 Quá trình chọn lọc thơng tin mới trong LSTM ............................................................ 38
Hình 3.10 Quá trình cập nhật trạng thái tế bào ........................................................................... 39
Hình 3.11 Quá trình xác định đầu ra (giá trị dự báo) của mơ-đun trong LSTM ......................... 40
Hình 3.12 Sơ đồ minh họa quy trình dự báo hoạt động trên quy mơ lớn .................................... 43
Hình 3.13 Mơ hình hóa nhật ký của Peyton Manning trên trang Wikipedia .............................. 45
Hình 3.14 Biểu đồ thành phần “xu hướng” ................................................................................. 45
Hình 3.15 Biểu đồ thành phần “thời vụ hàng tuần” .................................................................... 46
Hình 3.16 Biểu đồ thành phần “thời vụ hàng năm” .................................................................... 46
Hình 4.1 Trực quan hóa tập dữ liệu ............................................................................................ 49
Hình 4.2 Các thành phần của chuỗi ............................................................................................ 50

Hình 4.3 Dải giá trị trung bình và độ lệch chuẩn của chuỗi ........................................................ 51
Hình 4.4 Kết quả kiểm tra tính dừng của chuỗi .......................................................................... 51
Hình 4.5 Kết quả xác định một bộ tham số (p, d, q) phù hợp ..................................................... 52
Hình 4.6 Trực quan hàm tự tương quan ACF ............................................................................. 53
Hình 4.7 Trực quan hàm tự tương quan từng phần PACF .......................................................... 54
Hình 4.8 Kết quả dự báo ARIMA(6, 0, 3) .................................................................................. 55
Hình 4.9 Kết quả các thử nghiệm ARIMA ................................................................................. 56
Hình 4.10 Box-plot kết quả các thử nghiệm ARIMA ................................................................. 58
Hình 4.11 Kết quả dự báo LSTM - batch_size = 1, epochs = 1000, neural = 1 .......................... 59
Hình 4.12 Box-plot kết quả dự báo LSTM - batch_size = 1, epochs = 1000, neural = 1............ 60
Hình 4.13 Kết quả dự báo LSTM - batch_size = 12, epochs = 1000, neural = 1 ........................ 61
Hình 4.14 Box-plot kết quả dự báo LSTM - batch_size = 12, epochs = 1000, neural = 1 ......... 62
Hình 4.15 Kết quả dự báo LSTM - batch_size = 12, epochs = 12000, neural = 12 .................... 63

8
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian
Hình 4.16 Box-plot kết quả dự báo LSTM - batch_size = 12, epochs = 12000, neural = 12 ..... 64
Hình 4.17 Kết quả dự báo Prophet .............................................................................................. 66
Hình 4.18 Giá trị dự báo của Prophet ......................................................................................... 67
Hình 4.19 Box-plot giá trị trung bình dự báo của các mơ hình................................................... 68

9
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền



Đánh giá các mơ hình dự báo chuỗi thời gian

DANH MỤC TỪ VIẾT TẮT
ARIMA

Tự hồi quy tích hợp trung bình trượt
(Auto-Regressive Integrated Moving-Average)
Tự hồi quy tích hợp trung bình trượt theo mùa

SARIMA

(Seasonal Autoregressive Integrated Moving
Average)

ARMA

Tự hồi quy trung bình trượt
(Autoregressive Moving Average)

AR

Tự hồi quy (Autoregressive)

MA

Trung bình trượt (Moving Average)

ACF


Hàm tự tương quan (Autocorrelation Function)

PACF

LSTM

ANNs

RNN

AIC

ADF

MSE

RMSE

Hàm tự tương quan một phần
(Partial Autocorrelation Function)
Mạng trí nhớ ngắn hạn định hướng dài hạn
(Long Short Term Memory)
Mạng neural nhân tạo
(Artificial Neural Networks)
Mạng neural hồi quy
(Recurrent Neural Network)
Tiêu chí thơng tin Akaike
(Akaike Information Criterion)
Kiểm định Dickey-Fuller tăng cường

(Augmented Dickey-Fuller)
Sai số tồn phương trung bình
(Mean Squared Error)
Sai số tồn phương trung bình gốc
(Root Mean Squared Error)

10
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian

Chương 1 - TỔNG QUAN
1.1 Giới thiệu
Với sự phát triển của Công nghệ thông tin đã tạo ra một lượng lớn cơ sở dữ liệu
và dữ liệu khổng lồ trong nhiều lĩnh vực khác nhau. Việc nghiên cứu cơ sở dữ liệu
và công nghệ thông tin đã tạo ra một cách tiếp cận để lưu trữ và sử dụng dữ liệu
quý giá này nhằm mục đích đưa ra quyết định sau này. “Khai phá dữ liệu là một
q trình trích xuất thơng tin hữu ích và các mẫu từ dữ liệu khổng lồ. Nó cịn được
gọi là q trình khám phá tri thức, khai thác tri thức từ dữ liệu, khai thác tri thức
hoặc phân tích dữ liệu/ phân tích mẫu” [4]. Khai thác dữ liệu có tầm quan trọng
liên quan đến việc tìm kiếm các mẫu, dự báo, khám phá kiến thức, v.v., trong các
lĩnh vực kinh doanh khác nhau. Các kỹ thuật và thuật toán khai thác dữ liệu như
phân loại, phân cụm, v.v., giúp tìm ra các mơ hình để quyết định xu hướng phát
triển trong tương lai của các doanh nghiệp. Khai thác dữ liệu có phạm vi ứng dụng
rộng rãi hầu như trong mọi ngành nơi dữ liệu được tạo ra, đó là lý do tại sao khai
thác dữ liệu được coi là một trong những biên giới quan trọng nhất trong cơ sở dữ
liệu và hệ thống thông tin và là một trong những phát triển liên ngành hứa hẹn nhất

trong Công nghệ thông tin.
Một trong những mục tiêu của khai phá dữ liệu là để đưa ra các dự báo trong tương
lai nhằm phục vụ một số quyết định hay mục đích nào đó. Trong đó có lĩnh vực
nghiên cứu về dự báo chuỗi thời gian và phát triển các mơ hình dự báo.

1.2 Mục tiêu nghiên cứu
Nghiên cứu, tìm hiểu và cài đặt thực nghiệm một số phương pháp dự báo chuỗi
thời gian, đánh giá và so sánh kết quả đạt được giữa các phương pháp với nhau
dựa trên kết quả thực nghiệm từ 1 cơ sở dữ liệu chuẩn, từ đó rút ra kết luận về ưu
nhược điểm của mỗi phương pháp.

1.3 Nội dung nghiên cứu
 Tìm hiểu chung về chuỗi thời gian.
 Tìm hiểu về dự báo chuỗi thời gian.
 Tìm hiểu ứng dụng của chuỗi thời gian và dự báo chuỗi thời gian.
11
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian
 Tìm hiểu lý thuyết và thực thi một số mơ hình dự báo chuỗi thời gian.

1.4 Đối tượng và phạm vi nghiên cứu
Nghiên cứu và thực nghiệm các mơ hình dự báo chuỗi thời gian như: ARIMA,
LSTM, Prophet trên tập dữ liệu Nhiệt độ trung bình hàng tháng tại Việt Nam từ
năm 1901-2015. Tập dữ liệu có tên là “vietnam-temperature-from-1901-2015wb.xls”, được chuyển đổi thành tệp *.csv: vietnam-temperature-from-1901-2015wb.csv. Tập dữ liệu được lấy trên diễn đàn “OpenDevelopment Việt Nam”1.

1.5 Phương pháp thực hiện

 Nghiên cứu về mặt lý thuyết các mô hình ARIMA, LSTM, Prophet.
 Sử dụng ngơn ngữ lập trình Python để mơ phỏng thực nghiệm các mơ hình
ARIMA, LSTM, Prophet.
 Đánh giá thực nghiệm trên 1 tập dữ liệu chuẩn: “Nhiệt độ trung bình hàng
tháng ở Việt Nam từ năm 1901-2015”

1

/>
12
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian

Chương 2 - CƠ SỞ LÝ THUYẾT
2.1 Tổng quan về chuỗi thời gian
2.1.1 Chuỗi thời gian là gì?
Chuỗi thời gian có thể được định nghĩa là một chuỗi các giá trị tuần tự được thu
nhận trong các khoảng thời gian cách đều nhau [9]. Nói cách khác, chuỗi thời gian
là một dạng dữ liệu thời gian rời rạc, thường được biểu diễn thông qua biểu đồ
đường. Dựa vào việc khai thác dữ liệu chuỗi thời gian, người ta thu nhận được các
giá trị ẩn chứa trong nó nhằm phục vụ các mục đích khác nhau.
Do là dữ liệu chịu ảnh hưởng bởi tính chất thời gian nên chuỗi thời gian thường
xuất hiện những quy luật đặc trưng như: yếu tố chu kỳ, yếu tố mùa và yếu tố xu
hướng. Đây là những đặc trưng thường thấy và xuất hiện ở hầu hết các chuỗi thời
gian.
2.1.2 Một số ví dụ về chuỗi thời gian

 Nhiệt độ và lượng mưa trung bình hàng năm tại Việt Nam.
 Số sinh viên đăng ký nguyện vịng vào Khoa Cơng nghệ thơng tin Trường
đại học cơng nghiệp hàng năm.
 Lưu lượng nước thủy triều mỗi chu kỳ.

13
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian
 Lượng khách hàng tháng đến Công viên Quốc gia Yellowstone với nhiệt độ
trung bình hàng tháng.

Hình 2.1 Biểu đồ lượng khách hàng tháng đến Công viên Quốc gia Yellowstone với nhiệt
độ trung bình hàng tháng (2014-2016)2

 Dữ liệu dân số thế giới hàng năm.

Hình 2.2 Dân số của từng vùng theo tỉ lệ phần trăm so với dân số thế giới (1750-2005)3

2
3

/> />
14
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền



Đánh giá các mơ hình dự báo chuỗi thời gian
 Mức tăng trưởng GDP hằng năm.

Hình 2.3 Mức tăng trưởng GDP Việt Nam (2000-2019)4

 Doanh thu của một công ty mỗi quý.
 …
2.1.3 Ứng dụng của chuỗi thời gian
Phân tích chuỗi thời gian được sử dụng cho nhiều ứng dụng như:
 Dự báo kinh tế
 Dự báo bán hàng
 Phân tích ngân sách
 Phân tích thị trường chứng khốn
 Dự báo lợi nhuận
 Quy trình và Kiểm sốt chất lượng

4

/>
15
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian
 Nghiên cứu hàng tồn kho
 Dự báo khối lượng công việc

 Nghiên cứu Tiện ích
 Phân tích điều tra dân số
Và nhiều hơn thế nữa…
Vai trò của chuỗi thời gian rất quan trọng đối với nền kinh tế và hoạt động của
doanh nghiệp nên trong học máy và thống kê có những ngành học nghiên cứu
chuyên sâu về chuỗi thời gian như kinh tế lượng, định giá tài sản tài chính.

2.2 Phân tích chuỗi thời gian
Phân tích chuỗi thời gian bao gồm các phương pháp phân tích dữ liệu chuỗi thời
gian để trích xuất các số liệu thống kê có ý nghĩa và các đặc điểm khác của dữ liệu.
Phân tích chuỗi thời gian cũng giúp hiểu rõ hơn về tập dữ liệu, cũng như các đặc
trưng của tập dữ liệu nhằm đưa ra các phương án dự báo hiệu quả, phù hợp với
từng tập dữ liệu khác nhau.
Trong thực tế, một mơ hình phù hợp được gắn cho một chuỗi thời gian nhất định
và các tham số tương ứng được ước tính bằng cách sử dụng các giá trị dữ liệu đã
biết. Quy trình phù hợp chuỗi thời gian với một mơ hình thích hợp được gọi là
Phân tích chuỗi thời gian. Nó bao gồm các phương pháp cố gắng hiểu bản chất của
chuỗi và thường hữu ích cho việc dự báo và mô phỏng trong tương lai. Trong dự
báo chuỗi thời gian, các quan sát trong quá khứ được thu thập và phân tích để phát
triển một mơ hình tốn học phù hợp nắm bắt q trình tạo dữ liệu cơ bản cho chuỗi.
Các sự kiện trong tương lai sau đó được dự đốn bằng cách sử dụng mơ hình. Cách
tiếp cận này đặc biệt hữu ích khi khơng có nhiều kiến thức về mơ hình thống kê
theo sau các quan sát liên tiếp hoặc khi thiếu mô hình giải thích thỏa đáng. Dự báo
chuỗi thời gian có những ứng dụng quan trọng trong các lĩnh vực khác nhau. Thơng
thường các quyết định chiến lược có giá trị và các biện pháp phòng ngừa được thực
hiện dựa trên kết quả dự báo. Do đó, để đưa ra một dự báo tốt, thì việc đưa ra một
mơ hình phù hợp với một chuỗi thời gian là rất quan trọng. Trong nhiều thập kỷ

16
GVHD: TS. Phạm Thị Thiết


SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian
qua, các nhà nghiên cứu đã có nhiều nỗ lực nhằm phát triển và cải tiến các mơ hình
dự báo chuỗi thời gian phù hợp [1], [2], [16], [17], [18].
Quy trình phân tích chuỗi thời gian cổ điển là q trình phân tách hàm 𝑓 (𝑡 ) là biểu
diễn toán học của chuỗi thời gian 𝑥𝑡 hay 𝑥𝑡 = 𝑓(𝑡 ) thành bốn thành phần:
1. Xu hướng: sự thay đổi dài hạn của mức trung bình của chuỗi thời gian.
2. Chu kỳ: một bước sóng dài trong chuỗi thời gian.
3. Thành phần theo mùa: biến động theo chuỗi thời gian lặp lại trong các khoảng
thời gian cụ thể.
4. Phần dư: đại diện cho tất cả các ảnh hưởng đến chuỗi thời gian mà ba thành
phần cịn lại khơng giải thích được.
2.2.1 Phân loại
Các phương pháp phân tích chuỗi thời gian có thể chia thành 2 loại: phương pháp
miền thời gian và phương pháp miền tần số.
Ngoài ra, các kỹ thuật phân tích chuỗi thời gian có thể được chia thành các phương
pháp tham số và phi tham số.
Các phương pháp phân tích chuỗi thời gian cũng có thể được chia thành tuyến tính
và phi tuyến tính, đơn biến và đa biến.
2.2.2 Các phương pháp và mục đích sử dụng [9]
 Phân tích thăm dị
Kiểm tra dữ liệu chuỗi thời gian thơng thường theo cách thủ công với biểu đồ
đường.
Tách thành các thành phần đại diện cho xu hướng, tính thời vụ, sự thay đổi
chậm và nhanh và tính bất thường theo chu kỳ.
 Điều chỉnh đường cong
Là quá trình xây dựng một đường cong, hoặc hàm toán học phù hợp nhất với

dữ liệu chuỗi thời gian có được, có thể bị ràng buộc và có thể dùng phương
pháp nội suy để thực hiện.
17
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian
 Xấp xỉ hàm
Là bài toán chọn một hàm trong số một lớp được xác định rõ phù hợp chặt chẽ
(“gần đúng”) với một hàm mục tiêu.
 Ước tính tín hiệu
Cách tiếp cận này dựa trên phân tích sóng hài và lọc tín hiệu trong miền tần số
bằng cách sử dụng phép biến đổi Fourier và ước tính mật độ phổ, được phát
triển để lọc tín hiệu khỏi nhiễu và dự đốn các giá trị tín hiệu tại một thời điểm
nhất định.
 Phân loại
 Phân đoạn
 Dự đoán và dự báo
Các mơ hình thống kê được hình thành đầy đủ cho mục đích mơ phỏng ngẫu
nhiên, để tạo ra các phiên bản thay thế của chuỗi thời gian, đại diện cho những
gì có thể xảy ra trong các khoảng thời gian khơng cụ thể trong tương lai (dự
đốn).
Các mơ hình thống kê đơn giản hoặc được hình thành đầy đủ để mơ tả kết quả
có thể xảy ra của chuỗi thời gian trước mắt, dựa trên kiến thức về các kết quả
gần đây nhất (dự báo).

2.3 Dự báo chuỗi thời gian
Dự báo chuỗi thời gian là việc sử dụng một mô hình để dự đốn các giá trị trong

tương lai dựa trên các giá trị đã quan sát trước đó.
Một mơ hình dự báo chuỗi thời gian thường dự báo dựa trên giả định rằng các quy
luật trong quá khứ sẽ lặp lại ở tương lai. Do đó xây dựng mơ hình dự báo chuỗi
thời gian là đang mơ hình hóa mối quan hệ trong quá khứ giữa biến độc lập (biến
đầu vào) và biến phụ thuộc (biến mục tiêu). Dựa vào mối quan hệ này để dự đoán
giá trị trong tương lai của biến phụ thuộc.

18
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian
2.3.1 Phân loại
Dự báo chuỗi thời gian có thể chia thành 2 loại là đơn biến và đa biến. Một chuỗi
thời gian đơn biến là một chuỗi có một biến phụ thuộc vào thời gian. Và dự báo
chuỗi thời gian đơn biến chính là dự báo chuỗi thời gian đơn biến. Cịn chuỗi thời
gian đa biến là chuỗi thời gian có nhiều hơn một biến phụ thuộc vào thời gian, mỗi
biến không chỉ phụ thuộc vào các giá trị trong quá khứ mà còn phụ thuộc vào các
biến khác. Sự phụ thuộc này được sử dụng để dự báo các giá trị trong tương lai,
quá trình này được gọi là dự báo chuỗi thời gian đa biến.
Ngồi ra cũng có thể phân thành dự báo một bước và dự báo nhiều bước.
2.3.2 Một số mơ hình dự báo chuỗi thời gian
 ARIMA [1] (Autoregressive Integrated Moving Average – Tự hồi quy tích hợp
Trung bình trượt)
Đây là phương pháp dự báo truyền thống dựa trên cách tiếp cận thống kê.
Mơ hình dựa trên giả thuyết chuỗi dừng và phương sai sai số khơng đổi. Mơ hình
sử dụng đầu vào chính là những tín hiệu quá khứ của chuỗi được dự báo để dự báo
nó. Các tín hiệu đó bao gồm: chuỗi tự hồi quy AR(p) và chuỗi trung bình trượt

MA(q). Hầu hết các chuỗi thời gian sẽ có xu hướng tăng hoặc giảm theo thời gian,
do đó yếu tố chuỗi dừng thường khơng đạt được. Trong trường hợp chuỗi khơng
dừng thì ta sẽ cần biến đổi sang chuỗi dừng bằng sai phân. Khi đó tham số đặc
trưng của mơ hình sẽ có thêm thành phần bậc của sai phân (d) để tạo thành chuỗi
dừng. Vì vậy, mơ hình được đặc trưng bởi 3 tham số (p, d, q).
 AR (Autoregressive - p)
 MA: (Moving Average - q)
 I: (Integrated - d)
Có thể xác định các tham số p, d, q thông qua đồ thị Hệ số tương quan tự động
(ACF – Autocorrelation Factor) hoặc đồ thị Hệ số tương quan tự động một phần
(PACF – Partial Autocorrelation Factor)
Mơ hình này phù hợp với chuỗi thời gian đơn biến có xu hướng và khơng có các
thành phần theo thời vụ.
19
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian
Ngồi ra cịn có mơ hình SARIMA [16] (Seasonal Autoregressive Integrated
Moving Average) để dự báo trên dữ liệu chuỗi thời gian có tính thời vụ, và một số
mơ hình biến thể như ARIMAX [17], SARIMAX [18].
 LSTM [2] (Long Short Term Memory – Mạng trí nhớ ngắn hạn định hướng dài
hạn)
Là một phương pháp sử dụng mạng lưới thần kinh học sâu, cụ thể LSTM là một
kiến trúc RNN (Recurrent Neural Network) có khả năng học được sự phụ thuộc
trong dài hạn được giới thiệu bởi Hochreiter & Schmidhuber (1997) [6]. LSTM có
thể sử dụng để giải quyết các bài tốn phức tạp như: nhận dạng chữ viết tay [7],
nhận dạng giọng nói [8],… và khơng thể khơng nhắc đến đó chính là giải quyết bài

tốn dự báo chuỗi thời gian.
 Thư viện Prophet [3]
Thư viện Prophet là phần mềm mã nguồn mở do nhóm “Khoa học Dữ liệu cốt lõi”5
của Facebook phát hành. Nó có sẵn để tải xuống trên CRAN và PyPI.
Prophet là một thủ tục để dự báo dữ liệu chuỗi thời gian dựa trên mơ hình phụ trợ
trong đó các xu hướng phi tuyến tính phù hợp với thời vụ hàng năm, hàng tuần và
hàng ngày, cộng với các hiệu ứng ngày lễ. Nó hoạt động tốt nhất với chuỗi thời
gian có hiệu ứng theo mùa mạnh mẽ và một số mùa dữ liệu lịch sử. Prophet hoạt
động tốt cả khi thiếu dữ liệu và thay đổi trong xu hướng, và thường xử lý tốt các
ngoại lệ.
Prophet có các đặc điểm như sau:
 Chính xác và nhanh chóng: Prophet được sử dụng trong nhiều ứng dụng
trên Facebook để đưa ra các dự báo đáng tin cậy cho việc lập kế hoạch và
thiết lập mục tiêu. Nó có khả năng đưa ra các dự báo chỉ sau vài giây.
 Hoàn toàn tự động: Nhận dự báo hợp lý về dữ liệu lộn xộn mà không cần
nỗ lực thủ công. Prophet hoạt động tốt đối với những ngoại lệ, dữ liệu bị
thiếu và những thay đổi đáng kể trong chuỗi thời gian của bạn.
5

/>
20
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian
 Dự báo có thể điều chỉnh được: Thư viện Prophet bao gồm nhiều khả năng
để người dùng tinh chỉnh và điều chỉnh các dự báo. Bạn có thể sử dụng các
thơng số có thể hiểu được của con người để cải thiện dự báo của mình bằng

cách bổ sung kiến thức về miền của bạn.
 Có sẵn trên R và Python: Prophet được triển khai bằng R và Python, nhưng
có thể sử dụng bất kỳ ngôn ngữ nào để nhận dự báo bởi mã Stan.
2.3.3 Ứng dụng của dự báo chuỗi thời gian
Các dự báo chuỗi thời gian có tính ứng dụng cao và được sử dụng rất nhiều lĩnh
vực như tài chính ngân hàng, chứng khốn [11], bảo hiểm, thương mại điện tử,
marketing, quản lý chính sách,…
Một số ứng dụng cụ thể của dự báo chuỗi thời gian như sau:
 Dự báo nhu cầu thị trường để lập kế hoạch sản xuất kinh doanh cho hãng.
 Dự báo lợi suất tài sản tài chính, tỷ giá, giá cả hàng hóa phái sinh để thực
hiện giao dịch hiệu quả trong rủi ro thị trường.
 Dự báo giá chứng khoán, các chuỗi lợi suất danh mục để quản trị danh mục
đầu tư.
 Dự báo giá bitcoin, giá dầu mỏ, giá gas,…
 Dự báo nhiệt độ, lượng mưa để lập kế hoạch sản xuất nông, lâm, ngư
nghiệp.
 Dự báo tác động của các nhân tố vĩ mô như lãi suất, cung tiền, đầu tư trực
tiếp nước ngồi, chi tiêu chính phủ, lạm phát,… tác động lên tăng trưởng
GDP để điều hành nền kinh tế.

21
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


Đánh giá các mơ hình dự báo chuỗi thời gian

Chương 3 - CÁC MƠ HÌNH DỰ BÁO CHUỖI THỜI GIAN
3.1 Mơ hình ARIMA [[1]

Mơ hình ARIMA(p, d, q) : là mơ hình kết hợp của AR(p), MA(q) và q trình tích
hợp I(d).
3.1.1 Mơ hình AR(p)
Ý tưởng chính của mơ hình AR(p) là hồi quy trên số liệu quá khứ ở những chu kì
trước được thể hiện trong cơng thức 3.1.
𝑝
𝑌𝑡 = 𝑐 + ∑𝑖=1 𝜑𝑖 𝑌𝑡−𝑖 + 𝜀𝑡

(3.1)

Trong đó :
𝑌𝑡 : là giá trị của biến phụ thuộc 𝑌 đang được quan sát tại khoảng thời gian t
𝑌𝑡−𝑖 : giá trị của các quan sát dừng trong quá khứ so với khoảng thời gian t
𝑐, 𝜑𝑖 : các tham số phân tích hồi quy, là một hằng số có thể ước tính được
𝜀𝑡 : sai số dự báo ngẫu nhiên của giai đoạn hiện tại. (𝜀𝑡 được kỳ vọng có giá trị
bằng 0).
Giá trị 𝑌𝑡 là một hàm tuyến tính là tập hợp của những quan sát dừng quá khứ 𝑌𝑡−1 ,
𝑌𝑡−2 , 𝑌𝑡−3 ,… Nói cách khác khi sử dụng phân tích hồi quy 𝑌𝑡 theo các giá trị chuỗi
thời gian dừng có độ trễ bậc p, sẽ có được mơ hình AR(p) – yếu tố xu hướng đã
được tách khỏi yếu tố thời gian, tiếp theo sẽ mô hình hóa những yếu tố cịn lại –
đó là sai số. Số lần quan sát dừng quá khứ sử dụng trong mơ hình hàm tự tương
quan, tức là độ trễ bậc p, cũng chính là tham số p của mơ hình AR. Nếu ta sử dụng
hai quan sát dừng quá khứ, ta có mơ hình tương quan bậc hai AR(2).
3.1.2 Mơ hình MA(q)
Mơ hình trung bình trượt được hiểu là quá trình dịch chuyển hoặc thay đổi giá trị
trung bình của chuỗi thời gian. Do chuỗi thời gian được giả định là chuỗi dừng nên
quá trình thay đổi trung bình được xác định như một chuỗi nhiễu trắng. Quá trình
trung bình trượt sẽ tìm mối liên hệ về mặt tuyến tính giữa các phần tử ngẫu nhiên
𝜖𝑡 (stochastic term). Chuỗi này phải là một chuỗi nhiễu trắng thỏa mãn các tính
chất trong cơng thức 3.2.


22
GVHD: TS. Phạm Thị Thiết

SVTH: Đào Thị Hiền


×