Tải bản đầy đủ (.pdf) (108 trang)

Tự động hóa xác định độ dài mùa ứng dụng trong dự báo dữ liệu chuỗi thời gian có tính mùa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (20.62 MB, 108 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
----------------------

TRẦN ĐỨC NGHĨA

TỰ ĐỘNG HÓA XÁC ĐỊNH ĐỘ DÀI MÙA
ỨNG DỤNG TRONG DỰ BÁO DỮ LIỆU CHUỖI THỜI
GIAN CÓ TÍNH MÙA
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 60.48.01

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, 06 - 2015


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

--------------------------------------

TRẦN ĐỨC NGHĨA

TỰ ĐỘNG HÓA XÁC ĐỊNH ĐỘ DÀI MÙA
ỨNG DỤNG TRONG DỰ BÁO DỮ LIỆU CHUỖI THỜI
GIAN CÓ TÍNH MÙA
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 60.48.01

LUẬN VĂN THẠC SĨ


GIÁO VIÊN HƯỚNG DẪN
PGS.TS. DƯƠNG TUẤN ANH

TP. HỒ CHÍ MINH, 06 - 2015


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : PGS.TS. Dương Tuấn Anh

Cán bộ chấm nhận xét 1 : TS. Võ Thị Ngọc Châu

Cán bộ chấm nhận xét 2 : TS. Lư Nhật Vinh

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 10 tháng 07 năm 2015.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. GS.TS. Cao Hoàng Trụ
2. TS. Lê Thanh Vân
3. TS. Võ Thị Ngọc Châu
4. TS. Lư Nhật Vinh
5. PGS.TS. Đỗ Phúc
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA KH & KTMT

i



ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Trần Đức Nghĩa

MSHV: 13070250

Ngày, tháng, năm sinh: 26-10-1986

Nơi sinh: Khánh Hịa

Chun ngành: Khoa học máy tính

Mã số : 60.48.01

I. TÊN ĐỀ TÀI:
Tự động hóa xác định độ dài mùa, ứng dụng trong dự báo dữ liệu chuỗi thời gian
có tính mùa.
II. NHIỆM VỤ VÀ NỘI DUNG:
Nghiên cứu cách tính tự động độ dài mùa.
Nghiên cứu mơ hình lai hóa k-láng-giềng và mạng nơron nhân tạo.
Xây dựng chương trình để thử nghiệm mơ hình lai hóa có áp dụng độ dài mùa cho
bài toán dự báo dữ liệu thời gian có tính mùa.
Đánh giá kết quả.

Kết luận và hướng phát triển.
III. NGÀY GIAO NHIỆM VỤ :

19/01/2015

IV. NGÀY HOÀN THÀNH NHIỆM VỤ:

15/06/2015

V. CÁN BỘ HƯỚNG DẪN :

PGS.TS Dương Tuấn Anh

Tp. HCM, ngày 26 tháng 07 năm 2015
CÁN BỘ HƯỚNG DẪN

TRƯỞNG KHOA KH & KTMT

ii


LỜI CẢM ƠN
Trong suốt quá trình nghiên cứu và thực hiện luận văn, tôi đã nhận được sự
động viên, giúp đỡ tận tình của giáo viên hướng dẫn là thầy giáo Phó giáo sư Tiến sĩ
Dương Tuấn Anh. Thầy đã giúp đỡ tơi nhiệt tình từ việc định hướng nghiên cứu,
cung cấp tài liệu đến việc chỉ bảo kinh nghiệm thực tiễn, giúp tôi tiến bộ trong thời
gian qua. Từ đó, tơi đã biết thêm nhiều bài học về cách suy xét, nhận thức, cách
nghiên cứu khoa học. Tôi xin được bày tỏ lòng biết ơn sâu sắc về sự giúp đỡ q
báu này.
Tơi xin bày tỏ lịng biết ơn tới Ban giám hiệu, Ban chủ nhiệm khoa Sau đại

học Trường Đại học Bách Khoa TP. Hồ Chí Minh.
Tơi xin chân thành cảm ơn các thầy cô trong trường Đại học Bách Khoa đã
dạy bảo trong suốt hai năm Cao học, để tơi có những kiến thức như ngày hơm nay,
và cụ thể là qua luận văn đã phần nào thể hiện.
Cuối cùng, tôi xin chân thành cảm ơn người thân, gia đình và các bạn học
viên cùng khố đã động viên, chia sẽ những khó khăn trong q trình thực hiện đề
tài. Cảm ơn mọi người đã cùng tôi sát cánh và trải nghiệm trên suốt con đường góp
nhặt những kiến thức quý báu này.
Tôi xin chân thành cảm ơn!

iii


TÓM TẮT LUẬN VĂN
Luận văn tập trung nghiên cứu vào việc xác định tính mùa của dữ liệu chuỗi
thời gian một cách tự động thông qua hàm tự tương quan ACF (AutoCorrelation
Function).
Từ đó ứng dụng thơng tin độ dài mùa vào phương pháp lai hóa kết hợp giữa
kNN (k-Nearest Neighbor) và ANN (Artificial Neural Networks), nhằm nâng cao
hiệu quả trong dự báo dữ liệu chuỗi thời gian có tính mùa. Thông tin độ dài mùa đã
tạo thuận lợi cho việc xác định thơng số cho kNN và cấu hình phù hợp cho ANN.

iv


LỜI CAM ĐOAN
Tôi xin cam đoan bản luận văn này do chính tơi thực hiện dưới sự hướng dẫn
khoa học của PGS.TS Dương Tuấn Anh.
Các số liệu và kết quả nghiên cứu trong luận văn là trung thực và chưa hề
được công bố hoặc sử dụng để bảo vệ một học hàm nào.

Các thơng tin trích dẫn trong luận văn này đều được chỉ rõ nguồn gốc.
Nếu sai tôi xin chịu hồn tồn trách nhiệm.

TP.Hồ Chí Minh, tháng 06 năm 2015
Học viên

Trần Đức Nghĩa

v


MỤC LỤC
Đề mục

Trang

LỜI CẢM ƠN .......................................................................................................... iii
TÓM TẮT LUẬN VĂN .......................................................................................... iv
LỜI CAM ĐOAN ......................................................................................................v
MỤC LỤC ................................................................................................................ vi
DANH SÁCH HÌNH VẼ ......................................................................................... ix
DANH SÁCH BẢNG BIỂU................................................................................... xii
DANH SÁCH CÁC TỪ VIẾT TẮT .................................................................... xiii
Chương 1 :

GIỚI THIỆU ĐỀ TÀI .......................................................................1

1.1.

Giới thiệu .......................................................................................................1


1.2.

Cơng trình liên quan ......................................................................................2

1.3.

Mục tiêu của đề tài.........................................................................................3

1.4.

Cấu trúc của luận văn ....................................................................................4

Chương 2 :

CƠ SỞ LÝ THUYẾT ........................................................................6

2.1.

Dữ liệu chuỗi thời gian và ứng dụng .............................................................6

2.2.

Các thành phần của dữ liệu chuỗi thời gian ..................................................7

2.3.

Dự báo dữ liệu chuỗi thời gian ......................................................................9

2.4.


Các khái niệm thống kê liên quan ...............................................................11

2.4.1.

Khái niệm cơ bản..................................................................................11

2.4.2.

Sai số dự báo ........................................................................................12

2.4.3.

Hệ số tự tương quan (ACF) ..................................................................12

2.5.

Phân tích dữ liệu bằng ACF ........................................................................16

2.5.1.

Nhiễu trắng ...........................................................................................16

2.5.2.

Tính dừng (stationarity) .......................................................................16

2.5.3.

Thành phần xu hướng (trend) và thành phần chu kỳ (cyclical) ...........18


2.5.4.

Thành phần mùa (seasonal) .................................................................19
vi


2.5.5.
Chương 3 :
3.1.

Phương pháp lấy hiệu Differencing .....................................................23
MƠ HÌNH DỰ BÁO ........................................................................28

Mơ hình ANNs ............................................................................................28

3.1.1.

Giới thiệu mơ hình nơron nhân tạo (ANNs) ........................................28

3.1.2.

Nơron nhân tạo .....................................................................................29

3.1.3.

Phân loại mạng nơron...........................................................................31

3.1.4.


Huấn luyện mạng nơron .......................................................................35

3.1.5.

Xây dựng mạng nơron ..........................................................................42

3.1.6.

Áp dụng ANNs cho bài toán dự báo dữ liệu chuỗi thời gian ...............46

3.1.7.

Nhận xét ...............................................................................................48

3.2.

Mơ hình kNN ...............................................................................................48

3.2.1.

Giới thiệu mơ hình k-láng-giềng gần nhất (kNN) ................................48

3.2.2.

Mô tả giải thuật kNN dùng cho dự báo ................................................50

3.2.3.

Hình thức hóa phương pháp kNN dùng cho dự báo ............................51


3.2.4.

Nhận xét ...............................................................................................52

3.3.

Mơ hình lai hóa kNN-ANN .........................................................................52

3.3.1.

Giới thiệu ..............................................................................................52

3.3.2.

Các thơng số quan trọng của mơ hình ..................................................53

3.3.3.

Nhận xét ...............................................................................................56

Chương 4 :
4.1.

THỰC NGHIỆM VÀ ĐÁNH GIÁ .................................................57

Mô tả chương trình ......................................................................................57

4.1.1.

Chuẩn bị dữ liệu và xác định độ dài mùa .............................................57


4.1.2.

Mơ hình kNN........................................................................................58

4.1.3.

Mơ hình ANN .......................................................................................60

4.1.4.

Mơ hình lai hóa kNN và ANN .............................................................61

4.2.

Cách thức thực nghiệm ................................................................................62

4.2.1.

Chuẩn bị dữ liệu ...................................................................................62

4.2.2.

Tính độ dài mùa ....................................................................................63
vii


4.2.3.

Mơ hình kNN........................................................................................64


4.2.4.

Mơ hình ANN .......................................................................................64

4.2.5.

Thực nghiệm với dữ liệu ......................................................................65

4.3.

Dữ liệu thực nghiệm ....................................................................................67

4.4.

Kết quả thực nghiệm....................................................................................68

4.4.1.

Dữ liệu Chemical (nồng độ hóa học) ...................................................68

4.4.2.

Dữ liệu Population (dân số) ở Úc .........................................................69

4.4.3.

Dữ liệu Finance DJ (tài chính Dow-Jones) ..........................................71

4.4.4.


Dữ liệu Water-levels (mực nước) .........................................................72

4.4.5.

Dữ liệu Deaths (tử vong) do bệnh về hô hấp ở Anh ............................74

4.4.6.

Dữ liệu Papers (sản xuất báo) ở Pháp ..................................................76

4.4.7.

Dữ liệu Passengers (hành khách hàng không quốc tế) .........................77

4.4.8.

Dữ liệu Finance M3 (tài chính M3) .....................................................79

4.4.9.

Dữ liệu Milk (sản xuất sữa) ..................................................................81

4.4.10. Dữ liệu Consumption (tiêu dùng) hàng quý ở Úc ................................82
4.4.11. Dữ liệu Chocolate (sản xuất chocolate) ...............................................84
4.5.

Đánh giá kết quả ..........................................................................................86

4.5.1.


Độ dài mùa ...........................................................................................86

4.5.2.

So sánh mơ hình ANN và mơ hình Hybrid ..........................................86

4.5.3.

So sánh ba mơ hình Hybrid ..................................................................88

Chương 5 :
5.1.

KẾT LUẬN VÀ KIẾN NGHỊ.........................................................90

Kết luận........................................................................................................90

5.1.1.

Những công việc đã làm được..............................................................90

5.1.2.

Kết quả thu được ..................................................................................90

5.2.

Kiến nghị .....................................................................................................91


TÀI LIỆU THAM KHẢO ......................................................................................92

viii


DANH SÁCH HÌNH VẼ
Hình 2.1.

Dân số của Mỹ từ năm 1790 – 1980 [5] .................................................6

Hình 2.2.

Xu hướng tăng dần trong dữ liệu chuỗi thời gian [2] .............................8

Hình 2.3.

Thành phần mùa trong dữ liệu chuỗi thời gian [2] .................................8

Hình 2.4.

Thành phần chu kỳ trong dữ liệu chuỗi thời gian [2] .............................8

Hình 2.5.

Quy trình dự báo dữ liệu .......................................................................10

Hình 2.6.

Đồ thị biểu diễn hàm tự tương quan ACF [5] .......................................14


Hình 2.7.

Chuỗi ACF với khoảng tin cậy 95% [5] ...............................................15

Hình 2.8.

Biểu đồ ACF của chuỗi khơng tĩnh[5] ..................................................17

Hình 2.9.

Biểu đồ ACF của chuỗi tĩnh[5] .............................................................17

Hình 2.10. Minh họa biểu đồ ACF cho chuỗi có tính xu hướng [5].......................18
Hình 2.11. Phân tách các thành phần của dữ liệu chuỗi thời gian [14] ..................20
Hình 2.12. Chuỗi ACF với khoảng tin cậy 98% [3] ...............................................22
Hình 2.13. Sai biệt khoảng cách trong chuỗi ACF [3] ...........................................23
Hình 2.14. Seasonal Differencing trên một chuỗi có tính mùa[3] ..........................25
Hình 2.15. Differencing trên chuỗi khơng tĩnh và có tính mùa[3] .........................25
Hình 2.16. ACF của chuỗi có tính xu hướng và tính mùa [3] ................................26
Hình 2.17. ACF của chuỗi sau khi lấy hiệu bậc nhất 1 lần [3] ...............................26
Hình 2.18. ACF của chuỗi sau khi lấy hiệu bậc s [3] .............................................27
Hình 3.1.

Nơron nhân tạo .....................................................................................29

Hình 3.2.

Một số hàm truyền thơng dụng .............................................................30

Hình 3.3.


Mạng tự kết hợp (autoassociative) [9] ..................................................31

Hình 3.4.

Mạng kết hợp khác kiểu (heteroassociative) [9]...................................31

Hình 3.5.

Mạng truyền thẳng (feed-forward) [9] ..................................................32

Hình 3.6.

Mạng hồi quy (recurrent) [9] ................................................................32

Hình 3.7.

Perceptron [2] .......................................................................................33

Hình 3.8.

Mạng nơron đa tầng truyền thẳng (MultiLayer Perceptron) ................34
ix


Hình 3.9.

Huấn luyện mạng trên hai tập mẫu A và B [9] .....................................42

Hình 3.10. Mơ hình ANNs cho dự báo dữ liệu chuỗi thời gian [2] ........................47

Hình 3.11. Giải thuật kNN [1] ................................................................................50
Hình 3.12. Mơ hình dự báo kết hợp giữa kNN và ANNs [1] .................................52
Hình 3.13. Mơ hình SANN [7] ...............................................................................54
Hình 3.14. Hàm lỗi thay đổi khi thêm một nút mới vào tầng ẩn [4] ......................55
Hình 4.1.

Giao diện phần chuẩn bị dữ liệu ...........................................................58

Hình 4.2.

Giao diện mơ hình kNN ........................................................................59

Hình 4.3.

Giao diện mơ hình ANN .......................................................................60

Hình 4.4.

Giao diện mơ hình lai hóa kNN-ANN ..................................................62

Hình 4.5.

Dữ liệu đầu vào hợp lệ ..........................................................................63

Hình 4.6.

Đồ thị dữ liệu Chemical ........................................................................68

Hình 4.7.


ACF của dữ liệu Chemical trước và sau khi lấy hiệu 1 lần ..................68

Hình 4.8.

Thử nghiệm trên tập dữ liệu kiểm tra Chemical ...................................68

Hình 4.9.

Đồ thị dữ liệu Population ......................................................................70

Hình 4.10. ACF của dữ liệu Population trước và sau khi lấy hiệu 2 lần ................70
Hình 4.11. Thử nghiệm trên tập dữ liệu kiểm tra Population .................................70
Hình 4.12. Đồ thị dữ liệu Finance DJ .....................................................................71
Hình 4.13. ACF của dữ liệu Finance DJ trước và sau khi lấy hiệu 1 lần ...............71
Hình 4.14. Thử nghiệm trên tập dữ liệu kiểm tra Finance DJ ................................71
Hình 4.15. Đồ thị chuỗi dữ liệu Water-levels .........................................................73
Hình 4.16. ACF của dữ liệu Water-levels trước và sau khi lấy hiệu 1 lần .............73
Hình 4.17. Thử nghiệm trên tập dữ liệu kiểm tra Water-levels ..............................73
Hình 4.18. Đồ thị chuỗi dữ liệu Deaths ..................................................................75
Hình 4.19. ACF của dữ liệu Deaths ........................................................................75
Hình 4.20. Thử nghiệm trên tập dữ liệu kiểm tra Deaths .......................................75
Hình 4.21. Đồ thị dữ liệu Papers báo ở Pháp..........................................................76
Hình 4.22. ACF của dữ liệu Papers trước và sau khi lấy hiệu 1 lần .......................76
x


Hình 4.23. Thử nghiệm trên tập dữ liệu kiểm tra Papers........................................76
Hình 4.24. Đồ thị dữ liệu Passengers......................................................................78
Hình 4.25. ACF của dữ liệu Passengers trước và sau khi lấy hiệu 1 lần ................78
Hình 4.26. Thử nghiệm trên tập dữ liệu kiểm tra Passengers.................................78

Hình 4.27. Đồ thị dữ liệu Finance M3 ....................................................................80
Hình 4.28. ACF của dữ liệu Finance M3 trước và sau khi lấy hiệu 2 lần ..............80
Hình 4.29. Thử nghiệm trên tập dữ liệu kiểm tra Finance M3 ...............................80
Hình 4.30. Đồ thị dữ liệu Milk ...............................................................................81
Hình 4.31. ACF của dữ liệu Milk trước và sau khi lấy hiệu 1 lần..........................81
Hình 4.32. Thử nghiệm trên tập dữ liệu kiểm tra Milk ..........................................81
Hình 4.33. Đồ thị dữ liệu Consumption..................................................................83
Hình 4.34. ACF của dữ liệu Consumption trước và sau khi lấy hiệu 1 lần ............83
Hình 4.35. Thử nghiệm trên tập dữ liệu kiểm tra Consumption.............................83
Hình 4.36. Đồ thị dữ liệu Chocolate .......................................................................85
Hình 4.37. ACF của dữ liệu Chocolate trước và sau khi lấy hiệu 1 lần .................85
Hình 4.38. Thử nghiệm trên tập dữ liệu kiểm tra Chocolate ..................................85

xi


DANH SÁCH BẢNG BIỂU
Bảng 4.1.

Phân loại dữ liệu thực nghiệm ..............................................................67

Bảng 4.2.

Sai số của dữ liệu Chemical (T) ...........................................................69

Bảng 4.3.

Sai số của dữ liệu Population (T) .........................................................69

Bảng 4.4.


Sai số của dữ liệu Finance DJ (T) ........................................................72

Bảng 4.5.

Sai số của dữ liệu Water-levels (S) ......................................................74

Bảng 4.6.

Sai số của dữ liệu Deaths (S)................................................................74

Bảng 4.7.

Sai số của dữ liệu Papers (S-T) ............................................................77

Bảng 4.8.

Sai số của dữ liệu Passengers (S-T) .....................................................79

Bảng 4.9.

Sai số của dữ liệu Finance M3 (S-T)....................................................79

Bảng 4.10. Sai số của dữ liệu Milk (S-T) ...............................................................82
Bảng 4.11. Sai số của dữ liệu Consumption (S-T) .................................................84
Bảng 4.12. Sai số của dữ liệu Chocolate (S-T).......................................................84
Bảng 4.13. Kết quả đo độ dài mùa..........................................................................86
Bảng 4.14. Sai số của dữ liệu Trend .......................................................................87
Bảng 4.15. Sai số của dữ liệu Seasonal (ANN vs Hybrid) .....................................87
Bảng 4.16. Sai số của dữ liệu Seasonal-Trend (ANN vs Hybrid) ..........................87

Bảng 4.17. Sai số của dữ liệu Seasonal (2 Hybrids vs Hybrid) ..............................88
Bảng 4.18. Sai số của dữ liệu Seasonal-Trend (2 Hybrids vs Hybrid) ...................88

xii


DANH SÁCH CÁC TỪ VIẾT TẮT
kNN
ANNs
SANN
ACF
SACF
MAPE
MAE
MSE
RMSE
PMAD

k-Nearest Neighbor
k-láng-giềng gần nhất
Artificial Neural Networks
Mạng nơron nhân tạo
Seasonal Artificial Neural Network
Mạng nơron nhân tạo tính mùa
AutoCorrelation Function
Hàm tự tương quan
Sample AutoCorrelation Function
Hàm tự tương quan mẫu
Mean Absolute Percentage Error
Phần trăm sai số tuyệt đối

Mean Absolute Error
Sai số tuyệt đối trung bình
Mean Squared Error
Sai số bình phương trung bình
Root Mean Squared Error
Căn bậc hai của sai số bình phương trung bình
Percent Mean Absolute Deviation
Phần trăm độ lệch tuyệt đối trung bình

xiii


Luận văn thạc sĩ

GVHD : PGS.TS. Dương Tuấn Anh

Chương 1 : GIỚI THIỆU ĐỀ TÀI
Chương này sẽ giới thiệu một cách tổng quan về đề tài nghiên cứu : trình bày
vai trị quan trọng của bài tốn dự báo dữ liệu trong thực trạng xã hội – kinh tế hiện
nay, phân tích vấn đề cịn tồn tại, từ đó đưa ra hướng giải quyết chính là mục tiêu
của đề tài.

1.1.

Giới thiệu
Nền kinh tế Việt Nam đã và đang trong quá trình hội nhập với nền kinh tế

tồn cầu đầy biến động. Để có thể tồn tại và phát triển trong mơi trường đầy cạnh
tranh này địi hỏi chúng ta phải đưa ra những quyết định đúng đắn để bắt kịp đà phát
triển của thế giới. Tức là chúng ta không chỉ cần phải nắm bắt thơng tin kịp thời, mà

cịn phải biết phân tích dữ liệu và đưa ra những dự báo, những tiên đốn cho tương
lai. Độ chính xác của dự báo đóng vai trị rất quan trọng đối với nhu cầu ra quyết
định. Dự báo tốt sẽ hỗ trợ đắc lực cho các nhà hoạch định chính sách kinh tế quốc
gia, giúp doanh nghiệp đưa ra các chiến lược kinh doanh tốt, giúp tổ chức, cá nhân
có thể lập kế hoạch đầu tư hiệu quả, …
Trong nhiều lĩnh vực khác nhau như sản xuất công nghiệp, kinh tế, tài chính,
y học, mơi trường, …, dữ liệu cần thu thập để dự báo phần lớn là dữ liệu chuỗi thời
gian, tức là dữ liệu có sự thay đổi, biến thiên theo thời gian, cần phải được quan sát
và theo dõi trong khoảng thời gian đủ dài thì mới có ý nghĩa về mặt dự báo. Dữ liệu
dùng để dự báo phải được thu thập đầy đủ, chính xác và cập nhật kịp thời với thời
điểm cần dự báo để đảm bảo độ chính xác của kết quả dự báo.
Có rất nhiều phương pháp dùng để dự báo dữ liệu chuỗi thời gian với tốc độ
và mức chính xác khác nhau. Có thể phân làm hai nhóm lớn là phương pháp định
tính và phương pháp định lượng. Phương pháp định tính là phương pháp đưa ra dự
báo mang tính chủ quan, thường theo ý kiến số đơng, ví dụ như lấy ý kiến chuyên
gia, điều tra thị trường hoặc người tiêu dùng, … Phương pháp định lượng sử dụng
các mô hình dự báo bằng cách tính tốn các giá trị quá khứ để ước lượng giá trị

1


Luận văn thạc sĩ

GVHD : PGS.TS. Dương Tuấn Anh

tương lai, ví dụ như phân tích hồi quy, làm trơn số liệu, mơ hình ARIMA, mơ hình
k-láng-giềng gần nhất (kNN), mơ hình mạng nơron nhân tạo (ANNs), …

1.2.


Cơng trình liên quan
Để giải quyết bài toán dự báo dữ liệu thời gian có tính mùa, các nhà khoa

học đã đưa ra khá nhiều phương pháp, mơ hình liên quan như mơ hình làm trơn hàm
mũ Holt-Winter, mơ hình SARIMA, mơ hình SANN, …
Mơ hình làm trơn hàm mũ Holt-Winter là phương pháp dự báo đơn giản, dễ
thực hiện, các tính tốn có thể thực hiện trên các phần mềm văn phịng thơng dụng.
Phương pháp này cần ít dữ liệu và có thể mở rộng để áp dụng cho dữ liệu có tính xu
hướng và tính mùa. Tuy nhiên, mơ hình này chỉ nắm bắt được các đặc điểm tuyến
tính của chuỗi thời gian trong khi những chuỗi thời gian trong thực tế thường có
tính chất phi tuyến và xuất hiện những điểm bất thường. Do đó, mơ hình HoltWinters sẽ khơng cho kết quả dự báo tốt khi có tính chất bất thường xuất hiện trong
chuỗi thời gian.
Mơ hình SARIMA là mơ hình cải tiến của mơ hình ARIMA để dự báo dữ
liệu có tính mùa. Mơ hình này rất hữu ích cho dự báo ngắn hạn, khả năng dự báo
chính xác cao với những mẫu dữ liệu đủ lớn, khá linh động, và mềm dẻo. Tuy
nhiên, mơ hình SARIMA gặp khó khăn trong việc nhận dạng mơ hình và khơng áp
dụng được cho cấu trúc dữ liệu phi tuyến. Muốn xây dựng được một mơ hình
SARIMA tốt cần có nhiều kinh nghiệm hơn so với các phương pháp khác, cần có
lượng thời gian và tài nguyên khá tốn kém để xây dựng được mơ hình thỏa mãn.
Mơ hình SANN là mơ hình cải tiến của mơ hình mạng nơron nhân tạo do
Hamzaỗebi [7] v cng s xut nm 2008. Mụ hình sử dụng số nút đầu vào và số
nút đầu ra bằng với độ dài mùa để dự báo. Ưu điểm của mơ hình này là tính tối ưu
tồn cục tốt, khả năng xử lý được dữ liệu phi tuyến và không cần loại bỏ thành phần
mùa ra khỏi dữ liệu. Ngồi ra, SANN có khả năng kháng lỗi, thích nghi tốt nên sẽ
cho hiệu suất ổn định với chi phí thấp. Tuy nhiên, mơ hình này phụ thuộc q nhiều
vào cấu trúc, ngưỡng và dữ liệu huấn luyện. SANN cần lượng lớn dữ liệu mẫu do

2



Luận văn thạc sĩ

GVHD : PGS.TS. Dương Tuấn Anh

mơ hình có rất nhiều tham số. Trong q trình học có thể xảy ra hiện tượng quá
khớp (overfitting) hay vấn đề về tối ưu cục bộ.
Một vấn đề khác cần quan tâm là tính mùa của dữ liệu, thể hiện qua độ dài
mùa. Có hai phương pháp để giải quyết vấn đề này là phương pháp phân tách và
phương pháp dựa vào biểu đồ ACF.
Phương pháp phân tách sẽ ước lượng và loại bỏ dần các thành phần trong
chuỗi dữ liệu cho đến khi chỉ cịn lại tính mùa, sau đó dựa vào quan sát và kinh
nghiệm của người dùng để dự đoán độ dài mùa. Phương pháp này cho chi phí tính
tốn cao và thiếu chính xác.
Phương pháp dựa vào biểu đồ ACF do Ngọc Trân [3] đề xuất năm 2002 là
một cách định lượng, tự động xác định độ dài mùa. Phương pháp này cho chi phí
tính tốn thấp và có độ chính xác hơn bởi đã loại bỏ được tác nhân chủ quan của
người dự báo.

1.3.

Mục tiêu của đề tài
Dự báo dữ liệu nói chung cũng như dự báo dữ liệu chuỗi thời gian nói riêng

là một nhân tố quan trọng, hỗ trợ cho bài toán ra quyết định. Chất lượng của dự báo
được thể hiện chủ yếu ở hai nhân tố là tốc độ và mức chính xác của dự báo. Các nhà
khoa học đã tìm hiểu và đưa ra nhiều cơng trình liên quan để cải thiện chất lượng dự
báo, trong đó phương pháp lai hóa hai hay nhiều mơ hình dự báo đang là một hướng
đi có khá nhiều tiềm năng bởi khả năng tận dụng ưu điểm hay hạn chế bớt nhược
điểm của các phương pháp khi kết hợp lại với nhau nhằm cho ra kết quả dự báo tốt
hơn, điển hình như phương pháp lai hóa giữa hai mơ hình kNN và ANNs.

Mơ hình kNN sử dụng phương pháp so trùng chuỗi dữ liệu hiện tại với các
chuỗi dữ liệu trong quá khứ để dự báo dữ liệu cho tương lai. Ưu điểm của kNN là
khả năng tiến hành đơn giản và có tốc độ rất nhanh. Mơ hình kNN thường được
dùng như một mơ hình dự báo ngắn hạn, có tính cục bộ bởi nó dễ dàng bắt được
những thơng tin cục bộ rất tốt, nên thường được dùng để dự báo cho dữ liệu chuỗi
thời gian có tính mùa và tính xu hướng.

3


Luận văn thạc sĩ

GVHD : PGS.TS. Dương Tuấn Anh

Mơ hình ANNs mô phỏng phương thức hoạt động của nơron thần kinh con
người bằng cách xây dựng một mạng lưới gồm nhiều nút, nhiều tầng. Các nút giữa
các tầng liên hệ với nhau qua các trọng số được khởi tạo và thay đổi để đạt tối ưu.
Mơ hình ANNs thường được dùng để dự báo dài hạn bởi khả năng xử lý được cả dữ
liệu phi tuyến và tối ưu toàn cục tốt. Tuy nhiên, cũng giống như các mơ hình thống
kê truyền thống, ANNs không thể nắm bắt nhiều thành phần khác nhau trong dữ
liệu chuỗi thời gian nên có thể bỏ qua nhiều thành phần cục bộ [14]. Chi phí khá lớn
khi xây dựng mạng nơron cũng là một hạn chế của ANNs.
Dữ liệu chuỗi thời gian trong thực tế thường khơng đơn giản, có thể có một
hoặc nhiều tính chất như tính xu hướng, tính mùa, tính chu kỳ, … nên việc chỉ áp
dụng một mơ hình dự báo là khơng hiệu quả. Vì thế, các nhà khoa học đã đề xuất
phương pháp lai hóa giữa hai mơ hình kNN và ANNs nhằm tận dụng được ưu điểm
của hai mơ hình này để cho ra kết quả chính xác hơn, nhất là với dữ liệu có tính
mùa và tính xu hướng. Mặt hạn chế của phương pháp lai hóa so với phương pháp
thơng thường là ở chi phí về thời gian dự báo rất cao.
Mục tiêu của đề tài này là nghiên cứu cách xác định tự động độ dài mùa

(Ngọc Trân, 2002) [3] để áp dụng vào mơ hình lai hóa kết hợp kNN-ANNs dùng
cho dự báo dữ liệu chuỗi thời gian có tính mùa ổn định. Tiến hành so sánh chất
lượng dự báo giữa hai mô hình có và khơng có sử dụng độ dài mùa thông qua kết
quả thực nghiệm thu được từ phần mềm thiết kế. Đồng thời phân tích điểm mạnh,
điểm yếu của mơ hình dự báo này để có thể đề xuất các kiến nghị cải tiến trong
tương lai.

1.4.

Cấu trúc của luận văn
Luận văn được bố trí thành 5 chương
- Chương 1 : mơ tả khái qt về đề tài, phân tích, đưa ra mục tiêu cũng như

bố cục của đề tài.
- Chương 2 : giới thiệu những khái niệm cơ bản và lý thuyết thống kê liên
quan đến bài toán dự báo, cách đánh giá chất lượng dự báo và phương pháp xác
định tính mùa của dữ liệu chuỗi thời gian.
4


Luận văn thạc sĩ

GVHD : PGS.TS. Dương Tuấn Anh

- Chương 3 : giới thiệu ba mơ hình dùng để dự báo dữ liệu chuỗi thời gian là
mơ hình ANNs, mơ hình kNN, và mơ hình kết hợp lai hóa giữa kNN - ANNs.
- Chương 4 : tiến hành thực nghiệm với dữ liệu thực tế và đánh giá kết quả
thu được.
- Chương 5 : đưa ra kết luận và kiến nghị.


5


Luận văn thạc sĩ

GVHD : PGS.TS. Dương Tuấn Anh

Chương 2 : CƠ SỞ LÝ THUYẾT
Chương này sẽ giới thiệu những lý thuyết cơ bản về dữ liệu chuỗi thời gian,
các thành phần của dữ liệu, các khái niệm thống kê liên quan, cách đánh giá,
phương pháp xác định tính mùa và mơ tả bài tốn dự báo dữ liệu chuỗi thời gian.

2.1.

Dữ liệu chuỗi thời gian và ứng dụng
Dữ liệu chuỗi thời gian là dữ liệu được quan sát, ghi nhận, và lưu trữ theo

trình tự tăng dần của thời gian, gồm có hai loại là chuỗi thời gian liên tục và chuỗi
thời gian rời rạc.
Khi quá trình quan sát, thu thập dữ liệu được tiến hành liên tục theo thời
gian, ta thu được chuỗi thời gian liên tục X(t). Khi quá trình quan sát được tiến hành
theo từng khoảng khắc thời gian riêng lẻ, ta thu được chuỗi thời gian rời rạc, là một
chuỗi các điểm dữ liệu Xt. Đối với các chuỗi thời gian phức tạp, người ta thường thu
thập dữ liệu rời rạc theo một tần suất thời gian thống nhất để đơn giản hóa dữ liệu
và tiện cho q trình lưu trữ. Hình 2.1 mơ tả sự tăng trưởng dân số của Mỹ bằng
một chuỗi thời gian rời rạc, được ghi nhận với khoảng cách thời gian 10 năm, trong
khoảng thời gian 1790-1980.

Hình 2.1.


Dân số của Mỹ từ năm 1790 – 1980 [5]

6


Luận văn thạc sĩ

GVHD : PGS.TS. Dương Tuấn Anh

Dữ liệu chuỗi thời gian được ứng dụng khá rộng và đa dạng trong nhiều bài
toán khai phá dữ liệu liên quan đến nhiều phạm vi, lĩnh vực, chẳng hạn như bài tốn
tìm kiếm tương tự (similarity search), phân lớp (classification), gom cụm
(clustering), phát hiện điểm bất thường (novelty detection), bài toán dự báo dữ liệu
(forecasting), …

2.2.

Các thành phần của dữ liệu chuỗi thời gian
Mỗi dữ liệu chuỗi thời gian đều chứa các thành phần cơ bản, đặc trưng cho

cấu trúc của nó. Các thành phần này là cơ sở để nhận diện dữ liệu, và có ý nghĩa
quan trọng trong việc lựa chọn phương pháp giải quyết các bài toán liên quan.
Các thành phần cơ bản của dữ liệu chuỗi thời gian gồm có : tính xu hướng,
tính mùa, tính chu kỳ và tính bất thường. Chuỗi thời gian có thể chứa một hoặc
nhiều thành phần, thậm chí có cả bốn thành phần. Trong thực tế, phần lớn các dữ
liệu chuỗi thời gian thu thập được thường chứa nhiều thành phần, như chuỗi có tính
xu hướng và tính mùa, chuỗi có tính xu hướng, tính chu kỳ và tính bất thường, …
 Tính xu hướng (T -Trend) : thể hiện khi dữ liệu quan sát có sự tăng
(giảm) trong khoảng thời gian dài, là thành phần dài hạn và thường gặp ở
các dữ liệu chuỗi thời gian như gia tăng dân số, tăng trưởng kinh tế, giá

ngoại tệ, tăng giảm doanh thu do thay đổi thị hiếu của người dùng, …
Tính xu hướng thường được biểu diễn trên đồ thị dưới dạng đường thẳng
hoặc đường cong trơn. Hình 2.2 mơ tả xu hướng tăng dần của doanh thu
bán hàng.
 Tính mùa (S -Seasonal) : được thể hiện khi dữ liệu quan sát có sự biến
đổi cố định (tăng hoặc giảm) lặp đi lặp lại hàng năm theo mùa vụ. Ví dụ,
nhu cầu sách vở, dụng cụ học tập tăng mạnh trong khoảng tháng 8-9,
doanh thu từ các sản phẩm như đồ trang trí giáng sinh, các loại mứt tết,
hoa, … đều tăng đột biến trong các dịp lễ mỗi năm. Hình 2.3 thể hiện
thành phần mùa khi doanh thu tăng mạnh vào mùa hè và mùa đông.

7


Luận văn thạc sĩ

Hình 2.2.

Hình 2.3.

Hình 2.4.

GVHD : PGS.TS. Dương Tuấn Anh

Xu hướng tăng dần trong dữ liệu chuỗi thời gian [2]

Thành phần mùa trong dữ liệu chuỗi thời gian [2]

Thành phần chu kỳ trong dữ liệu chuỗi thời gian [2]


 Tính chu kỳ (C -Cyclical) : được thể hiện khi dữ liệu quan sát có sự lặp
lại q trình biến thiên trong một khoảng thời gian dài, thường là hơn một
năm. Tính chu kỳ thường có dạng biến đổi sóng xung quanh trục xu
hướng, như chu kỳ tăng trưởng – sụt giảm của kinh tế. Hình 2.4 cho thấy

8


Luận văn thạc sĩ

GVHD : PGS.TS. Dương Tuấn Anh

thành phần chu kỳ xuất hiện khi có sự lặp lại quá trình biến thiên doanh
thu theo năm.
 Tính bất thường (I –Irregular) : được thể hiện khi dữ liệu quan sát có sự
thay đổi bất thường về giá trị. Tính bất thường khác với ba thành phần
trên, không biết trước được và cũng không dự báo được bằng các dữ liệu
trong quá khứ. Thành phần này xuất hiện bởi yếu tố chủ quan của người
đo hoặc yếu tố khách quan như lỗi thiết bị đo, thời tiết bất thường, biến
động chính trị, …, và có thể nhận biết được thơng qua các số liệu quá
khứ.

2.3.

Dự báo dữ liệu chuỗi thời gian
Trước khi dự báo, cần thực hiện phân tích dữ liệu chuỗi thời gian, để từ đó

trích xuất ra được các thuộc tính thống kê có ý nghĩa và các đặc điểm của dữ liệu,
làm cơ sở cho quá trình nhận diện và lựa chọn phương pháp thích hợp để dự báo.
Dự báo dữ liệu chuỗi thời gian là việc lựa chọn phương pháp, xây dựng mơ

hình và sử dụng mơ hình đó để dự đốn các sự kiện theo thời gian, tức là dựa vào
các sự kiện đã biết trong quá khứ để từ đó dự báo các sự kiện tương lai, các điểm dữ
liệu trước khi nó xảy ra (hoặc được đo).
Bài toán dự báo dữ liệu chuỗi thời gian có thể được mơ tả như sau :
Bài tốn : Cho một chuỗi thời gian X có chiều dài n, (X = x1, x2, …, xn), là
một tập có thứ tự n (n đủ lớn) giá trị thực đo được trong các khoảng thời gian bằng
nhau, trong đó xi là giá trị của chuỗi thời gian X đo được ở thời điểm thứ i.
Yêu cầu : Dự báo m (n > m ≥ 1) giá trị tiếp theo của chuỗi thời gian X, tức
cần tìm xn+1, xn+2, …, xn+m.
Quy trình dự báo : là một chuỗi các bước cần thực hiện để dự báo, gồm :
 Xác định vấn đề cần dự báo : xác định mục tiêu, nội dung cần dự báo,
đưa ra yêu cầu về thời gian, độ chính xác, …

9


Luận văn thạc sĩ

GVHD : PGS.TS. Dương Tuấn Anh

 Thu thập dữ liệu : tùy theo vấn đề cần dự báo mà tiến hành thu thập dữ
liệu theo khoảng thời gian nhất định (theo tháng, theo mùa, theo năm,
…), dữ liệu cần thu thập phải đầy đủ, tin cậy được, toàn vẹn, nhất quán,
và được cập nhật kịp thời.
 Xử lý dữ liệu : nhằm cải thiện chất lượng dữ liệu, từ đó cải thiện chất
lượng dự báo.
 Phân tập dữ liệu : chia dữ liệu thu thập thành hai phần, một phần (thường
80%) dùng cho huấn luyện, xây dựng mơ hình và phần cịn lại dùng để
kiểm tra tính hiệu quả của mơ hình dự báo đó.
 Lựa chọn mơ hình phù hợp : đây là một q trình lặp ba bước và chỉ dừng

lại khi kết quả thử nghiệm thỏa yêu cầu của vấn đề trong phạm vi giới
hạn về thời gian, gồm
o Chọn mơ hình : khởi tạo ngẫu nhiên các thơng số cho mơ hình.
o Điều chỉnh mơ hình : thay đổi thơng số dựa vào tập huấn luyện.
o Thử nghiệm mơ hình trên tập kiểm tra, đánh giá sai số dự báo.
 Sử dụng mô hình để dự báo : dùng các dữ liệu quá khứ để dự báo dữ liệu
tương lai.

Xác định
vấn đề

Dự báo
dữ liệu

Thu thập
dữ liệu

Xử lý
dữ liệu

Thử nghiệm
mơ hình

Hình 2.5.

Phân tập
dữ liệu

Hiệu chỉnh
mơ hình


Chọn
mơ hình

Quy trình dự báo dữ liệu

Để đánh giá chất lượng của quá trình dự báo, ta quan tâm đến hai khía cạnh
là tính chính xác và tốc độ của dự báo, thể hiện ở sai số dự báo (phần 2.4.2) và chi
phí thời gian tốn kém cho dự báo.

10


×