Tải bản đầy đủ (.pdf) (86 trang)

Kết hợp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo DTW cho bài toán dự báo dữ liệu chuỗi thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.28 MB, 86 trang )

ĐẠI HỌC QUỐC GIA TP. Hồ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN HỮU LỘC

KẾT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG
CÁC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỘ ĐO
DTW CHO BÀI TOÁN DỰ BÁO DỮ LIỆU CHUỖI
THỜI GIAN
Combining important extreme points and DTW measure in time series
prediction

Ngành : Khoa học máy tính
Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 12 năm 2018


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM

Cán bộ hướng dẫn khoa học : PGS. TS. DƯONG TUẤN ANH

Cán bộ chấm nhận xét 1 : TS. Phạm Văn Chung

Cán bộ chấm nhận xét 2 : TS.Lê Văn Quốc Anh
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 26 tháng 12 năm 2018


Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. PGS. TS. Bùi Hoài Thắng
2. TS. Võ Thị Ngọc Châu
3. TS. Phạm Văn Chung
4. TS. Lê Văn Quốc Anh
5. PGS.TS. Trần Văn Hoài
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa
CHỦ TỊCH HỘI ĐÒNG

TRƯỞNG KHOA KH&KTMT


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
••••

Họ tên học viên: NGUYỄN HỮU LỘC ....................................... MSHV: 1570218...
Ngày, tháng, năm sinh: 13/01/1985 ............................................. Nơi sinh: Long An
Ngành: KHOA HỌC MÁY TÍNH ............................................... Mã số : 60480101.,
I. TÊN ĐỀ TÀI: Kết hợp phương pháp phân đoạn bằng các điểm cực trị quan trọng
và độ đo DTW cho bài toán dự báo dữ liệu chuỗi thời gian ......................................
II. NHIỆM VỤ VÀ NỘI DUNG: Đề xuất phương pháp kết hợp điểm cự trị quan
trọng, độ đo xoắn thời gian động DTW và giải thuật k lân cận gần nhất K-NN cho
bài toán dự báo chuỗi dữ liệu thời gian ......................................................................


III. NGÀY GIAO NHIỆM VỤ: 15/01/2018 .............................
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 12/12/2018 .............
V.

CÁN BỘ HƯỚNG DẪN : PGS. TS. DƯƠNG TUẤN ANH

Tp. HCM, ngày . . . . tháng. . . . năm 20....
CÁN BỘ HƯỞNG
DẪN
(Họ tên và chữ ký)

TRƯỞNG KHOA KH & KTMT
(Họ tên và chữ ký)


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _____________________ ____________________________________________________

LỜI CÁM ƠN

Tôi xin gởi lời cám ơn chân thành và sâu sắc đến PGS. TS. Dương Tuấn Anh,
Thầy đã tận tình hướng dẫn, định hướng tôi từ cách đặt vấn đề, phương pháp nghiên
cứu khoa học đến những công việc cụ thể trong luận văn này.
Xin chân thành cảm ơn tất cả quý Thầy Cô trong Khoa Khoa học và Kỹ Thuật
Máy Tính đã tận tình truyền đạt những kiến thức quý báu cho tôi trong suốt quá trình
học tập.
Cuối cùng và trên hết, con cảm ơn gia đĩnh đã động viên và tạo điều kiện tốt nhất
để con có thể tiếp tục con đường học tập và nghiên cứu. Con trân trọng dành tặng thành
quả của luận văn này cho Ba Mẹ và cả gia đĩnh.



KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _____________________ ____________________________________________________

TÓM TẮT

Chuỗi thời gian (time series) là chuỗi trị số thực, mỗi trị biểu diễn một giá trị đo tại
những thời điểm cách đều nhau. Dữ liệu chuỗi thời gian phổ biến ở rất nhiều lĩnh vực
như kinh tế, tài chính, kỹ thuật, y khoa, địa lý, khí tượng thủy văn, . . . Việc dự báo dữ
liệu chuỗi thời gian ngày càng quan trọng và đặc biệt hữu ích. Nhiều phương pháp, mô
hình dự báo đã được đề xuất và hiện thực như hồi quy, ARIMA, làm trơn hàm mũ,
ANN, SVM. Tuy nhiên ngày nay, việc dự báo đòi hỏi cần phải có độ chính xác cao,
chạy nhanh và có khả năng thực thi trực tuyến (online).
Một trong những công trình nghiên cứu hiện đại gần đây là kết họp phương pháp
phân đoạn bằng các điểm quan trọng PIP với độ đo xoắn thời gian động (DTW) được
đề xuất bởi Tsinaslanidis và Kugiumtzis vào 2014. Phương pháp này đạt được độ chính
xác dự báo cao, tuy nhiên phương pháp này không thể đạt được yêu cầu chạy trực tuyến
và thời gian thực thi còn lớn.
Từ các công trình nghiên cứu trên và các nghiên cứu khác có liên quan, đề tài nghiên
cứu này sẽ đề xuất một mô hình kết họp phương pháp phân đoạn bằng các điểm cực trị
quan trọng và độ đo DTW tăng tốc cho bài toán dự báo dữ liệu chuỗi thời gian, có khả
năng thực thi nhanh và có độ chính xác cao, đóng góp một phần nhỏ vào sự phát triển
của lĩnh vực dự báo về dữ liệu chuỗi thời gian.


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _____________________ ____________________________________________________

ABSTRACT


Time series is a series of real values, each of which represents a measured value at
evenly spaced intervals. Time series data are common in many areas such as economy,
finance,

engineering,

medicine,

geography,

meteorology,

and

meteorology,....Forecasting of time series data is increasingly important and
particularly useful. Many methods, forecasting models have been proposed and
implemented such as regression, ARIMA, exponential smoothing, ANN, and SVM.
However, today's forecasting requires high accuracy, fast execution and online
performance.
One of the recent recent studies is a combination of the PIP critical point and
dynamic time warping (DTW) measure method proposed by Tsinaslanidis and
Kugiumtzis in 2014. The prediction accuracy of this approach is high, however, this
method can not meet the requirements of online prediction and the execution time is
still high
From the above studies and other related studies, this research proposes a model
combining the method of segmentation by the important extreme points and the
accelerated DTW measure for the forecasting problem. With fast execution and high
prediction accuracy, the proposed method contributes a small part to the development
of the field of study of time series prediction.



KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ____________________________________________________

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả báo cáo trong luận văn này và chương trình là sản
phẩm do công sức lao động của chính tôi thực hiện, không có sự sao chép từ những
công trình nào khác, ngoại trừ những kết quả từ các công trình khác đã ghi rõ trong
luận văn. Tất cả các kiến thức tôi học hỏi được từ những tài liệu tham khảo đều được
trích dẫn nguồn đầy đủ. Nếu có bất cứ sai phạm nào so với lời cam đoan, tôi xin chịu
các hình thức xử lý theo quy định.


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

MUC LUC
••

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI ............................................................................ 1
1.1.

Giói thiệu vấn đề ................................................................................................ 1

1.2.

Mục tiêu ............................................................................................................. 1


1.3.

Phạm vi nghiên cứu ........................................................................................... 2

1.4.

Tóm lược kết quả đạt được ................................................................................ 2

1.5.

Cấu trúc của luận văn......................................................................................... 3

CHƯƠNG 2: Cơ SỞ LÝ THUYẾT ............................................................................. 5
2.1.

Chuỗi thời gian .................................................................................................. 5

2.2.

Các thành phần của chuỗithời gian .................................................................... 5

2.2.1.

Thành phần xu hướng ..................................................................................... 5

2.2.2.

Thành phần chu kỳ ......................................................................................... 6

2.2.3.


Thành phần theo mùa ..................................................................................... 6

2.2.4.

Thành phần bất quy tắc .................................................................................. 7

2.3.

Bài toán dự báo .................................................................................................. 7

2.3.1.

Các phương pháp dự báo truyền thống -------------------------------------------- 7

2.3.1.1.

Hồi quy ------------------------------------------------------------------------------ 7

2.3.1.2.

Mô hình tự hồi quy tích hợp với trung bĩnh trượt (ARIMA) ---------------- 8

2.3.1.3.

Phương pháp làm trơn hàm mũ -------------------------------------------------- 8

2.3.2.

Các phương pháp dự báo hiện đại (học máy) ------------------------------------- 9


2.3.2.1.

Mạng nơ ron nhân tạo ------------------------------------------------------------- 9

2.3.2.2.

Máy

hỗ

vector

trợ

10
2.3.2.3.

Giải
11

thuật

tìm

k

lân

cận


gần

nhất

(k-NN)


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

2.4.

Phân biệt dự báo trực tuyến, không trực tuyến .................................................11

2.5.

Giải thuật K-NN dùng trong dự báo .................................................................12

2.6.

Độ đo xoắn thời gian động (Dynamic Time Wraping -DTW) .........................14

2.6.1.

Giói thiệu ......................................................................................................14

2.6.2.

Tính toán trong độ đo DTW .........................................................................17


2.6.3.

Kỹ thuật ràng buộc toàn cục .........................................................................22

2.6.4.

Kỹ thuật tính chặn dưới ................................................................................23

2.6.4.1. Phương pháp tính chặn dưới của Kim..........................................................23
2.6.4.2. Phương pháp tính chặn dưới của Yi .............................................................24
2.6.4.3. Phương pháp tính chặn dưới của Keogh ......................................................25
2.7.

Chuẩn hóa dữ liệu .............................................................................................28

2.7.1.

Chuẩn hóa dữ liệu min-max..........................................................................28

2.7.2.

Chuẩn hóa dữ liệu z-score.............................................................................28

2.8.

Phép vị tự (Homothetic transformation) ...........................................................29

2.9. ................................................................................................................
Các tiêu chí đánh giá độ chính xác dự báo ................................................................. 30

CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN ..................................................... 31
3.1.
3.1.1.

Các phương pháp phân đoạn ---------------------------------------------------------- 31
Điểm quan trọng (Perceptually important point - PIP) ------------------------ 31

3.1.2. -------------------------------------------------------------------------------------------Điểm cực trị quan trọng (Important Extreme Point - IEP) ------------------------------ 32
3.2. ----------------------------------------------------------------------------------------------Dự báo dữ liệu thời gian bằng mạng nơ rơn nhân tạo------------------------------------ 34
3.3.

Dự báo dữ liệu thời gian bằng phương pháp phân đoạn dựa vào các điểm PIP

kết hợp với độ đo DTW ---------------------------------------------------------------------- 35
3.4.
3.4.1.

Bộ kỹ thuật UCR-DTW để tăng tốc việc tính toán độ đo DTW ---------------- 36
Sử dụng khoảng cách bình phương ----------------------------------------------- 36


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

3.4.2.

Kỹ thuật LB_Kim .............................................................................................37

3.4.3.


Kỹ thuật LB_KimFL .........................................................................................37

3.4.4.

Kỹ thuật từ bỏ sớm của LB_Keogh...................................................................38

3.4.5.

Kỹ thuật từ bỏ sớm của DTW .......................................................................38

3.4.6.

Kỹ thuật đảo ngược LB_Keogh ........................................................................39

CHƯƠNG 4: PHƯƠNG PHÁP Dự BÁO ĐỀ XUẤT ................................................41
4.1.

Mô hình tổng quan ............................................................................................41

4.2.

Mô hình chi tiết .................................................................................................42

4.3.

Chi tiết module trong hệ thống .........................................................................43

4.3.1.

Phân đoạn dữ liệu bằng phương pháp điểm cực trị quan trọng .....................43


4.3.2.

Tìm chuỗi đích và chuỗi nguồn .....................................................................45

4.3.3.

Chuẩn hóa dữ liệu..........................................................................................45

4.3.4.

Thay đổi chiều dài của chuỗi nguồn bằng phép vị tự ....................................46

4.3.5.

Sử dụng bộ UCR-DTW để tăng tốc độ tìm kiếm ..........................................47

4.3.6.

Giải thuật K-NN ............................................................................................47

4.3.7.

Tìm các giá trị tương ứng, chuẩn hóa và lấy trung bình cộng .......................48

4.3.8.

Tìm giá trị cần dự báo --------------------------------------------------------------- 49

4.4.


Tìm hệ số k, hệ số nén R, bề rộng dải Sakoe-Chiba r ----------------------------- 51

CHƯƠNG 5: THựC NGHIỆM VÀ ĐÁNH GIÁ ------------------------------------------ 52
5.1.

Giói thiệu các tập dữ liệu thực nghiệm --------------------------------------------- 52

5.2.

Kết quả thực nghiệm ------------------------------------------------------------------ 54

5.3.

So sánh độ đo DTW thuần túy và bộ tăng tốc UCR-DTW ---------------------- 60

5.3.1.

Số lần gọi độ đo xoắn thời gian động DTW ------------------------------------- 60

5.3.2.

Thời gian thực thi giữa DTW thuần túy và bộ UCR-DTW -------------------- 61


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

5.4.


So sánh độ chính xác giữa phương pháp đề xuất với phương pháp sử dụng

ANN 62
CHƯƠNG 6: KẾT LUẬN ..........................................................................................65
6.1.

Tổng kết ............................................................................................................65

6.2.

Những đóng góp của đề tài .............................................................................. 65

6.3.

Hướng phát triển ...............................................................................................66

TÀI LIỆU THAM KHẢO ...........................................................................................67
PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT.............................. A
PHỤ LỤC B: LÝ LỊCH TRÍCH NGANG ................................................................... c


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

MUC LUC HÌNH
••

Hình 2.1. Nhiệt độ mặt đất trung bình toàn cầu từ 1856 đến 2005 .............................6
Hình 2.2 Thành phần theo mùa ....................................................................................7
Hình 2.3. Đường hồi quy tuyến tính đơn biến y = X + 1 ........................................................ 8

Hình 2.4. Mạng nơ rơn nhân tạo ..................................................................................9
Hình 2.5. Support Vector Machines .............................................................................10
Hình 2.6. Giải thuật K-NN ...........................................................................................11
Hình 2.7. Ý tưởng cơ bản của cách tiếp cận dựa trên phương pháp so trùng mẫu--12
Hình 2.8. Minh họa thuật toán dự báo dựa trên phương pháp so trùng mẫu. .............13
Hình 2.9. Độ đo Euclid (a) và độ đo DTW (b) ...........................................................16
Hình 2.10. Ma trận xoắn và đường xoắn tối ưu ..........................................................18
Hình 2.11. Đồ thị biểu diễn hai chuỗi thời gian.[19] ..................................................20
Hình 2.14. Ràng buộc toàn cục của độ đo xoắn thời gian động (Nguồn [5]). ............23
Hình 2.15. Mô tả kỹ thuật chặn dưói

của Kim ........................................................24

Hình 2.16. Mô tả kỹ thuật chặn dưói

của Yi --------------------------------------------- 25

Hình 2.17. Mô tả đường bao u và L của chuỗi Q --------------------------------------- 26
Hình 2.18. Mô tả kỹ thuật chặn dưới

của Keogh ---------------------------------------- 27

Hình 2.19. Phép biến đổi vị tự---------------------------------------------------------------- 29
Hình 3.1. Quá trình xác định 5 điểm PIP trong dữ liệu chuỗi thòi gian ---------------- 31
Hình 3.2. Điểm cực tiểu quan trọng và điểm cực đại quan trọng ----------------------- 32
Hình 3.3. Điểm cực đại, cực tiểu ------------------------------------------------------------- 33
Hình 3.4. Bốn loại điểm cực tiểu quan trọng ----------------------------------------------- 33
Hình 3.5. Mô hình huấn luyện ANN để dự báo chuỗi thời gian ------------------------- 34



KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

Hình 3.6. Dự báo bằng phương pháp PIP([1]) ............................................................36
Hình 3.7. LB_ .Kim ......................................................................................................37
Hình 3.8. LB_KimFL ..................................................................................................................................... 37
Hình 3.9. Từ bỏ sớm của LB_Keogh ..............................................................................38
Hình 3.10. Từ bỏ sớm của DTW ................................................................................ 38
Hình 3.11. Đảo ngược LB_Keogh ................................................................................. 39
Hình 4.1. Mô hình tổng quan ......................................................................................41
Hình 4.2. Mô hình chi tiết của phương pháp dự báo đề xuất. .....................................42
Hình 4.3. Các điểm cực trị quan trọng ........................................................................44
Hình 4.4. Chuỗi đích và các chuỗi nguồn ...................................................................45
Hình 4.5. Chuẩn hóa dữ liệu .......................................................................................46
Hình 4.6. Co chiều dài chuỗi gốc ................................................................................46
Hình 4.7. Giản chiều dài chuỗi gốc .............................................................................47
Hình 4.8. Hai chuỗi nguồn tương tự nhất với chuỗi đích............................................48
Hình 4.9. Giá trị được dự báo .....................................................................................50
Hình 4.10. Kết quả dự báo nhiều bước ...................................................................... 50
Hình 5.1. Bộ dữ liệu Air Passengers--------------------------------------------------------- 52
Hình 5.2. Bộ dữ liệu C02 ---------------------------------------------------------------------- 53
Hình 5.3. Bộ dữ liệu Fancy ------------------------------------------------------------------- 53
Hình 5.4. Bộ dữ liệu Mdeaths ---------------------------------------------------------------- 53
Hình 5.5. Bộ dữ liệu Red deer ---------------------------------------------------------------- 54
Hình 5.6. Bộ dữ liệu UKgas ------------------------------------------------------------------ 54
Hình 5.7. Ket quả dự báo của bộ dữ liệu Air Passengers --------------------------------- 55
Hình 5.8. Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của ----------------------------- 55


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

Hình 5.9. Kết quả dự báo của bộ dữ liệu CO2 ............................................................ 56
Hình 5.10. Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu CO2 .......... 56
Hình 5.11. Kết quả dự báo của bộ dữ liệu Fancy ....................................................... 56
Hình 5.12. Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu Fancy — 57
Hình 5.13. Kết quả dự báo của bộ dữ liệu Mdeaths ................................................... 57
Hình 5.14. Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu Mdeaths - 57
Hình 5.15. Kết quả dự báo của bộ dữ liệu Red deer .................................................. 58
Hình 5.16. Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu Red deer- 58
Hình 5.17. Kết quả dự báo của bộ dữ liệu UKgas ..................................................... 59
Hình 5.18. Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu UKgas — 59
Hình 5.19. Biểu đồ so sánh số lần gọi giữa DTW thuần túy và bộ UCR-DTW ........ 61
Hình 5.20. Biểu đồ so sánh thòi gian thực thi DTW thuần túy và bộ UCR-DTW-- 62
Hình 5.21 minh họa biểu đồ so sánh giữa phương pháp được đề xuất và ANN — 63
Hình 5.21. Biểu đồ so sánh giữa phương pháp được đề xuất và ANN ...................... 63


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

MỤC LỤC BẢNG

Bảng 1. Giải thích các ký hiệu của giải thuật DTW....................................................17
Bảng 2. Số liệu so sánh số lần gọi giữa DTW thuần túy và bộ UCR-DTW. ..............60
Bảng 3. Số liệu thời gian thực thi của DTW thuần túy và bộ UCR-DTW .................61
Bảng 4. Số liệu MAPE so sánh giữa phương pháp được đề xuất và ANN .................63


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

CHƯƠNG 1: GIỚI THIÊU ĐÈ TÀI

Chương này sẽ trình bày vấn đề mà đề tài tập trung nghiên cứu, động cơ để thực
hiện đề tài này và mục tiêu của đề tài. Ngoài ra, chúng tôi cũng trĩnh bày sơ lược các
kết quả đạt được cũng như là nội dung của đề tài.
1.1. Giới thiệu vấn đề
Ngày nay, công tác dự báo ngày càng trở nên quan trọng và cực kỳ cấp thiết, đặt
biệt trong công tác dự báo thời thiết, động đất, núi lửa, sóng thần, dự báo tài chính, kinh
tế, chứng khoán, dự báo về khả năng bệnh lý ung thư, các bệnh lý nguy hiểm cần phát
hiện sớm. Hiện nay có nhiều phương pháp truyền thống lẫn hiện đại trong dự báo. Các
phương pháp truyền thống như hồi quy, mô hình tự hồi quy tích họp với trung bĩnh
trượt (ARIMA), phương pháp làm trơn hàm mũ (exponential smoothing). Các phương
pháp hiện đại như mạng nơ ron nhân tạo, máy véc tơ hỗ trợ, giải thuật k lân cận gần
nhất. Tuy nhiên các phương pháp này thường không đạt được độ chính xác cao, một vài
phương pháp cải tiến đạt được độ chính xác cao nhưng không đảm bảo được tốc độ thực
thi của giải thuật và không phù họp với dự báo trực tuyến. Vì vậy yêu cầu đặt ra là cần
phải có một phương pháp nhằm đạt được độ chính xác cao của dự báo cũng như tốc độ
thực thi nhanh nhằm phục vụ tốt cho nhu cầu dự báo trực tuyến.
1.2.

Mục tiêu
Mục tiêu nghiên cứu của đề tài này là kết hợp phương pháp phân đoạn bằng các

điểm cực trị quan trọng và độ đo xoắn thời gian động (dynamic time warping - DTW)
cho bài toán dự báo dữ liệu chuỗi thời gian, với các vấn đề chính sau:
• Nghiên cứu các kỹ thuật phân đoạn dựa trên điểm cực trị quan trọng: ưu
điểm của kỹ thuật phân đoạn này là thời gian chạy tuyến tính, nhanh và
phù hợp với dự báo trực tuyến.


1


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

• Nghiên cứu về độ đo xoắn thời gian động và các kỹ thuật tăng tốc cách
tính độ đo DTW: Độ đo xoắn thời gian động có độ chính xác cao và phù
hợp với chuỗi dư liệu thời gian hơn so với độ đo Eclid nhưng tốc độ tính
toán chậm hơn, ta sử dụng bộ tăng tốc UCR-DTW nhằm giải quyết vấn đề
về thời gian thực thi.
• Tìm hiểu về giải thuật k-NN cho công tác dự báo: Giải thuật k-NN được
dùng cho quá trình phân lớp, tuy nhiên nó cũng được dùng cho quá trình
dự báo.
• Đề xuất phương pháp kết hợp điểm cự trị quan trọng (important extreme
points - IEP), độ đo xoắn thời gian động DTW và giải thuật k lân cận gần
nhất K-NN cho bài toán dự báo chuỗi dữ liệu thời gian.
• So sánh số lần gọi và thòi gian thực thi của độ đo DTW thuần túy so với
bộ tăng tốc UCR-DTW.
• So sánh kết quả đạt được của phương pháp so với phương pháp dự báo
bằng mạng nơ rơn nhân tạo ANN.
1.3.

Phạm vi nghiên cứu
Phạm vi nghiên cứu của đề tài này là đề xuất, nghiên cứu, hiện thực, đánh giá
phương pháp “Kết hợp phương pháp phân đoạn bằng các điểm cực trị quan trọng
và độ đo DTW tăng tốc cho bài toán dự báo dữ liệu chuỗi thời gian”. Ket quả
đạt được này làm tiền đề cho việc phát triển phương pháp dự báo trực tuyến.


1.4.

Tóm lược kết quả đạt được
Sau một thời gian nghiên cứu và hiện thực, chúng tôi đã đạt được các kết quả

tích cực đó là:
• Nắm được kỹ thuật phân đoạn dựa vào các điểm cực trị quan trọng IEP.
• Hiểu rõ độ đo xoắn thời gian động DTW thuần túy và bộ kỹ thuật tăng tốc
UCR-DTW.

2


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _____________________ ____________________________________________________

• Nắm được cách sử dụng giải thuật k lân cận gần nhất k-NN dùng cho dự
báo chuỗi thời gian.
• Hiện thực thành công cách kết hợp phương pháp phân đoạn bằng các điểm
cực trị quan trọng và độ đo xoắn thời gian động cho bài toán dự báo dữ
liệu chuỗi thời gian.
• So sánh số lần gọi và thời gian thực thi của độ đo xoắn thời gian động
DTW thuần túy so với bộ tăng tốc UCR-DTW. Kết quả thực nghiệm cho
thấy số lần gọi DTW của độ đo xoắn thời gian động DTW thuần túy cao
hơn nhiều so với bộ tăng tốc UCR-DTW.
• So sánh kết quả đạt được của phương pháp đề xuất so với phương pháp dự
báo bằng mạng nơ rơn nhân tạo ANN. Ket quả thực nghiệm cho thấy
phương pháp đề xuất có độ chính xác dự báo cao hơn nhiều so với phương
pháp mạng nơ rơn.
Như vậy, hệ thống này cơ bản đã đáp ứng được các yêu cầu của bài toán đặt ra

mà chúng tôi sẽ trình bày chi tiết ở các phần sau.
1.5.

Cấu trúc của luận văn
*

Tổ chức phần còn lại của luận văn gồm những phần như sau:
Chương 2 là các cơ sở lý thuyết mà chúng tôi sử dụng trong nghiên cứu này.
Chúng bao gồm các lý thuyết về độ đo khoảng cách của chuỗi thời gian, các phương
pháp dự báo truyền thống, hiện đại, phân biệt dự báo trực tuyến, không trực tuyến, giải
thuật k-NN dùng trong dự báo, độ đo xoắn thời gian động, các kỹ thuật ràng buộc toàn
cục, ràng buộc cận dưới, chuẩn hóa dữ liệu, phép biến đổi vị tự, các tiêu chí đánh giá
độ chính xác của dự báo.
Chương 3 đề tài giới thiệu về các công trình nghiên cứu liên quan. Những công
trình này trình bày về điểm quan trọng, điểm cực trị quan trọng, bộ kỹ thuật tăng tốc
UCR-DTW, dự báo dữ liệu thời gian bằng mạng nơ rơn nhân tạo ANN, dự báo dữ liệu
thời gian bằng phương pháp phân đoạn dựa vào các điểm quan trọng kết hợp với độ đo
xoắn thời gian động.

3


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

Chương 4 bao gồm nội dung chi tiết thiết kế và hiện thực hệ thống kết hợp phương
pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo DTW cho bài toán dự báo
dữ liệu chuỗi thời gian, dự báo một bước và nhiều bước.
Chương 5 trình bày các kết quả thực nghiệm đạt được, qua đó đánh giá độ chính
xác của dự báo, so sánh với phương pháp dự báo bằng mạng nơ ron nhân tạo ANN, so

sánh giữa độ đo xoắn thời gian động DTW thuần túy và bộ tăng tốc UCR- DTW.
Chương 6 là một số kết luận, đóng góp của đề tài cũng như hướng phát triển trong
tương lai của đề tài.

4


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

CHƯƠNG 2: cơ SỞ LÝ THUYẾT
Chương này trình bài cơ sở lý thuyết bao gồm chuỗi thòi gian, các thành phần của
chuỗi thòi gian, các phương pháp dự báo chuỗi thời gian cổ điển và hiện đại. Các độ đo
như xoắn thời gian động, các kỹ thuật ràng buộc, chuẩn hóa dữ liệu, phép vị tự và các
tiêu chí đánh giá độ chính xác của dự báo.
2.1. Chuỗi thời gian
Một chuỗi thời gian (time series) T là chuỗi trị số thực, mỗi trị số biểu diễn một giá
trị đo tại những thời điểm cách đều nhau: T = ti, Í2, . . ., tn. Những tập dữ liệu chuỗi
thời gian rất lớn xuất hiện trong nhiều lĩnh vực khác nhau như y khoa, kỹ thuật, kinh tế,
tài chính, v.v. . .[2][15].
Trong thực tế, khi quan sát chuỗi thời gian ta nhận thấy bốn thành phần ảnh hưởng
lên mỗi giá trị của chuỗi thời gian đó là xu hướng (trend), chu kỳ (cyclical), mùa
(seasonal), bất quy tẳc (irregular).
2.2.

Các thành phần của chuỗi thời gian

2.2.1. Thành phần xu hướng
Là thành phần thể hiện sự tăng hay giảm giá trị của chuỗi thời gian trong một giai
đoạn dài hạn nào đó. [10]. Hình 2.1 là nhiệt độ mặt đất trung bình toàn cầu có tính xu

hướng, giá trị tăng theo thời gian từ 1856 đến 2005.

5


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BÂNG GÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOAN
Dự BÁÒ Dữ LIẸU CHUỒI THỜI GIAN ______________________ ___________________________________________________

Hình 2.1. Nhiệt độ mặt đất trung bình toàn cầu từ 1856 đến 2005

2.2.2.

Thành phần chu kỳ

Là chuỗi biến đổi dạng sóng quanh xu hướng [10], Trong thực tế thành phần này rất
khó xác định và người ta thường xem nó như là một phần của thành phần xu hướng.
Ví dụ: Các số liệu kinh tế vĩ mô thường có sự tăng giảm có quy luật theo chu kỳ
kinh tế. Sau một thời kỳ suy thoái kinh tế sẽ là thời kỳ phục hồi và bùng nổ kinh tế, kế
tiếp tăng trưởng kinh tế sẽ chựng lại và khởi đầu cho một cuộc suy thoái mới. Tuỳ theo
nền kinh tế mà chu kỳ kinh tế có thời hạn là 5 năm, 7 năm hay 10 năm.
2.23. Thành phần theo mùa
Là thành phần thể hiện sự biến đổi lặp đỉ lặp lại tại từng thời điểm cố định theo từng
năm của chuỗi thời gian [10]. Hình 2.2 mình họa thành phần dữ liệu theo mùa đông,
xuân, hạ, thu.

6


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN ______________________ ___________________________________________________


Hình 2.2 Thành phần theo mùa
2.2.4. Thành phần bất quy tắc
Là thành phần thể hiện sự biến đổi ngẫu nhiên, bất thường không thể đoán được
của chuỗi thời gian [10].
2.3.

Bài toán dư báo

2.3.1.

Các phương pháp dự báo truyền thống

2.3.I.I.

Hầỉ quy

Hồi qui (regression) là một mô hình thống kê được sử dụng để dự đoán giá trị
cửa biến phụ thuộc (dependence variable) hay cồn gọi là biến kết quả dựa vào những
giá trị của ít nhất một biến độc lập (independence variable) hay còn gọi là biến nguyên
nhân. Nếu mô hình hồi qui phân tích sự phụ thuộc của một biến phụ thuộc vào một biến
độc lập gọi là hồi quỉ đơn, nếu có nhiều biến độc lập gọi là hồi qui bội. Hồi qui tuyến
tính là mô hình hồi quỉ trong đó mối quan hệ giữa các biến được biểu diễn bởi một
đường thẳng (đường thẳng là đường phù hợp nhất vởi dữ liệu). Hình 2.3 là đường hồi
quy tuyến tính đơn biến y = X + 1. Với đường hồi quy này ta có thể tìm giá trị y dựa vào
giá trị X.
Phương trình hồi quy Y = f(X, 0)
X: các biến dự báo/độc lập; giải thích sự biến đổi của các đáp ứng Y.
Y: các biến đáp ứng/phụ thuộc; mô tả các hiện tượng được quan tâm.


7


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN ______________________ ___________________________________________________

0\ các hệ số hồi qui (regression coefficients); mô tả sự ảnh hưởng tương đối của X
đối với Y.

Y1

y=X+

Y1

XI

1
X

Hình 2.3. Đường hồi quy tuyến tính đơn biến y = X
2.3.I.2.

+1

Mô hình tự hồi quy tích họp vói trung bình trượt (ARIMA)

Mô hình tự hồi quy tích hợp với trung bình trượt (ARIMA) là một lóp mô hình
tuyến tính sử dụng độ trễ để đưa ra dự báo thích họp.
George Box và Gwilym Jenkins (1976) đã nghiên cứu mô hình ARIMA

(Autoregressive Integrated Moving Average) hay còn gọi là phương pháp Box- Jenkins
với bốn buớc: nhận dạng mô hình thử nghiệm, uớc lượng các tham số, kiểm định bằng
chẩn doán, và dự báo.
Thông thường các chuỗi dữ liệu kinh tế và tài chính như GDP, CPI, GNP, giá cổ
phiếu...đều là các chuỗi không dừng (non stationary time series), có yếu tố xu thế. Chính
vì vậy để tạo ra chuỗi dừng ta phải khử yếu tố xu thế trong các chuỗi dữ liệu gốc thông
qua quy trình lấy sai phân. Từ việc dự báo chuỗi dừng này ta suy ra dự báo cho chuỗi
dữ liệu gốc.

2.3.I.3.

Phương pháp làm trơn hàm mũ

Các phương pháp làm trơn (smoothing method) là tập họp các phương pháp,
trong đó các giá trị dự báo mới ở một thời đoạn sẽ được ước lượng bằng việc kết họp
giá trị dự báo và giá trị quan sát ở thòi đoạn ngay trước đó. Đây là một trong những kĩ
thuật đơn giản mô phỏng hiệu quả để sử dụng dự báo đối với dữ liệu chuỗi thời gian có
tính chất tuyến tính. Gồm có các kỹ thuật sau [10]:

8


KÉT HỢP PHƯƠNG PHẤP PHÂN ĐOẠN BẲNG CÁC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN ______________________ ___________________________________________________

Kỹ thuật làm trơn hàm mũ giản đơn (Simple Exponential Smoothing).
Kỹ thuật làm trơn hàm mũ Holt.
Kỹ thuật làm trơn hàm mũ Winters (mô hình Holt-Winters).
Kỹ thuật làm trơn hàm mũ Hold được dùng cho dữ liệu chuỗi thời gian có xu hướng.
Kỹ thuật làm trơn hàm mũ Holt-Winters được dùng cho dữ liệu chuỗi thời gian có tính

xu hướng và tính mùa.
23.2.
2.3.2.

Các phương pháp dự báo hỉện đạỉ (học máy)
L Mạng nơ ron nhân tạo

Mạng nơ ron nhân tạo (Artificial Neural Network) là một mô hình toán học định
nghĩa một hàm số từ một tập đầu vào đến một tập đầu ra. Mạng nơ ron nhân tạo được
mô phỏng theo mạng nơ ron sinh học trong bộ não người.
Trong quá trình phát triển của mình mạng nơ ron nhân tạo đã được ủng dụng thành
công trong nhiều bài toán thực tế như nhận dạng chữ viết, nhận dạng tiếng nối, điều
khiển tự động, dự báo chuỗi thời gian.. .Hình 2.4 là mạng nơ ron nhân tạo tổng quát vổd
ba tầng. Tầng nhập có bốn nút, tầng ẩn có nút và tầng xuất có hai nút.

Inp ut

layer Hidden layer O ut p ut layer

O ut p ut s

Hình 2.4. Mạng nơ ron nhân tạo

9


KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN_______________________ ___________________________________________________

Mạng nơ ron nhân tạo không chỉ cố thể dùng cho hài toán phân lớp mà còn cố thể

dùng cho bài toán dự báo dữ liệu chuỗi thời gian (xem mục các công trình có liên quan).
23.2.2.

Máy vector hẫ trợ

Máy vector hỗ trợ (Support Vector Machines - SVM) là mô hình được sử dụng
trong nhiều ngành, là một mô hình máy học giám sát được dùng để dự đoán và phân
lớp cho dữ liệu tuyến tính và không tuyến tính.
SVM là mô hình xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong
một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi
quy, hoặc các nhiệm vụ khác. Để phân loại tốt nhất thì phải xác định siêu phẳng tốỉ ưu
(optimal hyperplane) nằm ở càng xa các điểm dữ liệu của tất cả các lớp (hàm lề) càng
tốt, vì nối chung lề càng lớn thì sai số tổng quát hốa của thuật toán phân loại càng bé.
Hình 2.5 bao gồm siêu phẳng đứng và siêu phẳng xiên. Siêu phẳng xiên là siêu phẳng
tối ưu.

Af

0 class I. V = + h buvs_ựompũter = KJJ
> o class 2. V = -1 ( buys_compuỉer = m
\

AI

Hình 2.5. Support Vector Machines

10



×