Tải bản đầy đủ (.pdf) (231 trang)

Tìm kiếm tương tự trên chuỗi thời gian dạng luồng = similarity search in streaming time series (uận án tiến sĩ kỹ thuật)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (14.31 MB, 231 trang )

I H C QU C GIA TP. H CHÍ MINH
TR
NG
I H C BÁCH KHOA

BÙI CƠNG GIAO

TÌM KI M T

NG T TRÊN CHU I TH I GIAN
D NG LU NG
(SIMILARITY SEARCH IN STREAMING TIME SERIES)

LU N ÁN TI N S K THU T

TP. H CHÍ MINH N M 2019


TR

I H C QU C GIA TP. HCM
NG
I H C BÁCH KHOA

TÌM KI M T

NG T TRÊN CHU I TH I GIAN
D NG LU NG
(SIMILARITY SEARCH IN STREAMING TIME SERIES)

Chuyên ngành: Khoa h c máy tính


Mã s chuyên ngành: 62.48.01.01

Ph n bi n đ c l p 1:
Ph n bi n đ c l p 2:

Ph n bi n 1:
Ph n bi n 2:
Ph n bi n 3:

NG I H
PGS. TS. D

PGS. TS. Võ ình B y
PGS. TS. Nguy n ình Thuân

PGS. TS. Lê Hoài B c
PGS. TS.
Phúc
TS. Lê V n Qu c Anh

NG D N KHOA H C
ng Tu n Anh


L I CAM OAN
Tác gi xin cam đoan đây là cơng trình nghiên c u c a b n thân tác gi . Các k t qu
nghiên c u và các k t lu n trong lu n án này là trung th c, và không sao chép t b t k
m t ngu n nào và d
có) đã đ


i b t k hình th c nào. Vi c tham kh o các ngu n tài li u (n u

c th c hi n trích d n và ghi ngu n tài li u tham kh o đúng quy đ nh.

Tác gi lu n án

Ch ký

Bùi Công Giao

i


TÓM T T
Trong khai phá d li u chu i th i gian, bài tốn tìm ki m t

ng t trên chu i th i gian

d ng lu ng là m t thách th c l n cho các nhà nghiên c u vì các ph
t

ng t trên chu i th i gian t nh khó có th phù h p v i môi tr

cho t i nay các công trình tìm ki m t

ng pháp tìm ki m

ng lu ng. Thêm n a,

ng t trên chu i th i gian d ng lu ng v n còn


m t s h n ch nh chi phí tính tốn cao ho c khơng chu n hố d li u. Trong lu n án
này chúng tôi đ xu t các h
cho nhi m v tìm ki m t

ng nghiên c u và ph

ng pháp nh m nâng cao hi u qu

ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid và

đ đo DTW.
k t qu tìm ki m có ý ngh a và chính xác, chu n hoá d li u chu i th i gian c n
đ

c th c hi n tr

ki m t

c khi tìm ki m t

ng t . Trong mơi tr

ng t có đ ph c t p th i gian cao, vì v y các ph

ng lu ng, ho t đ ng tìm
ng pháp đ xu t đã s d ng

các k thu t t ng t c cho tính toán kho ng cách gi a hai chu i th i gian, và s p đ t các
k thu t này theo ki u x p t ng đ t b s m các tính tốn khơng c n thi t. Thêm n a,

các ph

ng pháp tìm ki m t

ng t trên chu i th i gian d ng lu ng nên s d ng các k

thu t tính tốn gia t ng nh chu n hoá d li u gia t ng nh m t i thi u chi phí tính tốn.
K ti p, ph

ng pháp tìm ki m t

ng t đ

c s d ng đ gi i quy t m t vài bài toán

th c t nh d báo tr c tuy n hay phát hi n b t th

ng trong chu i th i gian d ng lu ng.

t i thi u th i gian th c hi n c a nhi m v d báo tr c tuy n, ph

ng pháp đ xu t

s d ng các đi m c c tr quan tr ng trong chu i th i gian d ng lu ng nh là các đi m
m c cho tìm ki m t
lu ng, ph

ng t . Còn đ i v i phát hi n b t th

ng trong chu i th i gian d ng


ng pháp đ xu t s d ng các k thu t ch n d

đ nh n di n các chu i con có ti m n ng b t th
K t qu th c nghi m c a các ph

i khi tính tốn kho ng cách

ng nh t.

ng pháp tìm ki m t

ng t trên chu i th i gian d ng

lu ng b ng đ đo Euclid và đ đo DTW ch ng t s hi u qu c a các ph
xu t. Các ph

ng pháp tr v k t qu chính xác (khơng có l i tìm sót) v i chi phí tính

tốn và khơng gian b nh th p. Còn đ i v i các ng d ng s d ng ph
ki m t

ng pháp đ
ng pháp tìm

ng t , đánh giá qua th c nghi m đã ch ng t r ng các ng d ng thu đ

qu nh mong đ i và có th i gian ph n h i nhanh.
ii


ck t


ABSTRACT
In time-series data mining, the problem of similarity search in streaming time series is
a big challenge for researchers because similarity search methods in static time series
are hardly suitable for a streaming environment. Also, so far research works on
similarity search in streaming time series have some limitations such as high
computational costs and no data normalization. In the dissertation we propose research
directions and methods to improve the effectiveness and the efficiency of similarity
search in streaming time series under Euclidean measure and DTW measure.
In order to acquire meaningful and accurate search results, normalizing time-series data
needs conducting prior to similarity search. In the streaming environment, similarity
search is of high time complexity, so the proposed methods have used speed-up
techniques for calculating the distance between two time-series sequences, and arrange
these techniques in a cascading fashion for early abandoning of unnecessary
computations. Furthermore, methods of similarity search in streaming time series should
use incremental calculation techniques such as incremental data normalization to
minimize the computational costs.
We then utilize the methods of similarity search to solve some real problems such as
online forecasting or anomaly detection in streaming time series. In order to minimize
the execution time of online forecasting, the proposed method use major extrema in
streaming time series as turning points for similarity search. As for anomaly detection
in streaming time series, the proposed method use lower-bounding techniques in
distance computations to identify the most likely subsequences of anomaly.
The experimental results of the methods of similarity search in streaming time series
under Euclidean measure and DTW measure indicate that these proposed methods are
effective and efficient since they bring out accurate results (no false dismissals) with
low computational time and memory space. With respect to applications using the
methods of similarity search, the experimental evaluations demonstrate that these

applications obtain desirable results and have fast responses.

iii


L I CÁM

N

Tơi xin bày t lịng bi t n sâu s c đ n Th y PGS. TS. D
h

ng Tu n Anh đã t n tình

ng d n, đ ng viên, ch b o, và đóng góp ý ki n đ tơi có th nghiên c u và hồn

thành Lu n án ti n s .
Tôi xin g i l i c m n đ n các Th y, Cô trong Khoa Khoa h c và K thu t Máy tính
tr

ng

i h c Bách khoa Tp. H Chí Minh, nhóm nghiên c u v khai phá d li u chu i

th i gian, và các b n nghiên c u sinh đã đóng góp nhi u ý ki n q báu cho tơi.
Tơi c ng xin c m n các đ ng nghi p

Khoa

i n t Vi n thông c a tr


ng

ih c

Sài Gịn và Khoa Cơng ngh thơng tin c a H c vi n Công ngh B u Chính Vi n thơng
c s Tp. H Chí Minh đã ln đ ng viên, khích l và t o đi u ki n thu n l i cho tơi
hồn thành lu n án.
Tôi chân thành c m n Ban Giám hi u tr

ng

i h c Sài Gòn đã h tr kinh phí và t o

đi u ki n cơng tác thu n l i đ tơi có th hồn thành ch

ng trình nghiên c u sinh.

Cu i cùng, tơi xin bày t lòng bi t n sâu s c và mn vàn tình u đ n ba, m , v , con,
nh ng ng

i đã luôn bên c nh và h tr tôi trong su t th i gian qua.
Tp. H Chí Minh, tháng 9 n m 2019
Nguyên c u sinh

Bùi Công Giao

iv



M CL C
L I CAM OAN ............................................................................................................ i
TÓM T T ....................................................................................................................... ii
ABSTRACT ................................................................................................................... iii
L I CÁM N ................................................................................................................ iv
DANH M C CÁC HÌNH NH ..................................................................................... x
DANH M C B NG BI U ......................................................................................... xiv
DANH M C GI I THU T ........................................................................................ xvi
DANH M C CÁC T
CH

NG 1

VI T T T ............................................................................ xvii

GI I THI U ................................................................................... 1

1.1

Chu i th i gian d ng lu ng và thách th c x lý chu i th i gian d ng lu ng ... 1

1.2

M c tiêu, đ i t

1.3

Ph

1.4


Tóm t t k t qu đ t đ

ng và ph m vi nghiên c u ..................................................... 2

ng pháp nghiên c u ................................................................................... 5
c ................................................................................... 9

1.4.1

Tìm ki m t

ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid ....... 9

1.4.2

Tìm ki m t

ng t trên chu i th i gian d ng lu ng b ng đ đo DTW ....... 11

1.4.3

D báo tr c tuy n trên chu i th i gian d ng lu ng .................................... 12

1.4.4

Phát hi n k chu i con b t th

1.5
CH


ng nh t trong chu i th i gian d ng lu ng .. 12

C u trúc c a lu n án ........................................................................................ 13
NG 2

2.1

C S LÝ THUY T N N T NG .............................................. 14

đo t

ng t ................................................................................................ 14

2.1.1

đo Euclid ................................................................................................ 15

2.1.2

đo DTW .................................................................................................. 16

2.2

Chu n hoá d li u............................................................................................ 19

2.3

nh ngh a tìm ki m t


ng t trên chu i th i gian......................................... 21

2.4

nh ngh a tìm ki m t

ng t trên chu i th i gian d ng lu ng...................... 21

2.5

T ng t c trong tính tốn đ đo t

ng t .......................................................... 22

ng kho ng cách.............................................................. 22

2.5.1

S d ng bình ph

2.5.2

T b s m trong khi tính kho ng cách Euclid ............................................. 22
v


2.5.3

S p x p l i th t t b s m ........................................................................ 23


2.5.4

Hàm ch n d

2.5.5

Ki u x p t ng ............................................................................................... 23

2.6

i............................................................................................. 23

Các k thu t t ng t c chuyên bi t cho đ đo DTW ........................................ 24

2.6.1

Gi i h n s ghép đôi các đi m .................................................................... 24

2.6.2

Hàm ch n d

2.6.3

T b s m trong khi tính kho ng cách DTW ............................................... 27

2.7

i cho DTW ............................................................................ 25


Các phép bi n đ i thu gi m s chi u............................................................... 28

2.7.1

Bi n đ i DFT................................................................................................ 29

2.7.2

Bi n đ i DWT ............................................................................................... 32

2.7.3

Bi n đ i PAA ................................................................................................ 34

2.8

C u trúc ch m c R-tree .................................................................................. 35

2.8.1

Tính ch t c a R-tree..................................................................................... 35

2.8.2

Các thao tác trong R-tree ............................................................................ 36

2.8.2.1

Xây d ng R-tree ........................................................................................ 36


2.8.2.2

Tìm ki m trong R-tree ............................................................................... 38

2.9

K t ch

ng ...................................................................................................... 40

CH NG 3
LU NG B NG
3.1

TÌM KI M T
NG T TRÊN CHU I TH I GIAN D NG
O EUCLID ............................................................................... 41

Tìm ki m vùng trên chu i th i gian d ng lu ng b ng đ đo Euclid............... 41

3.1.1

Các cơng trình liên quan.............................................................................. 41

3.1.2

Bài tốn tìm ki m t

3.1.3


Các k thu t h tr ph

ng t trên nhi u chu i th i gian d ng lu ng ............ 45
ng pháp đ xu t ................................................... 47

3.1.3.1

Chu n hóa z-score gia t ng ...................................................................... 47

3.1.3.2

C u trúc ch m c đa m c phân gi i ......................................................... 47

3.1.3.3

Ti n x lý chu i truy v n .......................................................................... 48

3.1.3.4

B đ m xoay vòng ..................................................................................... 52

3.1.3.5

K thu t đa lu ng ..................................................................................... 53

3.1.4

Mơ hình h th ng tìm ki m t

3.1.5


Ph

ng t b ng đ đo Euclid ............................. 53

ng pháp RangeSearch ......................................................................... 55
vi


ánh giá ph

3.1.6
3.2

ng pháp RangeSearch .......................................................... 59

Tìm ki m k lân c n g n nh t trên chu i th i gian d ng lu ng b ng đ đo Euclid
......................................................................................................................... 65

3.2.1

Các cơng trình liên quan.............................................................................. 65

3.2.2

Ph

ánh giá ph

3.2.3

3.3

ng pháp đ xu t ................................................................................... 67
ng pháp k-NNSearch............................................................ 69

C i ti n cách t o R-tree ................................................................................... 73

3.3.1

Gi i thi u bài tốn ....................................................................................... 73

3.3.2

Các cơng trình liên quan.............................................................................. 74

3.3.3

ng cong l p đ y không gian .................................................................. 74

3.3.4

K thu t STR ................................................................................................ 75

3.3.5

Ph

ánh giá ISTR1 và ISTR2 ............................................................................ 79

3.3.6

3.4

ng pháp đ xu t ................................................................................... 77

K t ch

ng ...................................................................................................... 88

CH NG 4
LU NG B NG
4.1

Tìm ki m t

TÌM KI M T
NG T TRÊN CHU I TH I GIAN D NG
O DTW .................................................................................... 90
ng t trên chu i th i gian d ng lu ng b ng đ đo DTW .......... 90

4.1.1

Các cơng trình liên quan.............................................................................. 90

4.1.2

B k thu t UCR-DTW................................................................................. 92

4.1.3

Mơ hình h th ng tìm ki m t


4.1.4

Ph

4.2

ng pháp SUCR-DTW ........................................................................... 93

ánh giá ph

4.1.5

C i ti n ph

Gi i thi u ph

4.2.2

Ph

4.3

ng pháp SPRING .............................................................. 105

ng pháp ISPRING .............................................................................. 106

ánh giá ph
Ph


ng pháp SUCR-DTW ......................................................... 100

ng pháp SPRING ..................................................................... 105

4.2.1

4.2.3

ng t b ng đ đo DTW ............................... 92

ng pháp ISPRING .............................................................. 112

ng pháp ESUCR-DTW ......................................................................... 118
ng pháp ESUCR-DTW ...................................................... 118

4.3.1

Gi i thi u ph

4.3.2

M r ng hàm ch n d

4.3.3

Gi i thu t ESUCR-DTW ............................................................................ 121

4.3.4

ánh giá ph


i LB_Keogh............................................................... 119

ng pháp ESUCR-DTW ....................................................... 121
vii


4.4

Nh n xét t ng quát v các ph ng pháp tìm ki m t ng t b ng đ đo DTW ..
....................................................................................................................... 130

4.5

K t ch

ng .................................................................................................... 131

CH NG 5
LU NG

D BÁO TR C TUY N TRÊN CHU I TH I GIAN D NG
..................................................................................................... 132

5.1

Gi i thi u bài toán d báo tr c tuy n ............................................................ 132

5.2


nh ngh a bài tốn ....................................................................................... 133

5.3

Tiêu chí đo đ chính xác c a d báo ............................................................. 134

5.4

Làm tr n hàm m đ n gi n ........................................................................... 134

5.5

Các đi m c c tr c c b trong chu i th i gian .............................................. 135

5.6

Các cơng trình liên quan................................................................................ 136

5.7

Ph

ng pháp đ xu t ..................................................................................... 138

5.7.1

Ýt

5.7.2


Môi tr

5.7.3

Ho t đ ng c a ph
K t ch

ng pháp ................................................................ 138

ng ho t đ ng cho ph

ánh giá ph

5.7.4
5.8

ng chính cho ph

ng pháp ................................................... 141

ng pháp ..................................................................... 142

ng pháp đ xu t.................................................................. 145

ng .................................................................................................... 151

CH NG 6
PHÁT HI N K CHU I CON B T TH NG NH T TRONG
CHU I TH I GIAN D NG LU NG ....................................................................... 153
6.1


Gi i thi u bài toán phát hi n b t th

ng trong chu i th i gian d ng lu ng . 153

6.2

nh ngh a bài toán ....................................................................................... 154

6.3

Các cơng trình liên quan................................................................................ 155

6.4

Ph

ng pháp SKDIS ..................................................................................... 159

6.4.1

Mơi tr

6.4.2

Ýt

6.4.3

Các ph


6.5

ng ho t đ ng cho ph

ng chính cho ph

ng pháp SKDIS ....................................... 159

ng pháp SKDIS .................................................... 160

ng pháp và k thu t h tr cho ph

ng pháp SKDIS ................ 161

Gi i thu t SKDIS........................................................................................... 162

6.5.1

Th t c Pha 2 ............................................................................................. 164

6.5.2

Vài nh n xét v ph

6.6

ánh giá ph

6.6.1


Th ng kê chi ti t ho t đ ng ........................................................................ 168

ng pháp SKDIS ........................................................ 165

ng pháp SKDIS ...................................................................... 166

viii


Các c p k t qu .......................................................................................... 171

6.6.2
6.7
CH

K t ch
NG 7

ng .................................................................................................... 178
K T LU N................................................................................. 179

7.1

K t qu đ t đ

c ........................................................................................... 179

7.2


Các đóng góp chính c a lu n án.................................................................... 181

7.3

H n ch c a lu n án....................................................................................... 183

7.4

H

ng phát tri n............................................................................................ 183

DANH M C CÁC CƠNG TRÌNH Ã CÔNG B .................................................. 185
TÀI NGHIÊN C U KHOA H C Ã THAM GIA TH C HI N ..................... 187
TÀI LI U THAM KH O .......................................................................................... 188
PH L C A
VÀI PH NG PHÁP VÀ GI I THU T TÌM KI M T
NG T
TRÊN CHU I TH I GIAN ........................................................................................ A1
A.1 Ph

ng pháp c a Kahveci và Singh............................................................... A1

A.2 Ph

ng pháp đ xu t k-NNSearch ................................................................. A2

A.3 Gi i thu t UCR-DTW .................................................................................. A11

ix



DANH M C CÁC HÌNH NH
Hình 1.1

ng bi u di n chu i th i gian th hi n t giá USD/VND (ngu n [1]) ....... 1

Hình 1.2 L i tìm sót x y ra khi khơng chu n hố d li u tr

c khi tìm ki m t

ng t 6

Hình 2.1 (a) A khơng t ng t v i B b ng đ đo Euclid (b) A t ng t v i B b ng đ
đo DTW (ngu n [42]) ................................................................................................... 15
Hình 2.2 (a) Ghép đơi các đi m d li u c a C và Q b ng đ đo DTW (b)
ng xo n
P bi u di n ánh x c p đi m t i u c a hai chu i th i gian ......................................... 17
Hình 2.3 Hai ki u chu n hoá th ng đ c dùng trong khai phá d li u chu i th i gian
....................................................................................................................................... 20
Hình 2.4 (a) Ghép đơi các đi m d li u c a C và Q b ng đ đo DTW và d i SakoeChibav i đ r ng w = 3 (b)
ng xo n P b gi i h n b i w .................................... 24
Hình 2.5 LB_Kim trên C và Q đã đ

c chu n hoá ......................................................... 25

Hình 2.6 LB_Keogh trên C và Q có cùng chi u dài là n, do đó đ ph c t p th i gian c a
hàm ch n d i này là O(n) ........................................................................................... 26
Hình 2.7 LB_Keogh ngh ch trên C và Q ......................................................................... 27
Hình 2.8 M t minh ho cho m t phép bi n đ i thu gi m s chi u chu i th i gian (ngu n

[49])............................................................................................................................... 28
Hình 2.9 Các phép bi n đ i tín hi u trong mi n th i gian/không gian sang mi n t n s
(ngu n [50]) .................................................................................................................. 30
Hình 2.10 Chu i th i gian X qua bi n đ i PAA .......................................................... 34
Hình 2.11 M t R-tree l p ch m c cho các đi m d li u (ngu n [52]) ....................... 37
Hình 3.1 Chu i con c m i t i t

ng ng v i chu i truy v n q ................................... 45

Hình 3.2 Phân đo n chu i truy v n theo ki u không ch ng l p .................................. 49
Hình 3.3 M ng R*-tree đ

c dùng làm c u trúc ch m c đa m c phân gi i ............... 51

Hình 3.4 Phân đo n chu i truy v n theo ki u ch ng l p ............................................. 51
Hình 3.5 B đ m xoay vịng ch a các đi m d li u m i (up-to-date) c a chu i th i gian
d ng lu ng ..................................................................................................................... 52
Hình 3.6 Mơ hình h th ng tìm ki m t

ng t b ng đ đo Euclid.............................. 54

Hình 3.7 L c các chu i truy v n qua t ng m c l c ..................................................... 56

x


Hình 3.8 M t đ phân b chi u dài các chu i truy v n ............................................... 61
Hình 3.9 RangeSearch phát hi n chu i con t i t i m c th i gian 127 t ng t v i m u
....................................................................................................................................... 63
Hình 3.10 Truy v n vùng nâng cao cho đi m đ c tr ng c a q t i đi m đ c tr ng c a c

trong khơng gian ba chi u. ............................................................................................ 68
Hình 3.11 Ba chu i con lân c n g n nh t c a m u ...................................................... 71
Hình 3.12 Th i gian x lý trung bình cho m t đi m d li u m i t i c a ba phép bi n
đ i v i k thay đ i t 1 đ n 10 ....................................................................................... 72
Hình 3.13 Các đ

ng cong th t Z b c 1, 2, và 3 (ngu n [82]) ................................ 75

Hình 3.14 Các đ

ng cong Hilbert b c 1, 2, và 3 (ngu n [82]) .................................. 75

Hình 3.15 M t minh ho k t n i c a hai đ

ng ch y trong ISTR2 ............................ 78

Hình 3.16 M t minh ho k t n i c a hai đ

ng ch y trong ISTR1 ............................ 78

Hình 3.17 Th i gian t o m ng R-tree b i các cách t o R-tree và các phép bi n đ i .. 82
Hình 3.18 Th i gian tìm ki m vùng trên các b d li u chu i th i gian..................... 87
Hình 4.1 Mơ hình h th ng tìm ki m t
Hình 4.2 Khi c tr

ng t b ng đ đo DTW ............................... 93

t trên tr c th i gian, Head và Tail c a Ec c n đ

Hình 4.3 Th ng kê th i gian th c hi n c a các ph


c c p nh t ....... 97

ng pháp tìm ki m .................... 102

Hình 4.4 SUCR-DTW phát hi n ngay t c th i chu i con m i t i t

ng t v i m u 103

Hình 4.5 (a) C a s tr t giám sát các h s min-max (b) Kho ng cách DTW đ c
tính tốn gia t ng t d i lên trên theo hai c t ........................................................... 108
Hình 4.6 Minh ho tr ng h p mà hai ph ng pháp phát hi n hai chu i con t t nh t
cho đ n hi n t i khác nhau cho cùng m t m u ........................................................... 115
Hình 4.7 K t h p các c p đi m m t cách k d gi a S và P ...................................... 117
Hình 4.8 Th i gian th c hi n c a ISPRING v i các

khác nhau ............................ 117

Hình 4.9 M t chu i con c m i t i có chi u dài n m trong mi n giá tr [l – : l + ] có
th so trùng v i chu i truy v n q ................................................................................ 119
Hình 4.10 S d ng LB_Keogh_extended trong tr

ng h p 0 ≤ |C| - |Q| ≤ w ..................... 119

Hình 4.11 S d ng LB_Keogh_extended trong tr

ng h p 0 ≤ |Q| - |C| ≤ w ..................... 120

Hình 4.12 ánh giá các m u và các chu i con t ng t nh t c a m u v chi u dài trong
100 tr ng h p ............................................................................................................ 126

xi


Hình 4.13 Th i gian th c hi n c a ESUCR-DTW trong m i tr ng h p ( , ) v i hai
ki u chu n hoá d li u gia t ng .................................................................................. 127
Hình 4.14 S phân b t l ph n tr m chênh l ch đ dài gi a 100 chu i truy v n và 100
chu i con t ng t nh t tìm th y b i ESUCR-DTW và ISPRING ............................ 129
Hình 5.1 (a) i m c c tr quan tr ng nghiêm ng t (b) i m c c tr quan tr ng bên trái,
bên ph i, và b ng ph ng.............................................................................................. 136
Hình 5.2 Các đi m c c tr quan tr ng đ

c dùng đ xác đ nh các phân đo n .......... 139

Hình 5.3 Mơi tr

ng pháp đ xu t ........................................ 142

ng ho t đ ng c a ph

Hình 5.4 Chu i th i gian Fraser River, 1913-1990 và các đi m c c tr quan tr ng . 146
Hình 5.5 Các quan sát và d báo cho Fraser River, 1913-1990 ............................... 146
Hình 5.6 Chu i th i gian Milk Production in the UK và các đi m c c tr quan tr ng
..................................................................................................................................... 147
Hình 5.7 Các quan sát và d báo cho Milk Production in the UK ............................ 147
Hình 5.8 Chu i th i gian Carbon Dioxide và các đi m c c tr quan tr ng ............... 148
Hình 5.9 Các quan sát và d báo cho Carbon Dioxide.............................................. 149
Hình 5.10 Chu i th i gian Retail and Food Services Sales in the USA và các đi m c c
tr quan tr ng ............................................................................................................... 150
Hình 5.11 Các quan sát và d báo cho Retail and Food Services Sales in the USA . 150
Hình 6.1 B i c nh làm vi c c a SKDIS .................................................................... 159

Hình 6.2 Các chu i k t qu đ

c tìm th y trong mitdbx_mitdbx_108 b i SKDIS ... 172

Hình 6.3 Các chu i k t qu đ c tìm th y trong mitdbx_mitdbx_108 b i HOT SAX
..................................................................................................................................... 172
Hình 6.4 Các chu i k t qu đ c tìm th y trong qtdbsele0606 b i hai ph ng pháp
..................................................................................................................................... 173
Hình 6.5 Các chu i k t qu đ

c tìm th y trong chfdbchf15 .................................... 174

Hình 6.6 Các chu i k t qu đ

c tìm th y trong nprs44 b i SKDIS ........................ 175

Hình 6.7 Các chu i k t qu đ

c tìm th y trong nprs44 b i HOT SAX .................. 175

Hình 6.8 Các chu i k t qu đ

c tìm th y trong nprs43 b i hai ph

Hình 6.9 Các chu i k t qu đ

c tìm th y trong power_data b i SKDIS ................ 177

Hình 6.10 Các chu i k t qu đ


c tìm th y trong power_data b i HOT SAX ........ 177
xii

ng pháp ........ 176


Hình A.1 S đ c u trúc ch m c đa m c phân gi i (ngu n [60]).............................. A2
Hình A.2 Minh ho kNNinfo ....................................................................................... A4
Hình A.3 C u trúc m t nút c a R*-tree có thêm thơng tin các đi m n m trong MBR c a
nút ................................................................................................................................ A8
Hình A.4 Minh ho thơng tin c n thêm vào m t nút đ ph c v truy v n vùng ........ A8
Hình A.5 M t th hi n c a qlist ................................................................................. A8
Hình A.6 M t m ng cl ch a các danh sách có ki u là SortedByToleranceList ....... A10

xiii


DANH M C B NG BI U
B ng 3.1 S h s đ c tr ng cho t ng m c l c theo hai cách ..................................... 50
B ng 3.2 M t vài ký hi u cho ph

ng pháp RangeSearch.......................................... 55

B ng 3.3 Các t p tin chu i th i gian đ c mô ph ng thành chu i th i gian d ng lu ng
....................................................................................................................................... 60
B ng 3.4 Hai cách ch n s h s đ c tr ng cho t ng m c l c trong th c nghi m ..... 61
B ng 3.5 Th ng kê th i gian và s l n g i hàm tính kho ng cách Euclid c a ph ng
pháp đ xu t v i hai cách ch n h s đ c tr ng ........................................................... 64
B ng 3.6 Th ng kê th i gian c a RangeSearch th c hi n v i k thu t đ n lu ng .... 64
B ng 3.7 S h s đ c tr ng cho t ng m c l c ........................................................... 70

B ng 3.8 Th ng kê s l n g i ED c a k-NNSearch..................................................... 71
B ng 3.9 Th ng kê th i gian th c hi n c a k-NNSearch ............................................ 72
B ng 3.10 Các đ c đi m chung cho ba m ng R-tree ................................................... 81
B ng 3.11 S l

ng nút c a các m ng R-tree đ

c t o t ba t p h p chu i truy v n 84

B ng 3.12 T l (%) nút đ y trong các R-tree cho ba t p h p chu i truy v n ............ 85
B ng 4.1 Các ký hi u đ

c s d ng trong gi i thu t SUCR-DTW ............................. 94

B ng 4.2 B d li u chu i th i gian mô ph ng n m chu i th i gian d ng lu ng ..... 101
B ng 4.3 Kh n ng c t t a c a các hàm ch n d

i .................................................... 104

B ng 4.4 Th ng kê th i gian th c hi n c a SUCR-DTW v i hai k thu t ............... 104
B ng 4.5 Ma tr n STWM bi u di n giá tr bfs cho đ n m c th i gian 6 ................... 106
B ng 4.6 Các ký hi u s d ng trong gi i thu t ISPRING ......................................... 109
B ng 4.7 B d li u chu i th i gian mô ph ng b y chu i th i gian d ng lu ng ...... 113
B ng 4.8 Th ng kê k t qu tìm ki m c a hai ph
B ng 4.9 S tr

ng pháp ...................................... 114

ng h p t t h n và x u h n khi so sánh v i


= 0%........................ 117

B ng 4.10 Các ký hi u s d ng cho gi i thu t ESUCR-DTW .................................. 121
B ng 4.11 B d li u chu i th i gian mô ph ng n m chu i th i gian d ng lu ng ... 123
B ng 4.12 K t qu tìm th y chu i con t

ng t v i chu i truy v n ......................... 125

B ng 4.13 S các chu i con t t nh t gi ng nhau c a hai ki u chu n hóa gia t ng ... 126
xiv


B ng 4.14 Tính ch t c a các ph

ng pháp tìm ki m t

ng t b ng đ đo DTW ..... 130

B ng 5.1 Tr ng h p t t nh t c a t ng ph ng pháp trên Fraser River, 1913-1990
..................................................................................................................................... 146
B ng 5.2 Tr ng h p t t nh t c a t ng ph ng pháp trên Milk Production in the UK
..................................................................................................................................... 147
B ng 5.3 Tr

ng h p t t nh t c a t ng ph

ng pháp trên Carbon Dioxide............. 148

B ng 5.4 Tr ng h p t t nh t c a t ng ph ng pháp trên Retail and Food Services
Sales in the USA .......................................................................................................... 150

B ng 5.5 S li u th ng kê t các th c nghi m .......................................................... 151
B ng 6.1 Các ký hi u đ
B ng 6.2 S l

c s d ng trong Th t c Pha 2 ......................................... 163

ng các chu i con t i s m đ

c l y m u và s h s đ c tr ng ....... 169

B ng 6.3 Kh n ng c t t a và s l n g i UCR-ED..................................................... 170
B ng 6.4 Th ng kê th i gian th c hi n c a SKDIS và SHOT SAX ......................... 170
B ng 6.5 Các c p k t qu đ

c tìm th y trong mitdbx_mitdbx_108 ......................... 172

B ng 6.6 Các c p k t qu gi ng nhau đ c tìm th y trong qtdbsele0606 b i SKDIS và
HOT SAX ................................................................................................................... 173
B ng 6.7 Các c p k t qu đ

c tìm th y trong chfdbchf15 ....................................... 174

B ng 6.8 Các c p k t qu đ

c tìm th y trong nprs44 .............................................. 175

B ng 6.9 Hai ph

ng pháp cùng tìm th y các c p k t qu gi ng nhau trong nprs43 176


B ng 6.10 Các c p k t qu đ

c tìm th y trong power_data.................................... 177

B ng 7.1 T ng k t các ph

ng pháp đ xu t trong đóng góp 1 và 2 c a lu n án ..... 182

B ng 7.2 T ng k t các ph

ng pháp đ xu t trong đóng góp 3 c a lu n án ............. 183

B ng A.1 M t vài ký hi u cho gi i thu t k-NNSearch ............................................... A3
B ng A.2 M t vài ký hi u cho gi i thu t UCR-DTW .............................................. A11

xv


DANH M C GI I THU T
RangeSearch ................................................................................................................. 57
SUCR-DTW .................................................................................................................. 95
UpdateTail..................................................................................................................... 98
UpdateHead................................................................................................................... 99
ISPRING ..................................................................................................................... 109
Reset_columns ............................................................................................................ 110
Set_current_column .................................................................................................... 111
ESUCR-DTW ............................................................................................................. 122
SKDIS ......................................................................................................................... 163
k-NNSearch .................................................................................................................. A4
IRangeSearchInRtree ................................................................................................... A8

UCR-DTW ................................................................................................................. A12

xvi


DANH M C CÁC T
T vi t t t

Di n gi i ti ng Anh

VI T T T
Di n gi i ti ng Vi t

DFT

Discrete Fourier Transform

Bi n đ i Fourier r i r c

DTW

Dynamic Time Warping

Xo n th i gian đ ng

DWT

Discrete Wavelet Transform

Bi n đ i wavelet r i r c


FFT

Fast Fourier Transform

Bi n đ i Fourier nhanh

GEMINI

GEneric Multimedia object
IndexIng

L p ch m c đ i t ng đa
ph ng ti n t ng quát

MAD

Mean Absolute Deviation

MAPE

Mean Absolute Percentage Error

Ph n tr m sai s tuy t đ i trung
bình

MBR

Minimum Bounding Rectangle


Hình ch nh t bao t i thi u

MSE

Mean Squared Error

Sai s bình ph

PAA

Piecewise Aggregate
Approximation

Bi n đ i x p x g p t ng đo n

SES

Simple Exponential Smoothing

Làm tr n hàm m đ n gi n

SKDIS

Search for top-k discords in
streaming time series

Tìm k chu i con b t th ng nh t
trong chu i th i gian lu ng

STR


Sort-Tile-Recursive

STWM

Subsequence Time Warping Matrix Ma tr n xo n th i gian chu i con

l ch tuy t đ i trung bình

xvii

ng trung bình


CH
Ch

NG 1 GI I THI U
ng này trình bày các n i dung nh sau.

u tiên là t ng quan v chu i th i gian

d ng lu ng và các bài toán quan tr ng trong khai phá d li u chu i th i gian d ng lu ng.
Ti p theo là m c tiêu, đ i t

ng, và ph m vi nghiên c u c a đ tài. Sau đó là ph

pháp nghiên c u và tóm t t k t qu đ t đ

ng


c. Cu i cùng là c u trúc c a lu n án.

1.1 Chu i th i gian d ng lu ng và thách th c x lý chu i th i gian d ng lu ng
Chu i th i gian (time series) là dãy các giá tr ho c s ki n thu đ

c b ng cách ghi nh n

k t qu t i nh ng đi m cách đ u nhau theo tr c th i gian. D li u này có th có nhi u
h n hai chi u nh ng ph i có m t chi u là th i gian. Ví d nh chu i th i gian th hi n
t giá h i đoái USD/VND đ
29/8/2017 đ

c ghi nh n theo t ng ngày làm vi c, t 02/01/2017 đ n

c th hi n trong Hình 1.1.

Hình 1.1

ng bi u di n chu i th i gian th hi n t giá USD/VND (ngu n [1])

D li u chu i th i gian có th có các tính ch t nh sau:
(i)

S chi u nhi u,

(ii) m i t

ng quan cao gi a các đi m giá tr , và


(iii) d li u có th b nhi u.
Các tính ch t này khi n cho vi c khai phá d li u chu i th i gian g p nhi u thách th c.
Chu i th i gian d ng lu ng (streaming time series) là m t chu i th i gian có các giá tr
m it iđ

c ghi nh n m t cách liên t c và đ

c n i vào cu i chu i theo trình t th i

gian. Xét ví d trong Hình 1.1, t giá h i đoái USD/VND đ
1

c ghi nh n vào ngày


30/8/2017 s đ

c thêm vào cu i chu i th i gian. Nh v y chu i th i gian này có tính

ch t là m t lu ng d li u t i liên t c và đ

c ghi nh n theo t ng ngày làm vi c.

Theo G. Li và các c ng s [2], chu i th i gian d ng lu ng có các đ c tr ng:
• Các ph n t d li u t i tr c tuy n.
• H th ng khơng th đi u khi n th t d li u t i.
• Kh i l

ng d li u nhi u đ n m c có th là vơ t n, do v y b nh ch a d li u không


th l u tr t t c d li u.
• M t khi m t ph n t d li u đ

c x lý, ph n t này đ

th i gian xác đ nh trong b nh , r i đ

c l u l i trong m t kho ng

c c t gi t i n i khác ho c b hu b và

không th ph c h i.
Nh v y đ x lý nhanh d li u chu i th i gian d ng lu ng trong th i gian th c, ph

ng

pháp x lý ph i có đ ph c t p th i gian (time complexity) th p và c n quét d li u m t
l n (one-pass scan). Hai yêu c u này t o ra thách th c to l n cho các ph
lý chu i th i gian t nh n u ta mu n làm cho các ph

ng pháp x

ng pháp này thích nghi v i vi c x

lý chu i th i gian d ng lu ng. Vì th c n ph i có các k thu t m i hay c i ti n t các k
thu t đã có đ đ m b o vi c x lý chu i th i gian d ng lu ng có hi u qu theo hai tiêu
chí đánh giá là ch t l

ng k t qu tr v và th i gian th c hi n.


Qua kh o sát c a chúng tôi, ngày càng có nhi u ng d ng c n ph i x lý d li u chu i
th i gian d ng lu ng nh phân tích l u l

ng m ng máy tính [3], giám sát v trí các thi t

b di đ ng trong th i gian th c [4], theo dõi các tia b t th
sát giao d ch c phi u trong th tr

ng trong thiên v n [5], giám

ng ch ng khoán [6, 7], v.v.. Do có nhi u ng d ng

liên quan đ n vi c x lý chu i th i gian d ng lu ng và s ph c t p, khó kh n c a lo i
x lý này cho nên vào n m 2011, Fu [8] cho r ng bài toán x lý d li u chu i th i gian
d ng lu ng là m t trong hai h

ng nghiên c u ch y u v khai phá d li u chu i th i

gian.
1.2 M c tiêu, đ i t

ng và ph m vi nghiên c u

Các bài toán th

c nghiên c u trong khai phá d li u chu i th i gian là tìm ki m

t

ng đ


ng t (similarity search), phát hi n b t th
2

ng (anomaly detection), phát hi n mơ típ


(motif detection), d báo (forecast), k t chu i con (subsequence join), rút trích lu t (rule
extraction), v.v.. Trong các bài toán quan tr ng này, gi i pháp cho bài tốn tìm ki m
t

ng t th

ng là c s n n t ng cho gi i pháp c a các bài tốn khác. Thơng th

ng,

tìm ki m d li u trong c s d li u truy n th ng là s so trùng chính xác cịn tìm ki m
t

ng t trên chu i th i gian là s so trùng x p x ; ngh a là kho ng cách gi a hai chu i

th i gian đ

c tính b ng m t đ đo nào đó và kho ng cách này ph i nh h n m t ng

kho ng cách (distance threshold) cho tr
t

c thì hai chu i th i gian m i đ


ng

c xem là

ng t nhau.

Theo s nh n xét c a chúng tôi, cho t i hi n nay các cơng trình nghiên c u v tìm ki m
t

ng t trên chu i th i gian d ng lu ng th

ng đ a ra các ph

ng pháp tìm ki m t

ng

t có chi phí tính tốn cao ho c khơng chu n hố d li u cho nên k t qu tr v ch a
chính xác. Nh m kh c ph c các khuy t đi m k trên, chúng tôi xác đ nh bài tốn tìm
ki m t

ng t trên chu i th i gian d ng lu ng s là đ i t

ng đ

c nghiên c u trong

lu n án này.
Lu n án bao g m hai nhi m v nghiên c u và m c tiêu c th c a t ng nhi m v là

Nhi m v 1: Xây d ng các ph

ng pháp tìm ki m t

ng t trên chu i th i gian d ng

lu ng b ng


đo Euclid (Euclidean measure) có v n d ng các phép bi n đ i thu gi m s chi u
và c u trúc ch m c đa m c phân gi i.



đo xo n th i gian đ ng (Dynamic Time Warping measure) hay còn g i là đ đo
DTW và các k thu t t ng t c cho đ đo này.

Nhi m v 2:

ng d ng các ph

ng pháp tìm ki m t

ng t trên chu i th i gian d ng

lu ng đ gi i quy t các bài tốn sau.
• D báo tr c tuy n (online forecating) trên chu i th i gian d ng lu ng có xu h

ng


và tính mùa (trend and seasonal) b ng đ đo DTW.
• Phát hi n k chu i con b t th

ng nh t (top-k discords detection) trong chu i th i

gian d ng lu ng b ng đ đo Euclid.

3


Tìm ki m t

ng t trên chu i th i gian d ng lu ng có th chia thành hai lo i là truy v n

t nh (static query) và truy v n d ng lu ng (streaming query). Hai lo i truy v n này đ

c

mơ t nh sau:
• Truy v n t nh. Trong lãnh v c tài chính nh th tr

ng ch ng khốn có nhi u lo i

m u (pattern) c phi u đáng quan tâm và có nhi u chu i th i gian bi u di n s bi n
đ ng giá tr c phi u c a các công ty trên sàn giao d ch. Các chu i th i gian này xem
nh là các lu ng d li u. Yêu c u đ t ra là tìm các chu i con trong các chu i th i
gian này mà đ ng d ng (có hình d ng t

ng t ) v i các m u c phi u có s n. Truy


v n t nh c ng thích h p trong l nh v c giám sát m ng khi có nhi u lu ng d li u t i
liên t c và c n đ

c so sánh v i các m u c n phát hi n. Nh n xét r ng trong khai

phá d li u chu i th i gian, m u th
sequence) đã đ

c xác đ nh tr

ng đ

c. V i tr

c bi u di n b ng chu i truy v n (query
ng h p này, ch c n ng tìm ki m t

t cho chu i truy v n t nh trên chu i th i gian d ng lu ng đ
• Truy v n d ng lu ng. Trong l nh v c môi tr
nh n các thông s th i ti t đ

ng

c s d ng.

ng nh bi n đ i khí h u, d li u ghi

c c p nh t liên t c theo t ng m c th i gian và t o ra

chu i th i gian d ng lu ng; còn m u c ng thay đ i do yêu c u truy v n thay đ i theo

s bi n đ ng môi tr

ng. Do v y chu i truy v n c ng thay đ i theo d ng lu ng;

ngh a là các d li u truy v n có s ti p n i, k th a d li u, và d li u nào c q s
khơng cịn trong chu i truy v n đ nh

ng ch cho d li u m i phát sinh. Trong

tr

ng t cho chu i truy v n d ng lu ng trên

ng h p này, ch c n ng tìm ki m t

chu i th i gian d ng lu ng đ

c s d ng.

Tu theo ng d ng mà các nghiên c u c a lu n án s d ng ki u truy v n t

ng ng.

Nh n xét r ng truy v n t nh d nh n ra và ph bi n h n truy v n d ng lu ng. Thêm n a,
x lý truy v n t nh không ph c t p nh x lý truy v n d ng lu ng, và truy v n d ng
lu ng th

ng ch xu t hi n trong m t s

nghiên c u th nh t v tìm ki m t


ng d ng đ c bi t. Vì v y, đ i v i nhi m v

ng t trên chu i th i gian d ng lu ng, lu n án đ

xu t ph m vi nghiên c u là tìm ki m t

ng t cho truy v n t nh. Còn đ i v i nhi m v

nghiên c u th hai, do b n ch t c a các bài toán c n gi i quy t là truy v n d ng lu ng
nên lu n án s m r ng gi i pháp tìm ki m t
truy v n d ng lu ng.
4

ng t cho truy v n t nh đ thích ng cho


1.3 Ph
Tìm ki m t

ng pháp nghiên c u
ng t trên chu i th i gian b ng đ đo Euclid th

ng b t đ u b ng tìm ki m

trên đ c tr ng (feature) c a d li u chu i th i gian. N u k t qu tìm ki m trên đ c tr ng
th a mãn thì b

c h u ki m s th c hi n trên d li u chu i th i gian. V i cách làm này


thì đ ph c t p th i gian c a tìm ki m t

ng t trên chu i th i gian s gi m đ n m c

đáng k do tìm ki m trên đ c tr ng c a d li u chu i th i gian nhanh h n r t nhi u so
v i vi c tìm ki m trên d li u chu i th i gian. Thông th

ng ta có đ c tr ng c a d li u

chu i th i gian t m t phép bi n đ i thu gi m s chi u nào đó.

đ m b o khơng có

l i tìm sót (false dismissals), phép bi n đ i thu gi m s chi u chu i th i gian ph i có
tính ch t ch n d

i (lower-bounding property) [9].

t ng t c tìm ki m t
li u chu i th i gian th

ng t trên chu i th i gian b ng đ đo Euclid, đ c tr ng c a d
ng đ

c l u trong m t c u trúc ch m c ph c v cho vi c tìm

ki m nhanh. Do d li u chu i th i gian có th đ

c đ i di n b i nhi u đ c tr ng nên


c u trúc ch m c khơng gian (spatial index structure) hay cịn đ
m c đa chi u (multi-dimensional index structure) th

ng đ

c g i là c u trúc ch

c s d ng đ ch a các đ c

tr ng. Trong khai phá d li u chu i th i gian, c u trúc ch m c không gian th

ng đ

c

s d ng là R-tree [10] và các bi n th c a R-tree nh R*-tree [11] và STR (Sort-TileRecursive) [12]. Thêm n a, c u trúc ch m c không gian nên đ

c t ch c theo đa m c

phân gi i (multi-resolutions) đ phù h p v i các chu i truy v n (query sequence) có
chi u dài khác nhau hay yêu c u th i gian tìm ki m khác nhau. Nh n xét r ng m c phân
gi i có ch c n ng l c k t qu nên còn đ

c g i là m c l c (filtering level). a m c phân

gi i có th giúp quá trình tìm ki m đ

c ti n hành t m c l c thơ (có u c u th i gian

tìm ki m nhanh) đ n m c l c tinh (ng


i dùng ch p nh n th i gian tìm ki m lâu h n đ

có k t qu chính xác h n).
Tr

c đây, có nhi u cơng trình nghiên c u [13 - 21] v tìm ki m t

th i gian b ng đ đo Euclid theo h

ng t trên chu i

ng gi i quy t v n đ nh nêu trên. Tuy nhiên h u

h t các cơng trình này khơng th c hi n chu n hóa d li u tr

c khi tìm ki m t

ng t

vì th các tác gi [22 - 25] cho r ng các cơng trình trên ít có ý ngh a th c ti n. Tuy nhiên,
thu n l i c a vi c l đi chu n hoá d li u ho c m c đ nh d li u g c đã đ

5

c chu n hóa


giúp t ng t c vi c tìm ki m. M t ví d là tính tốn h s đ c tr ng c a đi m d li u m i
có th s d ng l i h s đ c tr ng c a các đi m d li u tr


c đó.

c ng c thêm l p lu n r ng chu n hoá d li u là đi u c n thi t trong tìm ki m t

ng

t trên chu i th i gian, lu n án xin đ a ra các ví d sau. Xét hai chu i th i gian, m t
chu i th i gian ghi nh n l
hai lo i d li u này đ

ng m a trong khi chu i th i gian kia thu th p đ

m. Do

c đo b ng các đ n v khác nhau nên hai chu i th i gian không

th so sánh tr c ti p v i nhau. M t ví d khác đ

c minh ho nh trong Hình 1.2. Hình

1.2 (b) th hi n m t phân đo n chu i th i gian đ

c trích xu t ra t m t chu i th i gian

bi u di n d li u EEG t trang web [26]. Gi s ta mu n tìm ki m t

ng t cho chu i

truy v n trong Hình 1.2 (a) trên phân đo n chu i th i gian này. K t qu tìm ki m là ch

có m t chu i con t

ng t đ

c tìm th y và có hai chu i con t

ng t khác b b sót do

hai chu i con này khác cao đ (altitude) v i chu i truy v n. N u th c hi n chu n hoá
d li u tr

c khi tìm ki m t

ng t , l i tìm sót ít có kh n ng x y ra.

Hình 1.2 L i tìm sót x y ra khi khơng chu n hố d li u tr
T nh ng nh n xét trên, trong bài tốn tìm ki m t

c khi tìm ki m t

ng t

ng t trên chu i th i gian d ng

lu ng b ng đ đo Euclid, lu n án đ xu t thêm hai yêu c u nh sau:
1. Th c hi n chu n hóa d li u tr

c khi tìm ki m t

ng t . Chu n hóa d li u nên


th c hi n theo cách tính tốn gia t ng (incremental computation) nh m gi m chi phí
tính tốn.
2. C i ti n c u trúc ch m c không gian đ t i u không gian l u tr và gi m thi u th i
gian tìm ki m trong c u trúc ch m c.

6


×