Tải bản đầy đủ (.pdf) (101 trang)

So sánh hiệu quả của hai phương pháp phân đoạn (iep và pip) trong bài toán phát hiện bất thường trên dữ liệu chuỗi thời gian dựa vào nhận dạng điểm ngoại biên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.79 MB, 101 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA
------------------------------------

ĐẶNG DANH HỮU

SO SÁNH HIỆU QUẢ CỦA HAI PHƯƠNG PHÁP PHÂN
ĐOẠN (IEP VÀ PIP) TRONG BÀI TOÁN PHÁT HIỆN
BẤT THƯỜNG TRÊN DỮ LIỆU CHUỖI THỜI GIAN
DỰA VÀO NHẬN DẠNG ĐIỂM NGOẠI BIÊN

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ CHUYÊN NGÀNH: 60.48.01.01

LUẬN VĂN THẠC SĨ

TP.HCM, tháng 6 năm 2017


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA
------------------------------------

ĐẶNG DANH HỮU

SO SÁNH HIỆU QUẢ CỦA HAI PHƯƠNG PHÁP PHÂN
ĐOẠN ( IEP VÀ PIP) TRONG BÀI TOÁN PHÁT HIỆN
BẤT THƯỜNG TRÊN DỮ LIỆU CHUỖI THỜI GIAN
DỰA VÀO NHẬN DẠNG ĐIỂM NGOẠI BIÊN


CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ CHUYÊN NGÀNH: 60.48.01.01

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. DƯƠNG TUẤN ANH

TP.HCM, tháng 6 năm 2017
i


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – HCM
Cán bộ hướng dẫn khoa học : PGS.TS. DƯƠNG TUẤN ANH

Cán bộ chấm nhận xét 1 : PGS.TS. ĐỖ PHÚC

Cán bộ chấm nhận xét 2 : TS. VÕ THỊ NGỌC CHÂU

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày 17 tháng 7 năm 2017
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. TS. BÙI HOÀI THẮNG
2. TS. TRẦN TUẤN ANH
3. TS. VÕ THỊ NGỌC CHÂU
4. PGS.TS. ĐỖ PHÚC
5. TS. DƯƠNG NGỌC HIẾU
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA KH&KT MÁY TÍNH

ii


ĐẠI HỌC QUỐC GIA TP.HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: ĐẶNG DANH HỮU...................................... MSHV:1570210 ..............
Ngày, tháng, năm sinh: 06/02/1992 ........................................... Nơi sinh: Ninh Thuận .....
Chuyên ngành: Khoa học Máy tính ........................................... Mã số : 60480101............
I. TÊN ĐỀ TÀI: SO SÁNH HIỆU QUẢ CỦA HAI PHƯƠNG PHÁP PHÂN ĐOẠN (IEP
VÀ PIP) TRONG BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG TRÊN DỮ LIỆU CHUỖI
THỜI GIAN DỰA VÀO NHẬN DẠNG ĐIỂM NGOẠI BIÊN

II. NHIỆM VỤ VÀ NỘI DUNG:
1. Tìm hiểu hai phương pháp phân đoạn chuỗi thời gian (điểm cực trị quan trọng – IEP và
điểm quan trọng có ý nghĩa - PIP). Tìm hiểu hai phương pháp gom cụm trong nhận
dạng điểm ngoại biên dựa vào gom cụm: giải thuật Squeezer (của He và các cộng sự)
và giải thuật gom cụm hai chặng (của Jiang và các cộng sự).
2. Kế thừa phương pháp phát hiện bất thường trên dữ liệu chuỗi thời gian dựa vào phương
pháp điểm cực trị quan trọng và giải thuật gom cụm Squeezer được đề xuất bởi Kha và

Anh (2014), tác giả đề xuất 3 phương pháp khác với cùng khung thức : (i) phân đoạn
với điểm PIP + gom cụm Squeezer, (ii) phân đoạn với điểm cực trị quan trọng + gom
cụm hai chặng và (iii) phân đoạn với điểm PIP + gom cụm hai chặng.
III. NGÀY GIAO NHIỆM VỤ : 16/01/2017
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 18/06/2017
V. CÁN BỘ HƯỚNG DẪN: PGS.TS. DƯƠNG TUẤN ANH
Tp. HCM, ngày 18 tháng 6 năm 2017
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

(Họ tên và chữ ký)

(Họ tên và chữ ký)

PGS.TS. DƯƠNG TUẤN ANH
TRƯỞNG KHOA KH&KT MÁY TÍNH
(Họ tên và chữ ký)

iii


LỜI CÁM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn chân thành nhất đến PGS.TS Dương Tuấn Anh,
người thầy đã dìu dắt, hướng dẫn, đóng góp cho tơi những ý kiến , kinh nghiệm quý báu
trong quá trình làm luận văn. Những lời đóng góp của thầy là kim chỉ nam, động lực để
giúp tơi hồn thành luận văn này.
Tôi cũng xinh chân thành gửi lời cảm ơn chân thành nhất đến quý thầy cô, cán bộ trường
Đại học Bách Khoa Thành Phố Hồ Chí Minh, những người đã tạo những điều kiện tốt nhất,
những người đã truyền những kiến thức quý báu trong thời gian tôi học Cao học tại đây.

Cuối cùng, tôi gửi những lời cảm ơn chân thành tới gia đình tơi, là nguồn động lực về
cả tinh thần và vật chất để tôi vượt qua những khó khăn thử thách.
Xin chân thành cảm ơn.

iv


TÓM TẮT LUẬN VĂN
Trong sự phát triển của khoa học kĩ thuật hiện nay, chúng ta có thể thấy dữ liệu chuỗi
thời gian (time series data) xuất hiện rất nhiều trong các lĩnh vực đặc biêt là thống kê, xử
lý tính hiệu, kinh tế lượng, y tế. Cấu trúc dữ liệu có thể là mơt chiều hay nhiều chiều, trong
đó có một chiều là chiều thời gian. Dữ liệu được ghi lại theo sự thay đổi giá trị của chiều
thời gian. Trong từng lĩnh vực khoa học, người ta lại có những độ đo khoảng cách (distance
measure) khác nhau.
Một trong những ứng dụng quan trọng trong nghiên cứu dữ liệu chuỗi thời gian là phát
hiện bất thường (anomaly detection) trên dữ liệu chuỗi thời gian. Bất thường trên chuỗi dữ
liệu thời gian được định nghĩa là các phân đoạn bất thường so với phần còn lại của chuỗi
thời gian. Phát hiện bất thường được ứng dụng trong việc chẩn đoán sự cố, bảo mật an tồn
thơng tin, thống kê, tài chính, y tế và cịn rất nhiều ngành khác nữa. Phát hiện bất thường
cũng chính là mục tiêu của đề tài luận văn này.
Trong đề tài này, chúng tôi sẽ so sánh khi sử dụng hai phương pháp phân đoạn Important
Extreme Point và Perceptually Important Point kết hợp với hai phương pháp nhận dạng
điểm ngoại biên là phương pháp gom cụm Squeezer và phương pháp gom cụm hai chặng
trong việc phát hiện bất thường.
Từ những kết quả thu được trên các bộ dữ liệu thực nghiệm, chúng tôi đã thu được
những kết quả tương tự giữa những phương pháp trên.

v



ABSTRACT
In the the development of current technology, we can see that time series data appear a
lot in many fields, especsially statistics, singnal processing, econometrics, medical. Data
can be one-dimensional or multi-dimensional, in which having one dimension is the time
dimension. Data are recorded according the values of the time dimension. In each field of
application, there exist different distance measure.
One of the most important tasks in time series data mining is anomaly detection.
Anomaly pattern on the time series data is defined as the abnormal segment compared to
the rest of time series. Anomaly detection is useful for diagnosing accidents, security of
information, statistics, finance, health and so on. It is also the target of our thesis.
In the thesis, we will compare using two segmentation methods: Important Extreme
Point and Perceptually Important Points and combine each of them with two methods of
clustering: Squeezer clustering and two-phase clustering.
From experimental results, we obtained the same results from these methods in time
series anomaly detection.

vi


LỜI CAM ĐOAN

Tôi xin cam đoan ngoại trừ những kết quả nghiên cứu từ những đề tài khác đã được ghi
rõ trong luận văn, tất cả những công việc được trình bày trong đề tài này đều do tơi thực
hiện và khơng có phần nội dung nào được nộp để lấy bằng cấp ở trường này hay trường
khác.
Ngày 19 tháng 6 năm 2017

vii



NHẬN XÉT CỦA NGƯỜI HƯỚNG DẪN
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………

TP.HCM, Ngày … tháng … năm 2017
PGS.TS Dương Tuấn Anh

viii


MỤC LỤC
LỜI CÁM ƠN ..................................................................................................................... iv

TÓM TẮT LUẬN VĂN ...................................................................................................... v
ABSTRACT ....................................................................................................................... vi
LỜI CAM ĐOAN .............................................................................................................. vii
MỤC LỤC .......................................................................................................................... ix
DANH MỤC HÌNH........................................................................................................... xii
DANH MỤC BẢNG ......................................................................................................... xv
CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI .................................................................................... 1
1.1

Dữ liệu chuỗi thời gian: ......................................................................................... 1

1.2

Nhận dạng bất thường trên chuỗi dữ liệu thời gian: .............................................. 2

1.3

Mục tiêu và giới hạn của đề tài .............................................................................. 3

1.4

Những kết quả đạt được: ........................................................................................ 4

1.5

Cấu trúc luận văn: .................................................................................................. 5

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT ..................................................................................... 6
2.1


Độ đo tương tự: ...................................................................................................... 6

2.1.1

Độ đo Minkowski: ........................................................................................... 6

2.1.2

Độ xoắn thời gian động: .................................................................................. 8

2.2

Các phương pháp thu giảm số chiều ...................................................................... 9

2.2.1

Phương pháp thích nghi dữ liệu: ..................................................................... 9

2.2.2

Phương pháp khơng thích nghi dữ liệu: ........................................................ 10

2.3 Rời rạc hóa dữ liệu bằng phương pháp SAX (Symbolic Aggregate
approXimation): ............................................................................................................. 12
2.4

Các phương pháp phân đoạn dữ liệu: .................................................................. 14

2.4.1 Phương pháp phân đoạn bằng điểm cực trị quan trọng (Important Extreme
Point): 14

2.4.2 Phương pháp phân đoạn bằng điểm quan trọng có ý nghĩa (Perceptually
Important Point): ......................................................................................................... 17
ix


2.5

Phương pháp biến hình vị tự: ............................................................................... 20

2.6

Điểm ngoại biên: .................................................................................................. 21

2.6.1

Điểm ngoại biên cục bộ (cluster-based local outlier)[7]: .............................. 21

CHƯƠNG 3 CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN VÀ GIẢI PHÁP THỰC
HIỆN ĐỀ TÀI .................................................................................................................... 24
3.1

Giải thuật gom cụm Squeezer trong nhận dạng các điểm ngoại biên: ................. 24

3.2

Giải thuật gom cụm 2 chặng trong nhận dạng các điểm ngoại biên: ................... 26

3.3

Các giải thuật phát hiện bất thường: .................................................................... 29


3.3.1

Giải thuật Brute Force Discord Discovery (BFDD) [7] ................................ 29

3.3.2

Giải thuật Heuristic Discord Discovery (HDD) [7]: ..................................... 30

3.3.3

Giải thuật HOTSAX: ..................................................................................... 31

3.3.4

Giải thuật nhận dạng điểm ngoại biên FindCBLOF [7]: .............................. 33

3.3.5

giải thuật phát hiện chuỗi con bất thường FindCBLDF:............................... 35

3.4

Phương pháp được thực hiện trong đề tài: ........................................................... 36

CHƯƠNG 4 HIỆN THỰC VÀ THỰC NGHIỆM ............................................................ 37
4.1

Kết quả thực nghiệm ............................................................................................ 38


4.1.1

Dữ liệu ECG: ................................................................................................. 38

4.1.2

Dữ liệu AEM: ................................................................................................ 42

4.1.3

Dữ liệu ERP: ................................................................................................. 47

4.1.4

Dữ liệu POWER: ........................................................................................... 52

4.1.5

Dữ liệu STOCK:............................................................................................ 57

4.1.6

Dữ liệu TEK16: ............................................................................................. 62

4.1.7

Dữ liệu TEK17: ............................................................................................. 67

4.2


Tổng kêt và nhận xét: ........................................................................................... 72

CHƯƠNG 5 KẾT LUẬN .................................................................................................. 76
5.1

Tổng kết: .............................................................................................................. 76

5.2

Những đóng góp của đề tài: ................................................................................. 77

5.3

Những hạn chế của đề tài: .................................................................................... 78

5.4

Hướng phát triển: ................................................................................................. 78
x


TÀI LIỆU THAM KHẢO ................................................................................................. 80
PHỤ LỤC A ....................................................................................................................... A
LÝ LỊCH TRÍCH NGANG .......................................................................................................................... 1

xi


DANH MỤC HÌNH
Hình 1- 1. Minh họa về dữ liệu chuỗi thời gian về tỷ lệ thất nghiệp của những người ở độ

tuổi 15-24 ở Australia .......................................................................................................... 1
Hình 1- 2. Minh họa về phát hiện bất thường trên chuỗi thời gian. .................................... 3
Hình 2- 1. Minh họa về các biến thế của độ do Minkowski................................................ 7
Hình 2- 2. Minh họa về cách tính DTW. ............................................................................. 8
Hình 2- 3. Minh họa biễu diễn dữ liệu chuỗi thời gian theo phương pháp PAA .............. 11
Hình 2- 4. Minh họa phương pháp biểu diễn dữ liệu chuỗi thời gian theo phương pháp
DFT, DWT và PAA ........................................................................................................... 12
Hình 2- 5. Minh họa phương pháp rời rạc hóa dữ liệu chuỗi thời gian bằng phương pháp
SAX. Kết quả thu được ta có chuỗi ký tự ffffffeeeddcbaabceedcbaaaaacddee. ............... 13
Hình 2- 6. Một chuỗi thịi gian được biến đổi PAA rồi mã hóa thành các ký hiệu SAX.
Chuỗi thời gian được mã hóa thành baabccbc ([6]) .......................................................... 13
Hình 2- 7. Minh họa chuỗi dữ liệu thời gian với điểm cực trị quan trọng ([2]) ................ 15
Hình 2- 8. Minh họa điểm cực tiểu quan trọng và điểm cực đại quan trọng ([2]) ............ 15
Hình 2- 9. Minh họa độ đo khoảng cách PIP-VD ([4]) ..................................................... 18
Hình 2- 10. Minh họa quá trình nhận dạng các điểm PIP trên một chuỗi thời gian ([4]). 19
Hình 2- 11. Minh họa kết quả nhận dạng các điểm PIP trên một chuỗi thời gian ([4]). ... 19
Hình 2- 12. Phép biến hình vị tự ...................................................................................... 20
Hình 2- 13. Minh họa điểm ngoại biên cục bộ .................................................................. 22
Hình 3- 1. Hai cấu trúc dữ liệu hỗ trợ cho heuristic vịng lặp ngồi và heuristic vòng lặp
trong. Bên trái, một dãy các từ SAX, cột cuối cùng chứa số lần xuất hiện của mỗi từ trong
dãy. Bên phải, một cây gia tố (Augmented Trie) có nút lá chứa những chỉ mục (vị trí) của
từ SAX tương ứng trong dãy (nguồn [7]) .......................................................................... 33
Hình 4- 1. Chuỗi dữ liệu thời gian ECG 20000 điểm........................................................ 38
Hình 4- 2. Kết quả chuỗi con bất thường trên ECG được phát hiện bằng phương pháp IEP
+ Squeezer ......................................................................................................................... 39
Hình 4- 3. Kết quả chuỗi con bất thường trên ECG được phát hiện bằng phương pháp IEP
+ Gom cụm hai chặng........................................................................................................ 40
Hình 4- 4. Kết quả chuỗi con bất thường trên ECG được phát hiện bằng phương pháp PIP
+ Squeezer ......................................................................................................................... 41
Hình 4- 5. Kết quả chuỗi con bất thường trên ECG được phát hiện bằng phương pháp PIP

+ Gom cụm hai chặng........................................................................................................ 42
Hình 4- 6. Chuỗi dữ liệu thời gian AEM 20000 điểm....................................................... 43
Hình 4- 7. Kết quả chuỗi con bất thường trên AEM được phát hiện bằng phương pháp
IEP + Squeezer .................................................................................................................. 44
xii


Hình 4- 8. Kết quả chuỗi con bất thường trên AEM được phát hiện bằng phương pháp
IEP + Gom cụm hai chặng................................................................................................. 45
Hình 4- 9. Kết quả chuỗi con bất thường trên AEM được phát hiện bằng phương pháp
PIP + Squeezer................................................................................................................... 46
Hình 4- 10. Kết quả chuỗi con bất thường trên AEM được phát hiện bằng phương pháp
PIP + Gom cụm hai chặng ................................................................................................. 47
Hình 4- 11. Chuỗi dữ liệu thời gian ERP 25000 điểm ...................................................... 48
Hình 4- 12. Kết quả chuỗi con bất thường trên ERP được phát hiện bằng phương pháp
IEP + Squeezer .................................................................................................................. 49
Hình 4- 13. Kết quả chuỗi con bất thường trên ERP được phát hiện bằng phương pháp
IEP + Gom cụm hai chặng................................................................................................. 50
Hình 4- 14. Kết quả chuỗi con bất thường trên ERP được phát hiện bằng phương pháp
PIP + Squeezer................................................................................................................... 51
Hình 4- 15. Kết quả chuỗi con bất thường trên ERP được phát hiện bằng phương pháp
PIP + Gom cụm hai chặng ................................................................................................. 52
Hình 4- 16. Chuỗi dữ liệu thời gian POWER 20000 điểm................................................ 53
Hình 4- 17. Kết quả chuỗi con bất thường trên POWER được phát hiện bằng phương
pháp IEP + Squeezer.......................................................................................................... 54
Hình 4- 18. Kết quả chuỗi con bất thường trên POWER được phát hiện bằng phương
pháp IEP + Gom cụm hai chặng ........................................................................................ 55
Hình 4- 19. Kết quả chuỗi con bất thường trên POWER được phát hiện bằng phương
pháp PIP + Squeezer .......................................................................................................... 56
Hình 4- 20. Kết quả chuỗi con bất thường trên POWER được phát hiện bằng phương

pháp PIP + Gom cụm hai chặng ........................................................................................ 57
Hình 4- 21. Chuỗi dữ liệu thời gian STOCK 20000 điểm ................................................ 58
Hình 4- 22. Kết quả chuỗi con bất thường trên STOCK được phát hiện bằng phương pháp
STOCK + Squeezer ........................................................................................................... 59
Hình 4- 23. Kết quả chuỗi con bất thường trên STOCK được phát hiện bằng phương pháp
IEP + Gom cụm hai chặng................................................................................................. 60
Hình 4- 24. Kết quả chuỗi con bất thường trên STOCK được phát hiện bằng phương pháp
PIP + Squeezer................................................................................................................... 61
Hình 4- 25. Kết quả chuỗi con bất thường trên STOCK được phát hiện bằng phương pháp
PIP + Gom cụm hai chặng ................................................................................................. 62
Hình 4- 26. Chuỗi dữ liệu thời gian TEK16 4992 điểm .................................................... 63
Hình 4- 27. Kết quả chuỗi con bất thường trên TEK16 được phát hiện bằng phương pháp
IEP + Squeezer .................................................................................................................. 64

xiii


Hình 4- 28. Kết quả chuỗi con bất thường trên TEK16 được phát hiện bằng phương pháp
IEP + Gom cụm hai chặng................................................................................................. 65
Hình 4- 29. Kết quả chuỗi con bất thường trên TEK16 được phát hiện bằng phương pháp
PIP + Squeezer................................................................................................................... 66
Hình 4- 30. Kết quả chuỗi con bất thường trên TEK16 được phát hiện bằng phương pháp
PIP + Gom cụm hai chặng ................................................................................................. 67
Hình 4- 31. Chuỗi dữ liệu thời gian TEK17 5000 điểm .................................................... 68
Hình 4- 32. Kết quả chuỗi con bất thường trên TEK17 được phát hiện bằng phương pháp
IEP + Squeezer .................................................................................................................. 69
Hình 4- 33. Kết quả chuỗi con bất thường trên TEK17 được phát hiện bằng phương pháp
IEP + Gom cụm hai chặng................................................................................................. 70
Hình 4- 34. Kết quả chuỗi con bất thường trên TEK17 được phát hiện bằng phương pháp
PIP + Squeezer................................................................................................................... 71

Hình 4- 35. Kết quả chuỗi con bất thường trên TEK17 được phát hiện bằng phương pháp
PIP + Gom cụm hai chặng ................................................................................................. 72

xiv


DANH MỤC BẢNG
Bảng 4- 1. Bảng thông số của phương pháp IEP + gom cụm Squeezer trên ECG ........... 39
Bảng 4- 2. Bảng thông số của phương pháp IEP + gom cụm hai chặng trên ECG .......... 39
Bảng 4- 3. Bảng thông số của phương pháp PIP + gom cụm Squeezer trên ECG ........... 40
Bảng 4- 4. Bảng thông số của phương pháp PIP + gom cụm hai chặng trên ECG ........... 41
Bảng 4- 5 Bảng thông số của phương pháp IEP + gom cụm Squeezer trên AEM ........... 43
Bảng 4- 6. Bảng thông số của phương pháp IEP + gom cụm hai chặng trên AEM.......... 44
Bảng 4- 7. Bảng thông số của phương pháp PIP + gom cụm Squeezer trên AEM ........... 45
Bảng 4- 8. Bảng thông số của phương pháp PIP + gom cụm hai chặng trên AEM .......... 46
Bảng 4- 9. Bảng thông số của phương pháp IEP + gom cụm Squeezer trên ERP ............ 48
Bảng 4- 10. Bảng thông số của phương pháp IEP + gom cụm hai chặng trên ERP ......... 49
Bảng 4- 11. Bảng thông số của phương pháp PIP + gom cụm Squeezer trên ERP .......... 50
Bảng 4- 12. Bảng thông số của phương pháp PIP + gom cụm hai chặng trên ERP ......... 51
Bảng 4- 13. Bảng thông số của phương pháp IEP + gom cụm Squeezer trên POWER ... 53
Bảng 4- 14. Bảng thông số của phương pháp IEP + gom cụm hai chặng trên POWER .. 54
Bảng 4- 15. Bảng thông số của phương pháp PIP + gom cụm Squeezer trên POWER ... 55
Bảng 4- 16. Bảng thông số của phương pháp PIP + gom cụm hai chặng trên POWER ... 56
Bảng 4- 17. Bảng thông số của phương pháp IEP + gom cụm Squeezer trên STOCK .... 58
Bảng 4- 18. Bảng thông số của phương pháp IEP + gom cụm hai chặng trên STOCK ... 59
Bảng 4- 19. Bảng thông số của phương pháp PIP + gom cụm Squeezer trên STOCK .... 60
Bảng 4- 20. Bảng thông số của phương pháp PIP + gom cụm hai chặng trên STOCK.... 61
Bảng 4- 21. Bảng thông số của phương pháp IEP + gom cụm Squeezer trên TEK16 ..... 63
Bảng 4- 22. Bảng thông số của phương pháp IEP + gom cụm hai chặng trên TEK16 ..... 64
Bảng 4- 23. Bảng thông số của phương pháp PIP + gom cụm Squeezer trên TEK16 ...... 65

Bảng 4- 24. Bảng thông số của phương pháp PIP + gom cụm hai chặng trên TEK16 ..... 66
Bảng 4- 25. Bảng thông số của phương pháp IEP + gom cụm Squeezer trên TEK17 ..... 68
Bảng 4- 26 Bảng thông số của phương pháp IEP + gom cụm hai chặng trên TEK17 ...... 69
Bảng 4- 27. Bảng thông số của phương pháp PIP + gom cụm Squeezer trên TEK17 ...... 70
Bảng 4- 28. Bảng thông số của phương pháp PIP + gom cụm hai chặng trên TEK17 ..... 71
Bảng 4- 29. Bảng so sánh kết quả các phương pháp phát hiện bất thường ....................... 74
Bảng 4- 30. Biểu đồ kết quả các phương pháp phát hiện bất thường................................ 74

xv


Đặng Danh Hữu-1570210

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI
1.1 Dữ liệu chuỗi thời gian:
Dữ liệu chuỗi thời gian là chuỗi các điểm dữ liệu được quan sát theo thứ tự thời gian.
Thông thường, chuỗi thời gian là tập hợp các điểm được chia đều nhau liên tục trong thời
gian. Vì vậy, nó là một chuỗi rời rạc. Chuỗi thời gian khơng có giới hạn, cho phép dữ liệu
được thu thập và cung cấp thơng tin có ích cho người sử dụng. Chúng ta có thể thấy trong
hình 1-1 là ví dụ về chuỗi thời gian về tỉ lệ thất nghiệp của những người ở độ tuổi 15-24 ở
Australia.

Hình 1- 1. Minh họa về dữ liệu chuỗi thời gian về tỷ lệ thất nghiệp của những người ở độ tuổi 15-24 ở
Australia

Để có thể ứng dụng được chuỗi dữ liệu thời gian, chúng ta cần có những phương pháp
phân tích, đánh giá so sánh, nhận dạng. Việc phân tích dữ liệu chuỗi thời gian tại các điểm
khác nhau của chuỗi thời gian dẫn tới các mơ hình thống kê và suy luận. Từ những mơ hình
thống kê và suy luận, người dùng sẽ rút ra được những quy luật trên những chuỗi thời gian
như điện tâm đồ, chứng khoán, kinh tế,…


1


Đặng Danh Hữu-1570210

Đặc điểm của chuỗi dữ liệu thời gian:
• Khối lượng dữ liệu rất lớn, thu thập trong một thời gian dài. Do đó, cần phải có
những phương pháp phân tích, nhận dạng hiệu quả trên chuỗi dữ liệu thời gian
một cách hiệu quả và chính xác. Những kết quả này là tiền đề cho những ứng
dụng của chuỗi thời gian.
• Việc thu thập, phân tích chuỗi dữ liệu thời gian phụ thuộc vào các yếu tố chủ
quan như độ đo, hệ số đo, cơng cụ thu thập…
• Dữ liệu thu thập không đồng nhất do phụ thuộc vào các yếu tố chủ quan, dẫn tới
có thể sai lệch trong quá trình nghiên cứu, kết quả của nghiên cứu. Sự nhiễu trên
dữ liệu cũng gây ảnh hưởng rất nhiều đến kết quả.

1.2 Nhận dạng bất thường trên chuỗi dữ liệu thời gian:
Một mẫu bất thường trên dữ liệu chuỗi thời gian là một chuỗi con mà rất khác so với
chuỗi con tương tự với nó nhất. Chúng ta có thể thấy một đoạn bất thường ở hình 2-1. Tuy
nhiên, những chuỗi con mà khớp (tương tự) với một chuỗi con cho trước thường có khuynh
hướng gần sát với vị trí của chuỗi con đang xét. Thí dụ, một chuỗi con có vị trí bắt đầu tại
điểm thứ p có chuỗi con tương tự với nó nhiều nhất bắt đầu tại điểm thứ q mà q chỉ cách
xa p khoảng vài điểm. Những sự trùng khớp với nhau như vậy được gọi là trùng khớp tầm
thường (trivial matches) và không đáng quan tâm trong quá trình phát hiện bất thường.
Định nghĩa 1.1: (Trùng khớp không tầm thường) Một chuỗi thời gian T cho trước
có chứa chuỗi con C chiều dài n bắt đầu tại vị trí p và một chuỗi con M trùng khớp với nó
bắt đầu tại vị trí q, ta bảo M là trùng khớp không tầm thường (non-trivial match) của C nếu
|p – q| ≥ n.
Định nghĩa 1.2: (Chuỗi con bất thường nhất – time series discord) Cho chuỗi thời

gian T, chuỗi con C có chiều dài n bắt đầu tại vị trí p được gọi là chuỗi con bất thường nhất
của T nếu C có khoảng cách lớn nhất đến chuỗi con trùng khớp không tầm thường lân cận
với nó nhất.

2


Đặng Danh Hữu-1570210

Hình 1- 2. Minh họa về phát hiện bất thường trên chuỗi thời gian.

Chúng ta cũng quan tâm đến việc xem xét các chuỗi con bất thường bậc K mà được
định nghĩa như sau:
Định nghĩa 1.3: (Chuỗi con bất thường bậc K – K-th time series discord) Cho chuỗi
thời gian T, chuỗi con D có chiều dài n bắt đầu tại vị trí p được gọi là chuỗi con bất thường
bậc K của T nếu D có khoảng cách lớn thứ K đến chuỗi con trùng khớp không tầm thường
lân cận với nó nhất và khơng hề phủ lấp chuỗi con bất thường bậc i nào bắt đầu tại vị trí pi,
với mọi i thỏa 1  i  K.

1.3 Mục tiêu và giới hạn của đề tài
Mục tiêu của đề tài là so sánh hiệu quả của hai phương pháp phân đoạn phương pháp
điểm cực trị quan trọng và phương pháp PIP trong bài toán phát hiện bất thường trên dữ
liệu chuỗi thời gian dựa vào nhận dạng điểm ngoại biên (outlier detection). Đề tài sẽ tập
trung nghiên cứu về hiệu quả của hai phương pháp phân đoạn, đánh giá hai phương pháp
khi làm việc trên các bộ dữ liệu thử nghiệm. Từ kết quả trên những bộ dữ liệu thật, chúng
ta sẽ rút ra được ưu, nhược điểm của từng phương pháp.
Ngồi ra đề tài cịn so sánh hiệu quả của hai giải thuật gom cụm Squeezer [7] và giải
thuật gom cụm hai-chặng của Jiang và các cộng sự [11] khi áp dụng vào công tác phát hiện
3



Đặng Danh Hữu-1570210

bất thường trên dữ liệu chuỗi thời gian dựa vào nhận dạng điểm ngoại biên. Trong khi giải
thuật gom cụm Squeezer chỉ làm việc với dữ liệu rời rạc thì giải thuật gom cụm hai-chặng
của Jiang và các cộng sự [11] có thể làm việc trên dữ liệu số thực, rất thích hợp với các
chuỗi con của chuỗi thời gian.
Từ những kết luận rút ra được, chúng ta sẽ biết được phương pháp phân đoạn nào và
phương pháp gom cụm nào là hiệu quả hơn trong công tác phát hiện bất thường trên dữ
liệu chuỗi thời gian dựa vào nhận dạng điểm ngoại biên. Những điều này là những yếu tố
quan trọng khi sử dụng trong thực tế.

1.4 Những kết quả đạt được:
Với nội dung và phạm vi nghiên cức của đề tài là so sánh hiệu quả của hai phương pháp
phân đoạn (IEP và PIP) trong bài toán phát hiện bất thương trên dữ liệu chuỗi thời gian
dựa vào nhận dạng điểm ngoại biên, chúng tôi sẽ tập trung so sánh ở giai đoạn phân đoạn.
Để có thể thực hiện được bài toán phát hiện bất thường bằng phương pháp nhận dạng
điểm ngoại biên, chúng tôi sẽ xem xét lựa chọn giữa hai giải thuật gom cụm Squeezer và
giải thuật gom cụm hai chặng của Jiang và các cộng sự. Do vậy, chúng tôi sẽ phải hiện
thực để so sánh 4 phương pháp khác nhau:
1. Phương pháp 1: phân đoạn với điểm cực trị quan trọng + gom cụm Squeezer
2. Phương pháp 2: phân đoạn với điểm PIP + gom cụm Squeezer
3. Phương pháp 3: phân đoạn với điểm cực trị quan trọng + gom cụm hai-chặng
4. Phương pháp 4: phân đoạn với điểm PIP + gom cụm hai-chặng
Sau khi hiện thực và chạy thực nghiệm trên các bộ dữ liệu thật với các tham số khác
nhau, chúng tôi đã thu được những kết quả tương tự nhau với thời gian xử lý cũng gần
bằng nhau. Chúng tôi cũng rút ra được những đặc điểm của từng phương pháp.

4



Đặng Danh Hữu-1570210

1.5 Cấu trúc luận văn:
Chương 2 chúng tôi sẽ trình bày những cơ sở lý thuyết của đề tài này bao gồm khái
niệm về độ đo tương tự, các phương pháp thu giảm số chiều, phương pháp rời rạc hóa dữ
liệu SAX (Symbolic Aggregate approximation) [4], các phương pháp phân đoạn dữ liệu và
phương pháp biến hình vi tự. Trong khái niệm về độ đo, chúng tôi sẽ trình bày về độ đo
Minkowski và độ xoắn thời gian động. Các phương pháp thu giảm số chiều sẽ bao gồm 2
phương pháp là thích nghi và khơng thích nghi dữ liệu. Về phương pháp phân đoạn dữ liệu
sẽ bao gồm hai phương pháp là phân đoạn bằng điểm cực trị quan trọng và điểm cực trị có
ý nghĩa.
Chương 3 sẽ trình bày những cơng trình nghiên cứu liên quan bao gồm Giải thuật gom
cụm Squeezer và giải thuật gom cụm hai chặng trong nhận dạng điểm ngoại biên, các giải
thuật phát hiện bất thường bao gồm Brute Force Discord Discovery, Heuristic Discord
Discovery, HOTSAX, FindBLOF, FindCBDL. Sau đó, chúng tơi trình bày giải pháp thực
hiện đề tài.
Chương 4 sẽ trình bày kết quả thực nghiệm cho các phương pháp được trình bày ở
chương 3 trên 7 bộ dữ liệu bao gồm ECG, ERP, AEM, POWER, STOCK, TEK16, TEK17.
Từ đó chúng tôi rút ra những nhận xét cho những kết quả thực nghiệm.
Chương 5 sẽ trình bày kết luận của đề tài bao gồm tổng kết, nêu những đóng góp của
đề tài, những hạn chế của đề tài và hướng phát triển.

5


Đặng Danh Hữu-1570210

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
Chương này trình bày những cơ sở lý thuyết phục vụ cho đề tài này bao gồm lý thuyết

về độ đo tương tự, các phương pháp thu giảm số chiều, phương pháp rời rạc hóa dữ liệu
SAX (Symbolic Aggregate approXimation), các phương pháp phân đoạn và phương pháp
biến hình vi tự.

2.1 Độ đo tương tự:
Đánh giá khoảng cách giữa hai chuỗi thời gian là một trong những phần rất quan trọng
quyết định đến kết quả phân tích của chuỗi thời gian. Có nhiều phương pháp đánh giá độ
đo tương tự khoảng cách như Euclid, Minkowski, độ đo xoắn thời gian động. Độ tương tự
(Similarity) đánh giá mức độ giống nhau của hai chuỗi thời gian, có giá trị lớn khi hai chuỗi
thời gian khác nhau và nằm trong khoảng [0,1]. Cho hai chuỗi thời gian X và Y có dạng
X=<x1, x2, …, xn> và Y=<y1, y2, …, yn>. Độ tương tự giữa X và Y ký hiệu là Sim(X,Y)
D(X,Y) là khoảng cách giữa hai đối tượng X và Y, có những đặc điểm sau:
• Khơng âm: D(X,Y) ≥ 0, khoảng cách giữa hai đối tượng ln ln lớn hơn
hoặc bằng 0.
• Xác định tương tự nhau: D(X,Y) = 0, hai đối tượng X và Y tương tự nhau.
• Đối xứng: D(X,Y) = D(Y,X), hàm tính khoảng cách làm một hàm đối xứng.
• Bất đẳng thức tam giác: D(X,Y) < D(X,Z) + D(Z,Y).

2.1.1 Độ đo Minkowski:
Công thức Minkowski:
𝑝

𝑆𝑖𝑚(𝑋, 𝑌) = √∑𝑛𝑖=1(𝑥𝑖 − 𝑦𝑖 )2 (2.1)
Nếu p = 1, công thức sẽ trở thành độ đo Mahanttan; p = 2, công thức trở thành độ đo
Euclid; p = 3, công thức trở thành độ đo Max.

6


Đặng Danh Hữu-1570210


Cơng thức Minkowski được minh họa ở hình 2-1, có ưu điểm là tính tốn dễ dàng, được
dùng cho nhiều bài toán như gom cụm, phân loại dữ liệu, đồng thời công thức này cũng
được sử dụng với các phép biến đổi số chiều: PAA, DWT, DFT. Nhưng cơng thức này
cũng có nhiều nhược điểm là khơng thích nghi với chuỗi thời gian có đường cơ bản khác
nhau, chuỗi thời gian có biên độ dao động khác nhau, nhạy cảm với nhiễu.
Những phương pháp khắc phục nhược điểm:
• Chuẩn hóa dữ liệu chuỗi thời gian trước khi áp dụng so trùng mẫu trên dữ liệu
dựa trên giá trị trung bình và độ lệch chuẩn X’=X-mean(X) hay X’=(Xmean(X))/Var(X) [8].
• Áp dụng phương pháp trung bình di chuyển để làm trơn các đường biểu diễn
chuỗi thời gian nghĩa là giá trị của chuỗi thời gian tại thời điểm i được tính
như sau: 𝑋𝑖 = ∑𝑘𝑗=−𝑘

𝑋𝑗+𝑘
2𝑘+1

• Áp dụng độ đo tương tự có sửa đổi dựa trên khoảng cách Euclid :
2

1

𝑆𝑖𝑚(𝑋, 𝑌) = √ ∑((𝑦𝑖 − 𝑥𝑖 ) − (𝑦𝐴 − 𝑥𝐴𝑖 )) (2.2)
𝑛

1

1

𝑛


𝑛

𝑛−1
Trong đó:𝑥𝐴 = ∑𝑛−1
𝑖=0 𝑥𝑖 , 𝑦𝐴 = ∑𝑖=0 𝑦𝑖

Hình 2- 1. Minh họa về các biến thế của độ do Minkowski.

7


Đặng Danh Hữu-1570210

2.1.2 Độ xoắn thời gian động:
Khi hai chuỗi thời gian có sự giống nhau về hình dạng nhưng khác nhau về thời gian,
người ta sử dụng phương pháp ánh xạ một điểm đến nhiều điểm, đó là phương pháp xoắn
thời gian động (Dynamic Time Warping - DTW)[14]. Hình 2- 2 minh họa cho cách tính
DTW. Cho hai chuỗi thời gian X và Y và một thông số khung w là khung cửa sổ xoắn
(warping window), điều kiện là hai điểm i và j có thể ánh xạ với nhau nếu |i - j| ≤ w. Dữ
liệu ra là tổng khoảng cách của các điểm được ánh xạ với nhau. Cách tính đơn giản DTW
là xây dựng một ma trận Dmxn với m = |X| và n = |Y|. Khi đó Dij = d(xi, yi). Từ ma trận D
ta duyệt qua ma trận từ ô (0, 0) đến ô (m, n) thỏa mãn ràng buộc sau: Đường đi phải liên
tục; không được đi qua trái hay đi xuống; ô tại vị trí (i, j) thuộc đường đi phải thỏa |i – j| ≤
w; nếu có K ơ đi từ ô (0,0) đến ô (m,n) thỏa mãn những điều kiện trên, khi đó:
𝐷𝑇𝑊 (𝑄, 𝐶 ) =

𝑚𝑖𝑛⁡{√∑𝐾
𝑘−1 𝑤𝑘 }
𝐾


(2.3)

Hình 2- 2. Minh họa về cách tính DTW.

8


Đặng Danh Hữu-1570210

Phương pháp DWT có ưu điểm là có thể tính chính xác độ đo giữa hai chuỗi thời gian
có hình dạng giống nhau về hình dạng nhưng khác nhau về thời gian; cho kết quả chính
xác hơn độ đo Euclid. Nhung phương pháp này cũng có nhược điểm là độ phức tạp và thời
gian chạy lớn hơn nhiều so với độ đo Euclid, với độ phức tạp là O(n2) khi thông số w là
chiều dài của chuỗi dữ liệu thời gian.

2.2 Các phương pháp thu giảm số chiều
Dữ liệu chuỗi thời gian có kích thước rất lớn. Do đó, người ta dùng một số phương pháp
thu giảm số chiều để chuẩn hóa lại chuỗi dữ liệu thời gian để tạo thành một chuỗi dữ liệu
thời gian nhỏ hơn đại diện cho chuỗi dữ liệu thời gian đó. Sau đó, người ta có thể phân tích
trên chuỗi dữ liệu chuỗi thời gian được chuẩn hóa để giảm chi phí thời gian để phân tích.
Cho chuỗi thời gian X = <x1, x2, …, xn> có n chiều, ta thu giảm chiều dữ liệu xuống còn k
chiều Y = <y1, y2, …, yn> với k < n là hệ số đường cơ bản. Nếu k càng lớn thì đường phục
hồi dữ liệu chuỗi thời gian ban đầu càng chính xác.

2.2.1 Phương pháp thích nghi dữ liệu:
Phương pháp này biến đổi dữ liệu chuỗi thời gian về thành những đường cơ bản. Hình
dáng của dữ liệu chuỗi thời gian sau khi biến đổi phụ thuộc vào dữ liệu chuỗi thời gian ban
đầu. Tùy theo loại dữ liệu chuỗi thời gian mà có đường cơ bản tương ứng. Tính chất là thể
hiện rõ hơn dữ liệu chuỗi thời gian ban đầu, tuy nhiên thời gian biến đổi lâu hơn.
Một số phương pháp: phân rã trị kì dị (Singular Value Decomposition – SVD [9]), xấp

xỉ tuyến tính từng đoạn (Piecewise Linear Approximation – PLA), xấp xỉ hằng số từng
đoạn thích nghi (Adaptive Piecewise Constant Approximation – APCA).
• Phương pháp phân rã trị kỳ dị: Phương pháp này biến đổi dữ liệu chuỗi thời gian
thành những đường cơ bản gọi là đường eigenwave. Tương ứng với từng dữ liệu
chuỗi thời gian ta có các giải thuật tương ứng để biến đổi đường eigenwave. Tuy
nhiên, phương pháp biến đổi SVD có độ phức tạp rất lớn. Và mỗi khi thêm dữ
liệu chuỗi thời gian mới vào tập dữ liệu chuỗi thời gian cũ ta phải chạy lại giải
9


×