Tải bản đầy đủ (.pdf) (84 trang)

Phát hiện motif trên dữ liệu chuỗi thời gian dựa vào giải thuật sequitur

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.68 MB, 84 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƢỜNG ĐẠI HỌC BÁCH KHOA
----------------------------------

NGUYỄN NGỌC PHIÊN

PHÁT HIỆN MOTIF TRÊN DỮ LIỆU CHUỖI THỜI
GIAN DỰA VÀO GIẢI THUẬT SEQUITUR

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, tháng 06 năm 2017


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƢỜNG ĐẠI HỌC BÁCH KHOA
----------------------------------

NGUYỄN NGỌC PHIÊN

PHÁT HIỆN MOTIF TRÊN DỮ LIỆU CHUỖI THỜI
GIAN DỰA VÀO GIẢI THUẬT SEQUITUR

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01


LUẬN VĂN THẠC SĨ

HƢỚNG DẪN KHOA HỌC: PGS. TS. DƢƠNG TUẤN ANH

THÀNH PHỐ HỒ CHÍ MINH, tháng 06 năm 2017


CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI
TRƢỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM
Cán bộ hƣớng dẫn khoa học: PGS. TS. Dƣơng Tuấn Anh

Cán bộ chấm nhận xét 1: TS. Phạm Văn Chung

Cán bộ chấm nhận xét 2: TS. Lê Văn Quốc Anh

Luận văn thạc sĩ đƣợc bảo vệ tại: Trƣờng đại học Bách Khoa – ĐHQG
TP.HCM, ngày 18 tháng 07 năm 2017.
Thành phần hội đồng đánh giá luận văn thạc sỹ gồm:
1. PGS.TS. Quản Thành Thơ – Chủ tịch.
2. TS. Nguyễn An Khƣơng – Thƣ ký.
3. TS. Phạm Văn Chung – Phản biện 1.
4. TS. Lê Văn Quốc Anh – Phản biện 2.
5. TS. Trần Tuấn Anh – Ủy viên.
Xác nhận của chủ tịch hội đồng đánh giá luận văn và Trƣởng khoa quản lý
chuyên ngành sau khi luận văn đã đƣợc sữa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNG

TRƢỞNG KHOA………………



ĐẠI HỌC QUỐC GIA TP.HCM
TRƢỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN NGỌC PHIÊN......................... MSHV: 1570010.......
Ngày, tháng, năm sinh: 16/11/1992 ...................................... Nơi sinh:Quảng Ngãi
Chuyên ngành: Khoa học máy tính ...................................... Mã số : 60.48.01.01
I. TÊN ĐỀ TÀI: Phát hiện motif trên dữ liệu chuỗi thời gian dựa vào giải thuật
Sequitur ......................................................................................................................
II. NHIỆM VỤ VÀ NỘI DUNG: ...............................................................................
……………………………………………………………………………………
…...…………………………………………………………………………………..
III. NGÀY GIAO NHIỆM VỤ : 16/01/2017............................................................
IV. NGÀY HOÀN THÀNH NHIỆM VỤ : 18/06/2017 ...........................................
V. CÁN BỘ HƢỚNG DẪN : PGS. TS. DƢƠNG TUẤN ANH...............................
.................................................................................................................................
Tp. HCM, ngày . . . . tháng .. . . năm 2017.
CÁN BỘ HƢỚNG DẪN
(Họ tên và chữ ký)

PGS. TS. Dƣơng Tuấn Anh

TRƢỞNG KHOA…………………
(Họ tên và chữ ký)



LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành và sâu sắc đến PGS.TS. Dƣơng Tuấn Anh,
ngƣời Thầy đã tận tình chỉ bảo tơi trong suốt q trình thực hiện luận văn và tạo
mọi điều kiện tốt nhất để tơi có thể hồn thành luận văn này.
Tơi xin cảm ơn quý thầy cô ở trƣờng Đại học Bách Khoa đã truyền đạt các
kiến thức cần thiết trong quá trình học tập tại trƣờng.
Tơi xin cảm ơn gia đình, bạn bè và đồng nghiệp đã động viên và tạo mọi điều
kiện thuận lợi để tơi có thể tiếp tục theo đuổi việc học tập và nghiên cứu.

i


TÓM TẮT LUẬN VĂN
Việc khai phá dữ liệu chuỗi thời gian đã và đang thu hút rất nhiều sự nghiên
cứu trên thế giới. Trong đó việc nghiên cứu phát hiện motif rất hữu ích cho các
cơng việc khai phá dữ liệu chuỗi thời gian.
Một trong những giải thuật phát hiện motif đƣợc dùng phổ biến là chiếu
ngẫu nhiên (Random Projection). Phƣơng pháp này đƣợc thực hiện đơn giản, dễ
tiếp cận. Tuy nhiên phƣơng pháp này có nhƣợc điểm chạy rất lâu với dữ liệu chuỗi
thời gian có kích thƣớc lớn. Ngoài ra, hầu hết các giải thuật phát hiện motif đòi hỏi
phải cung cấp tham số chiều dài motif cho trƣớc, đây chính là một trong những trở
ngại lớn khi sử dụng các giải thuật phát hiện motif.
Luận văn này sẽ dựa vào một tiếp cận mới để phát hiện motif mà không cần
xác định trƣớc tham số chiều dài của motif. Cách tiếp cận này dựa vào giải thuật
Sequitur. Luận văn cũng đề xuất sử dụng các độ dài motif tìm đƣợc từ cách tiếp cận
này để làm tham số chiều dài cho các giải thuật phát hiện motif khác, đồng thời áp
dụng các motif tìm đƣợc để phát hiện tính chu kì trên dữ liệu chuỗi thời gian.

ii



ABSTRACT
Time series data mining has been attracted a huge range of reseach in the world,
in which the invention and discovery of motifs are very useful for time series data
mining.
Random Projection is one of the most common methods that are used in the
motif detection algorithms. This method is simple and accessible. However, this
kind of work has some weaknesses such as processing time, and large size data
cosumming. Moreover, most of the algorithms require a given length parameter
motif. That is one of the major obstacles of motif detection algorithms.
This thesis applies a new approach which is based on the Sequitur algorithm to
detect motif without identifying pre-length parameter of the motif. Besides, the use
of motif length delivered from this approach for other motif detection algorithms is
suggested, and detects the period on time series data.

iii


LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác
nhƣ đã ghi rõ trong luận văn, các cơng việc trình bày trong luận văn là do chính tơi
thực hiện và chƣa có phần nội dung nào của luận văn này đƣợc nộp để lấy một bằng
cấp ở trƣờng này hoặc trƣờng khác.
Ngày 07 tháng 06 năm 2017

Nguyễn Ngọc Phiên

iv



MỤC LỤC
LỜI CẢM ƠN ...................................................................................................... i
TÓM TẮT LUẬN VĂN ..................................................................................... ii
ABSTRACT ...................................................................................................... iii
LỜI CAM ĐOAN .............................................................................................. iv
CHƢƠNG 1: GIỚI THIỆU ĐỀ TÀI .................................................................. 1
1.1.

Dữ liệu chuỗi thời gian ...........................................................................1

1.2.
1.3.

Khai phá thông tin trên dữ liệu chuỗi thời gian ......................................1
Phát hiện motif trên chuỗi dữ liệu thời gian ...........................................3

1.4.
1.5.
1.6.

Mục tiêu và giới hạn của đề tài ...............................................................4
Những kết quả đạt đƣợc ..........................................................................5
Cấu trúc của luận văn..............................................................................6

CHƢƠNG 2: CƠ SỞ LÝ THUYẾT ................................................................... 7
2.1. Một số khái niệm cơ bản .............................................................................7
2.1.1. Chuỗi thời gian (Time series) ..............................................................7
2.1.2. Chuỗi con (Subsequence) ....................................................................7
2.1.3. Cửa sổ trƣợt (Slide window) ...............................................................8
2.1.4. Trùng khớp (Match) ............................................................................8

2.1.5. Trùng khớp không tầm thƣờng (Non-Self Match) ..............................8
2.1.6. K-motif .................................................................................................8
2.1.7. Chu kì ..................................................................................................9
2.2. Các cơng trình về độ đo tƣơng tự ..............................................................10
2.2.1. Độ đo Minkowski ..............................................................................10
2.2.2. Độ đo xoắn thời gian động (Dynamic Time Warping- DTW) ..........11
2.3. Các cơng trình về biểu diễn chuỗi thời gian .............................................13
2.3.1. Phƣơng pháp xấp xỉ gộp từng đoạn (PAA) .......................................14
2.3.2. Phƣơng pháp xấp xỉ gộp từng đoạn mở rộng EPAA (Extended PAA)
...........................................................................................................................16
2.3.3. Phép xấp xỉ gộp ký hiệu hóa SAX.....................................................17

v


2.3.4. Phƣơng pháp xấp xỉ gộp ký hiệu hoá mở rộng ESAX (Extended
SAX) .................................................................................................................22
2.4. Kết luận .....................................................................................................24
CHƢƠNG 3: TỔNG THUẬT CÁC CƠNG TRÌNH LIÊN QUAN ................ 25
3.1. Phát hiện 1-Motif dựa vào giải thuật Brute Force.....................................25
3.2. Phát hiện Motif dựa vào giải thuật Random Projecttion ...........................26
3.3. Phát hiện Motif dựa vào giải thuật Sequitur ..............................................28
3.3.1 Giải thuật Sequitur ..............................................................................28
3.3.2 Phát hiện motif dựa vào giải thuật Sequitur .......................................31
CHƢƠNG 4: PHƢƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ .............................. 33
4.1 Đặt vấn đề...................................................................................................33
4.2 Hƣớng giải quyết ........................................................................................34
4.2.1. Thu giảm số theo phép biến đổi EPAA .............................................34
4.2.2. Rời rạc hoá dữ liệu theo phép biến đổi ESAX ..................................34
4.2.3. Xây dựng phƣơng pháp đề xuất dựa vào giải thuật Sequitur ............34

4.2.4. Ƣớc lƣợng chiều dài 1-motif .............................................................35
4.2.5. Phát hiện tính chu kì dựa vào motif ...................................................36
CHƢƠNG 5: THỰC NGHIỆM ........................................................................ 39
5.1. Thực nghiệm 1: so sánh kết quả motif của giải thuật Sequitur trên phép
biến đổi SAX và ESAX .........................................................................................40
5.1.1. Tập dữ liệu ECG 3500 điểm ..............................................................40
5.1.2. Tập dữ liệu ECG 14000 điểm ............................................................41
5.1.3. Tập dữ liệu RIVER 7500 điểm ..........................................................41
5.1.4. Tập dữ liệu WINGDING 2500 điểm .................................................42
5.1.5. Dữ liệu ERP 10120 điểm ...................................................................43
5.2. Thực nghiệm 2: ƣớc lƣợng độ dài 1-motif và phát hiện 1-motif ..............44
5.2.1. Ƣớc lƣợng độ dài 1-motif và phát hiện 1-motif ................................44
5.2.2. Chất lƣợng motif................................................................................54
5.2.3. Thời gian thực thi ..............................................................................58
5.2.4. Kết luận..............................................................................................60
5.3.

Thực nghiệm 3: Ứng dụng phát hiện chu kì dựa vào motif ..................60
vi


5.3.1. Dữ liệu điện tâm đồ ECG 14000 điểm ..............................................60
5.3.2. Dữ liệu điện tâm đồ ECG 7000 điểm ................................................61
5.3.3. Dữ liệu dịng chảy RIVER 7500 điểm ..............................................61
5.3.4. Dữ liệu cơng nghiệp WINDING 5990 điểm .....................................62
CHƢƠNG 6: KẾT LUẬN ................................................................................ 63
6.1. Tổng kết.....................................................................................................63
6.2. Những đóng góp của đề tài .......................................................................64
6.3. Hƣớng phát triển .......................................................................................64
TÀI LIỆU THAM KHẢO ................................................................................ 65

PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT ...........................A
LÝ LỊCH TRÍCH NGANG ................................................................................ C

vii


DANH SÁCH BẢNG VÀ HÌNH ẢNH
Hình 1.1. Dữ liệu điện tâm đồ ............................................................................ 1
Bảng 1.1. Cách tiếp cận chung cho các nhiệm vụ khai phá dữ liệu ................... 3
Hình 1.2. Một minh hoạ chuỗi con motif ........................................................... 4
Hình 1.3. Một minh hoạ chuỗi con bất thƣờng .................................................. 4
Hình 2.1. Một minh hoạ về chuỗi con ................................................................ 7
Hình 2.2. Chuỗi C và M khớp với nhau ............................................................. 8
Hình 2.3. Khoảng cách hai motif < 2R (A); Khoảng cách hai motif > 2R (B) ([8])
.................................................................................................................................. 9
Hình 2.4. Minh hoạ sự khác nhau giữa hai độ đo Euclid và DTW .................. 12
Hình 2.5. Một ví dụ đƣờng xoắn [5] ................................................................. 13
Hình 2.6. Phƣơng pháp biểu diễn PAA với n = 128, w=8 ([7]) ....................... 15
Hình 2.7. Vài điểm quan trọng bị mất khi chỉ biểu diễn bằng PAA [1] ........... 16
Hình 2.8. Minh hoạ các vị trí Pmin, Pmax, Pmid [1] ....................................... 17
Hình 2.9. Phƣơng pháp chuẩn hóa trung bình zero [12] .................................. 18
Hình 2.10. Bảng thống kê dùng để tra những điểm ngắt theo phân bố Gauss với
số vùng phân bố từ 3 đến 10. ([7]) ......................................................................... 19
Hình 2.11. Minh họa về rời rạc hóa dữ liệu ([7]) ............................................. 20
Hình 2.12. Minh họa 3 dạng biểu diễn chuỗi thời gian và các hàm tính khoảng
cách tƣơng ứng. A) Chuỗi thời gian ban đầu và hàm tính khoảng cách Euclid. B)
Dạng biểu diễn PAA của chuỗi thời gian và hàm tính khoảng cách DR. C) Dạng
biểu diễn SAX và hàm tính khoảng cách MINDIST ([7]) ..................................... 22
Hình 2.13. Dữ liệu tài chính đƣợc biểu diễn bằng ESAX ([1]) ........................ 23
Bảng 2.1. Trung bình kết quả tìm kiếm trên tập dữ liệu 5000, với kích thƣớc tập

ký tự alphabetsize = 6, số chiều thu giảm của SAX là 16 và số chiều thu giảm của
ESAX là 48 [1] ....................................................................................................... 24
Hình 2.14. Minh hoạ tìm kiếm bằng phép biến đổi SAX và ESAX, (a) chuỗi cần
tìm kiếm, (b) (c) các kết quả đƣợc tìm thấy bởi ESAX, (d) (e) (f) (i) (j) các kết quả
đƣợc tìm thấy bởi SAX [1]..................................................................................... 24
Bảng 3.1. Giải thuật Brute Force phát hiện 1- Motif [8] .................................. 26
Hình 3.1. Bảng

chứa tất cả các chuỗi con từ cửa sổ trƣợt ............................. 27

Hình 3.2. Minh họa việc chiếu ngẫu nhiên lên cột 1 và 2, cập nhật vào

28

Hình 3.3. Minh họa việc chiếu ngẫu nhiên lên cột 2 và 4, cập nhật vào

28

Bảng 3.2. Ví dụ về giải thuật Sequitur ............................................................. 30
viii


Bảng 3.3. Giải thuật Sequitur [8] ...................................................................... 30
Bảng 4.1. Ví dụ về giải thuật Sequitur ............................................................. 34
Bảng 4.2. Giải thuật phát hiện chu kì [15] ....................................................... 37
Bảng 4.3. Giải thuật tính chu kì dựa vào motif [15]......................................... 38
Hình 5.1. Biểu diễn motif của giải thuật Sequitur_SAX trên dữ liệu ECG. .... 40
Hình 5.2. Biểu diễn motif của giải thuật Sequitur_ESAX trên dữ liệu ECG. .. 40
Hình 5.3. Biểu diễn motif của giải thuật Sequitur_SAX trên dữ liệu ECG. .... 41
Hình 5.4. Biểu diễn motif của giải thuật Sequitur_ESAX trên dữ liệu ECG. .. 41

Hình 5.5. Biểu diễn motif của giải thuật Sequitur_SAX trên dữ liệu RIVER. 42
Hình 5.6. Biểu diễn motif của giải thuật Sequitur_ESAX trên dữ liệu RIVER.42
Hình 5.7. Biểu diễn motif của giải thuật Sequitur_SAX trên dữ liệu WINDING.
................................................................................................................................ 42
Hình 5.8. Biểu diễn motif của giải thuật Sequitur_ESAX trên dữ liệu
WINDING. ............................................................................................................. 43
Hình 5.9. Biểu diễn motif của giải thuật Sequitur_SAX trên dữ liệu ERP. ..... 43
Hình 5.10. Biểu diễn motif của giải thuật Sequitur_ESAX trên dữ liệu ERP.. 44
Bảng 5.1. So sánh kết quả số lƣợng motif tìm thấy bởi Sequitur_SAX và
Sequitur_ESAX ...................................................................................................... 44
Hình 5.11. Kết quả mọi motif tìm thấy của giải thuật Sequitur_ESAX của dữ
liệu ECG ................................................................................................................. 45
Bảng 5.2. Ví dụ một phần luật văn phạm thu đƣợc của dữ liệu ECG 3500 điểm
................................................................................................................................ 46
Hình 5.12. Kết quả 1-motif tìm thấy của giải thuật RP_SAX của dữ liệu ECG46
Hình 5.13. Kết quả mọi motif tìm thấy của giải thuật Sequitur_ESAX của dữ
liệu ECG ................................................................................................................. 47
Hình 5.14. Kết quả 1-motif tìm thấy của giải thuật RP_SAX của dữ liệu ECG47
Hình 5.15. Kết quả mọi motif tìm thấy của giải thuật Sequitur_ESAX của dữ
liệu ECG ................................................................................................................. 48
Hình 5.16. Kết quả 1-motif tìm thấy của giải thuật RP_SAX của dữ liệu ECG48
Hình 5.17. Kết quả mọi motif tìm thấy của giải thuật Sequitur_ESAX của dữ
liệu ECG ................................................................................................................. 48
Hình 5.18. Kết quả 1-motif tìm thấy của giải thuật RP_SAX của dữ liệu ECG49
Hình 5.19. Kết quả mọi motif tìm thấy của giải thuật Sequitur_ESAX của dữ
liệu STOCK ............................................................................................................ 49

ix



Hình 5.20. Kết quả 1-motif tìm thấy của giải thuật RP_SAX của dữ liệu STOCK
................................................................................................................................ 50
Hình 5.21. Kết quả mọi motif tìm thấy của giải thuật Sequitur_ESAX của dữ
liệu STOCK ............................................................................................................ 50
Hình 5.22. Kết quả 1-motif tìm thấy của giải thuật RP_SAX của dữ liệu STOCK
................................................................................................................................ 50
Hình 5.23. Kết quả mọi motif tìm thấy của giải thuật Sequitur_ESAX của dữ
liệu WINDING ....................................................................................................... 51
Hình 5.24. Kết quả 1-motif tìm thấy của giải thuật RP_SAX của dữ liệu
WINDING .............................................................................................................. 51
Hình 5.25. Kết quả mọi motif tìm thấy của giải thuật Sequitur_ESAX của dữ
liệu ERP.................................................................................................................. 52
Hình 5.26. Kết quả 1-motif tìm thấy của giải thuật RP_SAX của dữ liệu ERP52
Hình 5.27. Kết quả mọi motif tìm thấy của giải thuật Sequitur_ESAX của dữ
liệu EEG ................................................................................................................. 53
Hình 5.28. Kết quả 1-motif tìm thấy của giải thuật RP_SAX của dữ liệu EEG53
Hình 5.29. Kết quả mọi motif tìm thấy của giải thuật Sequitur_ESAX của dữ
liệu RIVER ............................................................................................................. 53
Hình 5.30. Kết quả 1-motif tìm thấy của giải thuật RP_SAX của dữ liệu RIVER
................................................................................................................................ 54
Hình 5.31. Motif tìm đƣợc với giải thuật Sequitur_ESAX trên dữ liệu ECG. . 54
Hình 5.32. 1-motif tìm đƣợc với giải thuật RP_SAX trên dữ liệu ECG. ......... 55
Hình 5.33. Motif tìm đƣợc với giải thuật Sequitur_ESAX trên dữ liệu ERP. . 55
Hình 5.34. 1-motif tìm đƣợc với giải thuật RP_SAX trên dữ liệu ERP. .......... 56
Hình 5.35. Motif tìm đƣợc với giải thuật Sequitur_ESAX trên dữ liệu RIVER.56
Hình 5.36. 1-motif tìm đƣợc với giải thuật RP_SAX trên dữ liệu RIVER. ..... 57
Hình 5.37. Motif tìm đƣợc với giải thuật Sequitur_ESAX trên dữ liệu
WINDING. ............................................................................................................. 57
Hình 5.38. 1-motif tìm đƣợc với giải thuật RP_SAX trên dữ liệu WINDING. 58
Bảng 5.3. Thời gian thực thi của giải pháp đề xuất và giải thuật RP. ............. 59

Hình 5.39. Kết quả đánh giá thời gian thực thi (msec) trên các tập dữ liệu. .... 59
Hình 5.40. Kết quả phát hiện chu kì trên tập dữ liệu ECG 14000 điểm........... 60
Hình 5.41. Kết quả phát hiện chu kì trên tập dữ liệu ECG 7000 điểm. ........... 61
Hình 5.42. Kết quả phát hiện chu kì trên tập dữ liệu RIVER 7500 điểm. ....... 61

x


Hình 5.43. Kết quả phát hiện chu kì trên tập dữ liệu WINDING 5990 điểm. . 62

xi


CHƢƠNG 1: GIỚI THIỆU ĐỀ TÀI
1.1.

Dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian là dữ liệu đo đạc đƣợc một cách tuần tự theo thời gian.
Đối tƣợng dữ liệu có thể có hai hay nhiều chiều nhƣng trong đó phải có một chiều
là thời gian. Có rất nhiều dữ liệu có yếu tố thời gian nhƣ dữ liệu về giá chứng
khốn, điện tâm đồ (Hình 1.1), mực nƣớc, lƣu lƣợng truyền trên mạng, dữ liệu tài
chính, thiên văn, thời tiết, mức độ ơ nhiễm mơi trƣờng, …

Hình 1.1. Dữ liệu điện tâm đồ

Dữ liệu chuỗi thời gian thƣờng đƣợc đo đạc liên tục trong thời gian dài nên
thƣờng có kích thƣớc rất lớn và gia tăng nhanh. Các giải thuật khai phá dữ liệu
chuỗi thời gian thƣờng có chi phí rất lớn về thời gian thực thi và tài nguyên bộ nhớ.
Do đó việc nghiên cứu các phƣơng pháp hiệu quả để khai phá các dữ liệu chuỗi thời

gian rất quan trọng và thu hút rất nhiều sự quan tâm.

1.2.

Khai phá thông tin trên dữ liệu chuỗi thời gian

Việc khai phá dữ liệu chuỗi thời gian đã và hiện thu hút rất nhiều sự nghiên cứu
trên thế giới. Dữ liệu chuỗi thời gian xuất hiện rất nhiều trong các lĩnh vực trong
công nghệ hiện nay, cụ thể là một số lĩnh vực nghiên cứu sau:

1


 Lập chỉ mục (Indexing): cho một chuỗi thời gian truy vấn Q, và một hàm tính
độ tƣơng tự hoặc độ sai biệt D(Q,C), tìm những chuỗi thời gian tƣơng tự nhất
với Q trong cơ sở dữ liệu nào đó.
 Gom cụm (Clustering): tìm những sự phân nhóm, gom cụm dữ liệu theo tự
nhiên của những chuỗi thời gian trong cơ sở dữ liệu thơng qua một hàm tính
độ tƣơng tự D(Q,C).
 Phân lớp (Classification): cho một dữ liệu chuỗi thời gian chƣa gán nhóm Q,
gán nó vào một trong những nhóm dữ liệu đã đƣợc định nghĩa trƣớc.
 Tổng hợp (Summarization): cho chuỗi thời gian Q có n điểm dữ liệu trong
đó n là con số rất lớn, tạo một sự xấp xỉ của Q để vừa khít theo một giới hạn
nào đó (chẳng hạn màn hình máy tính, trang giấy…) sao cho vẫn duy trì
những đặc trƣng bản chất của nó.
 Phát hiện bất thường (Abnormaly detection): cho một chuỗi thời gian Q,
Khai phá bất thƣờng (anomaly) là tìm một chuỗi con khác biệt nhất với tất cả
các chuỗi con khác trong dữ liệu chuỗi thời gian.
 Phát hiện Motif (Motif detection) cho một chuỗi thời gian Q, motif là chuỗi
con chƣa biết trƣớc xuất hiện nhiều lần trong một chuỗi dữ liệu chuỗi thời

gian dài hơn. Khái niệm này đƣợc tổng qt hóa thành bài tốn tìm kiếm kmotif, với kết quả cần tìm là k nhóm motif đầu tiên. Phát hiện motif trong dữ
liệu chuỗi thời gian là một công việc quan trọng trong khai phá dữ liệu chuỗi
thời gian.
Vì dữ liệu chuỗi thời gian là rất lớn, khơng lƣu trữ đủ trong bộ nhớ chính, do đó
cần rất nhiều lần truy cập bộ nhớ ngồi, gây ra hiện tƣợng thắt cổ chai cho các
nhiệm vụ khai phá dữ liệu (dù là hiện nay tốc độ truy xuất đĩa đã đƣợc cải thiện
đáng kể, nhƣng tốc độ gia tăng kích thƣớc dữ liệu chuỗi thời gian là nhanh hơn rất
nhiều lần). Để hạn chế tối đa số lần truy cập đĩa ngƣời ta thƣờng dùng xấp xỉ các
chuỗi dữ liệu sao cho vừa khớp với bộ nhớ chính. Một khung chung để thực hiện
các tác vụ khai phá dữ liệu chuỗi thời gian đƣợc đề ra ở [1]. Cách tiếp cận cơ bản
này đƣợc chỉ ra trong Bảng 1.1 nhƣ sau:

2


1.

Tạo một sự xấp xỉ dữ liệu để nó vừa khớp với bộ nhớ chính, nhƣng vẫn
duy trì các đặc trƣng cần quan tâm.

2.

Giải quyết bài toán với dữ liệu xấp xỉ trong bộ nhớ chính.

3.

Truy cập dữ liệu gốc để sau đó kiểm lời giải ở bƣớc 2, bổ sung lời giải
sao cho chính xác với dữ liệu gốc.
Bảng 1.1. Cách tiếp cận chung cho các nhiệm vụ khai phá dữ liệu


Hiệu quả của khung chung này phụ thuộc nhiều vào chất lƣợng của phƣơng
pháp mà ta xấp xỉ ở bƣớc 1. Nếu ta xấp xỉ càng gần với dữ liệu gốc thì lời giải mà ta
có đƣợc trong bộ nhớ chính sẽ càng gần với lời giải có đƣợc với dữ liệu gốc và dẫn
đến số lần truy cập đĩa ngồi ở bƣớc 3 là càng ít. Do vậy nên đã có nhiều nghiên
cứu về việc xấp xỉ và để so sánh các phƣơng pháp xấp xỉ.

1.3.

Phát hiện motif trên chuỗi dữ liệu thời gian

Phát hiện motif là tìm ra những chuỗi con tƣơng tự nhau xuất hiện lặp đi lặp lại
trong dữ liệu chuỗi thời gian (Hình 1.2). Phát hiện bất thƣờng (abnormaly) là tìm
một chuỗi con khác biệt nhất với tất cả các chuỗi con khác trong dữ liệu chuỗi thời
gian (Hình 1.3).
Trong khi phát hiện bất thƣờng kết quả trả về đòi hỏi phải là kết quả chính xác
thì phát hiện motif kết quả trả về có thể là một kết quả xấp xỉ. Hai hƣớng tiếp cận
chính của các giải thuật phát hiện motif là:
 Phát hiện motif chính xác (exact motif): là việc ta thực hiện trực tiếp trên dữ
liệu thô thông qua giải thuật brute-force làm nền tảng từ đó có thể cải tiến
giải thuật bằng cách áp dụng một số heuristic nhằm giảm độ phức tạp cho
giải thuật cho giải thuật. Hầu hết các giải thuật theo hƣớng này có tính đúng
và tính đầy đủ cao tuy nhiên tính hiệu quả khơng cao và chỉ phù hợp với dữ
liệu có kích thƣớc nhỏ.
 Phát hiện motif xấp xỉ (approximate motif): dữ liệu chuỗi thời gian sẽ đƣợc
xử lý trƣớc khi thực hiện việc khai phá nhƣ thu giảm số chiều, rời rạc hóa dữ

3


liệu. Trong q trình khai phá dữ liệu có thể áp dụng một số tính chất dựa

trên xác suất, tính ngẫu nhiên. Hƣớng tiếp cận này giúp tăng tính hiệu quả
của giải thuật trong khi tính đúng và tính đầy đủ vẫn có thể chấp nhận đƣợc
đồng thời nó phù hợp với dữ liệu có kích thƣớc lớn.

Hình 1.2. Một minh hoạ chuỗi con motif

Hình 1.3. Một minh hoạ chuỗi con bất thƣờng

1.4.

Mục tiêu và giới hạn của đề tài

Mục tiêu chính của luận văn là nghiên cứu phƣơng pháp phát hiện motif trên dữ
liệu chuỗi thời gian. Đề tài này dựa trên nghiên cứu Yuan Li và Jessica Lin đề xuất
năm 2010 và 2012 [11, 17] về cách sử dụng suy diễn văn phạm của giải thuật
Sequitur để phát hiện motif trên dữ liệu chuỗi thời gian. Tuy nhiên nhóm tác giả bài
báo trên chƣa tiến hành thực nghiệm, so sánh với các giải thuật phát hiện motif
trƣớc đó, cũng nhƣ nhóm tác giả chỉ tiến hành thực nghiệm trên 02 tập dữ liệu là
ECG và WINDING. Do đó, để có cái nhìn khách quan hơn về phƣơng pháp phát
hiện motif này chúng tôi tiến hành thực hiện với các nội dung sau:

4


-

Tìm hiểu về phép gộp xấp xỉ ký hiệu hóa SAX và phép gộp xấp xỉ kí hiệu
hóa mở rộng ESAX.

-


Tìm hiểu về giải thuật Sequitur với phép biến đổi SAX và ESAX.

-

Đề xuất phƣơng pháp phát hiện motif trên dữ liệu chuỗi thời gian dựa vào
giải thuật Sequitur và phép biến đổi ESAX.

-

Trực quan hóa kết quả phát hiện motif thu đƣợc.

-

Chúng tôi tiến hành thực nghiệm trên nhiều tập dữ liệu, so sánh giữa các
phƣơng pháp phát hiện motif với nhau: giải thuật Sequitur với phép biến
đổi SAX và ESAX để lựa chọn ra phƣơng pháp tiếp cận phù hợp. Ứng
dụng kết quả độ dài motif thu đƣợc từ phƣơng pháp đề xuất để xác định
tham số độ dài motif cho các giải thuật phát hiện motif khác nhƣ giải
thuật chiếu ngẫu nhiên RP. Sau đó chúng tơi so sánh, đánh giá kết quả đạt
đƣợc giữa giải thuật Sequitur với phép biến đổi ESAX và giải thuật chiếu
ngẫu nhiên RP.

-

Ứng dụng phát hiện motif tìm đƣợc để phát hiện tính chu kì trên dữ liệu
chuỗi thời gian.

1.5.


Những kết quả đạt đƣợc

Trong giới hạn thời gian làm luận văn, chúng tôi đã hiện thực hệ thống phát
hiện motif dữ liệu chuỗi thời gian, gồm 5 phần chính: phần tiền xử lý dữ liệu, phần
rời rạc hoá chuỗi dữ liệu chuỗi thời gian, phần các giải thuật phát hiện motif, phần
trực quan hóa dữ liệu và phần ứng dụng để tìm tính chu kì trên dữ liệu chuỗi thời
gian.
Trong phần thứ nhất, dữ liệu gốc sau khi đã đƣợc chuẩn hoá và qua phép
biến đổi thu giảm số chiều PAA, qua phép biến đổi thu giảm số chiều mở rộng
EPAA chúng tơi trích ra các chuỗi con từ tập dữ liệu tập dữ liệu đã đƣợc thu giảm
đó và tạo thành tập dữ liệu các chuỗi con.
Trong phần thứ hai, chúng tơi hiện thực hai phƣơng pháp rời rạc hóa dữ liệu
chuỗi thời gian là SAX và ESAX từ tập dữ liệu đã thu giảm số chiều PAA và thu
giảm số chiều mở rộng EPAA.

5


Phần thứ ba, chúng tôi hiện thực các giải thuật dùng để phát hiện motif giải
thuật Random Projection trên phép biến đổi SAX, phƣơng pháp đề xuất dựa vào
giải thuật Sequitur trên phép biến đổi ESAX để phát hiện motif.
Phần thứ tƣ, chúng tơi trực quan hóa kết quả thu đƣợc.
Phần cuối cùng, chúng tôi ứng dụng kết quả phát hiện motif để hiện thực
việc phát hiện tính chu kì trên dữ liệu chuỗi thời gian.
Hệ thống của chúng tôi chạy thực nghiệm với các bộ dữ liệu khác để đánh
giá, so sánh độ hiệu quả giữa giải thuật chiếu ngẫu nhiên với phép biến đổi SAX,
giải thuật Sequitur với phép biến đổi SAX và phƣơng pháp đề xuất dựa vào giải
thuật Sequitur trên phép biến đổi ESAX để áp dụng vào bài toán phát hiện motif.
Qua thực nghiệm, chúng tôi thấy phƣơng pháp đề xuất dựa vào giải thuật Sequitur
trên phép biến đổi ESAX cho kết quả motif với các độ dài khác nhau và nhanh hơn

các giải thuật truyền thống, từ đó chúng tơi ứng dụng kết quả độ dài motif thu đƣợc
từ phƣơng pháp đề xuất để làm tham số độ dài motif cho các giải thuật phát hiện
motif khác. Cũng dựa vào việc phát hiện motif này, chúng tơi cũng đã ứng dụng để
phát hiện tính chu kì trên dữ liệu chuỗi thời gian với kết quả khá chính xác.

1.6.

Cấu trúc của luận văn

Chƣơng 1, giới thiệu vấn đề, sự cần thiết và phƣơng thức thực hiện trên dữ liệu
chuỗi thời gian.
Chƣơng 2, trình bày tổng quan các khái niệm cơ bản về dữ liệu thời gian, các
cơng trình liên quan về các hàm tính độ tƣơng tự, các phƣơng pháp thu giảm số
chiều, các phƣơng pháp rời rạc hóa dữ liệu chuỗi thời gian
Chƣơng 3, làm rõ cơ sở lý thuyết nền tảng của các phƣơng pháp biểu diễn và các
giải thuật đƣợc chọn sau khi khảo sát các cơng trình có liên quan ở chƣơng 2.
Chƣơng 4, trình bày hệ thống phát hiện motif trên dữ liệu chuỗi thời gian của
chúng tôi.
Chƣơng 5, các kết quả thực nghiệm đƣợc công bố, so sánh và chạy thực nghiệm
hệ thống trên các tập dữ liệu khác nhau.
Chƣơng 6, một số kết luận và hƣớng mở rộng của đề tài.

6


CHƢƠNG 2: CƠ SỞ LÝ THUYẾT
Chƣơng này sẽ trình bày một số khái niệm cơ bản đựợc sử dụng trong việc phát
hiện motif.

2.1. Một số khái niệm cơ bản

Dữ liệu chuỗi thời gian là một tổ hợp tuần tự của những mẫu dữ liệu đo đạc
đƣợc một cách liên tục theo thời gian. Một mẫu dữ liệu chuỗi thời gian có thể là
một giá trị đơn (là một con số thực), thì ta gọi là chuỗi thời gian một kênh (singlechanel time series) hoặc có thể là một véctơ các giá trị (véc tơ những con số thực),
thì đƣợc gọi là chuỗi thời gian nhiều kênh (multi-chanel time series). Dữ liệu chuỗi
thời gian một kênh ta có thể thấy trong dữ liệu chứng khoán, dữ liệu điện tim đồ, dữ
liệu năng lƣợng ... Dữ liệu nhiều kênh ta thể thấy trong dữ liệu (motion capture) ghi
nhận nhiều góc độ khác nhau của một hành động. Trong luận văn này chúng tôi chỉ
làm việc trên dữ liệu một kênh, đồng thời giả sử rằng tất cả những mẫu giá trị đƣợc
đo đạc liên tục tại các thời khoảng bằng nhau.
2.1.1. Chuỗi thời gian (Time series)
Chuỗi thời gian (Time Series) T = t1, t2… tm là tập hợp có thứ tự các quan sát
đơn biến hoặc đa biến đƣợc đo sau những khoảng thời gian bằng nhau theo thời
gian.
2.1.2. Chuỗi con (Subsequence)
Cho một dữ liệu chuỗi thời gian T có chiều dài là n, một chuỗi con C ( Hình 2.1)
trong T có chiều dài w là một mẫu của những giá trị liên tục đƣợc trích từ T.
Vậy C = tp,….,tp+w-1 với 1 ≤ p ≤ n – w + 1

Hình 2.1. Một minh hoạ về chuỗi con

7


2.1.3. Cửa sổ trƣợt (Slide window)
Cho một dữ liệu chuỗi thời gian T có chiều dài n, một cửa sổ có kích thƣớc w do
ngƣời dùng định nghĩa (thƣờng w << n) sẽ trƣợt qua từng điểm giá trị trên chuỗi T,
kết quả là ta đƣợc một danh sách n-w+1 các chuỗi con có kích thƣớc w đƣợc rút
trích từ chuỗi T.
2.1.4. Trùng khớp (Match)
Cho một số thực R (thƣờng do ngƣời dùng định nghĩa) và một dữ liệu chuỗi thời

gian T chứa một chuỗi con C bắt đầu tại vị trí p và một chuỗi con M bắt đầu tại vị trí
q, nếu hàm tính khoảng cách từ C đến M ký hiệu D(C,M) ≤ R thì ta nói là chuỗi con
M khớp đƣợc với chuỗi con C (Hình 2.2)

Hình 2.2. Chuỗi C và M khớp với nhau

2.1.5. Trùng khớp không tầm thƣờng (Non-Self Match)
Cho chuỗi thời gian T chƣa một chuỗi con C có chiều dài n bắt đầu tại vị trí p
và khớp với chuỗi con M bắt đầu tại vị trí q , ta có thể nói M là một “trùng khớp
khơng tầm thƣờng” tại khoảng cách của Dist ( M , C ) nếu | p  q | n
2.1.6. K-motif
Cho một dữ liệu chuỗi thời gian T có chiều dài n, và một số thực R, motif quan
trọng nhất trong T (còn đƣợc gọi là 1- Motif) là chuỗi con C1 nào đó trong T có số
lƣợng chuỗi con khớp khơng tầm thƣờng với nó cao nhất. Motif quan trọng bậc k
(cịn gọi là k-motif) là chuỗi con Ck nào đó trong T có số lƣợng chuỗi con khớp
khơng tầm thƣờng với nó cao thứ k và phải thỏa mãn điều kiện D(Ck , Ci) > 2R, với
mọi 1 ≤ i ≤ k (Hình 2.3B là minh họa).
8


Định nghĩa này muốn nhấn mạnh rằng các chuỗi con trong tập các motif phải
tách biệt nhau. Điều này rất quan trọng vì nếu nhƣ hai motif mà có những chuỗi con
chung thì nó nên đƣợc xem là một motif (Hình 2.3A là minh họa).

Hình 2.3. Khoảng cách hai motif < 2R (A); Khoảng cách hai motif > 2R (B)
([8])

2.1.7. Chu kì
Định nghĩa 1: Đặt S = t0, t1…tn-1 là một chuỗi đại diện của chuỗi dữ liệu thời
gian có độ dài n, kí hiệu |S|=n. S đƣợc nói là có tính chu kì nếu S(t) = S(t+p), với t


 N, t ≥ 0, t < n-p, T là một chuỗi con của S sao cho T = t0, t1…tp-1, |T|=p, p ≥ 1 và
p ≤ n/2. Chuỗi con T nhỏ nhất đƣợc gọi là chu kì của S. Nếu khơng tìm ra đƣợc chu
kì T nào trong S, ta nói S khơng có tính chu kì. Ví dụ, nếu S = wxywxywxy, thì chu
kì T = wxy, p = 3.
Để rõ ràng, chúng ta không xem xét những chuỗi con có độ dài (m*p) là một chu
kì của S với m bất kì sao cho m ≠ 1 [15].
Định nghĩa 2: Đặt S là chuỗi có độ dài n trên bảng kí tự ∑. Gọi r là hàm sai số
đƣợc định nghĩa trên các chuỗi. S đƣợc gọi là có tính chu kì với sai số k trên T nếu
tồn tại một chuỗi T trên ∑ sao cho r(S, T)=k, r là đánh giá sai số T là chu kì của S.
Chuỗi T làm cho giá trị k nhỏ nhất đƣợc gọi là chu kì xấp xỉ của S [15].

9


2.2. Các cơng trình về độ đo tƣơng tự
Trong các bài tốn về dữ liệu chuỗi thời gian, việc tính mức độ tƣơng tự giữa hai
chuỗi con đóng vai trị rất quan trọng. Khi so sánh hai chuỗi con có tương tự với
nhau hay không ta phải dùng một phƣơng pháp để tính mức độ tƣơng tự giữa chúng
gọi là hàm khoảng cách. Nếu nhƣ khoảng cách giữa hai chuỗi con bằng khơng, ta
nói hai chuỗi con là giống hệt nhau. Nếu nhƣ khoảng cách giữa hai chuỗi con càng
lớn (càng xa) thì mức độ khác biệt của hai chuỗi con càng cao. Phƣơng pháp tính độ
đo trong luận văn này chỉ đề cập những phƣơng pháp tính độ đo trên hai chuỗi con
có chiều dài bằng nhau.
2.2.1. Độ đo Minkowski
Hầu hết các cơng trình đều dựa trên độ đo khoảng cách này. Khoảng cách
Minkowski đƣợc định nghĩa nhƣ sau:

Sim (X, Y) 


n

p

 (x

i

i 1

 yi ) p trong đó p=1.. 

Tuy p có thể có nhiều giá trị khác nhau nhƣng trong các nghiên cứu p thƣờng
nhận
{
Trong luận văn này chúng tôi sẽ sử dụng độ đo Euclid. Một số ƣu điểm và
nhƣợc điểm của phƣơng pháp này:
Ƣu điểm:
-

Quá trình tính tốn đơn giản và dễ dàng.

-

Phù hợp khi sử dụng các biến đổi DFT, DWT, PAA, APCA, SAX (các
phƣơng pháp biến đổi này sẽ đƣợc trình bày bên dƣới của chƣơng).

Nhƣợc điểm:
-


Nhạy cảm với nhiễu.

-

Không hiệu quả với dữ liệu đƣợc đo ở nhiều thang đo khác nhau.
10


×