Tải bản đầy đủ (.pdf) (77 trang)

Nhận diện motif trên dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.99 MB, 77 trang )

ĐẠI
Ạ HỌC
ỌC QUỐ
QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

Luận
ận vvăn Thạc sĩ Khoa học máy tính

Tên đề tài:

NHẬN
Ậ DIỆN
ỆN MOTIF TRÊN DỮ
Ữ LIỆU
ỆU CHUỖI
THỜI
ỜI GIAN D
DỰA VÀO ĐIỂM CỰC
ỰC TRỊ
TR
QUAN TRỌNG

Cán bộ hướng dẫn
Sinh viên thực hiện
MSSV

: PGS.TS. Dương Tuấn Anh
: Huỳnh Nguyễn Tín
: 09070469


TPHCM, tháng 07 năm 2012


ĐẠI HỌC QUỐC GIA TP. HCM CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

Độc Lập - Tự Do - Hạnh Phúc

----------------

---oOo--Tp. HCM, ngày. .. . tháng. .. . năm 2012.

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Huỳnh Nguyễn Tín………...................................Giới tính: Nam �/ Nữ �
Ngày, tháng, năm sinh: 22/12/1977......................................................Nơi sinh: Quảng Ngãi....
Chuyên ngành: Khoa học Máy tính………………………………………………………….
Khố: 2009……………………………………………………………………………………
1-TÊN ĐỀ TÀI:
NHẬN DẠNG MOTIF DỰA VÀO ĐIỂM CỰC TRỊ QUAN TRỌNG
.....................................................................................................................................
2-NHIỆM VỤ LUẬN VĂN:
.........................................................................................................................................................
...............................................................................................................................................................
...............................................................................................................................................................
............................................................................................................................................
3-NGÀY GIAO NHIỆM VỤ:
.........................................................................................................................................................
............................................................................................................................................

4-NGÀY HOÀN THÀNH NHIỆM VỤ:

……………………………………………………………………………………………………
……………………………………………………………………………………………………….
5-HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TS. Dương Tuấn Anh……………………
Nội dung và đề cương Luận Văn Thạc Sĩ đã được Hội Đồng Chuyên Ngành thông qua
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ kí)

CHỦ NHIÊM BỘ MƠN
QUẢN LÝ CHUN NGÀNH
(Họ tên và chữ kí)

PGS.TS Dương Tuấn Anh

TS. Đinh Đức Anh Vũ


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác như
đã ghi rõ trong luận văn, các cơng việc trình bày trong luận văn này do chính tơi
thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng
cấp ở trường này hoặc trường khác.

Ngày 01/07/2012

Huỳnh Nguyễn Tín

Huỳnh Nguyễn Tín – 09070469


ii


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

LỜI CẢM ƠN
Tôi xin gửi lời cám ơn chân thành và sâu sắc nhất đến PGS TS.Dương Tuấn
Anh, người Thầy đã không quản thời gian cơng sức ln tận tình chỉ bảo và hướng
dẫn tơi trong suốt thời gian tôi thực hiện luận văn này
Tôi xin cám ơn các q thầy cơ, những người đã gián tiếp và trực tiếp chỉ bảo và
hướng dẫn giúp tơi có những kiến thức cần thiết để thực hiện luận văn này. Qua đây
tôi cũng xin cám ơn các anh chị và các bạn trong cùng nhóm nghiên cứu đã giúp đỡ,
góp ý cho tơi trong suốt q trình làm luận văn.
Một lần nữa tôi xin gửi lời cám ơn chân thành đến tất cả mọi người.

Huỳnh Nguyễn Tín – 09070469

iii


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

TĨM TẮT LUẬN VĂN
Tìm kiếm motif của tập dữ liệu chuỗi thời gian là một trong những kỹ thuật phổ
biến trong việc khai phá tập dữ liệu chuỗi thời gian. Mục đích của việc nhận diện
motif là tìm ra các chuỗi con tương tự nhau trong chuỗi dữ liệu, từ đó nhận ra đặc
trưng cũng như đánh giá trên tập dữ liệu chuỗi thời gian.
Một trong những giải thuật nhận diện motif được áp dụng phổ biến là phương
pháp chiếu ngẫu nhiên - Random Projection Algorithm. Phương pháp chiếu ngẫu
nhiên được thực hiện đơn giản và dễ tiếp cận. Tuy nhiên phương pháp này chạy rất

lâu với chuỗi dữ liệu thời gian có kích thước lớn, đồng thời các thông số của giải
thuật phải được xác định bằng cách ‘thử và sửa sai’.
Từ những vấn đề nêu trên, trong đề tài chúng tôi dựa vào một cách tiếp cận mới
để nhận diện motif dựa vào các điểm cực trị quan trọng. Đầu tiên chúng tôi sẽ tìm
các điểm cực trị của motif. Sau đó xác định các ứng viên motif dựa vào các điểm
cực trị. Tiếp theo chúng tôi sẽ thực hiện gom cụm các ứng viên Motif dựa vào giải
thuật phân cấp từ dưới lên (hierarchical bottom-up algorithm) hoặc K-Means. Cuối
cùng chúng tôi sẽ dựa vào cụm có nhiều phần tử nhất để tìm ra motif của chuỗi dữ
liệu thời gian. Cách tiếp cận này được gọi là EP_C (Extreme Point Clustering) do
Gruber và các cộng sự đề xuất năm 2006.
Trong đề tài này chúng tôi áp dụng một kỹ thuật cải tiến giải thuật EP_C trong
việc tính độ tương tự mới. Kỹ thuật này giúp chương trình nhận diện ra những motif
mà phương pháp chiếu ngẫu nhiên khơng tìm thấy, giúp chương trình chạy nhanh
hơn và cho kết quả khả quan hơn phương pháp chiếu ngẫu nhiên.

Huỳnh Nguyễn Tín – 09070469

iv


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI .................................................................................. 1
1.1 Dữ liệu chuỗi thời gian............................................................................................ 1
1.2 Nhận diện Motif trong dữ liệu chuỗi thời gian ....................................................... 2
1.3 Mục tiêu và giới hạn của đề tài ............................................................................... 3
1.4 Tóm lược những kết quả thu được: ......................................................................... 3
1.5 Cấu trúc luận văn .................................................................................................... 3
CHƯƠNG 2: TỔNG THUẬT CÁC CƠNG TRÌNH LIÊN QUAN ................................... 5

2.1 Độ đo tương tự ........................................................................................................ 5
2.1.1
Độ đo Minkowski ............................................................................................ 5
2.1.2
Độ đo xoắn thời gian động............................................................................... 8
2.2 Các phương pháp thu giảm số chiều ..................................................................... 10
2.2.1
Phương pháp khơng thích nghi dữ liệu: ......................................................... 10
2.2.2
Phương pháp thích nghi dữ liệu ..................................................................... 13
2.3 Rời rạc hóa dữ liệu bằng phương pháp xấp xỉ gộp ký hiệu hóa (Symbolic
Aggregate approximation - SAX) .................................................................................... 16
2.4 Nhận diện mẫu lặp thường xuyên (motif) cho các dữ liệu chuỗi thời gian........... 17
2.5 Nhận diện motif dựa vào phương pháp chiếu ngẫu nhiên (Random Projection
Algorithm) ........................................................................................................................ 19
2.6 Giải thuật nhận diện motif MK ............................................................................. 21
2.7 Kết luận ................................................................................................................. 25
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ ..... 26
3.1 Điểm cực trị quan trọng (Important Extreme Points) ........................................... 26
3.2 Phương pháp nhận diện motif dựa vào Điểm Quan Trọng ................................... 29
3.2.1
Độ đo tương tự ............................................................................................... 29
3.2.2
Tìm ứng viên Motif........................................................................................ 30
3.2.3
Giải thuật gom cụm phân cấp theo hướng từ dưới lên (Hierarchical BottomUp Algorithm).............................................................................................................. 31
3.3 Giải thuật gom cụm K-Means ............................................................................... 32
CHƯƠNG 4: HIỆN THỰC VÀ THỬ NGHIỆM ............................................................. 33
4.1 Cải tiến giải thuật bằng phương pháp biến hình vị tự trên các motif ứng viên và
cơng thức tính độ tương tự loại trừ độ lệch biên độ......................................................... 34

4.1.1
Khái niệm về phép biến hình vị tự : ............................................................... 35
4.1.2
Lấy mẫu các ứng viên motif bằng phép vị tự ................................................ 36
4.2 Mơ hình hiện thực các phương pháp ..................................................................... 38
4.2.1
Mơ hình nhận diện Motif dùng phép chiếu ngẫu nhiên ................................. 39
4.2.2
Mơ hình giải thuật phân cấp từ dưới lên kết hợp với phương pháp tính độ
tương tự dùng nội suy spline........................................................................................ 40
4.2.3
Mơ hình giải thuật HAC hoặc K-Means kết hợp với phương pháp tính độ
tương tự được cải tiến .................................................................................................. 41
4.3 Kết quả thực nghiệm của các giải thuật ................................................................ 42
4.3.1
Dữ liệu ECG (Điện tâm đồ) với kích thước 7900 điểm ................................. 42
4.3.2
Dữ liệu Memory với kích thước 7000 điểm .................................................. 47
4.3.3
Dữ liệu Power với kích thước 35000 điểm .................................................... 52
4.3.4
Dữ liệu ECG với kích thước 140 000 điểm ................................................... 55

Huỳnh Nguyễn Tín – 09070469

v


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng
4.4 Bảng tổng kết và nhận xét các kết quả thực nghiệm thu được trên các tập dữ liệu

khác nhau ......................................................................................................................... 58
CHƯƠNG 5: KẾT LUẬN ................................................................................................ 61
5.1 Tổng kết ................................................................................................................ 61
5.2 Những đóng góp của đề tài ................................................................................... 61
5.3 Hướng phát triển của đề tài ................................................................................... 62

Huỳnh Nguyễn Tín – 09070469

vi


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

DANH MỤC CÁC HÌNH
Hình 1-1: Minh họa về dữ liệu chuỗi thời gian theo dõi quá trình đo nhiệt độ ..................... 1
Hình 1-2: Đồ thị biễu diễn chuỗi dữ liệu thời gian điện tâm đồ (ECG) ................................ 2
Hình 2-1: Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau, nhưng
đường cơ bản khác nhau. ....................................................................................................... 7
Hình 2-2: Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau nhưng biên
độ dao động khác nhau. ......................................................................................................... 7
Hình 2-3: a)Tính khoảng cách dựa vào phương pháp Euclid,(b)Tính khoảng cách dựa vào
phương pháp DWT. ............................................................................................................... 8
Hình 2-4: Minh họa cách tính khoảng cách theo DWT ......................................................... 9
Hình 2-5: Minh họa biễu diễn dữ liệu chuỗi thời gian theo phương pháp PAA.................. 11
Hình 2-6: Minh họa phương pháp biểu diễn dữ liệu chuỗi thời gian theo phương pháp DFT,
DWT và PAA....................................................................................................................... 14
Hình 2-7: Minh họa cách biến đổi chuỗi thời gian theo phương pháp SVD, PACA và PLA
............................................................................................................................................. 15
Hình 2-8: Minh họa phương pháp rời rạc hóa dữ liệu chuỗi thời gian bằng phương pháp
SAX. Kết quả thu được ta có chuỗi ký tự ffffffeeeddcbaabceedcbaaaaacddee. .................. 16

Hình 2-9: Mơ phỏng nhận diện motif dữ liệu chuỗi thời gian. Ba chuỗi dữ liệu con bên
dưới thường xuất hiện trong chuỗi dữ liệu ban đầu ở phía trên........................................... 18
Hình 2-10: Mơ phỏng sự khớp (matching) giữa hai chuỗi con C và M. Chuỗi thời gian T là
đường màu đen nhỏ, chuỗi con C có hình màu đen in đậm và chuỗi M có hình màu xám. 18
Hình 2-11: Trong hầu hết các chuỗi con C, sẽ có hai chuỗi con khớp (match) tốt nhất nằm
ở bên trái và bên phải chuỗi này .......................................................................................... 19
Hình 2-12: Minh họa việc xây dựng ma trận với a=3, w=4 và n=16 .............................. 20
Hình 2-13: Trái) {1,2} được chọn ngẫu nhiên Phải) tăng giá trị của các ô tương ứng 1 đơn
vị [2] ..................................................................................................................................... 21
Hình 2-14: Trái) Cột {2,4} được chọn
Phải) Tăng giá trị của vị trí tương ứng [2] .. 21
Hình 2-15: Giải thuật tìm kiếm motif dữ liệu chuỗi thời gian Brute-Force ....................... 22
Hình 2-16: Chặn dưới của các chuỗi con............................................................................. 23
Hình 2-17: Mơ tả q trình cập nhật best-so-far ................................................................. 24
Hình 2-18: Tăng tốc giải thuật Brute-Force với một điểm tham chiếu. .............................. 24
Hình 2-19: Giải thuật MK-Motif ......................................................................................... 25
Hình 3-1: Điểm quan trọng với hệ số nén lần lượt là 91% và 94% ..................................... 26
Hình 3-2: Điểm cực đại và cực tiểu quan trọng ................................................................... 27
Hình 3-3: Giải thuật gom cụm phân cấp từ dưới lên và trên xuống HAC ........................... 32
Hình 4-1: Chuỗi dữ liệu ban đầu có chiều dài 470 điểm ..................................................... 34
Hình 4-2: Chuỗi dữ liệu sau khi lấy mẫu có chiều dài 400 dùng phương pháp nội suy spline
bậc I...................................................................................................................................... 35
Hình 4-3: Chuỗi dữ liệu sau khi lấy mẫu có chiều dài 300 dùng phương pháp nội suy spline
bậc I...................................................................................................................................... 35
Hình 4-4: Minh họa phép vị tự tâm O, hệ số vị tự k =1/2 ................................................... 36
Hình 4-5: Chuỗi dữ liệu sau khi lấy mẫu có chiều dài 150 điểm dùng phương pháp vị tự . 37
Hình 4-6: Chuỗi dữ liệu sau khi lấy mẫu có chiều dài 2000 điểm dùng phương pháp vị tự37
Hình 4-7: Mơ hình RP ......................................................................................................... 39
Hình 4-8: Mơ hình EP_C\HAC\SI ....................................................................................... 40
Hình 4-9: Mơ hình EP_C|HAC|HT và EP_C|K-Means|HR ................................................ 41

Huỳnh Nguyễn Tín – 09070469

vii


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng
Hình 4-10: Dữ liệu ECG có kích thước 7900 điểm ............................................................. 42
Hình 4-11: Giải thuật RP với tập dữ liệu ECG 7900 điểm .................................................. 43
Hình 4-12: Giải thuật EP_C|HAC|SI với tập dữ liệu ECG 7900 điểm ................................ 44
Hình 4-13: Giải thuật EP_C|HAC|HT với dữ liệu ECG 7900 điểm .................................... 45
Hình 4-14: Giải thuật EP_C|K-Means|HT với dữ liệu ECG 7900 điểm.............................. 46
Hình 4-15: Dữ liệu Memory ................................................................................................ 47
Hình 4-16: Giải thuật RP với tập dữ liệu Memory 6800 điểm. ........................................... 48
Hình 4-17: Giải thuật EP_C|HAC|SI với tập dữ liệu Memory 6800 điểm. ......................... 49
Hình 4-18: Giải thuật EP_C|HAC |HT với tập dữ liệu Memory 6800 điểm ....................... 50
Hình 4-19: Giải thuật EP_C|K-Means|HT với tập dữ liệu Memory 6800 điểm .................. 51
Hình 4-20: Dữ liệu power với kích thước 35000 điểm ........................................................ 52
Hình 4-21: Giải thuật EP_C|HAC|SI với dữ liệu Power 35000 điểm.................................. 53
Hình 4-22: Giải thuật EP_C|HAC|HT với tập dữ liệu Power 35000 điểm. ......................... 53
Hình 4-23: Giải thuật EP_C|K-Means|HT với tập dữ liệu Power 35000 điểm. .................. 54
Hình 4-24: Dữ liệu ECG với kích thước 140 000 điểm....................................................... 55
Hình 4-25: Giải thuật EP_C|HAC|SI với dữ liệu ECG 140000 điểm. ................................. 56
Hình 4-26: Giải thuật EP_C|HAC|HT với dữ liệu ECG 140000 điểm. ............................... 57
Hình 4-27: Giải thuật EP_C|K-Means|HT với dữ liệu ECG 140000 điểm.......................... 58
Bảng 4-1
Bảng tổng kết thời gian thực thi các phương pháp ........................................ 59

Huỳnh Nguyễn Tín – 09070469

viii



CHƯƠNG 1:

GIỚI THIỆU ĐỀ TÀI

1.1 Dữ liệu chuỗi thời gian
Chuỗi dữ liệu thời gian hay chuỗi thời gian là sự quan sát các dữ liệu theo thời
gian tuần tự. Đối với loại dữ liệu này, cấu trúc dữ liệu có thể là hai hay nhiều chiều
trong đó có chiều thời gian, tức là dữ liệu được theo dõi và ghi lại tại một thời điểm
nhất định. Tuy nhiên, trong hầu hết các ứng dụng thực tế, dữ liệu được đo các cách
khác nhau trong một khoảng thời gian cố định nên để đơn giản hóa q trình lưu trữ
cũng như độ phức tạp của dữ liệu, người ta chỉ lưu lại thứ tự các giá trị dữ liệu theo
một trình tự thời gian nhất định có dạng X=<x1, x2, …xn> trong đó xi là dữ liệu
được đo ở thời điểm thứ i.
Ví dụ chúng ta có chuỗi thời gian theo dõi quá trình đo nhiệt độ như sau:
S=<14.3, 18.2, 20.0, 22.4, 19.5, 17.1, 15.8, 15.1>

Hình 1-1: Minh họa về dữ liệu chuỗi thời gian theo dõi quá trình đo nhiệt độ

Trong các ứng dụng thực tế, có rất nhiều loại dữ liệu chuỗi thời gian như sự theo
dõi biến đổi giá của chứng khoán, dữ liệu đo điện tim đồ, dữ liệu theo dõi mực nước
sông hay là sự ghi lại việc truy cập các trang web của người dùng. Thông thường,
các loại dữ liệu chuỗi thời gian này là rất lớn, được đo và lưu trữ lại trong một
khoảng thời gian dài cho nên việc lưu trữ và khai phá dữ liệu này thường tốn kém
chi phí thời gian. Do đó việc sử dụng các cơng cụ khai phá dữ liệu này được áp
dụng trên nền máy tính đã thu hút sự quan tâm, nghiên cứu và ứng dụng trong rất
nhiều các lĩnh vực trong những năm gần đây.



Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

Hình 1-2: Đồ thị biễu diễn chuỗi dữ liệu thời gian điện tâm đồ (ECG)

Hình 1.1 và 1.2 mơ tả q trình đo nhiệt độ trong ngày và điện tâm đồ
Một số vấn đề khi nghiên cứu chuỗi dữ liệu thời gian:
Khối lượng dữ liệu:
Một trong những đặc trưng của chuỗi thời gian là dữ liệu rất lớn.Ví dụ khi đo
đạc dữ liệu điện tâm đồ trong 1 giờ khoảng 1 Gigabyte. Đây là một trong những vấn
đề thách thức trong q trình phân tích, tính tốn và xử lý dữ liệu chuỗi thời gian
trong việc tạo ra kết quả được chính xác trong thời gian hợp lý.
Phụ thuộc yếu tố chủ quan:
Trong thực tế, các kết quả dữ liệu chuỗi thời gian thu được chịu ảnh hưởng yếu
tố chủ quan của người đo dữ liệu, điều kiện và các công cụ đo…
Dữ liệu không đồng nhất:
Quá trình thu thập dữ liệu chuỗi thời gian được đo trên những định dạng khác
nhau, số lượng và tần số lấy mẫu không đồng nhất cũng ảnh hưởng đến tính tồn
vẹn của dữ liệu. Thêm vào đó q trình đo đạc khơng chính xác do nhiễu, thiếu một
vài giá trị hay dữ liệu không sạch.

1.2 Nhận diện Motif trong dữ liệu chuỗi thời gian
Một trong những vấn đề được quan tâm trong việc khai phái dữ liệu chuỗi thời
gian là nhận diện những chuỗi con tương tự xuất hiện thường xuyên (gọi là motif).
Các phương pháp được ứng dụng trong bài toán này thường được dùng là BruteForce được J.Lin và các cộng sự đề xuất năm 2002[3], phương pháp chiếu ngẫu
nhiên (Random Projection) được B.Chiu và các cộng sự giới thiệu năm 2003[2],
giải thuật MK của Mueen và các cộng sự đưa ra năm 2009[4] .Tuy nhiên khi áp
dụng các phương pháp trên thì ta gặp phải các nhược điểm sau:
o Khơng thích hợp khi chuỗi dữ liệu lớn.

Huỳnh Nguyễn Tín – 09070469


2


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

o Cả ba phương pháp này khơng thể nhận ra được các motif có chiều dài
hay biên độ khác nhau.
Hướng giải quyết :
Dựa vào phương pháp nhận diện motif do Gruber và các cộng sự đưa ra năm
2006[1]:
o Trích lược các điểm cực trị quan trọng của chuỗi dữ liệu thời gian, từ đó
chọn ra những ứng viên motif.
o Gom cụm các ứng viên motif bằng phương pháp phân cấp từ dưới lên
(Hierarchical Bottom-Up) hoặc K-Means.
o Cải tiến cơng thức tính độ tương tự hai ứng viên motif bằng phép biến
hình vị tự (homothetic transformation) để đồng nhất chiều dài các ứng
viên motif. Sau đó chúng tôi sẽ tiến hành gom cụm các ứng viên motif
sau phép biến hình này.
o Sử dụng cơng thức tính độ tương tự cải tiến để loại trừ biên độ (range)
của các ứng viên motif.

1.3 Mục tiêu và giới hạn của đề tài
Mục tiêu chính của đề tài là nghiên cứu phương pháp tìm kiếm motif trên dữ
liệu chuỗi thời gian. Đề tài này dựa trên nghiên cứu của Gruber và các cộng sự.
Phương pháp này dựa vào ý tưởng nén những chuỗi thời gian nhờ vào những điểm
cực trị quan trọng (Cực đại và Cực tiểu).
Kết quả thu được sẽ so sánh với phương pháp nhận diện motif dựa vào phép
chiếu ngẫu nhiên và gom cụm phân cấp từ dưới lên dùng nội suy spline về hai
phương diện: Thời gian chạy, sự chính xác của giải thuật…

Chúng tơi chọn phương pháp chiếu ngẫu nhiên bởi vì phương pháp này được sử
dụng rộng rãi và thường được sử dụng để so sánh với các giải thuật nhận diện motif
khác.

1.4 Tóm lược những kết quả thu được:
Với việc tập trung vào mục đích chính của luận văn trong suốt q trình thực
hiện và thử nghiệm chúng tôi thấy được ưu điểm của phương pháp nhận diện motif
dựa vào các điểm cực trị kết hợp với giải thuật gom cụm phân cấp từ dưới lên hay
K-Means so với phương pháp chiếu ngẫu nhiên như sau:
Thời gian đáp ứng rất nhanh.
Thích nghi được chuỗi dữ liệu lớn (lên đến hàng trăm ngàn).
Có thể nhận thấy được các thể hiện motif không cùng chiều dài và có
biên độ dao động khác nhau.

1.5 Cấu trúc luận văn
Huỳnh Nguyễn Tín – 09070469

3


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

Chương II chúng tôi sẽ giới thiệu qua các cơng trình liên quan đến luận văn
bao gồm giới thiệu về các phương pháp về độ đo tương tự giữa hai chuỗi thời
gian, các phương pháp về thu giảm số chiều trên chuỗi thời gian ban đầu,
cách tiếp cận về các phương pháp rời rạc hóa dữ liệu. Đồng thời, chúng tôi
cũng giới thiệu lý thuyết về nhận diện motif trên dữ liệu chuỗi thời gian,
phương pháp chiếu ngẫu nhiên và giải thuật MK [4].
Chương III chúng tôi sẽ tập trung vào cơ sở lý thuyết và phương pháp giải
quyết vấn đề của luận văn bao gồm định nghĩa các điểm cực trị quan trọng,

giải thuật gom cụm phân cấp từ dưới lên (HAC) do Gruber và các cộng sự
giới thiệu năm 2006[1].
Chương IV chúng tôi giới thiệu một phương thức mới trong việc tính độ
tương tự của hai chuỗi dữ liệu con dùng phép biến hình vị tự và loại trừ biên
độ dao động. Cuối cùng, chúng tôi tiến hành thực nghiệm hệ thống nhận diện
motif dựa vào phương pháp chiếu ngẫu nhiên và các điểm cực trị quan trọng
kết hợp với HAC hay K-Means. So sánh kết quả thu được bao gồm thời gian
chạy, độ chính xác và khả năng đáp ứng với chuỗi dữ liệu lớn giữa các
phương pháp trên.
Chương V là một số kết luận sau khi thực hiện đề tài.

Huỳnh Nguyễn Tín – 09070469

4


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

CHƯƠNG 2: TỔNG THUẬT CÁC CƠNG
TRÌNH LIÊN QUAN
Chương này sẽ giới thiệu tổng quan các cơng trình liên quan đã được nghiên cứu
bao gồm các cơng trình về độ đo tương tự, phương pháp thu giảm số chiều, phương
pháp rời rạc hóa dữ liệu, nhận diện mẫu lặp (motif) dựa trên phương pháp chiếu
ngẫu nhiên và giải thuật nhận diện motif MK.

2.1 Độ đo tương tự
Trong các hầu hết các bài toán về chuỗi thời gian, bài tốn tìm độ tương tự là
một trong những bài toán quan trọng nhất. Cho hai đối tượng O1 và O2, khoảng cách
giữa hai đối tượng này sẽ bằng 0 thì chúng được xem là giống nhau. Nếu khoảng
cách giữa chúng nhỏ hơn một giá trị r cho trước thì khoảng cách giữa chúng là

tương tự nhau. Gọi D(X, Y) là khoảng cách giữa hai đối tượng X và Y, ta có các tính
chất sau:
a) D(X,Y)=0 nếu và chỉ nếu X=Y
b) D(X,Y)=D(Y,X)
c) D(X,y)≥0 với mọi X,Y
d) D(X,Y)Cho hai chuỗi thời gian X và Y có dạng X=<x1, x2…xn> và Y=<y1, y2,…yn>. Độ
tương tự giữa X và Y ký hiệu là Sim(X, Y). Sau đây là một số phương pháp dùng để
xác định độ tương tự giữa hai chuỗi thời gian.

2.1.1 Độ đo Minkowski
Độ đo tương tự giữa hai chuỗi thời gian X và Y được xác định bằng công thức
Minkowski như sau:
ℎℎℎ

Với,
a) p=1: Độ đo Manhatan
b) p=2: Độ đo Euclid
c) p=3: Độ đo Max
Ưu điểm
Tính tốn dễ dàng.

Huỳnh Nguyễn Tín – 09070469

5


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

Có khả năng mở rộng cho nhiều bài toán khác như gom cụm (clustering)

và phân loại (classification) dữ liệu… và phù hợp với các phép biến đổi
thu giảm số chiều như: DFT [18], DWT [6], PAA [7][8]…
Nhược điểm:
Nhạy cảm với nhiễu.
Khơng thích hợp khi dữ liệu có đường cơ bản khác nhau (Hình 2.1).
Khơng thích hợp với dữ liệu có biên độ dao động khác nhau (Hình 2.1).
Phương pháp khắc phục:
Chuẩn hóa dữ liệu chuỗi thời gian trước khi áp dụng so trùng mẫu trên dữ
liệu dựa trên giá trị trung bình và độ lệch chuẩn X’=X-mean(X) hay
X’=(X-mean(X))/Var(X) [9].
Áp dụng phương pháp trung bình di chuyển [20] để làm trơn các đường
biểu diễn chuỗi thời gian nghĩa là giá trị của chuỗi thời gian tại thời điểm
i được tính như sau:
=

2 +1

(2.2)

Áp dụng độ đo tương tự có sửa đổi dựa trên khoảng cách Euclid như sau:
( , )=

Trong đó: #$ = ∑)
(

)

(
* #


1

∑ (! − # ) − (!$ − #$ )% (2.3)

, !$ = ∑)

Huỳnh Nguyễn Tín – 09070469

(

)

&

(
* !

6


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

Hình 2-1: Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau, nhưng
đường cơ bản khác nhau.

Hình 2-2: Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau nhưng
biên độ dao động khác nhau.

Huỳnh Nguyễn Tín – 09070469


7


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

2.1.2 Độ đo xoắn thời gian động
Trong trường hợp so trùng giữa hai chuỗi thời gian X và Y. Đường biểu diễn của
chúng rất giống nhau nhưng chúng lệch nhau về thời gian. Nếu trong trường hợp
này ta so sánh phần tử thứ i của hai chuỗi thời gian sẽ cho ra kết quả không mong
muốn. Để giải quyết vấn đề này ta có thể dùng phương pháp ánh xạ một điểm đến
nhiều điểm. Phương pháp này được gọi là phương pháp xoắn thời gian động
(Dynamic Warping - DTW) [10].

Hình 2-3: a)Tính khoảng cách dựa vào phương pháp Euclid,(b)Tính khoảng cách dựa vào
phương pháp DWT.

Hình 2.3a và 2.3b minh họa cho chúng ta cách tính khoảng cách dựa vào phương
pháp Eulid và DWT của hai chuỗi dữ liệu thời gian. Rõ ràng cách tính ở hình 2.3b
giúp chúng ta loại bỏ được độ lệch pha của hai chuỗi dữ liệu thời gian.
Cách tính khoảng cách dựa vào phương pháp DWT
Cho hai chuỗi thời gian X và Y và một thông số khung w gọi là khung cửa sổ
xoắn (warping window) với điều kiện là hai điểm i và j có thể ánh xạ với nhau nếu
|i-j|≤w. Dữ liệu ra là tổng khoảng cách của các điểm được ánh xạ với nhau.
Cách tính đơn giản DWT là xây dựng một ma trận Dmxn với m=|X| và n=|Y|.Khi
đó Dij=d (xi, yi). Từ ma trận D ta duyệt qua ma trận từ ô (0, 0) đến ô (m, n) thỏa mãn
ràng buộc sau:
o Không được đi qua trái hay đi xuống
o Đường đi phải liên tục
o Ô tại vị trí (i,j) thuộc đường đi phải thỏa |i-j|≤w
o Giả sử có K ơ đi từ ơ (0,0) đến ơ (m,n) thỏa mãn những điều kiện

trên, khi đó
Huỳnh Nguyễn Tín – 09070469

8


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

min{4∑6 ( 5 }
+,-(., / ) =
(2.4)
8
Hình 2.4 minh họa phương pháp tính khoảng cách theo DWT.
Ngồi ra, có thể dùng qui hoạch động để giải quyết bài tốn này. Ta có thể áp
dụng cơng thức truy hồi tuyến tính để tính D(i,j).
D(i,j) = |xi+yi| + min {D(i-1,j),D(i-1,j-1),D(i,j-1)}

(2.5)

Hình 2-4: Minh họa cách tính khoảng cách theo DWT

Ưu điểm:
Phương pháp DWT phù hợp cho việc xác định độ tương tự giữa hai chuỗi
thời gian có hình dạng giống nhau nhưng chiều dài hình dạng về mặt thời
gian khác nhau.
Cho kết quả chính xác hơn phương pháp tính khoảng cách bằng phương
pháp tính khoảng cách Euclid, đặc biệt trong các bài tốn có dữ liệu nhỏ,
bài tốn phân loại (classification) hay các bài toán gom cụm
(clustering)…
Nhược điểm:


Huỳnh Nguyễn Tín – 09070469

9


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

Nhược điểm lớn nhất của phương pháp tính khoảng cách DWT là thời
gian chạy, có thể gấp hàng trăm hoặc nghìn lần phương pháp độ đo
Euclid. Giải thuật DWT lúc đầu đưa ra thông số w = n (chiều dài dữ liệu),
khi đó độ phức tạp thuật tốn là O(n2). Do đó, người ta thay đổi thông số
w << n để độ phức tạp của thuật tốn giảm xuống cịn O(wn).

2.2 Các phương pháp thu giảm số chiều
Dữ liệu chuỗi thời gian thường có kích thước rất lớn. Trên cơ sở đó, người ta
dùng một số phương pháp chuẩn hóa lại dữ liệu thu thập thành một tập dữ liệu nhỏ
hơn đặc trưng cho dữ liệu đó. Bằng phương pháp này, thay vì thao tác truy vấn trên
dữ liệu chuỗi thời gian ban đầu, ta có thể thao tác trên dữ liệu chuỗi thời gian được
chuẩn hóa để giảm chi phí thời gian thao tác và khi cần ta cũng có thể chuyển dữ
liệu chuỗi thời gian đã chuẩn hóa này thành chuỗi thời gian ban đầu. Phương pháp
này gọi là phương pháp thu giảm số chiều dữ liệu. Cụ thể phương pháp này như
sau:
Cho chuỗi thời gian X=<x1, x2 ,…xn> có n chiều ta thu giảm có chiều dữ liệu
xuống cịn k chiều Y=<y1, y2,...yk> với k < n là hệ số đường cơ bản. Nếu k càng lớn
thì đường phục hồi dữ liệu chuỗi thời gian ban đầu càng chính xác. Như vậy, thay vì
tính tốn trên dữ liệu chuỗi thời gian ban đầu, ta có thể tính tốn trên dữ liệu chuỗi
thời gian mới có số chiều nhỏ hơn.
Các phương pháp thu giảm số chiều được chia làm 2 nhóm chính:


2.2.1 Phương pháp khơng thích nghi dữ liệu:
Đặc trưng của phương pháp khơng thích nghi dữ liệu là các đường cơ bản là
những đường được định nghĩa trước không phụ thuộc vào dữ liệu như đường hình
sin, cosin hay đường haar…
Các phương pháp đề nghị cho đường khơng thích nghi dữ liệu bao gồm một số
phương pháp như xấp xỉ gộp từng đoạn (Piecewise Aggregate Approximation PAA) [7], biến đổi Fourier rời rạc (Discrete Fourier Transform – DFT) [11] [12],
phương pháp biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT) [13].
Phương pháp xấp xỉ gộp từng đoạn (Piecewise Aggregate Approximation PAA):
Phương pháp PAA được E.Keogh và các cộng sự đưa ra vào năm 2000[7].
Phương pháp này tuần tự xấp xỉ sắp xếp k giá trị liền kề nhau thành cùng một
giá trị bằng trung bình cộng của k điểm đó. Q trình cứ tiếp tục từ trái qua phải của
chuỗi dữ liệu. Kết quả nhận được là một đường thẳng có hình bậc thang (như hình
2.5). Giá trị trung bình tại vị trí k được tính bằng cơng thức sau:

Huỳnh Nguyễn Tín – 09070469

10


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

;: =

<

)
=

)
(

=

() (

(2.6)

Hình 2-5: Minh họa biễu diễn dữ liệu chuỗi thời gian theo phương pháp PAA

Ưu điểm:
Thời gian tính tốn nhanh, thực hiện trong khoảng thời gian tuyến tính.
Hỗ trợ nhiều phương pháp tính tốn khoảng cách như Euclid, DWT,
Minskowski…
Hỗ trợ truy vấn có chiều dài tùy ý.
Hỗ trợ phép truy vấn mờ.
Nhược điểm
Xây dựng chuỗi thời gian ban đầu khó.
Khơng quan tâm đến những đặc điểm đặc biệt, những biến đổi bất thường
trong từng đoạn xấp xỉ.
Huỳnh Nguyễn Tín – 09070469

11


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

Độ phức tạp khi tính toán khoảng cách trong cấu trúc chỉ mục cao.
Phương pháp biến đổi Fourier rời rạc (Discrete Fourier Transform –
DFT)
Phương pháp biến đổi Fourier rời rạc [11] được R. Agrawal và cộng sự đề xuất.
Ý tưởng của phương pháp này là biểu diễn lại các đường dữ liệu chuỗi thời gian ban

đầu thành các đường căn bản có dạng hình sin và cosin. Công thức biến đổi như
sau:
/ (?) =

)

(

(@ cos(2D5 ?) + E sin(2D5 ?)) (2.7)

Ngoài việc nén dữ liệu chuỗi thời gian, phương pháp này còn cho phép so sánh
gián tiếp hai chuỗi thời gian X và Y thông qua hai chuỗi thời gian Xf và Yf tương ứng
sau khi thu giảm số chiều thỏa:
D(X,Y)= αD(Xf,Yf)

(2.8)

Ưu điểm:
Thích hợp với các loại đường cong khác nhau.
Độ phức tạp biến đổi dữ liệu chuỗi thời gian chỉ có O(nlgn).
Thích hợp với chuỗi dữ liệu thời gian tĩnh.
Hỗ trợ xấp xỉ khoảng cách DWT.
Nhược điểm:
Khó áp dụng khi đường dữ liệu thời gian có chiều dài khác nhau.
Phương pháp biển đổi Wavelet rời rạc (Discrete Wavelet Transform DWT)
Phương pháp DWT [6] được K. Chan và W. Fu đề xuất. Tuy nhiên, thay vì biểu
diễn các đường cơ bản là đường dạng hình sin hay cosin như phương pháp DWT,
thay vào đó đường được biểu diễn là đường Haar. Đường Haar được biểu diễn theo
công thức sau:
GH = G(2 # − )Iớ = 0, … . , 2 − 1(2.9)


1Iớ 0 < ? < 0.5
GN = O−2Iớ 0.5 < ? < 1]
0?RS T?Rườ TℎợX [ạ

Với

Huỳnh Nguyễn Tín – 09070469

12


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

Ngoài việc sử dụng đường Haar, phương pháp này còn được sử dụng các đường
cơ bản như đường Daubechies, Coiflet, Symmlet…Tuy nhiên, đường Haar Wavelet
đã được sử dụng rất phổ biến trong khai phá dữ liệu chuỗi thời gian và lập chỉ mục.
Ưu điểm:
Mã hóa nhanh và đơn giản.
Độ phức tạp và tuyến tính.
Phù hợp với dữ liệu ít thay đổi.
Ngồi việc tính khoảng cách dựa trên phương pháp tính khoảng cách
Euclid, phương pháp này cịn hỗ trợ một số phương pháp tính khoảng
cách khác.
Nhược điểm:
Chiều dài dữ liệu chuỗi thời gian ban đầu phải được chuẩn hóa về kích
thước lũy thừa của 2.
Trong điều kiện chuỗi thời gian truy vấn có chiều dài lũy thừa của 2 thì
giải thuật mới hiệu quả.
Hình 2.6 mơ tả hiện thực 3 phương pháp DFT, DWT và PAA trong việc thu

giảm số chiều trên cùng một chuỗi dữ liệu thời gian.

2.2.2 Phương pháp thích nghi dữ liệu
Phương pháp này cũng tương tự như phương pháp khơng thích nghi dữ liệu, tức
là dữ liệu chuỗi thời gian cũng được biến đổi về thành những đường cơ bản. Điểm
khác biệt là hình dáng của dữ liệu chuỗi thời gian sau khi biến đổi phản ánh vào tính
thực sự của dữ liệu hơn, tức là phụ thuộc vào dữ liệu chuỗi thời gian ban đầu. Tùy
theo loại dữ liệu chuỗi thời gian mà có đường cơ bản tương ứng. Phương pháp này
có một tính chất là thể hiện rõ hơn dữ liệu chuỗi thời gian ban đầu, tuy nhiên thời
gian biến đổi lâu hơn.
Một số phương pháp áp dụng biến đổi dữ liệu dạng thích nghi như sau:
Phân rã trị kì dị (Singular Value Decomposition - SVD)
Xấp xỉ tuyến tính từng đoạn (Piecewise Linear Approximation - PLA)
Xấp xỉ hằng số từng đoạn thích nghi (Adaptive Piecewise Constant
Approximation - APCA)

Huỳnh Nguyễn Tín – 09070469

13


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

Hình 2-6: Minh họa phương pháp biểu diễn dữ liệu chuỗi thời gian theo phương pháp
DFT, DWT và PAA

Phương pháp phân rã trị kỳ dị (Singular Value Decomposition - SVD)
Phương pháp này biến đổi dữ liệu chuỗi thời gian thành những đường cơ bản gọi
là đường eigenwave. Tương ứng với từng dữ liệu chuỗi thời gian ta có các giải thuật
tương ứng để biến đổi đường eigenwave. Tuy nhiên, phương pháp biến đổi SVD có

độ phức tạp rất lớn. Và mỗi khi thêm dữ liệu chuỗi thời gian mới vào tập dữ liệu
chuỗi thời gian cũ ta phải chạy lại giải thuật. Ưu điểm của nó là hình dạng đường
eigenwave cho ta thấy được hình dạng dữ liệu khi chạy giải thuật.
Ưu điểm:
• Cho thấy hình dạng dữ liệu chuỗi thời gian.
• Hỗ trợ các kiểu truy vấn ngẫu nhiên.
Nhược điểm:
• Độ phức tạp lớn.
• Phải chạy lại giải thuật khi bổ sung dữ liệu chuỗi thời gian mới vào dữ
liệu chuỗi thời gian hiện có.

Huỳnh Nguyễn Tín – 09070469

14


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

Hình 2-7: Minh họa cách biến đổi chuỗi thời gian theo phương pháp SVD, PACA và PLA

Phương pháp xấp xỉ tuyến tính từng đoạn (PLA)
Phương pháp PLA xấp xỉ dữ liệu chuỗi thời gian ban đầu thành từng đoạn. Tuy
nhiên, các đoạn này có thể rời rạc hoặc liên tục. Phương pháp biểu diễn này có tính
trực quan cao và phù hợp với việc nén các loại dữ liệu chuỗi thời gian khác nhau.
Độ phức tạp của thuật toán này được thực hiện trong khoảng thời gian tuyến tính,
có thể áp dụng tính khoảng cách bằng nhiều phương pháp khác nhau và có thể thay
đổi theo u cầu của người dùng.
Ưu điểm :
Có tính trực quan cao, có tỷ lệ lỗi thấp.
Độ phức tạp của thuật tốn là tuyến tính.

Hỗ trợ truy vấn mờ.
Nhược điểm:
Độ phức tạp tăng khi tính tốn khoảng cách trong cấu trúc chỉ mục.

Huỳnh Nguyễn Tín – 09070469

15


Nhận diện motif của dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

Phương pháp xấp xỉ hằng số từng đoạn thích nghi (Adaptive Piecewise
Constant Approximation - APCA)
Phương pháp APCA tương tự như phương pháp PAA. Tuy nhiên các đoạn thẳng
xấp xỉ trong phương pháp PAA là bằng nhau, cịn các đoạn thẳng trong phương
pháp APCA có thể khác nhau. Tuy nhiên, phương pháp này rất ít được sử dụng.
Ưu điểm:
Tỷ lệ lỗi nhỏ hơn so với áp dụng phương pháp PAA.
Tỷ lệ nén cao hơn so với phương pháp PAA.
Hỗ trợ tìm kiếm xấp xỉ và tìm kiếm chính xác.
Nhược điểm:
Độ phức tạp là O(nlog(n)).
Hình 2.7 mơ tả quá trình thu giảm số chiều theo phương pháp SVD, PACA và
PLA trên cùng một chuỗi dữ liệu thời gian.

2.3 Rời rạc hóa dữ liệu bằng phương pháp xấp xỉ gộp ký
hiệu hóa (Symbolic Aggregate approximation - SAX)
Phương pháp này được J. Lin và các cộng sự đề xuất vào năm 2003 [17]. Ý
tưởng của phương pháp này là chuỗi dữ liệu ban đầu được chia thành từng đoạn
bằng cách áp dụng phương pháp PAA. Từ đó, dựa trên giá trị trung bình của đoạn

thẳng để biểu diễn đặc trưng thành các ký tự. Khi đó, chuỗi thời gian ban đầu sẽ
được mã hóa rời rạc thành chuỗi các ký tự.
Hình 2.8 mơ tả q trình hiện thực giải thuật SAX trên chuỗi dữ liệu thời gian: 6
kí tự đầu tiên được mã hóa bởi kí tự f, 3 kí tự tiếp theo là e….

Hình 2-8: Minh họa phương pháp rời rạc hóa dữ liệu chuỗi thời gian bằng phương pháp
SAX. Kết quả thu được ta có chuỗi ký tự ffffffeeeddcbaabceedcbaaaaacddee.

Ưu điểm:
Huỳnh Nguyễn Tín – 09070469

16


×