Tải bản đầy đủ (.pdf) (119 trang)

Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.88 MB, 119 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

VƯƠNG BÁ THỊNH

CẢI TIẾN GIẢI THUẬT K-MEANS CHO BÀI TOÁN
GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN
Chuyên ngành: Khoa học Máy tính

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, Tháng 12 năm 2011


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học : PGS. TS. Dương Tuấn Anh..........................................

Cán bộ chấm nhận xét 1 : PGS. TS. Đỗ Phúc...............................................................

Cán bộ chấm nhận xét 2 : TS. Bùi Hoài Thắng...........................................................

Luận văn thạc sĩ được bảo vệ tại:
Trường Đại học Bách Khoa, ĐHQG Tp. HCM ngày 7 tháng 01 năm 2012
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. TS. Võ Thị Ngọc Châu (CT) ............................................
2. PGS.TS. Đỗ Phúc (PB1) ...........................................................
3. TS. Bùi Hoài Thắng (PB2) ......................................................
4. PGS.TS. Dương Tuấn Anh (UV)...............................................


5. TS. Phạm Văn Chung (TK) ......................................................
Chủ tịch hội đồng đánh giá LV
(Họ tên và chữ ký)

TS. Võ Thị Ngọc Châu

Khoa quản lý chuyên ngành
(Họ tên và chữ ký)


ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM
Độc Lập - Tự Do - Hạnh Phúc

----------------

---oOo--Tp. HCM, ngày . .. . tháng . .. . năm .2011.
NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên : Vương Bá Thịnh

Giới tính : Nam / Nữ  -----------------

Ngày, tháng, năm sinh : 26/02/1986 ----------------- Nơi sinh : Sóc Trăng ----------------------Chuyên ngành : Khoa học Máy tính ----------------- MSHV : 09070465 ------------------------Khố : 2009 -------------------------------------------------------------------------------------------1- TÊN ĐỀ TÀI :

Cải tiến giải thuật k-Means cho bài toán gom cụm dữ liệu chuỗi thời gian
2- NHIỆM VỤ LUẬN VĂN :
- Nghiên cứu đề xuất phương pháp thu giảm số chiều PLA đa mức phân giải.

- Tích hợp phương pháp thu giảm số chiều PLA đa mức phân giải vào giải thuật I-k-Means.
- Áp dụng phương pháp khởi tạo trung tâm cụm ban đầu dựa trên kd-tree cho giải thuật I -kMean.
- Áp dụng phương pháp khởi tạo trung tâm cụm ban đầu dựa trên phương sai có cải tiến cho giải
thuật I-k-Means.
- Thực nghiệm trên các tập dữ liệu thực để so sánh các giải thuật k-Means, I-k-Means, I-k-Means
có khởi tạo trung tâm cụm ban đầu dựa trên kd-tree, I-k-Means có khởi tạo trung tâm cụm ban
đầu dựa trên phương sai có cải tiến.
3- NGÀY GIAO NHIỆM VỤ : -------------------------------------------------------------------4- NGÀY HOÀN THÀNH NHIỆM VỤ : -------------------------------------------------------5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS. TS. Dương Tuấn Anh --------------------Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua.
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

CHỦ NHIỆM BỘ MÔN

KHOA QL CHUYÊN NGÀNH

QUẢN LÝ CHUYÊN NGÀNH

(Họ tên và chữ ký)

(Họ tên và chữ ký)

PGS. TS. Dương Tuấn Anh


LUẬN VĂN CAO HỌC

LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác như đã
ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tơi thực hiện
và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường

này hoặc trường khác.
Ngày 27 tháng 11 năm 2011

Vương Bá Thịnh

VƯƠNG BÁ THỊNH - 09070465

i


LUẬN VĂN CAO HỌC

LỜI CẢM ƠN
Tôi xin gởi lời cảm ơn chân thành và sâu sắc đến PGS. TS. Dương Tuấn Anh,
Thầy đã tận tình hướng dẫn, định hướng tơi từ cách đặt vấn đề, phương pháp nghiên cứu
khoa học đến những công việc cụ thể trong luận văn này.
Xin chân thành cảm ơn tất cả quý Thầy Cô trong Khoa Khoa học và Kỹ thuật Máy
tính đã tận tình truyền đạt những kiến thức quý báu cho tôi trong suốt quá trình học tập.
Cuối cùng, con xin cảm ơn Ba Mẹ đã tạo mọi điều kiện để con có thể tiếp tục học
tập và nghiên cứu. Con trân trọng dành tặng thành quả của luận văn này cho Ba Mẹ và cả
gia đình, những người đã ln bên con.

VƯƠNG BÁ THỊNH - 09070465

ii


LUẬN VĂN CAO HỌC

TÓM TẮT

Dữ liệu chuỗi thời gian tồn tại rất nhiều trong các lĩnh vực của đời sống… Nhu
cầu khai phá dữ liệu chuỗi thời gian ngày càng tăng, trong đó gom cụm dữ liệu chuỗi thời
gian cũng là một lĩnh vực rất được quan tâm. Đề tài này sẽ đi sâu về vấn đề gom cụm dữ
liệu chuỗi thời gian. Giải thuật gom cụm phổ biến nhất hiện nay là k-Means, tuy nhiên
giải thuật vẫn còn nhiều hạn chế và không dễ sử dụng đối với dữ liệu chuỗi thời gian.
Chúng tôi đã đề xuất một phương pháp thu giảm số chiều xấp xỉ tuyến tính từng đoạn
PLA đa mức phân giải cũng như tích hợp phương pháp thu giảm số chiều này vào giải
thuật I-k-Means để cải tiến chất lượng lời giải và thời gian thực thi việc gom cụm. Ngoài
ra đề tài cũng nghiên cứu ứng dụng cấu trúc kd-tree vào vấn đề khởi tạo trung tâm cụm
ban đầu (đây là một nhược điểm chính của giải thuật k-Means), đồng thời ứng dụng kỹ
thuật khởi tạo trung tâm cụm dựa trên phương sai có cải tiến để nâng cao hiệu quả của
giải thuật I-k-Means. Thực nghiệm cho thấy kết quả về chất lượng lời giải của giải thuật
I-k-Means có khởi tạo trung tâm cụm ban đầu bằng cả 2 phương pháp đều khá tốt.

VƯƠNG BÁ THỊNH - 09070465

iii


LUẬN VĂN CAO HỌC

ABSTRACT
Time series data exist in many areas of life ... The demand for data mining time
series is increasing, which cluster the time series data is also a very interesting field. This
research will delve on the issue clustering time series data. Clustering algorithm is
currently the most popular k-Means, but many algorithms are still limited and not easy to
use for time series data. We have proposed a method of reducing the dimensionality
linear approximations PLA segment resolution as well as multi-level integrated approach
to reduce this dimension Ik-Means algorithm to improve solution quality and run time. In
addition the project also applied research kd-tree structure on the problem started the

initial cluster centers (this is a major drawback of k-Means algorithm), and engineering
applications initialized cluster centers variance is based on enhancements to improve the
efficiency of Ik-Means algorithm. Experimental results show that the solution quality of
Ik-Means algorithm have created the initial cluster centers by the two methods are quite
good.

VƯƠNG BÁ THỊNH - 09070465

iv


LUẬN VĂN CAO HỌC

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................. i
LỜI CẢM ƠN ................................................................................................................. ii
TÓM TẮT ...................................................................................................................... iii
ABSTRACT ................................................................................................................... iv
MỤC LỤC ....................................................................................................................... v
DANH MỤC HÌNH......................................................................................................... x
DANH MỤC BẢNG .................................................................................................... xiii
CHƯƠNG 1: PHÁT BIỂU VẤN ĐỀ ............................................................................... 1
1.1. Dữ liệu chuỗi thời gian: ......................................................................................... 1
1.2. Bài toán gom cụm dữ liệu (data clustering) ........................................................... 2
1.3. Những yêu cầu đòi hỏi cho gom cụm dữ liệu chuỗi thời gian ................................ 3
1.4. Mục tiêu nghiên cứu của đề tài .............................................................................. 4
1.5. Tóm lược những kết quả đã đạt được .................................................................... 5
1.6. Cấu trúc luận văn .................................................................................................. 5
CHƯƠNG 2: TỔNG QUAN CÁC CƠNG TRÌNH LIÊN QUAN .................................... 7
2.1. Độ đo tương tự ...................................................................................................... 7

2.1.1. Độ đo Minkowski ........................................................................................... 8
2.1.2. Phương pháp xoắn thời gian động (Dynamic Time Warping - DTW) ........... 10
2.2. Các phương pháp thu giảm số chiều .................................................................... 13
2.2.1. Phương pháp biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) ... 14

VƯƠNG BÁ THỊNH - 09070465

v


LUẬN VĂN CAO HỌC

2.2.2. Phương pháp biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT)
............................................................................................................................... 15
2.2.3. Phương pháp xấp xỉ gộp từng đoạn (Piecewise Aggregate Approximation PAA) ...................................................................................................................... 15
2.2.4. Phương pháp xấp xỉ hằng số từng đoạn thích nghi (Adaptive Piecewise
Constant Approximation - APCA) .......................................................................... 16
2.2.5. Phương pháp xấp xỉ tuyến tính từng đoạn (Piecewise Linear Approximation PLA) ...................................................................................................................... 17
a. Tìm đường thẳng tốt nhất qua một tập điểm .................................................... 18
b. Giải thuật Sliding Window .............................................................................. 19
c. Giải thuật Top-Down ...................................................................................... 20
d. Giải thuật Bottom-Up...................................................................................... 22
e. Nhận xét về giải thuật Sliding Window, Top-Down, và Bottom-Up ................ 23
f. Kỹ thuật lập chỉ mục STB-indexing ................................................................. 26
g. Lập chỉ mục dựa trên cây R-tree...................................................................... 27
2.3. Gom cụm dữ liệu chuỗi thời gian ........................................................................ 30
2.3.1. Gom cụm dữ liệu thường .............................................................................. 30
a. Phương pháp phân hoạch (Partitioning method) .............................................. 30
b. Phương pháp phân cấp (Hierarchical method) ................................................. 32
c. Các phương pháp gom cụm khác ..................................................................... 35

2.3.2. Gom cụm dữ liệu chuỗi thời gian .................................................................. 35
a. Tổng quan về gom cụm dữ liệu chuỗi thời gian ............................................... 36
b. Gom cụm dữ liệu chuỗi thời gian chứng khoán ............................................... 36
c. Gom cụm dữ liệu chuỗi thời gian bằng Haar wavelet và k-Means ................... 37
d. Giải thuật I-k-Means ....................................................................................... 38

VƯƠNG BÁ THỊNH - 09070465

vi


LUẬN VĂN CAO HỌC

2.4. Các cải tiến cho giải thuật k-Means ..................................................................... 39
2.4.1. Ứng dụng kd-tree để cải tiến giải thuật k-Means ........................................... 39
a. Cấu trúc kd-tree............................................................................................... 39
b. Giải thuật ứng dụng kd-tree để giảm thiểu việc tính tốn cho giải thuật k-Means
........................................................................................................................... 41
c. Giải thuật khởi tạo trung tâm cụm ban đầu dựa trên kd-tree ............................ 43
2.4.2. Các phương pháp khởi tạo trung tâm cụm khác ............................................ 44
a. Bốn phương pháp khởi tạo lời giải ban đầu phổ biến ....................................... 44
b. Giải thuật mô phỏng luyện kim (SA), giải thuật di truyền (GA) và việc khởi tạo
k trung tâm ban đầu ............................................................................................. 45
c. Giải thuật tinh chế ........................................................................................... 46
d. Giải thuật dựa trên phương sai ........................................................................ 47
2.5. Trực quan hóa dữ liệu chuỗi thời gian ................................................................. 47
2.5.1. TimeSearcher ................................................................................................ 47
2.5.2. Cluster and Calendar-Based Visualization .................................................... 48
2.5.3. Spiral – đường xoắn ốc ................................................................................. 49
2.5.4. Viztree .......................................................................................................... 49

CHƯƠNG 3: CƠ SỞ LÝ THUYẾT............................................................................... 52
3.1. Giải thuật k-Means .............................................................................................. 52
3.2. Haar Wavelet đa mức phân giải và giải thuật I-k-Means ...................................... 53
3.3. PLA đa mức phân giải ......................................................................................... 58
3.4. Phương pháp đo khoảng cách giữa 2 chuỗi thời gian đã tuyến tính hóa ............... 59
3.5. Giải thuật sử dụng kd-tree để khởi tạo trung tâm cụm ban đầu ............................ 62
3.5.1. Cấu trúc kd-tree ............................................................................................ 62

VƯƠNG BÁ THỊNH - 09070465

vii


LUẬN VĂN CAO HỌC

3.5.2. Giải thuật khởi tạo trung tâm cụm bằng kd-tree ............................................ 64
3.6. Kỹ thuật khởi tạo trung tâm cụm ban đầu dựa trên phương sai có cải tiến ........... 67
3.7. Vấn đề chọn giá trị k tối ưu ................................................................................. 70
3.8. Đánh giá chất lượng lời giải gom cụm ................................................................. 71
CHƯƠNG 4: HỆ THỐNG GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN .................... 74
4.1. Đặt vấn đề ........................................................................................................... 74
4.2. Cách giải quyết vấn đề ........................................................................................ 74
4.2.1. Chuẩn hóa dữ liệu ......................................................................................... 76
4.2.2. Thu giảm số chiều bằng PLA đa mức phân giải ............................................ 76
4.2.3. Xây dựng kd-tree và khởi tạo trung tâm cụm ban đầu dựa trên kd-tree.......... 77
4.2.4. Khởi tạo trung tâm cụm ban đầu dựa trên phương sai có cải tiến .................. 78
4.2.5. Gom cụm bằng giải thuật k-Means ............................................................... 78
4.2.6. Gom cụm bằng giải thuật I-k-Means ............................................................. 78
4.2.7. Đánh giá chất lượng lời giải gom cụm .......................................................... 79
4.2.8. Trực quan hóa kết quả................................................................................... 79

4.3. Kết luận............................................................................................................... 80
CHƯƠNG 5: THỰC NGHIỆM ..................................................................................... 83
5.1. Kết quả thực nghiệm ........................................................................................... 83
5.1.1. Dữ liệu Heterogeneous (Phức hợp) ............................................................... 83
5.1.2. Tập dữ liệu chứng khoán............................................................................... 88
5.2. Kết luận............................................................................................................... 90
CHƯƠNG 6: KẾT LUẬN ............................................................................................. 92
6.1. Tổng kết .............................................................................................................. 92

VƯƠNG BÁ THỊNH - 09070465

viii


LUẬN VĂN CAO HỌC

6.2. Những đóng góp của đề tài .................................................................................. 93
6.3. Hướng phát triển ................................................................................................. 93
BÀI BÁO KHOA HỌC CÔNG BỐ ............................................................................... 94
TÀI LIỆU THAM KHẢO ............................................................................................. 95
PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT ..................................... A
PHỤ LỤC 2: LÝ LỊCH TRÍCH NGANG ........................................................................C

VƯƠNG BÁ THỊNH - 09070465

ix


LUẬN VĂN CAO HỌC


DANH MỤC HÌNH
Hình 1.1. Đường biểu diễn dữ liệu chuỗi thời gian........................................................... 2
Hình 1.2. Kết quả gom cụm của dữ liệu 2 chiều ............................................................... 3
Hình 2.1. Minh họa 2 đường giống nhau, nhưng đường cơ bản khác nhau [17] ............... 9
Hình 2.2. Minh họa 2 đường giống nhau, nhưng biên độ dao động khác nhau [17] .......... 9
Hình 2.3. Hai phương pháp độ đo tương tự (a) Euclid và (b) DTW [18] ........................ 11
Hình 2.4. Cách tính khoảng cách theo DTW .................................................................. 12
Hình 2.5. Phép biến đổi DFT và DWT [16] ................................................................... 16
Hình 2.6. Minh họa phép biến đổi APCA, PAA và PLA [16] ........................................ 17
Hình 2.7. Minh họa 2 dạng đoạn thẳng trong biến đổi PLA [8] ...................................... 18
Hình 2.8. Giải thuật Sliding Window [8] ....................................................................... 21
Hình 2.9. Giải thuật Top-Down [8] ................................................................................ 22
Hình 2.10. Giải thuật Bottom-Up [8] ............................................................................. 23
Hình 2.11. Minh họa cho việc tạo một bin [12] .............................................................. 27
Hình 2.12. Mơ tả khoảng cách giữa các chuỗi con trong Bin 1011 [12] ......................... 28
Hình 2.13. Sự phân chia các MBR và cây R-tree tương ứng [32] ................................... 29
Hình 2.14. Giải thuật k-Means ....................................................................................... 31
Hình 2.15. Giải thuật k-Medoids .................................................................................... 32
Hình 2.16. Minh họa quá trình gom cụm phân cấp [24] ................................................. 34
Hình 2.17. Phương pháp phân cấp theo hướng từ dưới lên (HAC) ................................. 34
Hình 2.18. Ba hướng tiếp cận gom cụm dữ liệu chuỗi thời gian [14] ............................. 37
Hình 2.19. Giải thuật I-k-Means [11] ............................................................................. 38
VƯƠNG BÁ THỊNH - 09070465

x


LUẬN VĂN CAO HỌC

Hình 2.20. Dữ liệu 2 chiều được lưu trữ trên 2-d tree (biểu diễn dạng box) [15] ............ 40

Hình 2.21. Biểu diễn dữ liệu 2 chiều dạng cây nhị phân [15] ......................................... 40
Hình 2.22. Giải thuật duyệt cây [13] .............................................................................. 42
Hình 2.23. Giải thuật tỉa cây (Pruning) [13] ................................................................... 44
Hình 2.24. Phương pháp khởi tạo trung tâm cụm KA [20] ............................................. 46
Hình 2.25. Minh họa về TimeSearcher [29] ................................................................... 48
Hình 2.26. Minh họa về hệ thống trực quan hóa các cụm và dựa trên lịch [10] .............. 49
Hình 2.27. Giá cổ phiếu của cơng ty Microsoft (màu vàng) và Sun Microsystems (màu
đỏ) trong 5 năm [30] ...................................................................................................... 50
Hình 2.28. Minh họa Viztree [31] .................................................................................. 50
Hình 2.29. Minh họa phương pháp SAX [31] ................................................................ 51
Hình 3.1. Giải thuật k-Means ......................................................................................... 53
Hình 3.2. Minh họa các bước chạy giải thuật k-Means với 3 cụm [35] ........................... 54
Hình 3.3. Sự phân cấp của chuỗi dữ liệu x có chiều dài n (lũy thừa của 2) [11] ............. 55
Hình 3.4. Áp dụng k-Means ở các mức phân giải khác nhau [11] .................................. 57
Hình 3.5. Giải thuật I-k-Means [11] ............................................................................... 58
Hình 3.6. Quá trình cắt slice [12] ................................................................................... 60
Hình 3.7. Lát cắt và các đường thẳng ảo [12] ................................................................. 61
Hình 3.8. Giải thuật xây dựng cây kd-tree cân bằng [36] ............................................... 63
Hình 3.9. Cây kd-tree được xây dựng từ giải thuật trong hình 3.8 [36] .......................... 64
Hình 3.10. Giải thuật khởi tạo các trung tâm cụm ban đầu dựa trên kd-tree [21] ............ 65
Hình 3.11. Giải thuật khởi tạo trung tâm cụm ban đầu dựa trên phương sai [26] ............ 67
Hình 3.12. Minh họa giải thuật khởi tạo trung tâm cụm của Al-Daoud [26] ................... 68
Hình 3.13. Giải thuật khởi tạo trung tâm cụm ban đầu dựa trên phương sai có cải tiến .. 69
VƯƠNG BÁ THỊNH - 09070465

xi


LUẬN VĂN CAO HỌC


Hình 3.14. Minh họa giải thuật khởi tạo trung tâm cụm dựa trên phương sai có cải tiến 70
Hình 4.1. Quá trình gom cụm dữ liệu chuỗi thời gian .................................................... 75
Hình 4.2. Kiến trúc tổng quát của mơ hình..................................................................... 76
Hình 4.3. Giải thuật tạo cây kd-tree ............................................................................... 77
Hình 4.4. Trực quan hóa kết quả gom cụm ở mức 1 ....................................................... 80
Hình 4.5. Trực quan hóa kết quả gom cụm ở mức 2 ....................................................... 81
Hình 5.1. Tập dữ liệu Heterogeneous ............................................................................. 84
Hình 5.2. Kết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Heterogeneous) ............ 86
Hình 5.3. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu
Heterogeneous) k-Means vs I-k-Means .......................................................................... 87
Hình 5.4. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu
Heterogeneous) k-Means vs I-k-Means + kd-tree........................................................... 87
Hình 5.5. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu
Heterogeneous) k-Means vs I-k-Means + Variance........................................................ 88
Hình 5.6. Kết quả đánh giá dựa trên số lần lặp (tập dữ liệu Heterogeneous) ................... 89
Hình 5.7. Kết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Chứng khoán) ............... 89
Hình 5.8. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Chứng
khốn) ........................................................................................................................... 90

VƯƠNG BÁ THỊNH - 09070465

xii


LUẬN VĂN CAO HỌC

DANH MỤC BẢNG
Bảng 3.1. Các mức phân giải của phương pháp PLA đa mức phân giải.......................... 59
Bảng 5.1. Các tiêu chí đánh giá gom cụm với 1000 mẫu sữ liệu (tập dữ liệu
Heterogeneous) .............................................................................................................. 85

Bảng 5.2. Kết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Heterogeneous) ............ 85
Bảng 5.3. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu
Heterogeneous) .............................................................................................................. 86
Bảng 5.4. Kết quả đánh giá dựa trên số lần lặp (tập dữ liệu Heterogeneous) .................. 88

VƯƠNG BÁ THỊNH - 09070465

xiii


LUẬN VĂN CAO HỌC

CHƯƠNG 1: PHÁT BIỂU VẤN ĐỀ
Chương này giới thiệu về yêu cầu, mục tiêu của đề tài và giới thiệu cơ sở lý thuyết
của đề tài. Đồng thời lý luận trên tính cấp thiết trong nghiên cứu và thực tiễn, đòi hỏi phải
thực hiện đề tài.

1.1. Dữ liệu chuỗi thời gian:
Có nhiều định nghĩa về dữ liệu chuỗi thời gian (Time Series):
 Dữ liệu chuỗi thời gian là tập hợp các dữ liệu được quan sát tuần tự theo
thời gian.
 Dữ liệu chuỗi thời gian là dãy các thay đổi trên các khoản thời gian bằng
nhau.
 Dữ liệu chuỗi thời gian là một dãy các điểm dữ liệu được đo ở các thời
điểm liên tiếp nhau và cách nhau một khoảng thời gian cố định.
Dữ liệu chuỗi thời gian có thể được xem là một tập hợp dữ liệu hai chiều, với các
giá trị tương ứng là (T, X), trong đó T là thời điểm giá trị được xác định, X là giá trị quan
sát tương ứng. Tuy nhiên, khoảng thời gian quan sát là bằng nhau nên có thể khơng quan
tâm đến T. Lúc này chuỗi thời gian có thể xem là dữ liệu n chiều, được kí hiệu là X = x2 x3 ... xn>. Dữ liệu chuỗi thời gian có số chiều rất lớn và xuất hiện trong rất nhiều lĩnh

vực như y khoa, kinh tế, kỹ thuật, tài chính… Hình 1.1 dưới đây trình bày đường cong
biểu diễn chuỗi thời gian.
Những khó khăn và thách thức khi nghiên cứu dữ liệu chuỗi thời gian:
 Dữ liệu rất lớn: dữ liệu điện tâm đồ trong một giờ có thể lên đến 1
Gigabyte, dữ liệu truy cập trên một website khoảng 5 Gigabyte/1 tuần.

VƯƠNG BÁ THỊNH - 09070465

1


LUẬN VĂN CAO HỌC

 Phụ thuộc nhiều vào cách đánh giá độ tương tự: định nghĩa độ tương tự phụ
thuộc vào người dùng, tập dữ liệu, miền bài toán…
 Dữ liệu thường không đồng nhất: định dạng của các loại dữ liệu khác nhau,
tần số lấy mẫu khác nhau, bị nhiễu, thiếu một vài giá trị, dữ liệu khơng
sạch…

Hình 1.1. Đường biểu diễn dữ liệu chuỗi thời gian

1.2. Bài toán gom cụm dữ liệu (data clustering)
Gom cụm dữ liệu là quá trình phân loại các mẫu thành một tập các nhóm dựa trên
một hàm đo khoảng cách nào đó, sao cho các phần tử trong cùng một nhóm sẽ rất giống
nhau, các phần tử trong các nhóm khác sẽ rất khác nhau. Hình 1.2 minh họa cho kết quả
gom cụm dữ liệu trên không gian 2 chiều.
Giải thuật gom cụm phổ biến nhất hiện nay là giải thuật k-Means, do giải thuật kMeans dễ hiện thực và có thời gian thực thi khá nhanh. Ý tưởng của giải thuật này cho
trước một số nguyên dương k, với k là số cụm cần gom. Đầu tiên, ta chọn ngẫu nhiên k
đối tượng trong không gian dữ liệu làm các trung tâm cụm ban đầu, sau đó duyệt qua các


VƯƠNG BÁ THỊNH - 09070465

2


LUẬN VĂN CAO HỌC

đối tượng dữ liệu còn lại và dựa trên một hàm tính khoảng cách để gán các đối tượng này
vào cụm có trung tâm cụm gần nó nhất, sau đó tính tốn lại trung tâm cụm và duyệt qua
tất cả các đối tượng dữ liệu để gán lại vào cụm hợp lý cho đến khi khơng có phép gán nào
được thực hiện nữa thì giải thuật dừng.

Hình 1.2. Kết quả gom cụm của dữ liệu 2 chiều

1.3. Những yêu cầu đòi hỏi cho gom cụm dữ liệu chuỗi thời gian
Bài toán gom cụm dữ liệu chuỗi thời gian tập trung xây dựng một phương pháp
gom cụm nhanh chóng và tin cậy trên một tập dữ liệu chuỗi thời gian lớn. Có thể nói việc
gom cụm là một hoạt động quan trọng. Như chúng ta đã biết, ngay từ lúc còn nhỏ chúng
ta đã học cách để phân biệt sự khác nhau giữa con mèo và con chó, giữa thực vật và động
vật…Thì ngày nay bằng việc gom cụm một cách tự động và tận dụng những phương tiện
sẵn có, cho chúng ta thấy được tầm ảnh hưởng của việc gom cụm dữ liệu như thế nào.
Gom cụm dữ liệu được sử dụng rộng rãi trong nhiều lĩnh vực như:
 Lĩnh vực tài chính: phân tích thị trường chứng khốn, nhận diện mẫu, phân
tích dữ liệu.
 Lĩnh vực máy tính: nhận diện ảnh, thống kê dữ liệu,...
VƯƠNG BÁ THỊNH - 09070465

3



LUẬN VĂN CAO HỌC

 Trong kinh doanh, việc gom cụm đã giúp những nhà tiếp thị khám phá ra
những khách hàng tiềm năng dựa vào những đặc điểm của họ.
 Lĩnh vực sinh học: phân loại động vật và thực vật, gom những gen có chức
năng tương tự nhau vào một cụm.
Gom cụm dữ liệu là một thử thách trong lĩnh vực nghiên cứu, do đó nó phải tuân
theo một số yêu cầu, chẳng hạn như: khả năng mở rộng, làm việc trên nhiều loại dữ
liệu… Ngoài ra các giải thuật gom cụm phổ biến (như giải thuật k-Means) khi áp dụng
vào dữ liệu chuỗi thời gian gặp phải hai vấn đề khó khăn sau:
 Số chiều hay đặc trưng của dữ liệu chuỗi thời gian là rất lớn nên việc gom
cụm bằng phương pháp thông thường sẽ tốn rất nhiều thời gian và tài
nguyên.
 Với việc chọn ngẫu nhiên k trung tâm như giải thuật k-Means dẫn đến vấn
đề là chất lượng lời giải cũng như thời gian thực thi thường phụ thuộc vào
kết quả của việc chọn các trung tâm cụm ban đầu này.

1.4. Mục tiêu nghiên cứu của đề tài
Mục tiêu nghiên cứu của đề tài trên cơ sở dữ liệu chuỗi thời gian tập trung vào các
nội dung sau:
 Nghiên cứu cải tiến phương pháp thu giảm số chiều xấp xỉ tuyến tính từng
đoạn PLA (piecewise linear approximation) thành PLA đa mức phân giải
(multi-resolution), sau đó áp dụng giải thuật I-k-Means để gom cụm dữ liệu
chuỗi thời gian.
 Nghiên cứu ứng dụng kd-tree để khởi tạo trung tâm cụm ban đầu cho giải
thuật I-k-Means gom cụm dữ liệu chuỗi thời gian.

VƯƠNG BÁ THỊNH - 09070465

4



LUẬN VĂN CAO HỌC

 Ứng dụng giải thuật khởi tạo trung tâm cụm dựa trên phương sai để cải tiến
giải thuật I-k-Means.
 Trực quan hóa kết quả gom cụm dữ liệu chuỗi thời gian.

1.5. Tóm lược những kết quả đã đạt được
Chúng tôi đã sử dụng cấu trúc kd-tree để khởi tạo trung tâm cụm ban đầu cho giải
thuật I-k-Means, đồng thời áp dụng phương pháp khởi tạo trung tâm cụm ban đầu dựa
trên phương sai cho giải thuật I-k-Means, và đề xuất một phương pháp thu giảm số chiều
PLA đa mức phân giải để có thể áp dụng giải thuật I-k-Means, kết quả thu được là chất
lượng lời giải khi khởi tạo trung tâm cụm có sử dụng cấu trúc kd-tree và phương pháp
khởi tạo trung tâm cụm dựa trên phương sai tốt hơn về chất lượng lời giải lẫn thời gian
thực thi so với giải thuật k-Means và I-k-Means khởi tạo trung tâm cụm ban đầu một
cách ngẫu nhiên, trong đó phương pháp khởi tạo trung tâm cụm ban đầu dựa trên phương
sai có thời gian thực thi nhanh nhất. Xây dựng được một phương pháp trực quan hóa kết
quả gom cụm phù hợp với tập dữ liệu lớn.

1.6. Cấu trúc luận văn
Tổ chức của phần còn lại của luận văn như sau:
Chương 2 là tổng quan về các cơng trình liên quan. Phần này trình bày về các độ
đo tương tự, các kỹ thuật thu giảm số chiều, giới thiệu về các giải thuật gom cụm dữ liệu
chuỗi thời gian, các cải tiến cho giải thuật k-Means, các cách trực quan hóa dữ liệu chuỗi
thời gian.
Chương 3 trình bày cơ sở lý thuyết để thực hiện đề tài, trong phần này sẽ trình bày
về giải thuật k-Means, giải thuật I-k-Means, phương pháp thu giảm số chiều PLA đa mức
phân giải, cách đo khoảng cách giữa 2 chuỗi thời gian đã tuyến tính hóa, cấu trúc kd-tree,
giải thuật sử dụng kd-tree để khởi tạo trung tâm cụm, giải thuật khởi tạo trung tâm cụm

VƯƠNG BÁ THỊNH - 09070465

5


LUẬN VĂN CAO HỌC

dựa trên phương sai có cải tiến, vấn đề chọn k (số lượng cụm) tối ưu, và cách đánh giá
chất lượng lời giải gom cụm.
Chương 4 trình bày về hệ thống gom cụm dữ liệu chuỗi thời gian của chúng tơi.
Chương 5 trình bày các kết quả thực nghiệm.
Chương 6 trình bày kết luận và hướng mở rộng của đề tài.

VƯƠNG BÁ THỊNH - 09070465

6


LUẬN VĂN CAO HỌC

CHƯƠNG 2: TỔNG QUAN CÁC CƠNG TRÌNH LIÊN QUAN
Chương này trình bày về các cơng trình liên quan đã được nghiên cứu bao gồm
các cơng trình về độ đo tương tự, các phương pháp thu giảm số chiều, và các phương
pháp gom cụm dữ liệu chuỗi thời gian, các cải tiến cho giải thuật k-Means, và các cách
trực quan hóa dữ liệu chuỗi thời gian.

2.1. Độ đo tương tự
Để giải bài tốn tìm kiếm gom cụm và các bài tốn khác thì việc tính khoảng các
để đánh giá độ tương tự của hai đối tượng X, Y là rất quan trọng. Trong trường hợp 2 đối
tượng này giống nhau thì khoảng cách này sẽ là 0 và ngược lại càng khác nhau thì

khoảng cách càng lớn. Gọi D(X,Y) là khoảng cách giữa hai đối tượng X, Y, ta có các tính
chất sau:
1. D(x,y) = 0 nếu và chỉ nếu x = y
2. D(x,y) = D(y,x)
3. D(x,y) >= 0 với mọi x, y
4. D(x,y) < D(x,z) + D(y,z)
Trong 4 tính chất trên, ta thấy tính chất 1 và 2 là rất trực quan. Tính chất 3 cũng rất
cần thiết. Nếu khoảng cách có thể nhỏ hơn 0 thì hai đối tượng khác nhau gồm nhiều
thành phần nhưng tổng khoảng cách của các thành phần có thể bằng 0. Điều này là trái
với tính chất 1. Tính chất cịn lại - tính chất 4 - khơng phải là tính chất bắt buộc nhưng
cũng rất hợp lý.

VƯƠNG BÁ THỊNH - 09070465

7


LUẬN VĂN CAO HỌC

Cho hai chuỗi dữ liệu thời gian X= <x1 x2 … xn> và Y = <y1 y2 …yn>, độ tương tự
của X và Y được kí hiệu là Sim(X, Y). Sau đây là một số phương pháp dùng để xác định
độ tương tự của hai chuỗi thời gian.
2.1.1. Độ đo Minkowski
Trong phương pháp này thì Sim(X, Y) được định nghĩa:
n

Sim( X , Y )  p  ( x  y )
i
i
1


p

Trong đó:
 p = 1 (Manhattan)
 p = 2 (Euclid) (được dùng nhiều nhất)
 p = ∞ (Max)
Ưu điểm:
 Rất dễ hiểu và dễ tính tốn.
 Nó có khả năng mở rộng cho nhiều bài tốn khác nhau như lập chỉ mục,
gom cụm… Đặc biệt, cách tính này rất phù hợp khi ta sử dụng các phép
biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) hay phép biến
đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT).
Nhược điểm:
 Nhạy cảm với nhiễu.
 Khơng thích hợp khi dữ liệu có đường căn bản (base line) khác nhau (Hình
2.1): ví dụ như giá chứng khống của A và B thay đổi rất giống nhau nhưng
VƯƠNG BÁ THỊNH - 09070465

8


LUẬN VĂN CAO HỌC

A giao động ở 100 còn B giao động ở mức 40. Như vậy A và B là rất khác
nhau mặc dù hình dáng rất giống nhau.
 Khơng thích hợp khi dữ liệu có biên độ dao động khác nhau (Hình 2.2):
Trong trường hợp giá chứng khốn của 2 công ty A và B thay đổi rất giống
nhau nhưng mà biên độ giao động của A là 20 và 80 còn biên độ giao động
của B là 30 và 50 thì độ tương tự của A và B là rất khác nhau.


Hình 2.1. Minh họa 2 đường giống nhau, nhưng đường cơ bản khác nhau [17]

Hình 2.2. Minh họa 2 đường giống nhau, nhưng biên độ dao động khác nhau [17]

VƯƠNG BÁ THỊNH - 09070465

9


×