Tải bản đầy đủ (.pdf) (85 trang)

Kết hợp giải thuật gom cụm dựa vào độ dốc tích lũy có trọng số và k means để gom cụm dữ liệu chuỗi thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.37 MB, 85 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA


ĐẶNG THANH HÙNG

KẾT HỢP GIẢI THUẬT GOM CỤM
DỰA VÀO ĐỘ DỐC TÍCH LŨY CĨ TRỌNG SỐ
VÀ K-MEANS ĐỂ GOM CỤM DỮ LIỆU
CHUỖI THỜI GIAN

NGÀNH: KHOA HỌC MÁY TÍNH
MÃ NGÀNH: 60.48.01.01

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, 12/2015


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG –HCM

Cán bộ hướng dẫn khoa học: PGS.TS. Dương Tuấn Anh
Cán bộ chấm nhận xét 1: TS. Võ Thị Ngọc Châu
Cán bộ chấm nhận xét 2: PGS.TS. Đỗ Phúc
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM vào
ngày 29 tháng 12 năm 2015.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch: GS.TS. Cao Hoàng Trụ
2. Thư ký: TS. Nguyễn Đức Dũng


3. Phản biện 1: TS. Võ Thị Ngọc Châu
4. Phản biện 2: PGS.TS. Đỗ Phúc
5. Ủy viên: TS. Trần Minh Quang
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA KHOA HỌC MÁY TÍNH


ĐẠI HỌC QUỐC GIA TP.HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: ĐẶNG THANH HÙNG

MSHV: 13070234

Ngày, tháng, năm sinh: 04/07/1981

Nơi sinh: Long An

Chuyên ngành: Khoa Học Máy Tính

Mã số: 60480101


I. TÊN ĐỀ TÀI: Kết hợp giải thuật gom cụm dựa vào độ dốc tích lũy có trọng số
và k-Means để gom cụm dữ liệu chuỗi thời gian.
II. NHIỆM VỤ VÀ NỘI DUNG:
Nghiên cứu phương pháp gom cụm dựa vào độ dốc tích lũy có trọng số, đề xuất
phương pháp khởi tạo trung tâm cụm ban đầu dựa vào độ dốc tích lũy có trọng số.
Xây dựng hệ thống kết hợp giải thuật gom cụm dựa vào độ dốc tích lũy có trọng
số và k-Means để gom cụm dữ liệu chuỗi thời gian.
Hiện thực và thực nghiệm để đánh giá hiệu quả của phương pháp đề xuất trên dữ
liệu Heterogeneous và dữ liệu chứng khoán.
III. NGÀY GIAO NHIỆM VỤ : 06/07/2015
IV. NGÀY HOÀN THÀNH NHIỆM VỤ : 04/12/2015
V. CÁN BỘ HƯỚNG DẪN: PGS.TS. Dương Tuấn Anh
Tp. HCM, ngày ….. tháng …… năm 2015
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

PGS.TS. Dương Tuấn Anh
TRƯỞNG KHOA KHOA HỌC MÁY TÍNH
(Họ tên và chữ ký)


LUẬN VĂN CAO HỌC

LỜI CẢM ƠN
Tôi xin gởi lời cảm ơn chân thành và sâu sắc đến PGS.TS.Dương Tuấn Anh,
Thầy đã tận tình hướng dẫn, định hướng cho tơi từ cách đặt vấn đề, phương pháp
nghiên cứu khoa học đến những công việc cụ thể trong luận văn này.
Xin chân thành cảm ơn tất cả quý Thầy Cô trong Khoa Khoa Học Máy Tính
đã tận tình truyền đạt kiến thức cho tơi trong suốt q trình học tập.

Tơi cũng xin cảm ơn gia đình, bạn bè đã động viên và tạo mọi điều kiện tốt
nhất để tơi có thể hồn thành luận văn này.

ĐẶNG THANH HÙNG

i


LUẬN VĂN CAO HỌC

TÓM TẮT LUẬN VĂN
Gom cụm dữ liệu thời gian là một công tác khai thác dữ liệu quan trọng
trong rất nhiều lĩnh vực như y học, tài chính ngân hàng, hệ thống bán hàng, dự báo
thời tiết, chứng khốn... Nó là một hướng nghiên cứu rất quan trọng và thách thức
vì dữ liệu chuỗi thời gian thì số chiều rất lớn việc khai thác dữ liệu chuỗi thời gian
cần phải thỏa mãn tính hữu hiệu (có độ phức tạp thấp) và đảm bảo kết quả đúng.
Giải thuật gom cụm dữ liệu thời gian phổ biến nhất hiện nay là giải thuật kMeans, do giải thuật k-Means dễ hiện thực và có thời gian thực thi nhanh. Tuy
nhiên giải thuật k-Means vẫn còn một số nhược điểm mà nhược điểm chính của giải
thuật k-Means là khởi tạo trung tâm cụm ban đầu ngẫu nhiên. Do đó trong đề tài
này chúng tôi đề xuất phương pháp khởi tạo trung tâm cụm ban đầu dựa vào độ dốc
tích lũy có trọng số (CWS) để cải tiến chất lượng lời giải và thời gian thực thi cho
giải thuật k-Means.
Ngoài ra đề tài cũng nghiên cứu ứng dụng phương pháp thu giảm số chiều
xấp xỉ tuyến tính từng đoạn (PLA) để thu giảm số chiều của dữ liệu thời gian và
nghiên cứu ứng dụng cấu trúc kd-tree vào vấn đề khởi tạo trung tâm cụm ban đầu.
Cuối cùng, chúng tôi so sánh kết quả của các phương pháp dựa trên các tiêu
chí đánh giá và hàm mục tiêu để đánh giá chất lượng gom cụm. Kết quả thực
nghiệm cho thấy giải thuật k-Means có khởi tạo trung tâm cụm ban đầu dựa vào độ
dốc tích lũy có trọng số là giải thuật hiệu quả nhất và lời giải ổn định qua các lần
thực thi, thời gian thực thi không chịu ảnh hưởng nhiều bởi độ lớn của cơ sở dữ

liệu.

ĐẶNG THANH HÙNG

ii


LUẬN VĂN CAO HỌC

ABSTRACT
Clustering time series data is an important data mining task in various
domains such as medicine, finance, banking, sales systems, weather forecasts,
stock... This area of research is very important and challenging because time series
data are often of very high dimensionality. Therefore mining time series data must
satisfy two requirements: low complexity and desirable accuracy.
k-Means algorithm is the simplest and most popular clustering method for
time series data since it is easy-to-implement and its complexity is low. However,
k-means algorithm still has some disadvantages. The major disadvantage of kmeans algorithm is that the cluster centroid initialization randomly can make the
clustering results unstable. Therefore in this thesis, we propose a novel approach for
the cluster centroid initialization based on the cumulative weighted slopes (CWS) in
order to improve clustering quality and speed up the run time for the algorithm.
In addition, the thesis also studied Piecewise Linear Approximation (PLA), a
dimensionality reduction method for time series data and kd-tree structure for
cluster centroid initialization.
Finally, we compare the results of the methods based on objective function
values and/or some clustering quality evaluation criteria. Experimental results show
that the k-Means algorithm combined with the cluster centroid initialization based
on the cumulative weighted slopes (CWS) brings out the best performance in terms
of clustering quality and execution time.


ĐẶNG THANH HÙNG

iii


LUẬN VĂN CAO HỌC

LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác
như đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính
tơi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một
bằng cấp ở trường này hoặc trường khác.
Ngày 04 tháng 12 năm 2015

Đặng Thanh Hùng

ĐẶNG THANH HÙNG

iv


LUẬN VĂN CAO HỌC

MỤC LỤC
LỜI CẢM ƠN .......................................................................................................... i
TÓM TẮT LUẬN VĂN ..........................................................................................ii
ABSTRACT .......................................................................................................... iii
LỜI CAM ĐOAN................................................................................................... iv
MỤC LỤC .............................................................................................................. v
DANH MỤC HÌNH .............................................................................................viii

DANH MỤC BẢNG .............................................................................................. xi
CHƯƠNG 1: PHÁT BIỂU VẤN ĐỀ ....................................................................... 1
1.1. Giới thiệu vấn đề. .......................................................................................... 1
1.2. Bài toán kết hợp giải thuật gom cụm dựa vào độ dốc tích lũy có trọng số và
k-Means để gom cụm dữ liệu chuỗi thời gian. ...................................................... 2
1.3. Mục tiêu nghiên cứu của đề tài. ..................................................................... 3
1.4. Phạm vi nghiên cứu. ...................................................................................... 4
1.5. Phương pháp nghiên cứu. .............................................................................. 4
1.6. Ý nghĩa nghiên cứu. ...................................................................................... 4
1.7. Tóm tắt kết quả đã đạt được. ......................................................................... 5
1.8. Cấu trúc luận văn........................................................................................... 5
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CƠNG TRÌNH LIÊN QUAN .......... 7
2.1. Các độ đo tương tự. ....................................................................................... 7
2.1.1. Độ đo Euclid. .......................................................................................... 7
2.1.2. Phương pháp xoắn thời gian động (Dynamic Time Warping - DTW). ..... 9
2.2. Các phương pháp thu giảm số chiều chuỗi thời gian. ................................... 11
2.2.1. Phương pháp xấp xỉ gộp từng đoạn (Piecewise Aggregate Approximation
- PAA) ............................................................................................................ 12
ĐẶNG THANH HÙNG

v


LUẬN VĂN CAO HỌC

2.2.2. Phương pháp thu giảm số chiều dựa vào độ dốc tích lũy có trọng số
(CWS). ........................................................................................................... 14
2.2.3. Phương pháp xấp xỉ tuyến tính từng đoạn (Piecewise Linear
Approximation - PLA) .................................................................................... 15
2.3. Gom cụm dữ liệu. ........................................................................................ 22

2.3.1. Giới thiệu gom cụm dữ liệu. .................................................................. 22
2.3.2. Ba cách tiếp cận gom cụm dữ liệu chuỗi thời gian. ................................ 22
2.4. Giải thuật k-Means. ..................................................................................... 23
2.5. Giải thuật I-k-Means ................................................................................... 25
2.6. Phương pháp đo khoảng cách giữa 2 chuỗi thời gian đã xấp xỉ tuyến tính từng
đoạn. .................................................................................................................. 27
2.7. Phương pháp khởi tạo trung tâm cụm ban đầu bằng kd-tree......................... 30
2.7.1. Cấu trúc kd-tree..................................................................................... 30
2.7.2. Giải thuật khởi tạo trung tâm cụm bằng kd-tree. .................................... 32
2.8. Đánh giá chất lượng gom cụm. .................................................................... 35
2.9. Kết luận ....................................................................................................... 38
CHƯƠNG 3: PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ. ..................................... 39
3.1. Các vấn đề về gom cụm dữ liệu chuỗi thời gian........................................... 39
3.2. Phương pháp giải quyết vấn đề. ................................................................... 39
3.2.1. Chuẩn hóa dữ liệu. ................................................................................ 41
3.2.2. Thu giảm số chiều bằng PLA đa mức phân giải..................................... 41
3.2.3. Xây dựng kd-tree và khởi tạo trung tâm cụm ban đầu dựa trên kd-tree. . 42
3.2.4. Khởi tạo trung tâm cụm ban đầu dựa dựa vào độ dốc tích lũy có trọng số.
....................................................................................................................... 43
3.2.5. Gom cụm bằng giải thuật k-Means. ....................................................... 43

ĐẶNG THANH HÙNG

vi


LUẬN VĂN CAO HỌC

3.2.7. Đánh giá chất lượng lời giải gom cụm. .................................................. 44
3.2.8. Trực quan hóa kết quả. .......................................................................... 44

3.3. Kết luận ....................................................................................................... 45
CHƯƠNG 4: THỰC NGHIỆM ............................................................................. 46
4.1. Kết quả thực nghiệm ................................................................................... 46
4.1.1. Dữ liệu Heterogeneous (Phức hợp)........................................................ 47
4.1.2. Tập dữ liệu chứng khoán ....................................................................... 52
a. Dữ liệu chứng khoán Việt Nam. ............................................................... 53
b. Dữ liệu chứng khoán Mỹ. ......................................................................... 57
4.2. Kết luận ....................................................................................................... 60
CHƯƠNG 5: KẾT LUẬN ..................................................................................... 62
5.1. Tổng kết. ..................................................................................................... 62
5.2. Những đóng góp của đề tài .......................................................................... 62
5.3. Hướng phát triển ......................................................................................... 63
TÀI LIỆU THAM KHẢO ..................................................................................... 64
PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT ............................ A

ĐẶNG THANH HÙNG

vii


LUẬN VĂN CAO HỌC

DANH MỤC HÌNH
Hình 1.1. Đường biểu diễn một chuỗi thời gian điện tâm đồ [1]............................... 1
Hình 1.2. Kết quả gom cụm của dữ liệu 2 chiều....................................................... 3
Hình 2.1. Minh họa 2 đường giống nhau, nhưng đường cơ bản khác nhau [13] ....... 8
Hình 2.2. Minh họa 2 đường giống nhau, nhưng biên độ dao động khác nhau [13] .. 9
Hình 2.3. Khoảng cách giữa hai đường giống nhau về hình dạng nhưng lệch nhau
về thời gian[13]. ...................................................................................................... 9
Hình 2.4. Cách tính khoảng cách theo DTW .......................................................... 11

Hình 2.5a. Minh họa phương pháp PAA thu giảm thành 2 chiều [17]. ................... 13
Hình 2.5b. Minh họa phương pháp PAA [17]. ....................................................... 13
Hình 2.6. Hai đoạn có cùng giá trị trung bình nhưng khoảng cách Euclid khác nhau.
.............................................................................................................................. 14
Hình 2.7. Minh họa 2 dạng đoạn thẳng trong biến đổi PLA [27] ............................ 16
Hình 2.8. Biểu diễn đường thẳng tốt nhất [40] ....................................................... 17
Hình 2.9. Giải thuật Sliding Window [27] ............................................................. 18
Hình 2.10. Giải thuật Top-Down [27] .................................................................... 20
Hình 2.11. Giải thuật Bottom-Up [27] ................................................................... 21
Hình 2.12. Ba hướng tiếp cận gom cụm dữ liệu chuỗi thời gian [30] ..................... 23
Hình 2.13. Giải thuật k-Means. .............................................................................. 24
Hình 2.14. Minh họa sự thực thi của giải thuật I-k-Means [39]. ............................. 26
Hình 2.15. Các bước chính của giải thuật I-k-Means. ............................................ 27
Hình 2.16. Quá trình cắt slice [33] ......................................................................... 28
Hình 2.17. Lát cắt và các đường thẳng ảo [33]....................................................... 29
Hình 2.18. Giải thuật xây dựng cây kd-tree cân bằng [34] ..................................... 31
Hình 2.19. Cây kd-tree được xây dựng từ giải thuật trong hình 2.18 [34] .............. 32
ĐẶNG THANH HÙNG

viii


LUẬN VĂN CAO HỌC

Hình 2.20. Giải thuật khởi tạo các trung tâm cụm ban đầu dựa trên kd-tree [35].... 33
Hình 3.1 - Các giai đoạn của một quá trình gom cụm tổng quát ............................. 40
Hình 3.2. Kiến trúc tổng quát của hệ thống ............................................................ 41
Hình 3.3. Giải thuật tạo cây kd-tree ....................................................................... 42
Hình 3.4. Khởi tạo trung tâm cụm ban đầu dựa vào dốc tích lũy có trọng số.......... 43
Hình 3.5. Trực quan hóa kết quả gom cụm ............................................................ 44

Hình 4.1. Tập dữ liệu Heterogeneous..................................................................... 47
Hình 4.2 Các tiêu chí đánh giá gom cụm với 500 mẫu dữ liệu (Heterogeneous) .... 48
Hình 4.3. Kết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Heterogeneous) .... 49
Hình 4.4. Kết quả đánh giá dựa trên thời gian thực thi(s) (tập dữ liệu
Heterogeneous) ..................................................................................................... 50
Hình 4.5. Kết quả đánh giá dựa trên số lần lặp (tập dữ liệu Heterogeneous)........... 52
Hình 4.6. Kết quả đánh giá dựa trên hàm mục tiêu (chứng khốn Việt Nam 256
chiều) .................................................................................................................... 53
Hình 4.7. Kết quả đánh giá dựa trên thời gian thực thi (s) (chứng khoán Việt Nam
256 chiều).............................................................................................................. 54
Hình 4.8. Kết quả đánh giá dựa trên số lần lặp (chứng khoán Việt Nam 256 chiều)
.............................................................................................................................. 55
Hình 4.9. Kết quả đánh giá dựa trên hàm mục tiêu (chứng khốn Việt Nam 512
chiều) .................................................................................................................... 56
Hình 4.10. Kết quả đánh giá dựa trên thời gian thực thi (s) (chứng khốn Việt Nam
512 chiều).............................................................................................................. 56
Hình 4.11. Kết quả đánh giá dựa trên số lần lặp (chứng khoán Việt Nam 512 chiều)
.............................................................................................................................. 57
Hình 4.12. Kết quả đánh giá dựa trên hàm mục tiêu (chứng khốn Mỹ) ................. 58
Hình 4.13. Kết quả đánh giá dựa trên thời gian thực thi (s) (chứng khoán Mỹ) ...... 59
ĐẶNG THANH HÙNG

ix


LUẬN VĂN CAO HỌC

Hình 4.14. Kết quả đánh giá dựa trên số lần lặp (chứng khoán Mỹ) ....................... 59

ĐẶNG THANH HÙNG


x


LUẬN VĂN CAO HỌC

DANH MỤC BẢNG
Bảng 4.1. Các tiêu chí đánh giá gom cụm với 500 mẫu dữ liệu (Heterogeneous) ... 49
Bảng 4.2. Kết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Heterogeneous) .... 50
Bảng 4.3. Kết quả đánh giá dựa trên thời gian thực thi(s) (tập dữ liệu
Heterogeneous) ..................................................................................................... 51
Bảng 4.4. Kết quả đánh giá dựa trên số lần lặp (tập dữ liệu Heterogeneous) .......... 51
Bảng 4.5. Kết quả thực nghiệm 500 chuỗi thời gian mỗi chuỗi có 256 chiều ......... 53
Bảng 4.6. Kết quả thực nghiệm 500 chuỗi thời gian mỗi chuỗi có 512 chiều ......... 55
Bảng 4.7. Kết quả thực nghiệm 500 chuỗi thời gian mỗi chuỗi có 256 chiều ......... 58

ĐẶNG THANH HÙNG

xi


LUẬN VĂN CAO HỌC

CHƯƠNG 1: PHÁT BIỂU VẤN ĐỀ
Trong chương này sẽ giới thiệu yêu cầu, mục tiêu và nội dung sơ lược của đề
tài đồng thời cũng nêu lên sự cần thiết để thực hiện đề tài này.
1.1. Giới thiệu vấn đề.
Dữ liệu chuỗi thời gian (time series) là chuỗi trị số thực, mỗi trị biểu diễn
một giá trị đo tại những thời điểm cách đều nhau.


Hình 1.1. Đường biểu diễn một chuỗi thời gian điện tâm đồ [1].

Khai thác dữ liệu thời gian bằng cách gom cụm dữ liệu là một lĩnh vực
nghiên cứu trong nhiều thập kỷ qua. Nó có ứng dụng to lớn trong nhiều lĩnh vực
khác nhau như y học, tài chính ngân hàng, hệ thống bán hàng, dự báo thời tiết,
chứng khoán, khoa học, kỹ thuật...
Có nhiều cơng trình nghiên cứu về gom cụm dữ liệu chuỗi thời gian [2], [3],
[4]. Gom cụm dữ liệu được sử dụng như một cơng cụ phân tích dữ liệu hoặc được
sử dụng trong bước tiền xử lý cho các giải thuật khai phá dữ liệu khác [5]. Gom
cụm cũng được sử dụng để phân lớp trong một số trường hợp [6].

ĐẶNG THANH HÙNG

1


LUẬN VĂN CAO HỌC

Năm 2006, Yang và Wu thực hiện cuộc thăm dò ý kiến từ các nhà nghiên
cứu hàng đầu trong lĩnh vực khai phá dữ liệu và máy học nhằm xác định các hướng
nghiên cứu nào sẽ là quan trọng và thách thức nhất cho các nghiên cứu trong tương
lai thuộc lĩnh vực khai phá dữ liệu. Kết quả khảo sát nêu trong bài báo “10
Challenging Problems in Data Mining Research” cho thấy hướng nghiên cứu về
khai phá dữ liệu chuỗi thời gian được xếp thứ 3 trong 10 hướng nghiên cứu sẽ là
quan trọng và thách thức nhất [7].
Do đó gom cụm dữ liệu thời gian là một cơng trình khai thác dữ liệu quan
trọng trong rất nhiều lĩnh vực nó là một hướng nghiên cứu rất quan trọng và thách
thức vì dữ liệu chuỗi thời gian thì số chiều rất lớn nên việc khai thác dữ liệu chuỗi
thời gian cần phải thỏa mãn tính hữu hiệu (có độ phức tạp tính tốn thấp) và đảm
bảo kết quả đúng. Đây là một thách thức đã thúc đẩy chúng tôi thực hiện nghiên cứu

về lĩnh vực này.
1.2. Bài toán kết hợp giải thuật gom cụm dựa vào độ dốc tích lũy có trọng số và
k-Means để gom cụm dữ liệu chuỗi thời gian.
Gom cụm dữ liệu là quá trình phân loại các mẫu thành một tập các nhóm dựa
trên một hàm đo khoảng cách nào đó, sao cho các phần tử trong cùng một nhóm sẽ
rất giống nhau, các phần tử trong các nhóm khác sẽ rất khác nhau. Hình 1.2 minh
họa cho kết quả gom cụm dữ liệu trên không gian 2 chiều.
Giải thuật gom cụm phổ biến nhất hiện nay đối với dữ liệu chuỗi thời gian là
giải thuật k-Means, do giải thuật k-Means dễ hiện thực và có thời gian thực thi khá
nhanh. Ý tưởng của giải thuật này cho trước một số nguyên dương k, với k là số
cụm cần gom. Đầu tiên, ta chọn ngẫu nhiên k đối tượng trong không gian dữ liệu
làm các trung tâm cụm ban đầu, sau đó duyệt qua các đối tượng dữ liệu còn lại và
dựa trên một hàm tính khoảng cách để gán các đối tượng này vào cụm có trung tâm
cụm gần nó nhất, sau đó tính tốn lại trung tâm cụm và duyệt qua tất cả các đối
tượng dữ liệu để gán lại vào cụm hợp lý cho đến khi khơng có phép gán nào được
thực hiện nữa thì giải thuật dừng.
ĐẶNG THANH HÙNG

2


LUẬN VĂN CAO HỌC

Ý tưởng chính của đề tài này là thực hiện gom cụm dữ liệu chuỗi thời gian
với hai bước (1) dựa vào độ dốc tích lũy có trọng số (Cumulative Weighted Slopes)
[8] để thu giảm số chiều của dữ liệu thời gian từ một dữ liệu N chiều thu giảm thành
một chiều duy nhất, với áp dụng giải thuật k-Means để gom cụm dữ liệu trên thành
các trung tâm cụm ban đầu và (2) áp dụng giải thuật k-Means để gom cụm dữ liệu
thời gian với các trung tâm cụm ban đầu được xác định bởi bước 1.


Hình 1.2. Kết quả gom cụm của dữ liệu 2 chiều

1.3. Mục tiêu nghiên cứu của đề tài.
Mục tiêu nghiên cứu của đề tài trên cơ sở dữ liệu chuỗi thời gian tập trung
vào các nội dung sau:
 Nghiên cứu các phương pháp gom cụm dữ liệu chuỗi thời gian.
 Nghiên cứu độ dốc tích lũy có trọng số.
 Kết hợp giải thuật gom cụm dựa vào độ dốc tích lũy có trọng số và kMeans để gom cụm dữ liệu chuỗi thời gian.
 Nghiên cứu sử dụng kd-tree khởi tạo trung tâm cụm ban đầu.
 Thử nghiệm trên các bộ dữ liệu mẫu và so sánh kết quả của khởi tạo
trung tâm cụm ban đầu ngẫu nhiên, dựa vào kd-tree và khởi tạo trung
tâm cụm ban đầu bằng độ dốc tích lũy có trọng số.
 Trực quan hóa kết quả gom cụm dữ liệu chuỗi thời gian.

ĐẶNG THANH HÙNG

3


LUẬN VĂN CAO HỌC

1.4. Phạm vi nghiên cứu.
Phương pháp thu giảm số chiều dựa vào độ dốc tích lũy có trọng số và kết
hợp giải thuật gom cụm dựa vào độ dốc tích lũy có trọng số và k-Means để gom
cụm dữ liệu chuỗi thời gian.
Dữ liệu phân tích :
 Tập dữ liệu phức hợp Heterogeneous.
 Tập dữ liệu chứng khoán Mỹ.
 Tập dữ liệu chứng khoán Việt Nam.
1.5. Phương pháp nghiên cứu.

Sử dụng kết hợp giữa nghiên cứu lý thuyết và nghiên cứu thực tiễn.
Nghiên cứu lý thuyết: thu thập các thông tin thông qua nghiên cứu các tài
liệu về dữ liệu chuỗi thời gian, các phương pháp gom cụm dữ liệu chuỗi thời gian từ
đó rút ra được phương pháp gom cụm chuỗi thời gian thích hợp.
Nghiên cứu thực tiễn: từ kết quả các cơ sở lý thuyết đã rút ra trong quá trình
nghiên cứu lý thuyết để áp dụng vào thực tế xây dựng hệ thống gom cụm kết hợp
giải thuật gom cụm dựa vào độ dốc tích lũy có trọng số và k-Means để gom cum dữ
liệu chuỗi thời gian. Quá trình nghiên cứu thực tiễn sẽ thực hiện các công việc:
 Gom cụm với tập dữ liệu phức hợp dùng các tiêu chí đánh giá như:
Jaccard, Rand, FM, CSM, NMI để đánh giá chất lượng gom cụm.
 Gom cụm với các tập dữ liệu chứng khoán dùng hàm mục tiêu để
đánh giá chất lượng gom cụm.
 Điều chỉnh giải thuật và các tham số để đạt kết quả có độ chính xác
cao.
1.6. Ý nghĩa nghiên cứu.
Kết quả nghiên cứu giúp chúng ta đánh giá được chất lượng gom cum của
giải thuật k-Means kết hợp với các phương pháp:

ĐẶNG THANH HÙNG

4


LUẬN VĂN CAO HỌC

 Thu giảm số chiều dựa vào độ dốc tích lũy có trọng số.
 Khởi tạo trung tâm cụm ban đầu bằng độ dốc tích lũy có trọng số.
 Khởi tạo trung tâm cụm ban đầu bằng kd-tree.
 Khởi tạo trung tâm cụm ban đầu bằng ngẫu nhiên.
Từ kết quả đánh giá chất lượng gom cụm của các phương pháp giúp chúng ta

lựa chọn phương pháp gom cụm thích hợp cho nhu cầu gom cụm dữ liệu chuỗi thời
gian của chúng ta như cần thời gian thực thi nhanh hay cần độ chính xác cao…
1.7. Tóm tắt kết quả đã đạt được.
Chúng tôi đã áp dụng phương pháp gom cụm dựa vào độ dốc tích lũy có
trọng số để gom cụm dữ liệu chuỗi thời gian, đồng thời áp dụng cấu trúc kd-tree để
khởi tạo trung tâm cụm ban đầu cho giải thuật k-Means, và đề xuất phương pháp
khởi tạo trung tâm cụm ban đầu dựa vào độ dốc tích lũy có trọng số cho giải thuật
k-Means, kết quả thu được là chất lượng lời giải khi khởi tạo trung tâm cụm bằng
phương pháp dựa vào độ dốc tích lũy có trọng số tốt hơn về chất lượng lời giải lẫn
thời gian thực thi so với giải thuật k-Means khởi tạo trung tâm cụm ban đầu một
cách ngẫu nhiên hoặc khởi tạo trung tâm cụm ban đầu áp dụng cấu trúc kd-tree.
Ngồi ra chúng tơi xây dựng được một phương pháp trực quan hóa kết quả gom
cụm phù hợp với tập dữ liệu lớn.
1.8. Cấu trúc luận văn.
Các phần còn lại của luận văn được tổ chức như sau:
Chương 2: trình bày các lý thuyết và các cơng trình liên quan làm nguồn
tham khảo và là cơ sở cho việc thực hiện luận văn, bao gồm các cơng trình về độ đo
tương tự, các phương pháp thu giảm số chiều, ba cách tiếp cận gom cụm dữ liệu
chuỗi thời gian, giải thuật k-Means, giải thuật khởi tạo trung tâm cụm ban đầu và
vấn đề chọn giá trị k (số lượng cụm cần gom) tối ưu.
Chương 3: trình bày một số vấn đề về gom cụm dữ liệu chuỗi thời gian và
đưa ra cách để giải quyết các vấn đề và phác họa kiến trúc tổng quát của hệ thống
ĐẶNG THANH HÙNG

5


LUẬN VĂN CAO HỌC

“Kết hợp gom cụm dựa vào độ dốc tích lũy có trọng số và k-Means để gom cụm dữ

liệu chuỗi thời gian”.
Chương 4: trình bày một số kết quả thực nghiệm và đánh giá.
Chương 5: trình bày kết luận của nghiên cứu những đóng góp của đề tài và
hướng phát triển.

ĐẶNG THANH HÙNG

6


LUẬN VĂN CAO HỌC

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CƠNG TRÌNH
LIÊN QUAN
Chương này trình bày các lý thuyết và các cơng trình liên quan làm nguồn
tham khảo và là cơ sở cho việc thực hiện luận văn, bao gồm các cơng trình về độ đo
tương tự, các phương pháp thu giảm số chiều, ba cách tiếp cận gom cụm dữ liệu
chuỗi thời gian, giải thuật k-Means và giải thuật khởi tạo trung tâm cụm ban đầu.
2.1. Các độ đo tương tự.
Để tính khoảng cách giữa 2 đối tượng X, Y ký hiệu là D(X, Y) có nhiều độ đo
tương tự đã được sử dụng như độ đo Euclid, độ đo tương tự giữa các chuỗi nhị phân
[9], độ đo tương tự giữa các hàm mật độ xác xuất [10], độ đo xoắn thời gian động
[11], độ đo chuỗi con chung dài nhất [12]. Do đó việc lựa chọn một độ đo tương tự
tùy thuộc rất nhiều vào lĩnh vực ứng dụng. Trong các bài toán về khai phá dữ liệu
chuỗi thời gian, để so sánh hai chuỗi người ta thường sử dụng hai độ đo tương tự là
Euclid và xoắn thời gian động (Dynamic Time Warping) để tính khoảng cách giữa
2 đối tượng.
2.1.1. Độ đo Euclid.
Cho hai chuỗi thời gian X = x1, x2, …,xn và Y = y1, y2,…,yn độ đo Euclid giữa
hai chuỗi thời gian này được cho bởi cơng thức.


Độ đo khoảng cách Euclid có ưu điểm là dễ hiểu, dễ tính tốn, dễ mở rộng
cho nhiều bài toán khai phá dữ liệu chuỗi thời gian như gom cụm, phân lớp, nhận
dạng mơ típ, v.v… Nhưng độ đo khoảng cách Euclid lại có nhược điểm là nhạy cảm
với nhiễu, và khơng thích hợp khi dữ liệu có đường căn bản (base line) khác nhau
(Hình 2.1) hay có biên độ dao động khác nhau (Hình 2.2) thì khoảng cách hai mẫu
sẽ rất khác nhau.
ĐẶNG THANH HÙNG

7


LUẬN VĂN CAO HỌC

Để khắc phục những nhược điểm trên thì trước khi áp dụng các giải thuật so
trùng mẫu thì chúng ta cần chuẩn hóa dữ liệu. Có nhiều phương pháp chuẩn hóa dữ
liệu và sau đây là một số phương pháp chuẩn hóa dữ liệu thường được dùng.
 Chuẩn hóa trung bình zero (Zero-Mean normalization) [6]
Biến đổi dữ liệu Q thành dữ liệu Q’ có cùng đường căn bản theo công thức
sau:
Q’[i] = Q[i] – mean(Q)
Để các dữ liệu có cùng biên độ dao động thì ta dùng phép biến đổi sau:
Q’[i] = (Q[i]- mean(Q)) / var(Q)
Với mean(Q)là giá trị trung bình của Q và var(Q) là phương sai của Q.
 Chuẩn hóa nhỏ nhất-lớn nhất (Min-Max normalization) [6]
Chuỗi Q được biến đổi thành chuỗi Q’ theo công thức:

Với





là giá trị nhỏ nhất và lớn nhất của chuỗi ban đầu.

là giá trị nhỏ nhất và lớn nhất của chuỗi sau khi được chuẩn

hóa.

Hình 2.1. Minh họa 2 đường giống nhau, nhưng đường cơ bản khác nhau [13]

ĐẶNG THANH HÙNG

8


LUẬN VĂN CAO HỌC

Hình 2.2. Minh họa 2 đường giống nhau, nhưng biên độ dao động khác nhau [13]

2.1.2. Phương pháp xoắn thời gian động (Dynamic Time Warping DTW).
Trong trường hợp hai mẫu cần so sánh có hai đường biểu diễn khơng hồn
tồn giống nhau nhưng hình dạng biến đổi rất giống nhau thì khi so sánh độ tương
tự giữa hai mẫu bằng cách so sánh từng cặp điểm 1-1 (so điểm thứ i của đường thứ
nhất và điểm thứ i của đường thứ hai) là khơng phù hợp. Hình 2.1 minh họa hai
đường biểu diễn rất giống nhau về hình dạng nhưng lệch nhau về thời gian.

Hình 2.3. Khoảng cách giữa hai đường giống nhau về hình dạng nhưng lệch nhau về thời
gian[13].

(a) Tính theo độ đo Euclid


ĐẶNG THANH HÙNG

(b) Tính theo độ đo DTW

9


LUẬN VĂN CAO HỌC

Trong trường hợp này, nếu tính khoảng cách bằng cách ánh xạ 1-1 giữa hai
đường thì kết quả rất khác nhau và có thể dẫn đến kết quả cuối cùng khơng giống
như mong muốn.Vì vậy để khắc phục nhược điểm này, một điểm có thể ánh xạ với
nhiều điểm và ánh xạ này không thẳng hàng. Phương pháp này gọi là xoắn thời gian
động [11] (Dynamic Time Warping - DTW).
Cách tính DTW:
Cách đơn giản nhất để tính DTW của 2 đường X và Y là ta xây dựng ma trận
D(m x n) với m = |X| và n = |Y|. Khi đó, Dij = d(xi, yj). (Hình 2.4)
Sau khi xây dựng ma trận D, ta tìm đường đi từ ô (0, 0) đến ô (m, n) thỏa
mãn những ràng buộc sau:
 Không được đi qua trái hay đi xuống.
 Đường đi phải liên tục.
 Ô (i, j) thuộc đường đi phải thỏa |i - j| <= w.
Giả sử có K ơ đi từ ơ (0, 0) đến ô (m, n) thỏa mãn những điều kiện trên, khi
đó

DTW (Q, C )  min(




K
k 1

wk
K

)

Tuy nhiên, ta có thể dùng quy hoạch động để giải quyết bài toán này. Trong
đó, cơng thức truy hồi để tính D(i, j):
D (i, j) = | xi – yj | + min {D(i – 1, j), D(i – 1, j – 1), D(i, j – 1) }
Độ đo tương tự DTW có ưu điểm là cho kết quả chính xác hơn so với độ đo
Euclid và cho phép nhận dạng mẫu có hình dạng giống nhau nhưng chiều dài hình
dạng về thời gian có thể khác nhau. Độ đo tương tự này có nhược điểm là thời gian
chạy lâu, tuy nhiên gần đây đã có những cơng trình tăng tốc độ tìm kiếm tương tự
dùng độ đo DTW, tiêu biểu nhất là công trình của Keogh và các cộng sự, năm 2002
[14].
ĐẶNG THANH HÙNG

10


LUẬN VĂN CAO HỌC

Hình 2.4. Cách tính khoảng cách theo DTW

2.2. Các phương pháp thu giảm số chiều chuỗi thời gian.
Dữ liệu chuỗi thời gian thường số chiều rất lớn nên việc khai thác dữ liệu
trực tiếp trên chuỗi thời gian gốc sẽ không hiệu quả. Để khắc phục vấn đề này ta
nên áp dụng phương pháp biến đổi để thu giảm số chiều (dimensionality reduction)

của dữ liệu.
Thu giảm số chiều là phương pháp biểu diễn chuỗi thời gian n chiều X = {x1,
x2, …, xn} thành chuỗi thời gian có N chiều Y = {y1, y2, …, yN} với N <vẫn giữ được các đặc trưng cần quan tâm của chuỗi thời gian ban đầu. Có rất nhiều
phương pháp thu giảm số chiều phương pháp tổng quát để thu giảm số chiều có thể
được tóm tắt như sau:
 Thiết lập một độ đo tương tự d.
 Thiết kế một kỹ thuật thu giảm số chiều để rút trích đặc trưng có chiều
dài N trong một chuỗi thời gian có chiều dài n (N << n), với N có thể
được xử lý một cách hữu hiệu nhờ một cấu trúc chỉ mục không gian (đa
chiều).
 Cung cấp một độ đo tương tự dN trên một không gian đặc trưng N chiều
và chứng minh rằng nó tuân thủ điều kiện chặn dưới: DN (X’, Y’) ≤ D(X,
ĐẶNG THANH HÙNG

11


×