Tải bản đầy đủ (.pdf) (103 trang)

Gom cụm dữ liệu chuỗi thời gian với độ đo xoắn thời gian động dựa vào một kỹ thuật xấp xỉ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.91 MB, 103 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

VĂN THẾ HUY

GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ
ĐO XOẮN THỜI GIAN ĐỘNG DỰA VÀO MỘT KỸ
THUẬT XẤP XỈ

LUẬN VĂN THẠC SĨ

TP. Hồ Chí Minh, tháng 06 năm 2015


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

VĂN THẾ HUY

GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ
ĐO XOẮN THỜI GIAN ĐỘNG DỰA VÀO MỘT KỸ
THUẬT XẤP XỈ
CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH
MÃ SỐ CHUYÊN NGÀNH: 60.48.01

LUẬN VĂN THẠC SĨ

PGS. TS. DƯƠNG TUẤN ANH


TP. Hồ Chí Minh, tháng 06 năm 2015


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học: PGS. TS. DƯƠNG TUẤN ANH………………..

Cán bộ chấm nhận xét 1: TS. VÕ THỊ NGỌC CHÂU…………………………

Cán bộ chấm nhận xét 2: PGS. TS. ĐỖ PHÚC……………………....................

Luận văn thạc sĩ được bảo vệ tại Trường Đại Học Bách Khoa, ĐHQG
Tp.HCM ngày 10 tháng 07 năm 2015.
Thành phần Hội đồng đánh giá luận văn Thạc sĩ gồm:
1. GS. TS. CAO HOÀNG TRỤ (CT)…………………………………………...
2. TS. VÕ THỊ NGỌC CHÂU (PB1)…………………………………………...
3. PGS. TS. ĐỖ PHÚC (PB2)…………………………………………………..
4. TS. HỒ BẢO QUỐC (UV)…………………………………………………..
5. TS. TRẦN MINH QUANG (TK)……………………………………………
CHỦ TỊCH HỘI ĐỒNG
(Họ tên và chữ ký)

GS. TS. CAO HOÀNG TRỤ

TRƯỞNG KHOA KH&KT MT
(Họ tên và chữ ký)


ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: VĂN THẾ HUY ............................................. MSHV: 13070236….
Ngày, tháng, năm sinh: 19/11/1990 ........................................... Nơi sinh: TP.HCM…
Chuyên ngành: KHOA HỌC MÁY TÍNH ................................ Mã số : 604801……
I. TÊN ĐỀ TÀI:
-

Gom cụm dữ liệu chuỗi thời gian với độ đo xoắn thời gian động dựa vào một
kỹ thuật xấp xỉ.

II. NHIỆM VỤ VÀ NỘI DUNG:
-

Tìm hiểu cách tính xấp xỉ khoảng cách DTW.

-

Tìm hiểu giải thuật gom cụm với thời gian thực thi tùy chọn.

-

Đề xuất một số cải tiến khi hiện thực giải thuật gom cụm dữ liệu chuỗi thời
gian với khoảng cách DTW dựa vào một kỹ thuật xấp xỉ và thử nghiệm độ
hiệu quả của giải thuật trên một số tập dữ liệu mẫu.


III. NGÀY GIAO NHIỆM VỤ: 19/01/2015
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 14/06/2015
V. CÁN BỘ HƯỚNG DẪN: PGS. TS. DƯƠNG TUẤN ANH

Tp. HCM, ngày 12 tháng 08 năm 2015
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

CHỦ NHIỆM BỘ MÔN
ĐÀO TẠO
(Họ tên và chữ ký)

TRƯỞNG KHOA
KH&KT MT
(Họ tên và chữ ký)


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả báo cáo trong luận văn này và chương trình là
sản phẩm do cơng sức lao động của chính tơi thực hiện, khơng có sự sao chép từ
những cơng trình nào khác, ngoại trừ những kết quả từ các cơng trình khác đã ghi rõ
trong luận văn. Tất cả các kiến thức tôi học hỏi được từ những tài liệu tham khảo
đều được trích dẫn nguồn đầy đủ. Nếu có bất cứ sai phạm nào so với lời cam đoan,
tơi xin chịu các hình thức xử lý theo quy định.

i



GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

LỜI CÁM ƠN

Tôi xin gởi lời cám ơn chân thành và sâu sắc đến PGS. TS. Dương Tuấn Anh,
Thầy đã tận tình hướng dẫn, định hướng tôi từ cách đặt vấn đề, phương pháp nghiên
cứu khoa học đến những công việc cụ thể trong luận văn này.
Xin chân thành cảm ơn tất cả quý Thầy Cô trong Khoa Khoa học và Kỹ Thuật
Máy Tính đã tận tình truyền đạt những kiến thức q báu cho tơi trong suốt q
trình học tập.
Cuối cùng và trên hết, con cảm ơn gia đình đã động viên và tạo điều kiện tốt
nhất để con có thể tiếp tục con đường học tập và nghiên cứu. Con trân trọng dành
tặng thành quả của luận văn này cho Ba Mẹ và cả gia đình.

ii


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

TÓM TẮT

Dữ liệu chuỗi thời gian ngày càng phổ biến trong hầu hết các lĩnh vực như
chứng khốn, thời tiết, y tế, mơi trường…, trong khi đó nhu cầu khám phá tri thức
của con người từ những nguồn dữ liệu này ngày càng tăng mà tiêu biểu là bài toán
gom cụm dữ liệu chuỗi thời gian, một q trình học khơng giám sát nhằm rút trích
ra những đặc trưng, tính chất quan trọng của dữ liệu thành những thơng tin bổ ích.
Từ nhu cầu đó chúng ta đã đặt ra bài tốn làm sao để gom cụm dữ liệu chuỗi thời
gian được kết quả chính xác và tốn ít thời gian nhất vì độ đo Euclid dùng để giải
quyết bài toán gom cụm dữ liệu chuỗi thời gian thì thiếu sự linh hoạt đồng thời kết

quả khơng chính xác. Do đó, nhu cầu áp dụng khoảng cách xoắn thời gian động vào
bài toán gom cụm là cấp thiết nhưng với độ phức tạp tính tốn cao của khoảng cách
này cùng với số lượng dữ liệu chuỗi thời gian ngày càng tăng trong thời đại dữ liệu
lớn như hiện nay sẽ làm cho việc gom cụm mất rất nhiều thời gian.
Đề tài của chúng tôi sẽ giới thiệu một số cải tiến cho giải thuật gom cụm dữ
liệu chuỗi thời gian với thời gian thực thi tùy chọn dùng khoảng cách xoắn thời gian
động dựa trên một kỹ thuật xấp xỉ. Chúng tôi sẽ trình bày những đặc điểm nổi bật
của giải thuật này đó là đánh đổi giữa thời gian thực thi và kết quả đạt được, cũng
như cách áp dụng kỹ thuật khởi tạo trung tâm cụm cho giải thuật gom cụm Kmedoids và kỹ thuật lập trình đa luồng vào việc tính khoảng cách xoắn thời gian
động vào trong hệ thống này. Kết quả thực nghiệm đã cho thấy chất lượng gom cụm
tương đối chính xác so với giải thuật gom cụm theo lô (batch algorithm) nhưng đã
rút ngắn thời gian đáng kể.

iii


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

ABSTRACT

Time series data is increasingly common in most areas such as stock, weather,
health, environment ..., while demand for knowledge discovery from these data
sources is increasing, which is typical for clustering time series data, a process of
unsupervised learning to identify valid, novel and potentially useful patterns in data.
From this need, we have a problem is how to cluster time series data to be more
accurate results and take less time because Euclidean measure, which is commonly
used to solve the problem of clustering time series data, is the lack of flexibility and
gives inaccurate results. Therefore, applying dynamic time warping measure into
clustering problem is necessary but with the high computational complexity of this
measure and the development of big data times make clustering take a lot of time.

Our thesis will introduce some improvements to anytime clustering algorithm
of time series datasets with dynamic time warping distance using an approximation
technique. We will present the features of this algorithm that trade execution time
for quality of results, as well as how to apply the techniques of initializing the
centroids of K-medoids algorithm and multithreaded programming into calculating
dynamic time warping measure. The experimental results showed that quality of
clustering is relatively accurate versus batch algorithm but have significantly
reduced execution time.

iv


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

MỤC LỤC

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI -------------------------------------------------------- 1
1.1.

Giới thiệu vấn đề -------------------------------------------------------------------- 1

1.2.

Động cơ ------------------------------------------------------------------------------- 2

1.3.

Mục tiêu------------------------------------------------------------------------------- 3

1.4.


Tóm lược kết quả đạt được --------------------------------------------------------- 3

1.5.

Cấu trúc của luận văn --------------------------------------------------------------- 4

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT -------------------------------------------------------- 6
2.1.

Các độ đo khoảng cách chuỗi thời gian ------------------------------------------ 6

2.1.1.

Các độ đo trong không gian Euclid --------------------------------------------- 6

2.1.2.

Khoảng cách xoắn thời gian động ---------------------------------------------- 7

2.2.

Kỹ thuật ràng buộc tồn cục ----------------------------------------------------- 12

2.3.

Kỹ thuật tính chặn dưới ----------------------------------------------------------- 13

2.3.1.


Phương pháp tính chặn dưới của Kim---------------------------------------- 13

2.3.2.

Phương pháp tính chặn dưới của Yi ------------------------------------------ 15

2.3.3.

Phương pháp tính chặn dưới của Keogh ------------------------------------- 16

2.4.

Các giải thuật gom cụm dữ liệu thường sử dụng ------------------------------ 19

2.4.1.

Giải thuật gom cụm phân cấp ------------------------------------------------- 19

2.4.2.

Giải thuật gom cụm phân hoạch ---------------------------------------------- 21

2.5.

Các giải thuật gom cụm dữ liệu chuỗi thời gian ------------------------------ 23

2.6.

Các phương pháp chọn số cụm k tối ưu nhất ---------------------------------- 25


2.7.

Các phương pháp đánh giá chất lượng gom cụm dữ liệu -------------------- 25

v


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

CHƯƠNG 3: CÁC CƠNG TRÌNH LIÊN QUAN -------------------------------------- 29
3.1.

Phương pháp tính giá trị trung bình hình dạng dùng khoảng cách DTW -- 29

3.1.1.

Phương pháp tính trung bình của Gupta và các đồng sự ------------------ 29

3.1.2.

Giải thuật tính trung bình cụm dữ liệu PSA --------------------------------- 31

3.1.3.

Giải thuật tính trung bình cụm dữ liệu DBA -------------------------------- 33

3.2.

Phương pháp gom cụm dữ liệu chuỗi thời gian dựa vào xấp xỉ độ đo xoắn


thời gian động -------------------------------------------------------------------------------- 35
3.2.1.

Các giả định---------------------------------------------------------------------- 36

3.2.2.

Khung thức gom cụm với thời gian thực thi tùy chọn --------------------- 37

3.2.3.

Phương pháp xấp xỉ ma trận khoảng cách DTW --------------------------- 40

3.2.4.

Heuristic sắp thứ tự ------------------------------------------------------------- 44

CHƯƠNG 4: HỆ THỐNG GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI THỜI
GIAN THỰC THI TÙY CHỌN ----------------------------------------------------------- 47
4.1.

Đặt vấn đề -------------------------------------------------------------------------- 47

4.2.

Hướng giải quyết ------------------------------------------------------------------ 48

4.2.1.

Kỹ thuật khởi tạo trung tâm cụm --------------------------------------------- 48


4.2.2.

Kỹ thuật lập trình đa luồng để cải tiến DTW-------------------------------- 50

4.3.

Kiến trúc chi tiết hệ thống -------------------------------------------------------- 53

CHƯƠNG 5: THỰC NGHIỆM ----------------------------------------------------------- 58
5.1.

Giới thiệu tập dữ liệu mẫu-------------------------------------------------------- 58

5.2.

Đánh giá thời gian thực thi của kỹ thuật khởi tạo trung tâm cụm----------- 60

5.3.

Đánh giá độ hiệu quả của các phương pháp xấp xỉ ma trận DTW ---------- 63

5.4.

Đánh giá thời gian thực thi của kỹ thuật lập trình đa luồng ----------------- 65

5.5.

Đánh giá kết quả gom cụm và thời gian thực thi của hệ thống -------------- 66


vi


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

5.5.1.

Đánh giá chất lượng gom cụm của hệ thống----------------------------------- 67

5.5.2.

Đánh giá thời gian thực thi của hệ thống --------------------------------------- 78

5.6.

Kết luận ----------------------------------------------------------------------------- 78

CHƯƠNG 6: KẾT LUẬN ------------------------------------------------------------------ 80
6.1.

Tổng kết----------------------------------------------------------------------------- 80

6.2.

Những đóng góp của đề tài ------------------------------------------------------- 80

6.3.

Hướng phát triển ------------------------------------------------------------------- 81


TÀI LIỆU THAM KHẢO ------------------------------------------------------------------ 82
PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH – VIỆT ------------------- A1
PHỤ LỤC B: LÝ LỊCH TRÍCH NGANG ----------------------------------------------- B1

vii


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

MỤC LỤC HÌNH

Hình 1.1: Ảnh hưởng của độ đo đối với kết quả gom cụm ------------------------------ 2
Hình 2.1: Sự khác nhau giữa hai độ đo Euclid và DTW --------------------------------- 7
Hình 2.2: Ma trận xoắn và đường xoắn tối ưu --------------------------------------------- 8
Hình 2.3: Đồ thị biểu diễn hai chuỗi thời gian. ------------------------------------------ 10
Hình 2.4: Ma trận xoắn tính DTW cho hai chuỗi thời gian. --------------------------- 11
Hình 2.5: Ràng buộc tồn cục của độ đo xoắn thời gian động ------------------------ 13
Hình 2.6: Mơ tả kỹ thuật chặn dưới của Kim -------------------------------------------- 15
Hình 2.7: Mơ tả kỹ thuật chặn dưới của Yi ---------------------------------------------- 16
Hình 2.8: Mơ tả đường bao U và L của chuỗi Q ---------------------------------------- 17
Hình 2.9: Mơ tả kỹ thuật chặn dưới của Keogh ----------------------------------------- 18
Hình 2.10: Hai chiến lược gom cụm phân cấp------------------------------------------- 19
Hình 2.11: Tiêu chí trộn các cụm ---------------------------------------------------------- 20
Hình 2.12: Cấu trúc cây của giải thuật gom cụm phân cấp ---------------------------- 21
Hình 2.13: Các trường hợp thay thế của giải thuật K-medoids------------------------ 23
Hình 2.14: Quá trình gom cụm dùng K-means ------------------------------------------ 24
Hình 3.1: Mơ tả hai kỹ thuật tính trung bình của Gupta -------------------------------- 31
Hình 3.2: Ví dụ minh họa mơ hình PSA -------------------------------------------------- 32
Hình 3.3: Q trình tính chuỗi trung bình dựa vào DBA ------------------------------ 34
Hình 3.4: Minh họa quá trình rút ngắn độ dài của chuỗi ------------------------------- 35

Hình 3.5: Đánh giá kết quả gom cụm dùng ARI ---------------------------------------- 37
Hình 3.6: Minh họa giải thuật với thời gian thực thi tùy chọn ------------------------ 38

viii


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

Hình 3.7: Khoảng cách DTW được bao bởi chặn trên và chặn dưới ----------------- 40
Hình 3.8: Các cách ước lượng bằng nhiều điểm ---------------------------------------- 42
Hình 3.9: Kết quả tính tốn theo ba cách LB, DTW và ED --------------------------- 43
Hình 3.10: Kết quả xác định sự ảnh hưởng của số nhóm ------------------------------ 43
Hình 4.1: Minh họa kỹ thuật cải tiến tốc độ tính tốn DTW. -------------------------- 50
Hình 4.2: Kiến trúc hệ thống gom cụm dữ liệu chuỗi thời gian. ---------------------- 53
Hình 4.3: Trực quan hóa kết quả đồ thị. -------------------------------------------------- 57
Hình 5.1: Hình minh họa tập dữ liệu Heterogeneous. ---------------------------------- 59
Hình 5.2: Thời gian thực thi gom cụm trên tập Heterogeneous. ---------------------- 61
Hình 5.3: Thời gian thực thi gom cụm trên tập CC. ------------------------------------ 62
Hình 5.4: Thời gian thực thi gom cụm trên tập Trace. --------------------------------- 63
Hình 5.5: So sánh thời gian tính tốn ma trận khoảng cách DTW chính xác. ------- 66
Hình 5.6: Chất lượng gom cụm trên tập CBF. ------------------------------------------- 68
Hình 5.7: Hình minh họa tập dữ liệu CBF.----------------------------------------------- 69
Hình 5.8: Chất lượng gom cụm trên tập FaceFour. ------------------------------------- 70
Hình 5.9: Chất lượng gom cụm trên tập Heterogeneous. ------------------------------ 72
Hình 5.10: Chất lượng gom cụm tập Stock dựa trên hàm mục tiêu. ------------------ 74
Hình 5.11: Chất lượng gom cụm trên tập CC. ------------------------------------------- 75
Hình 5.12: Chất lượng gom cụm trên tập Trace. ---------------------------------------- 76

ix



GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

MỤC LỤC BẢNG

Bảng 5.1: Thời gian thực thi gom cụm trên tập Heterogeneous. ---------------------- 61
Bảng 5.2: Thời gian thực thi gom cụm trên tập CC. ------------------------------------ 62
Bảng 5.3: Thời gian thực thi gom cụm trên tập Trace. --------------------------------- 63
Bảng 5.4: Kết quả NDAE đánh giá các phương pháp xấp xỉ ma trận DTW. -------- 64
Bảng 5.5: Thời gian tính tốn các phương pháp xấp xỉ ma trận DTW. -------------- 64
Bảng 5.6: So sánh thời gian tính tốn ma trận khoảng cách DTW chính xác. ------ 65
Bảng 5.7: Chất lượng gom cụm trên tập CBF. ------------------------------------------ 67
Bảng 5.8: Chất lượng gom cụm trên tập FaceFour. ------------------------------------- 71
Bảng 5.9: Chất lượng gom cụm trên tập Heterogeneous. ------------------------------ 73
Bảng 5.10: Chất lượng gom cụm tập Stock dựa trên hàm mục tiêu. ----------------- 73
Bảng 5.11: Chất lượng gom cụm trên tập CC. ------------------------------------------- 74
Bảng 5.12: Chất lượng gom cụm trên tập Trace. ---------------------------------------- 77
Bảng 5.13: Kết quả thời gian thực thi trên năm tập dữ liệu. --------------------------- 78

x


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

Chương này sẽ trình bày vấn đề mà đề tài tập trung nghiên cứu, động cơ để
thực hiện đề tài này và mục tiêu của đề tài. Ngoài ra, chúng tơi cũng trình bày sơ
lược các kết quả đạt được cũng như là nội dung của đề tài.


1.1.

Giới thiệu vấn đề
Ngày nay, khi các cơng nghệ máy tính ngày càng phát triển thì nhu cầu thơng

tin và dữ liệu của con người ngày càng cao. Hầu hết các giao dịch kinh doanh, từ dữ
liệu về chỉ số chứng khoán hay các giao dịch trong các siêu thị, đều được lưu trữ
bằng máy tính. Do đó, thách thức đặt ra đó là q trình khám phá tri thức trong các
tập dữ liệu đó, mà một trong số đó là quá trình gom cụm dữ liệu. Gom cụm dữ liệu
(data clustering) là q trình nhóm các tập đối tượng dữ liệu lại thành các nhóm hay
các cụm sao cho các đối tượng trong cùng một cụm có độ tương tự cao nhưng có độ
tương tự thấp đối với các đối tượng trong các cụm khác. Độ tương tự hay bất tương
tự đó có thể được đánh giá dựa trên các giá trị thuộc tính mơ tả đối tượng và thường
liên quan tới các độ đo khoảng cách.
Mặt khác, các đối tượng dữ liệu hiện nay, như dữ liệu chứng khoán hay thời
tiết, đều vốn dĩ có thêm chiều thời gian đi kèm theo hay còn gọi là dữ liệu chuỗi
thời gian (time series data). Việc gom cụm dữ liệu chuỗi thời gian trở thành vấn đề
thách thức cộng đồng khai phá dữ liệu bởi vì những giải thuật gom cụm hiện nay
đều được thực hiện với các độ đo trong không gian Euclid. Tuy nhiên, các độ đo
này đã được chứng minh là ít chính xác và thường cho kết quả không mong muốn
trong một số lĩnh vực ứng dụng như dữ liệu đa phương tiện. Vì vậy, sự ra đời của
độ đo xoắn thời gian động (Dynamic Time Warping - DTW) đã góp phần giải quyết
vấn đề trên bằng cách cho phép ánh xạ các hình dạng tương tự nhau thậm chí khi
các hình dạng đó khơng cịn khớp về trục thời gian.

1


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ


Hình 1.1: Ảnh hưởng của độ đo đối với kết quả gom cụm (Nguồn [12]).

1.2.

Động cơ
Mặc dù sự ra đời DTW đã góp phần giúp việc gom cụm dữ liệu chuỗi thời

gian chính xác hơn, thậm chí DTW trở thành độ đo ưu việt, nhưng với số lượng dữ
liệu ngày càng lớn (hiện nay con người đang bước vào thời đại dữ liệu Big Data) và
cách tính khoảng cách DTW bằng phương pháp quy hoạch động phức tạp đã làm
cho việc gom cụm với khoảng cách DTW trở nên chậm hơn. Chính vì vậy, việc
phát triển các kỹ thuật thay thế phần lớn cách tính tốn phức tạp của DTW bằng các
cách tính toán chặn dưới (lower bounding) đơn giản và tiết kiệm chi phí hơn đang
trở thành xu hướng hiện nay. Tuy nhiên, các kỹ thuật chặn dưới này khó có thể
được áp dụng trực tiếp vào gom cụm nên đối với một vài vấn đề thực tế thì gom
cụm với DTW vẫn mất thời gian khá lâu.
Do đó, trong nghiên cứu này chúng tôi nghiên cứu giải pháp tiến hành gom
cụm với DTW bằng giải thuật gom cụm với thời gian thực thi tùy chọn (anytime
clustering algorithm) tức là đánh đổi giữa thời gian thực thi và chất lượng của kết
quả gom cụm, chất lượng gom cụm sẽ được cải thiện với thời gian thực thi.
Giải thuật này ra đời trong bối cảnh cả thế giới bước vào thời đại dữ liệu lớn
mà độ phức tạp trong cách tính khoảng cách DTW sẽ là một trở ngại về mặt thời
gian để chúng ta có thể đạt được kết quả mong muốn. Sự phát triển của kiểu giải

2


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

thuật này đã đáp ứng được tình hình nhu cầu thực tế đó và đem lại tính mềm dẻo và

linh hoạt cho người dùng nhờ vào tính khả dừng của giải thuật, tức là giải thuật có
thể dừng bất kỳ lúc nào và có thể cho ra kết quả tốt nhất nếu giải thuật này được
phép thực thi lâu hơn hoặc cho đến khi hoàn tất. Thời điểm dừng giải thuật sẽ do
người dùng quyết định, tùy vào số lượng thời gian mà người dùng cho phép giải
thuật thực thi mà kết quả đạt được sẽ đáp ứng được yêu cầu của người dùng.

1.3.

Mục tiêu
Mục tiêu nghiên cứu của đề tài này trên cơ sở dữ liệu chuỗi thời gian là xây

dựng hệ thống gom cụm dữ liệu dựa vào giải thuật gom cụm K-medoids và giải
thuật với thời gian thực thi tùy chọn, với các vấn đề chính sau:
 Tìm hiểu cách tính xấp xỉ khoảng cách DTW: ưu điểm của DTW đó là
độ chính xác cao so với các độ đo Euclid, nhưng cách tính tốn phức
tạp và chậm. Do đó, đề tài sẽ tìm hiểu các phương pháp tính xấp xỉ
khoảng cách DTW.


Tìm hiểu giải thuật gom cụm với thời gian thực thi tùy chọn: do việc áp
dụng trực tiếp các cách tính xấp xỉ khoảng cách DTW vào giải thuật xử
lý theo lơ cịn gặp khó khăn vì có thể cho ra kết quả chậm so với mong
muốn của người dùng nên đề tài sẽ áp dụng giải thuật gom cụm với thời
gian thực thi tùy chọn để đánh đổi giữa chất lượng gom cụm với thời
gian thực thi.

 Đề xuất một số cải tiến khi hiện thực giải thuật gom cụm dữ liệu chuỗi
thời gian với khoảng cách DTW dựa vào một kỹ thuật xấp xỉ và thử
nghiệm độ hiệu quả của giải thuật trên một số tập dữ liệu mẫu.


1.4.

Tóm lược kết quả đạt được
Sau một thời gian nghiên cứu và hiện thực, chúng tôi đã đạt được các kết quả

tích cực đó là:
 Xây dựng được hệ thống gom cụm sử dụng giải thuật gom cụm với thời
gian thực thi tùy chọn dùng khoảng cách DTW dựa vào một kỹ thuật
xấp xỉ, đánh đổi chất lượng gom cụm với thời gian thực thi, nhưng vẫn

3


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

cho ra kết quả tương đối chính xác trong thời gian ngắn so với hệ thống
gom cụm dữ liệu chuỗi thời gian mà không áp dụng hai phương pháp
trên.
 Đưa vào một kỹ thuật khởi tạo trung tâm cụm cho giải thuật K-medoids
nhằm rút ngắn thời gian tính tốn.
 Đề xuất được kỹ thuật lập trình đa luồng kết hợp xử lý song song tác vụ
để giảm thời gian tính tốn khoảng cách DTW nhưng vẫn cho kết quả
chính xác như cách tính cổ điển.
 Đưa ra được các kết luận đánh giá chất lượng gom cụm cũng như so
sánh độ hiệu quả của các phương pháp khác nhau được áp dụng trong
đề tài này.
 Cho phép người dùng thực hiện gom cụm với các thông số k khác nhau
và đánh giá kết quả đạt được để chọn trị k tối ưu.
Như vậy, hệ thống này cơ bản đã đáp ứng được các u cầu của bài tốn đặt ra
mà chúng tơi sẽ trình bày chi tiết ở các phần sau.


1.5.

Cấu trúc của luận văn
Tổ chức phần còn lại của luận văn gồm những phần như sau:
Chương 2 là các cơ sở lý thuyết mà chúng tôi sử dụng trong nghiên cứu này.

Chúng bao gồm các lý thuyết về độ đo khoảng cách của chuỗi thời gian, các kỹ
thuật về ràng buộc toàn cục (global constraints) và tính chặn dưới cũng như các kỹ
thuật về gom cụm dữ liệu thường và dữ liệu chuỗi thời gian.
Chương 3 để giới thiệu về các công trình nghiên cứu liên quan. Những cơng
trình này trình bày về các phương pháp tính giá trị trung bình dựa trên khoảng cách
DTW để áp dụng kỹ thuật gom cụm K-means như phương pháp của Gupta và các
đồng sự, giải thuật PSA và giải thuật DBA. Ngồi ra, chúng tơi cịn giới thiệu một
cơng trình gom cụm dữ liệu chuỗi thời gian với thời gian thực thi tùy chọn dựa vào
cách xấp xỉ khoảng cách DTW.
Chương 4 bao gồm nội dung chi tiết thiết kế và hiện thực hệ thống gom cụm
với thời gian thực thi tùy chọn.

4


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

Chương 5 trình bày các kết quả thực nghiệm đạt được, qua đó đánh giá chất
lượng gom cụm của hệ thống cũng như đánh giá thời gian chạy của giải thuật.
Chương 6 là một số kết luận, đóng góp của đề tài cũng như hướng phát triển
trong tương lai của đề tài.

5



GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

Trong chương này chúng tơi sẽ trình bày các khái niệm được sử dụng trong đề
tài này như là giải thuật tính độ đo xoắn thời gian động, kỹ thuật ràng buộc tồn
cục, các kỹ thuật tính chặn dưới, các giải thuật gom cụm dữ liệu thông thường và dữ
liệu chuỗi thời gian cũng như giới thiệu về cách xác định số cụm k tối ưu nhất trong
giải thuật gom cụm K-medoids và các phương pháp đánh giá chất lượng gom cụm
dữ liệu.

2.1.

Các độ đo khoảng cách chuỗi thời gian
Các bài tốn tìm kiếm mẫu, phân loại hay gom cụm dữ liệu chuỗi thời gian

đều sử dụng kiểu dữ liệu mà ở đó được biểu diễn thành một chuỗi các số thực. Vì
vậy, để giải quyết các bài toán này ta phải sử dụng các độ đo khoảng cách giữa các
cặp chuỗi thời gian với nhau. Giả sử ta có hai chuỗi thời gian Q và C với các độ dài
n và m tương ứng là



. Ta cần phải

xác định độ đo khoảng cách Dist(Q,C) của hai chuỗi thời gian này.

2.1.1. Các độ đo trong không gian Euclid

Hiện nay, có rất nhiều độ đo khoảng cách đã được sử dụng cho gom cụm dữ
liệu chuỗi thời gian tùy thuộc vào từng miền ứng dụng và trong đó các độ đo trong
không gian Euclid là đủ khả năng để giải quyết bài tốn này. Tuy nhiên, vì sự thiếu
linh hoạt để áp dụng trong các kỹ thuật biến đổi như tịnh tiến (shifting), kéo dãn
(stretching) hay co lại (contracting) trên trục thời gian nên các độ đo này ngày càng
trở nên thiếu chính xác [1]. Sau đây, chúng tơi sẽ giới thiệu một vài độ đo trong
không gian Euclid.
Độ đo Euclid:
Độ đo Manhattan:
Độ đo Minkowski:

với p ≥ 1

Độ đo Chebyshev:

6


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

Tùy thuộc vào từng miền ứng dụng mà chúng ta sử dụng độ đo phù hợp nhưng
thông thường độ đo Euclid là đủ tốt và có độ chính xác chấp nhận được để áp dụng.
Ngoài ra, các độ đo trên phải thỏa mãn một số tính chất sau [5]:


: khoảng cách phải là số không âm.



: khoảng cách từ một đối tượng với chính nó là 0.




: khoảng cách là hàm đối xứng.



: khoảng cách trực tiếp từ Q
đến C không lớn hơn khoảng cách đi qua các điểm trung gian T khác.

Ưu điểm: thời gian tính tốn nhanh, có thể áp dụng cho các bài toán khai phá
dữ liệu khác và các độ đo thỏa mãn bất đẳng thức tam giác nên có thể dễ dàng lập
chỉ mục, giảm thời gian tìm kiếm.
Khuyết điểm: chỉ áp dụng khi những chuỗi có chiều dài bằng nhau [7], dễ bị
ảnh hưởng bởi nhiễu [24].

2.1.2. Khoảng cách xoắn thời gian động
Việc sử dụng độ đo trong không gian Euclid đối với dữ liệu chuỗi thời gian có
hình dạng giống nhau nhưng khác nhau về thời gian sẽ sinh ra kết quả tính tốn
khơng chính xác vì cách ánh xạ điểm

của chuỗi này với điểm

của chuỗi khác.

Vì vậy để khắc phục điểm yếu này thì độ đo xoắn thời gian động đã ra đời.

Hình 2.1: Sự khác nhau giữa hai độ đo Euclid và DTW (Nguồn [12]).

Kỹ thuật tính tốn khoảng cách xoắn thời gian động là cách sắp xếp hai chuỗi

thời gian sao cho giá trị khoảng cách là nhỏ nhất [1]. Để sắp xếp đươc hai chuỗi
này, chúng ta phải xây dựng ma trận n m nơi phần tử
khoảng cách
giữa hai điểm

của hai điểm

và mỗi điểm

của ma trận là
này là sự sắp xếp

. Đường xoắn W (warping path) được định nghĩa là sự sắp xếp
7


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

của những phần tử trong hai chuỗi Q và C, tức là ánh xạ giữa Q và C. Từ đó, chúng
ta có

với max m,n

m

n – 1 và

.

Do đó, chúng ta sẽ tìm được nhiều đường xoắn khác nhau nhưng chúng ta chỉ

quan tâm tới đường xoắn mà làm tối thiểu hóa chi phí xoắn nhất:

Hình 2.2: Ma trận xoắn và đường xoắn tối ưu (Nguồn [12]).

Chúng ta có thể tính tốn được DTW bằng giải thuật quy hoạch động
(dynamic programming) gồm biến giai đoạn, biến trạng thái và biến quyết định để
mô tả q trình chuyển đổi trạng thái hợp lệ. Trong đó, biến giai đoạn đơn giản chỉ
là một sự tăng đơn điệu các sự kiện, biến trạng thái là các điểm

trong ma trận

và biến quyết định để giới hạn những đường xoắn hợp lệ làm giảm khơng gian tìm
kiếm. Việc giới hạn khơng gian tìm kiếm sẽ giúp tiết kiệm được chi phí tính tốn và
cải thiện được vấn đề hiệu suất, cho nên đường xoắn thời gian phải tuân theo một
vài ràng buộc sau:

8


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

 Tính đơn điệu (monotonicity): những điểm phải được sắp thứ tự đơn
điệu tương ứng với thời gian, tức là cho
với –





thì


.

 Tính liên tục (continuity): từng bước trong đường xoắn phải liền kề
nhau, tức là cho



thì



với



.

 Cửa sổ xoắn (warping window): những điểm hợp lệ phải rơi vào
khoảng cửa sổ xoắn cho trước

với

.

 Ràng buộc độ dốc (slope constraint): những đường xoắn hợp lệ phải bị
ràng buộc về độ dốc, điều này giúp tránh trường hợp những bước di
chuyển quá lớn theo một hướng.
 Điều kiện biên (boundary conditions):




điều này giúp đường xoắn bắt đầu và kết thúc tại các điểm nằm ở góc
trên đường chéo của ma trận.
Tiếp theo, chúng ta sẽ tính tốn khoảng cách DTW bằng quy hoạch động dựa
vào mối quan hệ đệ quy sau, mà định nghĩa khoảng cách tích lũy

của mỗi

điểm:

Khoảng cách đó là tổng khoảng cách giữa các phần tử hiện tại với khoảng
cách tích lũy nhỏ nhất của các điểm xung quanh. Độ đo Euclid có thể xem như
trường hợp đặc biệt của DTW với ràng buộc

và hai chuỗi có

độ dài bằng nhau.
Chi tiết giải thuật tính khoảng cách DTW như sau:
Input:

Output:
1. for i = 1 : n
2.

for j = 1 : m

9



GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

3.



4. return
Ví dụ sau đây sẽ minh họa cho giải thuật tính khoảng cách DTW. Giả sử
chúng ta có 2 chuỗi thời gian:

Hai chuỗi này được biểu diễn đồ thị bằng hình 2.3.

Hình 2.3: Đồ thị biểu diễn hai chuỗi thời gian.

Để tính khoảng cách DTW chúng ta xây dựng ma trận tính khoảng cách tích
lũy của hai chuỗi trên như hình 2.4. Mỗi ơ trong ma trận sẽ chứa khoảng cách tích
lũy tương ứng của cặp điểm đó.

10


GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO DTW DỰA VÀO MỘT KỸ THUẬT XẤP XỈ

Hình 2.4: Ma trận xoắn tính DTW cho hai chuỗi thời gian.

Trong ma trận xoắn hình 2.4 ở trên thì các ơ được tính tốn như sau:

Sau khi đã tính tất cả giá trị tích lũy cho các ơ, chúng ta được một đường xoắn
tối ưu bao gồm các ơ tham gia tích lũy cho ơ


. Trong hình trên thì đường

xoắn tối ưu là các ô được tô màu.
Vậy khoảng cách DTW của hai chuỗi trên là
cách Euclid của hai chuỗi trên là

, trong khi khoảng
.

Ưu điểm: DTW phù hợp với các dữ liệu chuỗi thời gian có hình dạng tương tự
nhau nhưng chiều dài thời gian khác nhau. DTW cũng cho ra kết quả chính xác hơn
các độ đo trong khơng gian Euclid.

11


×