Tải bản đầy đủ (.pdf) (106 trang)

Một số cải tiến về việc kết chuỗi con trên dữ liệu chuỗi thời gian dựa vào hệ số tương quan pearson

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.75 MB, 106 trang )

ĐẠI HỌC QUỐC GIA TP. HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA
----------------------

LƯƠNG VĂN ĐÔ

MỘT SỐ CẢI TIẾN VỀ VIỆC KẾT CHUỖI CON TRÊN DỮ
LIỆU CHUỖI THỜI GIAN DỰA VÀO HỆ SỐ TƯƠNG
QUAN PEARSON
CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH
MÃ SỐ CHUYÊN NGÀNH : 60.48.01

LUẬN VĂN THẠC SĨ

TP.HCM – tháng 07 năm 2017


ĐẠI HỌC QUỐC GIA TP. HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA
----------------------

LƯƠNG VĂN ĐÔ

MỘT SỐ CẢI TIẾN VỀ VIỆC KẾT CHUỖI CON TRÊN DỮ
LIỆU CHUỖI THỜI GIAN DỰA VÀO HỆ SỐ TƯƠNG
QUAN PEARSON
CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH
MÃ SỐ CHUYÊN NGÀNH : 60.48.01
LUẬN VĂN THẠC SĨ


NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS. DƯƠNG TUẤN ANH

TP.HCM – tháng 06 năm 2017

i


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – HCM
Cán bộ hướng dẫn khoa học : PGS.TS. DƯƠNG TUẤN ANH ................
Cán bộ chấm nhận xét 1 : ...........................................................................
Cán bộ chấm nhận xét 2 : ...........................................................................
Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày . . . . . tháng . . . . năm . . . . .
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1.
2.
3.
4.
5.

..............................................................
..............................................................
..............................................................
..............................................................
..............................................................

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA KH&KT MÁY TÍNH

ii


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: LƯƠNG VĂN ĐÔ ......................................... MSHV:7141160 ..............
Ngày, tháng, năm sinh: 01/03/1992 ........................................... Nơi sinh: Cần Thơ ...........
Chuyên ngành: Khoa học Máy tính ........................................... Mã số : 604801 ................
I. TÊN ĐỀ TÀI: .................................................................................................................
MỘT SỐ CẢI TIẾN VỀ VIỆC KẾT CHUỖI CON TRÊN DỮ LIỆU CHUỖI THỜI
GIAN DỰA VÀO HỆ SỐ TƯƠNG QUAN PEARSON .................................................
.............................................................................................................................................
.............................................................................................................................................
II. NHIỆM VỤ VÀ NỘI DUNG: ....................................................................................
.............................................................................................................................................
.............................................................................................................................................
III. NGÀY GIAO NHIỆM VỤ : 04/07/2016 ..................................................................
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 18/06/2017 ..................................................
V. CÁN BỘ HƯỚNG DẪN: PGS.TS. DƯƠNG TUẤN ANH ........................................

Tp. HCM, ngày . . . . tháng .. . . năm 2017

CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)

TRƯỞNG KHOA…………
(Họ tên và chữ ký)

iii


LỜI CÁM ƠN
Tôi xin gửi lời cám ơn chân thành và sâu sắc nhất đến PGS.TS. Dương Tuấn Anh, người
Thầy đã ln tận tình chỉ bảo, hướng dẫn tơi trong suốt thời gian thực hiện đề tài, giúp tôi rút
ra nhiều bài học kinh nghiệm quý báu khi gặp phải những khó khăn và tạo mọi điều kiện tốt
nhất để tơi hồn thành luận văn này.
Tơi xin cám ơn các quý Thầy Cô, các anh chị và các bạn – những người đã giúp đỡ và
góp ý cho tơi có những kiến thức cần thiết để thực hiện luận văn. Con trân trọng cám ơn đến
gia đình, Ba Mẹ vì đã luôn là nguồn động viên to lớn, ủng hộ con vượt qua những khó khăn
trong suốt q trình học tập và làm việc.
Một lần nữa, tôi xin chân thành cảm ơn tất cả!

iv


TÓM TẮT
Chuỗi thời gian (Time Series) trong thống kê, xử lý tín hiệu, kinh tế lượng và tốn tài
chính là một chuỗi các điểm dữ liệu được đo theo khoảng thời gian bằng nhau theo một tần
suất thời gian nhất định, một vài ví dụ về chuỗi thời gian như sau :

Doanh thu bán hàng của một doanh nghiệp qua các quý, lưu lượng mưa của một quốc
gia nào đó trong một năm, độ mặn của nước biển thay đổi trong một ngày…
Phân tích chuỗi thời gian bao gồm các phương pháp để phân tích dữ liệu chuỗi thời
gian, để từ đó trích xuất ra được các thuộc tính thống kê có ý nghĩa và đặc trưng của dữ liệu.
Dự đốn chuỗi thời gian là việc sử dụng mơ hình để dự đoán các sự kiện thời gian dựa vào
các sự kiện đã biết trong quá khứ để từ đó dự đốn các điểm dữ liệu trước khi nó xảy ra.
Vấn đề chúng ta cần xem xét là việc kết hợp hai chuỗi thời gian dựa trên độ tương
quan lớn nhất của tất cả các đoạn con của chúng. Hai chuỗi thời gian có thể được kết hợp ở
bất kỳ vị trí và bất kỳ độ dài nào, một cặp vị trí và độ dài có thể cho ta những tri thức hữu ích
trong nhiều lĩnh vực khác nhau, bao gồm việc giám sát môi trường, theo dõi bệnh nhân và
các vấn đề liên quan đến năng lượng…
Tuy nhiên, việc tính tốn độ tương quan của hai chuỗi thời gian địi hỏi một chi phí
khá cao, đặc biệt là khi độ dài của chuỗi thời gian tương đối lớn. Giải thuật trực tiếp (Naive
Algorithm) yêu cầu độ phức tạp là O(n4) với n là độ dài của chuỗi thời gian.
Từ đó mục đích của đề tài hướng tới việc cải tiến độ phức tạp của giải thuật tìm kiếm
sự tương quan của tất cả các chuỗi con nhằm mục đích phục vụ cho quá trình khám phá tri
thức.
Đề tài cũng đề cập tới việc sử dụng kết quả của quá trình kết chuỗi con để phát hiện
motif và chuỗi con bất thường.

v


ABSTRACT
Time series in statistics, signal processing, economtrics and mathematical finance are
sequence of data points measured at equal periods, according to a certain time frequency,
some of examples about time series as following
Quarterly sales revenue of a business, rain flow of certain country in a year, the salinity
of sea water varies in one day…
Time series analysis includes these methods to time series data analysis and from that

extract the meaningful statistics properties and characteristic of the data. Time series
prediction is the use of prediction models to predict time events based on known events in
the past to predict data points before they occur.
We consider the problem of joining two long time series based on their most correlated
segments. Two times series can be joined at any locations and for arbitrary length, each pair
position and length provide useful knowledge in many difference domains including
environmental monitoring, patient monitoring and these problem relative to power.
However, join on correlation is required execute time quite high, specially when the
time series are large. The naïve algorithm requires O(n4) computation where n is the length
of the time series
From that, goal of the thesis aim to improve complexity of search algorithm correlation
of all subsequence to service for knowledge discovery.
Thesis also mention to using result of subsequence join correlation to motif discovery
and anomaly detection.

vi


LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác như đã ghi
rõ trong luận văn, các cơng việc trình bày trong luận văn này do chính tơi thực hiện và chưa
có phần nội dụng nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc
trường khác.

Ngày 19 tháng 6 năm 2017

Lương Văn Đô

vii



MỤC LỤC
LỜI CÁM ƠN ......................................................................................................................... iv
TÓM TẮT................................................................................................................................ v
ABSTRACT ........................................................................................................................... vi
LỜI CAM ĐOAN ..................................................................................................................vii
MỤC LỤC ........................................................................................................................... viii
DANH MỤC HÌNH...............................................................................................................xii
DANH MỤC BẢNG ............................................................................................................ xiv
CHƯƠNG 1 ............................................................................................................................. 1
GIỚI THIỆU ĐỀ TÀI .............................................................................................................. 1
1.1 - ĐẶT VẤN ĐỀ ............................................................................................................. 1
1.2 - Ý NGHĨA PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN .......................................... 1
1.3 - HƯỚNG TIẾP CẬN .................................................................................................... 2
1.4 – MỤC TIÊU VÀ GIỚI HẠN CỦA ĐỀ TÀI ................................................................ 3
1.5 – NHỮNG KẾT QUẢ ĐẠT ĐƯỢC .............................................................................. 4
1.6 – CẤU TRÚC LUẬN VĂN ........................................................................................... 4
CHƯƠNG 2 ............................................................................................................................. 6
CƠ SỞ LÝ THUYẾT .............................................................................................................. 6
2.1 - CÁC KHÁI NIỆM CHÍNH ......................................................................................... 6
2.1.1 - Chuỗi thời gian (Time Series) ............................................................................... 6
2.1.2 - Chuỗi thời gian con (Subsequence Time Series) .................................................. 6
2.1.3 - Kết chuỗi con (Subseries Join) .............................................................................. 7
2.1.4 – Định nghĩa 1-motif................................................................................................ 9
2.1.5 – Định nghĩa chuỗi con bất thường (Time Series Discord) ..................................... 9
2.2 - GIÁ TRỊ TRUNG BÌNH, PHƯƠNG SAI, ĐỘ LỆCH CHUẨN ................................ 9
2.2.1 - Giá trị trung bình (Mean) ...................................................................................... 9
2.2.2 - Phương sai (Variance) ......................................................................................... 10
2.2.3 - Độ lệch chuẩn (Standard Deviation) ................................................................... 10
2.3 - PHƯƠNG PHÁP CHUẨN HÓA .............................................................................. 10

2.3.1 - Chuẩn hóa Z (Z - Normalization) ........................................................................ 11
2.3.2 - Chuẩn hóa Min-Max (Min-Max Normalization) ................................................ 12
2.3.3 - Kết luận về chuẩn hóa và cách sử dụng trong giai đoạn tiền xử lý ..................... 12
viii


2.4 - CÁC ĐỘ ĐO TRONG BÀI TỐN TÌM SỰ TƯƠNG QUAN ................................ 13
2.4.1 - Độ đo Euclid ........................................................................................................ 13
2.4.2 - Độ đo Minkowski ................................................................................................ 13
2.4.3 - Độ đo xoắn thời gian động (Dynamic Time Warping) ....................................... 14
2.4.4 – Ràng buộc đường xoắn độ đo xoắn thời gian động ............................................ 16
2.5 - HỆ SỐ TƯƠNG QUAN PEARSON (Pearson’s Correlation Coefficient) ............... 17
2.5.1 - Giới thiệu về hệ số tương quan Pearson .............................................................. 17
2.5.2 - Cơng thức tính hệ số tương quan Pearson ........................................................... 18
2.5.3 - Mối liên hệ giữa hệ số tương quan và độ đo Euclid chuẩn hóa Z ....................... 18
2.6 - PHÉP BIẾN ĐỔI FOURIER NHANH (Fast Fourier Transform) ............................ 19
2.6.1 - Phép biến đổi Fourier rời rạc (Discrete Fourier Transform) ............................... 19
2.6.2 - Ý tưởng dẫn tới giải thuật FFT (Fast Fourier Transform) ................................... 20
2.6.3 - Khai thác tính đối xứng của DFT dẫn tới FFT .................................................... 20
2.7 - PHÉP NHÂN ĐA THỨC (Polynomial Multiplication) ............................................ 21
2.7.1 - Bài toán nhân đa thức .......................................................................................... 21
2.7.2 - Một số điểm trong bài toán nhân đa thức và sử dụng giải thuật FFT ................. 22
2.8 - CÁC KHÁI NIỆM LIÊN QUAN ĐẾN ĐA THỨC .................................................. 22
2.8.1 - Tích vơ hướng (Dot Product) .............................................................................. 22
2.8.2 - Tích trong (Inner Product) ................................................................................... 22
2.8.3 - Đa thức trực giao (Orthogonal Polynomials) ...................................................... 23
2.8.4 - Bài tốn xấp xỉ bình phương tối thiểu trên các điểm dữ liệu rời rạc (Discrete
Least-Square Approximation Problem) .......................................................................... 23
2.8.5 - Sử dụng đa thức trực giao trong bài tốn xấp xỉ đa thức bình phương tối thiểu . 26
2.9 – MAXIMUM CLIQUE .............................................................................................. 28

CHƯƠNG 3 ........................................................................................................................... 29
CÁC CƠNG TRÌNH LIÊN QUAN ....................................................................................... 29
3.1 - KẾT CHUỖI CON DỰA VÀO CÁC PHÂN ĐOẠN KHÔNG ĐỒNG NHẤT ....... 29
3.2 - KẾT CHUỖI CON DỰA VÀO PHÉP BIẾN ĐỔI FOURIER NHANH KẾT HỢP
VỚI PHƯƠNG PHÁP CẮT TỈA CÁC VỊ TRÍ KHÔNG QUAN TRỌNG ...................... 30
3.2.1 - Giải thuật trực tiếp (Nạve Algorithm) ................................................................ 31
3.2.2 - Tính tốn sự tương quan trùng lắp (Overlapping Correlation Computation) ..... 31
3.2.3 - Loại bỏ các độ dài không cần thiết (Pruning Uncorrelated Locations) ............... 34
ix


3.3 - KẾT CHUỖI CON TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO ĐỘ ĐO
XOẮN THỜI GIAN ĐỘNG .............................................................................................. 37
3.3.1 - Q trình chuẩn hóa dữ liệu ................................................................................ 38
3.3.2 - Phân đoạn chuỗi thời gian dựa vào điểm cực trị quan trọng ............................... 39
3.3.3 - Quá trình kết chuỗi con ....................................................................................... 40
3.4 - PHƯƠNG PHÁP PHÂN ĐOẠN DỰA VÀO XẤP XỈ ĐA THỨC BÌNH PHƯƠNG
TỐI THIỂU ........................................................................................................................ 43
3.4.1 - Giải pháp cho bài tốn xấp xỉ đa thức bình phương tối thiểu tuyến tính. ........... 44
3.4.2 - Các hàm cơ bản được chọn là một dãy các hàm trực giao .................................. 45
3.4.3 - Giải pháp cho kỹ thuật xấp xỉ cửa sổ trượt (Sliding Window Technical) ........... 46
3.4.4 - Giải thuật cập nhật nhanh hệ số của đa thức trực giao ........................................ 47
3.5 – PHƯƠNG PHÁP PHÁT HIỆN ĐỒNG THỜI MOTIF VÀ CHUỖI CON BẤT
THƯỜNG ........................................................................................................................... 50
CHƯƠNG 4 ........................................................................................................................... 52
PHƯƠNG PHÁP ĐỀ NGHỊ CHO BÀI TOÁN KẾT CHUỖI CON .................................... 52
4.1 – GIẢI THUẬT JOCOR CẢI TIẾN ............................................................................ 52
4.1.1 – Q trình chuẩn hóa dữ liệu ................................................................................ 52
4.1.2 – Q trình phân đoạn chuỗi thời gian .................................................................. 53
4.1.3 – Quá trình kết chuỗi con....................................................................................... 54

4.2 – ỨNG DỤNG KẾT CHUỖI CON ĐỂ PHÁT HIỆN ĐỒNG THỜI MOTIF VÀ BẤT
THƯỜNG TRÊN DỮ LIỆU CHUỖI THỜI GIAN ........................................................... 55
4.2.1 – Các bước thực hiện trong giải thuật đề xuất. ...................................................... 55
4.2.2 – Giải thuật tìm Maximum Clique ......................................................................... 59
CHƯƠNG 5 ........................................................................................................................... 62
KẾT QUẢ NGHIÊN CỨU .................................................................................................... 62
5.1 – THỰC NGHIỆM VỀ GIẢI THUẬT JOCOR CẢI TIẾN ........................................ 62
5.1.1 – Các bộ dữ liệu thực nghiệm ................................................................................ 62
5.1.2 – Các thông số cho mỗi bộ dữ liệu trong quá trình phân đoạn .............................. 62
5.1.3 – Kết quả thực nghiệm ........................................................................................... 63
5.1.4 – Bảng tổng kết và nhận xét .................................................................................. 75
5.2 – THỰC NGHIỆM VỀ GIẢI THUẬT PHÁT HIỆN ĐỒNG THỜI MOTIF VÀ
CHUỖI CON BẤT THƯỜNG........................................................................................... 76
x


5.2.1 – Các bộ dữ liệu thực nghiệm ................................................................................ 76
5.2.2 – Các giá trị thông số cho giải thuật đề xuất.......................................................... 76
5.2.3 – Kết quả thực nghiệm ........................................................................................... 78
CHƯƠNG 6 ........................................................................................................................... 84
KẾT LUẬN ........................................................................................................................... 84
5.1 – TỔNG KẾT ............................................................................................................... 84
5.2 – NHỮNG ĐÓNG GÓP CỦA ĐỀ TÀI ....................................................................... 84
5.3 – NHỮNG HẠN CHẾ CỦA ĐỀ TÀI .......................................................................... 85
5.4 – HƯỚNG PHÁT TRIỂN ............................................................................................ 85
CÁC BÀI BÁO ĐÃ CÔNG BỐ ............................................................................................ 86
TÀI LIỆU THAM KHẢO ..................................................................................................... 87
PHỤ LỤC .............................................................................................................................. 90
LÝ LỊCH TRÍCH NGANG ................................................................................................... 91


xi


DANH MỤC HÌNH
Hình 2.1 - Chuỗi thời gian về nhiệt độ ở New York trong giai đoạn 1987-2000 ................... 6
Hình 2.2 - Chuỗi thời gian con minh họa sự tương quan giữa nhiệt độ và độ mặn ở một khu
vực trong biển Thái Bình Dương vào ngày 11-Jan, 1999 ....................................................... 7
Hình 2.3 - Tỉ giá hối đối của hai đồng tiền Indian và Singapore trong gian đoạn 1996-2013
với độ tương quan lớn nhất là 0.9489 và minLength > 7 years............................................... 8
Hình 2.4 – Hai chuỗi thời gian được kết với một vài cặp chuỗi con tương tự nhau ............... 8
Hình 2.5 - Dữ liệu điện tâm đồ chưa được chuẩn hóa ........................................................... 11
Hình 2.6 - Dữ liệu điện tâm đồ sau khi được chuẩn hóa ....................................................... 12
Hình 2.7 - Sự ánh xạ khi áp dụng độ đơ Euclid .................................................................... 13
Hình 2.8 - Khoảng cách Minkowski với các giá trị p khác nhau .......................................... 14
Hình 2.9 - Sự ánh xạ khi áp dụng độ đo xoắn thời gian động ............................................... 15
Hình 2.10 - Cách tính khoảng cách xoắn thời gian động. A) Hai chuỗi thời gian 𝑸 và 𝑪. B)
Ma trận tính DTW. C) Kết quả ánh xạ điểm trong DTW [16] ............................................... 15
Hình 2.11 - Ràng buộc Sakoe-Chiba (nguồn [23])................................................................ 16
Hình 2.12 - Ràng buộc Itakura (nguồn[32]) .......................................................................... 17
Hình 2.13 - Một vài biểu đồ cho ta thấy được xu hướng thể hiện của dữ liệu, lược đồ 1 có r
= 1, lược đồ 2 có r = 0.977, lược đồ 3 có r = 0.585 .............................................................. 18
Hình 2.14 - Một phương trình bậc hai phù hợp với các điểm dữ liệu .................................. 25
Hình 2.15 – Ví dụ về đồ thị có 3 clique. Maximum clique là (A-H-J-M-G-K) .................... 28
Hình 3.1 - Tổng quan về quy trình kết chuỗi con của Yi. Lin. Nhánh bên phải là quy trình
kết chuỗi con, nhánh bên trái là quy trình nén dữ liệu (nguồn [12]) ..................................... 29
Hình 3.2 - Sơ đồ tổng quan trong ứng dụng kết chuỗi con của Võ Đức Vĩnh (nguồn [14]). 38
Hình 3.3 - Sơ đồ tổng quan của q trình chuẩn hóa dữ liệu (nguồn [14]) ........................... 39
Hình 3.4 - Tham số R giúp xác định các điểm cực trị quan trọng (nguồn [11]) ................... 39
Hình 3.5 - Điểm cực trị quan trọng tìm được trên dữ liệu Stock (nguồn [14]) ..................... 40
Hình 3.6 - Cửa sổ trượt trong giai đoạn kết chuỗi con (nguồn [22])..................................... 41

HÌnh 3.7 - Từ bỏ sớm trong khoảng cách xoắn thời gian động (a) Tính bước đầu tiên và
kiểm tra có vượt q hay khơng; (b) Tính lề của ma trận; (c) Tính thân của ma trận sử dụng
từ bỏ sớm; (d) So sánh kỹ thuật từ bỏ sớm với cách tính thơng thường. (# = Vượt q, ## =
Bỏ qua tính tốn) (nguồn 0) ................................................................................................... 43
Hình 3.8 - Chuỗi thời gian sin2(x) sau khi được phân đoạn với 4222 điểm dữ liệu, cửa sổ
trượt có kích thước là 30 và bậc của đa thức xấp xỉ là 2 ....................................................... 44
Hình 3.9 - Ví dụ về xấp xỉ đa thức với cửa sổ trượt là 150, bậc của đa thức tương ứng là 0, 1
và 2. ....................................................................................................................................... 44
Hình 3.10 – Đồ thị của kết quả kết chuỗi con ....................................................................... 51
Hình 3.11 – Ghép những nút overlaped với nhau A với A’ và E với E’ ............................... 51
Hình 4.1 - Sơ đồ tổng qt cho q trình chuẩn hóa dữ liệu ................................................. 52
Hình 4.2 - Sơ đồ tổng quan của quá trình phân đoạn và tìm minLen ................................... 53
Hình 4.3 - Ma trận kích thước 5x5 mơ tả trực quan cho cơng thức quy hoạch động, các cột
biểu diễn chuỗi X, các dòng biểu diễn chuỗi Y ..................................................................... 55
Hình 5.1 - Dữ liệu EEG 1 (5000 điểm) ................................................................................. 63
Hình 5.2 - Dữ liệu EEG 2 (5000 điểm) ................................................................................. 64
xii


Hình 5.3 - Chuỗi con tương quan nhất tìm được trong chuỗi thời gian ................................ 64
Hình 5.4 - Chuỗi con tương quan nhất tìm được trong chuỗi thời gian ................................ 65
Hình 5.5 - Dữ liệu Light Curve 1 (5000 điểm) ...................................................................... 65
Hình 5.6 - Dữ liệu Light Curve 1 (5000 điểm) ...................................................................... 66
Hình 5.7 - Chuỗi con tương quan nhất tìm được trong chuỗi thời gian ................................ 66
Hình 5.8 - Chuỗi con tương quan nhất tìm được trong chuỗi thời gian ................................ 67
Hình 5.9 – Dữ liệu Power 1 (5000 điểm) .............................................................................. 67
Hình 5.10 - Dữ liệu Power 2 (5000 điểm) ............................................................................. 68
Hình 5.11 - Chuỗi con tương quan nhất tìm được trong chuỗi thời gian .............................. 68
Hình 5.12 - Chuỗi con tương quan nhất tìm được trong chuỗi thời gian .............................. 68
Hình 5.13 – Dữ liệu Currency 1 (5000 điểm) ....................................................................... 69

Hình 5.14 - Dữ liệu Currency 2 (5000 điểm) ........................................................................ 69
Hình 5.15 - Chuỗi con tương quan nhất tìm được trong chuỗi thời gian .............................. 69
Hình 5. 16 - Chuỗi con tương quan nhất tìm được trong chuỗi thời gian ............................. 70
Hình 5.17 - Dữ liệu Blood Pressure 1 (5000 điểm) ............................................................... 71
Hình 5.18 - Dữ liệu Blood Pressure 2 (5000 điểm) ............................................................... 71
Hình 5.19 - Chuỗi con tương quan nhất tìm được trong chuỗi thời gian .............................. 72
Hình 5.20 - Chuỗi con tương quan nhất tìm được trong chuỗi thời gian .............................. 73
Hình 5.21 - Dữ liệu Random Walk 1 (5000 điểm) ................................................................ 73
Hình 5.22 - Dữ liệu Random Walk 2 (5000 điểm) ................................................................ 74
Hình 5.23 - Chuỗi con tương quan nhất tìm được trong chuỗi thời gian .............................. 74
Hình 5.24 - Chuỗi con tương quan nhất tìm được trong chuỗi thời gian .............................. 75
Hình 5.25 - 1-Motif được tìm được bởi ba giải thuật A) giải thuật đề xuất, B) Brute Force,
C) Random Projection. .......................................................................................................... 78
Hình 5.26 - Dữ liệu ECG và chuỗi con bất thường được tìm thấy........................................ 79
Hình 5.27 - Dữ liệu ECG và chuỗi con bất thường được tìm thấy bằng giải thuật HOT_SAX
............................................................................................................................................... 79
Hình 5.28 - Dữ liệu KOSKI ECG và chuỗi con bất thường được tìm thấy bằng giải thuật đề
xuất. ....................................................................................................................................... 79
Hình 5.29 - Dữ liệu KOSKI ECG và chuỗi con bất thường được tìm thấy bằng giải thuật
HOT_SAX ............................................................................................................................. 80
Hình 5.30 - Dữ liệu MEMORY và chuỗi con bất thường được tìm thấy bằng giải thuật đề
xuất ........................................................................................................................................ 80
Hình 5.31 - Dữ liệu MEMORY và chuỗi con bất thường được tìm thấy bằng giải thuật
HOT_SAX ............................................................................................................................. 80
Hình 5.32 - Dữ liệu POWER và chuỗi con bất thường được tìm thấy bằng giải thuật đề
xuất. ....................................................................................................................................... 81
Hình 5.33 - Dữ liệu POWER và chuỗi con bất thường được tìm thấy bằng giải thuật
HOT_SAX ............................................................................................................................. 81
Hình 5.34 - Dữ liệu POWER DEMAND ITALY và chuỗi con bất thường được tìm thấy
bằng giải thuật đề xuất. .......................................................................................................... 82

Hình 5.35 - Dữ liệu POWER DEMAND ITALY và chuỗi con bất thường được tìm thấy
bằng giải thuật HOT_SAX .................................................................................................... 82

xiii


DANH MỤC BẢNG
Bảng 3.1 - Giải thuật trực tiếp (Naïve Algorithm) ................................................................ 31
Bảng 3.2 - Quá trình tiền xử lý áp dụng phép biến đổi Fourier nhanh .................................. 33
Bảng 3.3 - Tổng quan về giải thuật Jocor (Join on Correlation) ........................................... 37
Bảng 4.1 – Giải thuật tìm Maximum Clique cơ bản ............................................................. 59
Bảng 4.2 – Giải thuật Color Sort ........................................................................................... 61
Bảng 5.1 - Bậc của đa thức, kích thước của sổ trượt và tiêu chí phân đoạn ......................... 63
Bảng 5.2 - Độ dài minLen tìm được sau quá trình phân đoạn cho mỗi bộ dữ liệu ............... 63
Bảng 5.3 - Kết quả nghiên cứu trên 6 bộ dữ liệu giữa hai giải thuật Jocor gốc và Jocor cải
tiến (ET : execution time in seconds; MC : maximum correlation) ...................................... 76
Bảng 5.4 - Các giá trị tham số cho giải thuật đề xuất ............................................................ 77
Bảng 5.5 - Các giá trị tham số cho giải thuật Random Projection ........................................ 77
Bảng 5.6 - Số thể hiện tìm được trên mỗi bộ dữ liệu của ba giải thuật ................................. 77
Bảng 5.7 - Thời gian thực thi trên mỗi bộ dữ liệu của ba giải thuật tính bằng giây ............. 78

xiv


CHƯƠNG 1
GIỚI THIỆU ĐỀ TÀI
Chương đầu tiên của luận văn sẽ là phần mở đầu, phần này sẽ điểm qua các vấn đề
liên quan tới bài tốn phân tích dữ liệu chuỗi thời gian, ý nghĩa của việc phân tích dữ liệu
chuỗi thời gian trong thực tiễn và khoa học mà đặc biệt là bài toán kết chuỗi con.
Hướng tiếp cận của tơi cho việc giải quyết bài tốn kết chuỗi con và ứng dụng kết quả

của quá trình kết chuỗi con trong bài tốn tìm motif và anomaly trong chuỗi thời gian.
1.1 - ĐẶT VẤN ĐỀ
Như chúng ta đã biết, công nghệ trên thế giới ngày một phát triển và mức độ ảnh
hưởng của nó đến con người là đều khơng thể phủ nhận. Có thể nói cho đến bây giờ hầu hết
những gì chúng ta gặp xung quanh cuộc sống, những thứ chúng ta tiếp xúc và làm việc hàng
ngày, trong gia đình và kể cả trong cơng việc đều liên quan đến công nghệ.
Với sự phát triển nhanh như vậy, thì dữ liệu mà con người phải đối mặt hàng ngày
cũng rất lớn. Vậy câu hỏi đặt ra là, “làm sao để có thể quản lý và tìm kiếm thơng tin quan
trọng và hữu ích trong một lượng dữ liệu lớn (Big Data) một cách nhanh nhất và chính xác
nhất ?”
Câu hỏi này chính là mấu chốt cho sự phát triển của ngành khai phá dữ liệu (Data
Mining) một lĩnh vực mà rất nhiều nhà nghiên cứu trên thế giới quan tâm tới.
Một trong những loại dữ liệu rất quan trọng đó là dữ liệu chuỗi thời gian (Time Series
Data) dữ liệu này có trong hầu hết các lĩnh vực trong cuộc sống như là thống kê, xử lý tín
hiệu, kinh tế, tài chính, mơi trường, năng lượng,... Như vậy làm thế nào để có thể từ một dữ
liệu chuỗi thời gian ta có thể biết được những tri thức tiềm ẩn bên trong nó ? đây cũng là câu
hỏi dẫn tới một loạt các bài toán về phân tích dữ liệu chuỗi thời gian (Time Series Analysis)
như là bài toán kết chuỗi con (Subseries Join), phân loại (Classification), gom cụm
(Clustering), dự báo (Predict), phát hiện bất thường (Novelty Detection), phát hiện mơ típ
(Motif Detection),… Trong đó bài toán kết chuỗi là một trong những bài toán được quan tâm
nhất trong thời gian gần đây.
1.2 - Ý NGHĨA PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN
Việc phân tích dữ liệu chuỗi thời gian là điều rất quan trọng và có ý nghĩa rất lớn đối
với từng lĩnh vực kể cả trong khoa học và thực tiễn.
1


Ví dụ như cho hai biểu đồ biểu diễn hai bản nhạc, làm thế nào để biết hai bản nhạc có
giống nhau hay khơng ? (ứng dụng để có thể phát hiện đạo nhạc ) hoặc là cho hai biểu đồ về
lưu lượng nước trên hai con sông, làm thế nào để biết khoảng thời gian nào thì lưu lượng

nước ở hai con sông là giống nhau nhất (phục vụ cho cơng tác nghiên cứu và dự đốn).
Làm thế nào biết được trong một biểu đồ điện tâm đồ, biểu đồ điện não đồ, giai đoạn
nào là bất thường (anomaly) giai đoạn nào là ổn định ? lời giải của bài tốn nhằm mục đích
phục vụ cho q trình chẩn đoán và đưa ra kết luận dựa trên các kết quả đó.
Phân tích chuỗi thời gian bao gồm các phương pháp để phân tích dữ liệu chuỗi thời
gian, để từ đó trích xuất ra được các thuộc tính thống kê có ý nghĩa và đặc trưng của dữ liệu.
Dự đốn chuỗi thời gian là việc sử dụng mơ hình để dự đoán các sự kiện thời gian dựa
vào các sự kiện đã biết trong quá khứ để từ đó dự đốn các điểm dữ liệu trước khi nó xảy ra.
1.3 - HƯỚNG TIẾP CẬN
Vấn đề chúng ta cần xem xét là việc kết hai chuỗi thời gian dựa trên độ tương quan
lớn nhất giữa chúng. Hai chuỗi thời gian có thể được kết hợp ở bất kỳ vị trí và bất kỳ độ dài
nào, một cặp vị trí và độ dài có thể cho ta những tri thức hữu ích trong nhiều lĩnh vực khác
nhau như tài chính, kinh tế, giám sát môi trường, theo dõi bệnh nhân và các vấn đề liên quan
đến năng lượng…
Ví dụ trong Hình 1.1 minh họa tỉ giá hối đoái của hai đồng tiền Indian Rupee (INR)
và Singapore Dollar (SGD) từ năm 1996 tới năm 2013, đoạn được tơ đậm trong hình chính
là đoạn được kết và chúng có hệ số tương quan là 0.94 [2]

Hình 1.1 – Hai chuỗi thời gian về tỉ giá hối đoái của hai đồng tiền Indian
Rupee (INR) và Singapore Dollar (SGD) trong giai đoạn 1996-2013
2


Tuy nhiên, việc tính tốn độ tương quan của tất cả các đoạn con địi hỏi một chi phí
khá cao, đặc biệt là khi độ dài của chuỗi thời gian tương đối lớn. Giải thuật trực tiếp (Naive
Algorithm) yêu cầu độ phức tạp là O(n4) với n là độ dài của chuỗi thời gian.
Trong đề tài này chúng tôi sử dụng kỹ thuật phân đoạn bằng phương pháp xấp xỉ đa
thức bình phương tối thiểu (Least-Square Polynomial Approximate) kết hợp với phương pháp
cửa sổ trượt (Sliding Window) và tiêu chí phân đoạn là sai số tồn phương trung bình (Mean
Square Error) để tìm ra các đoạn mang tính chất đặc trưng nhất, sau đó tơi tìm minLen dựa

vào các đoạn đặc trưng này, q trình kết chuỗi con chúng tơi sử dụng hệ số tương quan
Pearson để tìm ra sự tương quan của tất cả các đoạn con có độ dài lơn hơn hoặc bằng minLen.
Bên cạnh đó chúng tơi có sử dụng phương pháp quy hoạch động (Dynamic Programing)
nhằm mục đích cải tiến độ phức tạp của bài tốn kết chuỗi con.
Đề tài sử dụng các phép toán liên quan tới thống kê như là giá trị trung bình (Mean),
phương sai (Variance), độ lệch chuẩn (Standard Deviation), phép biến đổi Fourier nhanh
(Fast Fourier Transform) các phương pháp chuẩn hóa như là chuẩn hóa Z, (Z-Normalization)
chuẩn hóa min- max (Min-Max-Normalization), khái niệm về hệ số tương quan Pearson
(Pearson Correlation Coefficient), các độ đo như Minkowski, Euclid, Dynamic Time Warping,
các khái niệm về hàm số, đa thức trực giao (Orthogonal Polynomial), đa thức (Polynomial),
tích vơ hướng (Dot Product), tích trong (Inner Product), bài tốn xấp xỉ đa thức bình phương
tối thiểu (Least-Square Polynomial Approximate).
1.4 – MỤC TIÊU VÀ GIỚI HẠN CỦA ĐỀ TÀI
Mục tiêu chính của đề tài là nghiên cứu phương pháp kết chuỗi con dựa vào hệ số
tương quan Pearson với một vài cải tiến so với nghiên cứu của A. Mueen và các cộng sự,
phương pháp đề xuất có ba cơng đoạn chính : (i) ứng dụng phương pháp phân đoạn chuỗi
thời gian dựa vào xấp xỉ đa thức bình phương tối thiểu kết hợp với cửa sổ trượt của E. Fuchs,
(ii) sử dụng kỹ thuật quy hoạch động để tiền xử lý q trình tính tốn, (iii) tăng tốc quá trình
kết chuỗi con bằng cách trượt mỗi phân đoạn của chuỗi thời gian A trên chuỗi thời gian B.
Kết quả thu được sẽ so sánh với giải thuật JOCOR [2] do A. Mueen và các cộng sự
đề xuất về hai phương diện là độ hữu hiệu (thời gian chạy) và độ chính xác.
Bên cạnh đó chúng tơi có sử dụng ý tưởng của q trình kết chuỗi con và lý thuyết đồ
thị để giải quyết bài toán đồng thời phát hiện motif và chuỗi con bất thường trên chuỗi thời
gian.
3


Đối với bài toán phát hiện motif sẽ được so sánh với giải thuật Brute Force và phương
pháp chiếu ngẫu nhiên (Random Project) [28]. Bài toán phát hiện bất thường sẽ được so sánh
với giải thuật HOT_SAX, tất cả đều so sánh với hai phương diện, thời gian chạy và độ chính

xác.
1.5 – NHỮNG KẾT QUẢ ĐẠT ĐƯỢC
Trong giới hạn thời gian thực hiện luận văn, chúng tôi đã hiện thực chương trình giải
quyết hai bài tốn như sau (i) kết chuỗi con cải tiến dựa vào hệ số tương quan Pearson, (ii)
đồng thời phát hiện motif và chuỗi con bất thường dựa vào kết quả kết chuỗi con.
Đối với bài tốn (i) chúng tơi chạy thực nghiệm với các thông số khác nhau cho từng
loại dữ liệu để đánh giá và so sánh hiệu quả của giải thuật cải tiến so với giải thuật Jocor gốc.
Qua thực nghiệm chúng tôi thấy được những ưu điểm của cách tiếp cận mới về độ chính xác,
thời gian cũng như là độ phức tạp của việc hiện thực giải thuật.
Đối với bài tốn (ii) chúng tơi cũng chạy thực nghiệm trên các bộ dữ liệu khác nhau
cùng với các bộ thống số đầu vào khác nhau, kết quả thực nghiệm cũng cho thấy được hiệu
quả của việc sử dụng lý thuyết đồ thị và mối liên hệ của các chuỗi con tương quan với nhau
để xây dựng nên cách tiếp cận giải quyết đồng thời bài toán phát hiện motif và chuỗi con bất
thường.
Như vậy chương trình đã đáp ứng những yêu cầu và nhiệm vụ của luận văn.
1.6 – CẤU TRÚC LUẬN VĂN
Chương hai của luận văn sẽ điểm qua các cơ sở lý thuyết cũng như các khái niệm cơ
bản liên quan đến bài tốn chuẩn hóa dữ liệu đây là giai đoạn đầu tiên trước khi bước vào
giai đoạn thứ hai là phân đoạn chuỗi thời gian, sau khi phân đoạn chuỗi thời gian hồn thành
thì sẽ là q trình kết chuỗi con trên dữ liệu chuỗi thời gian dựa vào hệ số tương quan Pearson.
Chương ba sẽ đi qua các cơng trình liên quan đến bài tốn kết chuỗi con như là luận
án tiến sĩ của Y. Lin về phương pháp kết chuỗi con dựa vào sự phân đoạn khơng đồng nhất,
q trình phân đoạn chuỗi thời gian bằng phương pháp xấp xỉ đa thức bình phương tối thiểu
kết hợp phương pháp cửa sổ trượt của E. Fuchs và các cộng sự, phương pháp kết chuỗi con
của A. Mueen và các cộng sự, luận văn thạc sĩ của Võ Đức Vĩnh nghiên cứu về bài toán kết
chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động (Dynamic Time

4



Warping). Lý thuyết đồ thị và giải thuật cho bài toán maximum clique được đề xuất bởi Konc
and Janezic in 2003 [29]
Chương bốn của luận văn sẽ trình bày phương pháp mà chúng tơi đề nghị để giải quyết
bài tốn kết chuỗi con trên dữ liệu chuỗi thời gian dựa vào hệ số tương quan Pearson và ý
tưởng sử dụng kết quả của bài toán kết chuỗi con trong bài toán phát hiện đồng thời motif và
chuỗi con bất thường.
Chương năm sẽ là kết quả thực nghiệm và so sánh giữa kết quả nghiên cứu với các
cơng trình liên quan.
Chương sáu là kết luận và hướng mở rộng của đề tài.

5


CHƯƠNG 2
CƠ SỞ LÝ THUYẾT
Chương hai của luận văn sẽ đi qua các khái niệm liên quan đến chuỗi thời gian, xác
suất thống kê, cũng như là các phương pháp chuẩn hóa, các độ đo sử dụng trong bài tốn kết
chuỗi con.
Bên cạnh đó chương này cịn trình bày ý tưởng của phép biến đổi Fourier nhanh nhằm
mục đích tăng tốc q trình kết chuỗi con trong cơng trình của A. Mueen và các cộng sự, các
khái niệm về đa thức, đa thức trực giao, bài toán xấp xỉ đa thức bình phương tối thiểu được
ứng dụng trong bài tốn phân đoạn chuỗi thời gian của E. Fuchs và các cộng sự.
2.1 - CÁC KHÁI NIỆM CHÍNH
2.1.1 - Chuỗi thời gian (Time Series)
Một chuỗi thời gian T là một dãy của các số thực t1, t2, …, tn với n là độ dài của chuỗi
thời gian, mỗi giá trị ti biểu diễn giá trị đo tại những thời điểm cách đều nhau.
Trong Hình 2.1 minh họa chuỗi thời gian về nhiệt độ ở New York năm 1987 - 2000

Hình 2.1 - Chuỗi thời gian về nhiệt độ ở New York trong giai đoạn 1987-2000
2.1.2 - Chuỗi thời gian con (Subsequence Time Series)

Một chuỗi con S của chuỗi thời gian T bắt đầu ở vị trí i và có độ dài là m được biểu
diễn như sau t[i : i + m – 1] = ti, ti+1, …,ti + m – 1

6


Trong Hình 2.2 miêu tả hai chuỗi thời gian minh họa nhiệt độ (temperature) và độ
mặn (salinity) ở một khu vực trong biển Thái Bình Dương [2]. Phần tơ đậm chính là chuỗi
thời gian con của hai chuỗi thời gian gần như tương tự với nhau.

Hình 2.2 - Chuỗi thời gian con minh họa sự tương quan giữa nhiệt độ và độ
mặn ở một khu vực trong biển Thái Bình Dương vào ngày 11-Jan, 1999
2.1.3 - Kết chuỗi con (Subseries Join)
Kết chuỗi con là quá trình tìm độ tương tự của hai chuỗi con X và Y. Trên chuỗi thời
gian T ta có X = [x1, x2, …., xn] và Y = [y1, y2, ….,yn] ta cần tính C(X, Y) của hai chuỗi con này,
C(X, Y) là hệ số tương quan của hai chuỗi con đó.
Bài tốn kết chuỗi con có thể được chia làm hai hướng tiếp cận sau đây :
 Tìm một cặp chuỗi con có độ tương quan lớn nhất (MaxCorrelation Join)
Cho hai chuỗi thời gian là X = [x1, x2, …., xn] và Y = [y1, y2, ….,yn] ta sẽ đi tìm duy nhất
một đoạn con của X gọi là X’ = [xi, xi + 1, …, xi+len-1] và đoạn con của Y gọi là Y’ = [yj, yj + 1,
…, yj+len-1] với len lớn hơn hoặc bằng minLen sao cho C(X’, Y’) của chúng là lớn nhất. Tức là
X’ và Y’ là tương quan nhất với nhau.
Hình 2.3 minh họa độ tương quan về tỉ giá hối đoái của hai đồng tiền Indian Rupee
(INR) và Singapore Dollar (SGD) từ năm 1996 tới năm 2013 [2]

7


Hình 2.3 - Tỉ giá hối đối của hai đồng tiền Indian và Singapore
trong gian đoạn 1996-2013 với độ tương quan lớn nhất là 0.9489 và

minLength > 7 years
 Tìm một tập tất cả các chuỗi con mà có độ tương quan lớn hơn hoặc bằng α
Cho hai chuỗi thời gian là X = [x1, x2, …., xn] và Y = [y1, y2, ….,yn] ta sẽ đi tìm một tập
các chuỗi con S = {s1, s2, sm} sao cho với mỗi si thì độ tương quan của si là lớn hơn hoặc bằng
một ngưỡng α cho trước. si được định nghĩa như sau :

si = [xj,k, yl, k], với k ≥ minLen
Cặp chuỗi con thứ i có chuỗi con x bắt đầu ở j và có độ dài là k, chuỗi con y bắt đầu ở
l và có độ dài là k.
Hình 2.4 minh họa cho việc kết chuỗi con theo hướng tiếp cận thứ hai

Hình 2.4 – Hai chuỗi thời gian được kết với một vài cặp
chuỗi con tương tự nhau
Như vậy, chúng ta thấy giữa hai hướng tiếp cận trên có mối liên hệ với nhau. Nếu
chúng ta đi tìm giá trị lớn nhất của các si tức là đi tìm max{C(si)} với 1 <= i <= m thì kết quả

8


tìm được chính là cặp chuỗi con có độ tương quan lớn nhất. Cặp chuỗi con này chính là kết
quả tìm được trong hướng tiếp cận thứ nhất.
Trong đề tài nghiên cứu này chúng tôi sử dụng hệ số tương quan Pearson để đánh giá
xem giữa hai chuỗi con bất kỳ có sự tương quan như thế nào với nhau. Sử dụng hướng tiếp
cận thứ hai để tìm ra một tập các chuỗi con có độ tương quan lớn hơn một ngưỡng α cho
trước và so sánh với kết quả tìm được trong luận văn thạc sĩ của Võ Đức Vĩnh [14]
Sau đó chúng tơi sẽ tìm ra cặp chuỗi con có độ tương quan lớn nhất và so sánh với kết
quả trong cơng trình nghiên cứu của A. Mueen và các cộng sự của ông [2]
2.1.4 – Định nghĩa 1-motif
Cho một chuỗi thời gian T một chuỗi con C được gọi là 1-motif của T nếu như nó có
số đoạn con tương tự với nó là cao nhất, tất cả các đoạn con tương tự đó được gọi là những

thể hiện của 1-motif
2.1.5 – Định nghĩa chuỗi con bất thường (Time Series Discord)
Cho một chuỗi thời gian T, chuỗi con D chiều dài n bắt đầu ở vị trí l được gọi là chuỗi
con bất thường của T nếu D có khoảng cách lớn nhất đến chuỗi con so trùng khơng tầm
thường gần nhất của nó. Tức là, ∀ chuỗi con C của T, chuỗi con so trùng không-tầm-thường
MD của D, và chuỗi con so trùng không tầm thường MC của C, min(Dist(D,MD)) >
min(Dist(C,MC)).
2.2 - GIÁ TRỊ TRUNG BÌNH, PHƯƠNG SAI, ĐỘ LỆCH CHUẨN
2.2.1 - Giá trị trung bình (Mean)
Ta có bộ dữ liệu quan sát như sau X1, X2,…,Xn. Trung bình của một tập hợp các quan
sát bằng tổng của tất cả các quan sát chia cho số lượng các quan sát.
Trung bình đo lường khuynh hướng tập trung của các quan sát, chúng cho ta biết sự
tập trung của các con số.
𝑛

1
𝜇𝑥 = ∑ 𝑥𝑖
𝑛
𝑖=1

Với xi là giá trị quan sát thứ i
𝜇𝑥 là giá trị trung bình của tập X

9

(1)


2.2.2 - Phương sai (Variance)
Phương sai phản ánh mức độ phân tán của các giá trị của biến ngẫu nhiên so với giá

trị trung bình, phương sai càng nhỏ thì các giá trị càng tập trung xung quanh giá trị trung
bình.
𝑛

1
𝜎𝑥2 = ∑(𝑥𝑖 − 𝜇𝑥 )2
𝑛

(2)

𝑖=1

Với xi là giá trị quan sát thứ i
𝜇𝑥 là giá trị trung bình của tập X
Nếu phương sai bằng 0 thì tất cả các giá trị quan sát đều bằng nhau và bằng giá trị
trung bình, tức là khơng có sự biến thiên nào xảy ra.
2.2.3 - Độ lệch chuẩn (Standard Deviation)
Độ lệch chuẩn cho ta biến về sự biến thiên và từng giá trị quan sát có mối liên hệ tập
trung như thế nào xung quanh giá trị trung bình. Nếu độ lệch chuẩn càng lớn thì độ biến thiên
của giá trị quan sát xung quanh giá trị trung bình càng lớn.
Độ lệch chuẩn bằng căn bậc hai của phương sai lấy giá trị dương.
2.3 - PHƯƠNG PHÁP CHUẨN HÓA
Do dữ liệu ban đầu thuộc nhiều nguồn gốc khác nhau nên miền trị của chúng có thể
khác nhau, các dữ liệu này được gọi là dữ liệu thô (raw data). Dữ liệu này sẽ có những giá trị
được gọi là giá trị ngoại biên (ouliers) hay còn gọi là giá trị nhiễu (noise values). Trong hầu
hết các trường hợp dữ liệu nhiễu sẽ làm cho kết quả cuối cùng không được như mong đợi, bị
sai lệch nhiều, nếu khơng chuẩn hóa dữ liệu thì tỉ lệ mắc sai sót của các ứng dụng có thể tăng
lên gấp đơi [25]
Chính vì vậy trước khi bước vào giai đoạn xử lý chính, phải có giai đoạn tiền xử lý
hay cịn gọi là chuẩn hóa dữ liệu (data normalization), q trình này có một số lợi ích như

sau :
 Hạn chế và loại bỏ dữ liệu nhiễu
 Chuẩn hóa dữ liệu ban đầu từ miền trị chưa xác định về miền trị xác định trước.
 Kết quả cuối cùng sẽ tương đối chính xác hơn so với không tiền xử lý dữ liệu.
Một số phép chuẩn hóa sẽ được trình bày trong phần kế tiếp

10


×