Tải bản đầy đủ (.pdf) (95 trang)

Khảo sát và đánh giá hiệu quả của phương pháp phát hiện chuỗi con bất thường trên dữ liệu chuỗi thời gian dựa vào máy vector hỗ trợ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.96 MB, 95 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------

NGUYỄN BÁ THU

KHẢO SÁT VÀ ĐÁNH GIÁ HIỆU QUẢ CỦA
PHƯƠNG PHÁP PHÁT HIỆN CHUỖI CON BẤT
THƯỜNG TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA
VÀO MÁY VECTOR HỖ TRỢ

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số : 604801

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, tháng 9 năm 2014


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------

NGUYỄN BÁ THU

KHẢO SÁT VÀ ĐÁNH GIÁ HIỆU QUẢ CỦA
PHƯƠNG PHÁP PHÁT HIỆN CHUỖI CON BẤT
THƯỜNG TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA
VÀO MÁY VECTOR HỖ TRỢ



Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số : 604801

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, tháng 9 năm 2014


Trang i


ĐẠI HỌC QUỐC GIA TP.HCM
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Bá Thu ............................................... MSHV:12070548 ...........
Ngày, tháng, năm sinh:26-1-1985 ............................................. Nơi sinh: Hà Bắc ............
Chuyên ngành: Khoa Học Máy Tính ......................................... Mã số : 604801 ................
I. TÊN ĐỀ TÀI:
KHẢO SÁT VÀ ĐÁNH GIÁ HIỆU QUẢ CỦA PHƯƠNG PHÁP PHÁT
HIỆN CHUỖI CON BẤT THƯỜNG TRÊN DỮ LIỆU CHUỖI THỜI GIAN
DỰA VÀO MÁY VECTOR HỖ TRỢ
II. NHIỆM VỤ VÀ NỘI DUNG:
 Đề xuất phương pháp hiện bất thường trên dữ liệu chuỗi thời gian dựa
vào máy vector hỗ trợ.
 Hiện thực, thử nghiệm trên phương pháp đã đề xuất để đánh giá hiệu quả
của phương pháp.

III. NGÀY GIAO NHIỆM VỤ : 20-01-2014 .................................................................
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 14-7-2014 ...................................................
V. CÁN BỘ HƯỚNG DẪN: PGS.TS. Dương Tuấn Anh

Tp. HCM, ngày . . . . tháng .. . . năm 20....
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

TRƯỞNG KHOA….………
(Họ tên và chữ ký)

PGS.TS. Dương Tuấn Anh

……………………………….…

Trang ii


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : PGS.TS. Dương Tuấn Anh ........................

Cán bộ chấm nhận xét 1 : TS. Võ Thị Ngọc Châu.....................................

Cán bộ chấm nhận xét 2 : TS. Võ Đình Bảy ..............................................

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 14 tháng 7 năm 2014.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. TS. Nguyễn Văn Minh Mẫn .................

2. TS. Lê Thanh Vân ................................
3. PGS.TS. Dương Tuấn Anh...................
4. TS. Võ Đình Bảy ..................................
5. TS. Võ Thị Ngọc Châu.........................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TS. Nguyễn Văn Minh Mẫn

TRƯỞNG KHOA…………

……………………………….…

Trang iii


LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác
đã ghi rõ trong luận văn, các cơng việc trình bày trong luận văn này do chính tơi
thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy
một bằng cấp ở trường này hoặc trường khác.
Ngày …20/6/2014….
Nguyễn Bá Thu

Trang iv


LỜI CẢM ƠN
Để có thể hồn thành tốt luận văn này, trước tiên tôi xin chân thành gửi lời

cảm ơn đến PGS.TS.Dương Tuấn Anh, người Thầy đã luôn tận tâm chỉ bảo và
hướng dẫn tôi trong suốt thời gian tôi thực hiện luận văn này.
Tôi xin cảm ơn các quý thầy cô, những người đã trực tiếp và gián tiếp chỉ
bảo và giảng dạy giúp tơi có những kiến thức cần thiết để thực hiện luận văn này.
Tôi cũng xin cảm ơn gia đình và bạn bè đã quan tâm giúp đỡ và tạo điều kiện
để tơi hồn thành tốt luận văn này.
Tôi xin gửi lời cám ơn chân thành đến tất cả mọi người.

Trang v


ABSTRACT
Novelty subsequence is the subsequence that is most different with the rest
of the time series. It is the forecast of failures in the system and the sign of human
disease or the economic downturn.
There have been many novelty detection methods are proposed. Two most
famous methods are Brute-Force algorithm and HOTSAX algorithm. Our proposed
method uses two-classes support vector machine to detect the novelty in time series.
In this method, the time series is unfolded into phase space by a time-delay
embedding process. The result of this step is a set of feature vectors for time series.
Two-classes support vector machine method requires the training set consist
of normal and abnormal vectors. Howerver the actual training set has only normal
vectors. We apply the envelope method to solve this problem. This method
randomly creates the artificial normal and abnormal vectors from normal vectors in
the initial training set. These artificial vectors and the initial vectors form the new
training set for two-classes support vector machine classifier.
Experiments on synthetic dataset (Sinusoid) and the standard dataset (Koski,
Memory, ERP, Temperatures) demontrated the advantage and the promissing
performance of the proposed method. In addition, comparison of new method with
HOTSAX also demontrated the effectiveness of two-classes support vector machine

method.

Trang vi


TÓM TẮT LUẬN VĂN
“Bất thường” (novelty) là chuỗi con mà nó khác biệt nhất với các chuỗi con
cịn lại trong “chuỗi thời gian” (time series). Nó là dự báo của những hỏng hóc
trong hệ thống, là dấu hiệu bệnh tật của con người và là dấu hiệu của suy thoái của
nền kinh tế.
Đã có nhiều phương pháp phát hiện bất thường được đề xuất. Tiêu biểu là
Brute-Force và HOTSAX. Phương pháp dùng “máy vector hỗ trợ hai lớp” (two
class support vector machine) cũng là một trong những phương pháp dùng phát hiện
bất thường trong chuỗi thời gian.
Theo phương pháp này dữ liệu chuỗi thời gian sẽ được “khai triển”(unfold)
vào trong “khơng gian pha”(phase space) sử dụng “q trình nhúng thời gian trễ”
(time-delay embedding process) để tạo thành tập các vector đặc trưng cho chuỗi
thời gian.
Phương pháp máy vector hỗ trợ hai lớp yêu cầu tập huấn luyện gồm những
vector bình thường và vector bất thường. Tuy nhiên tập huấn luyện thực tế thường
khơng có bất thường. Để khắc phục vấn đề này phương pháp “vùng bao” (envelope)
được giới thiệu. Phương pháp này tạo ra những vector bình thường nhân tạo ngẫu
nhiên và vector bất thường nhân tạo ngẫu nhiên từ những vector bình thường. Các
vector nhân tạo này cùng với vector huấn luyện ban đầu tạo thành tập vector huấn
luyện cho máy vector hỗ trợ hai lớp.
Dữ liệu dùng quá trình thực nghiệm gồm dữ liệu mơ phỏng (dữ liệu hình Sin
với bất thường được thêm vào) và dữ liệu chuẩn (Koski, Memory, ERP,
Temperature) thường dùng để kiểm tra các phương pháp phát hiện bất thường khác.
Ngoài ra để đánh giá hiệu quả, phương pháp máy vector hỗ trợ hai lớp sẽ được so
sánh với phương pháp HOTSAX.

Phương pháp phát hiện bất thường dùng máy vector hỗ trợ đã phát hiện đúng
bất thường trong dữ liệu chuỗi thời gian giống như phương pháp tham chiếu là
HOTSAX. Ngồi ra nó cịn phát hiện được tất cả những chuỗi bất thường với chiều
dài bất kỳ trong khi đó phương pháp HOTSAX chỉ phát hiện chuỗi bất thường có
chiều dài bằng kích thước của cửa sổ trượt. Tuy nhiên phương pháp này lại có
nhược điểm là thời gian tìm thấy bất thường chậm hơn khi so sánh với HOTSAX.
Nhưng đây là điều có thể chấp nhận được do đặc tính vốn có của máy vector hỗ trợ.

Trang vii


MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................................................... iv
LỜI CẢM ƠN.............................................................................................................................................. v
ABSTRACT ................................................................................................................................................ vi
TÓM TẮT LUẬN VĂN ............................................................................................................................ vii
MỤC LỤC................................................................................................................................................. viii
DANH MỤC CÁC CÔNG THỨC ............................................................................................................ xi
DANH MỤC CHỮ VIẾT TẮT ............................................................................................................... xiii
DANH MỤC HÌNH MINH HỌA ........................................................................................................... xiv
DANH MỤC CÁC BẢNG ....................................................................................................................... xvi
Chương 1: MỞ ĐẦU ................................................................................................................................... 1
Chương 2: TỔNG THUẬT VỀ CÁC CƠNG TRÌNH LIÊN QUAN...................................................... 5
2.1

Một số định nghĩa: ........................................................................................................................ 5

2.1.1

Dữ liệu chuỗi thời gian ......................................................................................................... 5


2.1.2

Chuỗi con .............................................................................................................................. 6

2.1.3

Cửa sổ trượt........................................................................................................................... 6

2.1.4

Trùng khớp ............................................................................................................................ 6

2.1.5

Trùng khớp tầm thường ........................................................................................................ 7

2.1.6

Bất thường............................................................................................................................. 7

2.1.7

Phương pháp xấp xỉ gộp từng đoạn ...................................................................................... 8

2.1.8

Phương pháp xấp xỉ gộp ký hiệu hóa .................................................................................... 9

2.2


Giải thuật Brute-Force trong phát hiện chuỗi con bất thường .................................................... 10

2.3

Giải thuật HOTSAX trong phát hiện chuỗi con bất thường........................................................ 11

2.4

Phương pháp dùng máy vector hỗ trợ một lớp để phát hiện bất thường. .................................... 14

2.5

Phương pháp mạng nơron để phát hiện bất thường. ................................................................... 15

2.6

Kết luận. ...................................................................................................................................... 17

Chương : CƠ SỞ L THUYẾT VÀ HƯỚNG TIẾP CẬN .................................................................. 19
3.1

Khái quát về máy vector hỗ trợ ................................................................................................... 19

3.2

Máy vector hỗ trợ hai lớp............................................................................................................ 20

3.3


Máy vector hỗ trợ với khoảng biên mềm ................................................................................... 26
Trang viii


3.4

Biến đổi dữ liệu chuỗi thời gian để áp dụng máy vector hỗ trợ .................................................. 27

3.5

Phương pháp “vùng bao” ............................................................................................................ 29

3.5.1

Phương pháp mẫu âm.......................................................................................................... 30

3.5.2

Phương pháp mẫu âm và mẫu dương .................................................................................. 30

3.5.3

Áp dụng phương pháp “vùng bao” để tạo tập dữ liệu huấn luyện. ..................................... 31

3.6

Phương pháp 3/4 (phương pháp số đông)dùng để xác định đoạn dữ liệu bất thường. ................ 32

3.7


Kết luận ....................................................................................................................................... 33

Chương 4: HIỆN THỰC VÀ ĐÁNH GIÁ PHƯƠNG PHÁP PHÁT HIỆN BẤT THƯỜNG SỬ
DỤNG MÁY VECTOR HỖ TRỢ ........................................................................................................... 34
Thư viện LIBSVM ...................................................................................................................... 34

4.1

4.1.1

Dữ liệu đầu vào. .................................................................................................................. 34

4.1.1

Lựa chọn mơ hình ............................................................................................................... 35

4.1.2

Dự đốn phân loại dữ liệu kiểm tra. .................................................................................... 36

Mơ hình hiện thực và giải thuật .................................................................................................. 36

4.2

4.2.1

Tìm các tham số của phương pháp vùng bao và tham số của máy vector hỗ trợ ................ 36

4.2.2


Tiền xử lý dữ liệu để tạo dữ liệu huấn luyện và tạo mơ hình từ dữ liệu huấn luyện ........... 37

4.2.3

Giải thuật HOTSAX............................................................................................................ 39

4.2.4

Giải thuật tìm điểm bất thường sử dụng máy vector hỗ trợ hai lớp .................................... 40

4.2.5

Giao diện phần mềm và cách sử dụng ................................................................................ 41

Dữ liệu thực nghiệm ................................................................................................................... 43

4.3

4.3.1

Cấu hình máy thực nghiệm ................................................................................................. 43

4.3.2

Các loại dữ liệu thực nghiệm .............................................................................................. 43

4.4

Kết quả thực nghiệm ................................................................................................................... 44


4.4.1

Dữ liệu điện tâm đồ (Koski)................................................................................................ 44

4.4.2

Dữ liệu doanh nghiệp (ERP) ............................................................................................... 47

4.4.3

Dữ liệu bộ nhớ (Memory) ................................................................................................... 55

4.4.4

Dữ liệu nhiệt độ (Temperature)........................................................................................... 58

4.4.5

Dữ Liệu Hình Sin (Dữ liệu nhân tạo).................................................................................. 66

4.5

Kết luận chương .......................................................................................................................... 68

Chương 5: TỔNG KẾT ............................................................................................................................ 69
5.1

Tổng kết ...................................................................................................................................... 69

5.2


Những kết quả đạt được .............................................................................................................. 70
Trang ix


5.3

Hướng phát triển ......................................................................................................................... 71

DANH MỤC CÁC TÀI LIỆU THAM KHẢO ....................................................................................... 72
PHỤ LỤC : DANH MỤC CÁC THUẬT NGỮ ..................................................................................... A1

Trang x


DANH MỤC CÁC CƠNG THỨC
nghĩa

STT
(1)
(2)
(3)

Cơng thức chuỗi biến đổi Xi của chuỗi con ban đầu xi trong phương pháp
PAA.
Công thức tính giá trị đầu ra của một đơn vị tính tốn lớp ẩn trong mạng
nơron phân bố chuẩn.
Cơng thức tính giá trị kết quả của một đơn vị tính tốn lớp đầu ra trong mạng
nơron phân bố chuẩn.


(4)

Tập dữ liệu đầu vào.

(5)

Phương trình bề mặt quyết định trong khơng gian F.

(6)

Bất phương trình các điểm ở trên hoặc bên trên H1.

(7)

Bất phương trình các điểm ở trên hoặc bên dưới H2.

(8)

Bất phương của các điểm dữ liệu không nằm giữa H1 và H2.

(9)

Hàm mục tiêu cực đại hóa Khoảng biên hay tối thiểu hóa

(10)

Bài tốn quy hoạch tối ưu hóa bậc 2.

(11)


Hàm mục tiêu Lagrange.

(12)

Hàm Lagrange.

(13)

1
|| w ||2 .
2

Hàm Lagrange tương ứng với bài toán đối ngẫu của bài toán quy hoạch tối ưu
hóa bậc 2 (10).

(14)

Phương trình đạo hàm riêng phần của hàm Lagrange (13) theo b .

(15)

Phương trình đạo hàm riêng phần của hàm Lagrange (13) theo w .

(16)

Hàm Lagrange (13) sau khi thay thế b, w từ (14), (15).

(17)

Ràng buộc để cực đại hóa W ( ) .


(18)

Phương trình của một Bề mặt quyết định sau khi thay thế w ở (15) vào (5).

(19)

Hàm mục tiêu cực đại hóa khoảng biên.

(20)

Hàm kernel tổng quát.

(21)

Hàm mục tiêu W ( ) khi thay thể kernel vào (16).

(22)

Cách biểu diễn khác của hàm mục tiêu (22) tương ứng với các điểm dữ liệu
có yi  1 .
Trang xi


(23)

Cách biểu diễn khác của hàm mục tiêu (22) tương ứng với các điểm dữ liệu
có yi  1 .

(24)


Cơng thức tính b .

(25)

Hàm tính giá trị của y z của điểm dữ liệu kiểm tra.

(26)

Hàm quyết định sau khi thay w và b.

(27)

Hàm mục tiêu của phương pháp SVM khi có nhiễu.

(28)

Bài tốn quy hoạch tối ưu hóa bậc 2 khi có nhiễu.

(29)

Hàm quyết định sau khi thay w và b trong trường hợp có nhiễu.

(30)

Biểu thức vector xi sau khi khai triển dữ liệu trong không gian pha.

(31)

Biểu thức tập các vector xi thu được sau khi khai triển dữ liệu trong không

gian pha.

(32)

Biểu thức vector x’i thu được khi chiếu xi trong không gian pha chiếu.

(33)

Công thức mỗi quan hệ giữa số lượng mẫu bình thường và mẫu bất thường
được sinh ra trong phương pháp vùng bao.

Trang xii


DANH MỤC CHỮ VIẾT TẮT
STT Chữ Viết Tắt
1
p1
2
p2
3


4
i
5
6
C
7


n

8

w

9
10
11
12
13
14
15

I
F

PAA
SV
SVC
SVR
SVMs

Nghĩa
Ngưỡng dùng để xác định vùng bao của mẫu bình thường.
Ngưỡng dùng để xác định vùng bao của mẫu bất thường.
Hàm phi tuyến.
Hệ số chiều rộng hàm GAUSS hay g trong LIBSVM.
Hệ số phạt hay khoảng biên mềm.
Hệ số đánh đổi giữa số lỗi trong bộ phân loại và cực đại

hóa khoảng biên hay tham số C trong LIBSVM.
Số lượng mẫu bình thường nhân tạo được tạo ra tương ứng
với loại dữ liệu kiểm tra.
Kích thước cửa sổ trượt hay số ký tự cho một chuỗi con.
Không gian vào ban đầu.
Không gian đặc trưng.
Phương pháp xấp xỉ gộp từng đoạn.
Máy vector hỗ trợ.
Support vector.
Phân loại sử dụng máy vector hỗ trợ.
Quy hồi sử dụng máy vector hỗ trợ.

Trang xiii


DANH MỤC HÌNH MINH HỌA
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình

2.1 : Dữ liệu chuỗi thời gian biễu diễn giá cổ phiếu. .......................................................................... 5
2.2 : Ví dụ về chuỗi con. ..................................................................................................................... 6
2.3 : Chuỗi C và M khớp với nhau...................................................................................................... 6

2.4 : Ví dụ chuỗi con bất thường......................................................................................................... 7
2.5 : Phương pháp biểu diễn PAA với n=128 và N=8. ....................................................................... 8
2.6 : Minh họa phép biển đổi xấp xỉ gộp ký hiệu hóa SAX. ............................................................... 9
2.7: Minh họa một ví dụ cụ thể về giải thuật HOTSAX. ................................................................. 13
2.8 : Chuỗi thời gian hỗn loạn sinh ra từ cảm biến laser................................................................... 15
2.9 : So sánh về cách phân loại của phương pháp RBFs(trái) và MPLs(phải).................................. 16
2.10 : Cấu trúc mạng RBF-DDA. ..................................................................................................... 17

Hình 3. 1: Dữ liệu khả phân tuyến tính (bên trái) ...................................................................................... 19
Hình 3. 2 : Một ví dụ về cách làm việc của Máy vector hỗ trợ. .................................................................. 20
Hình 3. 3 : Bề mặt quyết định và khoảng biên trong không gian 2 chiều. ................................................. 22
Hình 3. 4 : Ví dụ về những điểm chiếu phân bố dọc vector đường chéo đơn vị......................................... 28
Hình 3. 5 : Hai đường biên được dùng để tạo nên phân cách giữa vùng bình thường và bất thường. ........ 30
Hình 3. 6 : Ngưỡng p1 và p2...................................................................................................................... 32

Hình 4. 1 : Lưu đồ giải thuật tạo ra mơ hình cho SVM. ............................................................................. 38
Hình 4. 2 : Lưu đồ giải thuật HOTSAX. ..................................................................................................... 39
Hình 4. 3 : Lưu đồ giải thuật tìm bất thường bằng SVM. ........................................................................... 40
Hình 4. 4 : Giao diện phần mềm. ................................................................................................................ 41
Hình 4. 5 : Biểu đồ thời gian tìm mơ hình với dữ liệu Koski. .................................................................... 44
Hình 4. 6 : Biểu đồ thời gian tạo dữ liệu kiểm tra cho SVM với dữ liệu Koski. ........................................ 45
Hình 4. 7: Biểu đồ thời gian phát hiện bất thường bằng giải thuật HOTSAX và SVM với dữ liệu Koski.
.................................................................................................................................................................... 45
Hình 4. 8 : Kết quả kiểm tra với dữ liệu Koski bằng giải thuật HOTSAX. ................................................ 46
Hình 4. 9 : Kết quả kiểm tra với dữ liệu Koski bằng giải thuật SVM......................................................... 47
Hình 4. 10 : Biểu đồ thời gian tạo mơ hình với ERP bộ 1. ......................................................................... 47
Hình 4. 11 : Biểu đồ thời gian tạo dữ liệu kiểm tra cho SVM với ERP bộ 1. ............................................. 48
Hình 4. 12 : Biểu đồ thời gian phát hiện bất thường bằng giải thuật HOTSAX với ERP bộ 1. ................. 48
Hình 4. 13 : Biểu đồ thời gian phát hiện bất thường bằng giải thuật HOTSAX và SVM với ERP bộ 1. ... 49
Hình 4. 14 : Kết quả kiểm tra với ERP bộ 1 bằng giải thuật HOTSAX. .................................................... 50

Hình 4. 15 : Kết quả kiểm tra với ERP bộ 1 bằng giải thuật SVM. ............................................................ 50
Trang xiv


Hình 4. 16 : Biểu đồ thời gian tạo mơ hình cho ERP bộ 1. ......................................................................... 51
Hình 4. 17 : Biểu đồ thời gian tạo dữ liệu kiểm tra cho SVM với ERP bộ 2. ............................................. 52
Hình 4. 18 : Biểu đồ thời gian phát hiện bất thường bằng giải thuật HOTSAX với ERP bộ 2. ................. 52
Hình 4. 19 : Biểu đồ thời gian phát hiện bất thường bằng giải thuật HOTSAX và SVM với ERP bộ 2. ... 53
Hình 4. 20 : Kết quả kiểm tra với ERP bộ 2 bằng giải thuật HOTSAX. .................................................... 53
Hình 4. 21 : Kết quả kiểm tra với ERP bộ 2 bằng giải thuật SVM. ............................................................ 54
Hình 4. 22 : Biểu đồ thời gian tạo mơ hình với dữ liệu Memory. ............................................................... 55
Hình 4. 23 : Biểu đồ thời gian tạo dữ liệu kiểm tra cho SVM với dữ liệu Memory. .................................. 55
Hình 4. 24 : Biểu đồ thời gian phát hiện bất thường bằng giải thuật HOTSAX với dữ liệu Memory. ....... 56
Hình 4. 25 : Biểu đồ thời gian phát hiện bất thường bằng giải thuật HOTSAX và SVM với dữ liệu
Memory. ...................................................................................................................................................... 56
Hình 4. 26 : Kết quả kiểm tra với dữ liệu Memory bằng giải thuật HOTSAX. .......................................... 57
Hình 4. 27 : Chuỗi dữ liệu Memory. ........................................................................................................... 57
Hình 4. 28 : Kết quả kiểm tra với dữ liệu Memory bằng giải thuật SVM. ................................................. 58
Hình 4. 29 : Biểu đồ thời gian tìm mơ hình với dữ liệu nhiệt độ vùng Vardeo. ......................................... 59
Hình 4. 30 : Biểu đồ thời gian tạo dữ liệu kiểm tra cho SVM với dữ liệu nhiệt độ vùng Vardeo. ............. 59
Hình 4. 31 : Biểu đồ thời gian phát hiện bất thường bằng giải thuật HOTSAX và SVM với dữ liệu nhiệt
độ vùng Vardeo. .......................................................................................................................................... 60
Hình 4. 32 : Kết quả kiểm tra với dữ liệu nhiệt độ vùng Vardeo bằng giải thật HOTSAX. ....................... 61
Hình 4. 33 : Kết quả kiểm tra với dữ liệu nhiệt độ vùng Vardeo bằng giải thật SVM. .............................. 62
Hình 4. 34 : Biểu đồ thời gian tìm mơ hình với dữ liệu nhiệt độ vùng Vaernes ......................................... 63
Hình 4. 35 : Biểu đồ thời gian tạo dữ liệu kiểm tra cho SVM với dữ liệu nhiệt độ vùng Vaernes ............. 63
Hình 4. 36 : Biểu đồ thời gian phát hiện bất thường bằng giải thuật HOTSAX và SVM với dữ liệu nhiệt
độ vùng Vaernes ......................................................................................................................................... 64
Hình 4. 37 : Kết quả kiểm tra dữ liệu nhiệt độ vùng Vaernes giải thuật HOTSAX.................................... 65
Hình 4. 38 : Kết quả kiểm tra với dữ liệu nhiệt độ vùng Trondheim/Vaernes với giải thuật SVM ............ 65

Hình 4. 39 : Kết quả kiểm tra với dữ liệu hình sin với giải thuật SVM. ..................................................... 66
Hình 4. 40 : Chuỗi dữ liệu hình sin kiểm tra............................................................................................... 67
Hình 4. 41 : Kết quả kiểm tra với dữ liệu hình sin với giải thuật OC SVM. .............................................. 67

Trang xv


DANH MỤC CÁC BẢNG
Bảng 2.1 : Giải thuật Brute-Force trong phát hiện bất thường.................................................................... 10
Bảng 2.2 : Giải thuật HOTSAX. ................................................................................................................. 12

Bảng 4. 1 : Thông số thiết lập mặc định của chương trình. ........................................................................ 37
Bảng 4. 2: Chức năng của cách thành phần giao diện khởi động của chương trình. .................................. 42

Trang xvi


Chương 1: MỞ ĐẦU
Ngày nay cùng với sự gia tăng của “dữ liệu” (data) sinh ra theo thời gian từ cảm
biến và các thiết bị đo thì việc chẩn đốn và phát hiện những “bất thường” (novelty)
trong “dữ liệu chuỗi thời gian” (time series data) để cảnh báo lỗi có thể xảy ra ngày càng
dành được nhiều sự quan tâm nghiên cứu. Trong lĩnh vực y tế, việc phát hiện những bất
thường trong chuỗi tín hiệu thu được từ các máy đo điện tâm đồ hay điện não đồ để phát
hiện những triệu chứng bệnh và thực hiện những biện pháp chữa trị thích hợp sẽ giúp cứu
sống nhiều bệnh nhân. Bên cạnh đó trong lĩnh vực tài chính, chứng khoán, ngân hàng
việc phát hiện những dấu hiệu của suy thoái sẽ giúp tổ chức đưa ra những biện pháp xử lý
hợp lý đảm bảo sự ổn định và phát triển của tổ chức.
Từ những yêu cầu cấp thiết trên đã nảy sinh ra vấn đề “Phát hiện bất thường trong
dữ liệu chuỗi thời gian” . Được phát biểu là tự động xác định những sự kiện bất thường
xuất hiện trong chuỗi những điểm bình thường trên dữ liệu chuỗi thời gian. Đây là một

vấn đề mang đầy thách thức vì kiến thức khơng đủ và khơng chính xác về thể hiện của
bất thường trong hệ thống đã đề cập.
Dù có những thách thức về kỹ thuật, nhưng vấn đề phát hiện bất thường đã nhận
được rất nhiều sự quan tâm trong thời gian qua vì tầm quan trọng và ý nghĩa của nó.
Nhiều giải pháp đã được đề xuất để giải quyết vấn đề trên. Những giải pháp này đã được
hiện thực hóa và chứng minh tính hiệu quả của nó trong một số trường hợp nhưng lại
khơng hiệu quả thậm chí khơng áp dụng được trong một số trường hợp khác do những
giả định và tiến trình mà dựa trên đó giải pháp này được hiện thực.
Ta có thể kể đến như “Giải pháp phát hiện bất thường bằng mơ hình mạng neural”
[17] được đề xuất bởi R.Kozma, M.Kitamura và Y. Yokayama năm 1994 hay “Phát hiện
bất thường dựa trên mơ hình hóa và tối ưu hóa mơ hình” [16] được đề xuất bởi Rolf
Isermamn năm 1984. Những giải phát này dựa trên giả định là đã có kiến thức hay mơ
hình lý thuyết chính xác của bất thường mà khơng phải lúc nào cũng có trong thực tế.
Hay như phương pháp TARZAN [9] thì dựa trên việc chuyển dữ liệu chuỗi thời gian
thành chuỗi các ký tự. Tuy nhiên q trình chuyển đổi này có thể làm mất đi những mẫu
có ý nghĩa trong dữ liệu chuỗi thời gian gốc.
Ngồi ra cịn có một số phương pháp khác như “Máy vector hỗ trợ (Support vector
..

machine SVMs) để pháp hiện bất thường”[3] do B. Sch o lkopf, R.C. Williamson, A.J.
Trang 1


Smola và J. Shawe-Taylor, J.Platt đề xuất năm 2000 và “Lập trình tuyến tính để phát hiện
bất thường”[5] của C. Campbell, K. P.Bennett năm 2001. Trong các phương pháp này, sự
kiện bất thường được thể hiện như những “đoạn ngoại biên” (outliers) của hàm phân bố
chuẩn. Cách tiếp cận này có nền tảng lý thuyết chắc chắn và được định nghĩa rõ ràng.
Tuy nhiên phương pháp này chỉ áp dụng cho vector mà không ứng dụng trực tiếp cho dữ
liệu chuỗi thời gian.
..


Tiếp theo hướng phát hiện của B. Sch o lkopf trong bài báo của mình “Phát hiện
bất thường trong dữ liệu chuỗi thời gian sử dụng Máy vector hỗ trợ một lớp” [11] năm
2003. J. Ma và S. Perkins đã đề xuất giải pháp để ứng dụng SVMs trong việc phát hiện
bất thường trong dữ liệu chuỗi thời gian. Tuy nhiên nghiên cứu của Ma và các cộng sự
tồn tại một số bất cập:
 Chỉ đưa ra giải pháp và thực hiện một số thực nghiệm trên dữ liệu tổng hợp
là dữ liệu hình sin với bất thường tự thêm vào mà không phải những bộ dữ
liệu chuẩn thực tế.
 Không so sánh giải pháp được đưa ra với các phương pháp hiện có để chứng
minh ưu và nhược điểm của giải pháp đề xuất.
 Để phân loại dữ liệu kiểm tra ơng dùng tích các kết quả khi áp dụng giải
thuật với các số chiều khác nhau cho vector dữ liệu. Trong thực tế chiều dài
của chuỗi bất thường là cố định ứng với mỗi loại dữ liệu nên phương pháp
của ông là không hợp lý trong thực tế.
 Việc ứng dụng thư viện LIBSVM[22] để tạo mơ hình và phát hiện bất thường
sử dụng máy vector hỗ trợ một lớp là không khả thi với dữ liệu thực. Vì mơ
hình được tạo ra với chỉ các mẫu bình thường thường khơng chính xác và
khơng phân loại được bất thường trong dữ liệu kiểm tra.
Trong luận văn này chúng tôi sẽ tiếp tục phát triển ý tưởng mà J.Ma và các cộng sự
đã đưa ra là dùng máy vector hỗ trợ để phát hiện bất thường. Tuy nhiên để đánh giá và
tăng hiệu quả của phương pháp phát hiện bất thường dùng máy vector hỗ trợ. Chúng tôi
thực hiện một số cải tiến sau:
 Sử dụng máy vector hỗ trợ hai lớp thay vì máy vector hỗ trợ một lớp để gia
tăng độ chính xác khi phát hiện bất thường.
 Để khắc phụ tình trạng thiếu những mẫu bất thường trong dữ liệu huấn luyện
và để tăng độ chính xác của giải thuật chúng tơi áp dụng phương pháp “vùng
Trang 2



bao” (envelope) [1] để tạo ra những mẫu bất thường nhân tạo ngẫu nhiên và
mẫu bình thường nhân tạo ngẫu nhiên từ mẫu bình thường.
 Giải pháp đưa ra sẽ được kiểm tra trên các tập dữ liệu kiểm tra chuẩn và tập
dữ liệu mô phỏng.
 Qua thực nghiệm chúng tơi sẽ tìm ra số chiều tối ưu và các hệ số của Máy
vector hỗ trợ hai lớp tương ứng tập dữ liệu huấn luyện.
 Để đánh giá hiệu quả của giải thuật mới chúng tôi cũng tiến hành so sánh với
giải thuật HOTSAX là giải thật dùng để phát hiện bất thường phổ biến hiện
nay. Phép so sánh là tính chính xác trong phát hiện bất thường. Phép so sánh
về thời gian thực thi cũng được thực hiện nhưng chỉ mang tính chất tham
khảo do phương pháp phát hiện bất thường dùng máy vector hỗ trợ thường
chậm hơn đo tính chất vốn có của SVMs.
 Chúng tơi cũng thiết kế phần mềm để hiển thị kết quả phát hiện bất thường
trên chuỗi dữ liệu thời gian.
Qua thực nghiệm trên dữ liệu mơ phỏng (dữ liệu hình sin) và dự liệu thực tế (Koski,
ERP, Memory, Temperature), phương pháp dùng máy vector hỗ trợ hai lớp (two class
SVMs) đã thể hiện được ưu điểm trong việc phát hiện được tất cả những đoạn bất thường
với các chiều dài khác nhau khi so sánh với giải thuật HOTSAX chỉ phát hiện được 1
chuỗi con bất thường với chiều dài bằng kích thước cửa sổ trượt. Quá trình thực nghiệm
cũng cho thấy nhược điểm về thời gian thực thi của phương pháp được đề xuất. Do việc
khai triển dữ liệu lên không gian pha chiếu với số chiều lớn (320 với dữ liệu ERP và
memory, 400 với dữ liệu Koski) làm cho bộ phân loại tốn q nhiều thời gian cho việc
tính tốn tích vơ hướng các vector. Phương pháp máy vector hỗ trợ kém hiệu quả với
những dữ liệu có nhiều motif bình thường và dữ liệu phức tạp. Việc bộ phân loại cần
được huấn luyện với các mẫu bình thường trước dẫn đến việc phân loại sai những mẫu
bình thường mới.
Cũng như các phương pháp khác, phương pháp sử dụng Máy vector hỗ trợ không
thể giải quyết mọi vấn đề, nhưng ít nhất nó cũng có thể giải quyết những vấn đề mà các
phương pháp khác không giải quyết được hay giải quyết được như với độ chính xác thấp.
Phần cịn lại của luận văn được tổ chức như sau. Chương 2 liệt một số khái niệm

cơ bản được dùng trong luận văn và giới thiệu sơ lược một số phương pháp phát hiện bất
thường được dùng hiện nay. Chương 3 đi sâu vào phân tích nền tảng lý thuyết của
phương pháp máy vector hỗ trợ hai lớp. Phương pháp “vùng bao” để tạo mẫu bình
Trang 3


thường nhân tạo ngẫu nhiên và bất thường nhân tạo ngẫu nhiên cũng được giới thiệu.
Chương 4 trình bày kết quả thực nghiệm của phương pháp được đề xuất với cái loại dữ
liệu khác nhau và với các chiều dài chuỗi con khác nhau, cung cấp một cái nhìn sơ lược
về phần mềm được thiết kế trong luận văn và phương pháp sử dụng. Kết quả thực nghiệm
cũng được so sánh với giải thuật HOTSAX dựa trên hai thước đo về tính chính xác và
thời gian thực hiện. Và chương 5 sẽ tổng kết những gì đã thực hiện trong luận văn, kết
quả và hướng phát triển.

Trang 4


Chương 2: TỔNG THUẬT VỀ CÁC CƠNG TRÌNH LIÊN QUAN
Chương này nhắc lại một số khái niệm cơ bản được sử dụng trong phát hiện bất
thường, sau đó giới thiệu một số cơng trình tiêu biểu về phát hiện bất thường có liên quan
đến luận văn này.

2.1

Một số định nghĩa:
2.1.1 Dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian (time series data) là những tập hợp dữ liệu được thu thập,
lưu trữ, quan sát và đo đạc theo sự tăng dần của thời gian. Ví dụ như là các chuỗi dữ liệu
thời gian trong lĩnh vực tài chính dự báo số lượng hàng hóa bán được theo từng quý các

chuỗi dữ liệu thời gian dùng trong khoa học dự báo sự gia tăng của công nghệ xử lý tốc
độ của CP và Memmory. Hình 2.1 là chuỗi dữ liệu về giá cổ phiếu qua các năm.

Hình 2.0-1 : Dữ liệu chuỗi thời gian biễu diễn giá cổ phiếu.
Ta ký kiệu chuỗi thời gian là {Xt} với t là các số tự nhiên tương ứng với các mốc
thời gian mà ta quan sát, đo đạc được hay c n gọi là độ trễ. Xt là các biến ngẫu nhiên rút
ra từ một phân bố xác suất tùy theo nhu cầu của người muốn phân tích trên dữ liệu chuỗi
thời gian này.

Trang 5


2.1.2

Chuỗi con

Cho một dữ liệu chuỗi thời gian T có chiều dài là n, một chuỗi con (subsequence)[8]
C trong T có chiều dài m là một mẫu của những giá trị liên tục trích từ T, C = tp,….,tp+m-1
với 1 ≤ p ≤ n – m + 1. Hình 2.2 là ví dụ cho chuỗi con có chiều dài w được trích ra từ
chuỗi dữ liệu ban đầu.

Hình 2.0-2 : Ví dụ về chuỗi con.

2.1.3

Cửa sổ trượt

Cho một dữ liệu chuỗi thời gian T có chiều dài n, một cửa sổ trượt (slide
window)[8] có kích thước w do người dùng định nghĩa (thường w << n) sẽ trượt qua từng
điểm giá trị trên chuỗi T, kết quả là ta được một danh sách n-w+1 các chuỗi con có kích

thước w được rút trích từ chuỗi T.

2.1.4

Trùng khớp

Trùng khớp (match)[8] được định nghĩa như sau. Cho một số thực R (thường do
người dùng định nghĩa) và một dữ liệu chuỗi thời gian T chứa một chuỗi con C bắt đầu
tại vị trí p và một chuỗi con M bắt đầu tại vị trí q, nếu hàm tính khoảng cách từ C đến M
ký hiệu D(C,M) ≤ R thì ta nói là chuỗi con M khớp được với chuỗi con C.
Hai chuỗi con M và C trong hình 2.3 được gọi là trùng khớp với nhau.

Hình 2.0-3 : Chuỗi C và M khớp với nhau.

Trang 6


2.1.5

Trùng khớp tầm thường

Cho chuỗi thời gian T chứa một chuỗi con C có chiều dài n bắt đầu tại vị trí p và
khớp với chuỗi con M bắt đầu tại vị trí q , ta có thể nói M là một “trùng khớp không tự
thân” (Non-Trivial Match)[8] tại khoảng cách của Dist (M , C) nếu | p  q | n .

2.1.6

Bất thường

Bất thường (Novelty)[8] là chuỗi con mà nó khác biệt nhất với các chuỗi con cịn lại

trong chuỗi thời gian.
Có thể định nghĩa cách khác là :
Cho một dữ liệu chuỗi thời gian T có chiều dài n, một chuỗi con C trong T là bất
thường nếu khoảng cách từ C đến chuỗi con láng giềng gần nhất của nó là lớn nhất. Nói
cách khác chuỗi con C là chuỗi con khác biệt nhất trong T.[8]. Trong hình 2.4 ta thấy
chuỗi thời gian được đánh dấu biệt hồn tồn với phần cịn lại của chuỗi dữ liệu.

Hình 2.0-4 : Ví dụ chuỗi con bất thường.
Bất thường trong chuỗi dữ liệu thời gian có hai thuộc tính quan trọng là :
 Bất thường không nhất thiết được tìm thấy trong khơng gian thưa. Một số giải
thuật phát hiện bất thường [16][12] chiếu chuỗi dữ liệu thời gian vào trong
khơng gian có số chiều cao hơn, sau đó sử dụng những phương pháp phát hiện
chuỗi lạ thường hiện có để tìm bất thường. Tính chất này của bất thường sẽ làm
những giải thuật này bị sai.
 Kết quả bất thường là không thể kết hợp với nhau. Một số “mô thức chung”
(generics paradigm) cho vấn đề bất thường phụ thuộc vào khả năng chia một
vấn đề thành các vấn đề nhỏ. Các vấn đề nhỏ này có thể giải quyết và sau đó
Trang 7


×