Tải bản đầy đủ (.pdf) (13 trang)

(6) 2017 multi resolution time series discord discovery(2)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (613.53 KB, 13 trang )

Machine Translated by Google

Khám phá bất hòa chuỗi thời gian đa độ phân giải
Heider Sanchez và Benjamin Bustos(B)
Khoa Khoa học Máy tính, Đại học Chile, Santiago, Chile
{hesanche,bebustos}@dcc.uchile.cl

Trừu tượng. Discord Discovery là một cách tiếp cận gần đây để phát hiện sự bất thường
trong chuỗi thời gian đã thu hút nhiều nghiên cứu vì phạm vi rộng.
nhiều ứng dụng trong thế giới thực trong các hệ thống giám sát. Tuy nhiên, việc tìm
kiếm sự bất thường theo các mức độ phân giải khác nhau ít được chú ý.
trong dịng nghiên cứu này. Trong bài báo này, chúng tôi giới thiệu một biểu diễn đại diện
đa độ phân giải dựa trên xu hướng cục bộ và giá trị trung bình của chuỗi thời gian. Chúng tôi

yêu cầu mức độ phân giải làm tham số, nhưng nó có thể được tự động
được tính nếu chúng ta xem xét độ phân giải tối đa của chuỗi thời gian. TRONG
Để cung cấp một cách trình bày hữu ích cho việc phát hiện sự bất hịa, chúng tôi đề
xuất các biện pháp khác biệt để đạt được kết quả hiệu quả cao và
biểu diễn tượng trưng dựa trên kỹ thuật SAX để tìm kiếm hiệu quả
sử dụng sơ đồ lập chỉ mục đa độ phân giải. Chúng tôi đánh giá phương pháp của chúng tôi
sự đa dạng của các miền dữ liệu đạt được hiệu suất tốt hơn so với
với một số kỹ thuật cổ điển nổi tiếng nhất.

Từ khóa: Chuỗi thời gian · Phát hiện bất thường · Phát hiện bất hòa ·
Lập chỉ mục

1. Giới thiệu
Trước những tiến bộ gần đây trong công nghệ phát trực tuyến, khả năng phát hiện bất thường
trong chuỗi thời gian đã trở thành một nhiệm vụ quan trọng trong các ứng dụng khác nhau của hệ
thống giám sát, chẳng hạn như: phân tích giám sát video, nhiều cảm biến trong ô tô và
tai nạn máy bay, theo dõi các vật thể trong phát hiện bạo loạn, cảnh báo giao thơng trên đường,


tín hiệu mic địa chấn, điện tâm đồ (ECG), v.v. Để giải quyết việc phát hiện bất thường
trong chuỗi thời gian, trước tiên chúng ta cần xác định loại bất thường phù hợp với mục đích
ứng dụng và miền dữ liệu. Đây là một vấn đề phức tạp, bởi vì sự bất thường
có thể được liên kết với các điểm ngoại lệ (bất thường, điểm thay đổi), chuỗi con ngoại lệ
(mẫu bất thường, tính mới) hoặc mối quan hệ bất thường giữa các biến.
Các giải pháp phổ biến nhất để phát hiện bất thường được xây dựng bằng máy học
phương pháp [2]. Thông thường, chúng là các kỹ thuật học có giám sát và cần thời gian
loạt mẫu hành vi “bình thường” làm mơ hình huấn luyện và trong các trường hợp khác, một tập hợp
của các mẫu bất thường là bắt buộc. Các bộ này được cung cấp bởi một chuyên gia tên miền.

H. Sanchez—Công việc được hỗ trợ bởi khoản trợ cấp nghiên cứu từ CONICYT-Chile.
B. Bustos—Được hỗ trợ bởi Millennium Nucleus Center for Semantic Web Research
theo Cấp NC120004.

c Springer International Publishing AG 2017
I. Rojas et al. (Biên tập): IWANN 2017, Phần II, LNCS 10306, trang 116–128, 2017.

DOI: 10.1007/978-3-319-59147-6 11


Machine Translated by Google
Chuỗi thời gian đa độ phân giải Discord Discovery

117

Tuy nhiên, trong nhiều bối cảnh thực tế, có được kiến thức trước đây là một khó khăn
nhiệm vụ. Đây là nơi Kỹ thuật học không giám sát được sử dụng để cố gắng xác định các mẫu quan
trọng, điều chỉnh mơ hình tri thức trực tiếp từ
luồng đầu vào.
Chúng tôi tập trung nghiên cứu này vào các chuỗi con ngoại lai, lấy làm cơ sở cho Quy trình

khám phá dây Dis do Keogh et al đề xuất. [6]. Trước đây họ đã tiến hành
một công việc quan trọng để xác định chuỗi con bất thường nhất của chuỗi thời gian dài
thiết kế một phương pháp dựa trên cửa sổ khơng giám sát. Đặc điểm chính của
subsequences là mức độ chồng chéo của chúng; dãy con liên tiếp nhiều hơn
tương tự nhau. Theo đó, có một sự cần thiết cho các cấu trúc tối ưu
xem xét thuộc tính này để tìm kiếm hiệu quả. Hàng loạt cơng trình liên quan về
phát hiện bất hòa đã được đề xuất trong thập kỷ qua [1,7,8,12]. Mục tiêu chính của các cơng
việc liên quan này là hiệu quả phát hiện, bởi vì lực lượng vũ phu
thuật tốn có bậc hai về tổng số dãy con.
Tuy nhiên, khám phá bất hòa đa độ phân giải đã nhận được rất ít sự chú ý trong lĩnh vực này.
dòng nghiên cứu.
Trong bài báo này, chúng tôi giới thiệu (1) một biểu diễn đa độ phân giải mới dựa trên
xu hướng cục bộ và giá trị trung bình của chuỗi thời gian. Nó trở thành một kỹ thuật khơng có
tham số khi chúng ta sử dụng mức độ phân giải tối đa sẽ được xác định trong phần này.
công việc. Chúng tôi cũng đề xuất (2) một biểu diễn tượng trưng bắt nguồn từ số
biểu diễn bằng cách áp dụng lượng tử hóa SAX [9] trên các thành phần xu hướng và giá trị. Nó
cũng cung cấp cho chúng ta hàm giới hạn thấp hơn để lập chỉ mục chuỗi thời gian
bộ sưu tập. Đóng góp chính là (3) một kỹ thuật phát hiện bất hịa đa độ phân giải dựa trên biểu
diễn chuỗi thời gian này. Hiệu lực và hiệu quả của chúng tôi
phương pháp tiếp cận được đánh giá bằng thực nghiệm trên nhiều lĩnh vực dữ liệu [5]. Chúng tôi
chứng minh bằng thực nghiệm rằng phương pháp của chúng tôi vượt trội hơn các phương pháp thông thường.

2 Bối cảnh và công việc liên quan
Chúng tôi liên kết một điểm bất thường trong một chuỗi thời gian dưới dạng một chuỗi con (mẫu
bất thường) tạo ra sự thay đổi đáng kể về chất trong hành vi của dữ liệu.
Các mẫu bất thường là các chuỗi con nổi bật xuất hiện một cách tùy tiện và được
liên quan đến sự thay đổi còn lại của chuỗi thời gian. Điều này trái ngược với các kiểu mẫu
thường xuyên xảy ra và có liên quan đến chu kỳ hoặc tuần hoàn.
sự thay đổi của chuỗi thời gian, hơn nữa, chúng nằm trong quan sát bình thường
của chuỗi thời gian. Keogh và cộng sự. [6] đã giới thiệu cách tiếp cận mới này để tránh tạo ra

một định nghĩa khả thi cho “dãy con bất thường nhất”, và hơn nữa nó là
một phương pháp khơng giám sát không yêu cầu dữ liệu huấn luyện.
Định nghĩa 1 (Không trùng khớp). Cho một chuỗi thời gian P, chứa dãy con Ci có độ dài w và dãy
con phù hợp Cj có cùng độ dài, ta
nói rằng Cj là khơng tự so khớp với Ci nếu |i

j| ≥ w, trong đó p và q là của chúng

vị trí xuất phát tương ứng ở P.
Định nghĩa 2 (Sự bất hòa về chuỗi thời gian). Cho chuỗi thời gian P, dãy con
Cj có độ dài w được gọi là bất đối của P nếu Cj có khoảng cách lớn nhất đến
trận đấu không tự gần nhất.


Machine Translated by Google
118

H. Sanchez và B. Bustos
Vấn đề này có thể được giải quyết bằng tìm kiếm brute force sử dụng vịng lặp lồng nhau. Vịng

lặp bên ngồi lấy từng dãy con làm ứng cử viên khả dĩ và vịng lặp bên trong được sử dụng để tìm
kiếm đối sánh khơng phải là chính nó gần nhất của ứng cử viên. Ứng cử viên có giá trị lớn nhất như
vậy là sự bất hịa. Độ phức tạp tính tốn là O(N2), trong đó N là số dãy con. Để cải thiện sự phức
tạp này, Keogh et al. [6] đã đề xuất một thuật toán chung để phát hiện hiệu quả. Thuật toán này
yêu cầu hai phương pháp phỏng đoán tạo ra hai danh sách các chuỗi con được sắp xếp theo thứ tự;
một cho vịng ngồi và một cho vịng trong. Heuristic Outer rất hữu ích để nhanh chóng tìm ra ứng
viên tốt nhất và Heuristic Inner rất hữu ích để nhanh chóng tìm ra kết quả phù hợp nhất gần nhất.
Chúng tơi thốt ra khỏi vịng lặp bên trong nếu khoảng cách nhỏ hơn khoảng cách bất hòa tốt nhất
cho đến nay. Hai phương pháp liên quan chính để khám phá bất hòa là HOT SAX [7] và HOT iSAX [1],
dựa trên biểu diễn SAX [9]. SAX chia chuỗi thời gian thành các phân đoạn và xây dựng chuỗi thời

gian ký hiệu mới lượng tử hóa các giá trị trung bình của từng phân đoạn.

Cả hai kỹ thuật đều xây dựng các cấu trúc hiệu quả để tìm sự bất hòa của chuỗi thời gian bằng cách
sử dụng kinh nghiệm khám phá sự bất hòa.

3 Xấp xỉ giá trị xu hướng đa độ phân giải
3.1 Tại sao nên trình bày dựa trên xu hướng?
Esmael et al. tuyên bố rằng “chỉ sử dụng giá trị gần đúng sẽ khiến khả năng cao bỏ sót một số mẫu
quan trọng trong một số dữ liệu chuỗi thời gian. SAX không chú ý đầy đủ đến hình dạng của các chuỗi
con thời gian và có thể tạo ra các chuỗi tương tự cho các chuỗi thời gian hoàn toàn khác
nhau” [4]. Theo cách này, một số xấp xỉ từng phần dựa trên các đặc điểm về xu hướng và giá trị đã
được đề xuất gần đây [3,4,11]. Chúng tôi tập trung vào kỹ thuật 1d-SAX do Malinowski và cộng sự đề
xuất. [11]. Đây là một biểu diễn nhị phân nhỏ gọn để cải thiện hiệu suất truy xuất bằng cách sử
dụng cùng một lượng thông tin mà SAX. Ở đây, SAX được mở rộng bằng cách thêm các ký hiệu mới thể
hiện độ dốc của từng đoạn. Thuật toán sử dụng hồi quy tuyến tính để tính tốn độ dốc. 1d-SAX hoạt
động với các bảng chữ cái có kích thước khác nhau:

1d-SAX(P, m, αv, αs) = {(ˆv1, sˆ1), ··· ,(ˆvi, sˆi), ··· ,(ˆvm, sˆm)},
trong đó ˆvi là ký hiệu giá trị trung bình từ bảng chữ cái có kích thước αv và ˆsi là ký hiệu độ
dốc từ bảng chữ cái có kích thước αs.
Chúng tơi cũng so sánh cả hai phương pháp, SAX và 1d-SAX, bằng cách sử dụng phân cụm theo cấp
bậc tổng hợp để nhóm năm chuỗi thời gian thành ba lớp khác nhau (Hình 1).
Chuỗi thời gian được chia thành bốn phân đoạn. SAX chỉ lấy giá trị trung bình trong khi 1d-SAX đó
cũng xem xét độ dốc có được kết quả phù hợp hơn giữa chuỗi thời gian 2 và 3 thuộc cùng một lớp.

Trong công việc này, chúng tôi mở rộng khả năng của các xu hướng địa phương đến các cấp độ
giải quyết khác nhau. Trong khi tham số độ chi tiết (số lượng phân đoạn) của phép tính gần đúng
từng phần như SAX và 1d-SAX tạo ra phân đoạn theo chiều ngang, chúng tôi đề xuất phân đoạn theo
cấp bậc do mức độ phân giải tạo ra. Sự phân đoạn này



Machine Translated by Google
119

Khám phá bất hòa chuỗi thời gian đa độ phân giải
KÈN

1d-SAX

Hình 1. So sánh khả năng của hai biểu diễn chuỗi thời gian với cụm năm
thành viên của bộ dữ liệu CBF sử dụng khoảng cách Euclide.

cung cấp những lợi thế lớn hơn trong thiết kế và tối ưu hóa sẽ được thảo luận. Của chúng tơi
biểu diễn chuỗi thời gian được gọi là Xấp xỉ giá trị xu hướng đa độ phân giải
(MTVA). Ý tưởng cơ bản là tạo ra các cặp xu hướng-giá trị trên từng mức độ phân giải, sau đó
tính tốn độ tương tự giữa hai biểu diễn MTVA bằng cách sử dụng
một thước đo khoảng cách. Ngồi ra, chúng tơi thiết kế một đại diện tượng trưng để xây dựng một
cấu trúc lập chỉ mục đa độ phân giải để phát hiện sự bất hịa.

3.2 Thuật tốn xây dựng từ dưới lên
Với chuỗi thời gian P = {p1, ··· , pn} và L là mức độ phân giải được xác định
bởi người dùng, biểu diễn MTVA của P được xây dựng theo các bước tiếp theo:
1. Chúng tôi bắt đầu ở mức độ phân giải cuối cùng L chia chuỗi thời gian thành M = 2L

1

các đoạn có kích thước w = n/M.
2. Cho Y = {y1, ··· , yw}, là một đoạn của P trong đoạn thời gian X =
{x1, ··· , xw}, chúng ta tính hồi quy tuyến tính trên mỗi đoạn bằng hàm lr(x) = ax + b,
trong đó:

– một =

– b = Y¯

w
tôi=1

(xj

X¯)

w i=1(xj

a



yj

X¯)2

– X¯ và Y¯ lần lượt là giá trị trung bình của X và Y.
– Cặp giá trị xu hướng (v, s) của đoạn Y được xác định bởi:
x1+xw
• v = a
+ b là giá trị trung bình.
2
• s = arctan(a) là độ dốc,
3. Đối với các mức độ phân giải tiếp theo M = 2{L


2,L

3,··· ,0}, hãy tính giá trị xu hướng

cặp (v,s) cho từng đoạn như sau:
vi+vi+1
– v =
2
– s = arctan

vi+1

vi

xi+1

xi

.

– vi và xi là giá trị trung bình và thời gian trung bình liên quan đến một đoạn
ở cấp độ cao hơn (xem Hình 2).


Machine Translated by Google
120

H. Sanchez và B. Bustos

MTVA(P, 3) = {(v1, s1), ..., (v7, s7)}


Hình 2. Xây dựng xấp xỉ giá trị-xu hướng đa độ phân giải.

4. Kết quả là một mảng gồm tất cả các cặp xu hướng-giá trị:
MTVA(P, L) = {(v1, s1), ...,(vm, sm)}.
Hình 2 cho thấy biểu diễn MTVA của chuỗi thời gian P lên thứ ba
mức độ phân giải (L=3). Thơng số L có thể được tự động tính tốn để
rằng độ phức tạp về khơng gian của biểu diễn MTVA không vượt quá
không gian của chuỗi thời gian gốc, nghĩa là điều chỉnh tổng số đoạn
m ≤ n/2. Mặt khác, m có thể được xác định theo mức độ phân giải
m = 2L

1. Sau đó giải cả hai phương trình, ta thu được mức tối đa của

độ phân giải cho P là Lmax = log2(n/2) + 1.

3.3 Khoảng cách MTVA
Trước tiên chúng ta cần một hàm chi phí để đo khoảng cách giữa các cặp xu hướng-giá trị.
Với hai cặp số pi và qj , ta định nghĩa hàm chi phí như sau:

chi phí(pi, qj ) = |vp
Tơi

2

vq | + |s
j

P
Tơi


s

q
j

| 2,

trong đó cả miền giá trị và miền dốc phải có phạm vi tương tự nhau để tránh
rằng khoảng cách chỉ được điều chỉnh bởi một trong số chúng. Phạm vi độ dốc nằm trong khoảng
π

2

và +π

2 ,

do đó chúng tơi chuẩn hóa chuỗi thời gian bằng quy trình chuẩn hóa tiêu

chuẩn (ví dụ: phân phối Z). Sau đó chúng tơi đề xuất khoảng cách đa độ phân giải
MDist để đo lường sự khác biệt giữa hai biểu diễn MTVA thực hiện hàm chi phí trên tất cả
các mức độ phân giải:
l

2

1

tơi


MDist(P, Q) =

chi phí (pi, qi).

l=1

i=2(l

1)


Machine Translated by Google
121

Khám phá bất hòa chuỗi thời gian đa độ phân giải

Thời gian tính tốn của việc thực hiện MDist là tổng thời gian trong mỗi
mức độ phân giải:
l

l

2l

Ml =

T(L) =
l=1


1 = 2L

1.

l=1

Nếu chúng ta tính tốn khoảng cách trong trường hợp xấu nhất khi L chính xác là log2(n/2) + 1,

thời gian tính tốn theo thứ tự O(n), trong đó n là độ dài của bản gốc
chuỗi thời gian. Do đó, MDist trong trường hợp xấu nhất về mặt lý thuyết là nhanh như
khoảng cách cổ điển hoạt động trên biểu diễn thô.

3.4 Biểu diễn tượng trưng
Các kỹ thuật rời rạc hóa được sử dụng để chuyển đổi biểu diễn số thành
một chuỗi ký hiệu. Đại diện mang tính biểu tượng này cung cấp cho chúng ta dễ dàng hơn
giải thích và đơn giản để quản lý các bộ sưu tập chuỗi thời gian.

Định nghĩa 3. “Điểm ngắt là một danh sách được sắp xếp gồm các số β = {β1, ...,βα

1},

sao cho diện tích dưới đường cong Gaussian N(0, 1) từ βi đến βi+1 = 1/α (β0
và diện tích βα được xác định lần lượt là
thì các điểm dừng là {β1 =

∞ và +∞)” [9]. Ví dụ: nếu α = 4

0,67, β2 = 0, β3 = +0,67}.

Giả định Gaussian. Để chuyển đổi cặp số pi = (vi, si) thành cặp ký hiệu ˆpi = (ˆvi,

sˆi), chúng ta lượng tử hóa riêng biệt cả hai giá trị bằng cách sử dụng các điểm dừng mà
tạo ra các khu vực có kích thước bằng nhau dưới đường cong Gaussian N(μ, σ2) (tương tự như 1d-SAX).

Sự rời rạc hóa Gaussian là khả thi đối với chuỗi thời gian được chuẩn hóa, vì theo thống kê

giá trị trung bình và độ dốc có phân bố Gaussian [10,11]. Như trong 1d SAX, các điểm
dừng được xác định bởi đường cong N(0, 1) cho giá trị trung bình
và N(0, σ2 L) cho độ dốc. Trong trường hợp cuối cùng này, chúng tôi sử dụng phương sai σ2
l

về

của mức độ phân giải L bởi vì mỗi mức độ phân giải tạo ra khác nhau
phân phối độ dốc (Hình 3), khơng giống như 1d-SAX sử dụng phương sai độ dốc trong
xét về kích thước của phân khúc. Ngoài ra, để áp dụng hồi quy tuyến tính
giữa X và Y, chúng tơi
, khuyến nghị cả hai biến có phạm vi tương tự nhau. Nếu như
chuỗi thời gian được chuẩn hóa trong N(0, 1), thì thành phần thời gian X phải
phù hợp với kích thước khoảng này. Trong cơng việc này, chúng tơi bình thường hóa độ dài của từng đoạn

X = [1, w]

X = [

1, 1]. Theo cách này, phương sai σ2

l

được định nghĩa theo thuật ngữ


của mức độ phân giải độc lập với kích thước của phân khúc.

L = 2

1,5

0,5 0,5 1,5

L = 4

1,5

0,5 0,5

L = 6

1,5

1,5

0,5 0,5 1,5

Hình 3. Mật độ độ dốc thay đổi mức độ phân giải trong chuỗi thời gian ECG.


Machine Translated by Google
122

H. Sanchez và B. Bustos


Kích thước bảng chữ cái. Kích thước bảng chữ cái được phân định bởi số lượng điểm dừng

(Định nghĩa 3) và ảnh hưởng mạnh mẽ đến tỷ lệ nén và lỗi tái tạo. Để lượng tử hóa
cặp xu hướng-giá trị, chúng ta cần hai bảng chữ cái có kích thước

αv và αs tương ứng với giá trị trung bình và hệ số góc. Để phù hợp, chúng tôi sử dụng
ký hiệu nhị phân trong đó α là lũy thừa của hai [13]. Vì vậy, ví dụ, để nén
số MTVA lên cấp 3 sử dụng αv = 4 và αs = 4, ta cần (2+ 2)

(23

1)

bit, nó nhỏ hơn 4 byte theo chuỗi thời gian. Đại diện mang tính biểu tượng này sẽ phục vụ
chúng tôi với các ứng dụng khác nhau như lập chỉ mục và phát hiện bất thường.

3.5 Lập chỉ mục
Để quản lý hiệu quả các tập dữ liệu chuỗi thời gian MTVA, chúng tôi sử dụng biểu diễn ký hiệu để
xây dựng chỉ mục dựa trên hàm băm, trong đó mỗi nhóm Pˆ bao bọc một tập hợp các phần tử tương tự

Chuỗi thời gian MTVA. Để lọc ra khoảng cách trong tìm kiếm tương tự, chúng tơi thiết kế một

chức năng giới hạn dưới được gọi là MINDIST để đo khoảng cách giữa
đối tượng truy vấn Q và một thùng Pˆ, sao cho nó nhỏ hơn khoảng cách giữa Q
và mọi vật P

Pˆ. Trước khi định nghĩa MINDIST, trước tiên chúng ta cần xác định

hàm giới hạn dưới của chi phí giá trị xu hướng, được biểu thị như sau:
Chi phí LB(ˆpi, qi)=(Δv)


2

2

+ (Δs)

≤ cost(pi, qi), trong đó

Δv =
|vq
|βLi

Δs =

βU i| vq > βU tôi

Tôi

Tôi

vq

Tôi

| vq < βLi
Tôi

|s


q

βU i| S

Tôi

q

> βU tôi

Tôi

q

q

Tôi

Tôi

s | S < βLi

|βLi

0 khác,

0 khác,
———

———


: βLi ≤ vp < βU i,
Tôi

: βLi ≤ s

Tôi

< βU i.

Dốc

Giá trị

Chi phí LB (ˆpi, qi)=(βLi

P

2

vq ) + (βLi
Tơi

2

sq )
Tơi

Hình 4. Chi phí giá trị xu hướng giới hạn thấp hơn. Đường màu xanh đại diện cho một cặp xu hướng-giá trị
được lưu trữ trong cơ sở dữ liệu của chúng tơi và dịng màu xanh lá cây là truy vấn (Hình màu trực tuyến).



Machine Translated by Google
Chuỗi thời gian đa độ phân giải Discord Discovery

123

Ký hiệu ˆpi bắt nguồn từ một cặp giá trị xu hướng pi nằm giữa hai điểm ngắt βU i < pi ≤
βLi, độc lập với từng giá trị cặp (Hình 4).
MINDIST sau đó được tính theo phương trình sau:
ˆ

l 2

1

TÂM TRÍ(P , Q, l, α ) = α +

Chi phí LB(ˆpi, qi),

i=2(l

1)

trong đó l là mức độ phân giải hiện tại và α là khoảng cách tích lũy của các mức trước đó.

4 Khám phá Discord đa độ phân giải
Thách thức chính của phương pháp khám phá sự bất hòa là phải đối mặt với độ phức tạp bậc hai
của nó. Theo nghĩa này, biểu diễn MTVA của chúng tơi cùng với phương pháp phỏng đốn phát hiện
mối bất hịa có thể được sử dụng để giải quyết việc phát hiện sự bất thường theo chuỗi thời gian.

Chúng tôi đề xuất một phương pháp đa độ phân giải được gọi là HOT MTVA, giúp tăng độ phân giải
mức của chỉ mục khi nhóm băm bị tràn (Hình 5). Cấu trúc chỉ mục này cho phép sự phù hợp hồn
hảo với đại diện MTVA của chúng tơi. Hơn nữa, nó rất linh hoạt để kiểm sốt mức độ giải quyết
các điểm bất thường được phát hiện.

Hình 5. Mơ hình chỉ số đa độ phân giải cho biểu diễn MTVA.

4.1 Thuật tốn xây dựng
Với chuỗi thời gian P có độ dài n, chúng ta sử dụng một cửa sổ trượt chồng lên nhau có kích
thước wn để trích xuất tất cả các chuỗi con có thể có Ci, i

{1,...,(n

w + 1)} từ P. Quy

trình chèn của dãy con MTVA Ci trong cấu trúc chỉ mục R được mô tả như sau. Không giống như
HOT iSAX, chúng tôi áp dụng lượng tử hóa phân cấp để truy cập vào các bảng băm (trong đó mỗi
vị trí là một nút) từ độ phân giải thấp nhất đến độ phân giải tối đa. Nếu một nút đầu cuối đầy,
chúng tôi sẽ chèn lại tất cả các đối tượng được liên kết của nó vào một bảng băm ở cấp độ cao
hơn để cung cấp thêm sự khác biệt, do đó, chúng tơi tạo các nút mới với mức độ phân giải tiếp
theo của nút hiện tại. Chúng tơi sử dụng ngưỡng kích thước thmax để kiểm soát số lượng đối
tượng tối đa trong nút đầu cuối (cái gọi là nhóm). Như chúng ta có thể thấy, cấp độ lập chỉ
mục có hành vi động, giá trị gia tăng của nó phụ thuộc vào kích thước của tập dữ liệu và mức
độ phân giải tối đa (Lmax).


Machine Translated by Google
124

H. Sanchez và B. Bustos


4.2 Chẩn đoán khám phá bất hịa
Dãy con bất hịa được tìm thấy bằng cách áp dụng khám phá bất hòa tối ưu
thủ tục [7] sử dụng các phương pháp phỏng đoán sau:
Heuristic vịng ngồi: Đầu tiên chúng ta truy cập tất cả các chuỗi con thuộc về nhóm
chứa số lượng dãy con tối thiểu bắt đầu từ mức thấp nhất
mức độ phân giải. Sau đó, chúng ta thăm các nhóm cịn lại theo thứ tự ngẫu nhiên. Cái này
heuristic đảm bảo rằng các chuỗi con bị cô lập nhất, trong mỗi độ phân giải
cấp độ, sẽ được truy cập khi bắt đầu tìm kiếm với tư cách là ứng viên tiềm năng.
Heuristic vịng bên trong: Sau đó, chúng tơi sử dụng một vịng lặp bên trong để tìm kiếm bản ngã tốt nhất

trận đấu của từng ứng cử viên được chọn Cj . Đầu tiên chúng tôi truy cập tất cả các chuỗi con chứa

Thuật tốn 1. NNM-Tìm kiếm chỉ số MTVA đa độ phân giải
Yêu cầu: (Chỉ mục R, Truy vấn Cj , Kích thước cửa sổ w, Khoảng cách ngưỡng thứ)
1: stack.push([R.getNodeRoot(), 0])
2: khoảng cách tốt nhất = ∞

3: bài viết hay nhất =

1

4: trong khi ngăn xếp =

làm

vòng trong

5:


[nút, phút d] = stack.pop()

6:

nếu min d > best dist thì

Phá vỡ

7:
số 8:

thốt ra khỏi vịng lặp bên trong

nếu nút là nội bộ thì

9:

danh sách =

10:

đối với nút con

node.children làm

nếu nút con khơng được truy cập thì

11:
12:


d = MINDIST(con node.str, Cj , node.level, min d)
list.add([nút con, d])

13:14:

kết thúc nếu

15:

kết thúc cho

16:

danh sách được sắp xếp = argsort(list)

17:
18:

stack.push(danh sách được sắp xếp)

khác nếu nút là thiết bị đầu cuối thì

19:

đối tượng = readBucket(node.str)

20:

đối với đối tượng Ci


21:

nếu |i

làm

j| ≥ w thì d =

22:

MDist(Ci, Cj ) nếu d <

23:

khoảng cách tốt nhất thì

24:

quận tốt nhất = d

25:

bài viết hay nhất = j

26:

kết thúc nếu

27:


nếu d < thdist thì
Kết thúc

28:
nếu

29:
30:

kết thúc nếu

31:

kết thúc cho
kết thúc nếu

32:33: kết thúc
34: Trả lại (quận tốt nhất, vị trí tốt nhất)

khơng tự phù hợp?

Khoảng cách đa độ phân giải

thốt ra khỏi vịng lặp bên trong


Machine Translated by Google
Chuỗi thời gian đa độ phân giải Discord Discovery

125


trong thùng mà từ đó Cj được lấy ra. Sau đó, chúng tơi áp dụng thuật tốn tìm kiếm khơng
khớp gần nhất (NNM-Search, Thuật tốn 1) để truy cập các nhóm cịn lại. Heuristic này cho phép
lần đầu tiên truy cập tất cả các chuỗi con giống với Cj nhất , làm tăng khả năng kết thúc sớm
vòng lặp.
Thuật tốn NNM-Search thực hiện tìm kiếm theo thứ bậc trên các nút bên trong bằng cách sử
dụng ngăn xếp để duy trì các nút được sắp xếp theo MINDIST (dịng 10 – 17). MINDIST đo khoảng
cách tối thiểu giữa truy vấn và nút hiện tại. Thuật toán cũng áp dụng hai câu lệnh ngắt để
ngắt vòng lặp bên trong càng sớm càng tốt: một câu được liên kết với MINDIST (dòng 6) và câu
còn lại được liên kết với khoảng cách bất hòa tốt nhất cho đến nay (dòng 27).

5 kết quả thí nghiệm
Trong phần này, chúng tơi đánh giá hiệu quả của phương pháp tiếp cận của chúng tôi nhằm giải
quyết vấn đề phát hiện sự bất thường. Hiệu quả sẽ được đánh giá qua một tập hợp gồm 20
trường hợp thực tế của chuỗi thời gian dị thường (với các cửa sổ trượt khác nhau) được Keogh
et al thu thập. [5,6]. Hiệu quả sẽ được đánh giá bằng cách sử dụng cùng một chuỗi thời gian
dài được mô tả bởi Sanchez và cộng sự. [12].

5.1 Hiệu quả của Đại diện MTVA của Chúng tôi
Trước tiên, chúng tôi đánh giá tính chính xác của biểu diễn số có giá trị xu hướng trong tất
cả các trường hợp bất thường. Các kỹ thuật cổ điển sử dụng Khoảng cách Euclide làm khoảng
cách đo chắc chắn trên biểu diễn thô của dãy con chuẩn hóa. Q trình chuẩn hóa được sử dụng
để đồng nhất hóa tất cả các chuỗi con áp dụng hai phép biến đổi: dịch thuật và chia tỷ lệ.
Tuy nhiên, điều này có một vấn đề: sự hiện diện của nhiễu cục bộ được khuếch đại bởi phép
biến đổi tỷ lệ. Vấn đề này được giải quyết bằng cách sử dụng tham số phụ thuộc ngữ cảnh ε > 0
để làm mịn các chuỗi con nhiễu [9,12]. Một tính năng quan trọng của biểu diễn MTVA của chúng
tơi là độ dốc của các phân đoạn ồn ào có xu hướng bằng 0 và do đó, tính bất thường của các
chuỗi con ồn ào bị giảm đi. Bảng 1 cho thấy các kết quả thu được bởi cả hai kỹ thuật đối với
sáu giá trị của ε. Chúng tôi đánh giá MTVA bằng ba mức độ phân giải khác nhau. Chúng tôi lưu
ý rằng biểu diễn MTVA đạt được tỷ lệ phát hiện thực cao hơn khi tăng mức độ phân giải lên L =

4, đây là mức tối đa chung cho tất cả các cửa sổ trượt. Bằng cách này, chúng tôi khẳng định
rằng phương pháp của chúng tơi có khả năng chống nhiễu cục bộ tốt hơn so với ED cổ điển. Hơn
nữa, chúng tơi có thể cải thiện tỷ lệ phần trăm này lên tới 100% các lần phát hiện thực để tìm
giá trị tốt nhất cho ε trong mỗi chuỗi thời gian. Ngoài ra, chúng tơi nêu bật tính linh hoạt
của MTVA để hoạt động linh hoạt ở các mức độ phân giải khác nhau trong thời gian chạy.

5.2 Hiệu quả của Chỉ số Đa độ phân giải của Chúng tôi
Chúng tôi đẩy nhanh quá trình tìm kiếm bằng phương pháp đa độ phân giải HOT MTVA và so sánh
nó với hai kỹ thuật chính hiện đại nhất: HOT SAX và HOT iSAX (Phần 2). Chúng tôi đặt thông tin
định lượng giống nhau cho từng kỹ thuật: αv = 4


Machine Translated by Google
126

H. Sanchez và B. Bustos
Bảng 1. Tỷ lệ phát hiện thực sự sử dụng biểu diễn MTVA của chúng tôi.
ε ED MTVA Khoảng cách

L = 2 L = 3 L = 4
0,025 60% 60% 67% 70%
0,050 77% 70% 83% 87%
0,075 73% 70% 80% 83%
0,100 80% 73% 83% 87%
0,125 83% 77% 83% 87%
0,150 77% 73% 77% 80%
tốt nhất 100% –

100% 100%


và αs = 4 đối với chỉ số MTVA và αv = 8 đối với chỉ số dựa trên SAX. Theo kinh
nghiệm, chúng tôi đặt số phần tử tối đa trong một nhóm là thmax = 50 và mức độ phân
giải tối đa được giới hạn ở L = 4. Ngồi ra, chúng tơi thêm một chiến lược tối ưu
hóa tìm kiếm vào thuật tốn HOT SAX và gọi nó là HOT SAX*, thuật tốn này bao gồm
áp dụng hàm MINDIST trong nhóm trước khi truy cập các chuỗi con liên quan của chúng
[9]. Hình 6 cho thấy hiệu quả của các thuật toán về số lượng khoảng cách được tính
tốn. Chúng tơi quan sát thấy rằng MTVA HOT hiệu quả hơn nhiều so với các kỹ thuật
khác về khoảng cách được tính tốn.
Lợi thế hiệu quả này là do các thuộc tính đa độ phân giải của phương pháp của
chúng tơi, cho phép heuristic vịng ngồi tìm thấy nhanh chóng các ứng cử viên tiềm
năng thơng qua các mức độ phân giải.

1.E+07

1.E+06
gp
n)
ăơ

y
đm
h
u
(
n
q

HOT_SAX

gncn

ảợá
h

c
n
ốt
h
á
í
o
S
k
c
đ

1.E+05

HOT_iSAX
HOT_MTVA

1.E+04

1.E+03

Độ dài chuỗi thời gian 1K 2K 4K 8K 16K
32K

Hình 6. Hiệu quả của phương pháp đa độ phân giải của chúng tôi trong việc phát hiện sự bất thường.

*



Machine Translated by Google
Khám phá bất hòa chuỗi thời gian đa độ phân giải

127

6 Kết luận và công việc trong tương lai

Chúng tôi đã đề xuất một biểu diễn chuỗi thời gian đa độ phân giải (MTVA) bao gồm các
cặp xu hướng-giá trị thu được bằng cách áp dụng hồi quy tuyến tính tuyến tính trong
mỗi phân đoạn độ phân giải. Chúng tôi cũng cung cấp thước đo khoảng cách và chức năng
giới hạn dưới của nó để thực hiện tìm kiếm hiệu quả. Chúng tơi đã chứng minh tiện ích
của biểu diễn MTVA trong Phát hiện bất thường, trong đó chúng tơi đã làm nổi bật
tính năng độ dốc để giảm thiểu tính bất thường sai của các chuỗi con ồn ào. Hơn nữa,
hiệu quả của thuật toán khám phá bất hịa đa độ phân giải của chúng tơi vượt trội so
với các phương pháp tốt nhất hiện có về khoảng cách được tính tốn. Một ưu điểm bổ
sung của biểu diễn MTVA là mức độ phân giải trực quan hơn và dễ tinh chỉnh hơn so với
số lượng phân đoạn trong các xấp xỉ từng phần. Tuy nhiên, một nhược điểm của phép
tính gần đúng giá trị xu hướng là nó u cầu gấp đơi khơng gian cho mỗi phân đoạn.
Việc thêm một tham số để biểu thị xu hướng của chuỗi thời gian sẽ có nguy cơ làm giảm
tính đơn giản của mơ hình dữ liệu ngắn gọn của chúng ta nếu nó được so sánh với kỹ
thuật SAX. Cách tiếp cận của chúng tơi có thể được sử dụng làm cơ sở để tìm ra sự bất
thường ở các mức độ chi tiết khác nhau. Chúng tơi dự định tập trung phương pháp của
mình vào việc phát hiện sự bất thường trực tuyến đối với dữ liệu phát trực tuyến lớn.

Người giới thiệu
1. Bửu, HTQ, Anh, DT: Khám phá bất hòa chuỗi thời gian dựa trên biểu diễn ký hiệu iSAX.
Trong: Kỷ yếu Hội nghị Quốc tế lần thứ ba về Tri thức và Kỹ thuật Hệ thống (KSE), trang
11–18 (2011)

2. Chandola, V., Banerjee, A., Kumar, V.: Phát hiện bất thường: một cuộc khảo sát. ACM Com
đặt. sống sót 41, 1–58 (2009)
3. Dan, J., Shi, W., Dong, F., Hirota, K.: Xấp xỉ xu hướng từng phần: biểu diễn chuỗi thời
gian dựa trên tỷ lệ. trừu tượng ứng dụng hậu môn. 2013(4) (2013)
4. Esmael, B., Arnaout, A., Fruhwirth, RK, Thonhauser, G.: Phân loại chuỗi thời gian đa
biến bằng cách kết hợp các phép tính gần đúng dựa trên xu hướng và giá trị.
Trong: Murgante, B., Gervasi, O., Misra, S., Nedjah, N., Rocha, AMAC, Taniar, D.,
Apduhan, BO (eds.) ICCSA 2012. LNCS, tập. 7336, trang 392–403. Springer, Heidelberg
(2012). doi:10.1007/978-3-642-31128-4 29 5. Keogh, E.,
Lin, J., Fu, A.: Bộ dữ liệu bất hòa chuỗi thời gian đơn biến (2005). http:// www.cs.ucr.edu/
eamonn/discords/ 6. Keogh, EJ, Lin,
J., Fu, AW: HOT SAX: tìm kiếm chuỗi thời gian bất thường nhất một cách hiệu quả. Trong: Hội
nghị quốc tế về khai thác dữ liệu lần thứ năm của IEEE, trang 226–233, tháng 11 năm 2005
7. Keogh, EJ, Lin, J., Lee, SH, Herle, HV: Tìm dãy con bất thường nhất của chuỗi thời gian:
thuật toán và ứng dụng. hiểu biết. thông tin liên lạc hệ thống. 11, 1–27 (2007)
8. Kha, NH, Anh, DT: Từ phát hiện ngoại lệ dựa trên cụm đến phát hiện bất hòa chuỗi thời
gian. Trong: Li, X.-L., Cao, T., Lim, E.-P., Chu, Z.-H., Ho, T.-B., Cheung, D., Motoda,
H. (eds .) PAKDD 2015. LNCS, tập. 9441, trang 16–28. Springer, Chăm (2015).
doi:10.1007/978-3-319-25660-3 2 9. Lin, J.,
Keogh, E., Lonardi, S., Chiu, B.: Một biểu tượng mang tính biểu tượng của chuỗi thời gian,
có ý nghĩa đối với các thuật toán truyền phát. Trong: Kỷ yếu Hội thảo ACM SIGMOD lần thứ
8 về các vấn đề nghiên cứu trong khai thác dữ liệu và khám phá tri thức, trang 2–11 (2003)


Machine Translated by Google
128

H. Sanchez và B. Bustos

10. Lin, J., Keogh, EJ, Wei, L., Lonardi, S.: Trải nghiệm SAX: một cách biểu diễn mang tính biểu

tượng mới lạ của chuỗi thời gian. Dữ liệu tối thiểu. hiểu biết. khám phá. 15, 107–144 (2007)
11. Malinowski, S., Guyet, T., Quiniou, R., Tavenard, R.: 1d-SAX: một cách biểu diễn mang tính biểu
tượng mới cho chui thi gian. Trong: Tucker, A., Hăoppner, F., Siebes, A., Swift, S. (eds.)
IDA 2013. LNCS, tập. 8207, trang 273–284. Springer, Heidelberg (2013). doi:10.
1007/978-3-642-41398-8 24
12. Sanchez, H., Bustos, B.: Phát hiện bất thường trong chuỗi thời gian phát trực tuyến dựa trên
các hộp giới hạn. Trong: Traina, AJM, Traina, C., Cordeiro, RLF (eds.)
SISAP 2014. LNCS, tập. 8821, trang 201–213. Springer, Chăm (2014). doi:10.1007/ 978-3-319-11988-5
19
13. Shieh, J., Keogh, E.: iSAX: lập chỉ mục và khai thác chuỗi thời gian có kích thước terabyte.
Trong: Kỷ yếu của Hội nghị quốc tế ACM SIGKDD lần thứ 14 về Khám phá tri thức và khai thác dữ
liệu, trang 623–631. ACM (2008)



×