Tải bản đầy đủ (.pdf) (15 trang)

Cơ sở lý thuyết chuỗi thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (409.41 KB, 15 trang )

- 22 -

CHƯƠNG II
CƠ SỞ LÝ THUYẾT KHÁM PHÁ TRI THỨC TỪ CƠ SỞ
DỮ LIỆU CHUỖI THỜI GIAN
2.1. Cơ sở dữ liệu chuỗi thời gian
Chuỗi thời gian là một tập hợp các quan sát Xt được ghi nhận tại một thời điểm
t, theo một trình tự thời gian nhất định. Công việc dự đoán dựa trên cơ sở dữ liệu chuỗi
thời gian được gọi là dự đoán chuỗi thời gian. Việc tìm kiếm các mẫu thích hợp trong
dữ liệu tuần tự theo thời gian (Time Series Data – TSD) là rất quan trọng cho các ứng
dụng trong hầu hết các lĩnh vực khoa học như tìm kiếm âm điệu, tìm các các mẫu
chứng khoán trong quá khứ để có thể dự đoán khuynh hướng giá trong tương lai, số
lượng sản phẩm bán ra, dự báo mức độ ô nhiễm môi trường hay dự báo thời tiết, . . .[2]
Dữ liệu tuần tự theo thời gian thường có nhiều trong các lĩnh vực khác nhau nên
có nhiều dạng khác nhau. Xét về mặt toán học thì chúng đều như nhau là mỗi chuỗi
thời gian biểu diễn các giá trị của một biến thực theo các khoảng thời gian bằng nhau.
Do đó khái niệm về chuỗi thời gian tương đối rộng nên có thể áp dụng các kỹ thuật
khám phá tri thức trên chuỗi thời gian để xây dựng các ứng dụng trong các lĩnh vực
khác nhau[2][12][19].
2.1.1 Các khái niệm:
Có thể chia các phương pháp phân tích chuỗi thời gian (Time series) ra làm hai
loại. Tập trung các tính chất, hành vi tổng quát của chuỗi thời gian và nghiên cứu các
tính chất có tính cục bộ, địa phương trên chuỗi thời gian( thông qua các dãy con, các
mẫu tuần hoàn, đoạn lặp phổ biến, các luật liên kết các mẫu đặc trưng trong chuỗi thời
gian . . .)[2][14].
Định nghĩa 1:
- Cho chuỗi thời gian X=(x1, x2, . . ., xn) là một tập n giá trị xi được ghi nhận trên
các khoảng thời gian bằng nhau của một biến thực và được sắp theo thứ tự thời gian.
- Cơ sở dữ liệu chuỗi thời gian là một tập rất lớn các chuỗi thời gian, trong đó
mỗi mẫu tin là một chuỗi thời gian: T= X i i 1
n




- 23 -

Chuỗi thời gian có thể biểu diễn các đối tượng khác nhau trong nhiều lĩnh vực,
tuy nhiên chúng đều có nhiều tính chất giống nhau. Có thể biểu diễn một chuỗi thời
gian trên biểu đồ sau:[14][16]

Hình 2.1 Minh họa chuỗi thời gian
Khoảng thời gian giữa hai giá trị liên tiếp nhau có thể lựa chọn tùy theo lĩnh vực
hay nội dung mà nó biểu diễn, chẳng hạn chuỗi thời gian biểu diễn giá cổ phiếu một
công ty được ghi nhận một cách đều đặn theo từng ngày, nhưng theo dõi thời tiết( về
nhiệt độ, biên độ thủy triều) thì có thể ghi nhận theo từng tháng, năm . . . chuỗi thời
gian X=(x1, x2, . . ., xn) được ghi nhận trên đoạn thời gian [t1,t2], trong đó mỗi giá trị xi
được ghi nhận tại một thời điểm xác nhận ti. Có nhiều định nghĩa không nhấn mạnh
đến yếu tố thời gian khi định nghĩa về chuỗi thời gian, chẳng hạn một chuỗi thời gian
Y là một tập sắp xếp thứ tự của n giá trị của một biến thực (y1,. . ., yn) [2][17].
Các chuỗi thời gian có thể rất dài và có thể chứa hàng triệu, hàng tỉ giá trị. Cần nói
thêm là các chuỗi thời gian trong một cơ sở dữ liệu thời gian có bản chất như nhau.
Ví dụ: Các chuỗi thời gian biểu diễn giá cổ phiếu trên thị trường chứng khoán. Nhiều
nghiên cứu hiện nay tập trung vào các dãy con trên chuỗi thời gian.


- 24 -

Định nghĩa 2:
Cho một chuỗi thời gian X có chiều dài n, một dãy con S của X là một dãy có
chiều dài m( 1 

m  n ) các vị trí liền nhau trong X:


S=(xp, . . . xp+m-1), (1  p  n  m  1)
Từ định nghĩa ta nhận thấy có n – m + 1 dãy con có chiều dài m như vậy trong
chuỗi thời X chiều dài n. Mỗi dãy con cũng có thể xem là một chuỗi thời với chiều dài
m. Ta lưu ý rằng khái niệm dãy con khác mẫu tuần tự, mẫu tuần tự chấp nhận các phần
tử của nó có thể không liên tục trong dãy ban đầu trong khi một dãy con chỉ chấp nhận
các phần tử liên tiếp nhau trong một chuỗi thời gian.
Ví dụ: Cho chuỗi thời gian X=(8, 3, 6, 7, 9, 4, 2, 11), ta thấy S1=(3, 6, 7) là một
dãy con của X, nhưng S2=(7, 9, 2) không là dãy con của X do 9 và 2 là các giá trị
không liên tiếp nhau trong X.
Để trích xuất các dãy con từ trong chuỗi thời gian nhiều nhà nghiên cứu còn sử
dụng khái niệm “cửa sổ” windows[16]. Cho chuỗi thời X=(x1, . . ., xn), một cửa sổ với
độ rộng  là một dãy các phần tử liên tiếp nhau (xi, . . ., xi + 

- 1).

Thực chất một cửa

sổ là một dãy con nhưng ở đây ta muốn nhấn mạnh về cách thức rút trích dữ liệu giống
như khi ta quan sát chuỗi thời gian qua một “cửa sổ”, khi ta trượt cửa sổ theo chuỗi
thời gian, mỗi lần một vị trí ta chọn lần lượt các dãy con có độ dài bằng nhau.
Ký hiệu: W(X) = {Si / i=1, . . ., n -  +1} tập các dãy con Si có chiều dài  thu
được từ trong chuỗi thời gian X.
Các nghiên cứu trên chuỗi thời gian gần đây còn quan tâm đến việc xem xét các
khuynh hướng ngắn hạn của chuỗi thời gian. Các luật kết hợp trong nội dung này thể
hiện qua việc liên kết các sự kiện, nó phản ánh mối liên hệ giữa các dạng biến thiên
khác nhau trên chuỗi thời gian[2][14].
Định nghĩa 3:
Cho chuỗi thời gian X=(x1, . . ., xn) trên đoạn thời gian [t1, tn], một hàm theo
thời gian x(t) gọi là đại diện cho chuỗi thời gian X nếu x(ti) = xi, với ti = t1, t2, . . ., tn .

[2][14][18].


- 25 -

Định nghĩa 4:
Hàm tuyến tính  (t) = t   thỏa x(ti )   (ti )   với ti  [t1, tm] và  >0 thì ta
gọi  là một đặc trưng của chuỗi thời gian X trên [t1, tm].
Ở định nghĩa trên,  là một sai số chọn trước phù hợp với ứng dụng mà ta cần
xây dựng. Một đặc trưng của chuỗi thời gian tương ứng với dãy con S thực chất là hệ
số góc của hàm  (t), tùy theo giá trị của  mà nó thể hiện khuynh hướng của chuỗi
thời gian trên đoạn đó. Hệ số góc có thể xem là một đặc trưng quan trọng nhất trên
chuỗi thời gian[2][14][18].
Định nghĩa 5:
Một sự thay đổi đặc trưng giữa hai giai đoạn liền nhau được gọi là một sự kiện.

Hình 2.2 Minh họa một sự kiện tại t2
Theo đĩnh nghĩa trên, nếu trên hai đoạn kề nhau [t1, t2], [t2, t3] chuỗi thời gian
lần lượt có đặc trưng là  1 và  2 và  1   2 thì ta nói tại thời điểm t2 có một sự kiện.
Trên cùng một chuỗi thời gian có thể chứa nhiều thành phần, sự kiện xảy ra
tương đồng như:[14][16]
- Khuynh hướng


- 26 -

- Các thành phần thay đổi theo từng thời kỳ thể hiện qua các mẫu ổn định thay
đổi theo một chu trình( chẳng hạn nhiệt độ từng ngày, từng năm).
- Một thành phần tuần hoàn được phân chia theo chu kỳ( chẳng hạn chu kỳ thủy
triều).

- Các biến cố xảy ra do những tác động bên ngoài( có thể tạm thời hay lâu dài)
- Các sai số ngẫu nhiên.
Do vậy mà có nhiều nhà nghiên cứu tiến hành trên chuỗi thời gian theo các
hướng khác nhau như:
- Khám phá các mẫu tuần hoàn.
- Dò tìm các “motif”, các mẫu kỳ thú trên chuỗi thời gian.
- Khám phá luật liên kết các sự kiện( một sự biến đổi khuynh hướng trên hai
đoạn liền nhau).
- Khám phá luật trên mẫu đặc trưng trích ra từ trong cơ sở dữ liệu chuỗi thời
gian.
Trong luận văn trình bày các biến cố trên chuỗi thời gian được hiểu như là bất
kỳ các sự việc nào trên chuỗi thời gian, nó có thể là một dãy con phát hiện trên chuỗi
thời gian hay là sự kiện được trích ra từ chuỗi thời gian. Các biến cố sẽ được sắp xếp
theo thứ tự thời gian mà nó xuất hiện [2].
Một khái niệm quan trọng trên chuỗi thời gian, làm cơ sở cho nhiều quá trình
khám phá tri thức được nhiều nhà khoa học quan tâm nghiên cứu đó là xác định sự
tương đồng giữa các chuỗi thời gian. Xác định độ tương đồng giữa các chuỗi thời gian
là nội dung đóng vai trò hết sức quan trọng trong các nghiên cứu về chuỗi thời gian,
đây là một bước xử lý cơ bản bắt đầu cho quá trình khám phá tri thức trên cơ sở dữ liệu
chuỗi thời gian. Trong các nghiên cứu về khám phá các mẫu tuần hoàn, mẫu kỳ thú
việc lựa chọn một độ đo thích hợp đóng vai trò rất quan trọng. Bên cạnh các phương
pháp truyền thống như độ đo Euclide, chuẩn hóa dãy, . . . gần đây các nhà nghiên cứu
đã đưa ra nhiều độ đo phức tạp hơn như dựa trên các khái niệm làm lệch thời gian
động( Dynamic Time Warping)[15], dãy con chung dài nhất( Longest Common
Subsequence) có sử dụng thêm khái niệm tỉ lệ và độ dời[18]. Có những ứng dụng đòi


- 27 -

hỏi phải chuyển chuỗi thời gian từ miền thời gian sang miền tần số để sánh độ tương

đồng hiệu quả hơn. Các độ đo tương đồng sau tương đối phổ biến, chúng có thể áp
dụng trên chuỗi thời gian cũng như trên các dãy con được trích ra từ chuỗi thời gian.
2.1.2 Xác định sự tương đồng giữa các chuỗi thời gian.
Để xác định độ tương đồng giữa các chuỗi thời gian, ta cần xây dựng một độ đo
để đánh giá mức độ tương đồng của chúng. Mỗi một độ đo thường chỉ thích hợp với
một vài lĩnh vực nào đó mà thôi, vì vậy mà nhiều độ đo tương đồng khác nhau được
xây dựng.
Trước khi nêu định nghĩa về sự tương đồng giữa hai chuỗi thời gian ta xét một
số phương pháp xây dựng độ đo tương đồng giữa hai chuỗi thời gian được sử dụng
nhiều[15][16][18].
2.1.2.1 Độ đo Khoảng cách Euclide
Phương pháp này tính toán trực tiếp trên chuỗi thời gian có độ dài bằng nhau, có
thể trình bày ngắn gọn như sau:
- Xem mỗi chuỗi thời gian X=(x1, x2, . . ., xn) là một điểm trong không gian
Euclide n chiều.
- Độ đo tương đồng giữa hai chuỗi thời gian đựơc định nghĩa như là khoảng
cách Euclide giữa hai điểm trong không gian Rn có tọa độ được chỉ ra bởi hai chuỗi
thời gian tương ứng:
 n
d(X,Y) =   xi  y i
 i 1

1

2

2




Trong đó: X=(x1, x2, . . ., xn) và Y=(y1, y2, . . ., yn) là các chuỗi thời gian đang
xét.
Định nghĩa về độ đo khoảng cách Euclide có ưu điểm là dễ hiểu, dễ tính toán, dễ
mở rộng cho nhiều bài toán khai phá dữ liệu chuỗi thời gian khác như: gom cụm, phân
lớp, . . . Nhưng độ đo khoảng cách này có nhược điểm là nhạy cảm với nhiễu, và không
thích hợp khi dữ liệu có đường căn bản khác nhau hay có biên độ dao động khác nhau,
ví dụ: khi cổ phiếu công ty A dao động trong khoảng 60.000 đ đến 80.000đ, còn cổ
phiếu công ty B dao động trong khoảng 20.000đ đến 40.000đ thì không xác định được


- 28 -

sự tương đồng về kiểu dao động của chuỗi thời gian. Ngoài ra cách định nghĩa độ
tương đồng trên vẫn chưa tính đến những biến động theo thời gian[2][17][18].
2.1.2.2 Chuẩn hóa chuỗi thời gian
Trên nhiều ứng dụng người ta xem kiểu của dãy con như là hệ số chính trong
việc xác định khoảng cách. Hai dãy con về bản chất có thể cùng kiểu mặc dù chúng có
thể khác nhau về biên độ và ranh giới. Phương pháp sau cùng độ đo Euclide trên các
dạng chuẩn hoá của chuỗi thời gian làm độ đo tương đồng.
- Cho chuỗi thời gian X=(x1, x2, . . ., xn), chuẩn hóa của chuỗi thời gian X, ký
hiệu là X  ( x1 ,...., xn ) và được định nghĩa như sau:

X i = x i – Ex
Trong đó Ex =

1 n
 xi là giá trị trung bình của tất cả các giá trị của chuỗi thời
n i 1

gian X.

Ví dụ: Cho X = (3, 5, 2, 4, 7) thì:
Ex = 5
 X = ( - 2, 0, - 3, - 1, 2)
- Sau khi chuẩn hóa chuỗi thời gian, ta dùng khoảng cách Euclide giữa hai dạng
chuẩn hóa để định nghĩa độ đo tương đồng giữa hai chuỗi thời gian tương ứng. Cho hai
chuỗi thời gian X và Y lần lượt có chuẩn hóa là X và Y , độ đo tương đồng hai
chuỗi thời gian X, Y được định nghĩa là khoảng cách Euclide giữa hai dạng chuẩn hóa
d( X , Y ).
Trong khi đó nếu độ đo tương đồng được xây dựng theo độ đo Euclide có thể X
và Y không tương đồng với nhau. Với khái niệm tương đồng thông qua chuẩn hóa
chuỗi thời gian, ta quan tâm đến kiểu biến thiên của chuỗi thời gian hơn là các giá trị
của chuỗi thời gian[12][14].


- 29 -

2.1.2.3 Độ đo tương đồng dựa trên dãy con chung dài nhất( Longest
Common Subsequence – LCS)
Tư tưởng chính của phương pháp này là xác định độ tương đồng của hai chuỗi
thời gian dựa trên sự tương đồng của dãy con được trích ra từ chúng[14]. Điểm khác
biệt trong phương pháp này cần lưu ý là chấp nhận các phần tử trong dãy con có thể
liên tiếp trong chuỗi thời gian ban đầu. Độ đo tương đồng dựa trên LCS được định
nghĩa như sau:
- Cho hai chuỗi thời gian X=(x1, x2, . . ., xn) và Y=(y1, y2, . . ., yn).
Đặt X’=(xi1, xi2, . . ., xin) và Y=(yj1, yj2, . . ., yjn) lần lượt là hai dãy con của X, Y
tương ứng. Ta nói X’ và Y’ là dãy con chung dài nhất nếu:
a. ik < ik+1 ; jk < jk+1 với 1  k  1  1
với 1  k  1

b. xik = yjk


- Độ tương đồng của X và Y được định nghĩa là số lượng các phần tử trong dãy
con chung dài nhất:
d(X, Y) = LCS
Hoặc thông qua giá trị trung bình:
d(X, Y) =

LCS
n

Ví dụ: Cho hai chuỗi X, Y với X=3, 2, 5, 7, 4, 8, 10, 7 và Y=2, 5, 4, 7, 3, 10, 8,
6.
Chuỗi con chung là: LCS = (2, 5, 7, 10), độ tương đồng của
X,Y= LCS =4
Độ đo tương đồng LCS này có ưu điểm là thể hiện tính trực quan của dữ liệu và
cho phép bỏ qua những điểm bất thường.
Xuất phát từ khái niệm LCS, các nhà nghiên cứu đã đưa ra nhiều phương pháp
khác nhau mềm dẻo hơn để xác định độ tương đồng giữa các chuỗi thời gian, xuất phát
từ việc mở rộng điều kiện (b) trong định nghĩa LCS ở trên như: Chấp nhận xik = yik
  [12][18].


- 30 -

2.2. Khám phá tri thức trên cơ sở dữ liệu chuỗi thời gian.
Hiện nay lĩnh vực khám phá tri thức trên cơ sở dữ liệu chuỗi thời gian có nội
dung rất phong phú. Các phương pháp cổ điển như sử dụng các mô hình như tự hồi qui,
. . . trên các mô hình này nhà nghiên cứu quan tâm chủ yếu đến các tính chất tổng quát
của chuỗi thời gian. Trong giai đoạn gần đây các nhà khoa học bắt đầu tập trung khám
phá các tính chất có tính cục bộ, địa phương trong các cơ sở dữ liệu chuỗi thời gian

như: Các mẫu tuần hoàn, các mẫu tương đồng, luật liên kết các mẫu đặc trưng, các sự
kiện thể hiện khuynh hướng hay hành vi của chuỗi thời gian, . . . Luận văn tập trung
trình bày hướng nghiên cứu khám phá luật kết hợp trên các mẫu đặc trưng [2][9].
Quá trình khám phá tri thức trong cơ sở dữ liệu chuỗi thời gian bao gồm làm
sạch và lọc dữ liệu chuỗi thời gian, nhận dạng hầu hết các thuộc tính dự báo quan
trọng, trích ra một tập các luật kết hợp mà ta có thể dùng để dự báo các hành vi của
chuỗi thời gian trong tương lai. Khám phá tri thức cung cấp các thông tin hữu dụng cho
quá trình quyết định. Ta có thể chia quá trình khám phá tri thức trên cơ sở dữ liệu chuỗi
thời gian thành hai giai đoạn: Giai đoạn thứ nhất là giai đoạn tiền xử lý và giai đoạn
thứ hai là khai phá dữ liệu.
Giai đoạn tiền xử lý có thể chia thành các bước:
- Làm sạch dữ liệu thô
- Định danh các đặc điểm mô tả cơ sở dữ liệu
- Chia thang thời gian thành các đoạn liên tục, xác định các mẫu đặc trưng trên
các dãy con( gom cụm và định danh chúng) hoặc trích xuất ra các sự kiện giữa các
đoạn.
- Tạo cơ sở dữ liệu các mẫu đặc trưng hoặc cơ sở dữ liệu các sự kiện, đây sẽ là
nguyên liệu để cung cấp cho giai đoạn khai phá.
Giai đoạn khai phá gồm các bước:
- Trích xuất các luật
- Thu gọn các luật để được các luật chặt chẽ, hữu dụng
Luận văn này trình bày phương pháp khai phá trên cơ sở dữ liệu chuỗi thời gian
đó là khám phá các luật dựa trên các mẫu cục bộ. Phương pháp khám phá các mẫu( hay


- 31 -

sự kiện) có tính chất địa phương trong các chuỗi thời gian đối lập với việc phân tích
các chuỗi thời gian theo truyền thống mà ở đó tập trung vào các mô hình có tính tổng
quát. Ta sẽ tìm các qui luật mà điều kiện tham chiếu của nó là các mẫu, sự kiện trong

chuỗi thời gian. Phương pháp này không định nghĩa sẵn các mẫu để dùng mà muốn các
mẫu, sự kiện được định dạng từ dữ liệu trong ngữ cảnh của việc khám phá các luật. Ta
mô tả ý tưởng của phương pháp tìm kiếm các luật thuộc các dạng trên từ cơ sở dữ liệu
các chuỗi thời gian, được phân thành hai giai đoạn chính: Tiền xử lý dữ liệu và giai
đoạn khám phá luật.
Tiền xử lý dữ liệu:
Thực hiện gom cụm các dãy con trên cơ sở dữ liệu chuỗi thời gian, một khi các
dãy con của chuỗi thời gian được gom cụm ta có thể áp dụng các phương pháp tìm luật
thông thường để nhận các luật từ các dãy. Nói cách khác là ta chuyển cơ sở dữ liệu
chuỗi thời gian sang dạng khác là cơ sở dữ liệu các mẫu đặc trưng, trong đó mỗi bản
ghi biểu diễn một chuỗi thời gian tương ứng. Các bản ghi trong cơ sở dữ liệu mới này
chứa một dãy các định danh nhóm tương ứng dãy con tại vị trí đó.
Các bước thực hiện:
- Chọn độ rộng của dãy con thích hợp
- Ghi nhận các dãy con bằng cách duyệt ngang qua toàn chuỗi thời gian, tại mỗi
vị trí xác định một chuỗi con theo độ rộng đã chọn. Thực hiện gom cụm các dãy con
thu được này bằng một độ đo thích hợp của cả chuỗi thời gian.
- Mỗi nhóm được gán một định danh duy nhất, khi duyệt qua chuỗi thời gian
mỗi dãy con tương ứng với một nhóm được gán định danh của nhóm tương ứng chứa
dãy con đó, các dãy con trong cùng nhóm gọi là có cùng mẫu. Lưu ý rằng nếu dùng
phương pháp K–mean để gom cụm thì tính chất của mỗi nhóm được xem xét thông qua
phần tử đại diện (trọng tâm) của nó.
- Ta chuyển chuỗi thời gian đã cho thành một dãy mới mà mỗi phần tử của nó là
một chuỗi con.


- 32 -

Ví dụ: Cho chuỗi thời gian X trong cơ sở dữ liệu như sau



























X

1

2


1

2

1

2

3

2

3

4

3

4




























Ta chọn độ rộng của dãy con là 3 và chọn độ tương đồng là phương pháp chuẩn
hóa chuỗi thời gian. Duyệt qua chuỗi thời gian, tại mỗi vị trí ta đặt định danh của nhóm
chứa dãy con tương ứng. Như vậy ta chuyển chuỗi thời gian X trở thành dạng sau:
X = (a1, a2, a1, a2, a3, a1, a2, a3, a1, a2), trong đó: a1 = (1, 2, 1),
a2 = (2, 1, 2) và a3 = (1, 2, 3).

Hình 2.3 Chuỗi thời gian và các dạng mẫu đặc trưng


- 33 -

Cơ sở dữ liệu mới tạo có dạng:























X

a1

a2

a1

a2


a3

a1

a2

a3

a1

a2
























Quá trình rời rạc hóa chuỗi thời gian phụ thuộc nhiều vào độ rộng của mẫu, độ
đo tương đồng và phương pháp gom cụm sử dụng. Độ rộng mẫu và độ đo tương đồng
được lựa chọn tùy theo lĩnh vực ứng dụng và kinh nghiệm của người dùng để đạt thông
tin tốt nhất.
- Một khuynh hướng khác trong giai đoạn này là trích xuất các sự kiện để xây
dựng một cơ sở dữ liệu các sự kiện. Có thể chia công việc này theo các bước sau:
+ Định ra các khoảng thời gian
+ Trên mỗi khoảng thực hiện dò tìm các khuynh hướng tương ứng, đôi khi cần
ghi nhận cả sai số nếu cần.
+ Nếu có sự thay đổi khuynh hướng trên hai khoảng liên tiếp nhau tại thời điểm
đó có sự kiện.
+ Xây dựng một cơ sở dữ liệu các sự kiện được trích ra từ trong cơ sở dữ liệu
chuỗi thời gian ban đầu để cung cấp cho quá trình khám phá luật.
Khám phá luật:
Giai đoạn tiếp theo chúng ta khai phá các luật trên cơ sở dữ liệu chuỗi thời đã
được biến đổi trong giai đoạn tiền xử lý bằng các thuật toán đã biết, các luật thu được
là các luật liên kết các mẫu hay sự kiện theo thời gian. Bằng cách chỉ xét tất cả các tập
thuộc tính cách nhau một khoảng thời gian định trước T, chẳng hạn:
(A1; A1+T), (A2;; A2+T), . . . (An-T; An)
Như thế ta sẽ tìm những luật mà hai vế thể hiện hai biến cố xảy ra với khoảng
cách thời gian là T.


- 34 -


Trong luận văn này tập trung phát hiện những luật có dạng dưới đây:
- Luật đơn giản nhất có dạng: “Nếu A xuất hiện thì B sẽ xuất hiện sau một
khoảng thời gian T”. Trong đó A, B là các mẫu được xây dựng trên chuỗi thời gian.
Viết các luật trên lại như sau:
T

A B
Trong đó T chỉ rằng trong luật có quan tâm đến thời gian xuất hiện giữa A và B.
Đương nhiên là các luật được thu nhận phải thỏa độ hỗ trợ và một độ tin cậy chọn
trước.
Ví dụ: Xét một luật như vậy trích ra từ trong[16], các chuỗi thời gian là giá các
cổ phiếu tham gia trên thị trường chứng khoán. Quá trình khám phá các luật thực hiện
trên cơ sở dữ liệu các mẫu đặc trưng có được qua quá trình gom cụm. Trong ví dụ này,
chọn độ rộng của mẫu là w = 13, bán kính gom cụm d = 3.5. Xét một luật thu được là
20

“ s18  s 4 ” với các mẫu tham gia trong luật được minh họa qua hình 2.4, độ tin
cậy của luật tính được là 59.6%. Các thông tin có thể rút ra là: Một là khi có mẫu s18
xuất hiện thì sau thời gian là 20( đơn vị được chọn) sẽ xuất hiện mẫu s4, hoặc thông
qua hình dạng (sharper) dao động của chuỗi thời gian trong các mẫu tham gia luật ta
thấy sau một quá trình suy giảm giá cổ phiếu s18 có thể xuất hiện một đợt giảm giá
mạnh trong giai đoạn ngắn.


- 35 -

Hình 2.4 Minh hoạ mẫu đại diện của nhóm s18 và s4
Tuy nhiên trong nhiều trường hợp ta không chỉ quan tâm đến khoảng thời gian
giữa hai lần xuất hiện của mẫu A và B mà còn quan tâm đến thời điểm xuất hiện mẫu
A và sau đó là thời điểm sẽ xuất hiện B, khi đó ta cần các luật thể hiện thông tin “ Nếu

A xuất hiện vào thời gian T1 thì B sẽ xuất hiện vào thời gian T2”. Thông tin dạng này
chính xác hơn và đặc biệt hữu ích đối với ngành giáo dục trong việc xây dựng các
phương hướng nâng cao chất lượng dạy và học nhất là các luật có độ tin cậy cao.
T

Nhiều nhà nghiên cứu mở rộng luật A  B trên các chuỗi thời gian khác nhau
trong cơ sở dữ liệu, tức là các mẫu A, B có thể nằm trên hai chuỗi thời gian khác nhau.
Ví dụ một cơ sở dữ liệu gồm nhiều chuỗi thời ghi nhận nhiệt độ tại nhiều vùng khác
T

nhau, dạng luật A  B được sử dụng để biểu diễn các luật như “ Nếu nhiệt độ tại
vùng A tăng liên tục trong 5 ngày thì nhiệt độ vùng B sẽ tăng sau đó 10 ngày”.


- 36 -

Hướng mở rộng thứ hai là dạng luật có nhiều điều kiện đầu vào, nó có dạng:
“Nếu A1, A2, . . ., Ah xảy ra trong V đơn vị thời gian thì B xảy ra trong khoảng thời
gian T”.
Luật được ký hiệu như sau:
V ,T

A1  A2  . . .  Ah  B
- Nếu xây dựng một cơ sở dữ liệu các sự kiện trong quá trình khám phá tri thức,
các luật thu được sẽ cung cấp các thông tin theo một dạng khác so với ví dụ trên.
Ví dụ: Trong [19], một chuỗi thời gian được chia thành các đoạn và xét các cặp
đoạn liên tiếp nhau. Với mỗi cặp liên tiếp nhau [ti, ti+1] và [ti+1, ti+2], ký hiệu: Length1,
Slope1, Fluct1 lần lượt là chiều dài, hệ số góc và độ biến động (SNR) của đoạn thứ
nhất và Length2, Slope2, Fluct2 lần lượt là chiều dài, hệ số góc và độ biến động (SNR)
của đoạn thứ hai. Một trong các luật thu được là:

Luật 375: “Nếu Fluct2 nằm giữa 0.02964 và 0.04012 và Slope2 nằm giữa
-27.58389 và -0.28037 và Slope1 lớn hơn 0.08746 thì Length2 nằm giữa 1 và 43
ngày”.
- Một hướng khám phá luật khác được xây dựng nhằm trả lời cho câu hỏi như
sau: Nếu có A và sau một khoảng thời gian T thì có điều gì xảy ra?
T

A ?

Cần xác định trước điều kiện A và khoảng thời gian T, ta chỉ cần quan tâm đến các
điều kiện xảy ra sau A một khoảng thời gian T. Các bài toán khám phá các luật một
cách tổng quát đã được nghiên cứu từ rất lâu, được giới thiệu[20][21].



×