Tải bản đầy đủ (.pdf) (27 trang)

Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.18 MB, 27 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

……..….***…………

TRƢƠNG ĐỨC PHƢƠNG

PHÁT HIỆN LUẬT KẾT HỢP VÀ LUẬT CHUỖI MỜ TRONG CƠ
SỞ DỮ LIỆU ĐỊNH LƢỢNG CÓ YẾU TỐ THỜI GIAN

Chuyên ngành: Hệ thống thông tin
Mã số: 9 48 01 04

TĨM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH

Hà Nội – 2021


Cơng trình đƣợc hồn thành tại: Học viện Khoa học và Công nghệ Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Ngƣời hƣớng dẫn khoa học 1: PGS.TS. Đỗ Văn Thành
Ngƣời hƣớng dẫn khoa học 2: PGS.TS. Nguyễn Đức Dũng

Phản biện 1: …
Phản biện 2: …
Phản biện 3: ….


Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp tại Học
viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt
Nam vào hồi … giờ ..‟, ngày … tháng … năm 201….

Có thể tìm hiểu luận án tại:
- Thư viện Học viện Khoa học và Công nghệ
- Thư viện Quốc gia Việt Nam


MỞ ĐẦU
1. Tính cấp thiết của luận án và động lực nghiên cứu (Phương and Thành, 2013)
Phát hiện luật kết hợp và mẫu chuỗi, luật chuỗi nằm trong số những vấn đề quan trọng
trong lĩnh vực khai phá dữ liệu. Đến nay, rất nhiều cơng trình nghiên cứu liên quan đến các
lĩnh vực này. Các luật kết hợp và mẫu chuỗi, luật chuỗi được đề xuất là rất đa dạng, chúng có
thể là các luật, mẫu chuỗi giao dịch/định lượng; có trọng số/khơng trọng số; có yếu tố thời
gian/khơng có yếu tố thời gian;.v.v..
Vấn đề phát hiện luật kết hợp trong các CSDL giao địch được đề xuất lần đầu vào năm
1993 (Agrawal, Imieliński and Swami, 1993) và đến nay đã có nhiều thuật tốn được xây
dựng theo rất nhiều cách tiếp cận khác nhau để phát hiện các luật này trong các CSDL giao
dịch: APRIORI (Agrawal, Srikant and others, 1994), PARTITION (Savasere, Omiecinski and
Navathe, 1995), A-CLOSE (Pasquier et al., 1999a), A-CLOSE+ (Shekofteh, Rahmani and
Dezfuli, 2008), CLOSE (Pasquier et al., 1999b), CLOSET (Pei et al., 2000), CLOSET+
(Wang, Han and Pei, 2003), CHARM (Zaki and Hsiao, 2002), MAFIA (Burdick, Calimlim
and Gehrke, 2001), GENMAX (Gouda and Zaki, 2005), ECLAT (Ogihara et al., 1997), DIC
(Brin et al., 1997), FP-GROWTH (Han et al., 2004), CFPMINE (Qin, Luo and Shi, 2004),
ETARM (Nguyen et al., 2018), LRM (Saravanan and Sree, 2011), PARM (Sumathi and
Kirubakaran, 2012), NEGFIN (Aryabarzan, Minaei-Bidgoli and Teshnehlab, 2018).
Tuy nhiên các CSDL trong thực tế thường có các thuộc tính nhận giá trị số hoặc giá trị
phân loại. Những CSDL như vậy được gọi là CSDL định lượng. Việc phát hiện các luật kết
hợp trong CSDL định lượng thường sử dụng một trong 2 cách đó là: rời rạc hóa (Srikant and

Agrawal, 1996a; Lent, Swami and Widom, 1997; Fukuda et al., 1999; Rastogi and Shim,
2002) và mờ hóa các thuộc tính định lượng (Chan and Au, 1997; Kuok, Fu and Wong, 1998;
T.-P. Hong, Kuo and Chi, 1999; Hong, Kuo and Chi, 2001; Hong, Chiang and Wang, 2002;
Hong, 2003). Bản chất của cách tiếp cận thứ nhất là đưa CSDL định lượng về CSDL giao dịch
bằng cách chuyển các thuộc tính định lượng thành một số mục (item) tương ứng và sau đó áp
dụng một trong các thuật toán phát hiện các luật kết hợp trong các CSDL giao dịch đã biết.
Cách tiếp cận thứ hai nhằm khắc phục nhược điểm của cách tiếp cận thứ nhất, nhưng khi đó
các thuật tốn phát hiện các luật kết hợp trong các CSDL cần được cải tiến và phát triển tiếp.
CSDL có yếu tố thời gian (temporal database) là CSDL có lưu trữ thơng tin về thời điểm
xảy ra của các giao dịch (Tansel et al., 1993) (Aydin and Angryk, 2018). Năm 1998, Lu và các
cộng sự (Lu, Han and Feng, 1998) đã đề xuất luật kết hợp có tính đến độ chênh lệch về thời
điểm (gọi là khoảng cách thời gian) xảy ra giữa các giao dịch trong các CSDL giao dịch có
yếu tố thời gian, luật có dạng →
với a, b là các tập mục dữ liệu. Trong (Lu, Han and
Feng, 1998), hai thuật toán E-Apriori và EH-Apriori được đề xuất để phát hiện các luật dạng
này. Về ý tưởng chính, hai thuật tốn E-Apriori, EH-Apriori dựa trên ý tưởng thuật toán
Apriori và sử dụng cửa sổ trượt đối với khoảng cách thời gian. Để phát hiện các luật kết hợp
có tính đến khoảng cách thời gian trong các CSDL giao dịch có yếu tố thời gian, nhiều thuật
toán tiếp tục được đề xuất như: FITI (Tung et al., 2003), ITARM (Qin and Shi, 2006), ITPMiner (Lee and Wang, 2007), IAR Miner (Nandagopal, Arunachalam and Karthik, 2012),
CITP-Miner (Nguyen et al., 2019), NCITPS-MINER (Nguyen et al., 2020). Việc phát hiện
luật kết hợp có tính đến khoảng cách thời gian mới chỉ dừng lại đối với CSDL giao dịch có
yếu tố thời gian mà chưa được thực hiện đối với các CSDL định lượng có yếu tố thời gian.
Đây là khoảng trống nghiên cứu mà luận án mong muốn giải quyết.
Luật chuỗi, mẫu chuỗi như được hiểu từ trước đến nay còn được gọi là luật chuỗi, mẫu
chuỗi cổ điển để phân biệt với một loại luật chuỗi, mẫu chuỗi mới được đề xuất trong những
năm gần đây. Các mẫu chuỗi cổ điển (được gọi ngắn gọn là mẫu chuỗi) là các chuỗi cổ điển
(nói gọn là chuỗi) phổ biến trong các CSDL chuỗi giao dịch. Các mẫu chuỗi này biểu diễn
mối quan hệ có trình tự thời gian xảy ra giữa các giao dịch trong chuỗi. Phát hiện mẫu chuỗi
1



trong các CSDL chuỗi giao dịch được giới thiệu lần đầu năm 1995 (Agrawal, Srikant and
others, 1995) và đến nay đã nhận được rất nhiều sự quan tâm. Hiện đã có nhiều thuật tốn phát
hiện các mẫu chuỗi trong các CSDL chuỗi giao dịch như GSP (Srikant and Agrawal, 1996b),
SPIRIT (Garofalakis, Rastogi and Shim, 1999), SPADE (Zaki, 2001), SPAM (Ayres et al.,
2002), FAST (Salvemini et al., 2011), CM-SPADE (Fournier-Viger, Gomariz, Campos, et al.,
2014), MAXSP (Fournier-Viger, Wu and Tseng, 2013), GENMINER (Lo, Khoo and Li,
2008), FREESPAN (Han et al., 2000), PREFIXSPAN (Pei et al., 2004), CLOSPAN (Yan,
Han and Afshar, 2003), MSPIC-DBV (Van, Vo and Le, 2018), HSPREC (Bhatta, Ezeife and
Butt, 2019),...
Các CSDL chuỗi giao dịch có yếu tố thời gian là CSDL có lưu trữ thơng tin về thời điểm
xảy ra của các giao dịch. Năm 2000, Yoshida và các cộng sự (Yoshida et al., 2000) đã đề xuất
mẫu chuỗi có tính đến khoảng cách thời gian trong CSDL chuỗi giao dịch có yếu tố thời gian,
〉 với a, b, c là các tập mục, [1−4] và [5−9] là
mẫu chuỗi này có dạng 〈
khoảng thời gian có thể xảy ra lần lượt giữa a, b và giữa b, c. Để phát hiện mẫu chuỗi có tính
đến khoảng cách thời gian, thuật toán Delta-Pattern đã được đề xuất trong (Yoshida et al.,
2000). Phát hiện mẫu chuỗi có tính đến khoảng cách thời gian như trong (Yoshida et al., 2000)
tiếp tục được giải quyết bởi các thuật toán I-Apriori và I-PrefixSpan (Chen, Chiang and Ko,
2003), TAS (Giannotti et al., 2006). Năm 2005, để khắc phục hiện tượng “sắc nét” tại các
điểm giáp danh của các khoảng chia đối với khoảng cách thời gian, Chen và Huang (Chen and
Huang, 2005) đã đề xuất mẫu chuỗi có tính đến khoảng cách thời gian mà ở đó khoảng cách
〉 với Short, Long là các
thời gian là các tập mờ, mẫu chuỗi khi đó có dạng 〈
tập mờ, mỗi tập mờ có hàm thành viên tương ứng. Trong (Chen and Huang, 2005), hai thuật
toán FTI-Apriori và FTI-PrefixSpan được đề xuất để phát hiện các mẫu chuỗi này. Mẫu chuỗi
này tiếp tục được phát hiện bởi thuật toán FP Growth- PrefixSpan (Mukhlash, Yuanda and
Iqbal, 2018).
Khái niệm luật chuỗi chung mới được xuất hiện trong vài năm gần đây (Fournier-Viger et
al., 2010, 2017) do Fournier-Viger và các cộng sự đề xuất. Luật chuỗi chung được phát hiện

trong các CSDL chuỗi giao dịch biểu diễn mối quan hệ của 2 tập mục, ở đó các mục ở các
phần tiền đề (bên trái) và hệ quả (bên phải) của luật không cần sắp thứ tự mà chỉ cần thỏa mãn
điều kiện các mục ở phần tiền đề phải được xảy ra trước các mục ở phần hệ quả. Thuật toán
phát hiện các luật chuỗi chung đầu tiên là CMRules (Fournier-Viger et al., 2010) sau đó tiếp
tục được phát triển bởi Rule Growth (Fournier-Viger, Nkambou and Tseng, 2011), ERMiner
(Fournier-Viger, Gueniche, et al., 2014). Các luật chuỗi chung thực sự là có ích và đã được
ứng dụng trong thực tế (Çelebi et al., 2014). Luật chuỗi chung đến nay mới chỉ được phát hiện
trong các CSDL chuỗi giao dịch mà chưa được áp dụng đối với CSDL chuỗi định lượng có
yếu tố thời gian. Đây là khoảng trống thứ 3 được xác định trong vấn đề nghiên cứu của luận
án.
Luận án này nhằm giải quyết 3 khoảng trống được xác định ở trên. Việc nghiên cứu giải
quyết những vấn đề đó là thực sự cần thiết không chỉ ở phương diện phát triển lý thuyết mà cả
ở phương diện ứng dụng thực tế. Đó là động lực để tác giả luận án thực hiện nghiên cứu đề tài
“Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian”.
Cụ thể luận án đề xuất và giải quyết các vấn đề về phát hiện các luật kết hợp và mẫu chuỗi,
luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa các giao dịch tương ứng trong
các CSDL định lượng có yếu tố thời gian và CSDL chuỗi định lượng có yếu tố thời gian.
Luận án thực sự có đóng góp mới về mặt lý thuyết, cung cấp các giải pháp cho những vấn
đề chưa được giải quyết trong hướng nghiên cứu về phát hiện các luật kết hợp và các mẫu
chuỗi, luật chuỗi chung tương ứng trong CSDL định lượng và CSDL chuỗi định lượng cùng
có yếu tố thời gian.
2. Mục tiêu, đối tƣợng và phạm vi nghiên cứu của luận án
2


2.1. Mục tiêu của luận án
 Phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch
trong các CSDL định lượng có yếu tố thời gian. Các luật tìm được khi đó được gọi là các
luật kết hợp mờ với khoảng cách thời gian mờ.
 Phát hiện các mẫu chuỗi có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong

các CSDL chuỗi định lượng có yếu tố thời gian. Các mẫu chuỗi tìm được khi đó được gọi
là mẫu chuỗi mờ với khoảng cách thời gian mờ.
 Phát hiện các luật chuỗi chung (là luật chuỗi ở dạng tổng quát và chung hơn so với các
luật chuỗi (cổ điển) như được biết từ trước đến nay) có tính đến khoảng cách thời gian xảy
ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian. Các luật tìm
được được gọi là các luật chuỗi chung mờ với khoảng cách thời gian mờ.
2.2. Đối tượng nghiên cứu: là các thuật toán phát hiện các luật kết hợp, và các mẫu
chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian trong các CSDL định lượng và
CSDL chuỗi định lượng cùng có yếu tố thời gian.
2.3. Phạm vi nghiên cứu:
 Luận án nghiên cứu các luật kết hợp, các mẫu chuỗi, các luật chuỗi chung, các CSDL định
lượng và CSDL chuỗi định lượng cùng có yếu tố thời gian.
 Các tập mờ được sử dụng như các tham số cho trước làm đầu vào cho các thuật tốn đề
xuất, luận án khơng tập trung nghiên cứu sâu về lý thuyết mờ.
 Do các luật kết hợp, mẫu chuỗi, luật chuỗi chung được đề xuất trong luận án là mới, nên
các phần thực nghiệm của luận án khơng so sánh kết quả với các thuật tốn khác.
3. Phƣơng pháp nghiên cứu
Luận án đã sử dụng các phương pháp nghiên cứu sau:
 Phương pháp tổng hợp, phân tích: được sử dụng để tổng hợp và phân tích các nghiên cứu
về những vấn đề liên quan để phát hiện các khoảng trống nghiên cứu và xác định vấn đề
nghiên cứu mà luận án cần giải quyết. Phương pháp phân tích cũng thường được sử dụng
khi đề xuất các khái niệm mới liên quan đến vấn đề nghiên cứu của luận án sao cho những
khái niệm mới được phát triển dựa trên nhiều nhất có thể các khái niệm đã có liên quan.
 Phương pháp so sánh: được sử dụng để so sánh các kỹ thuật, thuật toán đã được đề xuất để
giải quyết những vấn đề nghiên cứu liên quan, từ đó hình thành ý tưởng cho thuật tốn mới
cho vấn đề nghiên cứu.
 Phương pháp thiết kế và đánh giá độ phức tạp thuật toán: được sử dụng để thiết kế thuật
toán giải quyết bài toán cụ thể được đặt ra trong luận án và ước lượng độ phức tạp tính tốn
của các thuật tốn này.
 Phương pháp thực nghiệm: Các thuật toán được đề xuất đều được thực nghiệm trên các tập

dữ liệu thực để đánh giá sự đúng đắn và tính khả thi của thuật tốn.
4. Các đóng góp chính của luận án
Những đóng góp chính của luận án là đề xuất và giải quyết các vấn đề sau:
 Đề xuất vấn đề và thuật toán phát hiện luật kết hợp có tính đến khoảng cách thời gian xảy
ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian, ở đó các thuộc tính
định lượng và khoảng cách thời gian xảy ra giữa các giao dịch được chuyển thành các
thuộc tính mờ và khoảng cách thời gian mờ [CT4].
 Đề xuất vấn đề và thuật toán phát hiện mẫu chuỗi (cổ điển) có tính đến khoảng cách thời
gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian, ở đó
các thuộc tính định lượng và khoảng cách thời gian xảy ra giữa các giao dịch cũng được
chuyển thành các thuộc tính mờ và khoảng cách thời gian mờ [CT5].
 Đề xuất vấn đề và thuật tốn phát hiện luật chuỗi chung có tính đến khoảng cách thời gian
xảy ra giữa các giao địch trong các CSDL chuỗi định lượng có yếu tố thời gian, ở đó các
3


5.







thuộc tính định lượng và khoảng cách thời gian cũng được chuyển thành các thuộc tính mờ
và khoảng cách thời gian mờ [CT9].
Bố cục luận án
Luận án gồm phần mở đầu, 04 chương nội dung và phần kết luận:
Phần mở đầu: Trình bày sự cần thiết và động lực nghiên cứu của đề tài; mục tiêu, đối
tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; những đóng góp chính và cấu trúc

của luận án.
Chương 1: Tổng quan về luật kết hợp và mẫu chuỗi, luật chuỗi chung.
Chương 2: Phát hiện luật kết hợp có tính đến khoảng cách thời gian trong các CSDL định
lượng có yếu tố thời gian.
Chương 3: Phát hiện mẫu chuỗi có tính đến khoảng cách thời gian trong các CSDL chuỗi
định lượng có yếu tố thời gian.
Chương 4: Phát hiện luật chuỗi chung có tính đến khoảng cách thời gian trong các CSDL
chuỗi định lượng có yếu tố thời gian.
Phần kết luận: Trình bày một số kết luận về ý nghĩa, đóng góp của luận án và định hướng
nghiên cứu trong tương lai.

CHƯƠNG 1.

TỔNG QUAN VỀ LUẬT KẾT HỢP VÀ MẪU CHUỖI, LUẬT CHUỖI CHUNG

Chương này trình bày tổng quan những vấn đề liên quan đến phát hiện các luật kết hợp và
các mẫu chuỗi, luật chuỗi chung trong các CSDL giao dịch/định lượng khơng có hoặc có yếu
tố thời gian. Chương này cũng chỉ ra các khoảng trống chưa được giải quyết để từ đó xác định
vấn đề nghiên cứu của luận án.
1.1. Luật kết hợp
1.1.1. Phát hiện luật kết hợp trong các CSDL giao dịch
Định nghĩa 1.1
CSDL giao dịch (Agrawal, Srikant and others, 1994): Giả sử I =
{
} là tập các mục, D = {
} là tập các giao dịch, (1jm) là tập các mục
thỏa mãn  I,
biểu diễn mục xuất hiện trong giao dịch (hay tương ứng nhận
giá trị 1 nếu xuất hiện trong giao dịch này), nói cách. Khi đó, D được gọi là CSDL giao dịch.
Định nghĩa 1.2

Luật kết hợp (Agrawal, Imieliński and Swami, 1993): Giả sử X là tập
mục, giao dịch T được gọi là chứa X khi và chỉ khi XT. Luật kết hợp là luật có dạng X  Y
với XI, YI và XY=. Trong đó X được gọi là tiền đề, Y là hệ quả của luật.
Định nghĩa 1.3
Độ hỗ trợ và độ tin cậy của luật kết hợp (Agrawal, Imieliński and Swami,
1993)
Độ hỗ trợ (support) của tập mục X là tỉ lệ số giao dịch trong D chứa X, kí hiệu là sup(X)
|{ |

}|
| |

Độ hỗ trợ của luật

(1.1)

là tỉ lệ số giao dịch trong D chứa XY, kí hiệu là
(1.2)

| |
Độ tin cậy (confidence) của luật
hiệu là

là tỉ lệ số giao dịch trong D chứa X cũng chứa Y, kí

(1.3)

4



Việc phát hiện các luật kết hợp thường được chia làm 2 giai đoạn (Agrawal, Imieliński
and Swami, 1993; Kotsiantis and Kanellopoulos, 2006):
 Giai đoạn 1: Tìm tất cả các tập phổ biến trong CSDL, ở đó các tập phổ biến là các tập có
độ hỗ trợ khơng nhỏ hơn độ hỗ trợ cực tiểu (hay ngưỡng hỗ trợ) cho trước;
 Giai đoạn 2: Sinh ra các luật kết hợp có độ tin cậy không nhỏ hơn độ tin cậy cực tiểu (hay
ngưỡng tin cậy) cho trước từ các tập phổ biến đã tìm được ở giai đoạn 1.
1.1.2. Phát hiện luật kết hợp trong các CSDL định lượng
} là tập
Định nghĩa 1.4
CSDL định lượng (Chan and Au, 1997): Giả sử I = {
} là tập các giao dịch, (1jm) là tập các thuộc tính thỏa
các thuộc tính, D = {
mãn  I, các giá trị
tương ứng với thuộc tính (1kn) trong giao dịch (1jm)
nhận giá trị là số hoặc phân loại. Khi đó, D được gọi là CSDL định lượng.
1.1.3. Phát hiện luật kết hợp tính đến khoảng cách thời gian xảy ra của các giao dịch trong
các CSDL có yếu tố thời gian
Định nghĩa 1.5
CSDL có yếu tố thời gian là CSDL (giao dịch hoặc định lượng) ở đó có
thuộc tính thời gian nhận giá trị là thời điểm (hay timestamp) xảy ra của mỗi giao dịch.
Bảng 1.1. Một số nghiên cứu về phát hiện luật kết hợp có tính đến khoảng cách thời gian
Thuật tốn

Tập dữ liệu

Tập phổ biến/luật

EH-Apriori (Lu, Han and Feng, CSDL giao
1998),
dịch có yếu

FITI (Tung et al., 2003),
tố thời gian
ITARM (Qin and Shi, 2006),
ITP-Miner (Lee and Wang, 2007),
IAR
Miner
(Nandagopal,
Arunachalam and Karthik, 2012),
NCITPS-Miner (Nguyen et al.,
2020)



Ý nghĩa

Nếu mặt hàng a được
mua thì mặt hàng b
cũng sẽ được mua sau
2 ngày tiếp theo

1.2. Mẫu chuỗi
1.2.1. Phát hiện mẫu chuỗi trong các CSDL chuỗi giao dịch
Định nghĩa 1.6
CSDL chuỗi giao dịch (Agrawal, Srikant and others, 1995): Giả sử I
} là tập các mục. Một chuỗi s =〈
〉 là danh sách có thứ tự các tập mục
={
với  I (1km).
Một CSDL chuỗi giao dịch SD là tập các chuỗi giao dịch
}.

SD = {
Định nghĩa 1.7
Độ dài chuỗi (Agrawal, Srikant and others, 1995): Độ dài của chuỗi

〉 là tổng số các tập mục của chuỗi. Một chuỗi có độ dài k được gọi là kchuỗi.
Định nghĩa 1.8
Chuỗi con (Agrawal, Srikant and others, 1995): Chuỗi

〉 được gọi là chuỗi con của chuỗi

〉 khi và chỉ khi tồn
tại k số nguyên
sao cho 


và được kí
hiệu là  . Nói cách khác, chuỗi
là chuỗi con của chuỗi
nếu
có thể nhận được từ
sau khi bỏ đi một số giao dịch hoặc một số mục trong các giao dịch của . Khi đó ta có thể
gọi là chuỗi chứa chuỗi .
Định nghĩa 1.9
Độ hỗ trợ của chuỗi (Agrawal, Srikant and others, 1995): Độ hỗ trợ của
chuỗi
trong CSDL chuỗi SDB, kí hiệu là sup( ), là tỷ số của số chuỗi trong SDB chứa
và tổng số chuỗi trong CSDL này. Độ hỗ trợ của chuỗi được tính theo công thức:
|{ | 

}|/|SDB|


5

(1.4)


Chuỗi được gọi là phổ biến hay là mẫu chuỗi khi và chỉ khi độ hỗ trợ của chuỗi s không
nhỏ hơn độ hộ trợ cực tiểu min_sup cho trước, tức là sup( )  min_sup.
1.2.2. Phát hiện mẫu chuỗi trong các CSDL chuỗi định lượng
} là tập các thuộc tính.
Định nghĩa 1.10
CSDL chuỗi định lượng: Giả sử I = {
〉 là danh sách có thứ tự các tập thuộc tính
Một chuỗi định lượng s = 〈
 I
(1km) và các thuộc tính a
nhận giá trị là số hoặc phân loại.
Một
CSDL
chuỗi
định
lượng

tập
các
chuỗi
định
lượng
{
}.

1.2.3. Phát hiện mẫu chuỗi tính đến khoảng cách thời gian xảy ra của các giao dịch trong
các CSDL chuỗi có yếu tố thời gian
Định nghĩa 1.11
CSDL chuỗi giao dịch/định lượng có yếu tố thời gian (Guyet, 2020): là
CSDL chuỗi giao dịch/định lượng ở đó có thêm thuộc tính thời gian nhận giá trị là thời điểm
xảy ra của mọi giao dịch trong các chuỗi giao dịch.

〉 , ở đây
} là tập các mục. Một chuỗi
Giả sử I = {
là thời điểm xuất hiện của mục
I (1
 n) trong chuỗi.

Chuỗi giao dịch s cũng có thể được viết dưới dạng s = 〈
(1≤ j≤ k) và
tương ứng là thời điểm xảy ra của các giao dịch
mua các mặt hàng trong
Một CSDL chuỗi có yếu tố thời gian là tập tất cả các chuỗi có yếu tố thời gian
{
}.
Trong CSDL trên, nếu các mục trong I được xem là các thuộc tính nhận giá trị 1 hoặc 0
tương ứng với mục đó xuất hiện hay khơng xuất hiện thì CSDL chuỗi giao dịch có yếu tố thời
gian trở thành CSDL chuỗi nhị phân có yếu tố thời gian.
Nếu các thuộc tính trong I nhận các giá trị số hoặc giá trị phân loại thì nhận được một
CSDL được gọi là CSDL chuỗi định lượng có yếu tố thời gian.
Bảng 1.2. Một số nghiên cứu về phát hiện mẫu chuỗi có tính đến khoảng cách thời gian
Thuật toán

Tập dữ liệu


TAS (Giannotti et CSDL
chuỗi
al., 2006)
giao dịch có yếu
tố thời gian
Delta-Pattern
(Yoshida et
2000)

CSDL
chuỗi
al., giao dịch có yếu
tố thời gian

I-Apriori algorithm,
I-PrefixSpan (Chen,
Chiang and Ko,
2003)
FTI-Apriori, FTIPrefixSpan (Chen
and Huang, 2005)
FP-GrowthPrefixSpan
(Mukhlash, Yuanda
and Iqbal, 2018)
SPFTI
(Chang,
Chueh and Lin,
2009),

CSDL

chuỗi
giao dịch có yếu
tố thời gian

Ý nghĩa

Mẫu





Nếu một khách hàng mua a và sau đó
mua b trong thời gian 3 ngày thì
khách hàng đó sẽ mua c sau 5 ngày
tiếp theo.

〉 Nếu một khách hàng mua a và sau
đó mua b trong thời gian [0, 3 ngày]
thì khách hàng đó sẽ mua c trong
vịng [0, 5 ngày] tiếp theo.
Nếu một khách hàng mua a và sau đó


(khoảng cách thời mua b sau thời gian I1 thì khách hàng
đó sẽ mua c sau thời gian I2.
gian là giá trị rõ)

CSDL
chuỗi 〈

〉 Nếu một khách hàng mua a và mua b
giao dịch có yếu (Khoảng cách thời sau thời gian Short thì khách hàng đó
tố thời gian
sẽ mua c sau thời gian Long.
gian là giá trị mờ)

CSDL
chuỗi 〈
〉 Nếu một khách hàng mua a và mua b
giao dịch có yếu (Khoảng cách thời sau thời gian
thì khách hàng đó
tố thời gian
gian là giá trị mờ)
sẽ mua c sau thời gian

6


ISPFTI
(Chang,
Chueh and Luo,
2012)

1.3. Luật chuỗi chung
1.3.1. Khái niệm luật chuỗi chung
} là
Định nghĩa 1.12
Luật chuỗi chung (Fournier-Viger et al., 2012): Giả sử I = {
tập các mục, SD là CSDL chuỗi giao dịch, một luật chuỗi chung có dạng X⟹Y, trong đó X, Y
 I thỏa mãn X  Y=, X, Y ≠  và các mục trong Y phải xuất hiện sau các mục trong X.

1.3.2. Phát hiện luật chuỗi chung
Luật chuỗi chung mới được xuất hiện trong vài năm gần đây (Fournier-Viger et al., 2010).
Các thuật toán để phát hiện các luật chuỗi chung trong các CSDL chuỗi chưa nhiều. Bảng 1.3
sau đây giới thiệu các thuật toán như vậy.
Bảng 1.3. Một số nghiên cứu về phát hiện luật chuỗi chung
Thuật tốn
Dữ liệu
Mẫu/Luật
Mơ tả
CMRules (Fournier-Viger CSDL
chuỗi Luật chuỗi chung: Nếu một khách hàng
et al., 2010),
giao dịch
mua a và mua b thì
{a, b} ⟹ {c}
Rule Growth (Fournierkhách hàng đó sẽ mua
Viger,
Nkambou
and
c sau đó
Tseng, 2011),
ERMiner (Fournier-Viger,
Gueniche, et al., 2014)
Định nghĩa 1.13
Các lớp tương đương trái/phải (Fournier-Viger, Gueniche, et al., 2014):
Cho CSDL chuỗi giao dịch, I là tập các mục trong CSDL này. Một lớp tương đương trái được
kí hiệu là
được xác định là
= {W ⟹ Y | Y I |Y| = i} trong đó W I và i là số
tự nhiên. Tương tự, một lớp tương đương phải kí hiệu là

được xác định là
= {X
⟹ W | X I |X| = i} trong đó W I và i là số nguyên.
Định nghĩa 1.14
Các phép hợp nhất trái/phải (Fournier-Viger, Gueniche, et al., 2014): Giả
sử
là lớp tương đương trái và hai luật r = W ⟹ X và s = W ⟹ Y đều thuộc

|  |
| – |. Một phép hợp trái của r và s là quá trình kết hợp r, s để nhận được luật
⟹  . Tương tự, gọi
là lớp tương đương phải và hai luật r =

và s =

thỏa mãn r, s
và |  |
| – |. Một phép hợp phải của r và s là quá
trình kết hợp r, s để được  ⟹
Kết luận Chương 1
Chương 1 đã trình bày một cách tổng quan, tóm tắt những vấn đề liên quan đến phát hiện
các luật kết hợp và mẫu chuỗi, luật chuỗi chung tương ứng trong các CSDL (giao dịch, định
lượng) và CSDL chuỗi (giao dịch, định lượng) có yếu tố thời gian.
Luận án sẽ tập trung nghiên cứu đề xuất và giải pháp giải quyết triệt để 3 vấn đề sau đây:
 Vấn đề 1: Phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa các
giao dịch trong các CSDL định lượng có yếu tố thời gian.
 Vấn đề 2: Phát hiện các mẫu chuỗi có tính đến khoảng cách thời gian xảy ra giữa các giao
dịch trong các CSDL chuỗi định lượng có yếu tố thời gian.
 Vấn đề 3: Phát hiện các luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa
các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian.

Ba chương nội dung tiếp theo trong luận án sẽ trình bày cụ thể giải pháp tương ứng cho 3
vấn đề nghiên cứu đó.

7


CHƯƠNG 2. PHÁT HIỆN LUẬT KẾT HỢP CĨ TÍNH ĐẾN KHOẢNG CÁCH THỜI
GIAN TRONG CÁC CSDL ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN

Trong chương 1, luận án đã chỉ ra khoảng trống cần được nghiên cứu về phát hiện các luật
kết hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL định
lượng có yếu tố thời gian. Chương này, luận án sẽ trình bày giải pháp để giải quyết vấn đề
nghiên cứu đó. Khi đó, một dạng luật kết hợp mới được gọi là luật kết hợp mờ với khoảng
cách thời gian mờ sẽ được phát hiện. Kết quả nghiên cứu của Chương này đã được đăng trên
tạp chí Indian Journal of Science and Technology [CT4]. Chương này chủ yếu tập trung trình
bày vấn đề phát hiện luật kết hợp mờ với khoảng cách thời gian mờ trong các CSDL định
lượng có yếu tố thời gian.
2.1. Giới thiệu
Phát hiện luật kết hợp là hướng nghiên cứu và ứng dụng quan trọng trong lĩnh vực khai
phá dữ liệu. Phát hiện luật kết hợp từ CSDL giao dịch đã được Rakesh Agrawal cùng cộng sự
đề xuất lần đầu năm 1993 (Agrawal, Imieliński and Swami, 1993) và đến nay đã nhận được rất
nhiều kết quả nghiên cứu (Agrawal, Srikant and others, 1994; Savasere, Omiecinski and
Navathe, 1995; Zaki and Hsiao, 2002; Sumathi and Kirubakaran, 2012; Aryabarzan, MinaeiBidgoli and Teshnehlab, 2018).
Trong quá trình nghiên cứu phát hiện luật kết hợp người ta còn quan tâm đến khoảng cách
thời gian xảy ra giữa các giao dịch (Lu, Han and Feng, 1998; Tung et al., 2003; Qin and Shi,
2006; Lee and Wang, 2007; Nandagopal, Arunachalam and Karthik, 2012) và khoảng cách
thời gian giữa các giao dịch được mờ hóa trong nghiên cứu (Chen and Huang, 2005). Ý tưởng
chính của nghiên cứu (Chen and Huang, 2005) là mờ hóa khoảng cách thời gian rồi sau đó
〉, trong đó a, b, c là các mục, Short, Long
phát hiện các mẫu chuỗi dạng 〈

là các khái niệm mờ liên tương ứng với khoảng cách thời gian; đề xuất hai thuật toán FTIApriori và FTI-Prefix Span cho việc phát hiện các mẫu chuỗi với khoảng cách thời gian mờ.
Tuy nhiên nghiên cứu (Chen and Huang, 2005) chỉ đề cập đến việc mẫu chuỗi với khoảng
cách thời gian đối với CSDL chuỗi giao dịch mà các thuộc tính ở đó khơng phải là thuộc tính
định lượng mà không áp dụng được đối với CSDL định lượng, tức là chỉ có thể phát hiện các
luật có dạng “Nếu một khách hàng mua a và mua b sau thời gian Short thì khách hàng đó sẽ
mua c sau thời gian Long”.
Nghiên cứu [CT2] đã đề xuất và giải quyết vấn đề phát hiện luật kết hợp với khoảng cách
thời gian mờ trong CSDL giao dịch có yếu tố thời gian. Luật phát hiện dạng “Nếu mặt hàng a
được mua hơm nay thì mặt hàng b sẽ được mua trong Ngắn ngày kế tiếp”. Thuật toán FTITS
đã được đề xuất để phát hiện luật trong [CT2]. Thuật toán FTITS dựa trên ý tưởng thuật toán
FTI-Apriori (Chen and Huang, 2005) để phát hiện các chuỗi với thời gian mờ phổ biến làm cơ
sở để tìm luật đã đề xuất.
Mục đích của chương này phát hiện luật dạng tổng quát đó là luật kết hợp mờ với khoảng
cách thời gian mờ trong CSDL định lượng có yếu tố thời gian.
2.2. Một số khái niệm cơ bản
} là tập các thuộc tính, D = {
Định nghĩa 2.1
Gọi I={
}, trong đó
(1jp) là tập các thuộc tính thỏa mãn  I tại thời điểm ( ≥0),
là giá trị định lượng
của tại thời điểm (1≤k≤n). Khi đó, D được gọi là CSDL định lượng có yếu tố thời gian.
Định nghĩa 2.2
Cho T là tập các giao dịch, I là tập các thuộc tính và
{
} là tập các tập mờ gắn với các thuộc tính trong I,
{
} là các tập mờ gắn với thuộc tính (k=1, .., n), trong đó hk là số
lượng tập mờ của thuộc tính ,


là tập mờ thứ j của thuộc tính

8

(1≤ j≤

).


DF = (T, I, FE) được gọi là CSDL mờ có yếu tố thời. Mỗi tập mờ
đều có hàm thành
viên tương ứng : X[0,1]. Như vậy, DF là CSDL mờ có yếu tố thời gian dựa trên CSDL
định lượng có yếu tố thời gian D bằng cách mờ hóa các thuộc tính định lượng.
Định nghĩa 2.3
: Một chuỗi giao dịch mờ P được biểu diễn dạng

〉 trong đó
là một thuộc tính mờ và là thời điểm
xảy ra
(1≤j≤n
với 2≤j≤n), giá trị mờ của
tại thời điểm là
. Trong chuỗi giao
dịch mờ P, nếu các mục xảy ra cùng thời điểm thì các thuộc tính mờ sẽ được sắp xếp theo trình
tự bảng chữ cái. Giá trị khoảng cách thời gian giữa hai phần tử liên tiếp trong chuỗi được xác
định là
(1≤j≤n-1).
Định nghĩa 2.4
(mở rộng từ (Chen and Huang, 2005)) Gọi FE là tập các tập mờ gắn với
các thuộc tính định lượng trong CSDL định lượng có yếu tố thời gian và LT={ | j=1,2,...,p}

là tập các tập mờ ứng với khoảng cách thời gian. Chuỗi β =
là một chuỗi mờ với khoảng cách thời gian mờ nếu
FE và
LT với 1≤j≤r-1 và
FE.
Chuỗi β khi đó có độ dài r.
Định nghĩa 2.5
(mở rộng từ (Chen and Huang, 2005)) Một chuỗi mờ với khoảng cách
thời gian mờ  =
là chuỗi con của chuỗi mờ với khoảng
cách thời gian mờ β =
khi và chỉ khi tồn tại số nguyên w
thỏa mãn
với i|1≤i≤k-1 và
. Trong trường hợp k=1 thì
.
Định nghĩa 2.6
(mở rộng từ (Chen and Huang, 2005)) Cho hai chuỗi mờ với khoảng cách
thời gian mờ 1 =
và 2 =
. Khi đó,
phép kết hợp 2 chuỗi 1 và 2 tạo thành chuỗi  =
.
Định nghĩa 2.7
đó
X,
Y

Một luật kết hợp mờ với khoảng cách thời gian mờ có dạng
, trong


chuỗi
mờ
với
khoảng
cách
thời
gian
mờ,


LT. Ví dụ:
mờ.

Gọi P = 〈

là một luật kết hợp mờ với khoảng cách thời gian

〉 là một chuỗi giao dịch mờ và α =
là một chuỗi mờ với khoảng cách thời gian mờ,
với
tại thời điểm . Khi đó, độ hỗ trợ của P đối với α được định nghĩa như

1≤i≤r là giá trị của
sau:
{

{

}


{

}

(2.1)

Cho CSDL mờ có yếu tố thời gian DF với N giao dịch, ta có các định nghĩa sau:
Độ hỗ trợ của α trong DF được xác định là:

Độ tin cậy của luật
(
Độ hỗ trợ của luật

(2.2)

trong DF được xác định là:
)

(2.3)
được xác định là:

9


(

)

(2.4)


Một chuỗi mờ với khoảng cách thời gian mờ được gọi là phổ biến khi có độ hỗ trợ khơng
nhỏ hơn ngưỡng cực tiểu min_sup cho trước.
Từ Định nghĩa 2.5 và Error! Reference source not found.ta thu được các tính chất sau:
Tính chất 1: Chuỗi con của chuỗi mờ với khoảng cách thời gian mờ phổ biến thì cũng
phổ biến.
Tính chất 2: Mọi chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k đều là kết
quả của phép kết hợp hai chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k-1.
2.3. Thuật toán phát hiện luật kết hợp mờ với khoảng cách thời gian mờ
2.3.1. Bài tốn đặt ra
Cho trước CSDL định lượng có yếu tố thời gian D, độ hỗ trợ cực tiểu và độ tin cậy cực
tiểu tương ứng là min_sup và min_conf, tập mờ về khoảng cách thời gian LT cùng các hàm
thành viên tương ứng, tập các tập mờ FE của các thuộc tính định lượng trong D cùng các hàm
thành viên tương ứng.
Bài toán đặt ra: Phát hiện các luật kết hợp mờ với khoảng cách thời gian mờ có độ hỗ trợ
khơng nhỏ hơn độ hỗ trợ cực tiểu min_sup và độ tin cậy không nhỏ hơn độ tin cậy cực tiểu
min_conf.
2.3.2. Ý tưởng thuật toán
Đầu tiên, chuyển đổi CSDL định lượng có yếu tố thời gian D thành CSDL mờ có yếu tố
thời gian DF dựa vào các tập mờ cùng các hàm thành viên gắn với thuộc tính của D. Tiếp
theo, tìm tất cả các chuỗi mờ với khoảng cách thời gian mờ phổ biến. Quá trình tìm các chuỗi
mờ với khoảng cách thời gian mờ phổ biến được phát triển dựa theo thuật toán Apriori: lặp lại
2 bước trong quá trình sinh chuỗi mờ với khoảng cách thời gian mờ phổ biến cho đến khi
không thể sinh được. Ở bước 1, các chuỗi ứng cử viên độ dài k, kí hiệu là
được sinh ra từ
tập các chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k-1, kí hiệu là
. Bước 2,
các chuỗi ứng cử viên trong
có độ hỗ trợ khơng nhỏ hơn min_sup được thêm vào tập các
chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k, . Quá trình này dừng lại cho đến

khi =.
Tiếp theo, các luật kết hợp mờ với khoảng cách thời gian mờ được sinh ra từ các chuỗi mờ
với khoảng cách thời gian mờ phổ biến có độ dài lớn hơn 1. Các luật này được tính độ tin cậy
theo cơng thức Error! Reference source not found.. Kết quả trả lại của thuật tốn là tất cả
các luật có độ tin cậy thỏa mãn độ tin cậy cực tiểu min_conf.
2.3.3. Thuật toán FTQ
Thuật tốn FTQ được mơ tả như trong Error! Reference source not found.:
Thuật toán 2.1.

Thuật toán FTQ

Input: - CSDL định lượng có yếu tố thời gian D;
- Độ hỗ trợ cực tiểu và độ tin cậy cực tiểu min_sup, min_conf;
- Tập các tập mờ FE và các hàm thành viên tương ứng với các thuộc tính trong
D;
- Tập LT và các hàm thành viên tương ứng về khoảng cách thời gian.
Output: Tất cả các luật kết hợp mờ với khoảng cách thời gian mờ có độ hỗ trợ khơng nhỏ hơn
min_sup và độ tin cậy không nhỏ hơn min_conf.
FTQ{
1. Chuyển D thành CSDL mờ có yếu tố thời gian DF
10


2. ={các thuộc tính trong DF}
3. ={α
|Supp(α)≥min_sup}
4. =;
5. for each
do
6.

for each
do
7.
for each ltd LT do {
8.
α= *ltd* ;
9.
add α to ;
10.
}
11. for each α
do
12.
α.count=Supp(α);
13. ={α
|α.count ≥min_sup}
14. for (k>2;
≠;k++){
15.
=fuzzy_apriori_gen(
);
16.
for each α
do
17.
α.count=Supp(α);
18.
={α
|α.count ≥min_sup}
19. }

20. return Generating_rules(  );
21.}
2.3.4. Tính đúng đắn và tính đầy đủ của thuật tốn
Định lý 2.1. Thuật tốn FTQ là đúng đắn và đầy đủ.
2.3.5. Trường hợp suy biến của luật kết hợp mờ với khoảng cách thời gian mờ
Định

2.2:
Thuật
tốn
FTQ

thể
tìm
được

2.4. Thử nghiệm thuật tốn
2.4.1. Dữ liệu thử nghiệm
Bảng 2.1. Dữ liệu thử nghiệm ISTANBUL STOCK EXCHANGE

các

luật

CSDL
Số thuộc tính
Số giao dịch
ISTANBUL STOCK EXCHANGE
8
537

VNINDEX
11
1161
2.4.2. Kết quả thử nghiệm
a) Thử nghiệm với CSDL ISTANBUL STOCK EXCHANGE
Hình 2.1 biểu diễn mối quan hệ giữa số lượng luật tìm được từ thuật tốn FTQ và độ tin
cậy cực tiểu min_conf trong các trường hợp khác nhau về độ hỗ trợ cực tiểu min_sup

11


Hình 2.1. Mối quan hệ giữa số lượng luật tìm được từ thuật toán FTQ và độ tin cậy cực tiểu
min_conf trong các trường hợp khác nhau về độ hỗ trợ cực tiểu min_sup
Hình 2.2 và Hình 2.3 biểu diễn kết quả so sánh số luật và thời gian thực hiện của phương
pháp mờ hóa khoảng cách thời gian (A) với phương pháp chia khoảng khoảng cách thời gian
(B). Khoảng thời gian trong phương pháp chia khoảng (B) được chia đều thành 3 khoảng, các
giá trị của khoảng cách thời gian nhận giá trị 1 nếu thuộc khoảng, ngược lại nhận giá trị 0.

Hình 2.2. So sánh số luật của phương pháp mờ hóa (A) và phương pháp chia khoảng (B) đối
với khoảng cách thời gian khi thực hiện thuật tốn FTQ

Hình 2.3. So sánh thời gian chạy của phương pháp mờ hóa (A) và phương pháp chia khoảng
(B) đối với khoảng cách thời gian khi thực hiện thuật toán FTQ
Kết luận Chƣơng 2
Trong chương này luận án đã trình bày giải pháp phát hiện các luật kết hợp có tính đến
khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời
gian bằng cách đề xuất thuật toán phát hiện luật kết hợp mờ với khoảng cách thời gian mờ
trong các CSDL như vậy. Thuật tốn đó được gọi là FTQ. Theo thuật tốn này, các thuộc tính
định lượng và khoảng cách thời gian xảy ra giữa các giao dịch đều được mờ hóa . Thuật tốn
FTQ được phát triển từ ý tưởng thuật toán Apriori (Agrawal, Srikant and others, 1994), một

chuỗi phổ biến độ dài k nhận được bằng cách liên kết hai chuỗi phổ biến độ dài k-1. Chương
12


này cũng trình bày kết quả thử nghiệm thuật tốn FTQ trên các CSDL thực, so sánh với
phương pháp chia khoảng tương ứng và phân tích ý nghĩa của luật thu được.
Với việc lựa chọn các hàm thành viên một cách thích hợp, thuật tốn FTQ trở thành thuật
tốn phát hiện luật kết hợp hoặc luật kết hợp mờ với khoảng cách thời gian là những số chính
xác tương ứng trong các CSDL giao dịch hoặc CSDL định lượng cùng có yếu tố thời gian.
Hơn nữa khi CSDL định lượng có yếu tố thời gian suy biến thành CSDL giao dịch có yếu tố
thời gian, khi đó mỗi thuộc tính được mờ hóa thành 1 tập mờ tương ứng và các hàm thành viên
chỉ nhận các giá trị là 1 hoặc 0, thuật toán này trở thành thuật toán phát hiện luật kết hợp với
khoảng cách thời gian mờ.
CHƯƠNG 3. PHÁT HIỆN MẪU CHUỖI CĨ TÍNH ĐẾN KHOẢNG CÁCH THỜI
GIAN TRONG CÁC CSDL CHUỖI ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN

Trong chương 1, luận án đã xác định vấn đề cần được nghiên cứu về phát hiện mẫu chuỗi
cố điển trong các CSDL chuỗi định lượng có yếu tố thời gian. Ở chương này, luận án sẽ trình
bày giải pháp giải quyết vấn đề cần nghiên cứu đó. Cụ thể trong chương này, luận án sẽ trình
bày thuật tốn phát hiện mẫu chuỗi có tính đến khoảng cách thời gian xảy ra của các giao dịch
trong các CSDL chuỗi định lượng có yếu tố thời gian. Các mẫu chuỗi tìm được khi đó được
gọi là mẫu chuỗi mờ với khoảng cách thời gian mờ.
Vấn đề phát hiện mẫu chuỗi có tính đến khoảng cách thời gian xảy ra của các giao dịch
trong các CSDL chuỗi định lượng có yếu tố thời gian đã được giải quyết theo cách tiếp cận từ
đơn giản đến phức tạp. Cách tiếp cận bắt đầu bằng việc nghiên cứu giải quyết bài toán phát
hiện mẫu chuỗi với khoảng cách thời gian xác định [CT1] trong các CSDL giao dịch có yếu tố
thời gian, tiếp theo là giải quyết bài toán phát hiện mẫu chuỗi mờ với khoảng cách thời gian
xác định [CT6] trong các CSDL chuỗi định lượng có yếu tố thời gian và cuối cùng là phát hiện
mẫu chuỗi cổ điền mờ với khoảng cách thời gian mờ trong các CSDL như vậy và kết quả
nghiên cứu giải quyết bài toán này đã được đăng trên tạp chí Cybernetics and Information

Technologies [CT5]. Chương này tập trung trình bày kết quả nghiên cứu của bài báo [CT5].
3.1. Giới thiệu
Phát hiện mẫu chuỗi là hướng nghiên cứu và ứng dụng quan trọng trong lĩnh vực khai phá
dữ liệu. Phát hiện mẫu chuỗi từ CSDL chuỗi giao dịch được giới thiệu lần đầu vào năm 1995
(Agrawal, Srikant and others, 1995).
Vấn đề phát hiện các mẫu chuỗi với khoảng cách thời gian xảy ra giữa các mục của cùng
một đối tượng trong các CSDL chuỗi giao dịch đã được nghiên cứu trong (Yoshida et al.,
2000; Chen, Chiang and Ko, 2003). Trong (Chen, Chiang and Ko, 2003), các mẫu chuỗi có
〉, trong đó a, b, c là mục,
dạng 〈
là các phạm vi thời gian của khoảng cách thời
gian giữa các giao dịch trong chuỗi và được gọi là mẫu chuỗi với khoảng cách thời gian.
Nhằm khắc phục hiện tượng “sắc nét” của việc chia khoảng thời gian (time range) tại các điểm
gần ranh giới các khoảng chia như trong (Chen, Chiang and Ko, 2003), nghiên cứu (Chen and
Huang, 2005) đã đề xuất và giải quyết vấn đề phát hiện các mẫu chuỗi với khoảng cách thời
gian mờ từ các CSDL chuỗi giao dịch dựa trên việc chuyển khoảng cách thời gian thành các
tập mờ. Các mẫu chuỗi trong nghiên cứu (Chen and Huang, 2005) đã biểu diễn mối quan hệ
〉, trong đó a, b, c là các mục cịn Short, Long là các
giữa các sự kiện dạng 〈
tập mờ gắn với khoảng cách thời gian giữa các giao dịch trong chuỗi.
Mục đích của chương này đề xuất và phát hiện mẫu chuỗi dạng tổng quát đó là mẫu chuỗi
mờ với khoảng thời gian mờ. Đây là vấn đề thứ 2 đặt ra của luận án. Các mẫu chuỗi này có
〉, trong đó
dạng 〈
là các tập mờ gắn với các thuộc
tính a, b, c và Short, Long là các tập mờ của khoảng cách thời gian. Từ các mẫu chuỗi này, ta
có thể phát hiện các luật dạng “Nếu một khách hàng mua mặt hàng a với số lượng Ít và mặt
hàng b với lượng Nhiều sau thời gian Short thì khách hàng đó sẽ mua mặt hàng c một lượng
TB với thời gian Long”. Ý tưởng chính của thuật toán FSPFTIM được đề xuất trong chương
13



này là sử dụng lý thuyết mờ để chuyển đổi các thuộc tính định lượng, khoảng cách thời gian
thành các khái niệm mờ; tìm chuỗi có độ dài k bằng cách liên kết 2 chuỗi phổ biến có độ dài k1 theo cách giống như thuật toán Apriori (Agrawal, Srikant and others, 1994; Chen and
Huang, 2005) , từ đó tìm ra tất cả các mẫu chuỗi mờ với khoảng cách thời gian mờ.
3.2. Một số khái niệm cơ bản
}
Định nghĩa 3.1 Gọi
I={

tập
các
thuộc
tính,
s
=

〉 là một chuỗi định lượng có yếu tố thời gian, trong đó
I là thuộc tính (1kn),
( ≥0) là thời điểm tương ứng với
xảy ra,
với
2kn và ( ) = ,
nhận giá trị số hoặc phân loại. Một CSDL chuỗi định lượng có yếu
tố thời gian QSD là tập tất cả các chuỗi định lượng có yếu tố thời gian.
{
} là tập các tập mờ gắn với các thuộc tính của I,
Định nghĩa 3.2 Gọi
{
} là tập các tập mờ gắn với thuộc tính (k=1, 2..., u), với


tập mờ thứ j (1≤ j≤

là số lượng tập mờ gắn với thuộc tính

),

,

được gọi là thuộc

tính mờ. Mỗi tập mờ có một hàm thành viên tương ứng : X[0,1]. Chuỗi fs =

〉 được gọi là chuỗi mờ có yếu tố thời gian,
trong đó
(1≤ i≤ n) là một tập mờ,
là giá trị của hàm thành viên
của
(
). CSDL chuỗi mờ có yếu tố thời gian FSD là tập các chuỗi mờ có yếu tố thời
gian.
Định nghĩa 3.3 Gọi LT={ | j=1,2,...,p} là tập các tập mờ gắn với khoảng cách thời gian,

là hàm thành viên của tập mờ
(Hu, Tzeng and Chen, 2004). Khi đó, α =

〉 được gọi là chuỗi mờ với khoảng cách thời gian mờ
nếu
(1≤i≤r) là tập mờ và
LT (1≤i≤r-1). Chuỗi α có độ dài r kí hiệu là r-chuỗi mờ với

khoảng cách thời gian mờ (r-fuzzy sequential pattern with fuzzy time-intervals).
Định nghĩa 3.4 Một chuỗi mờ với khoảng cách thời gian mờ  =

〉 là chuỗi con của chuỗi mờ với khoảng cách thời gian mờ
〉 khi và chỉ khi tồn tại số nguyên w thỏa mãn
β=〈
với i|1≤i≤k-1 và
. Trong trường hợp k=1 thì
.
〉 và
Định nghĩa 3.5 Cho chuỗi mờ S = 〈
〉, ta có các
chuỗi mờ với khoảng cách thời gian mờ α = 〈
định nghĩa sau:
 Độ hỗ trợ của chuỗi S đối với α, kí hiệu
, được xác định như sau:
{
(∏

)

{

(

)}

(3.1)

 Chuỗi mờ B = 〈

S=〈

〉 là chuỗi con của chuỗi mờ
〉 nếu tồn tại r số nguyên
để
|

. Độ hỗ trợ của
chuỗi mờ S đối với α, kí hiệu SupS(α), là giá trị lớn nhất của các chuỗi B thuộc S đối với
α:
(

)

(3.2)

Độ hỗ trợ của chuỗi mờ với khoảng cách thời gian mờ α, kí hiệu Sup(α), là giá trị trung
bình của độ hỗ trợ của các chuỗi giao dịch mờ trong FSD đối với α.
14


(∑

)

(3.3)

trong đó là chuỗi mờ thứ i trong FSD, NS là số lượng các chuỗi mờ của FSD.
 Một mẫu chuỗi mờ với khoảng cách thời gian mờ là chuỗi mờ với khoảng cách thời gian
mờ có độ hỗ trợ không nhỏ hơn độ hỗ trợ cực tiểu min_sup cho trước.

Tính chất 1: Chuỗi con của chuỗi mờ với khoảng cách thời gian mờ phổ biến thì cũng
phổ biến.
Tính chất 2: Mọi chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k đều là kết
quả của phép kết hợp hai chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k-1.
3.3. Thuật toán phát hiện mẫu chuỗi mờ với khoảng cách thời gian mờ
3.3.1. Bài tốn đặt ra
Cho trước CSDL định lượng có yếu tố thời gian QSD, độ hỗ trợ cực tiểu min_sup, tập mờ
về khoảng cách thời gian LT cùng các hàm thành viên tương ứng, tập các tập mờ FE của các
thuộc tính định lượng của QSD cùng các hàm thành viên tương ứng.
Bài toán đặt ra: Phát hiện các mẫu chuỗi mờ với khoảng cách thời gian mờ trong CSDL
định lượng có yếu tố thời gian QSD.
3.3.2. Ý tưởng thuật tốn
Đầu tiên, các thuộc tính định lượng trong QSD được chuyển thành các tập mờ. Tiếp theo,
các chuỗi giao dịch trong QSD được chuyển đổi thành các chuỗi giao dịch mờ dựa trên các tập
mờ và các hàm thành viên tương ứng để tạo ra CSDL chuỗi mờ FSD. Tiếp đến, thuật tốn
FSPFTIM được áp dụng để tìm các mẫu chuỗi mờ với khoảng cách thời gian mờ. Thuật toán
này được phát triển dựa trên ý tưởng thuật toán Apriori.
Thuật toán FSPFTIM thực hiện sinh tập các chuỗi ứng cử viên độ dài 1, , sau đó tính độ
hỗ trợ cho các chuỗi thuộc
và bổ sung các chuỗi ứng viên thỏa mãn độ hỗ trợ cực tiểu
min_sup vào tập các mẫu chuỗi mờ với khoảng cách thời gian mờ độ dài 1, . Tiếp theo, lần
lượt các tập chuỗi ứng viên
và tập mẫu chuỗi mờ với khoảng cách thời gian mờ độ dài 2,
, được sinh ra. Quá trình sinh như vậy được thực hiện cho đến khi tập chuỗi ứng cử viên là
rỗng ( =)
Kết quả trả lại là tập tất cả các chuỗi mờ với khoảng cách thời gian mờ thuộc các tập
với k>1
3.3.3. Thuật toán FSPFTIM
Thuật toán được mơ tả như Error! Reference source not found..
Thuật tốn 3.1.


Thuật tốn FSPFTIM

Input: - CSDL chuỗi định lượng có yếu tố thời gian QSD;
- Độ hỗ trợ cực tiểu min_sup;
- Tập các tập mờ FE và các hàm thành viên tương ứng với các thuộc tính trong
QSD;
- Tập LT và các hàm thành viên tương ứng về khoảng cách thời gian.
Output: Tập các mẫu chuỗi mờ với khoảng cách thời gian mờ.
FSPFTIM {
1.
Tạo CSDL chuỗi mờ có yếu tố thời gian FSD từ CSDL QSD
2.
{fe| fe là thuộc tính mờ của FSD}
3.
{
|Sup()≥min_sup}
4.
;
15


5.
6.
7.
8.
9.
10.
11.
12.

13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25. }

for each
do {
for each
do {
for each ltd LT do {
 *ltd* ;
add  to ;
}
}
}
for each 
do {
Tính độ hỗ trợ của  (Sup());
}
{
|Sup() ≥min_sup}

for (k>2;
≠;k++){
fuzzy_apriori_gen(
);
for each 
do {
Tính độ hỗ trợ của  (Sup());
}
{
|Sup() ≥min_sup}
}
return ⋃
;

3.3.4. Tính đúng đắn và tính đầy đủ của thuật tốn
Định lý 3.1. Thuật toán FSPFTIM là đúng đắn và đầy đủ.
3.3.5. Độ phức tạp thuật tốn
Theo cách tính như trong (Tan et al., 2005), độ phức tạp của thuật toán FSPFTIM là:
O(N.l.h +M.N.l.h2 + | |2. ( ) |LT| + ∑
|
| ( ) | |)
3.3.6. Trường hợp suy biến của mẫu chuỗi mờ với khoảng cách thời gian mờ
Định lý 3.2: Thuật tốn FSPFTIM có thể tìm được các mẫu chuỗi

〉 và 〈

3.4. Thử nghiệm thuật toán
3.4.1. Dữ liệu thử nghiệm
Bảng 3.1. Dữ liệu thử nghiệm S100I1000T3D341K và Online Retail_France
CSDL


Số lƣợng
thuộc tính
(I)

S100I1000T3D341K
1000
Online Retail_France
1523
3.4.2. Kết quả thử nghiệm

Số lƣợng
giao dịch
(D)

Số lƣợng
chuỗi
(S)

Độ dài trung
bình giao dịch
(T)

Độ dài trung
bình chuỗi

341
365

100

87

29.3
22.8

3.41
4.20

3.4.2.1. Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với
min_sup và giữa thời gian chạy của thuật toán với min_sup trong trường hợp
số phân hoạch thuộc tính định lượng khác nhau.
.

16


(a)

(b)

Online Retail_France

Online Retail_France

Hình 3.1. Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với
min_sup (a) và giữa thời gian chạy của thuật toán với min_sup (b) trong trường hợp số phân
hoạch thuộc tính định lượng khác nhau khi thực hiện trên tập dữ liệu Online Retail_France
3.4.2.2. Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với
min_sup và giữa thời gian chạy của thuật toán với min_sup trong trường hợp
số phân hoạch khoảng cách thời gian khác nhau

(a)

(b)

S100I1000T3D341K

S100I1000T3D341K

Hình 3.2. Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với
min_sup (a) và giữa thời gian chạy của thuật toán với min_sup (b) trong trường hợp số phân
hoạch khoảng cách thời gian (Kt) khác nhau đối với tập dữ liệu S100I1000T3D341K
3.4.2.3. So sánh số luật và thời gian thực hiện của phương pháp mờ hóa với phương
pháp chia khoảng của khoảng cách thời gian

Hình 3.3. So sánh số mẫu chuỗi của phương pháp mờ hóa (A) và phương pháp chia khoảng
(B) đối với khoảng cách thời gian khi thực hiện thuật toán FSPFTIM
Kết luận Chƣơng 3
Trong chương này luận án đã trình bày việc phát hiện các mẫu chuỗi mờ với khoảng cách
thời gian mờ trong các CSDL chuỗi định lượng có yếu tố thời gian. Thuật toán phát hiện các
17


mẫu chuỗi như vậy được gọi là thuật toán FSPFTIM. Trong thuật tốn này, các thuộc tính định
lượng cũng như khoảng cách thời gian xảy ra giữa các giao dịch trong chuỗi đều được mờ hóa.
Thuật tốn được phát triển dựa trên thuật toán Apriori. Thuật toán là đúng đắn và đầy đủ. Độ
phức tạp tính tốn của thuật tốn cũng được chỉ ra. Luận án cũng đã tiến hành thực nghiệm
thuật toán trên tập dữ liệu thực. Kết quả thực nghiệm cho thấy tính đúng đắn và khả thi của
thuật toán được đề xuất. Kết quả thực nghiệm được so sánh với phương pháp chia khoảng
tương ứng.
CHƯƠNG 4. PHÁT HIỆN LUẬT CHUỖI CHUNG CĨ TÍNH ĐẾN KHOẢNG CÁCH

THỜI GIAN TRONG CÁC CSDL CHUỖI ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN.

Chương 1 xác định vấn đề sẽ được nghiên cứu trong luận án này về phát hiện các luật
chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL
chuỗi định lượng có yếu tố thời gian. Các luật được phát hiện khi đó được gọi là luật chuỗi
chung mờ với khoảng cách thời gian mờ. Chương này sẽ trình bày chi tiết về thuật toán phát
hiện các luật chuỗi chung như vậy. Thuật tốn đó được gọi là IFERMiner.

4.1. Giới thiệu

Luật chuỗi gồm 2 kiểu là luật chuỗi và luật chuỗi chung (Fournier-Viger et al., 2017). Ở
kiểu luật thứ nhất, các phần tiền đề và hệ quả đều thuộc vào cùng một mẫu chuỗi (Agrawal,
Srikant and others, 1995). Việc phát hiện các luật chuỗi kiểu tương tự như cách tiếp cận phát
hiện các luật kết hợp, tức là cũng bao gồm 2 giai đoạn, ở giai đoạn đầu là tìm các mẫu chuỗi
và ở giai đoạn 2 là sinh các luật chuỗi từ các mẫu chuỗi tìm được.
Khác với các luật chuỗi, luật chuỗi chung được đề cập sau (Fournier-Viger et al., 2010;
Fournier-Viger, Nkambou and Tseng, 2011; Fournier-Viger, Gueniche, et al., 2014). Các luật
chuỗi chung biểu diễn mối quan hệ của 2 tập các mục không được sắp thứ tự (Fournier-Viger
et al., 2010; Fournier-Viger, Nkambou and Tseng, 2011; Fournier-Viger, Gueniche, et al.,
2014), ở đó các mục ở phần tiền đề phải xảy ra trước tất cả các mục ở phần hệ quả của luật.
Luật chuỗi chung có dạng { } ⟹ { }, có nghĩa “Nếu một khách hàng đã mua mặt hàng a
và mặt hàng b thì khách hàng đó sẽ mua mặt hàng c và d sau đó” với việc mua a và mua b
khơng cần xảy ra theo trình tự thời gian, mua c và d cũng không cần xảy ra theo trình tự thời
gian nhưng phải sau thời điểm mua a và mua b.
Trong thực tế, việc phát hiện các luật chuỗi chung từ CSDL chuỗi định lượng có yếu tố
thời gian là hết sức cần thiết. Nghiên cứu [CT8] đã đề xuất và giải quyết vấn đề phát hiện luật
} ⟹{
} có
chuỗi chung mờ CSDL chuỗi định lượng. Luật phát hiện dạng {
nghĩa “Nếu một khách hàng mua mặt hàng a với lượng Ít và mua mặt hàng b một lượng Nhiều

thì khách hàng đó sẽ mua c với lượng TB và d một lượng Ít sau đó”. Thuật toán FERMiner đã
được đề xuất để phát hiện luật chuỗi chung mờ. Thuật tốn FERMiner mờ hóa các thuộc tính
định lượng, dựa trên ý tưởng thuật tốn ERMiner (Fournier-Viger, Gueniche, et al., 2014) để
phát hiện các luật chuỗi chung mờ.
Mục đích của chương này đề xuất và phát hiện luật chuỗi chung dạng tổng quát đó là luật
chuỗi chung có tính đến khoảng cách thời gian trong CSDL chuỗi định lượng có yếu tố thời
gian, gọi là luật chuỗi chung mờ với khoảng cách thời gian mờ. Đây là vấn đề thứ 3 đặt ra của
}
luận án. Các luật chuỗi chung mờ với khoảng cách thời gian mờ có dạng {
{
} , có nghĩa “Nếu một khách hàng mua mặt hàng a với lượng Ít và mua mặt hàng

b một lượng Nhiều thì khách hàng đó sẽ mua c với lượng TB và d một lượng Ít sau khoảng
thời gian Long”. Thuật toán IFERMiner được đề xuất để phát hiện các luật chuỗi chung mờ
với khoảng cách thời gian mờ này. Trong thuật toán IFERMiner, lý thuyết mờ được sử dụng
để mờ hóa các thuộc tính định lượng cũng như khoảng cách thời gian và dựa trên ý tưởng của
18


thuật toán ERMiner (Fournier-Viger, Gueniche, et al., 2014): sử dụng các lớp tương đương và
tạo ra các luật chuỗi chung bằng cách hợp nhất 2 luật chuỗi chung đã tìm được.
4.2. Một số khái niệm cơ bản
} là tập các thuộc tính,
Định nghĩa 4.1
Gọi I={
là quan hệ thứ tự tồn phần
trên
các
thuộc
tính

trong
I

i1
i2
…,
iu,
〉 là một chuỗi định lượng, trong đó
s = 〈
I (1kn), là giá trị của
tại thời điểm ( nhận giá trị số hoặc phân loại),

với 2kn; ( , , ) được gọi là một phần tử của chuỗi định lượng s.
Trong một chuỗi, các phần tử xảy ra cùng thời điểm được sắp theo quan hệ
của các
thuộc tính. Chuỗi định lượng s có thể được biểu diễn bằng dạng s =

〉, trong đó
= {( , ), ( , ), ( , ),…, ( , )}
và tất cả các thuộc tính trong
đều xảy ra tại thời điểm .
gọi là một giao dịch. Error!
Reference source not found. là ví dụ biểu diễn một CSDL chuỗi định lượng có yếu tố thời
gian.
} là tập các tập mờ gắn với các thuộc tính trong
Định nghĩa 4.2
Gọi FE = {
{
} là tập các tập mờ của thuộc tính (k=1, 2..., u), trong đó
I,


tập mờ thứ j (1≤ j≤ ),
là số lượng các tập mờ của . Mỗi tập mờ có một hàm thành viên
〉 được gọi là
tương ứng : X[0,1]. Chuỗi fs = 〈
chuỗi giao dịch mờ, trong đó
FE (1≤j≤n) là một tập mờ và được gọi là thuộc tính mờ;
là giá trị của hàm thành viên
của
ứng với giá trị , tức là
;( ,
, ) được gọi là phần tử của chuỗi mờ.
Định nghĩa 4.3
Luật FCSI, kí hiệu ⇒ , là một luật chuỗi chung mờ với khoảng cách
thời gian mờ nếu thỏa mãn: X Y = , trong đó X, Y là các tập thuộc tính và X, Y ≠ ; X và Y
cùng xuất hiện trong cùng chuỗi giao dịch mờ; Y xuất hiện sau X một thời gian mờ lt (lt LT,
LT là tập các tập mờ của khoảng cách thời gian)
〉 là chuỗi giao dịch mờ được viết gọn của chuỗi
Định nghĩa 4.4
Giả sử rfs = 〈
fs, tập thuộc tính mờ X xuất hiện hoặc được chứa trong chuỗi giao dịch mờ fs nếu X
, ở đây
.
X ⇒ Y được chứa trong fs nếu X
, với
,Y
, <
< ... ≤ ≤ k, và các thuộc tính mờ trong
xuất hiện sau các thuộc tính mờ trong với khoảng thời gian mờ lt.
Luật FCSI r =


Định nghĩa 4.5
Luật FCSI r = X ⇒ Y được gọi là có kích thước k*m nếu | | = k và | | =
m. Một luật có kích thước f*g được gọi là lớn hơn luật kích thước h*i nếu f > h và g ≥ i hoặc
nếu f ≥ h và g > i.
Định nghĩa 4.6
Cho
chuỗi
giao
dịch
mờ
fs
=〈

〉, luật FCSI r =
Độ hỗ trợ của fs đối với tập X được xác định như sau:
(



)





.

(4.1)


Độ hỗ trợ của tập X trong CSDL chuỗi mờ có yếu tố thời gian FSD được xác định bởi:

19


|



|

(4.2)

Độ hỗ trợ của fs đối với r được xác định bởi:

( ∏

)

(4.3)

( ),
ở đây

tập mờ lt tại giá trị
Độ hỗ trợ của luật r trong CSDL FSD được xác định là:
|

là giá trị hàm thành viên của




|

(4.4)

Độ tin cậy của luật FCSI r = X ⇒ Y được xác định bởi:
(4.5)
Định nghĩa 4.7
Gọi min_sup, min_conf [0,1] ([0%, 100%]) tương ứng là các ngưỡng
độ hỗ trợ cực tiểu và độ tin cậy cực tiểu được xác định bởi người sử dụng, FSD là CSDL chuỗi
mờ có yếu tố thời gian. Luật FCSI r được gọi là phổ biến nếu sup(r) ≥ min_sup; Luật FCSI r
được gọi là tin cậy nếu conf(r) ≥ min_conf. Luật r được gọi là luật FCSI valid nếu nó là luật
phổ biến và tin cậy.
Các khái niệm tiếp theo được phát triển dựa trên các khái niệm trong (Fournier-Viger et
al., 2010; Fournier-Viger, Nkambou and Tseng, 2011; Fournier-Viger, Gueniche, et al., 2014).
Định nghĩa 4.8
(các lớp tương đương mờ trái/phải và các phép hợp nhất trái/phải): Cho
CSDL chuỗi mờ FSD, là tập tất cả các luật FCSI phổ biến, tập tất cả các thuộc tính mờ
của các thuộc tính trong FSD, LT là tập các tập mờ gắn với khoảng cách thời gian. Một lớp
tương đương mờ trái với khoảng cách thời gian mờ lt trên , được kí hiệu là
, được xác
| |
định như sau:
= { ⇒ | W, Y
, i là số tự nhiên, lt LT}. Một cách
tương tự một lớp tương đương mờ phải với khoảng thời gian mờ lt trên , được kí hiệu là
={




| |

| X, W

, i là số tự nhiên, lt

LT}.

Giả sử hai luật FCSI ,
,
=
⇒ ,
| hép hợp nhất trái của r1, r2 là một quá trình hợp nhất


. Một cách tương tự giả sử hai luật FCSI



và |

|

để nhận được luật r =

|

| phép hợp nhất phải của




Tính chất 1: Giả sử luật FCSI


|
|

và |
để nhận được luật r =

,

,

=



,

là một q trình hợp nhất

=


.
=




là phổ biến khi đó nếu X

cũng là luật FCSI phổ biến. Một cách tương tự nếu
thì

,

=


cũng là luật FCSI phổ biến.

20



Y và

=

là luật FCSI phổ biến và X


Y


Tính chất 2: Mọi luật FCSI phổ biến r =
⇒ ,| |
đều là kết quả hợp nhất trái

của 2 luật FCSI ,
– lớp tương đương mờ trái với khoảng cách thời gian mờ lt.
Một cách tương tự, mọi luật FCSI mờ phổ biến r = ⇒ , | |
đều là kết quả hợp
nhất phải của 2 luật FCSI ,
– lớp tương đương mờ phải với khoảng cách thời gian
mờ lt.
Từ hai tính chất trên, ta có nhận xét sau:
Nhận xét:
1) Độ hỗ trợ của luật FCSI r sinh ra từ phép hợp nhất và luôn nhỏ hơn hoặc bằng độ
hỗ trợ của ,
2) Nếu độ hỗ trợ của luật FCSI r nhỏ hơn min_sup thì luật này khơng thể tham gia hợp
nhất để tạo ra luật FCSI phổ biến mới.
Nhận xét này được sử dụng để giảm bớt không gian tìm kiếm các luật FCSI phổ biến.
Tương tự (Fournier-Viger, Gueniche, et al., 2014), một số luật FCSI có thể được tìm bằng vài
cách khác nhau thơng qua các phép hợp trái/phải với các thuộc tính mờ khác nhau. Để tránh
sinh trùng lặp về luật, tương tự như giải pháp trong (Fournier-Viger, Gueniche, et al., 2014),
phép hợp phải không được thực hiện sau phép hợp trái và áp đặt thứ tự quan hệ tồn phần cho
các thuộc tính mờ trong ở nguyên nhân và hệ quả của luật, chỉ thực hiện phép hợp trái (hoặc
hợp phải nếu phần hệ quả có chung các thuộc tính cuối theo thứ tự quan hệ tồn phần
(Fournier-Viger, Gueniche, et al., 2014).
4.3. Thuật tốn phát hiện luật chuỗi chung mờ với khoảng cách thời gian mờ
4.3.1. Bài tốn đặt ra
Cho trước CSDL chuỗi định lượng có yếu tố thời gian QSD; min_sup, min_conf lần lượt
là các độ hỗ trợ cực tiểu và độ tin cậy cực tiểu do người sử dụng xác định; tập mờ của khoảng
cách thời gian LT cùng các hàm thành viên tương ứng; tập các tập mờ FE của các thuộc tính
định lượng của QSD cùng các hàm thành viên tương ứng.
Vấn đề: phát hiện các luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa các
giao dịch trong CSDL QSD.
4.3.2. Thuật tốn IFERMiner

Thuật tốn IFERMiner được mơ tả trong Error! Reference source not found.
Thuật toán 4.1.

Thuật toán IFERMiner

Input: - CSDL chuỗi định lượng có yếu tố thời gian QSD;
- Độ hỗ trợ cực tiểu và độ tin cậy cực tiểu min_sup, min_conf;
- Tập các tập mờ FE và các hàm thành viên tương ứng với các thuộc tính trong
QSD;
- Tập LT và các hàm thành viên tương ứng về khoảng cách thời gian.
Output: Frules – tập tất cả các luật FCSI valid.
IFERMiner{
1. Frules
2. Duyệt QSD để tạo CSDL mờ có yếu tố thời gian FSD.
3. foreach lt LT do {
4.
fleftStore_lt
;
5.
Tính
, tập các lớp tương đương trái với khoảng cách thời gian mờ lt có kích cỡ 1*1
và sinh các luật FCSI valid cỡ 1*1;
6.
for each lớp tương đương trái với khoảng cách thời gian mờ lt, H
do {
21


7.
fleftSearch(H, Frules)

8.
}
9.
for each lớp tương đương phải với khoảng cách thời gian mờ lt, J
do {
10.
frighSearch(J, Frules, fleftStore_lt)
11. }
12. for each lớp tương đương trái với khoảng cách thời gian mờ lt, K fleftStore_lt do {
13.
fleftSearch(K, Frules)
14. }
15. }
16. return Frules
17. }
4.3.3. Tính đúng đắn và đầy đủ
Định lý 4.1: Thuật toán IFERMiner là đúng đắn và đầy đủ.
4.3.4. Độ phức tạp của thuật toán IFERMiner
Định lý 4.2: Độ phức tạp tính tốn của thuật tốn IFERMiner là đa thức phụ thuộc vào N:
tổng số chuỗi trong CSDL chuỗi định lượng có yếu tố thời gian QSD, m: số lượng giao dịch
trung bình của một chuỗi, d: độ dài trung bình của giao dịch trong QSD, h: số lượng tập mờ
trung bình được liên kết với thuộc tính định lượng trong QSD và |LT|: số lượng tập mờ của
các khoảng thời gian trong LT
Chứng minh: Độ phức tạp tính tốn của thuật tốn IFERMiner C được phân tích như sau:
| |
Trong đó:

: Độ phức tạp tính tốn để tạo CSDL chuỗi mờ có yếu tố thời gian FSD từ CSDL
chuỗi định lượng có yếu tố thời gian QSD.


: Độ phức tạp tính tốn để tính tốn các lớp tương đương mờ trái/phải với khoảng
cách thời gian mờ lt có kích thước 1*1 và để sinh ra các luật FCSI valid có kích thước
1*1.

: Độ phức tạp tính tốn của thủ tục fleftSearch trên
- tập tất cả các lớp tương
đương mờ trái với khoảng cách thời gian mờ lt có kích thước 1*1.

: Độ phức tạp tính tốn của thủ tục frightSearch trên
- tập tất cả các lớp tương
đương mờ phải với khoảng cách thời gian mờ lt có kích thước 1*1

: Độ phức tạp tính tốn của thủ tục fleftSearch trên fleftStore - tập tất cả các lớp
tương đương mờ trái với khoảng cách thời gian mờ lt được sinh ra bởi thủ tục
frightSearch trên
.
4.3.5. Trường hợp suy biến của luật chuỗi chung mờ với khoảng cách thời gian mờ
Định lý 4.3: Thuật tốn IFERMiner có thể tìm được các luật
⟹ với X, Y là các
tập mục.

4.4. Thử nghiệm thuật toán
4.4.1. Dữ liệu thử nghiệm
Bảng 4.1. Dữ liệu thử nghiệm thuật tốn IFERMiner

Dữ liệu thử nghiệm

Online Retail_France

Số lƣợng

thuộc tính
(I)

Số lƣợng
giao dịch
(D)

Số lƣợng
chuỗi giao
dịch
(S)

Độ dài trung
bình giao
dịch
(T)

Độ dài trung
bình của
chuỗi giao
dịch

1523

365

87

21.38


95.88

22


QtyT40I10D100K

100

10000

100

4.26

420

4.4.2. Kết quả thử nghiệm
4.4.2.1. Mối quan hệ giữa số lượng các luật được sinh ra với độ hỗ trợ cực tiểu
min_sup và độ tin cậy cực tiểu min_conf.
Online Retail France (a)

Số luật

1500
1000
500
0
3.1% 3.3% 3.5% 3.7% 3.9% 4.1% 4.3% 4.5%


min_conf=70
%
min_conf=73
%
min_conf=76
%
min_conf=79
%

min_sup

Hình 4.1. Mối quan hệ giữa số lượng các luật FCSI valid với min_sup và min_conf
4.4.2.2. Mối quan hệ giữa thời gian thực hiện thuật toán với độ hỗ trợ cực tiểu
min_sup và độ tin cậy cực tiểu min_conf

Thời gian (giây)

Online Retail France (a)
3
2.5
2
1.5
1
0.5
0

min_conf=70%
min_conf=73%
min_conf=76%
min_conf=79%

3.1% 3.3% 3.5% 3.7% 3.9% 4.1% 4.3% 4.5%

min_conf=82%
min_conf=85%

min_sup

Hình 4.2. Mối quan hệ giữa thời gian thực hiện thuật toán với min_sup và min_conf
4.4.2.3. So sánh số luật và thời gian thực hiện của phương pháp mờ hóa với phương
pháp chia khoảng của khoảng cách thời gian

Hình 4.3. So sánh số luật của phương pháp mờ hóa (A) và phương pháp chia khoảng (B) đối
với khoảng cách thời gian khi thực hiện thuật toán IFERMiner
Kết luận Chƣơng 4
Chương 4 tập trung trình bày thuật tốn phát hiện các luật chuỗi chung mờ với các khoảng
cách thời gian mờ trong các CSDL định lượng có yếu tố thời gian và được gọi là IFERMiner.
Phương pháp mờ hóa các thuộc tính định lượng cũng như các khoảng cách thời gian là tương
23


×