Tải bản đầy đủ (.docx) (170 trang)

LUẬN án TIẾN sĩ máy TÍNH PHÁT HIỆN LUẬT kết hợp và LUẬT CHUỖI mờ TRONG cơ sở dữ LIỆU ĐỊNH LƢỢNG có yếu tố THỜI GIAN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.31 MB, 170 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

TRƢƠNG ĐỨC PHƢƠNG

PHÁT HIỆN LUẬT KẾT HỢP VÀ LUẬT CHUỖI MỜ TRONG
CƠ SỞ DỮ LIỆU ĐỊNH LƢỢNG CÓ YẾU TỐ THỜI GIAN

LUẬN ÁN TIẾN SĨ MÁY TÍNH

HÀ NỘI – 2021


VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
……..….***…………

TRƢƠNG ĐỨC PHƢƠNG

PHÁT HIỆN LUẬT KẾT HỢP VÀ LUẬT CHUỖI MỜ
TRONG CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG CÓ YẾU TỐ
THỜI GIAN

LUẬN ÁN TIẾN SĨ MÁY TÍNH

Chun ngành : Hệ thống thơng tin


Mã số: 9 48 01 04

Ngƣời hƣớng dẫn khoa học:
1. PGS.TS. Đỗ Văn Thành
2. PGS.TS. Nguyễn Đức Dũng

Hà Nội – 2021


ii
i

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi. Các kết
quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác
giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và
chưa từng được cơng bố trong các cơng trình nào khác.
Luận án được hồn thành trong thời gian tơi làm Nghiên cứu sinh tại
Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ
Việt Nam.
Tác giả luận án

NCS. Trƣơng Đức Phƣơng


LỜI CẢM ƠN
Luận án Tiến sỹ “Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở
dữ liệu định lượng có yếu tố thời gian” được thực hiện dưới sự hướng dẫn
khoa học của PGS.TS. Đỗ Văn Thành và PGS.TS. Nguyễn Đức Dũng.
Trước tiên tôi xin được bày tỏ lòng biết ơn sâu sắc tới các thầy hướng

dẫn PGS. TS. Đỗ Văn Thành và PGS.TS. Nguyễn Đức Dũng. Trong quá trình
thực hiện luận án, nghiên cứu sinh đã nhận được nhiều định hướng khoa học,
những bài học quý báu, sự hướng dẫn nhiệt tình từ các thầy hướng dẫn. Các
thầy cũng đã ln tận tâm động viên, khuyến khích và chỉ dẫn giúp đỡ nghiên
cứu sinh hoàn thành được bản luận án này.
Tôi xin chân thành cảm ơn các thầy cô Học viện Khoa học và Công
nghệ đã tạo điều kiện thuận lợi cho tơi trong suốt q trình nghiên cứu và
thực hiện luận án.
Tôi xin cảm ơn Ban Giám hiệu, tập thể cán bộ, giảng viên khoa Khoa
học Tự nhiên và Công nghệ, trường Đại học Thủ đô Hà Nội đã tạo điều kiện
giúp đỡ tôi trong suốt thời gian học tập và nghiên cứu.
Nhân dịp này, tôi cũng xin bày tỏ lòng biết ơn sâu sắc tới gia đình và
bạn bè đã cho tơi điểm tựa vững chắc, tạo động lực để tơi hồn thành luận án
này.
Tác giả

NCS. Trương Đức Phương


5
MỤC LỤC
DANH MỤC HÌNH VẼ.................................................................................. 4
DANH MỤC BẢNG BIỂU.............................................................................6
DANH MỤC CÁC TỪ VIẾT TẮT................................................................8
MỞ ĐẦU.......................................................................................................... 9
CHƯƠNG 1. TỔNG QUAN VỀ LUẬT KẾT HỢP VÀ MẪU CHUỖI,
LUẬT CHUỖI CHUNG................................................................................. 18
1.1.

Luật kết hợp........................................................................................18


1.1.1. Phát hiện luật kết hợp trong các CSDL giao dịch.............................. 18
1.1.2. Phát hiện luật kết hợp trong các CSDL định lượng............................21
1.1.3. Phát hiện luật kết hợp tính đến khoảng cách thời gian xảy ra của các
giao dịch trong các CSDL có yếu tố thời gian....................................23
1.2.

Mẫu chuỗi...........................................................................................25

1.2.1. Phát hiện mẫu chuỗi trong các CSDL chuỗi giao dịch.......................25
1.2.2. Phát hiện mẫu chuỗi trong các CSDL chuỗi định lượng....................29
1.2.3. Phát hiện mẫu chuỗi tính đến khoảng cách thời gian xảy ra của các
giao dịch trong các CSDL chuỗi có yếu tố thời gian.........................31
1.3.

Luật chuỗi chung................................................................................ 34

1.3.1. Khái niệm luật chuỗi chung................................................................34
1.3.2. Phát hiện luật chuỗi chung..................................................................34
Kết luận Chương 1.......................................................................................... 38
CHƯƠNG 2. PHÁT HIỆN LUẬT KẾT HỢP CĨ TÍNH ĐẾN KHOẢNG
CÁCH THỜI GIAN TRONG CÁC CSDL ĐỊNH LƯỢNG CÓ YẾU TỐ
THỜI GIAN.................................................................................................... 42
2.1.

Giới thiệu............................................................................................42

2.2.

Một số khái niệm cơ bản.................................................................... 44


2.3.

Thuật toán phát hiện luật kết hợp mờ với khoảng cách thời gian mờ
52 2.3.1. Bài toán đặt ra................................................................... 52

2.3.2. Ý tưởng thuật toán..............................................................................53
2.3.3. Thuật tốn FTQ.................................................................................. 54
2.3.4. Tính đúng đắn và tính đầy đủ của thuật toán......................................58
2.3.5. Độ phức tạp thuật toán........................................................................60


6
2.3.6. Trường hợp suy biến của luật kết hợp mờ với khoảng cách thời gian
mờ.......................................................................................................62
2.4.

Thử nghiệm thuật toán........................................................................63

2.4.1. Dữ liệu thử nghiệm.............................................................................63
2.4.2. Kết quả thử nghiệm............................................................................ 66
Kết luận Chương 2..........................................................................................72
CHƯƠNG 3. PHÁT HIỆN MẪU CHUỖI CĨ TÍNH ĐẾN KHOẢNG
CÁCH THỜI GIAN TRONG CÁC CSDL CHUỖI ĐỊNH LƯỢNG CÓ YẾU
TỐ THỜI GIAN..............................................................................................74
3.1.

Giới thiệu............................................................................................74

3.2.


Một số khái niệm cơ bản.................................................................... 76

3.3.

Thuật toán phát hiện mẫu chuỗi mờ với khoảng cách thời gian mờ 84

3.3.1. Bài toán đặt ra.....................................................................................84
3.3.2. Ý tưởng thuật toán..............................................................................84
3.3.3. Thuật tốn FSPFTIM..........................................................................85
3.3.4. Tính đúng đắn và tính đầy đủ của thuật toán......................................88
3.3.5. Độ phức tạp thuật toán........................................................................90
3.3.6. Trường hợp suy biến của mẫu chuỗi mờ với khoảng cách thời gian
mờ.......................................................................................................91
3.3.7. Minh họa thuật toán............................................................................92
3.4.

Thử nghiệm thuật toán........................................................................93

3.4.1. Dữ liệu thử nghiệm.............................................................................93
3.4.2. Kết quả thử nghiệm............................................................................ 95
Kết luận Chương 3........................................................................................ 100
CHƯƠNG 4. PHÁT HIỆN LUẬT CHUỖI CHUNG CĨ TÍNH ĐẾN
KHOẢNG CÁCH THỜI GIAN TRONG CÁC CSDL CHUỖI ĐỊNH
LƯỢNG CÓ YẾU TỐ THỜI GIAN.............................................................101
4.1.

Giới thiệu..........................................................................................101

4.2.


Một số khái niệm cơ bản.................................................................. 103

4.3.

Thuật toán phát hiện luật chuỗi chung mờ với khoảng cách thời gian
mờ.....................................................................................................108

4.3.1. Bài tốn đặt ra...................................................................................108
4.3.2. Thuật tốn IFERMiner......................................................................108
4.3.3. Tính đúng đắn và đầy đủ.................................................................. 112


7
4.3.4. Độ phức tạp của thuật toán IFERMiner............................................114
4.3.5. Trường hợp suy biến của luật chuỗi chung mờ với khoảng cách thời
gian mờ............................................................................................. 120
4.4.

Thử nghiệm thuật toán......................................................................121

4.4.1. Dữ liệu thử nghiệm...........................................................................121
4.4.2. Kết quả thử nghiệm.......................................................................... 123
Kết luận Chương 4........................................................................................ 129
KẾT LUẬN VÀ KIẾN NGHỊ.......................................................................130
DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ..............................................132
TÀI LIỆU THAM KHẢO.............................................................................133


DANH MỤC HÌNH VẼ

Hình 1.1. Các vấn đề liên quan đến nghiên cứu của luận án..........................41
Hình 2.1. Các hàm thành viên của các tập mờ ứng với tỉ lệ tăng/giảm của các
mã chứng khốn..............................................................................................65
Hình 2.2. Các hàm thành viên của các tập mờ của Tỉ lệ thay đổi chỉ số VN30
......................................................................................................................... 65
Hình 2.3. Các hàm thành viên của các tập mờ thời gian.................................65
Hình 2.4. Mối quan hệ giữa số lượng luật tìm được từ thuật tốn FTQ và độ
tin cậy cực tiểu min_conf trong các trường hợp khác nhau về độ hỗ trợ cực
tiểu min_sup....................................................................................................66
Hình 2.5. Mối quan hệ giữa số lượng luật tìm được và min_sup với min_conf
khác nhau.........................................................................................................67
Hình 2.6. Chi phí thời gian thực hiện khi min_conf=70%..............................67
Hình 2.7. So sánh số luật của phương pháp mờ hóa (A) và phương pháp chia
khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật tốn FTQ

68

Hình 2.8. So sánh thời gian chạy của phương pháp mờ hóa (A) và phương
pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật tốn
FTQ................................................................................................................. 68
Hình 3.1. Các hàm thành viên của các tập mờ thuộc LT.................................81
Hình 3.2. Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời
gian mờ với min_sup (a) và giữa thời gian chạy của thuật toán với min_sup
(b) trong trường hợp số phân hoạch thuộc tính định lượng khác nhau khi thực
hiện trên tập dữ liệu S100I1000T3D341K......................................................95
Hình 3.3. Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời
gian mờ với min_sup (a) và giữa thời gian chạy của thuật toán với min_sup
(b) trong trường hợp số phân hoạch thuộc tính định lượng khác nhau khi thực
hiện trên tập dữ liệu Online Retail_France..................................................... 96



Hình 3.4. Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời
gian mờ với min_sup (a) và giữa thời gian chạy của thuật toán với min_sup
(b) trong trường hợp số phân hoạch khoảng cách thời gian (Kt) khác nhau đối
với tập dữ liệu S100I1000T3D341K...............................................................97
Hình 3.5. Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời
gian mờ với min_sup (a) và giữa thời gian chạy của thuật toán với min_sup
(b) trong trường hợp số phân hoạch khoảng cách thời gian (Kt) khác nhau đối
với tập dữ liệu Online Retail_France.............................................................. 97
Hình 3.6. So sánh số mẫu chuỗi của phương pháp mờ hóa (A) và phương
pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật tốn
FSPFTIM.........................................................................................................98
Hình 3.7. So sánh thời gian chạy của phương pháp mờ hóa (A) và phương
pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật tốn
FSPFTIM.........................................................................................................98
Hình 4.1. Mối quan hệ giữa số lượng các luật FCSI valid với min_sup và
min_conf........................................................................................................124
Hình 4.2. Mối quan hệ giữa thời gian thực hiện thuật tốn với min_sup và
min_conf........................................................................................................125
Hình 4.3. So sánh số luật của phương pháp mờ hóa (A) và phương pháp chia
khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật tốn IFERMiner
....................................................................................................................... 126
Hình 4.4. So sánh thời gian chạy của phương pháp mờ hóa (A) và phương
pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán
IFERMiner.................................................................................................... 127


DANH MỤC BẢNG BIỂU
Bảng 1.1. Ví dụ về CSDL giao dịch................................................................18
Bảng 1.2. Ví dụ về CSDL định lượng.............................................................22

Bảng 1.3. Ví dụ về CSDL giao dịch mua hàng có yếu tố thời gian................24
Bảng 1.4. Một số nghiên cứu về phát hiện luật kết hợp có tính đến khoảng
cách thời gian.................................................................................................. 24
Bảng 1.5. Ví dụ về CSDL chuỗi giao dịch......................................................25
Bảng 1.6. Ví dụ CSDL chuỗi định lượng........................................................29
Bảng 1.7. Ví dụ CSDL chuỗi giao dịch có yếu tố thời gian............................31
Bảng 1.8. Một số nghiên cứu về phát hiện mẫu chuỗi có tính đến khoảng cách
thời gian...........................................................................................................32
Bảng 1.9. Một số nghiên cứu về phát hiện luật chuỗi chung.......................... 34
Bảng 2.1. Ví dụ về CSDL định lượng có yếu tố thời gian..............................44
Bảng 2.2. CSDL mờ có yếu tố thời gian DF...................................................46
Bảng 2.3. Dữ liệu thử nghiệm ISTANBUL STOCK EXCHANGE................63
Bảng 2.4. Kết quả thử nghiệm thuật toán FTQ với min_sup=7% và
min_con=70%................................................................................................. 69
Bảng 2.5. Ý nghĩa các luật thu được đối với CSDL VNINDEX....................70
Bảng 3.1. Ví dụ về CSDL chuỗi định lượng có yếu tố thời gian QSD...........77
Bảng 3.2. CSDL chuỗi mờ có yếu tố thời gian FSD.......................................78
Bảng 3.3. Dữ liệu thử nghiệm S100I1000T3D341K và Online Retail_France
......................................................................................................................... 94
Bảng 3.4. Các mẫu chuỗi mờ với khoảng cách thời gian mờ tìm được từ
Online Retail_France.......................................................................................99
Bảng 4.1. Dữ liệu thử nghiệm thuật toán IFERMiner...................................122


Bảng 4.2. Các luật FCSI valid có độ hỗ trợ cao nhất tương ứng với min_sup
= 3% và min_conf = 75%..............................................................................128


Từ viết tắt
NCS

CSDL
FITARM
FTITS
FTQ
FSPFTIM
FGBSPMA
FQSP-MMS

DANH MỤC CÁC TỪ VIẾT TẮT
Nội dung

GSP
IQSP
FSPFTI
BFS

Nghiên cứu sinh
Cơ sở dữ liệu
Fuzzy Inter-Transaction Asociation Rules Mining
Fuzzy Time-Interval in Time Series
Fuzzy Time-interval in temporal Quantitative database algorithm
Fuzzy Sequential Patterns with Fuzzy Time-Intervals Mining
Fuzzy Grids Based Sequential Patterns Mining Algorithm
Fuzzy Quantitative Sequential Pattern with Multiple Minimum
Supports
Generalized Sequential Pattern
Incremental mining of Quantitative Sequential Pattern
Fuzzy Sequential Patterns with Fixed Time-Intervals
Breadth First Search


DFS
FCSI
TAS

Depth First Search
Fuzzy Common Sequence with time – Interval
Temporally-Annotated Sequences


MỞ ĐẦU
1. Tính cấp thiết của luận án và động lực nghiên cứu
Phát hiện luật kết hợp và mẫu chuỗi, luật chuỗi nằm trong số những vấn
đề quan trọng trong lĩnh vực khai phá dữ liệu. Đến nay, rất nhiều cơng trình
nghiên cứu liên quan đến các lĩnh vực này. Các luật kết hợp và mẫu chuỗi,
luật chuỗi được đề xuất là rất đa dạng, chúng có thể là các luật, mẫu chuỗi
giao dịch/định lượng; có trọng số/khơng trọng số; có yếu tố thời gian/khơng
có yếu tố thời gian;.v.v..
Vấn đề phát hiện luật kết hợp trong các CSDL giao địch được đề xuất lần
đầu vào năm 1993 [1] và đến nay đã có nhiều thuật tốn được xây dựng theo
rất nhiều cách tiếp cận khác nhau để phát hiện các luật này trong các CSDL
giao dịch: APRIORI [2], PARTITION [3], A-CLOSE [4], A-CLOSE+ [5],
CLOSE [6], CLOSET [7], CLOSET+ [8], CHARM [9], MAFIA [10],
GENMAX [11], ECLAT [12], DIC [13], FP-GROWTH [14], CFPMINE [15],
ETARM [16], LRM [17], PARM [18], NEGFIN [19].
Tuy nhiên các CSDL trong thực tế thường có các thuộc tính nhận giá trị
số hoặc giá trị phân loại. Những CSDL như vậy được gọi là CSDL định
lượng. Việc phát hiện các luật kết hợp trong CSDL định lượng thường sử
dụng một trong 2 cách đó là: rời rạc hóa [20]–[23] và mờ hóa các thuộc tính
định lượng [24]–[29]. Bản chất của cách tiếp cận thứ nhất là đưa CSDL định
lượng về CSDL giao dịch bằng cách chuyển các thuộc tính định lượng thành

một số mục (item) tương ứng và sau đó áp dụng một trong các thuật tốn phát
hiện các luật kết hợp trong các CSDL giao dịch đã biết. Ví dụ: xét thuộc tính
Tuổi, nếu chia độ tuổi thành 3 loại: “Trẻ” (dưới 30 tuổi), “Trung niên” (30
đến 59 tuổi), “Già” (từ 60 tuổi) thì người ở độ tuổi 15 tương ứng với “Trẻ”,
tuổi 59 tương ứng với “Trung niên” trong CSDL giao dịch. Cách tiếp cận này
có nhược điểm là không tự nhiên, gây ra hiện tượng “sắc nét” tại giáp ranh
những điểm chia các thuộc tính định lượng. Cách tiếp cận thứ hai nhằm khắc


phục nhược điểm của cách tiếp cận thứ nhất, nhưng khi đó các thuật tốn phát
hiện các luật kết hợp trong các CSDL cần được cải tiến và phát triển tiếp.
CSDL có yếu tố thời gian (temporal database) là CSDL có lưu trữ thơng
tin về thời điểm xảy ra của các giao dịch [30] [31]. Năm 1998, Lu và các cộng
sự [32] đã đề xuất luật kết hợp có tính đến độ chênh lệch về thời điểm (gọi là
khoảng cách thời gian) xảy ra giữa các giao dịch trong các CSDL giao dịch có
2 àgà�

yếu tố thời gian, luật có dạng � →−−−→ � với a, b là các tập mục dữ liệu. Trong
[32], hai thuật toán E-Apriori và EH-Apriori được đề xuất để phát hiện các
luật dạng này. Về ý tưởng chính, hai thuật tốn E-Apriori, EH-Apriori dựa
trên ý tưởng thuật toán Apriori và sử dụng cửa sổ trượt đối với khoảng cách
thời gian. Để phát hiện các luật kết hợp có tính đến khoảng cách thời gian
trong các CSDL giao dịch có yếu tố thời gian, nhiều thuật toán tiếp tục được
đề xuất như: FITI [33], ITARM [34], ITP-Miner [35], IAR Miner [36], CITPMiner [37], NCITPS-MINER [38]. Việc phát hiện luật kết hợp có tính đến
khoảng cách thời gian mới chỉ dừng lại đối với CSDL giao dịch có yếu tố thời
gian mà chưa được thực hiện đối với các CSDL định lượng có yếu tố thời
gian. Đây là khoảng trống nghiên cứu mà luận án mong muốn giải quyết.
Luật chuỗi, mẫu chuỗi như được hiểu từ trước đến nay còn được gọi là
luật chuỗi, mẫu chuỗi cổ điển để phân biệt với một loại luật chuỗi, mẫu chuỗi
mới được đề xuất trong những năm gần đây. Các mẫu chuỗi cổ điển (được gọi

ngắn gọn là mẫu chuỗi) là các chuỗi cổ điển (nói gọn là chuỗi) phổ biến trong
các CSDL chuỗi giao dịch. Các mẫu chuỗi này biểu diễn mối quan hệ có trình
tự thời gian xảy ra giữa các giao dịch trong chuỗi. Phát hiện mẫu chuỗi trong
các CSDL chuỗi giao dịch được giới thiệu lần đầu năm 1995 [39] và đến nay
đã nhận được rất nhiều sự quan tâm. Hiện đã có nhiều thuật tốn phát hiện các
mẫu chuỗi trong các CSDL chuỗi giao dịch như GSP [40], SPIRIT [41],
SPADE [42], SPAM [43], FAST [44], CM-SPADE [45], MAXSP [46],
GENMINER [47], FREESPAN [48], PREFIXSPAN [49], CLOSPAN [50],
MSPIC-DBV [51], HSPREC [52],...


Các CSDL chuỗi trong đó các thuộc tính có thể nhận các giá trị số hoặc
phân loại và khi đó, chúng được gọi là CSDL chuỗi định lượng. Để phát hiện
các mẫu chuỗi trong các CSDL chuỗi định lượng, phương pháp mờ hóa các
thuộc tính định lượng được sử dụng và mẫu chuỗi được phát hiện được gọi là
mẫu chuỗi mờ. Các thuật toán phát hiện mẫu chuỗi mờ điển hình là
SPEEDYFUZZY [53], MINIFUZZY [53], FGBSPMA [54], MST [55] FQSPMMS [56], FUZZY APRIORISOME [57], IQSP [58], FSP [59],..
Các CSDL chuỗi giao dịch có yếu tố thời gian là CSDL có lưu trữ thông
tin về thời điểm xảy ra của các giao dịch. Năm 2000, Yoshida và các cộng sự
[60] đã đề xuất mẫu chuỗi có tính đến khoảng cách thời gian trong CSDL
chuỗi giao dịch có yếu tố thời gian, mẫu chuỗi này có dạng
〈�,

,,

, 〉 với a, b, c là các tập mục, [1−4] và [5−9] là khoảng

thời gian có thể xảy ra lần lượt giữa a, b và giữa b, c. Để phát hiện mẫu chuỗi
có tính đến khoảng cách thời gian, thuật toán Delta-Pattern đã được đề xuất
trong [60]. Phát hiện mẫu chuỗi có tính đến khoảng cách thời gian như trong

[60] tiếp tục được giải quyết bởi các thuật toán I-Apriori và I-PrefixSpan [61],
TAS [62]. Năm 2005, để khắc phục hiện tượng “sắc nét” tại các điểm giáp
danh của các khoảng chia đối với khoảng cách thời gian, Chen và Huang [63]
đã đề xuất mẫu chuỗi có tính đến khoảng cách thời gian mà ở đó khoảng cách
thời gian là các tập mờ, mẫu chuỗi khi đó có dạng 〈 ℎ
,ℎ,

, ,

�〉 với Short, Long là các tập mờ, mỗi tập mờ có hàm thành viên tương ứng.
Trong [63], hai thuật toán FTI-Apriori và FTI-PrefixSpan được đề xuất để
phát hiện các mẫu chuỗi này. Mẫu chuỗi này tiếp tục được phát hiện bởi
thuật toán FP Growth- PrefixSpan [64]. Năm 2009, Chang và các cộng sự
[65] [66] đề
xuất mẫu chuỗi 〈�,

, �,

, �〉 trong đó

,

là các số mờ lần

lượt thể hiện khoảng cách thời gian xảy ra giữa a với b và b với c. Khác
với đề xuất trong [63] với các tập mờ (cùng hàm thành viên) ứng với các
khoảng cách thời gian là cho trước, các số mờ trong [65] [66] được xác định


dựa trên dữ liệu trong CSDL ban đầu. Các thuật toán SPFTI [65] và ISPFTI

[66] được


đề xuất để phát hiện các mẫu chuỗi này. Tuy nhiên, đến năm 2018 các nghiên
cứu về phát hiện mẫu chuỗi có tính đến khoảng cách thời gian chỉ áp dụng đối
với các CSDL chuỗi giao dịch có yếu tố thời gian mà chưa áp dụng đối với
CSDL chuỗi định lượng có yếu tố thời gian. Đây là khoảng trống thứ 2 trong
việc xác định vấn đề nghiên cứu của luận án. Năm 2019, Dương và các cộng
sự [67] đề xuất mẫu chuỗi có lợi ích cao tính đến khoảng cách thời gian trong
các CSDL chuỗi định lượng có yếu tố thời gian và thuật toán UIPrefixSpan để
phát hiện mẫu chuỗi lợi ích cao này. Mẫu chuỗi có lợi ích cao tính đến
khoảng cách thời gian tiếp tục được phát hiện bởi thuật toán HUISP [68].
Khái niệm luật chuỗi chung mới được xuất hiện trong vài năm gần đây
[69], [70] do Fournier-Viger và các cộng sự đề xuất. Luật chuỗi chung được
phát hiện trong các CSDL chuỗi giao dịch biểu diễn mối quan hệ của 2 tập
mục, ở đó các mục ở các phần tiền đề (bên trái) và hệ quả (bên phải) của luật
không cần sắp thứ tự mà chỉ cần thỏa mãn điều kiện các mục ở phần tiền đề
phải được xảy ra trước các mục ở phần hệ quả. Thuật toán phát hiện các luật
chuỗi chung đầu tiên là CMRules [69] sau đó tiếp tục được phát triển bởi
Rule Growth [71], ERMiner [72]. Các luật chuỗi chung thực sự là có ích và
đã được ứng dụng trong thực tế [73]. Luật chuỗi chung đến nay mới chỉ được
phát hiện trong các CSDL chuỗi giao dịch mà chưa được áp dụng đối với
CSDL chuỗi định lượng có yếu tố thời gian. Đây là khoảng trống thứ 3 được
xác định trong vấn đề nghiên cứu của luận án.
Luận án này nhằm giải quyết 3 khoảng trống được xác định ở trên. Việc
nghiên cứu giải quyết những vấn đề đó là thực sự cần thiết không chỉ ở
phương diện phát triển lý thuyết mà cả ở phương diện ứng dụng thực tế. Đó là
động lực để tác giả luận án thực hiện nghiên cứu đề tài “Phát hiện luật kết
hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian”. Cụ
thể luận án đề xuất và giải quyết các vấn đề về phát hiện các luật kết hợp và

mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa


các giao dịch tương ứng trong các CSDL định lượng có yếu tố thời gian và
CSDL chuỗi định lượng có yếu tố thời gian.
Luận án thực sự có đóng góp mới về mặt lý thuyết, cung cấp các giải pháp
cho những vấn đề chưa được giải quyết trong hướng nghiên cứu về phát hiện
các luật kết hợp và các mẫu chuỗi, luật chuỗi chung tương ứng trong CSDL
định lượng và CSDL chuỗi định lượng cùng có yếu tố thời gian.
2. Mục tiêu, đối tƣợng và phạm vi nghiên cứu của luận án
2.1.

Mục tiêu của luận án

Mục tiêu của luận án là đề xuất giải pháp phát hiện các luật kết hợp và các
mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa
các giao dịch tương ứng trong các CSDL định lượng và các CSDL chuỗi định
lượng cùng có yếu tố thời gian.
Các giải pháp như vậy cần quan tâm khắc phục hiện tượng không tự
nhiên, “sắc nét” khi phân chia các giá trị định lượng, cũng như các khoảng
cách thời gian xảy ra giữa các giao dịch thành các khoảng.
Cụ thể luận án tập trung đề xuất các giải pháp nhằm:
• Phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa
các giao dịch trong các CSDL định lượng có yếu tố thời gian. Các luật tìm
được khi đó được gọi là các luật kết hợp mờ với khoảng cách thời gian
mờ.
• Phát hiện các mẫu chuỗi có tính đến khoảng cách thời gian xảy ra giữa các
giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian. Các mẫu
chuỗi tìm được khi đó được gọi là mẫu chuỗi mờ với khoảng cách thời
gian mờ.

• Phát hiện các luật chuỗi chung (là luật chuỗi ở dạng tổng quát và chung
hơn so với các luật chuỗi (cổ điển) như được biết từ trước đến nay) có tính
đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi


định lượng có yếu tố thời gian. Các luật tìm được được gọi là các luật
chuỗi chung mờ với khoảng cách thời gian mờ.
Trong luận án, NCS tập trung vào nghiên cứu đề xuất các thuật toán mới
để phát hiện các luật kết hợp và các mẫu chuỗi, luật chuỗi chung; đánh giá
tính đúng đắn và tính đầy đủ, tính độ phức tạp tính tốn của thuật tốn; thử
nghiệm và phân tích ý nghĩa của các luật kết hợp, các mẫu chuỗi và luật chuỗi
chung phát hiện được; so sánh kết quả thử nghiệm với phương pháp chia
khoảng.
Vấn đề đặt ra trong luận án là mới, chưa có nghiên cứu tương tự trước đó
nên việc đánh giá và so sánh với các nghiên cứu trước đó sẽ được thực hiện
bằng cách chỉ ra rằng các luật kết hợp và mẫu chuỗi, luật chuỗi chung tìm
được trong các nghiên cứu trước đó chỉ là dạng riêng tương ứng của luật kết
hợp và mẫu chuỗi, luật chuỗi chung được phát hiện bởi các thuật toán được đề
xuất trong luận án này.
2.2.

Đối tượng nghiên cứu: là các thuật toán phát hiện các luật kết hợp,
và các mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời
gian trong các CSDL định lượng và CSDL chuỗi định lượng cùng
có yếu tố thời gian.

2.3. Phạm vi nghiên cứu:
• Luận án nghiên cứu các luật kết hợp, các mẫu chuỗi, các luật chuỗi
chung, các CSDL định lượng và CSDL chuỗi định lượng cùng có yếu tố
thời gian.

• Các tập mờ được sử dụng như các tham số cho trước làm đầu vào cho các
thuật toán đề xuất, luận án không tập trung nghiên cứu sâu về lý thuyết
mờ.
• Do các luật kết hợp, mẫu chuỗi, luật chuỗi chung được đề xuất trong luận
án là mới, nên các phần thực nghiệm của luận án không so sánh kết quả
với các thuật toán khác.
3. Phƣơng pháp nghiên cứu
Luận án đã sử dụng các phương pháp nghiên cứu sau:


• Phương pháp tổng hợp, phân tích: được sử dụng để tổng hợp và phân tích
các nghiên cứu về những vấn đề liên quan để phát hiện các khoảng trống
nghiên cứu và xác định vấn đề nghiên cứu mà luận án cần giải quyết.
Phương pháp phân tích cũng thường được sử dụng khi đề xuất các khái
niệm mới liên quan đến vấn đề nghiên cứu của luận án sao cho những khái
niệm mới được phát triển dựa trên nhiều nhất có thể các khái niệm đã có
liên quan.
• Phương pháp so sánh: được sử dụng để so sánh các kỹ thuật, thuật toán đã
được đề xuất để giải quyết những vấn đề nghiên cứu liên quan, từ đó hình
thành ý tưởng cho thuật tốn mới cho vấn đề nghiên cứu.
• Phương pháp thiết kế và đánh giá độ phức tạp thuật toán: được sử dụng
để thiết kế thuật toán giải quyết bài toán cụ thể được đặt ra trong luận án
và ước lượng độ phức tạp tính tốn của các thuật tốn này.
• Phương pháp thực nghiệm: Các thuật tốn được đề xuất đều được thực
nghiệm trên các tập dữ liệu thực để đánh giá sự đúng đắn và tính khả thi
của thuật tốn.
4. Các đóng góp chính của luận án
Những đóng góp chính của luận án là đề xuất và giải quyết các vấn đề
sau:
• Đề xuất vấn đề và thuật tốn phát hiện luật kết hợp có tính đến khoảng

cách thời gian xảy ra giữa các giao dịch trong các CSDL định lượng có
yếu tố thời gian, ở đó các thuộc tính định lượng và khoảng cách thời gian
xảy ra giữa các giao dịch được chuyển thành các thuộc tính mờ và khoảng
cách thời gian mờ [CT4].
• Đề xuất vấn đề và thuật toán phát hiện mẫu chuỗi (cổ điển) có tính đến
khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi
định lượng có yếu tố thời gian, ở đó các thuộc tính định lượng và khoảng
cách thời gian xảy ra giữa các giao dịch cũng được chuyển thành các thuộc
tính mờ và khoảng cách thời gian mờ [CT5].


• Đề xuất vấn đề và thuật toán phát hiện luật chuỗi chung có tính đến
khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi
định lượng có yếu tố thời gian, ở đó các thuộc tính định lượng và khoảng
cách thời gian cũng được chuyển thành các thuộc tính mờ và khoảng cách
thời gian mờ [CT9].
5. Bố cục luận án
Luận án gồm phần mở đầu, 04 chương nội dung và phần kết luận:
• Phần mở đầu: Trình bày sự cần thiết và động lực nghiên cứu của đề tài;
mục tiêu, đối tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; những
đóng góp chính và cấu trúc của luận án.
• Chương 1: Tổng quan về luật kết hợp và mẫu chuỗi, luật chuỗi chung.
Chương này trình bày các khái niệm, phương pháp phát hiện các luật kết
hợp, mẫu chuỗi, luật chuỗi chung của các nghiên cứu trước đó. Từ đó xác
định những các khoảng trống nghiên cứu và xác định vấn đề cụ thể trong
luận án.
• Chương 2: Phát hiện luật kết hợp có tính đến khoảng cách thời gian trong
các CSDL định lượng có yếu tố thời gian. Chương này đề xuất vấn đề và
thuật toán phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy
ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian. Tính

đúng đắn và đầy đủ của thuật toán, việc thực nghiệm thuật toán trên tập dữ
liệu thực, ý nghĩa của các luật kết hợp phát hiện được và so sánh với
những nghiên cứu trước đó cũng được trình bày trong Chương.
• Chương 3: Phát hiện mẫu chuỗi có tính đến khoảng cách thời gian trong
các CSDL chuỗi định lượng có yếu tố thời gian. Chương này đề xuất vấn
đề và thuật toán phát hiện mẫu chuỗi có tính đến khoảng cách thời gian
xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời
gian. Tính đúng đắn và tính đầy đủ, độ phức tạp tính tốn của thuật toán
được đề xuất, việc thực nghiệm thuật toán trên tập dữ liệu thực, ý nghĩa


của các mẫu chuỗi phát hiện được và so sánh với những nghiên cứu liên
quan trước đó cũng được trình bày trong Chương.
• Chương 4: Phát hiện luật chuỗi chung có tính đến khoảng cách thời gian
trong các CSDL chuỗi định lượng có yếu tố thời gian. Chương này đề xuất
vấn đề và thuật toán phát hiện luật chuỗi chung có tính đến khoảng cách
thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có
yếu tố thời gian. Tính đúng đắn và tính đầy đủ, độ phức tạp tính tốn của
thuật tốn, việc thực nghiệm thuật toán trên tập dữ liệu thực, ý nghĩa của
các luật chuỗi chung phát hiện được và so sánh với luật chuỗi chung được
phát hiện bởi các thuật tốn trước đó cũng được trình bày trong Chương.
• Phần kết luận: Trình bày một số kết luận về ý nghĩa, đóng góp của luận án
và định hướng nghiên cứu trong tương lai.


CHƯƠNG 1. TỔNG QUAN VỀ LUẬT KẾT HỢP VÀ MẪU CHUỖI,
LUẬT CHUỖI CHUNG
Chương này trình bày tổng quan những vấn đề liên quan đến phát hiện
các luật kết hợp và các mẫu chuỗi, luật chuỗi chung trong các CSDL giao
dịch/định lượng khơng có hoặc có yếu tố thời gian. Chương này cũng chỉ ra

các khoảng trống chưa được giải quyết để từ đó xác định vấn đề nghiên cứu
của luận án.
1.1. Luật kết hợp
1.1.1. Phát hiện luật kết hợp trong các CSDL giao dịch
Định nghĩa 1.1

CSDL giao dịch [2]: Giả sử I = {i1, i2, … , i�} là tập các

mục, D = {�1, �2, … , �} là tập các giao dịch, �j (1≤j≤m) là tập các mục
thỏa mãn �j ⊆ I, �j i� biểu diễn mục i� xuất hiện trong giao dịch �j (hay
tương ứng i� nhận giá trị 1 nếu xuất hiện trong giao dịch này), nói cách.
Khi đó, D được gọi là CSDL giao dịch.
Ví dụ về CSDL giao dịch được mô tả như Bảng 1.1
Bảng 1.1. Ví dụ về CSDL giao dịch
TID
1

Mặt hàng đƣợc mua
ab

2

bc

3

de

4


abc

5

b

Bảng 1.1 biểu diễn CSDL giao dịch, trong đó I={a, b, c, d, e} là tập tên
các mặt hàng (hay là mục) và 5 giao dịch. Mỗi giao dịch biểu diễn danh sách
các mặt hàng được mua. Chẳng hạn, giao dịch đầu tiên có các mặt hàng a và b
được mua.


Định nghĩa 1.2 Luật kết hợp [1]: Giả sử X là tập mục, giao dịch T được
gọi là chứa X khi và chỉ khi X⊆T. Luật kết hợp là luật có dạng X → Y với
X⊆I, Y⊆I và X∩Y=∅. Trong đó X được gọi là tiền đề, Y là hệ quả của luật.
Định nghĩa 1.3

Độ hỗ trợ và độ tin cậy của luật kết hợp [1]

Độ hỗ trợ (support) của tập mục X là tỉ lệ số giao dịch trong D chứa X, kí
hiệu là sup(X)
���(X) =

Độ hỗ trợ của luật X →

|{�| � ∈ � � X ≤ �}|
|
�|

(1.1)


là tỉ lệ số giao dịch trong D chứa X∪Y, kí hiệu

là ���(X → �)
���(X → �) =

���(X � �)
|�|

(1.2)

Độ tin cậy (confidence) của luật X → � là tỉ lệ số giao dịch trong D chứa X
cũng chứa Y, kí hiệu là ���ƒ(X → �)
���ƒ(X → �) =

���(X � )
(1.3)
���(X)

Ví dụ: Xét CSDL trong Bảng 1.1, luật kết hợp {b, c} → {a} có nghĩa
“Trong cùng một giao dịch, nếu mặt hàng b và c được mua thì mặt hàng a
cũng sẽ được mua”. Luật này có độ hỗ trợ là 1/5=20% (tức là có 1 giao dịch
chứa luật trong tổng số 5 giao dịch của CSDL) và độ tin cậy của luật là
1/2=50% (có 1 giao dịch cả b, c, a được mua và 2 giao dịch cả b và c được
mua)
Việc phát hiện các luật kết hợp thường được chia làm 2 giai đoạn [1],
[74]:
• Giai đoạn 1: Tìm tất cả các tập phổ biến trong CSDL, ở đó các tập phổ
biến là các tập có độ hỗ trợ không nhỏ hơn độ hỗ trợ cực tiểu (hay
ngưỡng hỗ trợ) cho trước;



• Giai đoạn 2: Sinh ra các luật kết hợp có độ tin cậy khơng nhỏ hơn độ tin
cậy cực tiểu (hay ngưỡng tin cậy) cho trước từ các tập phổ biến đã tìm
được ở giai đoạn 1.
Trong hai giai đoạn trên thì giai đoạn 1 là phức tạp, địi hỏi nhiều chi phí
về thời gian và tính tốn. Ở giai đoạn 2, các luật kết hợp được sinh ra từ các
tập phổ biến tìm được là khá đơn giản nên đa phần các thuật toán phát hiện
luật kết hợp chỉ tập trung vào giải quyết giai đoạn 1, tức là tập trung vào việc
tìm các tập phổ biến.
Các thuật toán phát hiện luật kết hợp được chia thành hai nhóm dựa vào
phương pháp duyệt khơng gian tìm kiếm, đó là các phương pháp duyệt theo
chiều rộng (Breadth First Search - BFS) và duyệt theo chiều sâu (Depth First
Search - DFS). Duyệt theo chiều rộng là phương pháp duyệt tất cả các tập ứng
cử viên có k-1 mục trước khi xét đến các tập ứng cử viên có k mục. Các thuật
toán thực hiện theo cách tiếp cận này gồm: APRIORI [2], PARTITION [3], ACLOSE [4], A-CLOSE+ [5], DIC [13],... Duyệt theo chiều sâu là phương
pháp duyệt xong các tập ứng cử viên liên quan với một tập mục phổ biến rồi
mới chuyển sang xem xét đối với tập phổ biến cùng kích thước khác. Các
thuật tốn thực hiện theo cách tiếp cận này là: CLOSE [6], CLOSET [7],
CLOSET+ [8], CHARM [9], FP-GROWTH [14], ECLAT [12], CFPMINE
[15].

APRIORI [2] là thuật toán đầu tiên phát hiện luật kết hợp trong CSDL
giao dịch. Thuật toán này được phát triển theo cách tiếp cận duyệt theo chiều
rộng với việc sinh ra các tập ứng cử viên độ dài k bằng cách kết hợp hai tập
phổ biến độ dài k-1. Thuật toán APRIORI được xếp vào tốp 10 thuật toán
khai phá dữ liệu điển hình nhất [75], thuật tốn được mơ tả cơ bản như trong
Thuật toán 1.1:



×