Tải bản đầy đủ (.pdf) (431 trang)

biểu diễn toán học và một thuật toán nhanh cho bài toán khai thác tập phổ biến và luật kết hợ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.55 MB, 431 trang )



ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Trần Ngọc Anh
BIỂU DIỄN TOÁN HỌC VÀ MỘT THUẬT TOÁN NHANH
CHO BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN
VÀ LUẬT KẾT HỢP
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Tp. Hồ Chí Minh – Năm 2015



i
ĐẠI HỌC
QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Trần Ngọc Anh
BIỂU DIỄN TOÁN HỌC VÀ MỘT THUẬT TOÁN NHANH CHO
BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 62 48 01 01
Phản biện 1: TS. Nguyễn Hữu Trọng
Phản biện 2: TS. Đặng Trường Sơn
Phản biện 3: TS. Hồ Bảo Quốc
Phản biện độc lập 1: PGS.TS. Huỳnh Thị Thanh Bình
Phản biện độc lập 2: TS. Trần Đăng Hưng
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS.TS. Lê Hoài Bắc
2. TS. Trương Chí Tín
Tp. Hồ Chí Minh – Năm 2015


ii
Lời cam đoan
Tôi xin cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của chính
bản thân. Tất cả những tham khảo từ các nghiên cứu có liên quan đều được nêu rõ
nguồn gốc từ danh mục c c t i liệu tham khảo trong luận án. Những đóng góp trong
luận n l c c nghiên cứu của tác giả đ công bố trong c c b i b o hoa học nêu


trong phần danh mục các công trình nghiên cứu chưa được công bố trong bất kì
công tr nh n o h c. C c công tr nh nghiên cứu của nhiều tác giả được đưa v o nội
dung luận n đều nhận được sự đồng ý trước đó của c c đồng tác giả.
Tác giả luận án
Trần Ngọc Anh
iii
Lời cảm ơn
Lời đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc đến PGS. TS. Lê Hoài Bắc, người
đ tận t nh hướng dẫn, định hướng v động viên em suốt thời gian học tập, nghiên
cứu và thực hiện luận án.
Em xin được gởi lời tri ân sâu sắc đến TS. Trương Chí Tín, bởi nhờ sự động viên,
chỉ bảo, hướng dẫn tận tình của Thầy, em mới có thể hoàn thành luận án này.
Em cũng xin chân th nh gửi lời cảm ơn đến các Thầy/Cô trong Khoa Công nghệ
Thông tin trường Đại học Khoa học Tự nhiên Tp. HCM đ tận tình dạy dỗ, chỉ bảo
nhiều kiến thức quí báu giúp em hoàn thành khóa học.
Xin cảm ơn c c Thầy/Cô, các đồng nghiệp trong Khoa Toán – Tin học, Đại học Đ
lạt và các bạn bè đ hỗ trợ, động viên tôi trong quá trình học tập và thực hiện luận
án.
Cuối cùng, tôi muốn bày tỏ lời tri ân và biết ơn sâu sắc đến Cha, Vợ, Cha vợ, Mẹ vợ
và các anh, chị, em đ hích lệ, động viên, tạo điều kiện thuận lợi cho tôi trong suốt
thời gian làm nghiên cứu sinh.
Tp. Hồ Chí Minh tháng 12 năm 2015

Tác giả luận án
Trần Ngọc Anh


iv
MỤC LỤC
Trang phụ bìa
i
Lời cam đoan
ii
Lời cảm ơn
iii
Mục lục
iv
Danh mục các bảng
ix
Danh mục các hình
x
Danh mục các ký hiệu, các chữ viết tắt
xiii
1 Giới thiệu
1
1.1 Khám phá tri thức và khai thác luật kết hợp ....................................... 2
1.2 Bài toán khai thác luật kết hợp và các tiếp cận ................................... 4
1.3 Bài toán khai thác luật kết hợp với ràng buộc (trên tập thuộc tính) ... 7
1.4 C c hó hăn của việc khai thác luật kết hợp v phương ph p tiếp
cận ....................................................................................................... 8
1.4.1 C c hó hăn của việc khai thác luật kết hợp ........................................ 8



1.4.2 Phương ph p tiếp cận ............................................................................ 10
A. Dựa vào các tập phổ biến đóng v c c tập sinh của chúng ............................ 10
B. Phân hoạch rời các tập lời giải, tìm biểu diễn duy nhất của mỗi lời giải trong
mỗi lớp con .................................................................................................... 10
1.5 C c đóng góp chính của luận án ....................................................... 12
1.6 Bố cục luận án ................................................................................... 13
v
2 Khai thác các tập đóng và các tập sinh – cơ sở lý thuyết và
thuật toán GENCLOSE
15
2.1 Các khái niệm, kết quả cơ bản .......................................................... 16
2.1.1 Các khái niệm cơ bản ............................................................................ 16
2.1.2 Các kết quả cơ bản ................................................................................ 20
2.2 Bài toán và các nghiên cứu liên quan ............................................... 24
2.3 : cơ sở và thuật toán ....................................................... 27
2.3.1 Cây (tập thuộc tính – tập đối tượng – tập sinh) v c c bước chính
của ..................................................................................... 27
2.3.2 C c điều kiện cần v đủ để x c định các tập sinh ................................. 29
2.3.3 Ba toán tử mở rộng tiền bao đóng ........................................................ 34
2.3.4 Thuật toán ......................................................................... 41
2.3.5 Tính đúng đắn, tính đầy đủ và các kỹ thuật thực thi ........................... 48
A. Tính đúng đắn v đầy đủ ................................................................................ 48
B. Kỹ thuật diffset trong ................................................................. 49
C. Tìm kiếm nhanh trên với một bảng băm ép ....................................... 51


2.4 Thử nghiệm thuật toán .................................................... 52
2.4.1 Dữ liệu v c i đặt thử nghiệm ............................................................... 52
2.4.2 Kiểm chứng tính đúng của ................................................ 54
2.4.3 Hiệu suất của ..................................................................... 55

2.5 Kết luận ............................................................................................. 62
3 Cấu trúc lớp các tập phổ biến và cấu trúc tập luật kết hợp 63
3.1 Các khái niệm và kết quả cơ bản ...................................................... 64
3.1.1 Dàn khái niệm, luật kết hợp, bài toán khai thác luật kết hợp ............... 64
3.1.2 Phân hoạch (rời) lớp tập phổ biến và tập luật kết hợp .......................... 66
vi
3.1.3 Tập bỏ được .......................................................................................... 69
3.2 Cấu trúc và biểu diễn duy nhất của các tập phổ biến có cùng bao
đóng ................................................................................................... 71
3.2.1 Tính tối tiểu của tập sinh và tính lớn nhất của tập đóng trong mỗi lớp
tương đương ........................................................................................... 73
3.2.2 Cấu trúc của các tập thuộc tính trong lớp tương đương dưới ................ 75
3.2.3 Cấu trúc và biểu diễn duy nhất của các tập thuộc tính trong lớp tương
đương dưới hạn chế ................................................................................ 77
A. Cấu trúc của các tập thuộc tính trong lớp tương đương dưới hạn chế ........... 77
B. Biểu diễn duy nhất của các tập thuộc tính trong lớp tương đương dưới hạn
chế .................................................................................................................. 80
3.2.4 Biểu diễn duy nhất của các tập thuộc tính trong lớp tương đương dưới 86
3.3 Cấu trúc tập luật kết hợp ................................................................... 89
3.3.1 Dạng tường minh của các luật trong mỗi lớp luật tương đương ............ 90


3.3.2 Phân lớp cấu trúc tập luật kết hợp theo quan hệ thứ tự .......................... 93
A. Các tập luật cơ sở theo quan hệ thứ tự ............................................................ 93
B. Đ nh gi các tập luật cơ sở và việc khai thác chúng ....................................... 97
C. Dẫn xuất đầy đủ và không trùng lặp các tập luật hệ quả ............................... 101
3.4 Kết luận ........................................................................................... 110
4 Khai thác luật kết hợp với ràng buộc
112
4.1 Các bài toán khai thác luật kết hợp với ràng buộc và tiếp cận ....... 112

4.1.1 Giới thiệu .............................................................................................. 112
4.1.2 Các bài toán khai thác luật kết hợp với ràng buộc ............................... 114
A. Bài toán khai thác các luật kết hợp với ràng buộc kép .................................. 114
B. Bài toán khai thác các luật kết hợp với ràng buộc giao khác rỗng ................ 115
4.1.3 Vài nghiên cứu và tiếp cận liên quan ................................................... 115
vii
A. Tiếp cận hai th c trước tập phổ biến với ràng buộc .................................... 115
B. Tiếp cận hậu xử lý ......................................................................................... 118
4.1.4 Tiếp cận của luận án ............................................................................. 120
4.2 Khai thác luật kết hợp với ràng buộc kép ....................................... 121
4.2.1 Các khái niệm ..................................................................................... 122
4.2.2 Phân hoạch tập luật kết hợp với ràng buộc kép .................................. 124
A. Phân hoạch thô ............................................................................................. 124
B. C c
điều
kiện


cần
v
đủ
cho
tính
không
rỗng
của
)

............................... 127
C. Phân hoạch chặt tập luật kết hợp với ràng buộc kép.................................... 131

D. X c định lớp
............................................. 135
E. So sánh với tiếp cận hai th c trước tập phổ biến với ràng buộc ................ 139
4.2.3 Dẫn xuất không trùng lặp tất cả các luật kết hợp với ràng buộc trong
mỗi lớp luật tương đương
................................ 144
A. Cấu trúc và biểu diễn duy nhất của lớp tương đương c c tập con thuộc tính
hạn chế với các ràng buộc biên .................................................................... 144
B. Tính khái quát v ý nghĩa của
................................................ 150
C. Cấu trúc và biểu diễn duy nhất
của lớp luật


..................................................................................... 155
4.2.4 Dẫn xuất đầy đủ và không trùng lặp tất cả các luật kết hợp với ràng
buộc trong
.......................................... 159
4.2.5 Thử nghiệm thuật toán ........................................................ 159
A. Dữ liệu v c i đặt thử nghiệm ...................................................................... 159
B. Kết quả thử nghiệm ...................................................................................... 162
4.3 Khai thác luật kết hợp với ràng buộc giao khác rỗng ..................... 167
4.3.1 Phân hoạch tập luật kết hợp với ràng buộc giao khác rỗng ................ 168
4.3.2 Thuật toán hậu xử lý ................................... 170
viii
4.3.3 Cấu trúc và biểu diễn tường minh của mỗi lớp luật kết hợp với ràng
buộc giao khác rỗng ............................................................................ 171
A. Cấu trúc và biểu diễn tường minh của vế trái luật thuộc ............. 172
B. Cấu trúc và biểu diễn tường minh của vế phải luật thuộc


....... 174

C. Cấu trúc và biểu diễn tường minh của tập luật kết hợp với ràng buộc giao
khác rỗng ...................................................................................................... 179
4.3.4 Thử nghiệm ......................................................................................... 181
4.4 Kết luận ........................................................................................... 183
Kết luận
186
A. Kết quả đạt được .......................................................................................... 186
B. Hướng phát triển .......................................................................................... 188
Danh mục các công trình của tác giả


190
Tài liệu tham khảo
191
ix
Danh mục các bảng
2.1 Cơ sở dữ liệu ví dụ .......................................................................................... 18
2.2 Đặc trưng c c cơ sở dữ liệu ................................................................................. 53
2.3 C c ngưỡng độ hỗ trợ tối thiểu.. ......................................................................... 53
2.4 Số lượng các tập phổ biến đóng.. ........................................................................ 54
2.5 Số lượng các tập sinh. ......................................................................................... 54
2.6 Hiệu suất của với và ...................................... 61
3.1 Minh họa việc sinh không trùng lặp tất cả các luật kết hợp trong mỗi lớp ......... 92
3.2 Một đ nh gi độ dài và số lượng các tập luật cơ sở. ........................................... 97
3.3 Đặc trưng c c cơ sở dữ liệu. ................................................................................ 97
3.4 Lực lượng các tập luật cơ sở ............................................................................... 98
3.5 Thời gian khai thác các tập luật cơ sở ............................................................... 101
3.6 Tập luật cơ sở có độ dài trung bình bé nhất. ..................................................... 102

3.7 Minh họa việc sinh không trùng lặp tất cả các luật hệ quả trong
......................................................................................................... 109
4.1 Cơ sở dữ liệu ví dụ . ...................................................................................... 126
4.2 Đặc trưng c c cơ sở dữ liệu. .............................................................................. 161
4.3 Các tỉ lệ thời gian chạy và tỉ lệ phần trăm luật dư thừa .................................... 167
x
Danh mục các hình


2.1 Một phân hoạch của lớp tất cả các tập phổ biến: các tập phổ biến đóng (in đậm),
các tập sinh (in nghiêng, gạch dưới), độ hỗ trợ (ở trên, bên trái), tập đối tượng
(ở trên, bên phải). ............................................................................................... 19
2.2 Minh họa việc kiểm tra điều kiện (2.10) ............................................................. 33
2.3 Minh họa việc khai thác tập sinh bằng . ........................................... 34
2.4 Hoạt động của ba toán tử mở rộng. ..................................................................... 38
2.5 Minh họa việc sử dụng ba toán tử mở rộng , và ......................... 39
2.6 Thuật toán . ....................................................................................... 42
2.7 Thủ tục ..................................................................................... 45
2.8 Minh họa quá trình thực thi của . ..................................................... 46
2.9 Tính toán diffset .................................................................................................. 50
2.10 Thực thi của với kỹ thuật diffset. .................................................. 51
2.11 Số lượng các tập phổ biến đóng v tập sinh trên Pum, Pum*, , C73. ......... 56
2.12 Số lượng các tập phổ biến đóng v tập sinh trên Con, C20, T25 và T20. ........ 57
2.13 Thời gian chạy của , và trên Pum, Pum*,
và T20. ................................................................................................................ 58
2.14 Thời gian chạy của , và trên T25, C73, Con
và C20 ............................................................................................................... 59
3.1 Một phân hoạch tập luật kết hợp (độ hỗ trợ v độ tin cậy của các luật trong mỗi
lớp được cho lần lượt ở chỉ số trên bên trái và bên phải)................................... 71
3.2 Các cấu trúc của các lớp tập phổ biến. ................................................................ 72

3.3 Minh họa cấu trúc của một tập thuộc tính trong lớp tương đương dưới hạn chế 78
xi
3.4 Minh họa quá trình sinh không trùng lặp lớp . ........................................ 81


3.5 Minh họa quá trình sinh không trùng lặp lớp . ................................. 83
3.6 Thủ tục . ......................................................................................... 87
3.7 Thuật toán ........................................................................................... 88
3.8 Minh họa quá trình sinh không trùng lặp lớp . ................................. 89
3.9 Thủ tục . ..................................................................................... 92
3.10 Thuật toán . .................................................................................... 93
3.11 Thuật toán khai thác các tập cơ sở dạng . .................................................. 96
3.12 Lực lượng các tập cơ sở trên M và R ................................................................ 99
3.13 Thời gian khai thác các tập luật cơ sở trên P và T .......................................... 100
3.14 Dẫn xuất (trùng lặp) luật hệ quả .............................................................. 104
3.15 Thuật toán dẫn xuất nhanh chóng, đầy đủ tập luật hệ quả
......................................................................................................... 107
3.16 Thuật toán dẫn xuất nhanh chóng, đầy đủ tập luật hệ quả
......................................................................................................... 108
4.1 Cấu trúc và biểu diễn duy nhất của tập luật kết hợp với ràng buộc kép. .......... 123
4.2 Các phân hoạch tập luật kết hợp với ràng buộc kép. ........................................ 124
4.3 Biểu đồ Hasse các tập phổ biến đóng (gạch dưới), các tập sinh (in nghiêng) và
độ hỗ trợ (ở trên) trích từ cơ sở dữ liệu với ngưỡng .................... 126
4.4 Quá trình sinh và tỉa luật khi tích hợp ràng buộc vào thuật toán [6]
tìm luật kết hợp với ràng buộc từ tập phổ biến với ràng buộc. ........................ 134
4.5 Thủ tục ...................................................................... 136
4.6 Thủ tục ...................................................................... 137
xii
4.7 Minh họa quá trình thực thi của Eclat tích hợp với ràng buộc.......................... 142



4.8 Thủ tục . .................................................................................. 151
4.9 Sự khái quát và cải tiến tính toán của
......................................... 156
4.10 Thủ tục ............................................................................ 157
4.11 Thuật toán ........................................................................................ 160
4.12 Thời gian chạy của và trên Connect. ...................... 162
4.13 Thời gian chạy của và trên Pumsb ......................... 163
4.14 Thời gian chạy của và trên C73 ............................. 163
4.15 Thời gian chạy của và trên Accident...................... 164
4.16 Thời gian chạy của , và trên
Mushroom ........................................................................................................ 164
4.17 Thời gian chạy của , và trên Chess 165
4.18 Thời gian chạy của , và trên C20 ... 165
4.19 Cấu trúc và biểu diễn duy nhất của tập luật kết hợp với ràng buộc giao khác
trống ................................................................................................................. 169
4.20 Thuật toán ..................................................................... 180
4.21 Thời gian chạy của và trên C20d10k ...................... 182
4.22 Thời gian chạy của và trên Mushroom ................... 183
xiii
Danh mục các ký hiệu, các chữ viết tắt
Số
thứ
Ký hiệu/Chữ viết tắt
Ý nghĩa


tự
Quan
hệ

thứ
tự
,
1
{}
Quan hệ thứ tự trên lớp các tập thuộc tính trong mỗi lớp
2
tương đương
3

Số nguyên lớn nhất bé hơn hoặc bằng số thực x
4
hay
Lực lượng (số phần tử) của tập hợp
5
Lớp chứa mọi tập con của X
6
Phép kết hai tập sinh có cùng độ dài
7
Quan hệ tương đương trên
8


Quan hệ tương đương trên
Toán tử Galois : – tập các thuộc tính chung của
9
mọi đối tượng trong
Toán tử Galois : – tập c c đối tượng có chứa tập
10
thuộc tính

11
Toán tử Galois : – bao đóng của tập thuộc tính
12
Toán tử Galois ’: – bao đóng của tập đối tượng
Tập các ràng buộc về độ hỗ trợ, độ tin cậy và trên thuộc
13
tính
14
Cặp tập phổ biến đóng lồng nhau
15
Lớp các tập con thuộc tính có cùng bao đóng
Lớp các tập phổ biến có bao đóng và giao với khác
16
rỗng
Lớp
các
tập


phổ
biến
thuộc
17
hình thành từ các tập sinh có giao bằng trống với
xiv
Lớp
các
tập
phổ
biến

thuộc
18
hình thành từ các tập sinh có giao khác rỗng với
19

Lớp tương đương dưới của tập thuộc tính
Lớp tương đương dưới của tập thuộc tính hạn chế trên
20

tập thuộc tính X
Lớp tương đương dưới của tập thuộc tính hạn chế trên
21


tập thuộc tính với các biên ràng buộc mở rộng
Lớp các tập phổ biến trong lớp tương đương dưới của
22

hạn chế trên có giao với khác rỗng
Lớp các tập phổ biến được dẫn ra từ các tập sinh của
23

không chứa bất kỳ thuộc tính nào trong và
các tập con khác rỗng của phần giao giữa và
Lớp các tập phổ biến được dẫn ra từ các tập sinh của
24

có chung ít nhất một thuộc tính với
Tập khác rỗng chứa các thuộc tính (mặt hàng) xuất hiện
25

trong c c đối tượng
26
Tập các thuộc tính phổ biến của
Lớp chứa tất cả các luật có cùng bao đóng vế trái và có
27
cùng bao đóng hợp hai vế
Lớp luật kết hợp với ràng buộc ép đại diện bởi cặp tập
28


phổ biến đóng lồng nhau
Một lớp luật kết hợp với ràng buộc giao khác rỗng đại
29
diện bởi cặp tập phổ biến đóng lồng nhau
Lớp luật kết hợp với ràng buộc ép đại diện bởi cặp tập
30
phổ biến đóng lồng nhau
Lớp luật kết hợp với ràng buộc kép khác rỗng đại diện
31
bởi cặp tập phổ biến đóng lồng nhau
32
Biểu diễn duy nhất của lớp luật kết hợp với ràng buộc
xv
kép khác rỗng
Biểu diễn duy nhất của các luật thuộc lớp luật
33
Tập các luật kết hợp có độ hỗ trợ v độ tin cậy thỏa mãn
34
35
Lớp tất cả các luật kết hợp với c c ngưỡng , , ,

Lớp tất cả các luật kết hợp với c c ngưỡng , , ,
36
thỏa ràng buộc kép
Lớp tất cả các luật kết hợp với c c ngưỡng , , thỏa


37
ràng buộc giao khác rỗng
38
Độ dài trung bình của các tập phổ biến đóng
39
Độ dài trung bình của tập sinh so với tập phổ biến đóng
40
(0–3)
Bài toán 0, Bài toán 1, Bài toán 2, Bài toán 3
Tập các phần tử tối tiểu tương ứng với quan hệ thứ tự
41
– tập cơ sở
Toán tử bỏ bớt các tập bỏ được trong hai vế của luật cơ
42
sở
Toán tử chuyển các tập bỏ được từ vế trái sang vế phải
43
của luật cơ sở và hệ quả trong
Toán tử bỏ bớt các tập bỏ được trong vế phải của luật cơ
44
sở
Toán tử chuyển các tập bỏ được từ vế phải sang vế trái
45
của luật cơ sở và hệ quả trong



46
Ngưỡng tin cậy tối thiểu
47
Ngưỡng tin cậy tối đa
48
Độ tin cậy của luật
49
Tổ hợp hai thuật toán và
50
CSDL
Cơ sở dữ liệu
xvi
51
Lớp tất cả các tập đóng
Tập các phần tử không tối tiểu tương ứng với quan hệ
52
thứ tự – tập hệ quả
Hiệu giữa tập đối tượng của nút và tập đối tượng của
53
nút cha trái
54
, và
Ba toán tử mở rộng tập tiền đóng
Lớp các tập phổ biến đóng cùng độ hỗ trợ và các tập


55
sinh tương ứng của mỗi chúng

Lớp các tập phổ biến đóng cùng độ hỗ trợ và các tập
56
sinh có độ d i bé hơn hoặc bằng của mỗi chúng
57
Lớp các tập phổ biến đóng
Lớp các tập phổ biến đóng có độ hỗ trợ bé hơn hoặc
58
bằng
59
Lớp các tập phổ biến đóng thỏa ràng buộc
Lớp các tập phổ biến đóng thỏa ràng buộc ứng với tập
60
phổ biến đóng S thuộc
61
Lớp các tập phổ biến đóng có giao với khác rỗng
62
Lớp các tập phổ biến với ngưỡng
Biểu diễn duy nhất của lớp các tập phổ biến có cùng bao
63
đóng
Biểu diễn duy nhất của các tập phổ biến trong lớp tương
64


đương dưới hạn chế trên
Lớp tất cả các tập phổ biến có độ hỗ trợ bé hơn hoặc
65
bằng
66
Lớp các vế trái luật kết hợp với ràng buộc kép

Lớp các vế phải luật kết hợp với ràng buộc kép ứng với
67
vế trái
68
Hàm dẫn xuất không trùng lặp các tập phổ biến có bao
xvii
đóng và giao với khác rỗng
Hàm dẫn xuất không trùng lặp các tập phổ biến thuộc
69
Hàm dẫn xuất không trùng lặp các tập phổ biến thuộc
70
Biểu diễn duy nhất của lớp các tập phổ biến trong lớp
71
tương đương dưới của hạn chế trên có giao với
khác rỗng
Hàm dẫn xuất không trùng lặp các tập phổ biến thuộc
72


×