Tải bản đầy đủ (.pdf) (160 trang)

Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao (Luận án tiến sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.45 MB, 160 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ QUỐC PHÒNG

HỌC VIỆN KỸ THUẬT QUÂN SỰ

ĐẬU HẢI PHONG

NGHIÊN CỨU PHÁT TRIỂN MÔ HÌNH, THUẬT TOÁN
KHAI PHÁ TẬP PHẦN TỬ CÓ TRỌNG SỐ VÀ LỢI ÍCH CAO

LUẬN ÁN TIẾN SĨ CƠ SỞ TOÁN HỌC CHO TIN HỌC

HÀ NỘI – NĂM 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ QUỐC PHÒNG

HỌC VIỆN KỸ THUẬT QUÂN SỰ

ĐẬU HẢI PHONG

NGHIÊN CỨU PHÁT TRIỂN MÔ HÌNH, THUẬT TOÁN
KHAI PHÁ TẬP PHẦN TỬ CÓ TRỌNG SỐ VÀ LỢI ÍCH CAO

Chuyên ngành: Cơ sở Toán học cho Tin học
Mã số

: 62.46.01.10



LUẬN ÁN TIẾN SĨ CƠ SỞ TOÁN HỌC CHO TIN HỌC

NGƢỜI HƢỚNG DẪN KHOA HỌC:

1. TS NGUYỄN MẠNH HÙNG
2. PGS.TS ĐOÀN VĂN BAN

HÀ NỘI - 2018


LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là công trình nghiên cứu do tác giả thực
hiện dƣới sự hƣớng dẫn của tập thể cán bộ hƣớng dẫn. Luận án có sử dụng
thông tin trích dẫn từ nhiều nguồn tham khảo khác nhau, các thông tin trích
dẫn đều đƣợc ghi rõ nguồn gốc. Các số liệu thực nghiệm, kết quả nghiên cứu
trình bày trong luận án là hoàn toàn trung thực, chƣa đƣợc công bố bởi tác giả
nào hay trong bất kì công trình nào khác.

i


LỜI CẢM ƠN
Luận án này đƣợc thực hiện và hoàn thành tại Khoa Công nghệ Thông
tin, Học viện kỹ thuật Quân sự. Để đạt đƣợc kết quả này không thể thiếu sự
định hƣớng và hỗ trợ của giáo viên hƣớng dẫn. Tôi luôn tỏ lòng cảm ơn và tri
ân những ngƣời đã giúp đỡ trong quá trình nghiên cứu sau đây.
Tôi luôn tỏ lòng biết ơn công lao to lớn của hai giáo viên hƣớng dẫn.
Thầy là những ngƣời Thầy lớn tận tình, hƣớng dẫn và giúp đỡ trong nghiên
cứu.

Tôi trân trọng cảm ơn Lãnh đạo, Thầy/Cô trong Khoa Công nghệ Thông
tin, Phòng Sau đại học - Học viện Kỹ thuật Quân sự đã tạo điều kiện thuận
lợi, giúp đỡ trong quá trình học tập và nghiên cứu.
Tôi cảm ơn tới Ban Giám Hiệu, Thầy/Cô và bạn bè đồng nghiệp tại
trƣờng Đại học Thăng Long đã tạo điều kiện để tôi tập trung nghiên cứu.
Tôi xin dành tất cả sự yêu thƣơng và lời cảm ơn tới gia đình, bố mẹ, vợ
con, anh chị em và ngƣời thân luôn là động viên mạnh mẽ giúp tôi thực hiện
Luận án.
Xin chân thành cảm ơn!
Tác giả luận án

Đậu Hải Phong

ii


MỤC LỤC
LỜI CAM ĐOAN .............................................................................................I
LỜI CẢM ƠN ................................................................................................. II
MỤC LỤC ..................................................................................................... III
DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT........................ VI
DANH MỤC CÁC BẢNG .......................................................................... VII
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ...................................................... IX
MỞ ĐẦU .......................................................................................................... 1
CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ TẬP PHỔ BIẾN ............... 5
1.1. Giới thiệu chung ..................................................................................... 5
1.2. Tập phổ biến ........................................................................................... 6
1.2.1. Khái niệm cơ sở ................................................................................ 7
1.2.2. Một số phƣơng pháp khai phá tập phổ biến...................................... 8
1.3. Tập phổ biến có trọng số ...................................................................... 12

1.3.1. Khái niệm cơ sở .............................................................................. 13
1.3.2. Một số phƣơng pháp khai phá tập phổ biến có trọng số ................. 14
1.3.3. Thuật toán khai phá tập phổ biến có trọng số theo chiều dọc ........ 19
1.4. Tập lợi ích cao ..................................................................................... 34
1.4.1. Khái niệm cơ sở .............................................................................. 35
1.4.2. Một số phƣơng pháp khai phá tập lợi ích cao ................................. 38
1.5. Kết luận chƣơng ................................................................................... 43
CHƢƠNG 2. THUẬT TOÁN KHAI PHÁ TẬP LỢI ÍCH CAO DỰA
TRÊN MÔ HÌNH CWU ............................................................................... 45
2.1. Giới thiệu chung ................................................................................... 45
iii


2.2. Mô hình hiệu quả khai phá tập lợi ích cao ........................................... 46
2.2.1. Đặt vấn đề ....................................................................................... 46
2.2.2. Đề xuất mô hình CWU ................................................................... 47
2.3. Thuật toán HP khai phá tập lợi ích cao dựa trên chỉ số hình chiếu và
mô hình CWU ...................................................................................... 51
2.3.1. Mô tả thuật toán HP ........................................................................ 54
2.3.2. Ví dụ minh họa thuật toán HP ........................................................ 57
2.3.3. Độ phức tạp tính toán thuật toán HP............................................... 63
2.3.4. Kết quả thực nghiệm ....................................................................... 64
2.4. Thuật toán song song PPB khai phá tập lợi ích cao dựa trên chỉ số hình
chiếu và danh sách lợi ích .................................................................... 68
2.4.1. Một số cấu trúc đƣợc sử dụng trong thuật toán PPB gồm: ............. 70
2.4.2. Mô tả thuật toán song song PPB ..................................................... 73
2.4.3. Ví dụ minh họa thuật toán PPB ...................................................... 75
2.4.4. Độ phức tạp tính toán của thuật toán PPB ...................................... 80
2.4.5. Kết quả thực nghiệm ....................................................................... 82
2.5. Thuật toán CTU-PRO+ ........................................................................ 85

2.5.1. Một số cấu trúc................................................................................ 86
2.5.2. Độ phức tạp tính toán thuật toán CTU-PRO+ ................................ 97
2.5.3. Kết quả thực nghiệm ....................................................................... 98
2.6. Kết luận chƣơng ................................................................................. 100
CHƢƠNG 3. THUẬT TOÁN KHAI PHÁ TẬP LỢI ÍCH CAO TRÊN
CÂY DANH SÁCH LỢI ÍCH VÀ CẤU TRÚC RTWU ............................. 102
3.1. Cấu trúc dữ liệu hiệu quả cho khai phá tập lợi ích cao ...................... 102
3.1.1. Mô tả cấu trúc cây CUP ................................................................ 104
iv


3.1.2. Ví dụ minh họa cây CUP .............................................................. 106
3.2. Thuật toán HUI-Growth ..................................................................... 111
3.2.1. Ví dụ minh họa thuật toán HUI-Growth ....................................... 112
3.2.2. Độ phức tạp thuật toán HUI-Growth ............................................ 113
3.2.3. Kết quả thực nghiệm ..................................................................... 114
3.3. Cấu trúc RTWU cho tỉa tập ứng viên................................................. 116
3.4. Thuật toán tuần tự EAHUI-Miner dựa trên cấu trúc RTWU ............. 125
3.4.1. Xây dựng danh sách lợi ích mở rộng ............................................ 125
3.4.2. Thuật toán tuần tự EAHUI-Miner ................................................ 127
3.4.3. Độ phức toán tính toán thuật toán EAHUI-Miner ........................ 127
3.4.4. Thuật toán song song PEAHUI-Miner ......................................... 128
3.4.5. Kết quả thực nghiệm ..................................................................... 130
3.5. Kết luận chƣơng ................................................................................. 134
KẾT LUẬN VÀ KIẾN NGHỊ .................................................................... 136
Kết quả đạt được:...................................................................................... 136
Hướng phát triển:...................................................................................... 137
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN
ĐẾN LUẬN ÁN ........................................................................................... 138
TÀI LIỆU THAM KHẢO .......................................................................... 139


v


DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT

1.

Từ viết
tắt
AU

Actual Utility

Lợi ích thực tế

2.

CFP

Compact Frequent Pattern

Mẫu phổ biến nén

3.

CSDL

Database


Cơ sở dữ liệu

4.

CUP

Compressed Utility Pattern

Mẫu lợi ích nén

5.

CWU

Candidate Weighted Utility

Lợi ích trọng số ứng viên

6.

FI

Frequent Itemsets

Tập phổ biến

7.

FP


Frequent Pattern

Mẫu phổ biến

8.

IT

Index Table

Bảng chỉ số

9.

HCWU

High Candidate Weighted

Lợi ích ứng viên có trọng

Utility

số cao

Low Candidate Weighted

Lợi ích trọng số ứng viên

Utility


thấp

STT

10. LCWU

11. RTWU

Thuật ngữ tiếng Anh

Remaining Transaction
Weighted Utilization

Thuật ngữ tiếng Việt

Lợi ích giao dịch còn lại
Bảng ứng viên

12. TC

Table Candidate

13. TWU

Transaction Weighted Utility Lợi ích trọng số giao dịch

14. UL

Utility List


Danh sách lợi ích

15. UT

Utility Table

Bảng giao dịch lợi ích

Vertical Mining using

Khai phá theo chiều dọc

Diffset Groups

sử dụng các nhóm Diffset

16. VMUDG

17. VMWFP

Vertical Mining of Weighted Khai phá theo chiều dọc
tập phổ biến có trọng số

Frequent Patterns

vi


DANH MỤC CÁC BẢNG
Bảng 1.1. Cơ sở dữ liệu minh họa................................................................... 20

Bảng 1.2. Bảng Diffset các phần tử ................................................................ 20
Bảng 1.3. Bảng trọng số của các phần tử ........................................................ 22
Bảng 1.4. Cơ sở dữ liệu giao dịch minh họa ................................................... 35
Bảng 1.5. Lợi ích của các phần tử ................................................................... 35
Bảng 2.1. Cơ sở dữ liệu giao dịch minh họa ................................................... 48
Bảng 2.2. Lợi ích của các phần tử ................................................................... 48
Bảng 2.3. Bảng TC1 với tập gồm 1- phần tử ................................................... 53
Bảng 2.4. Bảng chỉ số ITA của tập {A}........................................................... 53
Bảng 2.5. Bảng UTA của phần tử A ................................................................ 54
Bảng 2.6. Bảng TC1 với tập gồm 1 phần tử .................................................... 57
Bảng 2.7. Cơ sở dữ liệu giao dịch sau khi sắp xếp và loại D ......................... 58
Bảng 2.8. Bảng TC1 sau khi cập nhật lại CWU .............................................. 58
Bảng 2.9. Bảng UTC của phần tử C ................................................................ 59
Bảng 2.10. Bảng chỉ số ITC của phần tử C...................................................... 59
Bảng 2.11. Bảng TC2 với tiền tố C trong giao dịch 1 ..................................... 60
Bảng 2.12. Bảng TC2 với tiền tố C trong giao dịch 1 và 2 ............................. 60
Bảng 2.13. Bảng TC2 với tiền tố C trong CSDL ............................................. 61
Bảng 2.14. Bảng TC1 sau khi cập nhật lại CWU ............................................ 61
Bảng 2.15. Bảng chỉ số IT{CB} của tập {CB} .................................................. 62
Bảng 2.16. So sánh giá trị CWU và TWU ...................................................... 63
vii


Bảng 2.17. Cơ sở dữ liệu giao dịch minh họa................................................... 68
Bảng 2.18. Bảng lợi ích ngoài của các phần tử................................................. 69
Bảng 2.19. Bảng lợi ích các phần tử trong các giao dịch .................................. 70
Bảng 2.20. Bảng TC1 với tập gồm 1 phần tử..................................................... 70
Bảng 2.21. Bảng chỉ số ITC của tập {C} ......................................................... 71
Bảng 2.22. Bảng TC1 toàn cục với tập gồm 1 phần tử.................................... 75
Bảng 2.23. Bảng chỉ số ITC của phần tử C...................................................... 76

Bảng 2.24. Bảng TC2 với tiền tố C trong giao dịch 1 ..................................... 77
Bảng 2.25. Bảng TC2 với tiền tố C trong giao dịch 1 và 2 ............................. 78
Bảng 2.26. Bảng TC2 với tiền tố C ................................................................. 78
Bảng 2.27. Bảng chỉ số IT{CB} của tập {CB} .................................................. 79
Bảng 2.28. So sánh số lƣợng ứng viên trên danh sách lợi ích và TWU ......... 80
Bảng 2.29. Cơ sở dữ liệu giao dịch minh họa ................................................. 86
Bảng 2.30. Bảng lợi ích của các phần tử......................................................... 86
Bảng 3.1. Cơ sở dữ liệu giao dịch ................................................................. 103
Bảng 3.2. Bảng lợi ích của các phần tử......................................................... 103
Bảng 3.3. CSDL giao dịch đã đƣợc sắp. ....................................................... 103
Bảng 3.4. Cơ sở dữ liệu giao dịch ................................................................. 117
Bảng 3.5. Lợi ích các phần tử ....................................................................... 118
Bảng 3.6. Danh sách lợi ích mở rộng của tập {bc} ...................................... 119
Bảng 3.7. Các thuộc tính của các CSDL ....................................................... 130
Bảng 3.8. So sánh số lƣợng tập ứng viên. ..................................................... 131
viii


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Cây từ điển (hoặc cây liệt kê) ........................................................... 9
Hình 1.2. Tính độ hỗ trợ dựa trên Diffset ....................................................... 21
Hình 1.3. Các nhóm cơ bản có tiền tố A ......................................................... 23
Hình 1.4. Lớp các nhóm có tiền tố A .............................................................. 25
Hình 1.5. Chia CSDL cho P0, P1 .................................................................... 31
Hình 1.6. Diffset trên CSDL cục bộ................................................................ 32
Hình 1.7. Diffset các cặp theo tiền tố cho P0 và P1........................................ 32
Hình 1.8. Kết quả so sánh VMWFP và PVMWFP với 3 thread .................... 34
Hình 2.1. Biểu đồ phân bố lợi ích ngoài của các phần tử ngoài trên
T30I4D100K ................................................................................ 65
Hình 2.2. Biểu đồ phân bố lợi ích ngoài của các phần tử ngoài trên Mushroom. 66

Hình 2.3. Số lƣợng ứng viên đƣợc sinh ra trên dữ liệu T30I4D100KN100K 66
Hình 2.4. Thời gian thực hiện trên dữ liệu T30I4D100KN100K ................... 67
Hình 2.5. Thời gian thực hiện theo số lƣợng giao dịch với ngƣỡng
minutil=20% ................................................................................ 67
Hình 2.6. Số lƣợng ứng viên đƣợc sinh ra trên dữ liệu Mushroom ................ 67
Hình 2.7. Thời gian thực hiện trên dữ liệu Mushroom ................................... 68
Hình 2.8. Sơ đồ thuật toán song song PPB ..................................................... 72
Hình 2.9. Kết quả TWU và AU toàn cục ........................................................ 75
Hình 2.10. Biểu đồ phân bố lợi ích ngoài của các phần tử trên T30I4D100K 83
Hình 2.11. Biểu đồ phân bố lợi ích ngoài của các phần tử trên Mushroom ... 83
ix


Hình 2.12. Thời gian thực hiện trên dữ liệu T30I4D100KN100K ................. 84
Hình 2.13. Số lƣợng ứng viên đƣợc sinh trên dữ liệu T30I4D100KN100K ...... 84
Hình 2.14. Thời gian thực hiện trên dữ liệu Mushroom ................................. 85
Hình 2.15. Số lƣợng ứng viên đƣợc sinh ra trên dữ liệu Mushroom .......... 85
Hình 2.16. GlobalCUP-Tree và GlobalItemTable .......................................... 87
Hình 2.17. Khai phá trên Cơ sở dữ liệu chiếu................................................. 93
Hình 2.18. GlobalCUP-Tree và GlobalItemTable sau khi khai phá các tập
phần tử có chỉ số 5 .......................................................................... 96
Hình 2.19. Biểu đồ phân bố lợi ích ngoài của các phần tử trên T5N5D100K 99
Hình 2.20. Thời gian thực hiện trên dữ liệu T5N5D100K ............................. 99
Hình 2.21. Thời gian thực hiện trên dữ liệu T10N5D100K ......................... 100
Hình 3.1. Ví dụ về nút trong cây CUP .......................................................... 105
Hình 3.2. Cây CUP sau khi chèn giao dịch T1, T2 ........................................ 107
Hình 3.3. Cây CUP toàn cục ......................................................................... 107
Hình 3.4. Mẫu điều kiện của phần tử e ......................................................... 112
Hình 3.5. Cây CUP điều kiện của {e} .......................................................... 113
Hình 3.6. Thời gian thực hiện trên dữ liệu Mushroom ................................. 115

Hình 3.7. Thời gian thực hiện trên dữ liệu T40I4D100K ............................. 116
Hình 3.8. Danh sách lợi ích của tập {bc} và tập {bd} .................................. 124
Hình 3.9. Danh sách lợi ích mở rộng của tập {bc} và tập {bd} ................... 124
Hình 3.10. Sơ đồ thuật toán PEAHUI-Miner................................................ 129
Hình 3.11. Thời gian thực hiện trên dữ liệu Mushroom. .............................. 132
x


Hình 3.12. Thời gian thực hiện trên dữ liệu Foodmart ................................. 132
Hình 3.13. Thời gian thực trên dữ liệu T10I4D100K ................................... 132
Hình 3.14. Thời gian thực trên dữ liệu T10I4D200K ................................... 133
Hình 3.15. Thời gian thực hiện thuật toán EAHUI-Miner và PEAHUI-Miner
trên dữ liệu T10I4D100K.............................................................. 133
Hình 3.16. Thời gian thực hiện thuật toán EAHUI-Miner và PEAHUI-Miner
trên dữ liệu T10I4D200K.............................................................. 134

xi


MỞ ĐẦU
Ngày nay, công nghệ thông tin đóng một vai trò rất quan trọng trong mọi
khía cạnh của cuộc sống con ngƣời, giúp thu thập khối lƣợng dữ liệu khổng lồ
từ nhiều nguồn khác nhau. Dữ liệu này có thể đƣợc lƣu trữ và duy trì để tạo ra
thông tin và tri thức. Khai phá dữ liệu là một quá trình tìm kiếm thông tin hữu
ích từ số lƣợng lớn dữ liệu. Thông tin đó đƣợc sử dụng để dự đoán các xu
hƣớng, hành vi trong tƣơng lai. Hàng ngày một lƣợng dữ liệu khổng lồ đƣợc
tạo ra trong các lĩnh vực khác nhau. Do đó, khai phá dữ liệu đang trở thành một
kỹ thuật hữu ích và đƣợc ứng dụng rộng lớn trong các lĩnh vực khác nhau. Các
phƣơng pháp khai phá dữ liệu đƣợc sử dụng, giúp xây dựng mô hình dự đoán,
phát hiện hành vi của dữ liệu, từ đó đƣa ra quyết định [44]. Khai phá dữ liệu

đang trở nên phổ biến từ những thành công trong nhiều lĩnh vực khác nhau nhƣ
y tế, tài chính, viễn thông, kinh doanh, giáo dục,… [43]. Khai phá dữ liệu gồm
các kỹ thuật khác nhau nhƣ: phân lớp, phân cụm, khai phá luật kết hợp,…
Khai phá luật kết hợp là một trong những kỹ thuật quan trọng nhất trong
khai phá dữ liệu. Mục đích chính của khai phá luật kết hợp là tìm ra mối quan
hệ giữa các phần tử khác nhau trong cơ sở dữ liệu [54]. Bài toán khai phá luật
kết hợp gồm hai bài toán con đó là khai phá tập phổ biến và sinh luật kết hợp,
trong đó bài toán khai phá tập phổ biến thu hút nhiều nhà nghiên cứu trong
nƣớc và thế giới quan tâm. Khai phá tập phổ biến trong thực tế vẫn còn nhiều
hạn chế, không đáp ứng đƣợc nhu cầu của ngƣời sử dụng nhƣ đánh giá sự quan
trọng của từng phần tử trong từng giao dịch hay trong cơ sở dữ liệu. Để khắc
phục những hạn chế của khai phá tập phổ biến truyền thống, các nhà nghiên
cứu đã đề xuất mô hình mở rộng, có tính đến mức độ quan trọng khác nhau của
các phần tử trong cơ sở dữ liệu nhƣ: khai phá tập phổ biến có trọng số (WFI –
Weighted Frequent Itemsets) [11], [58], [72], [32], [33], [64],…; khai phá tập
1


Luận án đủ ở file: Luận án full













×