Tải bản đầy đủ (.pdf) (72 trang)

(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1004.57 KB, 72 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC
-----------------

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
TRẦN PHÚ DƯ

KHAI THÁC DÀN TẬP PHỔ BIẾN ĐÓNG SỬ
DỤNG CẤU TRÚC DSBV

Ngành: CÔNG NGHỆ THÔNG TIN
Mã số chuyên ngành: 60480201

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. LÊ HOÀI BẮC

Tp. HCM, tháng 6 năm 2019


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC
-----------------

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
TRẦN PHÚ DƯ

KHAI THÁC DÀN TẬP PHỔ BIẾN ĐÓNG SỬ
DỤNG CẤU TRÚC DSBV

Ngành: CÔNG NGHỆ THÔNG TIN
Mã số chuyên ngành: 60480201



NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. LÊ HOÀI BẮC

Tp. HCM, tháng 6 năm 2019


LỜI CAM ĐOAN
Tôi cam đoan: báo cáo luận văn “Khai Thác Dàn Tập Phổ Biến Đóng Sử Dụng Cấu
Trúc DSBV” là cơng trình nghiên cứu của riêng tơi và được sự hướng dẫn khoa học của
PGS.TS.Lê Hoài Bắc.
Các kết quả nghiên cứu có tính độc lập riêng, khơng sao chép bất kỳ tài liệu nào và
chưa công bố nội dung này ở bất kỳ đâu. Các số liệu trong luận văn được sử dụng trung
thực, nguồn trích dẫn có chú thích rõ ràng, có tính kế thừa, phát triển từ các tài liệu, tạp
chí, các cơng trình nghiên cứu khác.
Tơi xin hoàn toàn chịu trách nhiệm về lời cam đoan của tôi.

TP. HCM, ngày 25 tháng 10 năm 2018
Tác giả
Trần Phú Dư


Nhận xét của Thầy hướng dẫn:
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................

...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................


Nhận xét của Thầy phản biện:
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................

...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................


LỜI CẢM ƠN

Lời đầu tiên, Tôi xin chân thành bày tỏ lịng biết ơn sự nhiệt tình, và những kiến
thức bổ ích mà các thầy cơ giảng dạy trong khóa cao học của lớp chúng tơi, đã tận tình
chỉ dẫn, truyền đạt khi Tôi học tập tại trường đại học Ngoại Ngữ Tin Học thành phố Hồ
Chí Minh.
Tơi rất trân trọng ghi nhớ lòng biết ơn sâu sắc và gửi lời cảm ơn chân thành đến
thầy PGS.TS Lê Hoài Bắc đã tận tình chỉ dẫn, và hướng dẫn rõ ràng các vấn đề liên quan
trong quá trình thực hiện luận văn của tơi từ lúc bắt đầu đến khi hồn thành.
Trong q trình học tập và làm luận văn, ngồi sự giúp đỡ của thầy cô, Tôi luôn
nhận được sự quan tâm, động viên từ ba mẹ, gia đình, và bạn bè. Tôi xin chân thành cảm
ơn tất cả người thân yêu đã luôn động viên và giúp đỡ.
Lĩnh vực khai thác dữ liệu là hết sức rộng lớn, trong phạm vi của đề tài thực hiện khó
tránh khỏi sai sót, rất mong nhận được sự cảm thơng và ý kiến đóng góp q báu của thầy
cơ, anh chị và bạn bè.

Trần Phú Dư



MỤC LỤC
LỜI NÓI ĐẦU ................................................................................................................. 1
1. Mở đầu: ........................................................................................................................ 1
2. Bố cục đề tài ................................................................................................................. 3
Chương 1: TỔNG QUAN ................................................................................................... 4
1. Khai thác dữ liệu: ........................................................................................................ 4
2. Ứng dụng của khai thác dữ liệu .................................................................................. 5
3. Khai thác dàn các tập phổ biến đóng .......................................................................... 7
4. Ý nghĩa khoa học và thực tiễn của đề tài .................................................................... 8
5. Phương pháp nghiên cứu và đối tượng nghiên cứu .................................................... 8
6. Khó khăn và Thách thức ............................................................................................. 9
7. Mục tiêu và phạm vi của luận văn .............................................................................. 9
8. Đóng góp của luận văn .............................................................................................. 10
Chương 2: CƠ SỞ LÝ THUYẾT ...................................................................................... 11
1. Khái quát bài toán ..................................................................................................... 11
2. Hướng tiếp cận khai thác tập phổ biến đóng ............................................................. 12
3. Hướng tiếp cận khai thác tập sinh (Minimal Generator) .......................................... 16
4. Hướng tiếp cận khai thác Dàn các tập phổ biến đóng ............................................... 16
5. Đề xuất cấu trúc dữ liệu ............................................................................................ 17
5.1 Superset bit-vector ............................................................................................. 17
5.2 Dynamic superset bit-vector .............................................................................. 18
5.2.1 Tìm FCS từ cấu trúc DSBV ........................................................................ 19
5.2.2 Tìm minimal FCS từ cấu trúc DSBV ......................................................... 20
5.2.3 Giao 2 DSBVs ............................................................................................ 21
5.2.4 Cập nhật 1 DSBV ....................................................................................... 22
Chương 3: ĐỀ XUẤT THUẬT TỐN KHAI THÁC DÀN CÁC TẬP PHỔ BIẾN
ĐĨNG VÀ CẢI TIẾN. ...................................................................................................... 24
1. Phát biểu bài toán khai thác Dàn các tập phổ biến đóng........................................... 24

2. Thuật Tốn BVCL ..................................................................................................... 25


2.1 Lưu đồ tổng quát của thuật toán .......................................................................... 30
2.2 Các bước chính của thuật tốn ............................................................................. 31
3. Đặc tả và phân tích thuật tốn ................................................................................... 36
4. Cải tiến thuật toán gốc ............................................................................................... 43
4.1 Cơ sở lý thuyết ..................................................................................................... 43
4.1.1 Kết nối Galois: ............................................................................................... 43
4.1.2 Định nghĩa tốn tử đóng: ................................................................................ 43
4.1.3 Các tính chất của IT-pair ................................................................................ 43
4.1.4 Minimal Generator (mG) ................................................................................ 44
4.1.5 Một số nhận xét về mG ................................................................................... 44
4.2 Thuật toán ............................................................................................................. 44
5. Kết quả thực nghiệm và so sánh................................................................................ 46
5.1 Bộ dữ liệu Chess. ................................................................................................. 47
5.2 Bộ dữ liệu Mushroom. ......................................................................................... 49
5.3 Bộ dữ liệu Pumsb. ................................................................................................ 50
5.4 Bộ dữ liệu Retail. ................................................................................................. 52
5.5 Bộ dữ liệu T10I4D100K ...................................................................................... 54
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................................................... 57
1. Kết luận ................................................................................................................... 57
2. Hướng phát triển ...................................................................................................... 57
TÀI LIỆU THAM KHẢO ................................................................................................. 59


Danh mục các bảng
Bảng 2.1: Cơ sở dữ liệu giao dịch book store. .................................................................. 13
Bảng 2.2: Cơ sở dữ liệu giao dịch của bảng 2.1 được mã hóa. ......................................... 13
Bảng 2.3: Cơ sở dữ liệu giao dịch theo chiều dọc dùng bit vector. .................................. 14

Bảng 2.4: Tìm cids của FCS của itemset có DSBV: {1, {12, 129}} ................................ 20
Bảng 2.5: Khai thác minimal FCS từ cấu trúc DSBV ....................................................... 21
Bảng 3.1: Bộ dữ liệu chess ................................................................................................ 47
Bảng 3.2: Kết quả thực nghiệm thu được với bộ dữ liệu Chess ........................................ 47
Bảng 3.3: Bộ dữ liệu Mushroom ....................................................................................... 49
Bảng 3.4: Kết quả thực nghiệm thu được với bộ dữ liệu Mushroom ................................ 49
Bảng 3.5: Bộ dữ liệu Pumsb .............................................................................................. 51
Bảng 3.6: Kết quả thực nghiệm thu được với bộ dữ liệu Pumsb ...................................... 51
Bảng 3.7: Bộ dữ liệu Retail ............................................................................................... 52
Bảng 3.8: Kết quả thực nghiệm thu được với bộ dữ liệu Retail ........................................ 53
Bảng 3.9: Bộ dữ liệu T10I4D100K ................................................................................... 54
Bảng 3.10: Kết quả thực nghiệm thu được với bộ dữ liệu T10I4D100K .......................... 54


Danh mục các hình vẽ, đồ thị
Hình 2.1: Dynamic superset bit vector .............................................................................. 18
Hình 2.2: Giao 2 DSBVs ................................................................................................... 22
Hình 2.3: Hội 2 DSBVs ..................................................................................................... 23
Hình 3.1: Lưu đồ thuật tốn............................................................................................... 31
Hình 3.2: Cây khai thác FCIs ............................................................................................ 33
Hình 3.3: Khai thác Dàn FCIs ........................................................................................... 36
Hình 3.4: biểu đồ so sánh thời gian thực thi của bộ dữ liệu Chess ................................... 48
Hình 3.5: biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu Chess ................................ 48
Hình 3.6: Biểu đồ so sánh thời gian thực thi của bộ dữ liệu Mushroom ........................... 50
Hình 3.7: Biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu Mushroom ....................... 50
Hình 3.8: Biểu đồ so sánh thời gian thực thi của bộ dữ liệu Pumsb ................................. 51
Hình 3.9: Biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu Pumsb .............................. 52
Hình 3.10: Biểu đồ so sánh thời gian thực thi của bộ dữ liệu Retail ................................. 53
Hình 3.11: Biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu Retail ............................. 54
Hình 3.11: Biểu đồ so sánh thời gian thực thi của bộ dữ liệu T10I4D100K ..................... 55

Hình 3.12: Biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu T10I4D100K ................. 55


Danh mục từ viết tắt

STT

Từ viết tắt

Từ viết đầy đủ

Ý nghĩa, diễn giải

Bit-Vector oriented
1

BVCL

frequent Closed itemset

Tên thuật toán

Lattice
2

CID

Closed itemset identifier

ID của tập đóng


3

CSDL

Cơ sở dữ liệu

Tập các giao dịch chứa tập hạng mục

4

DBV

Dynamic bit vector

Vector bit động.

5

DSBV

Dynamic superset bit
vector

Vector bit động lưu ID của tập bao nó

6

FCS


Frequent close supeset

Tập bao phổ biến đóng

7

FCI

Frequent close itemeset

Tập phổ biến đóng

8

MG

Minimal generator

Tập sinh

9

NARs

Non- redundant
association rules

các luật kết hợp không dư thừa

10


nsLSB

Non-zero least
significant bit

vị trí bit 1 gần nhất trong byte tính từ
phải qua

11

nSL

Non Subsuming list

Danh sách tập khơng subsume

12

OLAP

Online Analysis
Processing

Phân tích dữ liệu trực tuyến.

13

OLTP


Online Transaction
Processing

Phân tích dữ liệu giao tác trực tuyến.

14

SL

Subsuming list

Danh sách tập subsume

15

TID

Transaction identifiers

Mã (định danh) giao dịch, giao tác.


LỜI NÓI ĐẦU

1. Mở đầu
Ngày nay, khi khả năng lưu trữ của máy tính tăng cao, cùng với sự gia tăng
khủng khiếp lượng dữ liệu trên mạng intenet. Ngày càng xuất hiện nhiều cơ sở dữ
liệu với lượng dữ liệu lớn và phức tạp, lượng dữ liệu trong các cơ sở dữ liệu này
q lớn để có thể phân tích, trích xuất theo phương pháp thống kê truyền thống.
Điều này địi hỏi phải có phương pháp, kỹ thuật để khai thác, trích xuất thơng tin

trong các tập dữ liệu đồ sộ này.
Data mining hay khai thác dữ liệu là quá trình khám phá các thơng tin, các
mối quan hệ có giá trị ẩn chứa bên trong lượng dữ liệu lớn. Q trình khai thác dữ
liệu kết hợp các cơng cụ từ thống kê và trí tuệ nhân tạo (như mạng nơ ron và học
máy) với quản lý cơ sở dữ liệu để phân tích các tập dữ liệu lớn. Khai thác dữ liệu
được sử dụng rộng rãi trong kinh doanh (bảo hiểm, ngân hàng, bán lẻ), nghiên cứu
khoa học (thiên văn học, y học) và an ninh chính phủ (phát hiện bọn tội phạm và
khủng bố). Khai thác dữ liệu được xem là phương pháp mà đơn vị Able Danger
của Quân đội Mỹ đã dùng để xác định kẻ đứng đầu cuộc tấn công ngày 11 tháng 9,
Mohamed Atta, và ba kẻ tấn công ngày 11 tháng 9 khác là các thành viên bị nghi
ngờ thuộc lực lượng al Qaeda hoạt động ở Mỹ hơn một năm trước cuộc tấn cơng.
Tìm những mẫu quan trọng và hữu ích trong 1 tập dữ liệu lớn và phân tích
những quan hệ trong các mẫu này là 1 phần trọng yếu của data mining. Tất cả
những mẫu này có thể được sử dụng để phát sinh tập luật kết hợp cần thiết. Tập
luật kết hợp mô tả sự đồng xuất hiện và mối quan hệ giữa các mẫu. Những luật
này có thể rất hữu ích cho nhiều tổ chức thương mại. Các luật kết hợp có thể đóng
vai trị quan trọng trong mối liên quan đến việc mua hàng ở siêu thị. Phân tích các
đặc điểm của hàng hóa giao dịch, chúng ta có thể dự đốn thói quen về ăn uống
của khách hàng, về tình trạng tài chính và nhu cầu tiêu dùng của các sản phẩm. Nó
cũng giúp y khoa nghiên cứu tương tác của một số thuốc với nhau. Vì thế, việc
1


phát triển các thuật toán để khai thác các mối quan hệ giữa các mẫu luôn là lĩnh
vực nghiên cứu được quan tâm.
Những mẫu mà thường xuyên xãy ra giao dịch trong database được gọi là các
mẫu phổ biến. Tuy nhiên, những mẫu phổ biến thường rất lớn và chứa nhiều mẫu
dư thừa trong tập dữ liệu, chẳng hạng như về sinh học, viễn thông, điều tra dân số.
Những tập các mẫu phổ biến đóng là giải pháp để loại bỏ các mẫu dư thừa từ
những tập mẫu phổ biến. Một tập phổ biến được gọi là phổ biến đóng nếu như

khơng có tập cha (bao nó) có cùng độ phổ biến.
Sự lặp lại giữa các quan hệ Tập Cha – Tập Con trong các tập đóng làm tăng
thêm nhiều chi phí trong việc phát sinh các luật kết hợp không dư thừa (NARs).
Tuy nhiên cũng thấy rằng, các luật kết hợp khơng dư thừa có thể được phát sinh
hiệu quả hơn từ cấu trúc dàn của các tập đóng so với việc khai thác trực tiếp từ tập
đóng [4]. Cấu trúc dàn sắp xếp tất cả các tập đóng theo quan hệ cha – con [18].
Dàn mô tả sự phụ thuộc giữa các tập đóng dẫn đến việc khai thác nhanh các luật
kết hợp không dư thừa.
Mục tiêu của luận văn này hướng tới cách giải quyết bài toán: Từ cơ sở dữ
liệu có sẵn, làm sao để khai thác tồn bộ các tập phổ biến đóng, quan hệ cha – con
giữa các tập này, cải tiến giải thuật khai thác dàn các tập phổ biến đóng để việc
khai thác tập luật kết hợp sau này được dễ dàng và hiệu quả hơn.
Dựa trên một số cơng trình nghiên cứu về lĩnh vực khai thác tập phổ
biến đóng trong những năm gần đây, đặc biệt là dựa trên công trình nghiên
cứu năm 2017: “An efficient dynamic superset bit-vector approach for mining

frequent closed itemsets and their lattice structure”[1] của Tahrima Hashem và
cộng sự. Từ đó luận văn sẽ tập trung nghiên cứu:
• Khai thác tập phổ biến đóng: tìm hiểu về tập phổ biến, tập phổ biến
đóng, và các ứng dụng của khai thác tập phổ biến đóng và dàn, phát biểu

2


bài toán và các phương pháp khai thác dàn tập phổ biến đóng nỗi bật đã
được nghiên cứu trước đó.
• Khai thác dàn tập phổ biến đóng: trình bày về dàn các tập phổ biến đóng,
cấu trúc DSBV.
• Cải tiến thuật toán: đề xuất phương pháp khai thác song song tập sinh và
dàn của tập phổ biến đóng.



Kết quả thự nghiệm trên thuật toán BVCL cải tiến, so sánh với thuật toán

gốc và các phương pháp trước đây.
2. Bố cục đề tài
Luận văn trình bày trong 03 chương:
- Chương 1: Giới thiệu tổng quan về khai thác dữ liệu, ý nghĩa của khai thác dữ liệu,
ứng dụng của khai thác dữ liệu, khai thác tập phổ biến đóng, nêu rõ phạm vi, mục tiêu,
phương pháp nghiên cứu, ý nghĩa khoa học và thực tiễn, các kết quả dự kiến với đóng
góp của luận văn là đề xuất một cải thiện khai thác dàn các tập phổ biến đóng của thuật
tốn BVCL.

- Chương 2: Trình bày cơ sở lý thuyết của các khái niệm, kỹ thuật khai thác dàn các
tập phổ biến đóng, tập sinh và các giai đoạn tổ chức bài tốn. Mơ tả và phân tích ưu điểm
khuyết điểm của các thuật tốn đã có trước đó. Từ đó, hình thành hướng đi mới cho thuật
tốn cải tiến khai thác dàn tập phổ biến đóng.

- Chương 3: Đề xuất thuật toán cải tiến khai thác dàn các tập phổ biến đóng, chỉ rõ
các bước cải tiến mới so với thuật toán BVCL, so sánh kết quả thực nghiệm của thuật
toán mới với thuật toán gốc cũng như với các thuật tốn đã có.

- Tiếp theo, là phần Kết luận và Hướng phát triển, nêu tóm gọn về kết quả đạt được
cũng như các hướng nghiên cứu, ứng dụng có thể mở rộng và phát triển của luận văn
trong tương lai.
Cuối cùng, phần Tài liệu tham khảo, liệt kê danh sách các tài liệu tham khảo sử dụng
trong luận văn.

3



Chương 1: TỔNG QUAN
1. Khai thác dữ liệu
Khối lượng dữ liệu khổng lồ được thu thập trên toàn thế giới, tăng lên hàng
terabyte (hoặc petabyte) dữ liệu mỗi ngày từ nhiều nguồn dữ liệu: dữ liệu về kinh tế,
khoa học kỹ thuật, y tế, mạng internet, mạng xã hội, các hệ thống truyền dữ liệu tự
động và từ các khía cạnh khác trong cuộc sống hàng ngày của con người.
Từ những năm đầu thập kỷ 60 đến cuối những năm 1980, công nghệ sưu tập,
lưu trữ và xử lý, phân tích dữ liệu đã tiến bộ vượt bậc trước sự phát triển mạnh mẽ của
xu hướng tin học hóa trên toàn thế giới. Ban đầu sự thu thập và phát sinh cơ sở dữ
liệu, chỉ là truy xuất file thô sơ (đầu những năm 1960). Sau những năm 1970 đến đầu
1980s, phát triển sang hệ thống quản lý CSDL, trong đó đã có cơng cụ phân tích dữ
liệu giao dịch trực tuyến - OLTP. Từ giữa đến cuối những năm 1980, phát triển hệ
thống cơ sở dữ liệu nâng cao và hệ thống phân tích CSDL nâng cao, triển khai kèm
theo đó là các cơng cụ nổi bật dành cho phân tích dữ liệu nâng cao. Trong đó có sự ra
đời của kiến trúc kho dữ liệu mới đi kèm kỹ thuật OLAP, có khả năng khai thác dữ
liệu đa chiều, phân tích dữ liệu sâu, xem thơng tin với nhiều góc độ khác nhau.
Tuy nhiên khối dữ liệu khổng lồ được thu thập và lưu trữ trong nhiều kho chứa
dữ liệu lớn không ngừng tăng nhanh. Việc hiểu hết các thơng tin, cũng như rút trích ra
các kiến thức ẩn đã nhúng trong khối dữ liệu khổng lồ cực lớn này mà khơng có cơng
cụ mạnh mẽ hỗ trợ là vượt xa khả năng của con người. Điều này địi hỏi cần có một
cơng cụ mạnh mẽ, linh hoạt hơn để đáp ứng nhu cầu khám phá các mẫu dữ liệu đặc
biệt, quan trọng, nhằm rút trích ra các thơng tin, kiến thức có giá trị từ khối dữ liệu
khổng lồ.
Cuối những năm 1980, khai thác dữ liệu ra đời, đánh dấu sự tiến triển mới của
công nghệ thông tin. Các chức năng của khai thác dữ liệu bao gồm: mơ tả đặc tính và
phân biệt dữ liệu, khai thác các mẫu (chuỗi) phổ biến, sự kết hợp và tương quan, phân
lớp và hồi quy, phân tích gom cụm, và nhận dạng ngoại lệ.

4



Trong tương lai, nếu phát sinh thêm nhiều kiểu dữ liệu mới, ứng dụng mới và
nhu cầu phân tích dữ liệu mới thì việc xuất hiện thêm các thao tác khai thác dữ liệu
mới là điều có thể dự đốn được.
2. Ứng dụng của khai thác dữ liệu
Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực và
hiện nay đã có rất nhiều công cụ thương mại và phi thương mại triển khai các nhiệm
vụ của khai phá dữ liệu.
Sau đây là một số lĩnh vực mà khai phá dữ liệu đang được ứng dụng rộng rãi:


Phân tích dữ liệu tài chính.



Cơng nghiệp bán lẻ.



Cơng nghiệp viễn thơng.



Phân tích dữ liệu sinh học.



Phát hiện xâm nhập.




Một số ứng dụng trong khoa học.

Phân tích dữ liệu tài chính
Dữ liệu tài chính trong ngân hàng và trong ngành tài chính thường đáng tin cậy
và có chất lượng cao, tạo điều kiện cho khai phá dữ liệu. Dưới đây là một số ứng dụng
điển hình trong khai phá dữ liệu tài chính:


Dự đốn khả năng vay và thanh tốn của khách hàng, phân tích chính

sách tín dụng đối với khách hàng.


Phân tích hành vi khách hàng (vay, gửi tiền).



Phân loại và phân nhóm khách hàng mục tiêu cho tiếp thị tài chính.



Phát hiện các hoạt động rửa tiền và tội phạm tài chính khác.

Cơng nghiệp bán lẻ
Khai phá dữ liệu có vai trị rất quan trọng trong ngành công nghiệp bán lẻ, do
dữ liệu thu thập từ lĩnh vực này rất lớn từ doanh số bán hàng, lịch sử mua hàng của
khách hàng, vận chuyển hàng hóa, tiêu thụ và dịch vụ. Điều tự nhiên là khối lượng dữ
5



liệu từ ngành công nghiệp này sẽ tiếp tục tăng lên nhanh chóng và dễ dàng thu thập
bởi tính sẵn có trên mơi trường Web. Ứng dụng khai phá dữ liệu trong ngành công
nghiệp bán lẻ nhằm xây dựng mô hình giúp xác định xu hướng mua hàng của khách
hàng, giúp doanh nghiệp cải thiện chất lượng sản phẩm dịch vụ nhằm nâng cao sự hài
lòng của khách hàng và giữ chân khách hàng tốt. Dưới đây là một số ứng dụng của
khai phá dữ liệu trong ngành công nghiệp bán lẻ:


Khai phá dữ liệu trên kho dữ liệu khách hàng.



Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, khách

hàng, sản phẩm, thời gian và khu vực.


Phân tích hiệu quả của các chiến dịch bán hàng, Marketing.



Quản trị mối quan hệ khách hàng.



Giới thiệu và tư vấn sản phẩm phù hợp cho khách hàng.

Công nghiệp viễn thông

Công nghiệp viễn thông là một trong những ngành công nghiệp mới nổi, cung
cấp nhiều dịch vụ như trên điện thoại di động, internet, truyền hình ảnh... Do sự phát
triển mạnh của cơng nghệ máy tính và mạng máy tính, viễn thơng đang phát triển với
tốc độ rất nhanh. Đây là lý do tại sao khai phá dữ liệu trở nên rất quan trọng trong lĩnh
vực này.
Khai phá dữ liệu trong ngành công nghiệp viễn thông giúp xác định các mơ
hình viễn thơng, phát hiện các hoạt động gian lận trong viễn thông, sử dụng tốt
hơn nguồn tài nguyên và cải thiện chất lượng dịch vụ viễn thông. Dưới đây là một
số ứng dụng của khai phá dữ liệu trong ngành cơng nghiệp này:


Phân tích dữ liệu đa chiều viễn thơng.



Xây dựng các mơ hình phát hiện gian lận.



Phát hiện bất thường trong giao dịch viễn thơng.



Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng.



Sử dụng các cơng cụ trực quan trong phân tích dữ liệu viễn thông.
6



Phân tích dữ liệu sinh học
Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin - Sinh
Học. Sau đây là một số ứng dụng của khai phá dữ liệu ứng dụng trong sinh học:


Lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen.



Xây dựng mơ hình khai phá các mạng di truyền và cấu trúc của Gen, protein.



Xây dựng các cơng cụ trực quan trong phân tích dữ liệu di truyền.

Phát hiện xâm nhập bất hợp pháp
Xâm nhập bất hợp pháp là những hành động đe dọa tính tồn vẹn, bảo mật và
tính sẵn sàng của tài nguyên mạng. Trong thế giới của kết nối, bảo mật đã trở thành
vấn đề lớn đối với tồn tại của hệ thống. Với sự phát triển của internet và sự sẵn có của
các công cụ, thủ thuật trợ giúp cho xâm nhập và tấn cơng mạng, u cầu kiểm sốt
truy cập bất hợp pháp là yếu tố rất quan trọng đảm bảo cho sự ổn định của hệ thống.
Dưới đây là một số ứng dụng của khai phá dữ liệu có thể được áp dụng để phát
hiện xâm nhập:
-

Phát triển các thuật toán khai phá dữ liệu để phát hiện xâm nhập.

-


Phân tích kết hợp, tương quan và khác biệt để phát hiện xâm nhập.

-

Phân tích dịng dữ liệu để phát hiện bất thường.

3. Khai thác dàn các tập phổ biến đóng
Tìm luật kết hợp từ hàng triệu giao dịch trong nhiều CSDL lớn, hiện tại trở nên
khó khăn trong lĩnh vực khai thác dữ liệu. Tập phổ biến và tập phổ biến đóng là chìa
khóa quan trọng của việc khai thác các luật kết hợp. Các luật kết hợp có thể được khai
thác hiệu quả từ Dàn các tập phổ biến đóng.
Khơng thừa, chính xác, thời gian và chiếm dụng bộ nhớ là các nhân tố cần được
xem xét trong khi phát triển thuật tốn để tìm các luật kết hợp hữu ích. Xây dựng dàn
tập phổ biến đóng là xây dựng quan hệ cha con (trực tiếp) giữa các tập phổ biến đóng
với nhau. Do vậy sẽ tiết kiệm được thời gian khi duyệt dàn để sinh luật.

7


4. Ý nghĩa khoa học và thực tiễn của đề tài
-

Thuật toán BVCL đổi mới hơn so với thuật toán CHARML cũng như các thuật
toán duyệt tuần tự tập hạng mục ở những điểm chính sau:
o Cấu trúc DSBV lưu thông tin tập cha ở dạng bit nên việc truyền thông tin
cho các tập trong dàn khi gọi đệ qui là nhanh chóng.
o Cách tổ chức 2 danh sách subsume list và non - subsume list làm cho thuật
toán bỏ qua khá nhiều bước khi đệ qui với các tập trong subsume list.

-


Thuận toán mới cải thiện hiệu suất khai thác dàn các tập phổ biến đóng này góp
phần giải quyết vấn đề trong việc khai thác luật kết hợp với nhiều ứng dụng rộng,
bao gồm những phân tích về hành vi mua sắm của khách hàng, chuỗi truy xuất
web, những thực nghiệm có tính khoa học, điều trị bệnh, ngăn chặn tai họa thiên
nhiên và sự hình thành protein…

5. Phương pháp nghiên cứu và đối tượng nghiên cứu
• Phương pháp nghiên cứu:
- Phương pháp nghiên cứu tài liệu: dựa vào các tài liệu đã công bố của các
nhà nghiên cứu về các thuật toán khai thác tập phổ biến, tập phổ biến đóng,
và khai thác Dàn: Apriori-Gen, FP-tree, Charm, CharmL, MG-Charm, DCIClosed, LCM, DBV-Miner, GENCLOSE, NAFCP. Phân tích cách sử dụng cấu

trúc dữ liệu DBV, DSBV cách tổ chức CSDL (ngang hay dọc), cách phát
sinh mẫu ứng viên mới, các kỹ thuật khai thác Dàn… và xu hướng phát triển
của các thuật toán.
- Phương pháp thực nghiệm: Tiến hành hiện thực và thực nghiệm các
phương pháp được đề xuất trong luận văn để xác định tính đúng đắn, khả thi
và phát triển so với các phương pháp đã công bố của các tác giả trong và
ngồi nước có liên quan đến luận văn.
- Phương pháp thống kê, phân tích dữ liệu: Thống kê, tổng hợp các số liệu
trong quá trình thực nghiệm để phân tích, đánh giá từ đó nhận thức, phát
hiện, và chọn lọc những ưu điểm để phát huy, tìm cách khắc phục những hạn
chế, đồng thời kết hợp những thông tin liên quan đã thu thập được lại thành
8


một nội dung logic đầy đủ để đề xuất thuật tốn mới có thời gian khai thác
đồng thời Dàn các tập phổ biến đóng và tập sinh của chúng nhanh hơn và tiết
kiệm bộ nhớ hơn (có so sánh kết quả thực nghiệm).

• Đối tượng nghiên cứu: Thuật tốn BVCL khai thác dàn các tập phổ biến
đóng, cấu trúc vectơ bit động - DBV, cấu trúc superset vectơ bit động DSBV
dùng để lưu và truyền thông tin của các tập superset, các kỹ thuật ánh xạ, chỉ
mục để tăng tốc độ tìm kiếm cho thuật tốn.
6. Khó khăn và Thách thức
Cho trước CSDL D và ngưỡng minSup do người dùng đặt ra, phải tìm đầy đủ
các tập phổ biến đóng là một thách thức không nhỏ về thời gian do độ phức tạp trong
việc khai thác là hàm mũ.
Độ dài của vector bit tăng lên theo số transaction trong CSDL. Làm tốn kém
nhiều bộ nhớ. Cấu trúc bit vector động tiết kiệm khá nhiều bộ nhớ đối với CSDL thưa,
tuy nhiên, đối với CSDL đặc, việc tiết kiệm không đáng kể. Trên các bộ dữ liệu dùng
trong luận văn này, bộ nhớ tiết kiệm hơn 50% so với cấu trúc bit vector tỉnh.
7. Mục tiêu và phạm vi của luận văn
Mục đích cuối cùng của q trình khai thác tập phổ biến là khai thác tập luật kết
hợp và ứng dụng các kết quả vào trong thực tế.
Theo cách khai thác luật kết hợp truyền thống, việc tìm tất cả các luật kết hợp từ
CSDL thõa minSup và minConf gặp nhiều bất lợi khi số tập phổ biến lớn. Do đó cần
có một phương pháp thích hợp để khai thác với số lượng luật ít hơn nhưng vẫn đảm
bảo tích hợp đầy đủ tất cả các luật của phương pháp khai thác truyền thống. Một
trong những cách tiếp cận đó là khai thác luật thiết yếu nhất, chỉ lưu lại các luật có vế
trái tối tiểu và vế phải tối đại (theo quan hệ cha – con).
Mục tiêu của luận văn là tập trung vào nghiên cứu, phân tích ưu điểm và hạn chế
các thuật toán khai thác tập phổ biến đóng, tập phổ biến đóng trên Dàn. Với mong
muốn làm giảm thời gian khai thác luật, sử dụng quan hệ cha – con trên Dàn để giảm
chi phí xét quan hệ cha – con và vì vậy làm giảm được thời gian khai thác luật.

9


Qua đó nhận thấy thuật tốn BVCL với các cấu trúc dữ liệu DBV, DSBV hiệu

quả và mạnh mẻ, phù hợp để nghiên cứu và ứng dụng. Đề xuất tích hợp, cải tiến
thuật toán gốc để khai thác đồng thời Dàn tập phổ biến đóng và tập sinh, cần thiết
cho công việc khai thác tập luật kết hợp sau này. Cuối cùng, so sánh kết quả thực
nghiệm của thuật toán BVCL cải tiến với thuật toán gốc và thuật toán CharmL,
MGCharm trên các CSDL tổng hợp và thực tế.
8. Đóng góp của luận văn
Đề tài có cải tiến so với thuật toán gốc của tác giả, bằng cách kết hợp, tối ưu việc
khai thác đồng thời tập sinh vào bên trong thuật tốn gốc. Thuật tốn cải tiến khơng
nhanh hơn thuật toán gốc về phương diện khai thác dàn các tập phổ biến đóng. Tuy
nhiên, việc khai thác tập sinh là rất quan trọng trong quá trình khai thác tập luật kết
hợp. Nếu thuật toán gốc khai thác riêng rẽ dàn tập phổ biến đóng và tập sinh thì thuật
tốn mà đề tài cải tiến nhanh và hiệu quả hơn rất nhiều, vấn đề so sánh sẽ được đề cập
riêng ở phần so sánh đánh giá.

10


Chương 2: CƠ SỞ LÝ THUYẾT
1. Khái quát bài toán
D: là các giao dịch trong Database.
Với một tập các giao dịch T = {t1, t2... tn}. Mỗi giao dịch ti (1 ≤ i ≤ n) được xác định
bởi khóa được gọi là Tid.
Tidset(X): Một tập các giao dịch chứa tập X.
Itemset(Y): Biễu diễn một tập các Items xuất hiện trong các giao dịch của Tidset (Y).
𝑇𝑖𝑑𝑠𝑒𝑡 (𝑋 ) = ⋂𝑘𝑖=0 𝑡𝑖𝑑𝑠𝑒𝑡(𝑥𝑖 ) , 𝑣ớ𝑖 {𝑥1, 𝑥2, . . . , 𝑥𝑘} ⊆ 𝐼, I là Itemset
𝑝
𝐼𝑡𝑒𝑚𝑠𝑒𝑡(𝑌) = ⋂𝑗=0 𝐼𝑡𝑒𝑚𝑠𝑒𝑡(𝑦𝑖 ), 𝑣ớ𝑖 𝑌 = {𝑦1, 𝑦2, . . . , 𝑦𝑝} ⊆ 𝑇 , T là Tidset
Và: I = {i1, i2… im}

Số giao dịch trong tidset (X) tương ứng với độ hỗ trợ của X được biểu diễn bởi sup

(X).
Một Itemset X được gọi là phổ biến nếu Sup(X) ≥ Minsup.
Độ hỗ trợ (Support) của luật kết hợp X =>Y là tần suất của giao dịch chứa tất cả các
items trong cả hai tập X và Y. Ví dụ, support của luật X =>Y là 5% có nghĩa là 5%
các giao dịch X và Y được mua cùng nhau.
Minsup: là độ hỗ trợ nhỏ nhất phải xác định trước khi sinh luật kết hợp.
Một tập phổ biến X được gọi là tập phổ biến đóng nếu khơng có tập nào bao nó có
cùng độ phổ biến. Hay nói cách khác. Khơng tồn tại tập phổ biến X’, X con X’, mà
sup (X) = sup (X’).
Xét X và Y là 2 tập phổ biến đóng.
-

Y được gọi là bao (frequent closed superset (FCS)) X nếu X ⊂ Y.

-

Y là bao tối tiểu (minimal closed superset) của X nếu không tồn tại tập phổ biến
đóng Z mà X ⊂ Z ⊂ Y.

11


Tập G được gọi là tập sinh (Generator) của tập đóng X, nếu và chỉ nếu G ⊆ X

-

và Sup(G) = Sup(X).
Nếu Y là bao tối tiểu của tập đóng X thì node Y được xem là con node X, và có 1
cạnh từ X → Y.
Một luật kết hợp (AR) được biểu diễn X ⇒ (Y − X): X, Y là 2 tập phổ biến và X ⊂ Y.

Khai thác Dàn các tập phổ biến đóng Frequent closed itemset lattice (FCIL) là
sắp xếp các Nodes của các tập phổ biến đóng, kết nối các Nodes theo cặp trong Dàn
và tạo nên quan hệ Cha – Con. Ta cũng đồng thời khai thác các tập sinh tương ứng
với các tập phổ biến đóng trong Dàn.
2. Hướng tiếp cận khai thác tập phổ biến đóng
Một số lượng lớn các cơng trình nghiên cứu tập trung vào việc phát triển các
thuật toán để khai thác các tập phổ biến đóng. Hầu hết các kỹ thuật này có thể được
phân thành bốn loại tùy thuộc vào chiến lược riêng.
-

Đầu tiên là chiến lược thử nghiệm và phát triển theo APRIORI-GEN [19]. Thủ

tục kiểm tra tính đóng của 1 tập hạng mục.
-

Thứ 2 là sử dụng cấu trúc dữ liệu theo FP-tree [20].

-

Thứ 3 là dùng kỹ thuật tìm kiếm lai. CHARM [9] là một ví dụ điển hình cho

cách tiếp cận này, nó khai thác khơng chỉ item - space mà cịn tid - space.
-

Thứ 4 là DCI-Closed [21] và LCM [22], khác với ba loại nêu trên. Cả hai cách

tiếp cận này đều vượt qua vấn đề chi phí kiểm tra để loại bỏ việc phát sinh các bản sao
của các tập đóng. Chúng duyệt khơng gian tìm kiếm theo chiều sâu và phát sinh tập
phổ biến đóng mới bằng cách mở rộng các tập đóng được khai thác trước đó. Hơn
nữa, chúng khơng địi hỏi bộ nhớ lưu trữ cho các tập đóng đã được phát hiện trước đó.

LCM [22] áp dụng sự xuất hiện và phiên bản lai của các kỹ thuật diffset [9] đối với
tính tốn độ phổ biến và tính đóng dựa trên các đặc tính của bộ dữ liệu.

12


Các thuật tốn khai thác FCI có thể được chia thành hai loại cơ bản phụ thuộc
vào cách biểu diễn cơ sở dữ liệu, horizontal (tid × itemset) và vertical (item × tidset).
Quan sát từ các tài liệu hiện có [23] cho thấy rằng các thuật toán sử dụng biểu diễn
CSDL theo chiều dọc tốt hơn các phương pháp sử dụng biểu diễn theo chiều ngang.
Bảng 2.2 là một biễu diễn dạng mã hóa của Bảng 2.1 trong đó các Item được biễu
diễn bằng các chữ cái, và được biễu diễn theo chiều ngang. ECLAT [10]. Zaki đã giới
thiệu cơ sở dữ liệu theo chiều dọc.
Bảng 2.1: Cơ sở dữ liệu giao dịch book store.
TID
t1
t2
t3
t4
t5
t6

Itemset
Algorithms, Logic Design, Data Mining, Programming in C,
Networking
Logic Design, Compiler, Programming in C, Microprocessor
Algorithms, Logic Design, Data Mining, Networking, Programming
in C
Algorithms, Logic Design, Compiler, Programming in C,
Microprocessor, Networking

Algorithms, Logic Design, Compiler, Data Mining, Programming in
C, Microprocessor, Networking
Compiler, Data Mining, Microprocessor, Networking, Human
Computer Interaction, Logic Design
Bảng 2.2: Cơ sở dữ liệu giao dịch của bảng 2.1 được mã hóa.
TID
t1
t2
t3
t4
t5
t6

Itemset
A, L, D, P, N
L, C, P, M
A, L, D, N, P
A, L, C, P, M, N
A, L, C, D, P, M, N
C, D, M, N, H, L

BitTableFI [24] thay thế tidset với bit - vector, nơi mỗi bit tương ứng với một
tid.

13


Index-BitTableFI [25] sử dụng biểu diễn bit - vector để bổ sung các tập thừa.
Tuy nhiên, một lượng đáng kể khơng gian vẫn bị lãng phí cho một tập phổ biến, bởi vì
kích thước của một vector - bit ln bằng với tổng số các giao dịch.

DBV-Miner [6] đề xuất 1 giải pháp sử dụng cấu trúc dữ liệu gọi là Dynamic BitVector (DBV). Nó xóa những bit 0 bắt đầu trong bit - vector và theo dõi các vị trí
khác 0 bắt gặp dầu tiên. Do đó, DBV kết hợp với một lookup table, thuận tiện cho q
trình tính toán độ support của tập dữ liệu. Lookup table lưu trữ tổng số bit 1 cho mỗi
kết hợp của 8-bit trong một byte. Nó tính độ Support của 1 tập X bằng cách tính tổng
các số 1 cho mỗi byte bi của DBVX:
𝑆𝑢𝑝(𝑋 ) = ∑

𝑏𝑖 ∈𝐷𝐵𝑉𝑋

𝐿𝑜𝑜𝑘𝑢𝑝(𝑏𝑖 )

Bảng 2.3 cho thấy cách biểu diễn cơ sở dữ liệu theo chiều dọc của Bảng 2.1 theo bit
vector.
Bảng 2.3: Cơ sở dữ liệu giao dịch theo chiều dọc dùng bit vector.
Item
A
L
C
D
P
M
N

Tidset
t1, t3, t4, t5
t1, t2, t3, t4, t5, t6
t2, t4, t5, t6
t1, t3, t5, t6
t1, t2, t3, t4, t5
t2, t4, t5, t6

t1, t3, t4, t5, t6

Bitvector
011101
111111
111010
110101
011111
111010
111101

DBV
{0,29}
{0,63}
{0,58}
{0,53}
{0,31}
{0,58}
{0,61}

DBV - Miner xây dựng một DBV mới bằng cách giao hai DBVs thơng qua phép
tốn AND theo bit. Dựa trên phép giao này, quan hệ tập con giữa các DBVs cũng
được xác định:
Xét 2 DBVs là: DBVX and DBVY.
DBVX được gọi là tập con của DBVY nếu: 𝐷𝐵𝑉𝑋 = 𝐷𝐵𝑉𝑋 ∩ 𝐷𝐵𝑉𝑌
14


×