Tải bản đầy đủ (.pdf) (27 trang)

Nghiên cứu thuật toán Charm trong khai phá tập mục thường xuyên đóng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (487.78 KB, 27 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

PHAN VĂN TUYÊN

NGHIÊN CỨU THUẬT TOÁN CHARM
TRONG KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN ĐÓNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên - 2011

Số hóa bởi Trung tâm Học liệu – ĐHTN




ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

PHAN VĂN TUYÊN

NGHIÊN CỨU THUẬT TOÁN CHARM
TRONG KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN ĐÓNG

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60. 48. 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC


TS. NGUYỄN HUY ĐỨC

Thái Nguyên - 2011

Số hóa bởi Trung tâm Học liệu – ĐHTN




LỜI CẢM ƠN
Để hoàn thành luận văn này tôi đã nhận được sự giúp đỡ tận tình của các
thầy cô Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái
Nguyên, các thầy cô Viện công nghệ thông tin – Viện Khoa học và Công nghệ
Việt Nam, các anh chị lớp Cao học K8 - khóa 2009-2011. Đặc biệt là TS. Nguyễn
Huy Đức, người thầy trực tiếp hướng dẫn tôi trong quá trình nghiên cứu và thực
hiện luận văn.
Nhân dịp này tôi xin được bày tỏ lời cảm ơn tới tất cả các thầy cô giáo
Viện Công nghệ thông tin – Viện Khoa học và Công nghệ Việt Nam, các thầy cô
ở Trường đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên
đã giảng dạy và tạo mọi điều kiện thuận lợi giúp đỡ tôi trong quá trình học tập,
nghiên cứu.
Tôi xin trân trọng cảm ơn TS. Nguyễn Huy Đức – Khoa Thông tin - Máy
tính, Trường Cao đẳng Sư phạm Trung ương, người thầy trực tiếp hướng dẫn,
đưa ra ý tưởng, định hướng, đóng góp các ý kiến chuyên môn và tận tình giúp đỡ
tôi trong suốt quá trình nghiên cứu và thực hiện luận văn này.
Tôi xin cảm ơn các bạn bè đồng nghiệp và gia đình đã giúp đỡ, đóng góp ý
kiến và động viên tôi trong suốt qua trình học, quá trình nghiên cứu và hoàn
thành luận văn này.

Tác giả

Phan Văn Tuyên

Số hóa bởi Trung tâm Học liệu – ĐHTN




LỜI CAM ĐOAN
Tôi xin cam đoan toàn bộ nội dung trong Luận văn hoàn toàn theo đúng
nội dung đề cương cũng như nội dung mà giáo viên hướng dẫn giao cho. Nội
dung luận văn, các phần trích lục các tài liệu hoàn toàn chính xác. Nếu có sai sót
tôi hoàn toàn chịu trách nhiệm.
Tác giả luận văn

Phan Văn Tuyên

Số hóa bởi Trung tâm Học liệu – ĐHTN




I

MỤC LỤC
Trang
Lời cảm ơn
Lời cam đoan
MỤC LỤC ..............................................................................................................................I
DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT ................................................. III
DANH MỤC CÁC BẢNG .................................................................................................. IV

DANH MỤC HÌNH VẼ ....................................................................................................... V
MỞ ĐẦU ............................................................................................................................... 1
CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ...................................................... 3
1.1. KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU ............................................... 3
1.2. KIẾN TRÚC CỦA HỆ THỐNG KHAI PHÁ DỮ LIỆU ........................................... 5
1.3. QUÁ TRÌNH KHAI PHÁ DỮ LIỆU ......................................................................... 6
1.4. CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU ................................................................. 8
1.4.1.Phân lớp dữ liệu ................................................................................................... 8
1.4.2.Phân cụm dữ liệu ................................................................................................. 8
1.4.3.Khai phá luật kết hợp........................................................................................... 8
1.4.4.Hồi quy ................................................................................................................ 9
1.4.5.Giải thuật di truyền .............................................................................................. 9
1.4.6.Mạng nơron ......................................................................................................... 9
1.4.7.Cây quyết định. .................................................................................................... 9
1.5. MỘT SỐ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU .............................................. 10
1.6. KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN ........................................................... 11
1.6.1. Cơ sở dữ liệu giao tác ....................................................................................... 11
1.6.2. Tập mục thƣờng xuyên ..................................................................................... 13
1.6.3. Các cách tiếp cận khai phá tập mục thƣờng xuyên .......................................... 14
1.6.4. Một số thuật toán điển hình tìm tập mục thƣờng xuyên ................................... 16
1.6.4.1. Thuật toán Apriori ......................................................................................... 16
1.6.4.2. Thuật toán FP-Growth ................................................................................... 20
1.7. KẾT LUẬN CHƢƠNG 1......................................................................................... 28
CHƢƠNG 2: KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN ĐÓNG .................................... 29
2.1. CƠ SỞ TOÁN HỌC ................................................................................................ 29
Số hóa bởi Trung tâm Học liệu – ĐHTN





II

2.1.1. Ánh xạ đóng ..................................................................................................... 29
2.1.2. Tập đóng ........................................................................................................... 30
2.1.3. Kết nối Galois ................................................................................................... 30
2.1.4. Bao đóng của tập mục dữ liệu .......................................................................... 31
2.2. TẬP MỤC THƢỜNG XUYÊN ĐÓNG .................................................................. 32
2.2.1. Định nghĩa ....................................................................................................... 32
2.2.2. Các tính chất của tập mục thƣờng xuyên đóng................................................. 32
2.3. THUẬT TOÁN CHARM ........................................................................................ 32
2.3.1. Giới thiệu thuật toán CHARM ......................................................................... 32
2.3.2. Cây tìm kiếm và lớp tƣơng đƣơng .................................................................... 33
2.3.3. Các tính chất cơ bản của cặp tập mục - tập định danh: .................................... 34
2.3.4. Thiết kế thuật toán ............................................................................................ 35
2.3.5. Ví dụ minh họa ................................................................................................. 37
2.3.6. Đánh giá thuật toán ........................................................................................... 39
2.4. KẾT LUẬN CHƢƠNG 2......................................................................................... 39
CHƢƠNG 3: CÀI ĐẶT THỰC NGHIỆM .......................................................................... 41
3.1. XÂY DỰNG CHƢƠNG TRÌNH ............................................................................. 41
3.2. GIAO DIỆN CỦA CHƢƠNG TRÌNH .................................................................... 43
3.3. KẾT QUẢ THỰC NGHIỆM ................................................................................... 44
3.4. NHẬN XÉT ............................................................................................................. 47
KẾT LUẬN.......................................................................................................................... 48
TÀI LIỆU THAM KHẢO ................................................................................................... 49
PHỤ LỤC ............................................................................................................................ 51

Số hóa bởi Trung tâm Học liệu – ĐHTN





III

DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT

Diễn giải

Ký hiệu
Ck

Tập các k tập mục ứng viên

BFS

Breadth First Search

CSDL

Cơ sở dữ liệu

CHARM

Closed Asociation RuleMning

DB

Cơ sở dữ liệu giao tác

DFS


Depth First Search

FP -growth

Frequent -Pattern Growth

FP -tree

Frequent pattern tree

IT-tree

Itemset-Tidset tree

I

Tập các mục dữ liệu

k-itemset

Tập mục gồm k mục

KPDL

Khai phá dữ liệu

Minsup

Ngƣỡng hỗ trợ tối thiểu


Lk

Tập các k-tập mục thƣờng xuyên

Supp

Độ hỗ trợ (support)

TID

Định danh của giao tác

T

Giao tác (transaction)

Số hóa bởi Trung tâm Học liệu – ĐHTN




IV

DANH MỤC CÁC BẢNG
Bảng 1.1: Biểu diễn ngang của cơ sở dữ liệu giao tác .............................................11
Bảng 1.2: Biểu diễn dọc của cơ sở dữ liệu giao tác .................................................12
Bảng 1.3: Ma trận giao tác của cơ sở dữ liệu cho ở bảng 1.1 ..................................12
Bảng 1.4: Cơ sở dữ liệu giao tác minh họa thực hiện thuật toán Apriori.................19
Bảng 1.5: CSDL giao tác minh hoạ cho thuật toán FP- growth. ..............................22
Bảng 2.1: a) CSDL giao tác biểu diễn ngang ...........................................................31

Bảng 2.1: b) CSDL giao tác biểu diễn dọc ...............................................................31
Bảng 3.1: Đặc điểm các tệp dữ liệu thử nghiệm.......................................................41
Bảng 3.2: Kết quả thực nghiệm trên tệp dữ liệu Input1.txt ......................................46

Số hóa bởi Trung tâm Học liệu – ĐHTN




V

DANH MỤC HÌNH VẼ
Hình 1.1: Qúa trình phát hiện tri thức ........................................................................4
Hình 1.2: Kiến trúc của một hệ thống khai phá dữ liệu .............................................5
Hình 1.3. Quá trình KPDL .........................................................................................7
Hình 1.4: Phân loại các thuật toán khai phá tập mục thƣờng xuyên . .......................15
Hình 1.5: Cây FP-tree đƣợc xây dựng dần khi thêm các giao tác t1, t2, t3. ............23
Hình 1.6: Cây FP-tree của CSDL DB trong bảng 1.5 .............................................23
Hình 1.7 : FP-tree phụ thuộc của m ..........................................................................26
Hình 1.8 : Các FP-tree phụ thuộc của am, cm và cam .............................................27
Hình 2.1: Kết nối Galois ...........................................................................................30
Hình 2.2. Cây IT-tree tìm tập thƣờng xuyên đóng thoả ngƣỡng minsup =50% ......38
Hình 3.1: CSDL giao tác đã mã hóa chuẩn bị cho khai phá ....................................42
Hình 3.2: Giao diện chƣơng trình thực nghiệm sau khi khởi động ..........................43
Hình 3.3: Kết quả tìm tập mục thƣờng xuyên với ngƣỡng minsup = 10% ..............44
Hình 3.4: Kết quả tìm tập mục thƣờng xuyên đóng với ngƣỡng minsup = 10% .....45
Hình 3.5: So sánh thời gian thực hiện khai phá trên tệp Input1.txt .........................46
Hình 3.6: So sánh số tập mục kết quả khai phá trên tệp Input1.txt ..........................47

Số hóa bởi Trung tâm Học liệu – ĐHTN





1

MỞ ĐẦU
Chúng ta đang ở "thời đại thông tin", một thời đại đƣợc định hình bởi
một ngành khoa học công nghệ kỹ thuật rất trẻ phát triển nhƣ vũ bão, ảnh
hƣởng vô cùng sâu sắc và mãi mãi đến cuộc sống chúng ta, đó là ngành công
nghiệp "công nghệ thông tin". Trong kinh doanh ai có nhiều thông tin hơn
ngƣời đó sẽ làm chủ thị trƣờng, trong nghiên cứu ai càng nhiều thông tin thì
cơ hội thành công của ngƣời đó càng lớn. Vì vậy việc thu thập thông tin có
một vai trò đặc biệt quan trọng trong công việc và trong cuộc sống.
Khai phá dữ liệu và khám phá tri thức (Data Mining and Knowledge
Discovery) là một lĩnh vực quan trọng của ngành công nghệ thông tin. Đây là
một hƣớng nghiên cứu tập trung đƣợc hùng hậu các nhà khoa học trên thế
giới tham gia. Hội nghị quốc tế về khai phá dữ liệu và khám phá tri thức
đƣợc tổ chức hàng năm, luân phiên tại nhiều nƣớc trên thế giới, mỗi hội thảo
có hàng trăm nhà khoa học hàng đầu tham gia.
Tại Việt Nam, khai phá dữ liệu đã đƣợc các nhóm nghiên cứu tại Viện
Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt Nam, các
nhóm nghiên cứu tại một số trƣờng đại học nhƣ Đại học Quốc gia Hà Nội,
Đại học Bách Khoa Hà Nội, Đại học Quốc gia thành phố Hồ Chí Minh thực
hiện và đã có nhiều kết quả đƣợc công bố.
Một trong các nội dung cơ bản nhất trong khai phá dữ liệu là bài toán
khai phá luật kết hợp. Khai phá luật kết hợp gồm hai bƣớc: Bƣớc một, tìm tất
cả các tập mục thờng xuyên. Bƣớc hai, dựa vào các tập mục thƣờng xuyên
tìm các luật kết hợp. Bƣớc thứ nhất đòi hỏi sự tính toán lớn, bƣớc thứ hai đòi
hỏi tính toán ít hơn, song gặp phải một vấn đề là: có thể sinh ra quá nhiều

luật, vƣợt khỏi sự kiểm soát của ngƣời khai phá hoặc ngƣời dùng, trong đó có
nhiều luật không cần thiết. Để giải quyết vấn đề đó, trong bƣớc thứ nhất,
không cần thiết phải khai phá tất cả các tập mục thƣờng xuyên mà chỉ cần

Số hóa bởi Trung tâm Học liệu – ĐHTN




data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....




data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....



×