Tải bản đầy đủ (.pdf) (27 trang)

Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (307.66 KB, 27 trang )

i
Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành

LỜI CẢM ƠN

Trƣớc hết, tôi xin bày tỏ lòng biết ơn tới các thầy cô giáo trƣờng Đại học
Công nghệ thông tin & truyền thông đã tận tâm giảng dạy, cung cấp cho tôi
kiến thức, phƣơng pháp nghiên cứu trong khoá học vừa qua.
Đặc biệt tôi xin đƣợc bày tỏ sự biết ơn sâu sắc đến thầy giáo hƣớng dẫn
PGS.TS Đoàn Văn Ban, ngƣời đã tận tình hƣớng dẫn, giúp đỡ và động viên để
tôi thực hiện luận văn này.
Xin cảm ơn Ban giám hiệu trƣờng Đại học Công nghệ thông tin &
truyền thông, gia đình và các bạn đồng nghiệp đã tạo điều kiện giúp đỡ tôi trong
thời gian vừa qua.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




ii
Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành

LỜI CAM ĐOAN

Tôi xin cam đoan toàn bộ nội dung bản luận văn theo đúng nội dung đề
cƣơng cũng nhƣ nội dung mà cán bộ hƣớng dẫn giao cho. Nội dung luận văn này
là do tôi tự sƣu tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề
tài.
Nội dung luận văn này chƣa từng đƣợc công bố hay xuất bản dƣới bất kỳ
hình thức nào và cũng không đƣợc sao chép từ bất kỳ một công trình nghiên cứu


nào.
Tất cả phần mã nguồn của chƣơng trình đều do tôi tự thiết kế và xây
dựng, trong đó có sử dụng một số thƣ viện chuẩn và các thuật toán đƣợc các tác
giả xuất bản công khai và miễn phí trên mạng Internet.
Nếu sai tôi xin tôi xin hoàn toàn chịu trách nhiệm.

Thái Nguyên, tháng 10 năm 2011
TÁC GIẢ LUẬN VĂN

Bùi Thị Trung Thành

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




iii
Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành

MỤC LỤC
LỜI CẢM ƠN ........................................................................................................... i
LỜI CAM ĐOAN .................................................................................................... ii
MỤC LỤC .............................................................................................................. iii
DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT ........................................v
DANH MỤC CÁC HÌNH VẼ ................................................................................ vi
DANH MỤC CÁC BẢNG ................................................................................... vii
PHẦN MỞ ĐẦU ......................................................................................................1
CHƢƠNG 1 KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU ........................................3
1.1 KHO DỮ LIỆU ...................................................................................................3
1.1.1 Các chiến lƣợc xử lý và khai thác thông tin ...................................................... 3

1.1.2 Định nghĩa kho dữ liệu ..................................................................................... 4
1.1.3 Mục đích của kho dữ liệu ................................................................................. 5
1.1.4 Đặc tính của dữ liệu trong kho dữ liệu .............................................................. 6
1.2 Khai phá kho dữ liệu ........................................................................................... 8
1.2.1 Định nghĩa khai phá dữ liệu............................................................................. 9
1.2.2 Các ứng dụng của khai phá dữ liệu ................................................................. 10
1.2.3 Các bƣớc của quá trình khai phá dữ liệu ......................................................... 11
1.2.4 Các phƣơng pháp khai phá dữ liệu ................................................................. 12
1.2.5. Lựa chọn phƣơng pháp .................................................................................. 17
1.2.6. Thách thức trong ứng dụng và nghiên cứu kỹ thuật khai phá dữ liệu ............ 18
CHƢƠNG 2 KHAI PHÁ LUẬT KẾT HỢP ........................................................... 23
2.1 Vài nét về khai phá luật kết hợp ....................................................................... 23
2.2 Luật kết hợp ...................................................................................................... 24
2.2.1. Mô hình hình thức ......................................................................................... 24
2.2.2 Một số hƣớng tiếp cận trong khai phá luật kết hợp ........................................ 26
2.2.3 Phát biểu bài toán phát hiện luật kết hợp ........................................................ 28
2.2.4 Phát hiện luật kết hợp dựa trên hệ thông tin nhị phân ..................................... 30
2.3 Thuật toán AprioriTID ..................................................................................... 38
2.4 Thuật toán AprioriHybrid ................................................................................. 41
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




iv
Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành

2.5 Thuật toán K-Nearest Neighbors ...................................................................... 42
2.6 Thuật toán K-Means ......................................................................................... 43
2.7 Kết luận cuối chƣơng ........................................................................................ 46

CHƢƠNG 3. CHƢƠNG TRÌNH THỰC NGHIỆM ................................................ 48
3.1 Giới thiệu bài toán ............................................................................................. 48
3.2 Tóm tắt và phân tích và thiết kế hệ thống .......................................................... 48
3.3 CSDL vật lý với MS SQL Server 2008 .............................................................. 49
3.4 CSDL của chƣơng trình..................................................................................... 50
3.5 Một số chức năng và giao diện ............................................................................ 50
KẾT LUẬN ............................................................................................................ 54
1. Kết quả đạt đƣợc trong luận văn .......................................................................... 54
2. Hƣớng nghiên cứu tiếp theo ................................................................................ 54
TÀI LIỆU THAM KHẢO ....................................................................................... 55

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




v
Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành

DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT
Ký hiệu, chữ viết tắt
Candidate itemset

Ý nghĩa
Một itemset trong tập Ck đƣợc sử dụng để sinh
ra các large itemset

Ck

Tập các candidate k-itemset ở giai đoạn thứ k


Confidence

Độ tin cậy của luật kết hợp

CSDL

Cơ sở dữ liệu

DM

Data mining – Khai phá dữ liệu

Frequent/large itemset

Một itemset có độ hỗ trợ (support) >= ngƣỡng
độ hỗ trợ tối thiểu

ID

Identifier

Item

Một phần tử của itemset

Itemset

Tập của các item


k-itemset

Một itemset có độ dài k

Lk

Tập các Large itemset ở giai đoạn thứ k

TID

Transaction Identifier

Transaction

Giao dịch

Classification

Phân loại

Candidate

Dự tuyển

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




vi

Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành

DANH MỤC CÁC HÌNH VẼ
Ý NGHĨA

STT

TRANG

Hình 1.1

Luồng dữ liệu trong một tổ chức

5

Hình 1.2

Mối quan hệ và cách nhìn nhận trong hệ thống

6

Hình 1.3

Quy trình phát hiện tri thức

11

Hình 2.1

Thiết lập để xác định danh giới các cụm ban đầu


43

Hình 2.2

Tính toán trong tâm các cụm mới

43

Hình 3.1

Mô hình quan hệ thực thể đã đƣợc lƣợc bỏ & tóm gọn

48

Hình 3.2

Cơ sở sữ liệu vật lý

48

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




vii
Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành

DANH MỤC CÁC BẢNG

Bảng

Ý nghĩa

Trang

1.1

Tính thời gian của dữ liệu

8

2.1

Minh hoạ bài toán phát hiện luật kết hợp

30

2.2

Hệ thống thông tin nhị phân mua bán hàng hoá

34

2.3

Các luật kết hợp từ hệ thông tin nhị phân mua bán hàng hoá

37


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành

1

PHẦN MỞ ĐẦU
Lý do chọn đề tài Trong những năm gần đây, với sự phát triển công nghệ
thông tin chúng ta thấy một thực tế là con ngƣời có trong tay một lƣợng dữ liệu
rất lớn nhƣng với những kỹ thuật khai thác cũ không còn phù hợp nữa nó nhƣờng
chỗ cho những kỹ thuật mới hơn nhƣ là khai phá dữ liệu.Khai phá dữ liệu đã trở
thành một trong những lĩnh vực chính đƣợc các nhà khoa học quan tâm nghiên
cứu bởi tính ứng dụng cao trong thực tiễn cuộc sống.
Đối tượng nghiên cứu: Nghiên cứu các vấn đề về phát hiện luật kết hợp
trong quá trình khai phá dữ liệu: Lịch sử vấn đề, luật kết hợp trong khai phá dữ
liệu và một số thuật toán đã và đang đƣợc nghiên cứu.
Phạm vi nghiên cứu: Luận văn tập trung nghiên cứu các thuật toán phát hiện
luật kết hợp trong các kho dữ liệu và khả năng ứng dụng của chúng để phát hiện
tri thức.
Nội dung luận văn: Nếu nhƣ lĩnh vực phân lớp/phân cụm dữ liệu đã đƣợc
nghiên cứu ứng dụng khá lâu thì vấn đề khai phá luật kết hợp gần đây mới đƣợc
đề cập. Hiện nay việc phát hiện luật kết hợp đang trở thành một khuynh hƣớng
quan trọng của khai phá dữ liệu. Luật kết hợp là luật ngầm định một số quan hệ
kết hợp giữa một tập các đối tƣợng mà các đối tƣợng có thể độc lập hoàn toàn với
nhau.
Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu.
Để nghiên cứu sâu hơn về khai phá luật kết hợp, đặc biệt là về khả năng áp dụng

một số thuật toán phát hiện luật kết hợp trong CSDL lớn và cài đặt thử nghiệm
trong thực tế, tôi chọn đề tài: “Khai phá dữ liệu và phát hiện luật kết hợp trong
Cơ sở dữ liệu siêu thị ”.
Luận văn bao gồm ba chƣơng:
Chƣơng 1: Kho dữ liệu và khai phá dữ liệu
Trình bày kiến thức tổng quan về khai thác và xử lý thông tin:
- Định nghĩa kho dữ liệu, khai phá dữ liệu
- Các phƣơng pháp khai phá dữ liệu phổ biến và ứng dụng của chúng.
Chƣơng 2: Khai phá luật kêt hợp
Trình bày các bài toán trong khai phá dữ liệu, phát hiện luật kết hợp:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành

2
- Khái niệm về luật kết hợp và các phƣơng pháp khai phá luật kết hợp
- Khai phá luật kết hợp dựa trên sự phân chia không gian tìm kiếm.
-

Một số thuật toán khai phá dữ liệu phát hiện luật kết hợp nhƣ:

AprioriTID, AprioriHyrid, K-Nearest Neighbors(K- láng giềng),K-Means.
Chƣơng 3: Chƣơng trình thử nghiệm
Nội dung của chƣơng là trình bày kết quả xây dựng chƣơng trình và kết quả
chạy chƣơng trình thử nghiệm khai phá luật kết hợp trên CSDL thử nghiệm là các
file dữ liệu bán hàng của siêu thị sách.
Phương pháp nghiên cứu: Tìm, chọn lọc và đọc các tài liệu liệu quan về

kho dữ liệu, phát hiện luật kết hợp và các phƣơng pháp khai phá dữ liệu có liên
quan đến quá trình khai phá dữ liệu từ kho thông tin khổng lồ của các tác giả
trong nƣớc hay ngoài nƣớc đã và đang nghiên cứu. Từ đó rút ra đƣợc các kiến
thức cần thiết để hoàn thành nhiệm vụ nghiên cứu đã đặt ra ở trên.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành

3

CHƢƠNG 1
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
1.1 KHO DỮ LIỆU
1.1.1 Các chiến lƣợc xử lý và khai thác thông tin
Trong những năm gần đây, với sự phát triển công nghệ thông tin chúng ta
thấy một thực tế là con ngƣời có trong tay một lƣợng dữ liệu rất lớn nhƣng với
những kỹ thuật khai thác cũ nhƣ SQL không còn phù hợp nữa nó nhƣờng chỗ cho
những kỹ thuật mới hơn nhƣ là khai phá dữ liệu. Khai phá dữ liệu đã trở thành
một trong những lĩnh vực chính đƣợc các nhà khoa học quan tâm nghiên cứu bởi
tính ứng dụng cao trong thực tiễn cuộc sống. Khai phá dữ liệu đƣợc ứng dụng
rộng rãi trong nhiều lĩnh vực nhƣ: Tài chính và thị trƣờng chứng khoán, Thƣơng
mại, Giáo dục, y tế, sinh học, bƣu chính viễn thông….với nhiều hƣớng tiếp cận
nhƣ: Phân lớp/ Dự đoán, Phân cụm, Luật kết hợp,….
Các kỹ thuật khai phá dữ liệu thƣờng đƣợc chia thành 2 nhóm chính:
- Kỹ thuật khai pha dữ liệu mô tả: có nhiệm vụ mô tả các tính chất hoặc các
đặc tính chung của dữ liệu trong CSDL hiện có.

- Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đƣa ra các dự đoán dựa
vào suy diễn trên dữ liệu hiện thời.
Ba phƣơng pháp thông dụng nhất là: khai phá luật kết hợp, phân cụm dữ
liệu và phân lớp dữ liệu.
- Khai phá luật kết hợp: mục tiêu của phƣơng pháp này là phát hiện và đƣa
ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL. Mẫu đầu ra của giải thuật
khai phá dữ liệu là tập luật kết hợp tìm đƣợc.
- Phân cụm dữ liệu: Mục tiêu chính của phƣơng pháp phân cụm dữ liệu là
nhóm các đối tƣợng tƣơng tự nhau trong tập dữ liệu vào các cụm sao cho các đối
tƣợng thuộc cùng một lớp là tƣơng đống còn các đối tƣợng thuộc các cụm khác
nhau sẽ tƣơng đồng.
- Phân lớp dữ liệu và hồi quy: Mục tiêu của phƣơng pháp phân lớp dữ liệu
là dự đoán nhãn lớp cho các mẫu dữ liệu.
Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một kho dữ
liệu (Data Warehouse) và phát triển một khuynh hƣớng kỹ thuật mới đó là kỹ
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....



data error !!! can't not
read....


data error !!! can't not
read....



data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....



data error !!! can't not
read....

data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....



×