Tải bản đầy đủ (.pdf) (13 trang)

Một số phương pháp khai phá luật kết hợp trên cơ sở dữ liệu gia tăng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (811.15 KB, 13 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
======= 

 ======

NGUYỄN NGỌC QUỲNH CHÂU

MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT
HỢP TRÊN CƠ SỞ DỮ LIỆU GIA TĂNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
======= 

 ======

NGUYỄN NGỌC QUỲNH CHÂU

MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT
HỢP TRÊN CƠ SỞ DỮ LIỆU GIA TĂNG
Ngành

: Công nghệ thông tin



Chuyên ngành : Kỹ thuật phần mềm
Mã số

: 60480103

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Ngƣời hƣớng dẫn khoa học: GS. TS. Vũ Đức Thi

Hà Nội - 2015


1

LỜI CAM ĐOAN
Tôi xin cam đoan kết quả trong luận văn là sản phẩm của riêng cá nhân tôi.
Trong toàn bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là của cá
nhân hoặc là đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham
khảo đều có xuất xứ rõ ràng và đƣợc trích dẫn hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm theo quy định cho lời cam đoan
của mình.
Hà Nội, ngày 15/5/2015
Ngƣời cam đoan

Nguyễn Ngọc Quỳnh Châu


2

LỜI CẢM ƠN

Trƣớc tiên, tôi xin chân thành cảm ơn tới các thầy cô giáo trong Khoa Công
nghệ thông tin, Đại học công nghệ, Đại học quốc gia đã nhiệt tình giảng dạy,
truyền đạt kiến thức.
Tôi cũng xin bày tỏ lời cảm ơn sâu sắc nhất tới thầy giáo GS Vũ Đức Thi
đã tận tình hƣớng dẫn, định hƣớng giải quyết các vấn đề trong luận văn.
Tôi xin cảm ơn Ban lãnh đạo và các đồng nghiệp trong Khoa Công nghệ
thông tin, Đại học Thủy Lợi đã tạo điều kiện cho tôi trong suốt quá trình học tập.
Cuối cùng, tôi xin cảm ơn gia đình, bạn bè đã đồng hành cùng tôi trong quá
trình học tập.


3

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................1
LỜI CẢM ƠN ..................................................................................................................2
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .....................................................5
DANH MỤC HÌNH VẼ ..................................................................................................6
DANH MỤC BẢNG BIỂU ............................................................................................. 7
CHƢƠNG 1:

KHAI PHÁ LUẬT KẾT HỢP ............................................................... 9

1.1 Tổng quan về khai phá dữ liệu ................................................................................9
1.2 Giới thiệu về khai phá luật kết hợp .......................................................................10
1.3 Một số khái niệm cơ bản [3, 5, 7] ......................... Error! Bookmark not defined.
1.3.1 Cơ sở dữ liệu giao tác ................................... Error! Bookmark not defined.
1.3.2 Tập mục thƣờng xuyên................................. Error! Bookmark not defined.
1.3.3 Luật kết hợp.................................................. Error! Bookmark not defined.
1.4 Một số thuật toán khai phá luật kết hợp ................ Error! Bookmark not defined.

1.4.1 Thuật toán AIS ............................................. Error! Bookmark not defined.
1.4.2 Thuật toán Apriori ........................................ Error! Bookmark not defined.
CHƢƠNG 2:

KHAI PHÁ LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU GIA TĂNG
ERROR! BOOKMARK NOT DEFINED.

2.1 Mở đầu .................................................................. Error! Bookmark not defined.
2.2 Thuật toán xử lý dữ liệu gia tăng theo chiều dọc - Thuật toán Gia tăng 1 ... Error!
Bookmark not defined.
2.2.1 Ý tƣởng thuật toán ........................................ Error! Bookmark not defined.
2.2.2 Chuyển đổi cơ sở dữ liệu sang chiều dọc ..... Error! Bookmark not defined.
2.2.3 Các thủ tục phụ trợ ....................................... Error! Bookmark not defined.
2.2.4 Tìm tập mục ứng viên .................................. Error! Bookmark not defined.
2.2.5 Tính độ hỗ trợ của tập mục ứng viên ........... Error! Bookmark not defined.
2.2.6 Khai phá tập thƣờng xuyên .......................... Error! Bookmark not defined.
2.2.7 Xử lý dữ liệu gia tăng ................................... Error! Bookmark not defined.
2.2.8 Ví dụ minh họa ............................................. Error! Bookmark not defined.
2.2.9 Nhận xét về thuật toán gia tăng 1 ................. Error! Bookmark not defined.


4
2.3 Thuật toán xử lý dữ liệu gia tăng theo chiều ngang – Thuật toán Gia tăng 2
Error! Bookmark not defined.
2.3.1 Ý tƣởng thuật toán ........................................ Error! Bookmark not defined.
2.3.2 Xây dựng cây gia tăng .................................. Error! Bookmark not defined.
2.3.3 Khai phá tập thƣờng xuyên .......................... Error! Bookmark not defined.
2.3.4 Lƣu trữ và khôi phục cây gia tăng ................ Error! Bookmark not defined.
2.3.5 Ví dụ minh họa ............................................. Error! Bookmark not defined.
2.3.6 Nhận xét về thuật toán Gia tăng 2 ................ Error! Bookmark not defined.

2.3.7 Đề xuất ý tƣởng cải tiến cấu trúc cây gia tăng ........... Error! Bookmark not
defined.
CHƢƠNG 3: CÀI ĐẶT CHƢƠNG TRÌNH THỬ NGHIỆM ....................... ERROR!
BOOKMARK NOT DEFINED.
3.1 Mô tả chƣơng trình chạy ....................................... Error! Bookmark not defined.
3.2 Thử nghiệm đánh giá thuật toán Gia tăng 1 .......... Error! Bookmark not defined.
3.2.1 Thử nghiệm và đánh giá thuật toán trên nội dung 1, 2 ..... Error! Bookmark
not defined.
3.2.2 Thử nghiệm và đánh giá thuật toán trên nội dung 3 .. Error! Bookmark not
defined.
3.3 Kết luận ................................................................. Error! Bookmark not defined.
KẾT LUẬN ............................................... ERROR! BOOKMARK NOT DEFINED.
TÀI LIỆU THAM KHẢO ............................................................................................. 11


5

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Ký hiệu
xi
tj
I
T
X = {𝑥𝑖1 , … , 𝑥𝑖𝑘 }
sup(X)
S0
𝐹𝑆0
||X||
CSDL


Ý nghĩa
Mục dữ liệu thứ i
Giao tác thứ j
Tập hợp gồm n mục dữ liệu {xi, …, xn}
Cơ sở dữ liệu giao tác trên I là tập hợp gồm m giao tác
T= {t1, …, tm}
Tập mục dữ liệu X gồm k mục dữ liệu
Độ hỗ trợ của tập mục dữ liệu X
Ngƣỡng hỗ trợ tối thiểu cho trƣớc
Tập các tập thƣờng xuyên theo ngƣỡng S0
Độ dài của tập X = số các phần tử của X
Cơ sở dữ liệu


6

DANH MỤC HÌNH VẼ
Hình 1-1: Ví dụ minh họa thuật toán AIS ..................... Error! Bookmark not defined.
Hình 1-2: Ví dụ về thuật toán Apriori ........................... Error! Bookmark not defined.
Hình 2-1: Cấu trúc cây gia tăng ..................................... Error! Bookmark not defined.
Hình 2-2: Cây gia tăng với 6 giao tác đƣợc thêm vào ... Error! Bookmark not defined.
Hình 2-3: Cây gia tăng sau khi đƣợc khôi phục ............ Error! Bookmark not defined.
Hình 2-4: Cây gia tăng ở mục 2.3.4 sau khi sử dụng thuật toán cải tiến có cấu trúc nhỏ
gọn hơn .......................................................................... Error! Bookmark not defined.
Hình 3-1: Kết quả chạy thử nghiệm ban đầu của Gia tăng 1 ...... Error! Bookmark not
defined.
Hình 3-2: Cơ sở dữ liệu test cho Apriori và Gia tăng 1 Error! Bookmark not defined.
Hình 3-3: Kết quả chạy Apriori và Gia tăng 1 dữ liệu ban đầu hình 3.2 .............. Error!
Bookmark not defined.

Hình 3-4: Dữ liệu tăng thêm T’ ..................................... Error! Bookmark not defined.
Hình 3-5: Kết quả chạy Apriori và Gia tăng 1 trên T+T’............ Error! Bookmark not
defined.
Hình 3-6: Thời gian chạy của Apriori và Gia tăng 1 trên CSDL 1, 2, 3,4 ban đầu
....................................................................................... Error! Bookmark not defined.
Hình 3-7: Thời gian chạy của Apriori và Gia tăng 1 trên CSDL 1, 2,3, 4 sau khi gia
tăng ................................................................................ Error! Bookmark not defined.
Hình 3-8: Thời gian chạy của Apriori và Gia tăng 1 trên CSDL 5, 6, 7, 8 ban đầu
....................................................................................... Error! Bookmark not defined.
Hình 3-9: Thời gian chạy của Apriori và Gia tăng 1 trên CSDL 5, 6, 7, 8 sau khi gia
tăng ................................................................................ Error! Bookmark not defined.
Hình 3-10: Kết quả chạy của Apriori và Gia tăng 1 trong trƣờng hợp 1 .............. Error!
Bookmark not defined.
Hình 3-11: Kết quả chạy của Apriori và Gia tăng 1 trong trƣờng hợp 1 .............. Error!
Bookmark not defined.
Hình 3-12: Kết quả chạy của Apriori và Gia tăng 1 trong trƣờng hợp 3 .............. Error!
Bookmark not defined.


7

DANH MỤC BẢNG BIỂU
Bảng 1.1: Ma trận giao tác của cơ sở dữ liệu giao tác T ............. Error! Bookmark not
defined.
Bảng 1.2: Biểu diễn ngang của cơ sở dữ liệu giao tác T ............. Error! Bookmark not
defined.
Bảng 1.3: Biểu diễn dọc của cơ sở dữ liệu giao tác T ... Error! Bookmark not defined.
Bảng 3.1: Giải thích tiêu đề ........................................... Error! Bookmark not defined.
Bảng 3.2: Bộ cơ sở dữ liệu thứ nhất .............................. Error! Bookmark not defined.
Bảng 3.3: Kết quả thu đƣợc trên bộ cơ sở dữ liệu thứ nhất......... Error! Bookmark not

defined.
Bảng 3.4: Bộ cơ sở dữ liệu thứ hai ................................ Error! Bookmark not defined.
Bảng 3.5: Kết quả thu đƣợc trên bộ cơ sở dữ liệu thứ hai........... Error! Bookmark not
defined.
Bảng 3.6: Kết quả chạy của Apriori và Gia tăng 1 trong trƣờng hợp 1 ................ Error!
Bookmark not defined.
Bảng 3.7: Kết quả chạy của Apriori và Gia tăng 1 trong trƣờng hợp 2 ............... Error!
Bookmark not defined.
Bảng 3.8: Kết quả chạy của Apriori và Gia tăng 1 trong trƣờng hợp 3 ............... Error!
Bookmark not defined.


8

MỞ ĐẦU
Khai phá dữ liệu nhằm phát hiện các tri thức mới giúp ích cho hoạt động của con
ngƣời đã trở thành một lĩnh vực quan trọng. Nhiều hƣớng tiếp cận khác nhau trong
khai phá dữ liệu nhƣ phân lớp, phân cụm, hồi quy, luật kết hợp. Khai phá luật kết hợp
là một kỹ thuật cơ bản và quan trọng đƣợc sử dụng trong khai phá dữ liệu. Khai phá
luật kết hợp nhằm tìm ra đƣợc những tập phần tử thƣờng xuất hiện đồng thời trong cơ
sở dữ liệu hay còn gọi là tập mục thƣờng xuyên (frequent patterns), từ đó rút ra đƣợc
luật về ảnh hƣởng của một tập phần tử dẫn đến sự xuất hiện của một tập phần tử khác
nhƣ thế nào.
Khi tìm các tập mục thƣờng xuyên với các ngƣỡng hỗ trợ khác nhau, công việc
tìm kiếm lại phải bắt đầu lại từ đầu. Điều này là lãng phí. Ngoài ra, trong thực tế, cơ sở
dữ liệu luôn đƣợc bổ sung và gia tăng theo thời gian. Do vậy yêu cầu cần có những
thuật toán hiệu quả cho việc phát hiện luật kết hợp khi dữ liệu tăng thêm.
Xuất phát từ nhu cầu tìm hiểu về một số phƣơng pháp khai phá luật kết hợp trong
bối cảnh gia tăng dữ liệu, học viên đã chọn đề tài “Một số phƣơng pháp khai phá luật
kết hợp trong cơ sở dữ liệu gia tăng”. Nội dung luận văn đƣợc chia thành 3 chƣơng:

 Chƣơng 1: Khai phá luật kết hợp. Chƣơng này giới thiệu về khai phá dữ liệu,
các bƣớc trong khai phá dữ liệu, một số kỹ thuật đƣợc sử dụng trong khai phá
dữ liệu. Tiếp theo, chƣơng này đƣa ra những khái niệm trong khai phá luật kết
hợp nhƣ tập mục dữ liệu, cơ sở dữ liệu giao tác, độ hỗ trợ, độ tin cậy của luật
kết hợp. Hai thuật toán khai phá luật kết hợp đƣợc đề cập trong chƣơng 1 là
AIS và Apriori.
 Chƣơng 2: Khai phá luật kết hợp trên cơ sở dữ liệu gia tăng. Chƣơng này tập
trung vào nghiên cứu hai thuật toán khai phá dữ liệu trên cơ sở dữ liệu gia tăng:
thuật toán khai phá luật kết hợp trên cơ sở dữ liệu gia tăng theo chiều dọc và
thuật toán khai phá luật kết hợp trên cơ sở dữ liệu gia tăng theo chiều ngang.
Trong chƣơng này, học viên cũng đề xuất thuật toán cải tiến cấu trúc cây gia
tăng trong thuật toán Gia tăng 2.
 Chƣơng 3: Cài đặt chƣơng trình thử nghiệm. Chƣơng này trình bày về cài đặt
hai thuật toán Apriori và thuật toán Gia tăng 1. Sau đó là phần chạy thử nghiệm
hai thuật toán trên một số cơ sở dữ liệu nhằm đánh giá hai thuật toán trên ba nội
dung: thử nghiệm trên cơ sở dữ liệu ban đầu, thử nghiệm trên cơ sở dữ liệu gia
tăng, thử nghiệm trên cơ sở dữ liệu ổn định với những ngƣỡng khai phá khác
nhau. Từ đó rút ra đƣợc những so sánh, nhận xét và đánh giá về tính hiệu quả
của thuật toán Gia tăng 1 khi dữ liệu gia tăng.


9

CHƯƠNG 1: KHAI PHÁ LUẬT KẾT HỢP
Nắm được những kiến thức cơ bản về khai phá dữ liệu và những khái
niệm liên quan đến khai phá luật kết hợp như: tập mục dữ liệu, cơ sở
dữ liệu giao tác, biểu diễn của cơ sở dữ liệu giao tác, độ hỗ trợ và độ
tin cậy của tập mục dữ liệu, tập mục thường xuyên, bài toán khai phá
luật kết hợp v.v… Trong phần tiếp theo của chương này, học viên sẽ
trình bày hai thuật toán đầu tiên của khai phá luật kết hợp là AIS và

Apriori. Thuật toán Apriori là một nội dung cơ sở để phục vụ cho nội
dung chính của luận văn.

1.1

Tổng quan về khai phá dữ liệu

Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của
thập kỷ 1980. Chúng ta có thể hiểu một cách sơ lƣợc rằng khai phá dữ liệu là quá trình
tìm kiếm những thông tin (tri thức) hữu ích, tiềm ẩn và mang tính dự báo trong các tập
dữ liệu lớn. Theo [7]: Khai phá dữ liệu là một quá trình phức tạp để tìm kiếm những
mẫu hoặc những tri thức có giá trị từ một lượng lớn dữ liệu. Các nguồn dữ liệu có thể
bao gồm cơ sở dữ liệu, kho dữ liệu, các trang web, các kho thông tin khác, hoặc dữ
liệu được nhập vào hệ thống một cách tự động.
Khai phá dữ liệu gồm những bƣớc sau [7]:
1. Làm sạch dữ liệu: dữ liệu sau khi thu thập đƣợc có thể bị lỗi, nhiễu, không đầy
đủ, có mâu thuẫn. Những dữ liệu dạng này đƣợc xem nhƣ thông tin dƣ thừa,
gây nên những kết quả sai lệch. Do đó, cần phải làm sạch dữ liệu nhƣ gán các
giá trị còn thiếu, sửa chữa các dữ liệu nhiễu/lỗi.
2. Tích hợp dữ liệu: dữ liệu từ nhiều nguồn có thể đƣợc tích hợp với nhau.
3. Trích lọc dữ liệu: lấy ra những tập dữ liệu từ cơ sở dữ liệu ban đầu theo một số
tiêu chí nhất định.
4. Chuyển đổi dữ liệu: dữ liệu đƣợc chuyển từ bộ giá trị này sang một bộ giá trị
thay thế phù hợp cho việc khai phá dữ liệu.
5. Khai phá dữ liệu: sử dụng một kỹ thuật phƣơng pháp nào đó để lấy ra đƣợc
những mẫu dữ liệu (patterns.)
6. Đánh giá các mẫu: đánh giá những mẫu theo tiêu chí nào đó.
7. Biểu diễn tri thức: biểu diễn các mẫu trích xuất đƣợc dƣới dạng dễ hiểu nhƣ đồ
thị, hình vẽ, bảng,…
Một số kỹ thuật đƣợc sử dụng trong khai phá kết hợp (chính là đƣợc sử dụng

trong bƣớc 5 của khai phá dữ liệu):
Phân loại: phƣơng pháp phân loại cho phép chúng ta phân loại một đối tƣợng
vào một lớp. Mỗi lớp đƣợc đặc trƣng bởi một số thuộc tính nào đó. Ví dụ chúng ta có


10
thể phân loại thành các lớp xe máy khác nhau theo các thuộc tính nhƣ nhãn hiệu, phân
khối, màu sắc. Khi có một chiếc xe mới chúng ta so sánh thuộc tính của nó với thuộc
tính của những lớp đã đƣợc định nghĩa để phân xe đó vào một lớp cụ thể. Quá trình
phân loại dữ liệu thƣờng gồm hai bƣớc: xây dựng mô hình và sử dụng mô hình để
phân loại dữ liệu.
 Bƣớc 1 (bƣớc học): Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu
cho trƣớc.
 Bƣớc 2 (bƣớc phân loại): Sử dụng mô hình để phân loại dữ liệu.
Phân cụm: Phân cụm dữ liệu là quá trình chia một tập dữ liệu ban đầu vào các
tập con (subsets). Mỗi một tập nhƣ vậy gọi là một cụm (cluster). Các phần tử trong
cùng một cụm thì tƣơng tự nhau (similar), các phần tử trong các cụm khác nhau thì sẽ
phi tƣơng tự với nhau (dissimilar). Những phƣơng pháp phân cụm khác nhau có thể sẽ
sinh ra các cụm khác nhau trên cùng tập dữ liệu ban đầu. Phân cụm đƣợc sử dụng rộng
rãi trong nhiều ứng dụng nhƣ kinh doanh thông minh (business intelligence), nhận
dạng ảnh, tìm kiếm web, sinh học và an ninh,…
Hồi quy: Theo Wikipedia, hồi quy là một phƣơng pháp thống kê mà giá trị kỳ
vọng của một hay nhiều biến ngẫu nhiên đƣợc dự đoán dựa vào điều kiện của các biến
ngẫu nhiên (đã tính toán) khác. Cụ thể, có hồi qui tuyến tính, hồi qui lôgic, hồi qui
Poisson và học có giám sát.
Khai phá luật kết hợp: nhằm phát hiện ra những phần tử nào thƣờng hay đi kèm
với nhau.

1.2


Giới thiệu về khai phá luật kết hợp

Khai phá luật kết hợp (Mining association rules) lần đầu đƣợc Rakesh Agrawal
Agrawal đƣa ra vào năm 1993 [5]. Khai phá luật kết hợp là một kỹ thuật đƣợc sử dụng
trong khai phá dữ liệu nhằm tìm ra các phần tử thƣờng xuất hiện cùng nhau trong cơ
sở dữ liệu; từ đấy rút ra đƣợc các luật về ảnh hƣởng của một tập phần tử dẫn đến sự
xuất hiện của tập phần tử khác. Ví dụ, sự xuất hiện của A kéo theo sự xuất hiện của B
nên ta có luật kết hợp (A→B). Dạng luật nhƣ vậy đƣợc gọi là luật kết hợp và quá trình
tìm ra đƣợc các luật kết hợp đƣợc gọi là khai phá luật kết hợp. Luật kết hợp là dạng
luật khá đơn giản nhƣng mang lại khá nhiều ý nghĩa. Thông tin mà luật kết hợp cung
cấp hỗ trợ đáng kể trong quá trình đƣa ra quyết định.
Các giải thuật khai phá luật kết hợp tìm kiếm các mối liên kết giữa các phần tử
dữ liệu, ví dụ nhƣ nhóm các món hàng thƣờng đƣợc mua kèm với nhau trong siêu thị.
Những nghiên cứu về luật kết hợp gần đây tập trung xây dựng các thuật toán khai phá
luật kết hợp mới, hiệu quả hoặc cải tiến, phát triển các thuật toán hiệu quả hơn từ các
thuật toán đã có.
Chúng ta xem xét một bài toán kinh điển về khai phá luật kết hợp đƣợc nêu ra
trong [7]: bài toán phân tích giỏ hàng. Khách hàng vào siêu thị mua hàng. Họ sẽ bỏ


11

TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Nguyễn Xuân Huy, Đoàn Văn Ban, Nguyễn Hữu Trọng, (2007) “Thuật toán khai
thác dữ liệu tăng trưởng”, Tạp chí Khoa học và Công nghệ, Viện Khoa học và công
nghệ Việt Nam, Số 2, tập 45, trang 9-18.
[2] Nguyễn Hữu Trọng (2007), “Thuật toán khai phá tập mục dữ liệu thường xuyên
trong cơ sở dữ liệu gia tăng dựa trên phân lớp dữ liệu”, Tạp chí Khoa học và Công
nghệ, Viên Khoa học và Công nghệ Việt Nam, Số 3, tập 45, trang 15-26.

[3] Nguyễn Hữu Trọng (2007), “Một số thuật toán khai phá luật kết hợp trên cơ sở dữ
liệu tăng trƣởng”, Luận án tiến sĩ toán học, Viện công nghệ thông tin.
[4] Vũ Ðức Thi (2012), “Một số vấn đề tính toán liên quan đến cơ sở dữ liệu và khai
phá dữ liệu", Tạp chí Khoa học và Công nghệ, Viện Khoa học và Công nghệ Việt
Nam, số 6, tập 50, trang 679-703.
Tiếng Anh
[5] Rakesh Agrawal, Tomasz Imielinski T, Arun Swami (1993) “Mining association
rules between sets of items in large database”. In: Proceedings of the 1993 ACM
SIGMOD International Conference on Management of Data, pp 207–216.
[6] Rakesh Agrawal, Ramarkrishnan Srikant (1994) “Fast algorithms for mining
association rules”. In: Proceedings of the 20thVLDB conference, pp 487–499.
[7] Jiawei Han, Michelin Kamber, Jian Pei, “Data Mining: Concepts and Techniques”,
Third Edition, Morgan Kaufmann, pp 243-278.
[8] Jiawei Han, Michelin Kamber, Jian Pei, Slide “Concepts and Techniques, 3re ed –
Chapter 6”.



×