NỘI DUNG BÁO CÁO
Giới thiệu
Phân lớp dữ liệu và các thuật toán phân lớp dữ liệu
Luật kết hợp và các thuật toán tìm luật kết hợp
1
GIỚI THIỆU
Trong thời đại bùng nổ công nghệ thông tin, các công nghệ
lưu trữ dữ liệu ngày càng phát triển nhanh chóng tạo điều
kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn.
Đặc biệt trong lĩnh vực kinh doanh, các doanh nghiệp đã
nhận thức được tầm quan trọng của việc nắm bắt và xử lý
thông tin.
Khai thác dữ liệu là quá trình trích xuất các thơng tin có giá
trị tiềm ẩn trong những kho dữ liệu. Khai thác dữ liệu chỉ là
một khâu trong qui trình Khám phá tri thức trong cơ sở dữ
liệu.
Hiện nay kỹ thuật khai thác dữ liệu đang được áp dụng một
cách rộng rãi trong rất nhiều lĩnh vực kinh doanh và đời
sống khác nhau như: y tế, marketing, ngân hàng, viễn
thông, internet… Khơng ai có thể phủ định được những lợi
2
ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại.
GIỚI THIỆU
CSDL càng lớn thì tri thức khai thác được càng nhiều, tuy
nhiên với tốc độ phát triển của công nghệ hiện nay, dữ liệu
phình lên với tốc độ rất lớn, trung bình là 10% - 15% một
năm, cá biệt có những CSDL lớn gấp đơi sau mỗi năm, điều
này gây khó khăn khơng nhỏ cho việc áp dụng các phương
thức khai thác dữ liệu kinh điển. Các thuật toán xử lý tuần
tự đôi khi không thể thực hiện trên những CSDL lớn.
Trong những năm gần đây, việc nghiên cứu cải tiến các
thuật toán tuần tự trong khai thác dữ liệu đang là hướng
được nhiều người quan tâm. Việc cải tiến được thực hiện
trên hai khía cạnh:
1. Cải tiến về cấu trúc nhằm lưu trữ dữ liệu thích hợp
cho các thuật toán.
2. Cải tiến về cách thực thi các thuật toán trên cơ sở
song song hóa dựa trên sự phát triển của công nghệ chế
tạo.
3
PHÂN LỚP DỮ LIỆU
Cho một CSDL D = {t1,t2,…,tn}, một tập hợp các lớp C= {C1,
…,Cm}, bài toán phân lớp được phát biểu như sau: Xác định ánh
xạ f : DC sao cho với mỗi ti được quy về một lớp Cj.
Về mặt thực chất, bài toán phân lớp chính là chia D thành các lớp
tương đương.
4
THUẬT TOÁN PHÂN LỚP DỮ LIỆU
Phân lớp sử dụng khoảng cách
Phân lớp theo thống kê xác suất
Cây quyết định
Mạng Neural
Tập thô
Tập mờ
Thuật giải di truyền
5
THUẬT TOÁN K-MEANS
Do J.MacQueen giới thiệu năm 1967 trong tài
liệu “J. Some Methods for Classification and
Analysis of Multivariate Observations”
Được xếp vào 10 thuật toán tốt nhất trong Parallel Data Mining
K-means Clustering là một thuật toán dùng
trong các bài toán phân loại/nhóm n đối tượng
thành k nhóm dựa trên đặc tính/thuộc tính của
đối tượng (k ≤n ngun, dương).
Về ngun lý, có n đối tượng, mỗi đối tượng có
m thuộc tính, ta phân chia được các đối tượng
thành k nhóm dựa trên các thuộc tính của đối
tượng bằng việc áp dụng thuật toán này.
6
THUẬT TOÁN K-MEANS
Start
Data input:
- n objects
- k clusters
Initial k cluster centers
calculate
δ objects-centers
grouping based on
the δ min
F
No object
move group
T
End
recomput ci
7
VÍ DỤ K-MEANS
Số nhóm k=3
Số đối tượng cần phân chia n=9 (9 loại thuốc)
Số thuộc tính của mỗi loại thuốc là m=2
Cụ thể, danh mục các loại thuốc cần phân loại
như sau:
8
VÍ DU
Kết quả lần 1:
Với 3 điểm trung tâm ban đầu:
Ta được:
9
VÍ DU:
Kết quả lặp lần 2:
Tính toán lại điểm trung tâm từ lần lặp
trước:
Kết quả:
10
VÍ DU:
Kết quả lặp lần 3:
Tính toán lại điểm trung tâm từ lần lặp
trước:
Kết quả:
11
VÍ DU:
Kết quả lặp lần 4:
Tính toán lại điểm trung tâm từ lần lặp
trước:
Kết quả:
12
LUẬT KẾT HỢP
I.1. Luật kết hợp
Gọi I={I1, I2,…,Im} là tập m thuộc tính riêng
biệt, mỗi thuộc tính gọi là một item. Gọi D
là một CSDL, trong đó mỗi bản ghi T là một
giao dịch và chứa các tập item, T⊆I.
Định nghĩa 1: Một luật kết hợp là một quan
hệ có dạng X⇒Y, trong đó X, Y ⊂ I là các tập
item gọi là itemsets và X∩Y=φ. Ở đây X
được gọi là tiền đề, Y là mệnh đề kết quả.
13
LUẬT KẾT HỢP
I.1. Luật kết hợp
Hai thông số quan trọng của luật kết hợp là độ
hỗ trợ (s) và độ tin cậy (c).
Định nghĩa 2: Độ hỗ trợ (support) của luật kết
hợp X ⇒ Y là tỷ lệ % các giao dịch có chứa X, Y
với tổng số các giao dịch có trong cơ sở dữ liệu.
Định nghĩa 3: Độ tin cậy (confidence) của luật
là tỷ lệ % của số giao dịch có chứa X, Y với số
giao dịch có chứa X.
Việc tìm các luật kết hợp từ cơ sở dữ liệu chính
là việc tìm tất cả các ḷt có độ hỗ trợ và độ tin
cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy
do người sử dụng xác định trước. Các ngưỡng
của độ hỗ trợ và độ tin cậy được ký hiệu là
minsup và mincof.
14
LUẬT KẾT HỢP
I.1. Luật kết hợp
Ví dụ: Phân tích giỏ mua hàng
Example:
{Milk, Diaper} ⇒ Beer
σ (Milk, Diaper, Beer) 2
s=
= = 0.4
|T|
5
σ (Milk, Diaper, Beer) 2
c=
= = 0.67
σ (Milk, Diaper)
3
15
LUẬT KẾT HỢP
I.2. Một số khái niệm liên quan.
Tập k item là tập hợp có k item
Tập item phổ biến là tập hợp các item có
độ hỗ trợ lớn hơn hay bằng minsup.
Tập item dự kiến (tập ứng cử viên) là tập
hợp các item cần được xem xét có phải là
tập item phổ biến không.
16
THUẬT TOÁN TÌM LUẬT KẾT HỢP
Thuật toán AIS
Thuật toán SETM
Thuật toán Apriori
Thuật toán Eclat
17
THUẬT TOÁN APRIORI
Ý tưởng: Tạo ra các tập phổ biến có 1
item, tập 2 items tạo từ tập 1_item,……
tập k items tạo từ tập k-1 items. Xây
dựng luật từ tập phổ biến k items tìm
được.
Mỗi tập item được tạo ra phải được tính
toán độ hỗ trợ và độ tin cậy.
Tính chất: mọi tập item phổ biến thì tất
cả các tập item con của nó đều là phổ
biến.
18
THUẬT TOÁN APRIORI
Qua 2 bước:
Tạo tập item phổ biến: tạo tất cả các tập
item dự kiến, tính toán độ hỗ trợ, loại bỏ
các tập dự kiến không đạt minsupp.
Tạo luật kết hợp: Từ các tập con của tập
phổ biến xây dựng luật kết hợp và tính
độ tin cậy của luật.
19
THUẬT TOÁN APRIORI
1. Xác định các tập item phổ biến:
Xác định các tập ứng cử viên (C k).
Xác định các tập phổ biến (Fk) dựa vào
các tập ứng cử viên.
20
THUẬT TOÁN APRIORI
1.1. Xác định Ck:
Tìm các tập ứng cử viên 1 item.
Quét CSDL để xác định độ hỗ trợ của các tập
ứng cử viên. Tại vòng thứ k (k>1), các tập
ứng cử viên được xác định dựa vào các tập
phổ biến đã xác định tại vòng (k-1) sử dụng
hàm Apriori_gen(). Sau khi xác định được các
tập ứng cử viên, thuật toán quét từng giao
dịch trong CSDL để xác định độ hỗ trợ của
các tập ứng cử viên. Quá trình xác định các
tập item phổ biến sẽ kết thúc khi không xác
định được thêm tập item phổ biến nào nữa. 21
THUẬT TOÁN APRIORI
1.2. Nội dung hàm Apriori_gen()
+ Fk-1 được kết nối với chính nó thu được C k
+ Apriori_gen() xoá tất cả các tập item từ kết quả kết
nối mà có 1 số tập con (k-1) khơng có trong F k-1. Sau
đó nó trả về tập item phổ biến kích thước k cịn lại.
Ví dụ:
F3 = {{1, 2, 3}, {1, 2, 4}, {1, 3, 4},
{1, 3, 5}, {2, 3, 4}}
After join
C4 = {{1, 2, 3, 4}, {1, 3, 4, 5}}
After pruning:
C4 = {{1, 2, 3, 4}}
because {1, 4, 5} is not in F3 ({1, 3, 4, 5} is removed)
22
THUẬT TOÁN APRIORI
Thấy tập
không phổ
biến
Không
phải làm
23
TḤT TOÁN APRIORI
Ví dụ tìm tập item phổ biến
Data base D
TID
10
20
30
40
Items
a, c, d
b, c, e
a, b, c, e
b, e
1-candidates
Scan D
Min_sup=2
3-candidates
Scan D
Itemset
bce
Freq 3-itemsets
Itemset
bce
Sup
2
Itemset
a
b
c
d
e
Freq 1-itemsets
Sup
2
3
3
1
3
Itemset
a
b
c
Sup
2
3
3
e
3
Freq 2-itemsets
Itemset
ac
bc
be
ce
Sup
2
2
3
2
2-candidates
Counting
Itemset
ab
ac
ae
bc
be
ce
Sup
1
2
1
2
3
2
Itemset
ab
ac
ae
bc
be
ce
Scan D
24
THUẬT TOÁN APRIORI
2. Sinh các luật kết hợp từ các item phổ
biến:
Tìm tất cả các tập con không rỗng h của
tập item phổ biến f∈ F
Với mỗi tập con h tìm được, ta xuất ra
luật
dạng
(h)
⇒(f-h)
nếu
tỉ
lệ
support(f)/support(h) ≥ mincof.
25