HVKTQS
!"#$"%
Hc viên thc hin:
&'()*+
1
2
3
4
!"#$%&'(
5
)
',' '/)
Trong thời đại bùng nổ công ngh thông tin, các công ngh lưu
trữ dữ liu ngày càng phát triển nhanh chóng tạo điều kin cho
các đơn vị thu thập dữ liu nhiều hơn và tốt hơn.
Khai thác dữ liu là quá trình trích xuất các thông tin có giá trị
tiềm ẩn trong những kho dữ liu. Khai thác dữ liu chỉ là một
khâu trong quy trình Khám phá tri thức trong cơ sở dữ liu.
Hin nay kỹ thuật khai thác dữ liu đang được áp dụng một
cách rộng rãi trong rất nhiều lĩnh vc kinh doanh và đời sống
khác nhau như: y tế, marketing, ngân hàng, viễn thông,
internet… Không ai có thể phủ định được những lợi ích to lớn
mà nhờ áp dụng kỹ thuật khai phá đem lại.
*
',' '/)
CSDL càng lớn thì tri thức khai thác được càng nhiều, tuy
nhiên với tốc độ phát triển của công ngh hin nay, dữ liu
phình lên với tốc độ rất lớn, trung bình là 10% - 15% một năm,
điều này gây khó khăn không nhỏ cho vic áp dụng các phương
thức khai thác dữ liu kinh điển. Các thuật toán xử lý tuần t
đôi khi không thể thc hin trên những CSDL lớn.
Trong những năm gần đây, vic nghiên cứu cải tiến các thuật
toán tuần t trong khai thác dữ liu đang là hướng được nhiều
người quan tâm. Vic cải tiến được thc hin trên hai hướng:
!"!#!#$%%
!&'%(##)
+
0123-4)56768-69:1
Kết quả đạt được
*+,-.%/#'%012
3#4567
*+,,&01283
2,94:;%!2<)=1
2>#?##03./'%/
Hướng phát triển
@8&-,&012
83,%$#;A1#,B8
C2="
,
.;*<,=(><'/)
Cho một CSDL D = {t1,t2,…,tn}, một tập hợp các lớp C= {C1,…,Cm}, bài
toán phân lớp được phát biểu như sau: Xác định ánh xạ
f : D
C sao cho với mỗi ti được quy về một lớp Cj.
Về mặt thc chất, bài toán phân lớp chính là chia D thành các lớp tương
đương.
-
01 )?--@0*=.;*<,=(><'/)
Phân lớp sử dụng khoảng cách
Phân lớp theo thống kê xác suất
Cây quyết định
Mạng Neural
Các kỹ thuật khác
@(
@D
@#=
.
.)?--@0*ABC*D
Phân lớp /nhóm n đối tượng thành k nhóm da trên đặc
tính/thuộc tính của đối tượng (k
≤
n nguyên, dương).
/
.)?--@0*ABC*D
Mỗi đối tượng được coi là 1 véc tơ m chiều
(m - số thuộc tính của đối tượng).
Vic phân lớp được thc hin da trên khoảng cách Euclidean nhỏ nhất
giữa đối tượng đến phần tử trung tâm của các lớp/nhóm.
Phần tử trung tâm của nhóm được xác định bằng giá trị trung bình các
phần tử trong nhóm
0
E*.2.@5*+101.F)1<'(BC*
A = {a1, a2 an} - Tập n đối tượng
aj=(xj1, xj2, xjm) j=1 n - phần tử thứ j cần phân loại
xjs s=1 m - thuộc tính của đối tượng
ci=(ci1, ci2, cim) i=1 k - phần tử trung tâm nhóm i
cis s=1 m - thuộc tính của phần tử trung tâm i
1("2&3
"3'45"36
78#"'
9'
∑
=
−=∂
m
s
isjsij
cx
E
A
FG
:;
E*.<8'-@86&-;G1HCIJ*+
Clusteri = {a1, a2 at} – Nhóm thứ i
i=1 k, k số cluster
j= 1 m, m số thuộc tính
t - số phần tử hin có của nhóm thứ i
xsj - thuộc tính thứ j của phần tử s s=1 t
cij - toạ độ thứ j của phần tử trung tâm nhóm i;
t
x
cij
t
s
sj
∑
=
=
E
(2)
01K9,11HC )?--@0*ABC*D
H
Khởi tạo ci i=1 k ngẫu nhiên
H
Lặp
IEJ K ,L 3# M;% δ #% %N NOE 2
OE3;(#>GEF
IAJ*$,P#2!;%δQ
IRJ@'%S$;(#>GAF
,33(#T,P#2=&U$2=!%#
$3
)
LM6N2.O'1HC )?--@0*ABC*D
Data input:
- n objects
- k clusters
Start
Initial k cluster centers
calculate
δ objects-centers
grouping based on
the δmin
No object
move group
recomput c
i
T
F
End
*
&=.P1-8=1HC )?--@0*
Số ô nhớ cần dùng để lưu trữ các đối tượng là O(mn) trong đó m là số
đối tượng còn n là số chiều (hay số thuộc tính) của các đối tượng
Còn độ phức tạp về thời gian của giải thuật K-MEANS là O(I*K*m*n)
trong đó I là số bước lặp cần thiết để giải thuật dừng (hội tụ), K là số
vùng
+
.9:16'QG
Vic khởi tạo phần tử trung tâm của nhóm ban đầu ảnh
hưởng đến s phân chia đối tượng vào nhóm trong trường
hợp dữ liu không lớn.
Số nhóm k luôn phải được xác định trước.
Không xác định được rõ ràng vùng của nhóm, cùng 1 đối
tượng, nó có thể được đưa vào nhóm này hoặc nhóm khác
khi dung lượng dữ liu thay đổi
Điều kin khởi tạo có ảnh hưởng lớn đến kết quả. Điều kin
khởi tạo khác nhau có thể cho ra kết quả phân vùng nhóm
khác nhau.
Không xác định được mức độ ảnh hưởng của thuộc tính đến
quá trình tạo nhóm.
,
)?-23-.:=
Gi I={I
1
, I
2
,…,I
m
} là tập m thuộc tính riêng bit, mỗi thuộc tính
gi là một item. Gi D là một CSDL, trong đó mỗi bản ghi T là
một giao dịch và chứa các tập item, T
⊆
I.
Định nghĩa 1: Một luật kết hợp là một quan h có dạng X
⇒
Y,
trong đó X, Y
⊂
I là các tập item gi là itemsets và X
∩
Y=
φ
. Ở
đây X được gi là tiền đề, Y là mnh đề kết quả.
Hai thông số quan trng của luật kết hợp là độ hỗ trợ (s) và độ
tin cậy (c).
Định nghĩa 2: Độ hỗ trợ (support) của luật kết hợp X
⇒
Y là tỷ
l % các giao dịch có chứa X, Y với tổng số các giao dịch có
trong cơ sở dữ liu.
Định nghĩa 3: Độ tin cậy (confidence) của luật là tỷ l % của số
giao dịch có chứa X, Y với số giao dịch có chứa X.
-
)?-23-.:=
Vic tìm các luật kết hợp từ cơ sở dữ liu chính là vic tìm tất
cả các luật có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng của độ
hỗ trợ và độ tin cậy do người sử dụng xác định trước. Các
ngưỡng của độ hỗ trợ và độ tin cậy được ký hiu là minsup và
mincof.
Ví dụ:
MV%;J
I;;W6%;XY3Z ⇒
[\
]
A
^@^
FI;;6%;XXY3G
===
σ
s
_`\
R
A
F6%;XY3G
FI;;6%;XY3XG
===
σ
σ
c
.
)?-23-.:=
Một số khái nim liên quan
@3;2$3;
@;aC2;$,bS1
%=C#!
@;3G>#cF2;-
,V;Vd$2;aC3(#
Các thuật toán tìm luật kết hợp
@<ef
@fM@Y
@<
@M%
/
.)?--@0*$=R'@R'
Ý tưởng: Tạo ra các tập phổ biến có 1 item, tập 2 items tạo từ
tập 1_item,……tập k items tạo từ tập k-1 items. Xây dng
luật từ tập phổ biến k items tìm được.
Mỗi tập item được tạo ra phải được tính toán độ hỗ trợ và độ
tin cậy.
Tính chất: mi tập item phổ biến thì tất cả các tập item con
của nó đều là phổ biến.
Qua 2 bước:
Tạo tập item phổ biến: tạo tất cả các tập item d kiến, tính
toán độ hỗ trợ, loại bỏ các tập d kiến không đạt minsup.
Tạo luật kết hợp: Từ các tập con của tập phổ biến xây dng
luật kết hợp và tính độ tin cậy của luật.
0
.)?--@0*$=R'@R'
1. Xác định các tập item phổ biến:
Xác định các tập ứng cử viên (C
k
).
Xác định các tập phổ biến (F
k
) da vào các tập ứng cử viên.
.)?--@0*$=R'@R'
1.1. Xác định C
k
:
Tìm các tập ứng cử viên 1 item.
Quét CSDL để xác định độ hỗ trợ của các tập ứng
cử viên. Tại vòng thứ k (k>1), các tập ứng cử viên
được xác định da vào các tập phổ biến đã xác định
tại vòng (k-1) sử dụng hàm Apriori_gen(). Sau khi
xác định được các tập ứng cử viên, thuật toán quét
từng giao dịch trong CSDL để xác định độ hỗ trợ
của các tập ứng cử viên. Quá trình xác định các tập
item phổ biến sẽ kết thúc khi không xác định được
thêm tập item phổ biến nào nữa.
.)?--@0*$=R'@R'
1.2. Nội dung hàm Apriori_gen()
+ F
k-1
được kết nối với chính nó thu được C
k
+ Apriori_gen() xoá tất cả các tập item từ kết quả kết nối mà
có 1 số tập con (k-1) không có trong F
k-1
. Sau đó nó trả về tập
item phổ biến kích thước k còn lại.
g?J
F
R
OZZEXAXRWXZEXAX[WXZEXRX[WX
ZEXRX]WXZAXRX[WW
<h;N
C
[
OZZEXAXRX[WXZEXRX[X]WW
<h;#J
C
[
OZZEXAXRX[WW
C;%!;ZEX[X]W!F
R
GZEXRX[X]W!;;F
)
.)?--@0*$=R'@R'
1<"
='
>? @
<"A
B
*
.)?--@0*$=R'@R'
Ví dụ tìm tập phổ biến
CX;[\
%XCXX;R\
CXX;A\
%XXE\
e;!@e6
CDEF
E
R;
R
RC
A%
fe;!;
%33B3E&%
G33&E
H3%
R;
R
RC
A%
fe;!;
I#&G&'E&E
C
%;
%
;
C;
%C
e;!;
G33&E
;
C;
C
%;
%
%C
e;!;
A
E
A
A
R
E
f
("
H3%
;
C;
C
%
e;!;
A
A
A
R
f
I#&G&'E&E
C;
e;!;
)G33&E
C;
e;!;
A
f
I#&)G&'E&E
H3%
+
.)?--@0*$=R'@R'
2. Sinh các luật kết hợp từ các item phổ biến:
Tìm tất cả các tập con không rỗng h của tập item phổ biến f
∈
F
Với mỗi tập con h tìm được, ta xuất ra luật dạng (h)
⇒
(f-h) nếu tỉ l
support(f)/support(h)
≥
mincof.