K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 1
!"#
!
$%
&'()*+,-'.#'
/0123/4156712891
/153/41:5;<5/=1
.
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 2
>?
!"#$%&'()*+,'
&-*.!"/0."123452,/
62"17,'"21)8*9(:";-<*
&=,1(%""1&->:&/*&-*(?&7@'/*
#AB%->C:D1)8*9(:"E*)&F22<*
#AB&GH"IJ+K&'J"IJIL?'%:MG15**9
N&'2(O*+,'.DG1*?&->:&/*(?&7("
'P2KQ2(O*+(":&/*%R'1&=,S
!"<#$NG/"2*,'T/$"25U":&/*"->
:D11%<*&=,(:",'S0("*V"(J
'K','I)("6N"JJWX9<*?P,'.
&G5NG%:D(O*+(":&/*,'1)8*9(:"
!"Y,'*->&>K&G
Z8')[\),5.6U":&/*
]A""^%*<(NP,.LE*FI*8'[I"0
,96+,'I"E*)_-[Y'=#./.E*"!"
@6`*0"@#a%<*(/,<'&/*"()J2''
.6'
#'[b
B5!5
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 3
?#@.$!
I. !"#A!B#C
1. Khai phá dữ liệu (DATAMINNG) là gì?
• !"#$ %&' ()$*+ #
&!,
• "- .#/ !- 0 (*10$2324 5&46728"7'9
':;"75 1),/2-5&7<"8 )8=
• <>- *5&4
• ?+- " @A=
• 2,24'2"&B),7C2 9 @'DE=
FC2GEG0H0<8II'JK"7),K2&LM'2/P[
R:&/*7N88I 7)8"*I8O&P Q7,*4R"S "
T !- U @A="7&!0',24*(A &V *"77,*4
R"S0IWX +@&V *&P 1.#" 2YU=
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 4
• Z"S.W['*\&]*^ . &_ -. )#&$ ]+R1=K
&!I`. &_ RM&P.>5+=a(A 187,@
!R),.W[ b,I7 7+@' !PP
&(c =d$[1S !)e"#&f+('5 S&>5 I5,24R"S"#
'!'C0V+$)(A2\ ( +&(c I7"$*+1&(c
1.#),7 0R+[ 0+V&V$]7,*4R"S
12/S&:0g
• a(A 187, h@7'- c),5 ) '
&PS2&(c 2Y8" ![i(A*P%(fT)A [i&!
(BS&(c *P%(A @.170 >R1&_0I@0*PT
;R0g=
2. Lợi ích:
• #"T j"c"R&_
• 5*7
• R
3. Thuật ngữ:
• J2
• J2,24*A 1"S7N88I 7)8"
*I8I@:R;2 *A ($.W[0<0@.W[=
4. Ti"m năng:
• <>- 0j"c"R1&_
• <>- ),R+[_"(B
• Z+[),>- ""7
• Z+[),>- Ik
• TX'
• l8*
• )C*+8.2
g
II. DE !"#
1. Ti"n xử lý :
• F Ti)5
• 7@&]),7
• $.W[m,2I 02L!
• nbhm $
• h )X
• h @+
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 5
o= Khai thac dữ liệu: Tìm kiếm tri thức
3. Hậu xử lý
• p2YS2&(c
• aP%"T
• KWX "T )U'2
= Mô hình:
III.
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 6
o
1. CSDL (quan hệ, hướng đối tượng, không gian,Text, XML,Multi-
media,Heterogeneous, WWW, …)
2. Tri thức (đặc trưng, gom cụm, kết hợp, …)
3. Kỹ thuật (Nhà kho dữ liệu (OLAP),máy học, thống kê, trực quan hóa,Mạng nơron và
thuật giải GA …)
IV. )!,
5&4!) 57 .1),,)I`%""7(f2
5&4!R"SS2'12),"- .# @/ !29R7V (f
R"724@ 5 A
1. Bán lẻ, siêu thị
2. Ngân hàng
3. Khai thác gen
4. Phân tích cổ phiếu
5. KTDL Web, Phân tích mạng xã hội, Email…
6. Phân tích dữ liệu
• Một số công nghệ thường áp dụng trong data mining:
"->76"q 8"8N7"'Ip>,2/S2,9 !
P5h /R&,77)A@*&]0U&!I&7" @'1
R+U@2,!' =
>R1&_8 I7I"88I4@ 8 I7I*P%(A
>0 8 I7I,7" @ 7) >7@=F/2,0
1@/6r2L @aSR1&_=
• ?+@"$?88" 67"2Is@,IWX"7 R
"S9c0*1&:0 hh 5'1UU'21!=
<(f/,.!2]#F8"8I8*7"287p>,'s@
>7U*+m/"7@5"I5'1c '
"8 7"I !&49#"7@R'T=
• F\ I%n8 7s@*! 5"
\ F1JSU @9
• tX"#&),"4A0U2"'80 9@0+2,
I+.#0C70>- ,)IW(BM8"8&P"8
&b ]0&b&9(cTXj"c"R1&_0 T
'7h &1) 9*9)=)==
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 7
?+,
I. >#FGH
cG/*,<(O*+DU":&/*]#&*JJE*J
A""a^V
5I1<JK,'s@"#R"h"7'0!4 A (f
1LMNOP3/LO8#OQP1/12 "7 88"=!"#$&_i'
)$'s@,0()$*+ # !PP> X2, R"SS2
!2 &9(c&L 7),7 X2 I8"I0I7 7 &9(c"7 M
X2(f5I2"), &9(c' X2S'/(f5II2"
=
1. Mục đích của phân cụm
,S2"*+ #*"7 !2 =,2*(A $.W[ 7 @
7' = @7> X2I8" 67"2I &$ I" X2
I8"I=0'/ ! -,7,&(c .82,9#&P&
>- > X20&$,X4 ),72X &- > X2("8 70
u" I8"Iv0uI8qv I8"I078"88 7
2. Các ứng dụng tiêu biểu của gom cụm:
• "'8w &_ !2' ,' ,$2C0' ,"_0>7
),5&7,)' ,0gIWXI+32_ )X /&Pb / !
1(c '7R+fx
• a77<@!2&4)@),5 )@5),7 4 - bx
• *""8I87r&4 +0I 05&7 ] &4 +gx
• yI" 80H 8<>!2 &9(cIWX*+7P2), _ )X, -05
&7.(A"8 ' ,0@, -8qq"Ix
• lll <>7,7 28 IIq 7x>7 (B MN8* I8"
N8*7xg
3. Thế nào là gom cụm tốt:
• 4(f9I`7" X2 ! #(c 7)A
(f5 7 7"7A/1:PQ&<RQLLB
(f5# A/1:OP&<RQLLB
• #(c '1R+72 X2X4 ),7
pz&7(f5IWX
,&V&4&7(f5
• #(c (f72 X2 {&(c &7*|'+C),
# + 2Y*_ 85/88O18"I
4. Các yêu cầu của gom cụm trong KPDL
• !P&:R2/I *
• +C,2) 74 -' =
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 8
• 2 X2 !S*#'}
• ]9$ 7"T i)5 ^2. &_ 2*1@
• +C,2) )A$),78"I
• / +2)A(5 *+@),7
• !I9 $ 7
• c )A ",*4 7(BM Q&_
• !P%_ ),'+X
5. Tương tự và bất tương tự giữa hai đối tượng
/ !&_i#)$I5(f5),*#(f5 &9(c
p_i)$(f5),*#(c5 &9(cM4 ),7
7'+7I
7(f5 ]1
(f5ma#(c5&9(c(B&(c
*P%R&4&7'7+ :]8^
[(|02h&4&7'7+ +,24),+k &$'I
6. Loại dữ liệu trong phân tích cụm
6.1 S<T/U1V5W012:XR=
&4&7X &71-0/
d-X"h(c0 $ 70:
pf)_&7 !P+(|&1>- X2
pP"I5X4 ),7&f)_&70 ] 37
37 &4&7
-I*&9"*S
)A),
-&4&7 3
6.2 D/U115YN5I1
a1_> Q !",
a+<W1:/12O1<Z:QTRO 7_>
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 9
=L[\Q<<QP8<WO]]/</O1:(f
5'/*#*101*1_>,*#&9.T
.^8JK5*#(f5 *1_>
a+"8 7"*>
24 -"7&!
88",4 -&9.T
4 - ~,*#&9.T_>
?h "_G),&(c "_0),"_&(c "_
-'7+ *>5),7 *#&9.TMI9
• "
_`a S<T/U1bY158Q15c:5d:;c:XR=
*1&_
|"4*1_>&P*1 !P@$f" €&k0
),0.0X
7 <(f&9I&f+
7 K•]&9Ic:I9*1
7 <(fo8e12Kf:L[R6g12R71<S<T/U115YN5I1
7 7*1_>2A 7U"&_
*1T5
7 *1T5 !P,X "B"
7 T5 "_,R"h0)-X
7 !P.W[(D'7+
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 10
ThO<:j
18
d
*| b
‚.2) U*1),7
&7ƒ0„*^ 1&9(cT"7*1
TdIR
-I5' M (f
7*1Q87'7+
*1Q
7 fbW86i12:P41:5Q12N5/:MZU10.#.Q&72{
7 d-XO
D:
O
&D:
6.4 S<T/U1<jV/kM5l15gN
K!P T +I7*1
!PM /T &(c "h&P'1c R+
dA
j122jN<mQT/U1d3nWV5W012<S<5:]e^
F1d,_>&_
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 11
F1d5"'7+M'7+ &(c 37
F1d,T5QI9&(c Q87-
d
),
.W[f
d
87Q'7+
6.5 Các kiểu dữ liệu phức tạp
# + &9(c&(c .82.…"7<,'/R
†‡#Wo/8pR/=MN5d<:oN
d-X)$7()@,'/0&(f
0"$0)C*+0 jB0)C*+),
&(c 72Ul7"Jl8l8*
&4&7(f5),*#(f5(B7,7,' T)A
7"
_`_ S<N56i12N5SN2WK<JKA<RML:OP/12B<5^15ZUM
<(f> #
<(f5"2@&4
<(f5"2/S
<(f5"(A
<(f>7
7 724>7 KA T&9(c,@;2(
X2I7 7
j X2 T-#,24&9(c
j&9(c4 )$&b24 X2
7(0S224>7 !( X2^29(P 3>
7 &(c h
7 3I&7 #(c>7
7 9(7, X '879)… # + >7
7 (f
V&KOQ1L Z88ˆ‰Š2j X2&(c &*^>2
X2<O1:PW/8
V&KO8W/8Lq2‹n7II88NˆEŠ2j X2&(c &
*^24"7 &9(c X2KO8W/8=
II. ,&'
1. /7/:5/=M3q:5Mr::WS1V&KOQ1L
• J28I,@772 X287(f>7 ),&L&(c IW
X"4"L=7@ &9(c=
• X 72 X2>2+, @&9(c,,$!2
u X2vI7 7 &9(c"724 X2 !'(A(f5
fI7)A&9(c' !2=F! ' 0 @772 X2&V
&P2(f5"7 M24 X2"7' &P2'/(f5&V"7
!2' =
• ([0(c )A )X !2I(;R>A0|&! !'
2"_2X LA0 &9(c,&]),7 724X 72
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 12
X2'/ ]242X =dS)@072 X2(B&(c .82,h '/
!2I=7'/ ]L0 @7'/2I- c
)A$TX'/ !&(c L= )X'/2I
(72 X2(B&(c M&P'2),2/+@"(A '5
/) h !2I=772 X2'/M LA0'2
)$&4(f5+&(c &_i5" 4 - &9(c=
• p_i)$&4(f5),(fT 2,|&! &P2&(c 72 X2'
5"@772 X2&(c X= @772 X2'
- c)A 'P' )$@), 2X ' =
dS)@@772 X2u9#v&PIWXM4 ),7TX=
• @7(J28I,@772 X2V&f+=F!>2+@
7"(A ,( X20"_(7(BM. &_=
• @7%5 0,0%- ),:*1"75 1=
p>,24"7@7'&P"7' =
• UJ28I&(c $, T'2/R$ ' 0
& b[#,7GŒŠ0GEo0H7"8G‰Œ0H"82),n*G‰Š
), Z88G‰Š=•),*8I2/+_ IW(J28I87$*1P=
?"),F87qq #$+ 7(J28I%""7 +Af
" @787&;ƒŠ„=
2. s:0:5r::WS1V&KOQ1L
2.1 ibtV5[/
2.2 5Mr::WS1&OQ1L:5;<5/=1uMQ<S<T67<<5^15LQM
a(A hY>2 8"7 7 X2 I8"=j X2&(c
&*^ >2 X2=
a(A o-'7+ &9(c7*•8 I&1>2(BM
'7+ Ž 8
a(A •F!2 &9(c),7!2]#
a(A =w &_>22A 7 !2
a(A Œ=5 *(A o 7&1''/ !I5&:!2,7
&9(c
2.3 .^8JK/155vQ:5Mr::WS1&OQ1
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 13
?+IW !79 60a0002j74 &(c *P%*|o&V "(
w),•(I=X &- ,!2 9 &L 7),7o!2†o
5),7 &V "( b=
D67<w`|7>2 8"7 7o!2=?+IW h6,>2 !2
T#h&4>2!2T# 0),a,>2 !2To7&4
>2!2T oo0=
D67<x`-'7+ U &9(c&1>2 !27+
Ž 8
j 4"72"@'7+ ,24&9(c 4T#(fT
)A&9(c60 4To(fT)A&9(ca0g=,T#"7
2"@'7+ *P%'7+ &9(c&1>2 !2
T# ),,To"72"@'7+ *P%'7+
&9(c&1>2 !2To o=
d-X0'7+ U79 †0•&1>2 0,•=‰),&1>2
oo0,o=E•&(c -(I
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 14
D67<a`F!2 &9(c),7!2]#
#"^!2I)~VT#;2 !&9(c6),!2o;2
&9(c ~60a00=
D67<y`->2 7!22A
D67<z`-h&4 >2 7 !22A5),7h&4 &9
(c"7!2=F!2 Q !&9(c6>2!2)Y'/&:0
0=>2!2o&(c -(I
D67<_`-'7+ U &9(c&1>22A
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 15
D67<{`F!2 &9(c),7!2
D67<|`-'7+ U &9(c&1>22A
D67<}`F!2 &9(c),7!2
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 16
#?
o
†?
/ !I5&:!2,7 &9(c@
7U),'1R+>!2(I
2.4 M156g<b/kK<m:5Mr::WS1&KOQ1L
Mb/kK
K *8(f&9"7'.W[ @A
I#(f&9g(0)A,I9&9(c0(,I9 X20),&'0&&3=
/(B(0‘‘=
(B'1b |&P29( X *4x !PS2&(c 9(7, X M
's@(@7"$
56g<b/kK
!PX Q'. &_&(c "_"*S &9(c
] Q&_"T (0D
/P.W[ j),78"I
/Mc&P'2 X2)A'7; X2 !'- (A
' =
x`z S<T/U1bl/<mQN56i12N5SN2WK<JKV&KOQ1L
.n/T/U1:5k<mQV&KOQ1LV5S<15QM~
7 h( 8"7I*&]
7 -7I5*#(f5
7 1(c - 8"7I X2
•€R•8pR/=MN5I115jKV&KW8OLˆGE
7 "_"*S I8"*^KW8OL
7 M &4&7*#(f52A 7 &9(c>!2
7 M(f78;Q:P41:‚1L[&P @@278I
56i12N5SN2WK<JK&KO8W/8L
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 17
7 p]),7 @7I9 X2(,'#AB2&9(c
7 @7;2*(A
1. h*#'}(&9(c,2KO8W/8LTQ1b‚M &9
(c&
2. ?U&9(c ~),7 X2 !287]#
3. h7287),24"7 287I*^!
1! + #(c X2
4. Z)$*(A o0U''/ ~…2A=
III. !'
1. /QW8/=1&OQ1L
1.1 €QLl56712891L€8J12<56i12:Pƒ15A•M„:5/=1V5/V5~/bf12<56i12
:Pƒ15B
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 18
1.2 /QW8/=1
2. 5oZ8OKW<56i12:Pƒ15
2.1 WK<JK37/KQ:Pr1N5I15Wo<5!
a,7d-X‰=•"E?7"S6y‚’y“”
V#+Vw0•xwo=Œ0•=oxw•=•0o=E0w•0
M'J28I72 X2)A'†o
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 19
187
187
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 20
2.2 WK<JK37/…+A….B
a,7d-X‰=•"E?7"S6y‚’y“”
#+Vw0•xwo=Œ0•=oxw•=•0o=E0w•0=
a"++,'V
#hac i i i c
#haj c c c i
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 21
2.3 WK<JK37/.'+A….B
a,7d-X‰=•"E?7"S6y‚’y“”
#+Vw0•xwo=Œ0•=oxw•=•0o=E0w•0=
d8 7"h>2d•00do0o
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 22
3. f:L[R†/2‡NN50/V5/15rN8pR/=M
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 23
3.1 Nhập thiếu điểm:
7V
?+R1
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 24
3.2 Ma trận phân hoạch có giá trị Null hoặc giá trị của ma trận phân hoach không phải là
0 hoặc 1
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 25