Tải bản đầy đủ (.docx) (61 trang)

K-MEANS CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.54 MB, 61 trang )


K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 1



 !"#
!
$%
&'()*+,-'.#'
/0123/4156712891
/153/41:5;<5/=1
.
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 2
>?

 !"#$%&'()*+,'
&-*.!"/0."123452,/
62"17,'"21)8*9(:";-<*
&=,1(%""1&->:&/*&-*(?&7@'/*
#AB%->C:D1)8*9(:"E*)&F22<*
#AB&GH"IJ+K&'J"IJIL?'%:MG15**9
N&'2(O*+,'.DG1*?&->:&/*(?&7("
'P2KQ2(O*+(":&/*%R'1&=,S
!"<#$NG/"2*,'T/$"25U":&/*"->
:D11%<*&=,(:",'S0("*V"(J
'K','I)("6N"JJWX9<*?P,'.
&G5NG%:D(O*+(":&/*,'1)8*9(:"
!"Y,'*->&>K&G
Z8')[\),5.6U":&/*
]A""^%*<(NP,.LE*FI*8'[I"0
,96+,'I"E*)_-[Y'=#./.E*"!"


@6`*0"@#a%<*(/,<'&/*"()J2''
.6'
#'[b
B5!5
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 3
?#@.$!
I.  !"#A!B#C
1. Khai phá dữ liệu (DATAMINNG) là gì?
•  !"#$  %&' ()$*+ #
&!,
• "- .#/ !- 0 (*10$2324  5&46728"7'9
':;"75 1),/2-5&7<"8 )8=
• <>- *5&4
• ?+- "  @A=
• 2,24'2"&B),7C2 9 @'DE=
FC2GEG0H0<8II'JK"7),K2&LM'2/P[
R:&/*7N88I 7)8"*I8O&P Q7,*4R"S  "
T  !- U  @A="7&!0',24*(A &V *"77,*4
R"S0IWX  +@&V *&P 1.#"  2YU=
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 4
• Z"S.W['*\&]*^  . &_ -. )#&$ ]+R1=K
&!I`. &_  RM&P.>5+=a(A 187,@  
 !R),.W[ b,I7 7+@' !PP
&(c =d$[1S !)e"#&f+('5 S&>5 I5,24R"S"#
'!'C0V+$)(A2\ (  +&(c I7"$*+1&(c 
1.#),7  0R+[  0+V&V$]7,*4R"S
12/S&:0g
• a(A 187, h@7'- c),5 ) '
&PS2&(c   2Y8" ![i(A*P%(fT)A  [i&!
(BS&(c *P%(A  @.170 >R1&_0I@0*PT 

;R0g=
2. Lợi ích:
•  #"T j"c"R&_
• 5*7
• R
3. Thuật ngữ:
• J2
• J2,24*A  1"S7N88I 7)8"
*I8I@:R;2  *A ($.W[0<0@.W[=
4. Ti"m năng:
• <>- 0j"c"R1&_
• <>- ),R+[_"(B
• Z+[),>- ""7
• Z+[),>-   Ik
•  TX' 
•  l8*
•  )C*+8.2
g
II.  DE !"#
1. Ti"n xử lý :
• F Ti)5
• 7@&]),7
• $.W[m,2I 02L!
• nbhm $
• h )X 
• h  @+
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 5
o= Khai thac dữ liệu: Tìm kiếm tri thức
3. Hậu xử lý
• p2YS2&(c

• aP%"T
• KWX  "T )U'2
= Mô hình:
III.  
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 6
o
1. CSDL (quan hệ, hướng đối tượng, không gian,Text, XML,Multi-
media,Heterogeneous, WWW, …)
2. Tri thức (đặc trưng, gom cụm, kết hợp, …)
3. Kỹ thuật (Nhà kho dữ liệu (OLAP),máy học, thống kê, trực quan hóa,Mạng nơron và
thuật giải GA …)
IV.  )!,
5&4!) 57  .1),,)I`%""7(f2
5&4!R"SS2'12),"- .#  @/ !29R7V (f
R"724@ 5 A
1. Bán lẻ, siêu thị
2. Ngân hàng
3. Khai thác gen
4. Phân tích cổ phiếu
5. KTDL Web, Phân tích mạng xã hội, Email…
6. Phân tích dữ liệu
• Một số công nghệ thường áp dụng trong data mining:
"->76"q 8"8N7"'Ip>,2/S2,9 !
P5h /R&,77)A@*&]0U&!I&7"  @'1
R+U@2,!' =
>R1&_8 I7I"88I4@  8 I7I*P%(A
>0  8 I7I,7"  @ 7) >7@=F/2,0
1@/6r2L  @aSR1&_=
• ?+@"$?88" 67"2Is@,IWX"7  R
"S9c0*1&:0 hh 5'1UU'21!=

<(f/,.!2]#F8"8I8*7"287p>,'s@
>7U*+m/"7@5"I5'1c '
"8 7"I !&49#"7@R'T=
• F\ I%n8 7s@*!  5"
\ F1JSU  @9
• tX"#&),"4A0U2"'80 9@0+2,
I+.#0C70>- ,)IW(BM8"8&P"8
&b ]0&b&9(cTXj"c"R1&_0 T
'7h &1)  9*9)=)==
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 7
?+,
I. >#FGH
cG/*,<(O*+DU":&/*]#&*JJE*J
A""a^V
5I1<JK,'s@"#R"h"7'0!4 A  (f
 1LMNOP3/LO8#OQP1/12 "7 88"=!"#$&_i'
)$'s@,0()$*+ # !PP> X2,  R"SS2  
!2  &9(c&L 7),7   X2 I8"I0I7 7  &9(c"7 M
X2(f5I2"),  &9(c'  X2S'/(f5II2"
=
1. Mục đích của phân cụm
,S2"*+ #*"7  !2 =,2*(A $.W[ 7  @
7' =  @7> X2I8" 67"2I &$ I"   X2
 I8"I=0'/ ! -,7,&(c .82,9#&P&  
>- > X20&$,X4 ),72X &-  > X2("8 70
u" I8"Iv0uI8qv I8"I078"88 7
2. Các ứng dụng tiêu biểu của gom cụm:
• "'8w &_  !2' ,' ,$2C0' ,"_0>7
),5&7,)' ,0gIWXI+32_ )X  /&Pb / !
1(c '7R+fx

• a77<@!2&4)@),5 )@5),7  4 -  bx
• *""8I87r&4 +0I 05&7 ] &4 +gx
• yI" 80H 8<>!2  &9(cIWX*+7P2),  _ )X, -05
&7.(A"8 ' ,0@, -8qq"Ix
• lll <>7,7 28 IIq 7x>7 (B MN8*  I8"
N8*7xg
3. Thế nào là gom cụm tốt:
• 4(f9I`7"   X2 ! #(c 7)A
 (f5 7 7"7A/1:PQ&<RQLLB
 (f5#  A/1:OP&<RQLLB
• #(c '1R+72 X2X4 ),7
 pz&7(f5IWX
 ,&V&4&7(f5
• #(c (f72 X2 {&(c &7*|'+C),
# +  2Y*_ 85/88O18"I
4. Các yêu cầu của gom cụm trong KPDL
• !P&:R2/I *
• +C,2)   74 -' =
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 8
• 2   X2 !S*#'}
•   ]9$ 7"T i)5 ^2. &_  2*1@
• +C,2) )A$),78"I
• / +2)A(5  *+@),7
• !I9 $ 7
• c )A  ",*4 7(BM Q&_
• !P%_ ),'+X
5. Tương tự và bất tương tự giữa hai đối tượng
/ !&_i#)$I5(f5),*#(f5  &9(c

p_i)$(f5),*#(c5  &9(cM4 ),7

 7'+7I
 7(f5 ]1
(f5ma#(c5&9(c(B&(c 
*P%R&4&7'7+  :]8^
[(|02h&4&7'7+  +,24),+k  &$'I
6. Loại dữ liệu trong phân tích cụm
6.1 S<T/U1V5W012:XR=
  &4&7X    &71-0/
 d-X"h(c0 $ 70:
 pf)_&7 !P+(|&1>-  X2
 pP"I5X4 ),7&f)_&70 ] 37
 37  &4&7
 -I*&9"*S
)A),
-&4&7 3
6.2 D/U115YN5I1
 a1_> Q !",
 a+<W1:/12O1<Z:QTRO 7_>
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 9
 =L[\Q<<QP8<WO]]/</O1:(f
5'/*#*101*1_>,*#&9.T
 .^8JK5*#(f5  *1_>
a+"8 7"*>
 24 -"7&!
88",4 -&9.T
  4 - ~,*#&9.T_>
?h  "_G),&(c "_0),"_&(c "_
 -'7+    *>5),7  *#&9.TMI9
• "
_`a S<T/U1bY158Q15c:5d:;c:XR=

  *1&_
 |"4*1_>&P*1 !P@$f" €&k0
),0.0X 
7 <(f&9I&f+
7 K•]&9Ic:I9*1
7 <(fo8e12Kf:L[R6g12R71<S<T/U115YN5I1
7 7*1_>2A 7U"&_ 
  *1T5
7  *1T5 !P,X "B" 
7 T5   "_,R"h0)-X
7 !P.W[(D'7+
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 10
ThO<:j
18
d
*|  b
‚.2) U*1),7
&7ƒ0„*^  1&9(cT"7*1
TdIR
-I5' M  (f
 7*1Q87'7+
  *1Q
7 fbW86i12:P41:5Q12N5/:MZU10.#.Q&72{
7 d-XO
D:
O
&D:
6.4 S<T/U1<jV/kM5l15gN
 K!P T +I7*1
 !PM /T &(c "h&P'1c  R+

 dA
 j122jN<mQT/U1d3nWV5W012<S<5:]e^
 F1d,_>&_
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 11
 F1d5"'7+M'7+  &(c  37
 F1d,T5QI9&(c Q87-
d
),
 .W[f
d
87Q'7+
6.5 Các kiểu dữ liệu phức tạp
 # +  &9(c&(c .82.…"7<,'/R
†‡#Wo/8pR/=MN5d<:oN
 d-X)$7()@,'/0&(f
0"$0)C*+0 jB0)C*+),
&(c 72Ul7"Jl8l8*
  &4&7(f5),*#(f5(B7,7,' T)A
 7"
_`_ S<N56i12N5SN2WK<JKA<RML:OP/12B<5^15ZUM
 <(f> #
 <(f5"2@&4
 <(f5"2/S
 <(f5"(A
 <(f>7 
7 724>7  KA T&9(c,@;2(
X2I7 7
j X2 T-#,24&9(c
j&9(c4 )$&b24 X2
7(0S224>7  !( X2^29(P 3>

7 &(c  h
7  3I&7 #(c>7 
7 9(7, X '879)… # +  >7 
7  (f
V&KOQ1L Z88ˆ‰Š2j X2&(c &*^>2 
X2<O1:PW/8
V&KO8W/8Lq2‹n7II88NˆEŠ2j X2&(c &
*^24"7  &9(c  X2KO8W/8=
II.  ,&'
1. /7/:5/=M3q:5Mr::WS1V&KOQ1L
• J28I,@772 X287(f>7 ),&L&(c IW
X"4"L=7@  &9(c=
• X 72 X2>2+, @&9(c,,$!2
u X2vI7 7  &9(c"724 X2 !'(A(f5
fI7)A&9(c' !2=F!  ' 0  @772 X2&V  
&P2(f5"7 M24 X2"7'  &P2'/(f5&V"7
!2' =
• ([0(c )A   )X !2I(;R>A0|&! !'
2"_2X LA0  &9(c,&]),7 724X 72
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 12
X2'/ ]242X =dS)@072 X2(B&(c .82,h '/
!2I=7'/ ]L0  @7'/2I- c
)A$TX'/ !&(c L=  )X'/2I
(72 X2(B&(c M&P'2),2/+@"(A '5 
 /) h  !2I=772 X2'/M  LA0'2
)$&4(f5+&(c &_i5"  4 - &9(c=
• p_i)$&4(f5),(fT 2,|&!  &P2&(c 72 X2'
5"@772 X2&(c X= @772 X2' 
- c)A  'P' )$@),  2X ' =
dS)@@772 X2u9#v&PIWXM4 ),7TX=

• @7(J28I,@772 X2V&f+=F!>2+@
 7"(A ,( X20"_(7(BM. &_=
• @7%5 0,0%- ),:*1"75 1=
p>,24"7@7'&P"7' =
• UJ28I&(c $, T'2/R$  ' 0
& b[#,7GŒŠ0GEo0H7"8G‰Œ0H"82),n*G‰Š
), Z88G‰Š=•),*8I2/+_ IW(J28I87$*1P=
?"),F87qq  #$+ 7(J28I%""7 +Af
"  @787&;ƒŠ„=
2. s:0:5r::WS1V&KOQ1L
2.1 ibtV5[/
2.2 5Mr::WS1&OQ1L:5;<5/=1uMQ<S<T67<<5^15LQM
 a(A hY>2 8"7 7 X2 I8"=j X2&(c 
&*^  >2  X2=
 a(A o-'7+    &9(c7*•8 I&1>2(BM
'7+  Ž 8
 a(A •F!2  &9(c),7!2]#
 a(A =w &_>22A 7  !2
 a(A Œ=5 *(A o 7&1''/ !I5&:!2,7   
&9(c
2.3 .^8JK/155vQ:5Mr::WS1&OQ1
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 13
?+IW !79 60a0002j74 &(c *P%*|o&V "(
w),•(I=X &-  ,!2  9 &L 7),7o!2†o
5),7  &V "(  b=
 D67<w`|7>2 8"7 7o!2=?+IW h6,>2 !2
T#h&4>2!2T# 0),a,>2 !2To7&4
>2!2T oo0=
 D67<x`-'7+  U  &9(c&1>2   !27+  
Ž 8

j 4"72"@'7+  ,24&9(c 4T#(fT
)A&9(c60 4To(fT)A&9(ca0g=,T#"7
2"@'7+  *P%'7+    &9(c&1>2 !2
T# ),,To"72"@'7+  *P%'7+   
 &9(c&1>2 !2To o=
d-X0'7+  U79 †0•&1>2 0,•=‰),&1>2
oo0,o=E•&(c -(I
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 14
 D67<a`F!2  &9(c),7!2]#
#"^!2I)~VT#;2 !&9(c6),!2o;2
 &9(c ~60a00=
 D67<y`->2 7!22A
 D67<z`-h&4  >2 7  !22A5),7h&4   &9
(c"7!2=F!2 Q !&9(c6>2!2)Y'/&:0
0=>2!2o&(c -(I
 D67<_`-'7+  U  &9(c&1>22A
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 15
 D67<{`F!2  &9(c),7!2
 D67<|`-'7+  U  &9(c&1>22A
 D67<}`F!2  &9(c),7!2
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 16
#?
o
†?

/ !I5&:!2,7   &9(c@
7U),'1R+>!2(I
2.4 M156g<b/kK<m:5Mr::WS1&KOQ1L
 Mb/kK
K *8(f&9"7'.W[  @A

I#(f&9g(0)A,I9&9(c0(,I9 X20),&'0&&3=
/(B(0‘‘=
(B'1b |&P29( X *4x !PS2&(c 9(7, X M  
's@(@7"$
 56g<b/kK
!PX Q'. &_&(c "_"*S   &9(c
] Q&_"T (0D
/P.W[ j),78"I
/Mc&P'2   X2)A'7; X2 !'- (A 
' =
x`z S<T/U1bl/<mQN56i12N5SN2WK<JKV&KOQ1L
 .n/T/U1:5k<mQV&KOQ1LV5S<15QM~
7 h( 8"7I*&]
7 -7I5*#(f5
7   1(c - 8"7I X2
 •€R•8pR/=MN5I115jKV&KW8OLˆGE
7 "_"*S  I8"*^KW8OL
7 M  &4&7*#(f52A 7  &9(c>!2
7 M(f78;Q:P41:‚1L[&P @@278I
 56i12N5SN2WK<JK&KO8W/8L
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 17
7 p]),7 @7I9 X2(,'#AB2&9(c
7 @7;2*(A 
1. h*#'}(&9(c,2KO8W/8LTQ1b‚M  &9
(c&
2. ?U&9(c ~),7 X2 !287]#
3. h7287),24"7  287I*^!
1! + #(c X2
4. Z)$*(A o0U''/ ~…2A=
III. !'

1. /QW8/=1&OQ1L
1.1 €QLl56712891L€8J12<56i12:Pƒ15A•M„:5/=1V5/V5~/bf12<56i12
:Pƒ15B
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 18
1.2 /QW8/=1
2. 5oZ8OKW<56i12:Pƒ15
2.1 WK<JK37/KQ:Pr1N5I15Wo<5!
a,7d-X‰=•"E?7"S6y‚’y“”
V#+Vw0•xwo=Œ0•=oxw•=•0o=E0w•0
M'J28I72 X2)A'†o
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 19
187

187
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 20
2.2 WK<JK37/…+A….B
a,7d-X‰=•"E?7"S6y‚’y“”

#+Vw0•xwo=Œ0•=oxw•=•0o=E0w•0=
a"++,'V
#hac i i i c
#haj c c c i
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 21
2.3 WK<JK37/.'+A….B
a,7d-X‰=•"E?7"S6y‚’y“”

#+Vw0•xwo=Œ0•=oxw•=•0o=E0w•0=
d8 7"h>2d•00do0o
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 22
3. f:L[R†/2‡NN50/V5/15rN8pR/=M

K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 23
3.1 Nhập thiếu điểm:
7V 
?+R1
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 24
3.2 Ma trận phân hoạch có giá trị Null hoặc giá trị của ma trận phân hoach không phải là
0 hoặc 1
K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 25

×