TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
BÁO CÁO ĐỀ TÀI SỐ 8:
NGHIÊN CỨU BÀI TOÁN GOM CỤM
TRONG KHAI PHÁ DỮ LIỆU
FUZZY C-MEANS
!"#$
Châu Vĩnh Tuân 50802429
Phạm Nguyên Trình 50802353
%&'(')&&
Bài toán gom cụm *!+,!-+ /(0123
MỤC LỤC
Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu
2
Bài toán gom cụm *!+,!-+ /(0123
I. LÝ THUYẾT GOM CỤM:
1. Khái niệm gom cụm:
4 #5 62/78#5 9:;$+;<=+%!>?78#2 @!!,7
:;$+A2BC+!<#%##5 :;$+!D2 E#%#BF+G$
- %#BH!I!>4#J @!#5 K!L!"M2+F @!3H
!+#N<4BO
- %#BH!IG%##5 !?KGP!L!"M2+O
=+/Q!#%#RBF!? GQ S7%!$#%##5 S#%# +:
;$+!>4 @!!,7I7A2BC+#%#:;$+GP#EO
T;< @!!,7#%#BU :;$+!>#G4 #5
V;<#%#!,7BU :;$+32+G4 #5
#5 !W
Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu
3
Bài toán gom cụm *!+,!-+ /(0123
2. Vai trò của gom cụm:
4 #5 :;$+B2!>X=+2!>*!>4#%#<G42*#
- *#O
- YP75#:;$+
- Z"A%4![!Q!
- 8 ;\*#<*#
- Y42
4 #5 :;$+ 2;]#%#!$N#
- ^GQ!
- _
- ? GQ GQ!=+CR!
3. Một số độ đo trong gom cụm:
- Minkowski
- Euclidean – p = 2
- Độ đo tương tự: cosin hai vectơ
4. Mục đích của gom cụm:
`%#BaBI#A#R!#b2$#4 !< #%#BH
!I!>4 @!!,7:;$+GP#EO
YP#!+#+c#+<4BU4 #5 :;$+S4
#5 "2<4!+#N[J#+#R7!>4!d!>[
I7O
5. Một số phương pháp gom cụm điển hình:
• 4 #5 784]#
• 4 #5 78#R7
• 4 #5 "2!> ,!B@
• 4 #5 "2!>;
• 4 #5 "2!> P?
• 4 #5 #><A+@#
6. Một số mô hình cụm dữ liệu:
• e8!%#
Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu
4
Bài toán gom cụm *!+,!-+ /(0123
• +/ +
• fg!a
• Z"2!> ,!B@
• 23h
Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu
5
Bài toán gom cụm *!+,!-+ /(0123
II. FUZZY C-MEANS (FCM):
1. Tìm hiểu Fuzzy C-Means:
a. Fuzzy logic:
o -+ /4#;< @!?!W#;4##F+%!>aO
o VQ-+ /4##!U# @!%!>a#8;\24B@
:2i)S&j
b. Tập Fuzzy:
o <!,7I7 <#%#7C!k# @! W#B@!<
R!Ba
o ,7-+ /BI#Bal2;<#m76TS 9S!>4BT;<
!,7I7< ;<%n] T
i)S&j
o p7C!kSBI#*;<$3H!<
#b2n!>46TS 9O4!,7:+]Tqrn&SOOOSnsS
!,7-+ /6TS 9![ BI# P!t32+
r 6n&9un&SOOOS 6n9unsO
6n9q)nGP!+@#6TS 9
6n9q&n4<!4<!+@#6TS 9
c. Fuzzy C-Means:
o -+ /(01236-09;< @!7L7%7#b278
#47_7 @!7C:;$+!+@#F24m#
F+#5
o [n+/BI#3k5!>4,] +
o -0BI#$!"#"2!><
>4B
;<AR!Gv3H!"#;L&
+w;< W#B@#b2#%#!<#b2n!>4
#5 w
n;<#F+!W#b2:;$+B4(#F+
#w;<!>+!8 #b2#5 GN#!#(#F+
xxyxx<AR!Gv#z!+<4!U$3"H
2+:2:;$+B4
2. Giải thuật:
-0BI#!"#$;C;I!!14#%#A#
- V#&Y{!]4 2!>,qi+
w
jS6)9
Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu
6
Bài toán gom cụm *!+,!-+ /(0123
- V#'];C;m7!WG!N!4%_#(!L!>+!8 6G9qi#
w
j
6G9
- V#|,7,!6G9<6G}&9
- V#~YU !>2
Q+GQ!#2!D2S!2=+2/;]A#'SQ+BE!D2 ES
!2GQ!!•#!N!4%O
3. Ưu và nhược điểm:
a. Ưu điểm:
o +#R7#4GQ!=+!H!R!#4:;$+#g#_4
<!LBH!H!L!+,!!4%Y(0123O
o YPHY(0123S:;$+BU +/R!7
!+@#F @!#5 +/R!S{ pBU BI#78<4
#5 "2<4GQ!=+!N!4%< !<S?,/S
@!BU #!U!+@#FF+L @!#5 O
b. Nhược điểm:
o C!$ 3H;I#%##5 O
o €#<!R7GQ!=+,BI##<!H!#7N
!N!4%#<F+O
o Y4#%#•+#;1#%#/Q+!H#LA#!UGP
BgBF+O
Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu
7
Bài toán gom cụm *!+,!-+ /(0123
III. CHƯƠNG TRÌNH MẪU:
1. Hướng dẫn sử dụng phần mềm Fuzzy C-Mean Analyst:
a. Yêu cầu hệ thống:
o $BF+<‚4ƒ3„uo3!2u`e6|'A!9
o 0%/4…226…o097A&O†!>{;
o Z23%#‡;16/+#C+GP!2/B^$!H‡;1
</9
12/05/2011 04:05 PM 71,225 FuzzyCMeanAnalyst.jar
03/03/2011 06:57 AM 9,728 gluegen-rt.dll
03/03/2011 06:57 AM 416,768 jogl_desktop.dll
03/03/2011 06:57 AM 73,216 jogl_es1.dll
03/03/2011 06:57 AM 77,312 jogl_es2.dll
12/05/2011 04:23 PM <DIR> lib
03/03/2011 06:57 AM 10,240 nativewindow_awt.dll
03/03/2011 06:57 AM 36,864 nativewindow_win32.dll
03/03/2011 06:57 AM 41,984 newt.dll
./lib
12/05/2011 04:05 PM 110,455 gluegen-rt.jar
12/05/2011 04:05 PM 2,419,760 jogl.all.jar
12/05/2011 04:05 PM 128,511 nativewindow.all.jar
12/05/2011 04:05 PM 176,393 newt.all.jar
b. Hướng dẫn chạy phần mềm:
"#$!14#%#A#32+
o Y{B@7C F Aˆ#%##]/‡;1
FuzzyCMeanAnalyst.jar
o *‡;17+!Aˆ#%##;#G<4A+!!4Browse
Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu
8
Bài toán gom cụm *!+,!-+ /(0123
o Q!;,7#%#!P3H6Number of clusters, m value,
Random seed, Epsilon9!N#I7
Numberofclusters3H;I#;+3!1> +H78
!N#
mvalue%!>a #b2#P!W#!>4A<!4%
-+ /(012
Random311%!>aBU3+ 2!>,
A2BC+
EpsilonB@#Nn%##b2!+,!
o ;#GA+!!4RunBU!"#$$#!N!4%< P!
? *2
o YQ!=+
o ;#GA+!!4•n74>!BUn+R!>2‡;1Ba]7;2!1n!
#%#!P3H#b2!+,!O
Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu
9
Bài toán gom cụm *!+,!-+ /(0123
o fUn1 ? *2{#?G%#S#!U!"#$
#;#G#+@!<G_4!> <? P7D4m#R
#%#7N eSZ‰‚S•-SŠ6Q+GP#!%#
5!?#;#G @!;C; <? P7D<!"
$;]!24!%#9O
o fUF;]#?A2BC+SRŠ131!
Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu
10
Bài toán gom cụm *!+,!-+ /(0123
2. Kết quả chạy với dữ liệu mẫu:
Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu
11
Bài toán gom cụm *!+,!-+ /(0123
IV. TÀI LIỆU THAM KHẢO:
- Z2!2 0 4#17!3 2 1#=+1361#4 •!49 ‹
…2ƒ1220#1;1Y2 A1>
- -+ /;+3!1>T2;/33‹…4‚;1/243
- T;4>! 3Œ4>-+ /;+3!1>S01!43#(0123;+3!1>
ƒ! T77;#2!43 ( 222G 0/2 4!4S1!4 4 #23S
Y2!3+>442
Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu
12