án t t nghi
i h c dân l p H i Phòng
L IC
Trong su t th i gian h c t
m
án t t nghi p
c các th y cô ch b o, dìu d
n bè quan tâm,
ng viên.
c tiên e
Ngô Qu c T o
c bày t lòng bi
i
t t i PGS TS
ng và nhi t tình ch b o,
su t quá trình th c hi
ng d n em trong
án t t nghi p này.
il ic
i các th y cô trong ngành h th ng thông tin
i h c Dân L p H i Phòng
y b o, cung c p
nh ng ki n th c quý báu cho em trong su t quá trình nghiên c u và h c t p t i
ng.
il ic
n bè nh
i luôn c
em trong su t th i gian h c t
án t t nghi p.
Do th i gian và ki n th c có h n nên không tránh kh i nh ng thi u sót
nh
nh. Em r t mong nh
cs
a th y cô và các b n!
Em xin chân thành c
H i Phòng, tháng 11
Sinh viên
Bùi Trung Thành
Bùi Trung Thành - CT1301
Page 1
án t t nghi
i h c dân l p H i Phòng
M CL C
L IC
L
....................................................................................................... 1
U ...................................................................................................... 4
NG QUAN V KHAI PHÁ D LI U .................................. 7
1.1. Gi i thi u v khám phá tri th c .................................................................. 7
1.2. Khai phá d li u và các khái ni m liên quan ................................................ 9
1.2.1. Khái ni m khai phá d li u..................................................................... 9
1.2.2.
c trong quá trình khai phá d li u ........................................... 10
1.2.3. Các thành ph n trong khai phá d li u ................................................. 11
1.2.4.
ng ti p c n và k thu t áp d ng trong khai phá d li u .................. 12
1.2.5.
ng d ng c a khai phá d li u ............................................................. 13
M D LI U VÀ CÁCTHU T TOÁN PHÂN C M
D LI U ............................................................................................................. 14
2.1. Phân c m d li u ......................................................................................... 14
2.1.1.
phân c m d li u ........................................................... 14
2.1.2. M t s ví d v phân c m d li u ........................................................ 15
2.2. M t s ki u d li u trong phân c m............................................................ 17
2.2.1. Ki u d li u d
c mi n.............................................. 18
2.2.2. Ki u d li u d a trên h
................................................................ 18
2.3.
và kho
i v i các ki u d li u.................... 20
2.3.1. Khái ni
..................................................... 20
2.3.2.
ng cách ............................................................................... 21
2.4. Các
ng ti p c n c a bài toán phân c m d li u..................................... 24
2.4.1.
pháp phân c m phân ho ch ..................................................... 24
2.4.2.
pháp phân c m phân c p ......................................................... 24
2.4.3.
pháp phân c m d a trên m t .............................................. 26
2.4.4.
pháp phân c m d a trên
i................................................... 29
2.4.5.
pháp phân c m d a trên mô hình ............................................ 30
2.4.6.
pháp phân c m d a trên d li u ràng bu c ............................. 30
2.5. M t s thu t toán phân c m d li u ............................................................ 30
2.5.1. Các thu t toán phân c m phân ho ch ................................................... 30
2.5.2. Thu t toán phân c m phân c p ............................................................. 32
2.5.3. Thu t toán COP Kmeans ................................................................... 33
Bùi Trung Thành - CT1301
Page 2
án t t nghi
i h c dân l p H i Phòng
CH
NG D NG THU T TOÁN K - MEANS TRONG PHÂN
N NH ........................................................................................................ 35
3.1. T ng quan v phân vùng nh ........................................................................ 35
3.2.
ng ti p c
n nh.............................................................. 36
3.2.1.
................................. 36
3.2.2.
3.2.3.
a trên không gian nh .......................................... 37
a trên mô hình v t lý............................................ 38
3.3.
....................................................... 41
3.3.1.
3.3.2.
n y u c a B.G. Prasad ..................................... 41
nd
ng c c b thích nghi ............... 46
3.3.3.
i b ng Watershed ...................................................... 47
3.3.4. Tr n các vùng ....................................................................................... 50
3.4. Thu t toán kn nh ...................................................... 53
3.4.1. Mô t bài toán ....................................................................................... 54
3.4.2.
c th c hi n chính trong thu t toán ........................................... 54
3.4.3. K t qu th c nghi m............................................................................. 58
3.4.4.
m c a thu t toán k means............................................ 59
K T LU N ......................................................................................................... 61
TÀI LI U THAM KH O ................................................................................. 62
Bùi Trung Thành - CT1301
Page 3
án t t nghi
i h c dân l p H i Phòng
DANH M C HÌNH
Hình 1: Quy trình phát hi n tri th c ......................................................................... 8
c trong khai phá d li u ............................................................. 10
p c n phân c p........................................................ 25
Hình 4: p là m
m h t nhân v
Pts là 3. Kho
h c hai chi u, q là m
Hình 5: q là m
ng trù m t là min
c dùng là kho ng cách Euclide trong không gian hình
m liên thông m
tr c ti p t p. ............................ 27
m liên thông m
m có k t n i m
Hình 7: Nh ng c m d li
t p ...................................................... 27
....................................................... 28
c khám phá b i CURE...................................... 32
......................... 42
............ 52
......................... 53
.................... 53
Hình 12: Thu t toán k - means............................................................................ 56
Hình 13: Tìm ki m top x color............................................................................. 57
Hình 14: Giao di n chính c
......................................................... 59
Hình 15: Ch n
u vào.................................................................................. 59
Hình 16:K t qu c a quá trình phân c m nh...................................................... 59
Bùi Trung Thành - CT1301
Page 4
án t t nghi
i h c dân l p H i Phòng
L
U
Trong nh
kh
phát tri n m nh m c
th
thông tin c a các h th
chóng. Bên c
c tin h c hóa m t cách
c khá
Hàng tri u
d li u (CSDL)
.
t làm cho ho
o ra m
ng s n xu t
ng d li u kh ng l .
c s d ng cho các ho
ng s n xu t,
, có nhi u CSDL lên t i hàng nghìn Gigabyte, th m chí
lên m c Terabyte.
S bùng n
n t i m t yêu c u c p thi t, c n có công c m i, hi n
có th chuy
ng d li u kh ng l này thành các tri th c có ích. T
li
i
c th i s c a
n n CNTT c a th gi i nói chung và Viêt Nam nói riêng. Khai phá d li
c ng d ng r t r ng rãi trong nhi
cc
i s ng: Marketing, ngân
hàng, b o hi m, y t , khoa h
Các k thu t khai phá d li
c chia thành 2 nhóm chính: k thu t khai
phá d li u mô t và k thu t khai phá d li u d
oán.
án t t nghi p này em xin trình bày v
c ng
t trong nh ng v
-
n c a khai phá d li u.
ng quan v Khai phá d
li u; ng d ng trong
m
li u; Phân c m d
i s ng.
-
m c ng
n nh.
K t lu n: Tóm t t nh ng v
ng phát tri
Bùi Trung Thành - CT1301
tìm hi
c trong bài, các v
liên
.
Page 5
án t t nghi
i h c dân l p H i Phòng
TÓM T
TÀI
án t t nghi p c a em, nghiên c u v
c mc
n
i dung nghiên c u g
ng quan v khai phá d li u
u t ng quan v khai phá d li u và khám phá tri
th c. Quy trình khám phá tri th c; khai phá d li u, nhi m v c a khai phá d
li
ng ti p c
t áp d ng trong khai phá d li
ng d ng c a khai phá d li u trong th c t
Phân c m d li u và các thu t tóan phân c m d li u
u v phân c m d li u; m t s ki u d li
ng ti p c n phân c m d li u và m t s thu t tóan phân
c m d li u.
ng d ng thu t tóan ku t ng quan v
n nh; m t s thu
n nh và giao di
n nh
n
n nh; nghiên c u thu t tóan k-means
t mô ph ng thu t toán k-
n nh.
Bùi Trung Thành - CT1301
Page 6
án t t nghi
i h c dân l p H i Phòng
T NG QUAN V KHAI PHÁ D
LI U
1.1. Gi i thi u v khám phá tri th c
N u cho r
ngh
n t
n t
là b n ch t c a công
n t truy n th ng thì d li u, thông tin và tri th c hi
mc
c m i trong nghiên c u và ng d ng v phát hi n tri th c và
khai phá d li u.
ng chúng ta coi d li u là m t dãy các bit, ho c các s và các
kí hi u, ho
im
i m t d ng nh
c g i cho m
nh. Chúng ta s d
li
t i thi
ng các thông
cl cb
c rút g n t i m c
n cho d li u. Chúng ta có th xem tri th c
p bao g m các thông tin và các m i quan h . Các m i
quan h này có th
c hi u ra, có th
cách khác, tri th c có th
c phát hi n ho c có th
c coi là d li
Phát hi n tri th
ng và t ch c cao.
d li u là quy trình nh n bi t các m u ho c
các mô hình trong d li u v
hi
tr
c h c.Nói
p th c, m i, kh ích, và có th
c. Còn khai phá d li u là m
c trong quy trình khám phá tri th c,
g m các thu t toán khai phá d li
im ts
nh v hi u
qu tính toán ch p nh
tìm ra các m u ho c các mô hình trong d
li u.Nói m t cách khác, m
a phát hi n tri th c và khai phá d li u chính là
tìm ra các m u ho
nt
d li
n còn
b che khu t b i hàng núi d li u.
Bùi Trung Thành - CT1301
Page 7
án t t nghi
i h c dân l p H i Phòng
Quy trình khám phá tri th
Hình thành và
Thu th p và ti n x lý
d li u
Khai thác d li u rút
ra các tri th c
phân tích và ki m
nh k t qu
S d ng các tri th c
phát hi
c
Hình 1: Quy trình phát hi n tri th c
-
c 1: Tìm hi
c ng d
c này s
quy
nh cho vi c rút ra các tri th c h u ích và cho phép ch
pháp khai phá d li u thích h p v i m
ng d ng và b n ch t
c a d li u.
-
c 2: Thu th p và x
c g i là ti n x lý d li
lo i b
nhi u, x lý vi c thi u d li u, bi
i d li u và rút g n d li u c n thi t,
ng chi m th i gian nh t trong toàn b quy trình c a khám phá
tri th c.
-
c 3: Là khai phá d li u hay nói cách khác là trích ra các m u ho c các
mô hình
i các d li u.
-
c 4: Hi u tri th
c bi t là làm sáng t các mô t và d
c trên có th l
p l i m t s l n, k t qu
c có th
l y trung bình trên t t c các l n th c hi n.
Bùi Trung Thành - CT1301
Page 8
án t t nghi
i h c dân l p H i Phòng
1.2. Khai phá d li u và các khái ni m liên quan
Khai phá d li
m
c thi t k
ng c c l n các d li u nh m phát hi n ra các m u thích h p ho c các m i
quan h mang tính h th ng gi a các bi
h p th c hóa các k t qu
c b ng cách áp d ng các m
n cho các t p con m i c a d
li u. Quy trình này g
ng mô hình ho
nh
u, h p th c, ki m ch ng.
1.2.1.
Kho ng
thi t b
trên các
n t không nh
bùng n .Câu h
l
t th p k tr l
li u này x y ra v i m t t c
t ra là chúng ta có th khai thác gì t
y? Và t
li
Khai phá d li u
li u kh ng
i.
mô t quá trình phát hi n ra tri th c trong
CSDL. Quá trình này k t xu t ra các tri th c ti m n t d li u giúp cho vi c d
báo trong kinh doanh, các ho
ng s n xu
phí v th i gian so v
n th
Khai phá d li u làm gi m chi
c kia.V
li
Khai phá d li u là quá trình tr giúp quy
phá các m
t và b t ng trong CSDL l n.
Khai phá d li u là m
c chính quan tr ng và mang tính quy
nh
trong quá trình KDD.
Bùi Trung Thành - CT1301
Page 9
án t t nghi
i h c dân l p H i Phòng
1.2.2.
Quá trình khai phá d li u g
Xác
nh
nhi m
v
Thu
th p
và
ti n
x lý
d
li u
Xác
nh
d li u
liên
quan
Hình 2
-
nh nhi m v
-
nh các d li
Th ng
kê tóm
Gi i
thu t
KPD
D li u
tr c ti p
M u
c trong khai phá d li u
nh chính xác các v
c n gi i quy t.
xây d ng gi i pháp gi i quy t
nhi m v bài toán.
-
Thu th p các d li u có liên quan và x lý chúng thành d ng sao cho gi i
thu t khai phá d li u có th hi
-
c.
Ch n thu t toán khai phá d li u thích h p và th c hi n vi c khai phá
nh
c các m
i d ng bi u di
m c a m u ph i là m i (ít nh
m i có th
ng v
ng v i các
i v i h th ng
i trong d li u (b ng
cách so sánh các giá tr hi n t i v i các giá tr
c các giá tr
mong mu n), ho c b ng tri th c (m i liên h gi
i
m ic am
giá b ng m t hàm logic ho c m
Ngoài ra, m u còn ph i có kh
c x lý và di n gi i ph i d
m
d ng ti m tàng. Các m u này sau
n nh
ng m t hàm l i ích. Ví d
kho n vay, hàm l
Bùi Trung Thành - CT1301
b t ng c a m u.
li u các
i nhu n t các kho n
Page 10
án t t nghi
i h c dân l p H i Phòng
vay. M
c ph i có giá tr
i v i các d li u m i v
1.2.3.
Gi i thu t khai phá d li u bao g m 3 thành ph
mô hình, ki
-
m.
Bi u di
c bi u di n b ng m t ngôn ng sao cho
có th
c. N u mô hình có s mô t h n ch thì s không th
h
c ho c s không th có các m u t o ra. N u di n t mô hình càng
l
nguy hi m do b h c quá nhi u và làm gi m
d
tr nên ph c t
-
u di n
li
a, vi c tìm ki m s càng
c gi
.
Ki
t m
c các tiêu
chu n c a quá trình phát hi n tri th c hay không. Vi
c th c hi n thông qua ki m tra d li
vi
giá mô hình
i v i nhi m v d
m tra d li u còn d
chính xác d
chính xác d
-
Tìm ki m mô hình: Bao g m tìm ki m theo s và tìm ki m theo mô hình.
C th
Tìm ki m theo s :Gi i thu t c n tìm các tham s
tiêu chu
t
i các d li
m t miêu t
c và v i
nh.
Tìm ki m mô hình: Quá trình này x y ra gi
t vòng l p
m tham s . Khi miêu t , mô hình b thay
i t o nên m t h các mô hình, v i m i m t miêu t mô hình
m tham s
c áp d
t
ng s
d ng các k thu t tìm ki m heuristic b
các mô hình có th
Bùi Trung Thành - CT1301
c c a không gian
n các tìm ki m t ng th .
Page 11
án t t nghi
i h c dân l p H i Phòng
1.2.4.
-
c có giám sát ): Phân l p d li u là vi c xây
Phân l p và d
d ng m t mô hình mà có th
ng thành nh ng l
d
b m t t i m t s thu c tính c a d li
c a d li u s xu t hi
-
Phân c m: Phân c m d li u là k thu t khai phá d li
phân l p d li u. Tuy nhiên, phân c m d li u là quá trình h c không
giám sát, là quá trình nhóm nh
ng vào các l
sao
ng trong m
v
-
ng c a nhóm khác.
Lu t k t h p: Là quá trình khám phá các t p giá tr thu c tính xu t
hi n ph bi
ng d li u. T t p ph bi n có th t o
ra các lu t k t h p gi a các giá tr thu c tính trong t
-
Khai phá chu i theo th i gian:Phân tích chu
trong t p r i r c. Chu
ng.
cs d
tìm m u
c t o thành t t p các giá tr r i r c. Phân tích
chu i theo th i gian và khai phá lu t k t h
thêm tính th t và th i gian.
-
Phân tích ngo i l : Phân tích ngo i l
t
t d ng c a phân c m, nó
ng h p r t khác bi t so v
ng h
khi nó th hi n nh ng l i trong d li u ho c th hi n ph n thú v nh t
trong d li
-
cs d
H i quy
trên các d li
báo d a
n t i b ng cách áp d ng các công th c. M t hàm s
c h c ra t b d li u hi n có b ng cách s d ng các k thu t h i quy
và tuy n tính t vi c th
li u m i s
vào hàm này
ng d
Bùi Trung Thành - CT1301
Page 12
án t t nghi
i h c dân l p H i Phòng
1.2.5.
Hi n nay, k thu t khai phá d li
c ng d ng m t cách r ng rãi
trong r t nhi u
i s
marketing, tài
chính, ngân hàng và b o hi m, khoa h c, y t , an ninh, internet
-
Yh
c kh e: Chu
nh trong y t d a trên
k t qu xét nghi
-
Tài chính và th
ng ch ng khoán: Áp d ng vào phân tích các th
tín d ng tiêu bi u c
n tài kho n nh
c,
ng khoán, gi y ch ng nh n
và các qu
nk
báo giá c a các lo i c phi u trong th
-
ng ch
B o hi m: Áp d ng vào vi c phân tích m
r i ro x
t ng lo i hàng hóa, d ch v hay chi
iv i
c tìm ki m khách hàng
mua b o hi
-
Quá trình s n xu t: Các ng d ng gi i quy t s t
a các ngu n
áy móc, nhân s và nguyên v t li u, thi t k t
trong quá trình s n xu t, b
ch ng h
-
ng và thi t k s n ph m,
ng d a vào yêu c
c: Quan sát chú tr ng t i vi c thu th p và phân tích d
li u, s d ng các nguyên t
thuy
nc av
c lý
ng theo s phát tri n các mô hình máy tính hay mô
miêu t các v t th và hi
c b sung l
c lý thuy t tìm cách gi i
thích các k t qu quan sát, và vi c quan sát l
xác nh n các k t qu lý thuy t.
-
Th thao, gi i trí
-
Vi n thông
-
Máy tìm ki m
-
Qu ng cáo: Phân tích, trích tr n nh
Bùi Trung Thành - CT1301
Page 13
án t t nghi
i h c dân l p H i Phòng
PHÂN C M D
LI U VÀ CÁCTHU T TOÁN PHÂN C M D
LI U
2.1. Phân c m d li u
Phân c m d li u là m t trong nh
ng nghiên c u tr ng tâm c
v c khai phá d li
c khám phá tri th c.
2.1.1.
Chúng ta th y r ng, m
c
a phân c
ng vào các
ng trong cùng m t c
ng gi a các c m l n, t
ra quy
b t
p thông tin, tri th c h u ích cho vi c
nh.
c tính c a d li
nh kho ng cách gi
d li u.
gi ng nhau gi a các c
ng các hàm này ho
(Dissimilar) gi
ng d li u, thông
(Similar) ho
ng d li u. Giá tr c
càng l n thì s gi ng nhau gi
cl
phi
ng d li u càng l n và
thì t l ngh ch v
Trong quá trình phân c m d li u thì v
tr ng i l n nh
.
u
(noise). Nhi u xu t hi n do quá trình thu th p thông tin, d li u thi u chính xác
ho
. Vì v y chúng ta ph i kh
phân c m d
nhi u trong quá trình
li u.
Bùi Trung Thành - CT1301
Page 14
án t t nghi
i h c dân l p H i Phòng
c chính trong quá trình phân c m d li u:
-
Xây
Phân c m d li u là bài toán thu
c ng d ng r
c h c máy không giám sát
khai thác thông tin t d li u
2.1.2.
Phân c m d li u có th
c ng d ng trong nhi
c c a cu c s ng
ví d
-
i: Tìm ki m nhóm các khách hàng quan tr
ng và nh
c t h t các b
d
li u khác hàng;
- Phân c m d li u ph c v cho bi u di n d li u gene: Phân c m là m t
trong nh
cs d
ng xuyên nh t trong bi u di n
d li u gene. D li u bi u di n gene là m t t p h
cl y
t DNA microarray là m t t m th y tinh ho c nh
n các
n DNA thành các hàng siêu nh . M t t p h p d li u bi u di n gene
có th
c bi u di n thành m t ma tr n giá tr th c
D li u bi u di n gene s
c phân c m theo 2 cách. Cách th nhât là
nhóm các m u gene gi ng nhau ví d
m dòng c a ma tr n D.
Cách th 2 là nhóm các m u khác nhau trên các h
ng, ví d
gom các c t c a ma tr n D.
- Phân c m d li u ph c v trong s c kh e tâm lý: Phân c m d li u áp
d ng trong nhi
c s c kh e, tâm lý, bao g m c vi
duy trì s c kh e, c i thi n cho h th
Bùi Trung Thành - CT1301
y và
c kh e và công tác
Page 15
án t t nghi
i h c dân l p H i Phòng
phòng ch ng b nh t
i khuy t t t. Trong s phát tri n c a h
th
c kh e, phân c m d li
các nhóm c
i dân mà có th
cs d
ng l i t các d ch v c th .
yyt
c l a ch
vào nhóm s có kh
nh m m c tiêu
i l i ích cho s c kh e c th t các
chi n d ch qu ng cáo và t
u ki n thu n l i cho s phát tri n c a
qu ng cáo. Ngoài ra, phân c m d li
cs d
r i ro do phát tri n y t
- Phân c m d li u trong ho
c u th
nh
u ki n nh
ng nghiên c u th
ng phân c m d li
n th
n th
phân chia th
ng h n
ng
ng, phân c m
ng thành nh ng c m mang ý
ng nam gi i t 21
gi i ngoài 51 tu
i có
ng: Trong nghiên
cs d
nh m c tiêu th
d li
nh các
ng nam gi i ngoài 51 tu
30 tu i và nam
ng không có xu
ng mua nh ng s n ph m m i.
- Phân c m d li u trong ho
n nh:
phân tích m c xám hay m u c a n
n nh phân c m d li
n nh là vi c
ng nh t. Trong phân
phát hi n biên c
i
ng trong nh.
V
phân c m d li
c quan tâm m t cách r ng rãi, m
ng b v phân c m d li u. Nói m
d li
t t p d li u và m
nhóm d li u l i ch ng h
, chúng ta
m d li u trong cùng m t nhóm gi ng nhau
m d li u trong các nhóm khác nhau v s
v
i khái, phân c m
ng d ng. Rõ ràng là
c b t g p trong nhi u ng d ng, ch ng h
b n, bi u di n gene, phân lo i khách hàng, x lí nh...
Bùi Trung Thành - CT1301
Page 16
án t t nghi
i h c dân l p H i Phòng
2.2. M t s ki u d li u trong phân c m
Trong phân c
ng d li
c di n t
i d ng các
c tính (hay còn g i là thu c tính). Các thu c tính này là các tham s
quy t v
phân c m và l a ch
gi i
n k t q a phân
c m. Phân lo i các thu c tính khác nhau là v
các t p d li u nh m cung c
c n gi i quy
n thu n l
nhau c a các ph n t d li u. Các thu t toán phân c
iv ih uh t
nh n d ng s khác
ng s d ng m t trong
hai c u trúc d li u sau:
1. Ma tr n d li u: Là m ng n hàng, p c
ng, các ph n t trong m i hàng ch giá tr thu
thu c tính c
i
ng c
i
M
2. Ma tr
: Là ma tr n n hàng, n c t, ph n t d(i,j) ch a kho ng
khác bi t gi
u d(i,j) x p x b
càng l
ng i,j; d(i,j) là m t s không âm trong
ng i và j khá g n nhau, n u d(i,j)
ng i và j k
bi u di n ma tr
Bùi Trung Thành - CT1301
Page 17
án t t nghi
i h c dân l p H i Phòng
Ph n l n các thu t toán phân c m d li u s d ng c
Do v y, n u d li u c n phân c
ph i bi
c t ch
i v d ng ma tr n
i d ng ma tr n d li u thì
c khi ti n hành phân c m d li u.
phân lo
li u D ch
.
c mi n và h
d
ng trong không gian k chi
ng thu c
D, v i x=(x1, x2,...xk); y=(y1, y2,...yk); z=(z1, z2,...zk
c các thu
i,
yi, zi v i i=1...k
ng c
y nó
s có các ki u d li u sau:
2.2.1.
- Thu c tính liên t c: N u mi n giá tr c a nó là vô h n không
a 2 giá tr t n t i vô s giá tr khác (ví d
các thu
, nhi
, âm thanh).
- Thu c tính r i r c: N u mi n giá tr c a nó là t p vô h
c (ví d là các thu c tính s
ng h
m
c bi t c a
thu c tính r i r c là thu c tính nh phân mà mi n giá tr ch có 2
phân t (yes/no, true/false, on/off).
2.2.2.
- Thu
nh danh: Là d ng thu c tính khái quát hóa c a
thu c tính nh
n giá tr là r i r c không
phân bi t th t và có nhi
ng thu c tính thì ch có th
- Thu c tính có th
nt .N
i
nh x=y hay x<>y.
t : Là thu
tính th t
2 thu c tính th t thì có th
- Thu c tính kho ng:
thu c tính kho ng có th
ng. N u x và y là
nh là x=y, x<>y, x>y, x
theo x p x tuy n tính, v i
nh m t thu
c
ng sau thu c tính khác v i kho ng là bao nhiêu. N u
Bùi Trung Thành - CT1301
Page 18
án t t nghi
i h c dân l p H i Phòng
xi>yi thì có th nói x cách y 1 kho ng là x i - yi
ng v i
thu c tính th i.
Vi c ch n l
n ch t
ng phân c m. N
kho
a các thu
nh c a thu
qu phân c
c chia nh thì
n và
ng nhi u h
tránh ph thu c vào vi c l a ch
nk t
li u c
c
chu n hóa. Vi c chu n hóa s gán cho t t c các thu c tính 1 tr ng s b ng nhau.Tuy
nhiên trong nhi
ng h
i s d ng có th
i tr ng s cho các
thu
chu
bi n là bi
d
s
+T
i các thu c tính v
i v i thu c tính f ta th c hi
l nh trung bình:
1f...xnf
là các giá tr thu c tính f c a n ph n t d li u và mf là giá tr
trung bình c
+
c chu n hóa:
Bùi Trung Thành - CT1301
Page 19
án t t nghi
i h c dân l p H i Phòng
- Thu c tính nh phân: Là thu c tính có 2 giá tr là 0 và 1.
- Thu c tính t l : Là thu c tính kho
i so v
Trong các thu
nh m t
m m c.
c trình bày trên thu
nh danh và thu c tính th
t g i chung là thu c tính h ng m c; còn thu c tính kho ng cách và thu c tính t l
c g i là thu c tính s .
2.3.
và kho
i v i các ki u d li u
2.3.1.
c tính c a d li
p
nh "kho ng cách" gi
d li u.
gi ng nhau gi a các c
ng các hàm này ho
(Similar) ho c là tính
tính
(Dissimilar) gi
ng d li u, thông
ng d li u. Giá tr c
càng l n thì s gi ng nhau gi
ng càng l
c l i, còn
t l ngh ch v
ho c
có nhi
cách gi
n
ng. T t c
u ph thu c vào ki u
thu c tính mà chúng ta phân tích. Thí d
(Categorical
ng kho ng
i v i thu c tính h ng m c
i ta không s d
ng cách mà s d ng m
ng
hình h c c a d li u.
T tc
t
k m
cl
tránh s nh m l n, thu t ng
hàm tính
c
ho c
. M t không gian metric là m t t
nh
các "kho ng cách" gi a t ng c p ph n t , v i nh ng tính ch
kho ng cách hình h
ng b t k
ng c a
t t p X (các ph n t c a nó có th là nh ng
ng d li
c p
c
g i là m t không gian metric n u:
Bùi Trung Thành - CT1301
Page 20
án t t nghi
i h c dân l p H i Phòng
-
nh, theo m t quy t c nào
V i m i c p ph n t x, y thu
t s th c d
-
c g i là kho ng cách gi a x và y.
Quy t c trên tho mãn h tính ch t sau:
i.
d( x,y) > 0 n u
ii.
d( x, y) = 0 n u x= y;
iii.
d( x, y) =d( y, x) v i m i x, y;
iv.
d( x, y) d(x, z) + d (z, y);
Hàm d
y;
c g i là m t metric c a không gian. Các ph n t c a X
cg
m c a không gian này
2.3.2.
Thu c tính kho ng: Sau khi chu
ng d li
c
nh b ng các metric kho
q
n
-
i
Kho ng cách Minskowski: d x, y
xi
(
yi )1/ q , v i q là 1 s
i 1
n
-
Kho ng cách Euclide: d x, y
( xi
yi )2 , (
ng h p
c bi t
yi
ng h
c bi t
i 1
c a
ng h p q=2).
n
-
Kho ng cách Manhattan: d x, y
xi
i 1
c a kho
-
ng h p q=1).
Kho ng cách c c
i: d x, y
Max in 1 xi
kho ng cách
yi , (
ng h p q
y:1
là
ng h p c a
)
y:0
x:1
x:0
Bùi Trung Thành - CT1301
Page 21
án t t nghi
i h c dân l p H i Phòng
ng x, y mà t t c các thu c tính c
u là
nh phân bi u th b ng 0 và 1. B ng trên cho ta các thông tin sau:
-
ng s các thu c tính có giá tr là 1 trong c
ng x,y.
-
ng s các giá tr thu c tính có giá tr là 1 trong x và 0 trong y.
-
ng s các giá tr thu c tính có giá tr 0 trong x và 1 trong y.
-
ng s các giá tr thu c tính có giá tr 0 trong x và y.
i v i d li u thu c tính nh
-H s
n: d x, y
,
ng x và y có vai
i x ng và có tr ng s .
- H s Jacard: d x, y
0
, tham s này b qua s
0.Công th
cs d
thu c tính có giá tr 1 c
thu c tính có giá tr
Thu
i sánh gi a
ng h p mà tr ng s c a các
ng d li u có giá tr
u so v i các
y các thu c tính nh phân
i x ng.
gi
nh danh:
d x, y
c
p m
p
i sánh
ng trùng nhau và p là t ng s các thu c tính.
Thu c tính có th t :Phép
v i thu c tính th t
c th c hi n
th t cóM igiá tr (Mikích
th t
sau:
phi
t gi a các
sau,
i
ng d li u
ta gi s i là thu c tính
c mi n giá tr ): Các tr ng thái Mi
cs p
M i], ta có th thay th m i giá tr c a thu c tính
b ng giá tr cùng lo i ri, v i ri
tr khác nhau, vì v y ta chuy n
Bùi Trung Thành - CT1301
1... M i . M i thu c tính th t có mi n giá
i chúng v mi n giá tr [0,1]
cách
Page 22
án t t nghi
i h c dân l p H i Phòng
th c hi n phép bi n
i=
i.S
cách
i sao cho m i thu c tính:
d ng công th c tính
phi
i v i các giá tr zi( j ) ,
,v i
t c a thu c tính kho ng
chính là
phi
Thu c tính t l : Có nhi u cách khác nhau
tính
t c a thu c
tính có giá tr .
cácthu c tính t l . M t trong nh ng s
t
là s d ng công th c tính
logarit cho m ithu c tính xi, thí d qi= log( xi), lúc nàyqi
thu c tính kho ng. Phép bi n
gi a
vai trò
i logarit này thích h p trong
ng h p
các giá tr c a thu c tính là s
Trong th c t , khi tính
m t ph n các thu c tính
t
c
d li u,
i ta ch xem xét
i v i các ki u d li u ho
chocho t t c các thu c tính d li u. Trong m t s
ng h p,
tr ng s
i ta lo i b
c a các thu c tính d li u b ng cách chu n hoá chúng ho c gán tr ng
s cho m i thu c tính giá tr trung bình,
s d ng trong các
l ch chu n. Các tr ng s này có th
kho ng cách trên, thí d v i m i thu c tính d li u
c gán tr ng s
ngwi (1
),
t d li u
c xác
n
sau: d x, y
w i ( xi
yi )2 .
i 1
i ta có th chuy n
i gi a các mô hình cho các ki u d li u trên,
thíd d li u ki u h ng m c có th chuy n
l i.
i thành d li u nh phân và
c
i pháp này r t t t kém v chi phí tính toán, c n ph i cân nh c khi
ápd ng cách th c này.
Tu t ng
tính
chính xác,
t
ng h p d li u c th mà
khác nhau. Vi c xác
nh
i ta s d ng các mô hình
t d
li u thích h p,
m b o khách quan là r t quan tr ng vàgóp ph n xây d ng
thu t toán PCDL có hi u qu cao trong vi c
m b o ch t
ng
chi phí tính toán c a thu t toán.
Bùi Trung Thành - CT1301
Page 23
án t t nghi
2.4. Các
i h c dân l p H i Phòng
ng ti p c n c a bài toán phân c m d li u
phân ho
a trên m
d
i, phân c m d a trên mô hình, phân c m d a trên ràng bu c.
2.4.1.
pháp phân
phân ho ch
phân c m phân ho chnh m phân m t t p d li u có n ph n
t
c
d li u D thành K nhóm d li u sao cho:
M i c m ch a ít nh t m
M
ng.
ng thu c v m t c m duy nh t.
K là s c
c.
Các thu t toán phân ho chd li
nghi m t
c cho v
phân ho ch có th
c.
ph c t p r t l
nh
PCDL, do nó ph i tìm ki m t t c các cách
M t s thu t toán phân c m phân ho
- MEANS,
PAM, CLARA, CLARANS ....
2.4.2.
pháp phân
phân
Phân c m d li u phân c p s p x p m t t p d li
trúc có d ng hình cây, cây phân c
Cây phân c p có th
tc u
c xây d ng theo k thu
quy.
c xây d
trên xu
i lên (Bottom up).
o phân c p c m ch không t o phân ho ch các
nh s c m t
do kho ng cách gi a các c m ho
c
bi u di
u ki n d ng quy
nh. Tiêu chu n gom
nh b i ma tr n kho ng cách. Phân c p c
id
u. S c m s
th d ng cây các c m. Lá c a cây bi u di
c
ng riêng
l , nút trong bi u di n các c m.
pc
gom c m phân c p g m:
Bùi Trung Thành - CT1301
Page 24
án t t nghi
i h c dân l p H i Phòng
G p:
Xu t phát m
ng và t o m t c m ch a nó.
N u hai c
g n nhau s
c g p l i thành m t c m
duy nh t.
Lpl
n khi ch còn m t c m duy nh t là toàn b
không gian.
Tách:
Xu t phát t c m duy nh t là toàn b không gian
Ch n c
phân bi t cao nh
c này s
áp d
iv ic
L pl
n khi m
n.
ng thu c m t c m ho c
u ki n d ng.
c
c
Hình 3:
Các kho ng cách gi a các c
Bùi Trung Thành - CT1301
p c n phân c p
ng dùng là:
Page 25