Tải bản đầy đủ (.pdf) (63 trang)

Tìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnh (Đồ án tốt nghiệp)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (12.32 MB, 63 trang )

án t t nghi

i h c dân l p H i Phòng
L IC

Trong su t th i gian h c t
m

án t t nghi p

c các th y cô ch b o, dìu d

n bè quan tâm,

ng viên.
c tiên e
Ngô Qu c T o

c bày t lòng bi
i

t t i PGS TS

ng và nhi t tình ch b o,

su t quá trình th c hi

ng d n em trong

án t t nghi p này.
il ic



i các th y cô trong ngành h th ng thông tin

i h c Dân L p H i Phòng

y b o, cung c p

nh ng ki n th c quý báu cho em trong su t quá trình nghiên c u và h c t p t i
ng.
il ic

n bè nh

i luôn c

em trong su t th i gian h c t
án t t nghi p.
Do th i gian và ki n th c có h n nên không tránh kh i nh ng thi u sót
nh

nh. Em r t mong nh

cs

a th y cô và các b n!

Em xin chân thành c
H i Phòng, tháng 11
Sinh viên
Bùi Trung Thành


Bùi Trung Thành - CT1301

Page 1


án t t nghi

i h c dân l p H i Phòng
M CL C

L IC
L

....................................................................................................... 1
U ...................................................................................................... 4
NG QUAN V KHAI PHÁ D LI U .................................. 7

1.1. Gi i thi u v khám phá tri th c .................................................................. 7
1.2. Khai phá d li u và các khái ni m liên quan ................................................ 9
1.2.1. Khái ni m khai phá d li u..................................................................... 9
1.2.2.

c trong quá trình khai phá d li u ........................................... 10

1.2.3. Các thành ph n trong khai phá d li u ................................................. 11
1.2.4.
ng ti p c n và k thu t áp d ng trong khai phá d li u .................. 12
1.2.5.


ng d ng c a khai phá d li u ............................................................. 13

M D LI U VÀ CÁCTHU T TOÁN PHÂN C M
D LI U ............................................................................................................. 14
2.1. Phân c m d li u ......................................................................................... 14
2.1.1.
phân c m d li u ........................................................... 14
2.1.2. M t s ví d v phân c m d li u ........................................................ 15
2.2. M t s ki u d li u trong phân c m............................................................ 17
2.2.1. Ki u d li u d
c mi n.............................................. 18
2.2.2. Ki u d li u d a trên h
................................................................ 18
2.3.
và kho
i v i các ki u d li u.................... 20
2.3.1. Khái ni
..................................................... 20
2.3.2.
ng cách ............................................................................... 21
2.4. Các
ng ti p c n c a bài toán phân c m d li u..................................... 24
2.4.1.
pháp phân c m phân ho ch ..................................................... 24
2.4.2.
pháp phân c m phân c p ......................................................... 24
2.4.3.
pháp phân c m d a trên m t .............................................. 26
2.4.4.
pháp phân c m d a trên

i................................................... 29
2.4.5.
pháp phân c m d a trên mô hình ............................................ 30
2.4.6.
pháp phân c m d a trên d li u ràng bu c ............................. 30
2.5. M t s thu t toán phân c m d li u ............................................................ 30
2.5.1. Các thu t toán phân c m phân ho ch ................................................... 30
2.5.2. Thu t toán phân c m phân c p ............................................................. 32
2.5.3. Thu t toán COP Kmeans ................................................................... 33

Bùi Trung Thành - CT1301

Page 2


án t t nghi

i h c dân l p H i Phòng

CH

NG D NG THU T TOÁN K - MEANS TRONG PHÂN
N NH ........................................................................................................ 35
3.1. T ng quan v phân vùng nh ........................................................................ 35
3.2.
ng ti p c
n nh.............................................................. 36
3.2.1.
................................. 36
3.2.2.

3.2.3.

a trên không gian nh .......................................... 37
a trên mô hình v t lý............................................ 38

3.3.

....................................................... 41

3.3.1.
3.3.2.

n y u c a B.G. Prasad ..................................... 41
nd
ng c c b thích nghi ............... 46

3.3.3.

i b ng Watershed ...................................................... 47

3.3.4. Tr n các vùng ....................................................................................... 50
3.4. Thu t toán kn nh ...................................................... 53
3.4.1. Mô t bài toán ....................................................................................... 54
3.4.2.
c th c hi n chính trong thu t toán ........................................... 54
3.4.3. K t qu th c nghi m............................................................................. 58
3.4.4.
m c a thu t toán k means............................................ 59
K T LU N ......................................................................................................... 61
TÀI LI U THAM KH O ................................................................................. 62


Bùi Trung Thành - CT1301

Page 3


án t t nghi

i h c dân l p H i Phòng
DANH M C HÌNH

Hình 1: Quy trình phát hi n tri th c ......................................................................... 8
c trong khai phá d li u ............................................................. 10
p c n phân c p........................................................ 25
Hình 4: p là m

m h t nhân v

Pts là 3. Kho
h c hai chi u, q là m
Hình 5: q là m

ng trù m t là min

c dùng là kho ng cách Euclide trong không gian hình
m liên thông m
tr c ti p t p. ............................ 27

m liên thông m
m có k t n i m


Hình 7: Nh ng c m d li

t p ...................................................... 27
....................................................... 28

c khám phá b i CURE...................................... 32
......................... 42
............ 52
......................... 53

.................... 53
Hình 12: Thu t toán k - means............................................................................ 56
Hình 13: Tìm ki m top x color............................................................................. 57
Hình 14: Giao di n chính c
......................................................... 59
Hình 15: Ch n
u vào.................................................................................. 59
Hình 16:K t qu c a quá trình phân c m nh...................................................... 59

Bùi Trung Thành - CT1301

Page 4


án t t nghi

i h c dân l p H i Phòng
L


U

Trong nh
kh

phát tri n m nh m c

th

thông tin c a các h th

chóng. Bên c

c tin h c hóa m t cách
c khá

Hàng tri u

d li u (CSDL)
.

t làm cho ho
o ra m

ng s n xu t

ng d li u kh ng l .

c s d ng cho các ho


ng s n xu t,

, có nhi u CSDL lên t i hàng nghìn Gigabyte, th m chí

lên m c Terabyte.
S bùng n

n t i m t yêu c u c p thi t, c n có công c m i, hi n

có th chuy

ng d li u kh ng l này thành các tri th c có ích. T
li

i

c th i s c a

n n CNTT c a th gi i nói chung và Viêt Nam nói riêng. Khai phá d li
c ng d ng r t r ng rãi trong nhi

cc

i s ng: Marketing, ngân

hàng, b o hi m, y t , khoa h
Các k thu t khai phá d li

c chia thành 2 nhóm chính: k thu t khai


phá d li u mô t và k thu t khai phá d li u d

oán.

án t t nghi p này em xin trình bày v
c ng

t trong nh ng v

-

n c a khai phá d li u.

ng quan v Khai phá d
li u; ng d ng trong

m

li u; Phân c m d

i s ng.

-

m c ng

n nh.

K t lu n: Tóm t t nh ng v
ng phát tri


Bùi Trung Thành - CT1301

tìm hi

c trong bài, các v

liên

.

Page 5


án t t nghi

i h c dân l p H i Phòng
TÓM T

TÀI

án t t nghi p c a em, nghiên c u v
c mc

n

i dung nghiên c u g

ng quan v khai phá d li u
u t ng quan v khai phá d li u và khám phá tri

th c. Quy trình khám phá tri th c; khai phá d li u, nhi m v c a khai phá d
li

ng ti p c

t áp d ng trong khai phá d li

ng d ng c a khai phá d li u trong th c t
Phân c m d li u và các thu t tóan phân c m d li u
u v phân c m d li u; m t s ki u d li
ng ti p c n phân c m d li u và m t s thu t tóan phân
c m d li u.
ng d ng thu t tóan ku t ng quan v
n nh; m t s thu
n nh và giao di

n nh
n

n nh; nghiên c u thu t tóan k-means
t mô ph ng thu t toán k-

n nh.

Bùi Trung Thành - CT1301

Page 6


án t t nghi


i h c dân l p H i Phòng
T NG QUAN V KHAI PHÁ D

LI U

1.1. Gi i thi u v khám phá tri th c
N u cho r
ngh

n t

n t

là b n ch t c a công

n t truy n th ng thì d li u, thông tin và tri th c hi

mc

c m i trong nghiên c u và ng d ng v phát hi n tri th c và

khai phá d li u.
ng chúng ta coi d li u là m t dãy các bit, ho c các s và các
kí hi u, ho

im

i m t d ng nh


c g i cho m

nh. Chúng ta s d
li

t i thi

ng các thông

cl cb

c rút g n t i m c

n cho d li u. Chúng ta có th xem tri th c
p bao g m các thông tin và các m i quan h . Các m i

quan h này có th

c hi u ra, có th

cách khác, tri th c có th

c phát hi n ho c có th

c coi là d li

Phát hi n tri th

ng và t ch c cao.


d li u là quy trình nh n bi t các m u ho c

các mô hình trong d li u v
hi

tr

c h c.Nói

p th c, m i, kh ích, và có th

c. Còn khai phá d li u là m

c trong quy trình khám phá tri th c,

g m các thu t toán khai phá d li

im ts

nh v hi u

qu tính toán ch p nh

tìm ra các m u ho c các mô hình trong d

li u.Nói m t cách khác, m

a phát hi n tri th c và khai phá d li u chính là

tìm ra các m u ho


nt

d li

n còn

b che khu t b i hàng núi d li u.

Bùi Trung Thành - CT1301

Page 7


án t t nghi

i h c dân l p H i Phòng

Quy trình khám phá tri th

Hình thành và

Thu th p và ti n x lý
d li u

Khai thác d li u rút
ra các tri th c

phân tích và ki m
nh k t qu


S d ng các tri th c
phát hi
c

Hình 1: Quy trình phát hi n tri th c
-

c 1: Tìm hi
c ng d
c này s
quy
nh cho vi c rút ra các tri th c h u ích và cho phép ch
pháp khai phá d li u thích h p v i m
ng d ng và b n ch t
c a d li u.

-

c 2: Thu th p và x
c g i là ti n x lý d li
lo i b
nhi u, x lý vi c thi u d li u, bi
i d li u và rút g n d li u c n thi t,
ng chi m th i gian nh t trong toàn b quy trình c a khám phá
tri th c.

-

c 3: Là khai phá d li u hay nói cách khác là trích ra các m u ho c các

mô hình
i các d li u.

-

c 4: Hi u tri th
c bi t là làm sáng t các mô t và d
c trên có th l
p l i m t s l n, k t qu
c có th
l y trung bình trên t t c các l n th c hi n.

Bùi Trung Thành - CT1301

Page 8


án t t nghi

i h c dân l p H i Phòng

1.2. Khai phá d li u và các khái ni m liên quan
Khai phá d li
m

c thi t k

ng c c l n các d li u nh m phát hi n ra các m u thích h p ho c các m i

quan h mang tính h th ng gi a các bi


h p th c hóa các k t qu

c b ng cách áp d ng các m

n cho các t p con m i c a d

li u. Quy trình này g

ng mô hình ho

nh

u, h p th c, ki m ch ng.
1.2.1.
Kho ng
thi t b

trên các

n t không nh

bùng n .Câu h
l

t th p k tr l

li u này x y ra v i m t t c

t ra là chúng ta có th khai thác gì t


y? Và t

li

Khai phá d li u

li u kh ng

i.

mô t quá trình phát hi n ra tri th c trong

CSDL. Quá trình này k t xu t ra các tri th c ti m n t d li u giúp cho vi c d
báo trong kinh doanh, các ho

ng s n xu

phí v th i gian so v

n th

Khai phá d li u làm gi m chi
c kia.V

li
Khai phá d li u là quá trình tr giúp quy
phá các m

t và b t ng trong CSDL l n.


Khai phá d li u là m

c chính quan tr ng và mang tính quy

nh

trong quá trình KDD.

Bùi Trung Thành - CT1301

Page 9


án t t nghi

i h c dân l p H i Phòng

1.2.2.
Quá trình khai phá d li u g

Xác
nh
nhi m
v

Thu
th p

ti n

x lý
d
li u

Xác
nh
d li u
liên
quan

Hình 2
-

nh nhi m v

-

nh các d li

Th ng
kê tóm
Gi i
thu t
KPD
D li u
tr c ti p

M u

c trong khai phá d li u

nh chính xác các v

c n gi i quy t.
xây d ng gi i pháp gi i quy t

nhi m v bài toán.
-

Thu th p các d li u có liên quan và x lý chúng thành d ng sao cho gi i
thu t khai phá d li u có th hi

-

c.

Ch n thu t toán khai phá d li u thích h p và th c hi n vi c khai phá
nh

c các m

i d ng bi u di

m c a m u ph i là m i (ít nh
m i có th

ng v

ng v i các
i v i h th ng
i trong d li u (b ng


cách so sánh các giá tr hi n t i v i các giá tr

c các giá tr

mong mu n), ho c b ng tri th c (m i liên h gi

i
m ic am

giá b ng m t hàm logic ho c m
Ngoài ra, m u còn ph i có kh
c x lý và di n gi i ph i d

m

d ng ti m tàng. Các m u này sau
n nh

ng m t hàm l i ích. Ví d
kho n vay, hàm l
Bùi Trung Thành - CT1301

b t ng c a m u.

li u các
i nhu n t các kho n
Page 10



án t t nghi

i h c dân l p H i Phòng

vay. M

c ph i có giá tr

i v i các d li u m i v

1.2.3.
Gi i thu t khai phá d li u bao g m 3 thành ph
mô hình, ki
-

m.

Bi u di

c bi u di n b ng m t ngôn ng sao cho

có th

c. N u mô hình có s mô t h n ch thì s không th

h

c ho c s không th có các m u t o ra. N u di n t mô hình càng

l


nguy hi m do b h c quá nhi u và làm gi m
d

tr nên ph c t
-

u di n

li

a, vi c tìm ki m s càng

c gi

.

Ki

t m

c các tiêu

chu n c a quá trình phát hi n tri th c hay không. Vi
c th c hi n thông qua ki m tra d li
vi

giá mô hình

i v i nhi m v d


m tra d li u còn d

chính xác d

chính xác d
-

Tìm ki m mô hình: Bao g m tìm ki m theo s và tìm ki m theo mô hình.
C th
Tìm ki m theo s :Gi i thu t c n tìm các tham s
tiêu chu

t

i các d li

m t miêu t

c và v i

nh.

Tìm ki m mô hình: Quá trình này x y ra gi

t vòng l p

m tham s . Khi miêu t , mô hình b thay
i t o nên m t h các mô hình, v i m i m t miêu t mô hình
m tham s


c áp d

t
ng s

d ng các k thu t tìm ki m heuristic b
các mô hình có th
Bùi Trung Thành - CT1301

c c a không gian

n các tìm ki m t ng th .
Page 11


án t t nghi

i h c dân l p H i Phòng

1.2.4.

-

c có giám sát ): Phân l p d li u là vi c xây

Phân l p và d

d ng m t mô hình mà có th


ng thành nh ng l

d

b m t t i m t s thu c tính c a d li
c a d li u s xu t hi
-

Phân c m: Phân c m d li u là k thu t khai phá d li
phân l p d li u. Tuy nhiên, phân c m d li u là quá trình h c không
giám sát, là quá trình nhóm nh

ng vào các l

sao

ng trong m
v
-

ng c a nhóm khác.

Lu t k t h p: Là quá trình khám phá các t p giá tr thu c tính xu t
hi n ph bi

ng d li u. T t p ph bi n có th t o

ra các lu t k t h p gi a các giá tr thu c tính trong t
-


Khai phá chu i theo th i gian:Phân tích chu
trong t p r i r c. Chu

ng.

cs d

tìm m u

c t o thành t t p các giá tr r i r c. Phân tích

chu i theo th i gian và khai phá lu t k t h
thêm tính th t và th i gian.
-

Phân tích ngo i l : Phân tích ngo i l
t

t d ng c a phân c m, nó

ng h p r t khác bi t so v

ng h

khi nó th hi n nh ng l i trong d li u ho c th hi n ph n thú v nh t
trong d li
-

cs d


H i quy
trên các d li

báo d a

n t i b ng cách áp d ng các công th c. M t hàm s

c h c ra t b d li u hi n có b ng cách s d ng các k thu t h i quy
và tuy n tính t vi c th

li u m i s

vào hàm này

ng d
Bùi Trung Thành - CT1301

Page 12


án t t nghi

i h c dân l p H i Phòng

1.2.5.
Hi n nay, k thu t khai phá d li

c ng d ng m t cách r ng rãi

trong r t nhi u


i s

marketing, tài

chính, ngân hàng và b o hi m, khoa h c, y t , an ninh, internet
-

Yh

c kh e: Chu

nh trong y t d a trên

k t qu xét nghi
-

Tài chính và th

ng ch ng khoán: Áp d ng vào phân tích các th

tín d ng tiêu bi u c

n tài kho n nh

c,

ng khoán, gi y ch ng nh n
và các qu


nk

báo giá c a các lo i c phi u trong th
-

ng ch

B o hi m: Áp d ng vào vi c phân tích m

r i ro x

t ng lo i hàng hóa, d ch v hay chi

iv i

c tìm ki m khách hàng

mua b o hi
-

Quá trình s n xu t: Các ng d ng gi i quy t s t

a các ngu n

áy móc, nhân s và nguyên v t li u, thi t k t
trong quá trình s n xu t, b
ch ng h
-

ng và thi t k s n ph m,

ng d a vào yêu c

c: Quan sát chú tr ng t i vi c thu th p và phân tích d
li u, s d ng các nguyên t
thuy

nc av

c lý

ng theo s phát tri n các mô hình máy tính hay mô
miêu t các v t th và hi
c b sung l

c lý thuy t tìm cách gi i

thích các k t qu quan sát, và vi c quan sát l
xác nh n các k t qu lý thuy t.
-

Th thao, gi i trí

-

Vi n thông

-

Máy tìm ki m


-

Qu ng cáo: Phân tích, trích tr n nh
Bùi Trung Thành - CT1301

Page 13


án t t nghi

i h c dân l p H i Phòng

PHÂN C M D

LI U VÀ CÁCTHU T TOÁN PHÂN C M D

LI U

2.1. Phân c m d li u
Phân c m d li u là m t trong nh

ng nghiên c u tr ng tâm c

v c khai phá d li

c khám phá tri th c.

2.1.1.
Chúng ta th y r ng, m
c


a phân c

ng vào các

ng trong cùng m t c
ng gi a các c m l n, t

ra quy

b t

p thông tin, tri th c h u ích cho vi c

nh.

c tính c a d li
nh kho ng cách gi

d li u.
gi ng nhau gi a các c

ng các hàm này ho
(Dissimilar) gi

ng d li u, thông

(Similar) ho
ng d li u. Giá tr c


càng l n thì s gi ng nhau gi
cl

phi

ng d li u càng l n và

thì t l ngh ch v

Trong quá trình phân c m d li u thì v

tr ng i l n nh

.
u

(noise). Nhi u xu t hi n do quá trình thu th p thông tin, d li u thi u chính xác
ho

. Vì v y chúng ta ph i kh

phân c m d

nhi u trong quá trình

li u.

Bùi Trung Thành - CT1301

Page 14



án t t nghi

i h c dân l p H i Phòng

c chính trong quá trình phân c m d li u:
-

Xây
Phân c m d li u là bài toán thu
c ng d ng r

c h c máy không giám sát

khai thác thông tin t d li u

2.1.2.
Phân c m d li u có th

c ng d ng trong nhi

c c a cu c s ng

ví d
-

i: Tìm ki m nhóm các khách hàng quan tr
ng và nh


c t h t các b

d

li u khác hàng;
- Phân c m d li u ph c v cho bi u di n d li u gene: Phân c m là m t
trong nh

cs d

ng xuyên nh t trong bi u di n

d li u gene. D li u bi u di n gene là m t t p h

cl y

t DNA microarray là m t t m th y tinh ho c nh

n các

n DNA thành các hàng siêu nh . M t t p h p d li u bi u di n gene
có th

c bi u di n thành m t ma tr n giá tr th c

D li u bi u di n gene s

c phân c m theo 2 cách. Cách th nhât là

nhóm các m u gene gi ng nhau ví d


m dòng c a ma tr n D.

Cách th 2 là nhóm các m u khác nhau trên các h

ng, ví d

gom các c t c a ma tr n D.
- Phân c m d li u ph c v trong s c kh e tâm lý: Phân c m d li u áp
d ng trong nhi

c s c kh e, tâm lý, bao g m c vi

duy trì s c kh e, c i thi n cho h th
Bùi Trung Thành - CT1301

y và

c kh e và công tác
Page 15


án t t nghi

i h c dân l p H i Phòng

phòng ch ng b nh t

i khuy t t t. Trong s phát tri n c a h


th

c kh e, phân c m d li

các nhóm c

i dân mà có th

cs d

ng l i t các d ch v c th .

yyt

c l a ch

vào nhóm s có kh

nh m m c tiêu

i l i ích cho s c kh e c th t các

chi n d ch qu ng cáo và t

u ki n thu n l i cho s phát tri n c a

qu ng cáo. Ngoài ra, phân c m d li

cs d


r i ro do phát tri n y t

- Phân c m d li u trong ho
c u th

nh

u ki n nh

ng nghiên c u th

ng phân c m d li

n th
n th

phân chia th
ng h n

ng

ng, phân c m

ng thành nh ng c m mang ý

ng nam gi i t 21

gi i ngoài 51 tu

i có


ng: Trong nghiên

cs d

nh m c tiêu th
d li

nh các

ng nam gi i ngoài 51 tu

30 tu i và nam
ng không có xu

ng mua nh ng s n ph m m i.
- Phân c m d li u trong ho

n nh:

phân tích m c xám hay m u c a n
n nh phân c m d li

n nh là vi c
ng nh t. Trong phân
phát hi n biên c

i

ng trong nh.

V

phân c m d li

c quan tâm m t cách r ng rãi, m

ng b v phân c m d li u. Nói m
d li

t t p d li u và m

nhóm d li u l i ch ng h

, chúng ta

m d li u trong cùng m t nhóm gi ng nhau

m d li u trong các nhóm khác nhau v s
v

i khái, phân c m

ng d ng. Rõ ràng là

c b t g p trong nhi u ng d ng, ch ng h

b n, bi u di n gene, phân lo i khách hàng, x lí nh...

Bùi Trung Thành - CT1301


Page 16


án t t nghi

i h c dân l p H i Phòng

2.2. M t s ki u d li u trong phân c m
Trong phân c

ng d li

c di n t

i d ng các

c tính (hay còn g i là thu c tính). Các thu c tính này là các tham s
quy t v

phân c m và l a ch

gi i

n k t q a phân

c m. Phân lo i các thu c tính khác nhau là v
các t p d li u nh m cung c

c n gi i quy
n thu n l


nhau c a các ph n t d li u. Các thu t toán phân c

iv ih uh t

nh n d ng s khác
ng s d ng m t trong

hai c u trúc d li u sau:
1. Ma tr n d li u: Là m ng n hàng, p c
ng, các ph n t trong m i hàng ch giá tr thu

thu c tính c

i

ng c

i

M

2. Ma tr

: Là ma tr n n hàng, n c t, ph n t d(i,j) ch a kho ng
khác bi t gi
u d(i,j) x p x b

càng l


ng i,j; d(i,j) là m t s không âm trong
ng i và j khá g n nhau, n u d(i,j)

ng i và j k

bi u di n ma tr

Bùi Trung Thành - CT1301

Page 17


án t t nghi

i h c dân l p H i Phòng

Ph n l n các thu t toán phân c m d li u s d ng c
Do v y, n u d li u c n phân c
ph i bi

c t ch

i v d ng ma tr n

i d ng ma tr n d li u thì

c khi ti n hành phân c m d li u.

phân lo
li u D ch


.

c mi n và h

d

ng trong không gian k chi

ng thu c

D, v i x=(x1, x2,...xk); y=(y1, y2,...yk); z=(z1, z2,...zk
c các thu

i,

yi, zi v i i=1...k

ng c

y nó

s có các ki u d li u sau:
2.2.1.
- Thu c tính liên t c: N u mi n giá tr c a nó là vô h n không
a 2 giá tr t n t i vô s giá tr khác (ví d
các thu

, nhi


, âm thanh).

- Thu c tính r i r c: N u mi n giá tr c a nó là t p vô h
c (ví d là các thu c tính s

ng h

m

c bi t c a

thu c tính r i r c là thu c tính nh phân mà mi n giá tr ch có 2
phân t (yes/no, true/false, on/off).
2.2.2.
- Thu

nh danh: Là d ng thu c tính khái quát hóa c a

thu c tính nh

n giá tr là r i r c không

phân bi t th t và có nhi
ng thu c tính thì ch có th
- Thu c tính có th

nt .N

i


nh x=y hay x<>y.

t : Là thu

tính th t
2 thu c tính th t thì có th
- Thu c tính kho ng:
thu c tính kho ng có th

ng. N u x và y là
nh là x=y, x<>y, x>y, xtheo x p x tuy n tính, v i
nh m t thu

c

ng sau thu c tính khác v i kho ng là bao nhiêu. N u

Bùi Trung Thành - CT1301

Page 18


án t t nghi

i h c dân l p H i Phòng

xi>yi thì có th nói x cách y 1 kho ng là x i - yi

ng v i


thu c tính th i.
Vi c ch n l

n ch t

ng phân c m. N
kho

a các thu

nh c a thu

qu phân c

c chia nh thì
n và

ng nhi u h

tránh ph thu c vào vi c l a ch

nk t

li u c

c

chu n hóa. Vi c chu n hóa s gán cho t t c các thu c tính 1 tr ng s b ng nhau.Tuy
nhiên trong nhi


ng h

i s d ng có th

i tr ng s cho các

thu
chu

bi n là bi

d

s
+T

i các thu c tính v

i v i thu c tính f ta th c hi

l nh trung bình:

1f...xnf

là các giá tr thu c tính f c a n ph n t d li u và mf là giá tr

trung bình c

+


c chu n hóa:

Bùi Trung Thành - CT1301

Page 19


án t t nghi

i h c dân l p H i Phòng

- Thu c tính nh phân: Là thu c tính có 2 giá tr là 0 và 1.
- Thu c tính t l : Là thu c tính kho
i so v
Trong các thu

nh m t

m m c.

c trình bày trên thu

nh danh và thu c tính th

t g i chung là thu c tính h ng m c; còn thu c tính kho ng cách và thu c tính t l
c g i là thu c tính s .
2.3.

và kho


i v i các ki u d li u

2.3.1.
c tính c a d li

p

nh "kho ng cách" gi

d li u.

gi ng nhau gi a các c
ng các hàm này ho

(Similar) ho c là tính

tính

(Dissimilar) gi

ng d li u, thông

ng d li u. Giá tr c

càng l n thì s gi ng nhau gi

ng càng l

c l i, còn


t l ngh ch v

ho c

có nhi
cách gi

n

ng. T t c

u ph thu c vào ki u

thu c tính mà chúng ta phân tích. Thí d
(Categorical

ng kho ng

i v i thu c tính h ng m c

i ta không s d

ng cách mà s d ng m

ng

hình h c c a d li u.
T tc


t

k m

cl

tránh s nh m l n, thu t ng
hàm tính

c

ho c

. M t không gian metric là m t t

nh

các "kho ng cách" gi a t ng c p ph n t , v i nh ng tính ch
kho ng cách hình h
ng b t k

ng c a

t t p X (các ph n t c a nó có th là nh ng
ng d li

c p

c


g i là m t không gian metric n u:
Bùi Trung Thành - CT1301

Page 20


án t t nghi

i h c dân l p H i Phòng

-

nh, theo m t quy t c nào

V i m i c p ph n t x, y thu
t s th c d

-

c g i là kho ng cách gi a x và y.

Quy t c trên tho mãn h tính ch t sau:
i.

d( x,y) > 0 n u

ii.

d( x, y) = 0 n u x= y;


iii.

d( x, y) =d( y, x) v i m i x, y;

iv.

d( x, y) d(x, z) + d (z, y);

Hàm d

y;

c g i là m t metric c a không gian. Các ph n t c a X

cg

m c a không gian này

2.3.2.
Thu c tính kho ng: Sau khi chu
ng d li

c

nh b ng các metric kho
q

n

-


i

Kho ng cách Minskowski: d x, y

xi

(

yi )1/ q , v i q là 1 s

i 1

n

-

Kho ng cách Euclide: d x, y

( xi

yi )2 , (

ng h p

c bi t

yi

ng h


c bi t

i 1

c a

ng h p q=2).
n

-

Kho ng cách Manhattan: d x, y

xi
i 1

c a kho
-

ng h p q=1).

Kho ng cách c c

i: d x, y

Max in 1 xi

kho ng cách


yi , (

ng h p q

y:1



ng h p c a

)

y:0

x:1
x:0

Bùi Trung Thành - CT1301

Page 21


án t t nghi

i h c dân l p H i Phòng
ng x, y mà t t c các thu c tính c

u là

nh phân bi u th b ng 0 và 1. B ng trên cho ta các thông tin sau:

-

ng s các thu c tính có giá tr là 1 trong c

ng x,y.

-

ng s các giá tr thu c tính có giá tr là 1 trong x và 0 trong y.

-

ng s các giá tr thu c tính có giá tr 0 trong x và 1 trong y.

-

ng s các giá tr thu c tính có giá tr 0 trong x và y.
i v i d li u thu c tính nh

-H s

n: d x, y

,

ng x và y có vai

i x ng và có tr ng s .
- H s Jacard: d x, y


0

, tham s này b qua s

0.Công th

cs d

thu c tính có giá tr 1 c
thu c tính có giá tr
Thu

i sánh gi a

ng h p mà tr ng s c a các

ng d li u có giá tr

u so v i các

y các thu c tính nh phân

i x ng.

gi

nh danh:
d x, y

c


p m
p

i sánh

ng trùng nhau và p là t ng s các thu c tính.
Thu c tính có th t :Phép
v i thu c tính th t

c th c hi n

th t cóM igiá tr (Mikích
th t

sau:

phi

t gi a các
sau,

i

ng d li u

ta gi s i là thu c tính

c mi n giá tr ): Các tr ng thái Mi


cs p

M i], ta có th thay th m i giá tr c a thu c tính

b ng giá tr cùng lo i ri, v i ri
tr khác nhau, vì v y ta chuy n

Bùi Trung Thành - CT1301

1... M i . M i thu c tính th t có mi n giá

i chúng v mi n giá tr [0,1]

cách

Page 22


án t t nghi

i h c dân l p H i Phòng

th c hi n phép bi n
i=

i.S

cách

i sao cho m i thu c tính:


d ng công th c tính

phi

i v i các giá tr zi( j ) ,

,v i
t c a thu c tính kho ng

chính là

phi

Thu c tính t l : Có nhi u cách khác nhau

tính

t c a thu c

tính có giá tr .

cácthu c tính t l . M t trong nh ng s

t

là s d ng công th c tính

logarit cho m ithu c tính xi, thí d qi= log( xi), lúc nàyqi
thu c tính kho ng. Phép bi n


gi a

vai trò

i logarit này thích h p trong

ng h p

các giá tr c a thu c tính là s
Trong th c t , khi tính
m t ph n các thu c tính

t

c

d li u,

i ta ch xem xét

i v i các ki u d li u ho

chocho t t c các thu c tính d li u. Trong m t s

ng h p,

tr ng s
i ta lo i b


c a các thu c tính d li u b ng cách chu n hoá chúng ho c gán tr ng
s cho m i thu c tính giá tr trung bình,
s d ng trong các

l ch chu n. Các tr ng s này có th

kho ng cách trên, thí d v i m i thu c tính d li u

c gán tr ng s

ngwi (1

),

t d li u

c xác

n

sau: d x, y

w i ( xi

yi )2 .

i 1

i ta có th chuy n


i gi a các mô hình cho các ki u d li u trên,

thíd d li u ki u h ng m c có th chuy n
l i.

i thành d li u nh phân và

c

i pháp này r t t t kém v chi phí tính toán, c n ph i cân nh c khi

ápd ng cách th c này.
Tu t ng
tính
chính xác,

t

ng h p d li u c th mà
khác nhau. Vi c xác

nh

i ta s d ng các mô hình
t d

li u thích h p,

m b o khách quan là r t quan tr ng vàgóp ph n xây d ng


thu t toán PCDL có hi u qu cao trong vi c

m b o ch t

ng

chi phí tính toán c a thu t toán.
Bùi Trung Thành - CT1301

Page 23


án t t nghi
2.4. Các

i h c dân l p H i Phòng

ng ti p c n c a bài toán phân c m d li u

phân ho

a trên m

d

i, phân c m d a trên mô hình, phân c m d a trên ràng bu c.
2.4.1.

pháp phân


phân ho ch

phân c m phân ho chnh m phân m t t p d li u có n ph n
t

c

d li u D thành K nhóm d li u sao cho:
M i c m ch a ít nh t m
M

ng.

ng thu c v m t c m duy nh t.

K là s c

c.

Các thu t toán phân ho chd li
nghi m t

c cho v

phân ho ch có th

c.

ph c t p r t l


nh

PCDL, do nó ph i tìm ki m t t c các cách

M t s thu t toán phân c m phân ho

- MEANS,

PAM, CLARA, CLARANS ....
2.4.2.

pháp phân

phân

Phân c m d li u phân c p s p x p m t t p d li
trúc có d ng hình cây, cây phân c
Cây phân c p có th

tc u

c xây d ng theo k thu

quy.

c xây d

trên xu

i lên (Bottom up).

o phân c p c m ch không t o phân ho ch các
nh s c m t

do kho ng cách gi a các c m ho
c
bi u di

u ki n d ng quy

nh. Tiêu chu n gom

nh b i ma tr n kho ng cách. Phân c p c
id

u. S c m s

th d ng cây các c m. Lá c a cây bi u di

c
ng riêng

l , nút trong bi u di n các c m.
pc

gom c m phân c p g m:

Bùi Trung Thành - CT1301

Page 24



án t t nghi

i h c dân l p H i Phòng

G p:
Xu t phát m

ng và t o m t c m ch a nó.

N u hai c

g n nhau s

c g p l i thành m t c m

duy nh t.
Lpl

n khi ch còn m t c m duy nh t là toàn b

không gian.
Tách:
Xu t phát t c m duy nh t là toàn b không gian
Ch n c

phân bi t cao nh

c này s


áp d

iv ic

L pl

n khi m

n.

ng thu c m t c m ho c

u ki n d ng.
c

c
Hình 3:
Các kho ng cách gi a các c

Bùi Trung Thành - CT1301

p c n phân c p
ng dùng là:

Page 25


×