I HC QUC GIA TP H CHÍ MINH
I HC CÔNG NGH THÔNG TIN
KHOA: KHOA HC MÁY TÍNH
TIU LUN
CÔNG NGH TRI THC VÀ NG DNG
THUT TOÁN K-MEAN TRONG PHÂN CM D LIU VÀ NG DNG
Ging dn : GS.TSKH. HOÀNG KIM
Hc viên thc hin: - NGÔ NG
- NGUYN KHC MN _ CH1101102
Lp : CH06
TP. Hồ Chí Minh, tháng 5 năm 2012
Lời cảm ơn
c tiên, nhóm chúng em xin cy GS TSKH Hoàng Kiu kin
cho nhóm tip xúc mc quan trng ca trí tu nhân to tri th.
Cùng vi s phát trit bc ca ngành công nghip máy tính, nhu cu
ci vi máy tính ngày m gii quyt nhng công
vi i máy tính có kh
gii quyt v i. Và t nhân to nói
c bit là công ngh tri thi và phát trin. Nhng kin tht sc
cn thit khi các thành viên lp chun b quá trình làm tt nghi
làm vic trong mng khoa hc.
Nhóm cn các thành viên trong lng hc
thun li trong quá trình tip thu các bài ging.
Mt ln na, nhóm chúng em xin chân thành c tn tình truyt kin thc
ca thy. Kính chúc thy mnh khe, tip tc nhiu thng li trong nghiên cu
khoa hc và công cuc ging dy.
Hc viên: Ngô Ng - Nguyn Khc Mn
NHN XÉT
1
Mc lc
4
I. 4
1.1. Khái nim 4
1.2. Bài toán phân cm nói chung 4
1.2.1. Các kiu biu din d liu 5
1.2.2. và khong cách 6
1.2.3. Tiêu chun phân cm 10
1.3. m phân cm 11
1.3.1. Yêu cu 11
1.3.2. Mt s v trong phân cm d liu 12
1.4. m d liu 13
1.4.1. Phân hoch theo tp thô 13
1.4.1.1. Các h thông tin 13
1.4.1.2. Quan h bt kh phân 15
1.4.1.3. Xp x tp hp 16
1.4.2. 17
1.4.3. 19
1.5. 19
1.5.1. m phân hoch 19
1.5.2. m phân cp 20
1.5.3. m da trên m 21
1.5.4. m di 21
1.5.5. m da trên mô hình 22
1.5.6. m có d liu ràng buc 23
II. 24
2.1. Thut toán phân cum d liu da vào phân cm phân cp 24
2.1.1. Thut toán BIRCH 24
2.1.2. Thut toán CURE 27
2.1.3. Thut toán ANGNES 29
2.1.4. Thut toán DIANA 30
2.1.5. Thut toán ROCK 30
2
2.1.6. Thut toán Chameleon 31
2.2. Thut toán phân cm d liu da vào cm trung tâm 32
2.2.1. Thut toán PAM 32
2.2.2. Thut toán CLARA 34
2.2.3. Thut toán CLARANS 35
2.3. Thut toán phân cm d liu da vào tìm kim 37
2.3.1. Thut toán di truyn (GAS) 37
2.3.2. J- Means 40
2.4. Thut toán phân cm d liu da vào i 41
2.4.1. STING 41
2.4.2. Thut toán CLIQUE 43
2.4.3. Thut toán WaveCluster 44
-MEANS 46
I. 46
1.1. 46
1.2. 47
1.3. Th phc tp ca thut toán K-means. 49
1.4. 49
1.5. -means 50
II. (LSI) 52
2.1. 52
2.2. Phân tích Singular Value Decomposition (SVD) ca ma trn t ch mc (term document A)
53
2.3. Truy vn trong mô hình LSI 56
2.4. Cp Nht Singular Value Decomposition (SVD) 58
2.4.1. Cp Nhn (SVD- Updating document): 58
2.4.2. Cp Nht t ch mc (terms): 60
2.4.3. Loi b t ch mc (Downdating) Trong Mô Hình LSI 61
2.5. Chn h s k trong mô hình LSI 61
III. -MEANS 64
3.1. Tin x lý tp d liu vào 64
3.2. Ch ng cách thích hp 66
3.3. Chn s cm cho thut toán K-means 68
3
71
I. TRUY HI THÔNG TIN 71
1.1. Biu din mu 72
1.2. Phép 74
1.3. Mt gii thut cho phân cm d liu sách 75
II. KHAI PHÁ D LIU 76
2.1. Khai phá d liu bng php cn. 77
2.2. Khai phá d liu có cu trúc ln. 78
2.3. liu trong d liu a cht. 80
2.4. t 82
4
I.
1.1. Khái nim
Phân cm là hình thc hc gán
nhãn. Ma gom cm d liu là gom d li nhau, thành tng
cm theo mt chu liu trong các c
t thng trong cùng mt cm. Có nhi
c
ch
p
p da trên m
a trên mô hình
i
1.2. Bài toán phân cm nói chung
Bài toán phân cc thc hin khi chúng ta không bic ni
dung thông tin ca các thành phn thuc c c các lp. Vì lý do
này mà công vic phân cc truyn thng nhìn nhi con mt
ca hc mt mu ch
gng cn tìm mt ca d liu và nhóm li
các d liu ging nhau. Quy trình phân cc th hi1.
5
Hình 1. Qui trình phân cm tng quát
1.2.1. Các kiu biu din d liu
Dc min ta có th phân d liu thành hai loi là thuc tính liên
tc và thuc tính ri rc. Bên cu phân loi da trên h t s
kiu d liu thông dnh danh, thuc tính có th t, thuc tính
khong, thuc tính t l ng trc tin kt qu phân
cm. Vì th i ta phi chun hóa d li khc phc ym này. T nhng
yêu cu trên và vi liu chúng ta cn tìm hiu v các kiu
biu din d liu. Có hai kiu biu din d liu ph bin là:
Biu dii dng ma trn ca các bin cu trúc hay các thuc tính ca
ng. Ví d i s có các thuc tính là tên, tui, chiu
cao, cân nng, màu m ng, m ng có p
thuc tính thì s có mt ma trn vi n dòng, p ct.
Hình 2. Ma trn thuc tính biu din d liu
6
Biu din d lii d ng cách git các ci
ng. Nng, chúng s c biu din bng mt ma trn
vi n hàng và n c
Hình 3. Ma trn khong cách biu din d liu
ng cách gi ng i và j. Nói chung,
d(i,j) gn bng i và j là gn nhau hay có ni dung gn ging
ng có ni dung càng khác nhau. Hình 7 biu
din ma trn khong cách ca tp d liu có d(i, j) = d(j, i) và d(i, i) = 0.
1.2.2. và khong cách
m d liu cn có m
khorong không gian d li
dùng chung cho mng hp vì chúng ta bit rng, m d
liu có th cha nhiu kiu d liu thuc tính khác nhau. Mc
ng nhiu thuc tính có ki . Các ki bao gm giá tr
khong (interval-valued), nh i xng (symmetric binary), nh phân bi
xnh danh (nominal), th t (ordinal) và t l khong
(ratio-scaled). Tùy theo mc tiêu kho sát và bn cht d lii dùng ch
ng cách cho phù hp vi ng dng ca mình. Gi s ng x và
gic ký hiu là d(x, y).
1. Bin tr khong
7
Bin tr kho c cng tuy
trng, chiu cao, tui, v.v Mt s ng ca bin tr khong:
Khong cách Minkowski
Khong cách Euclide là khong cách Minkowski vi q = 2
Khong cách Manhattan là khong cách Minkowski vi q = 1
Khong cách có trng
Khong cách có trng là ci tin ca kho
n ng ca tng thun khong cách ging. Thuc
tính có trng s w càng ln thì ng càng nhin khong cách d. Vic
chn trng s tùy thuc vào ng dng và mc tiêu c th.
2. Bin nh i xng
Là bin ch có 2 trng thái 0, 1 và các tr
8
ng cách:
3. Bin nh phân bi xng
Bin nh phân là bi xng nu có mt tr
trn ng thiên v trng thái
c Y khoa, khi bt gp mt triu chng b
tiên kt lu thun tic ch
chuyên sâu và cách ly theo dõi.
Khoc tính bi công thc
4. Binh danh
Binh danh là bin có th nhn nhing thái. Ví d n
màu s nh khong cách theo binh danh:
Dùng h n:
9
vi m là s thuc tính có giá tr trùng khp ging x, y và p là tng
s thuc tính.
n nh phân v binh danh bng cách thay mi trng thái bng mt
bin nh phân.
5. Bin th t
Bin th t là bin trên mt tp giá tr nh quan h th t gia các giá
tr
Ví d bin xp hng hay bin xp hng v th
Các giá tr có th ri rc hoc liên t n th t c xây d
sau:
Thay th x
i
bi hng ca chúng x
i
∈
Ánh x hng ca tng bin vào [0, 1] bng cách thay th ng x trong
bin i thành:
phân bii vi bin tr khong.
6. Bin t l khong
Bin t l kho l phi tuyn. Chng h
ng biu dic khi áp d bin
tr khong hoc th t chúng ta phi tin x lý bng cách l
7. Bin có kiu hn hp
10
M d liu có th cha c 6 kiu d ling trên. Ta có th dùng
công thc gán trng s kt hp tính hiu qu ca các bin thành phn.
1.2.3. Tiêu chun phân cm
tìm hiu mt s tính cht ca d liu và yêu cu ca mt
thut toán phân cm. Hu ht các nghiên cu và phát trin các thut toán phân
cm d liu nhm tha mãn các yêu cn sau:
Có kh rt toán phân cm cn có kh
rng. Rt nhiu thut toán phân cm có th làm vic tt vng
d liu nhng d lit vng d liu
ln, tro d liu ln cha hàng tring vì vy ta cn
m rng b phân c bao trùm c tp d liu ln.
Kh i các kiu và thuc tính d liu khác nhau: có nhiu
thut toán phân cm, có nhng thut toán phù hp vi d liu s, có nhng
thut toán khi áp dng cho loi d liu nh phân hay d liu
Nhn bic các cm vi hình thù bt k: mt s thunh
cm da vào vic tính khong cách Euclidean hay Manhattan vi m
nhn bi dày và ging nhau ca các tài liu trong cm. Tuy nhiên, mt
cm có th có hình dng bt k vì vy mà vic phát trin thut toán có kh
nh các cm vi hình thù bt k là quan trng và cn thit.
Ti thiu min tri thnh các tham s u vào: min tri thu
vào cn thit cho mt thut toán phân cm càng ít, chi phí cho vic phân
cm càng gim và nó càng kh
11
Kh i d liu nhiu: Phn l d liu thc t
chng ngoi l hoc thit
toán nhy cm vi nhiu là nguyên nhân dn vic to ra mt b phân
cm kém chng.
Không nhy cm vi th t ca bu vào: Mt s thut toán phân
cm không th sát nhp thêm d liu mi vào trong b phân cm, thêm tài
liu vào cm có sn hoc to thêm cm mi. Bên ct thut toán
phân cm tt không to ra các b phân cm khác nhau t cùng mt b d
li t sp xp khác nhau. Nhng thut toán này gi là nhy cm
vi th t d liu.
Thích nghi vi d liu: D ling có s chiu
ít, t hn ba chiu mà mt s thut toán phân ct qu rt tt.
Bên c liu (nhing và cn
thic phân nhóm cho nhiu ng dng thc t. Vi loi d liu này,
vic phân loi da vào kin thi t ra có hiu qu, tuy nhiên vi
khng d liu ly, vic s dng kin thc chuyên gia là tn
kém nên chúng ta cn tìm các thut toán phân c gii quyc vn
này.
Phân cm trên mt s ràng buc: Trong mt s ng dng, chúng ta cn
phân c d liu cha các liên kt bt buc gia hai hay nhiu
ng. Vic phân cm c m b ng này tha mãn các
ràng bu
D hiu, d t và kh thi: mt thut toán càng d hiu và d t và
mang tính kh thi cao s i dung tin cy và s dng rng rãi.
1.3. m phân cm
1.3.1. Yêu cu
Phân cm nói chung cn mt s m sau:
12
Ma vic phân cm: Bài toán phân cm có mm các
tài liu và phân chúng vào các cm khác nhau. Tuy nhiên, tùy thuc vào
mi lp trình s quynh s ng cm, hay
chng cm mc nào. Mt cách phân chia d liu vi s ng cm
linh hoc thc hin bng cách ct cây mc phù hp ví d
dng thut toán phân cm cây phân cp.
Bn cht ca d liu: Phn lc phát
trin cho d liu st s có th gii quyt bài toán vi d li
bn hoc vi c d liu s và d lin.
Bn cht ca thông tin: Nhic ph thu giu ca d
li u, phân b d liu, s chi nh
vi . Mt s ng thc khác ch yêu c
t hoc khong cách gia các thành phn d liu.
Bn cht các cm: Các cm tài liu cm bo 2 tính cht mà khi phân
cm chúng ta cn chú ý:
Compactness dính kt hoc t ca
tng cng trong tng cm riêng r càng cao,
ng càng ln.
Isolation cô l s tách bit gia mt cm vi nhng
cm khác.
1.3.2. Mt s v trong phân cm d liu
X lý nhiu: D liu b nhiu là d liu không chính xác hay là d liu
khuyt thiu thông tin v mt s thuc tính. Hu ht các d liu s d
phân cu b nhiu do quá trình thu thp thiu chính xác hay thiy
. Vì vy cn phi thc hic tin x lý d liu nhm khc phc hoc
loi b nhic khi chuyn phân tích cm d liu. Mt
trong các k thut x lý nhiu hin nay là thay th các giá tr các thuc tính
cng nhiu bng các giá tr thung.
13
Dò tìm phn t ngoi lai. Phn t ngoi lai là mt nhóm nh ng
d ling so vi các d li d liu. Loi b nhng d
li tránh n kt qu phân cm.
Phân cm hi m và khó: Vì phân ci
gii quyt mt s v bn: Xây d , xây dng
các tiêu chun phân cm, xây dng mô hình cho cu trúc d liu, xây dng
các thut toán phân cm và xác lu kin khi to, xây dng các th
tc biu dit qu phân cm. Hi
pháp phân cm tng quát nào có th gii quyt trn vn cho tt c các dng
cu trúc d liu. Vi nhng d liu hn hp thì vic phân cm càng khó
t thách thc trong ngành khai phá d liu.
1.4. m d liu
1.4.1. Phân hoch theo tp thô
Lý thuyt tc Z. Pawlak phát triu thp niên 1980. Lý thuyt
tp thô rt hiu qu trong khai thác d liu, tìm kim thông tin, h tr quynh,
máy hc, các h tri thc
1.4.1.1. Các h thông tin
a. Hệ thông tin
Mt t d li c mô t i dng b i
dòng miêu t mt s kin, m ng hp, mt thành ph
ging. Mi ct là mt thuc tính (mt bii, mt
quan sát, m c cho mi tng; nó
c cung cp bi nhi có chuyên môn hoi
dùng. B c gi là mt h thng thông tin (information
system). C th t c i
ng, hu hn, khác rng và A là tp thuc tính, hu hn, khác rng
sao cho A a V I a a ∈∀
14
Tc gi là tp giá tr ca a.
Ví d 1.1: Gi s t h thc
th hin qua bng 1.1.
Bng 1.1. H thng thông tin
b. Hệ quyết định
D dàng nhn thy tng cp (x3, x4) và (x5, x7) có cùng giá tr
thu ng hp này gi là bt kh phân (indiscernible),
không phân bia vào hai
thuc tính này. Trong nhiu ng dng, ta thy có mt s phân loi kt
qu s mô t tri thc bi mt thuc
gi là thuc tính quyc hc có giám sát. Các h
thng thông tin d c gi là các h quy nh (decision
system). H quynh là h thng thông tin có dng }) { , ( d A I ∪
∉ là thuc tính quynh. Các thành phn cc
gi là các thuu kin. Thuc tính quynh d có th có nhiu
mng gp là thuc tính nh phân.
Ví d 1.2. H quynh gi ng và 3 thu
Walk là thuc tính quynh.
15
Bng 1.2. H quynh
Vi h quynh này, chúng ta thy rng tng cp (x3, x4) và (x5,
x7) có cùng giá tr thuu kip th nht thì phân bit
c da vào thuc tính quy nh Walk trong khi cp th hai thì
không.
T bng 1.2 có th tng hp thành mt s i là
lu
u Age = 16
u Age = 46 60 và LEMS = 26 -
1.4.1.2. Quan h bt kh phân
Mt h quynh (bng quynh) biu din tt c các tri thc v
mô hình. Bng này có th c ln vì nó có th a d liu
theo hai mng ging nhau hoàn toàn hay bt kh phân
bit có th c mô t nhiu ln; (2) các thuc tính có th a. Ta s
xem xét v
Xét quan h nh phân X X R × ⊆ có tính cht phn x
xRx X x , ∈∀ i xng (nu xRy thì yRx ) và bc cu (nu xRy và
c gi là quan h a
16
mt phn t X x∈ , ký hiu [x]R là tp hp cha mng y ∈ X,
sao cho xRy.
Cho h thông tin U = (I, A), vi tp thuc tính B ⊆
quan h
U
ind
U
c gi là quan h bt kh phân theo B (B-indiscernibility
relation). N∈ ind
U
phân
bit theo tp thuc tính B. La quan h bt kh phân
c ký hiu là [x]B. Suy ra, các l
B
tha mãn
n ta ký hiu ind(B) thay cho ký hiu
ind
U
(B).
Ví d 1.3 Xét bng quy ng 1.1. Các tp thuc
u kin
B ⊆ ∅ bao gm: {Age}, {LEMS} và {Age, LEMS}. Khi
ind({Age}) = {{x1, x2, x6}, {x3, x4}, {x5, x7}}.
ind({LEMS}) = {{x1}, {x2}, {x3, x4}, {x5, x6, x7}}.
ind({Age, LEMS}) = {{x1}, {x2}, {x6}, {x3, x4}, {x5, x7}}
a vào tp thuc tính {Age}, {LEMS} và {Age, LEMS}
chúng ta s không phân bix4 hay có th nói rng, ta
không th phân bing trong cùng mt tp ca mt lp
1.4.1.3. Xp x tp hp
Quan h t h thng thông tin s phân hoch tp
ng U thành nhng tng con. Các tc
quan tâm là các tp con có cùng giá tr ca thuc tính quynh. Tuy
nhiên, không th t s khái nim. Ví d, ta không
17
th p các khách hàng có thuc tính quy nh
Walk = Yes da vào thuu kin trong bng 1.2. Nhng khách
hàng g
3
và x
4
. Nói cách khác, không th kt lun chính
xác nhng thành phy t bng 1.2. T m
tp thô. Mt dù, chúng ta không th ng mt cách
ch ng mà chc chn có giá tr
ng giá tr chc chn không có giá tr i cùng là
ng nào thuc vào vùng biên ging hp chc chn. Nu
vùng biên này khác rng thì tp thô.
Cho h thông tin U = (I, A) và B ⊆A, X ⊆I . Nu có th xp x tp
ng X ch vithông tin cha trong B bng cách xây dng các xp
x B-i và B-trên ca tp X, ký hing là BX, BX
1.4.2.
hi t là thut toán phân cp hi t. Ta thit k thut
toán bng cách ci tin k thut gom cc
phát tri khám phá các lut cu theo lp trong CSDL quan h.
Chameleon là thut toán gom cm phân cp. Thut toán dùng kt ni ni ca
gom cm a các item trong cm.
Cho D là CSDL quan h cha T dòng và k thuc tính. Chameleon tìm các cm
tha các ràng buc: kt ni ni quan h g RC(Ci,Cj)
18
Kt ni ni gia hai cm Ci và Cj gi là EC(CiCj) là tng trng s ca các
cung nnh trong Cj. ECCi là tng trng s các cung
th thành 2phn b n các bài toán v s
phân bit trong các hình ca các c phân bit trong kt ni ca các
cm khác nhau.
S
EC(Ci ,C j )
là trng s trung bình ca các cung nnh trong Ci n các
nh trong Cj tìm s a các lp khái nim, ta d
thi vnh: T1RI, T2RI, T1RC và T2RC
Thut toán gc chính sau:
1. Xây d th k láng ging gn nht;
2. th thành các cm con s trn;
3. Trn các c c cm cui cùng.
S ci tin ca thu
ng mi: T1RI, T2RI, T1RC và T2RC hi t khi trn 2
nhóm (cmcon) Ci và Cj c (3), vi T1RI >T2RI, T1RC >T2RC.
Ghi l ging bt kì qua các lp theo tng cp, sao cho
nh s ging. Các s t
bt cu gia các lp mà ta mong mun.
19
1.4.3.
Chic này là hu x c thit k nhm khai thác các lut bt cu gia
các l d liu giao tác. Chic da trên trng s n
mt s tính cht ca thua lut bt cu gia các
lp. Thut toán g
1. nh các itemset ph bin trên các lp;
2. các itemset ph bin;
3. quan trng ca các itemset vc.
Chi c da vào trng s dùng các kim tra Chi-squared ( xét s
a các itemset. Ta xác nh lut bt cu thú v d quan
trng ca các itemsetmà nó sinh ra các lut cu gia các l quan trng
Gi s supp(S h tr ca itemset S, giá tr Chi-squared 2(S), vi S =
{i1,i2im} và trng s ca ij là wj
Trng s ca 1 item có th nh bng mt giá tr i
dùng chn.
1.5.
Các k thut phân cm có rt nhiu cách tip cn và các ng dng trong thc
tng ti hai mng ca các cm khám phá
c và t thc hin ca thut toán. Hin nay, các k thut phân cm có th
phân loi theo các cách tip cn chính sau :
1.5.1. m phân hoch
K thut này phân hoch mt tp hp d liu có n phn t thành knhóm cho
nh s các cc thit lp. S các cc thitlc
c la cht cho vic tìmcác cm hình cu
20
trong không gian Euclide thuc vào
khon gi la chmd liu nào có quan h là
gn nhau vi mm d liunào không có quan h hoc có
quan h là xa nhau so vi m
x lí các cm có hình dng k quc hoccác cm có m m dc. Các
thut toán phân hoch d liphc tp rt lnh nghim t
toàn cc cho v PCDL, do nóphi tìm kim tt c các cách phân hoch có th
c. Chính vì vy, trên thct i pháp tc b cho v
này bng cách s dngmt hàm tiêu chu ng ca c
ng dncho quá trình tìm kim phân hoch d ling
chính ca thuttoán phân cm phân hoch tc b là s dng chi
tìm kim nghim.
1.5.2. m phân cp
ng mt phân c ng dli
p xp mt tp d lit cu trúccó dng hình
cây, cây phân cc xây dng theo k thu quy. Cóhai cách tip cn
ph bin ca k thu
Hòa nhc gi là tip cn Bottom-Up
c gi là tip cn Top-Down
21
Thc t áp dng, có nhiu trng hp kt hp c hai phm
phân hoch và phân cm phân ct qu c ca ph
phân cp có th ci tin thông qua bc phân cm phân hoch. Phân cm phân
hoch và phân cm phân cp là hai ph n, hit
nhiu thut toán ci tin da trên hai phc áp dng ph bin
trong KPDL.
1.5.3. m da trên m
K thui tng d liu da trên hàm mt nh, mt
là s i tng lân cn ca mi tng d liu theo m
Trong cách tip cn này, khi mt d linh thì nó tip tc phát trin
i tng d liu mi min là s i tng lân cn này phi l
mt ngnh trc. Phm da trên m ca
i t nh các cm d liu có th phát hin ra các cm d liu vi
hình thù bt k. K thut này có th khc phc các phn t ngoi lai hoc giá
tr nhiu rt tt, tuy nhiên vinh các tham s m ca thut toán là rt
này lng rt ln kt qu phân cm.
1.5.4. m di
K thut phân cm da trên li thích hp vi d liu nhiu chiu, da trên
cu trúc d liu l phân cm, ph yu tp trung áp dng
cho lp d liu không gian. Mc tiêu ca phng hóa d liu
thành các ô to thành cu trúc d liu lm ch cn
làm vic vi tng trong tng ô trên li ch không phi tng d
liu. Cách tip cn da trên li này không di chuyi tng trong các ô
mà xây dng nhiu mc phân cp ci tng trong mt ô. Ph
pháp này gn ging vi phm phân cp nhng chúng không trn
ng thi gii quyt khc phc yêu c i vi d liu nhiu chiu mà
phm da trên m không gii quyc. m ca
phm da trên li là thi gian x c lp vi s i
22
tng d liu trong tp d li thuc vào s ô
trong mi chiu ca không gian li.
1.5.5. m da trên mô hình
Ph gng khám phá các phép xp x tt ca các tham s mô hình
sao cho khp vi d liu mt cách tt nht. Chúng có th s dng chin lc phân
cm phân hoch hoc phân cm phân cp, da trên cu trúc hoc mô hình mà
chúng gi nh v tp d liu và cách chúng hiu chnh các mô hình nhn
dng ra các phân hoch. Phm da trên mô hình c gng khp
gia các d liu vi mô hình toán hc, nó da trên gi nh rng d lic to
ra bng hn hp phân phi xác sun. Các thut toán phân cm da trên mô
hình có hai cách tip cn chính: mô hình thng kê và m. Ph
này gn ging vi phm da trên m, vì chúng phát trin các
cm riêng bit nhm ci tinh tr
khi nó không bu vi mt s cm c nh và không s dng cùng mt khái
nim m cho các cm.