Tải bản đầy đủ (.pdf) (90 trang)

Tiểu luận công nghệ tri thức và ứng dụng THUẬT TOÁN K-MEAN TRONG PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.48 MB, 90 trang )

I HC QUC GIA TP H CHÍ MINH
I HC CÔNG NGH THÔNG TIN
KHOA: KHOA HC MÁY TÍNH




TIU LUN

CÔNG NGH TRI THC VÀ NG DNG
THUT TOÁN K-MEAN TRONG PHÂN CM D LIU VÀ NG DNG


Ging dn : GS.TSKH. HOÀNG KIM

Hc viên thc hin: - NGÔ NG
- NGUYN KHC MN _ CH1101102

Lp : CH06



TP. Hồ Chí Minh, tháng 5 năm 2012
Lời cảm ơn

c tiên, nhóm chúng em xin cy GS TSKH Hoàng Kiu kin
cho nhóm tip xúc mc quan trng ca trí tu nhân to   tri th.
Cùng vi s phát trit bc ca ngành công nghip máy tính, nhu cu
ci vi máy tính ngày m gii quyt nhng công
vi           i máy tính có kh 
 gii quyt v i. Và t  nhân to nói


c bit là công ngh tri thi và phát trin. Nhng kin tht sc
cn thit khi các thành viên lp chun b quá trình làm tt nghi
làm vic trong mng khoa hc.
Nhóm  cn các thành viên trong lng hc
thun li trong quá trình tip thu các bài ging.
Mt ln na, nhóm chúng em xin chân thành c tn tình truyt kin thc
ca thy. Kính chúc thy mnh khe, tip tc nhiu thng li trong nghiên cu
khoa hc và công cuc ging dy.



Hc viên: Ngô Ng - Nguyn Khc Mn
NHN XÉT




























1

Mc lc
  4
I.  4
1.1. Khái nim 4
1.2. Bài toán phân cm nói chung 4
1.2.1. Các kiu biu din d liu 5
1.2.2.   và khong cách 6
1.2.3. Tiêu chun phân cm 10
1.3. m phân cm 11
1.3.1. Yêu cu 11
1.3.2. Mt s v trong phân cm d liu 12
1.4. m d liu 13
1.4.1. Phân hoch theo tp thô 13
1.4.1.1. Các h thông tin 13
1.4.1.2. Quan h bt kh phân 15
1.4.1.3. Xp x tp hp 16
1.4.2.  17
1.4.3.  19

1.5.  19
1.5.1. m phân hoch 19
1.5.2. m phân cp 20
1.5.3. m da trên m 21
1.5.4. m di 21
1.5.5. m da trên mô hình 22
1.5.6. m có d liu ràng buc 23
II.  24
2.1. Thut toán phân cum d liu da vào phân cm phân cp 24
2.1.1. Thut toán BIRCH 24
2.1.2. Thut toán CURE 27
2.1.3. Thut toán ANGNES 29
2.1.4. Thut toán DIANA 30
2.1.5. Thut toán ROCK 30
2

2.1.6. Thut toán Chameleon 31
2.2. Thut toán phân cm d liu da vào cm trung tâm 32
2.2.1. Thut toán PAM 32
2.2.2. Thut toán CLARA 34
2.2.3. Thut toán CLARANS 35
2.3. Thut toán phân cm d liu da vào tìm kim 37
2.3.1. Thut toán di truyn (GAS) 37
2.3.2. J- Means 40
2.4. Thut toán phân cm d liu da vào i 41
2.4.1. STING 41
2.4.2. Thut toán CLIQUE 43
2.4.3. Thut toán WaveCluster 44
 -MEANS 46
I.  46

1.1.  46
1.2.  47
1.3. Th phc tp ca thut toán K-means. 49
1.4.  49
1.5. -means 50
II. (LSI) 52
2.1.  52
2.2. Phân tích Singular Value Decomposition (SVD) ca ma trn t ch mc (term document A)
53
2.3. Truy vn trong mô hình LSI 56
2.4. Cp Nht Singular Value Decomposition (SVD) 58
2.4.1. Cp Nhn (SVD- Updating document): 58
2.4.2. Cp Nht t ch mc (terms): 60
2.4.3. Loi b t ch mc (Downdating) Trong Mô Hình LSI 61
2.5. Chn h s k trong mô hình LSI 61
III. -MEANS 64
3.1. Tin x lý tp d liu vào 64
3.2. Ch ng cách thích hp 66
3.3. Chn s cm cho thut toán K-means 68
3

  71
I. TRUY HI THÔNG TIN 71
1.1. Biu din mu 72
1.2. Phép  74
1.3. Mt gii thut cho phân cm d liu sách 75
II. KHAI PHÁ D LIU 76
2.1. Khai phá d liu bng php cn. 77
2.2. Khai phá d liu có cu trúc ln. 78
2.3.  liu trong  d liu a cht. 80

2.4. t 82

4

 
I. 
1.1. Khái nim
Phân cm là hình thc hc gán
nhãn. Ma gom cm d liu là gom d li nhau, thành tng
cm theo mt chu liu trong các c 
t thng trong cùng mt cm. Có nhi
c
 ch
 p
 p da trên m
 a trên mô hình
 i
1.2. Bài toán phân cm nói chung
Bài toán phân cc thc hin khi chúng ta không bic ni
dung thông tin ca các thành phn thuc c c các lp. Vì lý do
này mà công vic phân cc truyn thng nhìn nhi con mt
ca hc mt mu ch
gng cn tìm mt ca d liu và nhóm li
các d liu ging nhau. Quy trình phân cc th hi1.
5


Hình 1. Qui trình phân cm tng quát
1.2.1. Các kiu biu din d liu
Dc min ta có th phân d liu thành hai loi là thuc tính liên

tc và thuc tính ri rc. Bên cu phân loi da trên h t s
kiu d liu thông dnh danh, thuc tính có th t, thuc tính
khong, thuc tính t l ng trc tin kt qu phân
cm. Vì th i ta phi chun hóa d li khc phc ym này. T nhng
yêu cu trên và vi liu chúng ta cn tìm hiu v các kiu
biu din d liu. Có hai kiu biu din d liu ph bin là:
 Biu dii dng ma trn ca các bin cu trúc hay các thuc tính ca
ng. Ví d i s có các thuc tính là tên, tui, chiu
cao, cân nng, màu m       ng, m  ng có p
thuc tính thì s có mt ma trn vi n dòng, p ct.

Hình 2. Ma trn thuc tính biu din d liu
6

 Biu din d lii d ng cách git các ci
ng. Nng, chúng s c biu din bng mt ma trn
vi n hàng và n c

Hình 3. Ma trn khong cách biu din d liu
   ng cách gi   ng i và j. Nói chung,
d(i,j) gn bng i và j là gn nhau hay có ni dung gn ging
ng có ni dung càng khác nhau. Hình 7 biu
din ma trn khong cách ca tp d liu có d(i, j) = d(j, i) và d(i, i) = 0.
1.2.2.   và khong cách
   m d liu cn có m 
khorong không gian d li
 dùng chung cho mng hp vì chúng ta bit rng, m d
liu có th cha nhiu kiu d liu thuc tính khác nhau. Mc
ng nhiu thuc tính có ki . Các ki bao gm giá tr
khong (interval-valued), nh i xng (symmetric binary), nh phân bi

xnh danh (nominal), th t (ordinal) và t l khong
(ratio-scaled). Tùy theo mc tiêu kho sát và bn cht d lii dùng ch
ng cách cho phù hp vi ng dng ca mình. Gi s ng x và
  gic ký hiu là d(x, y).
1. Bin tr khong
7

Bin tr kho c cng tuy
trng, chiu cao, tui, v.v Mt s  ng ca bin tr khong:
 Khong cách Minkowski

 Khong cách Euclide là khong cách Minkowski vi q = 2

 Khong cách Manhattan là khong cách Minkowski vi q = 1

 Khong cách có trng

Khong cách có trng là ci tin ca kho
n ng ca tng thun khong cách ging. Thuc
tính có trng s w càng ln thì ng càng nhin khong cách d. Vic
chn trng s tùy thuc vào ng dng và mc tiêu c th.
2. Bin nh i xng
Là bin ch có 2 trng thái 0, 1 và các tr
8


ng cách:

3. Bin nh phân bi xng
Bin nh phân là bi xng nu có mt tr

trn ng thiên v trng thái
 c Y khoa, khi bt gp mt triu chng b
tiên kt lu thun tic ch
chuyên sâu và cách ly theo dõi.
Khoc tính bi công thc

4. Binh danh
Binh danh là bin có th nhn nhing thái. Ví d n
màu s nh khong cách theo binh danh:
Dùng h n:
9


vi m là s thuc tính có giá tr trùng khp ging x, y và p là tng
s thuc tính.
n nh phân v binh danh bng cách thay mi trng thái bng mt
bin nh phân.
5. Bin th t
Bin th t là bin trên mt tp giá tr nh quan h th t gia các giá
tr 
Ví d bin xp hng hay bin xp hng v th
Các giá tr có th ri rc hoc liên t n th t c xây d
sau:
 Thay th x
i
bi hng ca chúng x
i
∈ 
 Ánh x hng ca tng bin vào [0, 1] bng cách thay th ng x trong
bin i thành:


  phân bii vi bin tr khong.
6. Bin t l khong
Bin t l kho  l phi tuyn. Chng h
ng biu dic khi áp d  bin
tr khong hoc th t chúng ta phi tin x lý bng cách l
7. Bin có kiu hn hp
10

M d liu có th cha c 6 kiu d ling trên. Ta có th dùng
công thc gán trng s  kt hp tính hiu qu ca các bin thành phn.

1.2.3. Tiêu chun phân cm
 tìm hiu mt s tính cht ca d liu và yêu cu ca mt
thut toán phân cm. Hu ht các nghiên cu và phát trin các thut toán phân
cm d liu nhm tha mãn các yêu cn sau:
 Có kh  rt toán phân cm cn có kh 
 rng. Rt nhiu thut toán phân cm có th làm vic tt vng
d liu nhng d lit vng d liu
ln, tro d liu ln cha hàng tring vì vy ta cn
m rng b phân c bao trùm c tp d liu ln.
 Kh i các kiu và thuc tính d liu khác nhau: có nhiu
thut toán phân cm, có nhng thut toán phù hp vi d liu s, có nhng
thut toán khi áp dng cho loi d liu nh phân hay d liu 
 Nhn bic các cm vi hình thù bt k: mt s thunh
cm da vào vic tính khong cách Euclidean hay Manhattan vi m
nhn bi dày và ging nhau ca các tài liu trong cm. Tuy nhiên, mt
cm có th có hình dng bt k vì vy mà vic phát trin thut toán có kh
nh các cm vi hình thù bt k là quan trng và cn thit.
 Ti thiu min tri thnh các tham s u vào: min tri thu

vào cn thit cho mt thut toán phân cm càng ít, chi phí cho vic phân
cm càng gim và nó càng kh 
11

 Kh i d liu nhiu: Phn l d liu thc t
chng ngoi l hoc thit
toán nhy cm vi nhiu là nguyên nhân dn vic to ra mt b phân
cm kém chng.
 Không nhy cm vi th t ca bu vào: Mt s thut toán phân
cm không th sát nhp thêm d liu mi vào trong b phân cm, thêm tài
liu vào cm có sn hoc to thêm cm mi. Bên ct thut toán
phân cm tt không to ra các b phân cm khác nhau t cùng mt b d
li t sp xp khác nhau. Nhng thut toán này gi là nhy cm
vi th t d liu.
 Thích nghi vi d liu: D ling có s chiu
ít, t hn ba chiu mà mt s thut toán phân ct qu rt tt.
Bên c liu (nhing và cn
thic phân nhóm cho nhiu ng dng thc t. Vi loi d liu này,
vic phân loi da vào kin thi t ra có hiu qu, tuy nhiên vi
khng d liu ly, vic s dng kin thc chuyên gia là tn
kém nên chúng ta cn tìm các thut toán phân c gii quyc vn
 này.
 Phân cm trên mt s ràng buc: Trong mt s ng dng, chúng ta cn
phân c d liu cha các liên kt bt buc gia hai hay nhiu
ng. Vic phân cm c m b  ng này tha mãn các
ràng bu
 D hiu, d t và kh thi: mt thut toán càng d hiu và d t và
mang tính kh thi cao s i dung tin cy và s dng rng rãi.
1.3. m phân cm
1.3.1. Yêu cu

Phân cm nói chung cn mt s m sau:
12

 Ma vic phân cm: Bài toán phân cm có mm các
tài liu và phân chúng vào các cm khác nhau. Tuy nhiên, tùy thuc vào
mi lp trình s quynh s ng cm, hay
chng cm  mc nào. Mt cách phân chia d liu vi s ng cm
linh hoc thc hin bng cách ct cây  mc phù hp ví d 
dng thut toán phân cm cây phân cp.
 Bn cht ca d liu: Phn lc phát
trin cho d liu st s có th gii quyt bài toán vi d li
bn hoc vi c d liu s và d lin.
 Bn cht ca thông tin: Nhic ph thu giu ca d
li    u, phân b d liu, s chi   nh
vi . Mt s ng thc khác ch yêu c
t  hoc khong cách gia các thành phn d liu.
 Bn cht các cm: Các cm tài liu cm bo 2 tính cht mà khi phân
cm chúng ta cn chú ý:
 Compactness    dính kt hoc t ca
tng cng trong tng cm riêng r  càng cao,
 ng càng ln.
 Isolation   cô l  s tách bit gia mt cm vi nhng
cm khác.
1.3.2. Mt s v trong phân cm d liu
 X lý nhiu: D liu b nhiu là d liu không chính xác hay là d liu
khuyt thiu thông tin v mt s thuc tính. Hu ht các d liu s d
phân cu b nhiu do quá trình thu thp thiu chính xác hay thiy
. Vì vy cn phi thc hic tin x lý d liu nhm khc phc hoc
loi b nhic khi chuyn phân tích cm d liu. Mt
trong các k thut x lý nhiu hin nay là thay th các giá tr các thuc tính

cng nhiu bng các giá tr thung.
13

 Dò tìm phn t ngoi lai. Phn t ngoi lai là mt nhóm nh ng
d ling so vi các d li d liu. Loi b nhng d
li tránh n kt qu phân cm.
 Phân cm hi m và khó: Vì phân ci
gii quyt mt s v bn: Xây d , xây dng
các tiêu chun phân cm, xây dng mô hình cho cu trúc d liu, xây dng
các thut toán phân cm và xác lu kin khi to, xây dng các th
tc biu dit qu phân cm. Hi
pháp phân cm tng quát nào có th gii quyt trn vn cho tt c các dng
cu trúc d liu. Vi nhng d liu hn hp thì vic phân cm càng khó
t thách thc trong ngành khai phá d liu.
1.4. m d liu
1.4.1. Phân hoch theo tp thô
Lý thuyt tc Z. Pawlak phát triu thp niên 1980. Lý thuyt
tp thô rt hiu qu trong khai thác d liu, tìm kim thông tin, h tr quynh,
máy hc, các h  tri thc
1.4.1.1. Các h thông tin
a. Hệ thông tin
Mt t   d li c mô t i dng b   i
dòng miêu t mt s kin, m ng hp, mt thành ph  
ging. Mi ct là mt thuc tính (mt bii, mt
quan sát, m c cho mi tng; nó
 c cung cp bi nhi có chuyên môn hoi
dùng. B  c gi là mt h thng thông tin (information
system). C th    t c         i
ng, hu hn, khác rng và A là tp thuc tính, hu hn, khác rng
sao cho A a V I a a ∈∀ 

14

Tc gi là tp giá tr ca a.
Ví d 1.1: Gi s t h thc
th hin qua bng 1.1.

Bng 1.1. H thng thông tin
b. Hệ quyết định
D dàng nhn thy tng cp (x3, x4) và (x5, x7) có cùng giá tr
thu   ng hp này gi là bt kh phân (indiscernible),
 không phân bia vào hai
thuc tính này. Trong nhiu ng dng, ta thy có mt s phân loi kt
qu s mô t tri thc bi mt thuc
gi là thuc tính quyc hc có giám sát. Các h
thng thông tin d  c gi là các h quy  nh (decision
system). H quynh là h thng thông tin có dng }) { , ( d A I ∪
∉ là thuc tính quynh. Các thành phn cc
gi là các thuu kin. Thuc tính quynh d có th có nhiu
 mng gp là thuc tính nh phân.
Ví d 1.2. H quynh gi ng và 3 thu
Walk là thuc tính quynh.
15


Bng 1.2. H quynh
Vi h quynh này, chúng ta thy rng tng cp (x3, x4) và (x5,
x7) có cùng giá tr thuu kip th nht thì phân bit
c da vào thuc tính quy nh Walk trong khi cp th hai thì
không.
T bng 1.2 có th tng hp thành mt s i là

lu
u Age = 16  
u Age = 46  60 và LEMS = 26 - 
1.4.1.2. Quan h bt kh phân
Mt h quynh (bng quynh) biu din tt c các tri thc v
mô hình. Bng này có th c ln vì nó có th a d liu
theo hai mng ging nhau hoàn toàn hay bt kh phân
bit có th c mô t nhiu ln; (2) các thuc tính có th a. Ta s
xem xét v 
Xét quan h nh phân X X R × ⊆ có tính cht phn x 
xRx X x , ∈∀ i xng (nu xRy thì yRx ) và bc cu (nu xRy và
c gi là quan h a
16

mt phn t X x∈ , ký hiu [x]R là tp hp cha mng y ∈ X,
sao cho xRy.
Cho h thông tin U = (I, A), vi tp thuc tính B ⊆ 
quan h 
U


ind
U
c gi là quan h bt kh phân theo B (B-indiscernibility
relation). N∈ ind
U
 phân
bit theo tp thuc tính B. La quan h bt kh phân
c ký hiu là [x]B. Suy ra, các l
B

tha mãn
 n ta ký hiu ind(B) thay cho ký hiu
ind
U
(B).
Ví d 1.3 Xét bng quy ng 1.1. Các tp thuc
u kin
B ⊆ ∅ bao gm: {Age}, {LEMS} và {Age, LEMS}. Khi

ind({Age}) = {{x1, x2, x6}, {x3, x4}, {x5, x7}}.
ind({LEMS}) = {{x1}, {x2}, {x3, x4}, {x5, x6, x7}}.
ind({Age, LEMS}) = {{x1}, {x2}, {x6}, {x3, x4}, {x5, x7}}
a vào tp thuc tính {Age}, {LEMS} và {Age, LEMS}
chúng ta s không phân bix4 hay có th nói rng, ta
không th phân bing trong cùng mt tp ca mt lp

1.4.1.3. Xp x tp hp
Quan h t h thng thông tin s phân hoch tp
ng U thành nhng tng con. Các tc
quan tâm là các tp con có cùng giá tr ca thuc tính quynh. Tuy
nhiên, không th t s khái nim. Ví d, ta không
17

th     p các khách hàng có thuc tính quy nh
Walk = Yes da vào thuu kin trong bng 1.2. Nhng khách
hàng g
3
và x
4
. Nói cách khác, không th kt lun chính

xác nhng thành phy t bng 1.2. T m
tp thô. Mt dù, chúng ta không th ng mt cách
     ch    ng mà chc chn có giá tr
ng giá tr chc chn không có giá tr i cùng là
ng nào thuc vào vùng biên ging hp chc chn. Nu
vùng biên này khác rng thì tp thô.
Cho h thông tin U = (I, A) và B ⊆A, X ⊆I . Nu có th xp x tp
ng X ch vithông tin cha trong B bng cách xây dng các xp
x B-i và B-trên ca tp X, ký hing là BX, BX 

1.4.2. 
 hi t là thut toán phân cp hi t. Ta thit k thut
toán bng cách ci tin k thut gom cc
phát tri khám phá các lut cu theo lp trong CSDL quan h.
Chameleon là thut toán gom cm phân cp. Thut toán dùng kt ni ni ca
gom cm a các item trong cm.
Cho D là CSDL quan h cha T dòng và k thuc tính. Chameleon tìm các cm
tha các ràng buc: kt ni ni quan h  g RC(Ci,Cj)



18

Kt ni ni gia hai cm Ci và Cj gi là EC(CiCj) là tng trng s ca các
cung nnh trong Cj. ECCi là tng trng s các cung
 th thành 2phn b n các bài toán v s
phân bit trong các hình ca các c phân bit trong kt ni ca các
cm khác nhau.

S

EC(Ci ,C j )
là trng s trung bình ca các cung nnh trong Ci n các
nh trong Cj  tìm s a các lp khái nim, ta d  
thi vnh: T1RI, T2RI, T1RC và T2RC



Thut toán gc chính sau:
1. Xây d th k láng ging gn nht;
2.  th thành các cm con s trn;
3. Trn các c c cm cui cùng.
S ci tin ca thu
ng mi: T1RI, T2RI, T1RC và T2RC   hi t khi trn 2
nhóm (cmcon) Ci và Cj c (3), vi T1RI >T2RI, T1RC >T2RC.
Ghi l  ging bt kì qua các lp theo tng cp, sao cho
nh s  ging. Các s t
bt cu gia các lp mà ta mong mun.
19

1.4.3. 
Chic này là hu x c thit k nhm khai thác các lut bt cu gia
các l d liu giao tác. Chic da trên trng s n
mt s tính cht ca thua lut bt cu gia các
lp. Thut toán g
1. nh các itemset ph bin trên các lp;
2.  các itemset ph bin;
3.  quan trng ca các itemset vc.
Chi c da vào trng s dùng các kim tra Chi-squared (  xét s
  a các itemset. Ta xác nh lut bt cu thú v d   quan
trng ca các itemsetmà nó sinh ra các lut cu gia các l quan trng


Gi s supp(S h tr ca itemset S, giá tr Chi-squared 2(S), vi S =
{i1,i2im} và trng s ca ij là wj

Trng s ca 1 item có th nh bng mt giá tr i
dùng chn.
1.5. 
Các k thut phân cm có rt nhiu cách tip cn và các ng dng trong thc
tng ti hai mng ca các cm khám phá
c và t thc hin ca thut toán. Hin nay, các k thut phân cm có th
phân loi theo các cách tip cn chính sau :
1.5.1. m phân hoch
K thut này phân hoch mt tp hp d liu có n phn t thành knhóm cho
nh s các cc thit lp. S các cc thitlc
c la cht cho vic tìmcác cm hình cu
20

trong không gian Euclide       thuc vào
khon gi la chmd liu nào có quan h là
gn nhau vi mm d liunào không có quan h hoc có
quan h là xa nhau so vi m
x lí các cm có hình dng k quc hoccác cm có m m dc. Các
thut toán phân hoch d liphc tp rt lnh nghim t
toàn cc cho v PCDL, do nóphi tìm kim tt c các cách phân hoch có th
c. Chính vì vy, trên thct i pháp tc b cho v
này bng cách s dngmt hàm tiêu chu ng ca c
 ng dncho quá trình tìm kim phân hoch d ling
chính ca thuttoán phân cm phân hoch tc b là s dng chi
 tìm kim nghim.
1.5.2. m phân cp

ng mt phân c ng dli
p xp mt tp d lit cu trúccó dng hình
cây, cây phân cc xây dng theo k thu quy. Cóhai cách tip cn
ph bin ca k thu
 Hòa nhc gi là tip cn Bottom-Up
 c gi là tip cn Top-Down


21

Thc t áp dng, có nhiu trng hp kt hp c hai phm
phân hoch và phân cm phân ct qu c ca ph
phân cp có th ci tin thông qua bc phân cm phân hoch. Phân cm phân
hoch và phân cm phân cp là hai ph n, hit
nhiu thut toán ci tin da trên hai phc áp dng ph bin
trong KPDL.
1.5.3. m da trên m
K thui tng d liu da trên hàm mt  nh, mt
 là s i tng lân cn ca mi tng d liu theo m
Trong cách tip cn này, khi mt d linh thì nó tip tc phát trin
i tng d liu mi min là s i tng lân cn này phi l
mt ngnh trc. Phm da trên m ca
i t nh các cm d liu có th phát hin ra các cm d liu vi
hình thù bt k. K thut này có th khc phc các phn t ngoi lai hoc giá
tr nhiu rt tt, tuy nhiên vinh các tham s m ca thut toán là rt
 này lng rt ln kt qu phân cm.
1.5.4. m di
K thut phân cm da trên li thích hp vi d liu nhiu chiu, da trên
cu trúc d liu l phân cm, ph yu tp trung áp dng
cho lp d liu không gian. Mc tiêu ca phng hóa d liu

thành các ô to thành cu trúc d liu lm ch cn
làm vic vi tng trong tng ô trên li ch không phi tng d
liu. Cách tip cn da trên li này không di chuyi tng trong các ô
mà xây dng nhiu mc phân cp ci tng trong mt ô. Ph
pháp này gn ging vi phm phân cp nhng chúng không trn
  ng thi gii quyt khc phc yêu c i vi d liu nhiu chiu mà
phm da trên m không gii quyc. m ca
phm da trên li là thi gian x c lp vi s i
22

tng d liu trong tp d li thuc vào s ô
trong mi chiu ca không gian li.


1.5.5. m da trên mô hình
Ph gng khám phá các phép xp x tt ca các tham s mô hình
sao cho khp vi d liu mt cách tt nht. Chúng có th s dng chin lc phân
cm phân hoch hoc phân cm phân cp, da trên cu trúc hoc mô hình mà
chúng gi nh v tp d liu và cách chúng hiu chnh các mô hình  nhn
dng ra các phân hoch. Phm da trên mô hình c gng khp
gia các d liu vi mô hình toán hc, nó da trên gi nh rng d lic to
ra bng hn hp phân phi xác sun. Các thut toán phân cm da trên mô
hình có hai cách tip cn chính: mô hình thng kê và m. Ph
này gn ging vi phm da trên m, vì chúng phát trin các
cm riêng bit nhm ci tinh tr
khi nó không bu vi mt s cm c nh và không s dng cùng mt khái
nim m cho các cm.

×