Mô hình rút trích cm t c trng ng ngha trong ting Vit
75
Chng 5
MÔ HÌNH RÚT TRÍCH CM T
C TRNG NG NGHA TRONG
TING VIT (ViKEe)
PHNG PHÁP HC MÁY
5.1 Gii thiu
Phng pháp hc máy mà lun án trình bày là phng pháp Support Vector
Machines (SVMs), nó chính là phng pháp phân loi d liu có giám sát da trên
nguyên lý cc tiu hóa ri ro cu trúc, c Vapnik gii thiu ln u tiên vào
nm 1995. Mc dù, SVMs ch là phng pháp phân loi nh phân nhng do tính
Mô hình rút trích cm t c trng ng ngha trong ting Vit
76
hiu qu vt tri so vi các phng pháp phân loi d liu khác, nên SVMs ã
c phát trin có th áp dng cho các bài toán a phân loi và c ng dng
rt hiu qu trong nhiu vn thc t nh: nhn dng ch vit tay, nhn dng
ging nói, nhn dng khuôn mt, phân tích gen, phân loi nh vin thám,…
Trong công trình (Dumais và Susan, 1998), các tác gi dùng o trung bình
iu hòa gia chính xác và bao ph so sánh tính hiu qu vic phân loi
vn bn ca SVMs và 4 phng pháp hc máy khác. Kt qu trung bình iu
hòa ca 5 phng pháp hc (Ph lc G - Bng G.1) cho 10 lp thng xuyên xut
hin trong toàn b 118 lp ca tp ng liu Reuters, ã minh chng SVMs là
phng pháp chính xác nht, mc trung bình 92% cho 10 lp thng xuyên và
87% cho tt c 118 lp. chính xác ca 4 phng pháp còn li thp hn SVMs,
phng pháp cây quyt nh (Decision Trees) thp hn 3.6%, còn mng Bayes
(Bayes Nets) có kh nng ci tin hn Naïve Bayes nhng kt qu vn thp hn
SVMs.
Ngoài ra, trong công trình (Mayer và CS, 2002), các tác gi ã ánh giá mt
cách toàn din tính hiu qu ca phng pháp SVMs so vi 16 phng pháp khác
nhau (Ph lc G - Bng G.2) trong vic phân loi trên 21 tp ng liu. Kt qu
thc nghim trên 21 tp ng liu ( Ph lc G - Bng G.3 và G.4) th hin phng
pháp SVMs có sai s thp hn so vi các phng pháp khác. Mc dù không phi
luôn tt nht, nhng SVMs thng xuyên trong nhóm 3 phng pháp có sai s
thp nht và dn u trong nhóm 10 trên 21 tp ng liu th nghim.
T! các kt qu ã nêu trong vic áp dng SVMs vào vn phân loi mu
(Pattern Classification) hoc nhn dng mu (Pattern Recognition) thì phng
pháp SVMs luôn t" ra vt tri so vi các phng pháp hc máy khác c#ng nh
tính hiu qu khi áp dng vào các vn x lý ngôn ng t nhiên.
Quan im ca lun án là qui vic rút trích cm danh t! c trng ng ngh$a v
bài toán phân loi hay nhn din mu da vào mt s các tính cht c trng ca
mu.Vi hiu qu vt tri ca SVMs trong vic phân loi d liu (Mayer, 2002),
thì khi áp dng SVMs s% t c nhiu kt qu rt kh quan, minh chng th hin
qua các công trình áp dng SVMs (Cheng, 2002; Hearst, 1998; Joachims,
Mô hình rút trích cm t c trng ng ngha trong ting Vit
77
1998;…), so vi các công trình áp dng phng pháp khác. ó là lý do lun án áp
dng phng pháp SVMs thc hin giai on xác nh các cm danh t! c
trng ng ngh$a trong câu ting Vit cho mô hình ViKEe.
Các phn còn li ca chng này c b cc nh sau: Phn 5.2 trình bày khái
quát phng pháp SVMs; Phn 5.3 là phát biu bài toán rút trích cm danh t! c
trng ng ngh$a; Phn 5.4 trình bày mô hình xut cho bài toán rút trích cm
danh t! c trng ng ngh$a trong câu ting Vit; Phn 5.5 trình bày kt qu thc
nghim và ánh giá; Phn 5.6 là phn kt chng.
5.2 Phng pháp Support Vector Machines
C s toán hc ca phng pháp phân loi SVMs là da trên nn tng lý thuyt
hc thng kê (statistical learning theory) và lý thuyt không gian vect (vector
space). n&m b&t phng pháp SVMs, trc tiên cn kho sát các khái nim và
nguyên lý sau.
a. VC-Dimension: là mt giá tr vô hng dùng tính sc cha ca tp các
hàm tuyn tính và c nh ngh$a là tp hp các im (có n im) mà các im
này có th phân chia thành 2
n
các cu hình có th và không t'n ti tp hp nào có
m im (vi m>n) th"a mãn iu kin trên. Giá tr ca VC-Dimension là n+1
(Gunn, 1998).
b. Nguyên lý cc tiu ri ro cu trúc (Structural Risk Minimization). Ý
tng ca nguyên lý là tìm mt mt gi thuyt h có th m bo sai s thc
thp nht. Sai s thc ca gi thuyt h là xác sut mà h s% to ra mt l(i sai trên
mt mu cha bit và c chn ngu nhiên. Mt cn trên dùng liên kt sai s
thc ca gi thuyt h vi vi sai s ca h trên tp hun luyn và phc tp ca H
c o bi VC-Dimension, vi H là không gian các gi thuyt h. SVMs tìm các
gi thuyt h sao cho các gi thuyt này làm ti thiu hóa gii hn trên sai s thc
b)ng cách iu khin có hiu qu VC-Dimension ca không gian gi thuyt H
(Gunn, 1998).
Mô hình rút trích cm t c trng ng ngha trong ting Vit
78
Hình 5.1 Nguyên lý cc tiu ri ro cu trúc.
Hu ht các phng pháp hc máy trc ây u s dng nguyên lý cc tiu
ri ro theo kinh nghim (Empirical Risk Minimization) nh)m làm ti thiu hóa sai
s hun luyn. Tuy nhiên, mt vn xy ra là nu chn không gian gi thuyt h
càng ln (VC-Dimension ln – H3) thì sai s hun luyn s% càng nh" và sai s
thc s% càng cao. Trng hp này thng c gi là vt mc iu chnh lý
tng. Ngc li nu chn không gian gi thuyt h càng nh" (VC-Dimension nh"
- H1) thì sai s thc và sai s hun luyn c#ng s% cao hay còn gi là di mc iu
chnh lý tng. Trong c hai trng hp, vì có sai s thc cao nên mô hình s%
thiu kh nng d oán các mu mi. Phng pháp SVMs có nhim v cân b)ng
gia ln ca không gian gi thuyt c chn và sai s hun luyn. C th,
SVMs bao g'm phng pháp tuyn tính và phng pháp phi tuyn.
5.2.1 Phng pháp tuyn tính
Phng pháp tuyn tính bao g'm hai trng hp: phân bit c và không
phân bit c.
Sai s
Sai s hun luyn
Di mc iu
chnh lý tng
H2
H3
H1
h
tin cy thut ng
Sai s thc
Mô hình tt
nht
Vt mc iu
chnh lý tng
Mô hình rút trích cm t c trng ng ngha trong ting Vit
79
a. Trng hp phân bit c
ây là mô hình phân loi nh phân và c#ng là mô hình n gin nht ca
SVMs. Xét mt tp hun luyn S nh sau:
S = {(x
1
,y
1
), (x
2
,y
2
),… (x
N
,y
N
)} ⊆ (R
N
× {+1,-1})
Trong ó :
- x
i
là vect thành phn i (i:1..N)
- N là s chiu trong không gian vector
- y
i
là giá tr mc tiêu dùng phân bit trên m(i x
i
Mc tiêu vic phân loi là tìm ra mt hàm tuyn tính f c nh ngh$a nh sau.
f: R
N
→ {+1,-1} ; sao cho f(x
i
) = y
i
, vi ∀(x
i
, y
i
) ∈ S.
Qui c: f(x
i
) > 0 c gán cho giá tr mc tiêu y
i
= +1 thuc tp S
+
c biu
din trên Hình 5.2 b)ng nhng du “
+
”, ngc li nu f(x
i
) < 0 thì c gán giá
tr mc tiêu y
i
= -1 thuc tp S
-
c biu din trên Hình 5.2 b)ng nhng du “
-
”.
Hình 5.2 Các mt ph*ng phân tách.
Vi mc tiêu là làm th nào có th phân bit c 2 tp S
+
và S
-,
hàm f c
nh ngh$a nh sau:
f(x) = sign(w
•
x - b) (5.1)
vi: w là vect trng s (weight vector)
_
_
_
_
_
_
_
_
_
w
•
x - b < 0
w
•
x - b > 0
+
+
+
+
+
+
+
+
+
x
f(x)
Mô hình rút trích cm t c trng ng ngha trong ting Vit
80
b là di (bias)
Khi ó, bài toán cn xây dng mt mt phng phân tách (hyperplane) H
0
th"a:
H
0
= w
•
x - b = 0 (5.2)
H
0
c nh ngh$a là ranh gii gia tp S
+
và S
-
, hai tp này c gi là phân
bit tuyn tính bi mt ph*ng phân tách nu tìm c cp giá tr (w,b) sao cho mt
ph*ng phân tách phân bit c tp S
+
và S
-
(nh trên Hình 5.2).
a.1 rng biên cc i ca mt phng phân tách
Có rt nhiu b giá tr (w, b) sinh ra các mt ph*ng phân tách tng ng
khác nhau. Do ó, SVMs cn phi tìm ra duy nht mt mt ph*ng phân tách có
rng biên gia hai tp S
+
và S
-
là ln nht H
0
(nh Hình 5.3).
Gi s ã có mt mt ph*ng phân tách H
0
= w
•
x - b = 0 thì luôn tìm c hai
mt ph*ng phân tách H
+
và H
-
song song vi H
0
sao cho: H
+
= w
•
x - b = +1 và H
-
=
w
•
x - b = -1 vi iu kin không có im nào n)m trong khong H
+
và H
-
.
Nhng im n)m trên H
+
và H
-
(nhng im c khoanh tròn) c gi là nhng
vect h tr (support vectors) vì có tham gia vào vic xác nh nên mt ph*ng
phân tách, nhng im khác có th không cn xem xét.
Bài toán yêu cu xác nh khong cách ln nht gia hai mt ph*ng phân tách
H
-
và H
+
. Nh ã bit, trong hình hc ph*ng khong cách t! mt im (x
0
, y
0
) n
ng th*ng A.x + B.y + C = 0 c xác nh là:
x
+
+
+
+
+
+
+
+
+
H
0
H
-
H
+
w
d
+
d
-
_
_
_
_
_
_
_
_
_
x
Hình 5.3 Mt ph*ng phân tách (w,b) cho tp hun luyn hai chiu.
b
f(x)
Mô hình rút trích cm t c trng ng ngha trong ting Vit
81
||||
2
||||
||
||||
||
w
w
bxw
w
bxw
dd
=
−•
+
−•
=+
−+
−+
(5.3)
Tng t, trong không gian vect thì khong cách t! mt im n)m trên H
+
n H
0
= w
•
x - b = 0 c xác nh là (Gunn và CS, 1998):
(5.4)
Khi ó, khong cách gia hai mt ph*ng phân tách H
+
và H
-
c tính b)ng:
(5.5)
Vì vy, cho khong cách ca H
+
và H
-
t cc i thì ||w|| phi cc tiu, vi
iu kin không có im hun luyn nào n)m gia hai mt ph*ng phân tách H
+
và
H
-,
ngh$a là:
w
•
x
i
- b ≥ +1 vi mi mu có y
i
= +1
w
•
x
i
- b ≤ -1 vi mi mu có y
i
= -1
(5.6)
kt hp hai iu kin trên công thc (5.6) có th vit t+ng quát li nh sau:
y
i
(w
•
x
i
- b) ≥ +1 | ∀i
(5.7)
tìm khong cách cc i ca hai mt ph*ng phân tách H
+
và H
-
thay vì tìm
tìm giá tr cc tiu ca ||w||, bài toán ti u (Gunn và CS, 1998) a v tìm cc
tiu ca ||w||
2
vi ràng buc cho công thc (5.7).
a.2 Công thc Lagrange
Theo lý thuyt h s nhân Lagrange thì bài toán tìm cc tiu ca ||w||
2
s% có
công thc sau:
(5.8)
vi α
i
≥0 là h s nhân Lagrange
( )
−−•−≡
=
l
i
iii
bxwyw
1
2
P
]1[||||
2
1
LMin
α
22
00
||
BA
CByAx
+
++
||||
1
||||
||
ww
bxw
=
−•
+
Mô hình rút trích cm t c trng ng ngha trong ting Vit
82
−=
==
l
ji
jijiji
l
i
i
xxyy
1,1
D
,
2
1
LMax
ααα
( )
11
)max()xmin(
2
1
b
−=+=
•+•−=
ii
yiyi
xwww
>
=
0:
w
i
i
iii
xy
α
α
0
1
=
=
l
i
ii
y
α
Ly o hàm riêng phn ca hàm L
P
(theo w và b) và th vào công thc trên, bài
toán tr thành:
(5.9)
Vi ràng buc là:
(5.10)
T! ây, vic hun luyn SVMs có th xem nh vic tìm cc i ca L
D
ng
vi vic tìm các giá tr ,
i
tho mãn ràng buc (5.10) và ,
i
dng, khi ó vect
trng s w c tính b)ng công thc (5.11):
(5.11)
Và di b c tính b)ng công thc (5.12):
(5.12)
Mt chi tit quan trng là ,
i
= 0 i vi các giá tr x
i
không n)m trên các mt
ph*ng phân tách H
+
và H
-
. Ngc li, i vi các giá tr n)m trên H
+
và H
-
thì ,
i
>
0, các im này c gi là các vect h( tr, vi s lng các vect h( tr luôn
nh" hn t+ng s mu hun luyn. T! ó, phng pháp này có tên là SVMs.
Vì vy, có th nói vect h( tr là s mô t cô ng ca d liu. SVMs b" qua
nhng d liu không cung cp thông tin và ch quan tâm n các im d liu
cung cp nhiu thông tin, ó là các vect h( tr. Ý tng b" qua d liu mà không
làm gim i cht lng ca s c lng là rt hiu qu trong trng hp áp dng
SVMs trên các tp d liu ln.
a.3 Phân loi d liu
Các giá tr ti u α
i
v!a tìm c th vào công thc (5.11) s% tìm c vect
trng s w tng ng. Lúc này hàm phân loi có th c vit li nh sau:
Mô hình rút trích cm t c trng ng ngha trong ting Vit
83
( ) ( )
−=−•=
=
bxxysignbsignxf
l
i
iii
1
,xw
α
(5.13)
D
a vào hàm phân lo
i này
gán giá tr
m
c tiêu +1 ho
c -1 cho t
t c
nh
ng
i
m trong t
p d
li
u c
n phân lo
i.
V
i phân tích trên, tr
ng h
p các
i
m trong t
p S
+
và S
-
là phân bi
t rõ ràng.
Nh
ng trên th
c t
, có nh
ng
i
m trong t
p S
+
n
)
m trong t
p S
-
và ng
c l
i. Lúc
này t
p S
+
và S
-
không còn
'
ng nh
t n
a. Tr
ng h
p này
c g
i là nhi
u
(noise).
b. Trng hp không phân bit c
Trng hp tp S
+
và S
-
không còn 'ng nht c gi là không phân bit
c (non-separable). Trong trng hp này cn m rng trng hp phân bit
c b)ng cách thêm gia s ξ ≥ 0 vào cho m(i im trong tp hun luyn (ξ c
xem nh mt tham s iu chnh li s phân lp sai).
iu kin không có nhng im n)m gia hai mt ph*ng phân tách H
+
và H
-
c vit li nh sau:
w
•
x
i
- b ≥ +1 - ξ
i
vi mi mu có y
i
= +1
w
•
x
i
- b ≤ -1 + ξ
i
vi mi mu có y
i
= -1
(5.14)
Hình 5.4 Ví d v mt trng hp không phân bit c.
S b+ sung các gia s ξ
i
nh)m m bo các ràng buc (5.6) không b vi
phm. Tuy nhiên, lúc này mt vn mi phát sinh là tìm giá tr cc tiu ca t+ng
d
-
d
+
w
H
+
ξ
_
_
H
-
H
0
_
_
_
_
_
_
_
+
+
+
+
+
+
+
+
+
x
f(x)
Mô hình rút trích cm t c trng ng ngha trong ting Vit
84
−=
==
l
ji
jijiji
l
i
i
xxyy
1,1
D
,
2
1
LMax
ααα
k
l
i
i
Cw
+
=1
2
||||
ξ
( )
−+−−−+≡
==
l
i
ii
l
i
iiii
l
i
i
bxwyCw
ξµξαξ
11
2
P
]1.[||||
2
1
LMin
( )
+
−
−−−+≡
=
l
i
i
l
i
ii
l
i
iii
l
i
iii
bywxyCw
αααξµα
1
2
P
||||
2
1
L
−=
==
l
ji
jijiji
l
i
i
xxyyW
1,1
,
2
1
)(Max
αααα
||w||
2
và t+ng các sai s phân lp sai. Hàm mc tiêu bây gi c m rng là tìm
cc tiu ca công thc (5.15):
(5.15)
Vi: C là h s iu chnh gia các gia s ξ
i
và ||w||
2
k là mt s nguyên thuc tp {1, 2}
Hàm ràng buc trong công thc (5.7) c vit li:
y
i
.(w
•
x
i
- b) ≥ 1 - ξ
i
vi i = 1,… ,l và ξ
i
≥ 0 , vi i = 1,… ,l
(5.16)
Áp dng lý thuyt Lagrange ta có:
(5.17)
vi α
i
, µ
i
≥0 là h s nhân Lagrange
Ly o hàm riêng phn ca L
P
(theo w, ξ, b) và th vào hàm Lagrange, bài
toán tr thành:
(5.18)
Kt hp vi iu kin ca Karush - Kuhn – Tucker (KKT):
α
i
.[y
i
.(w
•
x
i
- b) -1 + ξ
i
] = 0
vi i = 1,… , l
(5.19)
Bài toán c tóm t&t li nh sau:
0 ≤ α
i
≤ C
(5.20)