Tải bản đầy đủ (.pdf) (27 trang)

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 06

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1019.68 KB, 27 trang )

Mô hình rút trích cm t c trng ng ngha trong ting Vit


75












Chng 5




MÔ HÌNH RÚT TRÍCH CM T
C TRNG NG NGHA TRONG
TING VIT (ViKEe)

PHNG PHÁP HC MÁY




















5.1 Gii thiu

Phng pháp hc máy mà lun án trình bày là phng pháp Support Vector
Machines (SVMs), nó chính là phng pháp phân loi d liu có giám sát da trên
nguyên lý cc tiu hóa ri ro cu trúc, c Vapnik gii thiu ln u tiên vào
nm 1995. Mc dù, SVMs ch là phng pháp phân loi nh phân nhng do tính
Mô hình rút trích cm t c trng ng ngha trong ting Vit


76
hiu qu vt tri so vi các phng pháp phân loi d liu khác, nên SVMs ã
c phát trin  có th áp dng cho các bài toán a phân loi và c ng dng
rt hiu qu trong nhiu vn  thc t nh: nhn dng ch vit tay, nhn dng
ging nói, nhn dng khuôn mt, phân tích gen, phân loi nh vin thám,…
Trong công trình (Dumais và Susan, 1998), các tác gi dùng  o trung bình
iu hòa gia  chính xác và  bao ph  so sánh tính hiu qu vic phân loi

vn bn ca SVMs và 4 phng pháp hc máy khác. Kt qu  trung bình iu
hòa ca 5 phng pháp hc (Ph lc G - Bng G.1) cho 10 lp thng xuyên xut
hin trong toàn b 118 lp ca tp ng liu Reuters, ã minh chng SVMs là
phng pháp chính xác nht, mc trung bình 92% cho 10 lp thng xuyên và
87% cho tt c 118 lp.  chính xác ca 4 phng pháp còn li thp hn SVMs,
phng pháp cây quyt nh (Decision Trees) thp hn 3.6%, còn mng Bayes
(Bayes Nets) có kh nng ci tin hn Naïve Bayes nhng kt qu vn thp hn
SVMs.
Ngoài ra, trong công trình (Mayer và CS, 2002), các tác gi ã ánh giá mt
cách toàn din tính hiu qu ca phng pháp SVMs so vi 16 phng pháp khác
nhau (Ph lc G - Bng G.2) trong vic phân loi trên 21 tp ng liu. Kt qu
thc nghim trên 21 tp ng liu ( Ph lc G - Bng G.3 và G.4) th hin phng
pháp SVMs có sai s thp hn so vi các phng pháp khác. Mc dù không phi
luôn tt nht, nhng SVMs thng xuyên  trong nhóm 3 phng pháp có sai s
thp nht và dn u trong nhóm 10 trên 21 tp ng liu th nghim.
T! các kt qu ã nêu trong vic áp dng SVMs vào vn  phân loi mu
(Pattern Classification) hoc nhn dng mu (Pattern Recognition) thì phng
pháp SVMs luôn t" ra vt tri so vi các phng pháp hc máy khác c#ng nh
tính hiu qu khi áp dng vào các vn  x lý ngôn ng t nhiên.
Quan im ca lun án là qui vic rút trích cm danh t! c trng ng ngh$a v
bài toán phân loi hay nhn din mu da vào mt s các tính cht c trng ca
mu.Vi hiu qu vt tri ca SVMs trong vic phân loi d liu (Mayer, 2002),
thì khi áp dng SVMs s% t c nhiu kt qu rt kh quan, minh chng th hin
qua các công trình áp dng SVMs (Cheng, 2002; Hearst, 1998; Joachims,
Mô hình rút trích cm t c trng ng ngha trong ting Vit


77
1998;…), so vi các công trình áp dng phng pháp khác. ó là lý do lun án áp
dng phng pháp SVMs  thc hin giai on xác nh các cm danh t! c

trng ng ngh$a trong câu ting Vit cho mô hình ViKEe.
Các phn còn li ca chng này c b cc nh sau: Phn 5.2 trình bày khái
quát phng pháp SVMs; Phn 5.3 là phát biu bài toán rút trích cm danh t! c
trng ng ngh$a; Phn 5.4 trình bày mô hình  xut cho bài toán rút trích cm
danh t! c trng ng ngh$a trong câu ting Vit; Phn 5.5 trình bày kt qu thc
nghim và ánh giá; Phn 5.6 là phn kt chng.

5.2 Phng pháp Support Vector Machines
C s toán hc ca phng pháp phân loi SVMs là da trên nn tng lý thuyt
hc thng kê (statistical learning theory) và lý thuyt không gian vect (vector
space).  n&m b&t phng pháp SVMs, trc tiên cn kho sát các khái nim và
nguyên lý sau.
a. VC-Dimension: là mt giá tr vô hng dùng  tính sc cha ca tp các
hàm tuyn tính và c nh ngh$a là tp hp các im (có n im) mà các im
này có th phân chia thành 2
n
các cu hình có th và không t'n ti tp hp nào có
m im (vi m>n) th"a mãn iu kin trên. Giá tr ca VC-Dimension là n+1
(Gunn, 1998).
b. Nguyên lý cc tiu ri ro cu trúc (Structural Risk Minimization). Ý
tng ca nguyên lý là tìm mt mt gi thuyt h  có th m bo sai s thc
thp nht. Sai s thc ca gi thuyt h là xác sut mà h s% to ra mt l(i sai trên
mt mu cha bit và c chn ngu nhiên. Mt cn trên dùng  liên kt sai s
thc ca gi thuyt h vi vi sai s ca h trên tp hun luyn và  phc tp ca H
c o bi VC-Dimension, vi H là không gian các gi thuyt h. SVMs tìm các
gi thuyt h sao cho các gi thuyt này làm ti thiu hóa gii hn trên sai s thc
b)ng cách iu khin có hiu qu VC-Dimension ca không gian gi thuyt H
(Gunn, 1998).



Mô hình rút trích cm t c trng ng ngha trong ting Vit


78












Hình 5.1 Nguyên lý cc tiu ri ro cu trúc.
Hu ht các phng pháp hc máy trc ây u s dng nguyên lý cc tiu
ri ro theo kinh nghim (Empirical Risk Minimization) nh)m làm ti thiu hóa sai
s hun luyn. Tuy nhiên, mt vn  xy ra là nu chn không gian gi thuyt h
càng ln (VC-Dimension ln – H3) thì sai s hun luyn s% càng nh" và sai s
thc s% càng cao. Trng hp này thng c gi là vt mc iu chnh lý
tng. Ngc li nu chn không gian gi thuyt h càng nh" (VC-Dimension nh"
- H1) thì sai s thc và sai s hun luyn c#ng s% cao hay còn gi là di mc iu
chnh lý tng. Trong c hai trng hp, vì có sai s thc cao nên mô hình s%
thiu kh nng d oán các mu mi. Phng pháp SVMs có nhim v cân b)ng
gia  ln ca không gian gi thuyt c chn và sai s hun luyn. C th,
SVMs bao g'm phng pháp tuyn tính và phng pháp phi tuyn.
5.2.1 Phng pháp tuyn tính
Phng pháp tuyn tính bao g'm hai trng hp: phân bit c và không

phân bit c.
Sai s

Sai s hun luyn
Di mc iu
chnh lý tng
H2
H3
H1
h
 tin cy thut ng
Sai s thc
Mô hình tt
nht
Vt mc iu
chnh lý tng
Mô hình rút trích cm t c trng ng ngha trong ting Vit


79
a. Trng hp phân bit c
ây là mô hình phân loi nh phân và c#ng là mô hình n gin nht ca
SVMs. Xét mt tp hun luyn S nh sau:
S = {(x
1
,y
1
), (x
2
,y

2
),… (x
N
,y
N
)} ⊆ (R
N
× {+1,-1})
Trong ó :
- x
i
là vect thành phn i (i:1..N)
- N là s chiu trong không gian vector
- y
i
là giá tr mc tiêu dùng  phân bit trên m(i x
i

Mc tiêu vic phân loi là tìm ra mt hàm tuyn tính f c nh ngh$a nh sau.
f: R
N
→ {+1,-1} ; sao cho f(x
i
) = y
i
, vi ∀(x
i
, y
i
) ∈ S.

Qui c: f(x
i
) > 0 c gán cho giá tr mc tiêu y
i
= +1 thuc tp S
+
c biu
din trên Hình 5.2 b)ng nhng du “
+
”, ngc li nu f(x
i
) < 0 thì c gán giá
tr mc tiêu y
i
= -1 thuc tp S
-
c biu din trên Hình 5.2 b)ng nhng du “
-
”.








Hình 5.2 Các mt ph*ng phân tách.
Vi mc tiêu là làm th nào  có th phân bit c 2 tp S
+

và S
-,
hàm f c
nh ngh$a nh sau:
f(x) = sign(w

x - b) (5.1)
vi: w là vect trng s (weight vector)
_
_
_
_
_
_
_
_
_
w

x - b < 0
w

x - b > 0
+
+
+
+
+
+
+

+
+
x

f(x)
Mô hình rút trích cm t c trng ng ngha trong ting Vit


80
b là  di (bias)
Khi ó, bài toán cn xây dng mt mt phng phân tách (hyperplane) H
0
th"a:
H
0
= w

x - b = 0 (5.2)
H
0
c nh ngh$a là ranh gii gia tp S
+
và S
-
, hai tp này c gi là phân
bit tuyn tính bi mt ph*ng phân tách nu tìm c cp giá tr (w,b) sao cho mt
ph*ng phân tách phân bit c tp S
+
và S
-

(nh trên Hình 5.2).
a.1  rng biên cc i ca mt phng phân tách








Có rt nhiu b giá tr (w, b)  sinh ra các mt ph*ng phân tách tng ng
khác nhau. Do ó, SVMs cn phi tìm ra duy nht mt mt ph*ng phân tách có 
rng biên gia hai tp S
+
và S
-
là ln nht H
0
(nh Hình 5.3).
Gi s ã có mt mt ph*ng phân tách H
0
= w

x - b = 0 thì luôn tìm c hai
mt ph*ng phân tách H
+
và H
-
song song vi H
0

sao cho: H
+
= w

x - b = +1 và H
-
=
w

x - b = -1 vi iu kin không có im nào n)m trong khong H
+
và H
-
.
Nhng im n)m trên H
+
và H
-
(nhng im c khoanh tròn) c gi là nhng
vect h tr (support vectors) vì có tham gia vào vic xác nh nên mt ph*ng
phân tách, nhng im khác có th không cn xem xét.
Bài toán yêu cu xác nh khong cách ln nht gia hai mt ph*ng phân tách
H
-
và H
+
. Nh ã bit, trong hình hc ph*ng khong cách t! mt im (x
0
, y
0

) n
ng th*ng A.x + B.y + C = 0 c xác nh là:
x
+
+
+
+
+
+
+
+
+
H
0

H
-
H
+
w
d
+
d
-
_
_
_
_
_
_

_
_
_
x

Hình 5.3 Mt ph*ng phân tách (w,b) cho tp hun luyn hai chiu.

b
f(x)
Mô hình rút trích cm t c trng ng ngha trong ting Vit


81
||||
2
||||
||
||||
||
w
w
bxw
w
bxw
dd
=
−•
+
−•
=+

−+
−+

(5.3)
Tng t, trong không gian vect thì khong cách t! mt im n)m trên H
+

n H
0
= w

x - b = 0 c xác nh là (Gunn và CS, 1998):

(5.4)
Khi ó, khong cách gia hai mt ph*ng phân tách H
+
và H
-
c tính b)ng:




(5.5)
Vì vy,  cho khong cách ca H
+
và H
-
t cc i thì ||w|| phi cc tiu, vi
iu kin không có im hun luyn nào n)m gia hai mt ph*ng phân tách H

+

H
-,
ngh$a là:
w

x
i
- b ≥ +1 vi mi mu có y
i
= +1
w

x
i
- b ≤ -1 vi mi mu có y
i
= -1
(5.6)
kt hp hai iu kin trên công thc (5.6) có th vit t+ng quát li nh sau:
y
i
(w

x
i
- b) ≥ +1 | ∀i
(5.7)
 tìm khong cách cc i ca hai mt ph*ng phân tách H

+
và H
-
thay vì tìm
tìm giá tr cc tiu ca ||w||, bài toán ti u (Gunn và CS, 1998) a v tìm cc
tiu ca ||w||
2
vi ràng buc cho  công thc (5.7).
a.2 Công thc Lagrange
Theo lý thuyt h s nhân Lagrange thì bài toán tìm cc tiu ca ||w||
2
s% có
công thc sau:



(5.8)
vi α
i
≥0 là h s nhân Lagrange
( )






−−•−≡

=

l
i
iii
bxwyw
1
2
P
]1[||||
2
1
LMin
α
22
00
||
BA
CByAx
+
++
||||
1
||||
||
ww
bxw
=
−•
+
Mô hình rút trích cm t c trng ng ngha trong ting Vit



82






−=

==
l
ji
jijiji
l
i
i
xxyy
1,1
D
,
2
1
LMax
ααα
( )
11
)max()xmin(
2
1

b
−=+=
•+•−=
ii
yiyi
xwww

>
=
0:
w
i
i
iii
xy
α
α
0
1
=

=
l
i
ii
y
α
Ly o hàm riêng phn ca hàm L
P
(theo w và b) và th vào công thc trên, bài

toán tr thành:



(5.9)
Vi ràng buc là:

(5.10)
T! ây, vic hun luyn SVMs có th xem nh vic tìm cc i ca L
D
ng
vi vic tìm các giá tr ,
i
tho mãn ràng buc (5.10) và ,
i
dng, khi ó vect
trng s w c tính b)ng công thc (5.11):


(5.11)
Và  di b c tính b)ng công thc (5.12):

(5.12)
Mt chi tit quan trng là ,
i
= 0 i vi các giá tr x
i
không n)m trên các mt
ph*ng phân tách H
+

và H
-
. Ngc li, i vi các giá tr n)m trên H
+
và H
-
thì ,
i
>
0, các im này c gi là các vect h( tr, vi s lng các vect h( tr luôn
nh" hn t+ng s mu hun luyn. T! ó, phng pháp này có tên là SVMs.
Vì vy, có th nói vect h( tr là s mô t cô ng ca d liu. SVMs b" qua
nhng d liu không cung cp thông tin và ch quan tâm n các im d liu
cung cp nhiu thông tin, ó là các vect h( tr. Ý tng b" qua d liu mà không
làm gim i cht lng ca s c lng là rt hiu qu trong trng hp áp dng
SVMs trên các tp d liu ln.
a.3 Phân loi d liu
Các giá tr ti u α
i
v!a tìm c th vào công thc (5.11) s% tìm c vect
trng s w tng ng. Lúc này hàm phân loi có th c vit li nh sau:
Mô hình rút trích cm t c trng ng ngha trong ting Vit


83
( ) ( )







−=−•=

=
bxxysignbsignxf
l
i
iii
1
,xw
α


(5.13)
D

a vào hàm phân lo

i này

gán giá tr

m

c tiêu +1 ho

c -1 cho t

t c


nh

ng

i

m trong t

p d

li

u c

n phân lo

i.
V

i phân tích trên, tr

ng h

p các

i

m trong t


p S
+
và S
-
là phân bi

t rõ ràng.
Nh

ng trên th

c t

, có nh

ng

i

m trong t

p S
+
n
)
m trong t

p S
-
và ng


c l

i. Lúc
này t

p S
+
và S
-
không còn
'
ng nh

t n

a. Tr

ng h

p này

c g

i là nhi

u
(noise).
b. Trng hp không phân bit c
Trng hp tp S

+
và S
-
không còn 'ng nht c gi là không phân bit
c (non-separable). Trong trng hp này cn m rng trng hp phân bit
c b)ng cách thêm gia s ξ ≥ 0 vào cho m(i im trong tp hun luyn (ξ c
xem nh mt tham s  iu chnh li s phân lp sai).
iu kin  không có nhng im n)m gia hai mt ph*ng phân tách H
+
và H
-

c vit li nh sau:
w

x
i
- b ≥ +1 - ξ
i
vi mi mu có y
i
= +1
w

x
i
- b ≤ -1 + ξ
i
vi mi mu có y
i

= -1
(5.14)








Hình 5.4 Ví d v mt trng hp không phân bit c.
S b+ sung các gia s ξ
i
nh)m m bo các ràng buc  (5.6) không b vi
phm. Tuy nhiên, lúc này mt vn  mi phát sinh là tìm giá tr cc tiu ca t+ng
d
-
d
+
w
H
+
ξ
_
_
H
-
H
0
_

_
_
_
_
_
_
+
+
+
+
+
+
+
+
+
x

f(x)

Mô hình rút trích cm t c trng ng ngha trong ting Vit


84






−=


==
l
ji
jijiji
l
i
i
xxyy
1,1
D
,
2
1
LMax
ααα
k
l
i
i
Cw






+

=1

2
||||
ξ
( )






−+−−−+≡

==
l
i
ii
l
i
iiii
l
i
i
bxwyCw
ξµξαξ
11
2
P
]1.[||||
2
1

LMin
( )

+













−−−+≡
=
l
i
i
l
i
ii
l
i
iii
l
i

iii
bywxyCw
αααξµα
1
2
P
||||
2
1
L






−=

==
l
ji
jijiji
l
i
i
xxyyW
1,1
,
2
1

)(Max
αααα
||w||
2
và t+ng các sai s phân lp sai. Hàm mc tiêu bây gi c m rng là tìm
cc tiu ca công thc (5.15):


(5.15)
Vi: C là h s iu chnh gia các gia s ξ
i
và ||w||
2

k là mt s nguyên thuc tp {1, 2}
Hàm ràng buc trong công thc (5.7) c vit li:
y
i
.(w

x
i
- b) ≥ 1 - ξ
i

vi i = 1,… ,l và ξ
i
≥ 0 , vi i = 1,… ,l
(5.16)
Áp dng lý thuyt Lagrange ta có:


(5.17)
vi α
i
, µ
i
≥0 là h s nhân Lagrange
Ly o hàm riêng phn ca L
P
(theo w, ξ, b) và th vào hàm Lagrange, bài
toán tr thành:



(5.18)
Kt hp vi iu kin ca Karush - Kuhn – Tucker (KKT):
α
i
.[y
i
.(w

x
i
- b) -1 + ξ
i
] = 0
vi i = 1,… , l
(5.19)
Bài toán c tóm t&t li nh sau:




0 ≤ α
i
≤ C
(5.20)

×