ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NGÂN
TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT
DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN
MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT
LUẬN VĂN THẠC SĨ
Hà Nội - 2011
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NGÂN
TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT
DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN
MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 604805
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TIẾN SĨ NGUYỄN LÊ MINH
Hà Nội, 2011
- 1 -
MC LC
L Error! Bookmark not defined.
MC LC 1
DANH MC HÌNH V 3
DANH MC BNG BIU 4
KÝ T VIT TT 5
LI C 6
LI M U 7
HC BÁN GIÁM SÁT THEO MÔ HÌNH NG NGU
U KIN 8
1.1. ng ngu kin 8
1.1.1. Khái ning ngu kin 8
1.1.2. Hc máy CRFs 10
1.1.2.1. Hàm tia các mô hình CRFs 10
1.1.2.2.
. 11
1.1.2.3. s 12
1.2. Hc máy bán giám sát CRFs 12
1.2.1. Hc máy bán giám sát 12
1.2.1.1. Hc không có giám sát và Hc có giám sát 13
1.2.1.2. Hc máy bán giám sát 15
1.2.1.3. Mt s thut toán hc máy bán giám sát 16
1.2.2. v mô hình hc máy bán giám sát CRFs 18
1.3. Kt lu 19
HC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUN K
VNG TNG QUÁT 20
2.1. Tiêu chun k vng tng quát 20
2.1.1. Gii thi 20
2.1.2. Tiêu chun k vng tng quát 21
2.2. Mô hình hc máy bán giám sát CRFs theo tiêu chun k vng tng quát 23
2.3. Kt lu 25
- 2 -
MT MÔ HÌNH HC MÁY BÁN GIÁM SÁT CRFs TRÍCH
CHN THÔNG TIN PHÁP LUT TING VIT 26
3.1. Trích chn thông tin t n pháp lut ting Vit 26
3.1.1. Mt s min d lin pháp lut ting Vit 26
3.1.2. Bài toán trích chn pháp lut ting Vit 28
3.2. Mt mô hình hc máy bán giám sát CRFs trích chn thông tin pháp lut
ting Vit 28
3.2.1. Mt s phân tích 28
ngh 29
3.2.3. La chn thuc tính 33
33
3.3. Kt lu 34
THC NGHI 35
4.1. Mô hình thc nghim 35
4.1.1. D liu thc nghim 35
4.1.2. B công c Mallet 35
4.2. Thc nghi 35
ng thc nghim 35
4.2.2. Mô t quy trình thc nghim 35
4.2.3. Kt qu thc nghim 36
37
4.3. Kt lun ch 40
KT LUN 42
TÀI LIU THAM KHO 44
- 3 -
DANH MỤC HÌNH VẼ
Hình 1. Đ th vô hưng mô t CRFs 9
Hình 2. Mô
̣
t bươ
́
c trong thuâ
̣
t toa
́
n Viterbi ca
̉
i tiến 11
Hình 3/4. Mô hình đề xuất gii quyết bài toán 30
Hình 5. Tập các ràng buộc (Constraint file) 32
Hình 6. Kết qu nhóm thực nghiệm 1 36
Hình 7. Kết qu nhóm thực nghiệm 2 37
Hình 8. Kết qu nhóm thực nghiệm 3 38
Hình 9. Kết qu nhóm thực nghiệm 4 39
Hình 10. Kết qu nhóm thực nghiệm 5 40
- 4 -
DANH MỤC BẢNG BIỂU
Bng 1. Mẫu ngữ cnh từ vựng 33
Bng 2. Mẫu ngữ cnh phát hiện tên thực thể 33
Bng 3. Kết qu nhóm thực nghiệm 1 36
Bng 4. Kết qu nhóm thực nghiệm 2 37
Bng 5. Kết qu nhóm thực nghiệm 3 38
Bng 6. Kết qu nhóm thực nghiệm 4 38
Bng 7. Kết qu nhóm thực nghiệm 5 39
- 5 -
KÝ TỰ VIẾT TẮT
CRFs
Conditional Random Fields
EM
Entropy Maximum
GE
Generalized Expectation
GEC
Generalized Expectation Criteria
GIS
Generalized Iterative Scaling
i.i.d
independently and identically
IIS
Improved Iterative Scaling
KL
Kullback Leibler
L-BFGS
Limited memory BroydenFletcherGoldfarbShanno
LOC
LOCation
MISC
MIScellaneous
NER
Named Entity Recognition
ORG
ORGanization
PER
PERson
- 6 -
LỜI CẢM ƠN
Khoa
Thông tin,
Lê Minh -
này. giáo PGS.TS. Hà Quang
quý báu cho tôi.
Phạm Thị Ngân
- 7 -
LỜI MỞ ĐẦU
Trích chn thông tin là mn trong bài toán khai phá d liu.
Ngày nay, cùng vi s phát trin ca công ngh thông tin, Tin hc
ng dng rng rãi trong nhii, y t, ngân hàng
và mang li nhiu li ích to ln. Bn thân tôi hii Hc vin
Cnh sát nhân dân, tôi có nhng hiu bit nhnh v công tác gi gìn trt t an
toàn xã hi ca lng cnh sát nhân dân. Tôi nhn thy, các hong ca
lng cnh sát có liên quan nhin vi h liu, tra cu,
phân tích tng hp d liu Tuy nhiên, công tác qun lý h liu này vn
còn kém hiu qu do nhng hn ch nhnh dn ch
tài tp trung nghiên cu vào vic trích lc thông tin trên tp n pháp lut
này.
Trong nhiu thp k qua, các nhà khoa hc x lý
ngôn ng t xuc nhi
x lý ngôn ng vi hiu qu cao. Ni bt trong s c máy
bán giám sát dng ngu kin theo tiêu chun
k vng tc kt qu rt kh quan trên tp d
liu ngôn ng ting Anh và hic áp dng cho ting Vic s
ng ý ca Thng dn TS. Nguyn Lê Minh, tác gi quyt
nh s dng mô hình này ng dng cho tn pháp lut.
Bố cục của luận văn chia thành 4 chương như sau:
ng kin thn v ng ngu
u kic máy bán giám sát.
tiêu chun k vng tng quát và áp dng tiêu
chun k vng tng quát vào ng ngu kin.
bài toán trích ch trên tn
pháp lu xut mô hình gii quyt bài toán da trên mô hình
CRFs theo tiêu chun k vng tng quát.
Trình bày các thc nghim trên tp d liu s dng mt s
mô hình hc máy có giám sát CRFs, và mô hình hc máy bán giám sát
CRFs theo chun hóa entropy và theo tiêu chun k vng tng quát; T
t qu c.
Trong phn kt lun, lut li nhng công vic hin và
các kt qu ng th cn nhm còn hn ch ca
lung nghiên c
- 8 -
CHƢƠNG 1
HỌC BÁN GIÁM SÁT THEO MÔ HÌNH
TRƢỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN
1.1. Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện
Mô hình tng ngu nhiên u kin (Conditional Random Fields, vit
tt là CRFs) c Lafferty và cng s, 2001 [LCP01] gii thiu lu tiên vào
. CRFs
có u kin, cho phép tích hp
c các thung ca chu
tr cho quá
trình phân lp. Tuy nhiên, khác vi các mô hình xác sut khác, CRFs là mô hình
th u này cho phép CRFs có th i xác sut
ca toàn b chui tr
c thay vì
phân phi trên mi tr
t tr
hin t th ng khác. Theo Lafferty và cng s
[LCP01], Hanna M. Wallach, 2002 và 2004 [Wal02, Wal04], b
s
u là v
cng ngu kin, chúng ta s dng mt s
c kí hiu:
Ch vit hoa X, Y,
n ngu nhiên.
Ch m x, y, t, s
chu
,
, x
i
.
Ch vi, y,
m
.
S:
s.
1.1.1. Khái niệm trƣờng ngẫu nhiên có điều kiện
X
Y .
Y
i
Y
iá S.
loi, X
(gm các t), Y
- 9 -
t
Y
i
Y
loi có th (danh tng t, tính t, ).
phi
G = (V, E), V
E
. V
Y
-
Y
v
Y.
(Y|X)
(Conditional Random Field)
X,
Y
v
G [LCP01]:
(1.1)
, N(v) v.
,
X.
, G
G = (V={1,2,…m}, E={(i,i+1)}).
X=(X
1
, X
2
,…, X
n
), Y=(Y
1
,Y
2
, ,Y
n
).
s
:
Hình 1. Đ th vô hưng mô t CRFs
C G -
s.
J.Hammersley và P. Clifford, 1971
[HC71]
, s
p(y|x) -
-
(theo [Wal04]):
(1.2)
i,
1 cho
C E
V,
E G V G, hay
A
G.
))(,,|(),,|( vNYXYPvYXYP
vv
CA
A
AP )|()|( xxy
Y
n-1
Y
1
X
Y
3
Y
2
Y
n
- 10 -
1.1.2. Học máy CRFs
1.1.2.1. Hàm tiềm năng của các mô hình CRFs
Lafferty và cng s [LCP01] gii thi
s
.
.
Entropy, Lafferty .
(1.3)
f
k
f
k
.
(t)
(s) A
G.
(1.2)
Z(x)
1,
:
(1.4)
, x, y ; t
k
i-1, i
; s
k
i
.
Z(x)
:
(1.5)
t ,
.
k
kkA
AfA xx |exp|
k
i i k
ikk
k
iikk
st
Z
P ),(),,(exp
)(
1
)|(
1
xyxyy
x
xy
y i i k
ikk
k
iikk
stZ ),(),,(exp)(
1
xyxyyx
), ,,(
2,121
s
i
=
1 x
i
=
y
i
= B_PER
0
t
i
=
=
1 x
i-1
= Billx
i
y
i-1
=B_PER,y
i
=I_PER
0
- 11 -
1.1.2.2. Thuâ
̣
t toa
́
n ga
́
n nha
̃
n cho dƣ
̃
liê
̣
u da
̣
ng chuô
̃
i.
i
,
|S|×|S|
(1.6)
(1.7)
M
i
(y’, y, x) y’
y
x.
y*
x m c
y* = argmax{p(y|x)} (1.8)
y*
[Spr07
trong hình 2.
i
x.
y
k
S ,
.
2,
truy hi
(1.9)
Hình 2. Mô
̣
t bươ
́
c trong thuâ
̣
t toa
́
n Viterbi ca
̉
i tiến
.
x n,
y*
1:
o
o i n
),,'()( xx yyMM
ii
k k
kkkki
ysyytyyM ),(),,'(exp),,'( xxx
)(y
i
)(
ki
y
)(
1 ji
y
SyyyMyy
kjkikiji
),,(*)(max)(
11
x
),,'(*)'(maxarg)(Pr
1
xyyMyye
iii
)(maxarg)(* yn
n
y
?
Pr
ob=
Pr
ob=
)(
Ni
y
y
j
)(
1
y
i
y
1
y
2
y
N
)(
2
y
i
)(
1 ji
y
- 12 -
:
>0
o i i-1
o y Pre
i
(y)
o y*(i) = y
y* p(y*|x)
,
.
s
MMI02,
Wal04]. ,
s
,
.
nhau.
.
1.1.2.3. Ƣc lƣng tham s cho các mô hnh CRFs
s
.
Nguyên ly
́
cư
̣
c đa
̣
i likelihood c phát bi tt nht
ca mô hình là các tham s làm cy,
, s
-likelihood. Có nhi
-
s
,
quasi-) -BFGs có th
.
-likelihood này,
-
t tri và có t hi t nhanh nht [Mal02].
1.2. Học máy bán giám sát CRFs
1.2.1. Học máy bán giám sát
Trong lý thuyt xác sut, mt dãy các bin ngc gc
lp cùng phân phi nu chúng có cùng mt phân phc lp vi nhau. Các
quan sát trong mt mc gi thic lp cùng phân phi nhm
n hoá tính toán toán hi ca nhiháp thng kê.
Trong nhiu ng dng không thc t. c khi nghiên cu v
- 13 -
hc máy bán giám sát, tôi gii thiu v c máy n
là Hc không có giám sát và Hc có giám sát.
1.2.1.1. Học không có giám sát và Học có giám sát
Học không có giám sát (unsupervised learning): hc máy
nhm tìm ra mt mô hình phù hp vi các quan sát. c mt mu ch gm
ng (objects), cn tìm kim cu trúc quan tâm (interesting structures)
ca d liu, và nhóm ng ging nhau.
Hu vào là mt tp các bin
ngt mô hình m kt hp s c xây dng cho tp d
liBiu din toán hc c
Cho X=(x
1
, x
2
n
) là tp hp gm n mu (examples or points), x
i
X vi mi i[Nng, ta gi thit rng các mc
to ra m c lp và ging nhau (i.i.d independently and identically
distributed) t mt phân ph. Mc a hc không giám sát là
tìm ra mt cu trúc thông minh trên tp d li
Hc không có giám sát có th c dùng kt hp vi suy din Bayes
(Bayesian inference cho ra xác suu kic có giám sát)
cho bt kì bin ngu nhiên nào khi bic các bin khác.
Hu ích cho vic nén d liu: v n, mi gii
thut nén d liu hoc là da vào mt phân b xác sut trên mt tu vào mt
ng minh.
Học giám sát (supervised learning): Là hc máy xây dng
mt hàm t d liu hun luyn. c mt mu bao gm các cng -
nhãn (x
i
,y
i
), cn tìm ra mi quan h d ng và các nhãn.
Mc mt phép ánh x t x tc mt tp hun luyn
gm các cp (x
i
,y
i
i
Y gi là các nhãn hoa các mu X
i
.
Nu nhãn là các s, biu din vector ct c
mt yêu cu chun là các cp (x
i
,y
i
) tuân theo gi thit i.i.d tri khp trên X×Y.
Nhim v nh rõ là, ta có th c mt phép ánh x thông qua
thc thi d a nó trên tp kim th. Nu các nhãn lp là liên tc, nhim
v phân l c gi là hi quy. Có hai h thut toán giám sát: generative
model và discriminative model:
Generative model: to ra mt mô hình mt ph
thuc vào lp (class-conditional density) p(x|y) bng mt vài th tc hc không
giám sát. Mt m sinh có th c suy lun bng cách s dng lý thuyt
Bayes.
- 14 -
Gi là mô hình sinh vì ta có th t to ra các mu d liu.
Discriminative model:
i
c to ra
nào mà triminative
hn ch mô hình xem p(y|x) l c nh
SVM. Trong thu qu
generative).
có th gii quyt ma hi ta phi
xem xét nhic khác nhau:
1. nh loi ca các ví d hun luyc khi làm bt c u gì,
nh loi d liu nào s c s dng làm ví
d. Chng h là mt kí t vi, toàn b mt t
vit tay, hay toàn b mt dòng ch vit tay.
2. Thu thp tp hun luyn. Tp hun luyn cc t s
dng ca hàm ch, mt tc
thu thc thu thp, hoc t các chuyên gia
hoc t vic tính toán.
3. nh vic biu diu vào cho hàm chn
tìm. S chính xác ca hàm ch thuc li
c biu dic
chuyi thành mt vec- a mt s
nhm mô t
ln, do s bùng n t hp l d
u ra.
4. nh cu trúc ca hàm chn tìm và gii thut h
ng. Ví d la chn vic s dng m-ron
nhân to hay cây quynh.
5. Hoàn thin thit k chy gii thut hc t tp hun
luyn thu thc. Các tham s ca gii thut hc có th u
chnh bng cách t t tp con (gi là tp
kim chng -validation set) ca tp hun luyn, hay thông qua kim
chng chéo (cross-validation). Sau khi h u chnh tham s,
hia gii thut có th c trên mt tp kic
lp vi tp hun luyn.
- 15 -
lic gán nhãn nên vic gii quyt
v ng thun lt nhiu. Tuy nhiên, vi mt s ng d liu ln
thì công vic gán nhãn cho d lii n lc ci và tn nhiu
tht tp d li
d lic gán nhãn mà nó da trên môt mô hình phù hp vi
các quan sát, vì vy vi mt s ng ln d liu thì s chính xác ca kt qu
c không cao. Thc t cho thy rng, d lic gán nhãn có th
thu thc rt nhiu và mt cách d x lý s ng d
lit qu tp nhi
1.2.1.2. Học máy bán giám sát
c máy bán giám sá kt hp gi c
i mt s ng ln d liu, k c d li
và nhng d lic gán nhãn, s i quyt bng mt
cách tt nht bng các gii thuc bán giám sát.
T học bán giám sát có th c xem là:
- Hc giám sát cng thêm d li
+additional unlabeled data).
- Hc không giám sát cng thêm d liu gán nhãn (Unsupervised
learning + additional labeled data).
Hc bán giám sát chính là cách hc s dng thông tin có c d liu gán
nhãn (trong tp d liu hun luyn) ln d liu Các thut toán
hc bán giám sát có nhim v chính là m rng tp các d liu gán nhãn ban
u. Hiu qu ca thut toán ph thuc vào cht ng ca các mu gán nhãn
c thêm vào mi vòng la trên hai tiêu chí:
- Các mc thêm vào phc gán nhãn mt cách chính xác.
- Các mc thêm vào phi mang li thông tin hu ích cho b phân
lp (hoc d liu hun luyn).
c bán giám sát s rt hu ích khi d li
nhi liu gán nhãn. Vic d liu gán nhãn là r gán
nhãn chúng thì tn rt nhiu thi gian, công sc và tin bng ca
rt nhiu các ng dng trong h
- Trong nhn dng li nói, ta s d dàng ghi li mng ln các bài din
thuy gán nhãn chúng yêu ci phi lng nghe r
máy sao chép li.
- S phong phú ca hàng t các trang web sn sàng cho x lý t
phân lp chúng mt cách tin ci phc chúng.
- 16 -
-
Hc bán giám sát là vic hc trên c d lic gán nhãn. T
mt s ng ln các d lic gán nhãn, và mt tp vi s lung nh
d liu ng g xây dng mt b
phân lp thm chí là t, hc s
tn dc nhng thông tin phong phú ca d li, mà ch
yêu cu mt s ng rt nh các d li.
1.2.1.3. Một số thuật toán học máy bán giám sát
Theo Zhi-Hua Zhou và Ming Li, 2010 [ZL10], có rt nhiu các thut toán
hc máy bán giám sát và có th chia thành b
sinh [MU97, NCT00, SL94], S3VMs (Semi-Supervised Support
Vector Machines tr bán giám sát) [CZ05, GY05,
th [BN04, BNS05, BNS06, ZBL04,
a trên mâu thun [ZL07, ZL05, ZZY07, ZC06,
NG00, GZ00, BS06, BM98].
- tp mc gi
thic sinh ra t mô hình cùng tham sng tham s mô
hình có liên kt trc tip nhng m i mc tiêu hc.
Nhng mô hình trong ng coi nhng nhãn ca d
ling giá tr thiu ca tham s mô hình và s dng
thut toán ci hóa k vng EM [DLR77] ng cc
i likelihood ca tham s mô hình. Nhng thut toán trong
này khác nhau mô hc s d phù hp vi d liu, ví d
n ve Bayes
[NCT00]. Nhng mô hình sinh thn, d dàng và có th hiu
qu c vi mu gán nhãn nh. Tuy
nhiên, nhóm thum l thit mô hình
sai hoc mô hình s dng tp d lin thì vic thc thi
b kém hiu qu mô hình này thc thi có hiu qu trong nhng
ng dng thc, cn phi tc mô hình sinh chính xác da trên min
tri thc, hoi ta có th kt hp nhng mt tích cc ca mô hình
sinh và mô hình discriminative [AG05, FUS05]. Mt s thun
hình c c
Thut toán hc bán giám sát ci k vt toán
Self-training
- 17 -
- gng s dng d li u
chng biên quyc hc t tp nh nhng mu d liu gán
nhãn, nh c nhng vùng dàc trong khi vn gi
c phân lp chính xác cho d liu gán nhãn. T. Joachims, 1999 [Joa99]
xut mô hình TSVM (Transductive Support Vector Machine u
tiên, thut toán này khi to mt SVM s dng nhng mu gán nhãn và
gán nhng nhãn ti lip li
vic ci hóa biên ca c d lii nhng
nhãn tit nhãn ca d li
mt ca biên quynh. Cách này có th c gii pháp t
biên quynh không ch phân lp chính xác d liu gán nhãn mà còn
c vi không li ca hàm
thit hi (loss function) trong TSVM s dn thc t là có nhim
tc bu nghiên c xu ging tiêu
cc này.
- c bán giám sát d th u tiên có th thc thi
xut bi Blum và Chawla, 2001 [BC01], h xây dng m th
vi các nút là nhng mu hun luyn (c
cnh gia các nút th hin mi quan h gia nhng mng ví d
ng dng. D th này, v hc bán giám sát có
th c gii quyt bng vic tìm ng ct nh nht c th mà theo
nhng nút trong mi phn A. Blum và cng s,
2004 [BLR04] làm nhi th bng mt s m ngu nhiên và to ra
ng c nht s dng phiu bu t [BC01] và
[BLR04u s dng hàm d i rc ví d d a nhng mu
là mt trong các nhãn có th. X. Zhu và cng s,
2003 [ZGL03] m rng hàm d i rc thành hàm liên tc. D. Zhou
và cng s, 2004 [ZBL04 thit hi a hàm
d d li th
Laplacian chun hóa. Hu ht nhng nghiên c hc bán
giám sát d th ng tp trung vào vic xây dng m th
phc mi quan h thit yu ga nhng mu then
chng ln thc thi vic hc. Sau này, nhiu nghiên c
c gng ci thi th bng vic thêm vào nh n tri
thc. X. Zhang và W. S. Lee, 2007 [ZL07b] chn di thông RBF t
cc tiu hóa li d liu gán nhãn s d
M. Hein và M. Maier, 2007 [HM07] c gng gim d liu nhi t
- 18 -
th tc bán giám sát d
th c ng dng khá rm ln v quy mô.
- c bán giám sát da trên mâu thu
bi Z. H. Zhou, 2008 [Zho08] da trên nhng nghiên cu ca A. Blum và
T. Mitchell, 1998 [BM98u máy hc
hun luyn cho cùng tác v và mu thun gia các máy hc s ny sinh
trong quá trình hc. li
vii thông tin. Nu mt máy hc nào chc chc
khác v mt mnh lun thì máy h dy
cho các máy hc khác v mu này có th c ch
truy v
nhm gi thit mô hình, hàm thit hi không
lm v quy mô ca thut toán hc. Thun hình
c cp trong [Zhu08] là
Thut toán Co-training.
Mu có nhm riêng.
c vào ng dng và loi d liu mà la chc và
thut toán c th cho phù hp.
1.2.2. Sơ bộ về mô hình học máy bán giám sát CRFs
1.2.1, có nhi c bán giám sát và mi
m riêng. Lua tác gi tp trung
nghiên cu mô hình hc bán giám sát CRFs, mô hình này thu
pháp sinh.
Mô hình hc bán giám sát CRFs là mô hình kt hc c d liu chui
c phc nhng ym ca
c ng dng trong nhiu nghiên cu v x lý ngôn ng.
Feng Jiao và cng s, 2006 [JWL06 xut thut toán tn dng d li
gán nhãn qua chun hóa entropy (entropy regularization) thuc m
rng t tip c xut trong [GB04] cho mô hình CRFs có cu trúc. Mt
tip cn khác, Gideon S.Mann và Andrew McCallum [MC08], Gregory Druck và
cng s [DMC08] xut c bán giám sát CRFs s dng tiêu
chun k vng t gii thiu trong mc 2.2.
dng các mu gán nhãn máy hc s truy cp
c gán nhãn vi chi phí
thu so vi gán nhãn toàn b mu d liu vì vi
có th ch cn gán nhãn cho nhng phn nh ca cu trúc chui hoc cây.
- 19 -
Bên cc s dng tiêu chun k vng tng quát xác lp các tham
s trong hun luyn hàm mc tiêu cho phép tc k vng mô hình gn vi
phân phi mc tiêu. Lu tin hành thc thi mô hình này trên tp d liu
ting Vit và so sánh vi mt s t qu thc nghim s th
hin
1.3. Kết luận chƣơng 1
gii thiu v ng ngu kin mt
mô hình khá ph bin và hiu qu trong các ng dng v x lý ngôn ng t
nhiên - và gii thiu v c máy bán giám sát m
c coi là tn dm cc máy có
giám sát và hc không có giám sát. T c v mt s mô hình hc máy
bán giám sát áp dng ngu kin, ni bt là mô
hình hc máy bán giám sát CRFs s dng tiêu chun k vng tng quát; mô
hình này s c gii thiu và phân tích trong p theo ca lu
- 20 -
CHƢƠNG 2
HỌC MÁY BÁN GIÁM SÁT CRFs THEO
TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT
2.1. Tiêu chuẩn kỳ vọng tổng quát
2.1.1. Gii thiệu sơ bộ
Nhi tng hp gán nhãn
ln và nó hn ch kh c nhng min tri thc mi. Nh
hc bán giám sát vi mng s dng tng h
nhãn là ging nhm gim các n lc gán nhãn d liu. Tuy nhiên,
ng phc tp v tính toán và phn tin cy trong
ng hp siêu tham s nhy cm ca nhc bán giám
n mg hiu qu cho
phép thc hin nhng mô hình hun luyn trên nhng min tri thc m
hi ti thiu vic gán nhãn. Mi kt hp tri thc
tin nhim gia nhp vào vic hun luyn s dng tiêu chun
k vng tng quát (GEC), c Andrew McCallum và cng s, 2007 [CMD07]
gii thiu, c nhiu ng dng.
Tiêu chun k vng tng quát (GEC) [CMD07] là nhu kin (term)
trong hàm mc tiêu hun luyn cho phép gán giá tr cho k vng mô hình. GEC
m ging vmô-menu din nhng tham
ching tùy ý trên các k vng ca nhng hàm tùy bin mà không yêu
cu s cân bng mô-men mu và mô-men ng thi, GEC
n vi nhng hàm mc tiêu hun luyn truyn thng;
không cn ánh x mt-mt gia nhu kin GEC và nhng tham s mô
hình, nhng k vng mô hình cho nhu kin GEC khác nhau có th c
hun luyn trên nhng tp d liu khác nhau, k vng tham chiu (hàm score)
có th nh t ngu ng tác v khác, nhng tri thc tin
nghim.
c s dng trong lu dng kt hp nhng
p bic. K vng ca c ng t nhng
phân phi lc hun luyn t nha chn và hàm t s là
phân k KL (S. Kullback và R. A. Leibler, 1951 [KL51], S. Kullback, 1959,
[Kul59]) i xng gia 2 phân b xác sut phân phi xác
sut thc và phân phi xác sut mc tiêu - t nhng phân phi tham chic
ng t nhng ngut hp nhu kin GEC vi tham s
- 21 -
bit cho phép s dng nhng mng xut hin trong d li
hc nhng tham s cho nh n
nghim.
Páp dng trong lu thc hin tác v Nhn dng tên
thc th m, t chc và nhng thc th khác.
2.1.2. Tiêu chuẩn kỳ vọng tổng quát
Nhng mô hình hkhc phc mt s hn ch là
s dng d li vi d lic gán nhãn hoc
vi các ràng buc (ví d nhu vi nhãn chính ca nó).
GEC có th s dng nhing c nó. Trong GEC
có th tn dng thun li ca phân b xác suu kin ca nhng nhãn cho
c m
k
(x) = 1)). Thông tin này cung cp ràng buc phong
n gi li tính d dng có
trc giác tt v kh ca nh
d, rõ ràng là xác sut ca nhãn PERSON gán cho t
th n 0.95 trong khi cho t BROWN thì t l th là 0.4. Nhng
phân b cng v chính xác cao và vic t do biu din mc
phân b tu so vi vic s dng tín hiu giám sát nh phân. Thun
li khác ca vic s dng nhng phân b xác suu kin - ràng buc xác sut
là chúng có th d ng t d lii vu bng
ch hoa INITIAL-nh tt c th vm s
nhãn xut hin cùng.
GEC c gng khp nhng phân b xác suu kin này bng k vng mô
hình trên d li khuyn khích mô hình d ng t l
nhãn PERSON gán cho t John có th là 0.95 trên tt c u ki
nhãn.
Cho X là tp các bin kí hiu là xX. ng tham s ca mt s
nh phân b xác sut trên tp X, p
(X). K vng ca các
hàm f(X) theo mô hình là
(2.1)
t hàm bt k ca bin x cho giá tr ng hoc
vecto. Hàm này có th ch ph thuc vào tp con ca tp bin x.
Và nhng k v nh trên nhng phép gán giá tr
bin, ví d, khi thc hin hun luyn xác suu kin ca mt s mô hình.
- 22 -
ng hp này, nhng bic chia thành biu vào X và biu
ra Y. Mt tp các phép gán cho biu vào (nhng hp d liu hun
luyn) = {x1, x2, } có th chc và k vu kin là
(2.2)
Mt GEC t hàm G, s dng tham s là k vng ca
mô hình f(X) và tr v mt giá tr ng, giá tr c b
mu kin trong hàm mng tham s:
(2.3)
Trong mt s ng hp, G có th a trên khong cách
n giá tr
[f(X)]. Cho
là giá tr ng
ng hp này, G có th
(2.4)
trên, GEC là mt dng t
ng tham s truyn thng hc bit. Có th phân chia
GEC theo m linh ho
1. Mt GEC c nh mc lp theo tham s hóa. Trong các
ng tham s truyn thng - th, có
s ng mt-mt gia các tp con ca các bin s dng trong mi
phn tham s hóa ca mô hình và tp con ca các bi
vnh cho hàm mc tiêu. Trong GEC, mi tp con này có
th c la chc lp.
2. Nhng GEC u kin khác nhau không cn tt c u kin cho
nhng hp ging nhau, chúng có th n nhng tp d
liu khác nhau hoc nhng s kt hp khác nhau ca nhng tp d liu.
3. u hiu hun luy t k k v ng
quát, trng thái ca hàm t s, G, có th nh t d liu hun luyn
gán nhãn hoc bt k ngun nào, bao gm c nhng tác v khác hoc
tri thc tin nghim.
t GEC có th nh mc lp vi tham s hóa và
c lp vi nhng la chn ca bt k tp d liu kin nào. Và mt GEC có
th hong trên mt s tp con bt k ca các bi
f có th vng sinh ra mô-men ca phân b p
(X) hoc
- 23 -
bt k k vng nào khác. Hàm t s G và hàm kho da trên
nguyên lý thông tin hoc nhng hàm bt k.
Nhng giá tr GEC có th c s dng thành phn duy nht
ca hàm mng tham s hoc chúng có th c s dng kt hp
vi nhng giá tr khác. Ví d, GEC có th c áp dng trong nhi hc
dng nhng hàm mc tiêu, bao gm hc kt hp/sinh,
hc không giám sát, hu kin/phân bit, hc có giám sát, hc vi nhng
bin n, hc có c
2.2. Mô hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tng
quát
Nhìn chung, GEC biu din mt tham chiu trên giá tr ca k vng mô
hình [CMD07]. Mt kiu tham chiu có th c biu din bng hàm khong
cách , k vng mc tiêu f
, d liu D, hàm f và phân b mô hình p
, hàm mc
tiêu GEC là (f, E[f
x
]
). Trong [MC10], Gideon S. Mann và Andrew McCallum
t nhng hàm là phân b xác suu kit
p, q
= D(p||q), phân k
KL l i xng gia 2 phân b xác sut p và q. i vi hun luyn
bán giám sát ca CRFs, các tác gi b sung hàm mc tiêu vu kin chun
hóa.
(2.5)
p là phân b mc tiêu và
(2.6)
Vi tic
(2.7)
m
(x,j) là m thuc ch vào chui quan sát x và j*
{j:f
m
(x,j)=1} và Um là tp các chui mà f
m
(x,j) có mt cho
mt s j.
Tính toán Gradient (Độ chênh lệch)
chênh lch ca GEC, D(p||p
)u tiên gim nhu kin
ràng bun dn xut thành phn và các tác gi chênh lch