Tải bản đầy đủ (.pdf) (50 trang)

Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 50 trang )





ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ








PHẠM THỊ NGÂN






TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT
DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN
MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT









LUẬN VĂN THẠC SĨ













Hà Nội - 2011



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ






PHẠM THỊ NGÂN






TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT
DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN
MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT



Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 604805





LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TIẾN SĨ NGUYỄN LÊ MINH













Hà Nội, 2011
- 1 -

MC LC
L Error! Bookmark not defined.
MC LC 1
DANH MC HÌNH V 3
DANH MC BNG BIU 4
KÝ T VIT TT 5
LI C 6
LI M U 7
  HC BÁN GIÁM SÁT THEO MÔ HÌNH NG NGU
U KIN 8
1.1. ng ngu kin 8
1.1.1. Khái ning ngu kin 8
1.1.2. Hc máy CRFs 10
1.1.2.1. Hàm tia các mô hình CRFs 10
1.1.2.2. 
















. 11
1.1.2.3. s 12
1.2. Hc máy bán giám sát CRFs 12
1.2.1. Hc máy bán giám sát 12
1.2.1.1. Hc không có giám sát và Hc có giám sát 13
1.2.1.2. Hc máy bán giám sát 15
1.2.1.3. Mt s thut toán hc máy bán giám sát 16
1.2.2.  v mô hình hc máy bán giám sát CRFs 18
1.3. Kt lu 19
HC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUN K
VNG TNG QUÁT 20
2.1. Tiêu chun k vng tng quát 20
2.1.1. Gii thi 20
2.1.2. Tiêu chun k vng tng quát 21
2.2. Mô hình hc máy bán giám sát CRFs theo tiêu chun k vng tng quát 23
2.3. Kt lu 25
- 2 -

  MT MÔ HÌNH HC MÁY BÁN GIÁM SÁT CRFs TRÍCH
CHN THÔNG TIN PHÁP LUT TING VIT 26
3.1. Trích chn thông tin t n pháp lut ting Vit 26
3.1.1. Mt s  min d lin pháp lut ting Vit 26
3.1.2. Bài toán trích chn pháp lut ting Vit 28
3.2. Mt mô hình hc máy bán giám sát CRFs trích chn thông tin pháp lut
ting Vit 28
3.2.1. Mt s phân tích 28

 ngh 29
3.2.3. La chn thuc tính 33
 33
3.3. Kt lu 34
THC NGHI 35
4.1. Mô hình thc nghim 35
4.1.1. D liu thc nghim 35
4.1.2. B công c Mallet 35
4.2. Thc nghi 35
ng thc nghim 35
4.2.2. Mô t quy trình thc nghim 35
4.2.3. Kt qu thc nghim 36
 37
4.3. Kt lun ch 40
KT LUN 42
TÀI LIU THAM KHO 44
- 3 -

DANH MỤC HÌNH VẼ


Hình 1. Đ th vô hưng mô t CRFs 9
Hình 2. Mô
̣
t bươ
́
c trong thuâ
̣
t toa
́

n Viterbi ca
̉
i tiến 11
Hình 3/4. Mô hình đề xuất gii quyết bài toán 30
Hình 5. Tập các ràng buộc (Constraint file) 32
Hình 6. Kết qu nhóm thực nghiệm 1 36
Hình 7. Kết qu nhóm thực nghiệm 2 37
Hình 8. Kết qu nhóm thực nghiệm 3 38
Hình 9. Kết qu nhóm thực nghiệm 4 39
Hình 10. Kết qu nhóm thực nghiệm 5 40


- 4 -

DANH MỤC BẢNG BIỂU

Bng 1. Mẫu ngữ cnh từ vựng 33
Bng 2. Mẫu ngữ cnh phát hiện tên thực thể 33
Bng 3. Kết qu nhóm thực nghiệm 1 36
Bng 4. Kết qu nhóm thực nghiệm 2 37
Bng 5. Kết qu nhóm thực nghiệm 3 38
Bng 6. Kết qu nhóm thực nghiệm 4 38
Bng 7. Kết qu nhóm thực nghiệm 5 39




- 5 -

KÝ TỰ VIẾT TẮT


CRFs
Conditional Random Fields
EM
Entropy Maximum
GE
Generalized Expectation
GEC
Generalized Expectation Criteria
GIS
Generalized Iterative Scaling
i.i.d
independently and identically
IIS
Improved Iterative Scaling
KL
Kullback Leibler
L-BFGS
Limited memory BroydenFletcherGoldfarbShanno
LOC
LOCation
MISC
MIScellaneous
NER
Named Entity Recognition
ORG
ORGanization
PER
PERson


- 6 -

LỜI CẢM ƠN
  

       Khoa
Thông tin,  


 Lê Minh - 
 
này. giáo PGS.TS. Hà Quang
 
 quý báu cho tôi.






Phạm Thị Ngân
- 7 -

LỜI MỞ ĐẦU

Trích chn thông tin là mn trong bài toán khai phá d liu.
Ngày nay, cùng vi s phát trin ca công ngh thông tin, Tin hc
ng dng rng rãi trong nhii, y t, ngân hàng
và mang li nhiu li ích to ln. Bn thân tôi hii Hc vin
Cnh sát nhân dân, tôi có nhng hiu bit nhnh v công tác gi gìn trt t an

toàn xã hi ca lng cnh sát nhân dân. Tôi nhn thy, các hong ca
lng cnh sát có liên quan nhin vi h  liu, tra cu,
phân tích tng hp d liu Tuy nhiên, công tác qun lý h  liu này vn
còn kém hiu qu do nhng hn ch nhnh dn ch
tài tp trung nghiên cu vào vic trích lc thông tin trên tp n pháp lut
này.
Trong nhiu thp k qua, các nhà khoa hc x lý
ngôn ng t  xuc nhi
x lý ngôn ng vi hiu qu cao. Ni bt trong s c máy
bán giám sát dng ngu kin theo tiêu chun
k vng tc kt qu rt kh quan trên tp d
liu ngôn ng ting Anh và hic áp dng cho ting Vic s
 ng ý ca Thng dn TS. Nguyn Lê Minh, tác gi quyt
nh s dng mô hình này ng dng cho tn pháp lut.
Bố cục của luận văn chia thành 4 chương như sau:
 ng kin thn v ng ngu
u kic máy bán giám sát.
  tiêu chun k vng tng quát và áp dng tiêu
chun k vng tng quát vào ng ngu kin.
  bài toán trích ch trên tn
pháp lu   xut mô hình gii quyt bài toán da trên mô hình
CRFs theo tiêu chun k vng tng quát.
 Trình bày các thc nghim trên tp d liu s dng mt s
mô hình hc máy có giám sát CRFs, và mô hình hc máy bán giám sát
CRFs theo chun hóa entropy và theo tiêu chun k vng tng quát; T
t qu c.
Trong phn kt lun, lut li nhng công vic hin và
các kt qu ng th cn nhm còn hn ch ca
lung nghiên c
- 8 -


CHƢƠNG 1
HỌC BÁN GIÁM SÁT THEO MÔ HÌNH
TRƢỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN

1.1. Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện
Mô hình tng ngu nhiên u kin (Conditional Random Fields, vit
tt là CRFs) c Lafferty và cng s, 2001 [LCP01] gii thiu lu tiên vào
. CRFs 



có u kin, cho phép tích hp
c các thung ca chu



  tr cho quá
trình phân lp. Tuy nhiên, khác vi các mô hình xác sut khác, CRFs là mô hình
 th u này cho phép CRFs có th i xác sut
ca toàn b chui tr





 c thay vì
phân phi trên mi tr




 t tr
hin t th ng khác. Theo Lafferty và cng s
[LCP01], Hanna M. Wallach, 2002 và 2004 [Wal02, Wal04], b










 s 



















 












u là v 
 cng ngu kin, chúng ta s dng mt s
c kí hiu:
 Ch vit hoa X, Y, 



n ngu nhiên.
 Ch m x, y, t, s




chu




, 




 

 





















, x
i
.
 Ch vi, y,



  
m







.
 S: 


















s.
1.1.1. Khái niệm trƣờng ngẫu nhiên có điều kiện
X  























Y  . 



Y
i

Y  

iá  S.




  loi, X 


(gm các t), Y  
- 9 -

t





Y
i
Y 

 loi có th (danh tng t, tính t, ).






 phi 

G = (V, E), V 
 E  





.  V 












 Y 








 - 














 Y
v
Y. 

 (Y|X) 


(Conditional Random Field) 




 X, 
Y
v






G [LCP01]:
(1.1)
 , N(v)  v. 

 , 



















 X. 














, G 










G = (V={1,2,…m}, E={(i,i+1)}).
 X=(X
1
, X
2
,…, X
n
), Y=(Y
1
,Y
2
, ,Y
n
). 

  s 
:

Hình 1. Đ th vô hưng mô t CRFs
C  G - 













s. 





J.Hammersley và P. Clifford, 1971
[HC71] 





 , s 





 p(y|x) - 



















 - 
(theo [Wal04]):
(1.2)
  i, 























1 cho 

C  E 
V, 

E  G V  G, hay 
A 


















G.
))(,,|(),,|( vNYXYPvYXYP
vv






CA
A
AP )|()|( xxy


Y
n-1


Y
1


X

Y
3


Y
2



Y
n

- 10 -

1.1.2. Học máy CRFs
1.1.2.1. Hàm tiềm năng của các mô hình CRFs
Lafferty và cng s [LCP01] gii thi   


 s 









 . 







































 . 














Entropy, Lafferty .
(1.3)
f
k
 















f
k
.
(t) 
(s) A 
G. 



 



 (1.2)  





 




Z(x) 













1, 

:
(1.4)
, x, y  ; t
k






























i-1, i 


; s
k
 





 i







.








Z(x) 



:
(1.5)
t  ,  






























.
   


k
kkA
AfA xx |exp|

k









 

i i k
ikk
k
iikk
st
Z
P ),(),,(exp
)(
1
)|(
1
xyxyy
x
xy

  









y i i k
ikk
k
iikk
stZ ),(),,(exp)(
1
xyxyyx

), ,,(
2,121

s
i
=
1  x
i
=

y
i
= B_PER
0 




t
i

=

=
1  x
i-1
= Billx
i
 y
i-1
=B_PER,y
i
=I_PER
0 




- 11 -

1.1.2.2. Thuâ
̣
t toa
́
n ga
́
n nha
̃
n cho dƣ
̃
liê

̣
u da
̣
ng chuô
̃
i.
 i 







 , 










|S|×|S| 
(1.6)
(1.7)
M
i

(y’, y, x)  y’ 



 y 












 x. 





y* 











x m c
y* = argmax{p(y|x)} (1.8)


y* 





  [Spr07
trong hình 2. 



  i 























x.
 

 



y
k








 S , 

 . 



2, 

truy hi
(1.9)



Hình 2. Mô
̣
t bươ
́
c trong thuâ
̣
t toa
́
n Viterbi ca
̉
i tiến
 . 
x n, 


















y* 



 

1: 


o
o i  n
 
),,'()( xx yyMM
ii









 
k k
kkkki
ysyytyyM ),(),,'(exp),,'( xxx

)(y
i

)(
ki
y
)(
1 ji
y


 
SyyyMyy
kjkikiji


),,(*)(max)(
11
x
 
),,'(*)'(maxarg)(Pr
1

xyyMyye
iii 

 
)(maxarg)(* yn
n
y
?
Pr
ob=
Pr
ob=
)(
Ni
y
y
j
)(
1
y
i

y
1
y
2
y
N
)(
2

y
i


)(
1 ji
y


- 12 -

 



: 



>0
o i  i-1
o y  Pre
i
(y)
o y*(i) = y


y*  p(y*|x) 

, 





.
s 


MMI02,
Wal04].  , 





 s 























 , 
















. 





































nhau. 



































.
1.1.2.3. Ƣc lƣng tham s cho các mô hnh CRFs
 



 s 



















.
Nguyên ly
́

̣
c đa
̣
i likelihood c phát bi tt nht
ca mô hình là các tham s làm cy, 






,  s 
 -likelihood. Có nhi








-
s 

 ,

quasi-) -BFGs có th  

 .












 -likelihood này, 

 -








t tri và có t hi t nhanh nht [Mal02].
1.2. Học máy bán giám sát CRFs
1.2.1. Học máy bán giám sát
Trong lý thuyt xác sut, mt dãy các bin ngc gc

lp cùng phân phi nu chúng có cùng mt phân phc lp vi nhau. Các
quan sát trong mt mc gi thic lp cùng phân phi nhm
n hoá tính toán toán hi ca nhiháp thng kê.
Trong nhiu ng dng không thc t. c khi nghiên cu v
- 13 -

hc máy bán giám sát, tôi gii thiu  v c máy n
là Hc không có giám sát và Hc có giám sát.
1.2.1.1. Học không có giám sát và Học có giám sát
Học không có giám sát (unsupervised learning): hc máy
nhm tìm ra mt mô hình phù hp vi các quan sát. c mt mu ch gm
ng (objects), cn tìm kim cu trúc quan tâm (interesting structures)
ca d liu, và nhóm ng ging nhau.
Hu vào là mt tp các bin
ngt mô hình m kt hp s c xây dng cho tp d
liBiu din toán hc c
Cho X=(x
1
, x
2

n
) là tp hp gm n mu (examples or points), x
i

X vi mi i[Nng, ta gi thit rng các mc
to ra m  c lp và ging nhau (i.i.d  independently and identically
distributed) t mt phân ph. Mc a hc không giám sát là
tìm ra mt cu trúc thông minh trên tp d li
Hc không có giám sát có th c dùng kt hp vi suy din Bayes

(Bayesian inference cho ra xác suu kic có giám sát)
cho bt kì bin ngu nhiên nào khi bic các bin khác.
Hu ích cho vic nén d liu: v n, mi gii
thut nén d liu hoc là da vào mt phân b xác sut trên mt tu vào mt
ng minh.
Học giám sát (supervised learning): Là hc máy xây dng
mt hàm t d liu hun luyn. c mt mu bao gm các cng -
nhãn (x
i
,y
i
), cn tìm ra mi quan h d ng và các nhãn.
Mc mt phép ánh x t x tc mt tp hun luyn
gm các cp (x
i
,y
i

i
 Y gi là các nhãn hoa các mu X
i
.
Nu nhãn là các s, biu din vector ct c
mt yêu cu chun là các cp (x
i
,y
i
) tuân theo gi thit i.i.d tri khp trên X×Y.
Nhim v nh rõ là, ta có th c mt phép ánh x thông qua
thc thi d a nó trên tp kim th. Nu các nhãn lp là liên tc, nhim

v phân l c gi là hi quy. Có hai h thut toán giám sát: generative
model và discriminative model:
Generative model:    to ra mt mô hình mt  ph
thuc vào lp (class-conditional density) p(x|y) bng mt vài th tc hc không
giám sát. Mt m sinh có th c suy lun bng cách s dng lý thuyt
Bayes.
- 14 -


Gi là mô hình sinh vì ta có th t to ra các mu d liu.
Discriminative model:  
i
c to ra
 nào mà triminative
hn ch   mô hình xem p(y|x) l  c nh     
SVM. Trong thu qu 
generative).
 có th gii quyt ma hi ta phi
xem xét nhic khác nhau:
1. nh loi ca các ví d hun luyc khi làm bt c u gì,
nh loi d liu nào s c s dng làm ví
d. Chng h là mt kí t vi, toàn b mt t
vit tay, hay toàn b mt dòng ch vit tay.
2. Thu thp tp hun luyn. Tp hun luyn cc t s
dng ca hàm ch, mt tc
thu thc thu thp, hoc t các chuyên gia
hoc t vic tính toán.
3. nh vic biu diu vào cho hàm chn
tìm. S chính xác ca hàm ch thuc li
c biu dic

chuyi thành mt vec- a mt s  
nhm mô t  
ln, do s bùng n t hp l d 
u ra.
4. nh cu trúc ca hàm chn tìm và gii thut h
ng. Ví d la chn vic s dng m-ron
nhân to hay cây quynh.
5. Hoàn thin thit k chy gii thut hc t tp hun
luyn thu thc. Các tham s ca gii thut hc có th u
chnh bng cách t    t tp con (gi là tp
kim chng -validation set) ca tp hun luyn, hay thông qua kim
chng chéo (cross-validation). Sau khi h  u chnh tham s,
hia gii thut có th c trên mt tp kic
lp vi tp hun luyn.
- 15 -

 lic gán nhãn nên vic gii quyt
v ng thun lt nhiu. Tuy nhiên, vi mt s ng d liu ln
thì công vic gán nhãn cho d lii n lc ci và tn nhiu
tht tp d li
d lic gán nhãn mà nó da trên môt mô hình phù hp vi
các quan sát, vì vy vi mt s ng ln d liu thì s chính xác ca kt qu
c không cao. Thc t cho thy rng, d lic gán nhãn có th
thu thc rt nhiu và mt cách d  x lý s ng d
lit qu tp nhi
1.2.1.2. Học máy bán giám sát
c máy bán giám sá   kt hp gi      c
i mt s ng ln d liu, k c d li
và nhng d lic gán nhãn, s i quyt bng mt
cách tt nht bng các gii thuc bán giám sát.

T học bán giám sát có th c xem là:
- Hc giám sát cng thêm d li
+additional unlabeled data).
- Hc không giám sát cng thêm d liu gán nhãn (Unsupervised
learning + additional labeled data).
Hc bán giám sát chính là cách hc s dng thông tin có  c d liu gán
nhãn (trong tp d liu hun luyn) ln d liu  Các thut toán
hc bán giám sát có nhim v chính là m rng tp các d liu gán nhãn ban
u. Hiu qu ca thut toán ph thuc vào cht ng ca các mu gán nhãn
c thêm vào  mi vòng la trên hai tiêu chí:
- Các mc thêm vào phc gán nhãn mt cách chính xác.
- Các mc thêm vào phi mang li thông tin hu ích cho b phân
lp (hoc d liu hun luyn).
c bán giám sát s rt hu ích khi d li
nhi liu gán nhãn. Vic d liu gán nhãn là r gán
nhãn chúng thì tn rt nhiu thi gian, công sc và tin bng ca
rt nhiu các ng dng trong h
- Trong nhn dng li nói, ta s d dàng ghi li mng ln các bài din
thuy gán nhãn chúng yêu ci phi lng nghe r
máy sao chép li.
- S phong phú ca hàng t các trang web sn sàng cho x lý t 
 phân lp chúng mt cách tin ci phc chúng.
- 16 -

-
Hc bán giám sát là vic hc trên c d lic gán nhãn. T
mt s ng ln các d lic gán nhãn, và mt tp vi s lung nh
d liu ng g xây dng mt b
phân lp thm chí là t, hc s
tn dc nhng thông tin phong phú ca d li, mà ch

yêu cu mt s ng rt nh các d li.
1.2.1.3. Một số thuật toán học máy bán giám sát
Theo Zhi-Hua Zhou và Ming Li, 2010 [ZL10], có rt nhiu các thut toán
hc máy bán giám sát và có th chia thành b 
 sinh [MU97, NCT00, SL94], S3VMs (Semi-Supervised Support
Vector Machines   tr bán giám sát) [CZ05, GY05,
       th [BN04, BNS05, BNS06, ZBL04,
    a trên mâu thun [ZL07, ZL05, ZZY07, ZC06,
NG00, GZ00, BS06, BM98].
-  tp mc gi
thic sinh ra t mô hình cùng tham sng tham s mô
hình có liên kt trc tip nhng m i mc tiêu hc.
Nhng mô hình trong ng coi nhng nhãn ca d
ling giá tr thiu ca tham s mô hình và s dng
thut toán ci hóa k vng EM [DLR77]  ng cc
i likelihood ca tham s mô hình. Nhng thut toán trong 
này khác nhau  mô hc s d phù hp vi d liu, ví d
   n     ve Bayes
[NCT00]. Nhng mô hình sinh thn, d dàng và có th hiu
qu      c vi mu gán nhãn nh. Tuy
nhiên, nhóm thum l thit mô hình
sai hoc mô hình s dng tp d lin thì vic thc thi
b kém hiu qu mô hình này thc thi có hiu qu trong nhng
ng dng thc, cn phi tc mô hình sinh chính xác da trên min
tri thc, hoi ta có th kt hp nhng mt tích cc ca mô hình
sinh và mô hình discriminative [AG05, FUS05]. Mt s thun
hình c c
Thut toán hc bán giám sát ci k vt toán
Self-training
- 17 -


-     gng s dng d li     u
chng biên quyc hc t tp nh nhng mu d liu gán
nhãn, nh  c nhng vùng dàc trong khi vn gi
c phân lp chính xác cho d liu gán nhãn. T. Joachims, 1999 [Joa99]
 xut mô hình TSVM (Transductive Support Vector Machine u
tiên, thut toán này khi to mt SVM s dng nhng mu gán nhãn và
gán nhng nhãn ti lip li
vic ci hóa biên ca c d lii nhng
nhãn tit nhãn ca d li
mt ca biên quynh. Cách này có th c gii pháp t
biên quynh không ch phân lp chính xác d liu gán nhãn mà còn
c vi  không li ca hàm
thit hi (loss function) trong TSVM s dn thc t là có nhim
tc bu nghiên c xu ging tiêu
cc này.
- c bán giám sát d th u tiên có th thc thi
 xut bi Blum và Chawla, 2001 [BC01], h xây dng m th
vi các nút là nhng mu hun luyn (c 
cnh gia các nút th hin mi quan h gia nhng mng ví d
 ng dng. D th này, v hc bán giám sát có
th c gii quyt bng vic tìm ng ct nh nht c th mà theo
nhng nút trong mi phn A. Blum và cng s,
2004 [BLR04] làm nhi th bng mt s m ngu nhiên và to ra
ng c   nht s dng phiu bu t   [BC01] và
[BLR04u s dng hàm d i rc ví d d a nhng mu
 là mt trong các nhãn có th. X. Zhu và cng s,
2003 [ZGL03] m rng hàm d i rc thành hàm liên tc. D. Zhou
và cng s, 2004 [ZBL04 thit hi a hàm
d     d li         th

Laplacian chun hóa. Hu ht nhng nghiên c   hc bán
giám sát d th ng tp trung vào vic xây dng m th
phc mi quan h thit yu ga nhng mu then
chng ln thc thi vic hc. Sau này, nhiu nghiên c
c gng ci thi  th bng vic thêm vào nh   n tri
thc. X. Zhang và W. S. Lee, 2007 [ZL07b] chn di thông RBF t
 cc tiu hóa li d  liu gán nhãn s d
M. Hein và M. Maier, 2007 [HM07] c gng gim d liu nhi t
- 18 -

 th tc bán giám sát d
th c ng dng khá rm ln v quy mô.
- c bán giám sát da trên mâu thu
bi Z. H. Zhou, 2008 [Zho08] da trên nhng nghiên cu ca A. Blum và
T. Mitchell, 1998 [BM98u máy hc
hun luyn cho cùng tác v và mu thun gia các máy hc s ny sinh
trong quá trình hc.   li
vii thông tin. Nu mt máy hc nào chc chc
khác v mt mnh lun thì máy h dy
cho các máy hc khác v mu này có th c ch
truy v           
nhm gi thit mô hình, hàm thit hi không
lm v quy mô ca thut toán hc. Thun hình
c   cp trong [Zhu08] là
Thut toán Co-training.
Mu có nhm riêng.
c vào ng dng và loi d liu mà la chc và
thut toán c th cho phù hp.
1.2.2. Sơ bộ về mô hình học máy bán giám sát CRFs
    1.2.1, có nhi  c bán giám sát và mi

m riêng. Lua tác gi tp trung
nghiên cu mô hình hc bán giám sát CRFs, mô hình này thu
pháp sinh.
Mô hình hc bán giám sát CRFs là mô hình kt hc c d liu chui
 c phc nhng ym ca
c ng dng trong nhiu nghiên cu v x lý ngôn ng.
Feng Jiao và cng s, 2006 [JWL06 xut thut toán tn dng d li
gán nhãn qua chun hóa entropy (entropy regularization)  thuc m
rng t tip c xut trong [GB04] cho mô hình CRFs có cu trúc. Mt
tip cn khác, Gideon S.Mann và Andrew McCallum [MC08], Gregory Druck và
cng s [DMC08]  xut c bán giám sát CRFs s dng tiêu
chun k vng t       gii thiu trong mc 2.2.
 dng các mu gán nhãn máy hc s truy cp
 c gán nhãn vi chi phí
thu so vi gán nhãn toàn b mu d liu vì vi
có th ch cn gán nhãn cho nhng phn nh ca cu trúc chui hoc cây.
- 19 -

Bên cc s dng tiêu chun k vng tng quát xác lp các tham
s trong hun luyn hàm mc tiêu cho phép tc k vng mô hình gn vi
phân phi mc tiêu. Lu tin hành thc thi mô hình này trên tp d liu
ting Vit và so sánh vi mt s t qu thc nghim s th
hin  
1.3. Kết luận chƣơng 1
gii thiu v ng ngu kin  mt
mô hình khá ph bin và hiu qu trong các ng dng v x lý ngôn ng t
nhiên - và gii thiu v c máy bán giám sát  m
c coi là tn dm cc máy có
giám sát và hc không có giám sát. T c v mt s mô hình hc máy
bán giám sát áp dng ngu kin, ni bt là mô

hình hc máy bán giám sát CRFs s dng tiêu chun k vng tng quát; mô
hình này s c gii thiu và phân tích trong p theo ca lu

- 20 -

CHƢƠNG 2
HỌC MÁY BÁN GIÁM SÁT CRFs THEO
TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT
2.1. Tiêu chuẩn kỳ vọng tổng quát
2.1.1. Gii thiệu sơ bộ
Nhi tng hp gán nhãn
ln và nó hn ch kh c  nhng min tri thc mi. Nh
hc bán giám sát vi mng s dng tng h
nhãn là ging nhm gim các n lc gán nhãn d liu. Tuy nhiên,
 ng phc tp v tính toán và phn  tin cy trong
ng hp siêu tham s nhy cm ca nhc bán giám
n mg hiu qu cho
phép thc hin nhng mô hình hun luyn trên nhng min tri thc m
hi ti thiu vic gán nhãn. Mi kt hp tri thc
tin nhim gia nhp vào vic hun luyn s dng tiêu chun
k vng tng quát (GEC), c Andrew McCallum và cng s, 2007 [CMD07]
gii thiu, c nhiu ng dng.
Tiêu chun k vng tng quát (GEC) [CMD07] là nhu kin (term)
trong hàm mc tiêu hun luyn cho phép gán giá tr cho k vng mô hình. GEC
m ging vmô-menu din nhng tham
ching tùy ý trên các k vng ca nhng hàm tùy bin mà không yêu
cu s cân bng mô-men mu và mô-men ng thi, GEC 
 n vi nhng hàm mc tiêu hun luyn truyn thng; 
không cn ánh x mt-mt gia nhu kin GEC và nhng tham s mô
hình, nhng k vng mô hình cho nhu kin GEC khác nhau có th c

hun luyn trên nhng tp d liu khác nhau, k vng tham chiu (hàm score)
có th  nh t ngu   ng tác v khác, nhng tri thc tin
nghim.
c s dng trong lu dng kt hp nhng
p bic. K vng ca  c ng t nhng
phân phi lc hun luyn t nha chn và hàm t s là
phân k KL (S. Kullback và R. A. Leibler, 1951 [KL51], S. Kullback, 1959,
[Kul59])    i xng gia 2 phân b xác sut  phân phi xác
sut thc và phân phi xác sut mc tiêu - t nhng phân phi tham chic
ng t nhng ngut hp nhu kin GEC vi tham s 
- 21 -

bit cho phép s dng nhng mng xut hin trong d li
 hc nhng tham s cho nh        n
nghim.
Páp dng trong lu thc hin tác v Nhn dng tên
thc th m, t chc và nhng thc th khác.
2.1.2. Tiêu chuẩn kỳ vọng tổng quát
Nhng mô hình hkhc phc mt s hn ch là
s dng d li vi d lic gán nhãn hoc
vi các ràng buc (ví d nhu vi nhãn chính ca nó).
GEC có th s dng nhing c nó. Trong GEC
có th tn dng thun li ca phân b xác suu kin ca nhng nhãn cho
c m
k
(x) = 1)). Thông tin này cung cp ràng buc phong
n gi li tính d dng có
trc giác tt v kh   ca nh
d, rõ ràng là xác sut ca nhãn PERSON gán cho t 
th n 0.95 trong khi cho t BROWN thì t l th là 0.4. Nhng

phân b cng v chính xác cao và vic t do biu din mc
 phân b tu so vi vic s dng tín hiu giám sát nh phân. Thun
li khác ca vic s dng nhng phân b xác suu kin - ràng buc xác sut
là chúng có th d ng t d lii vu bng
ch hoa INITIAL-nh tt c th vm s
nhãn xut hin cùng.
GEC c gng khp nhng phân b xác suu kin này bng k vng mô
hình trên d li khuyn khích mô hình d ng t l
nhãn PERSON gán cho t John có th là 0.95 trên tt c u ki 
nhãn.
Cho X là tp các bin kí hiu là xX. ng tham s ca mt s
nh phân b xác sut trên tp X, p

(X). K vng ca các
hàm f(X) theo mô hình là

(2.1)



   t hàm bt k ca bin x cho giá tr ng hoc
vecto. Hàm này có th ch ph thuc vào tp con ca tp bin x.
Và nhng k v nh trên nhng phép gán giá tr
bin, ví d, khi thc hin hun luyn xác suu kin ca mt s mô hình.
- 22 -

ng hp này, nhng bic chia thành biu vào X và biu
ra Y. Mt tp các phép gán cho biu vào (nhng hp d liu hun
luyn) = {x1, x2, } có th chc và k vu kin là


(2.2)


Mt GEC t hàm G, s dng tham s là k vng ca
mô hình f(X) và tr v mt giá tr ng, giá tr c b 
mu kin trong hàm mng tham s:
(2.3)
Trong mt s ng hp, G có th a trên khong cách
n giá tr 

[f(X)]. Cho 

là giá tr ng
ng hp này, G có th 
(2.4)
  trên, GEC là mt dng t
ng tham s truyn thng hc bit. Có th phân chia
GEC theo m linh ho
1. Mt GEC c nh mc lp theo tham s hóa. Trong các
ng tham s truyn thng -  th, có
s ng mt-mt gia các tp con ca các bin s dng trong mi
phn tham s hóa ca mô hình và tp con ca các bi
vnh cho hàm mc tiêu. Trong GEC, mi tp con này có
th c la chc lp.
2. Nhng GEC u kin khác nhau không cn tt c u kin cho
nhng hp ging nhau, chúng có th n nhng tp d
liu khác nhau hoc nhng s kt hp khác nhau ca nhng tp d liu.
3. u hiu hun luy    t k  k v   ng
quát, trng thái ca hàm t s, G, có th nh t d liu hun luyn
gán nhãn hoc bt k ngun nào, bao gm c nhng tác v khác hoc

tri thc tin nghim.
t GEC có th nh mc lp vi tham s hóa và
c lp vi nhng la chn ca bt k tp d liu kin nào. Và mt GEC có
th hong trên mt s tp con bt k ca các bi
f có th  vng sinh ra mô-men ca phân b p

(X) hoc
- 23 -

bt k k vng nào khác. Hàm t s G và hàm kho da trên
nguyên lý thông tin hoc nhng hàm bt k.
Nhng giá tr GEC có th c s dng thành phn duy nht
ca hàm mng tham s hoc chúng có th c s dng kt hp
vi nhng giá tr khác. Ví d, GEC có th c áp dng trong nhi hc
 dng nhng hàm mc tiêu, bao gm hc kt hp/sinh,
hc không giám sát, hu kin/phân bit, hc có giám sát, hc vi nhng
bin n, hc có c
2.2. Mô hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tng
quát
Nhìn chung, GEC biu din mt tham chiu trên giá tr ca k vng mô
hình [CMD07]. Mt kiu tham chiu có th c biu din bng hàm khong
cách , k vng mc tiêu f

, d liu D, hàm f và phân b mô hình p

, hàm mc
tiêu GEC là (f, E[f

x


]

). Trong [MC10], Gideon S. Mann và Andrew McCallum
t nhng hàm là phân b xác suu kit 

p, q

= D(p||q), phân k
KL l i xng gia 2 phân b xác sut p và q. i vi hun luyn
bán giám sát ca CRFs, các tác gi b sung hàm mc tiêu vu kin chun
hóa.
(2.5)
p là phân b mc tiêu và
(2.6)
Vi tic
(2.7)

m
(x,j) là m thuc ch vào chui quan sát x và j*
{j:f
m
(x,j)=1} và Um là tp các chui mà f
m
(x,j) có mt cho
mt s j.
Tính toán Gradient (Độ chênh lệch)
  chênh lch ca GEC, D(p||p

)u tiên gim nhu kin
ràng bun dn xut thành phn và các tác gi  chênh lch



×