Tải bản đầy đủ (.pdf) (55 trang)

Phân tách cụm danh từ cơ sở tiếng Việt sử dụng mô hình CRFs

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.56 MB, 55 trang )

i

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ


NGUYỄN THỊ HƢƠNG THẢO


PHÂN TÁCH CỤM DANH TỪ CƠ SƠ
̉
TIẾNG VIỆT
SỬ DỤNG MÔ HÌNH CRFs


Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05







LUẬN VĂN THẠC SĨ

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS.Nguyễn Phƣơng Thái





Hà Nội – 2010










i

MỤC LỤC

Lời cảm ơn Error! Bookmark not defined.
Tóm tắt nội dung Error! Bookmark not defined.
Lời cam đoan Error! Bookmark not defined.
Danh mục bảng số liệu iii
Danh mục hình vẽ iv
Lời mở đầu 1
Chương 1: Khái quát về bài toán phân tách cụm danh từ cơ sở 3
 3
  5
 7
 8
 9
 10
1.4.3. Phng p 12

Chương 2: Mô hình trường ngẫu nhiên có điều kiện 13
 14
 14
 15
2.3.   17
2.3.1.  17
 19
Chương 3: Đặc điểm cụm danh từ tiêng Việt và phương pháp xây dựng tập dữ
liệu 21
 21
3.2. Ph 26
3.2.1. Ph 26
3.2.2 Phng ph 26
Chương 4: Bài toán phân tách cụm danh từ tiếng Việt sử dụng mô hình CRFs 33
  33
 34
ii

 34
 36
 36
4. 40
 41
Kết luận 43
Tài liệu tham khảo 45
Phụ lục: Tập nhãn từ loại và nhãn cú pháp trong Viet Treebank 49
 49
 49
 50
 50

iii


Danh mục bảng số liệu

  6
  6
 8
 23
 24
 34
 36
 37
 39
  40

iv

Danh mục hình vẽ

 9
 11
 11
 11
 11
 16
 27
 28
n 2 29
n 3 30

 30
 30
 30
 31
 31
 33
 38
  40

1

Lời mở đầu

 

World Wide Web 
 
C

 
 
  
 


 
            


 (theo

[21]).

 , 
 


 



Khái quát về bài toán phân tách cụm danh từ 

                 
2

 

Mô hình trường ngẫu nhiên có điều kiện  CRFs -


Đặc điểm cụm danh từ tiếng Việt và phương pháp xây dựng tập dữ
liệu 

Bài toán phân tách cụm danh từ tiếng Việt sử dụng mô hình CRFs
 
 

3

Chương 1: Khái quát về bài toán phân tách cụm danh từ cơ sở

1.1. Giới thiệu bài toán
Tron






N 
, H
CoNLL
1

H 
2
. 
 
 .              C
nghin c v b to n    cha
cng b r r.


-

[NP He] [VP reckons] [NP the current account deficit] [VP will narrow] [PP to]




: ; 

   
  
 , t d li

1

2

4

ti Anh WSJ 15-18 c t 51% l c danh t [12]
trung gian 

.
P  
(non-recursive noun phrase) hay 
hau (non-overlappling noun phrase) . 
  

 

 
 

.


 

 

, m-
 
   

c

 


 

   
          
.
5

                
X  

-t 
              
V, ph
 .
 


s
1.2. Một số nghiên cứu về bài toán phân tách cụm danh từ cơ sở

7


    

[I begin] [with an intuition] : [when I read] [a sentence], [I read it] [a chunk] [at
a time]





T


 
Sau Abney

1993) (theo [19])       P     


formation-Based Learning - TBL)
v F1 b 92.03%
[19
                

6

Sau 
, -
    
. C

 

         (Conditional Random Fields, CRFs),
. M
     nay 
  
 .

1.
Bảng 1: Một số kết quả bài toán phân tách cụm danh từ cơ sở tiếng Anh
Tác giả
Phương pháp
F1
Hieu, Minh 2006 [25]

96.74
Kudo, Matsumoto 2001 [34]

95.77
Sang 2000 [13]
K h c phng ph
94.90
Sha, Pereira 2003 [31]

94.38
  so
,  

15  
phn t c t  10].

 H Qu c  k qu r cao v CRFs khi phn t c danh t c
s. 
2.
Bảng 2: Một số kết quả bài toán phân tách cụm danh từ cơ sở ngôn ngữ khác
Tác giả
Phương pháp
Ngôn ngữ
F1
Chen, Zang, Isahara 2006
[36]
CRFs

89.79
Xu, Zong, Zhao 2006 [15]


89.27
7

Avinesh, Karthik 2007 [10]


CRFs
(phn t c t)

82.74

80.97

79.15

Lee, Kim, Lee [38]
CRFs
H Qu
94.27
C 

 cho
 , do v
Hi 
,  

1.3. Một số phương pháp biểu diễn dữ liệu

 


 

  
          
 

  
 {I, O, B}. Sau n khi  gi
thi ba bi th  35] th phng ph bi di
c Ramshaw v Marcus  g l IOB1. B phng ph 
gi nhau  c g nh cho t khng thu c  nh O; v 

 


8

 

.
 
.
 .
y l m s 
.


Bảng 3: Ví dụ về các phương pháp biểu diễn dữ liệu
Từ
Nhãn từ loại
IOB1
IOB2
IOE1
IOE2

N-H
I
B
I
I

V-H
I
I
I

I
GDP
Ny
I
I
I
E

E-H
O
O
O
O

N-H
I
B
I
I
TP
Ny
I
I
I
E

V-H
O
O
O

O
12%
M
I
B
E
E

N-H
B
B
I
I
2005
M
I
I
I
E
1.4. Một số phương pháp giải quyết bài toán
P

          


9

Hi nay t t nhi phng ph gi quy bi to phn t c danh t
c s         l
(rule- -

)  
Ph n s tr b hai thu to h m l h d v bi  v m
vector h tr. Thu to h d v bi  l phng ph h m  ti
 d         v    k qu kh t. M
vector h tr l m trong nh phng ph em l k qu t nh cho bi
to n.
1.4.1. Thuật toán học dựa vào biến đổi
     -based learning hay Transformation-
based error-           
 [11]
r
 




 


Hình 1: Quá trình huấn luyện của thuật toán TBL

H d o c s
T d li hi t
 gi c lu
 c
L ch lu
 d lu
T m lu
T nh 
T lu k qu

10

 (h 1)



                 
(







 trong

1.4.2. Thuật toán máy vector hỗ trợ
 



, 
[15,33,34]

-


Cho t d li h
 

( , ), 1, ,
ii
D x y i n
v
m
i
xR
v
 
1,1
i
y 
l m s
nguyn x 
i
x
l d li dng hay m. M t li
i
x
 g l d li dng
n n thu l
i
c
;
i
x
 g l d li m n n khng thu l
i
c


 
 
0
: ( ) 0
T
x f x w w  

Trong 
m
wR
v
0
wR
 vai tr l tham s c m h. H phn l
nh ph
 
: 0,1
m
hR 
c  thu  b c x nh d c f(x) :

11



Hình 2: Siêu phẳng có lề hẹp
Hình 3: Siêu phẳng có lề rộng
 

2 v h 3. 



 




Hình 4: Dữ liệu có nhiễu

Hình 5: Dữ liệu không thể phân tách tuyến
tính


o
sao cho:
1
()
0
hx





( ) 0fx



12



2
1
2
w

 
0
w w 1
T
ii
yx



, i = 1, 2, … n






2
1
1
2
n
i
i
wC






 
0
w w 1
T
i i i
yx


  


1
:0
n
ii





i

  

 Support

Vector Machine.
1.4.3. Phương pháp tiếp cận của luận văn
 
cho
  (CRFs) 
. CRFs 
    
           ,     
  , 
-likelihood - 
  
                

13

Chương 2: Mô hình trường ngẫu nhiên có điều kiện




    

ls,






 



t




- 




                 
WordNet.
[18] 





14

  18     

8, 23].


2.1. Mô hình đồ thị
Cho
( , )G V E

l m  th v V l t c  v E l t c c. Trong

V X Y
v X, Y l t cc bi ng nhi bi di b c n h
tr. X  
 N
 l c i ki ngh l h
 n hai bi n c l v phn ph x su c i ki c
ch, hay
( , | ) ( | ) ( | )p a b c p a c p b c
. Nh  th bi di  t ch  l c
i ki c c phn phi c s nh n  g l  th  l, 





 
 

s

v
s
v
l tp con cc bi ng nhin tng  cu
thh nn th s
s

n.

( ) ( )
ss
s
p 

v v
(2.1)




Mô hình đồ thị vô hướng


15




 

C 
cC

()
c
c
 v

 bi ng nhin

C
v
. M h  th v  
su 
()p v
 c h 
1
()()
C
C
cC
Z
p



vv
(2.2)
               



( ) 1p 

v
v


()
cc

cC
Z




v
v
(2.3)


2.2. Mô hình trường ngẫu nhiên có điều kiện

  
i
  


 
( , )G V E


vV


v

v
-


v

Y{u|u

v, {u,v}


v


p(Y
v
| X, Y
u
, u

v, {u,v}

V) = p(Y
v
| X, Y
u
, (u,v)

E)
16





           


n

Hình 6: Mô hình đồ thị CRFs
   
()p y | x
     
1
( , , )
n
n
yy y


1
( , , )
n
n
xx x
2

()p y | x

()
( | )
()
p
p

p

x,y
yx
x
=
()
()
p
p

y'
x,y
y',x

=
1
( , )
1
( , ' )
c c c
cC
c c c
cC
Z
Z








y'
xy
xy
(2.4)
p(y|x
1
( | ) ( , )
()
c c c
cC
p
Z



y x x y
x
(2.5)
Trong 
C

l c nhn t kh nhau tng  v  e   th
(Kschis
'
( ) ( , )
cc
cC

Z




y
x x y'
(2.6)

i
, y
i-1
x;
     




1
( , , )| 1, ,
jjj
C y y j n

   x
     2 

1
1
( | ) ( , )
()

n
j
j
p
Z



y x x y
x
(2.7)
17


'
1
( ) ( , )
n
j
j
Z




y
x x y'
(2.8)
Lafferty  ngh h ti n d sau:
1

( ) exp ( , , ) ( , )
i k k i i k k i
kk
t y y s y



  



x,y x x
(2.9)
 t
k
l h chuy tr th c chu quan s x  th y
i-1
sang

i
. s
k
l thu t c to b chu quan s v tr th t v tr i trong
chu tr th.
k

v
k

l c tham s    t d li hu luy.

2y x 







 

i i k
ikk
k
iikk
st
Z
P ),(),,(exp
)(
1
)|(
1
xyxyy
x
xy

(2.10)

  









y i i k
ikk
k
iikk
stZ ),(),,(exp)(
1
xyxyyx

(2.11)


 
.
 
.
2.3. Ước lượng tham số và suy diễn CRFs
2.3.1. Ước lượng tham số cho CRFs

              
Likelihood Estimation - 
Estimation -  

 , 









 , D={(x
(i)
,y
(i)
)}
Ni 1
.  ihood












(y|x,

) :
18



( , )
,
( ) ( | , )
p x y
xy
L p y x




(2.12)

), ,,(
2,121


),(
~
yxp





 




x,y 



.
Hai t ch c h likelihood cho ph n  s d  
 c m m h
( | , )p

yx

( ) 0L


v
( ) 0L


khi v ch khi
( ) 0p 

x, y
v m
( | , ) 1p

yx

MLE s d h likelihoo x h c gi tr c th c

. Nguyn l

c  ho entropy ph bi r gi tr

s  ch sao cho n lm c  h
likelihood:
argmax ( )
ML
L



(2.13)
ML




2
 (




-likelihood):

 
,
( ) ( , )log ( | , )
xy
l p x y p y x





(2.14)
H


 Thay p(y|x,

2.3), t
  









 yx x
xstyx
,
1
1 1
log*)(
~
**),(
~
)( Zppl

n
i
n
i

(2.15)

), ,(
21 n


), ,,(
21 m

t 
    

 (t
1
(y
i-1
,y
i
,x),t
2
(y
i-1
,y
i
 s     

(s
1
(y
i
,x),s
2
(y
i
,x)
log-li    
  -


a vector gradient
  log-likelihood  








log-










 -likelihood theo 





 . 
 
k


19





k
l


)(
   
kpkp
fEfE
),|(),(
~


xyyx

(2.16)

 t
k

),|()(
~

xyx pp

 t
k

),(
~
yxp
.






 , 


 -likelihood. 




        
IIS v GIS

2.3.2. Suy diễn CRFs
 suy din trong CRFs chui tuy nht, trong
n luy n phi ln nht
p(y
t
|x). Th  ui trng
p nht vi chui trii vii
t gia chui try  lix. Chui try*
 tt nht chui d liu quan sx s m c
* argmax{ ( | )}y p y x

Vi CRFs chui tuy  gii quyt
mt hiu qu 
thun--Backwng tip cn dy mu s
hi t sau mt s p c s dng, tuy
 bin. Phn sau s   thut trong nhng thut
u qu ng rn.
Gi
( | )
j
s

x
l x sut ln nht ca chui trng th c  d j, kt th 

trng th s:

1 2 1
12
, , ,
( | ) max ( , , , | )
j
jj
y y y
s p y y y s


xx
(2.17)
c quy np l:

11
'
( | ) max ( | ). ( , ')
j j j
sS
s s s s



x x x,
(2.18)
Mng
()
j

s

lu gi tr ca j v s. Tht to thc hin nh sau:
20

1. Khi to
Gi tr ca tt c c c t trng th bt u

ti tt c c trng th c th
bt u c khi to nh sau:

11
: ( ) ( , , )
()


j
s S s s
s


    

x
(2.19)
2.  quy
Gi tr  c tip c t bng gi tr hin ti v gi tr ln nht ca tt
c c gi tr  th:

1

'
1
'
:1 : ( ) max ( '). ( , ')
( ) argmax ( '). ( , ')


jj
sS
jj
sS
s S j n s s s s
s s s s






     

x,
x,
(1.20)
3. Kt th

*
'
max ( ')
n

sS
ps



(2.21)

*
'
argmax ( ')
nn
sS
ys




4. Chui trng th ti u:
T to chui ti u bng c ln theo vt ca
t



**
11
( ) 1, 2, ,1
t t t
y y t n n



   
(2.22)

×