i
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ HƢƠNG THẢO
PHÂN TÁCH CỤM DANH TỪ CƠ SƠ
̉
TIẾNG VIỆT
SỬ DỤNG MÔ HÌNH CRFs
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
NGƢỜI HƢỚNG DẪN KHOA HỌC: TS.Nguyễn Phƣơng Thái
Hà Nội – 2010
i
MỤC LỤC
Lời cảm ơn Error! Bookmark not defined.
Tóm tắt nội dung Error! Bookmark not defined.
Lời cam đoan Error! Bookmark not defined.
Danh mục bảng số liệu iii
Danh mục hình vẽ iv
Lời mở đầu 1
Chương 1: Khái quát về bài toán phân tách cụm danh từ cơ sở 3
3
5
7
8
9
10
1.4.3. Phng p 12
Chương 2: Mô hình trường ngẫu nhiên có điều kiện 13
14
14
15
2.3. 17
2.3.1. 17
19
Chương 3: Đặc điểm cụm danh từ tiêng Việt và phương pháp xây dựng tập dữ
liệu 21
21
3.2. Ph 26
3.2.1. Ph 26
3.2.2 Phng ph 26
Chương 4: Bài toán phân tách cụm danh từ tiếng Việt sử dụng mô hình CRFs 33
33
34
ii
34
36
36
4. 40
41
Kết luận 43
Tài liệu tham khảo 45
Phụ lục: Tập nhãn từ loại và nhãn cú pháp trong Viet Treebank 49
49
49
50
50
iii
Danh mục bảng số liệu
6
6
8
23
24
34
36
37
39
40
iv
Danh mục hình vẽ
9
11
11
11
11
16
27
28
n 2 29
n 3 30
30
30
30
31
31
33
38
40
1
Lời mở đầu
World Wide Web
C
(theo
[21]).
,
Khái quát về bài toán phân tách cụm danh từ
2
Mô hình trường ngẫu nhiên có điều kiện CRFs -
Đặc điểm cụm danh từ tiếng Việt và phương pháp xây dựng tập dữ
liệu
Bài toán phân tách cụm danh từ tiếng Việt sử dụng mô hình CRFs
3
Chương 1: Khái quát về bài toán phân tách cụm danh từ cơ sở
1.1. Giới thiệu bài toán
Tron
N
, H
CoNLL
1
H
2
.
. C
nghin c v b to n cha
cng b r r.
-
[NP He] [VP reckons] [NP the current account deficit] [VP will narrow] [PP to]
: ;
, t d li
1
2
4
ti Anh WSJ 15-18 c t 51% l c danh t [12]
trung gian
.
P
(non-recursive noun phrase) hay
hau (non-overlappling noun phrase) .
.
, m-
c
.
5
X
-t
V, ph
.
s
1.2. Một số nghiên cứu về bài toán phân tách cụm danh từ cơ sở
7
[I begin] [with an intuition] : [when I read] [a sentence], [I read it] [a chunk] [at
a time]
T
Sau Abney
1993) (theo [19]) P
formation-Based Learning - TBL)
v F1 b 92.03%
[19
6
Sau
, -
. C
(Conditional Random Fields, CRFs),
. M
nay
.
1.
Bảng 1: Một số kết quả bài toán phân tách cụm danh từ cơ sở tiếng Anh
Tác giả
Phương pháp
F1
Hieu, Minh 2006 [25]
96.74
Kudo, Matsumoto 2001 [34]
95.77
Sang 2000 [13]
K h c phng ph
94.90
Sha, Pereira 2003 [31]
94.38
so
,
15
phn t c t 10].
H Qu c k qu r cao v CRFs khi phn t c danh t c
s.
2.
Bảng 2: Một số kết quả bài toán phân tách cụm danh từ cơ sở ngôn ngữ khác
Tác giả
Phương pháp
Ngôn ngữ
F1
Chen, Zang, Isahara 2006
[36]
CRFs
89.79
Xu, Zong, Zhao 2006 [15]
89.27
7
Avinesh, Karthik 2007 [10]
CRFs
(phn t c t)
82.74
80.97
79.15
Lee, Kim, Lee [38]
CRFs
H Qu
94.27
C
cho
, do v
Hi
,
1.3. Một số phương pháp biểu diễn dữ liệu
{I, O, B}. Sau n khi gi
thi ba bi th 35] th phng ph bi di
c Ramshaw v Marcus g l IOB1. B phng ph
gi nhau c g nh cho t khng thu c nh O; v
8
.
.
.
y l m s
.
Bảng 3: Ví dụ về các phương pháp biểu diễn dữ liệu
Từ
Nhãn từ loại
IOB1
IOB2
IOE1
IOE2
N-H
I
B
I
I
V-H
I
I
I
I
GDP
Ny
I
I
I
E
E-H
O
O
O
O
N-H
I
B
I
I
TP
Ny
I
I
I
E
V-H
O
O
O
O
12%
M
I
B
E
E
N-H
B
B
I
I
2005
M
I
I
I
E
1.4. Một số phương pháp giải quyết bài toán
P
9
Hi nay t t nhi phng ph gi quy bi to phn t c danh t
c s l
(rule- -
)
Ph n s tr b hai thu to h m l h d v bi v m
vector h tr. Thu to h d v bi l phng ph h m ti
d v k qu kh t. M
vector h tr l m trong nh phng ph em l k qu t nh cho bi
to n.
1.4.1. Thuật toán học dựa vào biến đổi
-based learning hay Transformation-
based error-
[11]
r
Hình 1: Quá trình huấn luyện của thuật toán TBL
H d o c s
T d li hi t
gi c lu
c
L ch lu
d lu
T m lu
T nh
T lu k qu
10
(h 1)
(
trong
1.4.2. Thuật toán máy vector hỗ trợ
,
[15,33,34]
-
Cho t d li h
( , ), 1, ,
ii
D x y i n
v
m
i
xR
v
1,1
i
y
l m s
nguyn x
i
x
l d li dng hay m. M t li
i
x
g l d li dng
n n thu l
i
c
;
i
x
g l d li m n n khng thu l
i
c
0
: ( ) 0
T
x f x w w
Trong
m
wR
v
0
wR
vai tr l tham s c m h. H phn l
nh ph
: 0,1
m
hR
c thu b c x nh d c f(x) :
11
Hình 2: Siêu phẳng có lề hẹp
Hình 3: Siêu phẳng có lề rộng
2 v h 3.
Hình 4: Dữ liệu có nhiễu
Hình 5: Dữ liệu không thể phân tách tuyến
tính
o
sao cho:
1
()
0
hx
( ) 0fx
12
2
1
2
w
0
w w 1
T
ii
yx
, i = 1, 2, … n
2
1
1
2
n
i
i
wC
0
w w 1
T
i i i
yx
1
:0
n
ii
i
Support
Vector Machine.
1.4.3. Phương pháp tiếp cận của luận văn
cho
(CRFs)
. CRFs
,
,
-likelihood -
13
Chương 2: Mô hình trường ngẫu nhiên có điều kiện
ls,
t
-
WordNet.
[18]
14
18
8, 23].
2.1. Mô hình đồ thị
Cho
( , )G V E
l m th v V l t c v E l t c c. Trong
V X Y
v X, Y l t cc bi ng nhi bi di b c n h
tr. X
N
l c i ki ngh l h
n hai bi n c l v phn ph x su c i ki c
ch, hay
( , | ) ( | ) ( | )p a b c p a c p b c
. Nh th bi di t ch l c
i ki c c phn phi c s nh n g l th l,
s
v
s
v
l tp con cc bi ng nhin tng cu
thh nn th s
s
n.
( ) ( )
ss
s
p
v v
(2.1)
Mô hình đồ thị vô hướng
15
C
cC
()
c
c
v
bi ng nhin
C
v
. M h th v
su
()p v
c h
1
()()
C
C
cC
Z
p
vv
(2.2)
( ) 1p
v
v
()
cc
cC
Z
v
v
(2.3)
2.2. Mô hình trường ngẫu nhiên có điều kiện
i
( , )G V E
vV
v
v
-
v
Y{u|u
v, {u,v}
v
p(Y
v
| X, Y
u
, u
v, {u,v}
V) = p(Y
v
| X, Y
u
, (u,v)
E)
16
n
Hình 6: Mô hình đồ thị CRFs
()p y | x
1
( , , )
n
n
yy y
1
( , , )
n
n
xx x
2
()p y | x
()
( | )
()
p
p
p
x,y
yx
x
=
()
()
p
p
y'
x,y
y',x
=
1
( , )
1
( , ' )
c c c
cC
c c c
cC
Z
Z
y'
xy
xy
(2.4)
p(y|x
1
( | ) ( , )
()
c c c
cC
p
Z
y x x y
x
(2.5)
Trong
C
l c nhn t kh nhau tng v e th
(Kschis
'
( ) ( , )
cc
cC
Z
y
x x y'
(2.6)
i
, y
i-1
x;
1
( , , )| 1, ,
jjj
C y y j n
x
2
1
1
( | ) ( , )
()
n
j
j
p
Z
y x x y
x
(2.7)
17
'
1
( ) ( , )
n
j
j
Z
y
x x y'
(2.8)
Lafferty ngh h ti n d sau:
1
( ) exp ( , , ) ( , )
i k k i i k k i
kk
t y y s y
x,y x x
(2.9)
t
k
l h chuy tr th c chu quan s x th y
i-1
sang
i
. s
k
l thu t c to b chu quan s v tr th t v tr i trong
chu tr th.
k
v
k
l c tham s t d li hu luy.
2y x
i i k
ikk
k
iikk
st
Z
P ),(),,(exp
)(
1
)|(
1
xyxyy
x
xy
(2.10)
y i i k
ikk
k
iikk
stZ ),(),,(exp)(
1
xyxyyx
(2.11)
.
.
2.3. Ước lượng tham số và suy diễn CRFs
2.3.1. Ước lượng tham số cho CRFs
Likelihood Estimation -
Estimation -
,
, D={(x
(i)
,y
(i)
)}
Ni 1
. ihood
(y|x,
) :
18
( , )
,
( ) ( | , )
p x y
xy
L p y x
(2.12)
), ,,(
2,121
),(
~
yxp
x,y
.
Hai t ch c h likelihood cho ph n s d
c m m h
( | , )p
yx
( ) 0L
v
( ) 0L
khi v ch khi
( ) 0p
x, y
v m
( | , ) 1p
yx
MLE s d h likelihoo x h c gi tr c th c
. Nguyn l
c ho entropy ph bi r gi tr
s ch sao cho n lm c h
likelihood:
argmax ( )
ML
L
(2.13)
ML
2
(
-likelihood):
,
( ) ( , )log ( | , )
xy
l p x y p y x
(2.14)
H
Thay p(y|x,
2.3), t
yx x
xstyx
,
1
1 1
log*)(
~
**),(
~
)( Zppl
n
i
n
i
(2.15)
), ,(
21 n
), ,,(
21 m
t
(t
1
(y
i-1
,y
i
,x),t
2
(y
i-1
,y
i
s
(s
1
(y
i
,x),s
2
(y
i
,x)
log-li
-
a vector gradient
log-likelihood
log-
-likelihood theo
.
k
19
k
l
)(
kpkp
fEfE
),|(),(
~
xyyx
(2.16)
t
k
),|()(
~
xyx pp
t
k
),(
~
yxp
.
,
-likelihood.
IIS v GIS
2.3.2. Suy diễn CRFs
suy din trong CRFs chui tuy nht, trong
n luy n phi ln nht
p(y
t
|x). Th ui trng
p nht vi chui trii vii
t gia chui try lix. Chui try*
tt nht chui d liu quan sx s m c
* argmax{ ( | )}y p y x
Vi CRFs chui tuy gii quyt
mt hiu qu
thun--Backwng tip cn dy mu s
hi t sau mt s p c s dng, tuy
bin. Phn sau s thut trong nhng thut
u qu ng rn.
Gi
( | )
j
s
x
l x sut ln nht ca chui trng th c d j, kt th
trng th s:
1 2 1
12
, , ,
( | ) max ( , , , | )
j
jj
y y y
s p y y y s
xx
(2.17)
c quy np l:
11
'
( | ) max ( | ). ( , ')
j j j
sS
s s s s
x x x,
(2.18)
Mng
()
j
s
lu gi tr ca j v s. Tht to thc hin nh sau:
20
1. Khi to
Gi tr ca tt c c c t trng th bt u
ti tt c c trng th c th
bt u c khi to nh sau:
11
: ( ) ( , , )
()
j
s S s s
s
x
(2.19)
2. quy
Gi tr c tip c t bng gi tr hin ti v gi tr ln nht ca tt
c c gi tr th:
1
'
1
'
:1 : ( ) max ( '). ( , ')
( ) argmax ( '). ( , ')
jj
sS
jj
sS
s S j n s s s s
s s s s
x,
x,
(1.20)
3. Kt th
*
'
max ( ')
n
sS
ps
(2.21)
*
'
argmax ( ')
nn
sS
ys
4. Chui trng th ti u:
T to chui ti u bng c ln theo vt ca
t
**
11
( ) 1, 2, ,1
t t t
y y t n n
(2.22)