Tải bản đầy đủ (.docx) (100 trang)

Luận văn thạc sĩ phân tích cú pháp phụ thuộc tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (715.75 KB, 100 trang )

ĐAI HOC QUOC GIA HÀ N®I
TRƯèNG ĐAI HOC KHOA HOC TU NHIấN


H My Linh

PHN TCH C PHP PHU THUđC
TIENG VIfiT

LUắN VĂN THAC SĨ KHOA HOC

Hà N®i - 2015


ĐAI HOC QUOC GIA HÀ N®I
TRƯèNG ĐAI HOC KHOA HOC TU NHIÊN
——————————

Hà My Linh

PHÂN TÍCH CÚ PHÁP PHU THU®C
TIENG VIfiT

Chun ngành: Cơ so tốn cho tin HQc
Mã so: 60460110

LU¾N VĂN THAC SĨ KHOA HOC

NGƯèI HƯéNG DAN KHOA HOC: TS Lê Hong Phương



Lài cam ơn
Em xin gui lịi cam ơn tói các thay giáo, cơ giáo, cán b® khoa Tốn - Cơ Tin HQc, trưòng Đai HQc Khoa HQc tn nhiên, Đai hQc Quoc gia H Nđi ó tắn
tỡnh day do v giúp đõ em trong suot thòi gian HQc cao HQc v lm viắc tai Bđ
mụn Tin HQc.
Trong quỏ trỡnh thnc hi¾n lu¾n văn này cũng như trong suot nhung năm HQc
vùa qua, em đã nh¾n đưoc sn chi bao và hưóng dan nhi¾t tình cna TS. Lê Hong
Phương và TS. Nguyen Th% Minh Huyen. Em xin gui tói Thay Cơ lòi cam ơn
chân thành nhat.
Em cũng xin gui lòi cam ơn tói gia đình, ban bè đã đ®ng viên, khuyen khích
và tao đieu ki¾n cho em trong q trình HQc t¾p và thnc hi¾n lu¾n văn này.
M¾c dù đã co gang đe hồn thành lu¾n văn, nhưng do han che ve kinh
nghi¾m và thịi gian, nên lu¾n văn khơng the tránh khoi nhung thieu sót.
Em mong nh¾n đưoc sn cam thơng và nhung ý kien đóng góp cna các thay
cơ và các ban.
Hà N®i, tháng 9 năm 2015
HQc viên

Hà My Linh

iii


Mnc lnc
Danh sách bang

iv

Danh sách hình ve

v


Lài ma đau

1

1 Tong quan ve cú pháp phn thu®c

3

1.1 Cú pháp phu thu®c . . . . . . . . . . . . . . . . . . . . . . . . .3
1.1.1 Đ%nh nghĩa cú pháp phu thu®c . . . . . . . . . . . . . . .3
1.1.2 Bieu dien cú pháp phu thu®c . . . . . . . . . . . . . . .5
1.2 Các thu¾t tốn phân tích cú pháp phu thu®c . . . . . . . . . . .7
1.2.1 Phân tích cú pháp phu thu®c dna trên đo th% . . . . . .9
1.2.2 Phân tích cú pháp phu thu®c dna trên các bưóc chuyen .11
2 Xây dEng t¾p nhãn phn thuđc cho tieng Viắt
2.1

16

Kho ngu liắu tieng Viắt - Viettreebank . . . . . . . . . . . . . .16

2.2 Tắp nhón quan hắ phu thuđc đa ngôn ngu . . . . . . . . . . . .19
2.3 T¾p nhãn quan h¾ phu thuđc cho tieng Viắt

. . . . . . . . .23
. .

3 ThEc nghi¾m
3.1


Các cơng cu phân tích cú pháp phu thu®c . . . . . . . . . . . .33
3.1.1 MSTParser . . . . . . . . . . . . . . . . . . . . . . . . .33
3.1.2 MaltParser . . . . . . . . . . . . . . . . . . . . . . . . .35

3.2 Thu¾t tốn xây dnng ti nguyờn tieng Viắt tn đng . . . . . . .39
3.2.1 T¾p lu¾t tìm phan tu trung tâm . . . . . . . . . . . . . .40

33


3.2.2 Thuắt toỏn chuyen tn đng tự Viettreebank sang cỳ
phỏp phu thuđc..............................................................41
3.3 Ket qua thnc nghiắm.................................................................45
Ket luắn

48

Cỏc cụng trỡnh cụng bo liên quan đen lu¾n văn

49

Tài li¾u tham khao

50

Phn lnc

54



Danh sách bang
1.1 Ket qua phân tích cú pháp phu thuđc cna hai mụ hỡnh cho hắ
thong CoNLL-X (Buchholz v Marsi 2006).
8
1.2 Các đ¾c trưng dùng trong MSTParser......................................10
1.3 Các đ¾c trưng dùng trong MaltParser......................................14
1.4 Ví du ve phân tích cú pháp dna vào các bưóc chuyen..............15
2.1 T¾p nhãn tù loai tieng Vi¾t........................................................18
2.2 T¾p nhãn cum tù tieng Vi¾t......................................................19
2.3 T¾p nhãn m¾nh đe tieng Vi¾t..................................................19
2.4 T¾p nhãn chúc năng cú pháp tieng Viắt. .......................................20
2.5 So sỏnh tắp nhón phu thuđc tieng Viắt vúi tắp nhón phu thuđc
a ngụn ngu (UD) v tắp nhón phu thuđc tieng Anh (SD)........32
3.1 Ket qua cna MSTParser.............................................................35
3.2 Ket qua cna MaltParser..............................................................39
3.3 T¾p quy tac xác đ%nh phan tu trung tâm.................................40
3.4 Câu tieng Vi¾t theo đ%nh dang CoNLL-X chưa đưoc phân tích. 45
3.5 Câu tieng Vi¾t theo đ%nh dang CoNLL-X đã đưoc phân tích
phu thu®c...................................................................................46
3.6 Ket qua phõn tớch cỳ phỏp phu thuđc vúi tắp du liắu 2700.....46
3.7 Ket qua phân tích cú pháp phu thu®c vói t¾p du li¾u 6546 câu .47


Danh sách hình ve
1.1 Cau trúc cum tù.........................................................................4
1.2 Đo th% phu thu®c cna m®t câu tieng Anh................................6
1.3 Ví du ve phân tích cú pháp dna trên đo th%.............................11
3.1 Cú pháp thnh phan cna mđt cõu tieng Viắt...........................41



Lài ma đau
Xu lí ngơn ngu tn nhiên (Natural Language Processing - NLP) l mđt nhỏnh
trong trớ tuắ nhõn tao, t¾p trung các úng dung nham giúp các h¾ thong máy
tính hieu và xu lí đưoc ngơn ngu cna con ngưịi. Xu lí ngơn ngu tn nhiên là m®t
trong nhung van đe khó và thu hút rat nhieu nhóm nghiên cúu vì nó liên quan
đen vi¾c phai hieu ý nghĩa ngơn ngu - là cơng cu hồn hao nhat cna tư duy và
giao tiep. Phân tích cú pháp là m®t trong nhung van đe quan TRQNG trong lĩnh
vnc xu lí ngơn ngu tn nhiên. Vói m®t b® phân tích cú pháp tot, chúng ta có the
tích hop vào nhieu úng dung trong xu lí ngơn ngu tn nhiên như d%ch máy, tóm
tat văn ban, các h¾ thong hoi đáp, trích cHQN thơng tin,... đe tăng tính chính
xác cna các úng dung đó.
Trong phân tích cú pháp, phân tích cú pháp phu thu®c nghiên cúu ve sn phu
thu®c giua các tù trong câu dna trên ngu nghĩa. Gan đây, phân tích cú pháp
phu thu®c thu hút đưoc sn quan tâm cna nhieu nhóm nghiên cúu ngơn ngu tn
nhiên trên the giói boi quan hắ phu thuđc giua hai tự trong cõu nghiên
cúu khu nh¾p nhang ngu nghĩa cna câu và cú pháp này có kha năng mơ hình
hóa các ngơn ngu có tr¾t tn tù tn do. Đoi vói nhieu ngơn ngu như tieng Anh,
tieng Pháp, tieng Trung,... đã có rat nhieu nghiên cúu và các cơng cu phân
tích cú pháp phu thuđc vúi hiắu qua cao. Tuy nhiờn, cỏc tiep c¾n cho bài tốn
này hau het dna trên HQc máy và địi hoi kho ngu li¾u vói nhieu thơng tin ve
tự loai v quan hắ phu thuđc nờn cú rat ít công bo nghiên cúu ve phân tích cú
pháp phu thuđc tieng Viắt.
Hiắn nay, cỏc cụng cu phõn tớch cỳ phỏp phu thuđc cho tieng Viắt ó at
oc mđt so ket qua nhat đ%nh. Nhóm tác gia Nguyen Lê Minh v cđng sn
[1] su dung thuắt toỏn phõn tớch cỳ pháp dna vào đo th%, thnc nghi¾m vói
cơng cu
8



MSTParser v bđ du liắu khỏ han che gom 450 câu làm bang tay vói đ®
chính xác là 63.11%. Nhóm tác gia Lê Hong Phương và c®ng sn [20] nghiên
cúu phân tích cú pháp phu thu®c dna vào văn pham ket noi cây tù vnng
hóa, thnc nghi¾m huan luy¾n vói 8637 câu trong kho ngu li¾u cú pháp
thành phan tieng Viắt, phõn tớch 441 cõu cú đ di nho hn 30 tù và đat đ®
chính xác là 73.21%. Gan đây nhat là cơng bo cna nhóm nghiên cúu cna tác
gia Nguyen Quoc Đat và c®ng sn [7], tác gia đã chuyen tn đng kho ngu
liắu cỳ phỏp thnh phan sang kho ngu liắu cỳ phỏp phu thuđc, cựng vúi
tắp 33 nhón quan hắ phu thuđc vúi đ chớnh xỏc l 71.66%. Tuy nhiên,
hau het các nghiên cúu đoi vói tieng Viắt eu cha thong nhat oc tắp
nhón phu thuđc, cỏc nhãn phu thu®c chưa đưoc mơ ta m®t cách rõ ràng và
hi¾u qua phân tích cịn khá han che.
Lu¾n văn se trình bày ve van đe phân tích cú pháp phu thuđc, tắp trung
vo viắc xõy dnng tắp nhón phu thuđc cho tieng Viắt v thu nghiắm trờn
hai cụng cu phân tích cú pháp là MaltParser và MSTParser. N®i dung chớnh
cna luắn vn gom cú 3 chng:
ã Chng 1. Tong quan: Chương này trình bày nhung van đe liên quan túi
cỳ phỏp phu thuđc, cỏc khỏi niắm c ban ve phõn tớch cỳ phỏp phu thuđc.
V mđt so nhung thuắt toỏn phõn tớch cỳ phỏp phu thuđc tot nhat hiắn
nay.
ã Chng 2. Xõy dEng tắp nhón phn thuđc cho tieng Vi¾t: Chương
này trình bày ve vi¾c nghiên cúu và xây dnng tắp nhón phu thuđc cho
tieng Viắt cú oi sỏnh vúi tắp nhón phu thuđc a ngụn ngu cna nhúm
nghiờn cúu trưịng Đai HQc Stanford. Ngồi ra, Chương này cũng so
sánh sn khác nhau giua hai b® nhãn đe thay oc nhung ắc trng
trong tieng Viắt.
ã Chng 3: ThEc nghiắm: Chương này trình bày ve m®t so cơng cu
phân tích cỳ phỏp phu thuđc hiắu qua nhat hiắn nay: MSTParser v
MaltParser. Tiep theo l thuắt toỏn chuyen tn đng tự kho ngu li¾u cú
pháp thành phan Viettreebank sang kho ngu liắu cỳ phỏp phu thuđc.

Tien hnh thnc nghiắm phõn tớch cỳ phỏp phu thuđc cho tieng Viắt vúi


hai cơng cu trên, sau đó so sánh ket qua đat đưoc giua nhung t¾p du
li¾u khác nhau và đưa ra ket lu¾n.


Chương 1

Tong quan ve cú pháp phn thu®c
Chương này se trình bày các kien thúc cơ so su dung trong các phan
sau, đ¾c bi¾t là khái ni¾m liên quan tói phõn tớch cỳ phỏp phu thuđc v
cỏc thuắt toỏn phõn tích cú pháp phu thu®c đien hình.

1.1

Cú pháp phn thu®c

Cú pháp là chn đe nghiên cúu cna hai c®ng đong gom nhung ngưịi làm ngơn
ngu và nhung ngưịi làm tin HQc. Cú pháp vùa là đoi tưong nghiên cúu, vùa là
m®t trong các cap đ® can mơ ta đoi vói c®ng đong nhung ngưịi làm ngơn ngu.
Đoi vói c®ng đong nhung ngưịi làm tin HQc, can làm cho máy tính phân tích
đưoc cú pháp vói hai muc tiêu là xây dnng các úng dung, giai quyet m®t so bài
tốn thnc te, đoi tưong nghiên cúu cna HQ là các h¾ hình thúc và các thu¾t tốn.
1.1.1

Đ%nh nghĩa cú pháp phn thu®c

Kien thúc và ví du trong phan này trình bày theo tài li¾u cna các tác gia
Joakim Nivre và Johan Hall cùng c®ng sn [9].

Cú pháp là quy tac dùng các tieng đe đ¾t câu văn cho chính xác. Đe su
dung ngôn ngu linh hoat, ta phai hieu rõ ve cú pháp. Muon hieu rõ ve cú
pháp, ta phai hieu the nào là câu, các loai câu, m¾nh đe, các loai mắnh e,
cựng cau trỳc cna chỳng.
Vúi mđt cõu cú the có hai cách phân tích cú pháp: phân tích cú pháp thành


phan và phân tích cú pháp phu thu®c.
Đ%nh nghĩa 1.1.1 (Cú pháp thành phan). Cú pháp thành phan là cau trúc
câu theo thú b¾c các thành phan cna câu, su dung cau trúc cum tù. Ví du:
Hình 1.1.

Hình 1.1: Cau trúc cum tù.

Đ%nh nghĩa 1.1.2 (Cú pháp phu thu®c). Cú phỏp phu thuđc l cau trỳc bieu
dien quan hắ giua các tù trong câu dna trên ngu nghĩa.
Quan h¾ phu thuđc giua hai tự vnng l quan hắ nh% phõn khụng oi xỳng.
Cỏc quan hắ phu thuđc ny oc ắt tên đe làm rõ quan h¾ giua hai tù trong
câu. Chúng ta cũng có the đ%nh nghĩa m®t cách hình thúc như sau: cú pháp phu
thu®c cna m®t câu cho trưóc là m®t đo th% có hưóng vói goc root là m®t
đsnh gia, thưịng đưoc chèn vào phía bên trái câu, các đinh còn lai là các tù cna
câu. Cau trỳc phu thuđc oc xỏc %nh boi moi quan hắ giua m®t tù trung
tâm (head ) và tù phu thu®c (dependent ) cna nó. Theo quy ưóc phő bien
trong các ti liắu ve cỳ phỏp phu thuđc thỡ tự nam o goc cna mũi tên là tù
trung tâm, tù nam o đau mũi tên là tù phu thu®c. Cau trúc phu thu®c thưịng
đơn gian hơn cau trúc thành phan, de dàng hơn cho ca ngưịi và máy khi HQc
m®t cau trúc cú pháp. Hơn nua, cau trúc phu thu®c thích hop hơn vói các
ngơn ngu có tr¾t tn tù tn do, như tieng Séc hay Thő Nhĩ Kì. Tuy nhiên,
khơng phai vì the mà các
ngơn ngu có tr¾t tn tù tn do thì ln dùng cú pháp phu thu®c và ngưoc lai.



Bài tốn phân tích cú pháp phn thu®c


Phân tích cú pháp phu thu®c đưa ra mơ ta ve quan h¾ và vai trị ngu
pháp cna các tù trong câu, đong thịi đưa ra hình thái cna câu. Bài tốn
phân tích cú pháp phu thu®c là tìm đo th% phu thu®c cho m®t câu. Đau vào
cna bài tốn là câu đã đưoc tách tù và gán nhãn tù loai, trong đó moi tù có
đ¾c điem hình thái xác đ%nh. Muc tiêu cna bài tốn là tìm ra phương pháp
sinh đo th% phu thu®c chính xác nhat cho m®t câu đau vào, nghĩa là làm
cnc đai so cung chính xác trong đo th% và so nhãn gán đúng cho các cung.
Ta có:
• Đau vào:
– Câu x = w1, w2, ..., wn đã đưoc tien xu lý, tách tù và gán nhãn tù loai.
– Kho ngu li¾u gom các câu đã đưoc gán nhãn phu thu®c (phuc vu
cho q trình huan luyắn trong cỏc thuắt toỏn).
ã au ra: o th% phu thu®c cna câu x.
1.1.2

Bieu dien cú pháp phn thu®c

Cho m®t câu x gom n tù w1, w2, ..., wn, khi đó ta se kí hi¾u x như sau:
x = (w1, w2, ..., wn).
Trong phân tích cú pháp phu thu®c, cú pháp phu thu®c cna m®t câu đưoc
bieu dien boi m®t đo th% có hưóng, các đinh trong đo th% tương úng vói các
tù cna m®t câu, các cung trong đo th% đưoc gán nhãn, các nhãn cna cung
tương úng vói loai phu thu®c giua hai tù.
Đ%nh nghĩa 1.1.3 (Đo th% phu thuđc). Cho mđt tắp L = {r1, ..., r|L|} các
loai phu thu®c (các nhãn cung), đo th% phu thu®c cna m®t câu x = (w1, ...,

wn) là m®t đo th% có hưóng đưoc gán nhãn G = (V, E, R), trong đó:
1. V = Zn+1.
2. E ⊆ V × V.
3. R là m®t hàm xác đ%nh nhãn cung.


Tắp inh V l mđt tắp Zn+1 = {0, 1, 2, ..., n}, n ∈ Z + , là t¾p so ngun
khơng âm tăng dan tói n. Đieu này có nghĩa là tat ca các tù trong câu là m®t
đinh (1 i n) v cú mđt inh ắc bi¾t 0, khơng tương úng vói bat kỳ tù
nào cna câu và ln là goc cna đo th% phu thu®c. Su dung V + là t¾p tat ca
các đinh tương úng vói các tù cna câu cu the x = (w1, ..., wn). Thoa mãn: |V
+
| = n và
|V | = n + 1.
Tắp hop cỏc cung E l mđt c¾p (i, j), trong đó i, j là các đinh, kớ hiắu i
j cú ngha l mđt cung noi giua đinh i và đinh j, khi đó ta có: (i, j) ∈ E.
Kí hi¾u i →∗ j khi và chi khi i = j hoắc cú mđt cung noi tù đinh i đen đinh j.
Hàm R chi m®t loai phu thu®c r ∈ L tói moi cung e ∈ E. Kớ hiắu i r j
cú ngha l cú mđt cung có nhãn r ket noi đinh i vói đinh j (ví du i → j và
R((i, j)) = r).
Tù w0 là tù đưoc thêm vào ngay đau cna câu và không bő nghĩa cho bat cú
tù nào trong câu, đó chính là đinh goc cna đo th%. Moi wi bieu dien cho m®t
tù, m®t dau câu, m®t phu to, tien to ho¾c bat cú hình v% nào trong câu. Quy
ưóc 0 (tương úng vói tù w0) ln là goc cna đo th% phu thu®c cna câu can
phân tích. Ví du: Đo th% phu thu®c cna câu "Bills on ports and immigration
were submitted by Senator Brownback, Republican of Kansas" trong Hình 1.2.

Hình 1.2: Đo th% phu thu®c cna m®t câu tieng Anh.

Trong ví du trên, t¾p L = {nsubjpass, auxpass, prep, pobj, nn, cc, conj, appos}



l cỏc quan hắ phu thuđc cna cỏc tự trong câu, và cũng là các nhãn cung
cna đo th% phu thu®c. Các tù o goc mũi tên là các tù trung tâm, các tù o
đau mũi tên là các tù phu thu®c. Vói m®t cung: “submitted −→ Bills”, thì
“submitted” là tù trung tâm, “Bills” là tù phu thu®c và quan hắ phu thuđc
giua hai tự ny oc bieu th% bang nhãn phu thu®c nsubjpass.
Đ%nh nghĩa 1.1.4 (Đo th% phu thu®c xây dnng đúng). M®t đo th% phu
thu®c G xây dnng đúng neu và chi neu:
1.Đinh 0 là goc ( ROOT ).
2. G liên thơng yeu (CONNECTEDNESS ).
3.MQI đinh đeu có nhieu nhat m®t tù trung tâm, túc là neu i → j thì vói

m®t tù bat kì khác trong câu, $ k thoa mãn k ƒ= i và k → j (SINGLEHEAD ).
4.Các đo th% G là khơng có chu trình, túc là có i → j thì $j →∗ i

(ACYCLIC- ITY ).
Ngồi các tính chat trên cna m®t đo th% phu thu®c, hau het các đo th%
cịn thoa mãn đieu ki¾n xa anh. Các đo th% là xa anh, neu như có i → j thì
i →∗ k,
∀k thoa mãn i ≤ k ≤ j ho¾c j ≤ k ≤ i (PROJECTIVITY ). Tuy nhiên,
không phai tat ca các cõu eu thoa món ieu kiắn ny nờn mđt so thu¾t
tốn đưoc phát trien đe giai quyet van đe khơng xa anh trong phân tích
cú pháp phu thu®c.
Nhị cách mơ hình hóa như trên, cú pháp phu thu®c bieu dien đưoc
nhung ngơn ngu có tr¾t tn tù tn do, đây là đieu mà cú pháp cau trúc cum
(von phù hop vói nhung ngơn ngu có nhieu quy tac ch¾t che trong cau
thành câu) khơng làm đưoc. Tuy v¾y, khơng có nghĩa là phân tích ngơn ngu
có tr¾t tn tù xác đ%nh thì chi dùng cau trúc cum hay phân tích ngơn ngu có
tr¾t tn tù tn do thì chi dùng cau trỳc phu thuđc.


1.2

Cỏc thuắt toỏn phõn tớch cỳ phỏp phn thu®c


Kien thúc trong phan này trình bày theo tài li¾u cna các tác gia Joakim Nivre
và Johan Hall cùng c®ng sn [9], Ryan McDonald cùng c®ng sn [21], [22].
Có hai phương pháp phân tích cú pháp phu thu®c cơ ban sau:


• Phân tích cú pháp phu thu®c dna vào đo th%: phân tích cú pháp phu
thu®c thơng qua tham so hóa mơ hình phu thu®c dna vào các đo th%
con v huan luyắn cỏc tham so trờn ton bđ cỏc đo th%. Su dung suy lu¾n
tồn cuc trong h¾ thong đe tìm nhung đo th% có TRQNG so cao nhat
trong so các cách thiet l¾p tat ca các đo th%. Mơ hình phân tích cú
pháp phu thu®c dna trên đo th% oc Eisner (1996), McDonald cựng
cđng sn (2005) phỏt trien.
ã Phân tích cú pháp phu thu®c dna vào bưóc chuyen: phân tích cú pháp
phu thu®c thơng qua các bưóc chuyen tù trang thái phân tích này tói
trang thái phân tích khác. Các tham so trong mơ hình thưịng đưoc
huan luy¾n su dung kĩ thu¾t phân lóp chuan đe dn đốn búc chuyen
tiep theo tự mđt tắp hop cỏc búc chuyen trúc ú. Su dung suy luắn
cuc bđ, hắ thong bat đau tù m®t trang thái ban đau co đ%nh và xây
dnng các đo th% bang hàm điem chuyen đői cao nhat tai moi trang thỏi
cho en khi mđt ieu kiắn đưoc đáp úng. Mơ hình phân tích cú pháp
phu thu®c dna trên các bưóc chuyen đưoc Nivre cùng c®ng sn (2004),
Yamada và c®ng sn (2003) phát trien.
Ca hai phương pháp đeu đưa ra ket qua phân tích vói đ® chính xác
tương đương nhau, như đưa ra trong Bang 1.1 m®t so ngơn ngu khác

nhau.
Bang 1.1: Ket qua phân tích cú phỏp phu thuđc cna hai mụ hỡnh cho hắ thong CoNLL-X (Buchholz
v Marsi 2006).
Ngụn ngE

Graph-based
(McDonald cựng cđng sn)

Arabic
Bulgarian
Chinese
Czech
Danish
Dutch
German
Japanese
Portuguese
Slovene
Spanish

66.91%
87.57%
85.90%
80.18%
84.79%
79.19%
87.34%
90.71%
86.82%
73.44%

82.25%

TransitionSo cõu
So nhón
based
tẳp huan luyẳn phn
(Nivre cựng cđng sn)
thuđc
66.71%
1500
27
87.41%
14400
18
86.92%
57000
82
78.42%
72700
78
84.77%
5200
52
78.59%
13300
26
85.82%
39200
46
91.65%

17000
7
87.60%
9100
55
70.30%
1500
25
81.29%
3300
21


Swedish
Turkish

82.55%
63.19%

84.58%
65.68%

11000
5000

56
25

Ngồi hai phương pháp khá phő bien và đat hi¾u qua cao vói nhieu ngơn ngu



trên, phân tích cú pháp phu thu®c cịn đưoc phát trien dna vào m®t phương
pháp mói, đưoc tác gia Danqi Chen và Christopher D. Manning xây dnng và
thu nghi¾m vào năm vào năm 2014. Phương pháp này mang lai hi¾u qua
khá cao (92.00%) khi thu nghi¾m vói Penntreebank [6]. Ket qua cna
phương pháp này đoi vói tieng Anh tot hơn 2% so vói phân tích cú pháp phu
thu®c dna vào bưóc chuyen và khoang 0.2% vói thu¾t tốn phân tích cỳ
phỏp phu thuđc dna vo o th%. Tuy nhiờn, luắn văn t¾p trung trình bày
hai phương pháp dna trên đo th% và dna trên các bưóc chuyen, thnc
nghi¾m vói hai cơng cu tương úng vói hai phương pháp này và đưa ra so
sánh, nh¾n xét trong Chương 3.
1.2.1

Phân tích cú pháp phn thu®c dEa trên đo th%

Cho m®t câu đau vào x = w0, w1, ..., wn có t¾p đinh là Vx, ta đ%nh nghĩa
lai t¾p cung Ex cna đo th% phu thu®c cho câu x như sau:
Ex = {(i, j, r)|i, j ∈ Vx và r ∈ L}
Gx là nhung đo th% phu thu®c đúng cna câu x. D(Gx) là nhung đo th%
con cna Gx. Vì Gx chúa tat ca nhung cung đưoc gán nhãn, t¾p D(Gx) phai
chúa tat ca nhung đo th% phu thu®c cna x.
Gia su đã ton tai m®t hàm tính TRQNG so cna canh phu thuđc, s : V ìV ìL
R. %nh ngha TRQNG so cna m®t đo th% là tőng các TRQNG so cna canh trong đo
th% đó:

Σ
s(Gx = (Vx, Ex)) = (i,j,r)∈Ex s(i, j, r).
TRQNG so cna m®t canh, s(i, j, r) bieu dien kha nng tao ra quan hắ phu

thuđc r giua tù trung tâm wi vói tù phu thu®c wj trong đo th% phu thu®c.

TRQNG so cna canh đưoc đ%nh nghĩa là tích cna véc-tơ đ¾c trưng f vói véc-tơ
tham so w: s(i, j, r) = w.f (i, j, r).
Các đ¾c trưng đai di¾n f (i, j) đưoc trình bày trong Bang 1.2 cho m®t cung
khơng đưoc gán nhãn (i, j). Nhung đ¾c trưng này đai di¾n cho các thơng
tin liên quan đen tù trung tâm trong quan h¾ phu thuđc, nhón phu thuđc.
Ngoi ra cũn cú ca nhung ắc trưng ve nhãn tù loai cna các tù ke tiep (bao
gom ca nhãn thơ và nhãn m%n). Cu the vói mđt cung (i, j), ta cú:
ã Nhúm ắc trng (a) và (b): xét cho tù loai và tù vnng cna cung (i, j) trong


Bang 1.2: Các đ¾c trưng dùng trong MSTParser
(a) Đ¾c trưng Uni-gram

(b) Đ¾c trưng Bi-gram

(c) Đ¾c trưng tÈ loai

xi − word, xi − pos

xi − pos, xb − pos, xj − pos

xi − word

xi − word, xi − pos, xj − pos, xj −
word
xi − pos, xj − pos, xj − word

xi − pos

xi − word, xj − pos, xj − word


xj − word, xj − pos

xi − word, xi − pos, xj − pos

xj − word

xi − word, xi − pos, xj − word

xj − pos

xi − word, xj − word

xi − pos, xi+1 − pos, xj−1 − pos, xj −
pos
xi−1 − pos, xi − pos, xj−1 − pos, xj −
pos
xi − pos, xi+1 − pos, xj − pos, xj+1 −
pos
xi−1 − pos, xi − pos, xj − pos, xj+1 −
pos
xi−1 − pos, xi − pos, xj − pos, xj+1 −
pos

xi − pos, xj − pos

ngu canh Uni-gram và Bi-gram.
• Neu tù i hay j có nhieu hơn 5 kí tn thỡ xột thờm ắc trng 5-gram phớa
trúc tự ú.
ã Nhóm (c): bő sung cho boi canh đo th% phu thu®c (nhóm (a) và (b)), ta

xét các tù trong boi canh câu, cu the là thông qua tù loai cna các tù nam
giua tù i và j, cùng vói tù loai cna các tù nam bên trái và bên phai tù i và
tù j.
Các tác gia đã thu thêm bót ho¾c thay đői nhieu lan các đ¾c trưng và
chúng minh bang thnc nghi¾m rang các đ¾c trưng này là hi¾u qua nhat đoi
vói phân tích cú pháp phu thu®c cho tieng Anh.
Véc-tơ w là m®t véc-tơ TRQng so đưoc đưa ra cho moi câu bang phương pháp
HQc

máy (MIRA - Margin Infused Relaxed Algorithm) [13]. Phương pháp

HQc

máy MIRA đưoc lna cHQN vì nó có nhieu nhung đ¾c tính phù hop vói bài

tốn phân tích cú pháp phu thu®c.
Khi hàm TRQNG so cna canh đã có, thì vi¾c phân tích cú pháp có the đưoc bieu
dien:

Σ
G∗ = argmaxG∈D(Gx)s(G) = argmaxG∈D(Gx) (i,j,r)∈Ex s(i, j, r).
McDonald cùng c®ng sn (2005) chi ra van đe này là tương đương vói

vi¾c tìm ra cây bao trùm cnc đai có hưóng cna đo th% Gx ban đau.
Thu¾t tốn Chu-Liu-Edmonds đưoc su dung đe tìm ra cây bao trùm lón
nhat trong đo th% có hưóng vói trưịng hop khơng xa anh. Thu¾t tốn


Eisner cũng đưoc su dung đe tìm ra cây bao trùm lón nhat trong đo th% có
hưóng vói trưịng hop xa anh.



M®t ví du cna đo th% đay đn Gx và đo th% phu thu®c có hàm TRQNG so
cao nhat đưoc đưa ra trong Hình 1.3 cho câu “John saw Mary”. Hình 1.3
gom đo th% đay đn Gx chúa TRQng so trên các canh, sau đó dna vào thu¾t tốn
phân tích cú pháp phu thu®c trên đo th% đe chuyen thành đo th% phu thu®c
chính xác cna câu.

Hình 1.3: Ví du ve phân tích cú pháp dna trên đo th%.

1.2.2

Phân tích cỳ phỏp phn thuđc dEa trờn cỏc bỏc chuyen

Thuắt toỏn Shift - Reduce (phân tích cú pháp phu thu®c dna vo cỏc búc
chuyen) l mđt thuắt toỏn c ban v có hi¾u qua cao vói rat nhieu các
ngơn ngu khác nhau. Thu¾t tốn này phân tích câu đau vào tù bên trái sang
bên phai su dung hai cau trúc du liắu chớnh: mđt vựng ắm lu tru nhung
du liắu au vào cịn lai và m®t ngăn xep lưu tru nhung du liắu ó xu lý mđt
phan. Giong nh hau het các thu¾t tốn su dung cho phân tích cú pháp phu
thuđc trong thnc te, thuắt toỏn ny thũng su dung vói đo th% phu thu®c
xa anh. Chúng ta bat đau bang cách xác đ%nh m®t cau hình phân tích cú
pháp cho m®t câu x = (w1, ..., wn) liên quan túi tắp L cỏc loai phu thuđc
(bao gom ca mđt kớ hiắu ắc biắt r0 l nhón phu thuđc cna goc). Mđt
trong nhung thuắt toỏn dna vo búc chuyen tot nhat hi¾n nay là thu¾t
tốn arc-eager đưoc phát trien boi Nivre.J v cđng sn (2003).
Thuắt toỏn oc mụ ta nh sau:
Trong mđt hắ thong arc-eager, cho tắp L = (r0, ..., rm) l tắp nhón phu
thuđc v mđt cõu x = (w0, ...., wn), m®t cau hình phân tích cú pháp phu
thu®c là m®t



b® ba: c = {σ, β, A}. Trong đó, c chỳa mđt ngn xep , mđt vựng ắm v
mđt tắp cỏc cung phu thuđc A.
Cau hỡnh ban au cna mđt cõu s = w1, w2, ..., wn l:
ã = ROOT
ã = [w1, w2, ..., wn]
ãA=
Mđt cau hình c là cau hình ket neu như vùng đ¾m rong và ngăn xep chúa
duy nhat m®t phan tu ROOT. Su dung kí hi¾u v|β đe chi ra rang phan tù đau
tiên cna vùng đ¾m là tù v, kí hi¾u σ|u đe chi ra rang phan tù trên cùng cna
ngăn xep là tù u, và Ac = (x, y), trong đó x, y là các tù cna câu can đưoc
phân tớch e chi ra tắp cung phu thuđc cna mđt cau hỡnh c.
Thuắt toỏn phõn tớch cỳ phỏp phu thuđc arc-eager đ%nh nghĩa bon loai
hàm chuyen như sau:
1.LEFT-ARC(r):

(σ|u, v|β, A) → (σ, v|β, A ∪ (v, u)) vói đieu ki¾n $k : (k, u) ∈ A.
2.RIGHT-ARC(r):

(σ|u, v|β, A) → (σ|u|v, β, A ∪ (u, v)) vói đieu ki¾n $k : (k, v) ∈ A.
3.REDUCE:

(σ|u, β, A) → (σ, β, A) vói đieu ki¾n ∃v : (v, u) ∈ A.
4.SHIFT:

(σ, v|β, A) → (σ|v, β, A).
Bon hàm chuyen trên có the oc giai thớch mđt cỏch rừ rng nh sau:
ã Búc chuyen LEFT − ARC(r) : u ← v là neu khơng ton tai bat kì cung
nào đi đen u hay nói cách khác u khơng phai là phu thu®c cna bat cú tù

nào thì phân tích cna u se đưoc thnc hiắn, cú mđt cung i tự v en u vói
nhãn r. Khi đó u se đưoc lay ra khoi ngăn xep .


• Bưóc chuyen RIGHT − ARC(r) : u → v là neu khơng ton tai bat kì cung
nào đen v thì v đưoc đưa vào trong ngăn xep đe xét các tù tiep theo.
Chú ý rang có the có nhieu cung đi ra tù u.
• Bưóc chuyen REDUCE: Là bưóc lay m®t tù u ra khoi ngăn xep neu như
có mđt quan hắ phu thuđc giua tự u v tự v trong bưóc chuyen RIGHT
−ARC trưóc đó.
• Bưóc chuyen SHIFT : Là bưóc lay phan tu đau tiên cna vùng đ¾m và
đay nó vào trong ngăn xep. Q trình chuyen này khơng địi hoi bat cú
đieu ki¾n tiên quyet nào.
H¾ thong bưóc chuyen đưoc xác đ%nh là khơng đơn đ%nh, vì the thưịng có
nhieu hơn m®t bưóc chuyen đoi vói mđt cau hỡnh nhat %nh. e thnc hiắn phõn
tớch cỳ pháp đơn đ%nh, h¾ thong các bưóc chuyen can phai b sung mđt k thuắt
e dn oỏn búc chuyen tiep theo o moi lna cHQN không đơn đ%nh, cũng như lna
cHQN m®t loai phu thu®c r cho q trình chuyen đői LEFT-ARC(r) và RIGHTARC(r). Neu trang thái phân tích cú pháp chưa phai là trang thái ket, thì h¾
thong se tiep tuc thnc hi¾n các trang thái tiep theo, neu ngăn xep rong thì se
thnc hi¾n bưóc chuyen SHIFT, ngưoc lai se thnc hiắn mđt hm chỳc nng e
a ra bưóc chuyen ke tiep, hàm này đưoc dn đốn bang các thu¾t tốn huan
luy¾n dna vào các đ¾c trưng cna mơ hình. Khi thnc hi¾n đen cau hình ket, thì
ta thu đưoc đo th% phu thu®c cna câu đau vào. Đo th% phu thu®c đưoc đưa ra
cuoi cùng đam bao khơng có chu trình và khơng xa anh.
Các mơ hình ắc trng cho phõn tớch cỳ phỏp phu thuđc dna vào bưóc
chuyen thưịng ket hop các đ¾c trưng tù loai, tự vnng vúi cỏc ắc trng phu
thuđc nh nhón phu thuđc hay tự trung tõm trong quan hắ phu thuđc cna
cỏc tự trong ngn xep hay trong bđ ắm. Mụ hình đ¾c trưng chuan là mơ
hình ket hop các đ¾c trưng tù loai, tù vnng và loai phu thu®c, theo Bang
1.3.

Mơ hình này chúa 6 đ¾c trưng tù loai, là tù loai cna hai tù trên cùng cna
ngăn xep là (p(σ0), p(σ1)) và 4 tù đau tiên cna đau vào l p(0), p(1), p(2),
p(3). Cỏc ắc tớnh loai phu thuđc bao gom tù trên đau cna ngăn xep d(σ0),


×