TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHUẤT THỊ THỦY
XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH
CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC
VĂN PHẠM TAG
LUC
i 2012
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Khuất Thị Thủy
XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH
CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC
VĂN PHẠM TAG
: 60.46.35
LUC S KHOA HC
TS. Nguyễn Thị Minh Huyền
i 2012
MỤC LỤC
DANH MC CH VIT TT 2
DANH M 3
M U 4
m TAG 6
m phi ng cnh 6
1.2.
7
1.3. Gii thi d ling Anh ca d
16
1nh d d liu TAG 19
d liu d c ng 24
2.1. Gii thiu v t n 24
d liu 26
3 m TAG t treebank ting Vit 32
m TAG t treebank ting Vit 32
t qu c 39
KT LUN 42
U THAM KHO 43
PH LC 45
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
2
DANH MỤC CHỮ VIẾT TẮT
API
Application Programming Interface
LMF
Lexical Markup
Framework
LLP2
Loria LTAG Parser 2
LTAG
Lexicalized Tree Adjoining Grammar
TAG
Tree Adjoining Grammar
TAGML
Tree Adjoining Grammars Markup Language
XML
eXtensible Markup Language
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
3
DANH MỤC HÌNH
9
9
9
9
10
Minh h
10
t n
11
Minh ht n
12
i c
12
t ni c
13
cYesterday John saw
Marry
13
Dn xut cYesterday John saw Marry
14
Yesterday John saw
Marry
14
n xut cYesterday John saw
Marry”
15
a cho h ng t
18
a cho h ng t
18
a cho h ng t
ai b ng
19
tr i t
19
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
4
MỞ ĐẦU
t trong nhng
trong x t t qu c c s
dng trong rt nhiu ng dh ch
v quan h gin
nh: nh
th nhn tn ng
n knh th ph thuc t
nh s ph thuc v ng
Mi b u cn tc c
c t c c c biu
din bi mt h m c th m
c s dm phi ng c
m hp nht. Hp nht t trong nh
phc s dng ph bin hin nay. a
i t m
ki h
loi b ng hp bt quy t
tc d) ct qu ct
b
c d lim theo mt h m c th
c xng c d lit sc
quan tr ca lut nghip cao h
u c d li
ng Vit vi h i dung ca lu
c b c
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
5
Chtng quan v h m TAG
n xu d li
ng Anh vi TAG, chu liu cho TAG.
a lun v
thu d ling Vit vi
h m TAG b c
ng
a luy d d
li m TAG t Treebank ting Vi
i vi kt qu d liu c
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
6
Chƣơng 1
Hệ hình thức văn phạm TAG
1.1. Văn phạm phi ngữ cảnh
t b bn
- ng ch ng ch cm;
- V: Bng ch hay bng ch tr cm;
p hu hng;
V - Bng ch n hp hay bng ch c
phm;
-
c gi u xum;
-
V)
+
V)
*
hay tp quy tc cm;
c gc (hay quy tc th hoc quy tc sinh) ca
- v - v phi ca quy tc r. Quy tc gc
kt (hoc quy tc k
t
li xut hin v a quy tc trong P ([6]).
m phi ng ci quy t
hit k.
m phi ng cng c la ch biu din cu t
t m hu ht nhng c
c t m phi ng cc s d biu din
cu kng v
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
7
ngkng v
lo biu dic sinh biu di
tc ng c t vng (cht
mu kc ng g chu k
i mi t trong t vt tc sinh cha t
v phi. n phm phi ng cnh vu mt hn ch (s c
m ca TAG) c t cn nhng
hi hc t
th.
1.2. Văn pha
̣
m TAG
Tree Adjoining Grammar - TAG)
;
1.2.1.
, S) ([7]):
xem
1.1).
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
8
Hình 1.1: Mô tả cây khởi tạo
1.2
Hình 1.2 : Mô tả cây phụ trợ
1.3)
Hình 1.3: Cây khơ
̉
i ta
̣
o
1.4)
S
V
S*
does
S
VP
V
S*
think
NP
Harry
V
likes
S
VP
V
peanuts
Hình 1.4: Cây phu
̣
trơ
̣
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
9
N.
1.2.2a TAG
TAG.
1.2.2.1 Php th
.
.
1.5
Hinh 1.5: Php th
:
Hình 1.6: Minh ho
̣
a cho phe
́
p thê
́
S
VP
V
NP
John
S
NP
VP
V
saw
John
saw
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
10
1.2.2.2. Php kt nối cây
1.7
Hình 1.7: Php kt nô
́
i cây
1.8.
Kh c hin ct n
c bi cC
ca mt tp hp thu thun
vi:
thu
quan ti ch
con. Khi thc hi kt n p nh
c thc hi t ni
c thc hin. Np nhc hi
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
11
ng nht ni hoc th
thc hi t ni v c g c
c minh h.
Hình 1.8: Minh ho
̣
a cho phe
́
p kt nô
́
i cây
Hình 1.9: Sơ đồ php th cây với cấu trúc đặc trƣng
S
ADV
S*
Yesterday
S
VP
V
saw
S
ADV
S
VP
V
saw
Yesterday
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
12
Hình 1.10: Sơ đồ php kt nối cây với cấu trúc đặc trƣng
1.2.3.
i
Hình 1.11: Các cây cơ sở của câu “Yesterday John saw Marry”
Yesterday
John saw Marry
,
NP
Marry
NP
John
VP
V
S
saw
S
ADV
S*
Yesterday
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
13
Hình 1.12: Dẫn xuất của câu “Yesterday John saw Marry”
Hình 1.13: Cây cú pháp của câu “Yesterday John saw Marry”
h13 t
S
ADV
S
NP
John
VP
V
NP
saw
Marry
VP
V
S
saw
NP
John
NP
Marry
S
ADV
S*
Yesterday
Yesterday
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
14
S ADV S VP V NP
ADV yesterday V saw
S NP VP NP Marry
NP John
1.12
Ma m
u din biu dit
biu di
Ma cha ch k ca
a ch a ch
Yesterday John saw Marry”
1.14
Hình 1.14: cây dẫn xuất của câu “Yesterday John saw Marry”
1.2.m cm TAG
(domain of locality
saw
John (1.1)
Marry (2.2)
Yesterday (0)
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
15
:
.
: S
V NP. Hai
NP V NP thay cho hai
.
.
từ
vựng hoá (4), (5), (6), (7)
. (1), (2), (3)
. (2), (3)
, (1)
.
.
.
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
16
.
m TAG hi dng rPhn tip
theo s d liu ca d XTAG s d liu cho p
ting Anh d c TAG. Vi d
ling th v m d li cho
a mt .
1.3. Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp ting Anh
của dự án XTAG
(Institute for Research in
Cognitive Science, University of Pennsylvania).
.
.
.
. .
,
,
,
Vi tia ng t
ti to cha cu n
vi mng t tr t danh t,
b ng, nh ng, gii t ,
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
17
v mt s h c lng t:
Nng t: Tnx0V
Hình 1.15: Cây minh họa cho họ cây nội động từ
Ngong t: Tnx0Vnx1
c chn bng t u mng
ng mt c, bao gng t
ng
t lng t minh h
1.16
Hình 1.16: Cây minh họa cho họ cây ngoại động từ
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
18
Lb ng: Tnx0Vnx2nx1
Hình 1.17: Cây minh họa cho họ cây mà động từ có chính xác hai
bổ ngữ
vi h tr i t
Hình 1.18: Các cây phụ trợ là giới từ
y, vng Anh c
ng d liu. Vn dng ng ca h i
vi ting Ving ti t
ng ct) cu tr t cho
i ti ng Vi i
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
19
ng t i danh t
ng Vit s c
c th
1.4. Định dạng TAGML cho cơ sở dữ liệu TAG
TAGML
khi s d c t d liu
o vng
o t v
gn t v
d
gc (thua th morph
T(th <lemmaref>) vi ph a
(thu
Ci dng c
<fs>)
danhh t
sau:
<morph lex="anh">
<fs>
<f name="type">
<sym value="common"/>
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
20
</f>
<f name="meaning">
<sym value="human"/>
</f>
</fs>
<lemmaref name="anh" cat="N"/>
</morph>
>
<fs>
<f name="type">
<sym value="_quality "/>
</f>
</fs>
</morph>
Vic t v g vng
t v gn
c t vng Th <lexicalization> v
tin:
Th <lexicalization> cha m
neo (<anchor>) .
Trong m tng th <node>. Th
: cat cha ph type cha kiu
c, name t buc) cha nh danh ca
vic tham khn t neo. lng nhau.
Th c noderef tham kho t
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
21
c Trong th s dng th <lemmaref> cht
th g
Ca m bng th <narg> vi thuc
type cha thutrong cca thuc tp
{top, bot}. Trong th <fs> v <f>,
Th name chvarname cho
chia s v
ng
t)
<tree id="Aql">
<node cat="S" name="S">
<node cat="NP" name="NP" type="subst"/>
<node cat="PredP" name="PredP">
<node cat="A" name="A" type="anchor">
<narg type="top">
<fs>
<f name="type">
<sym value="_quality "/>
</f>
</fs>
</narg>
</node>
</node>
</node>
</tree>
gn t ng
<lexicalization>
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
22
<family>
<! lexicalization for tree Aql >
<tree copyof="Aql"/>
</family>
<anchor noderef="A">
</anchor>
</lexicalization>
h
h vi th <tree>.
n (lib) c
v
v
vim u t
ma th
ph tham kho ti phng qua
thucopyof.
b (Loria LTAG Parser 2). LLP2
ph trin t Trung tm nghin c LORIA, C ho Ph
parser:
.
tagviewer: Giao din hin th
graphtag: quc hin th
tagml2: API qu
v
Luận văn tốt nghiệp
Học viên: Khuất Thị Thủy
23
segment: API qung XML cho vic tin x
n
FeatureStructure: API qu
mt s
c dn xut).
Anh