Tải bản đầy đủ (.pdf) (52 trang)

xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (920.7 KB, 52 trang )


TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN



KHUẤT THỊ THỦY




XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH
CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC
VĂN PHẠM TAG




LUC



i  2012


TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN


Khuất Thị Thủy


XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH


CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC
VĂN PHẠM TAG


 
 : 60.46.35


LUC S KHOA HC


TS. Nguyễn Thị Minh Huyền

i  2012

MỤC LỤC
DANH MC CH VIT TT 2
DANH M 3
M U 4
 m TAG 6
m phi ng cnh 6
1.2. 

 7
1.3. Gii thi d ling Anh ca d
 16
1nh d d liu TAG 19
 d liu d c ng  24
2.1. Gii thiu v t n 24
 d liu 26

 3  m TAG t treebank ting Vit 32
 m TAG t treebank ting Vit 32
t qu c 39
KT LUN 42
U THAM KHO 43
PH LC 45



Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

2
DANH MỤC CHỮ VIẾT TẮT
API
Application Programming Interface
LMF
Lexical Markup
Framework
LLP2
Loria LTAG Parser 2
LTAG
Lexicalized Tree Adjoining Grammar
TAG
Tree Adjoining Grammar
TAGML
Tree Adjoining Grammars Markup Language
XML
eXtensible Markup Language

Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

3
DANH MỤC HÌNH


9


9


9


9


10

Minh h
10

t n
11

Minh ht n
12


  i c
12

 t ni c
13

 cYesterday John saw
Marry
13

Dn xut cYesterday John saw Marry
14

Yesterday John saw
Marry
14

n xut cYesterday John saw
Marry”
15

a cho h ng t
18

a cho h ng t
18

a cho h ng t 
ai b ng

19

 tr i t
19
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

4
MỞ ĐẦU
t trong nhng
trong x    t  t qu c     c s
dng trong rt nhiu ng dh ch 
 v quan h gin
nh: nh
th nhn tn ng
n knh th   ph thuc t
nh s ph thuc v ng  
Mi b u cn tc c 
c t c c c biu
din bi mt h m c th m
c s dm phi ng c
 m hp nht. Hp nht t trong nh
phc s dng ph bin hin nay. a 
 i t m 
 ki h
  loi b ng hp bt quy t
tc d) ct qu ct
   b 
c d lim theo mt h m c th

c xng c d lit sc
quan tr ca lut nghip cao h
u c  d li
ng Vit vi h i dung ca lu
c b c
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

5
Chtng quan v h m TAG
n xu d li
ng Anh vi TAG, chu liu cho TAG.
a lun v 
 thu  d ling Vit vi
h m TAG b c
ng 
a luy d d
li m TAG t Treebank ting Vi
i vi kt qu  d liu c
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

6
Chƣơng 1
Hệ hình thức văn phạm TAG

         


1.1. Văn phạm phi ngữ cảnh
t b bn  
- ng ch ng ch  cm;
- V: Bng ch  hay bng ch  tr cm;
p hu hng;


V - Bng ch n hp hay bng ch  c
phm;



- 

c gi  u xum;
- 



V)
+




V)
*






hay tp quy tc cm;
c gc (hay quy tc th hoc quy tc sinh) ca
- v - v phi ca quy tc r. Quy tc gc
kt (hoc quy tc k


t 
li xut hin  v a quy tc trong P ([6]).
m phi ng ci quy t
 hit k.
m phi ng cng c la ch biu din cu t
 t   m  hu ht nhng c
c t m phi ng cc s d biu din
cu kng v 
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

7
ngkng v
lo biu dic sinh biu di
tc ng  c t vng (cht
mu kc ng g chu k
i mi t trong t vt tc sinh cha t 
v phi. n phm phi ng cnh vu mt hn ch (s c
m ca TAG) c t cn nhng
  hi hc t
th.

1.2. Văn pha
̣
m TAG
Tree Adjoining Grammar - TAG) 

 



 ;   

1.2.1. 












 , S)  ([7]):






xem 
1.1).
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

8

Hình 1.1: Mô tả cây khởi tạo



1.2

Hình 1.2 : Mô tả cây phụ trợ
 1.3)






Hình 1.3: Cây khơ
̉
i ta
̣
o
1.4)






S
V
S*
does
S

VP
V
S*
think
NP
Harry
V
likes
S
VP
V

peanuts

Hình 1.4: Cây phu
̣
trơ
̣


Luận văn tốt nghiệp


Học viên: Khuất Thị Thủy

9
 N.
 
1.2.2a TAG


  
TAG.
1.2.2.1 Php th
. 






  . 

1.5

Hinh 1.5: Php th
:

Hình 1.6: Minh ho
̣
a cho phe
́

p thê
́

S

VP
V

NP
John
S
NP
VP
V

saw
John
saw
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

10
1.2.2.2. Php kt nối cây
 

 




1.7

Hình 1.7: Php kt nô
́
i cây
  1.8.
Kh c hin ct n 
c bi cC
ca mt tp hp thu thun
vi:
thu
quan ti ch
con. Khi thc hi kt n p nh
c thc hi t ni
c thc hin. Np nhc hi
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

11
ng nht ni hoc th
thc hi t ni v c g   c
c minh h.

Hình 1.8: Minh ho
̣
a cho phe
́
p kt nô
́

i cây

Hình 1.9: Sơ đồ php th cây với cấu trúc đặc trƣng
S
ADV
S*
Yesterday
S

VP
V

saw
S
ADV
S
VP
V

saw
Yesterday

Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

12

Hình 1.10: Sơ đồ php kt nối cây với cấu trúc đặc trƣng
1.2.3.  






   i


Hình 1.11: Các cây cơ sở của câu “Yesterday John saw Marry”
 Yesterday
John saw Marry 
, 
NP

Marry
NP

John
VP

V

S

saw
S

ADV

S*


Yesterday
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

13

Hình 1.12: Dẫn xuất của câu “Yesterday John saw Marry”


Hình 1.13: Cây cú pháp của câu “Yesterday John saw Marry”


h13 t
S
ADV
S
NP
John
VP
V
NP
saw
Marry
VP

V

S


saw
NP

John
NP

Marry
S

ADV

S*

Yesterday
Yesterday
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

14
S  ADV S VP V NP
ADV  yesterday V  saw
S  NP VP NP Marry
NP  John
  1.12

               
 




 Ma m
 u din biu dit
biu di
 Ma cha ch  k ca
a ch  a ch 
 Yesterday John saw Marry” 
 1.14

Hình 1.14: cây dẫn xuất của câu “Yesterday John saw Marry”
1.2.m cm TAG

(domain of locality
saw

John (1.1)
Marry (2.2)

Yesterday (0)
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

15
 

:
 
 

 





 














. 



    
: S 

V NP. Hai 

















 NP V NP thay cho hai


. 
















.
 

từ
vựng hoá  (4), (5), (6), (7) 


 . (1), (2), (3) 
 .  (2), (3) 
, (1) 


.
 

  
.
 
.   

Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

16
 

.
m TAG hi dng rPhn tip
theo s   d liu ca d XTAG   s d liu cho p
ting Anh d c TAG. Vi d
ling th v m d li cho
a mt .
1.3. Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp ting Anh
của dự án XTAG

 
       (Institute for Research in
Cognitive Science, University of Pennsylvania).







 . 




 . 

















 






















 .

. . 






 




, 





























, 


, 








Vi tia ng t 
ti to cha cu  n

vi mng t  tr  t danh t,
b ng, nh ng, gii t ,
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

17
 v mt s h c lng t:
Nng t: Tnx0V

         

 

Hình 1.15: Cây minh họa cho họ cây nội động từ
Ngong t: Tnx0Vnx1
 c chn bng t  u mng
 ng mt c, bao gng t
ng
t  lng t  minh h
1.16

Hình 1.16: Cây minh họa cho họ cây ngoại động từ
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

18
Lb ng: Tnx0Vnx2nx1




Hình 1.17: Cây minh họa cho họ cây mà động từ có chính xác hai
bổ ngữ
 vi h  tr i t

Hình 1.18: Các cây phụ trợ là giới từ
y, vng Anh c
ng   d liu. Vn dng ng ca h i
vi ting Ving ti t
ng ct) cu tr  t cho
 i ti  ng Vi  i
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

19
ng t i danh t 
 ng Vit s c
c th 
1.4. Định dạng TAGML cho cơ sở dữ liệu TAG
       
TAGML 
  


 khi s d c t d liu

o  vng
o  t v  

gn t v
 d

  gc (thua th morph
 T(th <lemmaref>) vi ph a
 (thu
 Ci dng c
<fs>)
danhh t
sau:
<morph lex="anh">
<fs>
<f name="type">
<sym value="common"/>
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

20
</f>
<f name="meaning">
<sym value="human"/>
</f>
</fs>
<lemmaref name="anh" cat="N"/>
</morph>
   
>
<fs>
<f name="type">

<sym value="_quality "/>
</f>
</fs>

</morph>
Vic t v g   vng
t  v gn 
 c t vng Th <lexicalization> v
tin:
Th <lexicalization> cha m 
 neo (<anchor>) .
Trong m tng th <node>. Th
: cat cha ph type cha kiu
c, name t buc) cha nh danh ca 
vic tham khn t neo.   lng nhau.
Th c noderef  tham kho t
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

21
c Trong th s dng th <lemmaref> cht 
th g
Ca m bng th <narg> vi thuc
type cha thutrong cca  thuc tp
{top, bot}. Trong th  <fs> v <f>,
Th name chvarname cho
 chia s  v
   ng    
t)

<tree id="Aql">
<node cat="S" name="S">
<node cat="NP" name="NP" type="subst"/>
<node cat="PredP" name="PredP">
<node cat="A" name="A" type="anchor">
<narg type="top">
<fs>
<f name="type">
<sym value="_quality "/>
</f>
</fs>
</narg>
</node>
</node>
</node>
</tree>
  gn t  ng 
<lexicalization>
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

22
<family>
<! lexicalization for tree Aql >
<tree copyof="Aql"/>
</family>
<anchor noderef="A">

</anchor>

</lexicalization>
  h  
h vi th <tree>.
        n (lib) c  
 v
  v 
 
vim  u t
ma th  
ph tham kho ti phng qua
thucopyof.

b (Loria LTAG Parser 2). LLP2
ph trin t Trung tm nghin c LORIA, C ho Ph 


 parser: 

.
 tagviewer: Giao din hin th 
 graphtag: quc hin th 
 tagml2: API qu
 v
Luận văn tốt nghiệp

Học viên: Khuất Thị Thủy

23
 segment: API qung XML cho vic tin x 
n

 FeatureStructure: API qu
 mt s 
c dn xut).
 

Anh 



×