Tải bản đầy đủ (.pdf) (21 trang)

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 05

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (612.97 KB, 21 trang )

Mô hình rút trích cm t c trng ng ngha trong ting Vit


54











Chng 4




MÔ HÌNH XÁC NH CM T
C TRNG NG NGHA TRONG
TING VIT (ViKEa)

PHNG PHÁP SO TRÙNG MU DA TRÊN
ONTOLOGY



















4.1 Gii thiu

Nh ã tho lun trong chng 3, mc dù các CTTNN c rút trích t ng
theo hng xác nh CTTNN có  chính xác khá cao nh Hulth ã công b
(Hulth, 2004). Nhng  t c kt qu ó, hng tip cn này cn mt c s tri
thc hay Ontology có tính khái quát, chính xác và có các mi quan h trên chúng
Mô hình rút trích cm t c trng ng ngha trong ting Vit


55
 tng tính hiu qu cho vic xác nh CTTNN. Nói mt cách khác, vic nghiên
cu và phát trin mt c s tri thc hay ontology ting Vit là rt quan trng và
cn thit.
Trong chng này, lun án ch trình bày mô hình rút trích cm danh t c
trng ng ngha theo hng xác nh CTTNN da trên c s tri thc và phng
pháp so trùng mu c gi là ViKEa (Hình 4.1).














Phn còn li ca chng c t chc thành ba phn: Phn 4.2 trình bày công
on rút trích cm danh t d tuyn b ng phng pháp so trùng mu da trên tp
mu nhn dng các cm danh t c s; Phn 4.3 mô t công on xác nh cm
danh t c trng ng ngha (CDTTNN); Phn cui cùng là kt chng.
4.2 Rút trích cm danh t d tuyn
Trong phn này, lun án trình bày hng gii quyt cho công on rút trích
cm danh t c s. Các phng pháp tip cn c!ng nh các thc nghim ánh giá
ã c trình bày trong công trình (Chau Q. Nguyen và Tuoi T. Phan, 2007), và
(Nguy"n Quang Châu và Phan Th Ti, 2008).

Hình 4.1 Mô hình rút trích cm danh t c trng theo hng xác nh.

Ti#n x$ lý
Câu ting Vit
Gán nhãn t loi
Phân on t
Các cm danh t c trng
ng ngha

Xác nh cm danh t
c trng ng ngha
Tp lut cu
trúc cm
danh t
Rút trích các
cm danh t
Ontology
ViO
Mô hình rút trích cm t c trng ng ngha trong ting Vit


56
4.2.1. Xây dng c s tri thc cho các dng cu trúc cm danh t
Theo nh mô hình (Hình 4.1), vic xây dng mt c s tri thc cho các mu
cu trúc cm danh t  da vào ó nhn din c các cm danh t trong câu
ting Vit. Trc tiên cn phi nghiên cu v# cu trúc c!ng nh các c tính ng
pháp ca cm danh t.
nh ngha 4.1: Cm danh t là loi t hp t do danh t vi mt s t ng
ph thuc to thành, nó có ý ngha y  và có cu to phc tp hn mt danh
t, nhng hot ng trong câu có chc nng ca mt danh t (Dip Quang Ban,
2004; Nguy"n Tài C%n, 1996).
Cu to ca cm danh t có ba dng tng quát nh sau:
1. Dng th nht: { Phn ph trc}{ Phn trung tâm }{ Phn ph sau}
Ví d: {Tt c nhng}{ em hc sinh}{ chm ngoan y}.
2. Dng th hai: { Phn ph trc}{ Phn trung tâm }
Ví d: {Toàn th các}{ ging viên}
3. Dng th ba: { Phn trung tâm }{ Phn ph sau}
Ví d: { ngi chng}{ hnh phúc y}
a. Phn ph trc:

- Ph t ch toàn th (t1): nh tt c, ht thy, toàn b, toàn th,…
- Ph t ch s lng (t2): nh mi, các, tng, nhng, mi; hai, ba, bn,
nm, …
b. Phn ph sau:
- Tính t (s1)
- Ch nh t (s2)
c. Phn trung tâm:
B phn ghép g&m hai t:
- n v tính toán, chng loi khái quát (T1)
- i tng em ra tính toán, i tng c th (T2)
Ví d: + em hc sinh (này)
+ em (này)
+ hc sinh (này)
Mô hình rút trích cm t c trng ng ngha trong ting Vit


57
Da trên các cu trúc ca cm danh t, xây dng tp mu phc v cho vic
xác nh cm danh t nh sau:

1. t
1
t
2
T
1
T
2
s
1

s
2

2. t
1
T
1
T
2
s
1
s
2

3. t
2
T
1
T
2
s
1
s
2

4. t
1
t
2
T

1
s
1
s
2

5. t
1
T
1
s
1
s
2

6. t
2
T
1
s
1
s
2

7. t
1
t
2
T
2

s
1
s
2

8. t
1
T
2
s
1
s
2

9. t
2
T
2
s
1
s
2

10. t
1
t
2
T
1
T

2
s
1

11. t
1
T
1
T
2
s
1

12. t
2
T
1
T
2
s
1

13. t
1
t
2
T
1
s
1


14. t
1
T
1
s
1

15. t
2
T
1
s
1

16. t
1
t
2
T
2
s
1

17. t
1
T
2
s
1


18. t
2
T
2
s
1

19. t
1
t
2
T
1
T
2
s
2

20. t
1
T
1
T
2
s
2

21. t
2

T
1
T
2
s
2

22. t
1
t
2
T
1
s
2

23. t
1
T
1
s
2

24. t
2
T
1
s
2


25. t
1
t
2
T
2
s
2

26. t
1
T
2
s
2

27. t
2
T
2
s
2


Các nhãn trong b nhãn 48 t loi ca t c mô t  bng 4.1.
Bng 4.1: B nhãn t loi ca t.
Nhãn
t loi
Loi t
Nhãn

t loi
Loi t
Np
danh t riêng
Vts
ng t ngoi ng tn ti
Nc
danh t n th
Vtm
ng t ngoi ng chuyn ng
Ng
danh t tng th
Vtv
ng t ngoi ng ý chí
Nt
danh t loi th
Vitim
ng t ni ng cm ngh
Nu
danh t ch n v
Vitb
ng t ni ng bin hoá
Na
danh t tru tng
Vits
ng t ni ng tn ti
Nn
danh t s lng
Vitc
ng t ni ng so sánh

Nl
danh t v trí
Vitm
ng t ni ng chuyn ng
Vt
ng t ngoi ng
Aa
tính t hàm cht
Vit
ng t ni ng
An
tính t hàm lng
Vim
ng t cm ngh
Pp
i t xng hô
Vo
ng t ch hng
Pd
i t không gian, thi gian
Vs
ng t tn ti
Pn
i t s lng
Vb
ng t bin hoá
Pa
i t hot ng, tính cht
Vv
ng t ý chí

Pi
i t nghi vn
Va
ng t tip th
Jt
ph t ch thi gian
Vc
ng t so sánh
Jd
ph t ch mc 
Vm
ng t chuyn ng
Jr
ph t so sánh
Vla
ng t "là"
Ja
ph t khng nh, ph nh
Vtim
ng t ngoi ng cm ngh
Ji
ph t mnh lnh
Vta
ng t ngoi ng tip th
Cm
gii t
Vtc
ng t ngoi ng so sánh
Cc
liên t

Vtb
ng t ngoi ng bin hoá
E
cm t
Vto
ng t ngoi ng ch hng
I
tr t
Mô hình rút trích cm t c trng ng ngha trong ting Vit


58

Ta có các tr'ng hp tng ng:
a. Phn ph trc:

Ph t ch toàn th (t1): Ng hoc Nt

Ph t ch s lng (t2): Nu hoc Nn
b. Phn ph sau:

Tính t (s1): Aa hoc An

Ch nh t (s2): Nl hoc Pd
c. Phn trung tâm: B phn ghép g&m hai t

n v tính toán, chng loi khái quát (T1): Nu hoc Nn, Ng hoc Nt

i tng em ra tính toán, i tng c th (T2): Np hoc Nc hoc
Na

Nh vy da vào 27 mu trên và các t loi có th ca chúng, lun án ã xây
dng c tp lut nhn din cm danh t c s bao g&m 434 mu có dng nh
sau:
- Lut 1:
<KNP> → ((<Ng>|<Nt>|<Pp>)
(<Nu> |<Nn>)
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
(<Aa>|<An>)*
(<Nl>|<Pd>)*)
- Lut 2:
<KNP> → (( <Nu> |<Nn>)
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
(<Aa>|<An>)*
(<Nl>|<Pd>)*)
- Lut 3:
<KNP> → ((<Ng>|<Nt>|<Pp>)
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
Mô hình rút trích cm t c trng ng ngha trong ting Vit


59
(<Aa>|<An>)*
(<Nl>|<Pd>)*)
- Lut 4:
<KNP> → ((<Ng>|<Nt>|<Pp>)*
(<Nu> |<Nn>)*
(<Nu>|<Nn>|<Ng>|<Nt>)

(<Np>|<Nc>|<Na>)
(<Aa>|<An>)
(<Nl>|<Pd>))
- Lut 5:
<KNP> -> ((<Ng>|<Nt>|<Pp>) *
(<Nu> |<Nn>)*
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
(<Aa>|<An>))
- Lut 6:
<KNP> → ((<Ng>|<Nt>|<Pp>)*
(<Nu> |<Nn>)*
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
(<Nl>|<Pd>))
Trong ó: | - hoc
* - 0 hoc nhi#u.
4.2.2.

Bài toán rút trích cm danh t bng phng pháp so trùng mu
V# phng pháp, mô hình rút trích cm danh t b ng phng pháp so trùng
mu, da vào tp mu cu trúc các cm danh t và các t có gán nhãn t loi
nhn c t công on trc,  nhn din các cm danh t trong câu n ting
Vit ang xét.
Ý tng ca phng pháp là da vào cu trúc vn phm ting Vit  xây
dng mt tp các mu, c x$ lý bi máy trng thái hu hn. Kt qu, lun án
ã xây dng c 434 mu nhn din các cm danh t bao g&m c các mu nhn
Mô hình rút trích cm t c trng ng ngha trong ting Vit



60
din các danh t riêng. Tp mu này c hin thc b ng Java Annotation
Patterns Engine (JAPE) (Ph lc B). B phân tích trên c s máy trng thái hu
hn to ra các chú gii có tên là ‘KNP’ vi thuc tính và giá tr c mã hóa (nh
‘type’, ‘POS’, ‘string’,…). Tp mu dùng kt qu u ra ca công on gán nhãn
t loi c!ng nh các thông tin nhn din các t ting Vit  nhn din các cm
danh t trong câu n ting Vit ang xét.
T tng ca gii thut nhn din các cm danh t c quy v# vic so trùng
mu có trong c s tri thc. Trong thc t quá trình so trùng thu c rt nhi#u
mu. ây là tr'ng hp nhp nh ng và phng án gii quyt ca lun án là mu
có  dài cc i s( c chn, c th c trình bày trong gii thut 4.1.
GI)I THU*T 4.1 So trùng mu
- Nhp: Cho mt chu+i các t w
1
, ..., w
T
,
vi các nhãn t loi c
1
,
..., c
N
tng ng, tp 434 mu nhn din các cm danh t.
- Xut: Các cm danh t.
- Phng pháp:
1. StartNode = Nút trái nht
2. To mt instance u tiên ca FSM và thêm nó vào danh sách active
instances;
3. for FSM instance này t nút hin hành là nút trái nht;
4. while(startNode != last node) do

5. while (not over) do
6. for m+i Fi active instance ca FSM do
7. if instance này  mt trng thái kt thúc then ct mt bn sao
ca nó vào tp accepting FSMs (instances ca FSM mà chúng t
trng thái kt thúc);
8. c tt c các annotations b,t u t nút hin hành;
9. Chn tt c các tp annotation mà c dùng trong bc trc
ca & th chuyn trng thái FSM;
10. for m+i tp nh vy to mt new instance ca FSM, t nó vào
danh sách active list và loi b- tp annotation này;
Mô hình rút trích cm t c trng ng ngha trong ting Vit


61
11. loi b- Fi;
12. end for;
13. if tp active instances ca FSM là r+ng then over = true;
14. end while;
15. if tp accepting FSMs là r+ng then
16. T tt c accepting FSMs chn
*
là mu có chi#u dài cc i; nu có
nhi#u mu có cùng chi#u dài thì lúc ó gii pháp là chn mu so
trùng u tiên;
17. Thc hin a v# trng thái kt thúc cho FSM instance ã c
chn;
18. StartNode =selectedFSMInstance.getLastNode.getNextNode();
20. else //s so trùng tht bi b,t u li t nút k tip // StartNode =
StartNode.getNextNode();
21. end while;



Ví d vi câu “Máy tính này có dung lng RAM là bao nhiêu?”, sau khi ã
qua công on gán nhãn t loi thu c nh sau:
Máy tính [Nc] | này [Pd] | có [Vs] | dung lng [Nc] | RAM [Np] | là [Vla] | bao nhiêu [Na]?
Trong công on rút trích cm danh t này, da trên c s tri thc các mu
cu trúc cm danh t, mô hình s( so trùng c hai mu:
[NounPhrase] . [Nc] [Pd]
[NounPhrase] . [Nc] [Np]
Do ó, kt qu thu c trong giai on này là hai cm danh t [Máy tính
này] và [dung lng RAM] tng ng vi hai mu trên.

*: Nu chúng ta so trùng úng theo kiu ca Brill, thì chúng ta phi x lý cho tng accepting instances.


×