Mô hình rút trích cm t c trng ng ngha trong ting Vit
54
Chng 4
MÔ HÌNH XÁC NH CM T
C TRNG NG NGHA TRONG
TING VIT (ViKEa)
PHNG PHÁP SO TRÙNG MU DA TRÊN
ONTOLOGY
4.1 Gii thiu
Nh ã tho lun trong chng 3, mc dù các CTTNN c rút trích t ng
theo hng xác nh CTTNN có chính xác khá cao nh Hulth ã công b
(Hulth, 2004). Nhng t c kt qu ó, hng tip cn này cn mt c s tri
thc hay Ontology có tính khái quát, chính xác và có các mi quan h trên chúng
Mô hình rút trích cm t c trng ng ngha trong ting Vit
55
tng tính hiu qu cho vic xác nh CTTNN. Nói mt cách khác, vic nghiên
cu và phát trin mt c s tri thc hay ontology ting Vit là rt quan trng và
cn thit.
Trong chng này, lun án ch trình bày mô hình rút trích cm danh t c
trng ng ngha theo hng xác nh CTTNN da trên c s tri thc và phng
pháp so trùng mu c gi là ViKEa (Hình 4.1).
Phn còn li ca chng c t chc thành ba phn: Phn 4.2 trình bày công
on rút trích cm danh t d tuyn b ng phng pháp so trùng mu da trên tp
mu nhn dng các cm danh t c s; Phn 4.3 mô t công on xác nh cm
danh t c trng ng ngha (CDTTNN); Phn cui cùng là kt chng.
4.2 Rút trích cm danh t d tuyn
Trong phn này, lun án trình bày hng gii quyt cho công on rút trích
cm danh t c s. Các phng pháp tip cn c!ng nh các thc nghim ánh giá
ã c trình bày trong công trình (Chau Q. Nguyen và Tuoi T. Phan, 2007), và
(Nguy"n Quang Châu và Phan Th Ti, 2008).
Hình 4.1 Mô hình rút trích cm danh t c trng theo hng xác nh.
Ti#n x$ lý
Câu ting Vit
Gán nhãn t loi
Phân on t
Các cm danh t c trng
ng ngha
Xác nh cm danh t
c trng ng ngha
Tp lut cu
trúc cm
danh t
Rút trích các
cm danh t
Ontology
ViO
Mô hình rút trích cm t c trng ng ngha trong ting Vit
56
4.2.1. Xây dng c s tri thc cho các dng cu trúc cm danh t
Theo nh mô hình (Hình 4.1), vic xây dng mt c s tri thc cho các mu
cu trúc cm danh t da vào ó nhn din c các cm danh t trong câu
ting Vit. Trc tiên cn phi nghiên cu v# cu trúc c!ng nh các c tính ng
pháp ca cm danh t.
nh ngha 4.1: Cm danh t là loi t hp t do danh t vi mt s t ng
ph thuc to thành, nó có ý ngha y và có cu to phc tp hn mt danh
t, nhng hot ng trong câu có chc nng ca mt danh t (Dip Quang Ban,
2004; Nguy"n Tài C%n, 1996).
Cu to ca cm danh t có ba dng tng quát nh sau:
1. Dng th nht: { Phn ph trc}{ Phn trung tâm }{ Phn ph sau}
Ví d: {Tt c nhng}{ em hc sinh}{ chm ngoan y}.
2. Dng th hai: { Phn ph trc}{ Phn trung tâm }
Ví d: {Toàn th các}{ ging viên}
3. Dng th ba: { Phn trung tâm }{ Phn ph sau}
Ví d: { ngi chng}{ hnh phúc y}
a. Phn ph trc:
- Ph t ch toàn th (t1): nh tt c, ht thy, toàn b, toàn th,…
- Ph t ch s lng (t2): nh mi, các, tng, nhng, mi; hai, ba, bn,
nm, …
b. Phn ph sau:
- Tính t (s1)
- Ch nh t (s2)
c. Phn trung tâm:
B phn ghép g&m hai t:
- n v tính toán, chng loi khái quát (T1)
- i tng em ra tính toán, i tng c th (T2)
Ví d: + em hc sinh (này)
+ em (này)
+ hc sinh (này)
Mô hình rút trích cm t c trng ng ngha trong ting Vit
57
Da trên các cu trúc ca cm danh t, xây dng tp mu phc v cho vic
xác nh cm danh t nh sau:
1. t
1
t
2
T
1
T
2
s
1
s
2
2. t
1
T
1
T
2
s
1
s
2
3. t
2
T
1
T
2
s
1
s
2
4. t
1
t
2
T
1
s
1
s
2
5. t
1
T
1
s
1
s
2
6. t
2
T
1
s
1
s
2
7. t
1
t
2
T
2
s
1
s
2
8. t
1
T
2
s
1
s
2
9. t
2
T
2
s
1
s
2
10. t
1
t
2
T
1
T
2
s
1
11. t
1
T
1
T
2
s
1
12. t
2
T
1
T
2
s
1
13. t
1
t
2
T
1
s
1
14. t
1
T
1
s
1
15. t
2
T
1
s
1
16. t
1
t
2
T
2
s
1
17. t
1
T
2
s
1
18. t
2
T
2
s
1
19. t
1
t
2
T
1
T
2
s
2
20. t
1
T
1
T
2
s
2
21. t
2
T
1
T
2
s
2
22. t
1
t
2
T
1
s
2
23. t
1
T
1
s
2
24. t
2
T
1
s
2
25. t
1
t
2
T
2
s
2
26. t
1
T
2
s
2
27. t
2
T
2
s
2
Các nhãn trong b nhãn 48 t loi ca t c mô t bng 4.1.
Bng 4.1: B nhãn t loi ca t.
Nhãn
t loi
Loi t
Nhãn
t loi
Loi t
Np
danh t riêng
Vts
ng t ngoi ng tn ti
Nc
danh t n th
Vtm
ng t ngoi ng chuyn ng
Ng
danh t tng th
Vtv
ng t ngoi ng ý chí
Nt
danh t loi th
Vitim
ng t ni ng cm ngh
Nu
danh t ch n v
Vitb
ng t ni ng bin hoá
Na
danh t tru tng
Vits
ng t ni ng tn ti
Nn
danh t s lng
Vitc
ng t ni ng so sánh
Nl
danh t v trí
Vitm
ng t ni ng chuyn ng
Vt
ng t ngoi ng
Aa
tính t hàm cht
Vit
ng t ni ng
An
tính t hàm lng
Vim
ng t cm ngh
Pp
i t xng hô
Vo
ng t ch hng
Pd
i t không gian, thi gian
Vs
ng t tn ti
Pn
i t s lng
Vb
ng t bin hoá
Pa
i t hot ng, tính cht
Vv
ng t ý chí
Pi
i t nghi vn
Va
ng t tip th
Jt
ph t ch thi gian
Vc
ng t so sánh
Jd
ph t ch mc
Vm
ng t chuyn ng
Jr
ph t so sánh
Vla
ng t "là"
Ja
ph t khng nh, ph nh
Vtim
ng t ngoi ng cm ngh
Ji
ph t mnh lnh
Vta
ng t ngoi ng tip th
Cm
gii t
Vtc
ng t ngoi ng so sánh
Cc
liên t
Vtb
ng t ngoi ng bin hoá
E
cm t
Vto
ng t ngoi ng ch hng
I
tr t
Mô hình rút trích cm t c trng ng ngha trong ting Vit
58
Ta có các tr'ng hp tng ng:
a. Phn ph trc:
Ph t ch toàn th (t1): Ng hoc Nt
Ph t ch s lng (t2): Nu hoc Nn
b. Phn ph sau:
Tính t (s1): Aa hoc An
Ch nh t (s2): Nl hoc Pd
c. Phn trung tâm: B phn ghép g&m hai t
n v tính toán, chng loi khái quát (T1): Nu hoc Nn, Ng hoc Nt
i tng em ra tính toán, i tng c th (T2): Np hoc Nc hoc
Na
Nh vy da vào 27 mu trên và các t loi có th ca chúng, lun án ã xây
dng c tp lut nhn din cm danh t c s bao g&m 434 mu có dng nh
sau:
- Lut 1:
<KNP> → ((<Ng>|<Nt>|<Pp>)
(<Nu> |<Nn>)
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
(<Aa>|<An>)*
(<Nl>|<Pd>)*)
- Lut 2:
<KNP> → (( <Nu> |<Nn>)
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
(<Aa>|<An>)*
(<Nl>|<Pd>)*)
- Lut 3:
<KNP> → ((<Ng>|<Nt>|<Pp>)
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
Mô hình rút trích cm t c trng ng ngha trong ting Vit
59
(<Aa>|<An>)*
(<Nl>|<Pd>)*)
- Lut 4:
<KNP> → ((<Ng>|<Nt>|<Pp>)*
(<Nu> |<Nn>)*
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
(<Aa>|<An>)
(<Nl>|<Pd>))
- Lut 5:
<KNP> -> ((<Ng>|<Nt>|<Pp>) *
(<Nu> |<Nn>)*
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
(<Aa>|<An>))
- Lut 6:
<KNP> → ((<Ng>|<Nt>|<Pp>)*
(<Nu> |<Nn>)*
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
(<Nl>|<Pd>))
Trong ó: | - hoc
* - 0 hoc nhi#u.
4.2.2.
Bài toán rút trích cm danh t bng phng pháp so trùng mu
V# phng pháp, mô hình rút trích cm danh t b ng phng pháp so trùng
mu, da vào tp mu cu trúc các cm danh t và các t có gán nhãn t loi
nhn c t công on trc, nhn din các cm danh t trong câu n ting
Vit ang xét.
Ý tng ca phng pháp là da vào cu trúc vn phm ting Vit xây
dng mt tp các mu, c x$ lý bi máy trng thái hu hn. Kt qu, lun án
ã xây dng c 434 mu nhn din các cm danh t bao g&m c các mu nhn
Mô hình rút trích cm t c trng ng ngha trong ting Vit
60
din các danh t riêng. Tp mu này c hin thc b ng Java Annotation
Patterns Engine (JAPE) (Ph lc B). B phân tích trên c s máy trng thái hu
hn to ra các chú gii có tên là ‘KNP’ vi thuc tính và giá tr c mã hóa (nh
‘type’, ‘POS’, ‘string’,…). Tp mu dùng kt qu u ra ca công on gán nhãn
t loi c!ng nh các thông tin nhn din các t ting Vit nhn din các cm
danh t trong câu n ting Vit ang xét.
T tng ca gii thut nhn din các cm danh t c quy v# vic so trùng
mu có trong c s tri thc. Trong thc t quá trình so trùng thu c rt nhi#u
mu. ây là tr'ng hp nhp nh ng và phng án gii quyt ca lun án là mu
có dài cc i s( c chn, c th c trình bày trong gii thut 4.1.
GI)I THU*T 4.1 So trùng mu
- Nhp: Cho mt chu+i các t w
1
, ..., w
T
,
vi các nhãn t loi c
1
,
..., c
N
tng ng, tp 434 mu nhn din các cm danh t.
- Xut: Các cm danh t.
- Phng pháp:
1. StartNode = Nút trái nht
2. To mt instance u tiên ca FSM và thêm nó vào danh sách active
instances;
3. for FSM instance này t nút hin hành là nút trái nht;
4. while(startNode != last node) do
5. while (not over) do
6. for m+i Fi active instance ca FSM do
7. if instance này mt trng thái kt thúc then ct mt bn sao
ca nó vào tp accepting FSMs (instances ca FSM mà chúng t
trng thái kt thúc);
8. c tt c các annotations b,t u t nút hin hành;
9. Chn tt c các tp annotation mà c dùng trong bc trc
ca & th chuyn trng thái FSM;
10. for m+i tp nh vy to mt new instance ca FSM, t nó vào
danh sách active list và loi b- tp annotation này;
Mô hình rút trích cm t c trng ng ngha trong ting Vit
61
11. loi b- Fi;
12. end for;
13. if tp active instances ca FSM là r+ng then over = true;
14. end while;
15. if tp accepting FSMs là r+ng then
16. T tt c accepting FSMs chn
*
là mu có chi#u dài cc i; nu có
nhi#u mu có cùng chi#u dài thì lúc ó gii pháp là chn mu so
trùng u tiên;
17. Thc hin a v# trng thái kt thúc cho FSM instance ã c
chn;
18. StartNode =selectedFSMInstance.getLastNode.getNextNode();
20. else //s so trùng tht bi b,t u li t nút k tip // StartNode =
StartNode.getNextNode();
21. end while;
Ví d vi câu “Máy tính này có dung lng RAM là bao nhiêu?”, sau khi ã
qua công on gán nhãn t loi thu c nh sau:
Máy tính [Nc] | này [Pd] | có [Vs] | dung lng [Nc] | RAM [Np] | là [Vla] | bao nhiêu [Na]?
Trong công on rút trích cm danh t này, da trên c s tri thc các mu
cu trúc cm danh t, mô hình s( so trùng c hai mu:
[NounPhrase] . [Nc] [Pd]
[NounPhrase] . [Nc] [Np]
Do ó, kt qu thu c trong giai on này là hai cm danh t [Máy tính
này] và [dung lng RAM] tng ng vi hai mu trên.
*: Nu chúng ta so trùng úng theo kiu ca Brill, thì chúng ta phi x lý cho tng accepting instances.