-1-
Chng 1. M U
1.1.
ng c nghiên cu
World Wide Web (WWW) phát tri
n nhanh chóng cùng vi
ngu
n tài nguyên thông tin ngày càng phong phú, nhu cu khai thác
ngu
n thông tin này ca ngi s dng ngày càng tr nên cp thit
i vi i sng ca con ngi. Vic khai thác này c thc hin
thông qua các ph
ng thc nh truy hi thông tin (Information
Retrieval), tóm l
c vn bn (Text Summarization), và rút trích
thông tin (Information Extraction),
M
t trong các vn ct lõi ca h thng khai thác này là xác
nh và rút trích chính xác các cm t c trng ng ngha
(CT
TNN) (khái nim CTTNN c nh ngha chng 2, ti
nh ngha 2.1) ca câu trong vn bn. Vn này là mi quan tâm
c
a các nhà ngôn ng hc, c ng nh các nhà khoa hc trong lnh vc
x
lý ngôn ng t nhiên b!ng máy tính.
" Vit Nam, chúng ta mong mun có c mt h thng rút
trích các c
m t c trng ng ngha ca câu trong vn bn ting
Vi
t, nh!m áp ng nhu cu ang b b# ng# trong các h thng khai
thác thông tin.
iu này ã òi h#i và thúc $y vic nghiên cu và
phát tri
n mô hình rút trích cm t c trng ng ngha trong ting
Vi
t (Vietnamese Key Phrase Information Extraction Model - ViKE).
Lu
%n án nghiên cu rút trích cm t c trng ng ngha (CTTNN)
c
a câu n ting Vit. Vi kho sát tn s xut hin ca các cm
trong các v
n bn ting Vit, lu%n án ã t%p trung nghiên cu vic
xác
nh và rút trích cm danh t c trng ng ngha (CDTTNN)
cho câu
n ting Vit
1.2. M
c tiêu và phm vi nghiên cu
Internet là m
t ni lu tr ngun thông tin ca nhân loi. Ngun
thông tin này
c chia s&, phát trin và m rng không ngng cùng
vi s phát trin nhanh chóng ca World Wide Wed (Web). Vn
t ra là làm th nào khai thác và s dng ngun tài nguyên thông
-2-
tin này mt cách hiu qu nht.
Thông tin trên Web h
u ht u th hin di dng ngôn ng t
nhiên, thông qua các trang Web, các h
thng truy hi thông tin
(Information Retrieval)
c phát trin và thành công nht hin nay
là Google
‡
, Yahoo
§
, v.v Tuy nhiên, các mô hình này u s dng
t
khóa x lý và truy hi tài liu. Hiu sut truy hi ca chúng có
nh
ng gii hn nht nh vì ng ngha ca tài liu b mt i nhiu khi
v
n bn c biu di'n di dng mt t%p các t khóa. Tng t,
yêu c
u cung cp thông tin t phía ngi s dng c ng c biu
di
'n bi các t khóa. S biu di'n này rõ ràng không có kh nng th
hi
n c trn v(n nhu cu thông tin nh mong mun ca ngi s
d
ng. Do ó, khi truy hi thông tin trên các h thng hin nay, ngi
s
dng u nh%n c thêm các tài liu không liên quan ti thông
tin c
n tìm.
ci tin các mô hình truy hi thông tin theo t khóa, nhiu công
trình nghiên c
u i khai thác tim nng ca cm t c trng trong
các h
thng nh truy hi thông tin (Hulth, 2004), tóm lc vn bn
(Text Summarization) (Paice và Black, 2003), và rút trích thông tin
(Information Extraction) (Medelyan và Witten, 2006; Thuy Dung
Nguyen, 2007), Trong các h
thng này, khái nim cm t c
tr
ng c nh ngha nh sau:
nh ngha 1.1: Trong các th vin và khoa hc thông tin cm t
c trng (cm t khóa – key phrase) c nh ngha là “cm t mô
t
ngn gn và chính xác ch hay khía cnh ca ch mà nó
c tho lun trong vn bn” (Feather và P., 1996, 240).
Theo quan
im ca Cao Xuân Ho (1998): “câu n c bn
c
a li nói, ca ngôn t, ca vn bn. Nó là n v nh nht có th
s
dng vào vic giao t. Nói cách khác, câu là ngôn bn (vn bn)
ng
n nht”.
Nh
v%y, vi quan im câu là vn bn ng)n nht và nhn mnh
tr
ng hp cm t c trng di'n t ch ca vn bn ng)n nht
‡
www.google.com/
§
www. yahoo.com/
-50-
Hi ngh Khoa hc Quc gia
[12] Nguy
'n Quang Châu, Phan Th Ti, Cao Hoàng Tr, 2005.
Gán nhãn t loi cho ting Vit da trên vn phong, trong k yu
c
a hi tho khoa hc quc gia l n th! II, Nghiên c!u c bn và
"ng dng công ngh thông tin-FAIR’05, 9-2005, pp.106-116.
II. NGHIÊN C
*U KHOA H+C
[1]
*ng dng trong tài trng im cp nhà nc: Nghiên c!u phát
tri
n các k# thut xây d$ng và khai thác thông tin Web có ng%
ngh
&a (Vietnamese Semantic Web) (KC.01.21), do PGS.TS. Cao
Hoàng Tr làm ch nhim tài, nghim thu nm 2006.
[2]
*ng dng trong tài trng im HQG Tp.HCM: Xây d$ng
ch
ng trình tr giúp truy xut thông tin b'ng ting Vit
(Vietnamese Information Retrieval) (B2005-20-01-TD), do
PGS.TS. Phan Th
Ti làm ch nhim tài, nghim thu nm
2007.
-3-
(câu) và phm vi nghiên cu là câu n, lu%n án nh ngha cm t
c trng ng% ngh&a nh trong nh ngha 2.1 (Chng 2, trang 22).
C
m t c trng ng% ngh&a – c vit t)t là CTTNN – có kh
n
ng mô t ch trong câu (hay vn bn). Nói cách khác,
CT
TNN mang thông tin v ni dung nng ct ca mt câu.
CT
TNN rt hu dng trong nhiu ng dng. Trong lnh vc truy
h
i thông tin, các CTTNN không ch, h- tr trong vic xác nh ni
dung c
a mt vn bn có thích hp vi yêu cu thông tin ca ngi
s
dng hay không, mà còn biu th ni dung nng ct ca câu truy
v
n thông tin trong ng c tìm kim (search engine) trên Web th
h
th ba và h thng hi-áp (question-answering) (Qiao, 2010).
Do các CT
TNN phn ánh c ni dung nng ct (ch ) ca
câu trong v
n bn, nên chúng c s dng phân loi vn bn
(text classification) (Jones và Mahoui, 2000), tóm l
c vn bn (text
summarization) (Barker và Cornacchia, 2000). M
c dù các
CT
TNN c dùng rng rãi trong các h thng ng dng khác
nhau, nh
ng th%t s vic rút trích các CTTNN tng ng cho tng
câu hay t
ng vn bn b!ng phng pháp th công tn rt nhiu thi
gian và công s
c.
Nhu c
u này là ng lc thúc $y các nghiên cu rút trích t ng
các CT
TNN. Có th phân các nghiên cu v CTTNN thành ba
h
ng chính:
1. H
(ng tip cn s dng t in (Dictionary approach): s dng
m
t t in c xây dng b!ng phng pháp th công dùng rút
trích các CT
TNN trong câu (hay vn bn). Quá trình rút trích các
CT
TNN c thc hin b!ng các phng pháp so trùng các
CT
TNN trong t in vi các cm t trong tài liu. Thu%n li
chính c
a hng tip c%n là nhanh và thc hin n gin. Hin nay
nhi
u h thng v.n ang s dng phng pháp này (Bian và Chen,
1998; Li và Xing, 1998; ). Tuy nhiên, ph
ng pháp này còn b hn
ch
khi tài liu có nhng t mi không có trong t in. ây là mt
v
n cn c nghiên cu và gii quyt. Các nghiên cu theo
h
ng tip c%n s dng t in ã có nhiu chin lc ci thin
-4-
quá trình so trùng nh: so trùng c$c i (maximum-matching), so
trùng c
$c tiu (minimum-matching), so trùng t(i (forward-
matching), so trùng lùi (backward-matching), so trùng theo c
hai
h
(ng (bi-directional- matching) và các phng pháp gii quyt vn
b!ng ánh giá kinh nghim (heuristics). Tuy nhiên, hiu sut ca
h
ng tip c%n này li phù thuc vào ln ca t in. Nó th%t s
không hi
u qu khi gii quyt bài toán nh%n din danh t riêng nh
tên, v
trí, hay các thu%t ng mi trong nhng phm vi chuyên bit.
2. H
(ng tip cn ngôn ng% hc (Linguistic approach), hng này
dùng c
s tri thc ng ngha t vng (nh WordNet
**
,
Wikipedia
††
,…), dùng phng pháp ánh giá theo kinh nghim, hay
ph
ng pháp lu%t rút trích các cm t (Wu và Tseng, 1995). Các
nghiên c
u v x lý ngôn ng ting Anh ã chng t# hng tip c%n
này có th
t chính xác cao. Tuy nhiên chính xác ca phng
pháp còn ph
thuc vào vic thit k tng h thng c th (Brill,
1995; Church, 1988; Voutilainen, 1997). M
c dù nhiu kt qu
nghiên c
u ã chng t# hng tip c%n này có nhiu tim nng, tuy
nhiên v
.n cha có mt công trình nghiên cu nào theo hng tip
c
%n này cho ngôn ng ting Vit, và hin thc theo hng tip c%n
này còn g
p nhiu khó khn. Khó khn chính là vic xây dng mt
c
s tri thc ng ngha t vng ting Vit cho nhng min
(domain) chuyên bi
t, có phm vi ln. Vic này òi h#i rt nhiu thi
gian và công s
c.
V
i mc tiêu gii quyt cho bài toán rút trích CTTNN cho câu
n ca ting Vit, lu%n án t%p trung xây dng mô hình ViKEa
(Vietnamese Key phrase Extraction for assignment approach) theo
h
ng tip c%n ngôn ng hc da trên Ontology và khai thác các tri
th
c ngôn ng ting Vit nâng cao hiu qu ca mô hình. Vic
lu
%n án nghiên cu và khai thác Vi.Wikipedia nh kho tri thc ting
**
www.wordnet.com/
††
www.wikipedia.org/
-49-
and Web-based Applications & Services (iiWAS 2009), OCG
ISBN 978-3-85403-260-1, ACM ISBN 978-1-60558-660-1, 14-
16 December 2009, Malaysia, ACM & ACS, pp. 274-281.
[6] Chau Q. Nguyen, Tuoi T. Phan, 2009. An Ontology–Based
Approach for Key Phrase Extraction. In Proceedings of the 47th
Annual Meeting of the Association for Computational Linguistics
and the 4th International Joint Conference on Natural Language
Processing of the Asian Federation of Natural Language
Processing (ACL-IJCNLP 2009), ISBN 978-1-932432-47-5,
August 2 - 7, 2009, Singapore, Companion Vol, pp.181-184.
[7] Chau Q. Nguyen, Luan T. Hong, Tuoi T. Phan, 2009. A Support
Vector Machines Approach to Vietnamese Key Phrase
Extraction, In Proceedings of the 2009 IEEE-RIVF International
Conference on Computing & Communication Technologies
(IEEE-RIVF 2009), ISBN 978-1-4244-4567-7, IEEE eXpress,
pp.131-135.
[8] Chau Q. Nguyen, Tuoi T. Phan, 2007. A Pattern-based Approach
to Vietnamese Key Phrase Extraction, In Addendum
Contributions of The 5th International IEEE Conference on
Computer Sciences- RIVF’07, ISBN 2-912590-4-0, Studia
Informatica Universalis, pp.41-46.
[9] Chau Q. Nguyen, Tuoi T. Phan, 2006. A Hybrid Approach to
Vietnamese Part-Of-Speech Tagging, In Proceedings of The 9th
International Oriental COCOSDA 2006 Conference - O-
COCOSDA’06, 12/2006, Malaysia, pp.157-160.
[10] Chau Q. Nguyen, Thanh C. Nguyen, Tuoi T. Phan, 2006.
Vietnamese Key Phrase Extraction for Information Retrieval, In
Proceedings of The 9th International Oriental COCOSDA 2006
Conference - O-COCOSDA’06, 12/2006, Malaysia, pp.169-172.
[11] Chau Q. Nguyen, Tuoi T. Phan, Tru H. Cao, 2006. Vietnamese
Proper Noun Recognition, In Proceedings of The 4th
International IEEE Conference on Computer Sciences- RIVF’06,
ISSN 1621-0065, IEEE Press, pp.144-151.
-48-
t các trang web (VIRs là sn ph$m ã c nghim thu ca tài
tr
ng im i hc quc gia Tp. H Chí Minh - B2005-20-01-TD).
K
t qu ca h thng VIRs ã c ci thin so vi khi cha tích
h
p ViKEe.
Cu
i cùng, bên cnh các mô hình c xut, phng pháp ca
lu
%n án khai thác Vi.Wiki nh mt ontology ting Vit không ch,
ph
c v cho vic xác nh cm danh t c trng ng ngha cho câu
ti
ng Vit mà còn a ra mt hng gii quyt cho vn thiu kho
ng
liu h- tr x lý ngôn ng ting Vit.
DANH M
C CÔNG TRÌNH CA TÁC GI
I. BÁO CÁO KHOA H
+C
T
p chí Khoa hc
[1] Chau Q. Nguyen, Tuoi T. Phan, 2009. H
ng tip c%n xác nh
c
m t c trng ng ngha trong ting Vit da trên Wikipedia,
Tp chí Công ngh thông tin & truyn thông, ISSN 0866-7039,
T
%p V-1, s 2(22): 30-37.
[2] Nguy
'n Quang Châu, Phan Th Ti, 2008. Nh%n din cm t
c trng ng ngha trong Ting Vit, Tp chí Công ngh thông
tin & truy
n thông, ISSN 0866-17093, s 19: 64-73.
[3] Nguy
'n Quang Châu, Hng Thanh Lu%n, Phan Th Ti, 2008.
M
t hng tip c%n hc máy cho bài toán rút trích cm t c
tr
ng ng ngha trong ting Vit, Tp chí Khoa hc & Công
ngh Vit nam, ISBN 0866-708X, t%p 46, s 1: 69-78.
[4] Nguy
'n Quang Châu, Phan Th Ti, Cao Hoàng Tr, 2006. Gán
nhãn t loi cho ting Vit da trên vn phong và tính toán xác
su
t, Tp chí Phát trin Khoa hc & Công ngh, ISSN 1859-
0128, t
%p 9, s 2:11-21.
H
i ngh Khoa hc Quc t
[5] Chau Q. Nguyen, Tuoi T. Phan, 2009. Key Phrase Extraction: A
Hybrid Assignment and Extraction Approach. In Proceedings of
the 11th International Conference of Information Integration
-5-
Vit ã gii quyt khó khn v tài nguyên tri thc t vng ting Vit
khi xây d
ng mô hình theo hng tip c%n này.
3. H
(ng tip cn b'ng phng pháp thng kê (Statistical
approach), th
c cht là quá trình hc các giá tr ã c thng kê t
m
t kho ng liu ln rút trích các cm t (Su và CS, 1996).
H
ng tip c%n này t# ra hiu qu cho vic rút trích cm t c trng
ng
ngha (Yang và CS, 1998; Chien, 1997; Chien, 1998; Chen và
CS, 1997), và nó liên quan m
%t thit vi hng tip c%n n-gram vi
n có giá tr
2,3, hay 4. Tuy nhiên, khi Chien (1997) dùng PAT-Tree
(PATricia Tree)
rút trích các CTTNN trong vn bn ca ting
Trung Qu
c, tác gi ã không gii hn giá tr ca n. Mc dù có gia
t
ng v mt tính toán, k/ thu%t này không nhng không òi h#i nhiu
công s
c to t in hay c s tri thc mà còn có kh nng ly
c các thu%t ng có trng s cao trong kho ng liu. Tuy nhiên,
m
t hn ch ca hng tip c%n là có mt s trng hp không th
rút trích các c
m t hp lý mà có tn sut thp.
M
c dù hng tip c%n b!ng thng kê có chính xác (Precision)
không t
t, nhng có y (Recall) cao so vi hng tip c%n
ngôn ng
hc. Vì v%y, vi mc tiêu là ci thin ti a hiu qu ca
h
thng ViKEa theo hng tip c%n ngôn ng hc khi vic khai thác
ngôn ng
v.n còn gii hn, lu%n án s0 xây dng mô hình rút trích các
CT
TNN b!ng phng pháp máy hc có giám sát. Các CTTNN
c gán nhãn t loi ban u làm t%p hun luyn xây dng mô
hình rút trích.
ây là c s cho mô hình xác nh úng các CTTNN
trong các c
m t d tuyn. Mô hình rút trích dùng mt t%p các tính
ch
t c trng phân loi các cm t. Vn t ra là phi xác
nh c các tính cht c trng ca các cm t, nh!m xác nh
m
t cách chính xác các CTTNN trong các cm t d tuyn.
Nh
v%y, mc tiêu ca lu%n án là xây dng mt mô hình lai cho bài
toán rút trích CT
TNN trong câu n ting Vit. Mô hình này là s
ph
i hp ca hai mô hình theo hng tip c%n ngôn ng hc và
ph
ng pháp xác sut thng kê. ó chính là s phi hp ca hai mô
hình theo h
ng tip c%n rút trích và xác nh CTTNN (c trình
-6-
bày trong Chng 3). Trong hng tip c%n ngôn ng hc, lu%n án
s
dng phng pháp so trùng m.u da trên Ontology c to l%p
t
Wikipedia ting Vit. Mô hình này là c s lu%n án xut bn
tính ch
t c trng cho phng pháp xác nh cm t c trng ng
ngh
a dùng phng pháp máy hc vect h) tr (Support Vector
Machines-SVMs) nh
!m n)m b)t c v trí lô-gích và c tính hình
thái c
a CTTNN, là: (1) v trí t trong câu, (2) nhãn t loi, (3) cu
trúc c
m t, (4) các t quan h gia các cm t.
T
ây, các bài toán chính cn c gii quyt trong phm vi
lu
%n án bao gm:
Bài toán 1
- Xây dng mô hình ViKEa.
Lu
%n án nghiên cu và khai thác ngun tài nguyên ca
Vi.wikipedia
xây dng mt Ontology ting Vit ViO (Vietnamese
Ontology) nh
!m phc v yêu cu ca bài toán.
Lu
%n án xut mô hình xác nh CTTNN, c gi là
ViKEa, d
a trên các tri thc ngôn ng t nhiên (nh h thng lu%t và
ViO) và các bài toán ti
n x lý (nh phân on t và gán nhãn t
lo
i).
Bài toán 2
- Xây dng mô hình rút trích cm t c trng ng
ngh
a, c gi là ViKEe ( Vietnamese Key phrase Extraction for
extraction approach).
Lu
%n án nghiên cu và phân tích các mô hình hc máy. T ó
xu
t mô hình rút trích CTTNN dùng phng pháp SVMs, nh!m ci
thi
n ti a hiu qu ca mô hình ViKEa khi ngun tài nguyên ting
Vi
t s1n có còn hn ch.
Bài toán 3
- Xây dng mô hình ViKE (Vietnamese Key phrase
Extraction).
ViKE là s
kt hp hai mô hình ViKEa và ViKEe cho bài toán
rút trích c
m t c trng ng ngha trong câu n ca ting Vit,
v
i mc tiêu khai thác ti a chính xác ca vic rút trích
CT
TNN ca tng mô hình trong bài toán 1 và 2.
Nh nh hng nêu trên, phm vi nghiên cu ca lu%n vn c
th
hin trong hình 1.1.
-47-
u tiên là mô hình ViKEa, theo hng tip c%n ngôn ng da
trên Ontology ViO (
c khai thác t Vi.Wiki) vi k/ thu%t so trùng
m
.u và các quan h ng ngha gia các th loi trên Ontology, c ng
nh
các khâu tin x lý phân on t và gán nhãn t loi. Kt qu
t c ca mô hình ViKEa khá cao trong trng hp các cm
danh t
ca các câu có các t quan h, hoc có các khái nim tng
ng trong ontology ViO. Ngc li, các CDTTNN c nh%n
d
ng sai u thuc vào trng hp khái nim cha tn ti trong
Ontology ViO.
ây là mt hn ch ca mô hình ViKEa và c ng là
ng c nghiên cu ca lu%n án cho mô hình theo hng tip c%n
h
c máy xây dng các tng t ng ngha gia các cm danh
t
. T vic ánh giá và so sánh kt qu thu c t mô hình ViKEa,
lu
%n án rút ra c các tính cht c trng v ngôn ng ca
CDT
TNN. Các tính cht c trng này quyt nh cm danh t
nào là
c trng ng ngha so vi các cm danh t khác trong câu.
Ngoài ra, các tính ch
t c trng này là tin góp phn xác nh
t
%p tính cht nh%n din CDTTNN trong mô hình ViKEe theo
h
ng tip c%n rút trích và k/ thu%t hc máy.
Ti
p theo, lu%n án ã xut mô hình ViKEe theo hng tip c%n
h
c máy nh!m ci thin ti a hiu sut ca h thng khi vic khai
thác tài nguyên ngôn ng
còn có gii hn. Hng tip c%n này da
trên ph
ng pháp hc máy, c th là phng pháp SVMs và k/
thu
%t hun luyn SMO. Lu%n án hin thc hng tip c%n thành mt
ng dng riêng bit gi là mô hình ViKEe. *ng dng này có th
ch
y c l%p hoc nhúng vào các ng dng khác trên môi trng
Windows. K
t qu t c ca mô hình ViKEe theo hng tip
c
%n rút trích CDTTNN t c ã áp ng c mc tiêu ra
c
a lu%n án và s0 góp phn ci thin hiu sut ca mô hình kt hp
c
a ViKE trong trng hp các CDTTNN không c xác nh
trong mô hình ViKEa theo h
ng xác nh da trên Ontology ViO.
Ngoài ra, chúng tôi c ng ã tích hp ViKEe nh là mt mô-un
c
a h thng truy xut thông tin xuyên ngôn ng có h- tr ting
Vi
t gi là VIRs. H thng này cho phép truy xut thông tin hu ích
-46-
trin. Di ây, chúng tôi trình bày mt s hng phát trin chính:
- V
hng tip c%n xác nh CTTNN, mt vn cn m rng
là khai thác các m
i quan h ng ngha thông qua các ontology v
ngôn ng
(ví d nh Wiktionary, WordNet, ). ng thi khai thác
các m
i quan h (là quan h ng ngha, quan h phn ngha, hay
quan h
thành phn, ) gia các trang thông tin thông qua các liên
k
t ca chúng trong Wikipedia. T ó m rng các khái nim và các
quan h
ca các danh hiu trong Ontology ViO c ng nh t in
ViDic, nh
!m nâng cao hiu sut xác nh CTTNN ca h thng.
-
tng t ng ngha ca khái nim và thc th có tên cha
c kho sát trong lu%n án này. ng thi, vic khai thác tng
t
gia các thành phn ca thc th có tên nh là tng t v tên,
l
p, cp tên-lp và danh hiu c ng cha c khai thác. ây là mt
trong nh
ng hng phát trin quan trng ca tài.
- V
hng vn rút trích CDTTNN, mt vn cn khai thác
là giai
on hun luyn m.u cho mô hình hc máy cn c m rng
cho t
ng lãnh vc c th, c ng nh c%p nh%t thêm các kho ng liu
hu
n luyn nh!m nâng cao chính xác ca h thng.
- M
t hng phát trin khác c ng rt quan trng là vic áp dng
các mô hình này cho các ngôn ng
khác, vì các mô hình c phát
tri
n, kho sát, c ng nh thc nghim trong lu%n án này u trên
ti
ng Vit. Thông qua vic phát trin mô hình cho các ngôn ng khác
(nh
ting Anh) so sánh ánh giá phng pháp c xut trong
lu
%n án vi các phng pháp khác, c ng nh ánh giá quá trình ti
u chi phí trong mô hình kt hp ViKE.
7.3 K
t lun
Lu
%n án ã trình bày các hng tip c%n gii quyt bài toán rút
trích các c
m danh t c trng ng ngha ca câu n ting Vit.
T
phân tích và ánh giá tng hng tip c%n, lu%n án ã xut
m
t mô hình ViKE cho bài toán rút trích CDTTNN trong các câu
ti
ng Vit. Mô hình ViKE là s kt hp ca hai mô hình theo hng
ti
p c%n ngôn ng và hc máy (mô hình ViKEa và ViKEe).
-7-
Hình 1.1. Phm vi ca lun vn
1.3. óng góp chính ca lun vn
Sau
ây là nhng óng góp chính ca lu%n án i vi lnh vc x
lý ngôn ng
t nhiên mà c th là x lý vn bn ting Vit:
-
*óng góp th! nht: Xây dng c ch rút trích cm t c trng
ng
ngha trong câu ting Vit.
-
*óng góp th! hai: xut mô hình ViKEa, là mô hình xác
nh cm t c trng ng ngha câu n ca ting Vit, dùng
ph
ng pháp so trùng m.u da trên vic khai thác Vi.Wikipedia nh
m
t Ontology ting Vit.
-
*óng góp th! ba: xut mô hình ViKEe, là mô hình rút trích
c
m t c trng ng ngha trong câu n ca ting Vit, dùng
ph
ng pháp SVMs vi bn tính cht c trng: (1) v trí t trong
câu; (2) nhãn t loi; (3) cu trúc cm t; (4) các t quan h gia các
c
m t.
-
*óng góp th! t: xut mô hình ViKE, là s kt hp hai mô
Tin x lý
Câu ting Vit
Gán nhãn t loi
Phân on t
Xác nh CTTNN
T%p m.u
Rút trích các cm t
d
tuyn
Ontology
ViO
Các CTT
NN
Da vào Ontology
Da vào hc máy
Mô hình
-8-
hình ViKEa và ViKEe cho bài toán rút trích cm t c trng ng
ngh
a trong câu n ca ting Vit.
-
*óng góp th! nm: Xây dng mt kin trúc công ngh hoàn
ch
,nh cho ng dng rút trích CTTNN trong câu n ca ting Vit.
-
*óng góp th! sáu: xut phng pháp khai thác
Vi.Wikipedia nh
mt Ontology ting Vit không ch, phc v cho
vi
c xác nh cm danh t c trng ng ngha trong câu n ca
ti
ng Vit mà còn góp phn gii vn thiu tài nguyên có s1n ca
ng
liu ting Vit, h- tr cho vn x lý ngôn ng t nhiên trong
ti
ng Vit.
Ch
ng 2. C S LÝ THUYT NGÔN NG TING VIT
2.1 Gi
i thiu
Ch
ng này trình bày các vn v ng pháp ting Vit nh!m
ph
c v vic nghiên cu phng pháp rút trích cm t c trng ng
ngh
a cho câu ting Vit. Do ng pháp ting Vit v.n còn nhiu vn
tranh lu%n cha t ti s nht quán gia các nhà ngôn ng hc
nên chúng ta c
ng còn nhiu khó khn trong vic t ng hóa phân
tích ti
ng Vit. Trong phm vi nghiên cu ca lu%n án, chng 2
ch
, c%p n các khái nim, tính cht, và quan im chung ca các
nhà ngôn ng
hc, nh!m xác nh rõ c s lý thuyt v ngôn ng
ti
ng Vit phc v cho mc tiêu ca lu%n án.
C
th, chng 2 trình bày các vn nh th nào là cm t c
tr
ng ng ngha cho câu ting Vit, mc và tiêu chí ng ngha ca
CT
TNN c ng nh t loi, cm t và câu làm c s lý thuyt v
ngôn ng
hc cho phng pháp xác nh cm t c trng ng ngha
cho câu ti
ng Vit.
2.2 C
s lý thuyt
2.2.1 C
m t c trng ng ngha
Trong ti
ng Vit, câu là n v nh nht m nhim ch!c nng
thông báo tr
n v+n thông tin b'ng ngôn ng% (Dip Quang Ban,
-45-
- Nghiên cu và phát trin mô hình theo hng tip c%n rút trích
c
m danh t c trng ng ngha trong ting Vit, c%p vn xác
nh các tính cht c trng cho nh%n din các CDTTNN trong câu
n ting Vit, trong ó có các câu truy vn, t ó xut mô hình
ViKEe.
ây là mô hình s dng máy hc vect h- tr, c th là gii
thu
%t SMO gii quyt bài toán thiu kho ng liu ln có chú
gi
i trong quá trình hun luyn. Mô hình hc máy có giám sát ViKEe
d
a theo bn tính cht c trng: (1) v trí t trong câu; (2) nhãn t
lo
i; (3) cu trúc cm t; (4) các t quan h gia các cm danh t
c
a các cm danh t d tuyn rút trích các CDTTNN.
- Phát tri
n mô hình kt hp gia hng tip c%n xác nh và
h
ng tip c%n rút trích cm danh t c trng ng ngha trong ting
Vi
t da trên các mô hình ã phát trin là hai mô hình ViKEa và
ViKEe. T
ó lu%n án xut mô hình ViKE. ây là mô hình kt
h
p hai mô hình ViKEa và ViKEe vi mc tiêu khai thác ti a
chính xác c
a vic rút trích CDTTNN ca tng mô hình.
- Xây d
ng mt Ontology ting Vit ViO và t in ViDic
ph
c v cho vic xác nh cm danh t c trng ng ngha cho câu
ti
ng Vit, b!ng cách rút trích h phân cp các th loi và các quan h
ng
ngha trong Vi.Wikipedia nh mt Ontology ting Vit.
- Xây d
ng c mt kin trúc công ngh hoàn ch,nh cho ng
d
ng rút trích CDTTNN trong ting Vit.
7.2 H
ng phát tri n
T
các nghiên cu liên quan ã c c%p và t các kt qu ca
lu
%n án, chúng tôi ngh mt s vn và hng nghiên cu tip
theo nh
sau.
Các mô hình rút trích
c gii thiu trong lu%n án này là nhng
mô hình cho hai h
ng tip c%n chính là hng xác nh và hng
rút trích CDT
TNN. ng thi lu%n án khai thác vic kt hp gia
hai hng trên xây dng mt mô hình t2ng quát cho bài toán rút
trích c
m danh t c trng ng ngha trong câu n ting Vit. Vì
v
%y, có th nói t hng nghiên cu này còn nhiu vn cn phát
-44-
xác) thì mô hình ViKEa và mô hình ViKE cho kt qu rút trích chính
xác. Ng
c li, mt s truy vn mà mô hình ViKEa không rút trích
c CDTTNN (nh câu S9) thì mô hình ViKEe và mô hình ViKE
có th
rút trích c CDTTNN. Nh v%y, các kt qu phân tích các
mô hình thông qua các câu th
nghim trên c ng nh toàn b t%p
ki
m th C
1
ã minh chng hiu sut ca mô hình ViKE t c
cao h
n so vi hai mô hình ViKEa và ViKEe. iu này chng t# mô
hình k
t hp hai hng tip c%n xác nh và rút trích CDTTNN ã
áp ng c mc tiêu t ra ca lu%n án cho bài toán rút trích cm
danh t
c trng ng ngha trong câu truy vn nói riêng và câu
ti
ng Vit nói chung .
Ch
ng 7. T!NG KT
7.1 Tóm t
"t các kt qu# t $c
V
i mc tiêu ca tài là nghiên cu và phát trin mô hình rút
trích c
m danh t c trng ng ngha trong ting Vit, lu%n án ã
t c các kt qu sau:
- Lu
%n án ã kho sát các u im và hn ch trong các mô hình
rút trích c
m t c trng. T ó, lu%n án ã xut mt mô hình kt
h
p hng tip c%n xác nh và hng tip c%n rút trích cm danh t
c trng ng ngha trong ting Vit. Mô hình này ã óng góp vào
vi
c x lý ng ngha vn bn và các ng dng x lý ngôn ng t
nhiên.
- Nghiên c
u và phát trin mô hình theo hng tip c%n xác nh
c
m danh t c trng ng ngha trong ting Vit. kh)c phc vn
cn thit phi có kho ng liu ting Vit có chú gii ln khi xác
nh cm danh t c trng ng ngha, lu%n án khai thác mt bách
khoa toàn th
trc tuyn vi ni dung m Wikipedia xây dng
Ontology ti
ng Vit ViO và t in ViDic. T ó lu%n án ã xut
mô hình ViKEa. ây là mô hình s dng phng pháp so trùng m.u
d
a trên c s tri thc và Ontology.
-9-
2004). T là n v nh nht t$ thân có ngh&a. Cm t là n v nh#
h
n câu nhng ln hn t v mt ý ngha ng pháp (câu > cm t >
t
). Tuy không thông báo trn v(n ni dung thông tin nhng cm t
có kh
nng d$ báo, nh h(ng ni dung thông tin ca vn bn.
Trong vi
c nghiên cu v ngôn ng hc, các nhà nghiên cu u có
m
t quan im chung v cu trúc cú pháp ca thành phn câu và
ch
c nng chính ph ca chúng (Cao Xuân Ho, 1992; H Lê, 1993;
Nguy
'n Kim Thn và ng Hu Qu3nh, 2001; Dip Quang Ban,
2004…). Thành ph
n câu là khái nim chung ca nhiu ngôn ng,
không nêu
c c thù tng ngôn ng riêng bit. Tiêu chu$n phân
nh thành phn câu c da vào quan h ý ngha gia các t trong
câu và d
a vào các c trng hình thc ca t trong câu.
Trong m
t câu nói cô l%p, tách ri tình hung nói nng, s có mt
c
a thành t chính có tính cht b)t buc. Thành t chính gi vai trò
quan tr
ng v ng pháp i vi cm t. Thành t chính là thành t
i din cho toàn b cm t trong mi liên h vi các yu t khác
n
!m ngoài cm t. Do ó, chc nng cú pháp ca toàn b cm t
trong ki
n trúc ln hn s0 g)n bó m%t thit vi vai trò cú pháp ca
thành t
chính. Trong quan h ni b cm t, thành t chính chi phi
t
t c các thành t trc tip ph thuc vào mình, nó quyt nh chc
n
ng cú pháp ca tt c các thành t ph có liên quan.
V
ý ngha, thành t chính quyt nh kh nng gia nh%p các cu
trúc l
n hn ca toàn b cm t. Mt khác c ng chính ni dung -
ngh
a ca thành t chính quyt nh kh nng xut hin kiu thành t
ph
. Nh ó chúng ta có th da vào kh nng xut hin ca các
thành t
ph nh là da vào mt du hiu hình thc xác nh t
lo
i, tiu loi và th%m chí c ý ngha ca lp t hay ca t gi vai trò
thành t
chính.
Xét v
quá trình c hiu ng ngha ca vn bn trong bình din
d
ng pháp, ngoài mt ni dung ca các câu biu t (hay ngha biu
th
), ây chính là cp ng ngha ca t hay cm t m nhim
(nh
mt cm t là cm danh t, cm ng t hay cm tính t) (Cao
Xuân H
o, 1992). Cp cao hn là nh%n ra các i tng (s ch,)
-10-
c nói n trong câu vn bn, các i tng này c xác nh bi
c
m danh t (Cm t c trng ng% ngh&a - CTTNN) và các mi
quan h
ca chúng.
Ch
4ng hn nh câu “cho bit quê hng ca Ch tch H Chí
Minh ?”. N
u xét cp ng ngha ca cm t, quê hng ch, là
m
t cm danh t ch, ni chn, và Ch tch H Chí Minh c ng là cm
danh t
ch, tên riêng. Tuy nhiên, nu xét thêm mi quan h ca
chúng, thì quê h
ng trong câu này ch, n i tng là quê hng
c
a Ch tch H Chí Minh ch không phi ca ai khác; trong ó,
c
m danh t Ch tch H Chí Minh ch, n i tng là v Ch tch
H
Chí Minh ca chúng ta, nhng i tng Ch tch H Chí Minh
là
i tng ph trong câu ang xét. Nó óng vai trò gii hn phm
vi c
a các i tng quê hng trong câu. Vi mt góc nhìn nh
v
%y, ng ngha câu, hay ng ngha vn bn c th hin rõ nét và
y hn trong lnh vc x lý ngôn ng t nhiên b!ng máy tính.Vì
v
%y, có th nói, trong mt phm trù nào ó, các CT*TNN và các mi
quan h
ca chúng to thành ni dung nng ct - ng% ngh&a ca mt
câu hay m
t vn bn.
Câu th
c hin chc nng công c t duy, công c giao tip thông
qua ngh
a ca nó. Ngha ca câu không n gin là mt phép cng
ngh
a ca các t trong câu. Ngha ca câu là mt cu trúc có nhiu
t
ng. Các tng ngha trong câu phi hp vi nhau to ra ngha hình
th
c ca câu. Ngha ca câu có th thy trên b mt ca nó nhng
nhi
u khi ch, thy c trong b sâu ca nó. Nhng dù là b mt
(hi
n ngôn) hay trong b sâu (hàm ngôn), ngha câu ch, có th là
ngh
a hình thc khi câu có s ch,. Mun xác nh s ch, ca câu thì
ph
i hiu s ch, ca các thành phn to câu và tình hung ca phát
ngôn. Tách ra kh
#i câu, t ng v.n có ngha nhng không có s ch,
(Cao Xuân H
o, 1992).
Nh
v%y, mt iu không th ph nh%n là trong mt câu có nh%ng
t
, nhóm t m nhim chc nng chính ca vic chuyn ti thông
tin phát ngôn. Thu
%t ng lu%n án dùng ch, nhng t, nhóm t có
-43-
tính toán hiu sut ca h thng, ngoài vic kho sát các thông
s
v chính xác, bao ph c ng nh trung bình iu hòa F,
lu
%n án tin hành kho sát thi gian áp ng ca h thng nh!m kim
nh tính kh thi trong ng dng. Thi gian áp ng c tính t lúc
ng
i dùng a câu vào h thng cho n lúc nh%n c kt qu tr
v
. Vi thc nghim trên t%p kim th C
1
, thi gian áp ng mà lu%n
án
ã kho sát trên cùng mt máy tính vi cu hình (Intel
®
Core™
Duo 1.8x2 GHz Processor, 2GB DDR2 SDRAM, 120GB HDD,
Microsoft
®
Windows
©
XP) cho ba kch bn trên không chênh lch
nhau nhi
u (khong chênh lch là t 1 n 93 mi li giây). Kt qu t
c nh trình bày trong Bng 6.3 khi thc nghim trên t%p C
1
vi
10 câu ng
.u nhiên.
Bng 6.3: Thi gian áp ng khi thc nghim trên t%p C
1
vi 10 câu ng.u nhiên.
Thi gian áp ng trên t%p C
1
(mi li giây)
chênh lch
Câu
(S)
ViKEa ViKEe ViKE
ViKE -
ViKEe
(*)
(*)/
ViKEe
ViKE -
ViKEa
(**)
(**)/
ViKEa
S1 110 117
124
7 5.98% 14 12.73%
S2 61 69
63
-6 -8.70% 2 3.28%
S3 20 30
25
-5 -16.67% 5 25.00%
S4 5 9
8
-1 -11.11% 3 60.00%
S5 113 110
114
4 3.64% 1 0.88%
S6 86 83
96
13 15.66% 10 11.63%
S7 83 95
84
-11 -11.58% 1 1.20%
S8 737 812
830
18 2.22% 93 12.62%
S9 138 156
140
-16 -10.26% 2 1.45%
S10 796 814
847
33 4.05% 51 6.41%
6.4 Kt chng
Qua kh
o sát các câu trên, mô hình ViKEa là mô hình có thi gian
áp ng trung bình nhanh nht, k tip là mô hình ViKE, cui cùng là
mô hình ViKEe. Tuy nhiên, i vi mt s câu (nh S4) mô hình
ViKEe không rút trích
c CDTTNN (hoc rút trích không chính
-42-
Vi 2079 câu ca t%p kim th C
1
ã c bn c nhân v ngôn
ng
hc nh%n din các CDTTNN theo phng pháp th công, thu
c các phiên bn (Ver) ln lt là V
1 ,
V
2 ,
V
3 ,
và V
4
.
- Phiên b
n V
1
xác nh c 3072 CDTTNN, trong ó có
2692 CT
TNN c nh%n din t h thng ViKE.
- Phiên b
n V
2
xác nh c 3050 CDTTNN, trong ó có
2293 CDT
TNN c nh%n din t h thng ViKE.
- Phiên b
n V
3
xác nh c 2985 CDTTNN ít hn phiên bn
V
2
, nhng có 2512 CDTTNN c nh%n din t h thng ViKE
nhiu hn phiên bn V
2
.
- Phiên b
n V
4
xác nh c ít nht trong 4 phiên bn và thu
c 2079 CDTTNN, trong ó có 2003 CDTTNN c nh%n
di
n t h thng ViKE.
K
t qu t c ca mô hình ViKE vi chính xác, y
và
trung bình iu hòa F c trình bày trong Bng 6.1.
B
ng 6.1: Kt qu rút trích CDTTNN trong mô hình ViKE.
Ver E A E5A Precision Recall F
V
1
3007 3072 2692 89,52% 87,63% 88,57%
V
2
3007 3050 2293 76,26% 75,18% 75,71%
V
3
3007 2985 2512 83,54% 84,15% 83,85%
V
4
3007 2079 2003 66,61% 96,34% 78,77%
ng thi, ánh giá hiu sut rút trích CDTTNN ca mô
hình ViKE t c so vi hai mô hình ViKEa và ViKEe v mt
th
c nghim, lu%n án thc hin ba kch bn trên cùng mt t%p kim
th C
1
vi cùng phiên bn V
1
nh sau:
Kch bn 1: thc nghim trên mô hình ViKEa.
Kch bn 2: thc nghim trên mô hình ViKEe.
Kch bn 3: thc nghim trên mô hình t2ng quát ViKE.
K
t qu t c thng kê trong Bng 6.2.
B
ng 6.2: So sánh hiu sut rút trích CDTTNN gia các mô hình.
Mô hình
E A E5A Precision
Recall F
ViKEa 3236 3072 2293 74.6% 70.8% 72,65%
ViKEe 3483 3072 2457 70,54% 80% 74,97%
ViKE 3007 3072 2692 89,52% 87,63% 88,57%
-11-
chc nng nh trên là Cm t c trng ng% ngh&a ca câu và c
nh ngha nh sau.
nh ngha 2.1 Cm t c trng ng ngha là cm t c
tr
ng mô t ng)n gn chính xác ch mà nó c tho lu%n trong
v
n bn ng)n nht (câu).
Ngoài c
p ng ngha ca t hay cm t m nhim (nh mt
c
m t là cm danh t, cm ng t hay cm tính t), cp cao
h
n là nh%n ra các i tng (s ch,) c nói n trong câu vn bn
(Cao Xuân H
o, 1992). Da vào c s trên, lu%n án xác nh tiêu chí
ng
ngha xác nh CTTNN cho câu nh sau.
Tiêu chí ng
ngha ca cm t c trng ng% ngh&a ca câu 678
cm t xác nh i tng (s, ch-) chính c c%p n trong
thông tin c
a câu.
Ví d
2.1: Máy tính này có dung lng RAM l(n nht.
" ây, theo tiêu chí ng ngha thì “ dung lng RAM l(n nht ” là
c
m t c trng ng ngha cho câu. Quan h thành phn gia cm
danh t
“ máy tính này” và cm danh t “ dung lng RAM l(n nht”
cho phép xác
nh i tng chính c c%p n trong thông tin
c
a câu là dung lng RAM ln nhât. Vì dung lng RAM là dung
l
ng ca mt thit b b nh trong (c gi tên là RAM) ca máy
tính (trong l
nh vc chuyên bit là máy tính), nên không cn cm t
“ máy tính này” thì c
m t “ dung lng RAM ln nht” c ng mang
c ni dung nng ct (ng ngha) ca câu ví d 2.1.
Vi
c nghiên cu cm t c trng ng% ngh&a có tm quan trng
cho vi
c tìm hiu thông tin c ng nh s dng chúng trong h thng
ngôn ng
. Cu to ca cm t mang nhng du hiu t ó có th
phân
nh t loi, tiu loi ca t (c im không bin hình t ca
ti
ng Vit). Cu to ca cm t giúp chúng ta n)m c cách trin
khai câu b!ng vic m rng các thành phn trong câu hoc ngc li
nh
rút gn câu, mô hình hoá câu, hay giúp cho vic tìm hiu câu,
v
n bn c d' dàng và thu%n li hn.
-12-
2.2.2 Câu
Câu
678n 98:a nghiên cu ngôn ng8:;8cu <o ng8=>?p (bên
trong
978bên @AB7i) t8l%p 978ng8iu kt <>Cc, mang mt D8@A>8
tng i <En 9(n hay <>?i , s8?nh AF?8:a ngi @;i, hoc :;8
th8GHm theo <>?i , s8?nh AF?8:a ngi @;i, AFCp >Inh <>7nh 978
biu hin, truyn t t tng, <Inh :m. Câu 678 n 98 @>#8 nht
chuy
n ti mt thông tin trn v(n nht b!ng ngôn ng8(Dip Quang
Ban, 2004).
Theo quan
im ca Cao Xuân Ho (1998), câu 678n 98c bn
c
a li nói, ca ngôn t, ca vn bn. Nó là n v nh# nht có th s
d
ng vào vic giao t. Nói cách khác, câu là ngôn bn (vn bn) nh#
nh
t.
n v câu c ng c chia thành nhiu dng thc. im chung
nh
t ca nhiu quan nim v ý ngha ng pháp ca nhiu ngôn ng
thì
n v t, câu trong vn bn tng khái quát nht. T c phân
lo
i thành danh t, ng t, tính t, i t, ph t, kt t, tr t, cm
t
, và các tiu loi ca chúng … nh quan im ca các nhà ngôn
ng
hc (Jy ban Khoa hc Xã hi Vit Nam, 1983). Câu c phân
lo
i theo mc ích phát ngôn, cu trúc,… . Nhiu quan im v phân
lo
i câu ã c a ra.
Các công trình nghiên c
u v loi câu ca các nhà ngôn ng hc
trên
u th hin quan im, mc ích và lu%n chng riêng. Mt
im thu%n li là phm vi nghiên cu ca lu%n án ch, t%p trung vào
các d
ng câu n. Và theo quan im ca các nhà nghiên cu ngôn
ng
hc trên thì cách phân loi câu theo mc ích nói tng i
gi
ng nhau. C th, cách phân loi câu nghi vn c trình bày nh
sau:
Phân i
theo
c ch
i
Dùng câu tng thut
Dùng t nghi vn
Câu nghi vn toàn b
Câu nghi vn la chn
Câu nghi vn b
phn
Câu nghi vn la chn
b phn
Câu t
ng thu
t
Câu nghi vn
Câu c
m thán
Câu c
u khi
n
-41-
c c l%p là vnWordSegmentation, vnPOSTagger, ViKEa, ViKEe
mà chúng d
' dàng tích hp vào các h thng khác.
3. L
(p c s, d% liu (Database tier): lp này cung cp các chc
n
ng lu tr và truy xut d liu ca ViKE thông qua h qun tr c
s
d liu MySQL Server 5.1 và các t%p tin ng liu dng XML.
6.3
ánh giá hiu su%t rút trích CDTTNN
Ph
ng pháp ánh giá hiu sut ca lu%n án là da vào thc
nghi
m vi chính xác, y , và trung bình iu hòa F
c trình bày trong mc 3.4.2 ca Chng 3.
ánh giá hiu sut ca h thng, chúng tôi c ng xin lu ý
r
!ng các mô hình xut trong lu%n án u tha k kt qu ca công
on tin x lý phân on t và gán nhãn t loi rút trích
CDT
TNN trong câu ting Vit. Nên hiu sut rút trích CDTTNN
c
a h thng ph thuc vào hiu sut ca công on tin x lý. Gia
t
ng hiu sut ca công on tin x lý c ng s0 làm gia tng hiu
su
t ca h thng rút trích CDTTNN. Tuy nhiên, ây là hai vn
tách bi
t. Trong lu%n án này ch, t%p trung kho sát các mô hình rút
trích CDT
TNN và chp nh%n các l-i tích l y ca công on tin x
lý.
V
ng liu kim th, lu%n án chn lc các t%p m.u câu tng
thu
%t và câu h#i, c ly t các ngun ng liu sau:
1. TREC (Text REtrieval Conference) (
(
TREC, 2009) là:
• TREC07: bao g
m 446 câu h#i ting Anh.
• TREC06: bao g
m 492 câu h#i ting Anh.
• TREC02: bao g
m 440 câu h#i ting Anh.
2. Trang web
www.lexxe.com (Qiao, 2010): bao gm 701 câu
ti
ng Anh.
T
%p m.u thu c t hai ngun trên gm 2079 câu ting Anh
c Hi Nghiên Cu Dch Thu%t Tp. H Chí Minh dch sang t%p
m
.u câu ting Vit tng ng, c gi là t%p kim th C
1
.
-40-
trong ViO , thì vic xác nh cm danh t d tuyn nào là
CDT
TNN s0 da vào phng pháp hc máy thông qua mô
hình ViKEe (
ng vi trng hp các câu mà không cha các
t
, hay cm t quan h gia các cm danh t d tuyn và các
c
m danh t d tuyn không có khái nim trong ViO).
V
ý tng, gii thu%t xác nh các cm danh t c trng ng ngha
trong mô hình ViKE
c trình bày t2ng quát nh sau:
Gi
i thut 6.1. Xác nh CDT*TNN trong ViKE.
6.2 H
thng rút trích CDTTNN trong ting Vit
kim nghim các phng pháp xut cho bài toán rút trích
CDT
TNN cho câu ting Vit, lu%n án hin thc Mô hình rút trích
c
m danh t c trng ng% ngh&a trong ting Vit –ViKE nh mt h
th
ng vi mô hình kin trúc ba lp c trình bày Hình 6.2.
1. L
(p giao din (Presentation tier): cung cp mt giao din cho
phép ng
i s dng nh%p các câu trc tip vào h thng hoc t mt
t
%p tin cha các câu. Kt qu tr v là các CDTTNN tng ng cho
m
-i câu nh%p di dng XML. Vi dng XML, các CDTTNN có
th
d' dàng c s dng trong các ng dng khác.
2. L
(p nghip v (Business tier): ây là thành phn th hin các
qui t
)c nghip v ca kin trúc h thng ViKE. Lp này gm ba
kh
i:
• Kh
i th! nht chu trách nhim tách t và gán nhãn t loi
cho t
(Word segmentation and POS tagger).
• Kh
i th! hai là mô hình ViKEa theo hng tip c%n xác nh
CDT
TNN, dùng x lý các câu ca ngi s dng có cha các
t
, hay cm t quan h gia các cm danh t d tuyn, hoc câu có
ch
a các cm danh t d tuyn có khái nim trong ViO.
• Kh
i th! ba là mô hình ViKEe theo hng tip c%n rút tích
CDT
TNN. Khi này x lý các câu không cha các t, hay cm t
quan h gia các cm danh t d tuyn, và c ng không cha các
c
m danh t d tuyn có khái nim trong ViO.
Các kh
i này c thit k trong môi trng Java thành bn công
-13-
T cách phân loi theo mc ích nói nh trên và tiêu chí ng
ngh
a (c nh ngha mc 2.2.1), các CTTNN c xác nh
trong các ti
u loi ca câu nghi vn (dùng câu tng thu%t) nh sau:
1) Câu nghi v
n toàn b thì CTTNN là cm danh t
Ví d
2.2: Máy tính này h ri à?
2) Câu nghi v
n la chn thì CTTNN là cm danh t
Ví d 2.3: Ph n c!ng h hay ph n mm h?
3) Câu nghi v
n b ph%n thì CTTNN là cm danh t hoc cm
ng t
Ví d
2.4: Tác gi cun sách AI này là ai?
Máy tính này vn hành nh th nào?
4) Câu nghi v
n la chn b ph%n thì CTTNN là cm danh t
Ví d
2.5: Anh mua sách AI hay sách PL?
Nh
phân tích các ví d trên, cm danh t là CTTNN chim t,
l
cao hn cm t khác trong các tiu loi ca câu nghi vn (dùng
câu t
ng thu%t). Hn na, theo kho sát thc nghim ca lu%n án
trên 437 câu nghi v
n và câu tng thu%t c rút trích trong các tài
li
u truyn ng)n và báo chí khoa hc (c trình bày chi tit trong
Ph
lc F ca lu%n án) thì CTTNN là cm danh t chim 87,12%
(còn c
m ng t chim 12,88%).
Xét v
mt ngha (Jy ban Khoa hc Xã hi Vit Nam, 1983;
Nguy'n Tài C$n, 1996), cm t là mt cu to có tác dng làm cho
ngh
a ca chính t c thc ti hoá, tc là có liên h vi thc ti.
Trong cm danh t, ngha thc ti hoá là ngha v tính xác nh ca
i tng. Còn trong cm ng t, cm tính t, thì ngha thc ti hoá
ch
, là ngha v tính tình thái. Nh v%y, khi xác nh c cm danh
t thì ng thi chúng ta c ng xác nh c bn cht ý ngha ca s
v
%t g)n vi cm danh t ó.
V
i s phân tích và nh%n nh nh trên, lu%n án ch, t%p trung
nghiên c
u các cm danh t c trng ng% ngh&a cho câu.
xác nh c cm danh t c trng ng% ngh&a cho câu, quá
trình thc hin phi phân on câu thành các t vi s chú thích t
lo
i ca chúng. Da vào t loi và cu to ca mt cm danh t, quá
trình tip tc nh%n din các cm danh t trong câu (gi là cm danh
t
d tuyn). Tip theo, quá trình phi xác nh các cm danh t c
-14-
trng ng% ngh&a (CDT*TNN) trong các cm danh t d tuyn này
d
a trên cu trúc câu và t quan h gia các cm danh t.
2.3 K
t chng
C
n c vào c c im cú pháp và thc ti'n s dng ngôn ng
ti
ng Vit, vi mc tiêu phc v cho vic truy vn thông tin t ngun
thông tin Internet d
ng vn bn, phm vi nghiên cu ca lu%n án là
rút trích các c
m danh t c trng ng% ngh&a (CDT*TNN) ca câu
n thay vì rút trích các cm t c trng cho tt c các dng thc
câu trong ti
ng Vit.
Trong ch
ng này, các khái nim c bn v ng pháp ting Vit
nh
t loi, cm t, câu c ng nh mc và tiêu chí ng ngha ca
c
m t c trng ng ngha làm c s lí thuyt v ngôn ng hc cho
ph
ng pháp rút trích CTTNN trong câu ting Vit ã c gii
thi
u. ng thi, lu%n án xác nh gii hn CTTNN cho các loi
câu
n ting Vit là cm danh t c trng ng% ngh&a (do cm
danh t
biu th ngha v tính xác nh i tng, và là cm t chim
s
lng ln nht trong ting Vit. ng thi, theo kt qu kho sát
th
c nghim ca lu%n án vi trên 437 câu nghi vn và tng thu%t thì
CT
TNN là cm danh t chim 87,12%, cm ng t chim
12,88%). Vì v
%y phm vi nghiên cu ca lu%n án là rút trích các
c
m danh t c trng ng ngha trong câu n ca ting Vit.
[
Chng 3. T!NG QUAN CÁC MÔ HÌNH RÚT TRÍCH
CM T& 'C TR(NG
3.1 Gii thiu
Ch
ng này trc tiên s0 trình bày t2ng quan các thành tu ca
các nghiên c
u hin ti v hng tip c%n rút trích và xác nh các
c
m t c trng (CTT) và so sánh gia hai hng tip c%n c bn
này cho bài toán rút trích CT
T. S so sánh và phân tích này lý gii
nguyên nhân t
i sao các n- lc nghiên cu li c phân b trên c
hai h
ng tip c%n. Tip theo lu%n án trình bày hng tip c%n cho
-39-
Phn còn li ca chng c t2 chc thành ba phn: Phn 6.2
trình bày mô hình k
t hp gia hai mô hình ViKEa và ViKEe; Phn
6.3 mô t
h thng rút trích CDTTNN trong ting Vit, c ng nh
mô hình ki
n trúc ba lp ca h thng; Phn 6.4 phân tích và ánh
giá hi
u sut rút trích CDTTNN ca h thng ViKE; Phn cui
cùng là k
t chng.
6.1 Mô hình rút trích CT
T trong ting Vit
Mô hình t
2ng quát ViKE là s kt hp gia hai mô hình ViKEa
và ViKEe
c trình bày Hình 1.1.
Trong mô hình t
2ng quát rút trích cm danh t c trng ng
ngh
a trong ting Vit, quy trình c thc hin ln lt qua các
công
on sau:
• Công
on 1. Tin x lý các câu ting Vit bao gm bài toán
phân
on t và gán nhãn t loi.
• Công
on 2. Rút trích các cm danh t d tuyn t các t có
gán nhãn t
loi công on 1 b!ng phng pháp so trùng m.u.
• Công
on 3. Xác nh chính xác CDTTNN t các cm danh
t
d tuyn ln lt qua các bc sau:
Bc 1: Da vào các thông tin ng cnh là các t, hay cm t
quan h
nh%n din các CDTTNN trong các cm danh t
d
tuyn thông qua mô hình ViKEa (ng vi trng hp các
câu có ch
a các t, hay cm t quan h gia các cm danh t
d
tuyn).
Bc 2: Trong trng hp gia các cm danh t d tuyn
không có các t
, hay cm t quan h thì quá trình nh%n din
CDT
TNN s0 c truy vn da trên Ontology ViO thông
qua mô hình ViKEa (
ng vi trng hp các câu mà không
ch
a các t, hay cm t quan h gia các cm danh t d
tuy
n, nhng các cm danh t d tuyn có khái nim trong
ViO).
Bc 3: Nu các cm danh t d tuyn cha tn ti trong c
s
tri thc hay các cm danh t d tuyn không có khái nim
-38-
5.6 Kt chng
Ch
ng 5 ã trình bày mt hng tip c%n gii quyt bài toán
rút trích chính xác c
m danh t c trng ng ngha trong câu n
ti
ng Vit. Hng tip c%n này da trên phng pháp hc máy, c
th
là phng pháp SVMs và k/ thu%t hun luyn SMO. Chúng tôi
hi
n thc hng tip c%n thành mt ng dng riêng bit gi là
ViKEe.
*ng dng này có th chy c l%p hoc nhúng vào các ng
d
ng khác trên môi trng Windows. Ngoài ra, chúng tôi c ng ã
tích h
p ViKEe nh là mt mô-un ca h thng truy xut thông tin
xuyên ngôn ng
có h- tr ting Vit gi là VIRs. H thng này cho
phép truy xu
t thông tin hu ích t các trang web (VIRs là sn ph$m
ã c nghim thu ca tài trng im i hc quc gia Tp. H
Chí Minh - B2005-20-01-TD). K
t qu ca h thng VIRs ã c
c
i thin so vi khi cha tích hp ViKEe.
Nh
v%y, vi chính xác, y và trung bình iu hòa
c
a mô hình ViKEe theo hng tip c%n rút trích CDTTNN t
c trong Bng 5.3 ã áp ng c mc tiêu ra ca lu%n án và
s
0 góp phn ci thin hiu sut ca mô hình kt hp ViKE trong
tr
ng hp các CDTTNN không c xác nh trong mô hình
ViKEa theo h
ng xác nh da trên Ontology ViO.
Ch
ng 6. MÔ HÌNH RÚT TRÍCH CM T& 'C TR(NG
NG
NGH)A TRONG TING VIT (ViKE) - KT H*P
H
(+NG TIP C,N RÚT TRÍCH VÀ XÁC -NH CTT
6.1 Gi
i thiu
Trong ch
ng này, lu%n án trình bày Mô hình rút trích cm danh
t
c trng ng% ngh&a trong ting Vit c gi là ViKE. ây là
mô hình k
t hp gia mô hình theo hng tip c%n xác nh
CDT
TNN-ViKEa và mô hình theo hng tip c%n rút trích
CDT
TNN-ViKEe. S kt hp ca hai mô hình này nh!m mc tiêu
phát huy
u im, c ng nh hn ch các nhc im ca c hng
ti
p c%n xác nh và hng tip c%n rút trích cm danh t c trng
ng
ngha trong ting Vit.
-15-
mô hình rút trích CTTNN cho câu ting Vit. Cui cùng, lu%n án
s
kt nhng vn ã c nghiên cu trong chng này.
3.2 Các nghiên c
u liên quan
Các nghiên c
u v cm t c trng c phân loi thành hai
h
ng tip c%n chính là rút trích (extraction) và xác nh
(assignment) (Medelyan và Witten, 2006).
3.2.1 H
ng tip cn rút trích cm t c trng
Ph
ng pháp rút trích cm t c trng (CTT) thông thng
g
m hai công on là tuyn chn các cm t d tuyn và chn lc
các CT
T trong các cm t d tuyn.
- Công
on tuy n chn: Các cm t d tuyn bao gm các t và
c
m t c rút trích t vn bn. thc hin iu này, mt b gán
nhãn t
loi và b phân tích cú pháp n gin c s dng xác
nh các cm t d tuyn.
- Công
on chn lc: Công on này s0 phân tích các cm t d
tuy
n theo phng pháp chn lc da vào kinh nghim xác nh
các CT
T trong các cm t d tuyn. Các phng pháp chn lc có
th
c phân thành hai hng tip c%n chính là hc máy (machine
learning) và h
ng tip c%n tng trng (symbolic) cùng vi các k/
thu
%t mà chúng s dng. Trong khi các phng pháp hc máy i xây
d
ng mô hình thng kê t các t%p d liu ã c hun luyn thì vi
các ph
ng pháp c trng, các nhà nghiên cu a ra cách chn lc
t
t nht là da vào các phân tích th công trên các tài liu và các
CT
T ca chúng.
3.2.1.1 Ph
ng pháp hc máy
Rút trích CT
T có th c xem là mt quá trình hc có giám sát
t
các m.u th. Vn chính là phi nh ngha c t%p tính cht
tính
c trng ca CTT. T%p tính cht này có th giúp phân bit
c các CTT và các cm t không c trng trong các cm t d
tuyn. Gii thu%t hc cn hai t%p tài liu có gán nhãn ca CTT b!ng
ph
ng pháp th công: mt t%p dùng hun luyn to mô hình
phân lo
i. T%p tài liu còn li dùng kim nh và ánh giá mô
-16-
hình. Trong t%p hun luyn, các CTT có th là m.u âm (m.u sai)
và m
.u dng (m.u úng). Lc hc mô hình chn lc là phân
tích các giá tr
ca t%p tính cht c trng cho m-i m.u.
Các công trình theo h
ng tip c%n này nh (Frank và CS, 1999;
Witten và CS, 1999; Thuy Dung Nguyen và Min-Yen Kan, 2007).
3.2.1.2 Ph
ng pháp t$ng trng
Barker và Cornacchia (2000) phát tri
n mt công c rút trích
CT
T là B&C. B&C không kt hp vi bt c k/ thu%t hc máy
nào.
rút trích các cm t d tuyn tác gi dùng mt t in tra
c
u n gin gán các nhãn t loi và mt b phân tích t xác
nh tt c các danh t có tính t và danh t b2 ngha cho nó. Các
th
c nghim ánh giá vi s tham gia ca con ngi ã minh chng
h
ng tip c%n n gin này thc hin tt nh b rút trích ca
Turney (Turney, 1999). Ngoài ra, Paice và Black (2003) rút trích các
thu
%t ng t các tài liu liên quan trong mt lnh vc c th và các
thu
%t ng này c xem nh là các CTT.
3.2.2 H
ng tip cn xác nh cm t c trng
T
ng phn vi các phng pháp rút trích, các phng pháp xác
nh CTT tiêu biu c dùng khi t%p các CTT d tuyn có gii
h
n, c nh. T%p này có c t t%p t vng có th iu tit c
hay t
%p các tiêu . Phng pháp này phân tích các c trng ca các
tài li
u hn là các c trng ca tng cm t tìm ra các CTT
thích h
p t t%p t vng. Mt CTT có th xut hin trong nguyên
v
n ca tài liu. " ây, s phân loi nh phân có th c hun luyn
cho t
ng CTT trong t%p có k phn t ca mt vn bn, vic xác
nh CTT cho mt vn bn b!ng cách thc hin k ln phân loi nh
phân và
ánh giá chúng xác nh kt qu thích hp.
Trong h
ng tip c%n xác nh, CTT có u tiên cao nht, các
thông tin t
ng h- gia CTT và các t khác trong vn bn có th
c dùng chn la các tính cht (Dumais và CS, 1998). Nu các
CT
T thit l%p thành mt ontology có tính khái quát, chính xác và
các mi quan h trên chúng thì các mi quan h này c ng có th
c khai thác cung cp các s kin cho s phát hin các CTT
m
i không có trong ontology (Pouliquen và CS). Theo Medelyan và
-37-
(I,O,B) xem kh nng cm t thuc vào lp nào là cao nht qua
công th
c (5.35).
, vi i = 1,… ,M
Và f
i
(x) là mô hình phân loi SVMs lp th i ca M lp phân loi
SVMs.
Ý t
ng ca phng pháp này ch, xây dng ra M b phân loi nh
phân SVMs (M là s
loi cn phân bit). C th là chn ra 1 loi c
i
phân bit vi các loi còn li, k tip chn mt c
i
’ phân bit vi các
lo
i còn li,… làm tng t cho n ht.
5.5 K
t qu# th.c nghim
V
i cùng mt t%p d liu hun luyn ã c phân chia nh trên,
hu
n luyn da trên hàm kernel tuyn tính và các tham s khác nhau
nh C, dài vector. ánh giá chính xác s0 da trên t%p d liu
th
nghim chim 40% kho ng liu, chính xác c tính là tK s
gia s các m.u c phân loi úng và s các m.u c gán nhãn
phân lo
i theo phng pháp th công.
so sánh và ánh giá phng pháp SVMs cho bài toán rút trích
các CDT
TNN ng vi vic chn các tính cht c trng làm tiêu
chí phân bi
t các CDTTNN (c trình bày trong mc 5.2.5.1).
Lu
%n án gi h thng ViKEe khi ch, dùng hai tính cht t, nhãn t
lo
i là V
1
và h thng ViKEe khi m rng thêm hai tính cht cu
trúc c
m t, và t quan h gi%a các cm t là V
2
. Lu%n án tin hành
ánh giá trên t%p ng liu C
1
gm 2.079 câu n ã c trình bày
m
c 5.2.5.2. Kt qu t c chính xác, y , và trung
bình
iu hòa F nh Bng 5.3.
B
ng 5.3: Kt qu rút trích CDTTNN ca mô hình ViKEe.
Mô hình ViKEe S câu Precision Recall F
Hai tính cht (V
1
) 2079 70,15% 78% 73,86%
Bn tính cht (V
2
) 2079 70,54% 80% 74,97%
(
)
)(
maxarg
1
xf
i
xf
ivsR
=
-36-
( ) ( )
−=−•=
=
bxxysignbsignxf
l
i
iii
1
,xw
α
- Vòng lp trong chn các giá tr L
2
sao cho |E
1
-E
2
| có giá tr ln
nh
t và ti u hóa hai h s. C%p nh%t SVMs theo giá tr mi ca hai
h s va tìm c.
5.2.5.4 Hu
%n luyn mô hình SVMs
T
kho ng liu dùng hun luyn, m-i t cùng vi thông tin
c
a chính nó và các thông tin ca ng cnh xung quanh s0 c
vect
s hóa (mc nh chiu dài vect là 3 t). Nên m-i m.u hun
luyn s0 là mt vect s thc. Các vect s thc này là u vào ca
quá trình hu
n luyn b!ng gii thu%t SMO. Kt qu ca quá trình
hun luyn là chúng ta có mt mô hình trng s. C th ch, cn tính
vect
trng s w và phân loi các m.u b!ng công thc (5.15):
N
u xét chi tit hn, hàm hun luyn tuyn tính là mt trng hp
c bit ca vic ng dng hàm kernel nh!m tìm ra mi liên h gia
các m
.u thông qua hàm kernel K(x
i
,x) tuyn tính nh công thc
(5.30):
V
i x
i
: là các vect h- tr ; b : di ban u ã tìm c.
m rng phân loi cho nhiu i tng, quá trình thc hin cn
s dng hàm gán nhãn cho tng loi b!ng công thc (5.31):
g(x) = sign(f(x))
Sau khi hu
n luyn, vì d liu c mô hình theo ba nhãn gom cm
nên t
%p tin mô hình trng s s0 cha 3 b phân loi tng ng vi
các l
p I, O và B.
5.2.5.5 Rút trích các c
m danh t c trng ng ngha
u vào ca vic rút trích c ng là t%p vect s thc nh giai
on hun luyn. m-i vect i din cho mt t trong câu cha
thông tin c
a t trung tâm cùng thông tin ca các t ng cnh lân
c
%n. T t%p tin mô hình trng s, cho m-i vect i qua 3 b phân loi
( )
( )
=
−=
S
N
i
iji
bxxKxf
1
,.
αα
-17-
Witten (2006) thì dùng các quan h ng ngha và phn ngha tính
toán
tng ng ca các CTT d tuyn cùng vi tính toán thng
kê
ci tin chính xác ca vic xác nh. Tuy nhiên, mt không
thu
%n li ca phng pháp xác nh CTT là nó òi h#i mt kho
ng
liu có chú gii ln.
Trong công trình Hulth (2004), tác gi
trình bày mt k/ thu%t hc
máy khác v
i các k/ thu%t ã dùng trong các công c x lý ngôn ng
t
nhiên. Tác gi c ng ã so sánh các phng pháp khác nhau
ánh giá vic rút trích các t và cm t d tuyn nh phng pháp
gom c
m danh t (NP chunking), so trùng m.u t loi (POS), và
cu
i cùng là rút trích n-gram. Mc dù không so sánh ánh giá các
ph
ng pháp trên cùng mt t%p tài liu thc nghim, nhng kt qu
ánh giá ca Hulth li cao hn áng k so vi các công b ca KEA
và GenEx (theo h
ng tip c%n rút trích). Hulth mô t quá trình thc
hi
n gii thu%t ã c ci tin sau khi s dng các k/ thu%t hng
ngôn ng
cho khâu tuyn chn và phân loi. Kt qu nh%n nh ca
Hulth là m
t ng lc thúc $y khai thác các k/ thu%t x lý ngôn
ng
t nhiên sâu hn cho bài toán rút trích và xác nh CTT.
3.3 K
t chng
V
i các kho sát trong chng này, c hai hng tip c%n rút trích
và xác
nh CTT u có các u im c ng nh hn ch. Lu%n án
ã a ra mt mô hình cho bài toán rút trích CTTNN trong câu
ti
ng Vit. Mô hình này chính là s phi hp gia hai hng tip c%n
rút trích và xác
nh CTT nh!m phát huy u im ca c hai
h
ng, ng thi hn ch các hn ch ca chúng.
Ngoài ra trong ch
ng này, lu%n án c ng ã trình bày các phng
pháp cho công
on c bn ca c hai hng tip c%n là giai on
ti
n x lý nh bài toán phân on t và bài toán gán nhãn t loi,
c
ng nh phng pháp ánh giá hiu sut cho các mô hình xut.
Các ch
ng tip theo, lu%n án s0 trình bày ln lt các công on
còn li ca mô hình ViKE thông qua hai mô hình tng ng vi hai
h
ng tip c%n xác nh và rút trích CTTNN.
-18-
Vi hng tip c%n xác nh CTTNN, vic nghiên cu và phát
tri
n mt c s tri thc (hay ontology) có tính khái quát, chính xác
và các m
i quan h trên chúng tng tính hiu qu cho vic xác
nh CTTNN là rt quan trng. ng thi, các k/ thu%t so trùng mà
lu
%n án xut trong mô hình xác nh CTTNN, c ng nh kt qu
c
a mô hình này s0 c phân tích ánh giá.
Còn h
ng tip c%n rút trích CTTNN, vi mc tiêu là gii quyt
tr
ng hp các cm t d tuyn không có khái nim tng ng trong
Ontology, lu
%n án ã xut mô hình rút trích CTTNN trong ting
Vi
t là ViKEe. xây dng mô hình này, lu%n án i theo hng tip
c
%n hc máy có giám sát c th là phng pháp SVMs gii quyt
bài toán thi
u kho ng liu có chú gii ln trong quá trình hun
luy
n.
Ch
ng 4. MÔ HÌNH XÁC -NH CM T& 'C TR(NG
NG
NGH)A TRONG TING VIT (ViKEa) -
PH
(NG PHÁP SO TRÙNG M/U D0A TRÊN ONTOLOGY
4.1 Gi
i thiu
Nh
ã tho lu%n trong chng 3, mc dù các CTTNN c rút
trích t
ng theo hng xác nh CTTNN có chính xác khá cao
nh
Hulth ã công b (Hulth, 2004). Nhng t c kt qu ó,
h
ng tip c%n này cn mt c s tri thc hay Ontology có tính khái
quát, chính xác và có các m
i quan h trên chúng tng tính hiu
qu
cho vic xác nh CTTNN. Nói mt cách khác, vic nghiên cu
và phát tri
n mt c s tri thc hay ontology ting Vit là rt quan
tr
ng và cn thit.
Trong ch
ng này, lu%n án ch, trình bày mô hình rút trích cm
danh t
c trng ng ngha theo hng xác nh CTTNN da
trên c
s tri thc và phng pháp so trùng m.u c gi là ViKEa
(Hình 4.1).
Ph
n còn li ca chng c t2 chc thành ba phn: Phn 4.2
trình bày công
on rút trích cm danh t d tuyn b!ng phng
pháp so trùng m
.u da trên t%p m.u nh%n dng các cm danh t c
-35-
gm nhãn t loi (pos), nhãn gom cm IOB (chunk) và t. Kho ng
li
u XML này có dng nh sau:
!
"#
$
%%
Trong ó: I: t trong cm t; O: t ngoài cm t; B: t b)t
u ca cm t nu trc ó có cm t khác lin k.
Kho ng
liu này c chia thành hai t%p riêng bit dùng hun
luy
n (gi là t%p C
2
) và th nghim (gi là t%p C
1
) vi tK l tng
ng là 60% và 40%.
B
ng 5.1: Kho ng liu.
T%p ng liu S lng t S lng câu S cm t
C
2
61.435 4.137 12.785
C
1
10.229 2.079 3072
5.2.5.3 Xây d.ng mô hình cho SVMs
Do các
u im ca gii thu%t SMO trong vic hun luyn cho
SVMs (Jones, 2001), nên lu
%n án áp dng nó hun luyn t%p d
li
u to ra mt mô hình dùng trong quá trình phân lp.
Ý tng ca gii thu%t này là trong m-i bc hun luyn ly 2 im
m
.u trong t%p hun luyn th#a iu kin chn ca heuristic tìm
các giá tr
L
1
, L
2
tng ng c%p nh%t vào vect L sao cho th#a ràng
bu
c tuyn tính xuyên sut quá trình gii thu%t:
Heuristic dùng
chn hai giá tr L
1
, L
2
ti m-i bc lp, thc hin
ti
p c%n 2 vòng lp: vòng lp ngoài chn la L
1
, vòng lp trong chn
L
2
.
- Vòng l
p ngoài xen k0 gia mt ln duyt qua toàn b d liu và
l
p li nhiu ln trên các t%p con không thuc biên (0 < L
1
< C) cho
n khi toàn b t%p d liu hun luyn th#a iu kin KKT (5.21).
=
=
l
i
ii
y
1
0
α
-34-
-
i v
i các t
quan h
gi
a các c
m danh t
: d
a vào t
%
p tin
relword.cn
V
i h
ng gi
i quy
t này, d
li
u
u vào c
a SVMs là các vect
s
ch
,
có hai giá tr
c
a tính ch
t
t và nhãn t loi thay vì bn tính
ch
t, nên thi gian hun luyn c ng nh thi gian phân loi nhanh
h
n. ng thi hai tính cht cu trúc cm danh t, và t quan h
gi
%a các cm danh t c tham gia trc tip trong bc xác nh
các nhãn gom c
m IOB trong quá trình hun luyn c ng nh phân
lo
i. Do ó, thông tin s0 càng chi tit và chính xác, s phân bit gia
các m
.u s0 rõ ràng hn.
5.2.5.2 Xây d
.ng kho ng liu
Theo h
ng tip c%n b!ng phng pháp thng kê thì chính xác
c
a h thng hoàn toàn ph thuc vào kho ng liu. Tuy nhiên, hu
h
t các công trình nghiên cu x lý ngôn ng ting Vit u cha có
m
t kho ng liu chu$n nh kho ng liu ting Anh (Penn
Treebank).
gii quyt vn này cho mc tiêu nghiên cu ca
tài, lu
%n án ã xây dng th công kho ng liu qua các công on
sau:
- Các t
%p m.u câu c ly t ngun TREC07(446 câu h#i);
TREC06 (492 câu h
#i); TREC02 (440 câu h#i); www.lexxe.com,
2005-2010 (701 câu). T
2ng cng t%p m.u thu c gm 2079 câu
ti
ng Anh c Hi Nghiên Cu Dch Thu%t Tp. H Chí Minh dch
sang t
%p m.u câu ting Vit tng ng, c gi là t%p m.u C
1
.
- Ngoài ra, v
i mc ích a dng hóa ch b!ng các bài báo thuc
nhi
u lnh vc khác nhau, lu%n án thu th%p t website vnexpress.net
4137 câu t
ng thu%t, c gi là t%p m.u C
2
.
- Hai t
%p m.u C
1
và C
2
gm 6216 câu c tin x lý, là phân on
t
và gán nhãn t loi (Chau Q. Nguyen và Tuoi T. Phan, 2007)
t
o thành kho ng liu.
- Cui cùng kho ng liu c thc hin gán nhãn gom cm t
(IOB) theo
nh dng XML, m-i t n!m trên mt hàng theo th t
-19-
s; Phn 4.3 mô t công on xác nh cm danh t c trng ng
ngh
a (CDTTNN); Phn cui cùng là kt chng.
4.2 Rút trích c
m t d. tuy n
Trong ph
n này, lu%n án trình bày hng gii quyt cho công
on rút trích cm danh t c bn.
4.2.1. Xây d
.ng c s tri thc các dng c%u trúc cm danh t
Theo nh
mô hình (Hình 4.1), vic xây dng mt c s tri thc
cho các m
.u cu trúc cm danh t da vào ó nh%n din c
các c
m danh t trong câu ting Vit. Trc tiên cn phi nghiên
c
u v cu trúc c ng nh các c tính ng pháp ca cm danh t.
*nh ngh&a 4.1: Cm danh t là loi t2 hp t do danh t vi mt
s
t ng ph thuc to thành, nó có ý ngha y và có cu to
ph
c tp hn mt danh t, nhng hot ng trong câu có chc nng
c
a mt danh t (Dip Quang Ban, 2004; Nguy'n Tài C$n, 1996).
D
ng th nht: { Phn ph trc}{ Phn trung tâm }{ Phn ph sau}
Ví d
: {Tt c nhng}{ em hc sinh}{ chm ngoan y}.
D
ng th hai: { Phn ph trc}{ Phn trung tâm }
Ví d
: {Toàn th các}{ ging viên}
Dng th ba: { Phn trung tâm }{ Phn ph sau}
Hình 4.1
Mô hình rút trích CDTTNN theo hng xác nh.
Câu ting Vit
Xác nh
CDT
TNN
Ontology
ViO
Tin x lý
Gán nhã
n t
loi
Phân o
n t
T%p lu%t
c
u trúc
c
m
danh t
Rút trích
các c
m
danh t
CDTTNN
-20-
Ví d: { ngi chng}{ hnh phúc y}
Nh v%y da các khái nim v phn ph và phn trung tâm ca cm
danh t
và các t loi có th ca chúng, lu%n án ã xây dng c
t%p lu%t nh%n din cm danh t c s bao gm 434 m.u có dng nh
sau:
- Lu
%t 1:
<KNP> → ((<Ng>|<Nt>|<Pp>)
(<Nu> |<Nn>)
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
(<Aa>|<An>)*
(<Nl>|<Pd>)*)
…
Trong
ó: | - hoc
* - 0 ho
c nhiu.
4.2.2. Bài toán rút trích c
m danh t b1ng phng pháp so
trùng m
2u
V
phng pháp, mô hình rút trích cm danh t b!ng phng
pháp so trùng m
.u, da vào t%p m.u cu trúc các cm danh t và các
t
có gán nhãn t loi nh%n c t công on trc, nh%n din
các c
m danh t trong câu n ting Vit ang xét.
Ý t
ng ca phng pháp là da vào cu trúc vn phm ting Vit
xây dng mt t%p các m.u, c x lý bi máy trng thái hu
h
n. Kt qu, lu%n án ã xây dng c 434 m.u nh%n din các cm
danh t
bao gm c các m.u nh%n din các danh t riêng. T%p m.u
này
c hin thc b!ng Java Annotation Patterns Engine (JAPE)
(Ph
lc B). B phân tích trên c s máy trng thái hu hn to ra
các chú gi
i có tên là ‘KNP’ vi thuc tính và giá tr c mã hóa
(nh
‘type’, ‘POS’, ‘string’,… ). T%p m.u dùng kt qu u ra ca
công
on gán nhãn t loi c ng nh các thông tin nh%n din các t
ti
ng Vit nh%n din các cm danh t trong câu n ting Vit
ang xét.
T
tng ca gii thu%t nh%n din các cm danh t c quy v
vi
c so trùng m.u có trong c s tri thc. Trong thc t quá trình so
-33-
5.2.5.1 L.a chn tính ch%t c trng
V
i phng pháp SVMs, s tính cht c trng ca m.u càng
nhiu thì thông tin s0 càng chi tit và chính xác, s phân bit gia
các m
.u s0 rõ ràng hn. Tuy nhiên, khi ó s0 òi h#i t%p d liu hun
luyn càng ln, thi gian hun luyn c ng nh thi gian phân loi s0
lâu h
n. Vì v%y, lu%n án s dng bn tính cht c trng là vai trò cú
pháp c
a t và nhãn t loi nh ã nêu trên (Nguy'n Quang Châu,
Hng Thanh Lu%n, Phan Th Ti, 2008) cùng cu trúc cú pháp ca
c
m t và t quan h gia các cm t cân b!ng gia các yu t
trên.
i vi các phng pháp hc máy khác nhau thì loi d liu u vào
òi h#i phi khác nhau. Do d liu u vào ca SVMs là các vect
s
cho nên các giá tr nêu trên s0 c vect s hóa, c th:
-
i vi t: da vào các t%p tin danh sách t loi ting Vit
vnlex60K.lst và vnlex40K.lst (Chau Q.Nguyen, Tuoi T.Phan, 2007)
v
i khong 102.000 t tính v trí ca t trong danh sách. Tuy
nhiên, vì s lng t loi tng i ln, s0 gây khó khn cho vic
tính toán nên giá tr
này s0 c chia cho t2ng s lng t.
-
i vi nhãn t loi (POS): da vào t%p tin vnpos.lst (Chau
Q.Nguyen, Tuoi T.Phan, 2006) v
i 50 nhãn t loi.
Ví d
: Câu “ Vit Nam tr thành thành viên ca WTO khi nào?”.
Nu vect s hóa t “ tr thành” vi dài vect mc nh là 3 t thì
có vect
s thc vi dng nh sau:
0.8041931 0.4 0.6351226 0.8 0.0 1.0
Trong
ó: 0.8041931: giá tr t ca “ Vit Nam”
0.4: giá tr
t loi ca “ Vit Nam”
0.6351226: giá tr
t ca “ tr thành”
0.8: giá tr
t loi ca “ tr thành”
0.0: giá tr
t ca “ thành viên”
1.0: giá tr t loi ca “ thành viên”
Riêng hai tính ch
t cu trúc cm t và t quan h gi%a các cm
danh t
c tham gia trc tip trong bc xác nh các nhãn gom
c
m IOB, là nhãn cho bit t ó n!m trong hoc ngoài cm danh t
c trng ng ngha và ng thi là tên lp trong SVMs.
-
i vi cu trúc cm danh t: da vào t%p tin knp.cn vi 434
m
.u nh%n dng cu trúc cm danh t.
-32-
… … …
… …
… … …
Câu ting Vit
- Mô-un rút trích cm danh t c trng ng ngha ting Vit
c ngh s0 áp dng phng pháp hc máy SVMs, c th là áp
d
ng gii thu%t SMO hun luyn các m.u. Các m.u là các t ting
Vi
t ã c phân on t và gán nhãn t loi. Da vào t%p các tính
ch
t ca t trung tâm nh giá tr ca v trí t, nhãn t loi và thông
tin ng
cnh (nh giá tr ca v trí t, nhãn t loi) ca các t lân
c
%n. Tt c các thông tin này c s hóa làm thông tin u vào cho
c
hai giai on hun luyn và rút trích CDTTNN.
5.2.5 MÔ
UN RÚT TRÍCH CM T& 'C TR(NG NG
NGH
)A TRONG TING VIT
V
gii thu%t, phng pháp SVMs c dùng rút trích các
CDTTNN bao gm các bc sau.
• L
a chn tính cht c trng
• Xây d
ng kho ng liu
• Xây d
ng mô hình cho SVMs
• Hu
n luyn mô hình
• Rút trích các c
m danh t c trng ng ngha
Rút trích cm danh t c trng ng ngha
Rút trích CDTTNN ting Vit
Hu%n luyn
Kho ng
li
u hun
luy
n
SVMs (Gii
thu
%t hun
luy
n SMO)
H
ình
5
.
6
Mô hình rút trích CDTTNN-ViKEe.
Ti3n x4 lý
Phân on t
Gán nhãn t loi
Các CDTTNN
Mô hình c
hu
n luyn
-21-
trùng thu c rt nhiu m.u. ây là trng hp nh%p nh!ng và
ph
ng án gii quyt ca lu%n án là m.u có dài cc i s0 c
ch
n, c th c trình bày trong gii thu%t 4.1.
4.3 Công
on xác nh cm t c trng d.a trên ontology
4.3.1. Khai thác Wikipedia
C
s tri thc vi nn tng là ontology ngày càng c s dng
rng rãi vi s ra i và phát trin ca Web có ng ngha. Mt
ontology, theo (Swartout và CS, 1996) là m
t t%p hp có cu trúc
phân c
p các thu%t ng dùng mô t mt lnh vc nào ó và có th
c dùng nh mt b khung cho mt c s tri thc. Nói mt cách
n gin, ontology là mt h thng phân cp các khái nim, còn c
s
tri thc bao gm nn tng là mt ontology cng vi thông tin c
th
ca tng khái nim.
Các hng nghiên cu t%p trung xây dng và khai thác các
Ontology hay c
s tri thc nh KIM
‡‡
, OpenCyc
§§
, Wikipedia
***
,…
Trong
ó, Wikipedia nh là mt hin tng bi tính a ngôn ng
(bao g
m 253 ngôn ng) và là kho giàu tri thc nht hin nay (Zesch
và CS, 2008).
Trong Vi.wiki
† † †
, u vào c bn là các trang thông tin. Mt
trang thông tin có th
là mt bài vit bình thng nói v mt khái
nim hay mt thc th. Mt trang thông tin c ng có th là mt trang
2i hng - trang d.n bn n trang có tên khác (có th thông dng
h
n) nói v cùng mt tài. Mt trang thông tin c ng có th là mt
trang nh hng - mt bài vit gii thích v ý ngha ph2 bin nht
c
a thu%t ng, bên di lit kê các liên kt n các bài vit có ta
(tên bài vit) tng t hoc có khái nim tng t, giúp nh hng
cho ng
i c n úng bài vit mà h ang tìm.
M
-i trang thông tin c nh danh b!ng danh hiu duy nht,
danh hi
u c t phù hp vi ni dung mô t i tng c
c
%p trong trang này. Trong m-i trang, ngoài thông tin mô t v i
tng nó còn cha nhiu liên kt n các trang liên quan khác. Các
‡‡
www.ontotext.com/kim/
§§
www.opencyc.org/
***
www.wikipedia.org/
† † †
Tt c các d liu s dng trong phn này c ly t ngun
Vietnamese Wikipedia database dump 4/2/2009.
-22-
trang liên quan có th mô t v i tng có quan h thành phn,
ng ngha, hay phn ngha vi i tng mà trang cha liên kt
c%p. H thng trang 2i hng có th c xem nh mt t in v
c
m t ng ngha, cm t bin th, hay cm t vit t)t.
Ngoài ra, Vi.wiki có mt h thng phân chia th loi các i
t
ng. H thng này là mt ngun thông tin ng ngha rt hu ích,
nó
c dùng phân loi các ch ca các trang thông tin. H
thng phân loi ca Vi.wiki không ch, cung cp h thng phân cp
các
i tng trong th gii th%t, mà còn có th biu di'n c các
quan h gia các th loi ca các i tng nh các quan h thành
ph
n (thuc quan h isa) và các quan h ng ngha (thuc quan h
non-isa), Nh
v%y, m-i trang thông tin c liên kt vi mt hoc
nhi
u th loi, các th loi này có th có các tiu th loi vi các
quan h
thành phn và quan h ng ngha.
4.3.2. Xây d
.ng Ontology ting Vit ViO và t i n ViDic
Nghiên c
u v ngun tài nguyên ca Vi.wiki, hng tip c%n ca
lu
%n án bao gm hai bc sau:
B
c mt: Rút trích cây phân cp ca Vi.wiki cùng các quan h
c
a chúng nh các quan h thành phn, các quan h không thành
ph
n,… to mt Ontology ViO phc v bài toán rút trích cm
danh t
c trng ng ngha trong câu ting Vit.
Lu
%n án s dng Java-based Wikipedia Library (JWPL) (Zesch và
CS, 2007) (Ph
lc A) rút trích các tài nguyên t Wikipedia nh
các trang thông tin, các liên k
t, các th loi và các trang 2i hng.
K
t qu t c Ontology ViO có 157.994 khái nim (danh hiu)
và 322.631 th
loi.
B
c hai: Rút trích các danh hiu ca các trang thông tin cùng vi
các danh hi
u ca các trang 2i hng vi chúng to mt t in
ti
ng Vit (ViDic – Vietnamese Dictionary). Vì mc tiêu là xác nh
c
m danh t c trng ng ngha nên lu%n án xem m-i trang thông
tin trong Wikipedia là m
t nh ngha cho i tng mà trang mô t
và danh hi
u tng ng ca nó có cm danh t c trng ng ngha
cho i tng. Danh hiu là cm danh t c trng ng ngha ca
-31-
V
ij
(x) =
1 nu g
ij
(x) = +1 hay x là CDTTNN
0 nu g
ij
(x) = -1 hay x không phi CDTTNN
v
i iu kin:
và qui
c 1vs1 là phân bit loi c
i
vi loi c
j
.
N
u trong t%p C gm các cm t cn phân loi có kích thc N: vi
ý t
ng chn ra 1 loi c
i
phân bit vi các loi còn li c ký hiu
là 1vsR (One vs Rest), k
tip chn mt c
i
’ phân bit vi các loi còn
l
i,… làm tng t cho n ht. Lúc ó hàm phân loi (5.33) tr
thành:
v
i i = 1,… ,N
(5.32)
ây, f
i
(x) là mô hình phân loi SVMs lp th i ca N lp phân
loi SVMs.
5.4 Mô hình ViKEe
Mô hình
c tác gi xut (Hình 5.6) bao gm hai mô-un là
(a) mô-
un tin x lý truy vn nh!m phân on và gán nhãn t loi,
(b) mô-
un rút trích cm danh t c trng ng ngha ting Vit.
C
ch rút trích cm danh t c trng ng ngha thc hin da
trên ph
ng pháp hc máy ln lt c trình bày qua các bài toán
(Hình 5.6):
- Các mô-
un tin x lý c phát trin mi cho ting Vit (c
trình bày trong ph
n 3.4.1 ca Chng 3) .
(5.31)
(
)
)(
maxarg
1
xf
i
xf
ivsR
=
( ) ( )
= ≠∧=
=
K
i
K
jij
ij
i
vs
xVxf
1 1
11
maxarg
-30-
toán rút trích cm danh t c trng ng ngha; Phn 5.4 trình bày
mô hình
xut cho bài toán rút trích cm danh t c trng ng
ngh
a trong câu ting Vit; Phn 5.5 trình bày kt qu thc nghim
và
ánh giá; Phn 5.6 là phn kt chng.
5.2 Ph
ng pháp Support Vector Machines
C
s toán hc ca phng pháp phân loi SVMs là da trên nn
tng lý thuyt hc thng kê (statistical learning theory) và lý thuyt
không gian vect
(vector space).
5.3 Phát bi
u bài toán rút trích cm danh t c trng ng
ngh
a trong câu ting Vit
V
mt hình thc, bài toán rút trích cm danh t c trng ng
ngh
a trong câu ting Vit c phát biu nh sau. Nu t C là t%p
các c
m danh t d tuyn và K là t%p cm danh t c trng ng
ngh
a câu thì quan h gia hai cm danh t c biu di'n bi hàm
f: K x C
M { 0, 1}. Vi c
∈
C, k
∈
K,
=
0
1
k)f(c,
B
n cht ca SVMs là phng pháp phân loi nh phân, t%p d
li
u ban u sau khi c SVMs phân loi s0 chia thành hai t%p con
phân bi
t. Nhng trên thc t, các loi d liu òi h#i phi phân chia
thành nhi
u loi khác nhau. c bit là khi áp dng vào bài toán xác
nh cm danh t c trng ng ngha da trên th hin nhãn gom
c
m IOB (trong ó nhãn I: cho bit t trong cm t; nhãn O: cho
bi
t t ngoài cm t; nhãn B: cho bit t b)t u ca cm t nu
tr
c ó có cm t khác lin k). Vi c t bài toán nh trên, ý
t
ng ca phng pháp SVMs rút trích cm danh t c trng
ng
ngha trong ting Vit c mô t nh sau.
Khi
ó, mt cm t x cha bit s0 c phân loi nh sau:
g(x)
ij
= sign(f(x)
ij
)
(5.30)
n
u c và k có quan h, hay k là CDTTNN
tr
ng hp ngc li.
-23-
mt i tng c nh ngha trong m-i trang nu th#a mãn mt
trong các tiêu chí sau:
- N
u danh hiu ca mt trang thông tin là mt câu thì trong
tr
ng hp này CDTTNN tng ng s0 là CDTTNN cho câu.
- N
u danh hiu là mt cm t thì CDTTNN tng ng là chính
c
m t ó.
Theo ph
ng pháp nh trên, cu trúc ca t in ViDic là mt t%p
các
u mc, m-i u mc bao gm: CDTTNN, danh hiu, cm t
ng ngha có c là CDTTNN ca trang 2i hng. M-i u
m
c trong t in c ánh x ti th loi trong ViO. Kt qu t
c t in ViDic có t2ng cng 152.450 u mc, m-i u mc có
c
u trúc c minh ha nh sau:
< CDT
*TNN >< danh hiu ca trang thông tin>< CDT*TNN
c
a trang .i h(ng>.
Trong tr
ng hp có nhiu trang mà kt qu ca quá trình rút trích
các danh hi
u cho cùng mt CDTTNN thì m-i u mc trong t
in ViDic có dng:
< CDT
*TNN >< danh hiu ca trang thông tin 1>< CDT*TNN
c
a trang .i h(ng 1>,…,< danh hiu ca trang thông tin n><
CDT
*TNN ca trang .i h(ng n>.
Tr
ng hp mt CDTTNN có nhiu danh hiu ch, chim t, l 52
trong t
2ng 152450 u mc trong t in ViDic.
Trong ph
ng pháp tip c%n này, mc dù lu%n án s dng các
thông tin t
Wikipedia to ra mt t in ViDic, nhng phng
pháp này còn có th
áp dng cho các Ontology hay các c s tri thc
khác.
4.3.3. Bài toán rút trích c
m danh t c trng ng ngha
gii quyt khâu chn lc các cm danh t c trng ng ngha
trong các c
m danh t d tuyn nh%n c, lu%n án s dng
Ontology ViO nh
mt cây phân cp ca các th loi cho bài toán
-24-
rút trích cm danh t c trng ng ngha trong câu ting Vit. Mô
hình c
a bài toán c trình bày trong Hình 4.1. u vào ca mô
hình là các câu
ã c tin x lý (nh phân on t, gán nhãn t
lo
i) và rút trích các cm danh t d tuyn, cui cùng là giai on
xác
nh CDTTNN.
Hình 4.3 Mô hình rút trích CDT
TNN da vào so trùng m.u &
Ontology.
Giai
on xác nh này ln lt c thc hin qua các bc sau:
B
c mt: Da vào các thông tin ng cnh là các t, hay cm t
quan h
nh%n din các CDTTNN. Ý tng ca phng pháp
này là
i khai thác các c thù riêng ca ting Vit xây dng mt
t
%p các t (hay cm t) mà nó phn ánh mi quan h ng ngha
gi
a các cm danh t. Ví d nh câu “Máy tính này có dung lng
RAM là bao nhiêu?”. Trong câu này có hai c
m danh t là “ Máy
tính này” và “ dung l
ng RAM”, tng ng có hai i tng trong
th
gii thc là “ Máy tính” và “RAM”. Bài toán t ra làm sao la
chn c cm danh t nào mà nó c trng ng ngha cho câu.
H
ng tip c%p ca lu%n án quan tâm n ý ngha ca các t quan h
Ontology
ViO
… …
… …
… …
Các CDTTNN
Xác nh CDTTNN
Da vào t quan h
(so trùng lu%t)
D vào Ontology
… …
…
… …
… …
Câu ting Vit
(ã c tin x lý và rút trích
các cm t d tuyn)
-29-
Ngoài ra, hng nghiên cu khai thác Vi.Wiki nh mt ontology
ti
ng Vit không ch, phc v cho vic xác nh cm danh t c
tr
ng ng ngha cho câu ting Vit mà còn m ra mt hng gii
quy
t cho vn thiu kho ng liu h- tr các công trình nghiên
c
u v x lý ngôn ng ting Vit b!ng máy tính hin nay.
Ch
ng 5. MÔ HÌNH RÚT TRÍCH CM T& 'C TR(NG
NG
NGH)A TRONG TING VIT THEO H(+NG TIP
C
,N RÚT TRÍCH (ViKEe) – PH(NG PHÁP H5C MÁY
5.1 Gi
i thiu
Ph
ng pháp hc máy mà lu%n án trình bày là phng pháp
Support Vector Machines (SVMs), nó chính là ph
ng pháp phân
lo
i d liu có giám sát da trên nguyên lý cc tiu hóa ri ro cu
trúc, c Vapnik gii thiu ln u tiên vào nm 1995. Mc dù,
SVMs ch
, là phng pháp phân loi nh phân nhng do tính hiu qu
v
t tri so vi các phng pháp phân loi d liu khác; nên SVMs
ã c phát trin có th áp dng cho các bài toán a phân loi và
c ng dng rt hiu qu trong nhiu vn thc t nh: nh%n
d
ng ch vit tay, nh%n dng ging nói, nh%n dng khuôn mt, phân
tích gen, phân lo
i nh vi'n thám,…
Quan
im ca lu%n án là qui vic rút trích cm danh t c trng
ng
ngha v bài toán phân loi hay nh%n din m.u da vào mt s
các tính ch
t c trng ca m.u.Vi hiu qu vt tri ca SVMs
trong vi
c phân loi d liu (Mayer, 2002), thì khi áp dng SVMs s0
t c nhiu kt qu rt kh quan, minh chng th hin qua các
công trình áp d
ng SVMs (Cheng, 2002; Hearst, 1998; Joachims,
1998;… ), so v
i các công trình áp dng phng pháp khác. ó là lý
do lu
%n án áp dng phng pháp SVMs thc hin giai on xác
nh các cm danh t c trng ng ngha trong câu ting Vit cho
mô hình ViKEe.
Các ph
n còn li ca chng này c b cc nh sau: Phn 5.2
trình bày khái quát ph
ng pháp SVMs; Phn 5.3 là phát biu bài
-28-
Lu%n án tin hành ánh giá trên các t%p m.u câu tng thu%t và
câu h
#i c ly t ngun d liu ca TREC
(
(TREC, 2009) là TREC07 (bao gm 446
câu h
#i), TREC06 (bao gm 492 câu h#i), TREC02 (bao gm 440
câu h
#i); t%p 701 câu t website www.lexxe.com (Qiao, 2010). Sau
ó t%p m.u thu c gm 2079 câu ting Anh c Hi Nghiên
C
u Dch Thu%t Tp. H Chí Minh dch sang t%p m.u câu ting Vit
t
ng ng. Kt qu t c chính xác, y và trung
bình
iu hòa F c trình bày trong Bng 4.4.
B
ng 4.4: Kt qu rút trích CDTTNN ca mô hình ViKEa.
E A E6A Precision Recall F
3236 3072 2293 74.6% 70.8% 72,65%
K
t qu ban u t c là khá cao, tuy nhiên theo kho sát ca
lu
%n án thì hu ht các CDTTNN c nh%n dng sai t mô hình
ViKEa
u thuc vào trng hp khái nim cha tn ti trong
ontology ViO, mà c
th là trong t in ViDic. ây là mt hn ch
c
a mô hình ViKEa và c ng là mc tiêu nghiên cu hng tip c%n
h
c máy xây dng các tng t ng ngha gia các cm t.
H
n na, vi vic ánh giá và so sánh kt qu thu c t mô hình
ViKEa, lu
%n án rút ra c t%p tính cht c trng v mt ngôn ng
c
a cm danh t c trng ng ngha. T%p tính cht c trng này
quy
t nh tính c trng ng ngha ca cm danh t này so vi các
c
m danh t khác trong câu. ây chính là tin góp phn xác nh
t
%p tính cht c trng nh%n din CDTTNN trong mô hình ViKEe
theo h
ng tip c%n rút trích và k/ thu%t hc máy gii quyt bài
toán rút trích c
m danh t c trng ng% ngh&a cho câu n ting
Vi
t.
M
t khác, Wikipedia là mt tài nguyên mi v ng ngha t vng
cho h
n 253 ngôn ng khác nhau. iu này chng t# phng pháp
mà lu%n án xut có th áp dng xác nh cm danh t c
tr
ng ng ngha cho nhiu ngôn ng khác.
-25-
gia các cm t. Nh trong ví d trên, t “ có ” là t ch, mi quan
h
s hu gia “Máy tính này” và “ dung lng RAM”. iu này
xác
nh c “ dung lng RAM” là cm danh t c trng ng
ngh
a cho câu ang xét.
Da vào các t quan h gia các cm t trong các câu quan h
(Ph
lc – Phn E) ca vn phm ting Vit, lu%n án ã xây dng
mt t%p lu%t xác nh cm t c trng ng ngha cho cho câu
ti
ng Vit trong trng hp các cm t có quan h thành phn vi
nhau có dng nh sau:
Lu%t 1: {Cm danh t A} “ nào” {c
m danh t B} M {A là C
DTTNN}.
Lu
%t 2: {Cm danh t A} “ gì” {c
m danh t B} M {A là C
DTTNN}.
…
Bc hai: Trong trng hp gia các cm danh t d tuyn không
có các t
, hay cm t quan h thì quá trình nh%n din CDTTNN s0
c truy vn da trên Ontology ViO rút ra ng ngha ca các
c
m danh t d tuyn. Vi ng ngha thu c sau khi truy vn, các
CDT
TNN s0 c nh%n din da trên tiêu chí là m!c chi tit
c
a khái nim, theo ngh&a là cm danh t d$ tuyn mô t cái chi tit
h
n s/ là cm danh t c trng hn.
• Mt cách c th, u tiên các cm danh t d tuyn c so trùng
v
i các CDTTNN trong t in ViDic. Vic so trùng c ci
ti
n vi các chin lc so trùng cc i, so trùng cc tiu, so trùng
t
i, so trùng lùi và so trùng theo c hai hng. Mc tiêu ca quá
trình c
i tin này là gii quyt vn nhng cm danh t mi
không có trong t
in nhng chúng có nòng ct ging nhau.
• N
u vic so trùng thành công, c ng có ngha là cm danh t d
tuy
n tn ti trong c s tri thc, thì quá trình xác nh th loi
cho các c
m danh t d tuyn s0 c thông qua vic truy vn
Ontology ViO nh
!m xác nh mc chi tit ca th loi c
trình bày trong ph
n 4.3.3.1.
• N
u so trùng không thành công trong t in ViDic, ngha là cm
danh t
d tuyn cha tn ti trong c s tri thc, thì khái nim