Tải bản đầy đủ (.pdf) (26 trang)

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.7 MB, 26 trang )


-1-

Chng 1. M U
1.1.
ng c nghiên cu
World Wide Web (WWW) phát tri
n nhanh chóng cùng vi
ngu
n tài nguyên thông tin ngày càng phong phú, nhu cu khai thác
ngu
n thông tin này ca ngi s dng ngày càng tr nên cp thit
i vi i sng ca con ngi. Vic khai thác này c thc hin
thông qua các ph
ng thc nh truy hi thông tin (Information
Retrieval), tóm l
c vn bn (Text Summarization), và rút trích
thông tin (Information Extraction),
M
t trong các vn  ct lõi ca h thng khai thác này là xác
nh và rút trích chính xác các cm t c trng ng ngha
(CT
TNN) (khái nim CTTNN c nh ngha  chng 2, ti
nh ngha 2.1) ca câu trong vn bn. Vn  này là mi quan tâm
c
a các nhà ngôn ng hc, c ng nh các nhà khoa hc trong lnh vc
x
 lý ngôn ng t nhiên b!ng máy tính.
" Vit Nam, chúng ta mong mun có c mt h thng rút
trích các c
m t c trng ng ngha ca câu trong vn bn ting


Vi
t, nh!m áp ng nhu cu ang b b# ng# trong các h thng khai
thác thông tin.
iu này ã òi h#i và thúc $y vic nghiên cu và
phát tri
n mô hình rút trích cm t c trng ng ngha trong ting
Vi
t (Vietnamese Key Phrase Information Extraction Model - ViKE).
Lu
%n án nghiên cu rút trích cm t c trng ng ngha (CTTNN)
c
a câu n ting Vit. Vi kho sát tn s xut hin ca các cm
trong các v
n bn ting Vit, lu%n án ã t%p trung nghiên cu vic
xác
nh và rút trích cm danh t c trng ng ngha (CDTTNN)
cho câu
n ting Vit
1.2. M
c tiêu và phm vi nghiên cu
Internet là m
t ni lu tr ngun thông tin ca nhân loi. Ngun
thông tin này
c chia s&, phát trin và m rng không ngng cùng
vi s phát trin nhanh chóng ca World Wide Wed (Web). Vn 
t ra là làm th nào  khai thác và s dng ngun tài nguyên thông

-2-

tin này mt cách hiu qu nht.

Thông tin trên Web h
u ht u th hin di dng ngôn ng t
nhiên, thông qua các trang Web, các h
 thng truy hi thông tin
(Information Retrieval)
c phát trin và thành công nht hin nay
là Google

, Yahoo
§
, v.v Tuy nhiên, các mô hình này u s dng
t
 khóa  x lý và truy hi tài liu. Hiu sut truy hi ca chúng có
nh
ng gii hn nht nh vì ng ngha ca tài liu b mt i nhiu khi
v
n bn c biu di'n di dng mt t%p các t khóa. Tng t,
yêu c
u cung cp thông tin t phía ngi s dng c ng c biu
di
'n bi các t khóa. S biu di'n này rõ ràng không có kh nng th
hi
n c trn v(n nhu cu thông tin nh mong mun ca ngi s
d
ng. Do ó, khi truy hi thông tin trên các h thng hin nay, ngi
s
 dng u nh%n c thêm các tài liu không liên quan ti thông
tin c
n tìm.
 ci tin các mô hình truy hi thông tin theo t khóa, nhiu công

trình nghiên c
u i khai thác tim nng ca cm t c trng trong
các h
 thng nh truy hi thông tin (Hulth, 2004), tóm lc vn bn
(Text Summarization) (Paice và Black, 2003), và rút trích thông tin
(Information Extraction) (Medelyan và Witten, 2006; Thuy Dung
Nguyen, 2007), Trong các h
 thng này, khái nim cm t c
tr
ng c nh ngha nh sau:
nh ngha 1.1: Trong các th vin và khoa hc thông tin cm t
c trng (cm t khóa – key phrase) c nh ngha là “cm t mô
t
 ngn gn và chính xác ch  hay khía cnh ca ch  mà nó
c tho lun trong vn bn” (Feather và P., 1996, 240).
Theo quan
im ca Cao Xuân Ho (1998): “câu n c bn
c
a li nói, ca ngôn t, ca vn bn. Nó là n v nh nht có th
s
 dng vào vic giao t. Nói cách khác, câu là ngôn bn (vn bn)
ng
n nht”.
Nh
 v%y, vi quan im câu là vn bn ng)n nht và  nhn mnh
tr
ng hp cm t c trng di'n t ch  ca vn bn ng)n nht


www.google.com/

§
www. yahoo.com/

-50-

Hi ngh Khoa hc Quc gia
[12] Nguy
'n Quang Châu, Phan Th Ti, Cao Hoàng Tr, 2005.
Gán nhãn t loi cho ting Vit da trên vn phong, trong k yu
c
a hi tho khoa hc quc gia l n th! II, Nghiên c!u c bn và
"ng dng công ngh thông tin-FAIR’05, 9-2005, pp.106-116.

II. NGHIÊN C
*U KHOA H+C
[1]
*ng dng trong  tài trng im cp nhà nc: Nghiên c!u phát
tri
n các k# thut xây d$ng và khai thác thông tin Web có ng%
ngh
&a (Vietnamese Semantic Web) (KC.01.21), do PGS.TS. Cao
Hoàng Tr làm ch nhim  tài, nghim thu nm 2006.

[2]
*ng dng trong  tài trng im HQG Tp.HCM: Xây d$ng
ch
ng trình tr giúp truy xut thông tin b'ng ting Vit
(Vietnamese Information Retrieval) (B2005-20-01-TD), do
PGS.TS. Phan Th
 Ti làm ch nhim  tài, nghim thu nm

2007.


-3-

(câu) và phm vi nghiên cu là câu n, lu%n án nh ngha cm t
c trng ng% ngh&a nh trong nh ngha 2.1 (Chng 2, trang 22).
C
m t c trng ng% ngh&a – c vit t)t là CTTNN – có kh
n
ng mô t ch  trong câu (hay vn bn). Nói cách khác,
CT
TNN mang thông tin v ni dung nng ct ca mt câu.
CT
TNN rt hu dng trong nhiu ng dng. Trong lnh vc truy
h
i thông tin, các CTTNN không ch, h- tr trong vic xác nh ni
dung c
a mt vn bn có thích hp vi yêu cu thông tin ca ngi
s
 dng hay không, mà còn biu th ni dung nng ct ca câu truy
v
n thông tin trong ng c tìm kim (search engine) trên Web th
h
 th ba và h thng hi-áp (question-answering) (Qiao, 2010).
Do các CT
TNN phn ánh c ni dung nng ct (ch ) ca
câu trong v
n bn, nên chúng c s dng  phân loi vn bn
(text classification) (Jones và Mahoui, 2000), tóm l

c vn bn (text
summarization) (Barker và Cornacchia, 2000). M
c dù các
CT
TNN c dùng rng rãi trong các h thng ng dng khác
nhau, nh
ng th%t s vic rút trích các CTTNN tng ng cho tng
câu hay t
ng vn bn b!ng phng pháp th công tn rt nhiu thi
gian và công s
c.
Nhu c
u này là ng lc thúc $y các nghiên cu rút trích t ng
các CT
TNN. Có th phân các nghiên cu v CTTNN thành ba
h
ng chính:
1. H
(ng tip cn s dng t in (Dictionary approach): s dng
m
t t in c xây dng b!ng phng pháp th công dùng  rút
trích các CT
TNN trong câu (hay vn bn). Quá trình rút trích các
CT
TNN c thc hin b!ng các phng pháp so trùng các
CT
TNN trong t in vi các cm t trong tài liu. Thu%n li
chính c
a hng tip c%n là nhanh và thc hin n gin. Hin nay
nhi

u h thng v.n ang s dng phng pháp này (Bian và Chen,
1998; Li và Xing, 1998; ). Tuy nhiên, ph
ng pháp này còn b hn
ch
 khi tài liu có nhng t mi không có trong t in. ây là mt
v
n  cn c nghiên cu và gii quyt. Các nghiên cu theo
h
ng tip c%n s dng t in ã có nhiu chin lc  ci thin

-4-

quá trình so trùng nh: so trùng c$c i (maximum-matching), so
trùng c
$c tiu (minimum-matching), so trùng t(i (forward-
matching), so trùng lùi (backward-matching), so trùng theo c
 hai
h
(ng (bi-directional- matching) và các phng pháp gii quyt vn
 b!ng ánh giá kinh nghim (heuristics). Tuy nhiên, hiu sut ca
h
ng tip c%n này li phù thuc vào  ln ca t in. Nó th%t s
không hi
u qu khi gii quyt bài toán nh%n din danh t riêng nh
tên, v
 trí, hay các thu%t ng mi trong nhng phm vi chuyên bit.
2. H
(ng tip cn ngôn ng% hc (Linguistic approach), hng này
dùng c
 s tri thc ng ngha t vng (nh WordNet

**
,
Wikipedia
††
,…), dùng phng pháp ánh giá theo kinh nghim, hay
ph
ng pháp lu%t  rút trích các cm t (Wu và Tseng, 1995). Các
nghiên c
u v x lý ngôn ng ting Anh ã chng t# hng tip c%n
này có th
 t  chính xác cao. Tuy nhiên  chính xác ca phng
pháp còn ph
 thuc vào vic thit k tng h thng c th (Brill,
1995; Church, 1988; Voutilainen, 1997). M
c dù nhiu kt qu
nghiên c
u ã chng t# hng tip c%n này có nhiu tim nng, tuy
nhiên v
.n cha có mt công trình nghiên cu nào theo hng tip
c
%n này cho ngôn ng ting Vit, và hin thc theo hng tip c%n
này còn g
p nhiu khó khn. Khó khn chính là vic xây dng mt
c
 s tri thc ng ngha t vng ting Vit cho nhng min
(domain) chuyên bi
t, có phm vi ln. Vic này òi h#i rt nhiu thi
gian và công s
c.
V

i mc tiêu gii quyt cho bài toán rút trích CTTNN cho câu
n ca ting Vit, lu%n án t%p trung xây dng mô hình ViKEa
(Vietnamese Key phrase Extraction for assignment approach) theo
h
ng tip c%n ngôn ng hc da trên Ontology và khai thác các tri
th
c ngôn ng ting Vit  nâng cao hiu qu ca mô hình. Vic
lu
%n án nghiên cu và khai thác Vi.Wikipedia nh kho tri thc ting

**
www.wordnet.com/
††
www.wikipedia.org/

-49-

and Web-based Applications & Services (iiWAS 2009), OCG
ISBN 978-3-85403-260-1, ACM ISBN 978-1-60558-660-1, 14-
16 December 2009, Malaysia, ACM & ACS, pp. 274-281.
[6] Chau Q. Nguyen, Tuoi T. Phan, 2009. An Ontology–Based
Approach for Key Phrase Extraction. In Proceedings of the 47th
Annual Meeting of the Association for Computational Linguistics
and the 4th International Joint Conference on Natural Language
Processing of the Asian Federation of Natural Language
Processing (ACL-IJCNLP 2009), ISBN 978-1-932432-47-5,
August 2 - 7, 2009, Singapore, Companion Vol, pp.181-184.
[7] Chau Q. Nguyen, Luan T. Hong, Tuoi T. Phan, 2009. A Support
Vector Machines Approach to Vietnamese Key Phrase
Extraction, In Proceedings of the 2009 IEEE-RIVF International

Conference on Computing & Communication Technologies
(IEEE-RIVF 2009), ISBN 978-1-4244-4567-7, IEEE eXpress,
pp.131-135.
[8] Chau Q. Nguyen, Tuoi T. Phan, 2007. A Pattern-based Approach
to Vietnamese Key Phrase Extraction, In Addendum
Contributions of The 5th International IEEE Conference on
Computer Sciences- RIVF’07, ISBN 2-912590-4-0, Studia
Informatica Universalis, pp.41-46.
[9] Chau Q. Nguyen, Tuoi T. Phan, 2006. A Hybrid Approach to
Vietnamese Part-Of-Speech Tagging, In Proceedings of The 9th
International Oriental COCOSDA 2006 Conference - O-
COCOSDA’06, 12/2006, Malaysia, pp.157-160.
[10] Chau Q. Nguyen, Thanh C. Nguyen, Tuoi T. Phan, 2006.
Vietnamese Key Phrase Extraction for Information Retrieval, In
Proceedings of The 9th International Oriental COCOSDA 2006
Conference - O-COCOSDA’06, 12/2006, Malaysia, pp.169-172.
[11] Chau Q. Nguyen, Tuoi T. Phan, Tru H. Cao, 2006. Vietnamese
Proper Noun Recognition, In Proceedings of The 4th
International IEEE Conference on Computer Sciences- RIVF’06,
ISSN 1621-0065, IEEE Press, pp.144-151.


-48-

t các trang web (VIRs là sn ph$m ã c nghim thu ca  tài
tr
ng im i hc quc gia Tp. H Chí Minh - B2005-20-01-TD).
K
t qu ca h thng VIRs ã c ci thin so vi khi cha tích
h

p ViKEe.
Cu
i cùng, bên cnh các mô hình c  xut, phng pháp ca
lu
%n án khai thác Vi.Wiki nh mt ontology ting Vit không ch, 
ph
c v cho vic xác nh cm danh t c trng ng ngha cho câu
ti
ng Vit mà còn a ra mt hng gii quyt cho vn  thiu kho
ng
 liu h- tr x lý ngôn ng ting Vit.
DANH M
C CÔNG TRÌNH CA TÁC GI
I. BÁO CÁO KHOA H
+C
T
p chí Khoa hc
[1] Chau Q. Nguyen, Tuoi T. Phan, 2009. H
ng tip c%n xác nh
c
m t c trng ng ngha trong ting Vit da trên Wikipedia,
Tp chí Công ngh thông tin & truyn thông, ISSN 0866-7039,
T
%p V-1, s 2(22): 30-37.
[2] Nguy
'n Quang Châu, Phan Th Ti, 2008. Nh%n din cm t
c trng ng ngha trong Ting Vit, Tp chí Công ngh thông
tin & truy
n thông, ISSN 0866-17093, s 19: 64-73.
[3] Nguy

'n Quang Châu, Hng Thanh Lu%n, Phan Th Ti, 2008.
M
t hng tip c%n hc máy cho bài toán rút trích cm t c
tr
ng ng ngha trong ting Vit, Tp chí Khoa hc & Công
ngh Vit nam, ISBN 0866-708X, t%p 46, s 1: 69-78.
[4] Nguy
'n Quang Châu, Phan Th Ti, Cao Hoàng Tr, 2006. Gán
nhãn t loi cho ting Vit da trên vn phong và tính toán xác
su
t, Tp chí Phát trin Khoa hc & Công ngh, ISSN 1859-
0128, t
%p 9, s 2:11-21.
H
i ngh Khoa hc Quc t
[5] Chau Q. Nguyen, Tuoi T. Phan, 2009. Key Phrase Extraction: A
Hybrid Assignment and Extraction Approach. In Proceedings of
the 11th International Conference of Information Integration

-5-

Vit ã gii quyt khó khn v tài nguyên tri thc t vng ting Vit
khi xây d
ng mô hình theo hng tip c%n này.
3. H
(ng tip cn b'ng phng pháp thng kê (Statistical
approach), th
c cht là quá trình hc các giá tr ã c thng kê t
m
t kho ng liu ln  rút trích các cm t (Su và CS, 1996).

H
ng tip c%n này t# ra hiu qu cho vic rút trích cm t c trng
ng
 ngha (Yang và CS, 1998; Chien, 1997; Chien, 1998; Chen và
CS, 1997), và nó liên quan m
%t thit vi hng tip c%n n-gram vi
n có giá tr
 2,3, hay 4. Tuy nhiên, khi Chien (1997) dùng PAT-Tree
(PATricia Tree)
 rút trích các CTTNN trong vn bn ca ting
Trung Qu
c, tác gi ã không gii hn giá tr ca n. Mc dù có gia
t
ng v mt tính toán, k/ thu%t này không nhng không òi h#i nhiu
công s
c  to t in hay c s tri thc mà còn có kh nng ly
c các thu%t ng có trng s cao trong kho ng liu. Tuy nhiên,
m
t hn ch ca hng tip c%n là có mt s trng hp không th
rút trích các c
m t hp lý mà có tn sut thp.
M
c dù hng tip c%n b!ng thng kê có  chính xác (Precision)
không t
t, nhng có   y  (Recall) cao so vi hng tip c%n
ngôn ng
 hc. Vì v%y, vi mc tiêu là ci thin ti a hiu qu ca
h
 thng ViKEa theo hng tip c%n ngôn ng hc khi vic khai thác
ngôn ng

 v.n còn gii hn, lu%n án s0 xây dng mô hình rút trích các
CT
TNN b!ng phng pháp máy hc có giám sát. Các CTTNN
c gán nhãn t loi ban u làm t%p hun luyn  xây dng mô
hình rút trích.
ây là c s cho mô hình xác nh úng các CTTNN
trong các c
m t d tuyn. Mô hình rút trích dùng mt t%p các tính
ch
t c trng  phân loi các cm t. Vn  t ra là phi xác
nh c các tính cht c trng ca các cm t, nh!m xác nh
m
t cách chính xác các CTTNN trong các cm t d tuyn.
Nh
 v%y, mc tiêu ca lu%n án là xây dng mt mô hình lai cho bài
toán rút trích CT
TNN trong câu n ting Vit. Mô hình này là s
ph
i hp ca hai mô hình theo hng tip c%n ngôn ng hc và
ph
ng pháp xác sut thng kê. ó chính là s phi hp ca hai mô
hình theo h
ng tip c%n rút trích và xác nh CTTNN (c trình

-6-

bày trong Chng 3). Trong hng tip c%n ngôn ng hc, lu%n án
s
 dng phng pháp so trùng m.u da trên Ontology c to l%p
t

 Wikipedia ting Vit. Mô hình này là c s  lu%n án  xut bn
tính ch
t c trng cho phng pháp xác nh cm t c trng ng
ngh
a dùng phng pháp máy hc vect h) tr (Support Vector
Machines-SVMs) nh
!m n)m b)t c v trí lô-gích và c tính hình
thái c
a CTTNN, là: (1) v trí t trong câu, (2) nhãn t loi, (3) cu
trúc c
m t, (4) các t quan h gia các cm t.
T
 ây, các bài toán chính cn c gii quyt trong phm vi
lu
%n án bao gm:
Bài toán 1
- Xây dng mô hình ViKEa.
Lu
%n án nghiên cu và khai thác ngun tài nguyên ca
Vi.wikipedia
 xây dng mt Ontology ting Vit ViO (Vietnamese
Ontology) nh
!m phc v yêu cu ca bài toán.
Lu
%n án  xut mô hình xác nh CTTNN, c gi là
ViKEa, d
a trên các tri thc ngôn ng t nhiên (nh h thng lu%t và
ViO) và các bài toán ti
n x lý (nh phân on t và gán nhãn t
lo

i).
Bài toán 2
- Xây dng mô hình rút trích cm t c trng ng
ngh
a, c gi là ViKEe ( Vietnamese Key phrase Extraction for
extraction approach).
Lu
%n án nghiên cu và phân tích các mô hình hc máy. T ó 
xu
t mô hình rút trích CTTNN dùng phng pháp SVMs, nh!m ci
thi
n ti a hiu qu ca mô hình ViKEa khi ngun tài nguyên ting
Vi
t s1n có còn hn ch.
Bài toán 3
- Xây dng mô hình ViKE (Vietnamese Key phrase
Extraction).
ViKE là s
 kt hp hai mô hình ViKEa và ViKEe cho bài toán
rút trích c
m t c trng ng ngha trong câu n ca ting Vit,
v
i mc tiêu khai thác ti a  chính xác ca vic rút trích
CT
TNN ca tng mô hình trong bài toán 1 và 2.
Nh nh hng nêu trên, phm vi nghiên cu ca lu%n vn c
th
 hin trong hình 1.1.

-47-


u tiên là mô hình ViKEa, theo hng tip c%n ngôn ng da
trên Ontology ViO (
c khai thác t Vi.Wiki) vi k/ thu%t so trùng
m
.u và các quan h ng ngha gia các th loi trên Ontology, c ng
nh
 các khâu tin x lý phân on t và gán nhãn t loi. Kt qu
t c ca mô hình ViKEa khá cao trong trng hp các cm
danh t
 ca các câu có các t quan h, hoc có các khái nim tng
ng trong ontology ViO. Ngc li, các CDTTNN c nh%n
d
ng sai u thuc vào trng hp khái nim cha tn ti trong
Ontology ViO.
ây là mt hn ch ca mô hình ViKEa và c ng là
ng c nghiên cu ca lu%n án cho mô hình theo hng tip c%n
h
c máy  xây dng các  tng t ng ngha gia các cm danh
t
. T vic ánh giá và so sánh kt qu thu c t mô hình ViKEa,
lu
%n án rút ra c các tính cht c trng v ngôn ng ca
CDT
TNN. Các tính cht c trng này quyt nh cm danh t
nào là
c trng ng ngha so vi các cm danh t khác trong câu.
Ngoài ra, các tính ch
t c trng này là tin  góp phn xác nh
t

%p tính cht nh%n din CDTTNN trong mô hình ViKEe theo
h
ng tip c%n rút trích và k/ thu%t hc máy.
Ti
p theo, lu%n án ã  xut mô hình ViKEe theo hng tip c%n
h
c máy nh!m ci thin ti a hiu sut ca h thng khi vic khai
thác tài nguyên ngôn ng
 còn có gii hn. Hng tip c%n này da
trên ph
ng pháp hc máy, c th là phng pháp SVMs và k/
thu
%t hun luyn SMO. Lu%n án hin thc hng tip c%n thành mt
ng dng riêng bit gi là mô hình ViKEe. *ng dng này có th
ch
y c l%p hoc nhúng vào các ng dng khác trên môi trng
Windows. K
t qu t c ca mô hình ViKEe theo hng tip
c
%n rút trích CDTTNN t c ã áp ng c mc tiêu  ra
c
a lu%n án và s0 góp phn ci thin hiu sut ca mô hình kt hp
c
a ViKE trong trng hp các CDTTNN không c xác nh
trong mô hình ViKEa theo h
ng xác nh da trên Ontology ViO.
Ngoài ra, chúng tôi c ng ã tích hp ViKEe nh là mt mô-un
c
a h thng truy xut thông tin xuyên ngôn ng có h- tr ting
Vi

t gi là VIRs. H thng này cho phép truy xut thông tin hu ích

-46-

trin. Di ây, chúng tôi trình bày mt s hng phát trin chính:
- V
 hng tip c%n xác nh CTTNN, mt vn  cn m rng
là khai thác các m
i quan h ng ngha thông qua các ontology v
ngôn ng
 (ví d nh Wiktionary, WordNet, ). ng thi khai thác
các m
i quan h (là quan h ng ngha, quan h phn ngha, hay
quan h
 thành phn, ) gia các trang thông tin thông qua các liên
k
t ca chúng trong Wikipedia. T ó m rng các khái nim và các
quan h
 ca các danh hiu trong Ontology ViO c ng nh t in
ViDic, nh
!m nâng cao hiu sut xác nh CTTNN ca h thng.
-
 tng t ng ngha ca khái nim và thc th có tên cha
c kho sát trong lu%n án này. ng thi, vic khai thác  tng
t
 gia các thành phn ca thc th có tên nh là  tng t v tên,
l
p, cp tên-lp và danh hiu c ng cha c khai thác. ây là mt
trong nh
ng hng phát trin quan trng ca  tài.

- V
 hng vn  rút trích CDTTNN, mt vn  cn khai thác
là giai
on hun luyn m.u cho mô hình hc máy cn c m rng
cho t
ng lãnh vc c th, c ng nh c%p nh%t thêm các kho ng liu
hu
n luyn nh!m nâng cao  chính xác ca h thng.
- M
t hng phát trin khác c ng rt quan trng là vic áp dng
các mô hình này cho các ngôn ng
 khác, vì các mô hình c phát
tri
n, kho sát, c ng nh thc nghim trong lu%n án này u trên
ti
ng Vit. Thông qua vic phát trin mô hình cho các ngôn ng khác
(nh
 ting Anh)  so sánh ánh giá phng pháp c  xut trong
lu
%n án vi các phng pháp khác, c ng nh ánh giá quá trình ti
u chi phí trong mô hình kt hp ViKE.
7.3 K
t lun
Lu
%n án ã trình bày các hng tip c%n  gii quyt bài toán rút
trích các c
m danh t c trng ng ngha ca câu n ting Vit.
T
 phân tích và ánh giá tng hng tip c%n, lu%n án ã  xut
m

t mô hình ViKE cho bài toán rút trích CDTTNN trong các câu
ti
ng Vit. Mô hình ViKE là s kt hp ca hai mô hình theo hng
ti
p c%n ngôn ng và hc máy (mô hình ViKEa và ViKEe).

-7-




















Hình 1.1. Phm vi ca lun vn
1.3. óng góp chính ca lun vn
Sau

ây là nhng óng góp chính ca lu%n án i vi lnh vc x
lý ngôn ng
 t nhiên mà c th là x lý vn bn ting Vit:
-
*óng góp th! nht: Xây dng c ch rút trích cm t c trng
ng
 ngha trong câu ting Vit.
-
*óng góp th! hai:  xut mô hình ViKEa, là mô hình xác
nh cm t c trng ng ngha câu n ca ting Vit, dùng
ph
ng pháp so trùng m.u da trên vic khai thác Vi.Wikipedia nh
m
t Ontology ting Vit.
-
*óng góp th! ba:  xut mô hình ViKEe, là mô hình rút trích
c
m t c trng ng ngha trong câu n ca ting Vit, dùng
ph
ng pháp SVMs vi bn tính cht c trng: (1) v trí t trong
câu; (2) nhãn t loi; (3) cu trúc cm t; (4) các t quan h gia các
c
m t.
-
*óng góp th! t:  xut mô hình ViKE, là s kt hp hai mô
Tin x lý
Câu ting Vit
Gán nhãn t loi
Phân on t
Xác nh CTTNN

T%p m.u
Rút trích các cm t
d
 tuyn
Ontology
ViO

Các CTT
NN

Da vào Ontology
Da vào hc máy
Mô hình

-8-

hình ViKEa và ViKEe cho bài toán rút trích cm t c trng ng
ngh
a trong câu n ca ting Vit.
-
*óng góp th! nm: Xây dng mt kin trúc công ngh hoàn
ch
,nh cho ng dng rút trích CTTNN trong câu n ca ting Vit.
-
*óng góp th! sáu:  xut phng pháp khai thác
Vi.Wikipedia nh
 mt Ontology ting Vit không ch,  phc v cho
vi
c xác nh cm danh t c trng ng ngha trong câu n ca
ti

ng Vit mà còn góp phn gii vn  thiu tài nguyên có s1n ca
ng
 liu ting Vit, h- tr cho vn  x lý ngôn ng t nhiên trong
ti
ng Vit.
Ch
ng 2. C S LÝ THUYT NGÔN NG TING VIT
2.1 Gi
i thiu
Ch
ng này trình bày các vn  v ng pháp ting Vit nh!m
ph
c v vic nghiên cu phng pháp rút trích cm t c trng ng
ngh
a cho câu ting Vit. Do ng pháp ting Vit v.n còn nhiu vn
 tranh lu%n cha t ti s nht quán gia các nhà ngôn ng hc
nên chúng ta c
ng còn nhiu khó khn trong vic t ng hóa phân
tích ti
ng Vit. Trong phm vi nghiên cu ca lu%n án, chng 2
ch
,  c%p n các khái nim, tính cht, và quan im chung ca các
nhà ngôn ng
 hc, nh!m xác nh rõ c s lý thuyt v ngôn ng
ti
ng Vit phc v cho mc tiêu ca lu%n án.
C
 th, chng 2 trình bày các vn  nh th nào là cm t c
tr
ng ng ngha cho câu ting Vit, mc  và tiêu chí ng ngha ca

CT
TNN c ng nh t loi, cm t và câu  làm c s lý thuyt v
ngôn ng
 hc cho phng pháp xác nh cm t c trng ng ngha
cho câu ti
ng Vit.
2.2 C
 s lý thuyt
2.2.1 C
m t c trng ng ngha
Trong ti
ng Vit, câu là n v nh nht m nhim ch!c nng
thông báo tr
n v+n thông tin b'ng ngôn ng% (Dip Quang Ban,

-45-

- Nghiên cu và phát trin mô hình theo hng tip c%n rút trích
c
m danh t c trng ng ngha trong ting Vit,  c%p vn  xác
nh các tính cht c trng cho nh%n din các CDTTNN trong câu
n ting Vit, trong ó có các câu truy vn, t ó  xut mô hình
ViKEe.
ây là mô hình s dng máy hc vect h- tr, c th là gii
thu
%t SMO  gii quyt bài toán thiu kho ng liu  ln có chú
gi
i trong quá trình hun luyn. Mô hình hc máy có giám sát ViKEe
d
a theo bn tính cht c trng: (1) v trí t trong câu; (2) nhãn t

lo
i; (3) cu trúc cm t; (4) các t quan h gia các cm danh t
c
a các cm danh t d tuyn  rút trích các CDTTNN.
- Phát tri
n mô hình kt hp gia hng tip c%n xác nh và
h
ng tip c%n rút trích cm danh t c trng ng ngha trong ting
Vi
t da trên các mô hình ã phát trin là hai mô hình ViKEa và
ViKEe. T
 ó lu%n án  xut mô hình ViKE. ây là mô hình kt
h
p hai mô hình ViKEa và ViKEe vi mc tiêu khai thác ti a 
chính xác c
a vic rút trích CDTTNN ca tng mô hình.
- Xây d
ng mt Ontology ting Vit ViO và t in ViDic 
ph
c v cho vic xác nh cm danh t c trng ng ngha cho câu
ti
ng Vit, b!ng cách rút trích h phân cp các th loi và các quan h
ng
 ngha trong Vi.Wikipedia nh mt Ontology ting Vit.
- Xây d
ng c mt kin trúc công ngh hoàn ch,nh cho ng
d
ng rút trích CDTTNN trong ting Vit.
7.2 H
ng phát tri n

T
 các nghiên cu liên quan ã c  c%p và t các kt qu ca
lu
%n án, chúng tôi  ngh mt s vn  và hng nghiên cu tip
theo nh
 sau.
Các mô hình rút trích
c gii thiu trong lu%n án này là nhng
mô hình cho hai h
ng tip c%n chính là hng xác nh và hng
rút trích CDT
TNN. ng thi lu%n án khai thác vic kt hp gia
hai hng trên  xây dng mt mô hình t2ng quát cho bài toán rút
trích c
m danh t c trng ng ngha trong câu n ting Vit. Vì
v
%y, có th nói t hng nghiên cu này còn nhiu vn  cn phát

-44-

xác) thì mô hình ViKEa và mô hình ViKE cho kt qu rút trích chính
xác. Ng
c li, mt s truy vn mà mô hình ViKEa không rút trích
c CDTTNN (nh câu S9) thì mô hình ViKEe và mô hình ViKE
có th
 rút trích c CDTTNN. Nh v%y, các kt qu phân tích các
mô hình thông qua các câu th
 nghim trên c ng nh toàn b t%p
ki
m th C

1
ã minh chng hiu sut ca mô hình ViKE t c
cao h
n so vi hai mô hình ViKEa và ViKEe. iu này chng t# mô
hình k
t hp hai hng tip c%n xác nh và rút trích CDTTNN ã
áp ng c mc tiêu t ra ca lu%n án cho bài toán rút trích cm
danh t
 c trng ng ngha trong câu truy vn nói riêng và câu
ti
ng Vit nói chung .

Ch
ng 7. T!NG KT
7.1 Tóm t
"t các kt qu# t $c
V
i mc tiêu ca  tài là nghiên cu và phát trin mô hình rút
trích c
m danh t c trng ng ngha trong ting Vit, lu%n án ã
t c các kt qu sau:
- Lu
%n án ã kho sát các u im và hn ch trong các mô hình
rút trích c
m t c trng. T ó, lu%n án ã  xut mt mô hình kt
h
p hng tip c%n xác nh và hng tip c%n rút trích cm danh t
c trng ng ngha trong ting Vit. Mô hình này ã óng góp vào
vi
c x lý ng ngha vn bn và các ng dng x lý ngôn ng t

nhiên.
- Nghiên c
u và phát trin mô hình theo hng tip c%n xác nh
c
m danh t c trng ng ngha trong ting Vit.  kh)c phc vn
 cn thit phi có kho ng liu ting Vit có chú gii ln khi xác
nh cm danh t c trng ng ngha, lu%n án khai thác mt bách
khoa toàn th
 trc tuyn vi ni dung m Wikipedia  xây dng
Ontology ti
ng Vit ViO và t in ViDic. T ó lu%n án ã  xut
mô hình ViKEa. ây là mô hình s dng phng pháp so trùng m.u
d
a trên c s tri thc và Ontology.

-9-

2004). T là n v nh nht t$ thân có ngh&a. Cm t là n v nh#
h
n câu nhng ln hn t v mt ý ngha ng pháp (câu > cm t >
t
 ). Tuy không thông báo trn v(n ni dung thông tin nhng cm t
có kh
 nng d$ báo, nh h(ng ni dung thông tin ca vn bn.
Trong vi
c nghiên cu v ngôn ng hc, các nhà nghiên cu u có
m
t quan im chung v cu trúc cú pháp ca thành phn câu và
ch
c nng chính ph ca chúng (Cao Xuân Ho, 1992; H Lê, 1993;

Nguy
'n Kim Thn và ng Hu Qu3nh, 2001; Dip Quang Ban,
2004…). Thành ph
n câu là khái nim chung ca nhiu ngôn ng,
không nêu
c c thù tng ngôn ng riêng bit. Tiêu chu$n phân
nh thành phn câu c da vào quan h ý ngha gia các t trong
câu và d
a vào các c trng hình thc ca t trong câu.
Trong m
t câu nói cô l%p, tách ri tình hung nói nng, s có mt
c
a thành t chính có tính cht b)t buc. Thành t chính gi vai trò
quan tr
ng v ng pháp i vi cm t. Thành t chính là thành t
i din cho toàn b cm t trong mi liên h vi các yu t khác
n
!m ngoài cm t. Do ó, chc nng cú pháp ca toàn b cm t
trong ki
n trúc ln hn s0 g)n bó m%t thit vi vai trò cú pháp ca
thành t
 chính. Trong quan h ni b cm t, thành t chính chi phi
t
t c các thành t trc tip ph thuc vào mình, nó quyt nh chc
n
ng cú pháp ca tt c các thành t ph có liên quan.
V
 ý ngha, thành t chính quyt nh kh nng gia nh%p các cu
trúc l
n hn ca toàn b cm t. Mt khác c ng chính ni dung -

ngh
a ca thành t chính quyt nh kh nng xut hin kiu thành t
ph
. Nh ó chúng ta có th da vào kh nng xut hin ca các
thành t
 ph nh là da vào mt du hiu hình thc  xác nh t
lo
i, tiu loi và th%m chí c ý ngha ca lp t hay ca t gi vai trò
thành t
 chính.
Xét v
 quá trình c hiu ng ngha ca vn bn trong bình din
d
ng pháp, ngoài mt ni dung ca các câu biu t (hay ngha biu
th
), ây chính là cp  ng ngha ca t hay cm t m nhim
(nh
 mt cm t là cm danh t, cm ng t hay cm tính t) (Cao
Xuân H
o, 1992). Cp  cao hn là nh%n ra các i tng (s ch,)

-10-

c nói n trong câu vn bn, các i tng này c xác nh bi
c
m danh t (Cm t c trng ng% ngh&a - CTTNN) và các mi
quan h
 ca chúng.
Ch
4ng hn nh câu “cho bit quê hng ca Ch tch H Chí

Minh ?”. N
u xét  cp  ng ngha ca cm t, quê hng ch, là
m
t cm danh t ch, ni chn, và Ch tch H Chí Minh c ng là cm
danh t
 ch, tên riêng. Tuy nhiên, nu xét thêm mi quan h ca
chúng, thì quê h
ng trong câu này ch, n i tng là quê hng
c
a Ch tch H Chí Minh ch không phi ca ai khác; trong ó,
c
m danh t Ch tch H Chí Minh ch, n i tng là v Ch tch
H
 Chí Minh ca chúng ta, nhng i tng Ch tch H Chí Minh

i tng ph trong câu ang xét. Nó óng vai trò gii hn phm
vi c
a các i tng quê hng trong câu. Vi mt góc nhìn nh
v
%y, ng ngha câu, hay ng ngha vn bn c th hin rõ nét và
y  hn trong lnh vc x lý ngôn ng t nhiên b!ng máy tính.Vì
v
%y, có th nói, trong mt phm trù nào ó, các CT*TNN và các mi
quan h
 ca chúng to thành ni dung nng ct - ng% ngh&a ca mt
câu hay m
t vn bn.
Câu th
c hin chc nng công c t duy, công c giao tip thông
qua ngh

a ca nó. Ngha ca câu không n gin là mt phép cng
ngh
a ca các t trong câu. Ngha ca câu là mt cu trúc có nhiu
t
ng. Các tng ngha trong câu phi hp vi nhau to ra ngha hình
th
c ca câu. Ngha ca câu có th thy trên b mt ca nó nhng
nhi
u khi ch, thy c trong b sâu ca nó. Nhng dù là b mt
(hi
n ngôn) hay trong b sâu (hàm ngôn), ngha câu ch, có th là
ngh
a hình thc khi câu có s ch,. Mun xác nh s ch, ca câu thì
ph
i hiu s ch, ca các thành phn to câu và tình hung ca phát
ngôn. Tách ra kh
#i câu, t ng v.n có ngha nhng không có s ch,
(Cao Xuân H
o, 1992).
Nh
 v%y, mt iu không th ph nh%n là trong mt câu có nh%ng
t
, nhóm t m nhim chc nng chính ca vic chuyn ti thông
tin phát ngôn. Thu
%t ng lu%n án dùng  ch, nhng t, nhóm t có

-43-

 tính toán hiu sut ca h thng, ngoài vic kho sát các thông
s

 v  chính xác,  bao ph c ng nh  trung bình iu hòa F,
lu
%n án tin hành kho sát thi gian áp ng ca h thng nh!m kim
nh tính kh thi trong ng dng. Thi gian áp ng c tính t lúc
ng
i dùng a câu vào h thng cho n lúc nh%n c kt qu tr
v
. Vi thc nghim trên t%p kim th C
1
, thi gian áp ng mà lu%n
án
ã kho sát trên cùng mt máy tính vi cu hình (Intel
®
Core™
Duo 1.8x2 GHz Processor, 2GB DDR2 SDRAM, 120GB HDD,
Microsoft
®
Windows
©
XP) cho ba kch bn trên không chênh lch
nhau nhi
u (khong chênh lch là t 1 n 93 mi li giây). Kt qu t
c nh trình bày trong Bng 6.3 khi thc nghim trên t%p C
1
vi
10 câu ng
.u nhiên.
Bng 6.3: Thi gian áp ng khi thc nghim trên t%p C
1
vi 10 câu ng.u nhiên.

Thi gian áp ng trên t%p C
1

(mi li giây)
 chênh lch
Câu
(S)
ViKEa ViKEe ViKE
ViKE -
ViKEe
(*)
(*)/
ViKEe
ViKE -
ViKEa
(**)
(**)/
ViKEa
S1 110 117
124
7 5.98% 14 12.73%
S2 61 69
63
-6 -8.70% 2 3.28%
S3 20 30
25
-5 -16.67% 5 25.00%
S4 5 9
8
-1 -11.11% 3 60.00%

S5 113 110
114
4 3.64% 1 0.88%
S6 86 83
96
13 15.66% 10 11.63%
S7 83 95
84
-11 -11.58% 1 1.20%
S8 737 812
830
18 2.22% 93 12.62%
S9 138 156
140
-16 -10.26% 2 1.45%
S10 796 814
847
33 4.05% 51 6.41%
6.4 Kt chng
Qua kh
o sát các câu trên, mô hình ViKEa là mô hình có thi gian
áp ng trung bình nhanh nht, k tip là mô hình ViKE, cui cùng là
mô hình ViKEe. Tuy nhiên, i vi mt s câu (nh S4) mô hình
ViKEe không rút trích
c CDTTNN (hoc rút trích không chính

-42-

Vi 2079 câu ca t%p kim th C
1

ã c bn c nhân v ngôn
ng
 hc nh%n din các CDTTNN theo phng pháp th công, thu
c các phiên bn (Ver) ln lt là V
1 ,
V
2 ,
V
3 ,
và V
4
.
- Phiên b
n V
1
xác nh c 3072 CDTTNN, trong ó có
2692 CT
TNN c nh%n din t h thng ViKE.
- Phiên b
n V
2
xác nh c 3050 CDTTNN, trong ó có
2293 CDT
TNN c nh%n din t h thng ViKE.
- Phiên b
n V
3
xác nh c 2985 CDTTNN ít hn phiên bn
V
2

, nhng có 2512 CDTTNN c nh%n din t h thng ViKE
nhiu hn phiên bn V
2
.
- Phiên b
n V
4
xác nh c ít nht trong 4 phiên bn và thu
c 2079 CDTTNN, trong ó có 2003 CDTTNN c nh%n
di
n t h thng ViKE.
K
t qu t c ca mô hình ViKE vi  chính xác,  y 

 trung bình iu hòa F c trình bày trong Bng 6.1.
B
ng 6.1: Kt qu rút trích CDTTNN trong mô hình ViKE.
Ver E A E5A Precision Recall F
V
1
3007 3072 2692 89,52% 87,63% 88,57%
V
2
3007 3050 2293 76,26% 75,18% 75,71%
V
3
3007 2985 2512 83,54% 84,15% 83,85%
V
4
3007 2079 2003 66,61% 96,34% 78,77%



ng thi,  ánh giá hiu sut rút trích CDTTNN ca mô
hình ViKE t c so vi hai mô hình ViKEa và ViKEe v mt
th
c nghim, lu%n án thc hin ba kch bn trên cùng mt t%p kim
th C
1
vi cùng phiên bn V
1
nh sau:
 Kch bn 1: thc nghim trên mô hình ViKEa.
 Kch bn 2: thc nghim trên mô hình ViKEe.
 Kch bn 3: thc nghim trên mô hình t2ng quát ViKE.
K
t qu t c thng kê trong Bng 6.2.
B
ng 6.2: So sánh hiu sut rút trích CDTTNN gia các mô hình.
Mô hình

E A E5A Precision

Recall F
ViKEa 3236 3072 2293 74.6% 70.8% 72,65%
ViKEe 3483 3072 2457 70,54% 80% 74,97%
ViKE 3007 3072 2692 89,52% 87,63% 88,57%

-11-

chc nng nh trên là Cm t c trng ng% ngh&a ca câu và c

nh ngha nh sau.
nh ngha 2.1 Cm t c trng ng ngha là cm t c
tr
ng mô t ng)n gn chính xác ch  mà nó c tho lu%n trong
v
n bn ng)n nht (câu).
Ngoài c
p  ng ngha ca t hay cm t m nhim (nh mt
c
m t là cm danh t, cm ng t hay cm tính t), cp  cao
h
n là nh%n ra các i tng (s ch,) c nói n trong câu vn bn
(Cao Xuân H
o, 1992). Da vào c s trên, lu%n án xác nh tiêu chí
ng
 ngha  xác nh CTTNN cho câu nh sau.
Tiêu chí ng
 ngha ca cm t c trng ng% ngh&a ca câu 678
cm t xác nh i tng (s, ch-) chính c  c%p n trong
thông tin c
a câu.
Ví d
 2.1: Máy tính này có dung lng RAM l(n nht.

" ây, theo tiêu chí ng ngha thì “ dung lng RAM l(n nht ” là
c
m t c trng ng ngha cho câu. Quan h thành phn gia cm
danh t
 “ máy tính này” và cm danh t “ dung lng RAM l(n nht”
cho phép xác

nh i tng chính c  c%p n trong thông tin
c
a câu là dung lng RAM ln nhât. Vì dung lng RAM là dung
l
ng ca mt thit b b nh trong (c gi tên là RAM) ca máy
tính (trong l
nh vc chuyên bit là máy tính), nên không cn cm t
“ máy tính này” thì c
m t “ dung lng RAM ln nht” c ng mang
c ni dung nng ct (ng ngha) ca câu  ví d 2.1.
Vi
c nghiên cu cm t c trng ng% ngh&a có tm quan trng
cho vi
c tìm hiu thông tin c ng nh s dng chúng trong h thng
ngôn ng
. Cu to ca cm t mang nhng du hiu  t ó có th
phân
nh t loi, tiu loi ca t (c im không bin hình t ca
ti
ng Vit). Cu to ca cm t giúp chúng ta n)m c cách trin
khai câu b!ng vic m rng các thành phn trong câu hoc ngc li
nh
 rút gn câu, mô hình hoá câu, hay giúp cho vic tìm hiu câu,
v
n bn c d' dàng và thu%n li hn.

-12-

2.2.2 Câu
Câu

678n 98:a nghiên cu ngôn ng8:;8cu <o ng8=>?p (bên
trong
978bên @AB7i) t8l%p 978ng8iu kt <>Cc, mang mt D8@A>8
tng i <En 9(n hay <>?i , s8?nh AF?8:a ngi @;i, hoc :;8
th8GHm theo <>?i , s8?nh AF?8:a ngi @;i, AFCp >Inh <>7nh 978
biu hin, truyn t t tng, <Inh :m. Câu 678 n 98 @>#8 nht
chuy
n ti mt thông tin trn v(n nht b!ng ngôn ng8(Dip Quang
Ban, 2004).
Theo quan
im ca Cao Xuân Ho (1998), câu 678n 98c bn
c
a li nói, ca ngôn t, ca vn bn. Nó là n v nh# nht có th s
d
ng vào vic giao t. Nói cách khác, câu là ngôn bn (vn bn) nh#
nh
t.
n v câu c ng c chia thành nhiu dng thc. im chung
nh
t ca nhiu quan nim v ý ngha ng pháp ca nhiu ngôn ng
thì
n v t, câu trong vn bn  tng khái quát nht. T c phân
lo
i thành danh t, ng t, tính t, i t, ph t, kt t, tr t, cm
t
, và các tiu loi ca chúng … nh quan im ca các nhà ngôn
ng
 hc (Jy ban Khoa hc Xã hi Vit Nam, 1983). Câu c phân
lo
i theo mc ích phát ngôn, cu trúc,… . Nhiu quan im v phân

lo
i câu ã c a ra.
Các công trình nghiên c
u v loi câu ca các nhà ngôn ng hc
trên
u th hin quan im, mc ích và lu%n chng riêng. Mt
im thu%n li là phm vi nghiên cu ca lu%n án ch, t%p trung vào
các d
ng câu n. Và theo quan im ca các nhà nghiên cu ngôn
ng
 hc trên thì cách phân loi câu theo mc ích nói tng i
gi
ng nhau. C th, cách phân loi câu nghi vn c trình bày nh
sau:







Phân i
theo
c ch

i

Dùng câu tng thut
Dùng t nghi vn
Câu nghi vn toàn b

Câu nghi vn la chn
Câu nghi vn b
phn
Câu nghi vn la chn
b phn
Câu t

ng thu

t

Câu nghi vn
Câu c

m thán

Câu c

u khi

n


-41-

c c l%p là vnWordSegmentation, vnPOSTagger, ViKEa, ViKEe
mà chúng d
' dàng tích hp vào các h thng khác.
3. L
(p c s, d% liu (Database tier): lp này cung cp các chc

n
ng lu tr và truy xut d liu ca ViKE thông qua h qun tr c
s
 d liu MySQL Server 5.1 và các t%p tin ng liu dng XML.
6.3
ánh giá hiu su%t rút trích CDTTNN
Ph
ng pháp ánh giá hiu sut ca lu%n án là da vào thc
nghi
m vi  chính xác,  y , và  trung bình iu hòa F
c trình bày trong mc 3.4.2 ca Chng 3.
 ánh giá hiu sut ca h thng, chúng tôi c ng xin lu ý
r
!ng các mô hình  xut trong lu%n án u tha k kt qu ca công
on tin x lý phân on t và gán nhãn t loi  rút trích
CDT
TNN trong câu ting Vit. Nên hiu sut rút trích CDTTNN
c
a h thng ph thuc vào hiu sut ca công on tin x lý. Gia
t
ng hiu sut ca công on tin x lý c ng s0 làm gia tng hiu
su
t ca h thng rút trích CDTTNN. Tuy nhiên, ây là hai vn 
tách bi
t. Trong lu%n án này ch, t%p trung kho sát các mô hình rút
trích CDT
TNN và chp nh%n các l-i tích l y ca công on tin x
lý.
V
 ng liu kim th, lu%n án chn lc các t%p m.u câu tng

thu
%t và câu h#i, c ly t các ngun ng liu sau:
1. TREC (Text REtrieval Conference) (

(
TREC, 2009) là:
• TREC07: bao g
m 446 câu h#i ting Anh.
• TREC06: bao g
m 492 câu h#i ting Anh.
• TREC02: bao g
m 440 câu h#i ting Anh.
2. Trang web
www.lexxe.com (Qiao, 2010): bao gm 701 câu
ti
ng Anh.
T
%p m.u thu c t hai ngun trên gm 2079 câu ting Anh
c Hi Nghiên Cu Dch Thu%t Tp. H Chí Minh dch sang t%p
m
.u câu ting Vit tng ng, c gi là t%p kim th C
1
.

-40-

trong ViO , thì vic xác nh cm danh t d tuyn nào là
CDT
TNN s0 da vào phng pháp hc máy thông qua mô
hình ViKEe (

ng vi trng hp các câu mà không cha các
t
, hay cm t quan h gia các cm danh t d tuyn và các
c
m danh t d tuyn không có khái nim trong ViO).
V
 ý tng, gii thu%t xác nh các cm danh t c trng ng ngha
trong mô hình ViKE
c trình bày t2ng quát nh sau:
Gi
i thut 6.1. Xác nh CDT*TNN trong ViKE.
6.2 H
 thng rút trích CDTTNN trong ting Vit
 kim nghim các phng pháp  xut cho bài toán rút trích
CDT
TNN cho câu ting Vit, lu%n án hin thc Mô hình rút trích
c
m danh t c trng ng% ngh&a trong ting Vit –ViKE nh mt h
th
ng vi mô hình kin trúc ba lp c trình bày  Hình 6.2.
1. L
(p giao din (Presentation tier): cung cp mt giao din cho
phép ng
i s dng nh%p các câu trc tip vào h thng hoc t mt
t
%p tin cha các câu. Kt qu tr v là các CDTTNN tng ng cho
m
-i câu nh%p di dng XML. Vi dng XML, các CDTTNN có
th
 d' dàng c s dng trong các ng dng khác.

2. L
(p nghip v (Business tier): ây là thành phn th hin các
qui t
)c nghip v ca kin trúc h thng ViKE. Lp này gm ba
kh
i:
• Kh
i th! nht chu trách nhim tách t và gán nhãn t loi
cho t
 (Word segmentation and POS tagger).
• Kh
i th! hai là mô hình ViKEa theo hng tip c%n xác nh
CDT
TNN, dùng  x lý các câu ca ngi s dng có cha các
t
, hay cm t quan h gia các cm danh t d tuyn, hoc câu có
ch
a các cm danh t d tuyn có khái nim trong ViO.
• Kh
i th! ba là mô hình ViKEe theo hng tip c%n rút tích
CDT
TNN. Khi này x lý các câu không cha các t, hay cm t
quan h gia các cm danh t d tuyn, và c ng không cha các
c
m danh t d tuyn có khái nim trong ViO.
Các kh
i này c thit k trong môi trng Java thành bn công

-13-


T cách phân loi theo mc ích nói nh trên và tiêu chí ng
ngh
a (c nh ngha  mc 2.2.1), các CTTNN c xác nh
trong các ti
u loi ca câu nghi vn (dùng câu tng thu%t) nh sau:
1) Câu nghi v
n toàn b thì CTTNN là cm danh t
Ví d
 2.2: Máy tính này h ri à?
2) Câu nghi v
n la chn thì CTTNN là cm danh t
Ví d 2.3: Ph n c!ng h hay ph n mm h?
3) Câu nghi v
n b ph%n thì CTTNN là cm danh t hoc cm
ng t
Ví d
 2.4: Tác gi cun sách AI này là ai?
Máy tính này vn hành nh th nào?
4) Câu nghi v
n la chn b ph%n thì CTTNN là cm danh t
Ví d
 2.5: Anh mua sách AI hay sách PL?
Nh
 phân tích  các ví d trên, cm danh t là CTTNN chim t,
l
 cao hn cm t khác trong các tiu loi ca câu nghi vn (dùng
câu t
ng thu%t). Hn na, theo kho sát thc nghim ca lu%n án
trên 437 câu nghi v
n và câu tng thu%t c rút trích trong các tài

li
u truyn ng)n và báo chí khoa hc (c trình bày chi tit trong
Ph
 lc F ca lu%n án) thì CTTNN là cm danh t chim 87,12%
(còn c
m ng t chim 12,88%).
Xét v
 mt ngha (Jy ban Khoa hc Xã hi Vit Nam, 1983;
Nguy'n Tài C$n, 1996), cm t là mt cu to có tác dng làm cho
ngh
a ca chính t c thc ti hoá, tc là có liên h vi thc ti.
Trong cm danh t, ngha thc ti hoá là ngha v tính xác nh ca
i tng. Còn trong cm ng t, cm tính t, thì ngha thc ti hoá
ch
, là ngha v tính tình thái. Nh v%y, khi xác nh c cm danh
t thì ng thi chúng ta c ng xác nh c bn cht ý ngha ca s
v
%t g)n vi cm danh t ó.
V
i s phân tích và nh%n nh nh trên, lu%n án ch, t%p trung
nghiên c
u các cm danh t c trng ng% ngh&a cho câu.
 xác nh c cm danh t c trng ng% ngh&a cho câu, quá
trình thc hin phi phân on câu thành các t vi s chú thích t
lo
i ca chúng. Da vào t loi và cu to ca mt cm danh t, quá
trình tip tc nh%n din các cm danh t trong câu (gi là cm danh
t
 d tuyn). Tip theo, quá trình phi xác nh các cm danh t c


-14-

trng ng% ngh&a (CDT*TNN) trong các cm danh t d tuyn này
d
a trên cu trúc câu và t quan h gia các cm danh t.
2.3 K
t chng
C
n c vào c c im cú pháp và thc ti'n s dng ngôn ng
ti
ng Vit, vi mc tiêu phc v cho vic truy vn thông tin t ngun
thông tin Internet d
ng vn bn, phm vi nghiên cu ca lu%n án là
rút trích các c
m danh t c trng ng% ngh&a (CDT*TNN) ca câu
n thay vì rút trích các cm t c trng cho tt c các dng thc
câu trong ti
ng Vit.
Trong ch
ng này, các khái nim c bn v ng pháp ting Vit
nh
 t loi, cm t, câu c ng nh mc  và tiêu chí ng ngha ca
c
m t c trng ng ngha làm c s lí thuyt v ngôn ng hc cho
ph
ng pháp rút trích CTTNN trong câu ting Vit ã c gii
thi
u. ng thi, lu%n án xác nh gii hn CTTNN cho các loi
câu
n ting Vit là cm danh t c trng ng% ngh&a (do cm

danh t
 biu th ngha v tính xác nh i tng, và là cm t chim
s
 lng ln nht trong ting Vit. ng thi, theo kt qu kho sát
th
c nghim ca lu%n án vi trên 437 câu nghi vn và tng thu%t thì
CT
TNN là cm danh t chim 87,12%, cm ng t chim
12,88%). Vì v
%y phm vi nghiên cu ca lu%n án là rút trích các
c
m danh t c trng ng ngha trong câu n ca ting Vit.

[
Chng 3. T!NG QUAN CÁC MÔ HÌNH RÚT TRÍCH

CM T& 'C TR(NG

3.1 Gii thiu
Ch
ng này trc tiên s0 trình bày t2ng quan các thành tu ca
các nghiên c
u hin ti v hng tip c%n rút trích và xác nh các
c
m t c trng (CTT) và so sánh gia hai hng tip c%n c bn
này cho bài toán rút trích CT
T. S so sánh và phân tích này lý gii
nguyên nhân t
i sao các n- lc nghiên cu li c phân b trên c
hai h

ng tip c%n. Tip theo lu%n án trình bày hng tip c%n cho

-39-

Phn còn li ca chng c t2 chc thành ba phn: Phn 6.2
trình bày mô hình k
t hp gia hai mô hình ViKEa và ViKEe; Phn
6.3 mô t
 h thng rút trích CDTTNN trong ting Vit, c ng nh
mô hình ki
n trúc ba lp ca h thng; Phn 6.4 phân tích và ánh
giá hi
u sut rút trích CDTTNN ca h thng ViKE; Phn cui
cùng là k
t chng.
6.1 Mô hình rút trích CT
T trong ting Vit
Mô hình t
2ng quát ViKE là s kt hp gia hai mô hình ViKEa
và ViKEe
c trình bày  Hình 1.1.
Trong mô hình t
2ng quát rút trích cm danh t c trng ng
ngh
a trong ting Vit, quy trình c thc hin ln lt qua các
công
on sau:
• Công
on 1. Tin x lý các câu ting Vit bao gm bài toán
phân

on t và gán nhãn t loi.
• Công
on 2. Rút trích các cm danh t d tuyn t các t có
gán nhãn t
 loi  công on 1 b!ng phng pháp so trùng m.u.
• Công
on 3. Xác nh chính xác CDTTNN t các cm danh
t
 d tuyn ln lt qua các bc sau:
 Bc 1: Da vào các thông tin ng cnh là các t, hay cm t
quan h
  nh%n din các CDTTNN trong các cm danh t
d
 tuyn thông qua mô hình ViKEa (ng vi trng hp các
câu có ch
a các t, hay cm t quan h gia các cm danh t
d
 tuyn).
 Bc 2: Trong trng hp gia các cm danh t d tuyn
không có các t
, hay cm t quan h thì quá trình nh%n din
CDT
TNN s0 c truy vn da trên Ontology ViO thông
qua mô hình ViKEa (
ng vi trng hp các câu mà không
ch
a các t, hay cm t quan h gia các cm danh t d
tuy
n, nhng các cm danh t d tuyn có khái nim trong
ViO).

 Bc 3: Nu các cm danh t d tuyn cha tn ti trong c
s
 tri thc hay các cm danh t d tuyn không có khái nim

-38-

5.6 Kt chng
Ch
ng 5 ã trình bày mt hng tip c%n  gii quyt bài toán
rút trích chính xác c
m danh t c trng ng ngha trong câu n
ti
ng Vit. Hng tip c%n này da trên phng pháp hc máy, c
th
 là phng pháp SVMs và k/ thu%t hun luyn SMO. Chúng tôi
hi
n thc hng tip c%n thành mt ng dng riêng bit gi là
ViKEe.
*ng dng này có th chy c l%p hoc nhúng vào các ng
d
ng khác trên môi trng Windows. Ngoài ra, chúng tôi c ng ã
tích h
p ViKEe nh là mt mô-un ca h thng truy xut thông tin
xuyên ngôn ng
 có h- tr ting Vit gi là VIRs. H thng này cho
phép truy xu
t thông tin hu ích t các trang web (VIRs là sn ph$m
ã c nghim thu ca  tài trng im i hc quc gia Tp. H
Chí Minh - B2005-20-01-TD). K
t qu ca h thng VIRs ã c

c
i thin so vi khi cha tích hp ViKEe.
Nh
 v%y, vi  chính xác,  y  và  trung bình iu hòa
c
a mô hình ViKEe theo hng tip c%n rút trích CDTTNN t
c trong Bng 5.3 ã áp ng c mc tiêu  ra ca lu%n án và
s
0 góp phn ci thin hiu sut ca mô hình kt hp ViKE trong
tr
ng hp các CDTTNN không c xác nh trong mô hình
ViKEa theo h
ng xác nh da trên Ontology ViO.
Ch
ng 6. MÔ HÌNH RÚT TRÍCH CM T& 'C TR(NG
NG
 NGH)A TRONG TING VIT (ViKE) - KT H*P
H
(+NG TIP C,N RÚT TRÍCH VÀ XÁC -NH CTT
6.1 Gi
i thiu
Trong ch
ng này, lu%n án trình bày Mô hình rút trích cm danh
t
 c trng ng% ngh&a trong ting Vit c gi là ViKE. ây là
mô hình k
t hp gia mô hình theo hng tip c%n xác nh
CDT
TNN-ViKEa và mô hình theo hng tip c%n rút trích
CDT

TNN-ViKEe. S kt hp ca hai mô hình này nh!m mc tiêu
phát huy
u im, c ng nh hn ch các nhc im ca c hng
ti
p c%n xác nh và hng tip c%n rút trích cm danh t c trng
ng
 ngha trong ting Vit.

-15-

mô hình rút trích CTTNN cho câu ting Vit. Cui cùng, lu%n án
s
 kt nhng vn  ã c nghiên cu trong chng này.
3.2 Các nghiên c
u liên quan
Các nghiên c
u v cm t c trng c phân loi thành hai
h
ng tip c%n chính là rút trích (extraction) và xác nh
(assignment) (Medelyan và Witten, 2006).
3.2.1 H
ng tip cn rút trích cm t c trng
Ph
ng pháp rút trích cm t c trng (CTT) thông thng
g
m hai công on là tuyn chn các cm t d tuyn và chn lc
các CT
T trong các cm t d tuyn.
- Công
on tuy n chn: Các cm t d tuyn bao gm các t và

c
m t c rút trích t vn bn.  thc hin iu này, mt b gán
nhãn t
 loi và b phân tích cú pháp n gin c s dng  xác
nh các cm t d tuyn.
- Công
on chn lc: Công on này s0 phân tích các cm t d
tuy
n theo phng pháp chn lc da vào kinh nghim  xác nh
các CT
T trong các cm t d tuyn. Các phng pháp chn lc có
th
 c phân thành hai hng tip c%n chính là hc máy (machine
learning) và h
ng tip c%n tng trng (symbolic) cùng vi các k/
thu
%t mà chúng s dng. Trong khi các phng pháp hc máy i xây
d
ng mô hình thng kê t các t%p d liu ã c hun luyn thì vi
các ph
ng pháp c trng, các nhà nghiên cu a ra cách chn lc
t
t nht là da vào các phân tích th công trên các tài liu và các
CT
T ca chúng.
3.2.1.1 Ph
ng pháp hc máy
Rút trích CT
T có th c xem là mt quá trình hc có giám sát
t

 các m.u th. Vn  chính là phi nh ngha c t%p tính cht
tính
c trng ca CTT. T%p tính cht này có th giúp phân bit
c các CTT và các cm t không c trng trong các cm t d
tuyn. Gii thu%t hc cn hai t%p tài liu có gán nhãn ca CTT b!ng
ph
ng pháp th công: mt t%p dùng  hun luyn  to mô hình
phân lo
i. T%p tài liu còn li dùng  kim nh và ánh giá mô

-16-

hình. Trong t%p hun luyn, các CTT có th là m.u âm (m.u sai)
và m
.u dng (m.u úng). Lc  hc mô hình chn lc là phân
tích các giá tr
 ca t%p tính cht c trng cho m-i m.u.
Các công trình theo h
ng tip c%n này nh (Frank và CS, 1999;
Witten và CS, 1999; Thuy Dung Nguyen và Min-Yen Kan, 2007).
3.2.1.2 Ph
ng pháp t$ng trng
Barker và Cornacchia (2000) phát tri
n mt công c rút trích
CT
T là B&C. B&C không kt hp vi bt c k/ thu%t hc máy
nào.
 rút trích các cm t d tuyn tác gi dùng mt t in tra
c
u n gin  gán các nhãn t loi và mt b phân tích t  xác

nh tt c các danh t có tính t và danh t b2 ngha cho nó. Các
th
c nghim ánh giá vi s tham gia ca con ngi ã minh chng
h
ng tip c%n n gin này thc hin tt nh b rút trích ca
Turney (Turney, 1999). Ngoài ra, Paice và Black (2003) rút trích các
thu
%t ng t các tài liu liên quan trong mt lnh vc c th và các
thu
%t ng này c xem nh là các CTT.
3.2.2 H
ng tip cn xác nh cm t c trng
T
ng phn vi các phng pháp rút trích, các phng pháp xác
nh CTT tiêu biu c dùng khi t%p các CTT d tuyn có gii
h
n, c nh. T%p này có c t t%p t vng có th iu tit c
hay t
%p các tiêu . Phng pháp này phân tích các c trng ca các
tài li
u hn là các c trng ca tng cm t  tìm ra các CTT
thích h
p t t%p t vng. Mt CTT có th xut hin trong nguyên
v
n ca tài liu. " ây, s phân loi nh phân có th c hun luyn
cho t
ng CTT trong t%p có k phn t ca mt vn bn, vic xác
nh CTT cho mt vn bn b!ng cách thc hin k ln phân loi nh
phân và
ánh giá chúng  xác nh kt qu thích hp.

Trong h
ng tip c%n xác nh, CTT có  u tiên cao nht, các
thông tin t
ng h- gia CTT và các t khác trong vn bn có th
c dùng  chn la các tính cht (Dumais và CS, 1998). Nu các
CT
T thit l%p thành mt ontology có tính khái quát, chính xác và
các mi quan h trên chúng thì các mi quan h này c ng có th
c khai thác  cung cp các s kin cho s phát hin các CTT
m
i không có trong ontology (Pouliquen và CS). Theo Medelyan và

-37-

(I,O,B)  xem kh nng cm t thuc vào lp nào là cao nht qua
công th
c (5.35).
, vi i = 1,… ,M
Và f
i
(x) là mô hình phân loi SVMs lp th i ca M lp phân loi
SVMs.
Ý t
ng ca phng pháp này ch, xây dng ra M b phân loi nh
phân SVMs (M là s
 loi cn phân bit). C th là chn ra 1 loi c
i

phân bit vi các loi còn li, k tip chn mt c
i

’ phân bit vi các
lo
i còn li,… làm tng t cho n ht.
5.5 K
t qu# th.c nghim
V
i cùng mt t%p d liu hun luyn ã c phân chia nh trên,
hu
n luyn da trên hàm kernel tuyn tính và các tham s khác nhau
nh C,  dài vector. ánh giá  chính xác s0 da trên t%p d liu
th
 nghim chim 40% kho ng liu,  chính xác c tính là tK s
gia s các m.u c phân loi úng và s các m.u c gán nhãn
phân lo
i theo phng pháp th công.

 so sánh và ánh giá phng pháp SVMs cho bài toán rút trích
các CDT
TNN ng vi vic chn các tính cht c trng làm tiêu
chí phân bi
t các CDTTNN (c trình bày trong mc 5.2.5.1).
Lu
%n án gi h thng ViKEe khi ch, dùng hai tính cht t, nhãn t
lo
i là V
1
và h thng ViKEe khi m rng thêm hai tính cht cu
trúc c
m t, và t quan h gi%a các cm t là V
2

. Lu%n án tin hành
ánh giá trên t%p ng liu C
1
gm 2.079 câu n ã c trình bày 
m
c 5.2.5.2. Kt qu t c  chính xác,  y  , và  trung
bình
iu hòa F nh Bng 5.3.
B
ng 5.3: Kt qu rút trích CDTTNN ca mô hình ViKEe.


Mô hình ViKEe S câu Precision Recall F
Hai tính cht (V
1
) 2079 70,15% 78% 73,86%
Bn tính cht (V
2
) 2079 70,54% 80% 74,97%
(
)
)(
maxarg
1
xf
i
xf
ivsR
=


-36-

( ) ( )






−=−•=

=
bxxysignbsignxf
l
i
iii
1
,xw
α
- Vòng lp trong chn các giá tr L
2
sao cho |E
1
-E
2
| có giá tr ln
nh
t và ti u hóa hai h s. C%p nh%t SVMs theo giá tr mi ca hai
h s va tìm c.
5.2.5.4 Hu

%n luyn mô hình SVMs
T
 kho ng liu dùng  hun luyn, m-i t cùng vi thông tin
c
a chính nó và các thông tin ca ng cnh xung quanh s0 c
vect
 s hóa (mc nh chiu dài vect là 3 t). Nên m-i m.u hun
luyn s0 là mt vect s thc. Các vect s thc này là u vào ca
quá trình hu
n luyn b!ng gii thu%t SMO. Kt qu ca quá trình
hun luyn là chúng ta có mt mô hình trng s. C th ch, cn tính
vect
 trng s w và phân loi các m.u b!ng công thc (5.15):




N
u xét chi tit hn, hàm hun luyn tuyn tính là mt trng hp
c bit ca vic ng dng hàm kernel nh!m tìm ra mi liên h gia
các m
.u thông qua hàm kernel K(x
i
,x) tuyn tính nh công thc
(5.30):



V
i x

i
: là các vect h- tr ; b :  di ban u ã tìm c.
 m rng phân loi cho nhiu i tng, quá trình thc hin cn
s dng hàm gán nhãn cho tng loi b!ng công thc (5.31):
g(x) = sign(f(x))
Sau khi hu
n luyn, vì d liu c mô hình theo ba nhãn gom cm
nên t
%p tin mô hình trng s s0 cha 3 b phân loi tng ng vi
các l
p I, O và B.
5.2.5.5 Rút trích các c
m danh t c trng ng ngha
u vào ca vic rút trích c ng là t%p vect s thc nh giai
on hun luyn. m-i vect i din cho mt t trong câu cha
thông tin c
a t trung tâm cùng thông tin ca các t ng cnh lân
c
%n. T t%p tin mô hình trng s, cho m-i vect i qua 3 b phân loi
( )
( )

=
−=
S
N
i
iji
bxxKxf
1

,.
αα

-17-

Witten (2006) thì dùng các quan h ng ngha và phn ngha  tính
toán
 tng ng ca các CTT d tuyn cùng vi tính toán thng

 ci tin  chính xác ca vic xác nh. Tuy nhiên, mt không
thu
%n li ca phng pháp xác nh CTT là nó òi h#i mt kho
ng
 liu có chú gii ln.
Trong công trình Hulth (2004), tác gi
 trình bày mt k/ thu%t hc
máy khác v
i các k/ thu%t ã dùng trong các công c x lý ngôn ng
t
 nhiên. Tác gi c ng ã so sánh các phng pháp khác nhau 
ánh giá vic rút trích các t và cm t d tuyn nh phng pháp
gom c
m danh t (NP chunking), so trùng m.u t loi (POS), và
cu
i cùng là rút trích n-gram. Mc dù không so sánh ánh giá các
ph
ng pháp trên cùng mt t%p tài liu thc nghim, nhng kt qu
ánh giá ca Hulth li cao hn áng k so vi các công b ca KEA
và GenEx (theo h
ng tip c%n rút trích). Hulth mô t quá trình thc

hi
n gii thu%t ã c ci tin sau khi s dng các k/ thu%t hng
ngôn ng
 cho khâu tuyn chn và phân loi. Kt qu nh%n nh ca
Hulth là m
t ng lc thúc $y  khai thác các k/ thu%t x lý ngôn
ng
 t nhiên sâu hn cho bài toán rút trích và xác nh CTT.
3.3 K
t chng
V
i các kho sát trong chng này, c hai hng tip c%n rút trích
và xác
nh CTT u có các u im c ng nh hn ch. Lu%n án
ã a ra mt mô hình cho bài toán rút trích CTTNN trong câu
ti
ng Vit. Mô hình này chính là s phi hp gia hai hng tip c%n
rút trích và xác
nh CTT nh!m phát huy u im ca c hai
h
ng, ng thi hn ch các hn ch ca chúng.
Ngoài ra trong ch
ng này, lu%n án c ng ã trình bày các phng
pháp cho công
on c bn ca c hai hng tip c%n là giai on
ti
n x lý nh bài toán phân on t và bài toán gán nhãn t loi,
c
ng nh phng pháp ánh giá hiu sut cho các mô hình  xut.
Các ch

ng tip theo, lu%n án s0 trình bày ln lt các công on
còn li ca mô hình ViKE thông qua hai mô hình tng ng vi hai
h
ng tip c%n xác nh và rút trích CTTNN.

-18-

Vi hng tip c%n xác nh CTTNN, vic nghiên cu và phát
tri
n mt c s tri thc (hay ontology) có tính khái quát, chính xác
và các m
i quan h trên chúng  tng tính hiu qu cho vic xác
nh CTTNN là rt quan trng. ng thi, các k/ thu%t so trùng mà
lu
%n án  xut trong mô hình xác nh CTTNN, c ng nh kt qu
c
a mô hình này s0 c phân tích ánh giá.
Còn h
ng tip c%n rút trích CTTNN, vi mc tiêu là gii quyt
tr
ng hp các cm t d tuyn không có khái nim tng ng trong
Ontology, lu
%n án ã  xut mô hình rút trích CTTNN trong ting
Vi
t là ViKEe.  xây dng mô hình này, lu%n án i theo hng tip
c
%n hc máy có giám sát c th là phng pháp SVMs  gii quyt
bài toán thi
u kho ng liu có chú gii ln trong quá trình hun
luy

n.
Ch
ng 4. MÔ HÌNH XÁC -NH CM T& 'C TR(NG
NG
 NGH)A TRONG TING VIT (ViKEa) -
PH
(NG PHÁP SO TRÙNG M/U D0A TRÊN ONTOLOGY
4.1 Gi
i thiu
Nh
 ã tho lu%n trong chng 3, mc dù các CTTNN c rút
trích t
 ng theo hng xác nh CTTNN có  chính xác khá cao
nh
 Hulth ã công b (Hulth, 2004). Nhng  t c kt qu ó,
h
ng tip c%n này cn mt c s tri thc hay Ontology có tính khái
quát, chính xác và có các m
i quan h trên chúng  tng tính hiu
qu
 cho vic xác nh CTTNN. Nói mt cách khác, vic nghiên cu
và phát tri
n mt c s tri thc hay ontology ting Vit là rt quan
tr
ng và cn thit.
Trong ch
ng này, lu%n án ch, trình bày mô hình rút trích cm
danh t
 c trng ng ngha theo hng xác nh CTTNN da
trên c

 s tri thc và phng pháp so trùng m.u c gi là ViKEa
(Hình 4.1).
Ph
n còn li ca chng c t2 chc thành ba phn: Phn 4.2
trình bày công
on rút trích cm danh t d tuyn b!ng phng
pháp so trùng m
.u da trên t%p m.u nh%n dng các cm danh t c

-35-

gm nhãn t loi (pos), nhãn gom cm IOB (chunk) và t. Kho ng
li
u XML này có dng nh sau:

 
 !
"#
$
%%
Trong ó: I: t  trong cm t; O: t  ngoài cm t; B: t b)t
u ca cm t nu trc ó có cm t khác lin k.
Kho ng
 liu này c chia thành hai t%p riêng bit dùng  hun
luy
n (gi là t%p C
2
) và th nghim (gi là t%p C
1
) vi tK l tng

ng là 60% và 40%.
B
ng 5.1: Kho ng liu.
T%p ng liu S lng t S lng câu S cm t
C
2
61.435 4.137 12.785
C
1
10.229 2.079 3072
5.2.5.3 Xây d.ng mô hình cho SVMs
Do các
u im ca gii thu%t SMO trong vic hun luyn cho
SVMs (Jones, 2001), nên lu
%n án áp dng nó  hun luyn t%p d
li
u to ra mt mô hình dùng trong quá trình phân lp.
Ý tng ca gii thu%t này là trong m-i bc hun luyn ly 2 im
m
.u trong t%p hun luyn th#a iu kin chn ca heuristic  tìm
các giá tr
 L
1
, L
2
tng ng c%p nh%t vào vect L sao cho th#a ràng
bu
c tuyn tính xuyên sut quá trình gii thu%t:




Heuristic dùng
 chn hai giá tr L
1
, L
2
ti m-i bc lp, thc hin
ti
p c%n 2 vòng lp: vòng lp ngoài chn la L
1
, vòng lp trong chn
L
2
.
- Vòng l
p ngoài xen k0 gia mt ln duyt qua toàn b d liu và
l
p li nhiu ln trên các t%p con không thuc biên (0 < L
1
< C) cho
n khi toàn b t%p d liu hun luyn th#a iu kin KKT  (5.21).

=
=
l
i
ii
y
1
0

α

-34-

-

i v

i các t

quan h

gi

a các c

m danh t

: d

a vào t
%
p tin
relword.cn
V

i h

ng gi


i quy

t này, d

li

u

u vào c

a SVMs là các vect


s

ch
,
có hai giá tr

c

a tính ch

t
t và nhãn t loi thay vì bn tính
ch
t, nên thi gian hun luyn c ng nh thi gian phân loi nhanh
h
n. ng thi hai tính cht cu trúc cm danh t, và t quan h
gi

%a các cm danh t c tham gia trc tip trong bc xác nh
các nhãn gom c
m IOB trong quá trình hun luyn c ng nh phân
lo
i. Do ó, thông tin s0 càng chi tit và chính xác, s phân bit gia
các m
.u s0 rõ ràng hn.
5.2.5.2 Xây d
.ng kho ng liu
Theo h
ng tip c%n b!ng phng pháp thng kê thì  chính xác
c
a h thng hoàn toàn ph thuc vào kho ng liu. Tuy nhiên, hu
h
t các công trình nghiên cu x lý ngôn ng ting Vit u cha có
m
t kho ng liu chu$n nh kho ng liu ting Anh (Penn
Treebank).
 gii quyt vn  này cho mc tiêu nghiên cu ca 
tài, lu
%n án ã xây dng th công kho ng liu qua các công on
sau:
- Các t
%p m.u câu c ly t ngun TREC07(446 câu h#i);
TREC06 (492 câu h
#i); TREC02 (440 câu h#i); www.lexxe.com,
2005-2010 (701 câu). T
2ng cng t%p m.u thu c gm 2079 câu
ti
ng Anh c Hi Nghiên Cu Dch Thu%t Tp. H Chí Minh dch

sang t
%p m.u câu ting Vit tng ng, c gi là t%p m.u C
1
.
- Ngoài ra, v
i mc ích a dng hóa ch  b!ng các bài báo thuc
nhi
u lnh vc khác nhau, lu%n án thu th%p t website vnexpress.net
4137 câu t
ng thu%t, c gi là t%p m.u C
2
.
- Hai t
%p m.u C
1
và C
2
gm 6216 câu c tin x lý, là phân on
t
 và gán nhãn t loi (Chau Q. Nguyen và Tuoi T. Phan, 2007) 
t
o thành kho ng liu.
- Cui cùng kho ng liu c thc hin gán nhãn gom cm t
(IOB) theo
nh dng XML, m-i t n!m trên mt hàng theo th t

-19-

s; Phn 4.3 mô t công on xác nh cm danh t c trng ng
ngh

a (CDTTNN); Phn cui cùng là kt chng.













4.2 Rút trích c
m t d. tuy n
Trong ph
n này, lu%n án trình bày hng gii quyt cho công
on rút trích cm danh t c bn.
4.2.1. Xây d
.ng c s tri thc các dng c%u trúc cm danh t
Theo nh
 mô hình (Hình 4.1), vic xây dng mt c s tri thc
cho các m
.u cu trúc cm danh t  da vào ó nh%n din c
các c
m danh t trong câu ting Vit. Trc tiên cn phi nghiên
c
u v cu trúc c ng nh các c tính ng pháp ca cm danh t.
*nh ngh&a 4.1: Cm danh t là loi t2 hp t do danh t vi mt

s
 t ng ph thuc to thành, nó có ý ngha y  và có cu to
ph
c tp hn mt danh t, nhng hot ng trong câu có chc nng
c
a mt danh t (Dip Quang Ban, 2004; Nguy'n Tài C$n, 1996).
D
ng th nht: { Phn ph trc}{ Phn trung tâm }{ Phn ph sau}
Ví d
: {Tt c nhng}{ em hc sinh}{ chm ngoan y}.
D
ng th hai: { Phn ph trc}{ Phn trung tâm }
Ví d
: {Toàn th các}{ ging viên}
Dng th ba: { Phn trung tâm }{ Phn ph sau}
Hình 4.1

Mô hình rút trích CDTTNN theo hng xác nh.



Câu ting Vit
Xác nh
CDT
TNN
Ontology
ViO
Tin x lý
Gán nhã
n t

 loi

Phân o
n t

T%p lu%t
c
u trúc
c
m
danh t


Rút trích
các c
m
danh t


CDTTNN

-20-

Ví d: { ngi chng}{ hnh phúc y}
Nh v%y da các khái nim v phn ph và phn trung tâm ca cm
danh t
 và các t loi có th ca chúng, lu%n án ã xây dng c
t%p lu%t nh%n din cm danh t c s bao gm 434 m.u có dng nh
sau:
- Lu

%t 1:
<KNP> → ((<Ng>|<Nt>|<Pp>)
(<Nu> |<Nn>)
(<Nu>|<Nn>|<Ng>|<Nt>)
(<Np>|<Nc>|<Na>)
(<Aa>|<An>)*
(<Nl>|<Pd>)*)

Trong
ó: | - hoc
* - 0 ho
c nhiu.
4.2.2. Bài toán rút trích c
m danh t b1ng phng pháp so
trùng m
2u
V
 phng pháp, mô hình rút trích cm danh t b!ng phng
pháp so trùng m
.u, da vào t%p m.u cu trúc các cm danh t và các
t
 có gán nhãn t loi nh%n c t công on trc,  nh%n din
các c
m danh t trong câu n ting Vit ang xét.
Ý t
ng ca phng pháp là da vào cu trúc vn phm ting Vit
 xây dng mt t%p các m.u, c x lý bi máy trng thái hu
h
n. Kt qu, lu%n án ã xây dng c 434 m.u nh%n din các cm
danh t

 bao gm c các m.u nh%n din các danh t riêng. T%p m.u
này
c hin thc b!ng Java Annotation Patterns Engine (JAPE)
(Ph
 lc B). B phân tích trên c s máy trng thái hu hn to ra
các chú gi
i có tên là ‘KNP’ vi thuc tính và giá tr c mã hóa
(nh
 ‘type’, ‘POS’, ‘string’,… ). T%p m.u dùng kt qu u ra ca
công
on gán nhãn t loi c ng nh các thông tin nh%n din các t
ti
ng Vit  nh%n din các cm danh t trong câu n ting Vit
ang xét.
T
 tng ca gii thu%t nh%n din các cm danh t c quy v
vi
c so trùng m.u có trong c s tri thc. Trong thc t quá trình so

-33-

5.2.5.1 L.a chn tính ch%t c trng
V
i phng pháp SVMs, s tính cht c trng ca m.u càng
nhiu thì thông tin s0 càng chi tit và chính xác, s phân bit gia
các m
.u s0 rõ ràng hn. Tuy nhiên, khi ó s0 òi h#i t%p d liu hun
luyn càng ln, thi gian hun luyn c ng nh thi gian phân loi s0
lâu h
n. Vì v%y, lu%n án s dng bn tính cht c trng là vai trò cú

pháp c
a t và nhãn t loi nh ã nêu trên (Nguy'n Quang Châu,
Hng Thanh Lu%n, Phan Th Ti, 2008) cùng cu trúc cú pháp ca
c
m t và t quan h gia các cm t  cân b!ng gia các yu t
trên.
i vi các phng pháp hc máy khác nhau thì loi d liu u vào
òi h#i phi khác nhau. Do d liu u vào ca SVMs là các vect
s
 cho nên các giá tr nêu trên s0 c vect s hóa, c th:
-
i vi t: da vào các t%p tin danh sách t loi ting Vit
vnlex60K.lst và vnlex40K.lst (Chau Q.Nguyen, Tuoi T.Phan, 2007)
v
i khong 102.000 t  tính v trí ca t trong danh sách. Tuy
nhiên, vì s lng t loi tng i ln, s0 gây khó khn cho vic
tính toán nên giá tr
 này s0 c chia cho t2ng s lng t.
-
i vi nhãn t loi (POS): da vào t%p tin vnpos.lst (Chau
Q.Nguyen, Tuoi T.Phan, 2006) v
i 50 nhãn t loi.
Ví d
: Câu “ Vit Nam tr thành thành viên ca WTO khi nào?”.
Nu vect s hóa t “ tr thành” vi  dài vect mc nh là 3 t thì
có vect
 s thc vi dng nh sau:
0.8041931 0.4 0.6351226 0.8 0.0 1.0
Trong
ó: 0.8041931: giá tr t ca “ Vit Nam”

0.4: giá tr
 t loi ca “ Vit Nam”
0.6351226: giá tr
 t ca “ tr thành”
0.8: giá tr
 t loi ca “ tr thành”
0.0: giá tr
 t ca “ thành viên”
1.0: giá tr t loi ca “ thành viên”
Riêng hai tính ch
t cu trúc cm t và t quan h gi%a các cm
danh t
 c tham gia trc tip trong bc xác nh các nhãn gom
c
m IOB, là nhãn cho bit t ó n!m trong hoc ngoài cm danh t
c trng ng ngha và ng thi là tên lp trong SVMs.
-
i vi cu trúc cm danh t: da vào t%p tin knp.cn vi 434
m
.u nh%n dng cu trúc cm danh t.

-32-

… … …
… …
… … …
Câu ting Vit
- Mô-un rút trích cm danh t c trng ng ngha ting Vit
c  ngh s0 áp dng phng pháp hc máy SVMs, c th là áp
d

ng gii thu%t SMO  hun luyn các m.u. Các m.u là các t ting
Vi
t ã c phân on t và gán nhãn t loi. Da vào t%p các tính
ch
t ca t trung tâm nh giá tr ca v trí t, nhãn t loi và thông
tin ng
 cnh (nh giá tr ca v trí t, nhãn t loi) ca các t lân
c
%n. Tt c các thông tin này c s hóa làm thông tin u vào cho
c
 hai giai on hun luyn và rút trích CDTTNN.













5.2.5 MÔ
UN RÚT TRÍCH CM T& 'C TR(NG NG
NGH
)A TRONG TING VIT
V
 gii thu%t, phng pháp SVMs c dùng  rút trích các

CDTTNN bao gm các bc sau.
• L
a chn tính cht c trng
• Xây d
ng kho ng liu
• Xây d
ng mô hình cho SVMs
• Hu
n luyn mô hình
• Rút trích các c
m danh t c trng ng ngha
Rút trích cm danh t c trng ng ngha

Rút trích CDTTNN ting Vit

Hu%n luyn
Kho ng
li
u hun
luy
n
SVMs (Gii
thu
%t hun
luy
n SMO)

H
ình


5
.
6

Mô hình rút trích CDTTNN-ViKEe.

Ti3n x4 lý

Phân on t

Gán nhãn t loi

Các CDTTNN


Mô hình c
hu
n luyn

-21-

trùng thu c rt nhiu m.u. ây là trng hp nh%p nh!ng và
ph
ng án gii quyt ca lu%n án là m.u có  dài cc i s0 c
ch
n, c th c trình bày trong gii thu%t 4.1.
4.3 Công
on xác nh cm t c trng d.a trên ontology
4.3.1. Khai thác Wikipedia
C

 s tri thc vi nn tng là ontology ngày càng c s dng
rng rãi vi s ra i và phát trin ca Web có ng ngha. Mt
ontology, theo (Swartout và CS, 1996) là m
t t%p hp có cu trúc
phân c
p các thu%t ng dùng  mô t mt lnh vc nào ó và có th
c dùng nh mt b khung cho mt c s tri thc. Nói mt cách
n gin, ontology là mt h thng phân cp các khái nim, còn c
s
 tri thc bao gm nn tng là mt ontology cng vi thông tin c
th
 ca tng khái nim.
Các hng nghiên cu t%p trung xây dng và khai thác các
Ontology hay c
 s tri thc nh KIM
‡‡
, OpenCyc
§§
, Wikipedia
***
,…
Trong
ó, Wikipedia nh là mt hin tng bi tính a ngôn ng
(bao g
m 253 ngôn ng) và là kho giàu tri thc nht hin nay (Zesch
và CS, 2008).
Trong Vi.wiki
† † †
, u vào c bn là các trang thông tin. Mt
trang thông tin có th

 là mt bài vit bình thng nói v mt khái
nim hay mt thc th. Mt trang thông tin c ng có th là mt trang
2i hng - trang d.n bn n trang có tên khác (có th thông dng
h
n) nói v cùng mt  tài. Mt trang thông tin c ng có th là mt
trang nh hng - mt bài vit gii thích v ý ngha ph2 bin nht
c
a thu%t ng, bên di lit kê các liên kt n các bài vit có ta 
(tên bài vit) tng t hoc có khái nim tng t, giúp nh hng
cho ng
i c n úng bài vit mà h ang tìm.
M
-i trang thông tin c nh danh b!ng danh hiu duy nht,
danh hi
u c t phù hp vi ni dung mô t i tng c 
c
%p trong trang này. Trong m-i trang, ngoài thông tin mô t v i
tng nó còn cha nhiu liên kt n các trang liên quan khác. Các

‡‡
www.ontotext.com/kim/
§§
www.opencyc.org/
***
www.wikipedia.org/
† † †
Tt c các d liu s dng trong phn này c ly t ngun
Vietnamese Wikipedia database dump 4/2/2009.

-22-


trang liên quan có th mô t v i tng có quan h thành phn,
ng ngha, hay phn ngha vi i tng mà trang cha liên kt 
c%p. H thng trang 2i hng có th c xem nh mt t in v
c
m t ng ngha, cm t bin th, hay cm t vit t)t.
Ngoài ra, Vi.wiki có mt h thng phân chia th loi các i
t
ng. H thng này là mt ngun thông tin ng ngha rt hu ích,

c dùng  phân loi các ch  ca các trang thông tin. H
thng phân loi ca Vi.wiki không ch, cung cp h thng phân cp
các
i tng trong th gii th%t, mà còn có th biu di'n c các
quan h gia các th loi ca các i tng nh các quan h thành
ph
n (thuc quan h isa) và các quan h ng ngha (thuc quan h
non-isa), Nh
 v%y, m-i trang thông tin c liên kt vi mt hoc
nhi
u th loi, các th loi này có th có các tiu th loi vi các
quan h
 thành phn và quan h ng ngha.
4.3.2. Xây d
.ng Ontology ting Vit ViO và t i n ViDic
Nghiên c
u v ngun tài nguyên ca Vi.wiki, hng tip c%n ca
lu
%n án bao gm hai bc sau:
B

c mt: Rút trích cây phân cp ca Vi.wiki cùng các quan h
c
a chúng nh các quan h thành phn, các quan h không thành
ph
n,…  to mt Ontology ViO phc v bài toán rút trích cm
danh t
 c trng ng ngha trong câu ting Vit.
Lu
%n án s dng Java-based Wikipedia Library (JWPL) (Zesch và
CS, 2007) (Ph
 lc A)  rút trích các tài nguyên t Wikipedia nh
các trang thông tin, các liên k
t, các th loi và các trang 2i hng.
K
t qu t c Ontology ViO có 157.994 khái nim (danh hiu)
và 322.631 th
 loi.
B
c hai: Rút trích các danh hiu ca các trang thông tin cùng vi
các danh hi
u ca các trang 2i hng vi chúng  to mt t in
ti
ng Vit (ViDic – Vietnamese Dictionary). Vì mc tiêu là xác nh
c
m danh t c trng ng ngha nên lu%n án xem m-i trang thông
tin trong Wikipedia là m
t nh ngha cho i tng mà trang mô t
và danh hi
u tng ng ca nó có cm danh t c trng ng ngha
cho i tng. Danh hiu là cm danh t c trng ng ngha ca


-31-

V
ij
(x) =
1 nu g
ij
(x) = +1 hay x là CDTTNN

0 nu g
ij
(x) = -1 hay x không phi CDTTNN


v
i iu kin:




và qui
c 1vs1 là phân bit loi c
i
vi loi c
j
.
N
u trong t%p C gm các cm t cn phân loi có kích thc N: vi
ý t

ng chn ra 1 loi c
i
phân bit vi các loi còn li c ký hiu
là 1vsR (One vs Rest), k
 tip chn mt c
i
’ phân bit vi các loi còn
l
i,… làm tng t cho n ht. Lúc ó hàm phân loi (5.33) tr
thành:



v
i i = 1,… ,N
(5.32)
 ây, f
i
(x) là mô hình phân loi SVMs lp th i ca N lp phân
loi SVMs.
5.4 Mô hình ViKEe
Mô hình
c tác gi  xut (Hình 5.6) bao gm hai mô-un là
(a) mô-
un tin x lý truy vn nh!m phân on và gán nhãn t loi,
(b) mô-
un rút trích cm danh t c trng ng ngha ting Vit.
C
 ch rút trích cm danh t c trng ng ngha thc hin da
trên ph

ng pháp hc máy ln lt c trình bày qua các bài toán
(Hình 5.6):
- Các mô-
un tin x lý c phát trin mi cho ting Vit (c
trình bày trong ph
n 3.4.1 ca Chng 3) .

(5.31)
(
)
)(
maxarg
1
xf
i
xf
ivsR
=
( ) ( )
 
= ≠∧=
=
K
i
K
jij
ij
i
vs
xVxf

1 1
11
maxarg

-30-

toán rút trích cm danh t c trng ng ngha; Phn 5.4 trình bày
mô hình
 xut cho bài toán rút trích cm danh t c trng ng
ngh
a trong câu ting Vit; Phn 5.5 trình bày kt qu thc nghim

ánh giá; Phn 5.6 là phn kt chng.
5.2 Ph
ng pháp Support Vector Machines
C
 s toán hc ca phng pháp phân loi SVMs là da trên nn
tng lý thuyt hc thng kê (statistical learning theory) và lý thuyt
không gian vect
 (vector space).
5.3 Phát bi
u bài toán rút trích cm danh t c trng ng
ngh
a trong câu ting Vit
V
 mt hình thc, bài toán rút trích cm danh t c trng ng
ngh
a trong câu ting Vit c phát biu nh sau. Nu t C là t%p
các c
m danh t d tuyn và K là t%p cm danh t c trng ng

ngh
a câu thì quan h gia hai cm danh t c biu di'n bi hàm
f: K x C
M { 0, 1}. Vi c

C, k

K,



=
0
1
k)f(c,

B
n cht ca SVMs là phng pháp phân loi nh phân, t%p d
li
u ban u sau khi c SVMs phân loi s0 chia thành hai t%p con
phân bi
t. Nhng trên thc t, các loi d liu òi h#i phi phân chia
thành nhi
u loi khác nhau. c bit là khi áp dng vào bài toán xác
nh cm danh t c trng ng ngha da trên th hin nhãn gom
c
m IOB (trong ó nhãn I: cho bit t  trong cm t; nhãn O: cho
bi
t t  ngoài cm t; nhãn B: cho bit t b)t u ca cm t nu
tr

c ó có cm t khác lin k). Vi c t bài toán nh trên, ý
t
ng ca phng pháp SVMs  rút trích cm danh t c trng
ng
 ngha trong ting Vit c mô t nh sau.

Khi
ó, mt cm t x cha bit s0 c phân loi nh sau:
g(x)
ij
= sign(f(x)
ij
)
(5.30)
n
u c và k có quan h, hay k là CDTTNN
tr
ng hp ngc li.

-23-

mt i tng c nh ngha trong m-i trang nu th#a mãn mt
trong các tiêu chí sau:
- N
u danh hiu ca mt trang thông tin là mt câu thì trong
tr
ng hp này CDTTNN tng ng s0 là CDTTNN cho câu.
- N
u danh hiu là mt cm t thì CDTTNN tng ng là chính
c

m t ó.
Theo ph
ng pháp nh trên, cu trúc ca t in ViDic là mt t%p
các
u mc, m-i u mc bao gm: CDTTNN, danh hiu, cm t
ng ngha có c là CDTTNN ca trang 2i hng. M-i u
m
c trong t in c ánh x ti th loi trong ViO. Kt qu t
c t in ViDic có t2ng cng 152.450 u mc, m-i u mc có
c
u trúc c minh ha nh sau:
< CDT
*TNN >< danh hiu ca trang thông tin>< CDT*TNN
c
a trang .i h(ng>.
Trong tr
ng hp có nhiu trang mà kt qu ca quá trình rút trích
các danh hi
u cho cùng mt CDTTNN thì m-i u mc trong t
in ViDic có dng:
< CDT
*TNN >< danh hiu ca trang thông tin 1>< CDT*TNN
c
a trang .i h(ng 1>,…,< danh hiu ca trang thông tin n><
CDT
*TNN ca trang .i h(ng n>.
Tr
ng hp mt CDTTNN có nhiu danh hiu ch, chim t, l 52
trong t
2ng 152450 u mc trong t in ViDic.

Trong ph
ng pháp tip c%n này, mc dù lu%n án s dng các
thông tin t
 Wikipedia  to ra mt t in ViDic, nhng phng
pháp này còn có th
 áp dng cho các Ontology hay các c s tri thc
khác.
4.3.3. Bài toán rút trích c
m danh t c trng ng ngha
 gii quyt khâu chn lc các cm danh t c trng ng ngha
trong các c
m danh t d tuyn nh%n c, lu%n án s dng
Ontology ViO nh
 mt cây phân cp ca các th loi cho bài toán

-24-

rút trích cm danh t c trng ng ngha trong câu ting Vit. Mô
hình c
a bài toán c trình bày trong Hình 4.1. u vào ca mô
hình là các câu
ã c tin x lý (nh phân on t, gán nhãn t
lo
i) và rút trích các cm danh t d tuyn, cui cùng là giai on
xác
nh CDTTNN.


Hình 4.3 Mô hình rút trích CDT
TNN da vào so trùng m.u &

Ontology.

Giai
on xác nh này ln lt c thc hin qua các bc sau:
B
c mt: Da vào các thông tin ng cnh là các t, hay cm t
quan h
  nh%n din các CDTTNN. Ý tng ca phng pháp
này là
i khai thác các c thù riêng ca ting Vit  xây dng mt
t
%p các t (hay cm t) mà nó phn ánh mi quan h ng ngha
gi
a các cm danh t. Ví d nh câu “Máy tính này có dung lng
RAM là bao nhiêu?”. Trong câu này có hai c
m danh t là “ Máy
tính này” và “ dung l
ng RAM”, tng ng có hai i tng trong
th
 gii thc là “ Máy tính” và “RAM”. Bài toán t ra làm sao la
chn c cm danh t nào mà nó c trng ng ngha cho câu.
H
ng tip c%p ca lu%n án quan tâm n ý ngha ca các t quan h
Ontology
ViO
… …
… …
… …
Các CDTTNN


Xác nh CDTTNN
Da vào t quan h
(so trùng lu%t)
D vào Ontology
… …

… …
… …
Câu ting Vit
(ã c tin x lý và rút trích
các cm t d tuyn)


-29-

Ngoài ra, hng nghiên cu khai thác Vi.Wiki nh mt ontology
ti
ng Vit không ch,  phc v cho vic xác nh cm danh t c
tr
ng ng ngha cho câu ting Vit mà còn m ra mt hng gii
quy
t cho vn  thiu kho ng liu h- tr các công trình nghiên
c
u v x lý ngôn ng ting Vit b!ng máy tính hin nay.

Ch
ng 5. MÔ HÌNH RÚT TRÍCH CM T& 'C TR(NG
NG
 NGH)A TRONG TING VIT THEO H(+NG TIP
C

,N RÚT TRÍCH (ViKEe) – PH(NG PHÁP H5C MÁY
5.1 Gi
i thiu
Ph
ng pháp hc máy mà lu%n án trình bày là phng pháp
Support Vector Machines (SVMs), nó chính là ph
ng pháp phân
lo
i d liu có giám sát da trên nguyên lý cc tiu hóa ri ro cu
trúc, c Vapnik gii thiu ln u tiên vào nm 1995. Mc dù,
SVMs ch
, là phng pháp phân loi nh phân nhng do tính hiu qu
v
t tri so vi các phng pháp phân loi d liu khác; nên SVMs
ã c phát trin  có th áp dng cho các bài toán a phân loi và
c ng dng rt hiu qu trong nhiu vn  thc t nh: nh%n
d
ng ch vit tay, nh%n dng ging nói, nh%n dng khuôn mt, phân
tích gen, phân lo
i nh vi'n thám,…
Quan
im ca lu%n án là qui vic rút trích cm danh t c trng
ng
 ngha v bài toán phân loi hay nh%n din m.u da vào mt s
các tính ch
t c trng ca m.u.Vi hiu qu vt tri ca SVMs
trong vi
c phân loi d liu (Mayer, 2002), thì khi áp dng SVMs s0
t c nhiu kt qu rt kh quan, minh chng th hin qua các
công trình áp d

ng SVMs (Cheng, 2002; Hearst, 1998; Joachims,
1998;… ), so v
i các công trình áp dng phng pháp khác. ó là lý
do lu
%n án áp dng phng pháp SVMs  thc hin giai on xác
nh các cm danh t c trng ng ngha trong câu ting Vit cho
mô hình ViKEe.
Các ph
n còn li ca chng này c b cc nh sau: Phn 5.2
trình bày khái quát ph
ng pháp SVMs; Phn 5.3 là phát biu bài

-28-

Lu%n án tin hành ánh giá trên các t%p m.u câu tng thu%t và
câu h
#i c ly t ngun d liu ca TREC
(
(TREC, 2009) là TREC07 (bao gm 446
câu h
#i), TREC06 (bao gm 492 câu h#i), TREC02 (bao gm 440
câu h
#i); t%p 701 câu t website www.lexxe.com (Qiao, 2010). Sau
ó t%p m.u thu c gm 2079 câu ting Anh c Hi Nghiên
C
u Dch Thu%t Tp. H Chí Minh dch sang t%p m.u câu ting Vit
t
ng ng. Kt qu t c  chính xác,  y  và  trung
bình
iu hòa F c trình bày trong Bng 4.4.

B
ng 4.4: Kt qu rút trích CDTTNN ca mô hình ViKEa.
E A E6A Precision Recall F
3236 3072 2293 74.6% 70.8% 72,65%

K
t qu ban u t c là khá cao, tuy nhiên theo kho sát ca
lu
%n án thì hu ht các CDTTNN c nh%n dng sai t mô hình
ViKEa
u thuc vào trng hp khái nim cha tn ti trong
ontology ViO, mà c
 th là trong t in ViDic. ây là mt hn ch
c
a mô hình ViKEa và c ng là mc tiêu nghiên cu hng tip c%n
h
c máy  xây dng các  tng t ng ngha gia các cm t.
H
n na, vi vic ánh giá và so sánh kt qu thu c t mô hình
ViKEa, lu
%n án rút ra c t%p tính cht c trng v mt ngôn ng
c
a cm danh t c trng ng ngha. T%p tính cht c trng này
quy
t nh tính c trng ng ngha ca cm danh t này so vi các
c
m danh t khác trong câu. ây chính là tin  góp phn xác nh
t
%p tính cht c trng nh%n din CDTTNN trong mô hình ViKEe
theo h

ng tip c%n rút trích và k/ thu%t hc máy  gii quyt bài
toán rút trích c
m danh t c trng ng% ngh&a cho câu n ting
Vi
t.
M
t khác, Wikipedia là mt tài nguyên mi v ng ngha t vng
cho h
n 253 ngôn ng khác nhau. iu này chng t# phng pháp
mà lu%n án  xut có th áp dng  xác nh cm danh t c
tr
ng ng ngha cho nhiu ngôn ng khác.

-25-

gia các cm t. Nh trong ví d trên, t “ có ” là t ch, mi quan
h
 s hu gia “Máy tính này” và “ dung lng RAM”. iu này
xác
nh c “ dung lng RAM” là cm danh t c trng ng
ngh
a cho câu ang xét.
Da vào các t quan h gia các cm t trong các câu quan h
(Ph
 lc – Phn E) ca vn phm ting Vit, lu%n án ã xây dng
mt t%p lu%t  xác nh cm t c trng ng ngha cho cho câu
ti
ng Vit trong trng hp các cm t có quan h thành phn vi
nhau có dng nh sau:
Lu%t 1: {Cm danh t A} “ nào” {c

m danh t B} M {A là C
DTTNN}.
Lu
%t 2: {Cm danh t A} “ gì” {c
m danh t B} M {A là C
DTTNN}.

Bc hai: Trong trng hp gia các cm danh t d tuyn không
có các t
, hay cm t quan h thì quá trình nh%n din CDTTNN s0
c truy vn da trên Ontology ViO  rút ra ng ngha ca các
c
m danh t d tuyn. Vi ng ngha thu c sau khi truy vn, các
CDT
TNN s0 c nh%n din da trên tiêu chí là m!c  chi tit
c
a khái nim, theo ngh&a là cm danh t d$ tuyn mô t cái chi tit
h
n s/ là cm danh t c trng hn.

• Mt cách c th, u tiên các cm danh t d tuyn c so trùng
v
i các CDTTNN trong t in ViDic. Vic so trùng c ci
ti
n vi các chin lc so trùng cc i, so trùng cc tiu, so trùng
t
i, so trùng lùi và so trùng theo c hai hng. Mc tiêu ca quá
trình c
i tin này là gii quyt vn  nhng cm danh t mi
không có trong t

 in nhng chúng có nòng ct ging nhau.
• N
u vic so trùng thành công, c ng có ngha là cm danh t d
tuy
n tn ti trong c s tri thc, thì quá trình xác nh th loi
cho các c
m danh t d tuyn s0 c thông qua vic truy vn
Ontology ViO nh
!m xác nh mc  chi tit ca th loi c
trình bày trong ph
n 4.3.3.1.
• N
u so trùng không thành công trong t in ViDic, ngha là cm
danh t
 d tuyn cha tn ti trong c s tri thc, thì khái nim

×