Mô hình rút trích cm t c trng ng ngha trong ting Vit
11
Chng 1
GII THIU
1.1 Mc tiêu và phm vi
Internet là mt ni lu tr ngun thông tin ca nhân loi. Ngun thông tin này
c chia s, phát trin và m rng không ngng cùng vi s phát trin nhanh
chóng ca World Wide Wed (Web). Vn t ra là làm th nào khai thác và
s dng ngun tài nguyên thông tin này mt cách hiu qu nht.
Mô hình rút trích cm t c trng ng ngha trong ting Vit
12
Thông tin trên Web hu ht u th hin di dng ngôn ng t nhiên, thông qua
các trang Web, các h thng truy hi thông tin (Information Retrieval) c phát
trin và thành công nht hin nay là Google
1
, Yahoo
2
, v.v... Tuy nhiên, các mô
hình này u s dng t khóa x lý và truy hi tài liu. Hiu sut truy hi ca
chúng có nhng gii hn nht nh vì ng ngha ca tài liu b mt i nhiu khi
vn bn c biu din di dng mt tp các t khóa. Tng t, yêu cu cung
cp thông tin t phía ngi s dng c ng c biu din bi các t khóa. S biu
din này rõ ràng không có kh nng th hin c tr!n v"n nhu cu thông tin nh
mong mun ca ngi s dng. Do ó, khi truy hi thông tin trên các h thng
hin nay, ngi s dng u nhn c thêm các tài liu không liên quan ti
thông tin cn tìm.
# ci tin các mô hình truy hi thông tin theo t khóa, nhiu công trình
nghiên c$u i khai thác tim nng ca cm t c trng trong các h thng nh
truy hi thông tin (Hulth, 2004), tóm lc vn bn (Text Summarization) (Paice và
Black, 2003), và rút trích thông tin (Information Extraction) (Medelyan và Witten,
2006; Thuy Dung Nguyen, 2007), ...Trong các h thng này, khái nim cm t c
trng c nh ngha nh sau:
nh ngha 1.1: Trong các th vin và khoa h!c thông tin cm t c trng
(cm t khóa – key phrase) c nh ngha là “cm t mô t ngn gn và chính
xác ch hay khía cnh ca ch mà nó c tho lun trong vn bn”
(Feather và P., 1996, 240).
Theo quan im ca Cao Xuân Ho (1998): “câu n c bn ca li nói,
ca ngôn t, ca vn bn. Nó là n v nh nht có th s dng vào vic giao t.
Nói cách khác, câu là ngôn bn (vn bn) ngn nht”.
Nh vy, vi quan im câu là vn bn ng%n nht và nhn mnh trng hp
cm t c trng din t ch ca vn bn ng%n nht (câu) và phm vi nghiên
c$u là câu n, lun án nh ngha cm t c trng ng ngha nh trong nh
ngha 2.1 (Chng 2, trang 22).
Cm t c trng ng ngha – c vit t%t là CT#TNN – có kh nng mô t
ch trong câu (hay vn bn). Nói cách khác, CT#TNN mang thông tin v ni
1
www.google.com/
Mô hình rút trích cm t c trng ng ngha trong ting Vit
13
dung nng ct ca mt câu. CT#TNN rt hu dng trong nhiu $ng dng. Trong
lnh vc truy hi thông tin, các CT#TNN không ch& h' tr trong vic xác nh ni
dung ca mt vn bn có thích hp vi yêu cu thông tin ca ngi s dng hay
không, mà còn biu th ni dung nng ct ca câu truy vn thông tin trong ng c
tìm kim (search engine) trên Web th h th$ ba và h thng hi-áp (question-
answering) (Qiao, 2010).
Do các CT#TNN phn ánh c ni dung nng ct (ch ) ca câu trong vn
bn, nên chúng c s dng phân loi vn bn (text classification) (Jones và
Mahoui, 2000), tóm lc vn bn (text summarization) (Barker và Cornacchia,
2000). Mc dù các CT#TNN c dùng rng rãi trong các h thng $ng dng
khác nhau, nhng tht s vic rút trích các CT#TNN tng $ng cho tng câu hay
tng vn bn b(ng phng pháp th công tn rt nhiu thi gian và công s$c.
Nhu cu này là ng lc thúc )y các nghiên c$u rút trích t ng các
CT#TNN. Có th phân các nghiên c$u v CT#TNN thành ba hng chính:
1. H ng tip cn s dng t in (Dictionary approach): s dng mt t in
c xây dng b(ng phng pháp th công dùng rút trích các CT#TNN trong
câu (hay vn bn). Quá trình rút trích các CT#TNN c thc hin b(ng các
phng pháp so trùng các CT#TNN trong t in vi các cm t trong tài liu.
Thun li chính ca hng tip cn là nhanh và thc hin n gin. Hin nay
nhiu h thng v*n ang s dng phng pháp này (Bian và Chen, 1998; Li và
Xing, 1998; ...). Tuy nhiên, phng pháp này còn b hn ch khi tài liu có nhng
t mi không có trong t in. #ây là mt vn cn c nghiên c$u và gii
quyt. Các nghiên c$u theo hng tip cn s dng t in ã có nhiu chin lc
ci thin quá trình so trùng nh: so trùng c!c i (maximum-matching), so
trùng c!c tiu (minimum-matching), so trùng t i (forward-matching), so trùng lùi
(backward-matching), so trùng theo c hai h ng (bi-directional- matching) và
các phng pháp gii quyt vn b(ng ánh giá kinh nghim (heuristics). Tuy
nhiên, hiu sut ca hng tip cn này li phù thuc vào ln ca t in. Nó
tht s không hiu qu khi gii quyt bài toán nhn din danh t riêng nh tên, v
trí, hay các thut ng mi trong nhng phm vi chuyên bit.
2
www. yahoo.com/
Mô hình rút trích cm t c trng ng ngha trong ting Vit
14
2. H ng tip cn ngôn ng hc (Linguistic approach), hng này dùng c s tri
th$c ng ngha t vng (nh WordNet
3
, Wikipedia
4
,…), dùng phng pháp ánh
giá theo kinh nghim, hay phng pháp lut rút trích các cm t (Wu và Tseng,
1995). Các nghiên c$u v x lý ngôn ng ting Anh ã ch$ng t+ hng tip cn
này có th t chính xác cao. Tuy nhiên chính xác ca phng pháp còn ph
thuc vào vic thit k tng h thng c th (Brill, 1995; Church, 1988;
Voutilainen, 1997). Mc dù nhiu kt qu nghiên c$u ã ch$ng t+ hng tip cn
này có nhiu tim nng, tuy nhiên v*n cha có mt công trình nghiên c$u nào theo
hng tip cn này cho ngôn ng ting Vit, và hin thc theo hng tip cn này
còn gp nhiu khó khn. Khó khn chính là vic xây dng mt c s tri th$c ng
ngha t vng ting Vit cho nhng min (domain) chuyên bit, có phm vi ln.
Vic này òi h+i rt nhiu thi gian và công s$c.
Vi mc tiêu gii quyt cho bài toán rút trích CT#TNN cho câu n ca ting
Vit, lun án tp trung xây dng mô hình ViKEa (Vietnamese Key phrase
Extraction for assignment approach) theo hng tip cn ngôn ng h!c da trên
Ontology và khai thác các tri th$c ngôn ng ting Vit nâng cao hiu qu ca
mô hình. Vic lun án nghiên c$u và khai thác Vi.Wikipedia nh kho tri th$c
ting Vit ã gii quyt khó khn v tài nguyên tri th$c t vng ting Vit khi xây
dng mô hình theo hng tip cn này.
3. H ng tip cn b"ng phng pháp th#ng kê (Statistical approach), thc cht
là quá trình h!c các giá tr ã c thng kê t mt kho ng liu ln rút trích
các cm t (Su và CS, 1996). Hng tip cn này t+ ra hiu qu cho vic rút trích
cm t c trng ng ngha (Yang và CS, 1998; Chien, 1997; Chien, 1998; Chen
và CS, 1997), và nó liên quan mt thit vi hng tip cn n-gram vi n có giá tr
2,3, hay 4. Tuy nhiên, khi Chien (1997) dùng PAT-Tree (PATricia Tree) rút
trích các CT#TNN trong vn bn ca ting Trung Quc, tác gi ã không gii hn
giá tr ca n. Mc dù có gia tng v mt tính toán, k, thut này không nhng
không òi h+i nhiu công s$c to t in hay c s tri th$c mà còn có kh nng
ly c các thut ng có tr!ng s cao trong kho ng liu. Tuy nhiên, mt hn ch
3
www.wordnet.com/
4
www.wikipedia.org/
Mô hình rút trích cm t c trng ng ngha trong ting Vit
15
ca hng tip cn là có mt s trng hp không th rút trích các cm t hp lý
mà có tn sut thp.
Mc dù hng tip cn b(ng thng kê có chính xác (Precision) không tt,
nhng có $y (Recall) cao so vi hng tip cn ngôn ng h!c. Vì vy, vi
mc tiêu là ci thin ti a hiu qu ca h thng ViKEa theo hng tip cn ngôn
ng h!c khi vic khai thác ngôn ng v*n còn gii hn, lun án s- xây dng mô
hình rút trích các CT#TNN b(ng phng pháp máy h!c có giám sát. Các
CT#TNN c gán nhãn t loi ban u làm tp hun luyn xây dng mô hình
rút trích. #ây là c s cho mô hình xác nh úng các CT#TNN trong các cm t
d tuyn. Mô hình rút trích dùng mt tp các tính cht c trng phân loi các
cm t. Vn t ra là phi xác nh c các tính cht c trng ca các cm
t, nh(m xác nh mt cách chính xác các CT#TNN trong các cm t d tuyn.
Nh vy, mc tiêu ca lun án là xây dng mt mô hình lai cho bài toán rút
trích CT#TNN trong câu n ting Vit. Mô hình này là s phi hp ca hai mô
hình theo hng tip cn ngôn ng h!c và phng pháp xác sut thng kê. #ó
chính là s phi hp ca hai mô hình theo hng tip cn rút trích và xác nh
CT#TNN (c trình bày trong Chng 3). Trong hng tip cn ngôn ng h!c,
lun án s dng phng pháp so trùng m*u da trên Ontology c to lp t
Wikipedia ting Vit. Mô hình này là c s lun án xut bn tính cht c
trng cho phng pháp xác nh cm t c trng ng ngha dùng phng pháp
máy hc vect h% tr (Support Vector Machines-SVMs) nh(m n%m b%t c v trí
lô-gích và c tính hình thái ca CT#TNN, là: (1) v trí t trong câu, (2) nhãn t
loi, (3) cu trúc cm t, (4) các t quan h gia các cm t.
T ây, các bài toán chính cn c gii quyt trong phm vi lun án bao gm:
Bài toán 1 - Xây dng mô hình ViKEa.
Lun án nghiên c$u và khai thác ngun tài nguyên ca Vi.wikipedia xây
dng mt Ontology ting Vit ViO (Vietnamese Ontology) nh(m phc v yêu cu
ca bài toán.
Lun án xut mô hình xác nh CT#TNN, c g!i là ViKEa, da trên các
tri th$c ngôn ng t nhiên (nh h thng lut và ViO) và các bài toán tin x lý
(nh phân on t và gán nhãn t loi).