Tải bản đầy đủ (.pdf) (8 trang)

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 02

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (174.1 KB, 8 trang )

Mô hình rút trích cm t c trng ng ngha trong ting Vit

11



















Chng 1




GII THIU




























1.1 Mc tiêu và phm vi

Internet là mt ni lu tr ngun thông tin ca nhân loi. Ngun thông tin này
c chia s, phát trin và m rng không ngng cùng vi s phát trin nhanh
chóng ca World Wide Wed (Web). Vn  t ra là làm th nào  khai thác và
s dng ngun tài nguyên thông tin này mt cách hiu qu nht.

Mô hình rút trích cm t c trng ng ngha trong ting Vit

12

Thông tin trên Web hu ht u th hin di dng ngôn ng t nhiên, thông qua
các trang Web, các h thng truy hi thông tin (Information Retrieval) c phát
trin và thành công nht hin nay là Google
1
, Yahoo
2
, v.v... Tuy nhiên, các mô
hình này u s dng t khóa  x lý và truy hi tài liu. Hiu sut truy hi ca
chúng có nhng gii hn nht nh vì ng ngha ca tài liu b mt i nhiu khi
vn bn c biu din di dng mt tp các t khóa. Tng t, yêu cu cung
cp thông tin t phía ngi s dng c ng c biu din bi các t khóa. S biu
din này rõ ràng không có kh nng th hin c tr!n v"n nhu cu thông tin nh
mong mun ca ngi s dng. Do ó, khi truy hi thông tin trên các h thng
hin nay, ngi s dng u nhn c thêm các tài liu không liên quan ti
thông tin cn tìm.
# ci tin các mô hình truy hi thông tin theo t khóa, nhiu công trình
nghiên c$u i khai thác tim nng ca cm t c trng trong các h thng nh
truy hi thông tin (Hulth, 2004), tóm lc vn bn (Text Summarization) (Paice và
Black, 2003), và rút trích thông tin (Information Extraction) (Medelyan và Witten,
2006; Thuy Dung Nguyen, 2007), ...Trong các h thng này, khái nim cm t c
trng c nh ngha nh sau:
nh ngha 1.1: Trong các th vin và khoa h!c thông tin cm t c trng
(cm t khóa – key phrase) c nh ngha là “cm t mô t ngn gn và chính
xác ch  hay khía cnh ca ch  mà nó c tho lun trong vn bn”

(Feather và P., 1996, 240).

Theo quan im ca Cao Xuân Ho (1998): “câu n c bn ca li nói,
ca ngôn t, ca vn bn. Nó là n v nh nht có th s dng vào vic giao t.
Nói cách khác, câu là ngôn bn (vn bn) ngn nht”.
Nh vy, vi quan im câu là vn bn ng%n nht và  nhn mnh trng hp
cm t c trng din t ch  ca vn bn ng%n nht (câu) và phm vi nghiên
c$u là câu n, lun án nh ngha cm t c trng ng ngha nh trong nh
ngha 2.1 (Chng 2, trang 22).
Cm t c trng ng ngha – c vit t%t là CT#TNN – có kh nng mô t
ch  trong câu (hay vn bn). Nói cách khác, CT#TNN mang thông tin v ni

1
www.google.com/
Mô hình rút trích cm t c trng ng ngha trong ting Vit

13

dung nng ct ca mt câu. CT#TNN rt hu dng trong nhiu $ng dng. Trong
lnh vc truy hi thông tin, các CT#TNN không ch& h' tr trong vic xác nh ni
dung ca mt vn bn có thích hp vi yêu cu thông tin ca ngi s dng hay
không, mà còn biu th ni dung nng ct ca câu truy vn thông tin trong ng c
tìm kim (search engine) trên Web th h th$ ba và h thng hi-áp (question-
answering) (Qiao, 2010).
Do các CT#TNN phn ánh c ni dung nng ct (ch ) ca câu trong vn
bn, nên chúng c s dng  phân loi vn bn (text classification) (Jones và
Mahoui, 2000), tóm lc vn bn (text summarization) (Barker và Cornacchia,
2000). Mc dù các CT#TNN c dùng rng rãi trong các h thng $ng dng
khác nhau, nhng tht s vic rút trích các CT#TNN tng $ng cho tng câu hay
tng vn bn b(ng phng pháp th công tn rt nhiu thi gian và công s$c.
Nhu cu này là ng lc thúc )y các nghiên c$u rút trích t ng các
CT#TNN. Có th phân các nghiên c$u v CT#TNN thành ba hng chính:

1. H ng tip cn s dng t in (Dictionary approach): s dng mt t in
c xây dng b(ng phng pháp th công dùng  rút trích các CT#TNN trong
câu (hay vn bn). Quá trình rút trích các CT#TNN c thc hin b(ng các
phng pháp so trùng các CT#TNN trong t in vi các cm t trong tài liu.
Thun li chính ca hng tip cn là nhanh và thc hin n gin. Hin nay
nhiu h thng v*n ang s dng phng pháp này (Bian và Chen, 1998; Li và
Xing, 1998; ...). Tuy nhiên, phng pháp này còn b hn ch khi tài liu có nhng
t mi không có trong t in. #ây là mt vn  cn c nghiên c$u và gii
quyt. Các nghiên c$u theo hng tip cn s dng t in ã có nhiu chin lc
 ci thin quá trình so trùng nh: so trùng c!c i (maximum-matching), so
trùng c!c tiu (minimum-matching), so trùng t i (forward-matching), so trùng lùi
(backward-matching), so trùng theo c hai h ng (bi-directional- matching) và
các phng pháp gii quyt vn  b(ng ánh giá kinh nghim (heuristics). Tuy
nhiên, hiu sut ca hng tip cn này li phù thuc vào  ln ca t in. Nó
tht s không hiu qu khi gii quyt bài toán nhn din danh t riêng nh tên, v
trí, hay các thut ng mi trong nhng phm vi chuyên bit.

2
www. yahoo.com/
Mô hình rút trích cm t c trng ng ngha trong ting Vit

14

2. H ng tip cn ngôn ng hc (Linguistic approach), hng này dùng c s tri
th$c ng ngha t vng (nh WordNet
3
, Wikipedia
4
,…), dùng phng pháp ánh
giá theo kinh nghim, hay phng pháp lut  rút trích các cm t (Wu và Tseng,

1995). Các nghiên c$u v x lý ngôn ng ting Anh ã ch$ng t+ hng tip cn
này có th t  chính xác cao. Tuy nhiên  chính xác ca phng pháp còn ph
thuc vào vic thit k tng h thng c th (Brill, 1995; Church, 1988;
Voutilainen, 1997). Mc dù nhiu kt qu nghiên c$u ã ch$ng t+ hng tip cn
này có nhiu tim nng, tuy nhiên v*n cha có mt công trình nghiên c$u nào theo
hng tip cn này cho ngôn ng ting Vit, và hin thc theo hng tip cn này
còn gp nhiu khó khn. Khó khn chính là vic xây dng mt c s tri th$c ng
ngha t vng ting Vit cho nhng min (domain) chuyên bit, có phm vi ln.
Vic này òi h+i rt nhiu thi gian và công s$c.
Vi mc tiêu gii quyt cho bài toán rút trích CT#TNN cho câu n ca ting
Vit, lun án tp trung xây dng mô hình ViKEa (Vietnamese Key phrase
Extraction for assignment approach) theo hng tip cn ngôn ng h!c da trên
Ontology và khai thác các tri th$c ngôn ng ting Vit  nâng cao hiu qu ca
mô hình. Vic lun án nghiên c$u và khai thác Vi.Wikipedia nh kho tri th$c
ting Vit ã gii quyt khó khn v tài nguyên tri th$c t vng ting Vit khi xây
dng mô hình theo hng tip cn này.
3. H ng tip cn b"ng phng pháp th#ng kê (Statistical approach), thc cht
là quá trình h!c các giá tr ã c thng kê t mt kho ng liu ln  rút trích
các cm t (Su và CS, 1996). Hng tip cn này t+ ra hiu qu cho vic rút trích
cm t c trng ng ngha (Yang và CS, 1998; Chien, 1997; Chien, 1998; Chen
và CS, 1997), và nó liên quan mt thit vi hng tip cn n-gram vi n có giá tr
2,3, hay 4. Tuy nhiên, khi Chien (1997) dùng PAT-Tree (PATricia Tree)  rút
trích các CT#TNN trong vn bn ca ting Trung Quc, tác gi ã không gii hn
giá tr ca n. Mc dù có gia tng v mt tính toán, k, thut này không nhng
không òi h+i nhiu công s$c  to t in hay c s tri th$c mà còn có kh nng
ly c các thut ng có tr!ng s cao trong kho ng liu. Tuy nhiên, mt hn ch

3
www.wordnet.com/
4

www.wikipedia.org/
Mô hình rút trích cm t c trng ng ngha trong ting Vit

15

ca hng tip cn là có mt s trng hp không th rút trích các cm t hp lý
mà có tn sut thp.
Mc dù hng tip cn b(ng thng kê có  chính xác (Precision) không tt,
nhng có  $y  (Recall) cao so vi hng tip cn ngôn ng h!c. Vì vy, vi
mc tiêu là ci thin ti a hiu qu ca h thng ViKEa theo hng tip cn ngôn
ng h!c khi vic khai thác ngôn ng v*n còn gii hn, lun án s- xây dng mô
hình rút trích các CT#TNN b(ng phng pháp máy h!c có giám sát. Các
CT#TNN c gán nhãn t loi ban u làm tp hun luyn  xây dng mô hình
rút trích. #ây là c s cho mô hình xác nh úng các CT#TNN trong các cm t
d tuyn. Mô hình rút trích dùng mt tp các tính cht c trng  phân loi các
cm t. Vn  t ra là phi xác nh c các tính cht c trng ca các cm
t, nh(m xác nh mt cách chính xác các CT#TNN trong các cm t d tuyn.
Nh vy, mc tiêu ca lun án là xây dng mt mô hình lai cho bài toán rút
trích CT#TNN trong câu n ting Vit. Mô hình này là s phi hp ca hai mô
hình theo hng tip cn ngôn ng h!c và phng pháp xác sut thng kê. #ó
chính là s phi hp ca hai mô hình theo hng tip cn rút trích và xác nh
CT#TNN (c trình bày trong Chng 3). Trong hng tip cn ngôn ng h!c,
lun án s dng phng pháp so trùng m*u da trên Ontology c to lp t
Wikipedia ting Vit. Mô hình này là c s  lun án  xut bn tính cht c
trng cho phng pháp xác nh cm t c trng ng ngha dùng phng pháp
máy hc vect h% tr (Support Vector Machines-SVMs) nh(m n%m b%t c v trí
lô-gích và c tính hình thái ca CT#TNN, là: (1) v trí t trong câu, (2) nhãn t
loi, (3) cu trúc cm t, (4) các t quan h gia các cm t.
T ây, các bài toán chính cn c gii quyt trong phm vi lun án bao gm:
Bài toán 1 - Xây dng mô hình ViKEa.

Lun án nghiên c$u và khai thác ngun tài nguyên ca Vi.wikipedia  xây
dng mt Ontology ting Vit ViO (Vietnamese Ontology) nh(m phc v yêu cu
ca bài toán.
Lun án  xut mô hình xác nh CT#TNN, c g!i là ViKEa, da trên các
tri th$c ngôn ng t nhiên (nh h thng lut và ViO) và các bài toán tin x lý
(nh phân on t và gán nhãn t loi).

×