Tải bản đầy đủ (.pdf) (23 trang)

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 04

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (643.86 KB, 23 trang )

Mô hình rút trích cm t c trng ng ngha trong ting Vit


31

















Chng 3




TNG QUAN
CÁC MÔ HÌNH RÚT TRÍCH
CM T C TRNG

















3.1 Gii thiu


Chng này trc tiên s trình bày tng quan các thành tu ca các nghiên cu
hin ti v hng tip cn rút trích và xác nh các cm t c trng (CTT) và so
sánh gia hai hng tip cn c bn này cho bài toán rút trích CTT. S so sánh
và phân tích này lý gii nguyên nhân ti sao các n lc nghiên cu li c phân
b trên c hai hng tip cn. Tip theo lun án trình bày hng tip cn cho mô
Mô hình rút trích cm t c trng ng ngha trong ting Vit


32
hình rút trích CTTNN cho câu ting Vit. Cui cùng, lun án s kt nhng vn
 ã c nghiên cu trong chng này.

3.2 Các nghiên cu liên quan

Các nghiên cu v cm t c trng c phân loi thành hai hng tip cn
chính là rút trích (extraction) và xác nh (assignment) (Medelyan và Witten,
2006).
3.2.1 Hng tip cn rút trích cm t c trng
Phng pháp rút trích cm t c trng (CTT) thông thng gm hai công
on là tuyn chn các cm t d tuyn và chn lc các CTT trong các cm t
d tuyn.
- Công on tuyn chn: Các cm t d tuyn bao gm các t và cm t c
rút trích t vn bn.  thc hin iu này, mt b gán nhãn t loi và b phân
tích cú pháp n gin c s dng  xác nh các cm t d tuyn.
- Công on chn lc: Công on này s phân tích các cm t d tuyn theo
phng pháp chn lc da vào kinh nghim  xác nh các CTT trong các cm
t d tuyn. Các phng pháp chn lc có th c phân thành hai hng tip cn
chính là hc máy (machine learning) và hng tip cn tng trng (symbolic)
cùng vi các k! thut mà chúng s dng. Trong khi các phng pháp hc máy i
xây dng mô hình thng kê t các tp d liu ã c hun luyn thì vi các
phng pháp c trng, các nhà nghiên cu a ra cách chn lc tt nht là da
vào các phân tích th công trên các tài liu và các CTT ca chúng.
3.2.1.1 Phng pháp hc máy
Rút trích CTT có th c xem là mt quá trình hc có giám sát t các m"u
th . Vn  chính là phi nh ngh#a c tp tính cht tính c trng ca
CTTNN. Tp tính cht này có th giúp phân bit c các CTT và các cm t
không c trng trong các cm t d tuyn. Gii thut hc c$n hai tp tài liu có
gán nhãn ca CTT b%ng phng pháp th công: mt tp dùng  hun luyn 
to mô hình phân loi. Tp tài liu còn li dùng  kim nh và ánh giá mô hình.
Trong tp hun luyn, các CTT có th là m"u âm (m"u sai) và m"u dng (m"u
úng).
Mô hình rút trích cm t c trng ng ngha trong ting Vit



33
Lc  hc mô hình chn lc là phân tích các giá tr ca tp tính cht c trng
cho mi m"u.
KEA (Key Phrase Extraction Algorithm) là gii thut rút trích CTT, c
mt nhóm nghiên cu v hc máy ti trng i hc Waikato phát trin. KEA t
nn tng trên các phng pháp thit thc và n gin (Frank và CS, 1999; Witten
và CS, 1999). Trong công on $u tiên ca phng pháp rút trích, KEA xác nh
chui ký t nguyên bn da vào các du chm câu, các con s, ký hiu dòng mi
và sau ó phân chia chui này thành các t n (token). Tt c các n-grams, nh
các t n hay các t ghép t hai t n tr& lên, mà chúng không b't $u hay kt
thúc b%ng mt t kt thúc (stopword) u c xem là các CTT d tuyn. KEA
tinh ch mi cm t d tuyn này vi b tinh ch lp Lovins (1968). Trong công
on chn lc KEA tính toán hai tính cht c trng cho mi cm t d tuyn:
()nh cht TFxIDF (t$n sut ca cm t trong tài liu so sánh vi t$n sut ca cm
t ó trong tp các tài liu (Salton và McGill, 1983) và khong cách ca cm t
xut hin $u tiên trong tài liu tính t v trí $u ca tài liu. Mt lc  hc
Naïve Bayes (Domingos và Pazzani, 1997) to d liu hun luyn bao gm hai tp
trng s: mt tp ca các CTT và mt tp ca các cm t khác xut hin trong
vn bn. Trong công on chn lc, xác sut ca mi cm t d tuyn là CTT
c tính toán da trên các tp trng s này. Các cm t d tuyn c xp loi
theo xác sut ã tính toán và s cm t xp loi cao nht (do ngi s dng xác
nh) c a vào tp CTT kt qu.
Trong các nghiên cu mi ây, nh Thuy Dung Nguyen và Min-Yen Kan
(2007) ã ci tin phng pháp KEA & công on chn lc. S ci tin c thc
hin b%ng cách dùng li hai ()nh cht c lp ca KEA (hai ()nh cht này là: ()nh
cht TFxIDF (Term Frequency x Inverse Document Frequency) và v trí xut hin
u tiên (first occurrence)) và không dùng ()nh cht là t$n sut ca CTT trong
kho ng liu (vì các tác gi cho r%ng ()nh cht này ch* hiu qu khi có mt tp
hun luyn ln). ng thi, các tác gi c+ng ã  xut mt ()nh cht cu trúc là
Section occurrence vector và ba ()nh cht hình v là chui t loi (POS sequence),

chui hu t (suffix sequence) và trng thái tcu o bng nhng chu a
Mô hình rút trích cm t c trng ng ngha trong ting Vit


34
mt m t (acronym status). Kt qu, theo ánh giá ca tác gi thì gii thut này
t c  chính xác là 3,25 % (so vi gii thut KEA là 3,03%).
GenEx là mt gii thut lai di truyn (hybrid genetic) cho bài toán rút trích
CTT do Turney & hi ng nghiên cu quc gia Canada phát trin. GenEx bao
gm hai thành ph$n: gii thut Genitor và b rút trích (extractor) (Turney, 1999).
B rút trích phi hp tp các ký hiu tng trng thu c qua kinh nghim  to
mt danh sách xp loi các CTT, còn các cm t d tuyn là các cm t bao
gm trên ba t.  chn lc các CTT trong các cm t d tuyn, mi cm t
c cho im cho mi l$n xut hin b%ng các v trí ca nó xut hin trong vn
bn. i vi các cm t d tuyn có trên mt t thì im ca chúng s c gia
tng. B&i vì, thông thng chúng có im thp hn các cm n t. Sau khi xóa
các trng hp trùng và chn lc các dng có t$n sut $y  nht cho mi cm t
d tuyn ã c tinh ch, b rút trích a ra các cm t có xp loi cao nht. B
rút trích có tt c 12 thông s và c (flag) (ch,ng hn nh h s gia tng cho mi
cm t vi 2 thông s ca các CTT kt qu). Gii thut Genitor c áp dng 
xác lp các thông s trên mt cách tt nht t tp d liu hun luyn. Tóm li, tác
gi cho r%ng quyt nh chn lc các cm t d tuyn còn ph thuc nhiu yu t.
Tác gi  xut mô hình kt hp ca tp các cm t d tuyn dùng thông tin tng
h (PMI- Pointwise Mutual Information) gia mt CTT và k CTT trc ó.
Tuy nhiên, PMI ca tp CTT c$n mt tp d liu (dataset)  ln. Turney c+ng
 xut dùng truy vn trong các ng c tìm kim (Seach Engine) trên Web  có
mt c lng s'p xp thô, mc dù iu này có hn ch v bng thông mng
Internet và không hiu qu v thi gian.
Trong các h thng va trình bày trên, KEA là hng tip cn rút trích CTT
n gin nht. GenEx dùng phng pháp ánh giá theo kinh nghim phc tp hn

& công on chn lc, tuy nhiên kt qu không tt hn KEA (Frank và CS, 1999).
3.2.1.2 Phng pháp tng trng
Barker và Cornacchia (2000) phát trin mt công c rút trích CTT là B&C.
B&C không kt hp vi bt c k! thut hc máy nào.  rút trích các cm t d
tuyn tác gi dùng mt t in tra cu n gin  gán các nhãn t loi và mt b
phân tích t  xác nh tt c các danh t có tính t và danh t b ngh#a cho nó.
Mô hình rút trích cm t c trng ng ngha trong ting Vit


35
Trong công on chn lc Barker và Cornacchia tính toán t$n sut ca danh t
ng $u ca mi cm t d tuyn, và gi tt c các cm t có danh t ng $u
n%m trong N danh t xp loi cao nht. Cho mi cm t, tác gi tính t$n sut nhân
vi chiu dài ca nó. K cm t có im cao nht là các CTT ca tài liu. N và K
là các ng-ng c xác lp b&i ngi s dng. Các thc nghim ánh giá vi s
tham gia ca con ngi ã minh chng hng tip cn n gin này thc hin tt
nh b rút trích ca Turney (Turney, 1999).
Paice và Black (2003) rút trích các thut ng t các tài liu liên quan trong mt
l#nh vc c th và các thut ng này c xem nh là các CTT.  t c t* l
kt hp cao hn ca các cm t d tuyn, tác gi bin i mi n-gram c rút
trích thành các cm t gi trong ba bc: xóa kh.i n-gram tt c các t kt thúc,
tinh lc các thut ng và s'p xp li chúng theo th t bng ch cái. iu này
úng cho các cm tng t nhau, ch,ng hn “algorithm efficiency”, “efficiency of
algorithms”, “the algorithm’s efficiency”, “an efficient algorithm” và ngay c “the
algorithm is very efficient” có cùng cm t gi là “algorithm effici”. Các dng gc
ca mi cm t gi c lu vào tp kt thúc. ây là phng pháp kp hp công
phu hn quá trình tinh lc n gin và tng im cho tt c im s ca mt nhóm
cm t. Phng pháp kt hp này da vào s tng t hình thái ca các t trong
cm t. Paice và Black (2003) cho im mi cm t gi theo công thc:
score = W * (F-1) * N

2

vi W là tng trng s ca tt c t trong cm t gi, F là t$n sut ca cm t
trong tài liu, và N là chiu dài ca cm t tính theo n v t (cao nht là 4).
Tt c các cm t d tuyn c s'p xp theo im s ca chúng. Bc cui
cùng, tác gi áp dng k! thut da trên các m"u  thit lp các vai trò và quan h
ng ngh#a gia các cm t còn li. Tác gi tp trung vào ba vai trò chính (nh
h ng (influence), i tng (object), và c tính (property)) bao ph các m"u
c lp vi l#nh vc nh “effect of influence on property of object”. Các cm t
mà không c bao ph b&i bt c m"u nào thì s c xóa. Hng tip cn này
là s cng sinh hp lý gia CTT và thông tin rút trích. Nhóm tác gi không cung
cp bt c mt s ánh giá nào v phng pháp này, tuy nhiên h ch* trình bày
mt s minh ha ni bt rt áng quan tâm.
Mô hình rút trích cm t c trng ng ngha trong ting Vit


36
3.2.2 Hng tip cn xác nh cm t c trng

Tng phn vi các phng pháp rút trích, các phng pháp xác nh CTT
tiêu biu c dùng khi tp các CTT d tuyn có gii hn, c nh. Tp này có
c t tp t vng có th iu tit c hay tp các tiêu . Phng pháp này
phân tích các c trng ca các tài liu hn là các c trng ca tng cm t 
tìm ra các CTT thích hp t tp t vng. / ây, s phân loi nh phân có th
c hun luyn cho tng CTT trong tp có k ph$n t ca mt vn bn, vic xác
nh CTT cho mt vn bn b%ng cách thc hin k l$n phân loi nh phân và ánh
giá chúng  xác nh kt qu thích hp.
Trong hng tip cn xác nh,

CTT có  u tiên cao nht, các thông tin

tng h gia CTT và các t khác trong vn bn có th c dùng  chn la
các tính cht (Dumais và CS, 1998). Nu các CTT thit lp thành mt ontology
có tính khái quát, chính xác và các mi quan h trên chúng thì các mi quan h
này c+ng có th c khai thác  cung cp các s kin cho s phát hin các
CTT mi không có trong ontology (Pouliquen và CS, 2000). Theo Medelyan và
Witten (2006) thì dùng các quan h ng ngh#a và phn ngh#a  tính toán 
tng ng ca các CTT d tuyn cùng vi tính toán thng kê  ci tin 
chính xác ca vic xác nh. Tuy nhiên, mt không thun li ca phng pháp xác
nh CTT là nó òi h.i mt kho ng liu có chú gii ln.
Trong công trình Hulth (2004), tác gi trình bày mt k! thut hc máy khác
vi các k! thut ã dùng trong các công c x lý ngôn ng t nhiên. Tác gi c+ng
ã so sánh các phng pháp khác nhau  ánh giá vic rút trích các t và cm t
d tuyn nh phng pháp gom cm danh t (NP chunking), so trùng m"u t loi
(POS), và cui cùng là rút trích n-gram. So trùng các cm t d tuyn tng phn
vi các CTT c gán th công, nhng c hai u là hng tip cn hng ngôn
ng hc mà chúng thu c kt qu các cm t chính xác hn k! thut n-gram.
Hng tip cn gom cm danh t thc hin tt hn các phng pháp rút trích khác
b&i nó thu c các cm t không chính xác ít hn. Trong công on chn lc,
Hulth dùng bn thuc tính: t$n sut ca thut ng TF, t$n sut ca thut ng trong
tp các tài liu IDF (không ging nh trong KEA nó không phi hp nh
TFxIDF), v trí xut hin u tiên và nhãn t loi (POS-tag). Mt s kt hp ca
Mô hình rút trích cm t c trng ng ngha trong ting Vit


37
nhiu mô hình tiên oán c tác gi áp dng trên các cm t d tuyn (sau khi
xóa các t hn nh ch,ng 0n nh some, your, the, ...) và thu c kt qu các
CTT tri nht.
Hng tip cn ca Hulth, mc dù không so sánh ánh giá các phng pháp
trên cùng mt tp tài liu thc nghim, nhng kt qu ánh giá ca Hulth li cao

hn áng k so vi các công b ca KEA và GenEx (theo hng tip cn rút
trích). Hulth mô t quá trình thc hin gii thut ã c ci tin sau khi s dng
các k! thut hng ngôn ng cho khâu tuyn chn và phân loi. Kt qu nhn
nh ca Hulth là mt ng lc thúc 1y  khai thác các k! thut x lý ngôn ng
t nhiên sâu hn cho bài toán rút trích và xác nh CTT.
3.3 S tng quan gia hng tip cn rút trích và xác nh CTT
Hng tip cn rút trích liên quan cht ch vi hng xác nh CTT, nhng
nó gii quyt bài toán CTT theo mt chin lc hoàn toàn khác.
Hng rút trích t c s& trên vic phân tích các tính cht ca các CTT mà
nó có th tính toán khá n gin và nhanh chóng. Phng pháp rút trích này thích
hp cho c hng tip cn hc máy và hng tip cn cho im s n gin i
vi các cm t d tuyn hay danh t ng $u ca chúng, em li kt qu 
chính xác tng ng nhau (Barker và Cornacchia, 2000). Tuy nhiên, hiu sut
ca hng tip cn rút trích v"n cha   thay th công vic rút trích CTT
b%ng th công.
Vi hng tip cn xác nh, mc dù các CTT c rút trích t ng có 
chính xác khá cao (Hulth, 2004), nhng các t trong các CTT s b mt thông tin
do hng tip cn này không cha bt c thông tin v các CTT mà chúng không
c so trùng. Ngay c khi hai tp CTT kt qu ca hai chuyên gia thc hin th
công trên cùng mt tài liu thì hai tp CTT này thông thng c+ng không so
trùng nhau. Mc dù, các CTT này liên quan cht ch vi vn bn c xác nh.
Vic rút trích CTT t ng không m bo tính chính xác cho các CTT.
Thc t các CTT thu c thng là quá tng quát hoc b bin dng. Ngay c
các hng tip cn ni bt b&i các k! thut hng n ngôn ng nh so trùng m"u
t loi hay nhóm cm danh t c+ng rút trích cm t không úng vn phm hoc
Mô hình rút trích cm t c trng ng ngha trong ting Vit


38
thu c các cm t vô dng (vì không th tránh các li do các công c ngôn ng

sinh ra).
Mc dù các li k! thut này có th c ci tin b%ng cách s dng các công
c x lý ngôn ng t nhiên chính xác hn, nhng hng rút trích CTT v"n có
nhiu hn ch. Ví d nh không có s ng nht gia các CTT c chn, b&i vì
quá trình rút trích c gii hn trong tp t vng ca tài liu. Các tài liu có cách
mô t khác nhau v cùng mt ch  nhng nhng t ng ngh#a (nh seaweed
culture và sea weed farming) nhn c các CTT khác nhau và không th gom
nhóm theo ni dung ca chúng. Còn hng xác nh CTT thì tránh c thiu
sót này do có tp t vng cho phép iu tit c các thut ng c$n rút trích.
Mt vn  khác trong vic rút trích các CTT t ng là s gii hn các c
tính cú pháp ca cm t mà không quan tâm n ng ngh#a. Các gii thut ca
hng rút trích c+ng b. qua ni dung tng th ca vn bn. Vì vy, tp CTT thu
c không bao ph ht các ch  ca vn bn. Hng tip cn xác nh CTT
thì thun li hn hng rút trích trong vn  này, vì nó i phân tích ni dung ca
vn bn thông qua bng thng kê kh nng ng hin gia các thut ng.
3.4 Phng pháp tip cn ca lun án

Vi các kho sát trên, chúng tôi nhn xét r%ng c hai hng tip cn rút trích và
xác nh CTT u có các u im c+ng nh hn ch. S phi hp gia hai
hng tip cn này cho bài toán rút trích CTT s phát huy li th ca c hai
hng, ng thi hn ch các thiu sót ca chúng. ây chính là mc tiêu ca lun
án cho mô hình rút trích cm t c trng ng ngha trong câu ting Vit. Mô hình
rút trích cm t c trng ng ngh#a tng quát c trình bày nh sau (Hình 3.1).
Quy trình cho bài toán rút trích CTTNN tng quát bao gm các công on
sau:
• Công on 1: tin x lý các câu ting Vit bao gm bài toán phân on t và
gán nhãn t loi.
• Công on 2: rút trích các cm t d tuyn b%ng phng pháp so trùng m"u
(trình bày trong chng 4).
• Công on 3: xác nh CTTNN t các cm t d tuyn l$n lt qua các

bc sau:
Mô hình rút trích cm t c trng ng ngha trong ting Vit


39
o Bc 1: da vào các thông tin ng cnh là các t, hay cm t quan h
 nhn din các CTTNN ( trình bày trong chng 4).
o Bc 2: trong trng hp gia các cm t d tuyn không có các t,
hay cm t quan h thì quá trình nhn din CTTNN s c truy vn
da trên Ontology (trình bày trong chng 4).
o Bc 3: nu các cm t d tuyn cha tn ti trong c s& tri thc
(Ontology), thì vic xác nh cm t d tuyn nào là CTTNN s da
vào phng pháp hc máy (trình bày trong chng 5).


















3.4.1 Công on tin x lý
Công on tin x lý bao gm bài toán phân on t và bài toán gán nhãn t
loi. Các nghiên cu x lý và h tr ting Vit bc $u ã có mt s kt qu
thành công nht nh nh (Tr$n Ngc Tun, 2001; Tuan N. Tran, 2002; Dinh Dien
và Hoang Kiem, 2003; Nguy2n Th Minh Huyn và CS, 2003; L. H. Phuong và
CS, 2010).
Hình 3.1 Mô hình tng quát rút trích cm t c trng ng ngh#a.

Tin x lý
Câu ting Vit
Gán nhãn t loi
Phân on t
Xác nh cm t c trng ng ngh#a
Tp m"u
Rút trích các cm
t d tuyn
Ontology
ViO
Các CTTNN
Da vào Ontology
Da vào hc máy
Mô hình

×