Mô hình rút trích cm t c trng ng ngha trong ting Vit
31
Chng 3
TNG QUAN
CÁC MÔ HÌNH RÚT TRÍCH
CM T C TRNG
3.1 Gii thiu
Chng này trc tiên s trình bày tng quan các thành tu ca các nghiên cu
hin ti v hng tip cn rút trích và xác nh các cm t c trng (CTT) và so
sánh gia hai hng tip cn c bn này cho bài toán rút trích CTT. S so sánh
và phân tích này lý gii nguyên nhân ti sao các n lc nghiên cu li c phân
b trên c hai hng tip cn. Tip theo lun án trình bày hng tip cn cho mô
Mô hình rút trích cm t c trng ng ngha trong ting Vit
32
hình rút trích CTTNN cho câu ting Vit. Cui cùng, lun án s kt nhng vn
ã c nghiên cu trong chng này.
3.2 Các nghiên cu liên quan
Các nghiên cu v cm t c trng c phân loi thành hai hng tip cn
chính là rút trích (extraction) và xác nh (assignment) (Medelyan và Witten,
2006).
3.2.1 Hng tip cn rút trích cm t c trng
Phng pháp rút trích cm t c trng (CTT) thông thng gm hai công
on là tuyn chn các cm t d tuyn và chn lc các CTT trong các cm t
d tuyn.
- Công on tuyn chn: Các cm t d tuyn bao gm các t và cm t c
rút trích t vn bn. thc hin iu này, mt b gán nhãn t loi và b phân
tích cú pháp n gin c s dng xác nh các cm t d tuyn.
- Công on chn lc: Công on này s phân tích các cm t d tuyn theo
phng pháp chn lc da vào kinh nghim xác nh các CTT trong các cm
t d tuyn. Các phng pháp chn lc có th c phân thành hai hng tip cn
chính là hc máy (machine learning) và hng tip cn tng trng (symbolic)
cùng vi các k! thut mà chúng s dng. Trong khi các phng pháp hc máy i
xây dng mô hình thng kê t các tp d liu ã c hun luyn thì vi các
phng pháp c trng, các nhà nghiên cu a ra cách chn lc tt nht là da
vào các phân tích th công trên các tài liu và các CTT ca chúng.
3.2.1.1 Phng pháp hc máy
Rút trích CTT có th c xem là mt quá trình hc có giám sát t các m"u
th . Vn chính là phi nh ngh#a c tp tính cht tính c trng ca
CTTNN. Tp tính cht này có th giúp phân bit c các CTT và các cm t
không c trng trong các cm t d tuyn. Gii thut hc c$n hai tp tài liu có
gán nhãn ca CTT b%ng phng pháp th công: mt tp dùng hun luyn
to mô hình phân loi. Tp tài liu còn li dùng kim nh và ánh giá mô hình.
Trong tp hun luyn, các CTT có th là m"u âm (m"u sai) và m"u dng (m"u
úng).
Mô hình rút trích cm t c trng ng ngha trong ting Vit
33
Lc hc mô hình chn lc là phân tích các giá tr ca tp tính cht c trng
cho mi m"u.
KEA (Key Phrase Extraction Algorithm) là gii thut rút trích CTT, c
mt nhóm nghiên cu v hc máy ti trng i hc Waikato phát trin. KEA t
nn tng trên các phng pháp thit thc và n gin (Frank và CS, 1999; Witten
và CS, 1999). Trong công on $u tiên ca phng pháp rút trích, KEA xác nh
chui ký t nguyên bn da vào các du chm câu, các con s, ký hiu dòng mi
và sau ó phân chia chui này thành các t n (token). Tt c các n-grams, nh
các t n hay các t ghép t hai t n tr& lên, mà chúng không b't $u hay kt
thúc b%ng mt t kt thúc (stopword) u c xem là các CTT d tuyn. KEA
tinh ch mi cm t d tuyn này vi b tinh ch lp Lovins (1968). Trong công
on chn lc KEA tính toán hai tính cht c trng cho mi cm t d tuyn:
()nh cht TFxIDF (t$n sut ca cm t trong tài liu so sánh vi t$n sut ca cm
t ó trong tp các tài liu (Salton và McGill, 1983) và khong cách ca cm t
xut hin $u tiên trong tài liu tính t v trí $u ca tài liu. Mt lc hc
Naïve Bayes (Domingos và Pazzani, 1997) to d liu hun luyn bao gm hai tp
trng s: mt tp ca các CTT và mt tp ca các cm t khác xut hin trong
vn bn. Trong công on chn lc, xác sut ca mi cm t d tuyn là CTT
c tính toán da trên các tp trng s này. Các cm t d tuyn c xp loi
theo xác sut ã tính toán và s cm t xp loi cao nht (do ngi s dng xác
nh) c a vào tp CTT kt qu.
Trong các nghiên cu mi ây, nh Thuy Dung Nguyen và Min-Yen Kan
(2007) ã ci tin phng pháp KEA & công on chn lc. S ci tin c thc
hin b%ng cách dùng li hai ()nh cht c lp ca KEA (hai ()nh cht này là: ()nh
cht TFxIDF (Term Frequency x Inverse Document Frequency) và v trí xut hin
u tiên (first occurrence)) và không dùng ()nh cht là t$n sut ca CTT trong
kho ng liu (vì các tác gi cho r%ng ()nh cht này ch* hiu qu khi có mt tp
hun luyn ln). ng thi, các tác gi c+ng ã xut mt ()nh cht cu trúc là
Section occurrence vector và ba ()nh cht hình v là chui t loi (POS sequence),
chui hu t (suffix sequence) và trng thái tcu o bng nhng chu a
Mô hình rút trích cm t c trng ng ngha trong ting Vit
34
mt m t (acronym status). Kt qu, theo ánh giá ca tác gi thì gii thut này
t c chính xác là 3,25 % (so vi gii thut KEA là 3,03%).
GenEx là mt gii thut lai di truyn (hybrid genetic) cho bài toán rút trích
CTT do Turney & hi ng nghiên cu quc gia Canada phát trin. GenEx bao
gm hai thành ph$n: gii thut Genitor và b rút trích (extractor) (Turney, 1999).
B rút trích phi hp tp các ký hiu tng trng thu c qua kinh nghim to
mt danh sách xp loi các CTT, còn các cm t d tuyn là các cm t bao
gm trên ba t. chn lc các CTT trong các cm t d tuyn, mi cm t
c cho im cho mi l$n xut hin b%ng các v trí ca nó xut hin trong vn
bn. i vi các cm t d tuyn có trên mt t thì im ca chúng s c gia
tng. B&i vì, thông thng chúng có im thp hn các cm n t. Sau khi xóa
các trng hp trùng và chn lc các dng có t$n sut $y nht cho mi cm t
d tuyn ã c tinh ch, b rút trích a ra các cm t có xp loi cao nht. B
rút trích có tt c 12 thông s và c (flag) (ch,ng hn nh h s gia tng cho mi
cm t vi 2 thông s ca các CTT kt qu). Gii thut Genitor c áp dng
xác lp các thông s trên mt cách tt nht t tp d liu hun luyn. Tóm li, tác
gi cho r%ng quyt nh chn lc các cm t d tuyn còn ph thuc nhiu yu t.
Tác gi xut mô hình kt hp ca tp các cm t d tuyn dùng thông tin tng
h (PMI- Pointwise Mutual Information) gia mt CTT và k CTT trc ó.
Tuy nhiên, PMI ca tp CTT c$n mt tp d liu (dataset) ln. Turney c+ng
xut dùng truy vn trong các ng c tìm kim (Seach Engine) trên Web có
mt c lng s'p xp thô, mc dù iu này có hn ch v bng thông mng
Internet và không hiu qu v thi gian.
Trong các h thng va trình bày trên, KEA là hng tip cn rút trích CTT
n gin nht. GenEx dùng phng pháp ánh giá theo kinh nghim phc tp hn
& công on chn lc, tuy nhiên kt qu không tt hn KEA (Frank và CS, 1999).
3.2.1.2 Phng pháp tng trng
Barker và Cornacchia (2000) phát trin mt công c rút trích CTT là B&C.
B&C không kt hp vi bt c k! thut hc máy nào. rút trích các cm t d
tuyn tác gi dùng mt t in tra cu n gin gán các nhãn t loi và mt b
phân tích t xác nh tt c các danh t có tính t và danh t b ngh#a cho nó.
Mô hình rút trích cm t c trng ng ngha trong ting Vit
35
Trong công on chn lc Barker và Cornacchia tính toán t$n sut ca danh t
ng $u ca mi cm t d tuyn, và gi tt c các cm t có danh t ng $u
n%m trong N danh t xp loi cao nht. Cho mi cm t, tác gi tính t$n sut nhân
vi chiu dài ca nó. K cm t có im cao nht là các CTT ca tài liu. N và K
là các ng-ng c xác lp b&i ngi s dng. Các thc nghim ánh giá vi s
tham gia ca con ngi ã minh chng hng tip cn n gin này thc hin tt
nh b rút trích ca Turney (Turney, 1999).
Paice và Black (2003) rút trích các thut ng t các tài liu liên quan trong mt
l#nh vc c th và các thut ng này c xem nh là các CTT. t c t* l
kt hp cao hn ca các cm t d tuyn, tác gi bin i mi n-gram c rút
trích thành các cm t gi trong ba bc: xóa kh.i n-gram tt c các t kt thúc,
tinh lc các thut ng và s'p xp li chúng theo th t bng ch cái. iu này
úng cho các cm tng t nhau, ch,ng hn “algorithm efficiency”, “efficiency of
algorithms”, “the algorithm’s efficiency”, “an efficient algorithm” và ngay c “the
algorithm is very efficient” có cùng cm t gi là “algorithm effici”. Các dng gc
ca mi cm t gi c lu vào tp kt thúc. ây là phng pháp kp hp công
phu hn quá trình tinh lc n gin và tng im cho tt c im s ca mt nhóm
cm t. Phng pháp kt hp này da vào s tng t hình thái ca các t trong
cm t. Paice và Black (2003) cho im mi cm t gi theo công thc:
score = W * (F-1) * N
2
vi W là tng trng s ca tt c t trong cm t gi, F là t$n sut ca cm t
trong tài liu, và N là chiu dài ca cm t tính theo n v t (cao nht là 4).
Tt c các cm t d tuyn c s'p xp theo im s ca chúng. Bc cui
cùng, tác gi áp dng k! thut da trên các m"u thit lp các vai trò và quan h
ng ngh#a gia các cm t còn li. Tác gi tp trung vào ba vai trò chính (nh
h ng (influence), i tng (object), và c tính (property)) bao ph các m"u
c lp vi l#nh vc nh “effect of influence on property of object”. Các cm t
mà không c bao ph b&i bt c m"u nào thì s c xóa. Hng tip cn này
là s cng sinh hp lý gia CTT và thông tin rút trích. Nhóm tác gi không cung
cp bt c mt s ánh giá nào v phng pháp này, tuy nhiên h ch* trình bày
mt s minh ha ni bt rt áng quan tâm.
Mô hình rút trích cm t c trng ng ngha trong ting Vit
36
3.2.2 Hng tip cn xác nh cm t c trng
Tng phn vi các phng pháp rút trích, các phng pháp xác nh CTT
tiêu biu c dùng khi tp các CTT d tuyn có gii hn, c nh. Tp này có
c t tp t vng có th iu tit c hay tp các tiêu . Phng pháp này
phân tích các c trng ca các tài liu hn là các c trng ca tng cm t
tìm ra các CTT thích hp t tp t vng. / ây, s phân loi nh phân có th
c hun luyn cho tng CTT trong tp có k ph$n t ca mt vn bn, vic xác
nh CTT cho mt vn bn b%ng cách thc hin k l$n phân loi nh phân và ánh
giá chúng xác nh kt qu thích hp.
Trong hng tip cn xác nh,
CTT có u tiên cao nht, các thông tin
tng h gia CTT và các t khác trong vn bn có th c dùng chn la
các tính cht (Dumais và CS, 1998). Nu các CTT thit lp thành mt ontology
có tính khái quát, chính xác và các mi quan h trên chúng thì các mi quan h
này c+ng có th c khai thác cung cp các s kin cho s phát hin các
CTT mi không có trong ontology (Pouliquen và CS, 2000). Theo Medelyan và
Witten (2006) thì dùng các quan h ng ngh#a và phn ngh#a tính toán
tng ng ca các CTT d tuyn cùng vi tính toán thng kê ci tin
chính xác ca vic xác nh. Tuy nhiên, mt không thun li ca phng pháp xác
nh CTT là nó òi h.i mt kho ng liu có chú gii ln.
Trong công trình Hulth (2004), tác gi trình bày mt k! thut hc máy khác
vi các k! thut ã dùng trong các công c x lý ngôn ng t nhiên. Tác gi c+ng
ã so sánh các phng pháp khác nhau ánh giá vic rút trích các t và cm t
d tuyn nh phng pháp gom cm danh t (NP chunking), so trùng m"u t loi
(POS), và cui cùng là rút trích n-gram. So trùng các cm t d tuyn tng phn
vi các CTT c gán th công, nhng c hai u là hng tip cn hng ngôn
ng hc mà chúng thu c kt qu các cm t chính xác hn k! thut n-gram.
Hng tip cn gom cm danh t thc hin tt hn các phng pháp rút trích khác
b&i nó thu c các cm t không chính xác ít hn. Trong công on chn lc,
Hulth dùng bn thuc tính: t$n sut ca thut ng TF, t$n sut ca thut ng trong
tp các tài liu IDF (không ging nh trong KEA nó không phi hp nh
TFxIDF), v trí xut hin u tiên và nhãn t loi (POS-tag). Mt s kt hp ca
Mô hình rút trích cm t c trng ng ngha trong ting Vit
37
nhiu mô hình tiên oán c tác gi áp dng trên các cm t d tuyn (sau khi
xóa các t hn nh ch,ng 0n nh some, your, the, ...) và thu c kt qu các
CTT tri nht.
Hng tip cn ca Hulth, mc dù không so sánh ánh giá các phng pháp
trên cùng mt tp tài liu thc nghim, nhng kt qu ánh giá ca Hulth li cao
hn áng k so vi các công b ca KEA và GenEx (theo hng tip cn rút
trích). Hulth mô t quá trình thc hin gii thut ã c ci tin sau khi s dng
các k! thut hng ngôn ng cho khâu tuyn chn và phân loi. Kt qu nhn
nh ca Hulth là mt ng lc thúc 1y khai thác các k! thut x lý ngôn ng
t nhiên sâu hn cho bài toán rút trích và xác nh CTT.
3.3 S tng quan gia hng tip cn rút trích và xác nh CTT
Hng tip cn rút trích liên quan cht ch vi hng xác nh CTT, nhng
nó gii quyt bài toán CTT theo mt chin lc hoàn toàn khác.
Hng rút trích t c s& trên vic phân tích các tính cht ca các CTT mà
nó có th tính toán khá n gin và nhanh chóng. Phng pháp rút trích này thích
hp cho c hng tip cn hc máy và hng tip cn cho im s n gin i
vi các cm t d tuyn hay danh t ng $u ca chúng, em li kt qu
chính xác tng ng nhau (Barker và Cornacchia, 2000). Tuy nhiên, hiu sut
ca hng tip cn rút trích v"n cha thay th công vic rút trích CTT
b%ng th công.
Vi hng tip cn xác nh, mc dù các CTT c rút trích t ng có
chính xác khá cao (Hulth, 2004), nhng các t trong các CTT s b mt thông tin
do hng tip cn này không cha bt c thông tin v các CTT mà chúng không
c so trùng. Ngay c khi hai tp CTT kt qu ca hai chuyên gia thc hin th
công trên cùng mt tài liu thì hai tp CTT này thông thng c+ng không so
trùng nhau. Mc dù, các CTT này liên quan cht ch vi vn bn c xác nh.
Vic rút trích CTT t ng không m bo tính chính xác cho các CTT.
Thc t các CTT thu c thng là quá tng quát hoc b bin dng. Ngay c
các hng tip cn ni bt b&i các k! thut hng n ngôn ng nh so trùng m"u
t loi hay nhóm cm danh t c+ng rút trích cm t không úng vn phm hoc
Mô hình rút trích cm t c trng ng ngha trong ting Vit
38
thu c các cm t vô dng (vì không th tránh các li do các công c ngôn ng
sinh ra).
Mc dù các li k! thut này có th c ci tin b%ng cách s dng các công
c x lý ngôn ng t nhiên chính xác hn, nhng hng rút trích CTT v"n có
nhiu hn ch. Ví d nh không có s ng nht gia các CTT c chn, b&i vì
quá trình rút trích c gii hn trong tp t vng ca tài liu. Các tài liu có cách
mô t khác nhau v cùng mt ch nhng nhng t ng ngh#a (nh seaweed
culture và sea weed farming) nhn c các CTT khác nhau và không th gom
nhóm theo ni dung ca chúng. Còn hng xác nh CTT thì tránh c thiu
sót này do có tp t vng cho phép iu tit c các thut ng c$n rút trích.
Mt vn khác trong vic rút trích các CTT t ng là s gii hn các c
tính cú pháp ca cm t mà không quan tâm n ng ngh#a. Các gii thut ca
hng rút trích c+ng b. qua ni dung tng th ca vn bn. Vì vy, tp CTT thu
c không bao ph ht các ch ca vn bn. Hng tip cn xác nh CTT
thì thun li hn hng rút trích trong vn này, vì nó i phân tích ni dung ca
vn bn thông qua bng thng kê kh nng ng hin gia các thut ng.
3.4 Phng pháp tip cn ca lun án
Vi các kho sát trên, chúng tôi nhn xét r%ng c hai hng tip cn rút trích và
xác nh CTT u có các u im c+ng nh hn ch. S phi hp gia hai
hng tip cn này cho bài toán rút trích CTT s phát huy li th ca c hai
hng, ng thi hn ch các thiu sót ca chúng. ây chính là mc tiêu ca lun
án cho mô hình rút trích cm t c trng ng ngha trong câu ting Vit. Mô hình
rút trích cm t c trng ng ngh#a tng quát c trình bày nh sau (Hình 3.1).
Quy trình cho bài toán rút trích CTTNN tng quát bao gm các công on
sau:
• Công on 1: tin x lý các câu ting Vit bao gm bài toán phân on t và
gán nhãn t loi.
• Công on 2: rút trích các cm t d tuyn b%ng phng pháp so trùng m"u
(trình bày trong chng 4).
• Công on 3: xác nh CTTNN t các cm t d tuyn l$n lt qua các
bc sau:
Mô hình rút trích cm t c trng ng ngha trong ting Vit
39
o Bc 1: da vào các thông tin ng cnh là các t, hay cm t quan h
nhn din các CTTNN ( trình bày trong chng 4).
o Bc 2: trong trng hp gia các cm t d tuyn không có các t,
hay cm t quan h thì quá trình nhn din CTTNN s c truy vn
da trên Ontology (trình bày trong chng 4).
o Bc 3: nu các cm t d tuyn cha tn ti trong c s& tri thc
(Ontology), thì vic xác nh cm t d tuyn nào là CTTNN s da
vào phng pháp hc máy (trình bày trong chng 5).
3.4.1 Công on tin x lý
Công on tin x lý bao gm bài toán phân on t và bài toán gán nhãn t
loi. Các nghiên cu x lý và h tr ting Vit bc $u ã có mt s kt qu
thành công nht nh nh (Tr$n Ngc Tun, 2001; Tuan N. Tran, 2002; Dinh Dien
và Hoang Kiem, 2003; Nguy2n Th Minh Huyn và CS, 2003; L. H. Phuong và
CS, 2010).
Hình 3.1 Mô hình tng quát rút trích cm t c trng ng ngh#a.
Tin x lý
Câu ting Vit
Gán nhãn t loi
Phân on t
Xác nh cm t c trng ng ngh#a
Tp m"u
Rút trích các cm
t d tuyn
Ontology
ViO
Các CTTNN
Da vào Ontology
Da vào hc máy
Mô hình