Mô hình rút trích cm t c trng ng ngha trong ting Vit
114
Chng 7
TNG KT
7.1 Gii thiu
Chng cui cùng ca lun án c trình bày trong ba phn. Trc tiên
chng 7 s trình bày tóm tt các kt qu t c ca mô hình rút trích cm danh
t c trng ng ngha trong ting Vit. Tip theo lun án ngh mt s vn
và hng nghiên cu chính tip theo. Cui cùng là phn kt lun ca lun án.
Mô hình rút trích cm t c trng ng ngha trong ting Vit
115
7.2 Tóm tt các kt qu t c
Vi mc tiêu ca tài là nghiên cu và phát trin mô hình rút trích cm danh
t c trng ng ngha trong ting Vit, lun án ã t c các kt qu sau:
- Lun án ã kho sát các u im và hn ch trong các mô hình rút trích cm
t c trng. T ó, lun án ã xut mt mô hình kt hp hng tip cn xác
nh và hng tip cn rút trích cm danh t c trng ng ngha trong ting Vit.
Mô hình này ã óng góp vào vic x lý ng ngha vn bn và các ng dng x lý
ngôn ng t nhiên.
- Nghiên cu và phát trin mô hình theo hng tip cn xác nh cm danh t
c trng ng ngha trong ting Vit. khc phc vn cn thit phi có kho
ng liu ting Vit có chú gii ln khi xác nh cm danh t c trng ng ngha,
lun án khai thác mt bách khoa toàn th trc tuyn vi ni dung m Wikipedia
xây dng Ontology ting Vit ViO và t in ViDic. T ó lun án ã xut
mô hình ViKEa. ây là mô hình s dng phng pháp so trùng m u da trên c
s tri thc và Ontology.
- Nghiên cu và phát trin mô hình theo hng tip cn rút trích cm danh t
c trng ng ngha trong ting Vit, cp vn xác nh các tính cht c
trng cho nhn din các CDTTNN trong câu n ting Vit, trong ó có các câu
truy vn, t ó xut mô hình ViKEe. ây là mô hình s dng máy h!c vect
h" tr, c th là gii thut SMO gii quyt bài toán thiu kho ng liu ln
có chú gii trong quá trình hun luyn. Mô hình h!c máy có giám sát ViKEe da
theo bn tính cht c trng: (1) v trí t trong câu; (2) nhãn t loi; (3) cu trúc
cm t; (4) các t quan h gia các cm danh t ca các cm danh t d tuyn
rút trích các CDTTNN.
- Phát trin mô hình kt hp gia hng tip cn xác nh và hng tip cn
rút trích cm danh t c trng ng ngha trong ting Vit da trên các mô hình
ã phát trin là hai mô hình ViKEa và ViKEe. T ó lun án xut mô hình
ViKE. ây là mô hình kt hp hai mô hình ViKEa và ViKEe vi mc tiêu khai
thác ti a chính xác ca vic rút trích CDTTNN ca tng mô hình.
Mô hình rút trích cm t c trng ng ngha trong ting Vit
116
- Xây dng mt Ontology ting Vit ViO và t in ViDic phc v cho vic
xác nh cm danh t c trng ng ngha cho câu ting Vit, b#ng cách rút trích
h phân cp các th loi và các quan h ng ngha trong Vi.Wikipedia nh mt
Ontology ting Vit.
- Xây dng c mt kin trúc công ngh hoàn ch$nh cho ng dng rút trích
CDTTNN trong ting Vit.
7.3 Hng phát trin
T các nghiên cu liên quan ã c cp và t các kt qu ca lun án,
chúng tôi ngh mt s vn và hng nghiên cu tip theo nh sau.
Các mô hình rút trích c gii thiu trong lun án này là nhng mô hình cho
hai hng tip cn chính là hng xác nh và hng rút trích CDTTNN. %ng
th&i lun án khai thác vic kt hp gia hai hng trên xây dng mt mô hình
t'ng quát cho bài toán rút trích cm danh t c trng ng ngha trong câu n
ting Vit. Vì vy, có th nói t hng nghiên cu này còn nhiu vn cn phát
trin. Di ây, chúng tôi trình bày mt s hng phát trin chính:
- V hng tip cn xác nh CTTNN, mt vn cn m rng là khai thác các
mi quan h %ng ngha thông qua các ontology v ngôn ng (ví d nh
Wiktionary, WordNet, ...). %ng th&i khai thác các mi quan h (là quan h %ng
ngha, quan h phn ngha, hay quan h thành phn, ...) gia các trang thông tin
thông qua các liên kt ca chúng trong Wikipedia. T ó m rng các khái nim
và các quan h ca các danh hiu trong Ontology ViO c(ng nh t in ViDic,
nh#m nâng cao hiu sut xác nh CTTNN ca h thng.
- tng t ng ngha ca khái nim và thc th có tên cha c kho sát
trong lun án này. %ng th&i, vic khai thác tng t gia các thành phn ca
thc th có tên nh là tng t v tên, lp, cp tên-lp và danh hiu c(ng cha
c khai thác. ây là mt trong nhng hng phát trin quan tr!ng ca tài.
- V hng vn rút trích CDTTNN, mt vn cn khai thác là giai on
hun luyn m u cho mô hình h!c máy cn c m rng cho tng lnh vc c th,
c(ng nh cp nht thêm các kho ng liu hun luyn nh#m nâng cao chính xác
ca h thng.
Mô hình rút trích cm t c trng ng ngha trong ting Vit
117
- Mt hng phát trin khác c(ng rt quan tr!ng là vic áp dng các mô hình này
cho các ngôn ng khác, vì các mô hình c phát trin, kho sát, c(ng nh thc
nghim trong lun án này u trên ting Vit. Thông qua vic phát trin mô hình
cho các ngôn ng khác (nh ting Anh) so sánh ánh giá phng pháp c
xut trong lun án vi các phng pháp khác, c(ng nh ánh giá quá trình ti u
chi phí trong mô hình kt hp ViKE.
7.4 Kt lun
Lun án ã trình bày các hng tip cn gii quyt bài toán rút trích các
cm danh t c trng ng ngha ca câu n ting Vit. T phân tích và ánh giá
tng hng tip cn, lun án ã xut mt mô hình ViKE cho bài toán rút trích
CDTTNN trong các câu ting Vit. Mô hình ViKE là s kt hp ca hai mô
hình theo hng tip cn ngôn ng và h!c máy (mô hình ViKEa và ViKEe).
u tiên là mô hình ViKEa, theo hng tip cn ngôn ng da trên Ontology
ViO (c khai thác t Vi.Wiki) vi k) thut so trùng m u và các quan h ng
ngha gia các th loi trên Ontology, c(ng nh các khâu tin x lý phân on t
và gán nhãn t loi. Kt qu t c ca mô hình ViKEa khá cao trong tr&ng
hp các cm danh t ca các câu có các t quan h, hoc có các khái nim tng
ng trong ontology ViO. Ngc li, các CDTTNN c nhn dng sai u
thuc vào tr&ng hp khái nim cha t%n ti trong Ontology ViO. ây là mt hn
ch ca mô hình ViKEa và c(ng là ng c nghiên cu ca lun án cho mô hình
theo hng tip cn h!c máy xây dng các tng t ng ngha gia các
cm danh t. T vic ánh giá và so sánh kt qu thu c t mô hình ViKEa,
lun án rút ra c các tính cht c trng v ngôn ng ca CDTTNN. Các tính
cht c trng này quyt nh cm danh t nào là c trng ng ngha so vi các
cm danh t khác trong câu. Ngoài ra, các tính cht c trng này là tin góp
phn xác nh tp tính cht nhn din CDTTNN trong mô hình ViKEe theo
hng tip cn rút trích và k) thut h!c máy.
Tip theo, lun án ã xut mô hình ViKEe theo hng tip cn h!c máy
nh#m ci thin ti a hiu sut ca h thng khi vic khai thác tài nguyên ngôn
ng còn có gii hn
.
Hng tip cn này da trên phng pháp h!c máy, c th
Mô hình rút trích cm t c trng ng ngha trong ting Vit
118
là phng pháp SVMs và k) thut hun luyn SMO. Lun án hin thc hng
tip cn thành mt ng dng riêng bit g!i là mô hình ViKEe. *ng dng này có
th chy c lp hoc nhúng vào các ng dng khác trên môi tr&ng Windows.
Kt qu t c ca mô hình ViKEe theo hng tip cn rút trích CDTTNN
t c ã áp ng c mc tiêu ra ca lun án và s góp phn ci thin
hiu sut ca mô hình kt hp ca ViKE trong tr&ng hp các CDTTNN không
c xác nh trong mô hình ViKEa theo hng xác nh da trên Ontology
ViO.
Ngoài ra, chúng tôi c(ng ã tích hp ViKEe nh là mt mô-un ca h thng
truy xut thông tin xuyên ngôn ng có h" tr ting Vit g!i là VIRs. H thng
này cho phép truy xut thông tin hu ích t các trang web (VIRs là sn ph+m ã
c nghim thu ca tài tr!ng im i h!c quc gia Tp. H% Chí Minh -
B2005-20-01-TD). Kt qu ca h thng VIRs ã c ci thin so vi khi cha
tích hp ViKEe.
Cui cùng, bên cnh các mô hình c xut, phng pháp ca lun án khai
thác Vi.Wiki nh mt ontology ting Vit không ch$ phc v cho vic xác
nh cm danh t c trng ng ngha cho câu ting Vit mà còn a ra mt
hng gii quyt cho vn thiu kho ng liu h" tr x lý ngôn ng ting Vit.
Mô hình rút trích cm t c trng ng ngha trong ting Vit
119
CÁC BÀI BÁO CA TÁC GI
LIÊN QUAN N LUN ÁN
Tp chí Khoa hc
[1] Chau Q. Nguyen, Tuoi T. Phan, 2009. Hng tip cn xác nh cm t c
trng ng ngha trong ting Vit da trên Wikipedia, Tp chí Công ngh
thông tin & truyn thông, ISSN 0866-7039, Tp V-1, s 2(22): 30-37.
[2] Nguy,n Quang Châu, Phan Th Ti, 2008. Nhn din cm t c trng ng
ngha trong Ting Vit, Tp chí Công ngh thông tin & truyn thông, ISSN
0866-17093, s 19: 64-73.
[3] Nguy,n Quang Châu, H%ng Thanh Lun, Phan Th Ti, 2008. Mt hng
tip cn h!c máy cho bài toán rút trích cm t c trng ng ngha trong ting
Vit, Tp chí Khoa hc & Công ngh Vit nam, ISBN 0866-708X, tp 46, s
1: 69-78.
[4] Nguy,n Quang Châu, Phan Th Ti, Cao Hoàng Tr, 2006. Gán nhãn t loi
cho ting Vit da trên vn phong và tính toán xác sut, Tp chí Phát trin
Khoa hc & Công ngh, ISSN 1859-0128, tp 9, s 2:11-21.
Hi ngh Khoa hc Quc t
[5] Chau Q. Nguyen, Tuoi T. Phan, 2009. Key Phrase Extraction: A Hybrid
Assignment and Extraction Approach. In Proceedings of the 11th
International Conference of Information Integration and Web-based
Applications & Services (iiWAS 2009), OCG ISBN 978-3-85403-260-1, ACM
ISBN 978-1-60558-660-1, 14-16 December 2009, Malaysia, ACM & ACS,
pp. 274-281.
[6] Chau Q. Nguyen, Tuoi T. Phan, 2009. An Ontology–Based Approach for Key
Phrase Extraction. In Proceedings of the 47th Annual Meeting of the
Association for Computational Linguistics and the 4th International Joint
Conference on Natural Language Processing of the Asian Federation of
Mô hình rút trích cm t c trng ng ngha trong ting Vit
120
Natural Language Processing (ACL-IJCNLP 2009), ISBN 978-1-932432-47-
5, August 2 - 7, 2009, Singapore, Companion Vol, pp.181-184.
[7] Chau Q. Nguyen, Luan T. Hong, Tuoi T. Phan, 2009. A Support Vector
Machines Approach to Vietnamese Key Phrase Extraction, In Proceedings of
the 2009 IEEE-RIVF International Conference on Computing &
Communication Technologies (IEEE-RIVF 2009), ISBN 978-1-4244-4567-7,
IEEE eXpress, pp.131-135.
[8] Chau Q. Nguyen, Tuoi T. Phan, 2007. A Pattern-based Approach to
Vietnamese Key Phrase Extraction, In Addendum Contributions of The 5th
International IEEE Conference on Computer Sciences- RIVF’07, ISBN 2-
912590-4-0, Studia Informatica Universalis, pp.41-46.
[9] Chau Q. Nguyen, Tuoi T. Phan, 2006. A Hybrid Approach to Vietnamese
Part-Of-Speech Tagging, In Proceedings of The 9th International Oriental
COCOSDA 2006 Conference - O-COCOSDA’06, 12/2006, Malaysia, pp.157-
160.
[10] Chau Q. Nguyen, Thanh C. Nguyen, Tuoi T. Phan, 2006. Vietnamese Key
Phrase Extraction for Information Retrieval, In Proceedings of The 9th
International Oriental COCOSDA 2006 Conference - O-COCOSDA’06,
12/2006, Malaysia, pp.169-172.
[11] Chau Q. Nguyen, Tuoi T. Phan, Tru H. Cao, 2006. Vietnamese Proper Noun
Recognition, In Proceedings of The 4th International IEEE Conference on
Computer Sciences- RIVF’06, ISSN 1621-0065, IEEE Press, pp.144-151.
Hi ngh Khoa hc Quc gia
[12] Nguy,n Quang Châu, Phan Th Ti, Cao Hoàng Tr, 2005. Gán nhãn t
loi cho ting Vit da trên vn phong, trong k yu ca hi tho khoa hc
quc gia ln th II, Nghiên cu c bn và ng dng công ngh thông tin-
FAIR’05, 9-2005, pp.106-116.