Tải bản đầy đủ (.pdf) (19 trang)

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 08

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (283.67 KB, 19 trang )

Mô hình rút trích cm t c trng ng ngha trong ting Vit


114














Chng 7





TNG KT
























7.1 Gii thiu


Chng cui cùng ca lun án c trình bày trong ba phn. Trc tiên
chng 7 s trình bày tóm tt các kt qu t c ca mô hình rút trích cm danh
t c trng ng ngha trong ting Vit. Tip theo lun án  ngh mt s vn 
và hng nghiên cu chính tip theo. Cui cùng là phn kt lun ca lun án.
Mô hình rút trích cm t c trng ng ngha trong ting Vit


115

7.2 Tóm tt các kt qu t c


Vi mc tiêu ca  tài là nghiên cu và phát trin mô hình rút trích cm danh
t c trng ng ngha trong ting Vit, lun án ã t c các kt qu sau:
- Lun án ã kho sát các u im và hn ch trong các mô hình rút trích cm
t c trng. T ó, lun án ã  xut mt mô hình kt hp hng tip cn xác
nh và hng tip cn rút trích cm danh t c trng ng ngha trong ting Vit.
Mô hình này ã óng góp vào vic x lý ng ngha vn bn và các ng dng x lý
ngôn ng t nhiên.
- Nghiên cu và phát trin mô hình theo hng tip cn xác nh cm danh t
c trng ng ngha trong ting Vit.  khc phc vn  cn thit phi có kho
ng liu ting Vit có chú gii ln khi xác nh cm danh t c trng ng ngha,
lun án khai thác mt bách khoa toàn th trc tuyn vi ni dung m Wikipedia
 xây dng Ontology ting Vit ViO và t in ViDic. T ó lun án ã  xut
mô hình ViKEa. ây là mô hình s dng phng pháp so trùng m u da trên c
s tri thc và Ontology.
- Nghiên cu và phát trin mô hình theo hng tip cn rút trích cm danh t
c trng ng ngha trong ting Vit,  cp vn  xác nh các tính cht c
trng cho nhn din các CDTTNN trong câu n ting Vit, trong ó có các câu
truy vn, t ó  xut mô hình ViKEe. ây là mô hình s dng máy h!c vect
h" tr, c th là gii thut SMO  gii quyt bài toán thiu kho ng liu  ln
có chú gii trong quá trình hun luyn. Mô hình h!c máy có giám sát ViKEe da
theo bn tính cht c trng: (1) v trí t trong câu; (2) nhãn t loi; (3) cu trúc
cm t; (4) các t quan h gia các cm danh t ca các cm danh t d tuyn 
rút trích các CDTTNN.
- Phát trin mô hình kt hp gia hng tip cn xác nh và hng tip cn
rút trích cm danh t c trng ng ngha trong ting Vit da trên các mô hình
ã phát trin là hai mô hình ViKEa và ViKEe. T ó lun án  xut mô hình
ViKE. ây là mô hình kt hp hai mô hình ViKEa và ViKEe vi mc tiêu khai
thác ti a  chính xác ca vic rút trích CDTTNN ca tng mô hình.
Mô hình rút trích cm t c trng ng ngha trong ting Vit



116
- Xây dng mt Ontology ting Vit ViO và t in ViDic  phc v cho vic
xác nh cm danh t c trng ng ngha cho câu ting Vit, b#ng cách rút trích
h phân cp các th loi và các quan h ng ngha trong Vi.Wikipedia nh mt
Ontology ting Vit.
- Xây dng c mt kin trúc công ngh hoàn ch$nh cho ng dng rút trích
CDTTNN trong ting Vit.
7.3 Hng phát trin
T các nghiên cu liên quan ã c  cp và t các kt qu ca lun án,
chúng tôi  ngh mt s vn  và hng nghiên cu tip theo nh sau.
Các mô hình rút trích c gii thiu trong lun án này là nhng mô hình cho
hai hng tip cn chính là hng xác nh và hng rút trích CDTTNN. %ng
th&i lun án khai thác vic kt hp gia hai hng trên  xây dng mt mô hình
t'ng quát cho bài toán rút trích cm danh t c trng ng ngha trong câu n
ting Vit. Vì vy, có th nói t hng nghiên cu này còn nhiu vn  cn phát
trin. Di ây, chúng tôi trình bày mt s hng phát trin chính:
- V hng tip cn xác nh CTTNN, mt vn  cn m rng là khai thác các
mi quan h %ng ngha thông qua các ontology v ngôn ng (ví d nh
Wiktionary, WordNet, ...). %ng th&i khai thác các mi quan h (là quan h %ng
ngha, quan h phn ngha, hay quan h thành phn, ...) gia các trang thông tin
thông qua các liên kt ca chúng trong Wikipedia. T ó m rng các khái nim
và các quan h ca các danh hiu trong Ontology ViO c(ng nh t in ViDic,
nh#m nâng cao hiu sut xác nh CTTNN ca h thng.
-  tng t ng ngha ca khái nim và thc th có tên cha c kho sát
trong lun án này. %ng th&i, vic khai thác  tng t gia các thành phn ca
thc th có tên nh là  tng t v tên, lp, cp tên-lp và danh hiu c(ng cha
c khai thác. ây là mt trong nhng hng phát trin quan tr!ng ca  tài.
- V hng vn  rút trích CDTTNN, mt vn  cn khai thác là giai on

hun luyn m u cho mô hình h!c máy cn c m rng cho tng lnh vc c th,
c(ng nh cp nht thêm các kho ng liu hun luyn nh#m nâng cao  chính xác
ca h thng.
Mô hình rút trích cm t c trng ng ngha trong ting Vit


117
- Mt hng phát trin khác c(ng rt quan tr!ng là vic áp dng các mô hình này
cho các ngôn ng khác, vì các mô hình c phát trin, kho sát, c(ng nh thc
nghim trong lun án này u trên ting Vit. Thông qua vic phát trin mô hình
cho các ngôn ng khác (nh ting Anh)  so sánh ánh giá phng pháp c 
xut trong lun án vi các phng pháp khác, c(ng nh ánh giá quá trình ti u
chi phí trong mô hình kt hp ViKE.
7.4 Kt lun
Lun án ã trình bày các hng tip cn  gii quyt bài toán rút trích các
cm danh t c trng ng ngha ca câu n ting Vit. T phân tích và ánh giá
tng hng tip cn, lun án ã  xut mt mô hình ViKE cho bài toán rút trích
CDTTNN trong các câu ting Vit. Mô hình ViKE là s kt hp ca hai mô
hình theo hng tip cn ngôn ng và h!c máy (mô hình ViKEa và ViKEe).
u tiên là mô hình ViKEa, theo hng tip cn ngôn ng da trên Ontology
ViO (c khai thác t Vi.Wiki) vi k) thut so trùng m u và các quan h ng
ngha gia các th loi trên Ontology, c(ng nh các khâu tin x lý phân on t
và gán nhãn t loi. Kt qu t c ca mô hình ViKEa khá cao trong tr&ng
hp các cm danh t ca các câu có các t quan h, hoc có các khái nim tng
ng trong ontology ViO. Ngc li, các CDTTNN c nhn dng sai u
thuc vào tr&ng hp khái nim cha t%n ti trong Ontology ViO. ây là mt hn
ch ca mô hình ViKEa và c(ng là ng c nghiên cu ca lun án cho mô hình
theo hng tip cn h!c máy  xây dng các  tng t ng ngha gia các
cm danh t. T vic ánh giá và so sánh kt qu thu c t mô hình ViKEa,
lun án rút ra c các tính cht c trng v ngôn ng ca CDTTNN. Các tính

cht c trng này quyt nh cm danh t nào là c trng ng ngha so vi các
cm danh t khác trong câu. Ngoài ra, các tính cht c trng này là tin  góp
phn xác nh tp tính cht nhn din CDTTNN trong mô hình ViKEe theo
hng tip cn rút trích và k) thut h!c máy.
Tip theo, lun án ã  xut mô hình ViKEe theo hng tip cn h!c máy
nh#m ci thin ti a hiu sut ca h thng khi vic khai thác tài nguyên ngôn
ng còn có gii hn
.
Hng tip cn này da trên phng pháp h!c máy, c th
Mô hình rút trích cm t c trng ng ngha trong ting Vit


118
là phng pháp SVMs và k) thut hun luyn SMO. Lun án hin thc hng
tip cn thành mt ng dng riêng bit g!i là mô hình ViKEe. *ng dng này có
th chy c lp hoc nhúng vào các ng dng khác trên môi tr&ng Windows.
Kt qu t c ca mô hình ViKEe theo hng tip cn rút trích CDTTNN
t c ã áp ng c mc tiêu  ra ca lun án và s góp phn ci thin
hiu sut ca mô hình kt hp ca ViKE trong tr&ng hp các CDTTNN không
c xác nh trong mô hình ViKEa theo hng xác nh da trên Ontology
ViO.
Ngoài ra, chúng tôi c(ng ã tích hp ViKEe nh là mt mô-un ca h thng
truy xut thông tin xuyên ngôn ng có h" tr ting Vit g!i là VIRs. H thng
này cho phép truy xut thông tin hu ích t các trang web (VIRs là sn ph+m ã
c nghim thu ca  tài tr!ng im i h!c quc gia Tp. H% Chí Minh -
B2005-20-01-TD). Kt qu ca h thng VIRs ã c ci thin so vi khi cha
tích hp ViKEe.
Cui cùng, bên cnh các mô hình c  xut, phng pháp ca lun án khai
thác Vi.Wiki nh mt ontology ting Vit không ch$  phc v cho vic xác
nh cm danh t c trng ng ngha cho câu ting Vit mà còn a ra mt

hng gii quyt cho vn  thiu kho ng liu h" tr x lý ngôn ng ting Vit.













Mô hình rút trích cm t c trng ng ngha trong ting Vit


119
CÁC BÀI BÁO CA TÁC GI
LIÊN QUAN N LUN ÁN

Tp chí Khoa hc
[1] Chau Q. Nguyen, Tuoi T. Phan, 2009. Hng tip cn xác nh cm t c
trng ng ngha trong ting Vit da trên Wikipedia, Tp chí Công ngh
thông tin & truyn thông, ISSN 0866-7039, Tp V-1, s 2(22): 30-37.
[2] Nguy,n Quang Châu, Phan Th Ti, 2008. Nhn din cm t c trng ng
ngha trong Ting Vit, Tp chí Công ngh thông tin & truyn thông, ISSN
0866-17093, s 19: 64-73.
[3] Nguy,n Quang Châu, H%ng Thanh Lun, Phan Th Ti, 2008. Mt hng
tip cn h!c máy cho bài toán rút trích cm t c trng ng ngha trong ting

Vit, Tp chí Khoa hc & Công ngh Vit nam, ISBN 0866-708X, tp 46, s
1: 69-78.
[4] Nguy,n Quang Châu, Phan Th Ti, Cao Hoàng Tr, 2006. Gán nhãn t loi
cho ting Vit da trên vn phong và tính toán xác sut, Tp chí Phát trin
Khoa hc & Công ngh, ISSN 1859-0128, tp 9, s 2:11-21.
Hi ngh Khoa hc Quc t
[5] Chau Q. Nguyen, Tuoi T. Phan, 2009. Key Phrase Extraction: A Hybrid
Assignment and Extraction Approach. In Proceedings of the 11th
International Conference of Information Integration and Web-based
Applications & Services (iiWAS 2009), OCG ISBN 978-3-85403-260-1, ACM
ISBN 978-1-60558-660-1, 14-16 December 2009, Malaysia, ACM & ACS,
pp. 274-281.
[6] Chau Q. Nguyen, Tuoi T. Phan, 2009. An Ontology–Based Approach for Key
Phrase Extraction. In Proceedings of the 47th Annual Meeting of the
Association for Computational Linguistics and the 4th International Joint
Conference on Natural Language Processing of the Asian Federation of
Mô hình rút trích cm t c trng ng ngha trong ting Vit


120
Natural Language Processing (ACL-IJCNLP 2009), ISBN 978-1-932432-47-
5, August 2 - 7, 2009, Singapore, Companion Vol, pp.181-184.
[7] Chau Q. Nguyen, Luan T. Hong, Tuoi T. Phan, 2009. A Support Vector
Machines Approach to Vietnamese Key Phrase Extraction, In Proceedings of
the 2009 IEEE-RIVF International Conference on Computing &
Communication Technologies (IEEE-RIVF 2009), ISBN 978-1-4244-4567-7,
IEEE eXpress, pp.131-135.
[8] Chau Q. Nguyen, Tuoi T. Phan, 2007. A Pattern-based Approach to
Vietnamese Key Phrase Extraction, In Addendum Contributions of The 5th
International IEEE Conference on Computer Sciences- RIVF’07, ISBN 2-

912590-4-0, Studia Informatica Universalis, pp.41-46.
[9] Chau Q. Nguyen, Tuoi T. Phan, 2006. A Hybrid Approach to Vietnamese
Part-Of-Speech Tagging, In Proceedings of The 9th International Oriental
COCOSDA 2006 Conference - O-COCOSDA’06, 12/2006, Malaysia, pp.157-
160.
[10] Chau Q. Nguyen, Thanh C. Nguyen, Tuoi T. Phan, 2006. Vietnamese Key
Phrase Extraction for Information Retrieval, In Proceedings of The 9th
International Oriental COCOSDA 2006 Conference - O-COCOSDA’06,
12/2006, Malaysia, pp.169-172.
[11] Chau Q. Nguyen, Tuoi T. Phan, Tru H. Cao, 2006. Vietnamese Proper Noun
Recognition, In Proceedings of The 4th International IEEE Conference on
Computer Sciences- RIVF’06, ISSN 1621-0065, IEEE Press, pp.144-151.
Hi ngh Khoa hc Quc gia
[12] Nguy,n Quang Châu, Phan Th Ti, Cao Hoàng Tr, 2005. Gán nhãn t
loi cho ting Vit da trên vn phong, trong k yu ca hi tho khoa hc
quc gia ln th II, Nghiên cu c bn và ng dng công ngh thông tin-
FAIR’05, 9-2005, pp.106-116.

×