Mô hình rút trích cm t c trng ng ngha trong ting Vit
1
LI CAM OAN
Tôi cam oan rng ni dung ca lun án này là kt qu nghiên cu ca
bn thân. Tt c nhng tham kho t các nghiên cu liên quan iu c nêu
rõ ngun gc mt cách rõ ràng t danh mc tài liu tham kho c cp
phn sau ca lun án. Nhng óng góp trong lun án là kt qu nghiên cu
ca tác gi ã c công b trong các bài báo ca tác gi phn sau ca lun
án và cha c công b trong bt k công trình khoa hc nào khác.
Tác gi lun án
Nguyn Quang Châu
Mô hình rút trích cm t c trng ng ngha trong ting Vit
2
LI CM N
Trong quá trình hoàn thành lun án này, tôi ã c các thy cô ni
c s ào to giúp tn tình, c quan ni công tác to mi iu kin
thun li và bn bè cùng gia ình thng xuyên ng viên khích l.
Lun án này không th hoàn thành tt nu không có s tn tình
hng dn và s giúp quý báu ca PGS.TS. Phan Th Ti, Ngi
thy hng dn mà tôi mun c bày t! lòng bit n sâu s"c nht.
Tôi c#ng mun c bày t! lòng bit n i vi tp th các thy cô
Khoa CNTT- $i hc Bách Khoa TP. H Chí Minh ã giúp và to
iu kin cho tôi rt nhiu trong quá trình hc tp và nghiên cu
Khoa; cm n Phòng qun lý sau $i hc v s h% tr các th tc hoàn
thành lun án.
Tôi chân thành cm n Trng $i hc Công Nghip TP. H Chí
Minh, &c bit khoa CNTT, ã h% tr và to mi iu kin thun li cho
tôi trong quá trình hoàn thành khóa hc NCS.
Cui cùng, tôi cm n tt c bn bè và ngi thân ã góp nhiu ý
kin thit thc và có nhng li ng viên khích l quý báu giúp tôi hoàn
thành tt lun án.
Tác gi lun án
Nguyn Quang Châu
Mô hình rút trích cm t c trng ng ngha trong ting Vit
3
TÓM TT
World Wide Web (WWW) phát trin nhanh chóng cùng vi ngun tài
nguyên thông tin ngày càng phong phú, nhu cu khai thác ngun thông tin
này ca ngi s' dng ngày càng tr nên cp thit i vi i sng ca con
ngi. Vic khai thác này c thc hin thông qua các phng thc nh
truy hi thông tin (Information Retrieval), tóm lc vn bn (Text
Summarization), và rút trích thông tin (Information Extraction), ...
Mt trong các vn ct lõi ca h thng khai thác này là xác nh và
rút trích chính xác các cm t &c trng ng ngh(a (CT$TNN) (khái nim
CT$TNN c nh ngh(a chng 2, ti nh ngh(a 2.1) ca câu trong
v)n bn. Vn này là mi quan tâm ca các nhà ngôn ng hc, c#ng nh
các nhà khoa hc trong l(nh vc x' lý ngôn ng t nhiên bng máy tính.
* Vit Nam, chúng ta mong mun có c mt h thng rút trích các
cm t &c trng ng ngh(a ca câu trong v)n bn ting Vit, nhm áp
ng nhu cu ang b b! ng! trong các h thng khai thác thông tin. $iu
này ã òi h!i và thúc +y vic nghiên cu và phát trin mô hình rút trích
cm t &c trng ng ngh(a trong ting Vit (Vietnamese Key Phrase
Information Extraction Model - ViKE). Lun án nghiên cu rút trích cm t
&c trng ng ngh(a (CT$TNN) ca câu n ting Vit. Vi kho sát tn
sut xut hin ca các cm trong các v)n bn ting Vit, lun án ã tp
trung nghiên cu vic xác nh và rút trích cm danh t &c trng ng
ngh(a (CDT$TNN) cho câu n ting Vit.
Lun án trình bày mô hình ViKE. ViKE là mô hình kt hp hai hng
tip cn chính: (1) hng ngôn ng hc hay hng tip cn xác nh cm
danh t &c trng ng ngh(a, c th là s' dng phng pháp so trùng th
loi trên Ontology ca Wikipedia; (2) hng tip cn rút trích cm danh t
&c trng ng ngh(a hay hng tip cn hc máy, c th là s' dng phng
pháp Máy vect h tr (Support Vector Machines – SVMs). Lun án xut
các tính cht &c trng cho phng pháp xác nh cm danh t &c trng
ng ngh(a dùng SVMs nhm n"m b"t c v trí lô-gích và &c tính hình
Mô hình rút trích cm t c trng ng ngha trong ting Vit
4
thái t,ng quát ca CDT$TNN: (a) v trí t trong câu; (b) nhãn t loi; (c)
cu trúc cm danh t; (d) các t quan h gia các cm danh t.
$ ánh giá hiu sut h thng ca các mô hình xut, lun án thc
nghim trên tp câu c chn lc t các ngun ng liu TREC07,
TREC06, TREC02 ( và www.lexxe.com (Qiao,
2010). Tp câu ting Anh c Hi Nghiên Cu D ch Thut Tp. H Chí
Minh d ch sang tp câu ting Vit tng ng và c bn chuyên gia ngôn
ng nhn din cm danh t &c trng ng ngh(a bng phng pháp th
công. Kt qu mô hình ViKE t chính xác, bao ph và trung bình
iu hòa ln lt là 89,52% , 87,63% và 88,57%. Nh vy vi chính
xác, y và trung bình iu hòa ca mô hình ViKE ã ci thin
hiu sut ca hai mô hình thành phn (mô hình theo hng tip cn rút trích
và mô hình theo hng tip cn xác nh CDT$TNN) và áp ng c
mc tiêu ra ca lun án.
Mô hình rút trích cm t c trng ng ngha trong ting Vit
5
MC LC
DANH MC CÁC BNG ...................................................................................9
DANH MC CÁC HÌNH ..................................................................................10
Chng 1.
GII THIU
..........................................................................................
11
1.1 Mc tiêu và phm vi .................................................................................11
1.2 Nhng óng góp chính ca lun án...........................................................16
1.3 Cu trúc ca lun án .................................................................................17
Chng 2. C S LÝ THUYT NGÔN NG TING VIT ........................19
2.1 Gii thiu .................................................................................................19
2.2 C s lý thuyt .........................................................................................20
2.3 Kt chng...............................................................................................29
Chng 3. TNG QUAN CÁC MÔ HÌNH RÚT TRÍCH CM T C
TRNG..............................................................................................................31
3.1 Gii thiu .................................................................................................31
3.2 Các nghiên cu liên quan..........................................................................32
3.3 S tng quan gia hng tip cn rút trích và xác nh CT$T ...............37
3.4 Phng pháp tip cn ca lun án.............................................................38
3.5 Kt chng...............................................................................................52
Chng 4. MÔ HÌNH XÁC NH CM T C TRNG NG NGHA
TRONG TING VIT (ViKEa) -PHNG PHÁP SO TRÙNG MU DA
TRÊN ONTOLOGY..........................................................................................54
4.1 Gii thiu ................................................................................................54
4.2 Rút trích cm danh t d tuyn
……………………...………………………...............
55
4.3 Công on xác nh cm danh t &c trng ng ngh(a da trên
ontology
………………………………………………………………………………………………………..
62
4.4
Kt chng
………………………………………………………………..………………………….
73
Chng 5. MÔ HÌNH RÚT TRÍCH CM T C TRNG NG NGHA
TRONG TING VIT (ViKEe) – PHNG PHÁP HC MÁY...................75
5.1 Gii thiu .................................................................................................75
5.2 Phng pháp Support Vector Machines....................................................77