Tải bản đầy đủ (.pdf) (10 trang)

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 10

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (167.69 KB, 10 trang )

Mô hình rút trích cm t c trng ng ngha trong ting Vit


1










LI CAM OAN



Tôi cam oan rng ni dung ca lun án này là kt qu nghiên cu ca
bn thân. Tt c nhng tham kho t các nghiên cu liên quan iu c nêu
rõ ngun gc mt cách rõ ràng t danh mc tài liu tham kho c  cp 
phn sau ca lun án. Nhng óng góp trong lun án là kt qu nghiên cu
ca tác gi ã c công b trong các bài báo ca tác gi  phn sau ca lun
án và cha c công b trong bt k công trình khoa hc nào khác.


Tác gi lun án









Nguyn Quang Châu
Mô hình rút trích cm t c trng ng ngha trong ting Vit


2






LI CM N


Trong quá trình hoàn thành lun án này, tôi ã c các thy cô ni
c s ào to giúp  tn tình, c quan ni công tác to mi iu kin
thun li và bn bè cùng gia ình thng xuyên ng viên khích l.
Lun án này không th hoàn thành tt nu không có s tn tình
hng dn và s giúp  quý báu ca PGS.TS. Phan Th Ti, Ngi
thy hng dn mà tôi mun c bày t! lòng bit n sâu s"c nht.
Tôi c#ng mun c bày t! lòng bit n i vi tp th các thy cô
Khoa CNTT- $i hc Bách Khoa TP. H Chí Minh ã giúp  và to
iu kin cho tôi rt nhiu trong quá trình hc tp và nghiên cu 
Khoa; cm n Phòng qun lý sau $i hc v s h% tr các th tc hoàn
thành lun án.
Tôi chân thành cm n Trng $i hc Công Nghip TP. H Chí

Minh, &c bit khoa CNTT, ã h% tr và to mi iu kin thun li cho
tôi trong quá trình hoàn thành khóa hc NCS.
Cui cùng, tôi cm n tt c bn bè và ngi thân ã góp nhiu ý
kin thit thc và có nhng li ng viên khích l quý báu giúp tôi hoàn
thành tt lun án.




Tác gi lun án






Nguyn Quang Châu
Mô hình rút trích cm t c trng ng ngha trong ting Vit


3
TÓM TT


World Wide Web (WWW) phát trin nhanh chóng cùng vi ngun tài
nguyên thông tin ngày càng phong phú, nhu cu khai thác ngun thông tin
này ca ngi s' dng ngày càng tr nên cp thit i vi i sng ca con
ngi. Vic khai thác này c thc hin thông qua các phng thc nh
truy hi thông tin (Information Retrieval), tóm lc vn bn (Text
Summarization), và rút trích thông tin (Information Extraction), ...

Mt trong các vn  ct lõi ca h thng khai thác này là xác  nh và
rút trích chính xác các cm t &c trng ng ngh(a (CT$TNN) (khái nim
CT$TNN c  nh ngh(a  chng 2, ti  nh ngh(a 2.1) ca câu trong
v)n bn. Vn  này là mi quan tâm ca các nhà ngôn ng hc, c#ng nh
các nhà khoa hc trong l(nh vc x' lý ngôn ng t nhiên bng máy tính.
* Vit Nam, chúng ta mong mun có c mt h thng rút trích các
cm t &c trng ng ngh(a ca câu trong v)n bn ting Vit, nhm áp
ng nhu cu ang b b! ng! trong các h thng khai thác thông tin. $iu
này ã òi h!i và thúc +y vic nghiên cu và phát trin mô hình rút trích
cm t &c trng ng ngh(a trong ting Vit (Vietnamese Key Phrase
Information Extraction Model - ViKE). Lun án nghiên cu rút trích cm t
&c trng ng ngh(a (CT$TNN) ca câu n ting Vit. Vi kho sát tn
sut xut hin ca các cm trong các v)n bn ting Vit, lun án ã tp
trung nghiên cu vic xác  nh và rút trích cm danh t &c trng ng
ngh(a (CDT$TNN) cho câu n ting Vit.
Lun án trình bày mô hình ViKE. ViKE là mô hình kt hp hai hng
tip cn chính: (1) hng ngôn ng hc hay hng tip cn xác  nh cm
danh t &c trng ng ngh(a, c th là s' dng phng pháp so trùng th
loi trên Ontology ca Wikipedia; (2) hng tip cn rút trích cm danh t
&c trng ng ngh(a hay hng tip cn hc máy, c th là s' dng phng
pháp Máy vect h tr (Support Vector Machines – SVMs). Lun án  xut
các tính cht &c trng cho phng pháp xác  nh cm danh t &c trng
ng ngh(a dùng SVMs nhm n"m b"t c v trí lô-gích và &c tính hình
Mô hình rút trích cm t c trng ng ngha trong ting Vit


4
thái t,ng quát ca CDT$TNN: (a) v trí t trong câu; (b) nhãn t loi; (c)
cu trúc cm danh t; (d) các t quan h gia các cm danh t.
$ ánh giá hiu sut h thng ca các mô hình  xut, lun án thc

nghim trên tp câu c chn lc t các ngun ng liu TREC07,
TREC06, TREC02 ( và www.lexxe.com (Qiao,
2010). Tp câu ting Anh c Hi Nghiên Cu D ch Thut Tp. H Chí
Minh d ch sang tp câu ting Vit tng ng và c bn chuyên gia ngôn
ng nhn din cm danh t &c trng ng ngh(a bng phng pháp th
công. Kt qu mô hình ViKE t  chính xác,  bao ph và  trung bình
iu hòa ln lt là 89,52% , 87,63% và 88,57%. Nh vy vi  chính
xác,  y  và  trung bình iu hòa ca mô hình ViKE ã ci thin
hiu sut ca hai mô hình thành phn (mô hình theo hng tip cn rút trích
và mô hình theo hng tip cn xác  nh CDT$TNN) và áp ng c
mc tiêu  ra ca lun án.


































Mô hình rút trích cm t c trng ng ngha trong ting Vit


5
MC LC

DANH MC CÁC BNG ...................................................................................9
DANH MC CÁC HÌNH ..................................................................................10
Chng 1.
GII THIU
..........................................................................................
11
1.1 Mc tiêu và phm vi .................................................................................11
1.2 Nhng óng góp chính ca lun án...........................................................16
1.3 Cu trúc ca lun án .................................................................................17
Chng 2. C S LÝ THUYT NGÔN NG TING VIT ........................19

2.1 Gii thiu .................................................................................................19
2.2 C s lý thuyt .........................................................................................20
2.3 Kt chng...............................................................................................29
Chng 3. TNG QUAN CÁC MÔ HÌNH RÚT TRÍCH CM T C
TRNG..............................................................................................................31
3.1 Gii thiu .................................................................................................31
3.2 Các nghiên cu liên quan..........................................................................32
3.3 S tng quan gia hng tip cn rút trích và xác  nh CT$T ...............37
3.4 Phng pháp tip cn ca lun án.............................................................38
3.5 Kt chng...............................................................................................52
Chng 4. MÔ HÌNH XÁC NH CM T C TRNG NG NGHA
TRONG TING VIT (ViKEa) -PHNG PHÁP SO TRÙNG MU DA
TRÊN ONTOLOGY..........................................................................................54
4.1 Gii thiu ................................................................................................54
4.2 Rút trích cm danh t d tuyn
……………………...………………………...............
55
4.3 Công on xác  nh cm danh t &c trng ng ngh(a da trên
ontology
………………………………………………………………………………………………………..
62
4.4
Kt chng
………………………………………………………………..………………………….
73
Chng 5. MÔ HÌNH RÚT TRÍCH CM T C TRNG NG NGHA
TRONG TING VIT (ViKEe) – PHNG PHÁP HC MÁY...................75
5.1 Gii thiu .................................................................................................75
5.2 Phng pháp Support Vector Machines....................................................77

×