Tải bản đầy đủ (.pdf) (12 trang)

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 07

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (243.36 KB, 12 trang )

Mô hình rút trích cm t c trng ng ngha trong ting Vit


102













Chng 6




MÔ HÌNH RÚT TRÍCH CM T
C TRNG NG NGHA TRONG
TING VIT (ViKE)
KT HP HNG TIP CN RÚT TRÍCH VÀ
HNG TIP CN XÁC NH





















6.1 Gii thiu

Trong chng này, lun án trình bày Mô hình rút trích cm danh t c trng
ng ngha trong ting Vit c gi là ViKE. ây là mô hình kt hp gia mô
hình theo hng tip cn xác nh CDTTNN-ViKEa và mô hình theo hng tip
cn rút trích CDTTNN-ViKEe. S kt hp ca hai mô hình này nhm mc tiêu
Mô hình rút trích cm t c trng ng ngha trong ting Vit


103
phát huy u im, cng nh hn ch các nhc im ca c hng tip cn xác
nh và hng tip cn rút trích cm danh t c trng ng ngha trong ting Vit.
Phn còn li ca chng c t chc thành ba phn: Phn 6.2 trình bày mô
hình kt hp gia hai mô hình ViKEa và ViKEe; Phn 6.3 mô t h thng rút

trích CDTTNN trong ting Vit, cng nh mô hình kin trúc ba lp ca h
thng; Phn 6.4 phân tích và ánh giá hiu sut rút trích CDTTNN ca h thng
ViKE; Phn cui cùng là kt chng.
6.2 Mô hình rút trích CDTTNN trong ting Vit

Mô hình tng quát ViKE là s kt hp hai mô hình ViKEa và ViKEe c
trình bày  Hình 6.1.

















Trong mô hình tng quát rút trích cm danh t c trng ng ngha trong
ting Vit, quy trình c thc hin ln lt qua các công on sau:
Hình 6.1 Mô hình tng quát rút trích cm danh t c trng ng ngha
ViKE.

Tin x lý

Câu ting Vit
Gán nhãn t loi
Phân on t
Xác nh CDTTNN
Tp m u
Rút trích các cm
danh t d tuyn
Ontology
ViO
Các CDTTNN
Da vào Ontology
Da vào hc máy
Mô hình
Mô hình rút trích cm t c trng ng ngha trong ting Vit


104
• Công on 1. Tin x lý các câu ting Vit bao g!m bài toán phân on t và
gán nhãn t loi.
• Công on 2. Rút trích các cm danh t d tuyn t các t có gán nhãn t
loi  công on 1 bng phng pháp so trùng m u.
• Công on 3. Xác nh chính xác CDTTNN t các cm danh t d tuyn
ln lt qua các bc sau:
o Bc 1: Da vào các thông tin ng cnh là các t, hay cm t quan h
 nhn din các CDTTNN trong các cm danh t d tuyn thông
qua mô hình ViKEa (ng vi tr"ng hp các câu có cha các t, hay
cm t quan h gia các cm danh t d tuyn).
o Bc 2: Trong tr"ng hp gia các cm danh t d tuyn không có
các t, hay cm t quan h thì quá trình nhn din CDTTNN s# c
truy vn da trên Ontology ViO thông qua mô hình ViKEa (ng vi

tr"ng hp các câu mà không cha các t, hay cm t quan h gia các
cm danh t d tuyn, nhng các cm danh t d tuyn có khái nim
trong ViO).
o Bc 3: Nu các cm danh t d tuyn cha t!n ti trong c s tri thc
hay các cm danh t d tuyn không có khái nim trong ViO , thì vic
xác nh cm danh t d tuyn nào là CDTTNN s# da vào phng
pháp hc máy thông qua mô hình ViKEe (ng vi tr"ng hp các câu
mà không cha các t, hay cm t quan h gia các cm danh t d
tuyn và các cm danh t d tuyn không có khái nim trong ViO).
V ý tng, gii thut xác nh các cm danh t c trng ng ngha trong mô
hình ViKE c trình bày tng quát nh sau:
GII THUT 6.1 Xác nh cm danh t c trng ng ngha trong ViKE
- Nhp: Tp các câu {S
1
, ..., S
K
},ViO
- Xut: Cm danh t c trng ng ngha (CDTTNN) cho m$i câu
- Phng pháp:
1. for i = 1 to K do Word_Segmentation(S
i
); /* phân on t */
2. for i = 1 to K do POS_Tagger(S
i
); /* gán nhãn t loi cho m$i t */
Mô hình rút trích cm t c trng ng ngha trong ting Vit


105
3. for i = 1 to K do Candidate_Identification(S

i
);
/* nhn din các cm t d tuyn tng ng cho m$i câu */
4. for i = 1 to K do
5. If gia các cm danh t d tuyn có cha các cm t quan h hay có
các khái nim t!n ti trong ViO then ExecViKEa()
6. else ExecViKEe();
/* ExecViKEa() : thc hin mô hình ViKEa */
/* ExecViKEe(): thc hin mô hình ViKEe */
6.3 H thng rút trích CDTTNN trong ting Vit
 kim nghim các phng pháp  xut cho bài toán rút trích CDTTNN
cho câu ting Vit, lun án hin thc Mô hình rút trích cm danh t c trng
ng ngha trong ting Vit –ViKE nh m%t h thng vi mô hình kin trúc ba lp
c trình bày  Hình 6.2.
1.
Lp giao din (Presentation tier): cung cp m%t giao din cho phép ng"i s
dng nhp các câu trc tip vào h thng hoc t m%t tp tin cha các câu. Kt
qu tr v là các CDTTNN tng ng cho m$i câu nhp di dng XML. Vi
dng XML, các CDTTNN có th d& dàng c s dng trong các ng dng
khác.
2. Lp nghip v (Business tier): ây là thành phn th hin các qui t'c nghip v
ca kin trúc h thng ViKE. Lp này g!m ba khi:
• Khi th nht chu trách nhim tách t và gán nhãn t loi cho t (Word
segmentation and POS tagger).
• Khi th hai là mô hình ViKEa theo hng tip cn xác nh CDTTNN,
dùng  x lý các câu ca ng"i s dng có cha các t, hay cm t quan
h gia các cm danh t d tuyn, hoc câu có cha các cm danh t d
tuyn có khái nim trong ViO.
• Khi th ba là mô hình ViKEe theo hng tip cn rút tích CDTTNN.
Khi này x lý các câu không cha các t, hay cm t quan h gia các

cm danh t d tuyn, và cng không cha các cm danh t d tuyn có
khái nim trong ViO.
Các khi này c thit k trong môi tr"ng Java thành bn công c %c lp
Mô hình rút trích cm t c trng ng ngha trong ting Vit


106
là vnWordSegmentation, vnPOSTagger, ViKEa, ViKEe mà chúng d& dàng tích
hp vào các h thng khác.

























3. Lp c s d liu (Database tier): lp này cung cp các chc n(ng lu tr và
truy xut d liu ca ViKE thông qua h qun tr c s d liu MySQL Server
5.1 và các tp tin ng liu dng XML.

Lp nghip v Lp giao din Lp c s d liu
Hình 6.2

Mô hình kin trúc ba lp ca h thng rút trích cm danh t
c trng ng ngha trong ting Vit –ViKE.

Các câu ting Vit
Mô hình ViKEe
(da vào hc máy)
Tin x lý
Gán nhãn t loi
Phân on t
Mô hình ViKEa
Xác nh CDTTNN
da vào ontology
Xác nh CDTTNN
da vào lut quan h
Rút trích các cm
DT d tuyn da vào
lut cu trúc cm DT

ViO Ontology
& T in

ViDic
Tp lut
quan h
Kho ng liu
hun luyn 2
Kho ng liu
hun luyn 1
Tp lut kt
hp
Tp lut cu
trúc cm
danh t
Các
CDTTNN

×