Mô hình rút trích cm t c trng ng ngha trong ting Vit
102
Chng 6
MÔ HÌNH RÚT TRÍCH CM T
C TRNG NG NGHA TRONG
TING VIT (ViKE)
KT HP HNG TIP CN RÚT TRÍCH VÀ
HNG TIP CN XÁC NH
6.1 Gii thiu
Trong chng này, lun án trình bày Mô hình rút trích cm danh t c trng
ng ngha trong ting Vit c gi là ViKE. ây là mô hình kt hp gia mô
hình theo hng tip cn xác nh CDTTNN-ViKEa và mô hình theo hng tip
cn rút trích CDTTNN-ViKEe. S kt hp ca hai mô hình này nhm mc tiêu
Mô hình rút trích cm t c trng ng ngha trong ting Vit
103
phát huy u im, cng nh hn ch các nhc im ca c hng tip cn xác
nh và hng tip cn rút trích cm danh t c trng ng ngha trong ting Vit.
Phn còn li ca chng c t chc thành ba phn: Phn 6.2 trình bày mô
hình kt hp gia hai mô hình ViKEa và ViKEe; Phn 6.3 mô t h thng rút
trích CDTTNN trong ting Vit, cng nh mô hình kin trúc ba lp ca h
thng; Phn 6.4 phân tích và ánh giá hiu sut rút trích CDTTNN ca h thng
ViKE; Phn cui cùng là kt chng.
6.2 Mô hình rút trích CDTTNN trong ting Vit
Mô hình tng quát ViKE là s kt hp hai mô hình ViKEa và ViKEe c
trình bày Hình 6.1.
Trong mô hình tng quát rút trích cm danh t c trng ng ngha trong
ting Vit, quy trình c thc hin ln lt qua các công on sau:
Hình 6.1 Mô hình tng quát rút trích cm danh t c trng ng ngha
ViKE.
Tin x lý
Câu ting Vit
Gán nhãn t loi
Phân on t
Xác nh CDTTNN
Tp m u
Rút trích các cm
danh t d tuyn
Ontology
ViO
Các CDTTNN
Da vào Ontology
Da vào hc máy
Mô hình
Mô hình rút trích cm t c trng ng ngha trong ting Vit
104
• Công on 1. Tin x lý các câu ting Vit bao g!m bài toán phân on t và
gán nhãn t loi.
• Công on 2. Rút trích các cm danh t d tuyn t các t có gán nhãn t
loi công on 1 bng phng pháp so trùng m u.
• Công on 3. Xác nh chính xác CDTTNN t các cm danh t d tuyn
ln lt qua các bc sau:
o Bc 1: Da vào các thông tin ng cnh là các t, hay cm t quan h
nhn din các CDTTNN trong các cm danh t d tuyn thông
qua mô hình ViKEa (ng vi tr"ng hp các câu có cha các t, hay
cm t quan h gia các cm danh t d tuyn).
o Bc 2: Trong tr"ng hp gia các cm danh t d tuyn không có
các t, hay cm t quan h thì quá trình nhn din CDTTNN s# c
truy vn da trên Ontology ViO thông qua mô hình ViKEa (ng vi
tr"ng hp các câu mà không cha các t, hay cm t quan h gia các
cm danh t d tuyn, nhng các cm danh t d tuyn có khái nim
trong ViO).
o Bc 3: Nu các cm danh t d tuyn cha t!n ti trong c s tri thc
hay các cm danh t d tuyn không có khái nim trong ViO , thì vic
xác nh cm danh t d tuyn nào là CDTTNN s# da vào phng
pháp hc máy thông qua mô hình ViKEe (ng vi tr"ng hp các câu
mà không cha các t, hay cm t quan h gia các cm danh t d
tuyn và các cm danh t d tuyn không có khái nim trong ViO).
V ý tng, gii thut xác nh các cm danh t c trng ng ngha trong mô
hình ViKE c trình bày tng quát nh sau:
GII THUT 6.1 Xác nh cm danh t c trng ng ngha trong ViKE
- Nhp: Tp các câu {S
1
, ..., S
K
},ViO
- Xut: Cm danh t c trng ng ngha (CDTTNN) cho m$i câu
- Phng pháp:
1. for i = 1 to K do Word_Segmentation(S
i
); /* phân on t */
2. for i = 1 to K do POS_Tagger(S
i
); /* gán nhãn t loi cho m$i t */
Mô hình rút trích cm t c trng ng ngha trong ting Vit
105
3. for i = 1 to K do Candidate_Identification(S
i
);
/* nhn din các cm t d tuyn tng ng cho m$i câu */
4. for i = 1 to K do
5. If gia các cm danh t d tuyn có cha các cm t quan h hay có
các khái nim t!n ti trong ViO then ExecViKEa()
6. else ExecViKEe();
/* ExecViKEa() : thc hin mô hình ViKEa */
/* ExecViKEe(): thc hin mô hình ViKEe */
6.3 H thng rút trích CDTTNN trong ting Vit
kim nghim các phng pháp xut cho bài toán rút trích CDTTNN
cho câu ting Vit, lun án hin thc Mô hình rút trích cm danh t c trng
ng ngha trong ting Vit –ViKE nh m%t h thng vi mô hình kin trúc ba lp
c trình bày Hình 6.2.
1.
Lp giao din (Presentation tier): cung cp m%t giao din cho phép ng"i s
dng nhp các câu trc tip vào h thng hoc t m%t tp tin cha các câu. Kt
qu tr v là các CDTTNN tng ng cho m$i câu nhp di dng XML. Vi
dng XML, các CDTTNN có th d& dàng c s dng trong các ng dng
khác.
2. Lp nghip v (Business tier): ây là thành phn th hin các qui t'c nghip v
ca kin trúc h thng ViKE. Lp này g!m ba khi:
• Khi th nht chu trách nhim tách t và gán nhãn t loi cho t (Word
segmentation and POS tagger).
• Khi th hai là mô hình ViKEa theo hng tip cn xác nh CDTTNN,
dùng x lý các câu ca ng"i s dng có cha các t, hay cm t quan
h gia các cm danh t d tuyn, hoc câu có cha các cm danh t d
tuyn có khái nim trong ViO.
• Khi th ba là mô hình ViKEe theo hng tip cn rút tích CDTTNN.
Khi này x lý các câu không cha các t, hay cm t quan h gia các
cm danh t d tuyn, và cng không cha các cm danh t d tuyn có
khái nim trong ViO.
Các khi này c thit k trong môi tr"ng Java thành bn công c %c lp
Mô hình rút trích cm t c trng ng ngha trong ting Vit
106
là vnWordSegmentation, vnPOSTagger, ViKEa, ViKEe mà chúng d& dàng tích
hp vào các h thng khác.
3. Lp c s d liu (Database tier): lp này cung cp các chc n(ng lu tr và
truy xut d liu ca ViKE thông qua h qun tr c s d liu MySQL Server
5.1 và các tp tin ng liu dng XML.
Lp nghip v Lp giao din Lp c s d liu
Hình 6.2
Mô hình kin trúc ba lp ca h thng rút trích cm danh t
c trng ng ngha trong ting Vit –ViKE.
Các câu ting Vit
Mô hình ViKEe
(da vào hc máy)
Tin x lý
Gán nhãn t loi
Phân on t
Mô hình ViKEa
Xác nh CDTTNN
da vào ontology
Xác nh CDTTNN
da vào lut quan h
Rút trích các cm
DT d tuyn da vào
lut cu trúc cm DT
ViO Ontology
& T in
ViDic
Tp lut
quan h
Kho ng liu
hun luyn 2
Kho ng liu
hun luyn 1
Tp lut kt
hp
Tp lut cu
trúc cm
danh t
Các
CDTTNN