f
DAI HOC QUOC
GIÀ
HA NÓI
GIÀ!
QUYÉT
MOT
SÓ VÀN
DE
NÈN TÀNG TRONG
Xlf
LY
NGON
NGlT
TIÉNG VIÉT VÓI CÀC MÒ HÌNH HOC MÀY
THÓNG KÉ HIÉN DAI
(Bào cào tòng hgp de tài nghién
cùn
khoa hgc càp DHQGHN)
Ma sò: QC.06.07
Chù nhiem de tài: CN. Nguyen
Cam
Tù
DA! HOC QUOC
GIÀ
HA NOI
TRUNG TÀM THÒNG TIN THU VIÈN
DT/
>03
1
l^v
MUC
LUC
1.
Phàn
mò'
dau 3
LL
Giài thich nhung chù viét tàt 3
L2.
Danh sàch nhùng nguói tham
già
thuc hien de tài 3
1.3. Bào cào de tài 4
L4.
Project Report 6
2.
Phàn noi dung
chinh
8
2.1.
Dat vàn de
8
2.2.
Tóng quan càc vàn
de
nghién cuu 8
2.3.
Dja diém, thói gian và phuong phàp nghién cùu 9
2.4. Nói dung và két
qua
nghién
CÙTJ
9
2.4.1.
Càc nguyen tàc co bàn trong tiéng Viét 9
2.4.2. Mot sò phuong phàp hgc mày thòng ké 13
2.4.3.
Bg dù liéu thù nghiem
15
'2.4.4.
Két qua thuc nghiem
15
a. Bài toàn tàch tù tiéng Viét
16
b.
Bài toàn xàc dinh thuc
thé
tiéng Viét 16
2.5.
Thào luan
18
2.6.
Két luan và Kién nghi 18
TÀI LIÉU THAM KHÀO 19
A. Tài liéu tiéng Viet
19
B.
Tài lieu tiéng Anh 19
PHU LUC
21
1.
Phàn
madàu
*
9
1.1. Giai thfch
nhù'ng chO
viét tàt
Viét tat
CRFs
'SVMs
Giài nghTa
Conditional Random Fields
Support Vector Machines
1.2. Danh sàch
nhiPng ngw&i
tham
già thiFC
hién de tài
STI
1
2
3
4
5
6
7
8
Ho tèn
Nguyen
Càm Tù
Ha
Quang Thuy
Phan Xuàn Hiéu
Nguyen Lé Minh
Nguyen
Viét
Cuàng
Nguyen
Thi Huong Thào
Nguyen
Thu Trang
Nguyen
Trung Kién
Hoc hàm, hoc vi, noi còng tàc
CN.
PGS.TS.
TS.
TS.
NCS
CN.
CN.
CN.
Khoa CNTT - DH Còng Nghé
Khoa CNTT - DH Còng Nghé
DH Tohoku
Vién KH&CN tién tién Nhàt Bàn
Khoa CNTT - DH Còng Nghé
Khoa CNTT - DH Còng Nghé
Khoa CNTT - DH Còng Nghé
Khoa CNTT - DH Còng Nghé
3
1.3. Bào cào de tài
Tén de tài: Giài quyét mot so bài toàn nén tàng trong xù ly ngon ngù tiéng
Viet vói càc mò hinh hgc mày thòng ké hién dai
Ma sòde
tài: QC.06.07
Thòi gian thirc hien:
03/2006
dén 03/2007
Co"
quan
chii
tri: Dai hgc Quòc
già Ha
Nói
Co'
quan thu'c hien: Dai hgc Còng nghé.
Chi!
nhiem de tài: CN.
Nguyen
Càm Tù
Càn bo tham
già
thuc hien:
STI
1
2
3
4
5
6
7
8
Ho tén
Nguyen
Càm Tù
Ha
Quang Thuy
Phan Xuàn Hiéu
Nguyen
Lé Minh
Nguyen
Viét Cuòng
Nguyen
Thi
Huong
Thào
Nguyen
Thu Trang
Nguyen
Trung Kién
Hoc hàm, hoc vi, noi cong
tàc
CN.
PGS.
TS.
TS.
TS.
NCS
CN.
CN.
CN.
Khoa CNTT - DH Còng Nghé
Khoa CNTT - DH Còng Nghé
DH Tohoku
Vién KH&CN tién tién Nhàt Bàn
Khoa CNTT - DH Còng Nghé
Khoa CNTT - DH Còng Nghé
Khoa CNTT - DH Còng Nghé
Khoa CNTT - DH Còng Nghé
Két qua dào tao: 02 khóa luàn tòt nghiép Dai hgc.
1.
Sinh vién: Nguyen Trung Kién
Càn
bg
huó'ng
dan: TS. Nguyen Lé Minh, PGS. TS.
Ha
Quang Thuy
Tén
de
tài: Phàn doan tù tiéng Viet sù dung mò hinh CRFs.
2.
Sinh vién:
Nguyen
Thi Huong Thào
Càn bò
huó'ng
dàn: PGS. TS.
Ha
Quang Thuy, ThS. Dàng Thanh Hai
Tén de tài: Phàn lóp phàn cap Taxonomy vàn bàn Web và ùng dung.
Két qua khoa hgc và Còng nghé
Tòni
tot nói dung và két qua nghién
cim
'
Tim hiéu vé càu trùc àm tiét, càc loai tù tiéng Viét, càu trùc cum danh tù và tèn
riéng trong tiéng Viét
- Tìm hiéu
\è
càc
phucng
phàp hoc
mày tliòng
kc, trong dó lap trung vào hai mò
hinh
mó'i
\à manh là
Condilional
Random Fields và Support Vector Machines.
- Trong khuòn khò
de
tài, chùng tòi thu thàp và xày dung mot bò dù liéu trung
bình (khoàng 8000 càu) cho viéc thù nghiem, dành già.
- Thuc nghiem và
phuorng
phàp tàch tù tiéng Viét vói CRFs và SVMs
- Xày dung còng cu tàch tù tiéng Viét trong java
dira
trén CRFs
- Càc thành vién cùa
De
tài (thuòc Bó mòn CHTTT và Phòng thi nghiem "Còng
nghé tri thùc và
Tuonj
tàc
nguói-mày")
dà có thém kinh nghiem vé viec xù ly
ngón ngù mang dàc trung cua tiéng Viét.
Càc bài bào khoa hoc dà cóng bó trong pham vi de tài
'
Vietnamese Word Segmentation with CRFs and SVMs:
An Investigation.Cam-Tu
Nguyen,
Tning-Kien
Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and Quang-
Thuy Ha (2006). The 20th Pacific Asia Conference on
Language,
Information
and Computation
(PACLIC20),
November 1-3, 2006, Wuhan, China,
p.215-222.
1.4. Project Report
Project name: Fundamental Vietnamese Shallow Processing with Modem
Statistica!
Machine Leaming Methods
Project code: QC.06.07
Duration: From 03/2006 to 03/2007
Management Organization: Vietnam National University
Performing Organization: College of Technology
Project leader: Nguyen Cam Tu, BA
Project team members:
No
1
2
3
4
5
6
7
8,
Full Name
Nguyen Cam Tu
Ha Quang Thuy
Phan Xuan Hieu
Nguyen Le Minh
Nguyen Viet Cuong
Nguyen Thi Huong Thao
Nguyen Thu Trang
Nguyen Trung Kien
Title, Organization
BA.
Asso.Prof.Dr.
Dr.
Dr.
BA.
BA.
BA.
BA.
College of Technology
College of Technology
Tohoku University
Jaist, Japan
College of Technology
College of Technology
College of Technology
College of Technology
Training results: 02 Bachelor Thesises
3.
Student: Nguyen Trung Kien
Advisors: Dr. Nguyen Le Minh,
Asso.Prof
Dr. Ha Quang Thuy
Titile: Vietnamese Word Segmentation using CRFs
4.
Student: Nguyen Thi Huong Thao
Ad\isors:
Asso.Prof
Dr. Ha Quang Thuy, Ms. Dang Thanh Hai
Title:
Hierarchical
Classification
for Web and Application.
Scientic results:
Content and research results summary:
- Research syllable structure and types
o^
vvords as
well
as structures of noun
phrases and proper names in Vietnamese.
- Research
statistica!
machine leaming methods, particularly the two porwerful
methods - Conditional Random Fields (CRFs) and Support Vector Machine
(SVMs).
-
Build
up a moderate corpus of about 8000 sentence for experiments and
estimations of our methods.
- Make experiments of using CRFs and SVMs in Vietnamese word segmentation.
- Build a tool for Vietnamese word segmentation using CRFs
- Provides more experiences in naturai language processing and text mining for
members in projects.
Papers supported by project:
'
Vietnamese Word Segmentation with CRFs and SVMs: An
Investigation.Cam-Tu
Nguyen,
Trung-Kien
Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and Quang-
Thuy Ha (2006). The 20th Pacific Asia Conference on Language, Information
and Computation
(PACLIC20),
November 1-3, 2006, Wuhan, China,
p.215-222.
7
2.
Phàn nói dung
chinh
2.1.
Dat vàn
de
Càc bài toàn nén tàng nhu tàch càu (sentence segmentation), tàch tù (word
segmentation), tàch cum danh tù (noun phrase chunking) và trich chgn thuc thé
(Named Entity Recognition) giù vai trò tién
de
cho càc buóc xù ly ngón ngù tu nhién
nhu dich mày (machine translation), tóm tàt vàn bàn (documentation
sumarization),
hiéu vàn bàn (massage understanding) hay khai phà dù liéu text (Text Mining) Màc
dù xù ly ngòn ngù tu nhién trong tiéng Anh, Phàp, Nhat, Trung Quòc, dà dugc giài
quyét tuang dòi tòt, vàn
de
xù ly tiéng Viét
con
là bài toàn
de
ngò.
Càc mò hình hgc mày thòng ké hién dai nhu HMMs, MEMMs, và dac biét là
CRFs[14]
và
SVMs[ 19,20]
dà chùng minh dugc thé manh trong viéc gàn nhàn và phàn
doan dù liéu dang chuòi và mò hình hóa ngòn ngù. Nghién cùu và giài quyét càc bài
toàn nén tàng theo huóng tiép can hgc mày thòng ké hién dai là mot
huóng
nhiéu trién
vgng và hùa ben sé dem lai nhùng két qua khà quan.
2.2.
Tong quan càc vàn de nghién
CLPU
Nhùng nghién cùu dugc còng bò gàn day vé xù ly tiéng Viét thuòng
chi
giài quyét
mot vàn
de
co*
bàn riéng biét và
chi
dùng ó mùc ly thuyét
ma
chua có mot còng cu
hay mot phàn mém xù ly tiéng Viét nào dugc còng bò ròng rài. Dòi vói bài toàn tàch
tù tiéng Viet, màc dù dà có mot sò còng trinh khoa hgc dugc còng bò
[8,21,22],
nhung
da phàn déu khòng so sành
vó'i baseline
, hoac khòng dat két qua mong muòn . Riéng
dòi vói bài toàn nhan dang thuc thé tiéng Viét, có rat it nghién cùu tap trung vào bài
toàn này và cho dén nay nghién cùu cùa nhóm vàn là mot trong nhùng nghién cùu dàu
tién.
Trong khuòn khò
de
tài này, chùng tòi tap trung vào càc vàn
de
vé ngòn ngù
trong tiéng Viét
\'à
càc phuong phàp hgc mày dòng thói nghién cùu ùng dung càc
phuong phàp hgc mày trong viéc xù ly càc bài toàn ngòn ngù co bàn mot càch tu dgng
bang mày tinh.
Lién quan dén ngòn ngù, chùng tòi tim hiéu vé càu trùc àm tiét, càc loai tù tiéng
Vici,
càu trùc cum danh tù và tén riéng trong tiéng
Viet.
Nhùng
vàn de
này se dugc de
càp trong phàn Càc
nguyen
tàc co bàn trong tiéng Viet.
Càc mò hinh hgc mày, chùng tòi tim hiéu
\'é
càc phuong phàp hgc mày thóng
ké,
trong dó tap trung \ào hai mò hinh mai
\à
manh là Conditional Random Fields
\à
8
Support Vector Machines. Nhùng vàn de này sé dugc trinh
bay
trong phàn. Mot sò mò
hinh hgc mày thòng ké.
Thù nghiem càc phuang phàp hgc mày cho viec xù ly ngòn ngù tu dóng dòi hòi
phài có mot kho ngù liéu dù lón, dù tin cay. Trong khuòn khò
de
tài, chùng tòi thu
thap và
xày
dung mot bó dù lieu trung bình (khoàng 8000 càu) cho viéc thù nghiem,
dành già. Càc buóc xày dung tap dù lieu thù nghiem se dugc trinh
bay
trong phàn
2.4.4
Phàn
2.4 5
trinh
bay
phuang phàp cùa chùng tòi trong viéc giài quyét mot sò bài toàn
nén tàng và mot sò két
qua
dòi vói bài toàn tàch tù, và trich chgn thuc thé tiéng Viét.
Cuòi cùng là mot sò dành già chung vé
de
tài, dua ra nhung két luan cu thé cung nhu
nhùng huóng nghién cùu tiép theo.
2.3. Dja dièm,
th&l
gian và
phipang
phàp nghién CLPU
•
De
tài thuc hién trong mot nàm tù thàng 03/2006 dén thàng 03/2007 tai Bò mòn
Càc He thòng Thòng tin, Khoa Còng nghé Thòng tin và tai phòng thi nghiem
muc tiéu "Còng nghé Tri thùc và Tuong tàc nguói mày"
• • Thu thap và khào sàt càc noi dung lién quan tù Internet và càc
co*
quan dòi tàc
trong cùng
ITnh
vuc ngòn ngù hgc và xù ly ngòn ngù tu nhién
• Két hgp nghién cùu còng nghé và ly thuyét
• Tò chùc seminar, tham
già
càc bòi nghi, bòi thào lién quan dén
ITnh
vuc xù ly
ngòn
ngù'
tu nhién
2.4.
Nói dung và
i<ét qua
nghién cùu
2.4.1.
Cac
nguyen
tàc
ce
bàn trong tiéng Viet
a. Cau tao àm tiét
tiéng
Viet
(lj
Àm tiét tiéng Viét khòng phài là mot khòi khòng thé chia càt dugc
ma
là mot càu trùc.
Mò hình càu trùc tòng quàt cùa tàt cà càc àm tiét tiéng Viét là:
THANH
DIEU
Am dàu
VÀN
Am dém
Am chfnh
Am
cuòi
Thành phàn thù nhàt
"thanh
diéu"
có chùc nàng phàn biét càc àm tiét
\'ó"i
nhau
vé cao dò. Thành phàn thù hai có chùc nàng mó dàu mot àm tiét. Càc àm tiét khàc
9
nhau có thé phàn biét vói nhau
bang
nhùng càch mó dàu khàc nhau. Dó là àm dàu.
Thành phàn thù ba có chùc nàng làm thay dòi àm sàc cùa àm diéu sau
lue
ma dàu, cu
1 % f y
I
thè
là làm
tram
hóa àm tiét. Dó là àm dém. Thành phàn thù tu
''àm
chinh" quyét dinh
àm sàc chù yéu cùa àm tiét, là hat nhàn cùa àm tiét. Thành phàn này bao gió cùng do
mot
nguyen
àm dàm nhiém. Thành phàn cuòi cùng dàm nhiém chùc nàng két thùc àm
tiét. Nguói ta ggi thành phàn này là àm cuòi.
b.
Tu'và
càc
tir
loai trong tiéng Viet
[1)
Tir
trong
tiéng
Viet
Tu'
là don vi nhò nhàt có nghTa, có két càu vò ngù àm
ben
vùng, hoàn chinh, có chùc
nàng ggi tén, dugc van dung dòc lap, tài hién tu do trong lói nói
de
tao càu.
Vi du: nhà, nguói, ào, cùng, néu, se thì.
Dan vi càu tao tù trong tiéng Viét là càc tiéng, cài
ma
ngù àm hgc vàn ggi là àm
tiét, Tiéng cùa tiéng Viét có già tri tuang
duaiig
nhu hinh vi cùa càc ngòn ngù
khàc.
-
Có nhùng tiéng tu
nò
mang nghTa, dugc qui chiéu vào mot dòi tugng, mot khài
niém nhu: cày, trói,
co,
nuóc, son, thùy, ài,
Có nhùng tiéng tu thàn
nò
khòng quy chiéu dugc vào
mot
dòi tugng, mot khài
niem; nhung có su hién dién cùa
nò
trong càu trùc tù hay khòng sé làm cho tinh
hình rat khàc. Vi du: (dai) nhàch, (xanh)
le,
(tre) pheo, (co) rà,
Tir
lotti trong tiéng Viét
Chùng ta hiéu phàn dinh tù loai là xép tàt cà càc tù cùa mot ngòn ngù thành nhùng
lóp,
nhùng nhóm càn cù
\'ào
dac trung ngù phàp cùa chùng. Theo dó vòn tù tiéng Viet
có thé xép vào
10
loai sau
day:
danh tir, dóng tù, tinh
tir,
so
tir,
dai
tir,
phu
tir,
két tir,
tra tir
- Danh tù: khài quàt
chi
vat (hiéu ròng bao gòm cà nguói, dgng vàt, thuc vat, dò
vat, càc chat, nhùng khài niém trùu tugng vé vàt tuong duong vói nhùng thù
vùa ké. Danh tù gòm danh tù vat thé, danh tù chat thé, danh tù tugng thé (chi
càc vat chi có trong tuóng tugng), danh tù tap thé
(vi
du dàn,
bay,
lù, bon,
),
danh tù
chi
loai (cài, con, cày, nguói, tàm,
bue,
tó, sgi, cuc, hòn, hat,
giot,
),
danh tù chi don vi. dai lugng
(vi
du: màu, sào, thuóc, ); danh tù chi dan vi
hành chinh
{\\
du
nuó'c,
tinh,
xà, ban, he, ), Danh tù chi tap thé nhu bon, tui,
dàn, bò, bó, nàm, vòc,
10
- Dòng tù có y nghTa khài quàt chi hành dòng. Càc loai dòng tù: dòng tù tàm ly
(yéu/ghét, ); dòng tù tinh thài (càn, nén phài, ); dòng tù chi trang thài thu
dòng (bi, dugc, màc ); dòng tù chi càc trang thài khàc nhu có,
con,
hét, thòi,
màt, - Tinh tù: Tinh tù
thuòng
dugc chia thành hai lóp con: tinh tù tinh
chat
và
tinh tù quan he. Tinh tù tinh
chat
xuàt hién sau
rat,
qua, hoàc truóc làm,
qua
Tinh tù quan he có khà nàng két hgp nhu tinh tù tinh
chat,
vi du: tàp quàn
rat
Viét nam; cù chj rat
con
dò.
- Dai tù: dai tù nhàn xung, dai tù thay thé
(thè,
vay), dai tù chi dinh, chi lugng
(tàt cà, cà),
- Phu tù: nhùng tù chuyén làm thành tò phu cho danh tù nhu nhùng, càc, mot,
mgi,
mòi, tùng
,
- Két tù: và,
con,
ma,
thi, vi,,
e.
Cum danh tù trong tieng Viet
(Ngu-danh
tù/Danh ngu) |1]
Càc tù trong chuòi lói nói khòng phài là mot chuòi ké tiép giàn don
ma co
nhùng quan
he nhàt dinh vói nhau. Mòi tù khòng phài cùng mot
lue
có lién he vói tàt cà càc tù
trong càu
ma
truc tiép lién he vói mot tù dgc lap nào dò. Mot nhóm nhùng tù có lién
he truc tiép vói nhau a trong càu ggi là tó hap tir, Xét theo mòi quan he giùa càc bò
phàn càu thành tò hgp tù, nguò'i ta phàn biét tò hgp tù có quan he chù vi, tò hgp tù có
quan he binh dang
(con
ggi là lién hgp) và tò hgp tù có quan he chinh phu. Loai tò hgp
tù thù ba này dugc ggi là doàn ngu:
Danh ngù hay cum danh tù là doàn ngù có danh tù làm thành tò chinh. Càc
thành tò phu trong danh ngù chiém mot vi tri khà òn dinh trong lugc dò sau.
Tilt
ca
Vi tri -3
NliQng
Vi tri -2
Cài
Vi tri-1
Con mèo
Thành tò chinh
Den
Vi tri 1
A
ay
Vi tri 2
Thành tó chinh cua danh ngù
Tai phàn trung tàm cùa danh ngù chùng ta có thé gap mày kiéu thành tò chinh sau day:
- Thành tò chinh là danh tù hay dang ghép gòm
mot
danh tù chi loai \'à mot danh
tù, vi du: mèo, con mèo,
11
- Thành tó chinh trong kién trùc
"danh
tù chi loai
+
tò hgp tù tu do miéu tà":
trong truóng hgp này danh tù chi loai là thành tò chinh,
con
tó hgp tù miéu tà là
thành tò phu sau (vi tri 1).
Vi du: hai ngtrài dang ngòi dgc sàch
dàng
kia; nhùng viec nói hòm ng.
- Thành tò chinh là tù dai dién: Khi có mot tù khàc loai vói danh tù, dai dién cho
danh tù vàng màt dùng trong thành phàn trong tàm thì tù dai dién se dugc coi là
thành tò chinh hién hién cùa nhóm, và
day
vàn là nhóm danh tù. Vi du: ba
sói,
hai lanh
(baphàn
nuóc sòi, hai phan nuóc lanh); hai den (hai cóc cà phé den).
Thành tó phu triróc cùa danh ngù
- Vj tri
-1 :
thuòng là tù chi loai nhu
cài,
con,
Vi du: cài thép này, cài dot này, cài vài này,
-
Vi tri
-2: 0 vi tri -2 là nhùng lóp con tù sau day:
' ' Il
o Tù chi sò lugng xàc dinh hay là sò tù: tnót, hai, ba, bón, muòi, hai tram,
o Tù chi sò phòng doàn: vài, vài ba, dam, muoi,
o Tù hàm y phàn phòi: mòi, mgi, tùng,
o Quàn tù: nhùng, càc, mot
Vj tri
-3:
Vj tri -3 là vi tri càc tù chi tòng lugng tàt cà, hét thày, tàt thày, hét cà,
cà
(^toàn
bg)
Thành tó phu sau cua danh ngù:
- Vi tri
1
là vi tri cùa nhùng thuc tù néu dac trung cùa vat biéu thj bang danh tù
ò"
vi tri trung tàm. Sò lugng thirc tù có mat dòng thò'i
de
néu nhùng dac trung
khàc nhau tai vi tria này là khòng han
che,
tuy nhién thuòng gap tù mot dén ba.
Vé màt tù loai, tai vi tri này có thé xuàt hién tàt cà càc loai tù thuc, vé càu tao,
co
thé là mot tù hoac mot tò hgp tù, ké cà tò hgp tù chù-vi, và a vj tri này cùng
có thé gap ngù
co
dinh. Vi du: phòng top chi, phòng doc, phòng (cùa) chùng
tói,
- Vi tri 2 chuyén dùng cho càc tù chi dinh ày, ng, kia, này,
day,
dó nhu là dàu
hiéu duòng bién giói cuòi cua danh ngù (trù truòng hgp có thành tò chùa két tù
cùa thuòc vi tri 1, so sành: \iec ày/ cùa anh
\à
\'iec/cùa anh ày). Vói tu càch
này càc tù
chi
dinh
ò"
\'i
tri 2 thuòng giùp
\'ach
duòng ranh giói giùa càc thành
12
phàn càu, so sành: bài tha hay (danh ngù) và bài tha này/ hay (càu có chù ngù,
vi ngù rò rét).
2.4.2.
Mot SÓ
phiFcng
phàp hoc mày thóng ké
Trong phàn này, chùng tòi trình
bay
hai phuang phàp hgc mày thòng ké dugc nghién
cùu ùng dung trong khuòn khò
de
tài, dó là hai phuang phàp hgc mày dua trén CRFs
(Conditional Random Fields) và SVMs (Support Vector Machines). Day là hai phuang
phàp hgc mày dua trén thòng ké hién
rat
manh trong viéc phàn lóp và phàn doan vàn
bàn, day cùng là hai phuang phàp dugc chùng tòi sù dung nhàm giài quyét càc bài
toàn xù ly tiéng Viét.
a. Conditional Random Fields.
Trong mò hình mày trang thài hùu han, CRFs gòm càc trang thài mò hình dang chuòi
tuyén thinh, vò huóng, hay mot mày trang thài hùu hanh dugc huàn luyén dòc làp
thòng qua tinh chat first Markove.
Ggi 0 =
(O),
02,
, Ox)
là mot chuòi dù liéu quan sàt nào dò. Ggi S là mot tap
càc trang thài hùu han, mòi mot trang thài két hgp vói mot nhàn
lei.
Già sù s
===
(Si,
S2,.'M
ST)
là
mot chuòi trang thài nào dó, CRFs[2,3,14] xàc dinh xàc suàt diéu kién cùa
mot chuòi trang thài khi biét chuòi quan sàt và.
P/;(S|0)
2(0
exp
ZZ-^A/J-^,
M^-,0,/)
I
k
(1
Ò
day Z(o)
== ^
,,exp^^;i^//(5\_,
,5',
,0./) là thùa sò tòng hgp trén tàt càc
càc chuòi tòng thé.
/^
xàc dinh mot hàm feature theo ngòng ngù cùa phuong phàp cuc
dai entropy \'à
X^
là mot trgng sò dugc hgc vói
feature/k.
0
dày,/^
là có thé là edge
feature hoàc vertex feature
/ {s,,o,l) = ò{s,,l)x^{o,l)
(2)
/. {iransiitolì) ^ ^
e*/
7\
c/
j\
J^
{s,^,,s,,i)
=
5{s,_,J)5{s,.l)
(3)
13
Ò
day ^chi
Kronecker-c5.
Mot per-state feature (2) két hgp nhàn / tai trang
thài hién tai
Sj
và mot vj tù ngù cành. Vi tù ngù cành là mot hàm nhi phàn
x/,{oj)
xàc
dinh mot dac tinh nào dò cùa chuòi quan sàt o tai vi tri /. Vi du: nhàn hién tai là
B_PER và tù hién tai là
"Nguyen".
Mot transition feature (3) biéu dién nhùng su phu
thuòc có tinh
chat
chuòi bang càch két hgp nhàn / ' cùa trang thài truóc dó
s,./
và nhàn /
cùa trang thài hien tai
.s-,,
, vi du nhàn truóc là
/'=B_PER
và nhan hién tai là /=I_PER.
Huàn luyén CRFs thuòng dugc thuc hién bang càch làm cuc dai hóa hàm likelihood
theo dù luyén huàn luyén sù dung
kT
thuat tòi uu hóa hàm lòi nhu L-BFGs. Viéc làp
luan trong CRFs, hay nói càch khàc là tim chuòi nhàn dàu ra hgp ly nhàt cùa mòi
chuòi quan sàt, có thé dùng thuat Viterbi.
b.
Support Vector Machine
Xét phàn lóp nhi phàn, nghTa là nhàn chi nhan hay già tri là +1 hoac
-1.
Già sù chùng
ta có mot tap dù liéu huàn luyén D =
(x^,
yi),
,
(xi,
yi)
(XJG
R,J,
y,-
e {+1,
-1})
ó
day
X/
là mot vector feature cùa màu thù
i-th
dugc biéu dién bòi mot vector n chiéu,
y/
là
nhàn lóp cùa màu thù i (nhàn này nhan già tri (+1) hoac àm (-1)). / là sò càc màu huàn
luyén. Y tuóng chinh cùa SVMs là tàch càc màu duang và àm bòi mot siéu phàng biéu
dién duói dang (w.x)
+
b
==
0. SVMs [19,20] tìm siéu phang phàn chia dù liéu bang
càch làm cuc dai hóa
margin
(canh). Nói càch khàc, bài toàn này tuang dang vói giài
quyét bài toàn tòi uu hóa sau:
Làm cuc dai:
A/==2/||w||
Biét:y,{(AY.Xi) + b]
> 1.
Khòng chi phàn lóp tuyén tinh, SVMs cùng có thé thuc hien phàn lóp khòng
tuyén
tinh
bang càch giói thiéu hàm kernel, hàm này se nhùng dù liéu vào mot khóng
gian feature ó dó càc màu khòng tuyén tinh se tra thành tuyén tinh. Mac dù chùng tòi
khòng mò tà cu thé hàm kernel ó
day,
nhung tu tuòng chù dao cua càc hàm kernel là
chùng bào tòn tich vò huóng giùa càc càp vector trong khi bò bót nhùng ràng buòc vé
tga dò cùa càc diém.
Vé ca bàn, SVMs là phàn lóp nhj phàn, vi thé chùng ta phài ma ròng SVMs cho
phàn lóp da lóp. Phàn
ìóip
painvise là mot trong càc càch phò bién nhàt
de
mò'
ròng bài
toàn phàn lóp nhi phàn sang phàn lóp
K
lóp. Cu thé
\^é
phuong phàp này có thé tham
khào a
[19,20],
y tuòng chinh cùa phàn
ìóip painvis
là xày dung
K.(K-I)
2 bò phàn lóp
14
de xem xét tàt cà càc càp lóp và quyét dinh phàn lóp cuòi cùng có thé dugc xàc dinh
^ bang
phuong phàp bó phiéu có trgng sò (weighted voting).
2.4.3. Bo
di>
lieu
thLF
nghiém
Trong khuòn khò
de
tài, chùng tòi dà thu thàp và xày dung bò dù liéu cho bài toàn tàch
càu, tàch tù tiéng Viét, và mot phàn bài toàn doàn nhan thuc
thè
dinh danh trong tiéng
Viét.
Xày dung he thòng xù ly tiéng Viét phùc tap hon xày dung he thòng tuong tu
trong tiéng Anh do khòng có mot bó dù liéu chuàn dugc còng bò. Trong khuòn khò
de
tài,
chùng tòi dà thu thàp và xày dung mot bò dù liéu khoàng 305 bài bào tù càc trang
bào dién tù, càc bài bào này thuòc nhiéu
ITnh
vuc khàc nhau nhu kinh té, chinh tri, vàn
hóa Sau khi thu thap, dù liéu dugc tién xù ly, bò càc thé html, chuyén vé dinh dang
UTF-8 và sau dó là dugc gàn nhàn bàn tu dòng.
Ben
canh bò dù liéu, chùng tòi cùng thu thàp càc tài
nguyen
khàc dugc sù dung
de
tra cùu: tù dién tiéng Viét, danh sàch gòm 2000 tén tiéng Viet và mot danh sàch
gòm 707 tén dia danh trong tiéng Viét.
Ban
No
1
2
3
4
5
6
7
Tòng
g 1: Mot sò thòng ké vé
Corpuì
LTnh vuc
Kinh té
Còng nghé thòng tin
Giào
due
Otò-Xe
mày
Thé thao
Luàt
Vàn
hóa-Xà
hgi
Sò tài liéu
90
59
38
35
28
31
24
305 bài bào (khoàng gàn 8000 càu)
2,4,4.
Két qua
thipc
nghiém
Chùng tòi dà ùng dung thù nghiém SVMs và CRFs cho hai bài toàn tàch tù và xàc
dinh thuc thé tiéng Viét
\'à
dat két
qua rat
khà quan.
a. Bài toàn tàch
tiF
tiéng Viét
Dua và nhùng nghién cùu vé tiéng Viét, chùng tòi
de
xuàt viéc
lira
chgn dàc trung cho
bài toàn theo càc màu vi tù ngù cành dugc cho trong bang sau:
Bang 2: Vi tù ngù cành cho bài toàn tàch tù tiéng Viét
Loai
Syllable
Conj.
{SQ
Dictionary
(Dict)
Extemal Resources
(ERS.)
Miscellaneous
(Mise)
Vietnamese Syllable
Detection (f/5Z))
Màu
ngu*
cành
Syllable Conjunction
(-2,2)
ln_LacViet_Dictionary
(-2,2)
ln_Personal_Name_List(0,0),
ln_Family_Name_List(0,0),
In_Middle_Name_List(-2,2),
In Location List(-2,2)
Is_Regular_Expression(0,0),
Is
Initial Capitalization(0,0),
ls_All_Capitalization(0,0),
Is_First_Observation(0,0),
Is
Marks(0,0)
Is
Valid
Vietnamese Syllable(0,0)
Có 5 loai màu ngù cành gòm
SC,
Dict, ERS,
Mise
và VSD. Càc màu ngù cành
dugc cho a còt
ben
phài, vi du Syllable_Conjuction(-2,2) có nghTa là ta lày càc àm tiét
tai vj tri -2 so dén vi tri sò 2 vói vj tri hién tai và két hgp chùng lai vói nhau. Tuang
tir
In_Lacviet_Dictionary(-2,2) là ta xét mot két hgp àm tiét trong cùa sò tù -2 dén
2'CÓ
là
mot tò hgp dugc cho trong tù dién hay khòng
Vói càc màu ngù cành này, chùng tòi
lira
chgn càc dac trung khàc nhau và tién
hành tàch tù vói hai phuong phàp SVMs và CRFs. Két
qua
tàch tù cao nhàt dat già tri
FI
khoàng
94.23%
vói SVMs [3].
b. Bài toàn xàc djnh
thtFc thè
tiéng Viet
Chùng tòi thù nghiém dùng CRFs cho bài toàn xàc dinh thuc thé tiéng Viét. Càc màu
ngù cành dugc cho trong càc
bang
sau:
Bang 3: Vj tù ngù cành cho bài tòan xàc dinh thuc thé tiéng Viét
( 1
)
Mau
ngu'
cành
w:0,w:l
Y
nghra
Dù liéu quan sàt dugc tai vi tri hién tai và ngay
sau vi tri hién tai
Bang 4: Vi tù ngù cành cho bài tóan xàc dinh thuc
thè
tiéng Viét (2)
Màu
ngu' cành
initial_cap
all_cap
contain_percent
sign
first_obsrv
uncaped word
valid number
mark
4 digit number
Y nghìa
Tù viét hoa chù cài dàu tién (có khà nàng là
thuc thé)
—^ • •-•/
Tù gòm tòan càc chù cài viét hoa (có khà nàng
làORG,
vidu:
EU, WTO )
Tù chùa ki tu % (có khà nàng là thuc thé PCT)
T • < J
TÙ dàu tièn cùa càu (thòng tin vè viét hoa
khòng có y nghTa)
Tù viét thuòng (có khà nàng khòng phài là thuc
thè)
Tù hién tai là mot sò hgp le, vi du: 123; 12.4
Dàu càu nhu càc dàu chàm, phay , hai chàm
Nhiéu khà nang là nàm, vi du: nam 2005
Bang 5: Vi tù ngù cành cho bài tóan xàc dinh thuc thé tiéng Viét (3)
Màu
ngù'
cành
^[0-9]+/[0-9]+/[0-9]+S
'"[0-9]+/[0-9]+$
'^[0-9][0-9][0-9][0-9]$
^(T|t)hLr
(hai|ba
tu'nàm|sàu|bày
)$
^(Cic)hii nhàtS
^[0-9]%$
'^([0-9]|[A-Z])+$
Vidu
12/04/2005
22/5
2005
Thù
hai
7%
3C0M
Y nghTa
Ngày thàng
-
Ngày thàng hoàc phàn sò
Nàm
Ngày trong tuàn
Phàn tram
Tén còng ty
17
DAI HOC QUOC
GIÀ HA
NÓI
TRUNG TÀM THÓNG TIN THU VIÉN
DT/
ì-03
Bang
6: Vi tù ngù
cành
cho bài
tòan
xàc
dinh thuc
thé
tiéng Viét
(4)
Màu ngu'cành
first name
last
name
mid name
Verb
Time marker
Loc noun
Org noun
Per noun
Vi du
Nguyen,
Tran,
Lé
Hoa, Lan, Thàng
Thi,
Vàn, Dinh
—1
Sé,
dà, phàt biéu, nói
Sàng, trua, chiéu, tòi
1
Thi tran, tinh, huyén, thù dò, dào, |
•»
*•—1
•
0
Còng ty, tò chùc, tòng còng ty
Óng, bà, anh, chj, |
Kèt
qua
thù
nghiém
vói
CRFs theo
dò do
FI
khoàng
85.36%
[2,3].
2.5.
Thào luan
Bài toàn tàch
tù
tiéng Viét
là bài
toàn
co
so,
rat
có y
nghTa trong
xù ly
tiéng Viét.
Nhùng
két
qua
thuc nghiem
cho
thày phuang phàp SVMs
vói
viéc
lira
chgn thuòc tinh
tòt
se cho két qua cao hon dòi
chùt
so vói
CRFs.
Han thé nùa,
viéc
lua
chgn thuóc tinh
cho CRFs cùng
giù vai trò hét
sue
quan trgng, càng tich
hgp
nhiéu thòng
tin ngù
cành
dac trung
thì két
qua
tàch
tù
càng
tòt [2]
Nhùng
két
qua
cùa bài
toàn
xàc
dinh thuc
thé [3] tuy mai
chi
là két
qua
ban dàu
nhung
nò
có y
nghTa
là ca sò' so
sành (baseline)
cho
nhùng nghién
cùu sau này. Càc
màu
ngù
cành chùng
tòi dua ra là ggi y cho
viéc
xày
dung
he
thòng tàch
tù
hoàn thién
trong tuong
lai.
^
2.6.
Két
luan
và
Kién nghi
De
tài dà dat
dugc
càc muc
tiéu
dat ra vé
san
phàm khoa
hgc,
san
phàm
ùng
dung
và
san phàìn
dào tao.
Nhùng
kèt
qua
nghién
cùu
co
thé
dugc dùng
cho
viéc dành
già,
phàn tich
và có y
nghTa
cho
viec phàt trién
càc he
thòng
xù ly
tiéng Viet
mùc cao.
Màc
dù vày do
\'iec
xày
dung
kho dù
lieu
cho càc bài
toàn
này màt
nhiéu thòi gian
và
còng
sue
hon
chùng
tòi du
dinh
ban dàu, do vày vói
kinh
phi cùa
de
tài chi
ho
trg mot
phàn trong viéc
xày
dung
kho dù
liéu.
San
phàm thuc nghiem
cùa
de
tài (kho dù
liéu, còng
cu
tàch
càu,
tàch
tù ) có thé
dugc
sù
dung trong nhièu hoàn cành khàc nhau
và
tich
hgp vói càc ùng
dung
xù ly
ngòn
ngù mùc cao hon.
Qua
wèc
thuc hién
de
tài, càc càn bò
tham
eia
de
tài
duac
nànp
cao
nane
lue
nshién
cùu, có
thém kinh
nehiém
trong
hoc mày, xù
Iv neon
neù và
kién thùc
\é càc
dac trung
ngù
phàp
co bàn
trong tiéng Viét.
18
TÀI LIÉU THAM KHÀO
A.
Tài
lieu tiéng Viet
[1].
Mai Nggc Chù; Vù
Due
Nghieu & Hoàng Trgng Phién. Ca sa ngón ngù
hoc và tiéng Viet, Nhà Xuàt bàn Giào
due
(1997).
B.
Tài
lieu tiéng Anh
[2].
Nguyen Cam Tu (2007). Named Entity Recognition in Vietnamese
FreeText
arid
Web Documents Using Conditional Random Fields. Workshop on
Asian Applied NLP and language resource
development.
March 13, 2007,
Sirindhorn Internationa Institute of Technology, Pathumthani, Thailand
[3].
Cam-Tu Nguyen,
Trung-Kien
Nguyen, Xuan-Hieu Phan, Le-Minh
Nguyen and Quang-Thuy Ha
(2006).
Vietnamese Word Segmentation with
CRFs and SVMs: An
Investigation.
In The 20th Pacific Asia Conference on
Language, Information and Computation (PACLIC20), November 1-3, 2006,
Wuhan,
China,
p.215-222.
[4].
Berger,
A.D.Pietra,
and
J.D.Pietra
(1996). A maximum entropy approach
to naturai langauge
processing.
In Computational Linguistics, 22(1):39-71,
1996.
[5].
Andrew
Boithwick
(1999). A maximum entropy approach to Named
Entity Recognition. New York University, 1999.
[6].
McCallum, D.Freitag, and F. Pereira (2000). Maximum entropy markov
models for ìnformation extraction and segmentation. In Proc.
ICML,
591-598,
2000.
[7].
Ratnaparkhi (1996). A
maximum
entropy model for
part-of-speech
tagging. In Proc. EMNLP,
1996,
[8].
Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001). Vietnamese Word
Segmentation. Proceedings of the Sixth Naturai Language Processing Pacific
Rim Symposium NLPRS2001), Tokyo (Japan), 27-30 November 2001, 749-
756.
[9].
Dong C.Liu and Jorge Nocedal (1989). On the limited
memoiy
BFGS
method for
large
scale optimizatìon. Mathematical Programming 45 (1989),
503-528
[10].
F.Sha and F.Pereira (2003). Shallow parsìng with conditional random
fields. In Proc.
HLT/N^AACL,
2003.
19
[11].
Hammersley, J., & Clifford, P.
{\91\)
Markov fields on finite graphs and
lattices. Unpublished manuscript, 1971.
[12].
Hanna Wallach (2002).
Effiicierit
Training of Conditional Random Fields,
University of Edinburgh, 2002.
[13].
J. Han and M. Kamber (2001). Data
Mining-Cotìcepts
and Techniques.
Morgan
Kaufmann,
2001.
[14].
J.Lafferty,
A.McCallum,
and F.Pereira (2001). Conditional random
fields: probabilistic models for segmenting and labeling sequence data. In Proc.
ICML, 82-289, 2001.
[15].
L.R.Rabiner. A
tutoria!
on hidden markov models and selected
applications in speech recognition. In Proc. the IEEE, 77(2):257-286, 1989.
[16].
Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003). Modeling the
Iiiteiiiet
and the Web: Probabilistic Methods and
Algorithms,
Wiley,
ISBN: 0-
470-84906-1
2003,.
[17].
Soumen
Chakrabaiti
(2003). Mining the Web: Discovering Knowledge
from
Hypei^text
Data. Morgan Kaufmann Publishers,
2003.
[18].
William W. Cohen and Andrew McCallum (2003). Information
Extraction from the World Wide Web. KDD
2003.
[19].
Vapnik, V.N. Statistical Leaming
Theoiy.
Wiley-Interscience
[20].
Kudo, T., Matsumoto, Y. Chunking with Support Vector
Machines,
The
Second Meeting of the North American Chapter of the Association for
Computational Linguistics (2001)
[21].
Ha, L.A. A method for word segmentation in Vietnamese.
Coipus
Linguistics, Lancaster, UK (2003)
[22].
Nguyen, T.V., Tran, H.K., Nguyen, T.T.T., Nguyen, H Word
segmentation for Vietnamese text categorization: an online corpus approach.
Research, Innovation and Vision for the Future, The 4th Intemational
Conference on Computer Sciences (2006)
20
PHU LUC
• •
Phu
lue
gom có:
I
bào cào tai bòi thào PACLIC20 (The
20^^
Pacific Asia Conference on
Language, Information and Computation) in
VV^han,
Trung Quòc, thàng
II
nàm 2006.
1 bào cào tai Workshop cùa ADD-2 (The Asian Applied Naturai. Lang-
uage Processing for Linguistics Diversity and Language Resource
Development).
02 luan vàn dai hgc thuc hién theo huóng nghién cùu cùa
de
tài.
21
CLIC 20
Edited by
Tingting He
Maosong
Sun
Qunxiu Chen
The 20th
Pacific Asia Conference
on Language,
Information
and
Computation
Proceedings of the Conference
Wuhan, China
1-3 November, 2006
Tsinahua
University Press
Table
of Contents
Whlch
Is Essential for Chinese Word Segmentation: Character versus Word 1
Chang-Ning Huang and Hai Zhao 1
Multilinguality in
Tempora!
Annotation:A Case of
Korean
13
Kiyong
Lee
13
Towards
a Neuro-Cognitive Model of Human Sentence Processing 21
Kei Yoshimoto
and Shigeru Sato 21
Enhancing Automatic Chinese Essay Scoring System from Figures-of-Speech 28
Tao-Hsing
Chang,
Chia-Hoang
Lee and Yu-Ming Chang 28
English Morphological Analysis with
Machine-learned Rules
35
XuriTANG
35
Discovering Relations
aniong
Named Entities by Detecting Community Structure 42
Tingting He .
Jiinzhe
Zhao and Jing Li 42
A Full Inspection on Chinese Characters Used in the
Scerete
Hlstory of the Mongols 49
Di Jiang and
Xuewen Zhou
49
An Information Retrieva! Model Based On Word Concept 56
Chen
V/u,
Quan Zhang and Xiangfeng Wei 56
Discriminative Reranking for Spelling Correction 64
Yang Zhang,
Pilian
He, Wei Xiang and Mu Li 64
A User
Interface-Level
Integration Method for Multiple Automatic Speech Translation Systems 72
Seiya
Osada,
Kiyoshi
Yamabana,
Ken Hanazawa and
Akitoshi Okumura
72
Effìcient
language model development for spoken dialogue recognition and its
e\
aluation on
operator's
speech at
cali
centers 80
Kiyokazu
VriKI,
Kaichiro
HATAZAKi
and
Hiroaki
HATTORI 80
Effcctive Tag Set Selection in Chinese Word Segmentation via Conditional Random Fieid Modeling
'.
87
Hai Zhao, Chang-Ning Huang, Mu Li and Bao-Liang Lu 87
A Study on the Structure of Korean Knowledge Database 95
Yude Bi, Binhong
V/u
and
Jianguo
Xiong 95
A Comparative Study of the Effect of Word Segmentation On Chinese
Terminology
Extraction
101
Luning
Ji.
Qin Lu, Wenjie Li and YiRong Chen
101
TCtract-A Collocation Extraction Approach for Noun Phrases Using
Shallow
Parsing Rules and
Slatistic
Models
109
Wan
Yin
Li.
Qin Lu and James
Liu 109
Chinese Speech Information Retrieval for Questions on Mobile Phone Opcration
117
Kai
Ishikawa,
Susumu
Akamme
and Ken Hanazawa
117
A Chinese Dependency S>'ntax for Treebanking
126
Haitao Liu and Wei Huang 126
Multi-feature
Based Chinese-English Named Entity Extraction from Comparable Corpora 134
Min Lu and Jun Zhao 134
Type grammar meets Japanese particles 142
Kumi Cardinal
142
An Approach to
Automatically
Constructing Domain
Ontology
150
Tingting He, Xiaopcng Zhang and Xinghuo Ye 150
Auto-extracting Paraphrases of Letter-word Phrases in Live Texts 158
ZezhiZHENG
158
Japanese Ditransitive Verbs and the Hierarchical Lexicon
165
Akira Ohtani
165
The Analysis of Chinese Sentence Semantic Chunk Share Based on
HNC
Theory 175
Quan Zhang, Chen Wu and Xiangfeng Wei 175
Using Chinese Gigaword Corpus and Chinese Word Sketch in linguistic research
183
Jia-Fei
Hong and Chu-Ren Huang 183
Tense Markers and
-tw
Constructions in Korean 191
Hee-RahkChae
191
Topic-Comment
Articulation
in Japanese: A
Categoria!
Approach
198
Hiroaki
NAKAMURA 198
Knowledge-Rjch
Approach to Automatic
Grammatica!
Information Acquisition:Enriching Chinese
Sketch Engine with a Lexical Grammar 206
Chu-Ren Huang,
Wei-Yun
Ma, Yi-Ching Wu and
Chih-Ming Chiù
206
yietnamjese WordvS.egnjen.t3tion wth
CRFs and
SAWsr
An
Tnvestigatlòn.
«.„.
215»
Cam-Tu Nguyen,
TaingrKien
Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and Quang-Thuy Ha 215
A language-independent method for
tlie
alignement of parallel corpora 223
NGUYEN Thi,
Mmh
Huyen and Mathias Rosignol 223
The Current Status of Sorting Order of Tibetan Dictionaries and Standardization 231
DI
Jiang
231
Re-ranking Method Based on Topic
W^ord
Pairs 237
Tingting He, Ting Xu, Guozhong Qu and Xinhui Tu 237
A Text Classifier Based on Sentence Category VSM 244
ZHANG
Yun-tiang
and ZHANG Quan 244
Research on
Hypothesizing
and Sorting the Eg Candidates in Chinese Semantic Parsing 250
XiangFeng Wei and Quan Zhang 250
Mining the Relation between Sentimenf Expression and Target Using Dependency of Words 257
Zhongchao Fci,
Xuanjing
Huang and
Lide
Wu 257
Forest
Dri\en Dependency
Analysis Enhanced by Japanese Clause Structure
Estimation
265
Vietnamese Word Segmentation with
CRFs and SVMs: An Investigation
Cam-Tu
Nguyen', Trung-Kien Nguyen', Xuan-Hieu
Phan^
Le-Minh
Nguyen^
and Quang-Thuy Ha'
' College of Technology. Vietnam National University, Hanoi
School of Information Science, Japan Advanced Institute
of
Science and Technology
ncamtu@vnu,edu,vn
.
ntkien(givnu.edu.vn
.
,jp
nguyenml(aijaist.acjp
,
Abstract. Word segmentation for Vietnamese,
like
for most Asian languages. is an
important
task
which has a
significanl
impact on
higher
language processing levels. However, it has received
liule
atlenlion of the community due lo the
lack
of a common annotated corpus for evaluation and
coinparison.
Also,
most previous studies focused on
unsupervised-statistical
approaches or
combined
too many techniques. Consequently. their accuracies are not as high as expected. This
paper reporls a
careful
investigation of using conditional random fields (CRFs) and support vector
machines (SVMs) - two of the most successful statistical leaming methods in NLP and paUem
recognition - for solving the task. We first build a moderale annotated corpus using
differenl
sources
of materials. For a careful evaluation, differenl CRF and SVM models usmg differenl feature
sctlings were trained
and their results are compared and
contrasled
with each other.
In
addition,
we
discuss
severa!
imporiant
points about
ihe
accuraey.
computational
cosi,
corpus
size
and other
aspccls
Ihai mighl infìuence
the overall quality of Vietnamese word segmentation,
Kcywords:
Word segmentation, segmenting and labeling sequence
daia,
conditional random fields,
support veclor machines. maximum malching.
1 Introduction
«
Word segmentation is one of the fundamental preprocessing steps in NLP for building higher
applications.
It is even more important and challenging in Asian languages, such as Chinese. Japanese,
and
Korea.
because
there is no
white
space between two consecutive words.
Vietnamese
language faces
a similar problem due lo the fact that a word may contain more than one
separaled
syllables, and
therefore the white space
is
not always the word
separator.
in recent
years,
word
boundai7
detection for Vietnamese has received more attention trom the
community and there bave been several
statistica!
and machine leaming methods applied to the task.
However, most of the current methods either suffer from unsatisfactory results
[L
2] (with
accuraey
of
91%
or
lower)
or must combine many techniques in a
multi-level
processing to obtain good results [3].
In addition, their works were done without comparison to any baseline or study of the quality of the
corpus (e.g., the
out-of-vocabulary
rate, the number of date/lime and numbers). Also, there
is
stili no
common standard annotated corpus for evaluation and
comparison.
In this paper, we present a thorough investigation of using
two
powerful statistical learning methods,
CRFs and SVMs, to perform the task. To do so, we first build an annotated corpus of about 8000
sentences with word boundary marked. Although the corpus
is
not large enough lo cover a broad range
of Vietnamese vocabularies.
il
contains documents from differenl domains to reduce the imbalance
in
word distribution. Then, CRF and SVM models are trained on the corpus using various feature
configiirations
and their perfonnances are compared and contrasted
wiih
each other to
determine
the
impact of feature selection as well as the
generalization
power of CRFs and SVMs on the segmentation
accuraey.
CRF and
S\'M
models are also compared
v^'iih
a baseline (maximum
matching
from a
Vietnamese dictionary) lo see the
exteni
lo
\\'hich
machine leaming techniques can
help
lo
impro\'e
the
21fì