Tải bản đầy đủ (.docx) (178 trang)

Nghiên cứu phát triển một số kỹ thuật tách từ tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.57 MB, 178 trang )

BỘGIÁODỤCVÀĐÀOTẠO

BỘQUỐCPHỊNG

HỌCVIỆN KỸ THUẬTQN SỰ

TRẦNNGỌCANH

NGHIÊNCỨUPHÁTTRIỂN
MỘTSỐKỸTHUẬTTÁCHTỪTIẾNGVIỆT

LUẬNÁNTIẾNSĨTỐNHỌC

HÀNỘI– NĂM2016


HỌCVIỆN KỸ THUẬTQN SỰ

TRẦNNGỌCANH

NGHIÊNCỨUPHÁTTRIỂN
MỘTSỐKỸTHUẬTTÁCHTỪTIẾNGVIỆT
Chunngành:Cơsởtốnhọcchotin họcMãsố
: 62.46.01.10

LUẬNÁNTIẾNSĨTỐNHỌC

NGƯỜIHƯỚNGDẪNKHOAHỌC:
1. PGS.TS.Đào ThanhTĩnh
2. PGS.TS.NguyễnPhươngThái


HÀNỘI– NĂM2016


- ii-

LỜICAMĐOAN

Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi. Các kết quả
viếtchung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa
vàoluận án. Các số liệu, kết quả nghiên cứu trong luận án là trung thực và chưa
từngđược cơngbố trong bất kìcơng trìnhnàokhác.
Tácgiảluậnán

TrầnNgọcAnh


-3-

LỜICẢM ƠN

Trướchết,tácgiảxinchânthànhcảmơnhaithầyhướngdẫn,PGS.TS.ĐàoThanhTĩnhvà
PGS.TS.NguyễnPhươngThái,đãđịnhhướng,tậntìnhhướngdẫn,giúpđỡtácgiảtrongsuốtthời
giannghiêncứu,đãđónggópnhiềkiếnkhoahọccholuậnánnày.
TácgiảxinbàytỏlờicảmơnchânthànhđếntậpthểBộmơnHệthốngthơngtin,KhoaCơngngh
ệThơngtinvàPhịngSauđạihọc,HọcviệnKỹthuậtQnsự;tácgiảxinchânthànhcảmơnđếntậpt
hểcánbộTrungtâm2,CụcCơngnghệThơngtin,BộTổngThammưu;xincảmơntậpthểKhoaC
ơngnghệThơngtin,TrườngĐạihọcCơngnghệ,ĐạihọcQuốcgiaHàNộiđãtạođiềukiệnthuậnlợi
chotácgiảhồnthànhluậnáncủamình.TácgiảcũngxincảmơnsựhỗtrợcủaĐềtàiĐạihọcQuốcgi
aHàNội(mãsốQG.12.49)vàĐềtàiQuốcgia(mãsốKC.01.20/1115)trongqtrìnhnghiêncứu,thựchiệnluậnán.
TácgiảxinbàytỏlờicảmơnđếnGS.TSKH.PhạmThếLong,PGS.TS.LươngChiMai,P

GS.TS.LêThanhHương,PGS.TS.LêAnhCường,PGS.TS.BùiThuLâm,PGS.TS.Nguyễn
XnHồi,PGS.TS.NgơThànhLong,TS.NguyễnThịMinhHuyền,TS.HoaTấtThắng,TS.Ng
uyễnVănVinhvàTS.LêHảiSơnđãcónhiềkiếnđónggópqbáugiúptácgiảhồnthiệnbảnthảol
uậnáncủamình.
Tác giả xin bày tỏ lời cảm ơn đến các chuyên gia: TS. Lê Hồng Phương
(vớiVnTokenizer), TS. Nguyễn Cẩm Tú (với JvnSegmenter), KS. Lưu Tuấn Anh
(vớiDongDu),TS.NguyễnChíThànhvàTS.TrầnVănAnđãhỗtrợtácgiảthựchiệnqtrìnhhuấn
luyệnlạivàchạythửnghiệmtáchtừtrêncáchệthống.
Tácgiảcũngxinbàytỏlờicảmơnđếncácchungiangơnngữhọc:TS.NguyễnThịTrungThành
vàTS.TrươngThịThuHàđãnhiệttìnhgiúpđỡtácgiảmộtsốvấnđềliênquanđếnngơnngữhọctrongqt
rìnhnghiêncứu.
Tácgiảgửilờicảmơnnhữngngườianhem,nhữngngườiđồngđộilngiúpđỡ,ủnghộvàđộngv
iêntácgiảkểtừkhibắtđầunghiêncứuđếnnay.
Cuốicùng,tácgiảbàytỏlịngbiếtơnsâusắcđốivớichamẹvànhữngngườithântronggiađình,đặc
biệtlàhaimẹconGiangNgunvàKhánhLinhđãlnchiasẻvàủnghộtácgiảtrongsuốtthờigianth
ựchiệnluậnánnày.


MỤCLỤC
Trang

DANHMỤCCÁCKÝHIỆU,CÁCCHỮVIẾTTẮT.................................................vii
DANHMỤCCÁCBẢNG..........................................................................................ix
DANHMỤCCÁCHÌNHVẼ,ĐỒTHỊ........................................................................xi
DANHMỤCCÁCTHUẬTTỐN...........................................................................xii
MỞĐẦU..................................................................................................................... 1
Chương1TỔNGQUANVỀBÀITỐNTÁCHTỪTIẾNGVIỆT...............................4
1.1. BÀITỐNTÁCHTỪTIẾNGVIỆT....................................................................4
1.1.1. PhátbiểubàitốntáchtừtiếngViệt..................................................................4
1.1.2. ĐặctrưngcủađơnvịtừvựngtiếngViệt.............................................................5

1.1.3. NhữngvấnđềkhótrongtáchtừtiếngViệt.........................................................8
1.1.4. PhươngphápđánhgiákếtquảtáchtừtiếngViệt..............................................10
1.2. NHỮNGTIẾPCẬNTRÊN THẾGIỚIVÀTRONGNƯỚC................................10
1.2.1. Nhữngtiếpcậntrênthếgiới..........................................................................11
1.2.2. Nhữngtiếpcậntrongnước...........................................................................14
1.2.3. NhữngkếtquảđạtđượctrongtáchtừtiếngViệt...............................................16
1.2.4. NhữngtồntạitrongnghiêncứutáchtừtiếngViệt.............................................17
1.3. ĐỀXUẤTHƯỚNGGIẢIQUYẾT....................................................................20
1.3.1. XácđịnhtàingunchobàitốntáchtừtiếngViệt...........................................20
1.3.2. ThốngkêchấtlượngcáckhongữliệumẫutiếngViệt........................................21
1.3.3. ChọnmơhìnhtíchhợpchotáchtừtiếngViệt...................................................24
Chương2TÁCHTỪVÀNHẬNDIỆNTHỰCTHỂVĂNBẢNTIẾNGVIỆT............26
2.1. THUẬTTỐNTÁCHTỪTIẾNGVIỆT...........................................................26
2.1.1. ThuậttốntáchtừtiếngViệtVWS.................................................................26
2.1.2. Cácthuậttốndùngchungtrongtáchtừ..........................................................26
2.1.3. Thửnghiệmthuật toán sokhớpcựcđạicảitiếnAMM.....................................32
2.2. NHẬNDIỆNTHỰCTHỂVÀKHỬNHẬPNHẰNGTÊNRIÊNG......................33
2.2.1. Bàitoán nhậndiệnthựcthểtrongvănbản.......................................................33
2.2.2. NhậndiệncácthựcthểtrongvănbảntiếngViệt...............................................34
2.2.3. Nhận diện vàkhử nhậpnhằng ranhgiớitên riêng tiếng Việt........................38
2.2.4. Kếtquảthửnghiệm.....................................................................................44
Chương3NHẬNDIỆNTỪLÁYVÀTỪGHÉPĐẲNGLẬPT I Ế N G VIỆT...............46
3.1. NHẬNDIỆNTỪGHÉPBẰNGHỌCKHÔNGGIÁMSÁT................................46


3.1.1. Chọnđộdài từ ghéptiếng Việt cho họckhônggiámsát.................................46
3.1.2. Mộtsố độđo thốngkê nhận diệntừ ghépcó 2 âmtiết tiếngViệt.....................46
3.1.3. Giảiphápnhậndiện từghépcó2âmtiếttiếngViệtdựavào đỉnhnhọn................50
3.1.4. Kếtquảthửnghiệm.....................................................................................51
3.2. NHẬNDIỆNTỪLÁYTIẾNGVIỆT.................................................................54

3.2.1. CácđặcđiểmcấutạotừláytiếngViệt.............................................................55
3.2.2. NhậndiệnvàxâydựngtừđiểntừláyđôitiếngViệt...........................................56
3.2.3. Nhậndiệntừláyba,từláytưtiếngViệt............................................................58
3.2.4. Kếtquảthửnghiệm.....................................................................................60
3.3. NHẬNDIỆNTỪGHÉPĐẲNGLẬPTIẾNGVIỆT............................................61
3.3.1. Cácđặctrưngvềcấutạo từghép đẳnglậptiếngViệt........................................61
3.3.2. NhậndiệnvàxâydựngtừđiểntừghépsongtiếtđẳnglậptiếngViệt.....................63
3.3.3. Nhậndiện tổhợptừ,thànhngữcó3hay4âmtiết..............................................69
3.3.4. Kếtquảthửnghiệm.....................................................................................71
Chương4KHỬNHẬPNHẰNGRANHGIỚITỪTIẾNGVIỆT...............................73
4.1. NHẬPNHẰNGRANHGIỚITỪTIẾNGVIỆT..................................................73
4.1.1. Kháiniệmvàphânloại nhậpnhằngranhgiớitừtiếngViệt................................73
4.1.2. Thốngkêvàgiảiphápkhửnhậpnhằngranhgiớitừ...........................................74
4.1.3. Tạongữliệunhậpnhằngchohuấnluyệnvàthửnghiệm....................................76
4.2. KHỬNHẬPNHẰNGRANHGIỚITỪBẰNGTỪĐIỂN....................................77
4.2.1. PhươngphápkhửnhậpnhằngCAbằngtừđiển(VWS5.1)...............................77
4.2.2. Kếtquảthửnghiệm.....................................................................................79
4.3. KHỬNHẬPNHẰNGBẰNG ĐỘPHỨC TẠPVĂNBẢN.................................80
4.3.1. Độphứctạpvănbảntheoxácsuấtbigrammứctừ.............................................80
4.3.2. Độphứctạpvănbảncủamơ hìnhMarkov ẩngánnhãn từloại...........................81
4.3.3. Độ phứctạpvăn bản củabigrammức từ và gán nhãn từ loại........................82
4.3.4. Kếtquảthửnghiệm.....................................................................................84
4.4. KHỬNHẬPNHẰNGBẰNG MƠHÌNHĐIỂMSỐ...........................................87
4.4.1. Mơhìnhđiểmsố khử nhậpnhằngchồnglấpOAtheongữcảnh.........................88
4.4.2. Mơhìnhđiểmsố khử nhậpnhằngghéptáchCAtheongữcảnh.........................90
4.4.3. Kếtquảthửnghiệm.....................................................................................92
Chương5THỬNGHIỆMVÀĐÁNHGIÁ................................................................95
5.1. THỬNGHIỆMTÁCHTỪTIẾNGVIỆT...........................................................95
5.1.1. MơtảcácbướctrongthuậttốntáchtừtiếngViệt.............................................96
5.1.2. Các nhómgiải pháp dùngcho thửnghiệmtách từ tiếngViệt.........................97

5.1.3. Thửnghiệmtáchtừvàđánhgiá.....................................................................97


5.2. SOSÁNHVỚIMỘTSỐCƠNG CỤTÁCHTỪTIẾNGVIỆT............................102
5.2.1. Giớithiệuvềmộtsốcơngcụtáchtừhiệnnay..................................................102
5.2.2. Kếtquảthửnghiệmtách từ, đánhgiávàsosánh............................................104
5.3. KIỂMLỖICHÍNHTẢVĂNBẢNTIẾNGVIỆT...............................................107
5.3.1. GiớithiệubàitốnkiểmlỗichínhtảtiếngViệt...............................................107
5.3.2. Kiểmlỗicáchdùngtừvàcụmtừbằngmơhìnhngrammứcâmtiết.....................109
5.3.3. Kiểmlỗichínhtảbằngmơhìnhtáchtừvàgánnhãntừloại................................113
KẾTLUẬN.............................................................................................................117
DANHMỤCCƠNGTRÌNHCỦATÁCGIẢ...........................................................119
TÀILIỆUTHAMKHẢO........................................................................................120
PHỤLỤC................................................................................................................ 129
A. CÁCTHUẬTTỐNHỖTRỢ..........................................................................129
A1.Thuậttốntìmsốtừchungdàinhấtcủahaidãytừ................................................129
A2.Thuậttốnchuyểnmãunicode.......................................................................129
A3.ThuậttốnsửalỗichínhtảdấuthanhtiếngViệttựđộng.......................................131
A4.Thuậttốnxâydựngtừđiểnautomattốithiểu....................................................132
B. MINHHOẠKẾTQUẢTHỐNGKÊTỪCÁCTÀINGUN..............................139
B1.MinhhoạmộtsốlỗitrongkhongữliệuVietTreeBank........................................139
B2.Thốngkêsửalỗichínhtảcác khongữ liệumẫutiếng Việt..................................141
B3.Thốngkêcáckítựđặcbiệttrongcáckhongữliệu................................................141
B4.Thốngkêphânloại thựcthểvàđộdàithựcthểtrong cáckhongữliệu....................142
B5.Danhsáchcáctừtốtênriêng,tênriêngđặcbiệtvàtênhọngườiViệt.......................143
C. PHÉPĐOĐỘTƯƠNGTỰNGỮNGHĨADÙNGTỪĐIỂNVCL.........................147
C1.Độtươngtựdựavàosokhớpchuỗi xấpxỉ theokhoảng cách..............................148
C2.Độtươngtựdựavàophépđođồngxuấthiện......................................................148
C3.Độtươngtựtheovector(VectorSpaceModel)..................................................149
D. MỘTSỐTHUẬTTỐNSOKHỚPCỰCĐẠI...................................................150

D1.SokhớpcựcđạiMM(MaximumMatching)....................................................150
D2.Sokhớpcựcđạicócửasổ................................................................................152
E. THUẬTTỐNNHẬNDIỆNVÀKHỬNHẬPNHẰNGTÊNRIÊNG.................153
E1.Thuật tốnnhận diệntên riêng, nhận diệnsốvà phânsố bằngchữ....................153
E2.Cácthuậttốnkhửnhậpnhằngtênriêng...........................................................155
F. THUẬTTỐNTÌMTHAMSỐHỌCTỐIƯU....................................................158
F1.ThuậttốnditruyềnGAvàcựcđạihốkỳ vọngEM............................................158
F2.ThuậttốnEMtrêncácđoạncon......................................................................161


- vii-

DANHMỤCCÁCKÝHIỆU,CÁCCHỮVIẾTTẮT
Kíhiệu
ACO
AM/AMM
BM/BMM
CA
CC/TGĐL
CRF
DFA
EM
ER
FM/FMM
FSM
GA
HMM
LCS
MEM
MI

MinDFA
MM
NE
NER
NLP
NW
OA
Pb
Pk
PN
POS
PP
PSO
Pu
RW
SC/TGCP

Mơ tả
Tốiưuđànkiến (AntColonyOptimization)
Sokhớpcựcđạicảitiến(AdvancedMaximumMatching)
Sokhớpcựcđạilùi(BackwardMaximumMatching)
Nhậpnhằng ghép-tách(Combinated Ambiguity)
Từghép đẳnglập (Coordinated Compound)
Trườngngẫunhiêncóđiềukiện(ConditionalRandomField)
Automat[hữuhạntiềnđịnh](DetermineFiniteAutomata)
Thuậttốncựcđạihốkỳvọng(ExpectationMaximization)
Nhậndiệnthựcthểvănbản(EntityRecognition)
Sokhớpcựcđạitiến(ForwardMaximumMatching)
Máytrạngtháihữuhạn(FiniteStateMachine)
Giảithuậtditruyền(GeneticAlgorithms)

MơhìnhMarkovẩn(HiddenMarkovModel)
Dãy con chungdài nhất (LongestCommonSubstring)
Mơhình Entropy cực đại (MaximumEntropy Model)
Độthơngtintươnghỗ(MutualInformation)
Automattốithiểu(MinimalDetermineFiniteAutomata)
Sokhớpcựcđại(MaximumMatching)
Thựcthểcótên(NamedEntity)
Nhậndiệnthựcthểcótên(NamedEntityRecognition)
Xửlýngơnngữtựnhiên(NaturalLanguageProcessing)
Từmới(NewWord)
Nhậpnhằngchồnglấp(OverlapingAmbiguity)
Xácsuấtbigram(bigramProbability)
Xácsuấtbigramcóđiềukiện(conditionalbigramProbability)
Tênriêng(Private/ProperName)/Nhậndiệntênriêng
Từloại(Part-Of-Speech)
Độphức tạp văn bản (Perplexity)
Tốiưubầyđàn(ParticleSwarmOptimization)
Xácsuấtunigram(unigramProbability)
Từláy(ReduplicativeWord)
Từghép chínhphụ(SubordinatedCompound)


-8-

Sim
SP731
SP732
SP733
SP73POS
VCL

VFD
VLP
VSD
VWS

Độtươngtự(Similarity)
Khongữ liệuđã táchtừ, gồm1.542.673 từ,68.000câu(10MB)
Khongữliệuđãtáchtừ,gánnhãntừloại,221.221từ,10.000câu
Khongữ liệu đã tách từ, gánnhãn từ loại và cú pháp,10.000 câu
Khongữliệuđãtách từ,gánnhãntừ loại,20.000câu.
TừđiểntừvựngtiếngViệt(VietrnameseComputationLexicon)
TừđiểntênhọngườiViệt(VietnameseFamilyDictionary)
XửlýngơnngữtiếngViệt(VietnameseLanguageProcessing)
TừđiểnâmtiếttiếngViệt(VietnameseSyllableDictionary)
TáchtừtiếngViệt(VietnameseWordSegmenation)

Cáckí hiệu chophép đo đánhgiá độ chínhxác tách từdùng trongluậnán:
Kíhiệu
Nm
Nt

R
P
F1

Mơ tả
Số lượngđơnvị từtrongkho mẫu.
Số lượngđơnvị từtách được.
Sốlượngđơnvị từ tách đúng. (dùngLCS đểxác định, Phụ lụcA1)
Độđohồitưởng(Recall)

:R=Nđ/Nm
Độđochínhxác(Precision):P =Nđ/Nt
ĐộđoF1-score
:F1=2RP/(R+P)


DANHMỤCCÁCBẢNG
Bảng1.1.Thốngkêđộdàitừtrongcáckhongữliệumẫu(đãsửalỗi)..........................................17
Bảng1.2.Táchtừtheodấucáchvàdấucâucáckhongữliệumẫu(đãsửalỗi).................................18
Bảng1.3.Kếtquảthửnghiệmcủa[29],PNlànhậndiệntênriêng.............................................19
Bảng1.4.Thốngkêphânloạiđơnvịtừtrongcáckhongữliệumẫu............................................22
Bảng1.5.Thốngkêtỉlệtừtheođộdàitốiđatrongcáckhongữliệumẫu........................................23
Bảng1.6.Thốngkêđộphủtừ-từđiểncủacáckhongữliệutiếngViệt........................................23
Bảng2.1.ThửnghiệmtáchtừvớicácmơhìnhFMM,BMMvàAMM.....................................32
Bảng2.2.Mơtảcáctrườnghợpnhậpnhằngtênriêngvớitênriêng.............................................41
Bảng2.3.Kếtquảnhậndiện&khửnhậpnhằngtênriêngcủakhoSP731....................................44
Bảng2.4.KếtquảtáchtừcónhậndiệnthựcthểvớiFMM,BMMvàAMM................................44
Bảng3.1.Nhậndiệntừghépcó2âmtiếtdựatheochọnđỉnhnhọn............................................52
Bảng3.2.Nhậndiệntừghépcó2âmtiếttheođỉnhnhọnvượtngưỡng.......................................52
Bảng3.3.Nhậndiệntừghépcó2âmtiếttheođỉnhnhọnvàunigramdướingưỡng.................53
Bảng3.4.Nhậndiệntừghépcó2âmtiếtvớiđỉnhnhọnvượtmaxunigram................................53
Bảng3.5.Nhậndiệntừghépvớiđỉnhnhọnvượtmaxunigramcóthamsố................................. 53
Bảng3.6.Minhhoạnhậndiệntừláybavàtừláytư...............................................................60
Bảng3.7.Thửnghiệmtáchtừvớicácmơ-đunER,AM,RW..................................................61
Bảng3.8.MơtảthơngtintừđiểnVCLcủahaitừ"cha"và"mẹ"................................................65
Bảng3.9.MộtsốthơngtintừđiểnVCLcủahaitừ"dútdát"và"antâm".....................................65
Bảng3.10.Minhhoạmộtphầncáccặptừđồngnghĩa(4.958cặp).............................................68
Bảng3.11.Minhhoạmộtphầncáccặptừđốinghĩa(762cặp)..................................................69
Bảng3.12.Minhhoạđộđotươngtựcáccặptừ(SimDice>0,5:14.452cặp).............................69
Bảng3.13.MinhhoạdùngMI(từinternet)đểxácđịnhTGĐL(4.718cặp)..................................69

Bảng3.14.Kếtquảpháthiệndanhsáchcáctừghépsongtiếtđẳnglập.........................................69
Bảng3.15.Minhhoạnhậndiệntổhợptừcó3-4âmtiết(TGĐL).............................................70
Bảng3.16.Táchtừvớicácmơ-đunER,AMvàCC.............................................................71
Bảng4.1.ThốngkênhậpnhằngOAvàCAtrongcáckhongữliệu............................................74
Bảng4.2.Tỉlệgâylỗicủacácnhậpnhằngtrongcáckhongữliệu.............................................74
Bảng4.3.MinhhoạnhậpnhằngchồnglấpOAtrongcáckhongữliệu.......................................75
Bảng4.4.Minhhoạnhậpnhằngghép-táchCAtrongcáckhongữliệu........................................75
Bảng4.5.PhânchiangữliệuVietTreeBankchohuấnluyệnvàthửnghiệm.........................77
Bảng4.6.MinhhoạnhậpnhằngCAvớiqntừởđầu/cuốicụmtừ...........................................78
Bảng4.7.TỉlệkhửnhậpnhằngvớitừđiểnqntừBE...........................................................79
Bảng4.8.KếtquảtáchtừbằngFM,BM,AMvớicácmơ-đunERvàBE....................................79


Bảng4.9.Kíhiệu22từloạicủakhongữliệuSP73POS20.000câu.....................................84
Bảng4.10.KếtquảkhửnhậpnhằngvớicácmơhìnhM2x.................................................86
Bảng4.11.KếtquảtáchtừbằngER,AMvàkhửnhậpnhằngvớiPB,PO..............................86
Bảng4.12.MinhhoạkhửnhậpnhằngOA/CAbằngmơhìnhM22vàM23..........................87
Bảng4.13.KếtquảtỉlệkhửnhậpnhằngvớicácmơhìnhđiểmsốM3x.................................92
Bảng4.14.KếtquảtáchtừvàkhửnhậpnhằngbằngcácmơhìnhđiểmsốM3x......................93
Bảng4.15.MinhhoạkhửcácnhậpnhằngOAbằngM21vàM3x.......................................94
Bảng5.1.Mơtảcácmơ-đun(đặctrưng)tíchhợpchomơhìnhtáchtừ..................................95
Bảng5.2.KếtquảtáchtừvớigiảiphápcảitiếnsokhớpcựcđạichoTEST.OCA....................98
Bảng5.3.KếtquảtáchtừvớigiảiphápcảitiếnsokhớpcựcđạichoTEST.ALL....................99
Bảng5.4.KếtquảtáchtừvớimơhìnhđộphứctạpvănbảnchoTEST.OCA........................100
Bảng5.5.KếtquảtáchtừvớimơhìnhđộphứctạpvănbảnchoTEST.ALL........................100
Bảng5.6.KếtquảtáchtừvớimơhìnhđiểmsốchoTEST.OCA........................................101
Bảng5.7.KếtquảtáchtừvớimơhìnhđiểmsốchoTEST.ALL........................................101
Bảng5.8.KếtquảsosánhthửnghiệmtáchtừgiữacáccơngcụvớiTEST.OCA.........................105
Bảng5.9.KếtquảsosánhthửnghiệmtáchtừgiữacáccơngcụvớiTEST.ALL.........................105
Bảng5.10.Kếtquảsosánhnhậndiệntừmớicó2âmtiếttrởlênvớiTEST.ALL........................105

Bảng5.11.KếtquảsosánhnhậndiệntênriênggiữacáccơngcụvớiTEST.ALL......................106
Bảng5.12.KếtquảsosánhkhửnhậpnhằngOACAgiữacáccơngcụvớiTEST.OCA106Bảng5.13.Sosánhthờigianchạytrungbình(giây)giữac
áccơngcụvớiTEST.ALL.................................................................................................106
Bảng5.14.Kiểmlỗicụmtừtheomơhìnhđộphứctạpvănbản..........................................112
Bảng5.15.Kiểmlỗitrigramtheoxácsuất....................................................................112
Bảng5.16.KếtquảđoLPPchomơhìnhPB+POvớivănbảnkiểmlỗi...............................114
Bảng5.17.KếtquảsắpxếpđộđoLPPgiảmdầntheotừngcụmtừ/câu...............................115


- xi -

DANHMỤCCÁCHÌNHVẼ,ĐỒTHỊ
Hình0.1.Tiếpcậnphântíchvàhiểuvănbảntheocácmức...................................................1
Hình1.1.VănbảntintứctiếngViệtđượctáchtừ(thựcthểinđậm)........................................5
Hình1.2.PhânloạitừtiếngViệttheocấutạo.....................................................................5
Hình1.3.MộtsốcâutiếngViệtđượctáchtừbịlỗi.............................................................17
Hình1.4.MơhìnhghépnốicóthứtựchotáchtừtiếngViệt.................................................24
Hình2.1.Câyquyếtđịnhnhịphânđểtáchcáckítựđặcbiệt................................................27
Hình2.2.Minhhoạsơđồmạngtừđượcsinhtheotừđiểnchocâu1.....................................29
Hình2.3.Minhhoạsơđồmạngtừđượcsinhtheotừđiểnchocâu2.....................................29
Hình2.4.MinhhoạnhậndiệnranhgiớitênriêngchotáchtừtiếngViệt................................33
Hình2.5.MinhhoạnhậndiệnthựcthểcótênsaukhitáchtừtiếngViệt.................................34
Hình2.6.Mơtảkhửnhậpnhằngtênriêngvớitừhậutố......................................................40
Hình3.1.Đồthịxácsuấtunigramtừngâmtiếttrongcâu....................................................47
Hình3.2.Đồthịxácsuấtbigramcáccặpâmtiếttrongcâu..................................................48
Hình3.3.Xácsuấtbigramcóđiềukiệncáccặpâmtiếttrongcâu.........................................49
Hình3.4.Lượcđồthơngtintươnghỗcủâmtiếtvàcặpâmtiết...........................................49
Hình3.5.Độtươnghỗthơngtincủacáccặpâmtiếttrongcâu.............................................50
Hình3.6.PhânloạitừláytiếngViệt...............................................................................55
Hình3.7.GiaodiệncơngcụbổsungvàcậpnhậttừđiểnVCL.............................................64

Hình4.1.TỉlệngữliệuVietTreeBankchohuấnluyệnvàthửnghiệm.................................77
Hình4.2.MơhìnhMarkovẩnHMM(códãyquansátXđộclập)........................................81
Hình4.3.MơhìnhMarkovẩnvớidãyquansátXphụthuộc...............................................83
Hình5.1.Mơtảvănbảnthửnghiệmkiểmlỗichínhtả......................................................112


- xii-

DANHMỤCCÁCTHUẬTTỐN
ThuậttốnVWS.ThuậttốntổngqtchotáchtừtiếngViệt.................................................26
ThuậttốnVWS1.Táchkítựđặcbiệtdựavàocâyquyếtđịnhnhịphân.......................................27
ThuậttốnVWS3.Sinhứngviêntừcócửasổâmtiếtdựavàotừđiển.........................................30
ThuậttốnVWS6.Tìmdãytáchtừtốiưu..........................................................................30
ThuậttốnVWS2.21.Nhậndiệntênriêngvàkhửnhậpnhằngtừtiềntố.....................................39
ThuậttốnVWS2.22.Khửnhậpnhằngtênriêngvớitừhậutốsautáchtừ....................................40
ThuậttốnVWS2.23.Khửnhậpnhằnggiữatênriêngvớitênriêng.........................................42
Thuậttốn3.1.Tìmkiếmcáctừláyđơimới.......................................................................57
Thuậttốn3.2.TínhđộtươngtựgiữahaitừdựavàotừđiểnVCL............................................66
Thuậttốn3.3.Nhậndiệntừghépsongtiếtđẳnglập.............................................................68
ThuậttốnVWS5.1.KhửnhậpnhằngbằngtừđiểnqntừBE..............................................78


-1-

MỞĐẦU
1. Tínhcấpthiết củaluậnán
Xử lý ngơn ngữ tự nhiên (hay ngơn ngữ học tính tốn) là lĩnh vực được
nhiềuchun gia trên thế giới cũng như trong nước quan tâm nghiên cứu, nhằm tạo
ra
cácsảnphẩ mphầ nmề mc ó tri thức và thơng minh, hiểuđược ngơnngữc on người

vàtraođổiđượcgiữacácngơnngữkhácnhau.
Trong các bài tốn xử lý ngơn ngữ tự nhiên thì bài tốn tách từ là một
trongnhững bài tốn cơ bản vì nó là nền tảng cho các nghiên cứu để hiểu ngôn ngữ
và ứngdụng vào thực tiễn như: kiểm lỗi chính tả, tóm tắt văn bản trả lời câu hỏi tự
động,dịch máy,... Ta có thể thấy vai trò nền tảng của đơn vị từ trong các bước phân
tích vàhiểungơnngữvănbảnnhưhình0.1.

Hình0.1.Tiếp cậnphântíchvàhiểuvănbảntheocácmức
ĐốivớitiếngViệt,từđượccấutạobởimộthaynhiềmtiếtghéplại,khơngcó
ký hiệu phân tách rõ ràng giữa các từ với nhau. Do vậy, tách từ tiếng Việt là mộtbài tốn khó. Qua các khảo sát
nghiên cứu, một số vấn đề quan trọng trong bài toántách từ tiếng Việt cịn bỏ ngỏ
gồm có: nhận diện và khử nhập nhằng tên riêng, nhậndiện từ mới, và xử lý nhập
nhằng

ranh

giới

từ.

Đây

cũng



những

vấn


đề

khó



hầuhếtc á c n g h i ê n c ứ u v ề t á c h t ừ t r o n g m ộ t s ố n g ô n n g ữ ở c h â u Á n h ư : t i ế n g T r u
n g , tiếngNhật,tiếng Thái,tiếng Lào,tiếngKhmer,…đangquantâmgiảiquyết.
Chính vì thế, trong mục tiêu và phạm vi nghiên cứu, tác giả chọn đề tài luận
ánlà“Nghiêncứupháttriển mộtsốkỹthuậttáchtừtiếngViệt”.


2. Mụctiêunghiêncứu củaluậnán
Mục tiêu chính của luận án là giải quyết một số vấn đề khó trong bài tách
từtiếngViệthiệnnaylà:nhậndiệnvàkhửnhậpnhằngtênriêng,nhậndiệntừmớivàxửlýnhập
nhằngranhgiớitừ.Mụctiêucụthểlàphântíchnhữngđiểmtồntạitrongnghiên cứu tách từ tiếng Việt, xác
địnhcáchthứctíchhợptrithứctừcáctừđiển,cáckho ngữ liệu, các quy tắc cấu tạo từ, nâng cao hiệu quả
nhận diện từ mới và khử cácnhậpnhằng ranh giới từtrongtáchtừtiếngViệt.

3. Đốitượng vàphạm vinghiên cứucủa luậnán
- Nhận diện các thực thể trong văn bản: được giới hạn trong phạm vi của
bàitoán tách từ, xem như các đơn vị từ: tên riêng (tên người, tên địa điểm, tên tổ
chức),tên viết tắt, biểu thức ngày tháng, thời gian, biểu thức số, địa chỉ email, địa chỉ
url,…Nghĩa là trong bài toán tách từ, chỉ nghiên cứu tách ranh giới thực thể (chủ
yếu là tênriêng)chứkhôngthựchiệnnghiêncứuphânlớpcácthựcthể.
- Nhận diện từ ghép mới: nhận diện từ mới gồm 2 âm tiết trở lên, gồm hai
loạitiêu biểu là từ láy và từghép đẳnglập.
- Xử lý nhập nhằng ranh giới từ trong văn bản tiếng Việt gồm 2 loại:
nhậpnhằngchồnglấpvànhậpnhằngghéptách.
Trong đó, các tiêu chí xác định đơn vị từ tiếng Việt dựa vào tài liệu hướng

dẫntách từ đã nghiệm thu của đề tài KC01.01/06-10, và một số tài liệu về từ vựng,
ngữpháp tiếng Việt giảng dạy chuyên ngành ngôn ngữ học. Các khảo sát thống kê,
kếtquảthửnghiệmđượcthựchiệntrênkhongữliệumẫuVietTreeBankvà từđiểnVCL.

4. Phươngphápnghiêncứucủa luậnán
Luận án sử dụng tổng hợp các phương pháp nghiên cứu chuyên ngành và
liênngành trên cơ sở một số lĩnh vực: Ngôn ngữ học tiếng Việt và các dạng nhập
nhằng;Lý thuyết về mơ hình thống kê ngơn ngữ n-gram; Lý thuyết về Ơ-tơ-mát
trạng tháihữu hạn; Lý thuyết về học máy thống kê; Lý thuyết về độ phức tạp thuật
tốn; Lýthuyếtvềtốiưuhố;vàLýthuyết vềtrítuệ nhântạo trongxửlý ngơnngữ tựnhiên.
Tiếp cậnnghiêncứu bằnghệthống các phươngpháp:
- Phươngpháp lơ-gích
- Phươngphápthốngkê-khảosát-đánhgiá
- Phươngphápphântích-tổnghợp.
- Phươngpháp chun gia.
- Phươngpháphệ thống


Trong đó, kết hợp chặt chẽ có hệ thống các phương pháp lơgíc, thống kê –
khảosát,phântích –tổng hợpvà phươngpháp chun gia.

5. Mộtsốkếtquả đạtđượctrongluận án
1) Đềxuấtkỹthuậtnhậndiệnvàkhửnhậpnhằngtênriêng,làmtăngđángkểđộ
chính xác tách từ: nhận diện và khử nhập nhằng từ tiền tố với tên riêng; khử nhậpnhằngtênriêng vớitừhậu
tố;vàkhửnhậpnhằng tênriêngvớitênriêng.
2) Đề xuất kỹ thuật nhận diện từ láy và từ ghép đẳng lập cho tách từ tiếng
Việt([A7],[A9],[A10]) dựa trên độ thông tin tương hỗ cùng với các quy tắc ngơn
ngữhọcnhận diệnchúng.Trêncơ sởđó, mở rộngnhậndiệncác tổhợptừcó 3-4âmtiết.
3) Đềx u ấ t k ỹ t h u ậ t k h ử c á c l o ạ i n h ậ p n h ằ n g c h ồ n g l ấ p v à n h ậ p n h ằ n g g h
é p tách theo ngữ cảnh thống kê ([A2],[A8]và[A11]) trong điều kiện kho ngữ liệu

huấnluyệnc ó k í c h t h ư ớ c n h ỏ , c ó n h i ề u x á c s u ấ t 0 . T h ự c h i ệ n k h ả o s á t c á c m ẫ
u n h ậ p nhằngkhácnhauvàđưara mộtsốgiải phápvàcôngthứclinhhoạtbiểudiễnt
heongữcảnhđểkhửnhậpnhằng hiệuquả.
Các kết quả của luận án được thực hiện trên cơ sở khảo sát thống kê và
thửnghiệm tách từ với các kho ngữ liệu mẫu của VietTreeBank. Các thuật tốn đề
xuấtcho tách từ trong luận án có độ phức tạp tính tốn là O(n), vớinlà số lượng âm
tiếttrong dãy vào, và kết quả thử nghiệm tách từ đạt độ chính xác F1-score là
98,78%.Ngồi ra, luận án cũng đã đề xuất thử nghiệm giải pháp kiểm lỗi chính tả
tiếng Việt([A4]),cóthểứngdụngtrongthựctế.

6. Bốcụcluận án
Ngồi phần mở đầu và kết luận, luận án gồm 5
chương:Chương1:TổngquanvềbàitoántáchtừtiếngVi
ệt.
Chương 2: Tách từ và nhận diện thực thể văn bản tiếng
Việt.Chương3:Nhậndiệntừláyvàtừghépđẳnglậptiếng
Việt.Chương4:KhửnhậpnhằngranhgiớitừtiếngViệt.
Chương5:Thửnghiệmvàđánhgiá.


Chương1
TỔNGQUANVỀ BÀITỐNTÁCHTỪTIẾNGVIỆT

1.1. BÀITỐNTÁCHTỪTIẾNGVIỆT
1.1.1. PhátbiểubàitốntáchtừtiếngViệt
Khi thực hiện nhiệm vụ xử lý ngơn ngữ tự nhiên cho bất kì ngơn ngữ nào
thìbước đầu tiên cần phải làmlàt á c h t ừ ( w o r d s e g m e n t a t i o n ) . V ì
t h ế , v i ệ c n h ậ n b i ế t ranh giới từ một cách nhanh chóng và chính xác là vấn
đề có ý nghĩa quan trọng. Đốivới một số ngôn ngữ như tiếng Nga, Anh, Pháp hay Đức, ranh giới từ được cho
bởikhoảng trắng hay các dấu ngắt câu. Với tiếng Việt, về mặt hình thức, từ được cấu

tạobởi một hay nhiều âm tiết (tiếng) ghép lại, nên nếu chỉ dùng khoảng trắng sẽ
khơngthể phânbiệt ranh giớitừ.
MinhhoạtừtiếngViệt:
- Từcómộtâmtiết:nhà,cửa,đi,chạy,xanh,đỏ,...
- Từcótừhaiâmtiếttrởlên:
+Từkép: nhàtrường,tổchức,lunglinh,lấplánh,đuđưa,...
+Từbộba:phươngphápluận,bấtđắcdĩ,sạchsànhsanh,...
+Từbộtư:xãhộichủnghĩa,nóiđinóilại,đuđa đuđưa,...
Bài tốn tách từ tiếng Việt có thể được phát biểu như
sau:Chocụmtừgồmnâmtiết(tiếng):S=s1s2s3...s n-1sn
Yêucầu tách thànhmtừ(m≤n): S=w1w2w3...wm-1wm
Về mặt ngơn ngữ học tính tốn, "từ" ở dạng từ phức và "ngữ" ở dạng cụm
từđược cấu tạo bởi nhiều âm tiết ghép lại, nên việc phân biệt khái niệm giữa "từ"
và"ngữ" (hay "từ" và "cụm từ") vẫn còn chưa rõ ràng. Trong thực tế xử lý bằng
máytính có sử dụng từ điển từ vựng, có nhiều trường hợp rất khó phân biệt ranh giới
từ.Chẳng hạn với dãy âm tiết "đón tiếp tân" trong ví dụ sau thì máy tính phải
chọnphương ánnào chođúng.
Vídụ:Họđangchuẩnbịđóntiếptângiámđốc.
Để biểu diễn từ, có thể dùng dấu nối “_” để ghép các âm tiết lại với nhau
trongmỗitừ.Vớivídụtrên,tasẽcóhai phương ántách từ nhưsau:
(a)

Họđangchuẩn_bịđóntiếp_tângiám_đốc.

(b)

Họđangchuẩn_bịđón_tiếptângiám_đốc.


Ranh giới không rõ ràng như vậy được gọi là sự nhập nhằng trong ngôn

ngữ.Nhập nhằng ranh giới từ là vấn đề thường xuất hiện trong tiếng Việt và một số
ngơnngữkhácnhưtiếng Trung,tiếngThái,tiếngLào,tiếngKhmer,...
Trong tiếng Việt, do có nhiều quy tắc cấu tạo từ (từ láy, từ ghép đẳng lập,
từghép chính phụ), nên trong thực tế sử dụng và phát triển ngôn ngữ, có rất nhiều
từmới được tạo ra mà từ điển không thể chứa đựng hết được (được gọi là từ - từ
điển).Đâycũnglàvấnđềhócbúachobàitốn tựđộnghốtách từtiếngViệt.
Ngồi vấn đề nhập nhằng ranh giới từ và xác định từ mới đã nêu, thì bài
tốntách từ đòi hỏi phải nhận diện các "thực thể" văn bản (entity, theo[47]và[48])
nhưtên riêng (tên người, tên tổ chức, tên địa điểm), tên viết tắt, ngày tháng, thời
gian,biểuthứcsố,phầntrăm,đơnvịđo,thưđiệntử,...Cóthểthấyquaminhhoạtáchtừ
vàthựcthểtronghình1.1.

Hình1.1.Vănbảntin tứctiếngViệtđượctáchtừ(thựcthểinđậm)
1.1.2. ĐặctrưngcủađơnvịtừvựngtiếngViệt
Theo[8],đơnvịtừvựngtiếngViệtgồmhailớp:từvàngữcốđịnh.
1.1.2.1. TừtiếngViệt
*PhânloạitừtiếngViệttheocấutạo

Hình1.2.PhânloạitừtiếngViệttheocấutạo
Theo[3], từ tiếng Việt bao gồm từ đơn và từ phức. Từ đơn chỉ có một âm
tiết,cịntừphứccótừhaiâmtiếttrởlên.Trongđó,từphứcvềmặtngữâm,ngữphápvà


ngữ nghĩa chia thành ba loại: từ ghép, từ láy và từ ngẫu hợp. Từ ghép được phân
chiathànhh a i d ạ n g : t ừ g hé p c h í n h p h ụ, từ g h é p đ ẳ n g l ậ p . T r o n g đ ó , từ l á y v à t ừ g h
é p đẳnglập(khốiđậmtronghình1.2)cónhữngđặcđiểmvềcấutạovềngữâm,ngữpháp vàngữ nghĩakhárõ ràng.
*Đặcđiểmcấutạo từtiếngViệt
CấutạotừtiếngViệtđượcphânloạitheohình1.2cómộtsốđặcđiểmsau:
a. Từ đơn:Từ đơn là những từ được cấu tạo bởi một âm tiết độc
lập.Vídụ:nhà,cửa,đi,chạy,xanh,đỏ,...

b. Từphức:Từphứclànhữngtừđượccấutạobởihaiâmtiếttrởlên,ghéplạivớinhau
đểtạonghĩa.Vềmặtquanhệnghĩa,chúngđượcchiathànhbadạngsau:
i) Từngẫuhợp:cácthànhphầnkhơngcóquanhệvớinhau,đượckếthợpvớinha
umộtcáchngẫunhiên.
Vídụ:bồhóng,míttinh,rơmc,tắckè,...
ii) Từghép:lànhữngtừđượccấutạobởihaiâmtiếttrởlên,chúngđượcghépvớinha
u vềmặt ngữ nghĩađể tạonghĩa mới.
 Từghépchínhphụ:cóchứamộtthànhtốchínhchỉloạilớn,mộtthànhtốp
hụcóvai trị chi tiết hố loại lớn.
+TừghépchínhphụthuầnViệt
(chínhtrước,phụsau)như:xemáy,xeđạp,hoahồng,hoanhài,máyxay,máyxát,...
+TừghépchínhphụgốcHán(phụtrước,chínhsau)như:dânca,đồngca,xướngca,b
áchọc,vănhọc,kinhtếhọc,nơngdân,ngưdân,cưdân,…
Mởrộngtừghépchínhphụbậchaiởdạngthêmphầnphụchitiếthơnnhư:
xeđạpđiện,xeđạpmini,hoahồngtrắng,hoahồngvàng,máyxaythịt,...
 Từghépđẳnglập:cácthànhtốbìnhđẳngnhauvềngữnghĩavàtừloại.Từghépso
ng tiết đẳng lập có thể chia thànhba nhóm:
+Đồngnghĩa:đợichờ,xinhđẹp,chùachiền,xecộ,...
+Đốinghĩa:chamẹ,namnữ,âmdương,đượcmất,đúngsai,...
+Gầnnghĩa:nhàcửa,đồinúi,sơngsuối,cátbụi,gàvịt,vuitươi,...
Mởr ộ n g t ừ c ó b a , b ố n â m t i ế t c ó c á c đ ơ n v ị đ ẳ n g l ậ p n h ư : a n h c h ị e m
, thanhthiếunhi,cơxươngkhớp,xnhạthuđơng,bàconcơbác,..hoặc tổhợpxen songtiết đẳnglập
như:conơngcháucha,cơmnốoấm,…
Mở rộng ghép chính phụ và đẳng lập: hai từ ghép chính phụ "thầy giáo"
và"cơgiáo"có haithànhphầnđẳnglậplà"thầy"và"cơ",nên từghépmở rộng


là: "thầy cô giáo". Tương tự, "y sĩ" và "bác sĩ" có thể tạo từ ghép "y bác
sĩ".Ghépg i ữ a t ổ h ợ p s o n g t i ế t đ ẳ n g l ậ p v ớ i t ừ đ ứ n g t r ư ớ c : c hạy n g ư ợ c c h
ạ y xi,bữanobữađói,khi nắngkhimưa,... hoặccó thể ghép với từđứng

sau:phịngcháychữacháy,phịngbệnhchữabệnh,ănmiếngtrảmiếng,...
Lặplạitừghépchínhphụ:hưhưthựcthực,điđivềvề,quầnquầnáốo,...
iii) Từ láy: là những từ phức (đa số là có hai tiếng) được cấu tạo theo các
quytắc hài âm và hài thanh của tiếng Việt (theo quy tắc “vừa điệp vừa đối” trên phụ
âmđầu,vầnvà dấu thanh).
Đối với từ láy đơi: theo[13]có 8 mẫu như:lăm lăm, đo đỏ, chúm chím,
vằngvặc,lịngthịng,khéoléo,đỏđắn,lập l.
Mởrộng từláyba,bốnâmtiết:
+Từláybộba:đỏlịmlịm,đensìsì,xanhlèlè,tốiomom,…
đỏhonhỏn,đentrùitrũi,thẳngđuồnđuột,…
sạchsànhsanh,cuốngcuồngcuồng,xốpxồmxộp,...
+Từ láybộ tư:ấma ấm ức,nhínhanhínhảnh,đùđà đù đờ,
bậuxàbậuxậu,linhtalinhtinh,hớthơhớthải,...
Láybổsungchomộtsốcáctừđơn,từghép:phầnláylnđứngsau.
Vídụ:điệpphụâmđầuvàthêmvần"iếc","iệc","ang","ung".
+phở:phởphiếc;lớp:lớplang;vải:vảivung;
+máybay:máybaymáybiếc;máybaymáybung;
+hoatai:hoa taihoa tiếc;hoataihoatung;
+đànông:đànôngđàniếc;đànôngđànang;...
Dạng lặp: là sự mở rộng của từ láy, có thành phần được lặp lại trong từ/cụm
từ.Vídụ:vớitừcóhai,bahaybốnâmtiết
+ngườingười,ngàyngày,thángtháng,xanhxanh,hâyhây,…
+hahaha,ầmầmầm,...
+hăm hămhở hở,hốihốihảhả,vộivộivàngvàng,...
+tẩnngẩntầnngần,bổihổibồihồi,bấuxấubậuxậu,...
+nóivộinóivàng,đenthuiđenthủi,...
Mộtsốdạnglặpđặcbiệtkhác:
+đenđenlà;sợsợlà;vuivuilà;thươngthươnglà;...
+đẹpơilàđẹp;xinhơilàxinh;thươngơilàthương;...
+ngoanthậtlàngoan;khơnthậtlàkhơn;...




×