BỘGIÁODỤCVÀĐÀOTẠO
VIỆNHÀNLÂMKHOAHỌC
VÀCÔNGNGHỆVIỆTNAM
HỌCVIỆNKHOAHỌCVÀC Ô NGNGHỆ
NGUYỄNTHỊTHUHIỀN
NGHIÊNC Ứ U P H Ư Ơ N G P H Á P C H U Ẩ N H O Á V Ă N B Ả
N VÀN H Ậ N DẠNGTHỰCTHỂĐỊNHDANH
TRONGNHẬNDẠNGTIẾNGNĨITIẾNGVIỆT
LUẬNÁNTIẾNSĨNGÀNHMÁYTÍNH
HÀN Ộ I -2023
NGUYỄNTHỊTHUHIỀN
NGHIÊNC Ứ U P H Ư Ơ N G P H Á P C H U Ẩ N H O Á V Ă N B Ả
N VÀN H Ậ N DẠNGTHỰCTHỂĐỊNHDANH
TRONGNHẬNDẠNGTIẾNGNĨITIẾNGVIỆT
LUẬNÁNTIẾNSĨNGÀNHMÁYTÍNH
Chunngành:HệthốngthơngtinMã
số:9480104
XácnhậncủaHọcviệnK
hoahọcvàCơngnghệ
Ngườihướngdẫn1
Ngườihướngdẫn2
(Ký,ghirõhọtên)
(Ký,ghirõhọtên)
HÀN Ộ I -2023
1
LỜICAMĐOAN
Tôix i n c a m đ o a n đ â y l à c ô n g t r ì n h n g h i ê n c ứ u c ủ a r i ê n g t ô i . C á c k ế t q u ả đư
ợc viết chung với các tác giả khác đều được sự đồng ý của các đồng tác
giảtrướck h i đ ư a v à o l u ậ n á n . C á c k ế t q u ả n ê u t r o n g l u ậ n á n l à tr ungt h ự c v à ch
ưatừngđượccơngbốtrongcáccơngtrìnhnào khác.
Tácgiả
NguyễnThịThuHiền
LỜICẢM ƠN
Luậná n c ủ a t á c g i ả đ ư ợ c t h ự c h i ệ n t ạ i H ọ c v i ệ n
K h o a h ọ c v à C ô n g nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt
Nam, dưới sự hướng dẫntận tìnhcủaPGS.TS. Lương Chi Mai và TS. Nguyễn Thị
Minh Huyền. Tơixin được bày tỏ lịng biết ơn sâu sắc đến hai Cô về những định
hướng nghiêncứu, sự động viên và hướng dẫn tận tình giúp tơi vượt qua những khó
khăn đểhồnthànhluậnánnày.
Tơi cũng xin gửi lời cảm ơn chân thành đến các nhà khoa học, các đồngtác
giả của các cơng trình nghiên c ứu đã được trích dẫn trong luận án. Đâylànhữngtư
liệuqbáucóliênquangiúptơihồnthànhluậnán.
Tơi xin chân thành cảm ơn đến Ban lãnh đạo Học viện Khoa học vàCông
nghệ, Viện Công nghệ Thông tin đã tạo điều kiện thuận lợi cho tơi
trongqtrìnhhọctập,nghiêncứu.
Tơixinchân thànhcảm ơ nBan giámhi ệu tr ư ờng Đại học Sư phạm-ĐH Thái
Ngun,KhoaTốn,BộmơnKhoahọcmáytính-Hệthốngthơngtin và các đồng nghiệp đã giúp đỡ và tạo
điều kiện thuận lợi để tơi có thể thựchiệnkếhoạchnghiêncứu,hồnthànhluậnán.
Tơi xin được bày tỏ tìnhcảmvà lịng biết ơn vơ hạn tới những ngườithân trong
Gia đình, những người ln dành cho tơi sự độngviên, khích l ệ, sẻchia,giúpđỡ
trongnhữnglúckhókhăn.
Tácgiả
NguyễnThịThuHiền
MỤCLỤC
Trang
LỜICAMĐOAN....................................................................................................i
LỜICẢMƠN.........................................................................................................ii
MỤC LỤC...........................................................................................................iii
DANHMỤC TỪVIẾT TẮT.................................................................................v
DANHMỤC BẢNGBIỂU..................................................................................vii
DANHMỤCHÌNHVẼ.......................................................................................viii
MỞĐẦU................................................................................................................1
CHƯƠNG1:T ỔNG QU AN V Ấ N Đ Ề NGHIÊ NC Ứ U .........................................7
1.1. Xửlý ngônngữtựnhiên.....................................................................................7
1.2. Nhậndạngtiếngnói.........................................................................................11
1.3. Chuẩnhóavănbản..........................................................................................16
1.4. Nhậndạngthựcthểđịnhdanh...........................................................................24
1.5. Tổng quanvềdữliệu.......................................................................................34
1.6. KếtluậnChương 1..........................................................................................36
CHƯƠNG2:KIẾNTHỨCCƠ SỞ......................................................................37
2.1. Mơhìnhxửlýchuỗi.........................................................................................37
2.2. Mơhìnhbiểudiễntừ........................................................................................44
2.3. Mơhình gánnhãnchuỗi...................................................................................50
2.4. Học đatácvụ..................................................................................................53
2.5. Kết luậnchương 2..........................................................................................56
CHƯƠNG3:CHUẨNHĨAVĂNBẢNĐẦURAC Ủ A H Ệ T H Ố N G NHẬNDẠNG
TIẾNGNĨITIẾNGVIỆT..............................................................................................57
3.1. Bàitốn..........................................................................................................57
3.2. Xâydựngdữliệu.............................................................................................58
3.3. Kiếntrúcmơhình.............................................................................................60
3.4. Kết quảthựcnghiệm.......................................................................................68
3.5. KếtluậnChương 3..........................................................................................73
CHƯƠNG4:NHẬNDẠNGTHỰCTHỂĐỊNHDANHCHOVĂNBẢNĐẦURACỦ
AHỆTHỐNGN H Ậ N DẠNGTIẾNGNĨ ITIẾNGVIỆT...........................................75
4.1. Bàitốn..........................................................................................................75
4.2. Tổng quan dữliệu..........................................................................................76
4.3. Nhậndạngthựcthểđịnh danh theo hướngtiếp cậnĐườngống...........................77
4.4. Nhậndạngthựcthểđịnh danh theo hướngtiếp cậnE2E....................................87
4.5. KếtluậnChương 4..........................................................................................98
KẾTLUẬN..........................................................................................................99
DANHMỤCCƠNGTRÌNHCỦATÁCGIẢ.......................................................101
TÀILIỆUTHAMKHẢO...................................................................................103
DANHMỤCTỪVIẾTTẮT
STT
1
Từviết tắt
ASR
TừtiếngAnh
Ý nghĩa tiếngViệt
AutomaticSpeech
Nhậndạngtiếng nói tự
Recognition
động
BidirectionalEncoder
2
BERT
Representations
fromTransformers
3
BiLSTM
4
BPE
CaPu
Mơhìnhbộnhớngắn-dài
TermMemory
hạnhai chiều
Byte-Pair-Encoding
Mãhốcặpbyte
Capitalization
andPunctuationmodel
6
CBOW
7
CNN
8
CRF
9
chiềudựatrênTransformers
BidirectionalLongShort
Recovering
5
Mã hóa biểu diễn hai
Mơhìnhkhơiphụcdấucâuvàc
hữhoa
ContinuousBagof
Mơhìnhnhúngtừ“Túitừ
Words
liêntục”
ConvolutionalNeural
Network
Mạngnơ-rontíchchập
ConditionalRandom
Trườngngẫunhiên cóđiều
Fields
kiện
DL
DeepLearning
Họcsâu
10
DNN
DeepNeuralNetworks
Mạngnơ-ronsâu
11
ELMO
Embeddingsfrom
Nhúngtừtừmơhìnhngơn
LanguageModel
ngữ
12
E2E
End-to-End
Mơ hìnhđầu-cuối
13
GloVe
GlobalVéc-tơsforWord
Mơhìnhnhúngtừdựatrên
Representation
biểudiễntừ
14
GRU
GatedRecurrentUnit
Mạnghồitiếpcócổng
Generativepre-trained
Mơ hìnhbiếnđổiđược huấn
transformer
luyệntrước
HMM
HiddenMarkovModel
MơhìnhMarkovẩn
17
LM
LanguageModel
Mơhìnhngơnngữ
18
LSTM
LongShortTerm
Mơhìnhbộnhớngắn-dài
Memory
hạn
19
ME
MaximumEntropy
MơhìnhEntropycựcđại
20
MEMM
MaximumEntropy
MơhìnhMarkovEntropy
MarkovModel
cực đại
21
MTL
Multi-TaskLearning
Họcđatácvụ
22
NER
NamedEntity
Nhậndạngthựcthểđịnh
Recognition
danh
23
OOV
Out-of-Vocabulary
Từnằmngồitừđiển
24
RNN
25
Seq2seq
26
SLU
27
SVM
28
VLSP
29
XLNNTN
30
TTS
TextToSpeech
31
WER
WordErrorRate
15
GPT
16
RecurrentNeural
Network
Sequence-to-Sequence
SpokenLanguage
Understanding
Mạngnơ-ronhồi quy
Mơhìnhánhxạtừ chuỗi
sangchuỗi
Hiểungơnngữnói
SupportVéc-tơMachine
Máyvéc-tơhỗtrợ
VietnameseLanguage
Hộithảoxửlýngơnngữvà
andSpeechProcessing
tiếng nóitiếngViệt
Xửlý ngơnngữtựnhiên
Hệthống chuyển vănbản
sangtiếng nói
Tỉlệ lỗitừ
DANHMỤC BẢNGBIỂU
Bảng1 . 1 : Đ i ể m k h á c b i ệ t g i ữ a v ă n b ả n đ ầ u r a A S R v à v ă n b ả n v i ế t d ạ n g chu
ẩn...............................................................................................................................13
Bảng 1.2:Tỉlệlỗitừcủa mộtsốhệthốngnhậndạngtiếngnói tiếngViệt...................15
Bảng3.1:Thơngtinbộdữliệu..............................................................................59
Bảng3.2:Sốlượngthamsốcủacácmơhình...........................................................69
Bảng3.3:Cácthamsốhuấnluyệnmơhình.............................................................69
Bảng3.4:SosánhkếtquảmơhìnhTransformerEncoder- CRFkhiápdụngvàkhơngáp
dụnghợpnhất chồnglấn..............................................................................................71
Bảng3.5:So sánhtốcđộxửlý(tokens/second).....................................................73
Bảng4.1:ThamsốcấutrúcvàhuấnluyệnmơhìnhViBERT.....................................81
Bảng4.2:Thốngkêbộ dữliệuNER củaVLSP2018..............................................83
Bảng4 . 3 : Đ á n h g i á c á c m ơ h ì n h N E R d ự a t r ê n b ộ d ữ l i ệ u N E R c ủ a V L S P 2018
..................................................................................................................................85
Bảng4.4:ĐánhgiámơhìnhNERđềxuấttheocáchtiếpcậnđườngốngvớicáckiểuvă
nbảnđầuvàokhácnhau................................................................................................85
Bảng4.5:TỉlệlỗicủaTTS-ASRvàREC-ASRtrêndữliệukiểusố,dữliệungoạilại
vàcáclỗi khác..............................................................................................................95
Bảng4.6:Đánhgiá mơhìnhNERđềxuất theocáchtiếpcậnE2E vớicác
kiểuvănbảnđầuvàokhácnhau.......................................................................................97
Bảng4.7:SosánhmơhìnhE2Evớimơhìnhđườngống...........................................97
DANHMỤCHÌNHVẼ
Hình1.1:MinhhọacácvấnđềcầnthựchiệnđểtăngchấtlượngvănbảnđầuracủaASR........14
Hình1.2:MơhìnhNERdựatrênhọcsâu.................................................................30
Hình2.1:MơhìnhTransformer[34].......................................................................40
Hình2.2:MinhhoạhoạtđộngcủaCBOWvàShip-Gram........................................45
Hình2.3:TổngthểquytrìnhtiềnhuấnluyệnvàtinhchỉnhchoBERT[35].48Hình
2.4:TinhchỉnhBERTchonhiệmvụNER [35].................................................................49
Hình2.5:MơhìnhConditionalRandomFields........................................................51
Hình2.6: Mơhìnhphươngphápchiasẻthamsốcứng.............................................54
Hình2.7: Mơhìnhphươngpháp chiasẻthamsốmềm............................................55
Hình3.1:Minhhoạđầuvào,đầuracủakhơiphụcdấucâu,chữhoađốivớivăn
bảnđầuraASR.............................................................................................................58
Hình3.2:Kiếntrúcmơhình..................................................................................60
Hình3.3:Mơhìnhxửlýchuỗiđầuvào,đầurathơngthường......................................61
Hình3.4:Đềxuấtmơ hìnhphânchia/hợpnhấtđoạnchồnglấn................................62
Hình3.5:Mơtảphân chia đoạnchồnglấn............................................................63
Hình3.6:Vídụphânchia đoạnchồnglấnvớil = 10vàk =5....................................63
Hình3.7:Mơtảcáchghépnối...............................................................................64
Hình3.8:Hợpnhấtcácđoạnchồngchéodựatrênthamsốc......................................65
Hình 3.9: Mơ hình CaPu đềxuất chovănbản đầuracủaASRtiếngViệt..............66
Hình3.10:Mơtảđầu ra nhậndạngdạngvănbảnvàdạngnhãn................................68
Hình3.11:Kếtquảcủacácmơhìnhsửdụngvàkhơngsửdụnghợpnhấtđoạnchồnglấn............70
Hình3.12:Kếtquảcủacácmơhìnhvớiđầur a l à dạngv ă n b ả n h o ặ c dạng nhãn..............71
Hình3.13:MatrậnlỗichomơhìnhTransformerEncoder-CRF..............................72
Hình4.1:Mơtả kiếntrúc NERtổngqttheocáchtiếpcậnđườngống....................78
Hình 4.2:MơhìnhCaPuchovănbảnđầura củaASR............................................79
Hình 4.3:ĐềxuấtmơhìnhNER..........................................................................80
Hình 4.4:Vídụvềđầu racủamơ hình..................................................................84
Hình4.5:ĐánhgiámơhìnhCaPutrênvănbảnchuẩnbỏdấucâuvàchữhoa
.........................................................................................................................86
Hình 4.6:Đề xuấtkiếntrúcNER theotiếpcậnE2E..............................................88
Hình4.7:Cácphatrongqtrìnhthu thập,xửlýdữliệu...........................................93
1
MỞĐẦU
Trong xã hội hiện đại, thơng tin có thể dễ dàng được tiếp cận trên phạmvi toàn
cầu nhờ hệ thống Internet rộng khắp. Bên cạnh thơng tin dạng văn bảnthì thông tin
dạng âm thanh,phim ảnh ngày càng trở nên phổ biến và thu hútsự quan tâm của
người sử dụng Internet nhờ hệ thống băng thông mạng ngàycàng được mở rộng.
Mặc dù vậy, thơng tin dưới dạng văn bản vẫn có giá trịriêng biệt mà khó có dạng
thức thơng tin nào có thể thay thế được - nhất làtrong các hoạt động giao tiếp thuộc
các lĩnhvực như: kinh tế, chính tr ị, ngoạigiao, khoa học... Kết quả các cuộc đàm
phán, đối thoại song phương, đaphương bao giờ cũng được hiện thực hóa bằng các
văn bản ghi nhớ của cácbên liênquan.
Xử lý ngôn ngữ tự nhiên (XLNNTN) là lĩnh vực khoa học máy tính k ếthợp
giữa trí t uệ nhân tạo và ngơn ngữhọc tính tốn , nhằm xử lý tương tácgiữa con
người và máy tính sao cho máy tính có th ể hiểu hay bắt chước đượcngơn ngữ của
con
người.
XLNNTN
bao
gồm
hai
nhánh
lớn
là
xử
lý
tiếng
nói(Speechprocessing)vàxửlývănbản(Textprocessing).
Một trong những bài toán quan trọng trong hiểu ngữ nghĩa văn bản viếthay nói
là nhận dạng thực thể định danh (Named Entity Recognition - NER).Có thể nói,
đây là một bài tốn tiền đề cho các hệ thống về hiểu ngôn ngữ haykhai phá văn bản
như trích xuất sự kiện, hỏi đáp tự động hay tìm kiếm ngữnghĩa. Đã có nhiều nghiên
cứu
đạt
được
những
kết
quả
rất
khả
quan
cho
bàitốnNERvớidữliệuvănbảnviếtthơng thườngtrongnhiềungơnngữ trênthế
giớicũngnhưtiếngViệt.Trongkhiđó,cácnghiêncứuvềnhậndạngthựcthể định danh cho văn bản đầu ra của
nhận dạng tiếng nói (Automatic SpeechRecognition - ASR) có những khó khăn
riêng so với văn bản viết, và có ítcơngtrìnhn g h i ê n c ứ u c h o t i ế n g V i ệ t .
Nhận dạng tiếng nóilà một q trình chuy ển đổi tín hiệu tiếng nói của
mộtngơnngữcụthểthànhmộtchuỗicáctừcónộidungtươngứngởđịnhdạngvăn
bản.VănbảnđầuracủaASRthườngkhơngcócấutrúc,chẳnghạnnhưkhơngcódấucâu,khơng
viếthoachữcáiđầucâuhoặctênriêng,tênđịadanh,...Điềunàydẫnđếnkhókhăntrongqtrìnhhiểuvàhạnchế
khả năng khai thác vănbản đầu ra của ASR trong hầu hết các ứng dụng. Việc nhận dạng
thực thể địnhdanh từ văn bản đầu ra của nhận dạng tiếng nói tự động do đó có những
đặctrưngkhácbiệtvìnólnchứanhiềulỗinhậndạng,đặcbiệtlàcácthựcthểđịnhdanh nhiều khi
nằm
ngồi
từ
điển
(Out-of-vocabulary
-
OOV).
Các
lỗi
ASRthườngxảyratrongcáctừcấuthànhnênthựcthểđịnhdanhhoặctrongngữcảnhcủanhữngt
ừđó,dovậylàmảnhhưởngtrựctiếpđếnhiệusuấtcủaNER.Ngồira,cáchệthốngNERphảiđốimặt
vớinhữngvấnđềvềsựthiếuhụtmộtsốdấuhiệuquantrọngnhưchữviếthoa,dấuchấmcâu.Bêncạnhđó,đểcảithiện
kếtquảđầuracủaASR,ngườitacầnchuẩnhóavănbảnbằngcáchloạibỏcáctừvơnghĩa,chuẩnhóadữ
liệukiểusố,ngày,tháng,khơiphụcdấucâuvàviếthoa,xửlýtừnướcngồi,...Sauxửlý,vănbảnc
uốisẽcócấutrúctốtvàdễhiểuhơnsovớivănbảnđầuracủaASR,đồngthờikhiđưavàotriểnkhaitrongcácứngdụng
thực tế (tạo phụ đề phim, tạo văn bản các cuộc họp trực tuyến, trích
xuấtthơngtinkháchhàng,...)đạthiệuquảcaohơn.
Như vậy, việc phát triển các giải pháp chuẩn hoá văn bản và nhận dạngthực
thể định danh từ văn bản đầu ra của ASR là cần thiết để cải thiện chấtlượng
tổngthểcủa hệthốngASR.
Tuy nhiên, việc chuẩn hoá văn bản đầu ra của ASR, cụ thể là vấn đề khơiphục
dấucâu,chữhoavẫncịnkhơngítvấnđề cần cải thiện. Có thể kể đếnnhư: tính tốn việc cắt chuỗi
câu dài để lấy được nhiều nhất ngữ cảnh các từxung quanh đoạn cắt; xử lý trên văn
bản có chứa lỗi đầu ra ASR (chèn, xóa,thay thế từ); kết hợp khơi phục dấu câu và
chữ hoa trong một mơ hình như thếnào để đạt được hiệu quả tối ưu; đặc biệt, một trong những vấn đề khó
khănnhất của các nghiên cứu về xử lý tiếng nói là nguồn dữ liệu. Việc sở hữu
mộtnguồn dữ liệu phong phú, đủ lớn cho việc huấn luyện các mơ hìnhh ọc sâu
làvơcùngcầnthiết.Đếnthờiđiểmhiệntại,chưacónhiềucơngbốnghiêncứu
về khôi phục dấu câu và chữ hoa cho văn bản đầu ra của ASR tiếng Việt, dovậy,
việc xây dựng bộ dữ liệu và đề xuất mơ hình giải quyết bài toán này
làcầnthiết,giúpcải tiếnchấtlượng hệthốngASR tiếngViệt.
Bên cạnh ý nghĩa trong việc cải thiện chất lượng đầu ra của ASR thì dấucâu,
chữ hoa cũng là một trong những thông tin quan trọng, hữu ích cho bàitốn nhận
dạng thực thể định danh. Có thể thấy, khơng phải tất cả các từ viếthoa trong tiếng
Việt
đều
được
coi
là
thực
thể
định
danh
(vídụ
các
từ
viết
hoađầucâu).Ngượclại,thựcthểđịnhdanhcũngkhơngnhấtthiếtlàcáctừ/cụmtừviếthoađầyđ
ủ(vídụ:UỷbannhândânThànhphốHàNội,BộGiaothơngvậntải, ..). Đặc biệt, cũng là thực thể định danh
nhưng được phân loại thành cácdạng thực thể khác nhau (ví dụ, thành phố Hồ Chí Minh,
đườngmịn Hồ ChíMinh là tên địa điểm, nhưng, lãnh tụ Hồ Chí Minh là tên người).
Do đó, việckhơi phục dấu câu, chữ hoa là một trong các yếu tố quan trọng giúp tối
ưu hóahệthốngnhậndạngthựcthểđịnhdanhtrongvănbảnđầuraASR.
Trong thực tế, đã có nhiều phương pháp xử lý NER cho văn bản đầu
raASR nhưng chủ yếu tập trung ở ngơn ngữ giàu tài ngunnhư tiếng
Anh,tiếngTrung, tiếng Nhật. Có rấtít nghiên c ứuáp dụng NER cho ASR
tiếngViệt và các nghiên cứunàycũngmớichỉtậptrungchovănb ả n
hội
t h o ạ i ngắn.Từnhữngtháchthứcđó,nghiêncứusinhđãlựachọnnghiêncứuđềtài“Nghiên cứu phương
pháp
chuẩn
hố
văn
bản
và
nhận
dạng
thực
thể
địnhdanh
trongnhậndạngtiếngnóitiếngViệt”.
Mụctiêunghiêncứu
Luận án tập trung đề xuất giải pháp và triển khai thực nghiệm cho haimục
tiêuc ụ t h ể . Thứ nhấtlà chuẩn hóa văn bản đầu ra của hệ thống ASRtiếng Việt
bằng
cách
khôi
phục
dấu
câu,
chữ
hoa.Thứ
hailà
nhận
dạng
thựcthểđịnhdanhtrênvăn bảnđầura củahệthống ASRtiếngViệt.
Nội dung nghiêncứu
Để thực hiện các nhiệm vụ trên, trước tiên, luận án nghiên cứu đặc thù
dữliệuvàlỗiđầura củacác hệ thốngASR tiếngViệt,tìm hiểucácvấnđềcơ bản
củabàitốnNERcũngnhưcáctháchthứccủabàitốnNERvớivănbảnđầuracủaASRtiếngViệt.M
ộtnộidungkhơngthểthiếuđượclàxâydựngbộdữliệuphụcvụchoviệchuấnluyệnvàđánhgiácácm
ơhìnhhọcmáyđểgiảiquyếtbàitốnđặtra.Trêncơsởđó,luậnánđềxuấtmơhìnhkhơiphụcdấucâuvàchữhoa phục
vụ chuẩn hóa văn bản đầu ra của ASR tiếng Việt. Bài tốn NER
chovănbảnđầuracủaASRtiếngViệtđượcnghiêncứugiảiquyếttheohaihướng.Mộtlàhướngtiế
pcậnxâydựnghệthốngđườngống(Pipeline)baogồmmộtsốmơhìnhconđơnlậpghépnốituầntự.H
ailàhướngtiếpcậnxâydựnghệthốngđầu- cuối (End-to-End - E2E) gồm các mơ hình con k
ết hợp thành một mơ hìnhhọcmáyphứchợpvớimộtluồngtínhtốnduynhất.
Phạmvi nghiêncứu
Các nghiên cứuc h u ẩ n h o á v ă n b ả n v à n h ậ n d ạ n g t h ự c
t h ể đ ị n h d a n h trong nội dung tiếng nói thường được tiếp cận theo hai cách:
(1) chỉ sử dụngđặc trưng từ vựng trong văn bản đầu ra của hệ thống ASR hoặc (2)
sử dụngtrực tiếp các đặc trưng âm thanh, trong đó có thơng tin nhiễu khi thu âm,
caođộ người nói, khoảng ngắt nghỉ, ... Trong phạm vi luận án, nghiên cứu sẽ
tậptrung vào hướng giải quyết các vấn đề liên quan đến xử lý văn bản đầu ra
củaASRvớivănbảntiếngnóidài,khóxửlý.
Bên cạnh đó, với vấn đề chuẩn hóa văn bản đầu ra của ASR, nghiên cứuchỉ tập
trung thiết kế mơ hìnhdựđốn dấu câu, chữ hoa và coi hệ thống
ASRcótỉlệlỗitừ(WordErrorRate-WER)bằng0%.VềbàitốnNER,luậnánsửdụng
hệthốngASRthựctếcóWERlà4.85% đểđánhgiá mơhình.
Trong luận án này, nghiên cứu sinh sử dụng nhiều thuật ngữ bằng tiếngAnh
được trình bày trong b ảng danh mục từ viếttắt và thuật ngữ. Để thuậntiện cho việc
theo
dõi
luận
án,
các
thuật
ngữ
đã
được
giải
thíchvềnghĩa
trongbảngnàysẽđượcdùngtừtiếngAnh.
Phươngphápnghiêncứu,triểnkhai
Luận án đã thực hiện nghiên cứu lý thuyết, bao gồm tổng quan về các
bàitoáncầngiảiquyết,cácphươngpháp,kĩthuậtđãđượcsửdụngđểgiảiquyết
các bài toán này và hi ệu quảcủa chúng. Trêncơsở đó,luận án đề xuất
cácgiảiph áp đ ể k h ắ c phục m ộ t s ố v ấ n đ ề c ò n t ồ n t ạ i . L uận á n c ũ n g c h ú t r ọ n g triển
khai phương pháp thực nghiệm nhằm đo lường, đánh giá các mô hình đềxuấtgiảiquyết bàitốn,sosánh
vớicácphươngphápkhác.
Về dữ liệu thực nghiệm, luận án cần xây dựng các bộ dữ liệu văn bản kếthợp
vớitiếng nóitương ứngnhằmđápứngcác bàitốn đặtra.
Cácđóng gópcủa luậnán
Luận án đãcónhữngđóng gópchínhsau:
-Xây dựng các bộ dữ liệu văn bản kết hợp với tiếng nói cho huấn luyệnvà đánh
giá các mơ hình chuẩn hố và nhận dạng thực thể định danh cho vănbản đầu ra của
các
hệ
thống
ASR.
Các
dữ
liệu
này
được
mơ
tả
trong
các
cơngtrình[ C T 1 , CT2,CT4,CT6];
-Đề xuất và cải tiến mơ hình khơi phục dấu câu và chữ hoa giúp chuẩnhố văn
bản đầu ra của ASR tiếng Việt. Mơ hình này được đưa ra, đánh giá vàcảitiếntrong
cáccơng trình [CT2,CT3,CT5];
-Đề xuất hai giải phápn h ậ n d ạ n g t h ự c t h ể đ ị n h d a n h t r o n g
v ă n b ả n đ ầ u ra của ASR tiếng Việt theo hướng tiếp cận đường ống và E2E.
Các giải phápnày đượctrình bàyvàđánhgiátrongcáccơngtrình [CT4,CT6].
Bố cụcluận án
Ngồi phần mở đầu và kết luận, luận án được cấu trúc thành 4 chương.Chương
1 trình bày tổng quan các vấn đề nghiên cứu. Chương này phát biểuvà nêu ý nghĩa
ứng dụng của các bài toán,c h ỉ r a c á c t h á c h t h ứ c c ầ n g i ả i quyết,
khảo sát các nghiên cứu về nhận dạng tiếng nói, nhận dạng thực thểđịnh danh từ
tiếng nói nói chung và đối với tiếng Việt nói riêng. Chương 2 -Kiến thức cơ sở,
trình bày nh ững kiến thức nền tảng đượcsử dụng để địnhhướng và là cơ sở để đề
xuất mơ hình chuẩn hố và nhận dạng thực thể địnhdanh cho văn bản đầu ra của
ASR. Tiếp theo, chương 3 sẽ giới thiệu về bàitoán khơi phục dấu câu và chữ hoa
cho
hệ
thống
ASR
tiếng
Việt.
Trongchươngnày,luậnán trìnhbàymơhìnhđềxuất,dữliệuvàcáckếtquảthực
nghiệm cho bài toán. Cuối cùng, chương 4 đề xuất phương pháp nhận dạngthực thể
định danh cho văn bản đầu ra của ASR tiếng Việt theo hai hướng tiếpcận đường
ống và tiếp cận đầu-cuối, trình bày các k ết quả thực nghiệm,và
sosánhhaicáchtiếpcận.
CHƯƠNG1 : T Ổ N G Q U A N V Ấ N Đ Ề N G H I Ê NC ỨU
NERlàmộtbàitốnquantrọngtrongXLNNTN.Bàitốnnàyđãvàđangđược nghiên cứu, đạt
hiệu
suất
cao
đối
với
văn
bản
viết
thơng
thường.
Tuynhiên,vớivănbảnđầuracủaASR,cácthơngtinđặctrưngvềdấucâu,chữhoachoNERkhơngc
ịntồntại,gâynhiềukhókhănchoxửlý.ĐiềunàykhiếnchocácnghiêncứuvềNERtrongvănbảnđầuracủa
ASR
cịn
hạn
chế.
Chính
vìvậy,việcnghiêncứu,xửlývàchuẩnhóavănbảnđầuracủaASR,giúpcảitiếnhệthốngASRvàph
ụcvụchođầuvàocủahệthốngNERlàquantrọngvàcóýnghĩa. Chương này trước hếtsẽ trình
bày t ổng quan về XLNNTN, những khókhăn khi xử lý ngơn ngữ tiếng Việt. Tiếp đó
là phần tìm hiểu chung về hệthống ASR, những đặc trưng trong văn bản đầu ra của
hệ thống ASR và cácnghiên cứu liên quan đến việc chuẩn hóa văn bản đầu ra của
ASR
giúp
hỗ
trợchomơhìnhNER.Cuốichương,luậnánmơtảbàitốnNER,nhữngkhókhănkhixửlýNERc
hotiếngnóitiếngViệtvàcácnghiêncứuliênquan.
1.1. Xửlý ngơnngữtựnhiên
1.1.1. Giớithiệu
Ngơn ngữ là một trong những khía cạnh nhận thức quan trọng nhất củacon
người. Ngôn ngữ tự nhiên đề cập đến bất kỳ ngơn ngữ viết hoặc nói đượcphát triển
một cách tự nhiên để con người có thểgiao tiếp với nhau[1].XLNNTN là một lĩnh
vực con trong khoa học máy tính, k ết hợp giữa trítuệnhân tạo và ngơn ngữ học tính
tốn . XLNNTN tậptrung xử lý tương tác giữacon người và máy tính sao cho máy
tính có th ể hiểu hay bắt chước được ngônngữcủaconngười.Rađờivàonhữngnăm40củathếkỷ20,
XLNNTN trảiqua các giai đoạn phát triển tương ứng với các phương pháp, mơ
hìnhxửlýkhác nhau như: dựa vào tập luật, dựa vào thống kê, dựa vào học máy, và
đặcbiệtlàhọc sâutrongthập kỉ vừaqua.
Các công cụ như phân tích, nhận dạng cảm xúc, nhận dạng thực thể địnhdanh,
phântíchcúpháp, ngữnghĩa,...đãgiúpXLNNTNtrở thànhchủđềhấp
dẫn để nghiên cứu trong nhiều lĩnh vực khác nhau như dịch máy,trích xu
ấtthơngtin,tómtắtvănbản,trảlờicâuhỏitựđộng,...NhiềuứngdụngXLNNTN trên các thiết bị thơng
minhxuấthiệnởkhắpmọinơi,thuhútđượcnhiềusựquantâmcủacộngđồngnhưSiricủaApple,GoogleTranslatecủaGoogle,
hay
Alexa
của
Amazon,
hệ
thống
trợ
lý
ảo
Intelligent
Personal
AgentcủaHyundai,nhàthơngminhXiaomi,...
XLNNTNc ó t h ể đ ư ợ c c h i a r a t h à n h h a i n h á n h l ớ n , b a o g ồ m x ử l ý tiế
ngnóivà xửlý vănbản. Xửlý tiếng nóit ậ p
trung
nghiên
cứu,
phát
t r i ể n cácthuậttốn,chươngtrìnhmáytínhxửlýngơnngữcủaconngườiởdạngtiếng nói. Các ứng dụng quan
trọng của xử lý tiếng nói bao gồm nhận dạngtiếng nói và tổng hợp tiếng nói. Nếu
như nhận dạng tiếng nói là chuyển ngơnngữ từ dạng tiếng nói sang dạng văn bản
thì
ngược
lại,
tổng
hợp
tiếng
nóichuyểnngơnngữ từdạng vănbảnthànht iếngnói. Xửlývănbảnt ậptr ung vào
phân tích d ữ liệu văn bản. Các ứng dụng quan trọng của xử lý văn bảnbaogồmtìmkiếmvà truy xuất
thơngtin,dịchmáy, tómt ắ t v ă n b ả n , h a y kiểm tra lỗi chính t ả tự động. Xử lý
văn bản đơi khi được chia tiếp thành hainhánh nhỏ hơn bao gồm hiểu văn bản và
sinh văn bản. Nếu như hiểu văn bảnliên quan tới các bài tốn phân tích văn bản thì
sinh văn bản liên quan tớinhiệmvụtạoravănbảnmới[2].
Xử lý tiếng nói và xử lý văn bản khơng hồn tồn độc lập mà có mốiliên
quan với nhau. Văn bản được xử lý tốt giúp hệ thống tổng hợp tiếng nóiđược thuận
lợi, nâng cao độ chính xác.X ử
lý tiếng
nói
cũng
tạo ra
các
v ă n bản với các đặc điểm riêng. Vấn đề xử lý văn bản sau nhận dạng tiếng nói
làmột
tháchthức
cần
được
giảiquyết.
Luậnáncũng
đặtr a
vấn
đề
c ầ n c h u ẩ n hốvănbảnvànhậndạngthựcthểđịnhdanhchovănbảnđầuracủanhậndạngtiếngnóitiếngViệt.
1.1.2. Xửlýngơn ngữ tựnhiên tiếngViệt
Theo xu thế phát triển chung của thế giới, XLNNTN tiếng Việt
cũngđượcnghiêncứuhơnmộtthậpkỉquavớinhiềubàitoánkhácnhauchocảxử
lý văn bản và xử lý tiếng nói. Đồng thời, nhiều công cụ đã được công bố giúphỗ trợ
tốt hơn cho các nghiên cứu như: vnTokenizer (hệ tách từ tiếng Việt),Viettagger (hệ
gán nhãn từ loại tiếng Việt), VietChunker(hệ phân tích c ụm từtiếngViệt),…
Cộng đồng nghiên cứu đã phát triển mạnh mẽ, có tínhgắnkết hơn kể
từkhih ộ i t h ả o x ử l ý n g ô n n g ữ v à tiếngn ó i t i ế n g V i ệ t ( V i e t n a m e s e L a n g u a g e
andSpeechProcessing-VLSP)được tổ chức lần đầu tiên vào năm 2012. Hộithảo đã trở thành
diễn đàn thường niên của cộng đồng nghiên cứu về tiếngViệt. Đây là nơi chia sẻ
các kết quả nghiên cứu, tổ chức các cuộc thi đánh giáhiệu quả của cáccơng cụ xử lí
ti
ếng
Việt,
thu
hút
được
rất
nhiều
đội
tham
giavàchothấysựlớnmạnhcủacộngđồngqua từngnăm.
Đáng chú ý là thông qua VLSP, những bộ dữ liệu chuẩn có gán nhãn đãđược
cungcấpnhằmphụcvụcộngđồngnghiêncứuvềxửlýngơnngữvàtiếng nói tiếng Việt. Luận án đã sử dụng
bộ dữ liệu của VLSP 2018 cho mụcđíchnghiêncứu.
Mặc dù, XLNNTN đã mang đến công cụ mạnh mẽ với những lợi ích tolớn và
đã
có
những
tiến
bộ
vượt
bậc
trong
những
năm
gần
đây,
tuy
nhiên,XLNNTNvẫncịnnhiềuthách thức,đặcbiệt,vớingơnngữtiếngViệt.
1.1.3. Nhữngtháchthứctrongxửlýngơnngữtựnhiên
Kaddari và các cộng sự [3] đã đưa ra một số thách thức đối với lĩnh
vựcXLNNTN,baogồm:
Trong hiểu ngơn ngữ tự nhiên, những khó khăn đến từ việc trích xuấtngữ
nghĩa từvăn bản,nắm bắt cácmối quan hệ ngôn ngữh o ặ c n g ữ n g h ĩ a giữa các
cặp thuật ngữ từ vựng, xác định ngữ cảnh và nghĩa của một từ theongữcảnh,xácđịnh
vàhiểungôn ngữtheo cáccáchdiễn đạtkhácnhau,...
Đối với sinh ngôn ngữ tự nhiên, vấn đề khó khăn gặp phải là thiếu dữliệuvà
vănbảntạorathiếumạch lạc,nhấtqn.
Ngồi ra, thách thức cho các nghiên cứu trong lĩnh vực này là thiếu
bộdữliệu,đặcbiệtđốivớingơnngữcónguồnngữliệuhạnchế.Việcsửdụng