Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.55 MB, 129 trang )

BỘGIÁODỤCVÀĐÀOTẠO

VIỆNHÀNLÂMKHOAHỌC
VÀCÔNGNGHỆVIỆTNAM
HỌCVIỆNKHOAHỌCVÀC Ô NGNGHỆ

NGUYỄNTHỊTHUHIỀN

NGHIÊNC Ứ U P H Ư Ơ N G P H Á P C H U Ẩ N H O Á V Ă N B Ả
N VÀN H Ậ N DẠNGTHỰCTHỂĐỊNHDANH
TRONGNHẬNDẠNGTIẾNGNĨITIẾNGVIỆT

LUẬNÁNTIẾNSĨNGÀNHMÁYTÍNH

HÀN Ộ I -2023

NGUYỄNTHỊTHUHIỀN

NGHIÊNC Ứ U P H Ư Ơ N G P H Á P C H U Ẩ N H O Á V Ă N B Ả
N VÀN H Ậ N DẠNGTHỰCTHỂĐỊNHDANH
TRONGNHẬNDẠNGTIẾNGNĨITIẾNGVIỆT

LUẬNÁNTIẾNSĨNGÀNHMÁYTÍNH
Chunngành:HệthốngthơngtinMã
số:9480104

XácnhậncủaHọcviệnK
hoahọcvàCơngnghệ

Ngườihướngdẫn1

Ngườihướngdẫn2

(Ký,ghirõhọtên)

(Ký,ghirõhọtên)

HÀN Ộ I -2023

1
LỜICAMĐOAN
Tôix i n c a m đ o a n đ â y l à c ô n g t r ì n h n g h i ê n c ứ u c ủ a r i ê n g t ô i . C á c k ế t q u ả đư
ợc viết chung với các tác giả khác đều được sự đồng ý của các đồng tác
giảtrướck h i đ ư a v à o l u ậ n á n . C á c k ế t q u ả n ê u t r o n g l u ậ n á n l à tr ungt h ự c v à ch
ưatừngđượccơngbốtrongcáccơngtrìnhnào khác.
Tácgiả

NguyễnThịThuHiền

LỜICẢM ƠN
Luậná n c ủ a t á c g i ả đ ư ợ c t h ự c h i ệ n t ạ i H ọ c v i ệ n
K h o a h ọ c v à C ô n g nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt
Nam, dưới sự hướng dẫntận tìnhcủaPGS.TS. Lương Chi Mai và TS. Nguyễn Thị
Minh Huyền. Tơixin được bày tỏ lịng biết ơn sâu sắc đến hai Cô về những định
hướng nghiêncứu, sự động viên và hướng dẫn tận tình giúp tơi vượt qua những khó
khăn đểhồnthànhluậnánnày.
Tơi cũng xin gửi lời cảm ơn chân thành đến các nhà khoa học, các đồngtác
giả của các cơng trình nghiên c ứu đã được trích dẫn trong luận án. Đâylànhữngtư

liệuqbáucóliênquangiúptơihồnthànhluậnán.
Tơi xin chân thành cảm ơn đến Ban lãnh đạo Học viện Khoa học vàCông
nghệ, Viện Công nghệ Thông tin đã tạo điều kiện thuận lợi cho tơi
trongqtrìnhhọctập,nghiêncứu.
Tơixinchân thànhcảm ơ nBan giámhi ệu tr ư ờng Đại học Sư phạm-ĐH Thái
Ngun,KhoaTốn,BộmơnKhoahọcmáytính-Hệthốngthơngtin và các đồng nghiệp đã giúp đỡ và tạo
điều kiện thuận lợi để tơi có thể thựchiệnkếhoạchnghiêncứu,hồnthànhluậnán.
Tơi xin được bày tỏ tìnhcảmvà lịng biết ơn vơ hạn tới những ngườithân trong
Gia đình, những người ln dành cho tơi sự độngviên, khích l ệ, sẻchia,giúpđỡ
trongnhữnglúckhókhăn.
Tácgiả

NguyễnThịThuHiền

MỤCLỤC
Trang
LỜICAMĐOAN....................................................................................................i
LỜICẢMƠN.........................................................................................................ii
MỤC LỤC...........................................................................................................iii
DANHMỤC TỪVIẾT TẮT.................................................................................v
DANHMỤC BẢNGBIỂU..................................................................................vii
DANHMỤCHÌNHVẼ.......................................................................................viii
MỞĐẦU................................................................................................................1
CHƯƠNG1:T ỔNG QU AN V Ấ N Đ Ề NGHIÊ NC Ứ U .........................................7
1.1. Xửlý ngônngữtựnhiên.....................................................................................7
1.2. Nhậndạngtiếngnói.........................................................................................11
1.3. Chuẩnhóavănbản..........................................................................................16
1.4. Nhậndạngthựcthểđịnhdanh...........................................................................24
1.5. Tổng quanvềdữliệu.......................................................................................34

1.6. KếtluậnChương 1..........................................................................................36
CHƯƠNG2:KIẾNTHỨCCƠ SỞ......................................................................37
2.1. Mơhìnhxửlýchuỗi.........................................................................................37
2.2. Mơhìnhbiểudiễntừ........................................................................................44
2.3. Mơhình gánnhãnchuỗi...................................................................................50
2.4. Học đatácvụ..................................................................................................53
2.5. Kết luậnchương 2..........................................................................................56
CHƯƠNG3:CHUẨNHĨAVĂNBẢNĐẦURAC Ủ A H Ệ T H Ố N G NHẬNDẠNG
TIẾNGNĨITIẾNGVIỆT..............................................................................................57
3.1. Bàitốn..........................................................................................................57
3.2. Xâydựngdữliệu.............................................................................................58
3.3. Kiếntrúcmơhình.............................................................................................60
3.4. Kết quảthựcnghiệm.......................................................................................68
3.5. KếtluậnChương 3..........................................................................................73

CHƯƠNG4:NHẬNDẠNGTHỰCTHỂĐỊNHDANHCHOVĂNBẢNĐẦURACỦ
AHỆTHỐNGN H Ậ N DẠNGTIẾNGNĨ ITIẾNGVIỆT...........................................75
4.1. Bàitốn..........................................................................................................75
4.2. Tổng quan dữliệu..........................................................................................76
4.3. Nhậndạngthựcthểđịnh danh theo hướngtiếp cậnĐườngống...........................77
4.4. Nhậndạngthựcthểđịnh danh theo hướngtiếp cậnE2E....................................87
4.5. KếtluậnChương 4..........................................................................................98
KẾTLUẬN..........................................................................................................99
DANHMỤCCƠNGTRÌNHCỦATÁCGIẢ.......................................................101
TÀILIỆUTHAMKHẢO...................................................................................103

DANHMỤCTỪVIẾTTẮT
STT

1

Từviết tắt
ASR

TừtiếngAnh

Ý nghĩa tiếngViệt

AutomaticSpeech

Nhậndạngtiếng nói tự

Recognition

động

BidirectionalEncoder
2

BERT

Representations
fromTransformers

3

BiLSTM

4

BPE
CaPu

Mơhìnhbộnhớngắn-dài

TermMemory

hạnhai chiều

Byte-Pair-Encoding

Mãhốcặpbyte

Capitalization
andPunctuationmodel

6

CBOW

7

CNN

8

CRF

9

chiềudựatrênTransformers

BidirectionalLongShort

Recovering
5

Mã hóa biểu diễn hai

Mơhìnhkhơiphụcdấucâuvàc
hữhoa

ContinuousBagof

Mơhìnhnhúngtừ“Túitừ

Words

liêntục”

ConvolutionalNeural
Network

Mạngnơ-rontíchchập

ConditionalRandom

Trườngngẫunhiên cóđiều

Fields

kiện

DL

DeepLearning

Họcsâu

10

DNN

DeepNeuralNetworks

Mạngnơ-ronsâu

11

ELMO

Embeddingsfrom

Nhúngtừtừmơhìnhngơn

LanguageModel

ngữ

12

E2E

End-to-End

Mơ hìnhđầu-cuối

13

GloVe

GlobalVéc-tơsforWord

Mơhìnhnhúngtừdựatrên

Representation

biểudiễntừ

14

GRU

GatedRecurrentUnit

Mạnghồitiếpcócổng

Generativepre-trained

Mơ hìnhbiếnđổiđược huấn

transformer

luyệntrước

HMM

HiddenMarkovModel

MơhìnhMarkovẩn

17

LM

LanguageModel

Mơhìnhngơnngữ

18

LSTM

LongShortTerm

Mơhìnhbộnhớngắn-dài

Memory

hạn

19

ME

MaximumEntropy

MơhìnhEntropycựcđại

20

MEMM

MaximumEntropy

MơhìnhMarkovEntropy

MarkovModel

cực đại

21

MTL

Multi-TaskLearning

Họcđatácvụ

22

NER

NamedEntity

Nhậndạngthựcthểđịnh

Recognition

danh

23

OOV

Out-of-Vocabulary

Từnằmngồitừđiển

24

RNN

25

Seq2seq

26

SLU

27

SVM

28

VLSP

29

XLNNTN

30

TTS

TextToSpeech

31

WER

WordErrorRate

15

GPT

16

RecurrentNeural
Network
Sequence-to-Sequence
SpokenLanguage
Understanding

Mạngnơ-ronhồi quy
Mơhìnhánhxạtừ chuỗi
sangchuỗi
Hiểungơnngữnói

SupportVéc-tơMachine

Máyvéc-tơhỗtrợ

VietnameseLanguage

Hộithảoxửlýngơnngữvà

andSpeechProcessing

tiếng nóitiếngViệt
Xửlý ngơnngữtựnhiên
Hệthống chuyển vănbản
sangtiếng nói
Tỉlệ lỗitừ

DANHMỤC BẢNGBIỂU
Bảng1 . 1 : Đ i ể m k h á c b i ệ t g i ữ a v ă n b ả n đ ầ u r a A S R v à v ă n b ả n v i ế t d ạ n g chu
ẩn...............................................................................................................................13
Bảng 1.2:Tỉlệlỗitừcủa mộtsốhệthốngnhậndạngtiếngnói tiếngViệt...................15
Bảng3.1:Thơngtinbộdữliệu..............................................................................59
Bảng3.2:Sốlượngthamsốcủacácmơhình...........................................................69
Bảng3.3:Cácthamsốhuấnluyệnmơhình.............................................................69
Bảng3.4:SosánhkếtquảmơhìnhTransformerEncoder- CRFkhiápdụngvàkhơngáp
dụnghợpnhất chồnglấn..............................................................................................71
Bảng3.5:So sánhtốcđộxửlý(tokens/second).....................................................73
Bảng4.1:ThamsốcấutrúcvàhuấnluyệnmơhìnhViBERT.....................................81
Bảng4.2:Thốngkêbộ dữliệuNER củaVLSP2018..............................................83
Bảng4 . 3 : Đ á n h g i á c á c m ơ h ì n h N E R d ự a t r ê n b ộ d ữ l i ệ u N E R c ủ a V L S P 2018
..................................................................................................................................85
Bảng4.4:ĐánhgiámơhìnhNERđềxuấttheocáchtiếpcậnđườngốngvớicáckiểuvă
nbảnđầuvàokhácnhau................................................................................................85
Bảng4.5:TỉlệlỗicủaTTS-ASRvàREC-ASRtrêndữliệukiểusố,dữliệungoạilại
vàcáclỗi khác..............................................................................................................95
Bảng4.6:Đánhgiá mơhìnhNERđềxuất theocáchtiếpcậnE2E vớicác
kiểuvănbảnđầuvàokhácnhau.......................................................................................97
Bảng4.7:SosánhmơhìnhE2Evớimơhìnhđườngống...........................................97

DANHMỤCHÌNHVẼ
Hình1.1:MinhhọacácvấnđềcầnthựchiệnđểtăngchấtlượngvănbảnđầuracủaASR........14
Hình1.2:MơhìnhNERdựatrênhọcsâu.................................................................30
Hình2.1:MơhìnhTransformer[34].......................................................................40
Hình2.2:MinhhoạhoạtđộngcủaCBOWvàShip-Gram........................................45
Hình2.3:TổngthểquytrìnhtiềnhuấnluyệnvàtinhchỉnhchoBERT[35].48Hình

2.4:TinhchỉnhBERTchonhiệmvụNER [35].................................................................49
Hình2.5:MơhìnhConditionalRandomFields........................................................51
Hình2.6: Mơhìnhphươngphápchiasẻthamsốcứng.............................................54
Hình2.7: Mơhìnhphươngpháp chiasẻthamsốmềm............................................55
Hình3.1:Minhhoạđầuvào,đầuracủakhơiphụcdấucâu,chữhoađốivớivăn
bảnđầuraASR.............................................................................................................58
Hình3.2:Kiếntrúcmơhình..................................................................................60
Hình3.3:Mơhìnhxửlýchuỗiđầuvào,đầurathơngthường......................................61
Hình3.4:Đềxuấtmơ hìnhphânchia/hợpnhấtđoạnchồnglấn................................62
Hình3.5:Mơtảphân chia đoạnchồnglấn............................................................63
Hình3.6:Vídụphânchia đoạnchồnglấnvớil = 10vàk =5....................................63
Hình3.7:Mơtảcáchghépnối...............................................................................64
Hình3.8:Hợpnhấtcácđoạnchồngchéodựatrênthamsốc......................................65
Hình 3.9: Mơ hình CaPu đềxuất chovănbản đầuracủaASRtiếngViệt..............66
Hình3.10:Mơtảđầu ra nhậndạngdạngvănbảnvàdạngnhãn................................68
Hình3.11:Kếtquảcủacácmơhìnhsửdụngvàkhơngsửdụnghợpnhấtđoạnchồnglấn............70
Hình3.12:Kếtquảcủacácmơhìnhvớiđầur a l à dạngv ă n b ả n h o ặ c dạng nhãn..............71
Hình3.13:MatrậnlỗichomơhìnhTransformerEncoder-CRF..............................72
Hình4.1:Mơtả kiếntrúc NERtổngqttheocáchtiếpcậnđườngống....................78

Hình 4.2:MơhìnhCaPuchovănbảnđầura củaASR............................................79
Hình 4.3:ĐềxuấtmơhìnhNER..........................................................................80
Hình 4.4:Vídụvềđầu racủamơ hình..................................................................84
Hình4.5:ĐánhgiámơhìnhCaPutrênvănbảnchuẩnbỏdấucâuvàchữhoa
.........................................................................................................................86
Hình 4.6:Đề xuấtkiếntrúcNER theotiếpcậnE2E..............................................88
Hình4.7:Cácphatrongqtrìnhthu thập,xửlýdữliệu...........................................93

1
MỞĐẦU

Trong xã hội hiện đại, thơng tin có thể dễ dàng được tiếp cận trên phạmvi toàn
cầu nhờ hệ thống Internet rộng khắp. Bên cạnh thơng tin dạng văn bảnthì thông tin
dạng âm thanh,phim ảnh ngày càng trở nên phổ biến và thu hútsự quan tâm của
người sử dụng Internet nhờ hệ thống băng thông mạng ngàycàng được mở rộng.
Mặc dù vậy, thơng tin dưới dạng văn bản vẫn có giá trịriêng biệt mà khó có dạng
thức thơng tin nào có thể thay thế được - nhất làtrong các hoạt động giao tiếp thuộc
các lĩnhvực như: kinh tế, chính tr ị, ngoạigiao, khoa học... Kết quả các cuộc đàm
phán, đối thoại song phương, đaphương bao giờ cũng được hiện thực hóa bằng các
văn bản ghi nhớ của cácbên liênquan.
Xử lý ngôn ngữ tự nhiên (XLNNTN) là lĩnh vực khoa học máy tính k ếthợp
giữa trí t uệ nhân tạo và ngơn ngữhọc tính tốn , nhằm xử lý tương tácgiữa con
người và máy tính sao cho máy tính có th ể hiểu hay bắt chước đượcngơn ngữ của
con

người.

XLNNTN

bao

gồm

hai

nhánh

lớn

là

xử

lý

tiếng

nói(Speechprocessing)vàxửlývănbản(Textprocessing).
Một trong những bài toán quan trọng trong hiểu ngữ nghĩa văn bản viếthay nói
là nhận dạng thực thể định danh (Named Entity Recognition - NER).Có thể nói,
đây là một bài tốn tiền đề cho các hệ thống về hiểu ngôn ngữ haykhai phá văn bản
như trích xuất sự kiện, hỏi đáp tự động hay tìm kiếm ngữnghĩa. Đã có nhiều nghiên
cứu

đạt

được

những

kết

quả

rất

khả

quan

cho

bàitốnNERvớidữliệuvănbảnviếtthơng thườngtrongnhiềungơnngữ trênthế
giớicũngnhưtiếngViệt.Trongkhiđó,cácnghiêncứuvềnhậndạngthựcthể định danh cho văn bản đầu ra của
nhận dạng tiếng nói (Automatic SpeechRecognition - ASR) có những khó khăn
riêng so với văn bản viết, và có ítcơngtrìnhn g h i ê n c ứ u c h o t i ế n g V i ệ t .
Nhận dạng tiếng nóilà một q trình chuy ển đổi tín hiệu tiếng nói của
mộtngơnngữcụthểthànhmộtchuỗicáctừcónộidungtươngứngởđịnhdạngvăn

bản.VănbảnđầuracủaASRthườngkhơngcócấutrúc,chẳnghạnnhưkhơngcódấucâu,khơng
viếthoachữcáiđầucâuhoặctênriêng,tênđịadanh,...Điềunàydẫnđếnkhókhăntrongqtrìnhhiểuvàhạnchế
khả năng khai thác vănbản đầu ra của ASR trong hầu hết các ứng dụng. Việc nhận dạng
thực thể địnhdanh từ văn bản đầu ra của nhận dạng tiếng nói tự động do đó có những
đặctrưngkhácbiệtvìnólnchứanhiềulỗinhậndạng,đặcbiệtlàcácthựcthểđịnhdanh nhiều khi
nằm

ngồi

từ

điển

(Out-of-vocabulary

-

OOV).

Các

lỗi

ASRthườngxảyratrongcáctừcấuthànhnênthựcthểđịnhdanhhoặctrongngữcảnhcủanhữngt
ừđó,dovậylàmảnhhưởngtrựctiếpđếnhiệusuấtcủaNER.Ngồira,cáchệthốngNERphảiđốimặt
vớinhữngvấnđềvềsựthiếuhụtmộtsốdấuhiệuquantrọngnhưchữviếthoa,dấuchấmcâu.Bêncạnhđó,đểcảithiện
kếtquảđầuracủaASR,ngườitacầnchuẩnhóavănbảnbằngcáchloạibỏcáctừvơnghĩa,chuẩnhóadữ
liệukiểusố,ngày,tháng,khơiphụcdấucâuvàviếthoa,xửlýtừnướcngồi,...Sauxửlý,vănbảnc
uốisẽcócấutrúctốtvàdễhiểuhơnsovớivănbảnđầuracủaASR,đồngthờikhiđưavàotriểnkhaitrongcácứngdụng
thực tế (tạo phụ đề phim, tạo văn bản các cuộc họp trực tuyến, trích
xuấtthơngtinkháchhàng,...)đạthiệuquảcaohơn.
Như vậy, việc phát triển các giải pháp chuẩn hoá văn bản và nhận dạngthực
thể định danh từ văn bản đầu ra của ASR là cần thiết để cải thiện chấtlượng
tổngthểcủa hệthốngASR.
Tuy nhiên, việc chuẩn hoá văn bản đầu ra của ASR, cụ thể là vấn đề khơiphục
dấucâu,chữhoavẫncịnkhơngítvấnđề cần cải thiện. Có thể kể đếnnhư: tính tốn việc cắt chuỗi
câu dài để lấy được nhiều nhất ngữ cảnh các từxung quanh đoạn cắt; xử lý trên văn
bản có chứa lỗi đầu ra ASR (chèn, xóa,thay thế từ); kết hợp khơi phục dấu câu và
chữ hoa trong một mơ hình như thếnào để đạt được hiệu quả tối ưu; đặc biệt, một trong những vấn đề khó
khănnhất của các nghiên cứu về xử lý tiếng nói là nguồn dữ liệu. Việc sở hữu
mộtnguồn dữ liệu phong phú, đủ lớn cho việc huấn luyện các mơ hìnhh ọc sâu
làvơcùngcầnthiết.Đếnthờiđiểmhiệntại,chưacónhiềucơngbốnghiêncứu

về khôi phục dấu câu và chữ hoa cho văn bản đầu ra của ASR tiếng Việt, dovậy,
việc xây dựng bộ dữ liệu và đề xuất mơ hình giải quyết bài toán này
làcầnthiết,giúpcải tiếnchấtlượng hệthốngASR tiếngViệt.
Bên cạnh ý nghĩa trong việc cải thiện chất lượng đầu ra của ASR thì dấucâu,

chữ hoa cũng là một trong những thông tin quan trọng, hữu ích cho bàitốn nhận
dạng thực thể định danh. Có thể thấy, khơng phải tất cả các từ viếthoa trong tiếng
Việt

đều

được

coi

là

thực

thể

định

danh

(vídụ

các

từ

viết

hoađầucâu).Ngượclại,thựcthểđịnhdanhcũngkhơngnhấtthiếtlàcáctừ/cụmtừviếthoađầyđ
ủ(vídụ:UỷbannhândânThànhphốHàNội,BộGiaothơngvậntải, ..). Đặc biệt, cũng là thực thể định danh

nhưng được phân loại thành cácdạng thực thể khác nhau (ví dụ, thành phố Hồ Chí Minh,
đườngmịn Hồ ChíMinh là tên địa điểm, nhưng, lãnh tụ Hồ Chí Minh là tên người).
Do đó, việckhơi phục dấu câu, chữ hoa là một trong các yếu tố quan trọng giúp tối
ưu hóahệthốngnhậndạngthựcthểđịnhdanhtrongvănbảnđầuraASR.
Trong thực tế, đã có nhiều phương pháp xử lý NER cho văn bản đầu
raASR nhưng chủ yếu tập trung ở ngơn ngữ giàu tài ngunnhư tiếng
Anh,tiếngTrung, tiếng Nhật. Có rấtít nghiên c ứuáp dụng NER cho ASR
tiếngViệt và các nghiên cứunàycũngmớichỉtậptrungchovănb ả n

hội

t h o ạ i ngắn.Từnhữngtháchthứcđó,nghiêncứusinhđãlựachọnnghiêncứuđềtài“Nghiên cứu phương
pháp

chuẩn

hố

văn

bản

và

nhận

dạng

thực

thể

địnhdanh

trongnhậndạngtiếngnóitiếngViệt”.
Mụctiêunghiêncứu
Luận án tập trung đề xuất giải pháp và triển khai thực nghiệm cho haimục
tiêuc ụ t h ể . Thứ nhấtlà chuẩn hóa văn bản đầu ra của hệ thống ASRtiếng Việt
bằng

cách

khôi

phục

dấu

câu,

chữ

hoa.Thứ

hailà

nhận

dạng

thựcthểđịnhdanhtrênvăn bảnđầura củahệthống ASRtiếngViệt.
Nội dung nghiêncứu
Để thực hiện các nhiệm vụ trên, trước tiên, luận án nghiên cứu đặc thù
dữliệuvàlỗiđầura củacác hệ thốngASR tiếngViệt,tìm hiểucácvấnđềcơ bản

củabàitốnNERcũngnhưcáctháchthứccủabàitốnNERvớivănbảnđầuracủaASRtiếngViệt.M
ộtnộidungkhơngthểthiếuđượclàxâydựngbộdữliệuphụcvụchoviệchuấnluyệnvàđánhgiácácm
ơhìnhhọcmáyđểgiảiquyếtbàitốnđặtra.Trêncơsởđó,luậnánđềxuấtmơhìnhkhơiphụcdấucâuvàchữhoa phục
vụ chuẩn hóa văn bản đầu ra của ASR tiếng Việt. Bài tốn NER
chovănbảnđầuracủaASRtiếngViệtđượcnghiêncứugiảiquyếttheohaihướng.Mộtlàhướngtiế
pcậnxâydựnghệthốngđườngống(Pipeline)baogồmmộtsốmơhìnhconđơnlậpghépnốituầntự.H
ailàhướngtiếpcậnxâydựnghệthốngđầu- cuối (End-to-End - E2E) gồm các mơ hình con k
ết hợp thành một mơ hìnhhọcmáyphứchợpvớimộtluồngtínhtốnduynhất.
Phạmvi nghiêncứu
Các nghiên cứuc h u ẩ n h o á v ă n b ả n v à n h ậ n d ạ n g t h ự c
t h ể đ ị n h d a n h trong nội dung tiếng nói thường được tiếp cận theo hai cách:
(1) chỉ sử dụngđặc trưng từ vựng trong văn bản đầu ra của hệ thống ASR hoặc (2)
sử dụngtrực tiếp các đặc trưng âm thanh, trong đó có thơng tin nhiễu khi thu âm,
caođộ người nói, khoảng ngắt nghỉ, ... Trong phạm vi luận án, nghiên cứu sẽ
tậptrung vào hướng giải quyết các vấn đề liên quan đến xử lý văn bản đầu ra
củaASRvớivănbảntiếngnóidài,khóxửlý.
Bên cạnh đó, với vấn đề chuẩn hóa văn bản đầu ra của ASR, nghiên cứuchỉ tập
trung thiết kế mơ hìnhdựđốn dấu câu, chữ hoa và coi hệ thống
ASRcótỉlệlỗitừ(WordErrorRate-WER)bằng0%.VềbàitốnNER,luậnánsửdụng
hệthốngASRthựctếcóWERlà4.85% đểđánhgiá mơhình.
Trong luận án này, nghiên cứu sinh sử dụng nhiều thuật ngữ bằng tiếngAnh
được trình bày trong b ảng danh mục từ viếttắt và thuật ngữ. Để thuậntiện cho việc
theo

dõi

luận

án,

các

thuật

ngữ

đã

được

giải

thíchvềnghĩa

trongbảngnàysẽđượcdùngtừtiếngAnh.
Phươngphápnghiêncứu,triểnkhai
Luận án đã thực hiện nghiên cứu lý thuyết, bao gồm tổng quan về các
bàitoáncầngiảiquyết,cácphươngpháp,kĩthuậtđãđượcsửdụngđểgiảiquyết

các bài toán này và hi ệu quảcủa chúng. Trêncơsở đó,luận án đề xuất
cácgiảiph áp đ ể k h ắ c phục m ộ t s ố v ấ n đ ề c ò n t ồ n t ạ i . L uận á n c ũ n g c h ú t r ọ n g triển
khai phương pháp thực nghiệm nhằm đo lường, đánh giá các mô hình đềxuấtgiảiquyết bàitốn,sosánh
vớicácphươngphápkhác.

Về dữ liệu thực nghiệm, luận án cần xây dựng các bộ dữ liệu văn bản kếthợp
vớitiếng nóitương ứngnhằmđápứngcác bàitốn đặtra.
Cácđóng gópcủa luậnán
Luận án đãcónhữngđóng gópchínhsau:
-Xây dựng các bộ dữ liệu văn bản kết hợp với tiếng nói cho huấn luyệnvà đánh
giá các mơ hình chuẩn hố và nhận dạng thực thể định danh cho vănbản đầu ra của
các

hệ

thống

ASR.

Các

dữ

liệu

này

được

mơ

tả

trong

các

cơngtrình[ C T 1 , CT2,CT4,CT6];
-Đề xuất và cải tiến mơ hình khơi phục dấu câu và chữ hoa giúp chuẩnhố văn
bản đầu ra của ASR tiếng Việt. Mơ hình này được đưa ra, đánh giá vàcảitiếntrong
cáccơng trình [CT2,CT3,CT5];
-Đề xuất hai giải phápn h ậ n d ạ n g t h ự c t h ể đ ị n h d a n h t r o n g
v ă n b ả n đ ầ u ra của ASR tiếng Việt theo hướng tiếp cận đường ống và E2E.
Các giải phápnày đượctrình bàyvàđánhgiátrongcáccơngtrình [CT4,CT6].
Bố cụcluận án
Ngồi phần mở đầu và kết luận, luận án được cấu trúc thành 4 chương.Chương
1 trình bày tổng quan các vấn đề nghiên cứu. Chương này phát biểuvà nêu ý nghĩa
ứng dụng của các bài toán,c h ỉ r a c á c t h á c h t h ứ c c ầ n g i ả i quyết,
khảo sát các nghiên cứu về nhận dạng tiếng nói, nhận dạng thực thểđịnh danh từ
tiếng nói nói chung và đối với tiếng Việt nói riêng. Chương 2 -Kiến thức cơ sở,
trình bày nh ững kiến thức nền tảng đượcsử dụng để địnhhướng và là cơ sở để đề
xuất mơ hình chuẩn hố và nhận dạng thực thể địnhdanh cho văn bản đầu ra của
ASR. Tiếp theo, chương 3 sẽ giới thiệu về bàitoán khơi phục dấu câu và chữ hoa
cho

hệ

thống

ASR

tiếng

Việt.

Trongchươngnày,luậnán trìnhbàymơhìnhđềxuất,dữliệuvàcáckếtquảthực

nghiệm cho bài toán. Cuối cùng, chương 4 đề xuất phương pháp nhận dạngthực thể
định danh cho văn bản đầu ra của ASR tiếng Việt theo hai hướng tiếpcận đường
ống và tiếp cận đầu-cuối, trình bày các k ết quả thực nghiệm,và
sosánhhaicáchtiếpcận.

CHƯƠNG1 : T Ổ N G Q U A N V Ấ N Đ Ề N G H I Ê NC ỨU

NERlàmộtbàitốnquantrọngtrongXLNNTN.Bàitốnnàyđãvàđangđược nghiên cứu, đạt
hiệu

suất

cao

đối

với

văn

bản

viết

thơng

thường.

Tuynhiên,vớivănbảnđầuracủaASR,cácthơngtinđặctrưngvềdấucâu,chữhoachoNERkhơngc
ịntồntại,gâynhiềukhókhănchoxửlý.ĐiềunàykhiếnchocácnghiêncứuvềNERtrongvănbảnđầuracủa
ASR

cịn

hạn

chế.

Chính

vìvậy,việcnghiêncứu,xửlývàchuẩnhóavănbảnđầuracủaASR,giúpcảitiếnhệthốngASRvàph
ụcvụchođầuvàocủahệthốngNERlàquantrọngvàcóýnghĩa. Chương này trước hếtsẽ trình
bày t ổng quan về XLNNTN, những khókhăn khi xử lý ngơn ngữ tiếng Việt. Tiếp đó
là phần tìm hiểu chung về hệthống ASR, những đặc trưng trong văn bản đầu ra của
hệ thống ASR và cácnghiên cứu liên quan đến việc chuẩn hóa văn bản đầu ra của
ASR

giúp

hỗ

trợchomơhìnhNER.Cuốichương,luậnánmơtảbàitốnNER,nhữngkhókhănkhixửlýNERc
hotiếngnóitiếngViệtvàcácnghiêncứuliênquan.
1.1. Xửlý ngơnngữtựnhiên

1.1.1. Giớithiệu

Ngơn ngữ là một trong những khía cạnh nhận thức quan trọng nhất củacon
người. Ngôn ngữ tự nhiên đề cập đến bất kỳ ngơn ngữ viết hoặc nói đượcphát triển
một cách tự nhiên để con người có thểgiao tiếp với nhau[1].XLNNTN là một lĩnh
vực con trong khoa học máy tính, k ết hợp giữa trítuệnhân tạo và ngơn ngữ học tính
tốn . XLNNTN tậptrung xử lý tương tác giữacon người và máy tính sao cho máy
tính có th ể hiểu hay bắt chước được ngônngữcủaconngười.Rađờivàonhữngnăm40củathếkỷ20,
XLNNTN trảiqua các giai đoạn phát triển tương ứng với các phương pháp, mơ
hìnhxửlýkhác nhau như: dựa vào tập luật, dựa vào thống kê, dựa vào học máy, và
đặcbiệtlàhọc sâutrongthập kỉ vừaqua.
Các công cụ như phân tích, nhận dạng cảm xúc, nhận dạng thực thể địnhdanh,
phântíchcúpháp, ngữnghĩa,...đãgiúpXLNNTNtrở thànhchủđềhấp

dẫn để nghiên cứu trong nhiều lĩnh vực khác nhau như dịch máy,trích xu
ấtthơngtin,tómtắtvănbản,trảlờicâuhỏitựđộng,...NhiềuứngdụngXLNNTN trên các thiết bị thơng
minhxuấthiệnởkhắpmọinơi,thuhútđượcnhiềusựquantâmcủacộngđồngnhưSiricủaApple,GoogleTranslatecủaGoogle,
hay

Alexa

của

Amazon,

hệ

thống

trợ

lý

ảo

Intelligent

Personal

AgentcủaHyundai,nhàthơngminhXiaomi,...
XLNNTNc ó t h ể đ ư ợ c c h i a r a t h à n h h a i n h á n h l ớ n , b a o g ồ m x ử l ý tiế
ngnóivà xửlý vănbản. Xửlý tiếng nóit ậ p

trung

nghiên

cứu,

phát

t r i ể n cácthuậttốn,chươngtrìnhmáytínhxửlýngơnngữcủaconngườiởdạngtiếng nói. Các ứng dụng quan
trọng của xử lý tiếng nói bao gồm nhận dạngtiếng nói và tổng hợp tiếng nói. Nếu
như nhận dạng tiếng nói là chuyển ngơnngữ từ dạng tiếng nói sang dạng văn bản
thì

ngược

lại,

tổng

hợp

tiếng

nóichuyểnngơnngữ từdạng vănbảnthànht iếngnói. Xửlývănbảnt ậptr ung vào
phân tích d ữ liệu văn bản. Các ứng dụng quan trọng của xử lý văn bảnbaogồmtìmkiếmvà truy xuất
thơngtin,dịchmáy, tómt ắ t v ă n b ả n , h a y kiểm tra lỗi chính t ả tự động. Xử lý
văn bản đơi khi được chia tiếp thành hainhánh nhỏ hơn bao gồm hiểu văn bản và
sinh văn bản. Nếu như hiểu văn bảnliên quan tới các bài tốn phân tích văn bản thì
sinh văn bản liên quan tớinhiệmvụtạoravănbảnmới[2].
Xử lý tiếng nói và xử lý văn bản khơng hồn tồn độc lập mà có mốiliên
quan với nhau. Văn bản được xử lý tốt giúp hệ thống tổng hợp tiếng nóiđược thuận
lợi, nâng cao độ chính xác.X ử

lý tiếng

nói

cũng

tạo ra

các

v ă n bản với các đặc điểm riêng. Vấn đề xử lý văn bản sau nhận dạng tiếng nói
làmột

tháchthức

cần

được

giảiquyết.

Luậnáncũng

đặtr a

vấn

đề

c ầ n c h u ẩ n hốvănbảnvànhậndạngthựcthểđịnhdanhchovănbảnđầuracủanhậndạngtiếngnóitiếngViệt.
1.1.2. Xửlýngơn ngữ tựnhiên tiếngViệt
Theo xu thế phát triển chung của thế giới, XLNNTN tiếng Việt
cũngđượcnghiêncứuhơnmộtthậpkỉquavớinhiềubàitoánkhácnhauchocảxử

lý văn bản và xử lý tiếng nói. Đồng thời, nhiều công cụ đã được công bố giúphỗ trợ
tốt hơn cho các nghiên cứu như: vnTokenizer (hệ tách từ tiếng Việt),Viettagger (hệ
gán nhãn từ loại tiếng Việt), VietChunker(hệ phân tích c ụm từtiếngViệt),…
Cộng đồng nghiên cứu đã phát triển mạnh mẽ, có tínhgắnkết hơn kể
từkhih ộ i t h ả o x ử l ý n g ô n n g ữ v à tiếngn ó i t i ế n g V i ệ t ( V i e t n a m e s e L a n g u a g e
andSpeechProcessing-VLSP)được tổ chức lần đầu tiên vào năm 2012. Hộithảo đã trở thành
diễn đàn thường niên của cộng đồng nghiên cứu về tiếngViệt. Đây là nơi chia sẻ
các kết quả nghiên cứu, tổ chức các cuộc thi đánh giáhiệu quả của cáccơng cụ xử lí
ti

ếng

Việt,

thu

hút

được

rất

nhiều

đội

tham

giavàchothấysựlớnmạnhcủacộngđồngqua từngnăm.
Đáng chú ý là thông qua VLSP, những bộ dữ liệu chuẩn có gán nhãn đãđược
cungcấpnhằmphụcvụcộngđồngnghiêncứuvềxửlýngơnngữvàtiếng nói tiếng Việt. Luận án đã sử dụng
bộ dữ liệu của VLSP 2018 cho mụcđíchnghiêncứu.
Mặc dù, XLNNTN đã mang đến công cụ mạnh mẽ với những lợi ích tolớn và
đã

có

những

tiến

bộ

vượt

bậc

trong

những

năm

gần

đây,

tuy

nhiên,XLNNTNvẫncịnnhiềuthách thức,đặcbiệt,vớingơnngữtiếngViệt.
1.1.3. Nhữngtháchthứctrongxửlýngơnngữtựnhiên
Kaddari và các cộng sự [3] đã đưa ra một số thách thức đối với lĩnh
vựcXLNNTN,baogồm:
Trong hiểu ngơn ngữ tự nhiên, những khó khăn đến từ việc trích xuấtngữ
nghĩa từvăn bản,nắm bắt cácmối quan hệ ngôn ngữh o ặ c n g ữ n g h ĩ a giữa các
cặp thuật ngữ từ vựng, xác định ngữ cảnh và nghĩa của một từ theongữcảnh,xácđịnh
vàhiểungôn ngữtheo cáccáchdiễn đạtkhácnhau,...
Đối với sinh ngôn ngữ tự nhiên, vấn đề khó khăn gặp phải là thiếu dữliệuvà
vănbảntạorathiếumạch lạc,nhấtqn.
Ngồi ra, thách thức cho các nghiên cứu trong lĩnh vực này là thiếu

bộdữliệu,đặcbiệtđốivớingơnngữcónguồnngữliệuhạnchế.Việcsửdụng

Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về