NGUYN VĂN THNH
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------
Nguyn Văn Thnh
H THNG THÔNG TIN
NGHIÊN CỨU PHÁT TRIỂN H THNG TỔNG HỢP TIẾNG NÓI
TIẾNG VIT SỬ DỤNG CÔNG NGH HỌC SÂU
LUẬN VĂN THẠC SĨ KHOA HỌC
H THNG THÔNG TIN
CLC2017B
Hà Nội 2018
Tai ngay!!! Ban co the xoa dong chu nay!!! 17057204815241000000
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------Nguyn Văn Thnh
NGHIÊN CỨU PHÁT TRIỂN H THNG TỔNG HỢP TIẾNG NĨI TIẾNG
VIT SỬ DỤNG CƠNG NGH HỌC SÂU
Chun ngành :
H Thng Thông Tin
LUẬN VĂN THẠC SĨ KHOA HỌC
H THNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC :
TS. Mc Đăng Khoa
Hà Nội 2018
2
LỜI CẢM ƠN
Đu tiên, tôi xin đưc gi li cm ơn chân thành ti Vin nghiên cu quc t MICA
nơi đ to điu kin cho tôi thc hin lun văn này. Tip đn, tôi xin cm ơn trung
tâm không gian mng VIETTEL, nơi tôi làm vic, đ to điu kin và gip đ tơi
trong vic hồn thành h thng mà tôi trnh bày trong lun văn thc s này. Tôi xin
chân thành cm ơn TS. Mc Đăng Khoa ngưi thy, ngưi hưng dn tôi trong sut
thi gian qua đ tôi c th hồn thành lun văn cho mnh.
Thêm na, tơi xin chân thành cm ơn anh Nguyn Tin Thành, ch Nguyn Hng
Phương cng toàn th cc bộ vin nghiên cu quc t MICA đ gip đ tôi trong
qu trnh làm lun văn ti vin nghiên cu quc t MICA.
Tôi xin gi li cm ơn trn trng đn anh Nguyn Quc Bo cng tồn th đng
nghip ca tơi ti nhm voice trung tâm không gian mng VIETTEL, ban gim đc
trung tâm cng toàn th anh ch em trong trung tâm đ gip đ h tr tơi trong qu
trnh tơi hồn thành lun văn thc s này.
Cui cng tôi xin gi li cm ơn ti cô Đ Th Ngc Dip, ngưi đ hưng dn tôi
t khi cn là sinh viên đi hc và h tr, gip đ tơi đn khi tơi hồn thành lun văn
này.
Hà Nội, ngày 27 tháng 03 năm 2018
Nguyn Văn Thnh
3
MỤC LỤC
LỜI CẢM ƠN .............................................................................................................3
MỤC LỤC ...................................................................................................................4
DANH MỤC HÌNH ẢNH ..........................................................................................6
DANH MỤC BẢNG ...................................................................................................7
DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ ......................................................8
MỞ ĐẦU .....................................................................................................................9
LỜI CAM ĐOAN .....................................................................................................11
CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI ....................................12
1.1 Gii thiu v tổng hp ting ni ..................................................................12
1.1.1 Tổng quan v tổng hp ting ni .............................................................12
1.1.2 X l ngôn ng t nhiên trong tổng hp ting ni ..................................12
1.1.3 Tổng hp tín hiu ting ni ......................................................................13
1.2 Cc phương php tổng hp ting ni ..........................................................14
1.2.1 Tổng hp mô phỏng h thng pht âm ....................................................14
1.2.2 Tổng hp tn s formant ..........................................................................14
1.2.3 Tổng hp ghép ni ...................................................................................15
1.2.4 Tổng hp dng tham s thng kê .............................................................16
1.2.5 Tổng hp ting ni bng phương php lai ghép ......................................19
1.2.6 Tổng hp ting ni da trên phương php hc sâu (DNN) .....................19
1.3 Tnh hnh pht trin và cc vn đ vi tổng hp ting ni ting Vit .........21
CHƯƠNG 2: PHƯƠNG PHÁP HỌC SÂU ÁP DỤNG TRONG TỔNG HỢP
TIẾNG NÓI ...............................................................................................................23
2.1 K thut hc sâu s dụng mng nơ ron nhân to ............................................23
2.1.1 Nhng mng nơ ron cơ bn ......................................................................23
2.1.2 Mng nơ ron hc sâu ................................................................................25
2.2 Tổng hp ting ni da trên phương php hc sâu.........................................27
2.3 Trích chn cc đc trưng ngơn ng .................................................................27
2.4 Mô hnh âm hc da trên mng nơ ron hc sâu ..............................................30
2.5 Vocoder ...........................................................................................................32
CHƯƠNG 3: XÂY DNG H THNG TỔNG HỢP TIẾNG NĨI TIẾNG VIT
VỚI CƠNG NGH HỌC SÂU .................................................................................35
3.1 Gii thiu h thng Viettel TTS ......................................................................35
3.2 Kin trc tổng quan ca h thng Viettel TTS ...............................................35
3.3 Xây dng cc mô đun ca h thng tổng hp ting ni ..................................36
3.3.1 Mô đun chun ha văn bn đu vào .........................................................36
3.3.2 Mô đun trích chn đc trưng ngơn ng....................................................38
3.3.3 Mơ đun to tham s đc trưng âm hc .....................................................39
3.3.4 Mô đun tổng hp ting ni t cc đc trưng âm hc ...............................41
3.4 Xây dng cơ sở d liu và hun luyn h thng .............................................42
3.4.1 Thu thp d liu cho h thng tổng hp ting ni ...................................42
3.4.2 Hun luyn h thng ................................................................................42
3.5 X l d liu hun luyn đ nâng cao cht lưng đu ra ................................42
CHƯƠNG 4: CÀI ĐT THỬ NGHIM VÀ ĐÁNH GIÁ KẾT QUẢ ....................46
4.1 Cài đt th nghim h thng ...........................................................................46
4.2 Đnh gi kt qu th nghim h thng ...........................................................47
4
4.2.1 Đnh gi cht lưng bộ tổng hp dng DNN so vi HMM ....................47
4.2.2 Đnh gi kt qu ca vic ci thin cơ sở d liu hun luyn .................47
4.2.3 Đnh gi so snh cht lưng h thng tổng hp ting ni so vi cc h
thng tổng hp ting Vit hin c .....................................................................48
4.2.4 Đnh gi hiu năng h thng ....................................................................50
KẾT LUẬN ...............................................................................................................52
A. Tổng kt............................................................................................................52
B. Phương hưng pht trin và ci thin h thng................................................52
TÀI LIU THAM KHẢO......................................................................................... 53
PHỤ LỤC ..................................................................................................................55
Phụ lục A: Cu trc ca một nhn biu din ng cnh ca âm v ........................55
Phụ lục B: Cc công b khoa hc ca lun văn ....................................................57
5
DANH MỤC HÌNH ẢNH
Hình 1: Sơ đ tổng qut một h thng tổng hp ting ni [9] ..................................12
Hình 2: Cu trc cơ bn bộ tổng hp formant ni tip[13]. .....................................14
Hình 3: Cu trc cơ bn bộ tổng hp formant song song[13]. .................................15
Hình 4: Mơ hnh markov n p dụng trong tổng hp ting ni ................................16
Hình 5: Qu trnh hun luyn và tổng hp một h thng tổng hp ting ni da trên
mơ hnh markov n. ...................................................................................................18
Hình 6: Tổng hp ting ni da trên DNN[18] ........................................................20
Hình 7: Một perceptron vi ba đu vào[24]..............................................................23
Hình 8: Mng nơ ron gm nhiu perceptron[24] ......................................................24
Hình 9: Hàm sigmoid[24] .........................................................................................25
Hình 10: Hàm kích hot tanh và relu ........................................................................25
Hình 11: Mng nơ ron một lp n [24] .....................................................................26
Hình 12: Mng nơ ron hai lp n[24] .......................................................................26
Hình 13: Kin trc cơ bn ca h thng tổng hp ting ni. ....................................27
Hình 14: Biu din đc trưng ngơn ng hc ca văn bn[28] ..................................28
Hình 15: Thơng tin đc trưng ngơn ng liên quan đn tng âm v[28] ....................29
Hình 16: Thi gian xut hin mi trng thi ca tng âm v ....................................29
Hình 17: Mng nơ ron feat forward. .........................................................................30
Hình 18: Chuyn ha véc tơ đc trưng thành cc véc tơ nh phân. ..........................31
Hình 19: Mng nơ ron hc sâu p dụng trong tổng hp ting ni[4]. ......................31
Hình 20: Tổng quan v h thng WORLD vocoder[30]. .........................................33
Hình 21: Tổng hp ting ni vi WORLD vocoder .................................................34
Hình 22: H thng tổng hp ting ni Viettel TTS ..................................................35
Hình 23: Kin trc h thng tổng hp ting ni. ......................................................36
Hình 24: Qu trnh chun ha văn bn đu vào ........................................................37
Hình 25: Hot động ca bộ trích chn đc trưng ngơn ng hc ...............................38
Hình 26: Cu trc và hot động ca bộ Genlab ........................................................39
Hình 27: Cu trc mơ đun to tham s đc trưng .....................................................39
Hình 28: Qu trnh hun luyn và tổng hp một h thng tổng hp ting ni da
trên mô hnh mng nơ ron hc sâu. ...........................................................................41
Hình 29: Tổng hp ting ni t cc đc trưng âm hc bng WORLD vocoder. ......41
Hình 30: Tín hiu âm thanh trưc (trên) và sau khi cân bng (dưi) .......................43
Hình 31: Tín hiu âm thanh trưc (ở trên) và sau (ở dưi) sau khi lc nhiu ..........44
Hình 32: Phân b d liu sau khi gn nhn ..............................................................45
Hình 33: Hnh nh chy th nghim h thng tổng hp ting ni 1. ........................46
Hình 34: Hnh nh chy th nghim h thng tổng hp ting ni 2 .........................46
Hình 35: Đnh gi độ t nhiên ..................................................................................49
Hình 36: Đnh gi độ hiu ........................................................................................49
Hình 37: Đnh gi MOS ...........................................................................................49
Hình 38: Đnh gi thi gian đp ng ca h thng ..................................................50
Hình 39: Đnh gi chim dụng bộ nh .....................................................................50
6
DANH MỤC BẢNG
Bng 1: Đnh gi so snh HMM và DNN ................................................................20
Bng 2: D liu hun luyn h thng tổng hp ting ni .........................................42
Bng 3: Kt qu so snh bộ tổng hp DNN và HMM ..............................................47
Bng 4: Kt qu so snh cht lưng tổng hp ting ni ca h thng c d liu hun
luyn đ đưc x l (DNN2) và chưa đưc x l (DNN1). .....................................48
Bng 5: Thông tin ngưi nghe đnh gi h thng tổng hp ting ni ......................48
7
DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ
Từ viết tắt
HMM
DNN
PSOLA
TTS
MSLA
GMM
VLSP
MOS
F0
Từ đầy đủ
Hidden markov model
Deep Neural Network
Pitch Synchronous Overlap
and Add
Text To Speech
Mel
Log
Spectral
Approximation
Gaussian mixture model
Vietnamese language and
speech processing
Mean opinion score
Fundamental frequency
Ý nghĩa.
Mô hnh markov n
Mng nơ ron hc sâu
K thut chng đng bộ cao độ tn
s cơ bn
Tổng hp văn bn thành ting ni.
xp x phổ mel.
Mô hnh gauss hn hp
X l ngôn ng và ting ni ting
Vit
Đim kin trung bnh
Tn s cơ bn
8
MỞ ĐẦU
Hin nay, lĩnh vc tổng hp ting ni đ đưc nghiên cu và pht trin ở rt nhiu
nơi trên th gii, nhiu công ngh và phương php khc nhau đưc th nghim,
trin khai thành cơng, thm chí c nhng công trnh đ đt đn mc kh c th phân
bit đưc vi ging đc ca con ngưi. Cn ở Vit Nam, cng đ c nhiu công
trnh nghiên cu và sn phm v lĩnh vc tổng hp ting ni, c th k đn như cc
nghiên cu ca Vin công ngh thông tin thuộc Vin hàn lâm khoa hc công ngh
Vit Nam ([1], [2]), cc nghiên cu này đu da trên kin trc ca h thng HTS[3]
đ xây dng h thng tổng hp ting ni, và mô hnh đưc p dụng là mô hnh
Markov n. Cc công trnh nghiên cu và h thng thc t v tổng hp ting ni ở
Vit nam hin nay ch yu đưc pht trin da trên hai phương php: tổng hp
ting ni ghép ni và tổng hp ting ni thng kê da trên mô hnh Markov n
(HMM). Hai phương php nêu trên là hai phương php đ đưc nghiên cu và pht
trin nhiu năm trên th gii cng như ở Vit Nam, đ c nhiu sn phm, h thng
thành công vi n. Tuy nhiên hai phương php này vn cn nhiu mt hn ch như
cht lưng ting ni tổng hp không tht đi vi HMM và cơ sở d liu cn lưu tr
ln cng như ch cho cht lưng tt trong min hp đi vi tổng hp ghép ni. Mt
khc trên th gii hin nay đ bt đu pht trin một công ngh tổng hp ting ni
mi, đ là tổng hp ting ni da trên phương php hc sâu, n cng đ cho thy
nhng kt qu tích cc, cht lưng tổng hp ca h thng ở mc cao, gn vi t
nhiên[4]. V hai l do trên, đ tài đưc đ xut thc hin nhm th nghim p dụng
công ngh hc sâu vào trong tổng hp ting ni ting Vit vi mong mun to đưc
một h thng tổng hp ting ni c cht lưng cao.
Đ tài này tp trung nghiên cu p dụng công ngh tổng hp ting ni da trên
mng nơ ron hc sâu cho tổng hp ting ni ting Vit, sao cho đt đưc một h
thng c cht lưng ging tổng hp tt hơn so vi cc h thng tổng hp ting Vit
s dụng cc công ngh khc c hơn. Đ làm đưc điu này, tc gi đ đ ra cc
nhim vụ chính cn hồn thành như sau:
- Nghiên cu v phương php tổng hp ting ni da trên công ngh hc sâu
và cch p dụng.
- Trin khai xây dng h thng tổng hp ting ni da trên công ngh này.
- Áp dụng một s gii php tin x l d liu đ nâng cao cht lưng ging
tổng hp.
Lun văn này đưc xây dng trong qu trnh làm vic ti trung tâm không gian
mng VIETTEL và thi gian làm vic ti phng Giao tip ting ni thuộc Vin
nghiên cu quc t MICA. Vi môi trưng làm vic nghiêm tc, đưc s hưng
dn ca TS. Mc Đăng Khoa cng vi s tr gip ca đng nghip và cc anh, ch,
thy, cô ở Vin Nghiên cu quc t MICA tơi đ đc rt đưc kinh nghim và hồn
thành lun văn này.
Sau đây là b cục chính ca lun văn
• CHƯƠNG 1 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NĨI: Chương này gii
thiu chung v tổng hp ting ni, tnh hnh nghiên cu và pht trin cc h
thng tổng hp ting ni, và cc phương php tổng hp ting ni phổ bin
hin nay.
9
• CHƯƠNG 2: PHƯƠNG PHÁP HỌC SÂU ÁP DỤNG TRONG TỔNG HỢP
TIẾNG NÓI: Chương này ch yu ni v phương php hc sâu và cách áp
dụng n trong trong tổng hp ting ni.
• CHƯƠNG 3: XÂY DNG H THNG TỔNG HỢP TIẾNG NĨI TIẾNG
VIT VỚI CƠNG NGH HỌC SÂU: Chương này ch yu ni v kin trc
h thng tổng hp ting ni ting Vit da trên phương php hc sâu, cách
trin khai xây dng tng mô đun da trên kin trc này và cch thu thp,
phương php x l, lc d liu cho h thng tổng hp ting ni.
• CHƯƠNG 4: CÀI ĐT THỬ NGHIM VÀ ĐÁNH GIÁ KẾT QUẢ:
Chương này ch yu ni v cch thc cài đt, th nghim và đnh gi kt
qu h thng tổng hp ting ni đ đưc xây dng.
• Phn KẾT LUẬN: Phn này là phn kt lun v lun văn cng như nhng
phương hưng nghiên cu, ci thin.
10
LỜI CAM ĐOAN
Tôi là Nguyn Văn Thnh, là tc gi ca lun văn này. Trong đ tài Nghiên cu pht
trin h thng tổng hp ting ni ting Vit s dụng công ngh hc sâu, h thng
đưc xây dng bao gm bn mơ đun chính: Mơ đun chun ha văn bn (Text
normalization), mơ đun trích chn đc trưng ngơn ng (Linguistic Feature
Extraction), mô đun to tham s đc trưng (Parameter Generation) và mơ đun to
tín hiu ting ni (Waveform Generation). Trong bn mô đun trên, tc gi tham gia
và c đng gp chính trong vic xây dng ba mơ đun là mơ đun trích chn đc
trưng ngơn ng, mơ đun to tham s đc trưng, mơ đun to tín hiu ting ni.
Tc gi xin cam đoan toàn bộ nhng g nêu trên cng như toàn bộ cc phn trin
khai trong lun văn là tht.
11
CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI
1.1
Giới thiệu về tổng hợp tiếng nói
1.1.1 Tổng quan về tổng hợp tiếng nói
Tổng hp ting ni là qu trnh to ra ting ni ca con ngưi t văn bn, h thng
tổng hp ting ni là h thng nhn đu vào là một văn bn và to ra tín hiu ting
ni tương ng ở đu ra. Nghiên cu v tổng hp ting ni đ bt đu t rt lâu, năm
1779 nhà khoa hc ngưi đan mch Christian Kratzenstein đ xây dng mô phỏng
đơn gin h thng cu âm ca con ngưi, mô hnh này đ c th pht ra đưc âm
thanh ca một s nguyên âm dài[5]. Đn tn th k 19 cc nghiên cu tổng hp
ting ni vn cn ở mc đơn gin, phi sang th k 20 khi mà c s ln mnh ca
h thng đin, đin t th mi thc s xut hin nhng h thng tổng hp ting ni
cht lưng, c th k đn như h thng VODER ln đu đưc gii thiu năm
1939[6]. Cho đn hin nay, c rt nhiu cc sn phm như sch ni, đ chơi,.. s
dụng công ngh tổng hp ting ni. Đc bit cc mơ đun tổng hp ting ni cn
đưc tích hp trong cc tr l o trên đin thoi và my tính như Siri 1 hay Cortana2.
Qua qu trnh pht trin, hin nay v cơ bn một h thng tổng hp ting ni bao
gm hai thành phn chính: phn x l ngôn ng t nhiên và phn x l tổng hp
ting ni[7]. Phn x l ngôn ng t nhiên: chun ha, x l cc văn bn đu vào
thành cc thành phn c th pht âm đưc. Phn x l tổng hp ting ni: To ra tín
hiu ting ni t cc thành phn pht âm đưc nêu trên[8]. Trên hình 1 mơ t một
h thng tổng hp ting ni gm hai thành phn nêu trên.
Hình 1: Sơ đ tổng qut một h thng tổng hp ting ni [9]
1.1.2 X l ngôn ng t nhiên trong tổng hợp tiếng nói
Trong một h thng tổng hp ting ni, khi x l ngôn ng t nhiên c nhim vụ
trích chn cc thơng tin v ng âm, ng điu ca văn bn đu vào. Thông tin ng
1
2
/> />
12
âm cho bit nhng âm nào đưc pht ra trong hồn cnh cụ th nào, thơng tin ng
điu mơ t điu tính ca cc âm đưc pht[7]. Qu trnh x l ngôn ng t nhiên
thưng bao gm ba bưc (xem trên hình 1):
- X l và chun ha văn bn (Text Processing).
- Phân tích cch pht âm (Chuyn đổi hnh v sang âm v Grapheme to
phoneme).
- Phát sinh các thông tin ngôn điu, ng âm cho văn bn (Prosody modeling).
Chun ha văn bn là qu trnh chuyn ha văn bn thơ ban đu thành một văn bn
dng chun, có th đc đưc một cch d dàng, ví dụ như chuyn đổi cc s, t vit
tt, k t đc bit,… thành dng vit đy đ và chính xc. Chun ha văn bn là
một vn đ kh vi nhiu nhp nhng trong cch đc, ví như ch s c nhiu cch
đc khc nhau tùy theo văn cnh khc nhau, như 3579 c th đưc đc là “ba nghìn
năm trăm by chín” nu coi n là một s nhưng cng c th đc là “ba năm by
chín” nu như n là một m xc thc, cc t vit tt cng vy, cng c nhiu cch
đc phụ thuộc vào quy ưc ca ngưi vit.
Phân tích cch pht âm là qu trnh xc đnh cch pht âm chính xc cho văn bn,
cc h thng tổng hp ting ni dng hai cch cơ bn đ xc đnh cch pht âm cho
văn bn, qu trnh này cn đưc gi là chuyn đổi văn bn sang chui âm v. Cch
th nht và đơn gin nht là da vào t đin, s dụng một t đin ln c cha tt c
cc t ca một ngôn ng và cha cch pht âm đng tương ng cho tng t. Vic
xc đnh cch pht âm đng cho tng t ch đơn gin là tra t đin và thay đon văn
bn bng chui âm v đ ghi trong t đin. Cch th hai là da trên cc quy tc và
s dụng cc quy tc đ tm ra cch pht âm tương ng. Mi cch đu c ưu nhưc
đim khc nhau, cch da trên t đin nhanh và chính xc, nhưng s khơng hot
động nu t pht âm không c trong t đin. Và lưng t vng cn lưu là ln. Cch
dng quy tc ph hp vi mi văn bn nhưng độ phc tp c th tăng cao nu ngôn
ng c nhiu trưng hp bt quy tc.
Pht sinh cc thông tin ngôn điu cho văn bn là vic xc đnh v trí trng âm ca t
đưc pht âm, s lên xung ging ở cc v trí khc nhau trong câu và xc đnh cc
bin th khc nhau ca âm phụ thuộc vào ng cnh khi đưc pht âm trong một
ngôn ng lưu liên tục, ngoài ra qu trnh này cn phi xc đnh cc đim dng ngh
ly hơi khi pht âm hoc đc một đon văn bn[10]. Thông tin v thi gian
(duration) đưc đo bng đơn v xen ti giây (centi second) hoc mi li giây (mili
second), và đưc ưc lưng da trên cc quy tc hoc cc thut ton hc my. Cao
độ (pitch) là một tương quan v mt cm nhn ca tn s cơ bn F0, đưc biu th
theo đơn v Hz hoc phân s ca tông (tones) (na tông, một phn hai tông). Tn s
cơ bn F0 là một đc trưng quan trng trong vic to ngơn điu ca tín hiu ting
ni, do đ vic to cc đc trưng cao độ là một vn đ phc tp và quan trng trong
tổng hp ting ni.
1.1.3 Tổng hợp tín hiệu tiếng nói
Khi x l tổng hp ting ni đm nhn vic to ra ting ni t cc thông tin v ng
âm, ng điu do khi x l ngôn ng t nhiên cung cp. Trong thc t c hai cch
tip cn cơ bn liên quan đn công ngh tổng hp ting ni: tổng hp ting ni s
dụng mô hnh ngun âm và tổng hp da trên vic ghép ni cc đơn v âm.
13
Cht lưng ting ni ca một h thng tổng hp đưc đnh gi thơng qua hai khía
cnh: độ d hiu và độ t nhiên. Độ d hiu đ cp đn nội dung ca ting ni đưc
tổng hp c th hiu một cch d dàng hay không. Mc độ t nhiên ca ting ni
tổng hp là s so snh độ ging nhau gia ging ni tổng hp và ging ni t nhiên
ca con ngưi.
Một h thng tổng hp ting ni l tưởng cn va t nhiên, va d hiu và mục tiêu
xây dng một h thng tổng hp là làm gia tăng ti đa hai tính cht này. Hin nay
có ba phương php chính, phổ bin nht là: tổng hp mơ hnh ha h thng pht âm,
tổng hp cộng hưởng tn s và tổng hp ghép ni, ngoài ra cng c cc phương
php khc pht trin t ba phương php trên [11].
1.2
Các phương pháp tổng hợp tiếng nói
1.2.1 Tổng hợp mơ phỏng hệ thống phát âm
Tổng hp mô phỏng h thng pht âm là cc k thut tổng hp ging ni da trên
mơ hnh my tính mơ phỏng cơ quan pht âm ca con ngưi và qu trnh to ra
ting ni trên đ. V mục tiêu ca phương php này là mô phỏng qu trnh to ting
ni sao cho càng ging cơ ch ca con ngưi càng tt, nên v mt l thuyt đây
đưc xem là phương php cơ bn nht đ tổng hp ting ni, nhưng cng v vy mà
phương php này kh thc hin nht và kh c th tổng hp đưc ting ni cht
lưng cao[12]. Tổng hp mô phỏng pht âm đ tng ch là h thng dành cho
nghiên cu khoa hc cho mãi đn nhng năm gn đây. L do là rt ít mơ hnh to ra
âm thanh cht lưng đ cao hoc c th chy hiu qu trên cc ng dụng thương
mi. Một ngoi l là h thng NeXT, vn đưc pht trin thương mi ha bởi
Trillium Sound Research Inc, Canada. Đ thc hin đưc phương php tổng hp
da trên vic mô phỏng h thng pht âm đi hỏi thi gian, chi phí và cơng ngh.
Phương php này kh c th ng dụng ti Vit Nam thi đim hin nay.
1.2.2 Tổng hợp tần số formant
Tổng hp ting ni formant là phương php tổng hp ting ni không s dụng mu
ging tht nào khi chy, thay vào đ tín hiu ting ni đưc to ra bởi một mơ hình
tuyn âm. Mơ hnh này mơ phỏng hin tưng cộng hưởng ca cc cơ quan pht âm
bng một tp hp cc bộ lc. Cc bộ lc này đưc gi là cc bộ lc cộng hưởng
formant, chng c th đưc kt hp song song hoc ni tip vi nhau hoc kt hp
c hai.
Tổng hp ni tip là bộ tổng hp formant c cc tng ni tip, đu ra ca bộ cộng
hưởng này là đu vào ca bộ cộng hưởng kia, cu trc cơ bn bộ tổng hp ni tip
đưc biu din trên hnh 2.
Hình 2: Cu trc cơ bn bộ tổng hp formant ni tip[13].
14
Hình 3: Cu trc cơ bn bộ tổng hp formant song song[13].
Tổng hp song song (trên hnh 3) bao gm cc bộ cộng hưởng mc song song. Đu
ra là kt hp ca tín hiu ngun và tt c cc formant. Cu trc song song cn nhiu
thông tin đ điu khin hơn cu trc ni tip.
H thng tổng hp ting ni da trên phương php tổng hp tn s formant c
nhng ưu đim, nhưc đim c th k đn như: Nhưc đim ca h thng này là to
ra ging ni không t nhiên, nghe cm gic rt phân bit vi ging ngưi tht và
phụ thuộc nhiu vào cht lưng ca qu trnh phân tích ting ni ca tng ngơn
ng, Tuy nhiên độ t nhiên cao không phi lc nào cng là mục đích ca h thng
và h thng này cng c cc ưu đim riêng ca n, h thng này kh d nghe,
không c ting c st do ghép âm to ra, cc h thng này cng nhỏ gn v không
cha cơ sở d liu mu âm thanh ln.
1.2.3 Tổng hợp ghép nối
Tổng hơp ghép ni là phương php tổng hp ting ni bng cch ghép vào nhau các
đon tín hiu ting ni ca một ging ni đ đưc ghi âm. Cc âm tit sau khi đưc
to thành s đưc tip tục ghép li vi nhau to thành đon ting ni. Đơn v âm
phổ bin là âm v, âm tit, bn âm tit, âm đôi, âm ba, t, cụm t. Do đc tính t
nhiên ca ting ni đưc lưu gi trong cc đơn v âm, nên tổng hp ghép ni là
phương php c kh năng tổng hp ting ni vi mc độ d hiu và t nhiên, cht
lưng cao. Tuy nhiên, ging ni t nhiên đưc ghi âm c s thay đổi t ln phát âm
này sang ln pht âm khc, và công ngh t động ha vic ghép ni cc đon ca
sng âm thnh thong to ra nhng ting c xt khơng t nhiên ở phn ghép ni. Có
ba kiu tổng hp ghép ni:
- Tổng hp chn đơn v (unit selection)
- Tổng hp âm kép (diphone)
- Tổng hp chuyên bit (Domain-specific)
Tổng hp chn đơn v dng một cơ sở d liu ln cc ging ni ghi âm. Trong đ,
mi câu đưc tách thành cc đơn v khc nhau như: cc ting đơn lẻ, âm tit, t,
nhm t hoc câu văn. Một bng tra cc đơn v đưc lp ra da trên cc phn đ
15
tách và cc thông s âm hc như tn s cơ bn, thi lưng, v trí ca âm tit và cc
ting gn n. Khi chy cc câu ni đưc to ra bng cch xc đnh chui đơn v ph
hp nht t cơ sở d liu. Qu trnh này đưc gi là chn đơn v và thưng cn
dng đn cây quyt đnh đưc thc hin. Thc t, cc h thng chn đơn v c th
to ra đưc ging ni rt ging vi ngưi tht, tuy nhiên đ đt độ t nhiên cao
thưng cn một cơ sở d liu ln cha cc đơn v đ la chn.
Tổng hp âm kép là dng một cơ sở d liu cha tt c cc âm kép trong ngôn ng
đang xét. S lưng âm kép phụ thuộc vào đc tính ghép âm hc ca ngơn ng.
Trong tổng hp âm kép ch c một mu ca âm kép đưc cha trong cơ sở d liu,
khi chy th li văn đưc chng lên cc đơn v này bng k thut x l tín hiu s
nh m tuyên đon tuyn tính hay PSOLA [14]. Cht lưng âm thanh tổng hp theo
cch này thưng không cao bng phương php chn đơn v nhưng t nhiên hơn
cộng hưởng tn s và ưu đim ca n là c kích thưc d liu nhỏ.
Tổng hp chuyên bit (Domain-specific) là phương php ghép ni t cc đon văn
bn đ đưc ghi âm đ to ra li ni. Phương php này thưng đưc dng cho cc
ng dụng c văn bn chuyên bit, cho một chuyên nghành, s dụng t vng hn ch
như cc thông bo chuyn bay hay d bo thi tit. Công ngh này rt đơn gin và
đ đưc thương mi ha t lâu. Mc độ t nhiên ca h thng này c th rt cao v
s lưng cc câu ni không nhiu và khp vi li văn, âm điu ca ging ni ghi
âm. Tuy nhiên h thng kiu này b hn ch bởi cơ sở d liu chuyên bit không p
dụng đưc cho min d liu mở.
1.2.4 Tổng hợp dùng tham số thống kê
Tip theo đây chng ta s xem xét đn một phương php tổng hp ting ni đưc
nghiên cu phổ bin và rộng ri hin nay đ là phương php tổng hp da trên mô
hnh Markov n (HMM) [15]. Ở đây HMM là một mô hnh thng kê, đưc s dụng
đ mô hnh ha cc tham s ting ni ca một đơn v ng âm, trong một ng cnh
cụ th.
Hình 4: Mô hnh markov n p dụng trong tổng hp ting ni
16
Hnh 4 mô t cch p dụng mô hnh markov n trong tổng hp ting ni, trong đ
mi mô hnh markov n đưc s dụng đ mô hnh ha một âm v, và cc mô hnh
markov n đưc mc ni vi nhau đ mô hnh ha chui âm v. Mô hnh markov n
là một mô hnh hc my da trên thng kê, do đ h thng tổng hp ting ni da
trên mô hnh markov n hot động bao gm hai qu trnh là qu trnh hun luyn và
qu trnh tổng hp. Hnh 5 mô t qu trnh tổng hp và hun luyn một h thng
tổng hp ting ni da trên mô hnh markov n.
Qu trnh tổng hp da trên mô hnh markov n s là qu trnh mà nhn đu vào là
một đon văn bn, chuyn ha đon văn bn này thành chui âm v, sau đ da vào
cc mô hnh markov n mô hnh ha chui cc âm v tương ng ta s tm ra đưc
cc tham s mel và tn s cơ bn f0. T cc tham s mel xây dng nên chui cc bộ
lc MLSA (Mel Log Spectral Approximation) và kt hp vi tín hiu kích thích
đưc to t f0 s to ra đưc tín hiu ting ni[16], [17].
Qu trnh hun luyn da trên mô hnh markov n bao gm cc bưc: Trích chn
đc trưng ting ni và hun luyn mô hnh da trên cc véc tơ đc trưng trích đưc.
Cc đc trưng ting ni đưc trích trong qu trnh hun luyn là cc véc tơ như véc
tơ h s mel và véc tơ mô t f0. Nhưng đn đây vic mô hnh ha như vy s li ny
sinh một vn đ đ là tn s cơ bn f0 ch tn ti ở âm hu thanh cn cc âm vô
thanh li là nhiu. Do đ, đ gii quyt vn đ này ngưi ta đ s dụng một mô hnh
mở rộng hơn, đ là Multi-Space Probability Distribution Hidden Markov
Model[16]. Mô hnh này thưng bao gm: một không gian véc tơ đưc s dụng đ
mô hnh ha véc tơ mel và hai không gian véc tơ đ mô hnh ha tn s cơ bn f0.
Mi không gian véc tơ trong mô hnh th đưc đc trưng bởi một phân b xc xut,
mi quan st ca một trng thi li đưc mô t như sau: o=(X,x) trong đ X là tp
cc không gian véc tơ, cn x là véc tơ đc trưng. Mục tiêu ca qu trnh hun luyn
là t d liu đu vào ci thin cc tham s ca mô hnh markov n mà mô hnh ha
cho mi âm v.
Cc đc trưng ngôn ng ca văn bn đưc mô t bng cch s dụng một bộ phân
cụm (thưng là cây quyt đnh) đ gom cc cụm trng thi ca mơ hnh markov n
c đc tính ngơn ng gn nhau nht và bu chn ra một trng thi tiêu biu đ thay
th cho cc trng thi cn li trong cụm.
H thng tổng hp ting ni da trên mô hnh markov n là một h thng c kh
năng to ting ni mang phong cch ni khc nhau, vi đc trưng ca nhiu ngưi
ni khc nhau, thm chí là mang cm xc ca ngưi ni. Ưu đim ca phương php
này là cn ít bộ nh lưu tr và tài nguyên h thng hơn so vi tổng hp ghép ni, và
c th điu chnh tham s đ thay đổi ng điu. Tuy nhiên, một s nhưc đim ca
h thng này đ là độ t nhiên trong ting ni tổng hp ca h thng b suy gim
hơn so vi tổng hp ghép ni, phổ tín hiu và tn s cơ bn đưc ưc lưng t cc
gi tr trung bnh ca cc mô hnh markov n đưc hun luyn t d liu khc nhau,
điu này khin cho ting ni tổng hp nghe c vẻ đu đu mn và đôi khi trở thành
b “nght mi”.
17
Hình 5: Qu trnh hun luyn và tổng hp một h thng tổng hp ting ni da trên
mô hnh markov n.
18
1.2.5 Tổng hợp tiếng nói bằng phương pháp lai ghép
Tổng hp lai ghép là phương php tổng hp bng cch lai ghép gia tổng hp ghép
ni chn đơn v và tổng hp da trên mô hnh markov n, nhm tn dụng ưu đim
ca mi phương php và p dụng n trong h thng. Như đ ni, h thng tổng hp
lai ghép kt hp ưu nhưc đim ca tng h thng thành phn, tùy theo thành phn
nào đng vai tr ch đo mà c th phân loi cc h thng tổng hp lai ghép thành
hai loi sau: Tổng hp hưng ghép ni và tổng hp hưng HMM.
H thng tổng hp hưng ghép ni s dụng cc HMM đ h tr qu trnh ghép ni,
tưởng chính ca phương php này như sau:
- Đơn v dng đ la chn trong “tổng hp ghép ni chn đơn v” cng s là
đơn v đưc tổng hp ra.
- Đưng biên gia cc đơn v s đưc làm mn bng cc mô hnh markov n.
- Âm thanh sau cng đưc làm mn bng phương php làm mn phổ.
Khc vi h thng tổng hp hưng ghép ni, h thng tổng hp hưng HMM s
dụng cc thut ton sinh tham s t cc HMM và phn tổng hp ghép ni đưc s
dụng đ tăng cưng cht lưng chui tham s này.
Hai hưng tổng hp lai ghép nêu trên đu c ưu nhưc đim khc nhau, và đưc s
dụng ty vào yêu cu cht lưng ting ni hay yêu cu cụ th v h thng. Ưu đim
cơ bn ca h thng lai ghép hưng ghép ni đ là gim tc động không mong
mun do d liu không đ và gim s phụ thuộc vào d liu, hay cng chính là ci
thin cc nhưc đim ca tổng hp ghép ni. Mc d đ gii quyt cơ bn nhng
vn đ v ghép ni nhưng vn đ trở ngi ti nhng đim ghép ni vn cn tn ti.
1.2.6 Tổng hợp tiếng nói da trên phương pháp học sâu (DNN)
Tổng hp ting ni da trên phương php hc sâu đ bt đu pht trin mnh m
trong vài năm trở li đây, phương php này đưc xây dng da trên vic mô hnh
ha mô hnh âm hc bng một mng nơ ron hc sâu DNN. Trong đ Văn bn đu
vào s đưc chuyn ha thành một véc tơ đc trưng ngôn ng, cc véc tơ đc trưng
này mang cc thông tin v âm v, ng cnh xung quanh âm v, thanh điu,… Sau đ
mô hnh âm hc da trên DNN ly đu vào là véc tơ đc trưng ngôn ng và to ra
cc đc trưng âm hc tương ng ở đu ra. T cc đc trưng âm hc này s to thành
tín hiu ting ni nh một bộ tổng hp tín hiu ting ni (thưng là vocoder).
Kin trc tổng quan ca một h thng tổng hp ting ni da trên mng nơ ron hc
sâu DNN đưc mơ t trong hình 6. Trong đ, văn bn cn đưc tổng hp s đi qua
bộ phân tích văn bn (Text analysis) đ trích chn cc đc trưng ngôn ng hc và
đưc chuyn ha thành cc véc tơ nh phân bởi bộ Input feature extraction, các véc
tơ nh phân đu vào { x tn} vi x tn là đc trưng th n ti khung t (frame t), cc véc tơ
này tương ng to ra cc đc trưng đu ra {y tm} thông qua một mng nơ ron DNN
đ đưc hun luyn, vi mi ytm là đc trưng đu ra th m ti khung t. Cc đc
trưng đu ra này cha cc thơng tin v phổ và tín hiu kích thích, thơng qua bộ to
tham s (Parameter Generation) s đưc chuyn thành cc tham s đc trưng âm
hc và đưc đưa vào bộ to tín hiu ting ni (Waveform generation) đ to ra tín
hiu ting ni thc.
19
Hình 6: Tổng hp ting ni da trên DNN[18]
Mng nơ ron hc sâu DNN da trên cc lp nơ ron nhân to, c kh năng mô hnh
ha nhng mi quan h phi tuyn phc tp gia đu vào và đu ra. Đc bit trong
trưng hp s dụng DNN c th mô hnh ha một cch mnh m mi quan h phi
tuyn, phc tp gia cc đc trưng ngôn ng hc ca văn bn và đc trưng âm hc
ca tín hiu ting ni, tuy nhiên vic s dụng DNN cng c nhng hn ch đ là v
s mnh m ca n nên n rt nhy cm vi cc thông tin sai lch và không tt như
nhiu, và n cng cn rt nhiu d liu đ hun luyn mô hnh. Nh s mnh m
trong mô hnh ha mô hnh âm hc, DNN đ đưc p dụng trong nhiu ng dụng
tổng hp ting ni trên th gii như cc sn phm ca Google, Baidu, Microsoft hay
trong h thng Merlin ca CSTR đ đt đưc độ t nhiên rt cao.
HMM
DNN
1 mix
3.537 ± 0.113
2 mix
3.397 ± 0.115
4x1024
3.635 ± 0.127
5x1024
3.681 ± 0.109
6x1024
3.652 ± 0.108
7x1024
3.637 ± 0.129
Bng 1: Đnh gi so snh HMM và DNN
Kt qu đnh giá so snh h thng tổng hp ting ni da trên HMM so vi DNN
ca Google[19] đưc th hin trong bng 1. Đnh gi này s dụng phương php
20