Tải bản đầy đủ (.pdf) (65 trang)

Nghiên ứu phát triển hệ thống tổng hợp tiếng nói tiếng việt sử dụng công nghệ học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.72 MB, 65 trang )

NGUYN VĂN THNH

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

Nguyn Văn Thnh

H THNG THÔNG TIN

NGHIÊN CỨU PHÁT TRIỂN H THNG TỔNG HỢP TIẾNG NÓI
TIẾNG VIT SỬ DỤNG CÔNG NGH HỌC SÂU

LUẬN VĂN THẠC SĨ KHOA HỌC
H THNG THÔNG TIN

CLC2017B
Hà Nội 2018

Tai ngay!!! Ban co the xoa dong chu nay!!! 17057204815241000000


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------Nguyn Văn Thnh

NGHIÊN CỨU PHÁT TRIỂN H THNG TỔNG HỢP TIẾNG NĨI TIẾNG
VIT SỬ DỤNG CƠNG NGH HỌC SÂU

Chun ngành :


H Thng Thông Tin

LUẬN VĂN THẠC SĨ KHOA HỌC
H THNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC :
TS. Mc Đăng Khoa

Hà Nội 2018

2


LỜI CẢM ƠN
Đu tiên, tôi xin đưc gi li cm ơn chân thành ti Vin nghiên cu quc t MICA
nơi đ to điu kin cho tôi thc hin lun văn này. Tip đn, tôi xin cm ơn trung
tâm không gian mng VIETTEL, nơi tôi làm vic, đ to điu kin và gip đ tơi
trong vic hồn thành h thng mà tôi trnh bày trong lun văn thc s này. Tôi xin
chân thành cm ơn TS. Mc Đăng Khoa ngưi thy, ngưi hưng dn tôi trong sut
thi gian qua đ tôi c th hồn thành lun văn cho mnh.
Thêm na, tơi xin chân thành cm ơn anh Nguyn Tin Thành, ch Nguyn Hng
Phương cng toàn th cc bộ vin nghiên cu quc t MICA đ gip đ tôi trong
qu trnh làm lun văn ti vin nghiên cu quc t MICA.
Tôi xin gi li cm ơn trn trng đn anh Nguyn Quc Bo cng tồn th đng
nghip ca tơi ti nhm voice trung tâm không gian mng VIETTEL, ban gim đc
trung tâm cng toàn th anh ch em trong trung tâm đ gip đ h tr tơi trong qu
trnh tơi hồn thành lun văn thc s này.
Cui cng tôi xin gi li cm ơn ti cô Đ Th Ngc Dip, ngưi đ hưng dn tôi
t khi cn là sinh viên đi hc và h tr, gip đ tơi đn khi tơi hồn thành lun văn
này.


Hà Nội, ngày 27 tháng 03 năm 2018
Nguyn Văn Thnh

3


MỤC LỤC
LỜI CẢM ƠN .............................................................................................................3
MỤC LỤC ...................................................................................................................4
DANH MỤC HÌNH ẢNH ..........................................................................................6
DANH MỤC BẢNG ...................................................................................................7
DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ ......................................................8
MỞ ĐẦU .....................................................................................................................9
LỜI CAM ĐOAN .....................................................................................................11
CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI ....................................12
1.1 Gii thiu v tổng hp ting ni ..................................................................12
1.1.1 Tổng quan v tổng hp ting ni .............................................................12
1.1.2 X l ngôn ng t nhiên trong tổng hp ting ni ..................................12
1.1.3 Tổng hp tín hiu ting ni ......................................................................13
1.2 Cc phương php tổng hp ting ni ..........................................................14
1.2.1 Tổng hp mô phỏng h thng pht âm ....................................................14
1.2.2 Tổng hp tn s formant ..........................................................................14
1.2.3 Tổng hp ghép ni ...................................................................................15
1.2.4 Tổng hp dng tham s thng kê .............................................................16
1.2.5 Tổng hp ting ni bng phương php lai ghép ......................................19
1.2.6 Tổng hp ting ni da trên phương php hc sâu (DNN) .....................19
1.3 Tnh hnh pht trin và cc vn đ vi tổng hp ting ni ting Vit .........21
CHƯƠNG 2: PHƯƠNG PHÁP HỌC SÂU ÁP DỤNG TRONG TỔNG HỢP
TIẾNG NÓI ...............................................................................................................23

2.1 K thut hc sâu s dụng mng nơ ron nhân to ............................................23
2.1.1 Nhng mng nơ ron cơ bn ......................................................................23
2.1.2 Mng nơ ron hc sâu ................................................................................25
2.2 Tổng hp ting ni da trên phương php hc sâu.........................................27
2.3 Trích chn cc đc trưng ngơn ng .................................................................27
2.4 Mô hnh âm hc da trên mng nơ ron hc sâu ..............................................30
2.5 Vocoder ...........................................................................................................32
CHƯƠNG 3: XÂY DNG H THNG TỔNG HỢP TIẾNG NĨI TIẾNG VIT
VỚI CƠNG NGH HỌC SÂU .................................................................................35
3.1 Gii thiu h thng Viettel TTS ......................................................................35
3.2 Kin trc tổng quan ca h thng Viettel TTS ...............................................35
3.3 Xây dng cc mô đun ca h thng tổng hp ting ni ..................................36
3.3.1 Mô đun chun ha văn bn đu vào .........................................................36
3.3.2 Mô đun trích chn đc trưng ngơn ng....................................................38
3.3.3 Mơ đun to tham s đc trưng âm hc .....................................................39
3.3.4 Mô đun tổng hp ting ni t cc đc trưng âm hc ...............................41
3.4 Xây dng cơ sở d liu và hun luyn h thng .............................................42
3.4.1 Thu thp d liu cho h thng tổng hp ting ni ...................................42
3.4.2 Hun luyn h thng ................................................................................42
3.5 X l d liu hun luyn đ nâng cao cht lưng đu ra ................................42
CHƯƠNG 4: CÀI ĐT THỬ NGHIM VÀ ĐÁNH GIÁ KẾT QUẢ ....................46
4.1 Cài đt th nghim h thng ...........................................................................46
4.2 Đnh gi kt qu th nghim h thng ...........................................................47
4


4.2.1 Đnh gi cht lưng bộ tổng hp dng DNN so vi HMM ....................47
4.2.2 Đnh gi kt qu ca vic ci thin cơ sở d liu hun luyn .................47
4.2.3 Đnh gi so snh cht lưng h thng tổng hp ting ni so vi cc h
thng tổng hp ting Vit hin c .....................................................................48

4.2.4 Đnh gi hiu năng h thng ....................................................................50
KẾT LUẬN ...............................................................................................................52
A. Tổng kt............................................................................................................52
B. Phương hưng pht trin và ci thin h thng................................................52
TÀI LIU THAM KHẢO......................................................................................... 53
PHỤ LỤC ..................................................................................................................55
Phụ lục A: Cu trc ca một nhn biu din ng cnh ca âm v ........................55
Phụ lục B: Cc công b khoa hc ca lun văn ....................................................57

5


DANH MỤC HÌNH ẢNH
Hình 1: Sơ đ tổng qut một h thng tổng hp ting ni [9] ..................................12
Hình 2: Cu trc cơ bn bộ tổng hp formant ni tip[13]. .....................................14
Hình 3: Cu trc cơ bn bộ tổng hp formant song song[13]. .................................15
Hình 4: Mơ hnh markov n p dụng trong tổng hp ting ni ................................16
Hình 5: Qu trnh hun luyn và tổng hp một h thng tổng hp ting ni da trên
mơ hnh markov n. ...................................................................................................18
Hình 6: Tổng hp ting ni da trên DNN[18] ........................................................20
Hình 7: Một perceptron vi ba đu vào[24]..............................................................23
Hình 8: Mng nơ ron gm nhiu perceptron[24] ......................................................24
Hình 9: Hàm sigmoid[24] .........................................................................................25
Hình 10: Hàm kích hot tanh và relu ........................................................................25
Hình 11: Mng nơ ron một lp n [24] .....................................................................26
Hình 12: Mng nơ ron hai lp n[24] .......................................................................26
Hình 13: Kin trc cơ bn ca h thng tổng hp ting ni. ....................................27
Hình 14: Biu din đc trưng ngơn ng hc ca văn bn[28] ..................................28
Hình 15: Thơng tin đc trưng ngơn ng liên quan đn tng âm v[28] ....................29
Hình 16: Thi gian xut hin mi trng thi ca tng âm v ....................................29

Hình 17: Mng nơ ron feat forward. .........................................................................30
Hình 18: Chuyn ha véc tơ đc trưng thành cc véc tơ nh phân. ..........................31
Hình 19: Mng nơ ron hc sâu p dụng trong tổng hp ting ni[4]. ......................31
Hình 20: Tổng quan v h thng WORLD vocoder[30]. .........................................33
Hình 21: Tổng hp ting ni vi WORLD vocoder .................................................34
Hình 22: H thng tổng hp ting ni Viettel TTS ..................................................35
Hình 23: Kin trc h thng tổng hp ting ni. ......................................................36
Hình 24: Qu trnh chun ha văn bn đu vào ........................................................37
Hình 25: Hot động ca bộ trích chn đc trưng ngơn ng hc ...............................38
Hình 26: Cu trc và hot động ca bộ Genlab ........................................................39
Hình 27: Cu trc mơ đun to tham s đc trưng .....................................................39
Hình 28: Qu trnh hun luyn và tổng hp một h thng tổng hp ting ni da
trên mô hnh mng nơ ron hc sâu. ...........................................................................41
Hình 29: Tổng hp ting ni t cc đc trưng âm hc bng WORLD vocoder. ......41
Hình 30: Tín hiu âm thanh trưc (trên) và sau khi cân bng (dưi) .......................43
Hình 31: Tín hiu âm thanh trưc (ở trên) và sau (ở dưi) sau khi lc nhiu ..........44
Hình 32: Phân b d liu sau khi gn nhn ..............................................................45
Hình 33: Hnh nh chy th nghim h thng tổng hp ting ni 1. ........................46
Hình 34: Hnh nh chy th nghim h thng tổng hp ting ni 2 .........................46
Hình 35: Đnh gi độ t nhiên ..................................................................................49
Hình 36: Đnh gi độ hiu ........................................................................................49
Hình 37: Đnh gi MOS ...........................................................................................49
Hình 38: Đnh gi thi gian đp ng ca h thng ..................................................50
Hình 39: Đnh gi chim dụng bộ nh .....................................................................50

6


DANH MỤC BẢNG
Bng 1: Đnh gi so snh HMM và DNN ................................................................20

Bng 2: D liu hun luyn h thng tổng hp ting ni .........................................42
Bng 3: Kt qu so snh bộ tổng hp DNN và HMM ..............................................47
Bng 4: Kt qu so snh cht lưng tổng hp ting ni ca h thng c d liu hun
luyn đ đưc x l (DNN2) và chưa đưc x l (DNN1). .....................................48
Bng 5: Thông tin ngưi nghe đnh gi h thng tổng hp ting ni ......................48

7


DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ
Từ viết tắt
HMM
DNN
PSOLA
TTS
MSLA
GMM
VLSP
MOS
F0

Từ đầy đủ
Hidden markov model
Deep Neural Network
Pitch Synchronous Overlap
and Add
Text To Speech
Mel
Log
Spectral

Approximation
Gaussian mixture model
Vietnamese language and
speech processing
Mean opinion score
Fundamental frequency

Ý nghĩa.
Mô hnh markov n
Mng nơ ron hc sâu
K thut chng đng bộ cao độ tn
s cơ bn
Tổng hp văn bn thành ting ni.
xp x phổ mel.
Mô hnh gauss hn hp
X l ngôn ng và ting ni ting
Vit
Đim  kin trung bnh
Tn s cơ bn

8


MỞ ĐẦU
Hin nay, lĩnh vc tổng hp ting ni đ đưc nghiên cu và pht trin ở rt nhiu
nơi trên th gii, nhiu công ngh và phương php khc nhau đưc th nghim,
trin khai thành cơng, thm chí c nhng công trnh đ đt đn mc kh c th phân
bit đưc vi ging đc ca con ngưi. Cn ở Vit Nam, cng đ c nhiu công
trnh nghiên cu và sn phm v lĩnh vc tổng hp ting ni, c th k đn như cc
nghiên cu ca Vin công ngh thông tin thuộc Vin hàn lâm khoa hc công ngh

Vit Nam ([1], [2]), cc nghiên cu này đu da trên kin trc ca h thng HTS[3]
đ xây dng h thng tổng hp ting ni, và mô hnh đưc p dụng là mô hnh
Markov n. Cc công trnh nghiên cu và h thng thc t v tổng hp ting ni ở
Vit nam hin nay ch yu đưc pht trin da trên hai phương php: tổng hp
ting ni ghép ni và tổng hp ting ni thng kê da trên mô hnh Markov n
(HMM). Hai phương php nêu trên là hai phương php đ đưc nghiên cu và pht
trin nhiu năm trên th gii cng như ở Vit Nam, đ c nhiu sn phm, h thng
thành công vi n. Tuy nhiên hai phương php này vn cn nhiu mt hn ch như
cht lưng ting ni tổng hp không tht đi vi HMM và cơ sở d liu cn lưu tr
ln cng như ch cho cht lưng tt trong min hp đi vi tổng hp ghép ni. Mt
khc trên th gii hin nay đ bt đu pht trin một công ngh tổng hp ting ni
mi, đ là tổng hp ting ni da trên phương php hc sâu, n cng đ cho thy
nhng kt qu tích cc, cht lưng tổng hp ca h thng ở mc cao, gn vi t
nhiên[4]. V hai l do trên, đ tài đưc đ xut thc hin nhm th nghim p dụng
công ngh hc sâu vào trong tổng hp ting ni ting Vit vi mong mun to đưc
một h thng tổng hp ting ni c cht lưng cao.
Đ tài này tp trung nghiên cu p dụng công ngh tổng hp ting ni da trên
mng nơ ron hc sâu cho tổng hp ting ni ting Vit, sao cho đt đưc một h
thng c cht lưng ging tổng hp tt hơn so vi cc h thng tổng hp ting Vit
s dụng cc công ngh khc c hơn. Đ làm đưc điu này, tc gi đ đ ra cc
nhim vụ chính cn hồn thành như sau:
- Nghiên cu v phương php tổng hp ting ni da trên công ngh hc sâu
và cch p dụng.
- Trin khai xây dng h thng tổng hp ting ni da trên công ngh này.
- Áp dụng một s gii php tin x l d liu đ nâng cao cht lưng ging
tổng hp.
Lun văn này đưc xây dng trong qu trnh làm vic ti trung tâm không gian
mng VIETTEL và thi gian làm vic ti phng Giao tip ting ni thuộc Vin
nghiên cu quc t MICA. Vi môi trưng làm vic nghiêm tc, đưc s hưng
dn ca TS. Mc Đăng Khoa cng vi s tr gip ca đng nghip và cc anh, ch,

thy, cô ở Vin Nghiên cu quc t MICA tơi đ đc rt đưc kinh nghim và hồn
thành lun văn này.
Sau đây là b cục chính ca lun văn
• CHƯƠNG 1 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NĨI: Chương này gii
thiu chung v tổng hp ting ni, tnh hnh nghiên cu và pht trin cc h
thng tổng hp ting ni, và cc phương php tổng hp ting ni phổ bin
hin nay.
9


• CHƯƠNG 2: PHƯƠNG PHÁP HỌC SÂU ÁP DỤNG TRONG TỔNG HỢP
TIẾNG NÓI: Chương này ch yu ni v phương php hc sâu và cách áp
dụng n trong trong tổng hp ting ni.
• CHƯƠNG 3: XÂY DNG H THNG TỔNG HỢP TIẾNG NĨI TIẾNG
VIT VỚI CƠNG NGH HỌC SÂU: Chương này ch yu ni v kin trc
h thng tổng hp ting ni ting Vit da trên phương php hc sâu, cách
trin khai xây dng tng mô đun da trên kin trc này và cch thu thp,
phương php x l, lc d liu cho h thng tổng hp ting ni.
• CHƯƠNG 4: CÀI ĐT THỬ NGHIM VÀ ĐÁNH GIÁ KẾT QUẢ:
Chương này ch yu ni v cch thc cài đt, th nghim và đnh gi kt
qu h thng tổng hp ting ni đ đưc xây dng.
• Phn KẾT LUẬN: Phn này là phn kt lun v lun văn cng như nhng
phương hưng nghiên cu, ci thin.

10


LỜI CAM ĐOAN
Tôi là Nguyn Văn Thnh, là tc gi ca lun văn này. Trong đ tài Nghiên cu pht
trin h thng tổng hp ting ni ting Vit s dụng công ngh hc sâu, h thng

đưc xây dng bao gm bn mơ đun chính: Mơ đun chun ha văn bn (Text
normalization), mơ đun trích chn đc trưng ngơn ng (Linguistic Feature
Extraction), mô đun to tham s đc trưng (Parameter Generation) và mơ đun to
tín hiu ting ni (Waveform Generation). Trong bn mô đun trên, tc gi tham gia
và c đng gp chính trong vic xây dng ba mơ đun là mơ đun trích chn đc
trưng ngơn ng, mơ đun to tham s đc trưng, mơ đun to tín hiu ting ni.
Tc gi xin cam đoan toàn bộ nhng g nêu trên cng như toàn bộ cc phn trin
khai trong lun văn là tht.

11


CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI
1.1

Giới thiệu về tổng hợp tiếng nói

1.1.1 Tổng quan về tổng hợp tiếng nói
Tổng hp ting ni là qu trnh to ra ting ni ca con ngưi t văn bn, h thng
tổng hp ting ni là h thng nhn đu vào là một văn bn và to ra tín hiu ting
ni tương ng ở đu ra. Nghiên cu v tổng hp ting ni đ bt đu t rt lâu, năm
1779 nhà khoa hc ngưi đan mch Christian Kratzenstein đ xây dng mô phỏng
đơn gin h thng cu âm ca con ngưi, mô hnh này đ c th pht ra đưc âm
thanh ca một s nguyên âm dài[5]. Đn tn th k 19 cc nghiên cu tổng hp
ting ni vn cn ở mc đơn gin, phi sang th k 20 khi mà c s ln mnh ca
h thng đin, đin t th mi thc s xut hin nhng h thng tổng hp ting ni
cht lưng, c th k đn như h thng VODER ln đu đưc gii thiu năm
1939[6]. Cho đn hin nay, c rt nhiu cc sn phm như sch ni, đ chơi,.. s
dụng công ngh tổng hp ting ni. Đc bit cc mơ đun tổng hp ting ni cn
đưc tích hp trong cc tr l o trên đin thoi và my tính như Siri 1 hay Cortana2.

Qua qu trnh pht trin, hin nay v cơ bn một h thng tổng hp ting ni bao
gm hai thành phn chính: phn x l ngôn ng t nhiên và phn x l tổng hp
ting ni[7]. Phn x l ngôn ng t nhiên: chun ha, x l cc văn bn đu vào
thành cc thành phn c th pht âm đưc. Phn x l tổng hp ting ni: To ra tín
hiu ting ni t cc thành phn pht âm đưc nêu trên[8]. Trên hình 1 mơ t một
h thng tổng hp ting ni gm hai thành phn nêu trên.

Hình 1: Sơ đ tổng qut một h thng tổng hp ting ni [9]

1.1.2 X l ngôn ng t nhiên trong tổng hợp tiếng nói
Trong một h thng tổng hp ting ni, khi x l ngôn ng t nhiên c nhim vụ
trích chn cc thơng tin v ng âm, ng điu ca văn bn đu vào. Thông tin ng
1
2

/> />
12


âm cho bit nhng âm nào đưc pht ra trong hồn cnh cụ th nào, thơng tin ng
điu mơ t điu tính ca cc âm đưc pht[7]. Qu trnh x l ngôn ng t nhiên
thưng bao gm ba bưc (xem trên hình 1):
- X l và chun ha văn bn (Text Processing).
- Phân tích cch pht âm (Chuyn đổi hnh v sang âm v Grapheme to
phoneme).
- Phát sinh các thông tin ngôn điu, ng âm cho văn bn (Prosody modeling).
Chun ha văn bn là qu trnh chuyn ha văn bn thơ ban đu thành một văn bn
dng chun, có th đc đưc một cch d dàng, ví dụ như chuyn đổi cc s, t vit
tt, k t đc bit,… thành dng vit đy đ và chính xc. Chun ha văn bn là
một vn đ kh vi nhiu nhp nhng trong cch đc, ví như ch s c nhiu cch

đc khc nhau tùy theo văn cnh khc nhau, như 3579 c th đưc đc là “ba nghìn
năm trăm by chín” nu coi n là một s nhưng cng c th đc là “ba năm by
chín” nu như n là một m xc thc, cc t vit tt cng vy, cng c nhiu cch
đc phụ thuộc vào quy ưc ca ngưi vit.
Phân tích cch pht âm là qu trnh xc đnh cch pht âm chính xc cho văn bn,
cc h thng tổng hp ting ni dng hai cch cơ bn đ xc đnh cch pht âm cho
văn bn, qu trnh này cn đưc gi là chuyn đổi văn bn sang chui âm v. Cch
th nht và đơn gin nht là da vào t đin, s dụng một t đin ln c cha tt c
cc t ca một ngôn ng và cha cch pht âm đng tương ng cho tng t. Vic
xc đnh cch pht âm đng cho tng t ch đơn gin là tra t đin và thay đon văn
bn bng chui âm v đ ghi trong t đin. Cch th hai là da trên cc quy tc và
s dụng cc quy tc đ tm ra cch pht âm tương ng. Mi cch đu c ưu nhưc
đim khc nhau, cch da trên t đin nhanh và chính xc, nhưng s khơng hot
động nu t pht âm không c trong t đin. Và lưng t vng cn lưu là ln. Cch
dng quy tc ph hp vi mi văn bn nhưng độ phc tp c th tăng cao nu ngôn
ng c nhiu trưng hp bt quy tc.
Pht sinh cc thông tin ngôn điu cho văn bn là vic xc đnh v trí trng âm ca t
đưc pht âm, s lên xung ging ở cc v trí khc nhau trong câu và xc đnh cc
bin th khc nhau ca âm phụ thuộc vào ng cnh khi đưc pht âm trong một
ngôn ng lưu liên tục, ngoài ra qu trnh này cn phi xc đnh cc đim dng ngh
ly hơi khi pht âm hoc đc một đon văn bn[10]. Thông tin v thi gian
(duration) đưc đo bng đơn v xen ti giây (centi second) hoc mi li giây (mili
second), và đưc ưc lưng da trên cc quy tc hoc cc thut ton hc my. Cao
độ (pitch) là một tương quan v mt cm nhn ca tn s cơ bn F0, đưc biu th
theo đơn v Hz hoc phân s ca tông (tones) (na tông, một phn hai tông). Tn s
cơ bn F0 là một đc trưng quan trng trong vic to ngơn điu ca tín hiu ting
ni, do đ vic to cc đc trưng cao độ là một vn đ phc tp và quan trng trong
tổng hp ting ni.

1.1.3 Tổng hợp tín hiệu tiếng nói

Khi x l tổng hp ting ni đm nhn vic to ra ting ni t cc thông tin v ng
âm, ng điu do khi x l ngôn ng t nhiên cung cp. Trong thc t c hai cch
tip cn cơ bn liên quan đn công ngh tổng hp ting ni: tổng hp ting ni s
dụng mô hnh ngun âm và tổng hp da trên vic ghép ni cc đơn v âm.
13


Cht lưng ting ni ca một h thng tổng hp đưc đnh gi thơng qua hai khía
cnh: độ d hiu và độ t nhiên. Độ d hiu đ cp đn nội dung ca ting ni đưc
tổng hp c th hiu một cch d dàng hay không. Mc độ t nhiên ca ting ni
tổng hp là s so snh độ ging nhau gia ging ni tổng hp và ging ni t nhiên
ca con ngưi.
Một h thng tổng hp ting ni l tưởng cn va t nhiên, va d hiu và mục tiêu
xây dng một h thng tổng hp là làm gia tăng ti đa hai tính cht này. Hin nay
có ba phương php chính, phổ bin nht là: tổng hp mơ hnh ha h thng pht âm,
tổng hp cộng hưởng tn s và tổng hp ghép ni, ngoài ra cng c cc phương
php khc pht trin t ba phương php trên [11].

1.2

Các phương pháp tổng hợp tiếng nói

1.2.1 Tổng hợp mơ phỏng hệ thống phát âm
Tổng hp mô phỏng h thng pht âm là cc k thut tổng hp ging ni da trên
mơ hnh my tính mơ phỏng cơ quan pht âm ca con ngưi và qu trnh to ra
ting ni trên đ. V mục tiêu ca phương php này là mô phỏng qu trnh to ting
ni sao cho càng ging cơ ch ca con ngưi càng tt, nên v mt l thuyt đây
đưc xem là phương php cơ bn nht đ tổng hp ting ni, nhưng cng v vy mà
phương php này kh thc hin nht và kh c th tổng hp đưc ting ni cht
lưng cao[12]. Tổng hp mô phỏng pht âm đ tng ch là h thng dành cho

nghiên cu khoa hc cho mãi đn nhng năm gn đây. L do là rt ít mơ hnh to ra
âm thanh cht lưng đ cao hoc c th chy hiu qu trên cc ng dụng thương
mi. Một ngoi l là h thng NeXT, vn đưc pht trin thương mi ha bởi
Trillium Sound Research Inc, Canada. Đ thc hin đưc phương php tổng hp
da trên vic mô phỏng h thng pht âm đi hỏi thi gian, chi phí và cơng ngh.
Phương php này kh c th ng dụng ti Vit Nam thi đim hin nay.

1.2.2 Tổng hợp tần số formant
Tổng hp ting ni formant là phương php tổng hp ting ni không s dụng mu
ging tht nào khi chy, thay vào đ tín hiu ting ni đưc to ra bởi một mơ hình
tuyn âm. Mơ hnh này mơ phỏng hin tưng cộng hưởng ca cc cơ quan pht âm
bng một tp hp cc bộ lc. Cc bộ lc này đưc gi là cc bộ lc cộng hưởng
formant, chng c th đưc kt hp song song hoc ni tip vi nhau hoc kt hp
c hai.
Tổng hp ni tip là bộ tổng hp formant c cc tng ni tip, đu ra ca bộ cộng
hưởng này là đu vào ca bộ cộng hưởng kia, cu trc cơ bn bộ tổng hp ni tip
đưc biu din trên hnh 2.

Hình 2: Cu trc cơ bn bộ tổng hp formant ni tip[13].
14


Hình 3: Cu trc cơ bn bộ tổng hp formant song song[13].
Tổng hp song song (trên hnh 3) bao gm cc bộ cộng hưởng mc song song. Đu
ra là kt hp ca tín hiu ngun và tt c cc formant. Cu trc song song cn nhiu
thông tin đ điu khin hơn cu trc ni tip.
H thng tổng hp ting ni da trên phương php tổng hp tn s formant c
nhng ưu đim, nhưc đim c th k đn như: Nhưc đim ca h thng này là to
ra ging ni không t nhiên, nghe cm gic rt phân bit vi ging ngưi tht và
phụ thuộc nhiu vào cht lưng ca qu trnh phân tích ting ni ca tng ngơn

ng, Tuy nhiên độ t nhiên cao không phi lc nào cng là mục đích ca h thng
và h thng này cng c cc ưu đim riêng ca n, h thng này kh d nghe,
không c ting c st do ghép âm to ra, cc h thng này cng nhỏ gn v không
cha cơ sở d liu mu âm thanh ln.

1.2.3 Tổng hợp ghép nối
Tổng hơp ghép ni là phương php tổng hp ting ni bng cch ghép vào nhau các
đon tín hiu ting ni ca một ging ni đ đưc ghi âm. Cc âm tit sau khi đưc
to thành s đưc tip tục ghép li vi nhau to thành đon ting ni. Đơn v âm
phổ bin là âm v, âm tit, bn âm tit, âm đôi, âm ba, t, cụm t. Do đc tính t
nhiên ca ting ni đưc lưu gi trong cc đơn v âm, nên tổng hp ghép ni là
phương php c kh năng tổng hp ting ni vi mc độ d hiu và t nhiên, cht
lưng cao. Tuy nhiên, ging ni t nhiên đưc ghi âm c s thay đổi t ln phát âm
này sang ln pht âm khc, và công ngh t động ha vic ghép ni cc đon ca
sng âm thnh thong to ra nhng ting c xt khơng t nhiên ở phn ghép ni. Có
ba kiu tổng hp ghép ni:
- Tổng hp chn đơn v (unit selection)
- Tổng hp âm kép (diphone)
- Tổng hp chuyên bit (Domain-specific)
Tổng hp chn đơn v dng một cơ sở d liu ln cc ging ni ghi âm. Trong đ,
mi câu đưc tách thành cc đơn v khc nhau như: cc ting đơn lẻ, âm tit, t,
nhm t hoc câu văn. Một bng tra cc đơn v đưc lp ra da trên cc phn đ
15


tách và cc thông s âm hc như tn s cơ bn, thi lưng, v trí ca âm tit và cc
ting gn n. Khi chy cc câu ni đưc to ra bng cch xc đnh chui đơn v ph
hp nht t cơ sở d liu. Qu trnh này đưc gi là chn đơn v và thưng cn
dng đn cây quyt đnh đưc thc hin. Thc t, cc h thng chn đơn v c th
to ra đưc ging ni rt ging vi ngưi tht, tuy nhiên đ đt độ t nhiên cao

thưng cn một cơ sở d liu ln cha cc đơn v đ la chn.
Tổng hp âm kép là dng một cơ sở d liu cha tt c cc âm kép trong ngôn ng
đang xét. S lưng âm kép phụ thuộc vào đc tính ghép âm hc ca ngơn ng.
Trong tổng hp âm kép ch c một mu ca âm kép đưc cha trong cơ sở d liu,
khi chy th li văn đưc chng lên cc đơn v này bng k thut x l tín hiu s
nh m tuyên đon tuyn tính hay PSOLA [14]. Cht lưng âm thanh tổng hp theo
cch này thưng không cao bng phương php chn đơn v nhưng t nhiên hơn
cộng hưởng tn s và ưu đim ca n là c kích thưc d liu nhỏ.
Tổng hp chuyên bit (Domain-specific) là phương php ghép ni t cc đon văn
bn đ đưc ghi âm đ to ra li ni. Phương php này thưng đưc dng cho cc
ng dụng c văn bn chuyên bit, cho một chuyên nghành, s dụng t vng hn ch
như cc thông bo chuyn bay hay d bo thi tit. Công ngh này rt đơn gin và
đ đưc thương mi ha t lâu. Mc độ t nhiên ca h thng này c th rt cao v
s lưng cc câu ni không nhiu và khp vi li văn, âm điu ca ging ni ghi
âm. Tuy nhiên h thng kiu này b hn ch bởi cơ sở d liu chuyên bit không p
dụng đưc cho min d liu mở.

1.2.4 Tổng hợp dùng tham số thống kê
Tip theo đây chng ta s xem xét đn một phương php tổng hp ting ni đưc
nghiên cu phổ bin và rộng ri hin nay đ là phương php tổng hp da trên mô
hnh Markov n (HMM) [15]. Ở đây HMM là một mô hnh thng kê, đưc s dụng
đ mô hnh ha cc tham s ting ni ca một đơn v ng âm, trong một ng cnh
cụ th.

Hình 4: Mô hnh markov n p dụng trong tổng hp ting ni
16


Hnh 4 mô t cch p dụng mô hnh markov n trong tổng hp ting ni, trong đ
mi mô hnh markov n đưc s dụng đ mô hnh ha một âm v, và cc mô hnh

markov n đưc mc ni vi nhau đ mô hnh ha chui âm v. Mô hnh markov n
là một mô hnh hc my da trên thng kê, do đ h thng tổng hp ting ni da
trên mô hnh markov n hot động bao gm hai qu trnh là qu trnh hun luyn và
qu trnh tổng hp. Hnh 5 mô t qu trnh tổng hp và hun luyn một h thng
tổng hp ting ni da trên mô hnh markov n.
Qu trnh tổng hp da trên mô hnh markov n s là qu trnh mà nhn đu vào là
một đon văn bn, chuyn ha đon văn bn này thành chui âm v, sau đ da vào
cc mô hnh markov n mô hnh ha chui cc âm v tương ng ta s tm ra đưc
cc tham s mel và tn s cơ bn f0. T cc tham s mel xây dng nên chui cc bộ
lc MLSA (Mel Log Spectral Approximation) và kt hp vi tín hiu kích thích
đưc to t f0 s to ra đưc tín hiu ting ni[16], [17].
Qu trnh hun luyn da trên mô hnh markov n bao gm cc bưc: Trích chn
đc trưng ting ni và hun luyn mô hnh da trên cc véc tơ đc trưng trích đưc.
Cc đc trưng ting ni đưc trích trong qu trnh hun luyn là cc véc tơ như véc
tơ h s mel và véc tơ mô t f0. Nhưng đn đây vic mô hnh ha như vy s li ny
sinh một vn đ đ là tn s cơ bn f0 ch tn ti ở âm hu thanh cn cc âm vô
thanh li là nhiu. Do đ, đ gii quyt vn đ này ngưi ta đ s dụng một mô hnh
mở rộng hơn, đ là Multi-Space Probability Distribution Hidden Markov
Model[16]. Mô hnh này thưng bao gm: một không gian véc tơ đưc s dụng đ
mô hnh ha véc tơ mel và hai không gian véc tơ đ mô hnh ha tn s cơ bn f0.
Mi không gian véc tơ trong mô hnh th đưc đc trưng bởi một phân b xc xut,
mi quan st ca một trng thi li đưc mô t như sau: o=(X,x) trong đ X là tp
cc không gian véc tơ, cn x là véc tơ đc trưng. Mục tiêu ca qu trnh hun luyn
là t d liu đu vào ci thin cc tham s ca mô hnh markov n mà mô hnh ha
cho mi âm v.
Cc đc trưng ngôn ng ca văn bn đưc mô t bng cch s dụng một bộ phân
cụm (thưng là cây quyt đnh) đ gom cc cụm trng thi ca mơ hnh markov n
c đc tính ngơn ng gn nhau nht và bu chn ra một trng thi tiêu biu đ thay
th cho cc trng thi cn li trong cụm.
H thng tổng hp ting ni da trên mô hnh markov n là một h thng c kh

năng to ting ni mang phong cch ni khc nhau, vi đc trưng ca nhiu ngưi
ni khc nhau, thm chí là mang cm xc ca ngưi ni. Ưu đim ca phương php
này là cn ít bộ nh lưu tr và tài nguyên h thng hơn so vi tổng hp ghép ni, và
c th điu chnh tham s đ thay đổi ng điu. Tuy nhiên, một s nhưc đim ca
h thng này đ là độ t nhiên trong ting ni tổng hp ca h thng b suy gim
hơn so vi tổng hp ghép ni, phổ tín hiu và tn s cơ bn đưc ưc lưng t cc
gi tr trung bnh ca cc mô hnh markov n đưc hun luyn t d liu khc nhau,
điu này khin cho ting ni tổng hp nghe c vẻ đu đu mn và đôi khi trở thành
b “nght mi”.

17


Hình 5: Qu trnh hun luyn và tổng hp một h thng tổng hp ting ni da trên
mô hnh markov n.
18


1.2.5 Tổng hợp tiếng nói bằng phương pháp lai ghép
Tổng hp lai ghép là phương php tổng hp bng cch lai ghép gia tổng hp ghép
ni chn đơn v và tổng hp da trên mô hnh markov n, nhm tn dụng ưu đim
ca mi phương php và p dụng n trong h thng. Như đ ni, h thng tổng hp
lai ghép kt hp ưu nhưc đim ca tng h thng thành phn, tùy theo thành phn
nào đng vai tr ch đo mà c th phân loi cc h thng tổng hp lai ghép thành
hai loi sau: Tổng hp hưng ghép ni và tổng hp hưng HMM.
H thng tổng hp hưng ghép ni s dụng cc HMM đ h tr qu trnh ghép ni,
 tưởng chính ca phương php này như sau:
- Đơn v dng đ la chn trong “tổng hp ghép ni chn đơn v” cng s là
đơn v đưc tổng hp ra.
- Đưng biên gia cc đơn v s đưc làm mn bng cc mô hnh markov n.

- Âm thanh sau cng đưc làm mn bng phương php làm mn phổ.
Khc vi h thng tổng hp hưng ghép ni, h thng tổng hp hưng HMM s
dụng cc thut ton sinh tham s t cc HMM và phn tổng hp ghép ni đưc s
dụng đ tăng cưng cht lưng chui tham s này.
Hai hưng tổng hp lai ghép nêu trên đu c ưu nhưc đim khc nhau, và đưc s
dụng ty vào yêu cu cht lưng ting ni hay yêu cu cụ th v h thng. Ưu đim
cơ bn ca h thng lai ghép hưng ghép ni đ là gim tc động không mong
mun do d liu không đ và gim s phụ thuộc vào d liu, hay cng chính là ci
thin cc nhưc đim ca tổng hp ghép ni. Mc d đ gii quyt cơ bn nhng
vn đ v ghép ni nhưng vn đ trở ngi ti nhng đim ghép ni vn cn tn ti.

1.2.6 Tổng hợp tiếng nói da trên phương pháp học sâu (DNN)
Tổng hp ting ni da trên phương php hc sâu đ bt đu pht trin mnh m
trong vài năm trở li đây, phương php này đưc xây dng da trên vic mô hnh
ha mô hnh âm hc bng một mng nơ ron hc sâu DNN. Trong đ Văn bn đu
vào s đưc chuyn ha thành một véc tơ đc trưng ngôn ng, cc véc tơ đc trưng
này mang cc thông tin v âm v, ng cnh xung quanh âm v, thanh điu,… Sau đ
mô hnh âm hc da trên DNN ly đu vào là véc tơ đc trưng ngôn ng và to ra
cc đc trưng âm hc tương ng ở đu ra. T cc đc trưng âm hc này s to thành
tín hiu ting ni nh một bộ tổng hp tín hiu ting ni (thưng là vocoder).
Kin trc tổng quan ca một h thng tổng hp ting ni da trên mng nơ ron hc
sâu DNN đưc mơ t trong hình 6. Trong đ, văn bn cn đưc tổng hp s đi qua
bộ phân tích văn bn (Text analysis) đ trích chn cc đc trưng ngôn ng hc và
đưc chuyn ha thành cc véc tơ nh phân bởi bộ Input feature extraction, các véc
tơ nh phân đu vào { x tn} vi x tn là đc trưng th n ti khung t (frame t), cc véc tơ
này tương ng to ra cc đc trưng đu ra {y tm} thông qua một mng nơ ron DNN
đ đưc hun luyn, vi mi ytm là đc trưng đu ra th m ti khung t. Cc đc
trưng đu ra này cha cc thơng tin v phổ và tín hiu kích thích, thơng qua bộ to
tham s (Parameter Generation) s đưc chuyn thành cc tham s đc trưng âm
hc và đưc đưa vào bộ to tín hiu ting ni (Waveform generation) đ to ra tín

hiu ting ni thc.
19


Hình 6: Tổng hp ting ni da trên DNN[18]
Mng nơ ron hc sâu DNN da trên cc lp nơ ron nhân to, c kh năng mô hnh
ha nhng mi quan h phi tuyn phc tp gia đu vào và đu ra. Đc bit trong
trưng hp s dụng DNN c th mô hnh ha một cch mnh m mi quan h phi
tuyn, phc tp gia cc đc trưng ngôn ng hc ca văn bn và đc trưng âm hc
ca tín hiu ting ni, tuy nhiên vic s dụng DNN cng c nhng hn ch đ là v
s mnh m ca n nên n rt nhy cm vi cc thông tin sai lch và không tt như
nhiu, và n cng cn rt nhiu d liu đ hun luyn mô hnh. Nh s mnh m
trong mô hnh ha mô hnh âm hc, DNN đ đưc p dụng trong nhiu ng dụng
tổng hp ting ni trên th gii như cc sn phm ca Google, Baidu, Microsoft hay
trong h thng Merlin ca CSTR đ đt đưc độ t nhiên rt cao.
HMM
DNN

1 mix
3.537 ± 0.113
2 mix
3.397 ± 0.115
4x1024
3.635 ± 0.127
5x1024
3.681 ± 0.109
6x1024
3.652 ± 0.108
7x1024
3.637 ± 0.129

Bng 1: Đnh gi so snh HMM và DNN

Kt qu đnh giá so snh h thng tổng hp ting ni da trên HMM so vi DNN
ca Google[19] đưc th hin trong bng 1. Đnh gi này s dụng phương php
20



×