Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
XÂY DỰNG MƠ HÌNH THÍCH ỨNG GIỌNG NĨI
TRONG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT
Phan Trung Kiên1,2, Đỗ Văn Hải1,3
Trung tâm Không gian Mạng Viettel, 2Viện CNTT&TT, Trường Đại học Bách Khoa Hà Nội,
3
Khoa CNTT, Trường Đại học Thủy Lợi
1
1. GIỚI THIỆU CHUNG
Tổng hợp tiếng nói là một lĩnh vực đã được
nghiên cứu từ lâu và có nhiều ứng dụng trong
đời sống. Hệ thống tổng hợp tiếng nói giúp
chuyển đổi từ văn bản sang giọng nói con
người. Một ví dụ điển hình nhất của tổng hợp
tiếng nói đó là giọng đọc của Google Dịch.
Tuy nhiên, hiện nay chi phí phát triển các
hệ thống này là lớn dẫn tới sự thiếu sự đa
dạng về giọng nói trong các hệ thống. Vì vậy
các phương pháp thích ứng giọng nói đã
được phát triển để giải quyết các vấn đề nêu
trên. Thích ứng giọng nói (SA - Speaker
Adaptation) có nhiệm vụ tạo ra giọng nói
mới cho hệ thống tổng hợp tiếng nói bằng
cách điều chỉnh các tham số của một mơ hình
ban đầu với một lượng ít dữ liệu ghi âm của
người nói mới.
Nhiều phương pháp đã được đề xuất và
mang lại hiệu quả nhất định cho thích ứng
giọng nói, ví dụ như: học chuyển giao
(Transfer Learning), sử dụng véc tơ mã hóa
người nói (Speaker Embedding) [1], Learning
Hidden Unit Contribution (LHUC) [2], Feature
Space Transformation (FST) [3], …
Trong bài báo này, chúng tôi nghiên cứu
xây dựng mơ hình thích ứng giọng nói cho
bài tốn tổng hợp tiếng nói tiếng Việt dựa
trên hai phương pháp là phương pháp học
chuyển giao và phương pháp véc tơ mã hóa
người nói.
- Xây dựng mơ hình gốc (Build base
model).
- Thích ứng (Adaptation).
Hình 1. Hai bước trong q trình thích ứng
giọng nói.
Để xây dựng mơ hình gốc, chúng tơi sử
dụng kiến trúc Merlin [4]. Đây là kiến trúc
tổng hợp tiếng nói phổ biến hiện nay dựa trên
mạng nơ ron học sâu tiên tiến. Như mơ tả ở
trên hình 2, kiến trúc Merlin bao gồm 3
thành phần:
- Trích chọn đặc trưng ngơn ngữ
(Linguistic Features Extraction).
- Tạo đặc trưng âm học (Parameter
Generation).
- Tạo tín hiệu tiếng nói (Waveform
Generation).
2. PHƯƠNG PHÁP NGHIÊN CỨU
Như thấy ở (hình 1), quá trình SA được
chia làm hai thành phần:
105
Hình 2. Mơ hình Merlin.
Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
2.1. Phương pháp học chuyển giao
Với phương pháp này, chúng tôi giữ nguyên
kiến trúc của Merlin cho cả hai bước huấn
luyện mơ hình gốc và thích ứng. Đối với mơ
hình gốc chúng tơi thử nghiệm theo 2 hướng:
- Xây dựng mơ hình gốc một người nói
(OS - One speaker): Mơ hình gốc sẽ được
huấn luyện trên bộ dữ liệu bao gồm một
người nói.
- Xây dựng mơ hình gốc nhiều người nói hay cịn gọi là mơ hình giọng trung bình
(AVM - Average voice model): Mơ hình gốc
sẽ được huấn luyện trên bộ dữ liệu bao gồm
nhiều người nói.
2.2. Phương pháp véc tơ mã hóa người nói
b) Mã hóa người nói bằng x-vector
X-vector là véc tơ được trích xuất từ mơ hình
TDNN [5]. X-vector thu được từ q trình trên
là một véc tơ 200 chiều chưa thơng tin mã hóa
của người nói. Do số chiều này là khá lớn nếu
so sánh tỷ lệ với các đặc trưng ngôn ngữ được
sử dụng. Do đó, phương pháp phân tích thành
phần chính (PCA) được sử dụng để giảm số
chiều véc tơ xuống còn 25 chiều.
3. KẾT QUẢ NGHIÊN CỨU
3.1. Dữ liệu cho xây dựng mơ hình gốc
Dữ liệu huấn luyện được chuẩn bị bao gồm:
- Dữ liệu cho mơ hình gốc một người nói:
bao gồm 8 giờ 35 phút giọng nói nữ với
phương ngữ miền Nam.
- Dữ liệu cho mơ hình giọng trung bình:
bao gồm 20 giờ 30 phút giọng nói của 60
người. Trong đó có 30 nam, 30 nữ, mỗi
người thu âm 160 câu.
3.2. Dữ liệu cho thích ứng giọng nói
Hình 3. Phương pháp véc tơ mã hóa người nói
Để cải tiến cho phương pháp học chuyển
giao sử dụng mơ hình giọng trung bình,
chúng tơi thêm thành phần véc tơ mã hóa
người nói (Speaker Embedding) nhằm bổ
sung thơng tin về người nói cho thành phần
Parameter Generation.
a) Mã hóa người nói bằng one-hot vector
X x1 , x2, ..., x n1
One - hot vector là véc tơ có dạng:
Trong đó, n +1 bao gồm n người nói có
trong bộ dữ liệu được dùng để xây dựng mơ
hình gốc và một người nói có trong bộ dữ
liệu được dùng để thích ứng.
Trong q trình xây dựng mơ hình gốc,
với người nói thứ i ta có:
xi 1
xi 0 j i
Trong q trình thích ứng ta có:
xn1 1
xi 0 j n 1
Để đánh giá được hiệu quả của các phương
pháp thích ứng giọng, chúng tơi huấn luyện
mơ hình tổng hợp tiếng nói sử dụng kiến trúc
Merlin trong hai trường hợp nhiều dữ liệu (> 3
giờ) và ít dữ liệu (≤ 0,5 giờ).
Dữ liệu huấn luyện được chuẩn bị cho
thích ứng giọng nói bao gồm:
- Hai tập dữ liệu: MALE (4 giờ 40 phút,
giọng nam) và FEMALE (3 giờ 30 phút,
giọng nữ) được chuẩn bị để huấn luyện mơ
hình tổng hợp tiếng nói.
Hai tập dữ liệu: MALE-30 và FEMALE30 bao gồm 30 phút dữ liệu được chọn ra
tương ứng từ hai tập MALE và FEMALE
được sử dụng để huấn luyện mơ hình tổng
hợp tiếng nói cũng như được sử dụng để
thích ứng giọng nói.
Để trích xuất x-vector, chúng tơi dụng mơ
hình đã được huấn luyện từ trước với tập dữ
liệu VoxCeleb. Đây là tập dữ liệu bao gồm
các hơn một triệu đoạn tiếng nói, được trích
xuất từ các video phỏng vấn được đăng tải
lên YouTube. Trong bộ dữ liệu có hơn 7000
người nói với nhiều ngơn ngữ khác nhau,
tổng độ dài bộ dữ liệu là hơn 2000 giờ.
106
Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
3.2. Huấn luyện mơ hình
Tập dữ liệu trên được chia theo tỉ lệ 90:5:5
tương ứng với tập huấn luyện, tập phát triển
và tập kiểm tra. Các mơ hình được huấn
luyện sử dụng thuật toán Stochastic Gradient
Descent với learning rate là 0.002, batch size
là 256 và số epoch là 25.
3.2. Kết quả
Các mơ hình được đánh giá độ tự nhiên
bằng điểm MOS (Mean Opinion Score). 18
người được mời nghe thử 120 mẫu và đánh
giá trên thang điểm 5. Kết quả được lấy trung
bình số điểm cho mỗi mơ hình.
phương pháp sử dụng x-vector để mã hóa
người nói.
4. KẾT LUẬN
Trong bài báo này, chúng tơi đã trình bày
bốn phương pháp thích ứng giọng nói cho
tổng hợp tiếng nói tiếng Việt. Kết quả thử
nghiệm cho thấy độ tự nhiên của giọng nói
thích ứng được cải thiện đáng kể.
Từ nghiên cứu này, chúng ta hồn tồn có
thể sử dụng để mở rộng sự đa dạng của một
hệ thống tổng hợp tiếng nói với lượng dữ liệu
hạn chế. Ngoài ra, các phương pháp này cịn
có thể áp dụng cho các bài tốn thích ứng
cảm xúc, hay mơ hình đa giọng nói, …
5. TÀI LIỆU THAM KHẢO
Hình 4. Đánh giá điểm MOS trên các mơ
hình giọng nam.
Hình 5. Đánh giá điểm MOS trên các mơ
hình giọng nữ
Dựa vào (hình 4) và (hình 5) có thể thấy
rằng các phương pháp được đề xuất đã cải
thiện rõ rệt độ tự nhiên của giọng nói tổng
hợp. Trong đó nhóm phương pháp sử dụng
véc tơ mã hóa người nói cho kết quả tốt hơn
so với nhóm phương pháp học chuyển giao.
Phương pháp mang lại hiệu quả tốt nhất đó là
[1] Hieu-Thi Luong, Shinji Takaki, Gustav Eje
Henter, Junichi Yamagishi, "Adapting and
Controlling DNN-Based Speech Synthesis
Using Input Codes," 2017 IEEE
International Conference on Acoustics,
Speech and Signal Processing (ICASSP),
pp. 4905-4909, 2017.
[2] P. Swietojanski and S. Renals, "Learning
hidden unit contributions for unsupervised
speaker adaptation of neural network
acoustic models," in Proc. IEEE Spoken
Language Technology Workshop, 2014.
[3] Tomoki Toda, Alan W Black, Keiichi
Tokuda, "Voice conversion based on
maximum-likelihood estimation of spectral
parameter trajectory," IEEE Transactions
on Audio, Speech, and Language
Processing, vol. 15, pp. 2222-2235, 2007.
[4] Zhizheng Wu, Oliver Watts, Simon King,
"Merlin: An Open Source Neural Network
Speech Synthesis System," SSW, pp. 202207, 2016.
[5] David Snyder, Daniel Garcia-Romero,
Daniel Povey, Sanjeev Khudanpur, "Deep
Neural Network Embeddings for TextIndependent
Speaker
Verification,"
INTERSPEECH 2017, 2017.
107