Tải bản đầy đủ (.pdf) (26 trang)

Tóm tắt: Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (922.96 KB, 26 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

Phạm Văn Đồng

NGHIÊN CỨU TỔNG HỢP TIẾNG NĨI CHO NGƠN
NGỮ ÍT NGUỒN TÀI NGUYÊN THEO HƯỚNG
THÍCH NGHI, ỨNG DỤNG VỚI TIẾNG MƯỜNG

Ngành: Khoa học máy tính
Mã số: 9480101

TĨM TẮT LUẬN ÁN TIẾN SĨ
KHOA HỌC MÁY TÍNH

Hà Nội - 2023


Cơng trình được hồn thành tại :
Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học:
1. TS. Mạc Đăng Khoa
2. PGS. TS. Trần Đỗ Đạt

Phản biện 1: ……………………………………………
Phản biện 2: ……………………………………………
Phản biện 3: ……………………………………………

Luận án được bảo vệ trước Hội đồng đánh giá luận án
tiến sĩ cấp Đại học Bách khoa Hà Nội họp tại Đại học


Bách khoa Hà Nội
Vào hồi…...giờ…...phút, ngày…… tháng……năm ……

Có thể tìm hiểu luận án tại thư viện :
1. Thư viện Tạ Quang Bửu – ĐHBK Hà Nội.
2. Thư viện Quốc gia Việt Nam


GIỚI THIỆU
Động lực nghiên cứu
Cơng nghệ xử lý giọng nói ngày nay rất cần thiết trong nhiều khía cạnh tương tác giữa người
và máy. Nhiều hệ thống tương tác bằng giọng nói gần đây đã được giới thiệu, cho phép người
dùng giao tiếp với các thiết bị trên nhiều nền tảng khác nhau, chẳng hạn như điện thoại thông minh
(Apple Siri, Google Cloud, Amazon Alexa, v.v.), ô tô thông minh (BMW, Ford, v.v.), và nhà thông
minh. Trong các hệ thống này, một trong những thành phần quan trọng là tổng hợp giọng nói hoặc
chuyển văn bản thành giọng nói (Text-To-Speech - TTS), có thể chuyển đổi văn bản đầu vào thành
giọng nói. Phát triển hệ thống tổng hợp tiếng nói cho một ngôn ngữ không chỉ là việc thực hiện
các kỹ thuật xử lý tiếng nói mà cịn địi hỏi các nghiên cứu về ngôn ngữ như ngữ âm, âm vị học,
cú pháp và ngữ pháp.
Theo số liệu thống kê trong ấn bản thứ 25 của Ethnologue1 (được coi là nguồn thơng tin tồn
diện nhất về thống kê ngơn ngữ), có khoảng 7.151 ngơn ngữ đang tồn tại trên thế giới, thuộc 141
họ ngơn ngữ, trong đó có khoảng 2.982 ngơn ngữ khơng có chữ viết. Một số ngơn ngữ chưa được
mô tả trong tài liệu học thuật, chẳng hạn như tiếng địa phương của các dân tộc thiểu số. Các phương
pháp học máy dựa trên dữ liệu lớn không thể áp dụng ngay cho các ngơn ngữ có tài ngun giới
hạn. Đặc biệt với các ngơn ngữ khơng có chữ viết, các công nghệ xử lý ngôn ngữ hiện tại hồn
tồn khơng thể áp dụng trực tiếp. Lĩnh vực xử lý ngơn ngữ ít tài ngun/chưa có chữ viết, mới bắt
đầu được chú ý trong vài năm trở lại đây và chưa có nhiều kết quả. Tuy nhiên, những kết quả
nghiên cứu của lĩnh vực này là rất cần thiết bởi ngồi việc đưa cơng nghệ truyền thơng bằng giọng
nói đến với cộng đồng dân tộc thiểu số, các sản phẩm ứng dụng công nghệ này cũng rất cần thiết.
Nó cũng góp phần bảo tồn các ngơn ngữ đang dần bị biến mất.

Đối với lĩnh vực ngôn ngữ và xử lý tiếng nói của tiếng Việt, các đơn vị nghiên cứu trong nước
đã chú trọng đến nhiều khía cạnh, từ các vấn đề xử lý ngôn ngữ tự nhiên như xử lý văn bản, tách
phần cú pháp và ngữ nghĩa đến các vấn đề xử lý tiếng nói như tổng hợp và nhận dạng. Tuy nhiên,
vấn đề xử lý ngơn ngữ và tiếng nói, bao gồm cả hệ thống tổng hợp tiếng nói cho các ngơn ngữ
thiểu số khơng có hệ thống chữ viết tại Việt Nam, chưa nhận được nhiều sự chú ý do sự khan hiếm
của nguồn dữ liệu như dữ liệu văn bản song ngữ và dữ liệu tiếng nói, cũng như thiếu các nghiên
cứu ngơn ngữ liên quan.
Tiếng Mường có những đặc điểm ngơn ngữ riêng biệt khiến cho việc phát triển hệ thống tổng
hợp tiếng nói trở nên khó khăn, chẳng hạn như tính thanh điệu và cấu trúc âm vị phức tạp. Tuy
nhiên tiếng Mường là ngôn ngữ họ gần với tiếng Việt, luận án này tập trung vào phát triển hệ thống
tổng hợp tiếng nói cho ngơn ngữ ít nguồn tài ngun, tập trung ứng dụng cụ thể cho tiếng Mường,
một ngôn ngữ thiểu số tại Việt Nam mà hiện nay còn chưa có chữ viết chính thức (chỉ có phương
ngữ Mường Hịa Bình có hệ thống chữ viết vào năm 2016). Lĩnh vực nghiên cứu này không chỉ
mới mẻ tại Việt Nam mà còn trên thế giới, và việc phát triển hệ thống tổng hợp tiếng nói cho tiếng
Mường khơng chỉ cung cấp một cống hiến quan trọng cho việc bảo tồn, mà cịn kích thích sự phát
triển của ngơn ngữ này, ngôn ngữ đang đứng trước nguy cơ bị tuyệt chủng.
Các thách thức
Tổng hợp giọng nói cho các ngơn ngữ ít tài nguyên đặt ra nhiều thách thức lớn, chủ yếu do
nguồn dữ liệu và kiến thức ngôn ngữ. Tài nguyên hạn chế làm cho việc huấn luyện các hệ thống
tổng hợp tiếng nói và đạt được chất lượng tổng hợp giọng nói cao trở nên khó khăn. Hơn nữa,
thiếu các nghiên cứu ngôn ngữ của các ngôn ngữ này càng làm tình hình trở nên khó khăn hơn, vì
chúng cung cấp thông tin quan trọng cho việc xây dựng các hệ thống tổng hợp tiếng nói.
Mục tiêu

1

/>1


Luận án này nhằm phát triển một hệ thống tổng hợp tiếng nói cho các ngơn ngữ thiếu nguồn tài

ngun, tập trung vào tiếng Mường, bằng cách sử dụng các kỹ thuật thích nghi. Chúng tơi phân
loại các ngơn ngữ thiếu nguồn tài nguyên thành hai nhóm và cho mỗi nhóm, chúng tơi cố gắng áp
dụng các phương pháp phù hợp để tạo ra hệ thống tổng hợp tiếng nói:
• Nhóm ngơn ngữ thiếu nguồn tài ngun có hệ thống chữ viết: Sử dụng phương pháp giả lập
đầu vào và phương pháp thích nghi để tăng cường tài ngun ngơn ngữ có sẵn.
• Nhóm ngơn ngữ thiếu nguồn tài ngun khơng có hệ thống chữ viết: Đề xuất sử dụng các
biểu diễn trung gian hoặc sử dụng văn bản từ các ngôn ngữ giàu nguồn lực để thu hẹp khoảng cách
trong tài nguyên ngôn ngữ.
Như vậy, luận án này nhằm làm cho cơng nghệ tổng hợp tiếng nói trở nên dễ dàng tiếp cận hơn
đối với các ngôn ngữ nghèo tài nguyên, mở rộng các ứng dụng của nó và thúc đẩy giao tiếp giữa
các cộng đồng ngôn ngữ đa dạng. Điều này làm cho việc phát triển các ứng dụng cho đài phát
thanh tiếng Mường và báo tiếng Mường từ văn bản tiếng Việt trở nên khả thi.
Giới hạn và phạm vi nghiên cứu
Luận án này sẽ phân loại các ngơn ngữ thiếu nguồn lực thành hai loại: Có hệ thống chữ viết và
hệ thống chưa có chữ viết. Tiếng Mường sẽ là đối tượng nghiên cứu trong cả hai trường hợp:


Có hệ thống chữ viết: Sẽ nghiên cứu về phương ngữ Mường Bi Hịa Bình, vì
phương ngữ này có hệ thống chữ viết từ năm 2016.



Khơng có hệ thống chữ viết: Sẽ nghiên cứu về phương ngữ Mường Phú Thọ, vì
nó chưa có hệ thống chữ viết, để đối sánh kết quả, phương ngữ Mường Bi cũng
được thí nghiệm.

Ở các khu vực khác, người Mường hiện nay không sử dụng chữ viết. Họ thường đọc trực tiếp
từ văn bản tiếng Việt và chuyển đổi nó thành giọng nói tiếng Mường để phát thanh và giao tiếp.
Nghiên cứu này nhằm giải quyết những thách thức này và cải thiện tính khả dụng của cơng nghệ
tổng hợp tiếng nói cho cả trường hợp tiếng Mường có hệ thống chữ viết và trường hợp tiếng

Mường chưa có hệ thống chữ viết.
Ngồi ra, luận án này được thực hiện trong phạm vi và phối hợp với đề tài ĐLCN.20/17:
"Nghiên cứu xây dựng hệ dịch tự động văn bản tiếng Việt ra tiếng nói tiếng Mường, hướng đến
áp dụng cho các ngơn ngữ dân tộc thiểu số chưa có chữ viết ở Việt Nam". Chúng tôi đã tham gia
và sử dụng một số phần việc của dự án này bao gồm:
• Dữ liệu ghi âm giọng nói từ cả hai phiên bản Mường Hịa Bình và Mường Phú
Thọ.


Cơng cụ dịch máy chuyển đổi văn bản tiếng Việt sang biểu diễn trung gian của
tiếng Mường.

Ngược lại, các kết quả nghiên cứu của luận án này đã được áp dụng và tích hợp thành cơng vào
dự án trên, chứng tỏ giá trị thực tiễn của cơng việc được thực hiện trong luận án này.
Đóng góp
Luận án này đề xuất những đóng góp quan trọng sau đây:
• Đóng góp đầu tiên: Đề xuất và thử nghiệm thành công một phương pháp mới trong
việc tổng hợp tiếng nói cho những ngơn ngữ khơng có hệ thống chữ viết, với trường
hợp ứng dụng cụ thể là tiếng Mường.


Đóng góp thứ hai: Nghiên cứu và thực nghiệm phương pháp tổng hợp tiếng nói thích
nghi cho ngơn ngữ ít nguồn tài nguyên có hệ thống chữ viết ứng dụng cho tiếng
Mường Bi, tỉnh Hịa Bình.

Ngồi hai đóng góp chính đã đề cập ở trên, chúng tôi cũng nghiên cứu so sánh tiếng Việt và
tiếng Mường, đưa ra nhiều kết luận có giá trị cho các nghiên cứu ngữ âm học và xử lý ngôn ngữ
2



tự nhiên. Chúng tôi đã chia sẻ nhiều tài liệu tham khảo và công cụ xử lý văn bản và từ vựng trong
tiếng Việt và tiếng Mường.
Cấu trúc của luận án
Luận án được phân thành ba phần và sáu chương, được tổ chức như sau:
PHẦN 1: NỀN TẢNG VÀ CÔNG TRÌNH LIÊN QUAN
• Chương 1, có tiêu đề "Tổng quan về TTS và TTS cho ngơn ngữ có ít nguồn tài
nguyên": Chương này cung cấp một bản tóm tắt về các nghiên cứu hiện có để
có được một hiểu biết tồn diện về tổng hợp tiếng nói. Các hướng nghiên cứu
cho tổng hợp tiếng nói cho ngơn ngữ ít nguồn tài ngun cũng được đưa ra trong
chương này.


Chương 2, có tiêu đề "Ngôn ngữ tiếng Việt và tiếng Mường": Chương này trình
bày nghiên cứu về âm vị học của tiếng Việt và tiếng Mường. Đưa ra đối sánh
ngữ âm của cặp ngôn ngữ Việt – Mường.

PHẦN 2: TỔNG HỢP GIỌNG NĨI CHO TIẾNG MƯỜNG TRONG TRƯỜNG HỢP
NGƠN NGỮ NÀY CĨ HỆ THỐNG CHỮ VIẾT
• Chương 3, có tiêu đề "Tạo TTS Mường dựa trên việc giả lập đầu vào của TTS
tiếng Việt", trình bày đề xuất để tổng hợp giọng nói tiếng Mường bằng cách
thích nghi các hệ thống tổng hợp tiếng nói tiếng Việt hiện có. Phương pháp này
có thể được áp dụng thử nghiệm để nhanh chóng tạo ra các hệ thống tổng hợp
tiếng nói cho các ngơn ngữ thiểu số dân tộc khác của Việt Nam.


Chương 4, có tiêu đề "Học chuyển giao giữa các ngơn ngữ cho tổng hợp giọng
nói tiếng Mường": Trong chương này, chúng tôi sử dụng và thử nghiệm các
phương pháp cho tổng hợp tiếng nói tiếng Mường sử dụng các tài nguyên tiếng
Việt. Chúng tôi tập trung vào học chuyển giao bằng cách tạo hệ thống tổng hợp
tiếng nói tiếng Việt, huấn luyện thêm với các tập dữ liệu khác nhau của tiếng

Mường và đánh giá kết quả tổng hợp tiếng nói tiếng Mường tương ứng.

PHẦN 3: TỔNG HỢP GIỌNG NÓI CHO TIẾNG MƯỜNG TRONG TRƯỜNG HỢP
TIẾNG MƯỜNG LÀ NGÔN NGỮ CHƯA CĨ HỆ THỐNG CHỮ VIẾT
• Chương 5, có tiêu đề "Tạo giọng nói cho ngơn ngữ có ít nguồn tài ngun khơng
có hệ thống chữ viết trực tiếp từ văn bản của ngôn ngữ giàu tài nguyên": Trong
chương này, chúng tơi trình bày phương pháp của chúng tơi để giải quyết các
thách thức tổng hợp tiếng nói cho ngơn ngữ có ít nguồn tài ngun khơng có hệ
thống chữ viết bằng cách tổng hợp giọng nói L2 trực tiếp từ văn bản L1. Hệ
thống được đề xuất được xây dựng bằng công nghệ mạng nơ-ron end-to-end cho
từ văn bản đến giọng nói. Chúng tơi sử dụng tiếng Việt như L1 và tiếng Mường
như L2 trong các thí nghiệm của mình.


Chương 6, có tiêu đề "Tổng hợp tiếng nói cho ngơn ngữ có ít nguồn tài ngun
khơng có hệ thống chữ viết sử dụng biểu diễn trung gian": Chương này đề xuất
sử dụng biểu diễn âm vị học do mối quan hệ gần gũi của nó với giọng nói trong
ngơn ngữ. Phương pháp được đề xuất được áp dụng cho cặp ngôn ngữ tiếng Việt
và tiếng Mường. Văn bản tiếng Việt được dịch sang biểu diễn âm vị học trung
gian của hai tiếng nói phương ngữ của tiếng Mường: Mường Bi - Hịa Bình và
Mường Tân Sơn - Phú Thọ. Đánh giá cho thấy chất lượng tổng hợp tiếng nói
tương đối cao cho cả hai phương ngữ.

PHẦN 1 : NỀN TẢNG VÀ CƠNG TRÌNH LIÊN QUAN
3


Chương 1. Tổng quan về TTS và TTS cho ngôn ngữ ít tài
ngun
Phần này cung cấp một cái nhìn tổng quan ngắn gọn về tổng hợp tiếng nói và ứng dụng của nó

trong các ngơn ngữ có ít nguồn tài nguyên. Nó nhấn mạnh các thách thức đối mặt khi phát triển
các hệ thống tổng hợp tiếng nói cho các ngôn ngữ với tài nguyên và dữ liệu hạn chế. Ngồi ra, nó
giới thiệu các phương pháp và kỹ thuật khác nhau để giải quyết những thách thức này và cải thiện
chất lượng tổng hợp tiếng nói cho các ngơn ngữ có ít nguồn tài ngun.

1.1. Tổng quan về tổng hợp tiếng nói
Các hệ thống tổng hợp tiếng nói chuyển đổi văn bản thành giọng nói có thể nghe được bằng
cách sử dụng các thuật toán tiên tiến và các kỹ thuật học máy, mô phỏng các đặc điểm của giọng
nói như âm sắc, ngữ điệu và ngữ intonation. Cơng nghệ tổng hợp tiếng nói đã phát triển đáng kể
theo thời gian, từ VODER của những năm 1950 đến các hệ thống tổng hợp tiếng nói dựa trên học
sâu và mạng nơ-ron end-to-end hiện nay. Ứng dụng của công nghệ tổng hợp tiếng nói rất rộng,
bao gồm cơng nghệ hỗ trợ, cơng cụ học tập, giải trí và trợ lý ảo.
Kiến trúc của hệ thống tổng hợp tiếng nói thường bao gồm các thành phần xử lý văn bản,
chuyển đổi từ chữ viết thành phát âm, mơ hình ngữ điệu và tổng hợp giọng nói. Xử lý văn bản là
rất quan trọng để chuyển đổi các yếu tố không chữ viết thành từ ngữ có thể phát ra giọng nói. Phân
tích âm vị và chuyển đổi từ chữ viết thành phát âm quyết định phát âm đúng của từng từ. Phân tích
ngữ điệu liên quan đến dự đốn nhịp độ, thời lượng, âm sắc và cường độ để tạo ra giọng nói tự
nhiên.
Các phương pháp tổng hợp giọng nói truyền thống bao gồm tổng hợp phối hợp và tổng hợp
nguồn/lọc, trong khi các kỹ thuật hiện đại bao gồm tổng hợp giọng nói thống kê và kỹ thuật lựa
chọn đơn vị. Sự xuất hiện của học sâu đã dẫn đến các hệ thống tổng hợp tiếng nói dùng mạng nơron bao gồm một mơ-đun phân tích văn bản, một mơ hình âm học và một bộ giải mã, cung cấp
các đầu ra giọng nói tự nhiên và dễ hiểu hơn.

1.2. TTS cho các ngơn ngữ ít tài ngun
Sự phát triển của các hệ thống tương tác cho các ngôn ngữ thiếu tài nguyên [23] đối mặt với
thách thức do nhu cầu về dữ liệu nhiều hơn và nghiên cứu tối thiểu trong lĩnh vực này. Các hội
thảo SLTU-CCURL và các cuộc họp SIGUL nhằm thu hút các nhà nghiên cứu làm việc về giọng
nói và xử lý ngơn ngữ tự nhiên (NLP) cho các ngôn ngữ này để trao đổi ý tưởng và kinh nghiệm.
Những sự kiện này thúc đẩy sự đổi mới và khuyến khích sự hợp tác giữa các ngành như khoa học
máy tính, ngơn ngữ học và nhân chủng học. Trọng tâm là thúc đẩy sự phát triển của các cơng nghệ

ngơn ngữ nói cho các ngơn ngữ thiếu tài nguyên, bao gồm các chủ đề như nhận dạng giọng nói,
tổng hợp văn bản thành giọng nói và hệ thống đối thoại. Bằng cách tụ hợp các nhà nghiên cứu học
thuật và công nghiệp, những hội thảo này giúp giải quyết các thách thức đối mặt trong xử lý ngơn
ngữ thiếu tài ngun.
Những thách thức chính cần giải quyết khi phát triển tổng hợp tiếng nói cho các ngôn ngữ thiếu
tài nguyên là a) tổng hợp giọng nói cho các ngơn ngữ có hệ thống chữ viết nhưng dữ liệu hạn chế;
b) tổng hợp giọng nói cho các ngơn ngữ khơng có hệ thống chữ viết, sử dụng văn bản hoặc giọng
nói đầu vào từ ngơn ngữ khác. Các hướng nghiên cứu chính, chẳng hạn như tiếp cận thích ứng và

4


đa ngôn ngữ, sẽ được thảo luận chi tiết trong các phần tiếp theo để giải quyết những thách thức
này.
1.2.1. TTS theo hướng tiếp cận giả lập
Phương pháp "giả lập" nhằm phát triển các hệ thống TTS cho các ngôn ngữ thiếu tài nguyên
bằng cách tận dụng các hệ thống TTS hiện có từ các ngơn ngữ có đầy đủ tài nguyên. Phương pháp
này tiết kiệm tài nguyên và cho phép phát triển nhanh hơn đồng thời thúc đẩy sự hợp tác giữa các
ngành khoa học. Phương pháp này đối mặt với thách thức về chất lượng giọng nói và khả năng
nghe rõ do sự không khớp giữa ngôn ngữ cơ sở và ngơn ngữ đích. Khả năng áp dụng của nó phụ
thuộc vào việc tìm ra một ngơn ngữ cơ sở phù hợp có đặc điểm âm vị hoặc ngơn ngữ học tương
tự với ngơn ngữ đích. Phương pháp này hữu ích trong các tình huống u cầu phát triển TTS nhanh
chóng hoặc làm bước đầu tiên trong việc tạo ra một hệ thống tinh chỉnh hơn. Các nhà nghiên cứu
như Evans et al. và Somers đã khám phá phương pháp này với kết quả đầy hứa hẹn. Họ đã phát
triển các phương pháp đánh giá độc đáo, chẳng hạn như MRT, để đánh giá độ rõ ràng và khả năng
sử dụng của giọng nói tổng hợp trong các mơi trường thiếu tài ngun. Các thiết kế thí nghiệm và
đánh giá giúp hiểu rõ hơn về các thách thức, cơ hội và hạn chế của phương pháp này. Mặc dù
phương pháp "giả lập" cho thấy tiềm năng, nhưng thành cơng của nó chủ yếu phụ thuộc vào việc
vượt qua các hạn chế tự nhiên của nó và chọn ngơn ngữ cơ sở phù hợp.
1.2.2. TTS theo hướng Polyglot

Polyglot TTS và multilingual TTS là những khái niệm liên quan, Polyglot TTS chỉ sử dụng một
mơ hình duy nhất xử lý cho nhiều ngơn ngữ cịn multilingual TTS dùng một hoặc nhiều mơ hình
với các ngơn ngữ khác nhau. Polyglot TTS là một phương pháp cụ thể trong multilingual TTS,
hiệu quả hơn về tài nguyên và có thể mở rộng. Các nhà nghiên cứu đã chứng minh tiềm năng của
Polyglot TTS trong việc tạo ra giọng nói trơn tru và tự nhiên, thậm chí trong các văn bản đa ngơn
ngữ. Cơng nghệ mạng nơ-ron đã cải thiện hơn nữa các hệ thống Polyglot TTS với các mơ hình
Polyglot NTTS dựa trên nhân bản giọng nói. Những hệ thống này mang lại các lợi ích như hiệu
quả tài nguyên, chuyển giao kiến thức và xử lý liền mạch văn bản đa ngôn ngữ. Tuy nhiên, chúng
đối mặt với thách thức trong việc tạo ra giọng nói tự nhiên cho các ngơn ngữ cụ thể và tối ưu hóa
thành phần tập dữ liệu. Mặc dù có những hạn chế này, Polyglot TTS rất phù hợp cho các ngơn ngữ
thiếu tài ngun, vì nó tận dụng cấu trúc và tham số chung. Các nghiên cứu về đặc điểm tập huấn
luyện và tiến bộ công nghệ mạng nơ-ron làm nổi bật tầm quan trọng của phương pháp này đối với
các ngôn ngữ thiếu tài nguyên. Nhìn chung, các hệ thống Polyglot TTS cho thấy tiềm năng lớn
trong việc giải quyết các thách thức tổng hợp văn bản đa ngơn ngữ, có thể cải thiện chất lượng và
hiệu quả của các hệ thống TTS cho các ngơn ngữ thiếu tài ngun.
1.2.3. TTS cho ngơn ngữ ít nguồn tài nguyên theo hướng thích nghi
Phương pháp thích nghi cho các hệ thống TTS tận dụng học chuyển giao ngơn ngữ để cải thiện
tổng hợp giọng nói cho các ngôn ngữ thiếu tài nguyên bằng cách sử dụng tài ngun và kiến thức
từ các ngơn ngữ có đủ tài nguyên. Phương pháp này cung cấp giọng nói tự nhiên hơn với dữ liệu
giới hạn bằng cách điều chỉnh các mơ hình TTS và thơng số hiện có cho ngơn ngữ đích thiếu tài
nguyên. Phương pháp thích nghi tăng khả năng mở rộng, hiệu quả của công nghệ tổng hợp giọng
nói. Bằng cách huấn luyện trước các mơ hình TTS trên các ngơn ngữ có nhiều tài ngun, các nhà
nghiên cứu có thể ánh xạ văn bản thành giọng nói trong các ngôn ngữ thiếu tài nguyên. Chen và
các cộng sự đã đề xuất một phương pháp để ánh xạ các embedding giữa các tập âm vị, làm giảm
khoảng cách giữa các ngôn ngữ. Phương pháp này chỉ yêu cầu một lượng nhỏ dữ liệu ghép nối,
chuyển giao kiến thức từ các ngơn ngữ có nhiều tài ngun và đủ linh hoạt để xử lý các ký hiệu
ngôn ngữ khác nhau. Ánh xạ tự động tương quan tốt với âm vị học và giảm việc can thiệp thủ
công. Tuy nhiên, phương pháp này phụ thuộc vào việc có dữ liệu ngơn ngữ có nhiều tài ngun
và u cầu giải quyết sự không khớp của không gian đầu vào. Phương pháp thích nghi rất lý tưởng
cho các hệ thống TTS đa ngôn ngữ, cung cấp nội dung đa ngôn ngữ và bảo tồn ngôn ngữ.


5


1.3. Tiểu kết chương
Chương này đã tóm tắt tiến trình chung trong lĩnh vực tổng hợp tiếng nói nói chung và tổng
hợp tiếng nói cho ngơn ngữ ít nguồn tài nguyên nói riêng. Nội dung tổng quan tập trung vào các
hướng giả lập và thích nghi áp dụng cho tổng hợp tiếng nói là trọng tâm của luận án. Các ứng dụng
của tổng hợp tiếng nói trong nhiều lĩnh vực khác nhau được thảo luận. Mặc dù đã có một số đột
phá trong nghiên cứu tổng hợp tiếng nói cho ngơn ngữ ít nguồn tài ngun, nhưng việc phát triển
ứng dụng vẫn cần phải cải thiện. Những thách thức bao gồm thiếu dữ liệu văn bản, thiếu dữ liệu
âm thanh và thiếu nghiên cứu ngữ âm. Do đó, cần có nhiều nghiên cứu hơn để cải thiện hiệu quả
của các hệ thống tổng hợp tiếng nói đối với ngơn ngữ ít nguồn tài nguyên.

Chương 2. Tiếng Việt và tiếng Mường
Ở Việt Nam, Mường là dân tộc có số dân đứng trong top 5 dân tộc thiểu số có số dân đơng nhất,
Mường nằm trong nhóm Vietic, gần gũi với tiếng Việt. Đã có một số cơng trình nghiên cứu về
ngữ âm tiếng Mường. Vì vậy chúng tơi chọn tạo ra hệ thống tổng hợp tiếng Mường thích nghi từ
hệ thống tổng hợp tiếng nói tiếng Việt. Để làm được điều này, luận án cần nghiên cứu chi tiết hơn
về ngữ âm Việt - Mường và đề xuất các phương pháp đối sánh âm vị, thanh điệu.

2.1. Nghiên cứu đối sánh ngơn ngữ Việt – Mường
Trong chương này đã trình bày chi tiết về ngữ âm tiếng Việt và ngữ âm tiếng Mường, từ đó đề
xuất nghiên cứu đối sánh ngữ âm tiếng Việt-Mường, được trình bày chi tiết trong Bảng 2.1.
Bảng 2.1. So sánh ngữ âm tiếng Mường và tiếng Việt (orthography in đậm, IPA in nghiêng;
Vi: Việt; Mu: Mường)
Trùng nhau
Gần nhau
Khác biệt
Mường

Việt
Mường
Việt Mường
Việt
Mường Việt
k, c /k/ k, c, q /k/
t /t/
t /t/
b /b/
b /ɓ/
hr /hr/
h /h/
h /h/
th /th/
th /th/
ch /c/
ch, tr
kl /kl/
/tɕ/
l /l/
l /l/
v /v/
v /v/
đ /d/
đ /ɗ/
p /p/
Phụ âm
m /m/
m /m/
w /w/

u, o
g /g/
g /ɣ/
r /r/
đầu
/w/
n /n/
n /n/
x /s/
x /s/
kh /kh/
kh /x/
tl /tl/
ng /ŋ/
ng, ngh
z /z/
d, gi
ph /ph/
ph /f/
/ŋ/
/z/
nh /ɲ/
nh /ɲ/
p /p/
p /p/
nh /ɲ/
nh /ɲ/
ch /c/
t /t/
t /t/

ng /ŋ/
ng /ŋ/
l /l/
Phụ âm
c /k/
c /k/
w /w/
o, u
cuối
/w/
m /m/
m /m/
i, y /j/
i, y /j/
n /n/
n /n/
aa, a /a/
a /a/
ôô, ô /o/
ô /o/
ă /ă/
ă /ă/
ơ /ɤ/
ơ /ɤ/
â /ɤ̆/
â /ɤ̆/
uu, u /u/
u /u/
e /ɛ/
e /ɛ/

ưư, ư
ư /ɯ/
Nguyên âm
/ɯ/
êê, ê/e/
ê /e/
iê /iə/
iê /iə/
i /i/
i /i/
uô /uə/ uô /uə/
oo, o
o /ɔ/
ươ /ɯɤ/
ươ
/ɔ/
/ɯə/
Âm đệm
w /w/
u, o /w/
Thanh điệu tiếng Mường
Thanh điệu tiếng Việt
6


Thanh
điệu

A1 – Level <Ngang>
A2 – Mid falling <Huyền>

C1 – Low falling < Hỏi >
B1 - Rising <Sắc>
B2 – Low glottalized <Nặng.>

33 - Level
42 - Falling
324 - Falling Rising
34 - High Rising
342? - Low Falling

2.2. Sự khác biệt giữa tiếng Việt và Mường Bi Hịa Bình và Mường
Tân Sơn Phú Thọ
Cấu trúc âm tiết tiếng Việt và tiếng Mường giống nhau đều có năm thành phần: âm đầu, âm
đệm, âm chính, âm cuối và thanh điệu. Trong đó, âm chính và thanh điệu giữ vai trị quan trọng
khơng thể vắng mặt trong âm tiết. Về hệ thống âm vị, giữa tiếng Việt, tiếng Mường Bi và Mường
Tân Sơn có nhiều âm vị tương đương và một số âm vị khác biệt.
Đối với âm đầu, có 18 phụ âm đầu ở hai phương ngữ Mường giống với phụ âm đầu tiếng Việt
là /b, m, t, d, th, n, s, z, l, c, ɲ, k, ŋ, ʔ, h, f, , /. Có hai phụ âm quặt lưỡi /, / có trong tiếng Việt
mà khơng có trong tiếng Mường. Có bốn phụ âm có trong tiếng Mường mà khơng có trong tiếng
Việt /p, w, tl (kl), r/. Có hai phụ âm giống tiếng Việt nhưng chỉ xuất hiện ở phương ngữ Mường
Tân Sơn mà khơng có trong Mường Bi /v, /.
Đối với âm đệm, âm đệm tiếng Mường có chức năng và vị trí giống với âm đệm tiếng Việt.
Đối với âm chính, tiếng Việt có 16 nguyên âm trong khi tiếng Mường chỉ có 14 ngun âm. Tiếng
Mường khơng có hai ngun âm ngắn /ɛ/ và /ɔ/ giống như trong tiếng Việt. Đối với âm cuối, tiếng
Việt có 8 âm cuối trong đó có 6 phụ âm /p, t, k, m, n, ng, nh/ và 2 bán nguyên âm /u, i/. Tiếng
Mường có 11 âm cuối có sự phân biệt 2 cặp âm cuối /k/ và /c/; // và // và âm cuối /l/. Đối với
thanh điệu, tiếng Việt có 6 thanh điệu cịn tiếng Mường có 5 thanh điệu, khơng có thanh ngã như
trong tiếng Việt.

2.3. Tiểu kết chương

Chương này đã trình bày nghiên cứu của luận án về ngữ âm tiếng Việt và ngữ âm tiếng Mường,
so sánh ngữ âm tiếng Việt - tiếng Mường. Báo cáo chi tiết đã được cơng bố trên cơng trình [2].
Một số cơng cụ hỗ trợ xây dựng tổng hợp tiếng nói cũng được thực hiện và chia sẻ lên GitHub.
Trên cơ sở nghiên cứu đối chiếu ngữ âm tiếng Mường và tiếng Việt, chúng tôi đề xuất nghiên
cứu xây dựng hệ thống tổng hợp ngơn ngữ tiếng Mường trên cơ sở thích nghi hệ thống tổng hợp
tiếng nói tiếng Việt. Thơng tin chi tiết sẽ được trình bày trong phần tiếp theo.
PHẦN 2: TỔNG HỢP TIẾNG NĨI CHO TIẾNG MƯỜNG – TRONG TRƯỜNG HỢP
NGƠN NGỮ CÓ CHỮ VIẾT

Chương 3. TTS Mường dựa trên giả lập đầu vào của TTS
tiếng Việt
3.1. Giới thiệu
Chúng tôi phân loại các ngơn ngữ ít nguồn tài ngun thành hai nhóm: ngơn ngữ có chữ viết
và ngơn ngữ chưa có chữ viết. Chúng tôi đã thử nghiệm phương pháp đơn giản nhất với TTS dành
cho các ngơn ngữ viết ít nguồn tài nguyên: “Emulating it”. Cách tiếp cận của chúng tôi để xây
dựng TTS cho người Mường theo ý tưởng do Evans, Polyzoaki và Blenkhorn đề xuất [40]. Ý
tưởng là sử dụng hệ thống TTS hiện có cho ngơn ngữ chính (Base Language - BL) để "mơ phỏng"
TTS cho ngơn ngữ không được hỗ trợ (Target Language - TL). Trong nghiên cứu đó, phương
pháp này đã được áp dụng để phát triển bộ tổng hợp giả cho tiếng Hy Lạp, tiếng Albania, tiếng
7


Séc, tiếng Wales và một số ngôn ngữ khác. Cách tiếp cận sử dụng module chuyển văn bản thành
âm vị dựa trên quy tắc đơn giản. Các âm vị được chuyển đến một hệ thống chuyển âm vị thành
tiếng nói hiện có cho một ngơn ngữ khác. Sự phù hợp giữa ngơn ngữ được tổng hợp và ngơn ngữ
đích ảnh hưởng đến tính dễ hiểu của tiếng nói.

3.2. Giả lập cho Mường TTS
Ý tưởng giả lập, một cách tiếp cận TTS dựa trên quan hệ ngữ âm giữa BL và TL. Công việc
xây dựng TTS ngôn ngữ giả lập cho ngơn ngữ chưa có chữ viết bao gồm các tác vụ sau:



Chọn BL gần với TL về mặt ngơn ngữ.



Đề xuất ánh xạ chính tả giữa BL và TL, dựa trên sự giống nhau về mặt ngữ âm giữa
2 ngôn ngữ.



Xây dựng TTS giả lập cho BL bằng cách áp dụng ánh xạ ngữ âm trên TTS có sẵn
của BL.

Bảng 1. Ví dụ áp dụng quy tắc chuyển đổi văn bản tiếng Mường thành văn bản đầu vào cho TTS tiếng Việt

Ho tang học bài
Ho phải za ty dộng bầy?

Faking text cho TTS tiếng
Việt
Ho tang học bài
Ho phải da ty dộng bầy?

Nhà za chiếm từ cúi chăng?

Nhà da chiếm từ cúi chăng?

Text Mường


Tiếng Anh
‘I'm studying’
‘I'm with you go out?’
‘Your house has many
pigs?’

Hình 3.1 cho thấy cấu trúc của hệ thống TTS giả lập tiếng Mường, bao gồm ba mơ-đun chính.

Hình 3.1. Faking TTS cho tiếng Mường

3.2.1. Muong G2P module

Figure 3.2 Muong G2P Module

Mô-đun chuyển đổi văn bản thành âm điệu (G2P) là một phần không thể thiếu trong hệ thống
tổng hợp giọng nói vì nó chuyển đổi văn bản chuẩn thành chuỗi âm vị hoặc âm điệu, tạo ra các
khối xây dựng cơ bản để tạo ra sóng âm thanh.

8


3.2.2. Module giả lập IPA
Sau khi có mơ-đun G2P tiếng Việt, tham khảo vPhone của James, chúng tôi tạo chuỗi âm vị IPA
tương ứng cho khoảng 7.000 từ tiếng Việt và xây dựng một từ điển Phoneme to Grapheme (P2G)
với khoảng 7.000 từ tiếng Việt, trong đó khóa là chuỗi âm vị IPA tiếng Việt.

3.3. Đánh giá
Để kiểm tra xem những người nghe tiếng Mường bản địa có hiểu tiếng nói Mường giả lập hay
khơng và họ đánh giá chất lượng của nó như thế nào, luận án tiến hành một bài đánh giá nghe.
Những người tham gia đánh giá sẽ là những người nói tiếng Mường bản ngữ và sẽ được yêu cầu

nghe tiếng Mường giả lập do hệ thống tổng hợp tiếng nói tạo ra và đánh giá chất lượng của nó.
3.3.1. Tài liệu thử nghiệm
Tài liệu thử nghiệm được thiết kế để kiểm tra các quy tắc chuyển đổi được đề xuất trong phần
trên. Dữ liệu thử nghiệm vì vậy được chia thành ba nhóm: Giả thanh điệu, Giả âm vị trùng nhau,
Giả âm vị gần tương đương.
3.3.2. Giao thức thử nghiệm
Người nghe sẽ nghe mỗi câu từ một đến ba lần. Sau khi nghe, người nghe được yêu cầu:
• (1) viết lại câu nghe được bằng tiếng Mường và nghĩa tiếng Việt. Điều đó sẽ được
sử dụng để tính tốn độ dễ hiểu;


(2) và cho điểm đánh giá chất lượng. Điểm được tính theo các thang điểm sau: 5 Rất tốt (giống giọng nói tự nhiên), 4 - Khá (khá tự nhiên), 3 - Trung bình (Chấp
nhận được), 2 - Kém (Khó nghe), 1 - Tệ (Khơng nghe được)..

3.3.3. Kết quả
Hình 3.3 thể hiện kết quả đánh giá độ dễ hiểu [42] của tiếng Mường tổng hợp trong nhóm 1.
Nhìn chung, cả hai hệ thống TTS đều có kết quả tốt trong bài đánh giá độ dễ hiểu.

9


The intelligibility score of emulating Viet - Muong tones.
92

100
90

90

80


Intelligibility score (%)

86

84
68

70

70

70 72
66

60

60
50
40
30
20
10
0
33 - Level (ca)

42 - Falling (mè)

34 - High Rising (ná) 324 - Falling Rising
(tẻ)


TTS 1 (Intel)

342? - Low Falling
(mệ)

TTS 2 (Intel)

Hình 3.3 Kết quả đánh giá độ thông hiểu cho thanh điệu mô phỏng tiếng Mường

MOS Test Result
5

4.23

4.21
3.76

4.17

4.25

3.8

MOS score

4

3


2

1

0
Emulate Tone

Emulate Closed Phonemes
TTS 1

Emulate Equivalent Phonemes

TTS 2

Hình 3.5 Kết quả đánh giá MOS

Trong Hình 3.5, điểm kiểm tra MOS của TTS1 với thanh điệu giả lập là 3,76, Âm vị giả lập là
3,8, Âm vị tương đương là 4,17. Những điểm số này cho thấy chất lượng giả lập của TTS1 được
đánh giá cao nhất ở tập âm vị trùng nhau, điều này cũng là hợp lý. Điểm MOS cho giả lập thanh
điệu là thấp nhất. Điều này cũng có nghĩa là giả lập thanh điệu tiếng Mường chỉ phù hợp với thanh
33 và 342. Với ba thanh điệu khác, mức độ giả lập thanh điệu chỉ ở mức tạm được.
Điểm kiểm tra MOS của TTS2 với giả thanh điệu là 4,21, giả lập âm vị là 4,23 và giả âm vị
tương đương là 4,25. Nhìn chung, điểm MOS của cả 2 TTS đều ở mức chấp nhận được. Điểm
MOS của TTS2 cao hơn một chút chứng tỏ công nghệ tổng hợp giọng nói qua HMM có điểm chất
lượng tốt hơn một chút so với TTS1 sử dụng công nghệ ghép nối. Các đánh giá ANOVA hai chiều

10


cũng đã được thực hiện và kiểm chứng được sự đúng đắn của các kết quả đánh giá theo tập tình

nguyện viên trên.

3.4. Tiểu kết chương
Nghiên cứu đánh giá hệ thống tổng hợp giả lập tiếng nói tiếng Mường Bi tỉnh Hịa Bình và cho
thấy hệ thống này khá dễ hiểu đối với người nghe, tuy nhiên trong một số trường hợp, giọng tổng
hợp có thể cần được cải thiện để trở nên chính xác hơn. Giọng nói giả lập này tương đồng với tiếng
Việt nhưng thiếu sự nhuần nhuyễn trong giọng nói của phương ngữ Mường. Nghiên cứu cũng cho
thấy phương pháp này có thể được áp dụng để tạo ra các hệ thống TTS cho các dân tộc thiểu số
khác trong tiếng Việt. Công việc được thực hiện trong chương 3 đã được báo cáo tại hội nghị FAIR
10. Các chương tiếp theo sẽ đi sâu hơn vào các phương pháp thích nghi TTS để khắc phục những
hạn chế mà phương pháp giả lập gặp phải.

Chương 4. Cross-lingual transfer learning cho tổng hợp
tiếng nói tiếng Mường
4.1. Giới thiệu
Mục tiêu chính của phần nghiên cứu này trong luận án là đánh giá tính hiệu quả của việc áp
dụng và tối ưu hóa kỹ thuật học chuyển giao trong xây dựng hệ thống tổng hợp tiếng nói cho ngơn
ngữ Mường, với tập trung đặc biệt vào phương ngữ Hịa Bình. Như đã thảo luận ở phần 1.2.3, việc
học chuyển giao đã chứng minh được tiềm năng để thích nghi với các lĩnh vực mới.

4.2. Phương pháp đề xuất
Đầu tiên, chúng ta sẽ huấn luyện một mơ hình Tacotron 2 trên dữ liệu tiếng Việt, được gọi là
mơ hình được huấn luyện trước. Sau đó, mơ hình Tacotron 2 sẽ được điều chỉnh lại trên dữ liệu
ngôn ngữ Mường. Trong quá trình điều chỉnh lại, tất cả các trọng số mơ hình sẽ được cập nhật với
một tốc độ học thấp hơn so với khi huấn luyện trên dữ liệu tiếng Việt, giảm từ 1e-3 xuống còn 1e04.
Các biểu diễn âm vị học của tiếng Việt và tiếng Mường tương đối giống nhau, chỉ khác nhau ở
một số âm vị, và biểu diễn đầu vào cho mơ hình Tacotron 2 được sử dụng trong nghiên cứu này là
biểu diễn âm vị, kết hợp bằng Bảng phiên âm Quốc tế (IPA) của cả hai ngôn ngữ. Nghiên cứu
cũng sử dụng bộ giải mã âm thanh Hifigan thay vì mơ hình Wavenet được sử dụng trong bài báo
gốc của Tacotron 2, vì nó yêu cầu ít thời gian và tài nguyên hơn để huấn luyện và tổng hợp âm

thanh. Mơ hình tổng hợp giọng nói được sử dụng trong nghiên cứu tương tự như mơ hình Tacotron
2 về kiến trúc và các tham số, chỉ khác nhau ở biểu diễn đầu vào và bộ giải mã âm thanh.

11


Hình 4.1 TTS của ngơn ngữ ít tài ngun L2 transfer learning từ L1

4.3. Thực nghiệm
4.3.1. Các tập dữ liệu
4.3.1.1. Dữ liệu tiếng Việt
Trước tiên, liên quan đến dữ liệu huấn luyện cho mơ hình được huấn luyện trước, chúng tơi đã
sử dụng khoảng 20 giờ dữ liệu sách nói tiếng Việt được đánh nhãn, được thu thập từ các trang web
mở khác nhau. Dữ liệu âm thanh được thu thập từ trang NgheAudio2, và dữ liệu văn bản tương
ứng được thu thập từ trang dtruyen3. Dữ liệu gốc không được chia thành các phân đoạn nhỏ (từ 1
giây đến dưới 15 giây) với văn bản tương ứng mà được tổng hợp thành các tệp âm thanh dài (trung
bình khoảng một giờ) cho mỗi chương của câu truyện.
4.3.1.2. Dữ liệu tiếng Mường
Cơ sở dữ liệu âm thanh tiếng Mường được ghi âm sau khi xây dựng cơ sở dữ liệu văn bản tiếng
Việt trong lĩnh vực tin tức. Văn bản tiếng Việt được thu thập từ các nguồn tin tức Việt Nam chung
và các nguồn tin tức địa phương của người Mường để đảm bảo phân bố âm vị và từ vựng cân
bằng. Một tập hợp 20.000 câu được trích xuất từ bộ sưu tập gốc 4,9 triệu câu bằng thuật tốn trích
xuất ngẫu nhiên, cân bằng phân bố âm vị và âm tiết. Dữ liệu văn bản tiếng Việt đã được chuẩn hóa
bằng bộ cơng cụ chuẩn hóa tiếng Việt. Bốn người bản ngữ tiếng Mường, hai nam và hai nữ, từ hai
phương ngữ được chọn để ghi âm cơ sở dữ liệu. Giọng nói nam của hai phương ngữ được sử dụng
để huấn luyện hệ thống, và dữ liệu giọng nói đã được xử lý để chuẩn hóa năng lượng, loại bỏ nhiễu
và sửa các lỗi gặp phải trong quá trình ghi âm. Dữ liệu văn bản tiếng Việt cũng được tiền xử lý để
thu được biểu diễn phù hợp của câu dưới dạng chuỗi các từ tiếng Việt. Kết quả là dữ liệu giọng
nói tương ứng với hơn 1800 phút tín hiệu âm thanh sau khi qua xử lý.


2
3

/> />12


4.3.1.3. Dữ liệu tiếng Mường sử dụng để hiệu chỉnh
Trong tập dữ liệu tiếng Mường của dự án Mường, dữ liệu tiếng Mường được ghi âm bởi Bùi
Việt Cường, một phát thanh viên của Đài phát thanh Hịa Bình, được lựa chọn để thực hiện việc
học chuyển giao. Chi tiết về tập dữ liệu ghi âm được mô tả trong bảng dưới đây:
Bảng 4.3 Dữ liệu ghi âm tiếng Mường với giọng nam Bùi Việt Cường

Mường Bi – Hoa Binh
(CauBaoMuong)
Thời lượng
Số câu
Số âm tiết
Số âm vị
Số âm tiết khác biệt
Số âm vị khác biệt
Tên người đọc
Giới tính

4 giờ 24 phút 30 giây
1932
62954
307491
2934
44
Bùi Việt Cường

Nam

Để nghiên cứu mối quan hệ giữa lượng dữ liệu huấn luyện và chất lượng của đầu ra giọng nói
được tổng hợp, chúng tơi đã chia tập dữ liệu ghi âm chất lượng cao thành các tập huấn luyện nhỏ
hơn cho mục đích hiệu chỉnh mơ hình TTS. Chi tiết các tập huấn luyện nhỏ hơn được mô tả trong
bảng dưới đây:
Table 4.4 Dữ liệu tiếng Mường dùng để hiệu chỉnh mô hình TTS

Số âm tiết
Số âm vị
Số âm tiết khác biệt
Số âm vị khác biệt
Số câu
Thời lượng (phút)

M_15m
3581
17559
1004
39
116
15

M_30m
7171
35123
1333
39
229
30


M_60m
14458
70477
1753
39
454
60

Các bài tập huấn luyện được chia thành các tập sao cho đạt được phủ âm vị tối đa và các câu
được lấy ngẫu nhiên. Nhìn vào bảng trên, chúng ta có thể thấy tổng số âm vị tăng dần qua các tập
M_15M, M_30M và M_60M, tương ứng với các tập dữ liệu với độ dài 15 phút, 30 phút và 60
phút.
4.3.2. Bộ chuyển đổi G2P
Để chuyển đổi văn bản viết tiếng Việt hoặc tiếng Mường thành chuỗi âm vị IPA, chúng tôi sử
dụng cùng phương pháp ánh xạ ký tự thành âm vị kết hợp với các quy tắc ánh xạ được trình bày
trong chương 3 Mơ phỏng hệ thống TTS cho tiếng Mường dựa trên việc chuyển đổi đầu vào của
hệ thống TTS tiếng Việt.
4.3.3. Huấn luyện mơ hình TTS sử dụng ngơn ngữ tiếng Việt
Chúng tơi đã sử dụng khoảng 20 giờ dữ liệu sách nói tiếng Việt để huấn luyện mơ hình âm học,
mơ hình học cách chuyển đổi đầu vào âm vị thành các đặc trưng Mel spectrogram. Thuật tốn tối
ưu hóa mạng nơ-ron cho Mơ hình Âm học mà chúng tơi sử dụng là thuật tốn tối ưu hóa Adam.
Tổng số bước huấn luyện là 100.000 bước và mơ hình hội tụ sau khoảng 50.000 bước.
Tiếp theo, chúng tôi đã huấn luyện mô hình Vocoder trên dữ liệu tiếng Việt bằng cách sử dụng
một mơ hình tiếng Anh được huấn luyện trước. Mơ hình được huấn luyện trước này được huấn
luyện trên tập dữ liệu LJSPEECH tiếng Anh, bao gồm khoảng 24 giờ dữ liệu âm thanh, với 2,5

13



triệu bước huấn luyện. Tổng số bước huấn luyện là 100.000 bước và mơ hình hội tụ sau khoảng
20.000 bước.
4.3.4. Tinh chỉnh mơ hình TTS trên ngơn ngữ tiếng Mường
Sau khi có được mơ hình tacotron 2 được huấn luyện trước trên dữ liệu tiếng việt, mơ hình ngữ
âm học, chúng tơi đã thực hiện hiệu chỉnh mơ hình đó trên ba tập dữ liệu tiếng Mường khác nhau
từ tỉnh Hịa Bình với thời lượng khác nhau: M_15m, M_30m, M_60m, như đã mô tả trong phần
4.3.1 Các tập dữ liệu.
Đối với mơ hình ngữ âm học, chúng tơi sử dụng tốc độ học là 1e-04, và đối với mơ hình vocoder,
tốc độ học là 2e-04. Q trình huấn luyện mơ hình Hifigan vocoder trên tiếng Mường tương tự
như trên tiếng Việt, cả hai đều sử dụng ngôn ngữ tiếng Anh được huấn luyện trước và chỉ khác
nhau trong ngôn ngữ được sử dụng hiệu chỉnh.

4.4. Đánh giá
Với mục đích kiểm tra hiệu quả của mơ hình khi điều chỉnh các mơ hình được huấn luyện trước
trên các tập dữ liệu tiếng Mường khác nhau về thời lượng, chúng tôi sử dụng 50 câu kiểm tra trong
lĩnh vực và 50 câu kiểm tra ngồi lĩnh vực. Một nhóm 50 người bản ngữ tiếng Mường Hịa Bình,
cân bằng về giới tính với 25 nam và 25 nữ, tham gia đánh giá Mean Opinion Score (MOS). Các
thính giả có độ tuổi trung bình là 23,33 và một nửa trong số họ có bằng đại học trong khi những
người cịn lại có bằng tốt nghiệp trung học. Quá trình đánh giá yêu cầu mỗi thính giả nghe 20 câu,
gồm hai bộ 10 câu mỗi bộ. Bộ đầu tiên bao gồm các chủ đề trong lĩnh vực như tin tức và các vấn
đề hiện tại, trong khi bộ thứ hai bao gồm các câu ngoài lĩnh vực phản ánh các kịch bản giao tiếp
hàng ngày. Cả hai bộ đều được lựa chọn ngẫu nhiên từ một nguồn 50 câu kiểm tra để đảm bảo đa
dạng ngữ nghĩa.
Đối với đánh giá định lượng, chúng tôi sử dụng điểm MCD DTW (Mel Cepstral Distortion với
Dynamic Time Warping), đo lường sự khác biệt giữa hai chuỗi Mel cepstra. Điểm số càng nhỏ,
chất lượng của giọng nói tổng hợp càng tốt. Mặc dù đây không phải là một chỉ số hồn hảo để
đánh giá chất lượng giọng nói tổng hợp, nhưng nó có thể hữu ích khi kết hợp với các đo lường
khác. Điểm MCD DTW được tính giữa tệp âm thanh tổng hợp và tệp âm thanh gốc và điểm số
cuối cùng được tính trung bình trên 50 cặp cho mỗi bộ.
Các điểm số MOS, trong bảng 4.9 dưới đây, cho thấy sự cải thiện đáng kể về chất lượng chủ

quan của giọng nói tổng hợp với độ dài huấn luyện tăng từ 15 phút đến 30 phút, và sau đó là 60
phút. Tuy nhiên, vẫn cịn khoảng cách đáng kể giữa các mơ hình và giọng nói tự nhiên, cho thấy
còn nhiều khoảng trống để cải tiến.
Bảng 4.9 Kết quả đánh giá

Ground Truth
M_15m
M_30m
M_60m

Đánh giá trong lĩnh vực
MOS
MCD (DTW)
4.36 ± 0.21
0.0
3.09 ± 0.45
6.875 ± 0.127
3.27 ± 0.30
5.622 ± 0.214
3.63 ± 0.36
5.133 ± 0.091

14

Đánh giá ngoài lĩnh vực
MOS
MCD (DTW)
4.31 ± 0.22
0.0
2.88 ± 0.45

7.125 ± 0.235
3.08 ± 0.44
6.890 ± 0.161
3.35 ± 0.36
6.521 ± 0.143


4.5. Phân tích điểm MOS bằng ANOVA
Bảng 4.10 Các kết quả ANOVA cho đánh giá MOS trong lĩnh vực tin tức

ANOVAs
ANOVA5

ANOVA6

Tác nhân
TTS_System
Subject
TTS_System * Subject
TTS_System
Sentences
TTS_System * Sentences

df
3
49
49
1
49
49


f
116.321
1.292
0.789
122.822
0.842
0.935

p
0.000
0.086
0.968
0.000
0.773
0.694

η2
0.162
0.034
0.061
0.170
0.022
0.070

ANOVA5: Tác nhân TTS_System có ảnh hưởng đáng kể đến kết quả, tác nhân Subject khơng
có ảnh hưởng đáng kể, và khơng có sự tương tác giữa TTS_System và Subject.
ANOVA6: Tác nhân TTS_System có ảnh hưởng đáng kể đến kết quả, tác nhân Sentences
khơng có ảnh hưởng đáng kể, và khơng có sự tương tác giữa TTS_System và Sentences.
Tóm lại, kết quả của cả hai phân tích cho thấy tác nhân TTS_System là yếu tố quan trọng ảnh

hưởng đến kết quả, trong khi các yếu tố khác như Subject và Sentences khơng có ảnh hưởng đáng
kể đến kết quả. Dưới đây là kết quả của ANOVA7 và ANOVA8 cho thử nghiệm đánh giá điểm
MOS ngoài lĩnh vực (các câu giao tiếp hằng ngày) có kết quả tương tự, như được thể hiện trong
Bảng 4.11.
Bảng 4.11 Các kết quả ANOVA cho đánh giá MOS ngoài lĩnh vực tin tức

ANOVAs
ANOVA7

ANOVA8

Tác nhân
TTS_System
Subject
TTS_System * Subject
TTS_System
Sentences
TTS_System * Sentences

df
3
49
49
1
49
49

f
121.343
0.975

1.029
135.433
1.334
1.079

p
0.000
0.523
0.394
0.000
0.062
0.254

η2
0.168
0.026
0.077
0.184
0.035
0.080

4.6. Tiểu kết chương
Transfer learning là một kỹ thuật mạnh mẽ để phát triển hệ thống TTS cho các ngôn ngữ thiếu
tài nguyên. Các mơ hình được tiền huấn luyện như Tacotron 2 và WaveNet có thể được tinh chỉnh
trên một tập dữ liệu nhỏ để tạo ra giọng nói chất lượng cao, ngay cả đối với các ngôn ngữ thiếu tài
nguyên như tiếng Mường. Việc lựa chọn kỹ thuật kiến trúc mô hình, tập dữ liệu huấn luyện và
chiến lược tinh chỉnh cẩn thận là rất quan trọng để đạt được kết quả tối ưu.
PHẦN 3 : TỔNG HỢP TIẾNG NÓI CHO TIẾNG MƯỜNG TRONG TRƯỜNG HỢP
TIẾNG MƯỜNG KHƠNG CĨ CHỮ VIẾT


Chương 5. Tạo tiếng nói của ngơn ngữ ít tài ngun chưa có
chữ viết trực tiếp từ văn bản của ngơn ngữ giàu tài
nguyên
5.1. Giới thiệu
Chương 3 và 4 đã trình bày một số phương pháp tổng hợp tiếng nói cho ngơn ngữ có chữ viết
ít nguồn tài ngun. Vấn đề xây dựng hệ thống tổng hợp tiếng nói cho các ngơn ngữ ít nguồn tài
ngun có khả thi khơng? Ý tưởng là chúng ta có thể sử dụng văn bản của ngơn ngữ có nguồn tài
ngun phong phú để thay thế cho văn bản của ngơn ngữ ít nguồn tài nguyên chưa được viết. Do
15


đó, hệ thống tổng hợp tiếng nói của ngơn ngữ bất thành văn ít nguồn tài nguyên sẽ trở thành một
vấn đề trong việc dịch trực tiếp văn bản của ngơn ngữ L1 sang tiếng nói của ngơn ngữ L2. Ngồi
việc nghiên cứu và phát triển cơng nghệ học sâu, đề xuất điều chỉnh và kết hợp công nghệ dịch
văn bản và cơng nghệ xử lý tiếng nói phi văn bản mà không cần biểu diễn trung gian để giải quyết
vấn đề dịch trực tiếp. Tổng hợp tiếng nói cho vấn đề này cũng là một đề xuất sáng tạo của luận án.
Để xây dựng một hệ thống tổng hợp tiếng nói xun ngữ tiếng Mường, một số cơng trình liên
quan đã được nghiên cứu. Phần này cũng sẽ trình bày chi tiết hướng đi của công nghệ tổng hợp
tiếng nói xun ngơn ngữ, với ý tưởng ứng dụng cơng nghệ tổng hợp tiếng nói vào bài tốn dịch
văn bản Việt-Mường.

5.2. Phương pháp đề xuất và thử nghiệm
Trên cơ sở nghiên cứu về dịch máy nơ-ron, tổng hợp tiếng nói dựa trên mạng nơ-ron đã trình
bày ở các phần trước, với mục đích khơng cần sử dụng biểu diễn trung gian (dưới dạng chữ viết
của ngơn ngữ đích), hướng nghiên cứu hiện nay là có thể đề xuất là phát triển một hệ thống dịch
tiếng nói dựa trên mơ hình tổng hợp tiếng nói sử dụng mạng nơ-ron, trong đó đầu vào là văn bản
của ngôn ngữ nguồn (tiếng Việt) và đầu ra là tín hiệu tiếng nói của ngơn ngữ đích (khơng có chữ
viết, ít nguồn tài ngun), ngơn ngữ đích.
Trong phương pháp này, chúng ta hình dung hệ thống dịch hoàn toàn giống như hệ thống tổng
hợp tiếng nói của một ngơn ngữ, trong đó đầu vào là văn bản và đầu ra là tiếng nói. Tuy nhiên,

thay vì văn bản và giọng nói của cùng một ngơn ngữ, dữ liệu đầu vào là văn bản tiếng Việt trong
quá trình huấn luyện và đầu ra là tệp giọng nói bằng một ngơn ngữ ít nguồn tài ngun.
5.2.1. Xây dựng CSDL
Các mơ hình đề xuất được huấn luyện trên các cặp văn bản song ngữ tiếng Việt và âm thanh
tiếng Mường theo hai phương ngữ tương ứng. Các chi tiết tương tự như được mô tả trong chương
4.

5.3. Huấn luyện mơ hình và đánh giá
5.3.1. Huấn luyện hệ thống tổng hợp tiếng nói
Để xây dựng hệ thống dịch văn bản tiếng Việt – tiếng Mường, hai mơ hình mạng Tacotron2 và
WaveGlow đã được huấn luyện. Các bước huấn luyện của mạng Tacotron2 và WaveGlow đã sử
dụng cài đặt tham số mặc định của mạng ban đầu. Tập dữ liệu huấn luyện gồm 5.000 cặp từ song
ngữ Việt-Mường của một câu. Tất cả các mơ hình đều được huấn luyện trên GPU, NVIDIA GTX
2080Ti, với kích thước lơ là 16. Mơ hình âm thanh được hội tụ sau 100 nghìn bước, trong khi bộ
phát âm được hội tụ sau 100 nghìn bước.
5.3.2. Đánh giá hệ thống tổng hợp tiếng nói
Để đánh giá hệ thống tổng hợp tiếng nói, chúng tơi sử dụng các tiêu chí là đánh giá định lượng
và định tính. Về đánh giá định tính, điểm số MOS và Intelligibility được sử dụng làm cơ sở để
kiểm tra chất lượng mơ hình. Bộ test của chúng tơi gồm 50 câu trong domain và 50 câu ngồi
domain.
Tiêu chí của hệ thống được xác định là giá trị trung bình cộng của kết quả đánh giá cho tất cả
các câu, tất cả các lần đánh giá và tất cả những người tham gia. Kết quả của quá trình đánh giá
được tóm tắt trong Bảng 5.1.

16


Bảng 5.1 Đánh giá TTS với tập in-domain

Tiêu chí đánh giá

Chất lượng
dịch
Chất lượng
tiếng nói

Ground
Truth MB

Muong
Bi

Fluency (0-5)

4.37 ± 0.22

Adequacy (0-5)

4.40 ± 0.19

Naturalness on the
MOS scale (0-5)
MCD (DTW)

4.36 ± 0.23

3.71 ±
0.36
3.77 ±
0.36
3.69 ±

0.41
4.73±
0.21

0

Ground
Truth
MTS
4.44 ±
0.25
4.43 ±
0.2
4.15 ±
0.24
0

Muong
Tan
Son
3.90 ±
0.25
3.95 ±
0.26
3.90 ±
0.25
4.71±
0.26

Bảng 5.2 Đánh giá TTS với tập out-domain


Tiêu chí đánh giá
Chất lượng
dịch
Chất lượng
tiếng nói

Ground
Truth MB

Muong
Bi

Fluency (0-5)

4.37 ± 0.08

Adequacy (0-5)

4.60 ± 0.08

Naturalness on the
MOS scale (0-5)
MCD (DTW)

4.31 ± 0.22

3.46 ±
0.36
3.40 ±

0.35
3.40 ±
0.37
6.56 ±
0.31

0

Ground
Truth
MTS
4.35 ±
0.060
4.41 ±
0.060
4.36 ±
0.11
0

Muong
Tan
Son
3.73 ±
0.31
3.77 ±
0.32
3.79 ±
0.30
5.25 ±
0.27


Kết quả đánh giá cho thấy hệ thống thử nghiệm tổng hợp tiếng nói tiếng Mường qua dùng text
của tiếng Việt có thể đạt được kết quả khá cao cả về chất lượng bản dịch và chất lượng tiếng nói
tổng hợp. Các thí nghiệm ANOVA 2 chiều cũng đã được thực hiện chi tiết để kiểm chứng được
sự đúng đắn của các kết quả trên.

5.4. Tiểu kết chương
Chương này trình bày cách tiếp cận của chúng tơi khi giải quyết vấn đề tổng hợp tiếng nói cho
ngơn ngữ khơng có chữ viết - ít nguồn tài nguyên bằng cách tổng hợp tiếng nói L2 trực tiếp từ văn
bản L1. Chúng tôi sử dụng tiếng Việt là L1 và tiếng Mường là L2 trong thử nghiệm. Hệ thống đề
xuất được xây dựng bằng công nghệ mạng nơ-ron chuyển văn bản thành tiếng nói end-to-end.
Trong q trình huấn luyện, thay vì nhập văn bản và giọng nói cùng một ngôn ngữ, dữ liệu đầu
vào bao gồm văn bản tiếng Việt và giọng nói của ngơn ngữ dân tộc thiểu số. Kho ngữ liệu song
ngữ gồm 5 nghìn cặp chữ Việt và tiếng Mường ở hai phương ngữ Mường Bi-Hịa Bình và Mường
Tân Sơn-Phú Thọ đã được xây dựng. Kết quả đánh giá chủ quan của người dân tại hai vùng trong
và ngoài domain cho thấy, hệ thống tổng hợp tiếng nói tiếng Mường từ text tiếng Việt sang tiếng
nói tiếng Mường có chất lượng dịch tự động tốt, chất lượng tiếng nói đầu ra được đánh giá cao.
Kết quả rất hứa hẹn, đặc biệt đối với các cặp ngơn ngữ họ gần. Do đó, cơng việc trong tương
lai sẽ tiếp tục thử nghiệm một hệ thống dịch tự động từ văn bản của một ngôn ngữ nguồn sang
tiếng nói của một ngơn ngữ thiểu số mục tiêu khác. Ví dụ, một số ngơn ngữ họ gần có thể được
chọn để thử nghiệm: Tày-Nùng, Việt-Thổ, Mnông-Stieng, v.v. Kết quả của chương này đã được
cơng bố trên tạp chí [1].

17


Chương 6. Tổng hợp tiếng nói cho ngơn ngữ ít nguồn tài
ngun chưa có chữ viết thơng qua biểu diễn trung gian
6.1. Giới thiệu
Chúng tôi gọi ngôn ngữ giàu tài ngun là L1, ngơn ngữ ít nguồn tài ngun chưa có chữ biết

là L2. Với bài tốn TTS cho ngơn ngữ L2, do L2 khơng có chữ viết nên chúng ta có thể xây dựng
hệ thống tổng hợp tiếng nói L2 bằng cách tạo một biểu diễn cấp độ âm vị trung gian của L2. Để
có được biểu diễn trung gian của cấp độ âm vị của L2, chúng ta có thể sử dụng bài tốn dịch máy
để tự động dịch văn bản L1 thành biểu diễn trung gian của cấp độ âm vị của L2. Bản chất của vấn
đề là giải quyết vấn đề dịch máy tự động trong đó đầu vào và đầu ra của hệ thống khơng khớp về
định dạng: đầu vào là văn bản L1 (ngôn ngữ nguồn) - đầu ra là tiếng nói L2 (ngơn ngữ đích). Các
bước giải bài tốn theo hướng này được mơ tả trong Hình 6.1. Một đại diện trung gian được sử
dụng thay cho văn bản của một ngôn ngữ chưa có chữ viết. Từ đó, hệ thống tổng hợp tiếng nói L2
sẽ bao gồm hai mơ-đun: dịch văn bản tự động từ văn bản L1 thành dạng biểu diễn trung gian và
tổng hợp giọng nói từ dạng biểu diễn trung gian của ngơn ngữ L2 thành giọng nói L2.

Hình 6.1 TTS từ L1 Text chuyển thành tiếng nói L2 sử dụng biểu diễn trung gian

Đề xuất sử dụng một biểu diễn trung gian của cấp độ âm vị trong xử lý tiếng nói của ngơn ngữ
khơng phải chữ viết đã được đề xuất trong một số nghiên cứu áp dụng cho cơng nghệ nhận dạng
tiếng nói, tổng hợp tiếng nói và dịch văn bản thành văn bản. Đối với ngơn ngữ chưa có chữ viết,
bài tốn nhận dạng tiếng nói chỉ dừng lại ở việc nhận dạng chuỗi âm vị trong tiếng nói đầu vào.
Các kỹ thuật đề xuất chủ yếu được điều chỉnh cho phù hợp với bảng âm vị của một hoặc nhiều
ngôn ngữ đã biết [155], [156]. Tuy nhiên, đề xuất này chỉ giới hạn trong nhận dạng giọng nói liên
tục; đầu ra của hệ thống nhận dạng vẫn là các chuỗi âm vị. Do đó, hầu hết các đề xuất cho cách
biểu diễn trung gian này đều dựa trên các âm vị của các ngôn ngữ chưa có chữ viết.

6.2. Phương pháp đề xuất
Dựa trên nghiên cứu xung quanh cách biểu diễn âm vị cho tiếng nói của một ngơn ngữ chưa có
chữ viết, có thể xây dựng hệ thống tổng hợp tiếng nói L1-L2 bằng cách sử dụng cách biểu diễn âm
vị trung gian, như trong Hình 6.2 và Hình 6.3.
Từ cơ sở dữ liệu song ngữ văn bản L1 - giọng nói L2, dữ liệu tiếng nói L2 được phiên âm thành
chuỗi âm vị bằng bộ nhận dạng âm vị tự động. Sau khi sao chép dữ liệu tiếng nói L2, cơ sở dữ liệu
song ngữ của văn bản L1 – biểu diễn âm vị L2 được sử dụng để huấn luyện các mơ hình của hệ
thống dịch văn bản (mơ hình dịch thuật, mơ hình ngơn ngữ). Cơ sở dữ liệu biểu diễn âm vị L2 và

tiếng nói tương ứng cũng được sử dụng để huấn luyện các mơ hình của hệ thống tổng hợp tiếng
nói (mơ hình âm thanh, mơ hình thời lượng). Hệ thống tổng hợp tiếng nói chuyển văn bản thành
giọng nói cuối cùng được kết hợp từ hai hệ thống này bằng cách sử dụng biểu diễn trình tự âm vị
L2 trung gian.
Đối với cặp ngôn ngữ Việt (L1) - Mường (L2), do chưa có mơ hình nhận dạng âm vị cho tiếng
Mường nên một mơ hình nhận dạng âm vị mới đã được huấn luyện từ một số lượng nhỏ tiếng nói
được chú thích thủ cơng. Với các công nghệ và dữ liệu hiện tại, việc sử dụng bộ nhận dạng âm vị
tự động để phiên âm các tệp âm thanh của ngơn ngữ khơng có chữ viết là một phương pháp máy
học. Tuy nhiên, độ chính xác của nó hồn tồn khơng thể đạt được. Vì vậy, đầu ra của chuỗi âm
vị vẫn cần được các nhà ngôn ngữ học hiệu chỉnh để cơ sở dữ liệu chuyển ngữ có độ chính xác
cao nhất. Việc sử dụng các bộ nhận dạng âm vị tự động có thể coi là một bước tiền xử lý cho các
nhà ngơn ngữ học trong q trình phiên âm, giúp giảm thiểu thời gian và công sức của họ.

18


Hình 6.2 Pha huấn luyện TTS L1 text to L2 speech system

Hình 6.3 Pha giải mã TTS L1 text to L2 speech system

6.3. Thử nghiệm
Đối với thực nghiệm, các nhiệm vụ chính sau đây đã được thực hiện:
• Xây dựng dữ liệu song ngữ Văn bản tiếng Việt và tiếng Mường hai phương ngữ;


Xây dựng SMT của văn bản tiếng Việt thành biểu diễn âm vị học tiếng Mường;



Xây dựng hệ thống tổng hợp tiếng nói tiếng Mường sử dụng chuỗi phoneme Mường

(Model training là Tacotron 2)

Để xây dựng cơ sở dữ liệu song ngữ bao gồm văn bản tiếng Việt và tiếng Mường, quy trình
thực hiện theo ba bước dưới đây. Văn bản và số liệu Mường Tân Sơn và Mường Bi được chuẩn
bị như ở chương 4, chương 5.
Phiên âm tự động: Đầu tiên là xây dựng mô hình nhận dạng âm vị cho từng phương ngữ
Mường. 5000 cặp câu của văn bản tiếng Việt và tiếng Mường được chọn ngẫu nhiên cho từng
phương ngữ, phần tiếng Mường được nhà ngôn ngữ học phiên âm thủ công theo bộ âm vị đề xuất.
Đối với mỗi bài phát biểu, có bốn cấp độ ghi nhãn dữ liệu. Bậc 1 là câu tiếng Việt, bậc 2 là từ tiếng
19


Việt, bậc 3 là thanh điệu tiếng Mường, bậc 4 là điện thoại Mường tương ứng với giọng nói tiếng
Mường. Mơ hình nhận dạng âm vị được xây dựng cho 5000 cặp biểu diễn âm vị và tiếng Mường
này bằng bộ cơng cụ Kaldi. Mơ hình nhận dạng âm vị được áp dụng cho phần còn lại của 15.000
tiếng Mường. Cuối cùng, các nhà ngôn ngữ học tiếng Mường đã thực hiện chỉnh sửa hậu kỳ để
sửa các âm vị sai theo tiếng nói đã nghe và bộ âm vị đề xuất. Sau bước này, kho ngữ liệu song ngữ
gồm 20.000 văn bản tiếng Việt và trình tự biểu diễn âm vị tương ứng trong từng phương ngữ
Mường đã được xây dựng và sẵn sàng cho bước huấn luyện.

6.4. Đánh giá
Để đánh giá hệ thống tổng hợp tiếng nói, chúng tơi sử dụng các tiêu chí là đánh giá định lượng
và định tính. Về đánh giá định tính, điểm MOS được dùng làm cơ sở để kiểm định chất lượng mơ
hình. Bộ test của chúng tơi gồm 50 câu trong domain và 50 câu ngoài domain.
Người tham gia sẽ đánh giá bốn tiêu chí theo cảm nhận chủ quan của mình. Điểm tiêu chí cuối
cùng cho hệ thống được xác định là giá trị trung bình của các kết quả đánh giá cho tất cả các câu,
tất cả các phiên điều trần và tất cả những người tham gia. Kết quả của q trình đánh giá được tóm
tắt trong Bảng 6.3 và Bảng 6.4.
Bảng 6.3 Đánh giá TTS tập in-domain


Tiêu chí đánh giá
Chất lượng
dịch
Chất lượng
tiếng nói

Ground
Truth MB

Muong
Bi

Fluency (0-5)

4.37 ± 0.22

Adequacy (0-5)

4.40 ± 0.19

Naturalness on the
MOS scale (0-5)
MCD (DTW)

4.36 ± 0.23

3,83 ±
0.33
4,02 ±
0.24

3,83 ±
0.33
4.45±
0.21

0

Ground
Truth
MTS
4.44 ±
0.25
4.43 ±
0.2
4.15 ±
0.24
0

Muong
Tan
Son
4,29 ±
0.21
4,25 ±
0.02
4,05 ±
0.23
3.97±
0.33


Bảng 6.4 Đánh giá TTS với tập out-domain

Tiêu chí đánh giá
Chất lượng
dịch
Chất lượng
tiếng nói

Ground
Truth MB

Muong
Bi

Fluency (0-5)

4.37 ± 0.08

Adequacy (0-5)

4.60 ± 0.08

Naturalness on the
MOS scale (0-5)
MCD (DTW)

4.31 ± 0.22

3.86 ±
0.33

3.86 ±
0.30
3.71 ±
0.35
5.23±
0.22

0

Ground
Truth
MTS
4.35 ±
0.06
4.41 ±
0.06
4.36 ±
0.11
0

Muong
Tan
Son
4.04 ±
0.22
4.04 ±
0.22
4.02 ±
0.21
4.50 ±

0.23

Điểm trôi chảy 3,83 cho tiếng Mường Bi và 4,29 cho tiếng Mường Tân Sơn cho thấy các câu
đầu ra có mức độ trơi chảy cao, gần như tương đương với mức độ trôi chảy của tiếng Mường. Mức
độ phù hợp là 4,02 đối với Mường Bi và 4,25 đối với Mường Tân Sơn cũng cho thấy các câu dịch
chứa hầu hết nội dung câu gốc tiếng Việt, rất ít thơng tin bị mất. Cả hai kết quả đều chứng tỏ chất
lượng của hệ thống dịch tự động từ văn bản tiếng Việt sang tiếng Mường được đánh giá cao.
Đối với chất lượng giọng nói tiếng Mường tổng hợp, điểm MOS của Mường Bi và Mường Tân
Sơn lần lượt là 3,83 và 4,05. Điểm số cao cho thấy giọng nói đầu ra gần như tự nhiên như giọng
nói của con người. Cả hai tiêu chí đều cho thấy tiếng nói tiếng Mường có chất lượng tốt. Nó cũng
giúp đánh giá bộ âm vị đề xuất có thể tốt cho hai phương ngữ Mường này.
20


Một điều đáng mừng ở đây là tất cả các điểm đánh giá của Mường Tân Sơn đều cao hơn của
Mường Bi. Điều này có thể giải thích là Mường Tân Sơn gần với tiếng Việt hơn Mường Bi (ví dụ
về mặt từ vựng). Kết quả đánh giá cho thấy hệ thống tổng hợp tiếng nói tiếng Mường có thể đạt
được kết quả cao cả về chất lượng bản dịch và chất lượng tổng hợp tiếng nói.

6.5. Tiểu kết chương
Chương này trình bày cách tiếp cận của chúng tơi khi giải bài tốn tổng hợp tiếng nói cho ngơn
ngữ khơng có chữ viết ít nguồn tài ngun bằng cách sử dụng biểu diễn trung gian. Văn bản của
một ngôn ngữ (L1) có thể được dịch thành tiếng nói của một ngơn ngữ chưa có chữ viết (L2) bằng
cách sử dụng chuỗi âm vị của L2 làm biểu diễn trung gian thay vì văn bản của nó. Một thử nghiệm
dịch văn bản tiếng Việt sang tiếng Mường bằng hai phương ngữ đã được tiến hành. Một bộ âm vị
cho mỗi tiếng Mường đã được đề xuất và áp dụng vào bài tốn. Kết quả đánh giá chủ quan của
tình nguyện viên tại 2 phương ngữ Mường cho thấy hệ thống dịch tự động từ văn bản tiếng Việt
sang tiếng Mường có chất lượng dịch tốt, chất lượng tiếng nói đầu ra được đánh giá cao.
Kết quả của chương này rất đáng khích lệ, đặc biệt là đối với các cặp ngơn ngữ khơng có quan
hệ gần gũi, bởi vì việc sử dụng mơ-đun SMT có thể giúp học bản dịch ngay cả giữa các cặp ngôn

ngữ ở xa. Công việc trong tương lai có thể là áp dụng phương pháp dịch tự động từ văn bản tiếng
Việt sang các ngôn ngữ chưa có chữ viết khác trong tiếng Việt. Kết quả của chương này đã được
cơng bố trên tạp chí [3].

KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO
Kết luận
Tổng hợp tiếng nói là quy trình cơng nghệ tạo ra tiếng nói từ một đầu vào. Luận án chi tiết này
nghiên cứu về việc phát triển các hệ thống tổng hợp văn bản thành giọng nói (TTS) cho các ngơn
ngữ ít nguồn tài nguyên, tận dụng nguồn tài nguyên từ các ngôn ngữ khác và đề xuất cách tiếp cận
chung cho sự phát triển của hệ thống tổng hợp tiếng nói tiếng Mường.
Luận án đã nghiên cứu tiếng Việt, tiếng Mường và mối quan hệ ngữ âm giữa cặp ngôn ngữ
Mường - Việt. Tiếng Mường là ngơn ngữ chưa có chữ viết chính thức nên việc nghiên cứu tổng
hợp tiếng nói về tiếng Mường là một nỗ lực cao của nhóm tác giả. Ngồi ra, nhóm tác giả cũng đã
tạo ra một số công cụ hỗ trợ tạo từ điển, G2P, VI XSAMPA để hỗ trợ lập trình trong hệ thống tổng
hợp tiếng nói nói chung và cụ thể là Merlin Tool.
Hai đóng góp chính được giới thiệu trong luận án này:
• Đóng góp 1: Đề xuất và thử nghiệm thành cơng một phương pháp mới trong việc
tổng hợp tiếng nói cho những ngơn ngữ khơng có hệ thống chữ viết, với trường hợp
ứng dụng cụ thể là tiếng Mường.


Đóng góp 2: Nghiên cứu và thực nghiệm phương pháp tổng hợp tiếng nói thích nghi
cho ngơn ngữ ít nguồn tài ngun có hệ thống chữ viết ứng dụng cho tiếng Mường
Bi, tỉnh Hịa Bình.

Kết quả đạt được sẽ góp phần bảo tồn và phát huy ngơn ngữ, văn hóa các dân tộc thiểu số ở
Việt Nam.
Hướng nghiên cứu tiếp theo
Mục tiêu chính của chúng tôi là nâng cao việc ứng dụng công nghệ tổng hợp giọng nói, cụ thể
là đối với các ngơn ngữ có ít nguồn tài ngun như tiếng Mường, cũng như mở rộng ảnh hưởng

của nó đến các ngơn ngữ thiểu số khác tại Việt Nam. Trong quá trình tiếp tục nghiên cứu luận án,
chúng tôi dự định mở rộng theo nhiều hướng, tận dụng các thành công và hiểu biết thu được từ
trước đến nay. Các điểm trọng tâm của nghiên cứu sắp tới của tơi bao gồm:
• Phát triển ứng dụng thân thiện với người dùng: Mục tiêu cốt lõi là đảm bảo công nghệ tạo ra
là dễ tiếp cận, trực quan và dễ dàng điều hướng cho người dùng đích - cộng đồng Mường. Nhận
ra rằng yếu tố quan trọng trong việc áp dụng công nghệ là trải nghiệm của người dùng, nghiên cứu
21


của tôi sẽ tập trung vào việc phát triển các ứng dụng di động phù hợp với nhu cầu và sở thích của
người dân Mường. Những ứng dụng này sẽ được thiết kế với giao diện thân thiện với người dùng,
cho phép tương tác dễ dàng với hệ thống tổng hợp giọng nói. Hơn cả việc đảm bảo khả năng tiếp
cận của người dùng, các ứng dụng sẽ được xây dựng để phù hợp với các nhu cầu độc đáo của cộng
đồng. Điều này có thể bao gồm các cài đặt ưu tiên ngơn ngữ, tính năng tiếp cận, và hệ thống hướng
dẫn người dùng. Mục tiêu cuối cùng là có những ứng dụng này trên các thiết bị thường được sử
dụng, như điện thoại thơng minh và máy tính bảng, để khuyến khích sự tiếp nhận và sử dụng rộng
rãi trong cộng đồng
• Thử nghiệm với các ngơn ngữ thiểu số khác: Dựa trên thành công của hệ thống tổng hợp
giọng nói tiếng Mường, nghiên cứu của tơi cũng sẽ mở rộng ứng dụng công nghệ này đối với các
ngôn ngữ của các dân tộc thiểu số khác tại Việt Nam. Sự mở rộng này nhằm thúc đẩy đa dạng
ngôn ngữ và bao trùm trong lĩnh vực tổng hợp giọng nói. Để đạt được điều này, tơi dự định thực
hiện các nghiên cứu ngơn ngữ học tồn diện về những ngôn ngữ này, làm nổi bật các đặc điểm
độc đáo của chúng và xác định các biến thể có thể có. Cơng việc chuẩn bị này sẽ cung cấp dữ liệu
cần thiết để thích ứng và áp dụng hệ thống tổng hợp giọng nói một cách hiệu quả. Kết quả là, lợi
ích của cơng nghệ tổng hợp giọng nói sẽ được mở rộng đến nhiều cộng đồng hơn, từ đó thúc đẩy
việc bảo tồn và phát huy những ngơn ngữ thiểu số này.
• Nghiên cứu các mơ hình tiên tiến: Trong nỗ lực không ngừng cải tiến và đổi mới, tơi dự định
khám phá các mơ hình tiên tiến trong tổng hợp giọng nói. Các mơ hình hiện tại như Transformers,
Variational Inference with adversarial learning for end-to-end Text-to-Speech (VITS), và Zeroshot Text-to-Speech (TTS) đã cho thấy tiềm năng to lớn trong việc cải thiện chất lượng của giọng
nói tổng hợp. Những mơ hình này đã thể hiện hiệu suất xuất sắc trong việc xử lý dữ liệu ngôn ngữ

đa dạng và phức tạp, làm cho chúng đặc biệt phù hợp với các ngơn ngữ có ít nguồn tài ngun. Do
đó, nghiên cứu tương lai của tơi sẽ tìm hiểu việc thích ứng các mơ hình tiên tiến này đối với ngữ
cảnh của tiếng Mường và có thể đối với các ngôn ngữ thiểu số khác tại Việt Nam. Mong muốn là
việc tích hợp những mơ hình tiên tiến này sẽ cải thiện đáng kể độ chính xác và tự nhiên của giọng
nói tổng hợp, từ đó cải thiện trải nghiệm người dùng và hiệu quả của hệ thống.
Những hướng nghiên cứu tương lai này phù hợp với cam kết của tơi khơng chỉ góp phần vào
lĩnh vực tổng hợp giọng nói cho các ngơn ngữ có ít nguồn tài ngun mà cịn đảm bảo lợi ích thực
tế của cơng nghệ này dễ tiếp cận và hữu ích cho cộng đồng người dùng. Hy vọng của tôi là thông
qua nghiên cứu liên tục này, chúng ta có thể tạo ra một hệ thống tổng hợp giọng nói bao trùm, hiệu
quả và thân thiện với người dùng, làm nổi bật và bảo tồn sự đa dạng ngôn ngữ phong phú tại Việt
Nam.

22


DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN

1. Van-Dong Pham, Do Thi Ngoc Diep, Mac Dang Khoa,
Nguyen Viet Son, Nguyen Van Thinh, Nguyen Tien Thanh,
Tran Do Dat, “How to generate Muong speech directly from
Vietnamese text: Cross-lingual speech synthesis for close
language pair”, Journal of Military Science and Technology
(JMST), Technol., no. 81, Art. no. 81, Aug. 2022, doi:
10.54939/1859-1043.j.mst.81.2022.138-147.
2. Van-Dong Pham, Mac Dang Khoa, Do Thi Ngoc Diep,
Nguyen Tien Thanh , Tran Do Dat , Vu Thi Hai Ha , Dang
Thanh Mai “Computational linguistic material for
Vietnamese speech processing: Applying in Vietnamese
text-to-speech”, Int. Jounal Adv. Res. Comput. Sci., vol. 13,
no. 6, pp. 49–54, Dec. 2022.

3. Van-Dong Pham, Do Thi Ngoc Diep, Mac Dang Khoa, Vu
Thi Hai Ha, “Speech translation for Unwritten language
using intermediate representation: Experiment for VietMuong language pair”, Journal of Military Science and
Technology (JMST), no. CSCE6, pp. 65–76, 2022.
4. Van-Dong Pham, Mac Dang Khoa, Vu Thi Hai Ha, and
Tran Do Dat, “Rapid development of text to speech system
for unsupported languages using emulating input approach:
Experiment with Muong”, Kỷ yếu Hội Nghị Quốc Gia Lần
Thứ 10 Về Nghiên Cứu Cơ Bản Và Ứng Dụng Công Nghệ
Thông Tin FAIR, vol. 10, pp. 807–815, Aug. 2017.
5. Tran Thi Thu Thuy, Do Thi Ngoc Diep, Mac Dang Khoa,
Van-Dong Pham, “Cross-Lingual phoneme recognition for


×