Tải bản đầy đủ (.pdf) (23 trang)

Điện tử viễn thông TT v l0 00819 khotailieu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (303.21 KB, 23 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hoàng Tiểu Bình

ÁP DỤNG PHƯƠNG PHÁP PSOLA TRONG
TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT

Ngành: Công nghệ thông tin
Mã số: 1.01.1

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2006


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

1

Lời nói đầu
Từ thời tiền sử đến nay, truyền thông tiếng nói vẫn là phương
thức nổi trội nhất của xã hội loài người trong việc trao đổi thông tin.
Các từ ngữ vẫn ngày càng được mở rộng thông qua các phương tiện
mang tính công nghệ như điện thoại, phim ảnh, truyền thanh, truyền
hình và Internet. Ngày nay tiếng nói, được hỗ trợ bởi các phương
thức tự nhiên khác sẽ là một trong những phương tiện chính để giao
tiếp với máy tính. Một hệ thống tiếng nói cần phải có khả năng nhận
dạng và tổng hợp câu chữ. Một trong những mục tiêu quan trọng
nhất của tổng hợp tiếng nói là làm sao tiếng nói tổng hợp được phải
đạt đến độ tự nhiên tối đa, đồng thời để có thể áp dụng được vào


nhiều lĩnh vực trong cuộc sống, nó phải có một khả năng linh hoạt,
tuỳ biến theo nhiều tham số khác nhau.
Hiện trên thế giới đã có khá nhiều thuật toán được áp dụng
nhằm thoả mãn các yêu cầu này, một trong số đó là phương pháp
PSOLA. Trong luận văn này, tôi đã sử dụng phương pháp này để áp
dụng cho tiếng Việt dựa trên những đặc thù riêng về mặt ngữ âm.
Qua thực nghiệm kết quả thu được là khá khả quan.
Cấu trúc luận văn bao gồm 7 chương được trình bày cụ thể
như sau:
Chương 1: Tổng quan về tiếng nói
Chương 2: Số hoá tiếng nói
Chương 3: Các phương pháp tổng hợp tiếng nói
Chương 4: Ngữ âm tiếng Việt
Chương 5: Xây dựng cơ sở dữ liệu âm
Chương 6: Áp dụng phương pháp PSOLA trong việc tổng hợp
tiếng nói.
Chương 7: Cài đặt chương trình

Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

2

CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI
1.1 Lịch sử phát triển
Năm 1797 Christian Kratzenstein của trường đại học St.
Petersburg đã xây dựng một mô hình có dạng vòm họng người có thể
tạo ra 5 nguyên âm (a, e, i, o và u). Sau đó nó được nó được

Wolfgang von Kempelen ở Vienna, Austria phát triển thêm và gọi là
Máy tạo tiếng nói dựa trên cơ chế âm học. Hệ thống tổng hợp tiếng
nói dựa trên máy tính đầu tiên được xây dựng vào những năm 50 của
thế kỷ trước và hệ thống text-to-speech đầu tiên được hoàn thành vào
năm 1968.
Tổng hợp tiếng nói là một vấn đề khoa học nhận dạng liên
quan đến nhiều lĩnh vực khoa học khác nhau như ngôn ngữ học, tâm
lý học, toán học, xử lý tín hiệu số và khoa học máy tính. Hiện nay tại
Việt Nam, đã có nhiều cơ quan, viện nghiên cứu, các trường đại học
đã có những nghiên cứu và bước đầu đã đem lại một số kết quả khả
quan trong vấn đề tổng hợp tiếng Việt.
1.2 Âm và cơ chế phát âm
Âm là sóng áp lực theo chiều dọc được hình thành do việc nén
và giãn các phần tử không khí theo hướng song song với nguồn năng
lượng phát.

Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

3

Cường độ âm là năng lượng được sóng âm truyền trong một
đơn vị thời gian qua một đơn vị diện tích đặt vuông góc với phương
truyền âm.
Mức cường độ âm (Sound Pressure Level) là giá trị tuyệt đối
của cường độ âm theo dB và được đo bằng:
SPL(dB) = 20log10(P/P0)
Một đặc trưng của tín hiệu tiếng nói là độ dư thừa rất lớn, đây

là điều kiện cần thiết để tiếng nói có thể truyền đi trong môi trường
có nhiều tác động vào độ dư thừa này cho phép não có thể hiểu được
câu nói dễ dàng hơn.
1.3 Các đặc trưng sinh học của âm
Tiếng nói được tạo bởi các sóng áp lực không khí xuất phát từ
mồm hoặc mũi của người nói. Người ta chia âm vị thành hai lớp:
+ phụ âm: tạo thành khi luồng không khí từ phổi đi ra bị cản
trở ở một điểm nào đó.
+ nguyên âm: ngược lại với phụ âm, nguyên âm thường được
tạo thành khi luồng không khí thoát ra ngoài một cách tự do.
1.4 Các tham số âm
Độ cao: Âm thanh phát ra bao giờ cũng ở một độ cao nhất
định. Mức độ cao thấp của âm phụ thuộc vào sự chấn động nhanh
hay chậm của các phần tử không khí trong một thời gian nhất định.
Độ mạnh: Độ mạnh hay cường độ của âm do biên độ giao
động quyết định. Biên độ dao động càng lớn âm phát ra càng mạnh.
Độ dài: Độ dài hay trường độ của âm phụ thuộc vào sự chấn
động lâu hay chóng của các phần tử không khí.
Âm sắc: Âm sắc là bản sắc, là sắc thái riêng biệt của một âm.
Cùng một nốt nhạc nhưng âm thanh của các loại đàn khác nhau sẽ có
những sắc thái khác nhau.

Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

4

Tiếng động và tiếng thanh: Các phân tử không khí dao động

có chu kỳ sẽ tạo ra tiếng thanh, ngược lại nếu dao động không điều
hoà sẽ tạo ra tiếng động.
1.5 Một số khái niệm ngữ âm
Âm tố: (sound element) âm tố là đơn vị nhỏ nhất của âm thanh
lời nói, được dùng để cấu tạo nên mọi đơn vị ngôn ngữ khác.
Âm vị: (phoneme) là đơn vị tối thiểu của hệ thống ngữ âm của
một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn
vị có nghĩa của ngôn ngữ.
Biến thể của âm vị: là những âm tố cùng thể một âm vị. Các
biến thể được phân chia làm hai loại: các biến thể kết hợp và các
biến thể tự do.
Âm tiết: (syllabable) là khúc đoạn âm thanh từ một chuỗi lời
nói của con người.
Ngữ điệu: (intonation) là sự chuyển động của thanh cơ bản
của giọng nói, là sự nâng cao hoặc hạ thấp giọng nói trong câu.
Trọng âm: (accent) là sự nên bật một trong những âm tiết của
từ bằng những phương tiện ngữ điệu nhất định, được thực hiện bằng
cách tăng cường trường độ của nguyên âm.
Thanh điệu: (tone) là sự nâng cao hay hạ thấp giọng nói trong
một âm tiết có tác dụng cấu tạo và khu biệt vỏ âm thanh của từ hoặc
hình vị (tiếng).
CHƯƠNG 2. XỬ LÝ TÍN HIỆU SỐ
2.1 Số hoá tín hiệu
Để xử lý tín hiệu tiếng nói, người ta biểu diễn chúng như là
một hàm liên tục theo thời gian, xét một hàm xa(t) là một hàm liên
tục theo thời gian, nếu chúng ta lấy mẫu tín hiệu x với chu kỳ lấy

Đại học Công nghệ - Đại học Quốc gia Hà Nội



Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

5

mẫu là T (ví dụ t = n.T), ta có một tín hiệu rời rạc theo thời gian x[n]
= xa(nT), ta gọi là tín hiệu số.
Để biểu diễn tín hiệu số, người ta dùng một công thức dạng
sóng hay còn gọi là tín hiệu hình sin:
x0[n] = A0cos(ϖ0n + φ0)
Với A0 là biên độ sóng, ϖ0 là tần số góc và φ0 là pha. Độ đo
góc của hàm lượng giác này được tính bằng radian, do đó tần số góc

ϖ0 tương ứng với tần số chuẩn f0 và ϖ0 = 2πf0 (0 ≤ f0 ≤ 1). Tín hiệu
này là tuần hoàn với chu kỳ T0 = 1/f0.

Hình 2.1 Tín hiệu tương tự và tín hiệu số
2.2 Xác định tần số lấy mẫu tín hiệu tiếng nói
Định lý Shannon: Một tín hiệu tương tự x(t) có dải phổ hữu
hạn với giới hạn trên là Fmax(Hz) (tức là phổ bằng 0 khi f nằm ngoài
dải [-Fmax,Fmax]). Ta sẽ chỉ có thể khôi phục lại xa(t) một cách chính
xác từ các mẫu x(n.Ts) nếu như:
Fs > 2Fmax hay Ts < 1/2Fmax
2.3 Biểu diễn tín hiệu số
Vấn đề trọng tâm là việc phân tách tín hiệu tiếng nói thông qua
một bộ lọc biến đổi tuyến tính theo thời gian. Bộ lọc này được tạo ra
từ các mô hình tạo tiếng nói dựa trên lý thuyết ngữ âm học, nó tạo ra
các nguồn không khí thông qua dây thanh âm, và bộ lọc biểu diễn âm
thanh như là các cơ quan phát âm.
Đại học Công nghệ - Đại học Quốc gia Hà Nội



Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt
e[n]

6
x[n]

h[n]

Hình 2.3 Mô hình bộ lọc nguồn
Việc phân loại âm vị (bằng tay hay bằng máy) đều phụ thuộc
vào các đặc trưng của bộ lọc. Thông thường người ta bỏ qua nguồn
và chỉ tập trung vào đánh giá bộ lọc.
2.4 Biến đổi Fourier rời rạc (DFT)
Biến đổi Fourier rời rạc của một tín hiệu tuần hoàn xN [n] với
chu kỳ N được định nghĩa như sau:
N −1

X N [k ] = ∑ xN [n]e − j 2πnk / N

0≤k
(2.1)

1 N −1
X N [k ]e j 2πnk / N

N k =0

0 ≤n< N


(2.2)

n=0

xN [n] =

Trong lĩnh vực xử lý số tín hiệu biến đổi Fourier chiếm vị trí
hàng đầu nhờ sự tồn tại các thuật toán hiệu quả tính DFT.
2.5 Các hàm cửa sổ
Các hàm cửa sổ là các tín hiệu tập trung trong một khoảng thời
gian (thông thường là hữu hạn).
Cửa sổ chữ nhật được định nghĩa đơn giản như sau:
(2.4)
hx[n] = u[n] – u[n-N]
Cửa sổ Hamming tổng quát hóa được định nghĩa như sau:
(1 − α ) − α cos(2πn / N )
hh [n ] = 
0


nÕu 0 ≤ n < N
ng−îc l¹i

Và có thể biểu diễn biểu biểu thức này qua 2.4 như sau:
hh[n] = (1-α)hπ[n] - αhπ[n]cos(2πn/N)
Biến đổi của nó sẽ là:
Hh(ejω) = (1-α)Hπ[ejω] – (α/2)Hπ(ej(ω-2π/N)) – (α/2)Hπ(ej(ω+2π/N))
Đại học Công nghệ - Đại học Quốc gia Hà Nội



Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

7

Khi α = 0.5 người ta gọi là cửa sổ Hanning, còn khi α = 0.46
gọi là cửa sổ Hamming.
CHƯƠNG 3: CÁC HỆ THỐNG TỔNG HỢP TIẾNG NÓI
3.1 Tổng quan về tổng hợp tiếng nói
Tổng hợp tiếng nói là quá trình tạo ra âm thanh tiếng nói có
thể hiểu được từ tập các ký tự bất kỳ. Hiện trên thế giới có 4 phương
pháp tiếp cận trong tổng hợp tiếng nói:
+ Tổng hợp dạng sóng có miền giới hạn
+ Tổng hợp ghép nối không biến đổi dạng sóng
+ Tổng hợp ghép nối có biến đổi dạng sóng
+ Các hệ thống tổng hợp dựa theo luật
Văn
bản
đầu vào

Hệ TTS
Phân tích văn bản
Phát hiện cấu trúc tài liệu
Chuẩn hoá văn bản
Phân tích ngữ nghĩa

Văn bản hậu xử
Phân tích ngữ âm
Chuyển đổi từ vị sang âm vị


Tiếng nói thô
Phân tích âm điệu
Biến đổi cao độ và trường độ

Các điều khiển
Tổng hợp tiếng nói
Biến đổi tiếng nói

Hình 3.1 Kiến trúc cơ bản của một hệ TTS
Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

8

Để đánh giá chất lượng của một hệ TTS ta xem xét các yếu tố
sau:
+ Độ trễ.
+ Tài nguyên bộ nhớ.
+ Tốc độ tiếng nói.
+ Điều khiển cao độ.
+ Đặc trưng giọng nói.
3.2 Các phương pháp tổng hợp tiếng nói.
3.2.1 Tổng hợp theo cấu âm
Tổng hợp theo cấu âm sử dụng mô hình mô phỏng sinh học.
Trong mô hình này tiếng nói được đặc trưng không chỉ bằng tín hiệu
âm thanh mà cả bằng vị trí của các cơ quan cấu âm, sự tham gia của
khoang mũi, áp suất không khí trong phổi, lực căng của dây thanh.
Phương pháp này còn được gọi là tổng hợp theo mô hình hệ thống.

3.2.2 Tổng hợp Formant theo quy luật
Phương pháp tổng hợp formant có thể được phân làm hai quá
trình:
+ Quá trình phân tích âm thanh tiếng nói để tìm ra các quy luật
+ Tổng hợp tiếng nói dựa vào bộ quy luật đã tìm được
Quá trình phân ích được tiến hành trên CSDL tiếng nói tự
nhiên, chủ yếu bao gồm các âm tiết có dạng C-V (phụ âm-nguyên
âm) hay C-V-C (phụ âm-nguyên âm-phụ âm) của nhiều giọng nói.
Hệ thống quy luật gồm có:
+ Luật để xác định vị trí đích của các formant của mỗi âm vị
trong một ngữ lưu cũng như thời gian tồn tại của các vị trí đó.
+ Luật để làm trơn các formant đích.
+ Luật để chuyển đổi các hàm thời gian thành dạng sóng âm
thanh.

Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

9
Âm vị và ngôn điệu

Tham số
tiếng nói

Tiếng nói

Ngữ âm


Phân tích

Luật tao
tiếng nói

Hợp luật

Phân tích

Xử lí tín hiệu

Tổng hợp tín hiệu

Tiếng nói
Hình 3.2 Qui trình tổng hợp tiếng nói theo qui luật
Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều
khiển từ bảng tra cứu và cùng với các thuật toán được xây dựng cho
sự chuyển tiếp là các tín hiệu điều khiển bộ tổng hợp để tạo ra các
âm đoạn tính.
3.2.3 Tổng hợp xích chuỗi
Khi tổng hợp một phát ngôn mới, cho trước mô tả ngữ âm của
phát ngôn đó, hệ thống sử dụng các quy luật để định vị đơn vị thích
hợp, truy xuất chúng ra khỏi kho dữ liệu và xích chuỗi chúng lại với
nhau.

Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt


10
Văn bản

Phân
Tạo âm thanh
tiếng nói

Thông tin
phân đoạn

Phân âm

Tạo danh sách
âm đoạn

CSDL
Âm đoạn
Phân tích tín hiệu
CSDL tham số
đoạn tính

Tổng hợp

Mã hoá

Xử lí ngữ điệu
CSDL đơn vị
tổng họp

Giải mã

Xích chuỗi

Tổng hợp

Tiếng nói
Hình 3.4 Mô hình qui trình tổng hợp tiếng nói theo xích chuỗi

Thông thường một hệ thống tổng hợp xích chuỗi có ít nhất
một hoặc hai mẫu cho mỗi một đơn vị cơ bản. Do các tham số và cao
độ tần số cơ bản, độ dài và cường độ của các đơn vị này rất khác
nhau cho nên khi tổng hợp, hệ thống tổng hợp xích chuỗi phải thực
hiện hai công việc.
- Thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng
nói tổng hợp thể hiện được ngữ điệu thích hợp.

Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

11

- Lựa chọn hay thay đổi các đặc tính của âm đoạn đơn vị tại
các biên ghép nối của chúng sao cho việc ghép nối là mịn nhất để
bảo đảm chất lượng âm thanh tổng hợp gần với tiếng nói tự nhiên.
Như vậy chất lượng của một hệ thống TTS sử dụng phương
pháp tổng hợp xích chuỗi được quyết định bởi các yếu tố sau:
- Sự lựa chọn tập âm vị cơ bản
- Chất lượng âm thanh và mức độ bao phủ các tổ hợp âm đoạn.
- Khả năng cung cấp các tham số về ngữ điệu như đường nét

tần số cơ bản, cường độ âm thanh và độ dài các âm cho bộ tổng hợp.
- Khả năng thay đổi tần số cơ bản.
-Khả năng làm trơn hai điểm ghép nối của các âm đoạn được
xích chuỗi.
Ngoài ra phương pháp tổng hợp xích chuỗi sử dụng mã tiên
đoán tuyến tính LPC cũng được sử dụng khá phổ biến.
3.3 Các ứng dụng của tổng hợp tiếng nói


Các dịch vụ viễn thông



Giáo dục ngôn ngữ



Hỗ trợ người khuyết tật



Sách điện tử và đồ chơi biết nói

• Đa phương tiện, giao tiếp người-máy
3.4 Lựa chọn phương pháp tổng hợp Tiếng Việt
Qua việc tìm hiểu các phương pháp tổng hợp tiếng nói, ta rút
ra một số nhận xét sau:
+ Tổng hợp theo cấu âm: Khả năng mô phỏng của phương
pháp này rất tốt tuy nhiên điểm chúng ta chưa thể tham số hoá được
tất cả các cơ quan phát âm của con người.

+ Tổng hợp Formant theo quy luật: Gọn nhẹ và khá linh
hoạt, có thể tạo ra được tiếng nói tương đối chuẩn với một số tham
số hạn chế, nhưng vẫn chưa được tự nhiên.
Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

12

+ Tổng hợp xích chuỗi: Cho phép ghép nối các đơn vị âm
được lưu giữ trực tiếp dưới dạng sóng của tiếng nói tự nhiên, âm
thanh không bị mã hoá nên rất trung thực, giảm được quá trình mã
hoá và giải mã, cho phép tổng hợp thời gian thực. Đây là phương
pháp được chọn để tổng hợp tiếng nói tiếng Việt.
CHƯƠNG 4: NGỮ ÂM TIẾNG VIỆT
4.1 Tổng quan về ngữ âm tiếng Việt
Tiếng Việt thuộc loại đơn âm, bao gồm nguyên âm V (vowel
sound) và phụ âm C (consonant sound) được kết hợp thành ba hình
thức CV, CVC hoặc VC:
- Hình thức CV (phụ âm + nguyên âm)
- Hình thức CVC (phụ âm + nguyên âm + phụ âm)
- Hình thức VC (nguyên âm + phụ âm)
Tiếng Việt có 23 âm vị là phụ âm. Tương ứng với 23 âm vị
phụ âm thì có 24 cách phát âm, và được ghi lại bằng 27 chữ viết. 27
chữ viết này được hình thành từ 19 chữ cái.
Tiếng Việt có 16 âm vị là nguyên âm (trong đó có 13 nguyên
âm đơn, 3 nguyên âm đôi) và 2 âm vị là bán nguyên âm. Trong 16
âm vị nguyên âm và 2 âm vị bán nguyên âm thì có 17 cách đọc, và
được ghi lại bằng 20 chữ viết. 20 chữ viết này được hình thành từ 12

chữ cái
4.2 Các đặc điểm của âm tiết tiếng Việt
- Âm tiết tiếng Việt nào cũng có một thanh điệu nhất định gồm
6 thanh được ghi lại bằng năm dấu huyền, sắc, hỏi, ngã nặng và một
thanh ngang không ghi bằng dấu nào.
- Đa số các âm tiết đều mang có một nghĩa nào đó.
- Âm tiết tiếng Việt có khả năng biểu hiện ý nghĩa.
4.3 Cấu trúc của âm tiết tiếng Việt
Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

13

Âm tiết tiếng Việt ở dạng đầy đủ nhất có 5 phần:
+ thanh điệu: có tác dụng phân biệt các âm tiết với nhau về
cao độ.
+ âm đầu: có chức năng mở đầu một âm tiết.
+ âm đệm: có chức năng làm thay đổi âm sắc của âm tiết sau
lúc mở đầu.
+ âm chính: có chức năng quyết định âm sắc chủ yếu của âm
tiết, là hạt nhân của âm tiết.
+ âm cuối: đóng vai trò là âm tiết cuối.
THANH ĐIỆU
VẦN
ÂM ĐẦU

Âm đệm


Âm chính

Âm cuối

4.4 Thanh điệu trong tiếng Việt
Thanh điệu là sự nâng cao hoặc hạ thấp giọng nói trong một
âm tiết có tác dụng cấu tạo và khu biệt vỏ âm thanh của từ hoặc hình
vị.
Tiếng Việt có sáu âm tiết gồm:
1. Thanh không dấu
2. Thanh huyền
3. Thanh ngã
4. Thanh hỏi
5. Thanh sắc
6. Thanh nặng

Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

14

Hình 4.1 Biểu đồ thanh điệu
Nghiên cứu tiếng Việt và các đặc trưng của nó là vấn đề mấu
chốt trong việc tổng hợp tiếng Việt.
CHƯƠNG 5 : XÂY DỰNG CƠ SỞ DỮ LIỆU ÂM
5.1 Lựa chọn đơn vị âm cho tổng hợp tiếng Việt
Việc lựa chọn đơn vị âm cho tổng hợp tiếng nói đòi hỏi phải có
sự nghiên cứu và thử nghiệm thực tiễn. Đơn vị âm dài cho ta tổng

hợp câu có chất lượng cao, trơn tru, nhưng số lượng âm lại lớn,
ngược lại, khi chọn âm có độ dài là nhỏ thì cơ sở dữ liệu âm nhỏ,
đồng thời tổng hợp được nhiều câu hơn nhưng chất lượng âm thanh
bị giảm sút, đặc biệt ở những chỗ ghép nối sẽ có sự chênh lệch do sự
ghép nối âm gây ra.
Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

15

Tiếng Việt có khoảng 12000 từ đơn được ghép từ những vần
cơ bản (khoảng 150 vần) nhưng nếu bao gồm cả dấu thanh thì lên
đến 1800 vần. Sử dụng đơn vị âm dài có lợi thế là nó bao phủ được
các hiệu ứng liên cấu âm, số điểm xích chuỗi ít hơn nhưng số lượng
đơn vị âm là rất lớn. Do vậy hiện nay người ta thiên về phương án
chọn đơn vị âm nhỏ.
Để việc tổng hợp được gần với tiếng nói tự nhiên thì các bán
âm tiết phải thỏa mãn các điều kiện sau :
+ Phổ phải giống nhau tại 2 biên ghép nối với các bán âm tiết
ghép nối.
+ Năng lượng trung bình của tín hiệu tại thời điểm ghép nối
phải xấp xỉ bằng nhau.
+ Trường độ các bán âm tiết phải hài hòa.
+ Tại điểm liên kết biên độ tín hiệu phải bằng nhau.
5.2 Ghi âm
Mục tiêu của việc ghi âm là tạo được một bộ đồng nhất các âm
thỏa mãn các tiêu chí trên.
Để tập hợp đầy đủ các trường hợp ngữ âm, ngữ cảnh khác

nhau ta phải tạo ra một cơ sở dữ liệu khoảng 1800 câu ngắn có độ dài
từ 5 đến 10 âm tiết để có thể bao phủ số vần có khả năng trong tiếng
Việt.
Người ghi âm phải có giọng chuẩn và không bị bất cứ một tác
động nào ảnh hưởng đến chất lượng giọng nói. Quá trình ghi âm phải
liên tục và chất giọng người ghi âm phải đảm bảo suốt thời gian ghi
âm nếu không chúng ta sẽ phải ghi âm lại, bởi chỉ cần có sự không
đồng bộ, tai chúng ta sẽ nhận rõ được sự khác biệt ấy.
5.3 Gán nhãn cơ sở dữ liệu
Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

16

Để phân đoạn âm ta dựa vào một số nguyên tắc nhằm đảm bảo
sự chính xác và nhất quán như sau :
+ Sau đoạn nghỉ: Tại điểm bắt đầu của biên độ đầu tiên lớn
hơn nhiễu nên nhìn thấy trên tín hiệu.
+ Trước khi nghỉ: Tại điểm cuối của biên đội cuối cùng lớn
hơn nhiễu nên nhìn thấy trên tín hiệu :
+ Chuyển tiếp phụ âm hữu thanh-vần: Đánh dấu sự chuyển
tiếp dựa trên âm thanh, năng lượng và phổ.
+ Giữa các phụ âm vô thanh-vần: Tại điểm chủ kỳ cao độ tần
số cơ bản thứ 2 của phần vần.
+ Đối với các âm tắc: Phân đoạn trước khoảng 20ms cho giai
đoạn tắc âm.
Hiện nay có một số công cụ để gán nhãn là Praat
(www.praat.org)


hay

Speech

Filing

System

( ở đây tôi chọn Praat bởi
đây là một công cụ miễn phí và mở.
Thông thường có 3 cách gán nhãn một cơ sở dữ liệu âm là: gán
nhãn bằng tay, bán tự động và tự động.
+ Gán nhãn bằng tay được áp dụng khi CSDL âm chưa lớn và
việc gán nhãn đòi hỏi sự chính xác cao. Việc gán nhãn đòi hỏi người
thực hiện phải có những hiểu biết nhất định về các đặc trưng ngôn
ngữ, phổ, năng lượng...
+ Đối với một CSDL âm lớn thì việc gán nhãn bằng tay là một
công việc đòi hỏi rất nhiều thời gian, do vậy chúng ta phải tự động
hoá quá trình gán nhãn này. Hiện phương pháp gán nhãn cưỡng bức
được sử dụng khá phổ biến.
Phương pháp tự động phụ thuộc rất nhiều vào chất lượng của
âm cũng như chất giọng người đọc. Người ta có thể tách thành 2
Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

17


phần là gán nhãn tự động mức âm vị và gán nhãn tự động mức âm
tiết.
5.4 Kết luận
Quá trình tạo CSDL âm là một bước rất quan trọng và mất
nhiều thời gian, CSDL âm này thường xuyên được sửa đổi nhằm tạo
ra được tiếng nói có độ tự nhiên cao, việc thay đổi trong thuật toán
ghép âm cũng có thể làm ảnh hưởng đến dữ liệu âm và cần phải được
chỉnh sửa trong suốt quá trình phát triển ứng dụng.
CHƯƠNG 6: ÁP DỤNG P-SOLA TRONG TỔNG HỢP
TIẾNG VIỆT
6.1 Kỹ thuật PSOLA
Kỹ thuật PSOLA được diễn ra qua ba bước là:
+ Phân tích tín hiệu gốc thành các chuỗi âm ngắn theo các cửa
sổ đồng bộ với các điểm đánh dấu pitch (còn gọi là epoch)
+ Biến đổi các âm phân tích được ở trên thành các âm ngắn
mới theo các biến đổi độ dài và tần số âm cơ bản.
+ Tổng hợp lại các âm ngắn này theo phương pháp cộng
chồng, đồng bộ lại tín hiệu.
6.1.1
Phân tích tín hiệu
Ta phân tích sóng tiếng nói x(n) thành các tín hiệu phân tích
thời gian ngắn x(s,n) bằng cách nhân tín hiệu sóng x(n) với chuỗi cửa
sổ phân tích tương ứng hs(n) theo thời gian dịch chuyển như sau:
x(s,n) = hs(n – ta(s)) x(n)

Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt


18

Hình 6.5. Thay đổi cao độ tần số cơ bản bằng phương pháp
PSOLA. Ánh xạ giữa 5 epoch phân tích ta(s) và 3 epoch tổng
hợp ts(u).
Chuỗi tín hiệu phân tích thời gian ngắn trên được tiếp tục tổng
hợp thành các âm ngắn tổng hợp xq(n). Các tín hiệu thu được đồng
bộ với các điểm đánh dấu pitch mới ts(u) gọi là điểm cao độ cơ bản
tần số tổng hợp. Các điểm cao độ tần số cơ bản tổng hợp ts(u) này
được xác định từ điểm cao độ tần số cơ bản phân tích ta(s) theo tỷ lệ
thay đổi cao độ tần số cơ bản và độ dài.
Sau khi thu được các âm ngắn tổng hợp xq(n), để tổng hợp lại
tín hiệu mong muốn x(n) ta sử dụng phương pháp cộng chồng
(overlap and add) bằng cách kết hợp các tín hiệu tổng hợp thời gian
ngắn đồng bộ chuỗi các điểm cao độ tần số cơ bản tổng hợp ts(u).
6.1.2

Tính điểm cao độ tần số cơ bản tổng hợp (epoch)

Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

19

Để tính tập các điểm cao độ tần số cơ bản tổng hợp ts(u) với
chu kỳ cao độ tần số cơ bản Ps(t) cho trước. Nếu giá trị Ps(t) = P là
không đổi theo thời gian, khi đó các epoch tổng hợp được tính bởi
ts(u) = uP.

Khi thay đổi cao độ tần số cơ bản, các điểm chu kỳ tổng hợp
ts(u) phải được tính từ các chu kỳ phân tích ta(s), hệ số thay đổi cao
độ tần số cơ bản β = β(ta(s)).
Thay đổi trường độ là quá trình biến đổi độ dài của tín hiệu
tiếng nói trong mỗi đoạn trong khi vẫn giữ nguyên giá trị cao độ.
Điều này được thực hiện bởi việc sử dụng một hàm thời gian t =
D(ta). Nó làm lệch giá trị thời gian giữa tín hiệu gốc và tín hiệu biến
đổi.
6.2 Làm mềm hoá biên nối
Sau khi đã áp dụng các thuật toán làm PSOLA và đảm bảo các
điều kiện về tần số cơ bản F0, năng lượng và độ dài tín hiệu, để nâng
cao chất lượng âm tổng hợp, ta phải qua một bước tinh chỉnh để làm
trơn biên nối kết tín hiệu nhằm loại bỏ sự khập khiễng về mức và
chiều biến thiên tức thời tại điểm này.

Hình 6.7 Làm mềm hoá biên nối
Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

20

6.3 Kết luận
Áp dụng thuật toán PSOLA có thể làm thay đổi độ dài và cao
độ tần số cơ bản, do đó nó là một trong những phương pháp thay đổi
ngữ điệu, ngữ âm. Hơn nữa PSOLA ra đời cũng thay thế được LPC
khi thay đổi F0 làm biến dạng phổ tín hiệu gốc, trong khi đó PSOLA
hầu như vẫn giữ được các đặc tính của tín hiệu gốc.
CHƯƠNG 7: CÀI ĐẶT CHƯƠNG TRÌNH

Tôi lựa chọn bộ công cụ Microsoft Visual Studio .NET 2003
để xây dựng ứng dụng này bởi khả năng hỗ trợ rất tốt về mặt ngôn
ngữ lập trình. Sử dụng là phương pháp xích chuỗi miền thời gian bởi
tốc độ tính toán nhanh và chất lượng âm tổng hợp rất cao. Đơn vị âm
được sử dụng là phụ âm và phần vần có dấu. Ví dụ /c/, /ông/, /ngh/,
/ệ/ là hai đơn vị âm. Số lượng âm thu được là khoảng 2600 âm được
lưu trữ dưới dạng các file .wav với tên file dưới dạng telex.

Hình 7.1 Giao diện của chương trình TextTrans
Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

21

ĐÁNH GIÁ KẾT QUẢ VÀ ĐỊNH HƯỚNG NGHIÊN CỨU
Các kết quả đạt được của luận văn:
+ Tìm hiểu các đặc trưng về mặt âm học của tiếng Việt. Từ đó
lựa chọn được phương pháp tổng hợp tiếng nói có nhiều ưu điểm nổi
trội.
+ Xây dựng cơ sở dữ liệu âm một cách đầy đủ phục vụ quá
trình ghép nối.
+ Tìm hiểu và xây dựng thành công thuật toán biến đổi
PSOLA áp dụng trên các âm ghép nối để biến đổi cao độ cũng như
trường độ nhằm tạo ra tiếng nói có chất lượng cao.
Hướng phát triển trong thời gian tới:
+ Nghiên cứu và sử dụng mô hình Fujisaki cho việc tổng hợp
thanh điệu.
+ Tối ưu hoá thuật toán và cơ sở dữ liệu để triển khai trên các

ứng dụng nhúng như các thiết bị trợ giúp cá nhân, điện thoại di động.
+ Xây dựng bộ tham số đầy đủ và đa dạng cho mỗi đơn vị âm.
Nếu phát triển thành công theo định hướng trên sẽ cho phép xây
dựng được một bộ tổng hợp mềm dẻo và có miền ứng dụng rộng rãi
hơn, nhất là trong một thế giới di động như ngày nay.

Đại học Công nghệ - Đại học Quốc gia Hà Nội


Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

22

TÀI LIỆU THAM KHẢO
Tài liệu tiếng Anh
[1] An Introduction to Text-to-Speech Synthesis by Thierry
Dutoit, Kluwer Academic Publishers.
[2] Spoken Language Processing - A Guide to Theory,
Algorithm and System Development (2001). XueDong Huang, Alex
Axero, Hsiao Wue Hon.
[3] Building Synthesis Voice – Alan W Black and Kevin
A.Lenzo.
Tài liệu tiếng Việt
[4] Nhập môn ngôn ngữ học, Vũ Ngọc Cân, Lê Đình Tư,
Trường Đại học Ngoại ngữ Hà Nội.
[5] Gán nhãn âm vị trong quá trình xây dựng cơ sở dữ liệu
tiếng Việt. Đặng Ngọc Đức. Công ty liên doanh thiết bị viễn thông
Alcatel.
[6] Ứng dụng mô hình nguồn âm và bộ lọc của quá trình tạo
tiếng nói để khảo sát nguồn âm có mang tính thanh điệu và dạng

tuyến âm một số nguyên âm tiếng Việt. Phan Quốc Thắng, Trịnh
Đăng Khánh - Học viện Kỹ thuật Quân sự.
[7] Một số phương pháp Nâng cao chất lượng hệ thống Tổng
hợp tiếng Việt V-Talk. KS. Trịnh Anh Tuấn.
Tài liệu trực tuyến
[8] Trung Tâm Từ Điển Học VietLex
[9] Diễn đàn ngôn ngữ tiếng Việt

Đại học Công nghệ - Đại học Quốc gia Hà Nội



×