Tải bản đầy đủ (.pdf) (83 trang)

Áp dụng phương pháp PSOLA trong tổng hợp tiếng nói tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.38 MB, 83 trang )


Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
Mục lục
Mục lục 1
MỞ ĐẦU 3
1. CHƢƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI 5
1.1 Lịch sử phát triển 6
1.2 Âm và cơ chế phát âm 7
1.3 Các đặc trƣng sinh học của âm: 8
1.4 Các tham số âm 10
1.5 Một số khái niệm ngữ âm 11
2. CHƢƠNG 2: XỬ LÝ TÍN HIỆU SỐ 14
2.1 Số hoá tín hiệu 15
2.2 Xác định tần số lấy mẫu tín hiệu tiếng nói 16
2.3 Biểu diễn tín hiệu số 17
2.4 Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) 17
2.5 Các hàm cửa sổ 19
3. CHƢƠNG 3: CÁC HỆ THỐNG TỔNG HỢP TIẾNG NÓI 20
3.1 Tổng quan về tổng hợp tiếng nói 21
3.2 Các phƣơng pháp tổng hợp tiếng nói. 23
3.2.1 Tổng hợp theo cấu âm 24
3.2.2 Tổng hợp Formant theo quy luật 25
3.2.3 Tổng hợp xích chuỗi 28
3.2.4 Tổng hợp xích chuỗi sử dụng mã tiên đoán tuyến tính LPC 31
3.3 Các ứng dụng của TTS 35
3.4 Lựa chọn phƣơng pháp tổng hợp Tiếng Việt 36
4. CHƢƠNG 4: NGỮ ÂM TIẾNG VIỆT 39
4.1 Tổng quan về ngữ âm tiếng Việt 40
4.2 Các đặc điểm của âm tiết tiếng Việt 43
4.3 Cấu trúc của âm tiết tiếng Việt 43
4.4 Thanh điệu trong tiếng Việt 45


5. CHƢƠNG 5 : XÂY DỰNG CƠ SỞ DỮ LIỆU ÂM 49

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
5.1 Lựa chọn đơn vị âm cho tổng hợp tiếng Việt 50
5.2 Ghi âm 51
5.3 Gán nhãn cơ sở dữ liệu 52
5.3.1 Gán nhãn bằng tay 53
5.3.2 Gán nhãn tự động 59
5.3.3 Thuật toán gán nhãn tự động mức âm tiết 60
5.3.4 Thuật toán gán nhãn tự động mức âm vị 61
5.4 Kết luận 61
6. CHƢƠNG 6: ÁP DỤNG P-SOLA TRONG TỔNG HỢP TIẾNG VIỆT 63
6.1 Kỹ thuật PSOLA 64
6.1.1 Phân tích tín hiệu 65
6.1.2 Tính điểm cao độ tần số cơ bản tổng hợp (epoch) 69
6.2 Làm mềm hoá biên nối 75
6.3 Kết luận 76
7. CHƢƠNG 7: CÀI ĐẶT CHƢƠNG TRÌNH 78
7.1 Lựa chọn công cụ 79
7.2 Phƣơng pháp tổng hợp 79
7.3 Giao diện chƣơng trình 80
7.4 Kết luận 81
ĐÁNH GIÁ KẾT QUẢ VÀ ĐỊNH HƢỚNG NGHIÊN CỨU 82
TÀI LIỆU THAM KHẢO 83
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 3

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
Mở đầu
Từ thời tiền sử đến nay, truyền thông tiếng nói vẫn là phƣơng thức nổi trội
nhất của xã hội loài ngƣời trong việc trao đổi thông tin. Các từ ngữ vẫn ngày càng

đƣợc mở rộng thông qua các phƣơng tiện mang tính công nghệ nhƣ điện thoại, phim
ảnh, truyền thanh, truyền hình và Internet. Khuynh hƣớng này ảnh hƣởng không
nhỏ đến truyền thông bằng tiếng nói của con ngƣời.
Hầu hết máy tính ngày nay sử dụng một giao diện đồ hoạ ngƣời dùng (Graphic
User Interface), dựa trên giao diện thể hiện bằng đồ hoạ và các chức năng nhƣ cửa
sổ, biểu tƣợng, trình đơn, và con trỏ. Hầu hết các hệ điều hành và các ứng dụng đều
phụ thuộc vào các đáp ứng gõ phím hay nhấn chuột, sau đó hiển thị các hồi âm qua
màn hình. Máy tính ngày nay vẫn còn thiếu các chức năng cơ bản của con ngƣời
nhƣ nói, nghe, hiểu và học. Tiếng nói, đƣợc hỗ trợ bởi các phƣơng thức tự nhiên
khác sẽ là một trong những phƣơng tiện chính để giao tiếp với máy tính. Và thậm
chí trƣớc khi các giao tiếp dựa trên tiếng nói đạt đến độ thuần thục thì các ứng dụng
gia đình, di động, và văn phòng kết hợp với công nghệ tiếng nói sẽ thay đổi cách
thức sống và làm việc của chúng ta.
Một hệ thống tiếng nói cần phải có khả năng nhận dạng và tổng hợp câu chữ.
Tuy nhiên nếu chỉ có 2 thành phần này cũng không đủ để tạo nên một hệ tiếng nói
hữu dụng, cần phải có một thành phần hội thoại có thể hiểu đƣợc cộng với miền tri
thức cho chúng để thực hiện các thao tác thích hợp. Để làm đƣợc các thành phần
này, còn rất nhiều thách thức đang tồn tại, nhƣ tính ổn định, linh hoạt, dễ tích hợp,
hiệu quả. Mục tiêu để xây dựng đƣợc một hệ tiếng nói mang tính thƣơng mại đã thu
hút nhiều nhà khoa học và các kỹ sƣ trên toàn thế giới.
Một trong những mục tiêu quan trọng nhất của tổng hợp tiếng nói là làm sao
tiếng nói tổng hợp đƣợc phải đạt đến độ tự nhiên tối đa, đồng thời để có thể áp dụng
đƣợc vào nhiều lĩnh vực trong cuộc sống, nó phải có một khả năng linh hoạt, tuỳ
biến theo nhiều tham số khác nhau.
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 4

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
Hiện trên thế giới đã có khá nhiều thuật toán đƣợc áp dụng nhằm thoả mãn các
yêu cầu này, một trong số đó là phƣơng pháp PSOLA. Trong luận văn này, tôi đã sử
dụng phƣơng pháp này để áp dụng cho tiếng Việt dựa trên những đặc thù riêng về

mặt ngữ âm. Qua thực nghiệm kết quả thu đƣợc là khá khả quan.
Cấu trúc luận văn bao gồm 7 chƣơng đƣợc trình bày cụ thể nhƣ sau:
Chƣơng 1: Tổng quan về tiếng nói
Chƣơng 2: Số hoá tiếng nói
Chƣơng 3: Các phƣơng pháp tổng hợp tiếng nói
Chƣơng 4: Ngữ âm tiếng Việt
Chƣơng 5: Xây dựng cơ sở dữ liệu âm
Chƣơng 6: Áp dụng phƣơng pháp PSOLA trong việc tổng hợp tiếng nói.
Chƣơng 7: Cài đặt chƣơng trình

Kết quả đạt đƣợc của luận văn còn khiêm tốn nhƣng rất đáng khích lệ. Ngƣời
viết mong muốn nhận đƣợc sự góp ý của các thầy cô, bạn bè và tất cả những ai quan
tâm đến tổng hợp tiếng nói tiếng Việt
Tôi xin gửi lời cảm ơn chân thành nhất tới Phó Giáo sƣ, Tiến sĩ Lƣơng Chi
Mai, ngƣời dù bận rất nhiều công việc nhƣng đã tận tình hƣớng dẫn tôi hoàn thành
luận văn này. Xin cảm ơn các anh chị trong phòng Nhận dạng và Công nghệ tri thức
– Viện Công nghệ Thông tin, đã trực tiếp chỉ bảo, đóng góp những ý kiến quý báu.
Xin cảm ơn gia đình, ngƣời thân và bạn bè đã động viên, giúp đỡ tôi rất nhiều giúp
tôi hoàn thành khoá học và luận văn này.
Hà Nội, ngày 26 tháng 10 năm 2006
Hoàng Tiểu Bình
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 5

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội




1. CHƢƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI



1.1 Lịch sử phát triển
1.2 Âm và cơ chế phát âm
1.3 Các đặc trƣng sinh học và vật lý của âm
1.4 Các tham số âm
1.5 Một số khái niệm ngữ âm



Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 6

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
1.1 Lịch sử phát triển
Năm 1797 Christian Kratzenstein của trƣờng đại học St. Petersburg đã xây
dựng một mô hình có dạng vòm họng ngƣời có thể tạo ra 5 nguyên âm (a, e, i, o và
u). Sau đó nó đƣợc nó đƣợc Wolfgang von Kempelen ở Vienna, Austria phát triển
thêm và gọi là Máy tạo tiếng nói dựa trên cơ chế âm học. Chiếc máy này đƣợc bổ
sung thêm các mô hình của môi và lƣỡi, cho phát ra cả nguyên âm cũng nhƣ phụ
âm.
Trong những năm 1930, Phòng thí nghiệm Bell Labs đã phát triển hệ thống
VOCODER, bộ tổng hợp và phân tích tiếng nói dựa trên việc mô hình hoá cộng
hƣởng của ống thanh bằng linh kiện điện tử. Honer Dodley đã nâng cấp hệ thống
này thành VODER và đƣợc trƣng bày tại hội chợ New York World's Fair vào năm
1939.
Hệ thống tổng hợp tiếng nói dựa trên máy tính đầu tiên đƣợc xây dựng vào
những năm 50 của thế kỷ trƣớc và hệ thống text-to-speech đầu tiên đƣợc hoàn thành
vào năm 1968. Từ đó đến nay đã có rất nhiều cải tiến về mặt công nghệ, kỹ thuật áp
dụng cho tổng hợp tiếng nói, có đƣợc điều đó là nhờ khả năng tính toán của máy
tính đã tăng lên gấp nhiều nhiều lần, các nghiên cứu và cơ sở dữ liệu âm thanh và
tiếng nói cũng dày thêm tạo ra một kho âm thanh lớn phục vụ cho việc phân tích

tiếng nói.
Tổng hợp tiếng nói là một vấn đề khoa học nhận dạng liên quan đến nhiều lĩnh
vực khoa học khác nhau nhƣ ngôn ngữ học, tâm lý học, toán học, xử lý tín hiệu số
và khoa học máy tính. Hiện nay, trên thế giới, các nhà khoa học đã nghiên cứu và
xây dựng cũng nhƣ đƣa vào ứng dụng trong thực tế nhiều hệ thống với chất lƣợng
âm thanh đã tiến dần đến tiếng nói tự nhiên của con ngƣời. Thậm chí trong một số
ứng dụng nhất định, chất lƣợng âm thanh tổng hợp đã đạt đến độ tự nhiên nhƣ tiếng
nói con ngƣời.
Hiện nay tại Việt Nam, đã có nhiều cơ quan, viện nghiên cứu, các trƣờng đại
học đã có những nghiên cứu và bƣớc đầu đã đem lại một số kết quả khả quan trong
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 7

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
vấn đề tổng hợp tiếng Việt. Nghiên cứu tổng hợp tiếng Việt là một đòi hỏi tất yếu
của xã hội để theo kịp xu thế của thế giới bởi đặc thù ngôn ngữ của mỗi quốc gia
không cho phép chúng ta sử dụng những phần mềm có sẵn của nƣớc ngoài trong
việc đọc văn bản tiếng Việt. Hơn nữa việc nghiên cứu tổng hợp tiếng Việt giúp cho
ta có đƣợc sự hiểu biết sâu hơn về ngôn ngữ và văn hoá Việt Nam, qua đó có ý thức
hơn trong việc giữ gìn sự trong sáng của tiếng Việt cũng nhƣ bản sắc văn hoá của
ngƣời Việt Nam.
1.2 Âm và cơ chế phát âm
Âm là sóng áp lực theo chiều dọc đƣợc hình thành do việc nén và giãn các
phần tử không khí theo hƣớng song song với nguồn năng lƣợng phát.

Hình 1.1. Năng lƣợng sóng tạo ra việc nén/giãn các phân tử khí đƣợc mô tả
nhƣ hình sin, trong đó có 2 tham số quan trọng là biên độ và bƣớc sóng. Tần số [chu
kỳ/giây – đơn vị là Hertz (Hz)] cũng là đơn vị để đo các dạng sóng.
Tuy nhiên hình 1.1 chƣa mô tả đƣợc sự biến đổi áp suất cục bộ theo thời gian,
do âm thanh không phải hình thành theo chiều ngang, các phân tử không khí chỉ dao
động tại chỗ dọc theo đƣờng mức năng lƣợng. Tốc độ âm thanh xấp xỉ 331.5 +

0.6Tcm/s, với Tc là nhiệt độ môi trƣờng tính theo độ Celcius.
Cƣờng độ âm là năng lƣợng đƣợc sóng âm truyền trong một đơn vị thời gian
qua một đơn vị diện tích đặt vuông góc với phƣơng truyền âm.
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 8

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
Đối với con ngƣời, giá trị tuyệt đối của cƣờng độ âm P là không quan trọng
bằng giá trị tỷ đối của P so với một giá trị P
0
nào đó. Ngƣời ta định nghĩa mức
cƣờng độ âm nhƣ sau:
Mức cƣờng độ âm (Sound Pressure Level) là giá trị tuyệt đối của cƣờng độ âm
theo dB và đƣợc đo bằng:
SPL(dB) = 20log
10
(P/P
0
)
SPL bằng 0 dB ta gọi là ngƣỡng nghe (là mức cƣờng độ âm thanh mà tai ta có
thể phân biệt đƣợc) với âm thanh là 1kHz. Khi ta nói chuyện cách khoảng 1 mét có
mức cƣờng độ âm là 60dB SPL, một máy khoan bê tông khoảng 120dB SPL. Ngƣời
ta dùng đại lƣợng Watts/m
2
để đo cƣờng độ âm thanh. Một ngƣời bình thƣờng có
thể nghe thấy âm thanh có cƣờng độ 10
-12
W/m
2
(ngưỡng nghe – threshold of
hearing hay TOH). Con ngƣời có khả năng nghe âm thanh nhỏ nhất là 0dB và lớn

nhất là 120dB. Giá trị này ngƣời ta gọi là ngƣỡng đau. Miền từ ngƣỡng nghe đến
ngƣỡng đau gọi là miền nghe đƣợc.
Tín hiệu tiếng nói phụ thuộc vào rất nhiều yếu tố và tình trạng khí quyển xung
quanh. Những yếu tố thể hiện mức độ ngữ nghĩa, nó làm cho não hiểu đƣợc ý chứa
đựng trong tín hiệu tiếng nói.
Một đặc trƣng của tín hiệu tiếng nói là độ dƣ thừa rất lớn, đây là điều kiện cần
thiết để tiếng nói có thể truyền đi trong môi trƣờng có nhiều tác động vào độ dƣ
thừa này cho phép não có thể hiểu đƣợc câu nói dễ dàng hơn.
1.3 Các đặc trƣng sinh học của âm:
Tiếng nói đƣợc tạo bởi các sóng áp lực không khí xuất phát từ mồm hoặc mũi
của ngƣời nói. Trong hầu hết các ngôn ngữ trên thế giới, ngƣời ta chia âm vị thành
hai lớp:
+ phụ âm: tạo thành khi luồng không khí từ phổi đi ra bị cản trở ở một điểm
nào đó, chẳng hạn sự khép chặt của hai môi khi phát âm ([b], [m]), sự tiếp xúc giữa
đầu lƣỡi với lợi ([t], [d]) gây nên tiếng nổ và tiếng xát và gây nên một âm thanh khó
nghe.
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 9

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
+ nguyên âm: ngƣợc lại với phụ âm, nguyên âm thƣờng đƣợc tạo thành khi
luồng không khí thoát ra ngoài một cách tự do, tạo thành một âm hƣởng êm ái.

Hình 1.2 Bộ máy phát âm của con ngƣời
Âm có thể còn đƣợc chia thành các nhóm nhỏ dựa trên các đặc trƣng phát âm.
Những đặc trƣng này có đƣợc nhờ cấu tạo của các cơ quan phát âm và vị trí mà
chúng tiếp xúc với các thành phần khác. Hơn nữa một số lƣợng lớn các cơ cũng
tham gia vào việc định vị và chuyển động. Ở trong hình này chúng ta chỉ xem xét có
giới hạn đối với các cơ quan phát âm chính. Ngoài ra, các thành phần tham gia vào
việc phát âm còn có phổi, khí quản, thanh quản, khoang hầu (cổ họng), miệng và
khoang mũi. Hầu và khoang miệng tham gia tạo ra các âm hữu thanh, còn khoang

mũi tạo ra các âm mũi. Theo hình minh hoạ trên ta có chức năng của các cơ quan
nhƣ sau:
Phổi: Nguồn cung cấp hơi trong khi nói.
Dây thanh âm (thanh quản): Khi chúng kết hợp với nhau và dao động sẽ tạo ra
các âm hữu thanh, khi chúng chùng xuống hoặc căng lên tạo ra các rung động một
cách định kỳ thì sẽ tạo ra âm vô thanh. Vị trí các dây thanh khi kết hợp với nhau gọi
là thanh môn.
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 10

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
Vòm miệng (Ngạc mềm): hoạt động nhƣ một chiếc van, khi mở cho phép
không khí đi ra (gây ra tiếng vang) thông qua khoang mũi. Âm thanh tạo ra là m và
n.
Ngạc cứng: vùng bề mặt cứng phía trên trong mồm kết hợp với lƣỡi để tạo ra
các phụ âm.
Lưỡi: là bộ phận rất linh hoạt, tạo các hình dạng khác nhau với vòm miệng để
tạo ra nguyên âm, hoặc kết hợp với ngạc cứng để tạo ra phụ âm. Lƣỡi có thể tiến ra
trƣớc, lùi lại sau, nâng cao lên, hạ thấp xuống, do đó làm cho khoang miệng luôn
thay đổi, tạo ra khoang cộng hƣởng quan trọng phía trên thanh hầu.
Răng: kết hợp với lƣỡi để tạo ra các phụ âm khác nhau.
Môi: có thể cuộn tròn hoặc căng dài ra để tạo ra các nguyên âm, hoặc đóng kín
để ngăn luồng hơi tạo ra các âm nhƣ p, b, m.
1.4 Các tham số âm
Độ cao: Âm thanh phát ra bao giờ cũng ở một độ cao nhất định. Mức độ cao
thấp của âm phụ thuộc vào sự chấn động nhanh hay chậm của các phần tử không
khí trong một thời gian nhất định. Có nghĩa là độ cao của âm phụ thuộc vào tần số
dao động. Tần số dao động của dây thanh quy định độ cao của giọng nói con ngƣời.
Độ mạnh: Độ mạnh của âm do biên độ dao động quyết định. Biên độ dao động
càng lớn âm phát ra càng mạnh. Thông thƣờng phụ âm mạnh hơn nguyên âm. Độ
mạnh còn đƣợc gọi là cƣờng độ.

Độ dài: Độ dài hay trƣờng độ của âm phụ thuộc vào sự chấn động lâu hay
chóng của các phần tử không khí. Ví dụ trong tiếng Việt, a trong hai dài hơn a trong
hay.
Âm sắc: Âm sắc là bản sắc, là sắc thái riêng biệt của một âm. Cùng một nốt
nhạc nhƣng âm thanh của các loại đàn khác nhau sẽ có những sắc thái khác nhau.
Đó là sự khác nhau về âm sắc. Âm sắc khác nhau là do vật tạo ra âm sắc (chất liệu,
thành phần vật lý…), cách tạo ra âm (tay, miếng gẩy…). Ngoài ra còn các yếu tố
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 11

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
môi trƣờng, không gian ảnh hƣởng đến các sự cộng hƣởng hay việc truyền dẫn âm
thanh.
Tiếng động và tiếng thanh: Các phân tử không khí dao động có chu kỳ sẽ tạo
ra tiếng thanh, ngƣợc lại nếu dao động không điều hoà sẽ tạo ra tiếng động. Thƣờng
các nguyên âm sẽ tạo tiếng thanh, còn phụ âm sẽ tạo tiếng động.
1.5 Một số khái niệm ngữ âm
Âm tố: (sound element) là đơn vị nhỏ nhất của âm thanh lời nói, đƣợc dùng để
cấu tạo nên mọi đơn vị ngôn ngữ khác. Nó đƣợc thực hiện bằng một động tác phát
âm cụ thể bởi các cơ quan phát âm của ngƣời nói và đƣợc tiếp thu bởi các cơ quan
thính giác của ngƣời nghe. Âm tố mang đặc trƣng vật lý và sinh học của cơ quan
phát âm, do đó nó mang tính tự nhiên. Cùng phát âm một âm “về” trong tiếng Việt
nhƣng nhiều ngƣời phát âm sẽ khác nhau, ngƣời miền Nam có thể phát âm thành
“dzề”, thậm chí một ngƣời tại mỗi thời điểm cũng có thế phát âm khác nhau. Do đó
âm tố còn mang tính chất xã hội.
Âm vị: (phoneme) là đơn vị tối thiểu của hệ thống ngữ âm của một ngôn ngữ
dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ. Ví
dụ đối với từ ba ta có hai âm vị /b/ và /a/. Nhờ hai đơn vị này mà ngƣời ta phân biệt
đƣợc với các từ khác nhƣ va, la, ca… Nhƣ vậy âm vị có chức năng cấu tạo nên vỏ
âm thanh của các đơn vị có nghĩa và phân biệt (khu biệt) vỏ âm thanh của các đơn
vị có nghĩa.

Âm vị là một đơn vị trừu tƣợng còn âm tố là một đơn vị cụ thể. Âm vị đƣợc
thể hiện ra bằng các âm tố và âm tố là sự thể hiện của âm vị. Âm vị là tổng thể các
nét khu biệt đƣợc thể hiện đồng thời của cùng một loại âm tố và có chức năng phân
biệt các đơn vị ngôn ngữ.
Biến thể của âm vị: là những âm tố cùng thể một âm vị. Các biến thể đƣợc
phân chia làm hai loại: các biến thể kết hợp và các biến thể tự do. Biến thể kết hợp
là biến thể bị quy định bởi vị trí, bởi bối cảnh ngữ âm. [c] trong cà và [c] trong củ là
hai biến thể của âm vị /c/. Biến thể thứ hai do đi trƣớc nguyên âm tròn môi nên bị
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 12

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
môi hoá. Biến thể tự do là biến thể không bị quy định bởi bối cảnh ngữ âm. Từ lộng
chẳng hạn, một số vùng Thanh-Nghệ phát âm từ này nghe nhƣ là lô_ộng. Đó là
những biến thể tự do của âm vị /o/
Âm tiết: (syllabable) là khúc đoạn âm thanh từ một chuỗi lời nói của con
ngƣời. Là đơn vị phát âm nhỏ nhất đƣợc phân định tự nhiên trong tiếng nói. Ngƣời
Việt thƣờng gọi là tiếng hay tiếng một. Nó đƣợc cấu tạo bởi năm (5) thành phần là
thanh điệu có chức năng phân biệt các âm tiết với nhau về cao độ. Âm đầu có chức
năng mở đầu một âm tiết, thƣờng là các phụ âm. Âm đệm có chức năng thay đổi âm
sắc của âm tiết sau lúc mở đầu, làm trầm hoá âm tiết, thƣờng do nguyên âm đảm
nhiệm. Âm chính quyết định âm sắc chủ yếu của âm tiết, là hạt nhân của âm tiết.
Thành phần này là một nguyên âm. Thành phần cuối cùng của âm tiết là âm cuối,
nó có thể là phụ âm trong từ kiểm, là nguyên âm trong từ soát, hoặc không có trong
từ bà.
Có thể biểu diễn một âm tiết nhƣ sau [4]:

THANH ĐIỆU
ÂM
ĐẦU
VẦN

Âm
đệm
Âm chính
Âm
cuối

Ngữ điệu: (intonation) là sự chuyển động của thanh cơ bản của giọng nói, là
sự nâng cao hoặc hạ thấp giọng nói trong câu. Nó mang thông tin biểu cảm của
giọng nói, giúp ta phân biệt đƣợc câu thuộc loại gì. Chức năng chính của ngữ điệu
là nối liền các bộ phận của lời nói lại với nhau, làm cho lời nói trở nên liền mạch.
Trọng âm: (accent) là sự nêu bật một trong những âm tiết của từ bằng những
phƣơng tiện ngữ điệu nhất định, đƣợc thực hiện bằng cách tăng cƣờng trƣờng độ
của nguyên âm. Tuy nhiên trọng âm trong tiếng Việt thƣờng không có ảnh hƣởng
nhiều đến nghĩa của từ nhƣ các ngôn ngữ khác (tiếng Anh, tiếng Nga, tiếng Pháp…)
Thanh điệu: (tone) là sự nâng cao hay hạ thấp giọng nói trong một âm tiết có
tác dụng cấu tạo và khu biệt vỏ âm thanh của từ hoặc hình vị (tiếng). Ví dụ sự khác
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 13

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
nhau giữa cà và cá là sự khác nhau về thanh điệu: âm tiết cá đƣợc phát âm cao, âm
tiết cà đƣợc phát âm thấp. Trong tiếng Việt có 6 thanh điệu: bằng, huyền, sắc, hỏi,
ngã, nặng.
Trên đây chúng ta đã tìm hiểu một cách tổng quan về tiếng nói và ngữ âm
tiếng Việt cùng các khái niệm cơ sở của nó. Trong chƣơng tiếp theo chúng ta sẽ tìm
hiểu sâu hơn về tiếng nói và biểu diễn tiếng nói dƣới dạng số hóa. Qua đó là cơ sở
để xây dựng các bộ tổng hợp tiếng nói.



Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 14


Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội



2. CHƢƠNG 2: XỬ LÝ TÍN HIỆU SỐ

2.1 Số hóa tín hiệu
2.2 Tần số lấy mẫu
2.3 Biểu diễn tín hiệu số
2.4 Biến đổi Fourier rời rạc
2.5 Các hàm cửa sổ

Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 15

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
2.1 Số hoá tín hiệu
Một trong những cách phổ biến nhất để biểu diễn tiếng nói là thể hiện nó dƣới
dạng sóng. Xử lý tín hiệu số đóng một một vai trò vô cùng quan trọng trong việc xử
lý ngôn ngữ nói, bao gồm tín hiệu số, biến đổi miền tần số rời rạc và liên tục, các bộ
lọc số, mối liên quan giữa tín hiệu số và tín hiệu tƣơng tự. Trong chƣơng này chúng
ta sẽ tìm hiểu một số công thức toán học cho việc phân tích tần số, ứng dụng cho
các chƣơng tiếp theo.
Để xử lý tín hiệu tiếng nói, ngƣời ta biểu diễn chúng nhƣ là một hàm liên tục
theo thời gian, xét một hàm x
a
(t) là một hàm liên tục theo thời gian, nếu chúng ta
lấy mẫu tín hiệu x với chu kỳ lấy mẫu là T (ví dụ t = n.T), ta có một tín hiệu rời rạc
theo thời gian x[n] = x
a

(nT), ta gọi là tín hiệu số. Chúng ta có thể định nghĩa một
tần số lấy mẫu F
s
= 1/T là giá trị nghịch đảo của chu kỳ T. Ví dụ với tần số lấy mẫu
là F
s
= 8kHz tƣơng ứng với chu kỳ lấy mẫu là 125 micro giây. Trong một số trƣờng
hợp, ngƣời ta có thể khôi phục chính xác tín hiệu tƣơng tự x
a
(t) từ tín hiệu số x[n].

Hình 2.1 Tín hiệu tƣơng tự và tín hiệu số
Để biểu diễn tín hiệu số, ngƣời ta dùng một công thức dạng sóng hay còn gọi
là tín hiệu hình sin:
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 16

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
x
0
[n] = A
0
cos(
0
n + 
0
)
Với A
0
là biên độ sóng,


0
là tần số góc và

0
là pha. Độ đo góc của hàm
lƣợng giác này đƣợc tính bằng radian, do đó tần số góc

0
tƣơng ứng với tần số
chuẩn f
0


0
= 2

f
0
(0

f
0


1). Tín hiệu này là tuần hoàn với chu kỳ T
0
= 1/f
0
.


Hình 2.2 Tín hiệu hình sin với chu kỳ lấy mẫu là 25 mẫu.
2.2 Xác định tần số lấy mẫu tín hiệu tiếng nói
Định lý Shannon: Một tín hiệu tƣơng tự x(t) có dải phổ hữu hạn với giới hạn
trên là F
max
(Hz) (tức là phổ bằng 0 khi f nằm ngoài dải [-F
max
,F
max
]). Ta sẽ chỉ có thể
khôi phục lại x
a
(t) một cách chính xác từ các mẫu x(n.T
s
) nếu nhƣ:
F
s
> 2F
max
hay T
s
< 1/2F
max

Do tín hiệu tiếng nói có thể trải phổ đến 12kHz nên theo định lý Shannon, tần
số lấy mẫu tối thiểu là 24kHz. Nhƣng để tiết kiệm các chi phí cho việc xử lý tín hiệu
số, ngƣời ta hạn chế tín hiệu tiếng nói bằng cách sử dụng một bộ lọc nhằm làm
giảm giới hạn của phổ tín hiệu nhƣng không làm giảm nhiều chất lƣợng của tiếng
nói và vẫn đảm bảo đƣợc mức độ ngữ nghĩa của thông tin tiếng nói. Ngƣời ta nhận
thấy rằng tín hiệu điện thoại có phổ tín hiệu ở mức 3400Hz nhƣng vẫn đảm bảo

đƣợc chất lƣợng âm thanh. Trong các phƣơng pháp xử lý tín hiệu số, ngƣời ta chọn
tần số lấy mẫu f
e
= 8000Hz. Thông thƣờng tần số này có thể biến đổi từ 6000Hz tới
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 17

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
16000Hz. Đối với các tín hiệu âm thanh nhƣ âm nhạc, ngƣời ta thƣờng chọn tần số
lấy mẫu là 48kHz để biểu diễn chính xác tín hiệu.
2.3 Biểu diễn tín hiệu số
Trong phần này sẽ giới thiệu một số phƣơng pháp biểu diễn tiếng nói, những
tín hiệu có nghĩa cho việc mã hóa, tổng hợp hay đoán nhận tiếng nói. Vấn đề trọng
tâm là việc phân tách tín hiệu tiếng nói thông qua một bộ lọc biến đổi tuyến tính
theo thời gian. Bộ lọc này đƣợc tạo ra từ các mô hình tạo tiếng nói dựa trên lý
thuyết ngữ âm học, nó tạo ra các nguồn không khí thông qua dây thanh âm, và bộ
lọc biểu diễn âm thanh nhƣ là các cơ quan phát âm. Mô hình bộ lọc nguồn đƣợc
biểu diễn nhƣ Hình 2.3 với e[n] đƣợc gọi là nguồn hay nguồn kích, h[n] gọi là bộ
lọc và x[n] là tín hiệu tiếng nói mong muốn.


Hình 2.3 Mô hình bộ lọc nguồn
Để thử nghiệm bộ lọc chúng ta đƣa ra các phƣơng pháp dựa trên các mô hình
tạo tiếng nói (ví dụ nhƣ mã dự báo tuyến tính hoặc phƣơng pháp phân tích phổ).
Mỗi khi bộ lọc đƣợc thử nghiệm, nguồn âm có thể đƣợc thu bằng cách cho tín hiệu
tiếng nói đi qua một bộ lọc đảo. Việc tách nguồn và bộ lọc là một trong những thách
thức lớn nhất trong việc xử lý tiếng nói.
Việc phân loại âm vị (bằng tay hay bằng máy) đều phụ thuộc vào các đặc
trƣng của bộ lọc. Thông thƣờng ngƣời ta bỏ qua nguồn và chỉ tập trung vào đánh
giá bộ lọc. Nhiều kỹ thuật tổng hợp tiếng nói hiện nay sử dụng mô hình lọc nguồn
vì nó cho phép thay đổi trƣờng độ và bộ lọc một cách linh hoạt. Nhiều bộ mã hóa

tiếng nói cũng sử dụng mô hình này vì nó cho ra một tỷ lệ bit thấp.
2.4 Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT)
Biến đổi Fourier rời rạc của một tín hiệu tuần hoàn x
N
[n] với chu kỳ N đƣợc
định nghĩa nhƣ sau [2]:
h[n]
e[n]

x[n]

Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 18

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
   





1
0
/2
N
n
Nnkj
NN
N k 0 enxkX

(2.1)


   




1
0
/2
1
N
k
Nnkj
NN
N n 0 ekX
N
nx

(2.2)

Trong hình 2.4 dƣới đây chúng ta xem xét một xấp xỉ của tín hiệu hình vuông
tuần hoàn với chu kỳ N = 100 là tổng hợp của 19 sóng điều hòa hình sin. Tần số lấy
mẫu là

k
= 2

k/100. Ở đây chúng ta chỉ sử dụng 19 hệ số X
N
[k] đầu tiên cho biểu

thức (2.2)

     
 
 

18
18
18
1
/2
~
)/2cos(
]0[1
k k
N
N
Nnkj
N
N
NnkkX
N
2
N
X
ekX
N
nx




(2.3)

Hình 2.4 Tín hiệu hình vuông với chu kỳ N=100

Trong lĩnh vực xử lý số tín hiệu biến đổi Fourier chiếm vị trí hàng đầu nhờ sự
tồn tại các thuật toán hiệu quả tính DFT. Để tính DFT N điểm của một dãy có chiều
dài hữu hạn ta có thể viết chƣơng trình tính trực tiếp theo định nghĩa của DFT. Tuy
nhiên, cách tính trực tiếp làm mất nhiều thời gian và bộ nhớ máy tính, vì phải thực
hiện quá nhiều phép toán nhân và cộng (2N
2
phép tính hàm lƣợng giác, 4N
2
phép
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 19

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
nhân thực, 4N(N-1) phép cộng thực) và phải lƣu nhiều dữ liệu trung gian. Các thuật
toán biến đổi Fourier nhanh (FFT: Fast Fourier Transform) nhằm cố gắng làm giảm
số lƣợng phép tính và sử dụng ít bộ nhớ hơn trong cách tính trực tiếp. Các thuật
toán FFT chỉ cần có Nlog
2
N phép tính. Từ khi Cooley phát hiện ra thuật toán tính
nhanh biến đổi Fourier rời rạc vào năm 1965, các thuật toán FFT ngày càng khẳng
định vai trò của nó và hiện đƣợc sử dụng rất rộng rãi trong xử lý tiếng nói.
Có nhiều thuật toán FFT đƣợc đề xuất, chẳng hạn thuật toán FFT cơ số 2
(Radix-2 FFT algorithms) phân thời gian, thuật toán FFT cơ số 2 phân tần số,…
Trong khuôn khổ của luận văn này, tôi xin không đƣa các thuật toán này vào
vì chúng khá phổ biến trong các tài liệu về xử lý tín hiệu số hiện nay. Tuy nhiên
chúng ta có thể tìm hiểu thêm trong các tài liệu tham khảo của luận văn này [2].

2.5 Các hàm cửa sổ
Các hàm cửa sổ là các tín hiệu tập trung trong một khoảng thời gian (thông
thƣờng là hữu hạn). Trong các hệ thống xử lý tiếng nói, các hàm Tứ giác, Hanning,
Hamming thƣờng đƣợc sử dụng rộng rãi hơn các hàm nhƣ Tam giác, Kaiser,
Barllet. Các hàm cửa sổ thƣờng tập trung vào các vùng tần số thấp, chúng đƣợc ứng
dụng trong các bộ lọc số đã nói ở trên.
Cửa sổ chữ nhật đƣợc định nghĩa đơn giản nhƣ sau:
h
x
[n] = u[n] – u[n-N] (2.4)
Cửa sổ Hamming tổng quát hóa đƣợc định nghĩa nhƣ sau:
 

l¹i ng-îc
N0nÕu





0
)/2cos()1( nNn
nh
h

(2.5)
Và có thể biểu diễn biểu biểu thức này qua 2.4 nhƣ sau:
h
h
[n] = (1-


)h

[n] -

h

[n]cos(2

n/N)
Biến đổi của nó sẽ là (xem [2]):
H
h
(e
j
) = (1-)H

[e
j
] – (/2)H

(e
j(-2/N)
) – (/2)H

(e
j(+2/N)
)
Khi


= 0.5 ngƣời ta gọi là cửa sổ Hanning, còn khi

= 0.46 gọi là cửa sổ
Hamming
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 20

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội




3. CHƢƠNG 3: CÁC HỆ THỐNG TỔNG HỢP
TIẾNG NÓI


3.1 Tổng quan về tổng hợp tiếng nói
3.2 Các phƣơng pháp tổng hợp tiếng nói
3.3 Các ứng dụng của tổng hợp tiếng nói
3.4 Lựa chọn phƣơng pháp tổng hợp
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 21

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
3.1 Tổng quan về tổng hợp tiếng nói
Tổng hợp tiếng nói là quá trình tạo ra âm thanh tiếng nói có thể hiểu đƣợc từ
tập các ký tự bất kỳ. Có hai loại tổng hợp tiếng nói đó là CTS (Concept to Speech).
CTS chuyển đổi từ khái niệm thành tiếng nói và TTS (Text To Speech) chuyển đổi
từ văn bản thành tiếng nói. Hiện nay chủ yếu các hệ thống tổng hợp từ văn bản
đƣợc nghiên cứu và ứng dụng rộng rãi trong các ngành kinh tế xã hội. Vấn đề đặt ra
là xây dựng đƣợc một hệ thống có chất lƣợng và khả năng áp dụng vào thực tế cao.
Đây cũng là một đặc tính quan trọng nhất của tổng hợp tiếng nói. Hiện trên thế giới

có 4 phƣơng pháp tiếp cận trong tổng hợp tiếng nói:
+ Tổng hợp dạng sóng có miền giới hạn. Trong một lĩnh vực đƣợc giới hạn,
phƣơng pháp này tạo ra tiếng nói có chất lƣợng cao với một lƣợng dữ liệu nhỏ (âm
thanh đƣợc ghi sẵn). Các hệ thống này thƣờng đƣợc ứng dụng trong các hệ trả lời tự
động và không thể tổng hợp văn bản tùy ý. Các hệ thống CTS thƣờng thích nghi với
loạt ứng dụng này.
+ Tổng hợp ghép nối không biến đổi dạng sóng. Không giống nhƣ phƣơng
pháp trên, tiếng nói có thể đƣợc tổng hợp từ một văn bản bất kỳ, nó có thể tạo ra
nhiều câu có chất lƣợng tốt nhƣng đồng thời cũng tạo ra nhiều câu có chất lƣợng
trung bình.
+ Tổng hợp ghép nối có biến đổi dạng sóng. Các hệ thống này linh hoạt hơn
trong việc lựa chọn các phân đoạn tiếng nói để ghép nối, đồng thời do có sự thay
đổi dạng sóng nên tạo ra các câu có ngữ điệu phù hợp hơn, làm giảm các câu có
chất lƣợng trung bình do có sự thay đổi ngữ điệu. Mặt khác do có sự thay đổi tính tự
nhiên và thay đổi ngữ điệu của giọng nói cũng làm giảm chất lƣợng của tiếng nói
nói chung.
+ Các hệ thống tổng hợp dựa theo luật. Các hệ thống này thƣờng tạo ra các
âm thanh đều, đồng bộ, mang tính “máy” nhất trong các hệ thống kể trên.
Để đánh giá chất lƣợng của một hệ TTS ta xem xét các yếu tố sau:
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 22

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
+ Độ trễ. Thời gian cho các bộ tổng hợp bắt đầu phát âm là rất quan trọng, đối
với các hệ thống tƣơng tác thì thời gian này thƣờng phải nhỏ hơn 200 ms.
+ Tài nguyên bộ nhớ. Các hệ tổng hợp theo luật thƣờng cần bộ nhớ nhỏ nhất
(khoảng 200KB). Đối với những hệ thống ghép nối, đôi khi cần đến 100 MB để lƣu
trữ các đoạn âm thanh đƣợc thu sẵn.
+ Tốc độ tiếng nói. Một số ứng dụng yêu cầu tốc độ tiếng nói có thể thay đổi
đƣợc, đặc biệt là khả năng nói nhanh. Khả năng này có thể đƣợc ứng dụng trong các
thiết bị đọc lƣớt, các công cụ cho ngƣời mù vì khả năng nghe của họ là rất tốt. Các

hệ thống ghép nối không biến đổi dạng sóng không thể thay đổi tốc độ câu trừ khi
nó đƣợc ghi sẵn nhiều câu với tốc độ khác nhau.
+ Điều khiển cao độ. Một số hệ thống đòi hỏi tiếng nói tổng hợp phải có một
cao độ xác định. Ví dụ nhƣ tạo ra giọng hát. Và các hệ thống ghép nối không biến
đổi dạng sóng không thể thay đổi cao độ trừ khi nó đƣợc ghi sẵn nhiều câu với cao
độ khác nhau.
+ Đặc trƣng giọng nói. Các hệ thống ngôn ngữ nói sẽ yêu cầu các giọng nói
khác nhau, ví dụ nhƣ robot không thể có tiếng nói tự nhiên. Giọng của ngƣời nam
khác với giọng của nữ giới, ngƣời già khác với ngƣời trẻ. Trong các trƣờng hợp
này, các phƣơng pháp tổng hợp dựa theo luật thƣờng đƣợc sử dụng.











Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 23

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
Kiến trúc cơ bản của một hệ TTS:


Hình 3.1 Kiến trúc điển hình của một hệ tổng hợp tiếng nói
3.2 Các phƣơng pháp tổng hợp tiếng nói.
Hiện nay ngƣời ta phân các phƣơng pháp tổng hợp tiếng nói thành ba loại

chính là tổng hợp cấu âm, tổng hợp formant theo quy luật và tổng hợp xích chuỗi.
Các nhà khoa học về lĩnh vực này trên thế giới hiện vẫn còn tranh cãi chƣa
ngã ngũ về phƣơng pháp nào là tốt nhất cho việc tổng hợp tiếng nói nói chung. Và
hiện việc ứng dụng nó vào thực tế còn rất hạn chế bởi chất lƣợng của xử lý tiếng nói
vẫn chƣa đƣợc nhƣ mong muốn. Tuỳ vào mỗi miền ứng dụng mà các phƣơng pháp
khác nhau đƣợc sử dụng. Tại Việt Nam, vẫn còn rất ít các kết quả nghiên cứu về xử
lý tiếng nói từ phân tích, nhận dạng đến tổng hợp. Hiện chỉ có một số cơ quan nhƣ
Viện Công Nghệ thông tin, Tổ chức MICA, Trƣờng Đại học Đà Nẵng… có một số
kết quả nghiên cứu khả quan. Và càng khó hơn cho sinh viên, học sinh bắt đầu tìm
hiểu về tổng hợp tiếng nói. Việc đƣa ra một phƣơng pháp tổng hợp tiếng nói dƣới
Hệ TTS
Văn
bản
đầu vào
Văn bản hậu xử lý
Phân tích văn bản
Phát hiện cấu trúc tài liệu
Chuẩn hoá văn bản
Phân tích ngữ nghĩa
Phân tích ngữ âm
Chuyển đổi từ vị sang âm vị
Phân tích âm điệu
Biến đổi cao độ và trƣờng độ
Tổng hợp tiếng nói
Biến đổi tiếng nói
Tiếng nói thô
Các điều khiển
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 24

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội

đặc thù của ngôn ngữ tiếng Việt sẽ là một kết quả đầy ý nghĩa cho việc nghiên cứu
và triển khai các ứng dụng thực tế về hệ thống TTS cho tiếng Việt.
3.2.1 Tổng hợp theo cấu âm
Tổng hợp theo cấu âm sử dụng mô hình mô phỏng sinh học. Trong mô hình
này tiếng nói đƣợc đặc trƣng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của
các cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực
căng của dây thanh. Nó bao gồm hoạt động tƣơng tác phi tuyến giữa nguồn kích
(chấn động dây thanh hoặc nhiễu loạn không khí) và trở thành kháng đầu vào và
thay đổi theo thời gian của ống thanh. Phƣơng pháp này còn đƣợc gọi là tổng hợp
theo mô hình hệ thống.
Để xây dựng đặc trƣng âm thanh của cơ quan phát âm, hệ thống phải tham số
hóa đƣợc hình khối ống thanh và ống mũi, phải lựa chọn đƣợc mô hình để mô tả sự
lan truyền của sóng ống thanh và mô hình hóa nguồn âm (chấn động dây thanh và
dòng không khí hỗn loạn) và sự tƣơng tác của nó với ống thanh. Phƣơng pháp này
hiện nay chỉ mới hình thành trên lý thuyết, thực tế ngành khoa học phỏng sinh học
chƣa có thông tin đầy đủ để mô phỏng theo cấu âm.
3.2.1.1 Lan truyền sóng trong ống thanh:
Trong nhiều cách tính đặc trƣng truyền sóng trong ống thanh thì phƣơng pháp
ma trận chuỗi đƣợc áp dụng nhiều nhất. Ma trận chuỗi, còn đƣợc gọi là ma trận
ABCD, thể hiện ống thanh ở miền tần số. Với bất kỳ phần nào của ống thanh hay
ống mũi ta có hệ phƣơng trình truyền sóng nhƣ sau:

































ininout
out
U
P
K
U
P

x
DC
BA
U
P
intint
(3.1)
Ma trận chuỗi K có thể thể hiện bất kỳ phần nào của bất kỳ độ dài hay mặt
phẳng cắt ngang nào của ống thanh. Tính các phần tử của K rất đơn giản nếu ống có
mặt cắt không đổi.
Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 25

Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội
3.2.1.2 Nguyên lý tổng hợp cấu âm:
Thuật toán tổng hợp cấu âm theo mô hình cấu âm gồm các bƣớc sau: Từ đặc
tả về các tham số cấu âm, ta tính đƣợc ma trận chuỗi từ thanh môn đến môi. Sau đó
tính hàm truyền và trở kháng đầu vào từ các phần tử A,B,C,D của ma trận. Chuyển
đổi Fourier ngƣợc hàm truyền H và tỉ số trở kháng ta nhận đƣợc các giá trị tƣơng
ứng ở miền thời gian. Sau đó tính áp suất p=p
s
-p
1
. Giá trị áp suất này tác động vào
bộ phận cộng hƣởng điều khiển chuyển động dây thanh của mô hình hai khối lƣợng
tạo ra âm thanh tiếng nói.
Nhƣ vậy ngoài việc mô hình hóa cơ quan phát âm, tổng hợp theo cấu âm cần
phải xây dựng hai loại quy luật là luật ngôn ngữ và luật vật lí. Luật vật lí mô tả nhƣ
ở trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định
mối quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói. Còn luật ngôn
ngữ xác định mối quan hệ giữa mô tả ngữ âm và các hoạt động cấu âm. Thông

thƣờng, luật ngôn ngữ đƣợc thực hiện cho từng âm vị. Khi cấu âm cho một âm vị,
luật này xác định thời điểm các cơ quan chuyển động, tốc độ chuyển động và mối
quan hệ giữa cơ quan này với cơ quan khác. Vì phát ra một âm vị không nhất thiết
phải có sự chuyển động của tất cả các cơ quan, nên trong cùng một thời điểm cơ
quan phát âm có thể đƣợc xác định cho âm vị khác. Theo cách này thì tổng hợp
tiếng nói theo cấu âm có thể tạo ta các giải pháp hoàn hảo cho các trƣờng hợp ngữ
âm khó nhƣ cụm phụ âm, nguyên âm ba. Hiện nay chúng ta chƣa có kiến thức đầy
đủ về từng chi tiết của hai loại luật nói trên. Mô hình cấu âm cũng còn đơn giản vì
vậy chất lƣợng tiếng nói đƣợc tổng hợp theo cấu âm còn rất thấp. Phƣơng pháp
tổng hợp cấu âm hiện này mới chỉ dừng ở trong phòng thí nghiệm hay các sản phẩm
mẫu mà chƣa đƣợc ứng dụng thực tế. Các bộ tổng hợp theo cấu âm là công cụ lý
tƣởng để nghiên cứu về cấu âm của tiếng nói và hứa hẹn các giải pháp lâu dài và
hoàn thiện nhất để tổng hợp tiếng nói giống nhƣ tiếng nói tự nhiên của con ngƣời.
3.2.2 Tổng hợp Formant theo quy luật
Phƣơng pháp tổng hợp formant có thể đƣợc phân làm hai quá trình:

×