Tải bản đầy đủ (.pdf) (82 trang)

Nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.25 MB, 82 trang )



1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ










Nguyễn Thị Thanh Mai





NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP NÂNG CAO
CHẤT LƢỢNG TỔNG HỢP TIẾNG VIỆT VÀ
THỬ NGHIỆM CHO PHẦN MỀM VNVOICE











LUẬN VĂN THẠC SĨ












Hà nội-2007



2

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ











Nguyễn Thị Thanh Mai





NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP NÂNG CAO
CHẤT LƢỢNG TỔNG HỢP TIẾNG VIỆT VÀ
THỬ NGHIỆM CHO PHẦN MỀM VNVOICE

Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ thông tin
Mã số: 1.01.10






LUẬN VĂN THẠC SĨ


NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS.Lƣơng Chi Mai









Hà nội-2007



3
MỤC
LỤC
MỞ ĐẦU 5
CHƢƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 9
1.1. Giới thiệu 9
1.2. Lịch sử phát triển và ứng dụng tổng hợp tiếng nói 9
1.3. Đặc điểm ngữ âm tiếng Việt 12
1.3.1. Âm đầu 15
1.3.2. Phần vần 17
1.3.2.1. Âm đệm 17
1.3.2.2. Âm chính 17
1.3.2.3. Âm cuối 19
1.3.3. Thanh điệu 19
1.4. Một số đặc trƣng của âm vị về mặt âm học 20
1.5. Các phƣơng pháp tổng hợp tiếng nói 23
1.5.1. Tổng hợp theo cấu âm 23
1.5.2. Tổng hợp formant theo quy luật 26
1.5.3. Tổng hợp ghép nối 33

1.5.4. Tổng hợp xích chuỗi 35
1.5.5. Đánh giá các phƣơng pháp tổng hợp tiếng nói 37
CHƢƠNG 2: CÁC THÀNH PHẦN CƠ BẢN CỦA HỆ 42
TỔNG HỢP TIẾNG NÓI 42
2.1. Giới thiệu hệ tổng hợp tiếng nói 42
2.2. Thành phần xử lý ngôn ngữ tự nhiên 44
2.2.1. Phân tích văn bản 45
2.2.2. Chuyển ký tự thành âm thanh 46
2.2.3. Sinh ngôn điệu 46
2.3. Thành phần xử tín hiệu số 47
CHƢƠNG 3: MỘT SỐ PHƢƠNG PHÁP CẢI TIẾN 50
CHẤT LƢỢNG GIỌNG TỔNG HỢP 50
3.1. Các phƣơng pháp cải tiến chất lƣợng giọng tổng hợp 50
3.1.1. Mô hình trƣờng độ 54
3.1.2. Thay đổi biên độ 60
3.1.3. Hiệu chỉnh đƣờng tần số cơ bản 60
3.1.3.1. Sử dụng mô hình Fujisaki hiệu chỉnh đƣờng F0 61
3.1.3.2. Mô hình Tilt 64
3.1.3.3. Phân lớp đƣờng thanh điệu trong ngữ cảnh câu 66
CHƢƠNG 4: THỬ NGHIỆM CẢI TIẾN GIỌNG ĐỌC TỔNG 71
HỢP TIẾNG VIỆT TRONG PHẦN MỀM VNVOICE 1.0 71
4.1. Đánh giá VnVoice và một số giọng tổng hợp tiếng Việt hiện nay 71
4.2. Một số hạn chế của VnVoice 1.0 74
4.3. Thử nghiệm 76
4.3.1. Cơ sở dữ liệu tiếng nói 76
4.3.2. Đánh giá thực nghiệm 77
KẾT LUẬN 81
TÀI LIỆU THAM KHẢO 82



5
MỞ ĐẦU
Nhận dạng và xử lý tiếng Việt (ngôn ngữ và tiếng nói) là nền tảng thiết yếu
của phát triển và ứng dụng công nghệ thông tin ở Việt nam. Giới nghiên cứu và
công nghiệp trên thế giới do theo đuổi các nghiên cứu cơ bản và công nghệ này từ
hàng chục năm qua, gần đây đã càng thu được nhiều thành tựu quan trọng. Khác với
các sản phẩm khác của công nghệ thông tin, sản phẩm về tiếng nói, ngôn ngữ Việt
không thể mua được từ nước ngoài, chỉ có thể do người Việt làm ra trên cơ sở tiếp
thu được các thành tựu khoa học công nghệ trên thế giới và theo đuổi lâu dài.
Nhận dạng tiếng nói nhằm chuyển thông tin từ tiếng nói con người vào máy
tính, và tổng hợp tiếng nói nhằm tự động tạo ra tiếng người nói bằng máy tính.
Cùng với sự phát triển nhanh chóng của công nghệ thông tin nói chung và mạng
Internet nói riêng, nhận dạng và tổng hợp tiếng nói càng ngày càng trở nên là một
xu hướng tất yếu cho những máy tính thế kỉ 21. Trong vòng 50 năm qua, rất nhiều
thuật toán được đề xuất và triển khai trên các hệ tự động nhận dạng và tổng hợp
tiếng nói. Trên thế giới đã có nhiều bộ phần mềm thương mại dành cho tiếng Anh
như IBM ViaVoice ( Dragon Naturally
Speaking, L&H Voice Xpress. Những phần mềm này cung cấp các chức năng chủ
yếu như: nhập văn bản vào máy, đọc văn bản thành lời, duyệt Web bằng giọng nói.
Công nghệ tổng hợp và nhận dạng tiếng nói có ý nghĩa rất lớn trong giao tiếp
người-máy: thay vì giao tiếp với máy tính qua những biểu tượng và cửa sổ, các máy
tính trong tương lai chỉ giao tiếp với con người bằng những mệnh lệnh đơn giản.
Hiện nay đã có nhiều phương pháp tổng hợp tiếng nói được nghiên cứu và
ứng dụng trong thực tế như: tổng hợp theo cấu âm, tổng hợp bằng ghép nối, cách
điệu hóa đường F0 và hiện tượng ngôn điệu, tâm lý, … Tuy nhiên, vấn đề tổng hợp
giọng tự nhiên cho tới nay vẫn là một vấn đề mở, ngay cả trong các ngôn ngữ châu
Âu thông dụng như tiếng Anh. Đó là do chất lượng tiếng nói tổng hợp còn phụ
thuộc vào rất nhiều các yếu tố khác như:

 Bộ đơn vị ngữ cảnh (bộ tham số cấu âm hoặc đoạn sóng âm ngắn),

 Bộ chuẩn hóa văn bản,


6
 Bộ xử lý ngôn ngữ: từ, câu,…
 Tối ưu hóa chọn đơn vị ngữ cảnh,
 Các hiện tượng ngôn ngữ tiếng Việt: dính âm, biến thanh, năng lượng,
trường độ thanh,
 Các hiện tượng ngôn điệu: thanh điệu trong câu, trường độ.
Tổng hợp tiếng Việt hiện nay mới đạt ở mức độ đọc rõ ràng trong khi các
ứng dụng thực tế đòi hỏi giọng tổng hợp phải tự nhiên như người nói.
Trên cơ sở đó, mục đích của luận văn nhằm nghiên cứu và thử nghiệm một
số kỹ thuật và mô hình xử lý ngôn điệu để nâng cao chất lượng giọng tổng hợp
trong phần mềm tổng hợp tiếng Việt VnVoice 1.0.
Luận văn sẽ được chia thành 4 chương bao gồm:
Chƣơng 1: Tổng quan về tổng hợp tiếng nói. Chương này trình bày khái
quát về tổng hợp tiếng nói và lịch sử phát triển cũng như ứng dụng của nó. Hơn
nữa, chương 1 còn giới thiệu một số kỹ thuật tổng hợp tiếng nói đã được sử dụng
trên thế giới.
Chƣơng 2: Các thành phần cơ bản của hệ thống tổng hợp. Chương này
giúp người đọc hiểu rõ hơn về một hệ thống tổng hợp bao gồm những thành phần
cơ bản nào.
Chƣơng 3: Một số phƣơng pháp cải tiến chất lƣợng giọng tổng hợp.
Chương này trình bày việc phân tích và đánh giá chất lượng giọng tổng hợp theo
các cách tiếp cận khác nhau.
Chƣơng 4: Thử nghiệm cải tiến giọng đọc tổng hợp tiếng Việt trong
phần mềm VnVoice. Chương này là chương trọng tâm của luận văn. Chương này
áp dụng một số phương pháp cải tiến chất lượng và kết quả.
Trong luận văn, các trích dẫn của các tác giả khác liên quan đến lĩnh vực
nghiên cứu đặt trong dấu ngoặc vuông [].







7
BẢNG CÁC TỪ VIẾT TẮT
Viết
Nghĩa
CART
Classification and regression trees
(Cây phân lớp hồi quy)
CSDL
Cơ sở dữ liệu
F0
Formant 0 (Tần số formant cơ bản)
H/S
Harmonic/Stochastic
LPC
Linear Prediction Coding
MOS
Mean Opinion Score
NLP
Natural Language Processing
MLPS
Multivariate Adaptive Regression Splines
PSOLA
Pitch-Synchronous Overlap and Add
TD-PSOLA

Time-Domain Pitch-Synchronous Overlap and Add



8
BẢNG CÁC THUẬT NGỮ ANH-VIỆT
Tiếng Anh
Tiếng Việt
Codebook
Sách mã
Context
Ngữ cảnh
Classification
Phân lớp
Corpus
Cơ sở dữ liệu tiếng nói
Diphthong
Nguyên âm đôi
Diphone
Hai nửa của hai âm vị liền nhau
Duration
Trường độ
Front-end processing
Xử lý đầu cuối
Intelligibility
Tính dễ hiểu
Naturalness
Tính tự nhiên
Pitch
Tần số cơ bản

Phoneme
Âm vị
Syllable
Âm tiết
Semi-vowel
Bán nguyên âm
Spectrogram
Biểu đồ phổ
Tone
Thanh điệu
Triphone
Âm ba
Voiced
Hữu thanh
Unvoiced
Vô thanh







9
Chƣơng 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG
NÓI
1.1. Giới thiệu
Tổng hợp tiếng nói là một bộ môn khoa học nhằm nghiên cứu và xây dựng
các công nghệ để tạo ra âm thanh tiếng nói từ máy giống như tiếng nói của người.
Trong những năm gần đây tiếng nói tổng hợp đã trải qua chặng đường khá

dài, việc ứng dụng tổng hợp tiếng nói vào thực tiễn đã trở thành hiện thực. Tuy
nhiên, chất lượng âm thanh và độ tự nhiên của tiếng nói cho đến nay vẫn còn là
những vấn đề lớn.
1.2. Lịch sử phát triển và ứng dụng tổng hợp tiếng nói
Tạo ra tiếng nói bằng máy là một ước mơ của loài người và là mục tiêu thách
thức các nhà khoa học trên thế giới nhiều thế kỉ qua. Máy nói đầu tiên do Wolfgang
Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của người đã có thể
phát ra được một vài âm tố. Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà
khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong việc
mô hình hoá cộng hưởng của ống thanh bằng linh kiện điện tử. Hệ thống điều khiển
nhân công 10 bộ cộng hưởng bằng các nhóm và chiết áp đã có thể tạo ra một số câu
nói có thể nghe được. Từ giữa những năm 1950 trở lại đây, sự ra đời của máy tính
điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều khiển bộ tổng
hợp tiếng nói. Cùng với sự phát triển như vũ bão của khoa học và công nghệ thập kỉ
80, 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển rất quan trọng có sự
đóng góp rất lớn của máy tính và xử lý tín hiệu số. Sự tiến bộ này được thúc đẩy do:
 Khả năng tính toán của máy tính nhanh lên gấp nhiều lần, số lượng dữ liệu
được lưu trữ ngày càng lớn, trong khi giá thành ngày càng rẻ.
 Khả năng xây dựng và truy cập tới các cơ sở dữ liệu âm thanh và văn bản
ngày càng dễ dàng.
 Công nghệ nhận dạng tự động âm thanh tiếng nói được hoàn thiện với độ
chính xác ngày càng cao, trợ giúp việc tự động phân đoạn âm thanh tiếng nói


10
cho phép tạo ra kho âm thanh rất lớn phục vụ cho việc phân tích và
tổng hợp tiếng nói.
 Nếu tiếng nói cũng như chữ viết là chuỗi liên tiếp các dấu cơ bản được định
nghĩa rõ ràng và mang tính hiển thị, thì các vấn đề nhận dạng cũng như tổng
hợp tiếng nói đã được giải quyết cách đây 20 năm. Tuy nhiên bản chất của

tiếng nói rất phức tạp, là hiệu ứng liên cấu âm quyện các âm tố thành dòng
thanh liên tục và mang ngôn điệu dưới dạng sóng truyền vật lí, nên nhận
dạng và tổng hợp tiếng nói trở nên hết sức khó khăn. Mặc dù các nhà khoa
học trên thế giới của nhiều nước khác nhau với nhiều trường phái khác nhau
đã nghiên cứu và đưa ra nhiều công trình thực tế, nhưng việc tổng hợp tiếng
nói từ văn bản đã chưa bao giờ là hoàn hảo, khi động chạm tới những ngôn
ngữ có số lượng từ không hạn chế với đòi hỏi đạt tới mức tự nhiên trôi chảy
như tiếng nói con người.
Mặc dù vậy, những kết quả đạt được còn hạn chế, nhưng cũng đã phần nào
được ứng dụng có thể nói là thành công trong nhiều lĩnh vực cụ thể, đem lại những
kết quả nhất định.
Các ứng dụng này tập trung ở các lĩnh vực sau:
• Học ngoại ngữ
Tổng hợp từ văn bản có thể hỗ trợ cho người nước ngoài học ngoại
ngữ. Ứng dụng này đòi hỏi tiếng nói tổng hợp phải có chất lượng tốt. Hầu
hết các phần mềm loại này chưa thực sự đáp ứng được yêu cầu của người sử
dụng.
• Trợ giúp người tàn tật
Hệ thống tổng hợp tiếng nói cùng với hệ thống quang học nhận dạng
chữ viết có thể đọc các văn bản in cho người mù. Giúp người mất khả năng
nói có thể nói qua hệ thống TTS, bằng cách soạn thảo văn bản bằng bàn
phím và phần mềm thiết kế cho phép ghép nhanh các câu. Giáo sư vật lý
thiên văn học người Anh Stephan Hawking, người đưa ra lý thuyết vụ nổ
BIG BANG giảng bài cho sinh viên thông qua các hệ thống này.
• Truyền thông tin bằng âm thanh


11
Một hệ thống tổng hợp tiếng nói rất hữu ích cho việc kiểm tra
chính tả các văn bản trên máy tính vì khi nghe dễ dàng phát hiện lỗi hơn so

với kiểm tra bằng mắt.
Trong các hệ thống đo đạc điều khiển, khi mắt phải thực hiện các
quan sát thì các thông tin bằng âm thanh rất cần thiết. Ngoài ra bản tin và
mệnh lệnh phát ra bằng âm cũng dễ tiếp thu hơn thông báo viết.
• Trong lưu trữ và khai thác dữ liệu
Giờ đây có thể tích kiệm không gian lưu trữ âm bằng cách thay thế
bằng các văn bản tương ứng, tất nhiên là trong trường hợp giọng người nói là
không quan trọng. Hơn thế các văn bản bàng chữ bao giờ cũng dễ sắp xếp và
tìm kiếm hơn dữ liệu âm thanh.
• Trong viễn thông
Tiếng nói tổng hợp đã được sử dụng nhiều trong các ứng dụng trả lời
trực tuyến IVR, trên nhiều mạng viễn thông hiện đại như Mỹ, châu Âu và
Nhật mà tiêu biểu là dự án MIVA với các dịch vụ điện thoại kích hoạt bằng
thanh đa ngữ trực tuyến.
Các hệ thống thông tin tích hợp thông điệp hợp nhất (Unified
Meessaging) có khả năng đọc tự động nội dung các bức thư điện tử và các
bức FAX và các thông tin trên Net qua máy điện thoại cố định hoặc các máy
di động.
Truy cập thông tin qua điện thoại và tự động tra cứu danh bạ điện
thoại hai chiều bằng máy điện thoại…
• Thông tin đa phương tiện
Trong kỷ nguyên thông tin, hệ thống tổng hợp tiếng nói là một nửa
bắt buộc của thông tin hai chiều giữa người và máy.
Hệ thống dịch tự động được coi là một thành tựu khoa học lớn của
nhân loại vào những năm đầu thế kỷ 21 phải sử dụng hệ thống tổng hợp tiếng
nói ở đầu ra.
• Các ứng dụng khác


12

Tổng hợp tiếng nói được ứng dụng trong các trò chơi, trong các
thiết bị báo động, báo chát, hệ thống chống trộm, các thiết bị gia đình và các
thiết bị giải trí khác.
Vấn đề Tổng hợp tiếng Việt
Tổng hợp tiếng nói từ văn bản là một ngành khoa học nhận dạng liên quan
đến nhiều ngành khoa hoc khác như: ngôn ngữ, xử lý tín hiệu và khoa học máy tính.
Hiện nay với nỗ lực nghiên cứu của các nhà khoa học công nghệ trên thế giới, chất
lượng âm thanh tổng hợp hiện tại đã vượt qua ngưỡng nghe hiểu đơn giản và đang
tiến dần tới mức độ nói tự nhiên của con người. Trong một số ứng dụng ngôn ngữ
hẹp, chất lượng âm thanh đã gần như không thể phân biệt với ngôn ngữ tự nhiên.
Trong xu thế hội nhập thế giới, cùng với sự hấp dẫn của khoa học nhận dạng,
ở Việt Nam trong những năm vừa qua đã có những đề tài nghiên cứu về tổng hợp
tiếng nói và bước đầu đã đạt được những thành tựu nhất định. Công nghệ cho việc
tổng hợp tiếng nói từ văn bản có số từ vựng không hạn chế chất lượng cao có những
phức tạp chung là một lẽ, song một vấn đề nữa là nó còn phụ thuộc từng ngôn ngữ
riêng biệt. Không thể lấy các phần mềm tổng hợp tiếng nói Anh, Pháp, Đức, Nhật,
để đọc văn bản chữ Việt. Hơn nữa tiếng Việt là một ngôn ngữ đơn âm đa thanh
điệu. Vì vậy không ai khác mà chính là các nhà khoa học Việt Nam phải tự tiến
hành xâu dựng công nghệ tổng hợp tiếng nói cho mình.
Việt Nam đang bước vào thời kì phát triển nhanh chóng về CNTT, nó cho
phép chúng ta có những nền tảng khoa học, cơ sở vật chất để có thể nghiên cứu
cũng như triển khai các ứng dụng về khoa học công nghệ trong cuộc sống.
1.3. Đặc điểm ngữ âm tiếng Việt
Khi giao tiếp con người phát ra những chuỗi âm thanh nhất định, ta gọi là
dòng ngữ lưu (utterance). Trong từng dòng ngữ lưu, nếu đem chia cắt chúng ra, ta
sẽ thu được những đơn vị cấu thành nhỏ hơn, đó là âm tiết, âm tố và âm vị. Trong
đó, âm tiết là đơn vị phân chia tự nhiên nhất trong lời nói, là đơn vị phát âm nhỏ
nhất. Mỗi âm tiết là một tiếng.
Ví dụ lời nói: ”Hà Nội là thủ đô của nước Việt Nam” có 9 âm tiết.



13
Về mặt sinh lý – vật lý, âm tiết được định nghĩa là một đơn vị mà khi
phát âm được đặc trưng bởi sự căng lên rồi chùng xuống của cơ thịt trong bộ máy
phát âm.
Trong mỗi âm tiết, chỉ có một âm tố có khả năng tạo thành âm tiết (gọi là âm
tố âm tiết tính), còn lại là các yếu tố đi kèm, không tự mình tạo thành âm tiết được.
Âm tố âm tiết tính thường được phân bố ở trung tâm, làm hạt nhân âm tiết. Đó
thường là các nguyên âm. Điều này dẫn đến hệ quả là một âm tiết khi được phát ra
thì phần năng lượng tập trung nhiều nhất ở phần giữa âm (có biên độ cao), đi về đầu
và cuối âm tiết thì năng lượng giảm dần (xem hình 1.1).

Hình 1.1: Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm. Mỗi âm tiết có
biên độ lớn ở giữa âm và nhỏ dần ở đầu và cuối âm.
Tiếng Việt là tiếng đơn âm có thanh điệu. Nó là ngôn ngữ có kết cấu âm tiết
tính. Một đặc điểm của tiếng Việt là âm tiết trùng hình vị (đơn vị nhỏ nhất có
nghĩa). Nói cách khác, một âm tiết là một hình thức biểu đạt của một hình vị. Ví dụ,
từ học sinh có hai hình vị, mỗi hình vị có vỏ ngữ âm là một âm tiết là học và sinh.
Là vỏ ngữ âm của một hình vị hay một từ đơn nên mỗi âm tiết tiếng Việt bao
giờ cũng tương ứng với một ý nghĩa nhất định. Chính vì vậy, việc phá vỡ hay xê
dịch vị trí của các âm vị trong một đơn vị âm tiết là điều khó có thể xảy ra. Nói cách
khác, cấu trúc của âm tiết tiếng Việt là một cấu trúc chặt chẽ. Vì thế, từ ”cá canh” sẽ
không bị nối thành ”các anh”, ”cảm ơn” không bị đọc thành ”cả mơn”,
Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-Ấn,
tiếng Việt có số âm tiết hữu hạn với 17000 vỏ ngữ âm có khả năng và 6900 âm tiết
tồn tại thực.


14
Âm tiết, hình vị tiếng Việt cố định, không thay đổi theo ngữ pháp về

thời, giống và số như các ngôn ngữ khác. Âm tiết tiếng Việt có cấu trúc chặt chẽ với
các loại âm ở các vị trí cố định trong thành phần âm tiết.
Một đặc điểm nổi bật khác của tiếng Việt là thanh điệu. Mỗi âm tiết đều
mang một thanh điệu nhất định. Thanh điệu là một tập hợp những đặc trưng có liên
quan đến độ cao (phụ thuộc tần số rung động của dây thanh âm) của thanh cơ bản
trong âm tiết. Nó được thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết,
nhất là các âm đoạn nguyên âm tính (nguyên âm và bán nguyên âm) và các đoạn
phụ âm mũi.
Thanh điệu có thể phân tích thành hai thành phần thường xuyên kết hợp với
nhau: âm vực (độ cao của thanh cơ bản) và âm điệu (hướng chuyển biến cao độ-độ
tăng giảm của tần số) trong quá trình thể hiện. Vì vậy, mỗi thanh điệu có thể được
miêu tả như một sự kết hợp của hai thông số nói trên.
Hệ thống thanh điệu tiếng Việt gồm sáu thanh là ngang (không dấu), huyền,
ngã, hỏi, sắc, và nặng. Thanh điệu trong tiếng Việt kết hợp với các thành phần của
âm tiết tạo thành các từ khác nhau, ví dụ như: thanh/ thành/ thánh/ thạnh…Trong
tiếng Việt không phải vần nào cũng phát âm đủ sáu thanh. Đối với âm tiết đóng chỉ
có hai thanh sắc và nặng, ví dụ: tắc, tặc…
Ngoài các tính chất ngữ điệu như các ngôn ngữ Âu-Ấn, tần số cơ bản F0 là
thành phần chính của hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm
tiết. Hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm tiết. Hệ thống thanh
điệu tiếng Việt là loại phức tạp nhất trong các ngôn ngữ đơn lập âm tiết tính (tiếng
Thái có 5 thanh, tiếng Trung Quốc có 4 thanh).
Trong tiếng Việt, âm tiết có cấu trúc chặt chẽ và ổn định, mỗi âm vị là một vị
trí nhất định trong âm tiết, tạo thành cấu trúc âm tiết tiếng Việt.
*Cấu trúc âm tiết tiếng Việt
Âm tiết tiếng Việt được tạo thành bởi ba thành phần có mức độ độc lập khác
nhau là phụ âm đầu, phần vần và thanh điệu. Về cấu trúc, âm tiếng Việt có cấu trúc
hai bậc. Bậc một gồm ba thành phần là thanh điệu, phị âm đầu và vần. Bậc hai là
các thanh to của phần vần gồm âm đệm là bán nguyên âm, nguyên âm chính và phụ



15
âm hay bán nguyên âm cuối. Các thành phần âm tiết được trình bày như hình 1.2
dưới đây:
Thanh điệu
Âm đầu
Phần vần
Âm đệm
Âm chính
Âm cuối
Hình 1.2: Cấu trúc âm tiếng Việt.
1.3.1. Âm đầu
Là yếu tố mở đầu âm tiết. Trong tiếng Việt có 21 phụ âm. Phụ âm mang tính
độc lập do không tham gia vào việc thay đổi về trường độ giữa các yếu tố bên trong
âm tiết.
Đặc điểm âm đầu
 Khi phát âm, luồng hơi bị cản trở do sự xuất hiện chướng ngại vật trên lối ra
của đường không khí. Điểm có chướng ngại gọi là vị trí cấu âm.
 Bộ máy phát âm không căng thẳng toàn bộ mà chỉ căng thẳng phần cơ thịt ở
vị trí cấu âm.
 Luồng hơi ra mạnh.


Phân loại
 Phân chia theo mối quan hệ giữa tiếng thanh và tiếng ồn trong cấu tạo
của âm đầu
Các phụ âm đầu được chia thành các phụ âm vang (tiếng thanh nhiều hơn
tiếng ồn) và phụ âm ồn. Trong các phụ âm ồn lại chia thành các phụ âm hữu
thanh (phát âm có sự tham gia của tiếng thanh do dây thanh rung động) và
phụ âm vô thanh (phát âm không có sự tham gia của tiếng thanh).

Nhóm phụ âm vang có thể coi là nhóm trung gian giữa các nguyên âm và
phụ âm ồn. Khi phát âm các phụ âm vang, chướng ngại được tạo thành
nhưng có thể là chỗ tắc yếu hoặc không khí không những trực tiếp vượt qua
chỗ có chướng ngại mà còn đi ra tự do qua mũi (như các phụ âm [m], [n]
trong tiếng Việt).


16
 Phân chia theo phương thức cấu
tạo tiếng ồn
 Phụ âm tắc: tạo thành khi hai khí quản tiếp xúc nhau, tạo thành chỗ tắc, cản
trở hoàn toàn lối ra của luồng không khí. Ví dụ như các phụ âm [p], [b], [d],
[t].
 Phụ âm xát: tạo thành khi hai khí quản nhích lại gần nhau, làm cho lối ra
của luồng không khí bị thu hẹp; luồng không khí đi qua khe hẹp này cọ xát
vào thành của bộ máy phát âm. Ví dụ, các phụ âm [v], [s], [h].
 Phụ âm rung: tạo thành khi các khí quản dễ rung động (như đầu lưỡi, lưỡi
con hay môi) nhích lại gần nhau tạo thành một khe hở rất hẹp hay một chỗ
tắc yếu, luồng không khí đi ra mạnh làm cho các khí quản ấy rung lên. Ví dụ
phụ âm [r].
Trong các cấu âm của phụ âm, người ta thường phân biệt ba giai
đoạn:
 Giai đoạn tiến: khí quản phát âm chuyển đến vị trí cấu âm
 Giai đoạn giữ: khí quản phát âm ở vị trí cấu âm
 Giai đoạn lùi: khí quản phát âm rời khỏi vị trí cấu âm
Hai giai đoạn đầu giống nhau ở bất kỳ âm tắc nào. Về giai đoạn thứ
ba, cần phân biệt các tiểu loại âm tắc: âm nổ, âm mũi, âm tắc-xát và âm khép
 Phân chia theo vị trí tạo ra tiếng ồn
Theo vị trí cấu tạo tiếng ồn, các phụ âm được chia ra thành các loại chính:
phụ âm môi, răng, ngạc mạc, lưỡi con, yết hầu, thanh hầu.

Theo khí quản chủ động, các phụ âm được chia thành các loại: phụ âm môi,
lưỡi trước, lưỡi giữa, lưỡi sau, lưỡi con, yết hầu, thanh hầu.
Trong các nhóm này, có một số cần chia nhỏ nữa. Ví dụ trong các âm môi,
người ta phân biệt các âm hai môi, thường gọi là âm môi-môi ([b], [p], [m]).
Với các âm một môi, thường gọi là âm môi-răng ([v]); các âm lưỡi trước
thường chia thành nhiều nhóm nhỏ nhưng đáng chú ý là âm đầu lưỡi và âm
quặt lưỡi,


17
1.3.2. Phần vần
Theo như lược đồ âm tiếng Việt ở trên thì phần vần đầy đủ gồm ba thành
phần là âm đệm, âm chính, và âm cuối. Ví dụ như âm tiết /toán/ có phần vần là
/oan/, trong đó âm vị /o/ là âm đệm, âm vị /a/ là âm chính và /n/ là âm cuối.
1.3.2.1. Âm đệm
Đóng vai trò là âm lướt trong kết cấu âm tiết. Âm đệm ảnh hưởng đến cách
mở đầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ ”toàn” khi phát âm có hiện
tượng tròn môi do tác động của âm đệm/-u-/, còn chữ ”tàn” thì không có hiện tượng
tròn môi do không có âm đệm.
1.3.2.2. Âm chính
Là nguyên âm âm tiết tính trong âm tiết. Âm tiết chính có thể là một nguyên
âm đơn hay nguyên âm đôi.
Âm chính gồm một hệ thống nguyên âm gồm 11 nguyên âm đơn /a, ă, â, e, ê,
o, ô, ơ, u, ư, i/ và ba nguyên âm đôi /iê, ươ, ưa/. Âm chính là yếu tố tạo nên đỉnh âm
thanh, có biên độ và cường độ lớn nhất trong các thành phần âm tiết.
Đặc điểm
 Khi phát âm, luồng hơi không bị cản trở bởi lưỡi, răng hay môi
 Bộ máy phát âm căng thẳng toàn bộ
 Luồng hơi ra yếu hơn phụ âm
Phân loại

Các nguyên âm không thể phân chia theo tiêu chuẩn như của phụ âm. Về mặt
phương thức cấu âm, nguyên âm chỉ thuộc vào một phương thức đó là luồng hơi ra
tự do. Nguyên âm không có vị trí cấu âm vì các khí quản không tạo thành khe, cũng
không tạo thành chỗ tắc. Các nguyên âm cũng không thể phân loại theo tiếng thanh,
vì bình thường, bất kỳ nguyên âm nào cũng có tiếng thanh.
Các nguyên âm chỉ khác nhau ở các hoạt động của khí quản phát âm, trong
đó quan trọng nhất là lưỡi. Vì sự thay đổi vị trí của lưỡi gây ra sự khác nhau rất lớn
giữa các nguyên âm. Lưỡi chuyển động tới-lui và lên xuống trong khoang miệng và
tạo nên những tương quan phức tạp giữa các khoang cộng minh (khoang miệng và
mũi), làm thay đổi hình dáng và thể tích của chúng. Môi tròn lại và đưa về trước,


18
làm kéo dài lối thoát của luồng không khí, hoặc môi chành ra, làm cộng minh
trường phía trước ngắn lại.
Người ta thường phân loại nguyên âm theo vị trí của lưỡi, độ nâng của lưỡi
và hình dáng môi
 Theo vị trí của lưỡi
Gồm các nguyên âm dòng trước (khi lưỡi dồn về trước), nguyên âm dòng
sau (khi lưỡi dồn về sau) và nguyên âm dòng giữa (khi lưỡi ở giữa miệng
nâng lên). Ví dụ, trong tiếng Việt, các nguyên âm dòng trước là [i], [e], [ê],
nguyên âm dòng sau là [u], [o], [ô], nguyên âm dòng giữa là [ư], [ơ], [a].
 Theo độ nâng của lưỡi
Các nguyên âm được chia tùy theo từng ngôn ngữ. Độ nâng của lưỡi tương
ứng với độ mở của miệng nên các nguyên âm có độ nâng cao còn gọi là
nguyên âm hẹp, nguyên âm có độ nâng thấp còn gọi là nguyên âm mở. Trong
ngữ âm học đại cương không có một cách phân loại tuyệt đối theo độ nâng
lưỡi vì mỗi ngôn ngữ có một hệ thống nguyên âm khác nhau. Ví dụ, các
nguyên âm dòng trước trong tiếng Pháp có 4 độ nâng, các nguyên âm trong
tiếng Ðức có 5 độ nâng, tiếng Nga có 3 độ nâng, tiếng Anh có 6 độ nâng.

Trong tiếng Việt, các nguyên âm đơn có thể chia thành 4 nâng:
Bảng 1.1: Phân chia nguyên âm theo độ nâng của lưỡi.
Ðộ nâng
Gồm các nguyên âm
Hẹp
[i], [u], …
Hơi hẹp
[ê], [u], …
Hơi rộng
[o], [e], …
Rộng
[a], [a], …
 Theo hình dáng môi
Các nguyên âm được chia thành nguyên âm tròn môi ([u], [ô], [o]), nguyên
âm không tròn môi ([i], [ê], [e], [ư], [ơ], [a]). Sự tròn môi rõ nhất ở nguyên
âm khép và yếu nhất ở nguyên âm mở.


19
1.3.2.3. Âm cuối
Là âm kết thúc âm tiết. Các âm tiết tiếng Việt thường đối lập bằng những
cách kết thúc khác nhau. Một số âm tiết kết thúc bằng sự kéo dài và giữ nguyên, ví
dụ: má, đi, cho, Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở
phần cuối do sự đóng lại của các âm cuối tham gia, ví dụ như một, mai, vàng,
Trong trường hợp đầu, ta có các âm cuối là âm vị /zero/, trong trường hợp sau ta có
các âm cuối là những âm vị bán nguyên âm hoặc phụ âm.
Hệ thống âm cuối tiếng Việt bao gồm hai bán nguyên âm là /i, o/ và sáu phụ
âm /m, n, ng (nh), p, t, c/.
1.3.3. Thanh điệu
Thanh điệu là loại âm vị siêu đoạn tính, nó được biểu lộ trong toàn bộ phần

hữu thanh của âm tiết. Ở mức vật lý, phần thanh của thanh điệu chính là đường nét
của tần số âm cơ bản F0. Về cảm thụ, thanh điệu là sự cảm nhận về thay đổi của cao
đọ tần số cơ bản F0 của âm tiết.
Sáu thanh điệu tiếng Việt được chia thành hai nhóm lớn bằng và trắc. Thanh
không dấu và thanh huyền thuộc loại thanh bằng có đường nét tương đối đơn giản.
Thanh ngã, thanh hỏi, thanh sắc và thanh nặng là những thanh trắc có đường nét
thanh điệu phức tạp. Các thanh ngang, sắc, ngã thuộc âm vực cao, còn các âm
huyền, hỏi và nặng thuộc âm vực thấp.
Trong các công trình nghiên cứu đã được công bố, đường nét thanh điệu
tiếng Việt cho những âm tiết rời rạc (phương ngữ Bắc Bộ) được đánh giá tương đối
thống nhất. Ngoài tính chất thanh tính, các thanh điệu còn có một số đặc trưng phi
điệu tính như hiện tượng yết hầu hoá, thanh hầu hoá,… tạo thành hệ thống các đặc
trưng phụ để phân biệt các thanh điệu đặc biệt của thanh ngã và sắc, thanh hỏi,
thanh nặng.
*Phân loại âm tiết tiếng Việt
Phụ thuộc vào cách thức kết thúc, âm tiết tiếng Việt được chia thành 4 loại
như trong bảng 1.2:
Bảng 1.2: Phân loại âm tiết tiếng Việt.


20
STT
Loại âm tiết
Đặc điểm
Ví dụ
1
Âm mở
Là các loại âm tiết không có âm cuối, kết
thúc âm tiết bằng nguyên âm chính
Ma, mẹ, …

2
Âm nửa mở
âm cuối kết thúc âm tiết là một bán
nguyên âm
Mai, sau,
3
Âm đóng
Khi âm cuối là một phụ âm tắc vô thanh
Tập, học,
4
Âm nửa đóng
Khi âm cuối là một phụ âm mũi
Làm, ngành,

1.4. Một số đặc trƣng của âm vị về mặt âm học
Sự phân loại các âm vị về mặt âm học đã được xây dựng dựa trên âm phổ.
Các máy phân tích âm phổ cho chúng ta các ảnh phổ (spectrogram), qua đó các âm
vị thể hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ,
Để biểu diễn phổ tiếng nói tại một thời điểm t, người ta dùng một biểu đồ với
trục ngang biểu diễn các tần số (Hz) tham gia cấu âm thành âm thanh tại thời điểm t
và trục đứng với cường độ tương ứng (dB).

Hình 1.3: Phổ (spectrum) của một nguồn âm thanh tại thời điểm t.
Để biểu diễn phổ tiếng nói theo sự biến thiên thời gian, người ta dùng ảnh
phổ với trục ngang biểu diễn thời gian, trục đứng biểu diễn tần số, cường độ của


21
mỗi sóng có tần số f
i

tại thời điểm t
i
được biểu diễn bằng 1 chấm. Nếu cường
độ càng mạnh thì chấm biểu diễn càng đậm.
Ngoài ra còn có thể biểu diễn ảnh phổ của tiếng nói theo sự biến thiên thời
gian trong không gian 3 chiều. Khi đó, phổ thu được có dạng như thác nước và
người ta gọi đó là ảnh phổ thác nước (Waterfall Spectrogram).

Hình 1.4: Ảnh phổ của tiếng ”hai” và sóng âm tương ứng. Những vùng có
cường độ cao (vùng đen) tạo thành những dải bắt ngang qua ảnh phổ,
đó là những vệt formant, được đánh số từ dưới lên F1, F2, F3,
Dựa trên đặc điểm của ảnh phổ, âm vị được chia thành 12 đặc trưng sau:
 Nguyên âm-không nguyên âm
Đặc trưng của nguyên âm: được thể hiện bằng các cấu trúc formant. Có đặc
trưng nguyên âm là nguyên âm và các âm vang. Không có đặc trưng nguyên âm
là các âm ồn.
 Phụ âm-không phụ âm
Đặc trưng âm học của phụ âm là có mức năng lượng thấp, nếu có mức năng
lượng cao là nguyên âm.
Có đặc trưng phụ âm là các phụ âm vang và ồn.
 Bổng-Trầm
Những âm bổng có tần số lớn, còn những âm trầm có tần số nhỏ. Những âm
trầm thường được đặc trưng bằng sự phân bổ năng lượng tập trung ở phần dưới
của phổ.


22
Âm bổng gồm các nguyên âm hàng trước, phụ âm răng, các phụ âm lưỡi
trước, lưỡi giữa. Âm trầm là các nguyên âm hàng sau, các phụ âm môi và phụ
âm lưỡi sau.

 Loãng-đặc
Đặc trưng âm học của tiêu chí đặc là có vùng formant ở trung tâm của phổ, đối
lập với loãng là trên phổ hình có một hay một số formant phân bố xa trung tâm.
Âm đặc bao gồm các nguyên âm không thuộc độ nâng cao, các phụ âm lưỡi,
lưỡi giữa và lưỡi sau. Các âm loãng bao gồm những âm có độ nâng của lưỡi cao
(nguyên âm khép), những phụ âm răng, phụ âm môi [i], [u], [ư] trong tiếng Việt.
 Ngắt-không ngắt
Đó là sự đối lập giữa có và không có sự chuyển tiếp đột ngột giữa sự có mặt và
vắng mặt của âm thanh. ”Các phụ âm xát thường có khởi âm từ từ. Ngược lại,
các phụ âm tắc thường có sự ngắt đột ngột sóng âm đi trước bằng một khoảng
im lặng hoàn toàn” [15].
Âm ngắt bao gồm các phụ âm tắc (trừ nhóm mũi). Còn lại (nguyên âm, phụ âm
xát, phụ âm mũi) là những âm không ngắt.
 Gắt-không gắt
Đó là sự đối lập của cường độ lớn hay nhỏ của tiếng ồn. Trên phổ hình, các âm
gắt có vùng tối thay đổi sắc thái rõ rệt.
Những phụ âm gắt bao gồm các phụ âm xát điển hình, các âm tắc-xát, bật hơi,
phụ âm rung. Những laọi hình âm còn lại là những âm không gắt.
 Căng-lơi
Những âm căng là những âm có độ dài lớn, năng lượng lớn và có thanh cộng
hưởng thể hiện rõ trên phổ hình.
Âm căng bao gồm các phụ âm mạnh và nguyên âm đặc. Âm lơi bao gồm những
phụ âm yếu và các nguyên âm loãng.
 Hữu thanh-vô thanh
Đó là sự đối lập giữa có hay không những dao động điều hòa ở vùng tần số thấp.
Âm hữu thanh bao gồm các nguyên âm, phụ âm vang và phụ âm hữu thanh.


23
 Mũi-miệng (hay Mũi-không

mũi)
Phổ hình của các âm mũi có mật độ formant dày hơn so với các âm miệng tương
ứng. Ở các nguyên âm mũi giữa F1 và F2 xuất hiện thêm một formant phụ, và
đồng thời có sự giảm cường độ của F1 và F2.
Trong tiếng Việt có các âm mũi được thể hiện bằng các chữ cái; m, n, nh, ng.
 Giáng-không giáng
Các âm giáng là những âm trầm hóa – có một hoặc một số các formant của nó bị
hạ thấp so với các âm không giáng. Các nguyên âm tròn môi như [u], [ô], [o]
trong tiếng Việt và những phụ âm đứng trước [u], [ô], [o] bị môi hóa đều là
những âm giáng.
 Thăng-không thăng
Ngược lại so với âm giáng, chúng là những âm bổng hóa-các nguyên âm hàng
trước thường là các âm có một trong số các formant cao hơn các âm không
thăng tương ứng.
 Thanh hầu hóa-không thanh hầu hóa
Các âm thanh hầu hóa đặc trưng bởi tốc độ biến đổi năng lượng lớn trong một
khoảng thời gian ngắn.
Trong tiếng Việt, âm thanh hầu hóa đặc trưng bởi tốc độ biến đổi năng lượng
lớn trong một khoảng thời gian ngắn.
Trong tiếng Việt, âm thanh hầu hóa có thể xuất hiện trong các âm tiết vắng phụ
âm đầu như ăn, uống, uể, oải, hoặc trước các phụ âm hữu thanh, đặc biệt là
trước [b], [đ], và [l].
1.5. Các phƣơng pháp tổng hợp tiếng nói
Trong phần này, luận văn sẽ trình bày khái quát một số phương pháp tổng
hợp tiếng nói hiện nay và những đánh giá sơ bộ về từng phương pháp.
1.5.1. Tổng hợp theo cấu âm
Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học. Trong mô hình này,
tiếng nói được đặc trưng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của các



24
cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực
căng của dây thanh. Nó bao gồm hoạt động tương tác phi tuyến giữa nguồn kích
(chấn động dây thanh hoặc hỗn loạn không khí) và trở kháng đầu vào thay đổi theo
thời gian của ống thanh. Phương pháp này còn được gọi là tổng hợp theo mô hình
hệ thống.
Để xây dựng đặc trưng âm thanh của cơ quan phát âm, hệ thống phải tham số
hoá được hình khối ống thanh và ống mũi, phải lựa chọn được một mô hình để mô
tả sự lan truyền của sóng trong ống thanh và mô hình hoá nguồn âm (chấn động dây
thanh, dòng không khí hỗn loạn) và sự tương tác của nó với ống thanh. Phương
pháp này hiện nay chỉ hình thành trên lý thuyết, thực tế ngành khoa học phỏng sinh
chưa có đủ thông tin đầu đủ để mô phỏng theo cấu âm.
Mô hình ống thanh
Cho các âm không phải là âm mũi ta chỉ cần xem xét ống thanh có thiết diện
biến thiên từ thanh môn cho tới môi. Ống thanh thay đổi liên tục, hình dáng của
chúng phải được xác định trong khoảng thời gian vài mini giây một lần. Hình không
gian của ống thanh được mô tả theo vị trí của các cơ quan phát âm, lưỡi, môi,
hàm…
Mô hình được ứng dụng nhiều nhất là mô hình của Mermelstein với các
tham số mô tả vị trí cơ quan cấu âm.Từ mô tả cấu âm, có thể tính được các số liệu
cho hàm mặt cắt ngang ống thanh A(x) là hàm số phụ thuộc khoảng cách dọc theo
ống thanh từ thanh môn cho tới môi
Lan truyền sóng trong ống thanh
Trong nhiều cách tính đặc trưng truyền sóng trong ống thanh thì phương
pháp ma trận chuỗi được áp dụng nhiều nhất. Ma trận chuỗi (còn gọi là ma trận
ABCD) thể hiện ống thanh ở miền tần số. Với bất kỳ phần nào của ống thanh hay
của ống mũi ta có:





































in
in
in
in
out
out
U
P
K
U
P
DC
BA
U
P



25
Ma trận chuỗi K có thể thể hiện bất kỳ phần nào của bất kỳ độ dài hay
mặt phẳng cắt ngang nào của ống thanh. Tính các phần tử của K rất đơn giản nên
ống có mặt cắt không đổi.
Mô hình nguồn kích thanh
Nguồn kích thanh cho tổng hợp cấu âm sử dụng mô hình hai khối lượng của
Ishizaka và Flanagan.
Nguyên lý của tổng hợp cấu âm
Thuật toán tổng hợp theo mô hình cấu âm gồm các bước như nhau. Từ đặc tả
về các tham số cấu âm, ta tính được ma trận chuỗi từ thanh môn đến môi. Sau đó

tính hàm truyền và trở kháng đầu vào từ các phần tử A,B,C,D của ma trận. Chuyển
đổi Fourier ngược hàm truyền H và tỉ số trở kháng ta nhận được các giá trị tương
ứng ở miền thời gian. Sau đó tính áp suất p = P
5
-P
1
. Giá trị áp suất này tác động
vào bộ cộng hưởng điều khiển chuyển động dây thanh của mô hình hai khối lượng
tạo ra âm thanh tiếng nói.
Như vậy, ngoài việc mô hình hoá các cơ quan phát âm, tổng hợp theo cấu âm
cần phải xây dựng hai loại quy luật ngôn ngữ và luật vật lý. Luật vật lý mô tả như ở
trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định mối
quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói. Còn luật ngôn ngữ xác
định mối quan hệ giữa mô tả ngữ âm và các hoạt động cấu âm. Thông thường, luật
ngôn ngữ được thực hiện cho từng âm vị. Khi cấu âm cho một đơn vị, luật này xác
định thời điểm các cơ quan chuyển động, tốc độ chuyển động và mối quan hệ giữa cơ
quan này và cơ quan khác. Vì phát ra một âm vị không nhất thiết phải có sự chuyển
động của tất cả các cơ quan nên trong cùng một thời điểm cơ quan phát âm có thể
được xác định cho âm vị khác. Theo cách này thì tổng hợp theo cấu âm có thể tạo ra
các giải pháp hoàn hảo cho các trường hợp ngữ âm khó như cụm phụ âm, nguyên âm
ba.
Mô hình cấu âm và hai luật ngôn ngữ, vật lý này quyết định chất lượng tiếng
nói tổng hợp. Hiện nay, chúng ta chưa có kiến thức đầy đủ về từng chi tiết của các
loại luật, mô hình cấu âm cũng còn đơn giản vì vậy chất lượng tiếng nói tổng hợp
theo cấu âm còn rất thấp. Phương pháp tổng hợp cấu âm hiện nay chỉ dừng ở trong


26
phòng thí nghiệm hay sản phẩm mẫu mà chưa được ứng dụng thực tế. Các bộ
tổng hợp theo cấu âm là công cụ lý tưởng để nghiên cứu về cấu âm của tiếng nói và

hứa hẹn về lâu dài là giải pháp hoàn thiện nhất để tổng hợp ra âm thanh tiếng nói
giống như tiếng nói tự nhiên của con người.
1.5.2. Tổng hợp formant theo quy luật
Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình riêng
biệt là quá trình phân tích âm thanh tiếng nói để tìm ra các quy luật và tổng hợp lại
tiếng nói dựa vào các quy luật này.
Phân tích tìm quy luật
Quá trình phân tích được tiến hành trên cơ sở dữ liệu tiếng nói tự nhiên chủ
yếu bao gồm các âm tiết có dạng C-V (phụ âm – nguyên âm) hay C-V-C (phụ âm –
nguyên âm – phụ âm) của nhiều giọng nói. Cơ sở dữ liệu này tốt nhất phải bao phủ
được tất cả các hình thái ngữ âm của một ngôn ngữ.
Thuật toán dự đoán tuyến tính LPC, được sử dụng trong quá trình phân tích
phổ để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0
của tín hiệu tiếng nói. Tần số từ F1 đến F5 và băng thông W
1
đến W
5
ở phần ổn
định của các âm tố được lưu giữ dưới dạng bảng. Đó là các giá trị “đích” để tạo ra
một âm vị.
Trong tiếng nói, phần mang thông tin được quan tâm nghiên cứu nhiều hơn
là các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngược lại (C-
V và V-C). Tần số formant chuyển tiếp từ âm vị nọ sang âm vị kia được mô hình
hoá và tạo thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant. Như vậy về
cơ bản các quá trình phân tích tìm luật để mô tả sự thay đổi liên tục phổ của một
ngữ lưu bằng các formant và sự chuyển tiếp của các formant từ âm vị này sang âm
vị khác. Hệ thống quy luật bao gồm:
- Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ lưu
cũng như thời gian tồn tại của các vị trí đó.
- Luật nhằm làm trơn các formant đích.

- Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh.
Tổng hợp tiếng nói dựa trên tập luật phân tích (hay tổng hợp formant)

×