Tải bản đầy đủ (.pdf) (70 trang)

Nghiên cứu các phương pháp tổng hợp tiếng Việt cho hệ thống có tài nguyên hạn chế

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.68 MB, 70 trang )


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ



NGUYỄN TU TRUNG



NGHIÊN CỨU CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG
VIỆT CHO HỆ THỐNG CÓ TÀI NGUYÊN HẠN CHẾ



LUẬN VĂN THẠC SỸ









Hà Nội – 2011

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ




NGUYỄN TU TRUNG



NGHIÊN CỨU CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG
VIỆT CHO HỆ THỐNG CÓ TÀI NGUYÊN HẠN CHẾ


Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10

LUẬN VĂN THẠC SỸ
Người hướng dẫn khoa học: PGS.TS. Lương Chi Mai



Hà Nội – 2011
- 1 -
MỤC LỤC

MỞ ĐẦU 3
Chương 1 - TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI VÀ HỆ THỐNG TÀI NGUYÊN
HẠN CHẾ 6
1.1. Giới thiệu về tổng hợp tiếng nói 6
1.2. Các phương pháp tổng hợp tiếng nói 9
1.2.1. Tổng hợp theo cấu âm 9
1.2.2. Tổng hợp formant theo quy luật 11
1.2.3. Tổng hợp ghép nối 12

1.2.4. Tổng hợp xích chuỗi 13
1.2.5. Tổng hợp dựa trên thống kê 15
1.3. Các đặc trưng cơ bản của ngữ âm tiếng Việt 15
1.3.1. Cấu trúc âm tiết tiếng Việt 17
1.3.2. Phân loại âm tiết tiếng Việt 21
1.4. Một số đặc trưng cơ bản của ngôn điệu tiếng Việt 21
1.4.1. Tần số cơ bản F0 21
1.4.2. Trường độ 22
1.4.3. Formant 23
1.5. Giới thiệu về các hệ thống tài nguyên hạn chế 23
Chương 2 - TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN VÀ YÊU CẦU TRÊN HỆ THỐNG
TÀI NGUYÊN HẠN CHẾ 28
2.1. Các thành phần cơ bản của hệ thống tổng hợp tiếng nói từ văn bản 28
2.1.1. Thành phần xử lý ngôn ngữ tự nhiên 29
2.1.2. Phân tích văn bản 30
2.1.3. Chuyển ký tự thành âm thanh 31
2.1.4. Sinh ngôn điệu 31
2.1.5. Thành phần xử tín hiệu số 32
2.2. Tổng hợp tiếng nói trên hệ thống hạn chế tài nguyên 33
2.3. Hệ tổng hợp tiếng nói HTS 36
2.4. Hệ tổng hợp tiếng Việt VnVoice 37
2.4.1. Mô tả hệ thống 37
2.4.2. Thay đổi cao độ tần số cơ bản với PSOLOA 38
2.4.3. Làm trơn biên ghép nối các âm tiết 40
Chương 3 - TỐI ƯU HÓA LƯU TRỮ VÀ TÍNH TOÁN TÍN HIỆU TIẾNG NÓI CHO HỆ
TỔNG HỢP VNVOICE 42
3.1. Lựa chọn hệ tổng hợp cơ sở 42
3.2. Một số phương pháp biểu diễn số 43
3.3. Nén tín hiệu tiếng của các bán âm tiết với ADPCM 45
3.4. Tối ưu tính toán thuật toán ghép nối tín hiệu 50

3.5. Sơ đồ quá trình sinh tiếng nói sau khi tối ưu 51
3.6. Cấu trúc CSDL âm thanh sau khi đã tối ưu 52
3.7. Cực tiểu hóa lưu trữ các đoạn âm thanh 52
3.8. Phân tích khả năng áp dụng giải pháp tối ưu cho việc xây dựng hệ thổng hợp tiếng
Việt trên hệ thống tài nguyên hạn chế 55
Chương 4 - XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG VIỆT TRÊN HỆ THỐNG TÀI
NGUYÊN BỘ NHỚ HẠN CHẾ 56
4.1. Xây dựng chương trình thử nghiệm 56
4.1.1. Quy trình hệ thống 56
4.1.2. Chức năng hệ thống 57
4.1.3. Các lớp tham gia usecase 58
4.1.4. Biểu đồ trình tự 59
- 2 -
4.1.5. Biểu đồ lớp 60
4.1.6. Giao diện chương trình 61
4.2. Các điểm trong giải pháp được áp dụng trong VnPDA 61
4.3. Thử nghiệm khả năng tích hợp trên hệ thống tài nguyên hạn chế 62
4.4. So sánh chất lượng giọng tổng hợp giữa chương trình thử nghiệm với hệ tổng hợp
VnVoice và phiên bản VnSpeech chạy trên nền tảng Window Mobile 62
KẾT LUẬN 66
TÀI LIỆU THAM KHẢO 67





- 3 -
MỞ ĐẦU
Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu và
các phương pháp xử lý tín hiệu này. Tín hiệu tiếng nói thường được thể hiện dưới dạng

số, tức là được “số hóa”. Do đó, xử lý tiếng nói có thể được coi là giao của xử lý tín
hiệu số và xử lý ngôn ngữ tự nhiên. Trên thế giới, xử lý tiếng nói đã được nghiên cứu
từ rất lâu. Ở Việt Nam, khoảng hơn chục năm trở lại đây đã có một số sản phẩm ra đời
cả về tổng hợp và nhận dạng tiếng nói.
Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan,
người ta đã nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có
tài nguyên hạn chế để đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống
này. Do đặc thù của hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các hệ
thống này cũng cần sử dụng lượng bộ nhớ và chí phí tính toán đủ nhỏ. Và các nhà
nghiên cứu trên thế giới đã đạt được những thành công ngay cả trên những hệ thống có
tài nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính toán rất thấp.
Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây dựng hệ xử lý tiếng nói trên các
hệ thống tài nguyên hạn chế cũng đã xuất hiện trong một số năm gần đây. Các đề tài
nghiên cứu về việc chuyển hệ xử lý tiếng nói lên các hệ thống di động cầm tay và hệ
thống nhúng đã và đang triển khai đã minh chứng cho nhu cầu này.
Trên cơ sở đó, mục đích của luận văn nhằm nghiên cứu một số phương pháp
tổng hợp tiếng nói và đề xuất cách thức tối ưu trên hệ thống hạn chế tài nguyên.
Luận văn sẽ được chia thành 4 chương bao gồm:
Chương 1: Tổng quan về tổng hợp tiếng nói và hệ thống hạn chế tài
nguyên. Chương này trình bày khái quát về tổng hợp tiếng nói và lịch sử phát triển
cũng như ứng dụng của nó và một số phương pháp tổng hợp tiếng nói. Chương 1 cũng
chỉ ra một số đặc điểm của ngữ âm, ngôn điệu tiếng Việt. Ngoài ra, chương 1 còn giới
thiệu sơ lược về các hệ thống hạn chế tài nguyên.
Chương 2: Tổng hợp tiếng nói từ văn bản và yêu cầu trên hệ thống tài
nguyên hạn chế. Chương này giúp người đọc nắm được về các thành phần cơ bản của
hệ tổng hợp tiếng nói từ văn bản. Tiếp theo, chương 2 phân tích về vấn đề tổng hợp
tiếng nói trên hệ thống tài nguyên hạn chế và đưa ra những yêu cầu, điều kiện cần thiết
để một hệ tổng hợp trên máy tính có thể chuyển xuống hệ thống này. Cuối cùng,
chương 2 giới thiệu và phân tích về hai hệ tổng hợp tiếng Việt có khả năng chuyển vào
hệ thống tài nguyên hạn chế.

Chương 3: Tối ưu hóa lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng
hợp VnVoice. Chương này chỉ ra khả năng áp dụng biểu diễn số dấu chấm tĩnh để
giảm thiểu bộ nhớ và tăng tốc độ tính toán. Chương 3 còn phân tích cách thức tối ưu
hóa lưu trữ và một số thao tác tính toán của hệ tổng hợp VnVoice để thực sự đáp ứng
các yêu cầu trên hệ thống hạn chế tài nguyên.
Chương 4: Xây dựng thử nghiệm hệ thống tổng hợp tiếng Việt trên hệ
thống tài nguyên bộ nhớ hạn chế. Chương này trình bày việc phân tích, thiết kế thử
- 4 -
nghiệm hệ tổng hợp tiếng Việt trên hệ thống hạn chế tài nguyên bộ nhớ. Sau đó,
chương 4 trình bày sơ lược về việc tích hợp lõi thư viện của chương trình thử nghiệm
vào chương trình bản đồ (tích hợp trong phần mềm ArcPad) chạy trên nền WinCE.
Sau đó, chương 4 cũng trình bày một thử nghiệm so sánh chất lượng giọng tổng hợp
tiếng Việt giữa chương trình demo với phiên bản VnSpeech trên WinCE và với chính
hệ tổng hợp VnVoice.
Trong luận văn, các trích dẫn của các tác giả khác liên quan đến lĩnh vực nghiên cứu
đặt trong dấu ngoặc vuông [].

































- 5 -
BẢNG CÁC TỪ VIẾT TẮT
Viết
Nghĩa
CSDL
Cơ sở dữ liệu
F0
Formant 0 (Tần số formant cơ bản)
PSOLA
Pitch-Synchronous Overlap and Add
LPC
Linear Predictive Coding

TTS
Text to Speech
FPGA
Field Programmable Gate Array
FPAA
Field Programmable Analog Array
ASIC
Application Specific Integrated Circuits
SOC
System On a Chip
HMM
Hiden Markov Model
HTS
HMM-based Speech Synthesis System
IVR
Interactive voice response
ADPCM
Adaptive Differential Pulse Code Modulation
BẢNG CÁC THUẬT NGỮ ANH-VIỆT
Tiếng Anh
Tiếng Việt
Duration
Trường độ
Pitch
Tần số cơ bản
Phoneme
Âm vị
Syllable
Âm tiết
Tone

Thanh điệu
Unvoiced
Vô thanh
Field Programmable Gate Array
Mảng cổng lập trình được dạng trường
Field Programmable Analog Array
Mảng tương tự lập trình được dạng trường
Application Specific Integrated Circuits
Mạch tích hợp chuyên dụng
System On a Chip
Hệ thống trên chip
Hiden Markov Model
Mô hình Markov ẩn
HMM-based Speech Synthesis System
Hệ tổng hợp tiếng nói dựa trên HMM
Adaptive Differential Pulse Code
Modulation
Điều mã xung vi sai thích ứng
Linear Predictive Coding
Mã hóa tiên đoán tuyến tính







- 6 -
Chương 1 - TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI VÀ HỆ
THỐNG TÀI NGUYÊN HẠN CHẾ


1.1. Giới thiệu về tổng hợp tiếng nói
Tổng hợp tiếng nói là một lĩnh vực khoa học nhằm tạo ra tiếng nói từ văn bản
hay các mã hóa việc phát âm. Hệ thống thực hiện việc này gọi là máy tổng hợp
tiếng nói, đây có thể là một phần mềm hay đã được cứng hóa trên một thiết bị phần
cứng.
Tạo ra tiếng nói bằng máy là một ước mơ của loài người và là mục tiêu thách
thức các nhà khoa học trên thế giới nhiều thế kỉ qua. Máy nói đầu tiên do Wolfgang
Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của người đã có thể
phát ra được một vài âm tố. Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà
khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong việc
mô hình hoá cộng hưởng của ống thanh bằng linh kiện điện tử. Hệ thống điều
khiển nhân công 10 bộ cộng hưởng bằng các phím và chiết áp đã có thể tạo ra một
số câu nói có thể nghe được. Từ giữa những năm 1950 trở lại đây, sự ra đời của
máy tính điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều
khiển bộ tổng hợp tiếng nói. Cùng với sự phát triển như vũ bão của khoa học và
công nghệ thập kỉ 80, 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển
rất quan trọng với sự đóng góp rất lớn của máy tính và xử lý tín hiệu số. Sự tiến bộ
này được thúc đẩy do:
Khả năng tính toán của máy tính nhanh lên gấp nhiều lần, số lượng dữ liệu
được lưu trữ ngày càng lớn, trong khi giá thành ngày càng rẻ. Khả năng xây dựng
và truy cập tới các CSDL âm thanh và văn bản ngày càng dễ dàng.
Công nghệ nhận dạng tự động âm thanh tiếng nói được hoàn thiện với độ chính
xác ngày càng cao, trợ giúp việc tự động phân đoạn âm thanh tiếng nói cho phép
tạo ra kho âm thanh rất lớn phục vụ cho việc phân tích và tổng hợp tiếng nói.
Nếu tiếng nói cũng như chữ viết là chuỗi liên tiếp các dấu cơ bản được định
nghĩa rõ ràng và mang tính hiển thị, thì các vấn đề nhận dạng cũng như tổng hợp
tiếng nói đã được giải quyết cách đây 20 năm. Tuy nhiên, bản chất của tiếng nói rất
phức tạp. Tiếng nói là hiệu ứng liên cấu âm quện các âm tố thành dòng thanh liên
tục và mang ngôn điệu dưới dạng sóng truyền vật lí. Do đó, nhận dạng và tổng hợp

tiếng nói trở nên hết sức khó khăn. Mặc dù các nhà khoa học trên thế giới của
nhiều nước khác nhau với nhiều trường phái khác nhau đã nghiên cứu và đưa ra
nhiều công trình thực tế, nhưng việc tổng hợp tiếng nói từ văn bản đã chưa bao giờ
là hoàn hảo, khi động chạm tới những ngôn ngữ có số lượng từ không hạn chế với
đòi hỏi đạt tới mức tự nhiên trôi chảy như tiếng nói con người. Mặc dù những kết
quả đạt được còn hạn chế nhưng cũng đã được ứng dụng trong nhiều lĩnh vực cụ
thể, đem lại những kết quả nhất định.
Các ứng dụng này tập trung ở các lĩnh vực sau:
- 7 -
• Học ngoại ngữ
Tổng hợp từ văn bản có thể hỗ trợ cho người nước ngoài học ngoại ngữ.
Ứng dụng này đòi hỏi tiếng nói tổng hợp phải có chất lượng tốt. Hầu hết các
phần mềm loại này chưa thực sự đáp ứng được yêu cầu của người sử dụng.
• Trợ giúp người tàn tật
Hệ thống tổng hợp tiếng nói cùng với hệ thống quang học nhận dạng chữ
viết có thể đọc các văn bản in cho người mù. Giúp người mất khả năng nói có
thể nói qua hệ thống TTS (Text to Speech), bằng cách dùng bàn phím soạn thảo
văn bản và phần mềm thiết kế cho phép ghép nhanh các câu. Giáo sư vật lý
thiên văn học người Anh Stephan Hawking, người đưa ra lý thuyết vụ nổ BIG
BANG giảng bài cho sinh viên thông qua các hệ thống này. Phòng nhận dạng
thuộc viện Công nghệ thông tin, viện Khoa học và Công nghệ Việt Nam, đã xây
dựng thành công phần mềm VnTTS hỗ trợ người mù Việt Nam trong việc sử
dụng máy tính.
• Truyền thông tin bằng âm thanh, đọc sách điện tử
Một hệ thống tổng hợp tiếng nói rất hữu ích cho việc kiểm tra chính tả các
văn bản trên máy tính vì khi nghe dễ dàng phát hiện lỗi hơn so với kiểm tra
bằng mắt. Trong các hệ thống đo đạc điều khiển, khi mắt phải thực hiện các
quan sát thì các thông tin bằng âm thanh rất cần thiết. Ngoài ra, bản tin và mệnh
lệnh phát ra bằng âm cũng dễ tiếp thu hơn thông báo viết.
• Trong lưu trữ và khai thác dữ liệu

Giờ đây có thể tiết kiệm không gian lưu trữ âm bằng cách thay thế bằng các
văn bản tương ứng, tất nhiên là trong trường hợp giọng người nói là không quan
trọng. Hơn thế các văn bản bằng chữ bao giờ cũng dễ sắp xếp và tìm kiếm hơn
dữ liệu âm thanh.
• Trong viễn thông
Tiếng nói tổng hợp đã được sử dụng nhiều trong các ứng dụng trả lời trực
tuyến IVR (Interactive voice response), trên nhiều mạng viễn thông hiện đại
như Mỹ, châu Âu và Nhật mà tiêu biểu là dự án MIVA với các dịch vụ điện
thoại kích hoạt bằng thanh đa ngữ trực tuyến. Các hệ thống thông tin tích hợp
thông điệp hợp nhất có khả năng đọc tự động nội dung các bức thư điện tử,
FAX và các thông tin trên Net qua máy điện thoại cố định hoặc các máy di
động. Truy cập thông tin qua điện thoại và tự động tra cứu danh bạ điện thoại
hai chiều bằng máy điện thoại, …
• Thông tin đa phương tiện
Trong kỷ nguyên thông tin, hệ thống tổng hợp tiếng nói là một nửa bắt buộc
của thông tin hai chiều giữa người và máy. Hệ thống dịch tự động được coi là
một thành tựu khoa học lớn của nhân loại vào những năm đầu thế kỷ 21 phải sử
dụng hệ thống tổng hợp tiếng nói ở đầu ra.

- 8 -
• Các ứng dụng khác
Tổng hợp tiếng nói được ứng dụng trong các trò chơi, trong các thiết bị báo
động, báo chat, hệ thống chống trộm, các thiết bị gia đình và các thiết bị giải trí
khác.

Vấn đề Tổng hợp tiếng Việt
Tổng hợp tiếng nói từ văn bản là một ngành khoa học liên quan đến nhiều
ngành khoa hoc khác như: ngôn ngữ, xử lý tín hiệu và khoa học máy tính. Hiện nay
với nỗ lực nghiên cứu của các nhà khoa học công nghệ trên thế giới, chất lượng âm
thanh tổng hợp hiện tại đã vượt qua ngưỡng nghe hiểu đơn giản và đang tiến dần

tới mức độ nói tự nhiên của con người. Trong một số ứng dụng ngôn ngữ hẹp, chất
lượng âm thanh đã gần như không thể phân biệt với ngôn ngữ tự nhiên.
Trong xu thế hội nhập thế giới, cùng với sự hấp dẫn của khoa học nhận dạng, ở
Việt Nam, trong những năm vừa qua đã có những đề tài nghiên cứu về tổng hợp
tiếng nói và bước đầu đã đạt được những thành tựu nhất định. Công nghệ cho việc
tổng hợp tiếng nói từ văn bản có số từ vựng không hạn chế chất lượng cao có
những phức tạp chung là một lẽ, song một vấn đề nữa là nó còn phụ thuộc từng
ngôn ngữ riêng biệt. Không thể lấy các phần mềm tổng hợp tiếng nói Anh, Pháp,
Đức, Nhật, để đọc văn bản chữ Việt. Hơn nữa, tiếng Việt là một ngôn ngữ đơn
âm đa thanh điệu. Vì vậy, không ai khác mà chính là các nhà khoa học Việt Nam
phải tự tiến hành xây dựng công nghệ tổng hợp tiếng nói cho mình.
Việt Nam đang bước vào thời kì phát triển nhanh chóng về CNTT. Nó cho phép
chúng ta có những nền tảng khoa học, cơ sở vật chất để có thể nghiên cứu cũng
như triển khai các ứng dụng về khoa học công nghệ trong cuộc sống. Trong khoảng
hơn mười năm trở lại đây, tổng hợp tiếng Việt đã đạt được những thành tựu đáng
kể. Các hệ thống tổng hợp tiếng Việt đã ra đời như VietVoice, VnSpeech, VnVoice
hay hệ thống tiếng nói phương nam. Các nhà nghiên cứu hàng đầu vẫn đang tiếp
tục nghiên cứu về xử lý ngôn điệu để tăng cường chất lượng giọng tổng hợp. Dưới
đây là đánh giá về chất lượng giọng tổng hợp của một số hệ tổng hợp tiếng Việt.

Bảng 1.1.1: Các hệ tổng hợp được đánh giá [2].
STT
Hệ tổng hợp
Ký hiệu
1
VnSpeech
#1
2
VietVoice 4.0
#2

3
VnMobile Speech
#3
4
VnVoice 1.0
#4
5
VnVoice cải tiến
#5




- 9 -
Bảng 1.1.2: Thang điểm độ đo MOS [2].
Chất lượng tiếng nói tổng hợp
Điểm
Xuất sắc
4.1 – 5
Tốt
3.1 – 4
Bình thường
2.1 – 3
Kém
1.1 – 2
Tồi
0 – 1

Bảng 1.1.3: Kết quả đánh giá tính tự nhiên các hệ thống tổng hợp tiếng Việt [2].
Hệ tổng hợp

#1
#2
#3
#4
#5
Av


Av


Av


Av


Av


MOS
1.62
0.47
3.22
0.72
2.85
0.68
3.33
0.61
3.76

0.46

1.2. Các phương pháp tổng hợp tiếng nói
1.2.1. Tổng hợp theo cấu âm
Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học. Trong mô hình
này, tiếng nói được đặc trưng không chỉ bằng tín hiệu âm thanh mà cả bằng vị
trí của các cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí
trong phổi, lực căng của dây thanh. Nó bao gồm hoạt động tương tác phi tuyến
giữa nguồn kích (chấn động dây thanh hoặc hỗn loạn không khí) và trở kháng
đầu vào thay đổi theo thời gian của ống thanh. Phương pháp này còn được gọi
là tổng hợp theo mô hình hệ thống.
Để xây dựng đặc trưng âm thanh của cơ quan phát âm, hệ thống phải tham số
hoá được hình khối ống thanh và ống mũi, phải lựa chọn được một mô hình để
mô tả sự lan truyền của sóng trong ống thanh và mô hình hoá nguồn âm (chấn
động dây thanh, dòng không khí hỗn loạn) và sự tương tác của nó với ống
thanh. Phương pháp này hiện nay chỉ hình thành trên lý thuyết, thực tế ngành
khoa học phỏng sinh chưa có đủ thông tin đầu đủ để mô phỏng theo cấu âm.
Mô hình ống thanh
Cho các âm không phải là âm mũi ta chỉ cần xem xét ống thanh có thiết diện
biến thiên từ thanh môn cho tới môi. Ống thanh thay đổi liên tục, hình dáng của
chúng phải được xác định trong khoảng thời gian vài mini giây một lần. Hình
không gian của ống thanh được mô tả theo vị trí của các cơ quan phát âm, lưỡi,
môi, hàm…
Mô hình được ứng dụng nhiều nhất là mô hình của Mermelstein với các tham
số mô tả vị trí cơ quan cấu âm.Từ mô tả cấu âm, có thể tính được các số liệu
cho hàm mặt cắt ngang ống thanh A(x) là hàm số phụ thuộc khoảng cách dọc
theo ống thanh từ thanh môn cho tới môi
Lan truyền sóng trong ống thanh
- 10 -
Trong nhiều cách tính đặc trưng truyền sóng trong ống thanh thì phương

pháp ma trận chuỗi được áp dụng nhiều nhất. Ma trận chuỗi (còn gọi là ma trận
ABCD) thể hiện ống thanh ở miền tần số. Với bất kỳ phần nào của ống thanh
hay của ống mũi ta có:




































in
in
in
in
out
out
U
P
K
U
P
DC
BA
U
P

Ma trận chuỗi K có thể thể hiện bất kỳ phần nào của bất kỳ độ dài hay mặt
phẳng cắt ngang nào của ống thanh. Tính các phần tử của K rất đơn giản nên
ống có mặt cắt không đổi.
Mô hình nguồn kích thanh
Nguồn kích thanh cho tổng hợp cấu âm sử dụng mô hình hai khối lượng của
Ishizaka và Flanagan.

Nguyên lý của tổng hợp cấu âm
Thuật toán tổng hợp theo mô hình cấu âm gồm các bước như nhau. Từ đặc
tả về các tham số cấu âm, ta tính được ma trận chuỗi từ thanh môn đến môi. Sau
đó tính hàm truyền và trở kháng đầu vào từ các phần tử A,B,C,D của ma trận.
Chuyển đổi Fourier ngược hàm truyền H và tỉ số trở kháng ta nhận được các giá
trị tương ứng ở miền thời gian. Sau đó tính áp suất p = P
5
-P
1
. Giá trị áp suất
này tác động vào bộ cộng hưởng điều khiển chuyển động dây thanh của mô
hình hai khối lượng tạo ra âm thanh tiếng nói.
Như vậy, ngoài việc mô hình hoá các cơ quan phát âm, tổng hợp theo cấu âm cần
phải xây dựng hai loại quy luật ngôn ngữ và luật vật lý. Luật vật lý mô tả như ở
trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định
mối quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói. Còn luật ngôn
ngữ xác định mối quan hệ giữa mô tả ngữ âm và các hoạt động cấu âm. Thông
thường, luật ngôn ngữ được thực hiện cho từng âm vị. Khi cấu âm cho một đơn
vị, luật này xác định thời điểm các cơ quan chuyển động, tốc độ chuyển động và
mối quan hệ giữa cơ quan này và cơ quan khác. Vì phát ra một âm vị không nhất
thiết phải có sự chuyển động của tất cả các cơ quan nên trong cùng một thời điểm
cơ quan phát âm có thể được xác định cho âm vị khác. Theo cách này thì tổng
hợp theo cấu âm có thể tạo ra các giải pháp hoàn hảo cho các trường hợp ngữ âm
khó như cụm phụ âm, nguyên âm ba.
Mô hình cấu âm và hai luật ngôn ngữ, vật lý này quyết định chất lượng tiếng
nói tổng hợp. Hiện nay, chúng ta chưa có kiến thức đầy đủ về từng chi tiết của
các loại luật, mô hình cấu âm cũng còn đơn giản vì vậy chất lượng tiếng nói
tổng hợp theo cấu âm còn rất thấp. Phương pháp tổng hợp cấu âm hiện nay chỉ
dừng ở trong phòng thí nghiệm hay sản phẩm mẫu mà chưa được ứng dụng
thực tế. Các bộ tổng hợp theo cấu âm là công cụ lý tưởng để nghiên cứu về cấu

âm của tiếng nói và hứa hẹn về lâu dài là giải pháp hoàn thiện nhất để tổng hợp
ra âm thanh tiếng nói giống như tiếng nói tự nhiên của con người.
- 11 -
1.2.2. Tổng hợp formant theo quy luật
Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình
riêng biệt là quá trình phân tích âm thanh tiếng nói để tìm ra các quy luật và
tổng hợp lại tiếng nói dựa vào các quy luật này.
Phân tích tìm quy luật
Quá trình phân tích được tiến hành trên cơ sở dữ liệu tiếng nói tự nhiên chủ
yếu bao gồm các âm tiết có dạng C-V (phụ âm – nguyên âm) hay C-V-C (phụ
âm – nguyên âm – phụ âm) của nhiều giọng nói. Cơ sở dữ liệu này tốt nhất phải
bao phủ được tất cả các hình thái ngữ âm của một ngôn ngữ.
Thuật toán dự đoán tuyến tính LPC, được sử dụng trong quá trình phân tích phổ
để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0
của tín hiệu tiếng nói. Tần số từ F1 đến F5 và băng thông W
1
đến W
5
ở phần ổn
định của các âm tố được lưu giữ dưới dạng bảng. Đó là các giá trị “đích” để tạo
ra một âm vị.
Trong tiếng nói, phần mang thông tin được quan tâm nghiên cứu nhiều hơn là
các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngược lại
(C-V và V-C). Tần số formant chuyển tiếp từ âm vị nọ sang âm vị kia được mô
hình hoá và tạo thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant. Như
vậy về cơ bản các quá trình phân tích tìm luật để mô tả sự thay đổi liên tục phổ
của một ngữ lưu bằng các formant và sự chuyển tiếp của các formant từ âm vị
này sang âm vị khác. Hệ thống quy luật bao gồm:
 Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ lưu
cũng như thời gian tồn tại của các vị trí đó.

 Luật nhằm làm trơn các formant đích.
 Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh.
Tổng hợp tiếng nói dựa trên tập luật phân tích (hay tổng hợp formant)
Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều khiển từ bảng tra
cứu và cùng với thuật toán được xây dựng cho sự chuyển tiếp là các tín hiệu
điều khiển bộ tổng hợp để tạo các âm đoạn tính.
Thiết kế của bộ tổng hợp formant được dựa trên mô hình tương tự đầu cuối tạo
tiếng nói do Frant đề xuất.
Tổng hợp formant được phân loại theo cấu hình mắc các bộ cộng hưởng song
song hay nối tiếp. Hàm truyền của bộ tổng hợp khi mắc nối tiếp bộ cộng hưởng
tương tự như hàm truyền ống thanh vì vậy bộ tổng hợp nối tiếp mô hình hoá rất
tốt cho các âm hữu thanh. Còn bộ tổng hợp với các bộ cộng hưởng mắc song
song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lượng âm thanh tốt
hơn.
Hiện nay, với những công cụ thích hợp chúng ta hoàn toàn có thể xác định
tần số formant cho các âm vị của tiếng Việt. Đi theo hướng này có ưu điểm là
tiết kiệm được bộ nhớ, song chất lượng tiếng nói không tự nhiên và phụ thuộc
- 12 -
nhiều vào chất lượng của quá trình phân tích tiếng nói của từng ngôn ngữ. Phần
mềm tổng hợp tiếng Việt VnSpeech [16] đã sử dụng cách tiếp cận này. Tuy
nhiên, chất lượng vẫn còn rất hạn chế.

1.2.3. Tổng hợp ghép nối
Tổng hợp ghép nối dựa trên việc ghép nối các đoạn tiếng nói đã ghi âm sẵn.
Nói chung, tổng hợp ghép nối cho tiếng nói tổng hợp nghe tự nhiên nhất. Tuy
nhiên, độ tự nhiên của tiếng nói và các kỹ thuật tự động phân đoạn sóng âm
thanh đôi khi dẫn đến nghe rõ sự không đều của thiết bị ở đầu ra làm giảm độ tự
nhiên [20]. Có ba loại tổng hợp ghép nối: tổng hợp chọn đơn vị, tổng hợp
diphone (hai nửa của hai âm vị liền nhau) và tổng hợp theo miền.
Tổng hợp chọn đơn vị sử dụng CSDL tiếng nói lớn. Trong quá trình tạo cơ

cở dữ liệu, mỗi phát âm được thu âm sẽ được phân thành các âm vị, âm tiết,
hình vị, từ, cụm và các câu riêng. Việc phân chia thành các đoạn có thể dùng
một số các kỹ thuật như kỹ thuật phân cụm, chương trình nhận dạng, phân đoạn
bằng tay sử dụng công cụ xử lý và gán nhãn tiếng nói trực quan. Phương pháp
này đòi hỏi cơ sơ dữ liệu tiếng thu âm lớn và việc xử lý cơ sở dữ liệu này cũng
khá công phu.
Tổng hợp diphone dùng CSDL tiếng nói nhỏ nhất chứa toàn bộ các diphone
xuất hiện trong ngôn ngữ. Số lượng diphone phụ thuộc vào cách phiên âm của
từng loại ngôn ngữ. Chẳng hạn tiếng Tây Ban nha là 800 diphone, tiếng Đức
khoảng 2500 diphone, mỗi diphone là duy nhất trong cơ sở dữ liệu. Chất lượng
tiếng nói tổng hợp thường không tốt bằng tổng hợp chọn đơn vị. Ưu điểm của
tổng hợp diphone là cơ sở dữ liệu nhỏ hơn phương pháp tổng hợp ghép nối
chọn đơn vị.
Tổng hợp theo miền cụ thể là việc ghép các từ và các cụm được ghi sẵn lưu
trong CSDL để tạo thành lời nói hoàn chỉnh. Ưu điểm tiếng nói tự nhiên, tuy
nhiên lại hạn chế về số lượng từ và câu có thể tổng hợp được.
- 13 -

Hình 1.2.3.1: Ví dụ về sơ đồ hệ thống tổng hợp ghép nối.

1.2.4. Tổng hợp xích chuỗi
Phương pháp xích chuỗi vượt qua được nhược điểm của các hệ thống sử
dụng quy luật bằng cách loại bỏ bớt một số quy luật thậm chí tất cả các quy
luật. Để thực hiện điều này, cách hiệu quả nhất là lưu trữ trực tiếp trong kho dữ
liệu từng đoạn âm thanh tiếng nói, không phải hệ thống quy luật mô tả các đơn
vị âm hay quy luật của các tham số để tạo ra đơn vị âm.
Trong ba phương pháp nêu trên, tổng hợp theo cấu âm, tổng hợp formant
theo quy luật và tổng hợp xích chuỗi thì tổng hợp xích chuỗi mang nhiều tính
công nghệ, được quyết định bởi sự phát triển của máy tính. So sánh về chất
lượng trong ba phương pháp, thì tổng hợp xích chuỗi hiện nay đã thành công

nhất trong việc tạo ra tiếng nói không chỉ nghe hiểu rõ mà đạt được độ tự nhiên
gần với tiếng nói của con người hơn cả. Phần lớn các hệ thống tổng hợp chất
lượng cao cho các ngôn ngữ có trên thị trường hiện nay đều sử dụng phương
pháp tổng hợp xích chuỗi này.
Khi xây dựng một hệ thống tổng hợp xích chuỗi, tiếng nói chứa tập hợp các
đơn vị âm thanh cơ bản của một ngôn ngữ, thông thường tương ứng với một
chuỗi ngắn các âm vị có lựa chọn được đọc, ghi âm và lưu giữ trong CSDL.
Các đơn vị âm được lựa chọn, phân tích các tham số đặc trưng và sau đó có thể
được mã hoá bằng một phương pháp mã hoá tiếng nói nào đó tạo thành các mẫu
Tiếng nói
tổng hợp
Âm vị +ngôn điệu
CSDL
tiếng nói
CSDL tiếng
nói tham số
Thông tin về
đơn vị
CSDL tiếng
nói mã hóa
Mã hóa
tiếng nói
Mô hình
tiếng nói
Tạo dãy
đơn vị
Chọn đơn
vị
Giải mã
tiếng nói

Ghép nối và
hậu xử lý
- 14 -
cho một đơn vị âm thanh. Các mẫu hoặc các tham số phân tích của chúng được
lưu giữ lại trong kho dữ liệu đơn vị tổng hợp.
Khi tổng hợp một phát ngôn mới, cho trước mô tả ngữ âm của phát ngôn đó,
hệ thống sử dụng các quy luật để định vị đơn vị thích hợp, truy xuất chúng ra
khỏi kho dữ liệu và xích chuỗi chúng lại với nhau.
Thông thường, một hệ thống tổng hợp xích chuỗi có ít nhất là một hoặc hai
mẫu cho mỗi một đơn vị cơ bản. Do các tham số về cao độ tần số cơ bản, độ dài
và cường độ của các đơn vị này rất khác nhau (chúng được trích ra từ tín hiệu
tiếng nói trong ngữ cảnh khác nhau) nên khi tổng hợp, hệ thống theo phương
pháp tổng hợp xích chuỗi phải thực hiện hai công việc chính.
 Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để
tiếng nói tổng hợp thể hiện được ngữ điệu thích hợp như mong muốn.
 Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm
đoạn đơn vị tại các biên ghép nối của chúng sao cho việc ghép nối là mịn
nhất để đảm bảo chất lượng âm thanh tổng hợp tạo ra gần với tiếng nói
tự nhiên.
Giả sử có hai âm đoạn được xích chuỗi là L(left) và R(right). Chúng ta xem
xét tập hợp P của các tham số {p
1
,p
2
,…, p
N
}, các giá trị
0
L
P

là ở điểm cuối cùng
của đoạn L và
0
R
P
là ở điểm đầu tiên của đoạn R. Làm trơn được thực hiện
tuyến tính là phân bố đều khoảng cách (P-P) cho số M
L
vector {P
L
-(ML-1)
, …, P
L
-
1
,P
L
0
} của đoạn L và M
R
vector {P
L
0
, P
R
1
, P
L
(ML-1)
}. Với P’ là tham số sau khi

làm trơn thì nội suy được bằng công thức tính như sau:

 
 
L
L
LRLL
M
iM
PPPP
2
'
0011





 
 
R
R
RL
J
LR
M
jM
PPPP
2
'

001




với i = 0 … M
L
-1 và j = 0 … M
R
-1;
Như vậy chất lượng của một hệ tổng hợp xích chuỗi được quyết định bởi
các yếu tố sau:
 Sự lựa chọn tập âm đơn vị cơ bản. Trong đó ngữ âm của ngôn ngữ tổng
hợp là yếu tố chính quyết định loại đơn vị cơ bản.
 Chất lượng âm thanh và mức độ bao phủ các tổ hợp âm đoạn cần thiết
cho một ngôn ngữ của CSDL âm.
 Khả năng cung cấp các tham số về ngữ điệu như đường nét tần số cơ bản
cường độ âm thanh và độ dài các âm cho bộ tổng hợp. Các tham số này
được tiên đoán trong phần xử lý ngôn ngữ của bộ tổng hợp từ văn bản.
 Khả năng thay đổi tần số cơ bản F0 và độ dài các đơn vị âm cơ bản phù
hợp với ngữ điệu được miêu tả ở đầu vào của bộ tổng hợp mà không ảnh
hưởng tới chất lượng cảm thụ của âm đó.
- 15 -
 Thuật toán xích chuỗi và mô hình tín hiệu cho phép dễ dàng làm trơn hai
điểm ghép nối của các âm đoạn được xích chuỗi.
Chính vì hai yếu tố sau nên một số hệ thống tổng hợp xích chuỗi thực hiện
mã hoá tham số tiếng nói. Với cách thể hiện bằng các tham số, đặc trưng phổ và
ngữ điệu của tiếng nói được thay đổi dễ dàng hơn mà không thay đổi đặc tính
nhận dạng âm đơn vị cơ bản. Phương pháp mã hoá tham số đặc trưng nhất là
mã hoá tiên đoán tuyến tính LPC cũng như các biến thể của chúng.


1.2.5. Tổng hợp dựa trên thống kê
Trong phương pháp này, tần số cơ bản F0, các ham số phổ và các đặc trưng
động của chúng được mô hình hóa bởi các phân bố xác suất. Với các hệ tổng
hợp dựa theo phương pháp này, dữ liệu huấn luyện càng nhiều càng tốt. Dữ liệu
quá ít sẽ không đảm bảo cho chất lượng giọng tổng hợp về sau.
Hệ tổng hợp mang đặc trưng của phương pháp thống kê đang được phổ biến
hiện nay là hệ tổng tiếng nói hợp dựa trên HMM (Hiden Markov Model) gọi tắt
là HTS (HMM-based Speech Synthesis System). Mô tả chi tiết về hệ tổng hợp
này được thực hiện trong chương sau.

1.3. Các đặc trưng cơ bản của ngữ âm tiếng Việt
Khi giao tiếp con người phát ra những chuỗi âm thanh nhất định, ta gọi là dòng
ngữ lưu (utterance). Trong từng dòng ngữ lưu, nếu đem chia cắt chúng ra, ta sẽ thu
được những đơn vị cấu thành nhỏ hơn, đó là âm tiết, âm tố và âm vị. Trong đó, âm
tiết là đơn vị phân chia tự nhiên nhất trong lời nói, là đơn vị phát âm nhỏ nhất. Mỗi
âm tiết là một tiếng.
Ví dụ lời nói: ”Hà Nội là thủ đô của nước Việt Nam” có 9 âm tiết.
Về mặt sinh lý – vật lý, âm tiết được định nghĩa là một đơn vị mà khi phát âm
được đặc trưng bởi sự căng lên rồi chùng xuống của cơ thịt trong bộ máy phát âm.
Trong mỗi âm tiết, chỉ có một âm tố có khả năng tạo thành âm tiết (gọi là âm tố
âm tiết tính), còn lại là các yếu tố đi kèm, không tự mình tạo thành âm tiết được.
Âm tố âm tiết tính thường được phân bố ở trung tâm, làm hạt nhân âm tiết. Đó
thường là các nguyên âm. Điều này dẫn đến hệ quả là một âm tiết khi được phát ra
thì phần năng lượng tập trung nhiều nhất ở phần giữa âm (có biên độ cao), đi về
đầu và cuối âm tiết thì năng lượng giảm dần (xem hình 1.1).

- 16 -
Hình 1.3.1: Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm. Mỗi âm tiết có biên
độ lớn ở giữa âm và nhỏ dần ở đầu và cuối âm.


Tiếng Việt là tiếng đơn âm có thanh điệu. Nó là ngôn ngữ có kết cấu âm tiết
tính. Một đặc điểm của tiếng Việt là âm tiết trùng hình vị (đơn vị nhỏ nhất có
nghĩa). Nói cách khác, một âm tiết là một hình thức biểu đạt của một hình vị. Ví
dụ, từ học sinh có hai hình vị, mỗi hình vị có vỏ ngữ âm là một âm tiết là học và
sinh.
Là vỏ ngữ âm của một hình vị hay một từ đơn nên mỗi âm tiết tiếng Việt bao
giờ cũng tương ứng với một ý nghĩa nhất định. Chính vì vậy, việc phá vỡ hay xê
dịch vị trí của các âm vị trong một đơn vị âm tiết là điều khó có thể xảy ra. Nói
cách khác, cấu trúc của âm tiết tiếng Việt là một cấu trúc chặt chẽ. Vì thế, từ ”cá
canh” sẽ không bị nối thành ”các anh”, ”cảm ơn” không bị đọc thành ”cả mơn”,
Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-Ấn,
tiếng Việt có số âm tiết hữu hạn với 17000 vỏ ngữ âm có khả năng và 6900 âm tiết
tồn tại thực.
Âm tiết, hình vị tiếng Việt cố định, không thay đổi theo ngữ pháp về thời, giống
và số như các ngôn ngữ khác. Âm tiết tiếng Việt có cấu trúc chặt chẽ với các loại
âm ở các vị trí cố định trong thành phần âm tiết.
Một đặc điểm nổi bật khác của tiếng Việt là thanh điệu. Mỗi âm tiết đều mang
một thanh điệu nhất định. Thanh điệu là một tập hợp những đặc trưng có liên quan
đến độ cao (phụ thuộc tần số rung động của dây thanh âm) của thanh cơ bản trong
âm tiết. Nó được thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết, nhất là
các âm đoạn nguyên âm tính (nguyên âm và bán nguyên âm) và các đoạn phụ âm
mũi.
Thanh điệu có thể phân tích thành hai thành phần thường xuyên kết hợp với
nhau: âm vực (độ cao của thanh cơ bản) và âm điệu (hướng chuyển biến cao độ-độ
tăng giảm của tần số) trong quá trình thể hiện. Vì vậy, mỗi thanh điệu có thể được
miêu tả như một sự kết hợp của hai thông số nói trên.
Hệ thống thanh điệu tiếng Việt gồm sáu thanh là ngang (không dấu), huyền,
ngã, hỏi, sắc, và nặng. Thanh điệu trong tiếng Việt kết hợp với các thành phần của
âm tiết tạo thành các từ khác nhau, ví dụ như: thanh/ thành/ thánh/ thạnh…Trong

tiếng Việt không phải vần nào cũng phát âm đủ sáu thanh. Đối với âm tiết đóng chỉ
có hai thanh sắc và nặng, ví dụ: tắc, tặc…
Ngoài các tính chất ngữ điệu như các ngôn ngữ Âu-Ấn, tần số cơ bản F0 là
thành phần chính của hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm
tiết. Hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm tiết. Hệ thống
thanh điệu tiếng Việt là loại phức tạp nhất trong các ngôn ngữ đơn lập âm tiết tính
(tiếng Thái có 5 thanh, tiếng Trung Quốc có 4 thanh).
- 17 -
Trong tiếng Việt, âm tiết có cấu trúc chặt chẽ và ổn định, mỗi âm vị là một vị trí
nhất định trong âm tiết, tạo thành cấu trúc âm tiết tiếng Việt.

1.3.1. Cấu trúc âm tiết tiếng Việt
Âm tiết tiếng Việt được tạo thành bởi ba thành phần có mức độ độc lập khác
nhau là phụ âm đầu, phần vần và thanh điệu. Về cấu trúc, âm tiếng Việt có cấu
trúc hai bậc. Bậc một gồm ba thành phần là thanh điệu, phị âm đầu và vần. Bậc
hai là các thanh to của phần vần gồm âm đệm là bán nguyên âm, nguyên âm
chính và phụ âm hay bán nguyên âm cuối. Các thành phần âm tiết được trình
bày như bảng 1.3.1 dưới đây:

Bảng 1.3.1: Cấu trúc âm tiếng Việt.
Thanh điệu
Âm đầu
Phần vần
Âm đệm
Âm chính
Âm cuối

1.3.1.1. Âm đầu
Là yếu tố mở đầu âm tiết. Trong tiếng Việt có 21 phụ âm. Phụ âm mang
tính độc lập do không tham gia vào việc thay đổi về trường độ giữa các yếu

tố bên trong âm tiết.
Đặc điểm âm đầu
 Khi phát âm, luồng hơi bị cản trở do sự xuất hiện chướng ngại vật
trên lối ra của đường không khí. Điểm có chướng ngại gọi là vị trí cấu
âm.
 Bộ máy phát âm không căng thẳng toàn bộ mà chỉ căng thẳng phần
cơ thịt ở vị trí cấu âm.
 Luồng hơi ra mạnh.
Phân loại
 Phân chia theo mối quan hệ giữa tiếng thanh và tiếng ồn trong cấu
tạo của âm đầu
Các phụ âm đầu được chia thành các phụ âm vang (tiếng thanh
nhiều hơn tiếng ồn) và phụ âm ồn. Trong các phụ âm ồn lại chia
thành các phụ âm hữu thanh (phát âm có sự tham gia của tiếng thanh
do dây thanh rung động) và phụ âm vô thanh (phát âm không có sự
tham gia của tiếng thanh).
Nhóm phụ âm vang có thể coi là nhóm trung gian giữa các
nguyên âm và phụ âm ồn. Khi phát âm các phụ âm vang, chướng
ngại được tạo thành nhưng có thể là chỗ tắc yếu hoặc không khí
không những trực tiếp vượt qua chỗ có chướng ngại mà còn đi ra tự
do qua mũi (như các phụ âm [m], [n] trong tiếng Việt).
- 18 -
 Phân chia theo phương thức cấu tạo tiếng ồn
 Phụ âm tắc: tạo thành khi hai khí quản tiếp xúc nhau, tạo thành
chỗ tắc, cản trở hoàn toàn lối ra của luồng không khí. Ví dụ như các
phụ âm [p], [b], [d], [t].
 Phụ âm xát: tạo thành khi hai khí quản nhích lại gần nhau, làm
cho lối ra của luồng không khí bị thu hẹp; luồng không khí đi qua khe
hẹp này cọ xát vào thành của bộ máy phát âm. Ví dụ, các phụ âm [v],
[s], [h].

 Phụ âm rung: tạo thành khi các khí quản dễ rung động (như đầu
lưỡi, lưỡi con hay môi) nhích lại gần nhau tạo thành một khe hở rất
hẹp hay một chỗ tắc yếu, luồng không khí đi ra mạnh làm cho các khí
quản ấy rung lên. Ví dụ phụ âm [r].
Trong các cấu âm của phụ âm, người ta thường phân biệt ba giai
đoạn:
 Giai đoạn tiến: khí quản phát âm chuyển đến vị trí cấu âm
 Giai đoạn giữ: khí quản phát âm ở vị trí cấu âm
 Giai đoạn lùi: khí quản phát âm rời khỏi vị trí cấu âm
Hai giai đoạn đầu giống nhau ở bất kỳ âm tắc nào. Về giai đoạn
thứ ba, cần phân biệt các tiểu loại âm tắc: âm nổ, âm mũi, âm tắc-xát
và âm khép
 Phân chia theo vị trí tạo ra tiếng ồn
Theo vị trí cấu tạo tiếng ồn, các phụ âm được chia ra thành các
loại chính: phụ âm môi, răng, ngạc mạc, lưỡi con, yết hầu, thanh
hầu.
Theo khí quản chủ động, các phụ âm được chia thành các loại: phụ
âm môi, lưỡi trước, lưỡi giữa, lưỡi sau, lưỡi con, yết hầu, thanh hầu.
Trong các nhóm này, có một số cần chia nhỏ nữa. Ví dụ trong các
âm môi, người ta phân biệt các âm hai môi, thường gọi là âm môi-
môi ([b], [p], [m]). Với các âm một môi, thường gọi là âm môi-răng
([v]); các âm lưỡi trước thường chia thành nhiều nhóm nhỏ nhưng
đáng chú ý là âm đầu lưỡi và âm quặt lưỡi,

1.3.1.2. Phần vần
1.3.1.2.1. Âm đệm
Đóng vai trò là âm lướt trong kết cấu âm tiết. Âm đệm ảnh hưởng
đến cách mở đầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ ”toàn”
khi phát âm có hiện tượng tròn môi do tác động của âm đệm/-u-/, còn
chữ ”tàn” thì không có hiện tượng tròn môi do không có âm đệm.



- 19 -
1.3.1.2.2. Âm chính
Là nguyên âm âm tiết tính trong âm tiết. Âm tiết chính có thể là một
nguyên âm đơn hay nguyên âm đôi.
Âm chính gồm một hệ thống nguyên âm gồm 11 nguyên âm đơn /a,
ă, â, e, ê, o, ô, ơ, u, ư, i/ và ba nguyên âm đôi /iê, ươ, ưa/. Âm chính là
yếu tố tạo nên đỉnh âm thanh, có biên độ và cường độ lớn nhất trong các
thành phần âm tiết.
Đặc điểm
 Khi phát âm, luồng hơi không bị cản trở bởi lưỡi, răng hay môi
 Bộ máy phát âm căng thẳng toàn bộ
 Luồng hơi ra yếu hơn phụ âm
Phân loại
Các nguyên âm không thể phân chia theo tiêu chuẩn như của phụ âm.
Về mặt phương thức cấu âm, nguyên âm chỉ thuộc vào một phương thức
đó là luồng hơi ra tự do. Nguyên âm không có vị trí cấu âm vì các khí
quản không tạo thành khe, cũng không tạo thành chỗ tắc. Các nguyên âm
cũng không thể phân loại theo tiếng thanh, vì bình thường, bất kỳ
nguyên âm nào cũng có tiếng thanh.
Các nguyên âm chỉ khác nhau ở các hoạt động của khí quản phát âm,
trong đó quan trọng nhất là lưỡi. Vì sự thay đổi vị trí của lưỡi gây ra sự
khác nhau rất lớn giữa các nguyên âm. Lưỡi chuyển động tới-lui và lên
xuống trong khoang miệng và tạo nên những tương quan phức tạp giữa
các khoang cộng minh (khoang miệng và mũi), làm thay đổi hình dáng
và thể tích của chúng. Môi tròn lại và đưa về trước, làm kéo dài lối thoát
của luồng không khí, hoặc môi chành ra, làm cộng minh trường phía
trước ngắn lại.
Người ta thường phân loại nguyên âm theo vị trí của lưỡi, độ nâng

của lưỡi và hình dáng môi
 Theo vị trí của lưỡi
Gồm các nguyên âm dòng trước (khi lưỡi dồn về trước),
nguyên âm dòng sau (khi lưỡi dồn về sau) và nguyên âm dòng
giữa (khi lưỡi ở giữa miệng nâng lên). Ví dụ, trong tiếng Việt, các
nguyên âm dòng trước là [i], [e], [ê], nguyên âm dòng sau là [u],
[o], [ô], nguyên âm dòng giữa là [ư], [ơ], [a].
 Theo độ nâng của lưỡi
Các nguyên âm được chia tùy theo từng ngôn ngữ. Độ nâng
của lưỡi tương ứng với độ mở của miệng nên các nguyên âm có
độ nâng cao còn gọi là nguyên âm hẹp, nguyên âm có độ nâng
thấp còn gọi là nguyên âm mở. Trong ngữ âm học đại cương
không có một cách phân loại tuyệt đối theo độ nâng lưỡi vì mỗi
- 20 -
ngôn ngữ có một hệ thống nguyên âm khác nhau. Ví dụ, các
nguyên âm dòng trước trong tiếng Pháp có 4 độ nâng, các nguyên
âm trong tiếng Ðức có 5 độ nâng, tiếng Nga có 3 độ nâng, tiếng
Anh có 6 độ nâng. Trong tiếng Việt, các nguyên âm đơn có thể
chia thành 4 nâng:

Bảng 1.3.2.2.1: Phân chia nguyên âm theo độ nâng của lưỡi.
Ðộ nâng
Gồm các nguyên âm
Hẹp
[i], [u], …
Hơi hẹp
[ê], [u], …
Hơi rộng
[o], [e], …
Rộng

[a], [a], …

 Theo hình dáng môi
Các nguyên âm được chia thành nguyên âm tròn môi ([u], [ô],
[o]), nguyên âm không tròn môi ([i], [ê], [e], [ư], [ơ], [a]). Sự tròn
môi rõ nhất ở nguyên âm khép và yếu nhất ở nguyên âm mở.

1.3.1.2.3. Âm cuối
Là âm kết thúc âm tiết. Các âm tiết tiếng Việt thường đối lập bằng
những cách kết thúc khác nhau. Một số âm tiết kết thúc bằng sự kéo dài
và giữ nguyên, ví dụ: má, đi, cho, Số âm tiết khác kết thúc bằng cách
biến đổi âm sắc của âm tiết ở phần cuối do sự đóng lại của các âm cuối
tham gia, ví dụ như một, mai, vàng, Trong trường hợp đầu, ta có các
âm cuối là âm vị /zero/, trong trường hợp sau ta có các âm cuối là những
âm vị bán nguyên âm hoặc phụ âm.
Hệ thống âm cuối tiếng Việt bao gồm hai bán nguyên âm là /i, o/ và
sáu phụ âm /m, n, ng (nh), p, t, c/.

1.3.1.3. Thanh điệu
Thanh điệu là loại âm vị siêu đoạn tính, nó được biểu lộ trong toàn bộ
phần hữu thanh của âm tiết. Ở mức vật lý, phần thanh của thanh điệu chính
là đường nét của tần số âm cơ bản F0. Về cảm thụ, thanh điệu là sự cảm
nhận về thay đổi của cao đọ tần số cơ bản F0 của âm tiết.
Sáu thanh điệu tiếng Việt được chia thành hai nhóm lớn bằng và trắc.
Thanh không dấu và thanh huyền thuộc loại thanh bằng có đường nét tương
đối đơn giản. Thanh ngã, thanh hỏi, thanh sắc và thanh nặng là những thanh
trắc có đường nét thanh điệu phức tạp. Các thanh ngang, sắc, ngã thuộc âm
vực cao, còn các âm huyền, hỏi và nặng thuộc âm vực thấp.
- 21 -
Trong các công trình nghiên cứu đã được công bố, đường nét thanh điệu

tiếng Việt cho những âm tiết rời rạc (phương ngữ Bắc Bộ) được đánh giá
tương đối thống nhất. Ngoài tính chất thanh tính, các thanh điệu còn có một
số đặc trưng phi điệu tính như hiện tượng yết hầu hoá, thanh hầu hoá,… tạo
thành hệ thống các đặc trưng phụ để phân biệt các thanh điệu đặc biệt của
thanh ngã và sắc, thanh hỏi, thanh nặng.

1.3.2. Phân loại âm tiết tiếng Việt
Phụ thuộc vào cách thức kết thúc, âm tiết tiếng Việt được chia thành 4 loại
như trong bảng 1.2:

Bảng 1.3.2: Phân loại âm tiết tiếng Việt.
STT
Loại âm tiết
Đặc điểm
Ví dụ
1
Âm mở
Là các loại âm tiết không có âm cuối, kết
thúc âm tiết bằng nguyên âm chính
Ma, mẹ, …
2
Âm nửa mở
âm cuối kết thúc âm tiết là một bán nguyên
âm
Mai, sau,
3
Âm đóng
Khi âm cuối là một phụ âm tắc vô thanh
Tập, học,
4

Âm nửa đóng
Khi âm cuối là một phụ âm mũi
Làm, ngành,

1.4. Một số đặc trưng cơ bản của ngôn điệu tiếng Việt
1.4.1. Tần số cơ bản F0
Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu (trong đó biên
độ biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín hiệu lặp lại gần
như tuần hoàn). Phần tín hiệu có tính chu kỳ chứa các thành phần tần số có
dạng điều hòa. Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần số
dao động của dây thanh.
Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau. Dưới
đây là một số giá trị tần số cơ bản tương ứng với giới tính và tuổi:

Giá trị tần số cơ bản
Người nói
80 – 200 Hz
Nam giới
150 – 450 Hz
Phụ nữ
200 – 600 Hz
Trẻ em
- 22 -

Hình 1.4.1: Đường F0 trong câu tổng hợp ”chỉ biết mình là con riêng”.

1.4.2. Trường độ
Trường độ (duration) của âm vị là độ dài của đoạn sóng tiếng nói tương ứng
với âm vị tính theo thời gian. Theo [3], độ dài của âm tiết (syllable) và của phần
vần phụ thuộc vào sáu thanh điệu và âm cuối. Trong đó, tác giả kết luận rằng

âm tiết được đặt ở cuối ngữ đoạn thường kéo dài hơn bình thường khoảng 30%.
Âm đóng, có phụ âm cuối vô thanh (unvoiced) là /p, t, c/, chỉ ứng với thanh sắc
và nặng, có độ dài ngắn nhất. Âm tiết, kết thúc là các phụ âm vang /m, n, ng,
nh/, có độ dài lớn hơn. Phần vần kết thúc bằng nguyên âm có độ dài chênh lệch
khoảng 10-20 ms so với phần vần kết thúc bằng phụ âm. Các âm tiết nếu cùng
loại hình thanh điệu (bằng hoặc trắc) thì có độ dài xấp xỉ như nhau, không kể
đến số chữ cái tham gia cấu tạo âm tiết ít hay nhiều. Ngoài ra, [3] còn khẳng
định độ dài âm tiết và thanh điệu (tone) có mối quan hệ chặt chẽ với nhau. Nếu
tính theo thứ tự giảm dần về độ dài âm tiết, ta có thứ tự: Huyền, ngã, hỏi, không
dấu, nặng, sắc. Hình 1.4.2 minh họa về trường độ song của hai âm tiết.


Hình 1.4.2: Trường độ, biên độ của hai âm tiết “Nhanh”, “nhảu”

- 23 -
1.4.3. Formant
Với phổ của tín hiệu tiếng nói, mỗi đỉnh có biên độ lớn nhất xét trong một
khoảng nào đó (cực đại khu vực) tương ứng với một formant. Ngoài tần số,
formant còn được xác định bởi biên độ và dải thông. Về mặt vật lý các formant
tương ứng với các tần số cộng hưởng của tuyến âm. Trong xử lý tiếng nói và
nhất là trong tổng hợp tiếng nói, để mô phỏng lại tuyến âm người ta phải xác
định được các tham số formant đối với từng loại âm vị. Do đó, việc đánh giá và
ước lượng các formant có ý nghĩa rất quan trọng.
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính của
người nói và phụ thuộc vào các dạng âm vị tương ứng với formant đó. Đồng
thời, formant còn phụ thuộc các âm vị trước và sau đó. Về cấu trúc tự nhiên, tần
số formant có liên hệ chặt chẽ với hình dạng và kích thước tuyến âm. Thông
thường phổ của tín hiệu tiếng nói có khoảng 5 formant nhưng chỉ có 3 formant
đầu tiên ảnh hưởng quan trọng đến các đặc tính của các âm vị, các formant còn
lại cũng có ảnh hưởng song rất ít.

Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người
nói trong điều kiện phát âm nhất định. Mặc dù phạm vi của các tần số formant
tương ứng với mỗi nguyên âm có thể trùm lên nhau nhưng vị trí giữa các
formant là không đổi vì sự xê dịch của các formant là song song.


Hình 1.4.3: Các đường formant

1.5. Giới thiệu về các hệ thống tài nguyên hạn chế
Tài nguyên hệ thống là một khái niệm rất rộng. Kích thước file, kích thước
ngăn xếp, bộ nhớ RAM, tốc độ xử lý, … đều được hiểu là tài nguyên hệ thống. Tuy
nhiên, trong khuôn khổ nghiên cứu của luận văn, tôi tập trung vào hai tài nguyên
rất quan trọng. Đó là, bộ nhớ và năng lực tính toán của hệ thống. Nếu các tài

×