Tải bản đầy đủ (.pdf) (94 trang)

Tổng hợp tiếng nói sử dụng giải thuật TD PSOLA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.31 MB, 94 trang )


Trang v

TÓM TT

Ngày nay cùng với sự phát triển của công nghệ, đã làm cho việc trao đổi thông
tin giữa con người với nhau trở nên phong phú hơn, truyền thông tiếng nói vẫn là
phương thức nổi trội nhất của xã hội loài người trong việc trao đổi thông tin. Các từ
ngữ vẫn ngày càng được mở rộng thông qua các phương tiện mang tính công nghệ
như: điện thoại, truyền thanh, truyền hình và Internet
Với sự hỗ trợ mạnh mẽ của công nghệ máy tính do vậy phương tiện truyền
thông tiếng nói cũng đòi hỏi ngày càng cao. Nên một hệ thống tổng hợp tiếng nói
cần phải có khả năng tổng hợp câu chữ, mức độ tự nhiên, Một trong những mục
tiêu quan trọng nhất của tổng hợp tiếng nói là làm sao tiếng nói tổng hợp được phải
đạt đến độ tự nhiên tối đa, đồng thời để có thể áp dụng được vào nhiều lĩnh vực
trong cuộc sống và phải có một khả năng linh hoạt.
Hiện tại các nhà khoa học trên thế giới, đã đưa ra khá nhiều giải thuật được áp
dụng nhằm thỏa mãn các yêu cầu này, một trong số đó là giải thuật TD_PSOLA.
Giải thuật TD_PSOLA là quá trình phân tích tín hiệu thực ban đầu thành chuỗi tín
hiệu thành phần, mà mỗi đoạn tín hiệu thành phần chứa một tần số cơ bản khác
nhau, sau đó thực hiện thay đổi thành phần tần số cơ bản đó theo tỉ lệ cường độ
(Pitch) hoặc theo tỉ lệ thời gian (Time), cuối cùng thì cộng chồng lấn các chuỗi tín
hiệu thành phần lại với nhau thì ta được tín hiệu mới.
Hệ thống tổng hợp tiếng nói tiếng Việt từ văn bản được chia thành hai mức xử lý
đó là tổng hợp mức cao và tổng hợp mức thấp:
+ Tổng hợp mức cao: là quá trình xử lý văn bản tiếng Việt có dấu ở đầu vào,
phân tích cách phát âm của từ, phân tích ngôn điệu của câu và cuối cùng là tạo ra
các đơn vị tiếng nói (diphone).

Trang vi


+ Tổng hợp mức thấp: là quá trình ghép nối các đơn vị tiếng nói lại theo trình tự
của văn bản đầu vào, xử lý tín hiệu sau khi ghép nối bằng cách làm trơn tín hiệu,
điều khiển tần số cơ bản và cuối cùng là biểu diễn tiếng nói ở đầu ra của hệ thống.
Trong luận văn này, em đã sử dụng giải thuật TD_PSOLA để áp dụng cho việc
tổng hợp tiếng Việt dựa trên những đặc thù riêng về mặt ngữ âm. Qua hơn sáu tháng
thực nghiệm nghiên cứu đề tài Tổng hợp tiếng nói (tiếng Việt) sử dụng giải thut
TD_PSOLA cùng với giáo viên hướng dẫn Thầy PGS.TS Dương Hoài Nghĩa, đến
nay đã thu được kết quả là khá khả quan:
+ Đạt được mục tiêu đề ra về việc xây dựng và quản lý hệ thống cơ sở dữ liệu
linh hoạt trên phần mềm Matlab, cơ sở dữ liệu được giới hạn trong phạm vi những
câu nói cơ bản.
+ Dung lượng của bộ nhớ tương ứng 209 diphone là 779 KB.
+ Xử lý được văn bản tiếng Việt đầu vào của hệ thống tổng hợp tiếng nói, văn
bản đầu vào không phân biệt chữ hoa hay chữ thường, được nhập trực tiếp trên giao
diện GUI của Matlab hoặc trên phần mềm Microsoft Word.
+ Chất lượng của tiếng nói tổng hợp tương đối tự nhiên.
+ Hệ thống hoạt động ổn định và tiện lợi.
Cấu trúc nội dung quyển báo cáo luận văn tốt nghiệp gồm có bốn chương được
trình bày cụ thể như sau:
Chương 1: Tổng quan về tổng hợp tiếng nói
Chương 2: Cơ sở lý thuyết
Chương 3: Thiết kế chương trình Tổng hợp tiếng nói tiếng Việt
Chương 4: Kết luận và hướng phát triển
Trang vii

ABSTRACT

Today with the development of technology has made the exchange of
information amongst people become richer, voice communication is still the most
dominant mode of human society in the exchangeinformation. The word has

increasingly been extended through the means of bringing technologies such as:
telephone, radio, TV and Internet
With the strong support of computer technology so media voices also requires
increasing. A voice system should have the ability to synthesize words, the level of
natural One of the most important objectives of the speech synthesizer is to voice
synthesis to achieve maximum natural, and to be able to apply to many areas of life,
it must have a flexibility.
Currently scientists around the world have given quite a lot of algorithms are
applied to satisfy these requirements, one of which was that TD_PSOLA algorithm.
Algorithm TD_PSOLA the analysis of the original real signal into the signal chain
components, where each segment contains a frequency component signals are
fundamentally different, then make changes to the fundamental frequency
component intensity ratio (Pitch) or by the percentage of time (time), finally
overlaps add the signal chain components together, we get the new signal.
Vietnamese speech synthesis system from the text is divided into two levels of
treatment which is a combination of high and low level synthesis:
+ High Level Synthesis: text processing accented Vietnamese input, the
pronunciation of the word analysis, metrics analysis of sentences and finally create
the voice unit (diphone).
+ Low Level Synthesis: is the process of pairing the unit voices in the order of
the text input, signal processing after pairing by smoothing the signal, the
Trang viii

fundamental frequency control and finally voice is represented in the output of the
system.
In this thesis, I have use algorithms TD_PSOLA to apply to the speech
synthesizer Vietnamese based on its own characteristics in terms of pronunciation.
After more than six months of empirical research themes Speech Synthesis using
algorithm TD_PSOLA with instructors Master Dr. Duong Hoai Nghia, so far
obtained results are quite satisfactory:

+ Achieve targets for the development and management of database systems
flexible on Matlab software, the database is limited in the scope of the basic
sentence.
+ Corresponding memory capacity of 209 diphone is 779 KB.
+ Handling the written Vietnamese input speech synthesis system, the input text
regardless of uppercase or lowercase letters, be entered directly on the GUI
interface of Matlab or Microsoft Word software.
+ The quality of speech synthetic systems is relatively natural.
+ System stability and convenient operation.
Atmospheric content structure thesis report consists of four chapters are
presented as follows:
Chapter 1: Overview of speech synthesis
Chapter 2: Theoretical basis
Chapter 3: Designing Integrated program the speech synthesizer Vietnamese
Chapter 4: Conclusions and developments
Trang ix



Trang tựa Trang
Quyết định giao đề tài
Lý lịch cá nhân i
Lời cam đoan iii
Cảm tạ iv
Tóm tắt v
Abstract vii
Mục lục ix
Danh sách các chữ viết tắt xiii
Danh sách các hình xiv
Danh sách các bảng xvii

 1
 1
 3
 4
 4
 5
 6
 6
2.1.1  6
2.1.1.1 Âm và cường độ âm 6
2.1.1.2 Các đặc trưng sinh học của âm 6
2.1.1.3 Các tham số âm 7
2.1.1.4 Một số khái niệm ngữ âm 7
2.1.  8
2.1.2.1 Âm hữu thanh và âm vô thanh 8
2.1.2.2 Âm vị 9
Trang x

2.1.2.3 Các đặc tính khác 9
2.1. 11
2.1.3.1 Cấu tạo bộ máy phát âm 11
2.1.3.2 Cơ chế phát âm 12
2.1. 13
2.1.4.1 Tần số lấy mẫu 14
2.1.4.2 Lượng tử hoá 15
 16
2.2 16
2.2 18
2.2.2.1 Tổng hợp tiếng nói theo cách phát âm 18
2.2.2.2 Tổng hợp đầu cuối tự nhiên 18

2.2.3 Các  19
2.2.3.1 Phương pháp mô phỏng hệ thống phát âm 20
2.2.3.2 Phương pháp tổng hợp Formant 20
2.2.3.3 Phương pháp ghép nối 21
 24
 25
2.3 25
2.3.1.1 Phân tích PSOLA 27
2.3.1.2 Tổng hợp PSOLA 29
2.3 30
2.3 33
2.3 36
2.3.4.1 Xác định tần số cơ bản 37
2.3.4.2 Làm trơn tín hiệu khi ghép nối 40
 41
 41
 42
Trang xi

2.4.2.1 Xử lý văn bản 42
2.4.2.2 Phân tích cách phát âm 43
2.4.2.3 Ngôn điệu 43
 44
3 46
3 46
3 48
3 49
3.3.1 Thu âm 49
3.3.2 Tách diphone 50
3.3.3 Lưu trữ dữ liệu 51

3 52
3.4.1 Phân tích văn bản tiếng Việt thành các từ 52
3.4.2 Tách từ thành các diphone 55
3.5  58
3.5.1 Ghép nối các diphone 58
3.5.2 Biến đổi tần số cơ bản 60
3.6  60
3.6.1 Mô phỏng chương trình tổng hợp tiếng nói 62
3.6.2 Mô phỏng quá trình thu âm và tách từ 63
3.6.3 Mô phỏng quá trình tách diphone 65
3.6.4 Mô phỏng quá trình ghép nối các diphone 65
3.6.5 Mô phỏng giải thuật TD_PSOLA 66
3.6.6 Lưu trữ và quản lý cơ sở dữ liệu 69
4.  72
4 72
4 73
 74
 76
Trang xii

1. Phụ lục 1: Bảng mã TCVN3 – ABC các ký tự tiếng Việt chữ thường 76
2. Phụ lục 2: Bảng các diphone tiếng Việt đã lưu trong cơ sỡ dữ liệu 78
3. Phụ lục 3: Code chương trình trên matlab 80

Trang xiii



PSOLA (Pitch Synchronous Overlap Add)
: Cộng chồng lấp đồng bộ hóa pitch

TD_PSOLA (Time Domain_Pitch
Synchronous Overlap Add)
: PSOLA trên miền thời gian
FD_PSOLA (Frequency Domain_Pitch
Synchronous Overlap Add)
: PSOLA trên miền tần số
LP_PSOLA (Linear Prediction_Pitch
Synchronous Overlap Add)
: PSOLA trên miền thời gian và miền
tần số
Formant Frequency
: Tần số cộng hưỡng
BW (Band Width)
: Dãi thông
Diphone
: Âm vị ghép
Pitch
: Chu kỳ tần số cơ bản
Short-time
: Thời gian ngắn
Spectrum
: Phổ
Speech Synthesis
: Tổng hợp tiếng nói
TTS (Text to Speech)
: Chuyển văn bản thành tiếng nói
F1, F2, F3
: Các tần số cộng hưởng
F0
: Tần số cơ bản


Trang xiv

DANH SÁCH CÁC HÌNH

HÌNH Trang
Hình 2.1: Tín hiệu sóng âm 6
Hình 2.2: Mô tả bộ máy phát âm 12
Hình 2.3: Phương pháp biểu diễn tín hiệu tiếng nói 13
Hình 2.4: Mô hình hoá nguồn âm đối với âm hữu thanh 16
Hình 2.5: Chuỗi 5 đoạn ống âm học lý tưởng 17
Hình 2.6: Cấu trúc cơ bản của một bộ tổng hợp formant nối tiếp 20
Hình 2.7: Cấu trúc cơ bản của một bộ tổng hợp formant song song 21
Hình 2.8: Quá trình phân chia các đoạn tín hiệu 26
Hình 2.9: Xác định cực đại địa phương của hàm năng lượng 28
Hình 2.10: Cộng xếp chồng các đoạn tín hiệu 29
Hình 2.11: Quá trình làm thay đổi tần số của tín hiệu 31
Hình 2.12: Sự thay đổi tần số và thời gian với TD_PSOLA 32
Hình 2.13: a. Hiệu chỉnh giảm tỉ lệ pitch, b. Hiệu chỉnh tăng tỉ lệ pitch 35
Hình 2.14: Làm tăng tỉ lệ pitch 35
Hình 2.15: Hiệu chỉnh tỉ lệ thời gian 36
Trang xv

Hình 2.16: Hàm tự tương quan đối với âm hữu thanh (a) và (b); và vô thanh (c)
dùng của sổ Hamming 38
Hình 2.17: Mô hình tổng quát tổng hợp tiếng nói 42
Hình 2.18: Sự phụ thuộc của ngôn điệu vào các yếu tố 44
Hình 3.1: Sơ đồ tổng hợp tiếng Việt từ văn bản 48
Hình 3.2: Điểm cắt bên phải của diphone 51
Hình 3.3: Lưu đồ thuật toán xác định câu trong văn bản 53

Hình 3.4: Minh hoạ sự biến đổi tần số cơ bản của các từ theo tần số cơ bản của
câu 54
Hình 3.5: Lưu đồ thuật toán xác định từ trong câu 55
Hình 3.6: Lưu đồ thuật toán xác định vị trí nguyên âm đầu tiên 57
Hình 3.7: Ghép nối hai diphone 59
Hình 3.8: Cộng xếp chồng các tín hiệu thành phần 59
Hình 3.9: Quá trình biến đổi tần số cơ bản của từ theo thời gian 60
Hình 3.10: Giao diện chính của hệ thống 61
Hình 3.11: Giao diện tổng hợp tiếng nói 62
Hình 3.12: Giao diện nhập văn bản tiếng việt từ file word 63
Hình 3.13: Giao diện chương trình thu âm 64
Hình 3.14: Giao diện chương trình tách các từ 64
Hình 3.15: Giao diện chương trình cắt khoảng lặng và tách các diphone 65
Trang xvi

Hình 3.16: Giao diện chính chương trinh ghép nối hai diphone 66
Hình 3.17: Giao diện tổng hợp với tham số Pitch và Time bằng 1 67
Hình 3.18: Giao diện tổng hợp với tham số Pitch bằng 0.8 và Time bằng 0.9 68
Hình 3.19: Giao diện tổng hợp với tham số Pitch bằng 1.2 và Time bằng 1 68
Hình 3.20: Giao diện quản lý cơ sở dữ liệu 70
Hình 3.21: Tập tin lưu tên txtfile.txt và cửa sổ workspace 70
Hình 3.22: Kết quả mô phỏng tổng hợp tiếng nói từ văn bản 71



Trang xvii



 Trang

1.1: Danh sách các nghiên cứu trong nước 2
1.2: Danh sách các nghiên cứu ngoài nước 3
1.3: Kế hoạch thực hiện đề tài 5
1: Giới hạn tần số cơ bản của người nói 11
3.1: Tham khảo một vài diphone cơ bản trong tiếng Việt 49
3.2: Các loại dấu câu 52
3.3: Thứ tự dữ liệu lưu trữ trong Mydatabase.mat 69
4.1: Tổng kết và so sánh cơ sở dữ liệu đã xây dựng 73


Trang 1


TNG QUAN V TNG HP TING NÓI
1.1 Lch s phát trin
Năm 1797, Christian Kratzenstein, trường đại học St. Petersburg đã xây dựng
một mô hình có dạng vòm họng người có thể tạo ra 5 nguyên âm (a, e, i, o và u).
Sau đó nó được Wolfgang von Kempelen ở Vienna, Austria phát triển thêm và gọi
là Máy tạo tiếng nói dựa trên cơ chế âm học.
Tổng hợp tiếng nói là một vấn đề khoa học liên quan đến nhiều lĩnh vực khoa
học khác nhau như ngôn ngữ học, tâm lý học, toán học, xử lý tín hiệu số và khoa
học máy tính. Hệ thống tổng hợp tiếng nói dựa trên máy tính, đầu tiên được xây
dựng vào những năm 50 của thế kỷ trước và hệ thống text-to-speech đầu tiên được
hoàn thành vào năm 1968.
Hiện nay tại Việt Nam, đã có nhiều cơ quan, viện nghiên cứu, các trường đại
học đã có những nghiên cứu và bước đầu đã đem lại một số kết quả khả quan trong
vấn đề tổng hợp tiếng Việt. Các phương pháp tổng hợp tiếng nói được sử dụng phổ
biến là:
+ Phương pháp mô phỏng hệ thống phát âm.
+ Phương pháp tổng hợp bộ tham số Formant.

+ Phương pháp ghép nối.
Phương pháp mô phỏng hệ thống phát âm của con người cho chất lượng tốt, tuy
nhiên rất khó để mô phỏng một cách hoàn hảo bộ máy phát âm. Phương pháp tổng
hợp bằng formant lại không cho chất lượng cao. Trong ba phương pháp này thì tổng
hợp tiếng nói bằng phương pháp ghép nối được sử dụng rộng rãi hơn cả.

Trang 2

TD_PSOLA là giải thuật tổng hợp tiếng nói dùng cho phương pháp ghép nối.
Trước tiên tiếng nói được phân tích thành các tín hiệu thành phần, sau đó biến đổi
các tín hiệu thành phần này theo mong muốn, rồi tiến hành cộng xếp chồng các
thành phần này lại, ta được tín hiệu tiếng nói tổng hợp. Phương pháp này thao tác
trực tiếp với tín hiệu trên miền thời gian nên có chi phí tính toán thấp.
Các nghiên cứu tổng hợp tiếng nói trong nước:
STT
 tài
Tác gi
1
Nghiên cứu phương pháp hiệu quả trong
việc tổng hợp tiếng nói tiếng Việt
Chế Viết nhật Anh, Trương
Công Duy Nghi, Đại học Bách
Khoa TP HCM, 2004
2
Nghiên cứu xây dựng phần mềm “Tự
động đọc văn bản chữ Việt” bằng
phương pháp tổng hợp formant
Lê Hồng Minh, Bộ khoa học
và công nghệ, viện ứng dụng
công nghệ, 2004

3
Một số kết quả phân tích ngữ âm để tổng
hợp tiếng Việt từ văn bản bằng luật
Lê Hồng Minh & Quách Tuấn
Ngọc, 2005
4
Áp dụng phương pháp PSOLA trong
tổng hợp tiếng nói tiếng Việt
Hoàng Tiểu Bình, Đại học
quốc gia Hà Nội, 2006
Bảng 1.1: Danh sách các nghiên cứu trong nước
Các nghiên cứu tổng hợp tiếng nói ngoài nước:
STT
 tài
Tác gi
1
Usage of TD PSOLA algorithm in
slovak speech synthesis based on the
Dr. Gregor Rozinaj, FEI STU
Bratislava

Trang 3

emu database system
2
Arabic speech synthesis interface
under matlab
Chabchoub, Dept. Of Electronics
and Control Madinah College of
Technology

3
Synthesizing a choir in real-time
using Pitch Synchronous Overlap
Add (PSOLA)
Norbert Schnell & Geoffroy
Peeters, F-75004 Paris, France
4
Text-to-Speech Synthesis by
Diphones for Modern Standard
Arabic
Nader Abu Ghattas & Hanna
Abdel Nour, Al-Quds University
Jerusalem, Palestine, 2005
5
Text to speech
Google Chrome, version 2013
Bảng 1.2: Danh sách các nghiên cứu ngoài nước
1.2 M tài
Ngày nay cùng với sự phát triển của công nghệ, đã làm cho việc trao đổi thông
tin giữa con người với nhau trở nên phong phú hơn, truyền thông tiếng nói vẫn là
phương thức nổi trội nhất của xã hội loài người trong việc trao đổi thông tin.
Tiếng nói là công cụ giao tiếp tự nhiên nhất của con người. Hướng nghiên cứu
tạo ra tiếng nói nhân tạo trên máy tính được gọi là tổng hợp tiếng nói. Hai yêu cầu
quan trọng về chất lượng tổng hợp tiếng nói là mức độ tự nhiên và mức độ dễ nghe.
Mức độ tự nhiên chỉ sự giống nhau giữa giọng tổng hợp và giọng nói tự nhiên của
người thật. Mức độ dễ nghe là khả năng hiểu câu nói phát âm có dễ dàng không.
Một hệ thống tổng hợp tiếng nói lý tưởng phải thỏa mãn hai tính chất này.

Trang 4


Mục đích của đề tài là nghiên cứu các phương pháp tổng hợp tiếng nói, để tìm ra
giải pháp tốt nhất cho việc xây dựng hệ thống tổng hợp tiếng nói tiếng Việt, thỏa
mãn được yêu cầu về mức độ tự nhiên, mức độ dễ nghe và tiện lợi trong sử dụng.
1.3 Nhim v c tài và gii h tài
Tìm hiểu các đặc trưng của tiếng nói tiếng Việt và các phương pháp tổng hợp
tiếng nói tiếng Việt, so sánh các phương pháp với nhau để tìm ra phương pháp tổng
hợp tiếng nói tiếng Việt có chất lượng cao nhất.
Phân tích, xử lý các văn bản tiếng Việt có dấu.
Mô phỏng hệ thống tổng hợp tiếng nói tiếng Việt trên phần mềm Matlab, phiên
bản 2007b.
Tổng kết nội dung nghiên cứu và trình bày các báo cáo nghiên cứu. Viết bài báo
khoa học về lĩnh vực tổng hợp tiếng nói tiếng Việt.
Giới hạn của đề tài là chưa đưa ra giải pháp tối ưu về dung lượng bộ nhớ cho hệ
thống cơ sở dữ liệu tiếng nói, số lượng cơ sở dữ liệu hoàn chỉnh của hệ thống tổng
hợp tiếng nói tiếng Việt.
Văn bản đầu vào của hệ thống được nhập trực tiếp trên giao diện hoặc được
nhập từ phần mềm Microsoft Word.
Qua báo cáo chuyên đề 2. Các ý kiến đề nghị được đưa ra như sau: nên cần giới
hạn lại số lượng dữ liệu trong quá trình xây dựng hệ thống cơ sở dữ liệu của các
diphone, tập trung nghiên cứu sâu hơn về hệ thống tổng hợp tiếng nói tiếng Việt các
ứng dụng của nó.
1.4 u
Khảo sát thông tin và thu thập tài liệu về tổng hợp tiếng nói trên Internet và từ
giáo viên hướng dẫn.

Trang 5

Tổng hợp tài liệu thu được, chọn lựa các tài liệu phù hợp để phân tích, đánh giá
nhằm tìm kiếm phương pháp tổng hợp tiếng nói thích hợp.
Phân tích giải thuật của các phương pháp, có thể xây dựng các ví dụ mẫu để so

sánh các phương pháp tổng hợp tiếng nói.
Chọn phương pháp tổng hợp tiếng nói có chất lượng cao nhất làm đề tài nghiên
cứu trọng tâm.
Đánh giá kết quả thu được, phân tích những mặc hạn chế và hướng giải quyết
tiếp theo.
Cuối cùng tổng kết lại nội dung đã nghiên cứu và báo cáo trước hội đồng bảo vệ
tốt nghiệp.
1.5 K hoch thc hin
STT
Công vic thc hin
Thi gian
Kt qu
1
Tìm hiểu các phương pháp tổng hợp
tiếng nói
10/2011
02/2012
Báo cáo chuyên đề 1
(9 điểm)
2
Nghiên cứu phương pháp tổng hợp
tiếng nói sử dụng giải thuật
TD_PSOLA
03/2012
08/2012
Báo cáo chuyên đề 2
(8.5 điểm)
3
Thiết kế chương trình tổng hợp tiếng
nói tiếng Việt sử dụng giải thuật

TD_PSOLA
09/2012
03/2013
Luận văn tốt nghiệp
(phần mềm và quyển
báo cáo)
4
Tổng hợp lại nội dung nghiên cứu,
trình bày báo cáo luận văn
04/2013
Bảo vệ tốt nghiệp
(7.5 điểm)
Bảng 1.3: Kế hoạch thực hiện đề tài
Trang 6

2
 LÝ THUYT
2.1 Lý thuyt v ting nói
2.1.1 Các khái nin
2.1.1.1 Âm và  âm
Âm là sóng áp lực theo chiều dọc được hình thành do việc nén và giãn các phần
tử không khí theo hướng song song với nguồn năng lượng phát.

Hình 2.1: Tín hiệu sóng âm
Cường độ âm là năng lượng được sóng âm truyền trong một đơn vị thời gian,
qua một đơn vị diện tích đặt vuông góc với phương truyền âm. Mức cường độ âm
(Sound Pressure Level) là giá trị tuyệt đối của cường độ âm theo dB.
2.1.1.2 c trng sinh hc ca âm
Tiếng nói được tạo ra bởi các sóng áp lực không khí xuất phát từ miệng hoặc
mũi của người nói. Người ta chia âm vị thành hai lớp:

+ Phụ âm: tạo thành khi luồng không khí từ phổi đi ra bị cản trở ở một điểm nào
đó.
Trang 7

+ Nguyên âm: ngược lại với phụ âm, nguyên âm thường được tạo thành khi
luồng không khí thoát ra ngoài một cách tự do.
2.1.1.3 Các tham s âm
Độ cao: Âm thanh phát ra bao giờ cũng ở một độ cao nhất định. Mức độ cao
thấp của âm phụ thuộc vào sự chấn động nhanh hay chậm của các phần tử không
khí trong một thời gian nhất định.
Độ mạnh: độ mạnh hay cường độ của âm do biên độ giao động quyết định. Biên
độ dao động càng lớn thì âm phát ra càng mạnh.
Độ dài: độ dài hay trường độ của âm phụ thuộc vào sự chấn động dài hay ngắn
của các phần tử không khí.
Âm sắc: âm sắc là bản sắc, là sắc thái riêng biệt của một âm. Ví dụ như, cùng
một nốt nhạc nhưng âm thanh của các loại đàn khác nhau sẽ có những sắc thái khác
nhau.
Tiếng động và tiếng thanh: các phân tử không khí dao động có chu kỳ sẽ tạo ra
tiếng thanh, ngược lại nếu dao động không điều hòa sẽ tạo ra tiếng động.
2.1.1.4 Mt s khái nim ng âm
Âm tố: (sound element) âm tố là đơn vị nhỏ nhất của âm thanh lời nói, được
dùng để cấu tạo nên mọi đơn vị ngôn ngữ khác.
Âm vị: (phoneme) là đơn vị tối thiểu của hệ thống ngữ âm của một ngôn ngữ,
dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ.
Biến thể của âm vị: là những âm tố cùng thể một âm vị. Các biến thể được phân
chia làm hai loại: các biến thể kết hợp và các biến thể tự do.
Âm tiết: (syllabable) là khúc đoạn âm thanh từ một chuỗi lời nói của con người.
Trang 8

Ngữ điệu: (intonation) là sự chuyển động của những thanh cơ bản của giọng nói,

là sự nâng cao hoặc hạ thấp giọng nói trong câu.
Trọng âm: (accent) là sự nổi bật một trong những âm tiết của từ, bằng những
phương tiện ngữ điệu nhất định, được thực hiện bằng cách tăng cường độ của
nguyên âm.
Thanh điệu: (tone) là sự nâng cao hay hạ thấp giọng nói trong một âm tiết có tác
dụng cấu tạo và phân biệt vỏ âm thanh của từ hoặc hình vị (tiếng).
2.1.2 c tính âm hc ca ting nói
2.1.2.1 Âm hu thanh và âm vô thanh
a. Âm hu thanh
Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời, chúng rung động
ở chế độ dãn, khi không khí tăng lên làm thanh môn mở ra và sau đó thanh môn xẹp
xuống cho không khí chạy qua. Do sự cộng hưởng của dây thanh, sóng âm tạo ra có
dạng tuần hoàn hoặc gần như tuần hoàn. Phổ của âm hữu thanh có nhiều thành phần
hài tại giá trị bội số của tần số cộng hưởng, còn gọi là tần số cơ bản (pitch).
b. Âm vô thanh
Khi tạo ra âm vô thanh, dây thanh không cộng hưởng. Âm vô thanh có hai loại
cơ bản là âm xát và âm tắc.
Âm xát (ví dụ như âm s) được tạo ra khi có sự co thắt tại vài điểm trong tuyến
âm. Không khí khi đi qua điểm co thắt sẽ chuyển thành chuyển động hỗn loạn tạo
nên kích thích giống như nhiễu ngẫu nhiên. Thông thường điểm co thắt xảy ra gần
miệng nên sự cộng hưởng của tuyến âm ảnh hưởng rất ít đến đặc tính của âm xát
được tạo ra.
Âm tắc (ví dụ như âm p) được tạo ra khi tuyến âm đóng tại một số điểm làm cho
áp suất không khí tăng lên và sau đó được giải phóng đột ngột. Sự giải phóng đột
Trang 9

ngột này tạo ra kích thích nhất thời của tuyến âm. Sự kích thích này có thể xảy ra
cùng với sự cộng hưởng hoặc không cộng hưởng của dây thanh tương ứng với âm
tắc hữu thanh hoặc vô thanh.
2.1.2.2 Âm v

Tín hiệu tiếng nói là tín hiệu tương tự, biểu diễn cho thông tin về mặt ngôn ngữ
và được mô tả bởi các âm vị khác nhau. Như vậy, âm vị là đơn vị nhỏ nhất của ngôn
ngữ. Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vị nhiều hay ít (thông
thường số lượng các âm vị vào khoảng 20 – 30). Các âm vị được chia thành hai
loại: nguyên âm và phụ âm.
a. Nguyên âm
Nguyên âm là âm hữu thanh được tạo ra bằng sự cộng hưởng của dây thanh khi
dòng khí được thanh môn đẩy lên. Khoang miệng được tạo lập thành nhiều hình
dạng nhất định tạo thành các nguyên âm khác nhau. Số lượng các nguyên âm phụ
thuộc vào từng ngôn ngữ nhất định.
b. Ph âm
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm co
thắt của đường dẫn âm thanh do cách phát âm tạo thành. Phụ âm có đặc tính hữu
thanh hay vô thanh tuỳ thuộc vào việc dây thanh có dao động để tạo nên cộng
hưởng không. Dòng không khí tại chỗ đóng của vòm miệng tạo ra phụ âm tắc. Phụ
âm xát được phát ra từ chỗ co thắt lớn nhất.
2.1.2.3 c tính khác
a. T sut thi gian
Trong khi nói chuyện, khoảng thời gian nói và khoảng thời gian nghỉ xen kẽ
nhau. Tỷ lệ % thời gian nói trên tổng số thời gian nói và nghỉ được gọi là tỷ suất
Trang 10

thời gian. Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể phân loại
thành nói nhanh, nói chậm hay nói bình thường.
b. ng thi gian ngn
Hàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia tín hiệu
tiếng nói thành nhiều khung, mỗi khung chứa N mẫu. Các khung này được đưa qua
một cửa sổ có dạng hàm như sau:

Hàm năng lượng ngắn tại mẫu thứ m được tính theo công thức sau:


Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ Hamming, cửa sổ
Hanning và cửa sổ chữ nhật. Hàm năng lượng thời gian ngắn của âm hữu thanh
thường lớn hơn so với âm vô thanh.
c. Tn s c bn
Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu (trong đó biên độ
biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín hiệu lặp lại gần như tuần
hoàn). Phần tín hiệu có tính chu kỳ chứa các thành phần tần số có dạng điều hòa.
Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần số dao động của dây
thanh. Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau. Dưới đây
là một số giá trị tần số cơ bản tương ứng với giới tính và tuổi:
Trang 11


Bảng 2.1: Giới hạn tần số cơ bản của người nói
d. Tham s Formant
Với phổ của tín hiệu tiếng nói, mỗi đỉnh có biên độ lớn nhất xét trong một
khoảng nào đó (cực đại khu vực) tương ứng với một formant. Ngoài tần số formant
còn được xác định bởi biên độ và dãi thông. Về mặt vật lý các formant tương ứng
với các tần số cộng hưởng của tuyến âm. Trong xử lý tiếng nói và nhất là trong tổng
hợp tiếng nói, để mô phỏng lại tuyến âm người ta phải xác định được các tham số
formant đối với từng loại âm vị, do đó việc đánh giá, ước lượng các formant có ý
nghĩa rất quan trọng.
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính của
người nói và phụ thuộc vào các dạng âm vị tương ứng với formant đó. Đồng thời,
formant còn phụ thuộc các âm vị trước và sau đó. Về cấu trúc tự nhiên, tần số
formant có liên hệ chặt chẽ với hình dạng và kích thước tuyến âm.
Thông thường phổ của tín hiệu tiếng nói có khoảng 5 formant nhưng chỉ có 3
formant đầu tiên ảnh hưởng quan trọng đến các đặc tính của các âm vị, các formant
còn lại cũng có ảnh hưởng nhưng rất ít. Tần số formant đặc trưng cho các nguyên

âm biến đổi tuỳ thuộc vào người nói trong điều kiện phát âm nhất định. Mặc dù
phạm vi của các tần số formant tương ứng với mỗi nguyên âm có thể trùm lên nhau
nhưng vị trí giữa các formant là không đổi vì sự xê dịch của các formant là song
song.
2.1.3 B máy phát âm
2.1.3.1 Cu to b máy phát âm
Trang 12

Bộ máy phát âm bao gồm các thành phần riêng rẽ như phổi, khí quản, thanh
quản, và các đường dẫn miệng, mũi. Trong đó:
+ Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng cần thiết
để tạo ra âm thanh.
+ Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh hoặc thanh
quản.
+ Khoang mũi là ống không đều bắt đầu từ môi, kết thúc bởi vòm miệng, có độ
dài cố định khoảng 12 cm đối với người lớn.
+ Vòm miệng là các nếp cơ chuyển động.

Hình 2.2: Mô tả bộ máy phát âm
2.1.3 phát âm
Trong quá trình tạo âm thanh vòm miệng mở, khoang mũi đóng lại, dòng khí sẽ
chỉ đi qua khoang mũi. Khi phát âm mũi, vòm miệng hạ thấp và dòng khí sẽ chỉ đi
qua khoang mũi. Tuyến âm sẽ được kích thích bởi nguồn năng lượng chính tại
thanh môn. Tiếng nói được tạo ra do tín hiệu nguồn từ thanh môn phát ra, đẩy

×