Tải bản đầy đủ (.pdf) (62 trang)

Nghiên cứu phương pháp nén tiếng nói tốc độ bit thấp bằng kỹ thuật phân rã tiếng nói theo thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.05 MB, 62 trang )

i

LỜI CAM ĐOAN
Tên tôi là: Vũ Thanh Huế
Sinh ngày: 25/03/1985
Học viên lớp cao học K12I - Trường Đại học Công nghệ thông tin và
Truyền thông - Thái Nguyên.
Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bày
trong luận văn là bản thân tôi tìm hiểu và nghiên cứu, dưới sự hướng dẫn
khoa học của Thầy giáo Tiến sĩ Phùng Trung Nghĩa.
Các nội dung trong luận văn đúng như nội dung trong đề cương và yêu
cầu của thầy giáo hướng dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc,
xuất xứ rõ ràng. Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa
học và trước pháp luật.
Tác giả luận văn


ii

LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động
viên, giúp đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn Tiến sĩ Phùng
Trung Nghĩa, với đề tài luận văn “Nghiên cứu phương pháp nén tiếng nói tốc
độ bit thấp bằng kỹ thuật phân rã tiếng nói theo thời gian” đã hoàn thành.
Em xin bày tỏ lòng biết ơn sâu sắc đến:
Thầy giáo hướng dẫn Tiến sĩ Phùng Trung Nghĩa đã tận tình chỉ dẫn,
giúp đỡ em hoàn thành luận văn này.
Bộ phận sau Đại học Trường Đại học công nghệ thông tin và truyền
thông đã giúp đỡ em trong quá trình học tập cũng như thực hiện luận văn.
Em xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động
viên, khích lệ, tạo điều kiện giúp đỡ em trong suốt quá trình học tập, thực hiện


và hoàn thành luận văn này.
Em xin chân thành cảm ơn!

Thái Nguyên, ngày tháng năm 2015
Học viên

Vũ Thanh Huế


iii

MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................i
LỜI CẢM ƠN ........................................................................................................ii
MỤC LỤC............................................................................................................ iii
LỜI MỞ ĐẦU……………………………………………………………………... 1
1. Lý do chọn đề tài......................................................................................... 1
2. Mục tiêu của đề tài ...................................................................................... 2
3. Đối tượng và phạm vi nghiên cứu ............................................................... 2
4. Phương pháp nghiên cứu ............................................................................. 3
5. Ý nghĩa khoa học và thực tiễn ..................................................................... 3
CHƯƠNG 1: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI ................................... 4
1.1. Thông tin và tín hiệu tiếng nói .................................................................. 4
1.2. Quá trình tạo tiếng nói .............................................................................. 5
1.3. Khả năng cảm thụ tiếng nói của con người ............................................... 9
1.4. Mô hình hóa tiếng nói ............................................................................ 13
1.5. Mã hóa tiếng nói .................................................................................... 16
1.6. Kỹ thuật phân rã tiếng nói theo thời gian TD và ứng dụng trong mã hóa
tiếng nói ........................................................................................................ 20
CHƯƠNG 2: PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT

PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN ................................................... .23
2.1. Phương pháp của Atal ............................................................................ 23
2.2. Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD .................. 26
2.3. Phương pháp MRTD .............................................................................. 29
2.4. Mã hóa tiếng nói với TD kết hợp sử dụng STRAIGHT ......................... 34
2.4.1. Sơ lược về phương pháp mã hóa TD-STRAIGHT....................... 34
2.4.2. Tính tham số phổ đường LSF từ phổ STRAIGHT ....................... 36
2.4.3. Lượng tử hóa vector LSF ............................................................ 37
2.4.4. Lượng tử hóa vector sự kiện........................................................ 37


iv

2.4.5. Lượng tử hóa hàm sự kiện........................................................... 37
2.4.6. Lượng tử hóa tham số tần số cơ bản F0 ....................................... 38
2.4.7. Lượng tử hóa tham số độ lợi ....................................................... 38
2.4.8. Lượng tử hóa tham số nhiễu ........................................................ 38
CHƯƠNG 3. ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA
TIẾNG NÓI MRTD VỚI CƠ SỞ DỮ LIỆU TIẾNG VIỆT .............................. 40
3.1. Ngữ âm tiếng Việt .................................................................................. 40
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt ........................................................... 42
3.3. Cài đặt các phương pháp mã hóa tiếng nói dùng MRTD trên MATLAB 44
3.4. Tiêu chí đánh giá khách quan và chủ quan ............................................ 46
3.5. Kết quả khách quan và chủ quan các phương pháp. …………………….49
3.6. Đánh giá các kết quả .............................................................................. 51
KẾT LUẬN .......................................................................................................... 52
TÀI LIỆU THAM KHẢO ................................................................................... 53


v


DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết tắt

Viết đầy đủ

Ý nghĩa

PCM

Pulse Code Modulation

Mã hóa theo dạng xung

LPC

Linear Predictive Coding

Mã hóa dự đoán tuyến tính

Code-Excited Linear Prediction

Mã hóa dự đoán tuyến tính

coder

kích thích mã

CELP


Kỹ thuật phân rã theo thời

TD

Temporal Decomposition

LSF

Line Spectral Frequency

Đặc trưng phổ đường

Modi ed Restricted Temporal

Kỹ thuật phân rã theo thời

Decomposition

gian giới hạn cải tiến

Restricted Temporal

Kỹ thuật phân rã theo thời

Decomposition

gian giới hạn

Perceptual evaluation of speech


Phương pháp đánh giá chất

quality

lượng tiếng nói cảm thụ

MRTD

RTD

PESQ

gian


vi

DANH MỤC CÁC BẢNG
Bảng 3.1. Cấu trúc âm tiết tiếng Việt............................................................ 42
Bảng 3.2. Sáu thanh điệu tiếng Việt ............................................................. 42
Bảng 3.3. Thang điểm Scheffe ..................................................................... 47
Bảng 3.4. Thang điểm PESQ ........................................................................ 49


vii

DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ

Hình 1.1. Dạng sóng tiếng nói một câu tiếng Việt.................................................... 4

Hình 1.2. Tiếng nói hữu thanh ................................................................................. 5
Hình 1.3. Bộ phận cung cấp làn hơi ......................................................................... 5
Hình 1.4. Dây thanh âm ........................................................................................... 6
Hình 1.5. Cấu trúc cơ quan phát âm ......................................................................... 7
Hình 1.6. Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm ................... 8
Hình 1.7. Mô hình hóa cơ quan phát âm .................................................................. 8
Hình 1.8. Mô hình hóa cơ quan phát âm đầy đủ bằng máy tính ............................... 9
Hình 1.9. Cơ quan thính giác con người .................................................................. 9
Hình 1.10. Mô hình điểm cực formant cơ quan phát âm ........................................ 14
Hình 1.11. Mô hình kích thích âm hữu thanh ......................................................... 15
Hình 1.12. Mô hình kích thích nguồn âm ............................................................... 16
Hình 1.13. Phương pháp mã hóa tiếng nói PCM .................................................... 17
Hình 1.14. Phân tích một mẫu tiếng nói bằng TD .................................................. 21
Hình 2.1. Ví dụ về hai hàm sự kiện liền kề sử dụng mô hình phân rã bậc hai. ........ 27
Hình 2.2. Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không chuẩn” 29
Hình 2.3. Thuật toán chuẩn hóa vector sự kiện ...................................................... 33
Hình 2.4. Hình vẽ các hàm sự kiện nhận được khi MRTD phân tích một câu tiếng
Nhật, chỉ số trên miền thời gian là số khung. ......................................................... 34
Hình 2.5. Phương pháp mã hóa/giải mã tiếng nói dùng TD-STRAIGHT ............... 36
Hình 3.1. Đường F0 sáu thanh điệu tiếng Việt . ..................................................... 41
Hình 3.2. Thuật toán mã hóa và đánh giá chất lượng tiếng nói mã hóa bằng MRTD
.............................................................................................................................. 45
Hình 3.3. Mô hình hóa người nghe trong PESQ..................................................... 48
Hình 3.4. Tích hợp phân tích khả năng cảm thụ con người để tính điểm chất lượng
tiếng nói nhân tạo .................................................................................................. 48


viii

Hình 3.5. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỉ lệ nén

đầu vào là 20 ......................................................................................................... 50
Hình 3.6. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỉ lệ nén
đầu vào là 30 ......................................................................................................... 50
Hình 3.7. Hình ảnh dạng sóng tiếng nói có nén, không nén với tỉ lệ nén là 20. ...... 51


1

MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng nói là phương tiện giao tiếp cơ bản của con người. Vì vậy tiếng
nói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống
viễn thông. Để truyền tiếng nói trong mạng viễn thông, tiếng nói cần phải
được số hóa. Phương pháp mã hóa cơ bản theo dạng xung (Pulse Code
Modulation - PCM) cho tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống
tốc độ bit của một kênh thông tin số cơ bản chưa ghép kênh [1]. Với sự bùng
nổ về thông tin trong các mạng viễn thông hiện đại, việc sử dụng phương
pháp mã hóa PCM với tốc độ cơ bản 64 Kbps là tiêu tốn lãng phí nguồn tài
nguyên, hạn chế dung lượng thông tin trên một kênh truyền vật lí. Chính vì
vậy, rất nhiều nhà nghiên cứu trên thế giới đã tập trung vào vấn đề mã hóa
tiếng nói để đảm bảo tiếng nói được mã hóa có tốc độ bit thấp, có thể dễ dàng
tăng số kênh truyền logic trên một kênh truyền vật lí, trong khi vẫn phải đảm
bảo các yêu cầu về chất lượng [2-7]. Các phương pháp mã hóa tiếng nói phổ
biến được biết đến là mã hóa dự đoán tuyến tính LPC [2], mã hóa thích nghi
ADPCM [3],... Mặc dù các phương pháp mã hóa này là tin cậy và đã được
tiêu chuẩn hóa và sử dụng rộng rãi trong các hệ thống viễn thông. Hiệu quả
nén của các phương pháp mã hóa phổ biến này vẫn chưa đảm bảo trong điều
kiện tài nguyên hạn chế như các hệ thống thông tin vệ tinh hay di động.
Kỹ thuật phân rã tiếng nói theo thời gian (Temporal Decomposition TD) là một kỹ thuật phân tích tiếng nói được đề xuất bởi Atal năm 1983 [4].
Các kết quả nghiên cứu cho thấy TD rất thích hợp để phân tích mô hình hóa

tiếng nói cũng như mã hóa nén tiếng nói. Tuy nhiên thuật toán TD của Atal có
độ phức tạp tính toán cao, không phù hợp với việc mã hóa tiếng nói thời gian
thực. Vì vậy, một số nhà nghiên cứu đã cải tiến thuật toán TD của Atal theo


2

hướng giảm độ phức tạp tính toán, ứng dụng trong mã hóa tiếng nói tốc độ bit
thấp thời gian thực [5, 6, 7]. Hướng nghiên cứu này vẫn được tiếp tục phát
triển trong những năm gần đây [8].
Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói tốc độ bit
thấp thời gian thực dùng kỹ thuật TD, phân tích lý thuyết, cài đặt thực nghiệm
và đánh giá hiệu quả của phương pháp mã hóa tiếng nói dùng kỹ thuật TD cải
tiến giới hạn MRTD với tiếng nói tiếng Việt, từ đó đưa ra các khuyến nghị
cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực
dùng kỹ thuật TD phù hợp cho tiếng Việt.
2. Mục tiêu của đề tài
Hướng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân
rã tiếng nói theo thời gian TD hiện vẫn được tiếp tục phát triển trong những
năm gần đây [8] nhưng ở Việt Nam, hướng nghiên cứu này còn khá mới mẻ.
Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói tốc độ bit
thấp thời gian thực dùng kỹ thuật TD bao gồm:
- Thuật toán TD nguyên thủy của Atal,
- Thuật toán cải tiến MRTD của N.P. Chiến,
Phân tích lý thuyết, cài đặt thực nghiệm với cơ sở dữ liệu tiếng Việt và
đánh giá hiệu quả của phương pháp MRTD của N.P. Chien, từ đó đưa ra các
khuyến nghị cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời
gian thực dùng kỹ thuật TD cho phù hợp với tiếng nói tiếng Việt.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là các phương pháp mã hóa nén tiếng

nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD. Đây là đối tượng nghiên
cứu được nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây.


3

Phạm vi của luận văn bao gồm nghiên cứu tổng quan về mã hóa nén tiếng
nói [1-3], một số phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực
[2-8], đặc biệt tập trung vào kỹ thuật mã hóa nén tiếng nói dùng TD [4-8]. Luận
văn cũng nghiên cứu cài đặt thực nghiệm các phương pháp mã hóa dùng
MRTD và đánh giá với cơ sở dữ liệu tiếng Việt để đưa ra các khuyến nghị.
4. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [1-8] để phân tích, đánh giá về các kỹ thuật mã hóa tiếng nói tốc
độ bit thấp.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ
nghiên cứu thực nghiệm phương pháp mã hóa tiếng nói tốc độ bit thấp thời
gian thực dùng kỹ thuật phân rã tiếng nói theo thời gian MRTD. Cơ sở dữ liệu
để đánh giá thực nghiệm là cơ sở dữ liệu tiếng nói tiếng Việt. Môi trường để
thực nghiệm là MATLAB 7.0.
5. Ý nghĩa khoa học và thực tiễn
Nghiên cứu về mã hóa tiếng nói tốc độ bit thấp có vai trò quan trọng
trong các hệ thống truyền thông hiện đại. Mặc dù mục tiêu của các bộ mã hóa
tiếng nói là độc lập ngôn ngữ, hiệu quả của các phương pháp mã hóa tiếng nói
là khác nhau với các cơ sở dữ liệu tiếng nói khác nhau. Nghiên cứu về các
phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD
và thử nghiệm đánh giá với tiếng nói tiếng Việt chưa được nghiên cứu ở Việt
Nam. Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn.



4

CHƯƠNG 1.
TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI

1.1. Thông tin và tín hiệu tiếng nói
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người.
Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm
phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa
và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao
tiếp cơ bản nhất. Do tiếng nói là phương tiện giao tiếp cơ bản của con người,
nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn
thông từ trước đến nay.
Tín hiệu tiếng nói là loại tín hiệu âm thanh phổ biến nhất trong truyền
thông. Dải tần tín hiệu tiếng nói nằm trong khoảng 300 Hz - 3400 Hz. Tiếng
nói bao gồm hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần
hoàn còn âm vô thanh tương tự nhiễu.

Hình 1.1. Dạng sóng tiếng nói một câu tiếng Việt


5

Hình 1.2. Tiếng nói hữu thanh
1.2. Quá trình tạo tiếng nói
Bộ phận cung cấp làn hơi: Bao gồm hai lá phổi, được sự tác động của
các cơ ngực, sườn, cơ hoành cách mô, cơ bụng. Làn hơi đưa lên quyết định
cường độ của âm thanh.

Hình 1.3. Bộ phận cung cấp làn hơi



6

Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong
thanh quản:
Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căng
khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau,
cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm
thanh có cao độ khác nhau. Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn
ở đàn ông, nên giọng nữ và trẻ em cao hơn giọng đàn ông.

Hình 1.4. Dây thanh âm
Bộ phận dẫn âm: Gồm chủ yếu là cuống họng (yết hầu) thông với đường
miệng hoặc đường mũi. Các chấn động âm thanh do thanh đới tạo ra, được bộ
phận dẫn âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi. Cuống
họng và miệng chủ yếu đóng vai trò truyền âm.
Bộ phận phát âm: Là miệng với các hoạt động của môi, răng, lưỡi, hàm
dưới, vòm miệng. Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờ
vào hoạt động của các cơ năng trên. Khi nói đến khẩu hình là nói đến hình


7

thể, hình dáng, cả bên ngoài lẫn bên trong của miệng do hoạt động phối hợp
của môi, lưỡi, hàm dưới, vòm mềm tạo ra khi phát âm. Mở khẩu hình không
đúng cách sẽ ảnh hưởng không chỉ đến chất lượng âm thanh, mà nhất là ảnh
hưởng đến việc rõ lời, phát âm đúng.
Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh. Nhờ
sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở

các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau.

Hình 1.5. Cấu trúc cơ quan phát âm


8

Hình 1.6. Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm
Biễu diễn bộ phận phát âm: Để phân tích, tổng hợp tiếng nói cần mô
hình hóa cơ quan phát âm trên máy tính. Có thể biểu diễn cơ quan phát âm
bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có
đường kính khác nhau. Nói cách khác, cơ quan phát âm có thể được biểu diễn
bằng một dãy các bộ lọc nối tiếp có hàm truyền khác nhau. Trong quá trình
phát âm người ta thấy rằng hình dáng cơ quan phát âm (do đó là đặc tuyến
của các bộ lọc) thay đổi rất chậm, do đó trong một khoảng thời gian ngắn
(trong một âm vị) có thể xem như sự thay đổi là không đáng kể, nhưng chúng
sẽ thay đổi rất lớn từ âm vị này sang âm vị khác.

Hình 1.7. Mô hình hóa cơ quan phát âm


9

Hình 1.8. Mô hình hóa cơ quan phát âm đầy đủ bằng máy tính
1.3. Khả năng cảm thụ tiếng nói của con người
Tiếng nói và âm thanh nói chung được con người cảm thụ thông qua cơ
quan thính giác.

Hình 1.9. Cơ quan thính giác con người



10

Cơ quan thính giác của con người có một số đặc điểm sau:
• Con người có thể nghe được các tần số âm thanh trong khoảng 15 Hz 20.000 Hz. Âm thanh với tần số cao hơn được gọi là siêu âm, thấp hơn
là hạ âm.
• Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị
thay đổi khoảng 1dB (biên độ thay đổi 12%)
• Mặc dù dải nghe của con người thông thường từ 20Hz đến 20kHz, độ
nhạy âm lớn nhất từ 1kHz đến 4kHz.
• Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách
đến nguồn âm kém.
• Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thang
tần số Bark. Trong mỗi băng con, con người không cảm nhận được sự
khác biệt.

Hình 1.10. Thang tần số Bark
• Thính giác có tính quán tính: Đáp ứng của thính giác với tác động của
âm thanh không phải là ngay tức thì, mà là có tính trễ, các thí nghiệm đã cho
kết quả với môi trừờng truyền âm bình thừờng sau khi bắt đầu khoảng 200ms
thính giác mới xác định âm lựợng của nó khi âm ngừng cảm nhận còn âm kéo
dài chừng 150-200 ms thính giác không phân biệt được hai âm giống nhau đi
liền nhau khoảng nhỏ hơn 50 ms, tức là có hiện tượng che lấp của âm, phải


11

qua tác động vài chu kỳ thì tai người mới “quen” với cao độ của âm (tần số
cao hay thấp).
• Hiệu ứng không gian (stereo) của tai người là hiệu ứng cảm ứng hai tai

với hai nguồn âm tương quan, điều này có ảnh hưởng đến độ rõ của âm khi
tiến hành kiểm tra hệ thống.
• Tính phi tuyến của thính giác, thính giác có mức độ cảm thụ âm nhiễu
không phải là tỉ lệ thuận với độ rộng dải tần, ảnh hưởng của nó là méo âm
thanh do thêm thành phần sóng hài, không gây ra sai lệch cho người nghe
bằng do thêm thành tần số không bội, khi mã hoá phải chú ý đến thành phần
tần số không bội.
• Đặc điểm về giới tính, lứa tuổi, tâm sinh lý: tức là những yếu tố trên là
khác nhau không những âm thanh phát ra có khác nhau mà cả việc cảm thụ về
âm thanh cũng khác nhau, cho nên phải có sự kiểm tra trên diện rộng trước
khi đưa ra đánh giá.
1.4. Một số tham số cơ bản của tiếng nói
Cường độ (độ to) I:
Cường độ liên quan đến năng lượng âm. Đối với tai con người, giá trị
tuyệt đối của cường độ âm I không quan trọng bằng giá trị tỉ đối của I so với
một giá trị I0 nào đó chọn làm chuẩn. Người ta định nghĩa mức cường độ âm
L: L(B) = lg(I/I0). Đơn vị mức cường độ âm là Ben (kí hiệu: B). Mức cường
độ âm bằng 1,2,3,4 B... có nghĩa là cường độ âm I lớn gấp 10, 10^2, 10^3,
10^4... cường độ âm chuẩn I0. Trong thực tế người ta thường dùng đơn vị dB,
bằng 1/10 ben. L(dB)= 10lg(I/I0). Khi L= 1dB, thì I lớn gấp 1.26 lần I0. Đó là
mức cường độ âm nhỏ nhất mà tai ta có thể phân biệt được.
Cao độ (pitch):
Cao độ là độ "cao", "thấp" của âm thanh có quan hệ chặt chẽ với tần số
dao động (nhưng không phải là tương đương). Tần số dao động càng lớn thì


12

âm thanh càng "cao" và ngược lại. Với âm thanh thực là tổ hợp của nhiều tần
số thì tần số dao động ở đây là tần số cơ bản F0.

Dao động của sóng âm có thể được đo đạc khách quan với kết quả là tần
số. Nhưng tần số này khiến não bộ của con người sắp đặt thành những tiêu
chuẩn chủ quan về cao độ.
Trường độ (duration):
Trong tiếng nói, đặc biệt là các ngôn ngữ châu Âu, trường độ là đặc tính
quan trọng của âm vị, âm tiết. Trong âm nhạc, trường độ là độ dài của nốt
nhạc. Trường độ là một trong những nền tảng của nhịp điệu, đặc biệt với nhạc
R&B.
Âm sắc:
Âm sắc là phẩm chất hay màu sắc của một nốt nhạc hoặc âm thanh. Tính
chất vật lí của âm thanh ảnh hưởng chủ yếu đến sự nhận thức âm sắc là phổ
âm thanh. Âm sắc giúp phân biệt những loại nhạc cụ khác nhau. Ví dụ, phân
biệt một kèn saxophone và một kèn trumpet trong một nhóm chơi nhạc Jazz,
ngay cả khi cả hai loại nhạc cụ này đang chơi những nốt nhạc có cùng cường
độ và cao độ.
Âm sắc và phổ âm thanh ảnh hưởng chính bởi cấu trúc bộ máy cộng
hưởng âm thanh, với tiếng nói đó là bộ máy dẫn âm và phát âm vocal tract.
Khi phân tích tín hiệu âm thanh, người ta có thể dùng phổ âm thanh thời gian
ngắn hoặc dùng phiên bản tối giản đường bao phổ.


13

Hình 1.11. Đường bao phổ
1.5. Mô hình hóa tiếng nói
Mô hình hóa cơ quan phát âm (vocal tract)
Các tần số cộng hưởng của tiếng nói formant tương ứng với điểm cực
của hàm truyền V(z).
G


v( z ) 

(1.1)

N

1   ak z

k

k 1

Mô hình toàn cực của hàm truyền là mô hình mô tả tốt nhất cho thành
phần âm hữu thanh, tuy nhiên các ảnh hưởng của mũi, và kẽ răng lại yêu cầu
mô hình phải có cả hai sự cộng hưởng và sự triệt tiêu trong trường hợp này,
cần phải thêm các điểm không vào mô hình. Các hệ số của mẫu phương trình
trên phải là hoặc thực hoặc cặp phức.


14

Tần số cộng hưởng điển hình của cơ quan phát âm:

sk sk*   k  j 2 Fk

(1.2)

tương ứng rời rạc về thời gian là:

zk zk*  e k T cos2 fT  je kT .2sin  fT


(1.3)

Hình 1.12. Mô hình điểm cực formant cơ quan phát âm
Băng tần của formant tương ứng là 2 k và tần số trung tâm là 2ΠFk.
Trong mặt phẳng Z đường kính trung tâm đến cực sẽ quyết định băng tần
nghĩa là:

Z  e kT và  k  2 Fk T

(1.4)

Bởi vậy nếu V(z) tìm được thì tần số cộng hưởng và băng tần cũng được
tính, như chỉ ra trên hình vẽ trên tần số thực phức của cơ quan phát âm tất cả
thuộc nửa bên trái mặt phẳng s vì vậy nó lμ hệ thống ổn định của phép biến
đổi s, do đó  k  0 và |Zk|<1 nghĩa là tất cả các điểm cực tương ứng của mô
hình rời rạc thời gian phải nằm bên trong vòng tròn đơn vị để đảm bảo tính ổn
định của hệ thống.


15

Mô hình sự kích thích nguồn âm (glottal source)
Tiếng nói có thể chia thành vô thanh và hữu thanh. Với âm hữu thanh,
mô hình dạng sóng kích thích phải xuất hiện, ở mô hình này máy phát chuỗi
xung tạo ra chuỗi xung đơn vị quãng cách là chu kỳ cơ bản (chu kỳ cao độ).
Tín hiệu này kích thích một hệ thống tuyến tính mμ có đáp ứng xung h(n) là
dạng sóng "thanh môn-glottal" kích thích.

Hình 1.13. Mô hình kích thích âm hữu thanh

Điều chỉnh biên độ Gv, điều khiển một mạch kích thích âm hữu thanh,
các nghiên cứu chỉ ra rằng dạng sóng "thanh môn" có thể được thay bằng
dạng sóng của xung tổng hợp theo dạng:
0  n  N1
0.5(1  cos( n/N1 ))

h(n)   cos( (n-N1 )/2N 2 ) N1  n  N1  N 2

0
n


(1.5)

N1, N2 là khoảng giới hạn của cửa sổ phân tích với âm vô thanh chỉ cần
một nguồn nhiễu vμ thông số về biên để điều chỉnh mật độ kích thích của nó,
máy phát ngẫu nhiên tạo một nguồn nhiễu bằng phẳng, các xuất hiện không
quan trọng. Do vậy, mô hình kích thích nguồn âm tổng hợp cả âm hữu thanh
và âm vô thanh để tạo tiếng nói có dạng như trong hình 1.14.


16

Hình 1.14. Mô hình hóa quá trình tạo tiếng nói
1.6. Mã hóa tiếng nói
Tổng quan
Vào năm 1892 Alexander Graham Bell khai trương tuyến điện thoại
thương mại đầu tiên trên thế giới và cho tới gần đây con người coi điện thoại
là một công cụ truyền tin hữu hiệu. Nhờ điện thoại mà con người có khả năng
trao đổi thông tin giữa các điểm khác nhau trên toàn thế giới một cách dễ

dàng. Ngoài ưu thế như khả năng truyền thông tin theo thời gian thực và dễ sử
dụng, mạng điện thoại ngày nay còn có các ưu điểm rất cơ bản, đó là được
phổ biến trên toàn cầu, giúp ta có khả năng liên lạc hầu như mọi điểm trên trái
đất, thời gian đáp ứng ngắn và thuận tiện cho người sử dụng. Cũng từ đó tín
hiệu tiếng nói trở thành một đối tượng và cũng là một nguồn tải lớn nhất của
mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công nghệ bán
dẫn thì các phương pháp mã hoá tín hiệu tiếng nói cũng phát triển mạnh.
Bộ mã hoá tiếng nói được phân thành hai loại lớn: bộ mã hoá dạng sóng
và bộ mã hoá tham số nguồn. Bộ mã hoá dạng sóng nhằm tạo ra dạng sóng
thời gian của tín hiệu tiếng nói càng chính xác càng tốt, chúng được thiết kế
độc lập với nguồn tín hiệu (có nghĩa là có thể áp dụng cho cả loại tín hiệu
khác) nên chất lượng không phụ thuộc nhiều vào nguồn tín hiệu chúng có ưu


17

điểm là chất lượng ổn định với phạm vi rộng của các đặc trưng tiếng nói, và
các môi trường ồn khác nhau. Còn các bộ mã hoá nguồn tiếng nói thì lại có ưu
thế trong việc tiết kiệm băng tần nhưng lại rất phức tạp và có độ ổn định
không cao tuy nhiên chúng ngày càng được khắc phục, để phục vụ cho các
công nghệ viễn thông hiện tại và trong tương lai.

Hình 1.15. Phương pháp mã hóa tiếng nói PCM
Mã hóa dạng sóng PCM
Mã hoá dạng sóng là quá trình biến đổi các giá trị rời rạc thành các mã
tương ứng. Phương pháp mã hóa theo dạng sóng cơ bản nhất là phương pháp
PCM (Pulse Code Modulation). Trong đó, việc lấy mẫu liên quan tới quá
trình biến đổi các tín hiệu liên tục thành các tín hiệu rời rạc của trường thời
gian gọi là PAM (điều chế biên độ xung) còn việc mã hoá là quá trình lượng
tử hoá các giá trị mẫu này thành các giá trị rời rạc của trường biên độ và sau



×