Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.37 MB, 66 trang )

i

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
------------

VŨ THANH HUẾ

NGHIÊN CỨU PHƢƠNG PHÁP NÉN TIẾNG NÓI
TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG
NÓI
THEO THỜI GIAN

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ii

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2015

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iii

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN

THÔNG
------------

Vũ Thanh Huế

NGHIÊN CỨU PHƢƠNG PHÁP NÉN TIẾNG NÓI
TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG
NÓI
THEO THỜI GIAN

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iv

Ngành

: Công nghệ thông tin

Chuyên ngành : Khoa học máy tính
Mã số

: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ngƣời hƣớng dẫn khoa học: TS Phùng Trung Nghĩa

Thái Nguyên, năm 2015

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

v

LỜI CAM ĐOAN
Tên tôi là: Vũ Thanh Huế
Sinh ngày: 25/03/1985
Học viên lớp cao học K12I - Trƣờng Đại học Công nghệ thông tin và
Truyền thông - Thái Nguyên.
Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài đƣợc trình bày
trong luận văn là bản thân tôi tìm hiểu và nghiên cứu, dƣới sự hƣớng dẫn
khoa học của Thầy giáo Tiến sĩ Phùng Trung Nghĩa.
Các nội dung trong luận văn đúng nhƣ nội dung trong đề cƣơng và yêu
cầu của thầy giáo hƣớng dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc,
xuất xứ rõ ràng. Nếu sai tôi hoàn toàn chịu trách nhiệm trƣớc hội đồng khoa
học và trƣớc pháp luật.
Tác giả luận văn

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vi

LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, đƣợc sự động
viên, giúp đỡ và hƣớng dẫn tận tình của Thầy giáo hƣớng dẫn Tiến sĩ Phùng

Trung Nghiã , với đề tài luận văn “Nghiên cứu phương pháp nén tiếng nói tốc
độ bit thấp bằng kỹ thuật phân rã tiếng nói theo thời gian” đã hoàn thành.
Em xin bày tỏ lòng biết ơn sâu sắc đến:
Thầy giáo hƣớng dẫn Tiến sĩ Phùng Trung Nghĩa đã tận tình chỉ d ẫn,
giúp đỡ em hoàn thành luận văn này.
Bộ phận sau Đại học Trƣờng Đại học công nghệ thông tin và truyền
thông đã giúp đỡ em trong quá trình học tập cũng nhƣ thực hiện luận văn.
Em xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động
viên, khích lệ, tạo điều kiện giúp đỡ em trong suốt quá trình học tập, thực hiện
và hoàn thành luận văn này.
Em xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 2015
Học viên

Vũ Thanh Huế

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vii

MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... i
LỜI CẢM ƠN .......................................................................................................... vi
MỤC LỤC ............................................................................................................... vii
LỜI MỞ ĐẦU……………………………………………………………………... 1
1. Lý do chọn đề tài ............................................................................................1
2. Mục tiêu của đề tài .........................................................................................2
3. Đối tƣợng và phạm vi nghiên cứu ..................................................................2

4. Phƣơng pháp nghiên cứu ................................................................................3
5. Ý nghĩa khoa học và thực tiễn ........................................................................3
CHƢƠNG 1: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI .....................................4
1.1. Thông tin và tín hiệu tiếng nói ....................................................................4
1.2. Quá trình tạo tiếng nói .................................................................................5
1.3. Khả năng cảm thụ tiếng nói của con ngƣời .................................................9
1.4. Mô hình hóa tiếng nói ...............................................................................13
1.5. Mã hóa tiếng nói ........................................................................................16
1.6. Kỹ thuật phân rã tiếng nói theo thời gian TD và ứng dụng trong mã hóa
tiếng nói ............................................................................................................20
CHƢƠNG 2: PHƢƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN .......................................................23
2.1. Phƣơng pháp của Atal ...............................................................................23
2.2. Phƣơng pháp phân rã tiếng nói theo thời gian giới hạn RTD ...................26
2.3. Phƣơng pháp MRTD .................................................................................29
2.4. Mã hóa tiếng nói với TD kết hợp sử dụng STRAIGHT...........................34
2.4.1. Sơ lƣợc về phƣơng pháp mã hóa TD-STRAIGHT ........................34
2.4.2. Tính tham số phổ đƣờng LSF từ phổ STRAIGHT ........................36
2.4.3. Lƣợng tử hóa vector LSF ...............................................................37
2.4.4. Lƣợng tử hóa vector sự kiện ..........................................................37

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

viii

2.4.5. Lƣợng tử hóa hàm sự kiện .............................................................37
2.4.6. Lƣợng tử hóa tham số tần số cơ bản F0.........................................38
2.4.7. Lƣợng tử hóa tham số độ lợi..........................................................38

2.4.8. Lƣợng tử hóa tham số nhiễu ..........................................................38
CHƢƠNG 3. ĐÁNH GIÁ THỰC NGHIỆM PHƢƠNG PHÁP MÃ HÓA
TIẾNG NÓI MRTD VỚI CƠ SỞ DỮ LIỆU TIẾNG VIỆT ...............................40
3.1. Ngữ âm tiếng Việt .....................................................................................40
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt .............................................................42
3.3. Cài đặt các phƣơng pháp mã hóa tiếng nói dùng MRTD trên MATLAB.44
3.4. Tiêu chí đánh giá khách quan và chủ quan ..............................................46
3.5. Kết quả khách quan và chủ quan các phƣơng pháp. …………………….49
3.6. Đánh giá các kết quả .................................................................................51
KẾT LUẬN ..............................................................................................................52
TÀI LIỆU THAM KHẢO ......................................................................................53

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ix

DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết tắt

Viết đầy đủ

Ý nghĩa

PCM

Pulse Code Modulation

Mã hóa theo dạng xung

LPC

Linear Predictive Coding

Mã hóa dự đoán tuyến tính

Code-Excited Linear Prediction

Mã hóa dự đoán tuyến tính

coder

kích thích mã

CELP

Kỹ thuật phân rã theo thời

TD

Temporal Decomposition

LSF

Line Spectral Frequency

Đặc trƣng phổ đƣờng

Modiﬁed Restricted Temporal

Kỹ thuật phân rã theo thời

Decomposition

gian giới hạn cải tiến

Restricted Temporal

Kỹ thuật phân rã theo thời

Decomposition

gian giới hạn

Perceptual evaluation of speech

Phƣơng pháp đánh giá chất

quality

lƣợng tiếng nói cảm thụ

MRTD

RTD

PESQ

Số hóa bởi Trung tâm Học liệu - ĐHTN

gian

/>

x

DANH MỤC CÁC BẢNG
Bảng 3.1. Cấu trúc âm tiết tiếng Việt .............................................................. 42
Bảng 3.2. Sáu thanh điệu tiếng Việt................................................................ 42
Bảng 3.3. Thang điểm Scheffe ........................................................................ 47
Bảng 3.4. Thang điểm PESQ .......................................................................... 49

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

xi

DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ
Hình 1.1. Dạng sóng tiếng nói một câu tiếng Việt ......................................................4
Hình 1.2. Tiếng nói hữu thanh ....................................................................................5
Hình 1.3. Bộ phận cung cấp làn hơi ............................................................................5
Hình 1.4. Dây thanh âm ..............................................................................................6
Hình 1.5. Cấu trúc cơ quan phát âm ............................................................................7
Hình 1.6. Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm ....................8
Hình 1.7. Mô hình hóa cơ quan phát âm .....................................................................8
Hình 1.8. Mô hình hóa cơ quan phát âm đầy đủ bằng máy tính ................................9
Hình 1.9. Cơ quan thính giác con ngƣời .....................................................................9

Hình 1.10. Mô hình điểm cực formant cơ quan phát âm ..........................................14
Hình 1.11. Mô hình kích thích âm hữu thanh ...........................................................15
Hình 1.12. Mô hình kích thích nguồn âm .................................................................16
Hình 1.13. Phƣơng pháp mã hóa tiếng nói PCM ......................................................17
Hình 1.14. Phân tích một mẫu tiếng nói bằng TD ....................................................21
Hình 2.1. Ví dụ về hai hàm sự kiện liền kề sử dụng mô hình phân rã bậc hai. ........27
Hình 2.2. Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không chuẩn” .29
Hình 2.3. Thuật toán chuẩn hóa vector sự kiện.........................................................33
Hình 2.4. Hình vẽ các hàm sự kiện nhận đƣợc khi MRTD phân tích một câu tiếng
Nhật, chỉ số trên miền thời gian là số khung.............................................................34
Hình 2.5. Phƣơng pháp mã hóa/giải mã tiếng nói dùng TD-STRAIGHT ................36
Hình 3.1. Đƣờng F0 sáu thanh điệu tiếng Việt . .......................................................41
Hình 3.2. Thuật toán mã hóa và đánh giá chất lƣợng tiếng nói mã hóa bằng MRTD
...................................................................................................................................45
Hình 3.3. Mô hình hóa ngƣời nghe trong PESQ .......................................................48
Hình 3.4. Tích hợp phân tích khả năng cảm thụ con ngƣời để tính điểm chất lƣợng
tiếng nói nhân tạo ......................................................................................................48

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

xii

Hình 3.5. Kết quả đánh giá chủ quan bằng phƣơng pháp của Scheffe với tỉ lệ nén
đầu vào là 20 .............................................................................................................50
Hình 3.6. Kết quả đánh giá chủ quan bằng phƣơng pháp của Scheffe với tỉ lệ nén
đầu vào là 30 .............................................................................................................50
Hình 3.7. Hình ảnh dạng sóng tiếng nói có nén, không nén với tỉ lệ nén là 20. .......51

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

1

MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng nói là phƣơng tiện giao tiếp cơ bản của con ngƣời. Vì vậy tiếng
nói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống
viễn thông. Để truyền tiếng nói trong mạng viễn thông, tiếng nói cần phải
đƣợc số hóa. Phƣơng pháp mã hóa cơ bản theo dạng xung (Pulse Code
Modulation - PCM) cho tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống
tốc độ bit của một kênh thông tin số cơ bản chƣa ghép kênh [1]. Với sự bùng
nổ về thông tin trong các mạng viễn thông hiện đại, việc sử dụng phƣơng
pháp mã hóa PCM với tốc độ cơ bản 64 Kbps là tiêu tốn lãng phí nguồn tài
nguyên, hạn chế dung lƣợng thông tin trên một kênh truyền vật lí. Chính vì
vậy, rất nhiều nhà nghiên cứu trên thế giới đã tập trung vào vấn đề mã hóa
tiếng nói để đảm bảo tiếng nói đƣợc mã hóa có tốc độ bit thấp, có thể dễ dàng
tăng số kênh truyền logic trên một kênh truyền vật lí, trong khi vẫn phải đảm
bảo các yêu cầu về chất lƣợng [2-7]. Các phƣơng pháp mã hóa tiếng nói phổ
biến đƣợc biết đến là mã hóa dự đoán tuyến tính LPC [2], mã hóa thích nghi
ADPCM [3],... Mặc dù các phƣơng pháp mã hóa này là tin cậy và đã đƣợc
tiêu chuẩn hóa và sử dụng rộng rãi trong các hệ thống viễn thông. Hiệu quả
nén của các phƣơng pháp mã hóa phổ biến này vẫn chƣa đảm bảo trong điều
kiện tài nguyên hạn chế nhƣ các hệ thống thông tin vệ tinh hay di động.
Kỹ thuật phân rã tiếng nói theo thời gian (Temporal Decomposition TD) là một kỹ thuật phân tích tiếng nói đƣợc đề xuất bởi Atal năm 1983 [4].
Các kết quả nghiên cứu cho thấy TD rất thích hợp để phân tích mô hình hóa
tiếng nói cũng nhƣ mã hóa nén tiếng nói. Tuy nhiên thuật toán TD của Atal có
độ phức tạp tính toán cao, không phù hợp với việc mã hóa tiếng nói thời gian

thực. Vì vậy, một số nhà nghiên cứu đã cải tiến thuật toán TD của Atal theo
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

2

hƣớng giảm độ phức tạp tính toán, ứng dụng trong mã hóa tiếng nói tốc độ bit
thấp thời gian thực [5, 6, 7]. Hƣớng nghiên cứu này vẫn đƣợc tiếp tục phát
triển trong những năm gần đây [8].
Luận văn này nghiên cứu về phƣơng pháp mã hóa tiếng nói tốc độ bit
thấp thời gian thực dùng kỹ thuật TD, phân tích lý thuyết, cài đặt thực nghiệm
và đánh giá hiệu quả của phƣơng pháp mã hóa tiếng nói dùng kỹ thuật TD cải
tiến giới hạn MRTD với tiếng nói tiếng Việt, từ đó đƣa ra các khuyến nghị
cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực
dùng kỹ thuật TD phù hợp cho tiếng Việt.
2. Mục tiêu của đề tài
Hƣớng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân
rã tiếng nói theo thời gian TD hiện vẫn đƣợc tiếp tục phát triển trong những
năm gần đây [8] nhƣng ở Việt Nam, hƣớng nghiên cứu này còn khá mới mẻ.
Luận văn này nghiên cứu về phƣơng pháp mã hóa tiếng nói tốc độ bit
thấp thời gian thực dùng kỹ thuật TD bao gồm:
- Thuật toán TD nguyên thủy của Atal,
- Thuật toán cải tiến MRTD của N.P. Chiến,
Phân tích lý thuyết, cài đặt thực nghiệm với cơ sở dữ liệu tiếng Việt và
đánh giá hiệu quả của phƣơng pháp MRTD của N.P. Chien, từ đó đƣa ra các
khuyến nghị cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời
gian thực dùng kỹ thuật TD cho phù hợp với tiếng nói tiếng Việt.
3. Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu của luận văn là các phƣơng pháp mã hóa nén tiếng

nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD. Đây là đối tƣợng nghiên
cứu đƣợc nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

3

Phạm vi của luận văn bao gồm nghiên cứu tổng quan về mã hóa nén tiếng
nói [1-3], một số phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực
[2-8], đặc biệt tập trung vào kỹ thuật mã hóa nén tiếng nói dùng TD [4-8]. Luận
văn cũng nghiên cứu cài đặt thực nghiệm các phƣơng pháp mã hóa dùng
MRTD và đánh giá với cơ sở dữ liệu tiếng Việt để đƣa ra các khuyến nghị.
4. Phƣơng pháp nghiên cứu
Phƣơng pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [1-8] để phân tích, đánh giá về các kỹ thuật mã hóa tiếng nói tốc
độ bit thấp.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ
nghiên cứu thực nghiệm phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời
gian thực dùng kỹ thuật phân rã tiếng nói theo thời gian MRTD. Cơ sở dữ liệu
để đánh giá thực nghiệm là cơ sở dữ liệu tiếng nói tiếng Việt. Môi trƣờng để
thực nghiệm là MATLAB 7.0.
5. Ý nghĩa khoa học và thực tiễn
Nghiên cứu về mã hóa tiếng nói tốc độ bit thấp có vai trò quan trọng
trong các hệ thống truyền thông hiện đại. Mặc dù mục tiêu của các bộ mã hóa
tiếng nói là độc lập ngôn ngữ, hiệu quả của các phƣơng pháp mã hóa tiếng nói
là khác nhau với các cơ sở dữ liệu tiếng nói khác nhau. Nghiên cứu về các
phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD
và thử nghiệm đánh giá với tiếng nói tiếng Việt chƣa đƣợc nghiên cứu ở Việt

Nam. Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

4

CHƢƠNG 1.
TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI

1.1. Thông tin và tín hiệu tiếng nói
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con ngƣời.
Từ khi lịch sử con ngƣời hình thành, con ngƣời đã biết sử dụng tiếng nói làm
phƣơng tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa
và phát triển của loài ngƣời, tiếng nói vẫn luôn giữ vai trò là phƣơng tiện giao
tiếp cơ bản nhất. Do tiếng nói là phƣơng tiện giao tiếp cơ bản của con ngƣời,
nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn
thông từ trƣớc đến nay.
Tín hiệu tiếng nói là loại tín hiệu âm thanh phổ biến nhất trong truyền
thông. Dải tần tín hiệu tiếng nói nằm trong khoảng 300 Hz - 3400 Hz. Tiếng
nói bao gồm hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần
hoàn còn âm vô thanh tƣơng tự nhiễu.

Hình 1.1. Dạng sóng tiếng nói một câu tiếng Việt

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

5

Hình 1.2. Tiếng nói hữu thanh
1.2. Quá trình tạo tiếng nói
Bộ phận cung cấp làn hơi: Bao gồm hai lá phổi, đƣợc sự tác động của
các cơ ngực, sƣờn, cơ hoành cách mô, cơ bụng. Làn hơi đƣa lên quyết định
cƣờng độ của âm thanh.

Hình 1.3. Bộ phận cung cấp làn hơi

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

6

Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong
thanh quản:
Do áp lực của làn hơi từ phổi đƣa lên, thanh đới - với những độ căng
khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau,
cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm
thanh có cao độ khác nhau. Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn
ở đàn ông, nên giọng nữ và trẻ em cao hơn giọng đàn ông.

Hình 1.4. Dây thanh âm
Bộ phận dẫn âm: Gồm chủ yếu là cuống họng (yết hầu) thông với đƣờng
miệng hoặc đƣờng mũi. Các chấn động âm thanh do thanh đới tạo ra, đƣợc bộ
phận dẫn âm gom lại và dẫn ra ngoài theo hai hƣớng miệng hoặc mũi. Cuống
họng và miệng chủ yếu đóng vai trò truyền âm.
Bộ phận phát âm: Là miệng với các hoạt động của môi, răng, lƣỡi, hàm

dƣới, vòm miệng. Chúng ta nhận ra đƣợc lời nói, tiếng hát có nghĩa là nhờ
vào hoạt động của các cơ năng trên. Khi nói đến khẩu hình là nói đến hình

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

7

thể, hình dáng, cả bên ngoài lẫn bên trong của miệng do hoạt động phối hợp
của môi, lƣỡi, hàm dƣới, vòm mềm tạo ra khi phát âm. Mở khẩu hình không
đúng cách sẽ ảnh hƣởng không chỉ đến chất lƣợng âm thanh, mà nhất là ảnh
hƣởng đến việc rõ lời, phát âm đúng.
Bộ phận phát âm đóng vai trò nhƣ một hộp cộng hƣởng âm thanh. Nhờ
sự biến đổi của bộ phận phát âm mà âm thanh đƣợc cộng hƣởng, triệt tiêu ở
các tần số khác nhau dẫn tới âm thanh đƣợc phát ra nghe khác nhau.

Hình 1.5. Cấu trúc cơ quan phát âm

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

8

Hình 1.6. Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm
Biễu diễn bộ phận phát âm: Để phân tích, tổng hợp tiếng nói cần mô
hình hóa cơ quan phát âm trên máy tính. Có thể biểu diễn cơ quan phát âm
bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhƣng có
đƣờng kính khác nhau. Nói cách khác, cơ quan phát âm có thể đƣợc biểu diễn

bằng một dãy các bộ lọc nối tiếp có hàm truyền khác nhau. Trong quá trình
phát âm ngƣời ta thấy rằng hình dáng cơ quan phát âm (do đó là đặc tuyến
của các bộ lọc) thay đổi rất chậm, do đó trong một khoảng thời gian ngắn
(trong một âm vị) có thể xem nhƣ sự thay đổi là không đáng kể, nhƣng chúng
sẽ thay đổi rất lớn từ âm vị này sang âm vị khác.

Hình 1.7. Mô hình hóa cơ quan phát âm

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

9

Hình 1.8. Mô hình hóa cơ quan phát âm đầy đủ bằng máy tính
1.3. Khả năng cảm thụ tiếng nói của con ngƣời
Tiếng nói và âm thanh nói chung đƣợc con ngƣời cảm thụ thông qua cơ
quan thính giác.

Hình 1.9. Cơ quan thính giác con ngƣời
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

10

Cơ quan thính giác của con người có một số đặc điểm sau:
• Con ngƣời có thể nghe đƣợc các tần số âm thanh trong khoảng 15 Hz 20.000 Hz. Âm thanh với tần số cao hơn đƣợc gọi là siêu âm, thấp hơn
là hạ âm.
• Ngƣời nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị

thay đổi khoảng 1dB (biên độ thay đổi 12%)
• Mặc dù dải nghe của con ngƣời thông thƣờng từ 20Hz đến 20kHz, độ
nhạy âm lớn nhất từ 1kHz đến 4kHz.
• Khả năng xác định hƣớng nguồn âm tốt nhƣng xác định khoảng cách
đến nguồn âm kém.
• Con ngƣời nghe âm thanh theo 24 băng cơ bản, tƣơng ứng với thang
tần số Bark. Trong mỗi băng con, con ngƣời không cảm nhận đƣợc sự
khác biệt.

Hình 1.10. Thang tần số Bark
• Thính giác có tính quán tính: Đáp ứng của thính giác với tác động của
âm thanh không phải là ngay tức thì, mà là có tính trễ, các thí nghiệm đã cho
kết quả với môi trừờng truyền âm bình thừờng sau khi bắt đầu khoảng 200ms
thính giác mới xác định âm lựợng của nó khi âm ngừng cảm nhận còn âm kéo
dài chừng 150-200 ms thính giác không phân biệt đƣợc hai âm giống nhau đi
liền nhau khoảng nhỏ hơn 50 ms, tức là có hiện tƣợng che lấp của âm, phải

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

11

qua tác động vài chu kỳ thì tai ngƣời mới “quen” với cao độ của âm (tần số
cao hay thấp).
• Hiệu ứng không gian (stereo) của tai ngƣời là hiệu ứng cảm ứng hai tai
với hai nguồn âm tƣơng quan, điều này có ảnh hƣởng đến độ rõ của âm khi
tiến hành kiểm tra hệ thống.
• Tính phi tuyến của thính giác, thính giác có mức độ cảm thụ âm nhiễu
không phải là tỉ lệ thuận với độ rộng dải tần, ảnh hƣởng của nó là méo âm

thanh do thêm thành phần sóng hài, không gây ra sai lệch cho ngƣời nghe
bằng do thêm thành tần số không bội, khi mã hoá phải chú ý đến thành phần
tần số không bội.
• Đặc điểm về giới tính, lứa tuổi, tâm sinh lý: tức là những yếu tố trên là
khác nhau không những âm thanh phát ra có khác nhau mà cả việc cảm thụ về
âm thanh cũng khác nhau, cho nên phải có sự kiểm tra trên diện rộng trƣớc
khi đƣa ra đánh giá.
1.4. Một số tham số cơ bản của tiếng nói
Cường độ (độ to) I:
Cƣờng độ liên quan đến năng lƣợng âm. Đối với tai con ngƣời, giá trị
tuyệt đối của cƣờng độ âm I không quan trọng bằng giá trị tỉ đối của I so với
một giá trị I0 nào đó chọn làm chuẩn. Ngƣời ta định nghĩa mức cƣờng độ âm
L: L(B) = lg(I/I0). Đơn vị mức cƣờng độ âm là Ben (kí hiệu: B). Mức cƣờng
độ âm bằng 1,2,3,4 B... có nghĩa là cƣờng độ âm I lớn gấp 10, 10^2, 10^3,
10^4... cƣờng độ âm chuẩn I0. Trong thực tế ngƣời ta thƣờng dùng đơn vị dB,
bằng 1/10 ben. L(dB)= 10lg(I/I0). Khi L= 1dB, thì I lớn gấp 1.26 lần I0. Đó là
mức cƣờng độ âm nhỏ nhất mà tai ta có thể phân biệt đƣợc.
Cao độ (pitch):
Cao độ là độ "cao", "thấp" của âm thanh có quan hệ chặt chẽ với tần số
dao động (nhƣng không phải là tƣơng đƣơng). Tần số dao động càng lớn thì
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

12

âm thanh càng "cao" và ngƣợc lại. Với âm thanh thực là tổ hợp của nhiều tần
số thì tần số dao động ở đây là tần số cơ bản F0.
Dao động của sóng âm có thể đƣợc đo đạc khách quan với kết quả là tần
số. Nhƣng tần số này khiến não bộ của con ngƣời sắp đặt thành những tiêu

chuẩn chủ quan về cao độ.
Trường độ (duration):
Trong tiếng nói, đặc biệt là các ngôn ngữ châu Âu, trƣờng độ là đặc tính
quan trọng của âm vị, âm tiết. Trong âm nhạc, trƣờng độ là độ dài của nốt
nhạc. Trƣờng độ là một trong những nền tảng của nhịp điệu, đặc biệt với nhạc
R&B.
Âm sắc:
Âm sắc là phẩm chất hay màu sắc của một nốt nhạc hoặc âm thanh. Tính
chất vật lí của âm thanh ảnh hƣởng chủ yếu đến sự nhận thức âm sắc là phổ
âm thanh. Âm sắc giúp phân biệt những loại nhạc cụ khác nhau. Ví dụ, phân
biệt một kèn saxophone và một kèn trumpet trong một nhóm chơi nhạc Jazz,
ngay cả khi cả hai loại nhạc cụ này đang chơi những nốt nhạc có cùng cƣờng
độ và cao độ.
Âm sắc và phổ âm thanh ảnh hƣởng chính bởi cấu trúc bộ máy cộng
hƣởng âm thanh, với tiếng nói đó là bộ máy dẫn âm và phát âm vocal tract.
Khi phân tích tín hiệu âm thanh, ngƣời ta có thể dùng phổ âm thanh thời gian
ngắn hoặc dùng phiên bản tối giản đường bao phổ.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

13

Hình 1.11. Đƣờng bao phổ
1.5. Mô hình hóa tiếng nói
Mô hình hóa cơ quan phát âm (vocal tract)
Các tần số cộng hƣởng của tiếng nói formant tƣơng ứng với điểm cực
của hàm truyền V(z).
v( z ) 

G
N

1   ak z  k

(1.1)

k 1

Mô hình toàn cực của hàm truyền là mô hình mô tả tốt nhất cho thành
phần âm hữu thanh, tuy nhiên các ảnh hƣởng của mũi, và kẽ răng lại yêu cầu
mô hình phải có cả hai sự cộng hƣởng và sự triệt tiêu trong trƣờng hợp này,
cần phải thêm các điểm không vào mô hình. Các hệ số của mẫu phƣơng trình
trên phải là hoặc thực hoặc cặp phức.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về