Tải bản đầy đủ (.docx) (75 trang)

Nghiên cứu, đánh giá các thuật toán xử lý tín hiệu tiếng nói và ứng dụng (có kèm theo code matlab)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (603.46 KB, 75 trang )

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ TIẾNG ANH
Từ viết tắt

Tiếng Anh

Tiếng Việt
Chuyển đổi tín hiệu tương tự
sang tín hiệu số
Điều chế mã xung vi phân thích
ứng
Chuyển đổi tín hiệu số sang tín
hiệu tương tự

ADC

Analog-to-digital converter

ADPCM

Adaptive differential pulse code
modulation

DAC

Digital-to-analog converter

DCT

Discrete Cosine Transform



Biến đổi cosine rời rạc

DFT

Discrete Fourier Transform

Biến đổi fourier rời rạc

DM

Delta Modulation

Điều chế delta

DPCM

Differential pulse-code
modulation

Điều chế mã xung vi phân

DSP

Digital signal processing

Xử lý tín hiệu số

FFT


Fast Fourier Transform

Biến đổi fourier nhanh

IC

integrated circuit

Vi mạch tích hợp

IDFT

Inverse Discrete Fourier
Transform

Biến đổi fourier rời rạc ngược

IS

Initial Silence

Khoảng im lặng

LPC

Linear Prediction Coefficient

Hệ số dự đoán tuyến tính

LPF


Low Pass Filter

Lọc thông thấp

MOS

Mean Opinion Score

Chỉ số đánh giá chủ quan

PCM

Pulse Code Modulation

Điều chế mã xung


S&H

Sample and hold

Lấy và giữ mẫu tín hiệu

SNR

Signal-to-noise ratio

Chỉ số tín hiệu trên nhiễu


VAD

Voice Activity Detection

Thăm dò hoạt động tiếng nói

VLSI

Very-large-scale integration

Vi mạch qui mô lớn


DANH MỤC CÁC HÌNH VẼ


4

LỜI MỞ ĐẦU
Trong thời đại ngày nay, cùng với sự phát triển mạnh mẽ của khoa học kỹ
thuật thì vấn đề trao đổi thông tin đa phương tiện ngày càng trở nên cần thiết, từ
lúc đầu chỉ giao tiếp, tương tác thông qua các văn bản giấy tờ, ngày nay nhu cầu
sử dụng tiếng nói trong truyền thông, tương tác người máy càng trở nên cấp thiết
hơn. Vì vậy mà quá trình xử lý tiếng nói, đặc biệt là các thuật toán xử lý nâng
cao chất lượng tiếng nói được ra đời. Tuy không thể bảo toàn được y nguyên tín
hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất
lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe
vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với
người nghe. Vì vậy, để tìm hiểu kỹ thuật xử lý tín hiệu tiếng nói em đã chọn đề
tài “Nghiên cứu, đánh giá các thuật toán xử lý tín hiệu tiếng nói và ứng dụng”

làm nội dung nghiên cứ đồ án tốt nghiệp của mình.
Nội dung của đồ án được kết cấu thành 3 chương:
Chương 1: Tổng quan về tiếng nói và xử lý tiếng nói. Chương này tìm hiểu
tổng quan về tiếng nói: trình bày khái quát cơ chế phát âm, các đặc tính vật lý
cũng như âm học của tiếng nói, các quá trình: biểu diễn số tiếng nói, mã hóa
tiếng nói, tổng hợp tiếng nói.
Chương 2: Một số thuật toán và phương pháp trong xử lý tín hiệu tiếng nói.
Chương này nghiên cứu về sử dụng phương pháp LPC trong tổng hợp tiếng nói
và 2 thuật toán phổ biến Spectral Subtration và Wiener Filtering để nâng cao
chất lượng tiếng nói
Chương 3: Xây dựng và đánh giá các thuật toán xử lý tín hiệu tiếng nói.
Chương này xây dựng các lưu đồ thuật toán và thực hiện các thuật toán giảm
nhiễu mô phỏng bằng Matlab, sau đó tiến hành đánh giá kết quả thu được.
Cuối cùng em xin chân thành cảm ơn thầy giáo TS. Vũ Văn Sơn đã tận tình
hướng dẫn, giúp đỡ em hoàn đồ án tốt nghiệp này.


5

CHƯƠNG 1
TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI
1.1

Tổng quan về tiếng nói
Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên, về bản chất

đều là những sóng âm được lan truyền trong một môi trường nhất định (thường
là không khí). Khi chúng ta nói dây thanh trong hầu nhĩ bị chấn động, tạo nên
những sóng âm, sóng truyền trong không khí đến màng nhĩ làm cho màng nhĩ
cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi

tần số dao động của sóng đạt đến một độ lớn nhất định. Tai con người chỉ cảm
thụ được những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz.
Những dao động trong miền tần số này gọi là dao động âm hay âm thanh, và các
sóng tương ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn 16Hz gọi là hạ
âm, những sóng có tần số lớn hơn 20000Hz gọi là sóng siêu âm, con người
không cảm nhận được (ví du loài dơi có thể nghe được tiếng siêu âm). Sóng âm,
sóng siêu âm và hạ âm không chỉ tryền trong không khí mà còn có thể lan truyền
tốt ở những môi trường rắn, lỏng, do đó cũng được sử dụng rất nhiều trong các
thiết bị máy móc hiện nay.

Hình 1.1 Tín hiệu tiếng nói
Về bản chất vật lí, sóng âm, sóng siêu âm, sóng hạ âm không khác gì nhau
và cũng như các sóng cơ học khác. Sự phân biệt như trên là dựa vào khả năng


6

cảm thụ của các sóng cơ học của tai con người, do các đặc tính sinh lí của tai
người quyết định. Vì vậy sóng âm thanh được phân biệt hai loại đặc tính là đặc
tính vật lý và đặc tính âm học.
1.1.1

.

Cơ chế phát âm của con người
1.
2.
3.
4.
5.

6.
7.
8.
9.
10.
11.
12.
13.
14.
15.

Hốc mũi
Vòm miệng trên
Ổ răng
Vòm miệng mềm
Đầu lưỡi
Thân lưỡi
Lưỡi gà
Cơ miệng
Yết hầu
Nắp đóng thanh quản
Dây thanh giả
Dây thanh
Thanh quản
Thực quản
Khí quản

Hình 1.2 Bộ máy phát âm của con người
Quá trình phát âm của con người được mô tả như sau:
Áp lực tạo ra từ phổi làm cho thanh quản phát ra các rung động. Lỗ giãn

giữa các thanh quản gọi là thanh môn. Tuyến âm sẽ được kích thích bởi nguồn
năng lượng chính tại thanh môn. Tiếng nói được tạo ra sóng âm học do kích
thích từ thanh môn phát ra đẩy không khí có trong phổi lên tạo thành dòng khí
va chạm vào hai dây thanh trong tuyến âm. Hai dây thanh dao động sẽ tạo ra
cộng hưởng, dao động âm sẽ được lan truyền theo tuyến âm (tính từ tuyến âm
đến khoang miệng) và sau khi đi qua khoang mũi, môi sẽ tạo ra tiếng nói.


7

Thanh quản có thể bị làm cứng, hoặc nới lỏng (do thần kinh điều khiển các
cơ) để thay đổi tốc độ dãn. Cơ quan chắn giữa khoang mũi và khoang miệng
hoạt động như một cổng giữa hốc âm mũi và hốc âm miệng, nó có thể đóng hay
cô lập để mở để kết hợp với gốc âm miệng một cách hài hòa trong các tình
huống khác nhau và trong các ngôn ngữ khác nhau. Lưỡi, quai hàm, răng, môi
được thay đổi vị trí không gian để thay đổi hình dạng của hốc âm miệng, sóng
áp lực âm thanh phát ra từ miệng, phụ thuộc vào sự liên kết giữa các âm phát ra
và sự suy hao trên các cơ quan phản xạ.
Sóng áp lực âm thanh tồn tại dưới dạng sự di chuyển liên tục của các luồng
khí, khi đến cơ quan thính giác thì được phản ánh qua các thông số: độ rõ, âm
sắc, độ cao, độ lớn của âm.
1.1.2

Đặc tính vật lý của âm thanh

Bản chất âm thanh tiếng nói là sóng cơ học nên có các tính chất cơ bản của
sóng cơ học. Các tính của sóng cơ học mang một ý nghĩa khác khi xét trên góc
độ là âm thanh tiếng nói. Tín hiệu âm thanh tiếng nói là một tín hiệu ngẫu nhiên
không dừng, tuy nhiên những đặc tính của nó tương đối ổn định trong khoảng
thời gian ngắn (vài chục mili giây). Trong khoảng thời gian nhỏ đó tín hiệu gần

tuần hoàn có thể coi như là tuần hoàn.


Tần số

Tần số của sóng cơ học hay còn gọi là độ cao, độ trầm bổng của âm thanh.
Tần số là đặc trưng vật lý quan trọng nhất của âm. Âm thanh nào phát ra cũng ở
một độ cao nhất định, đồ trầm bổng của âm thanh phụ thuộc vào sự chấn động
nhanh hay chậm của các phần tử trong không khí trong một đơn vị thời gian
nhất định. Độ cao của âm phụ thuộc vào tần số dao động. Âm trầm có tần số
nhỏ, âm cao có tần số lớn. Độ cao của nữ thường cao hơn so với nam và độ cao
tiếng nói của trẻ em cao hơn so với người lớn, điều này cũng tương tự đối với
tần số của dây thanh.


8


Cường độ

Cường độ chính là độ to nhỏ của âm thanh, cường độ đồ càng lớn thì âm
thanh có thể truyền đi càng xa trong môi trường có nhiễu. Cường độ do biên độ
dao động quyết định. Trong ngôn ngữ, phụ âm thường mạnh hơn nguyên âm,
đây chính là một trong những đặc điểm góp phần nhận diện sự khác biệt giữa
phụ âm và nguyên âm trong âm thanh tiếng nói. Tuy nhiên đối với tai người giá
trị tuyệt đối của cường độ âm I không quan trọng bằng giá trị tỉ đối của I so với
một giá trị I0 nào đó làm chuẩn. Người ta định nghĩa mức cường độ âm L là
logarit thập phân của tỉ số I/I0: (đơn vị mức cường độ là Ben- kí hiệu B).

L( B ) = lg




I
I0

(1.1)

Trường độ

Trường độ hay độ dài của âm phụ thuộc vào sự chấn động lâu hay nhanh của
các phần tử không khí. Cùng một âm nhưng trong các từ khác nhau thì độ dài
khác nhau. Trường độ được sử dựng để phân biệt các nguyên âm đài và ngắn,
như phân biệt “a” với “ă” hay “ơ” với “â” trong tiếng Việt.


Âm sắc

Là sắc thái riêng của một âm do các cá thể khác nhau tạo ra. Âm sắc là
nguyên nhân gây ra sự khác biệt giữa giọng nói của người này với người khác.
Âm sắc có được là do hiện tượng cổng hưởng.
1.1.3

Đặc tính âm học của âm

Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt ngôn
ngữ và được mô tả bởi các âm vị khác nhau. Tuỳ theo từng ngôn ngữ cụ thể mà
số lượng các âm vị nhiều hay ít. Thông thường số lượng các âm vị vào khoảng
20 – 30 và nhỏ hơn 50 đối với mọi ngôn ngữ. Đối với từng loại âm vị mà có các
đặc tính âm thanh khác nhau. Các âm vị được chia thành hai loại nguyên âm và

phụ âm. Tổ hợp các âm vị tạo nên âm tiết. Âm tiết đóng vai trò một từ trọn vẹn
mang ngữ nghĩa.


9


Nguyên âm

Các nguyên âm có thể coi là lớp thú vị nhất trong các lớp âm thanh tiếng
nói, đặc biệt đối với Tiếng Anh. Tầm quan trọng của chúng trong lĩnh vực nhận
dạng tiếng nói là rất lớn, hầu hết các hệ thống nhận dạng dựa trên cơ sở nhận
dạng nguyên âm đều có tính năng tốt. Trong khi nói, nguyên âm được tạo ra
bằng cách kích thích một ống dẫn âm thanh có hình dạng cố định bằng các xung
áp lực khí giả tuần hoàn do sự rung động của dây thanh sinh ra. Hình dạng của
từng vùng cục bộ dọc theo ống dẫn âm xác định các tần số cộng hưởng (các
formants) và âm thanh sẽ được tạo ra. Việc tạo ra nguyên âm cụ thể nào là được
quyết định bởi vị trí của lưỡi, hàm, môi… Các nguyên âm nói chung là có thời
gian tồn tại dài (so với phụ âm) và dễ xác định phổ. Chính vì thế mà sẽ dễ dàng
cho việc nhận dạng. Có một số cách biểu diễn đặc trưng nguyên âm, bao gồm
cấu hình khoang miệng, các đồ thị dạng song tín hiêu và các đồ thị phổ.


Phụ âm

Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm
co thắt của đường dẫn âm thanh do cách phát âm tạo thành. Dòng không khí tại
chỗ đóng của vòm miệng tạo ra phụ âm tắc. Những phụ âm xát được phát ra từ
chỗ co thắt lớn nhất và các âm tắc tạo ra từ khoảng giữa. Phụ âm có đặc tính hữu
thanh và vô thanh tuỳ thuộc việc dây thanh có dao động để tạo thành cộng

hưởng không. Đặc tính của phụ âm tuỳ thuộc vào tính chu kỳ của dạng sóng,
phổ tần số, thời gian tồn tại và sự truyền dẫn âm.


Formant

Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên độ cao nhất xét
trong một khoảng nào đó (còn gọi là cực trị địa phương) xác định một formant.
Ngoài tần số, formant còn được xác định bởi biên độ và dải thông của chúng. Về
mặt vật lý các tần số formant tương ứng với các tần số cộng hưởng của tuyến
âm. Trong xử lý tiếng nói và nhất là trong tổng hợp tiếng nói để mô phỏng lại
tuyến âm người ta phải xác định được các tham số formant đối với từng loại âm
vị, do đó việc đánh giá, ước lượng các formant có ý nghĩa rất quan trọng.


10

Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính của
người nói và phụ thuộc vào các dạng âm vị tương ứng với formant đó. Đồng
thời, formant còn phụ thuộc các âm vị trước và sau đó. Về cấu trúc tự nhiên, tần
số formant có liên hệ chặt chẽ với hình dạnh và kích thước tuyến âm. Thông
thường trong phổ tần số của tín hiệu có khoảng 6 formant nhưng chỉ có 3
formant đầu tiên ảnh hưởng quan trọng đến các đặc tính của các âm vị, còn các
formant còn lại cũng có ảnh hưởng song rất ít. Các formant có giá trị tần số xê
dịch từ vài trăm đến vài nghìn Hz.
Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người
nói trong điều kiện phát âm nhất định. Mặc dù phạm vi của các tần số formant
tương ứng với mỗi nguyên âm có thể trùng lên nhau nhưng vị trí giữa các
formant đó không đổi vì sự xê dịch của các formant là song song.
Ngoài formant, các âm mũi còn có các tần số bị suy giảm gọi là phản

formant (anti-formant). Phản formant được tạo nên khi luồng khí đi qua khoang
mũi. Các formant tương ứng với các điểm cực của hàm truyền đạt vì tại lân cận
điểm cực giá trị hàm truyền đạt là rất lớn, tương tự vậy các anti-formant tương
ứng với các điểm không của hàm truyền đạt.


Tần số cơ bản

Dạng sóng của tiếng nói gồm hai phần: phần gần giống nhiễu trong đó biên
độ biến đổi ngẫu nhiên và phần tuần hoàn. Phần tín hiệu có tính chu kỳ chứa các
thành phần tần số có dạng điều hòa. Tần số thấp nhất chính là tần số cơ bản và
cũng chính là tần số dao động của dây dây thanh.
Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau. Tần số
cơ bản của trẻ em thường cao hơn so với người lớn và của nữ giới cao hơn so
với nam giới.
Đối với hai âm có cùng cường độ, cùng độ cao sẽ được phân biệt bởi tính
tuần hoàn. Một âm hữu thanh có tín hiệu gần như tuần hoàn khi được phân tích
phổ sẽ xuất hiện một vạch tại vùng tần số rất thấp. Vạch này đặc trưng cho tính


11

tuần hoàn cơ bản của âm hay đó chính là tần số cơ bản của âm. Trong giao tiếp
bình thường tần số cơ bản thay đổi liên tục tạo nên ngữ điệu cho tiếng nói.
F0 gọi là tần số cơ bản của âm thanh. Nam giới f0=150Hz, nữ giới f0=250Hz.
Giọng nam trầm 80-320 Hz
Giọng nam trung 100-400 Hz
Giọng nam cao 130-480 Hz
Giọng nữ thấp 160-600 Hz
Giọng nữ cao 260-1200 Hz

1.1.4

Phân loại đơn giản tiếng nói

Trong quá trình giao tiếp người nói, có nhiều câu nói, mỗi câu gồm một hay
nhiều âm tiết. Ở tiếng Việt, số âm tiết được sử dụng vào khoảng 6700. Khi
chúng ta phát ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi,
họng, thanh quản… kết hợp với nhau để tạo thành âm thanh, âm thanh được
phát ra lan truyền trong không khí để đến tai người nhận. Vì âm thanh phát ra từ
sự kết hợp của nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau hầu như
khác nhau dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo những
đặc tính riêng.
Người ta chia tiếng nói thành 3 loại cơ bản như sau:


Âm hữu thanh: được phát ra bởi luồng khí mạnh từ thanh môn thổi qua dây
thanh làm rung dây thanh, sự dao động của dây thanh tạo nên nguồn tuần hoàn.
Nguồn tuần hoàn kích thích tuyến âm tạo nên âm hữu thanh. Vùng âm hữu
thanh chiếm thành phần chủ yếu của sóng tiếng noi, chứa đựng tin nhiều nhất và



thời gian lớn nhất.
Âm vô thanh: được tạo ra do sự co thắt theo một dạng nào đó của tuyến âm và



luồng khí chạy qua chỗ thắt với tốc độ lớn tạo nên nhiễu loạn.
Âm bật: Để phát ra âm bật, đầu tiên bộ máy phát âm phải đóng kín, tạo nên một
áp suất, sau đó không khí được phải phóng một cách đột ngột.


1.2

Hệ thống xử lý số tín hiệu


12

Đây là quá trình biến đổi một tín hiệu thành một tín hiệu có dạng khác bằng
phương pháp số để phù hợp với mục đích nào đó. Trong thực tế để thực hiện quá
trình xử lý tín hiệu nói chung và tín hiệu tiếng nói nói riêng người ta cho tín hiệu
đi qua một hệ thống phức tạp gọi là hệ thống xử lý số tín hiệu, hệ thống này có
thể thực hiện bằng phần cứng hoặc phần mềm.
Tín hiệu vào tương tự

LPF

Tín hiệu ra tương tự

S&H

ADCC

DSP

DACC

LPFC

Hình 1.3 Mô hình hệ thống xử lý số tín hiệu.

Trong đó
LPF

: bộ lọc thông thấp.

S&H : bộ lấy mẫu tín hiệu vào và giữ mẫu.
ADC : bộ chuyển đối tín hiệu tương tự ra tín hiệu số.
DSP

: bộ xử lý tín hiệu số.

DAC : bộ chuyển đổi tín hiệu số thành tín hiệu tương tự
Các ưu điểm của việc xử lý tín hiệu số so với việc xử lý tín hiệu tương tự:
-

Tín hiệu số có thể lưu trữ một cách dễ dàng với độ tin cậy cao, có thể dễ dàng
xử lý bằng máy tính, cho nên việc sửa đổi tín hiệu hay các tác vụ xử lý cũng dễ

-

dàng và linh hoạt hơn so với tín hiệu tương tự.
Vấn đề nhiễu trong tín hiệu số được hạn chế, do vậy tín hiệu có tính chính xác

-

khá cao.
Đối với tín hiệu số chúng ta có thể thiết kế các giải thuật xử lý có độ phức tạp
cao. Ngoài ra, sự phát triển nhanh chóng của công nghệ máy tính cũng góp phần
hỗ trợ việc xử lý tín hiệu số được nhanh chóng hơn mà giá thành thấp.
1.3


Biểu diễn số tín hiệu tiếng nói


13

Tín hiệu tiếng nói là tín hiệu tương tự, do đó khi biểu diễn tín hiệu tiếng nói
trong môi trường tính toán tín hiệu số, việc biểu diễn và lưu trữ sao cho không
bị mất mát thông tin là vấn đề rất quan trọng trong các hệ thống thông tin sử
dụng tiếng nói.
Việc xem xét các vấn đề xử lý tín hiệu tiếng nói trong các hệ thống này được
dựa trên ba vấn đề chính:
- Biểu diễn tín hiệu tiếng nói dạng số.
- Cài đặt các kỹ thuật xử lý tinh vi.
- Các lớp ứng dụng dựa trên kỹ thuật xử lý số tín hiệu.
Để áp dụng các phương pháp xử lý tín hiệu số cho tín hiệu tiếng nói chúng
ta phải biểu diễn tín hiệu tiếng nói dưới dạng rời rạc.

Biểu diễn tín hiệu tiếng nói

Biểu diễn dạng sóng

Biểu diễn dạng tham số

Các tham số của bộ máy
Các tham số kích thước

Hình 1.4 Biểu diễn tín hiệu tiếng nói
Quá trình rời rạc hoá tín hiệu tiếng nói bao gồm các bước sau:
- Lấy mẫu tín hiệu tiếng nói với tần số lấy mẫu f0.

- Lượng tử hoá các mẫu với bước lượng tử q.
- Mã hoá và nén tín hiệu.


14
1.3.1

Lấy mẫu tín hiệu tiếng nói

Quá trình chuyển đổi các tín hiệu liên tục như tiếng nói thành tín hiệu số rời
rạc, sau đó tái tạo chúng thành thông tin ban đầu. Để tiền hành việc này, các
phần tử thông tin được rút ra từ các tín hiệu tương tự một cách tuần tự. Quá trình
này được gọi là công việc lấy mẫu.

Hình 1.5. Biểu diễn sự lấy mẫu tín hiệu
Theo thuyết lấy mẫu của Shanon, các tín hiệu ban đầu có thể được khôi phục
khi tiến hành công viếc lấy mẫu trên các phần tử tín hiệu được truyền đi lớn hơn
hoặc bằng hai lần tần số cao nhất, nói cách khác điều kiện cần và đủ để khôi
phục lại tín hiệu tương tự từ tín hiệu đã được rời rạc với tần số lấy mẫu là f0 là: f0
≥ 2Fmax.

Nhưng trong thực tế khi phổ tín hiệu của tiếng nói trải rộng trong khoảng
12kHz, theo định lý Shanon thì tần số lấy mẫu tối thiểu là 24kHz nên khối lượng
bộ nhớ dành cho việc ghi âm sẽ rất lớn và tăng sự phức tạp tính toán. Việc này
có thể khắc phục bằng cách chúng ta chấp nhận giới hạn phổ bằng cách cho tín
hiệu qua một bộ lọc tần số thích hợp. Phổ của tín hiệu tiếng nói điện thoại vẫn
đạt chất lượng cần thiết ở múc 3400Hz khi đó tần số lấy mẫu sẽ là 8000Hz.
Trong kỹ thuật phân tích, tổng hợp hay nhận dạng tiếng nói, tần số lấy mẫu có
thể dao động trong khoảng 6000-16000 Hz.
1.3.2


Lượng tử hóa


15

Việc biểu diễn số tín hiệu đòi hỏi lượng tử hoá mỗi mẫu tín hiệu với một giá
trị rời rạc hữu hạn. Mục tiêu của công việc này là hoặc là để truyền tải hoặc là
xử lý có hiệu quả.
Trong trường hợp thứ nhất, mỗi mẫu tín hiệu được lượng tử hóa, mã hoá rồi
truyền đi. Bên thu nhận tín hiệu giải mã và thu được tín hiệu tương tự. Tính
thống kê của tín hiệu được bảo toàn sẽ ảnh hưởng quan trọng đến thuật toán
lượng tử hoá. Trong trường hợp xử lý tín hiệu, luật lượng tử được quy định bởi
hệ thống xử lý, nó có thể được biểu diễn bằng dấu phẩy tĩnh hay dấu phẩy động.
Việc xử lý bằng dấu phẩy động cho phép có một sự mềm dẻo cần thiết đối
với tín hiệu mặc dù nó đòi hỏi chi phí cao với các tính toán. Việc xử lý bằng dấu
phẩy tĩnh đơn giản hơn nhiều nhưng đòi hỏi các điều kiện chặt chẽ đối với các
thuật toán xử lý.
1.3.3

Nén tín hiệu

Trong các hệ thống liên lạc vấn đề hạn chế phổ tần tín hiệu là rất đang quan
tâm. Nó hiệu quả trong xử lý, lưu trữ và truyền dẫn tín hiệu. Sự phát triển của
công nghệ tích hợp IC đã cho ra đời các vi mạch cỡ rất lớn VLSI và xử lý tín
hiệu số DSP làm xu hướng phát triển của các hệ thống thống tin là số hóa, chúng
thực hiện một quá trình biến đổi tín hiệu từ nguồn liên tục thành chuỗi tín hiệu
số, chuỗi tín hiệu số này dễ xử lý theo các thuật toán khác nhau, góp phần nâng
cao chất lượng tín hiệu và hiểu quả sử dụng phổ tần trong truyền dẫn. Sau khi xử
lý, lọc, truyền dẫn… hệ thống thông tin số sẽ chuyển đổi ngược tín hiệu sang

tương tự để phù hợp với tín hiệu tự nhiên.
Các bộ nén phổ tín hiệu tiếng nói bao gồm đầy đủ các bước trên. Cơ bản của
một bộ nén tín hiệu hiệu tiếng nói là tỷ lệ giữa tốc độ bit được truyền đi và chất
lượng tiếng nói đạt được. Ta biết rằng tín hiệu tiếng nói có độ dư thừa rất lớn, do
đó có thể giảm tốc độ tín hiệu tùy thuộc vào mục đích xử lý khi xem xét đến độ
phức tạp của thuật toán cũng như xem xét đến chất lượng của việc biểu diễn tín
hiệu tiếng nói. Có nhiều kỹ thuật đưa ra để đạt được mục đích trên. Sự lựa chọn
một phương pháp biểu diễn số tín hiệu phải thỏa mãn giữa các tiêu chuẩn về


16

chất lượng của phép biểu diễn, tốc độ truyền hay lưu trữ và cuối cùng là các điều
kiện môi trường.

Hình 1.6 Sự phụ thuộc của chất lượng tiếng nói vào tốc độ bit
1.4

Mã hóa tiếng nói
Mã hóa tiếng nói hay nén tiếng nói là vấn đề liên quan đến việc số hóa tín

hiệu tiếng nói theo một phương thức nào đó, nhằm mang lại hiệu quả trong
truyền dẫn và lưu trữ tín hiệu. Công việc chính của mã hóa tiếng nói là biểu diễn
một tín hiệu bằng một số bit tối thiểu mà vẫn đảm bảo được chất lượng cho
phép. Chỉ tiêu đánh giá thuật toán mã hóa:
Hai mục tiêu quan trọng đặt ra là: tối thiểu hóa tốc độ bit và tối ưu hóa chất
lượng. Hai mục tiêu này thường có mâu thuẫn với nhau. Tốc độ bit được tính
bằng bps. Chất lượng được đánh giá ở việc được tái tạo ở dạng tương tự với một
sai số càng nhỏ càng tốt. Việc lấy mẫu không ảnh hưởng tới chất lượng. Còn
lượng tử hóa có thể gây ra những sai số làm mất mát thông tin so với tín hiệu

ban đầu được gọi là nhiễu lượng tử. Tỷ số tín hiệu trên nhiễu SNR được dùng để
đánh giá chất lượng tiếng nói, tỷ số này càng thấp chất lượng tiếng nói càng
không tốt. Chất lượng chấp nhận được ở SNR khoảng trên 30 dB. Theo tính toán
việc thêm 1 bit biểu diễn giá trị lượng tử sẽ làm tăng SNR lên khoảng 6 dB.
Người ta thường dùng một tiêu chuẩn gọi là MOS (Mean Opinion Score) để so
sánh chất lượng mã hóa tiếng nói, với thang giá trị từ 1 đến 5. Cho ta biết một


17

thuật toán điều chế có đạt được chất lượng có gần với tiếng nói tự nhiên hay
không.
Về cơ bản bộ mã hóa tiếng nói có 3 loại:



1.4.1

Mã hóa dạng sóng (waveform).
Mã hóa nguồn (source).
Mã hóa lại (hybrid) là sự kết hợp của mã hóa dạng sóng và mã hóa nguồn.
Mã hóa dạng sóng

Mã hóa dạng sóng nhằm tái tạo lại tín hiệu đầu vào của tiếng nói. Nó thường
chia thành các tín hiệu độc lập do vậy có thể dùng để mã hóa rất nhiều loại tín
hiệu. Nguyên lý của mã hóa dạng sóng là tìm cách số hóa dạng sóng của tiếng
nói theo cách thích hợp. Tại phía phát, bộ mã hóa sẽ nhận các tín hiệu nói tương
tự liên tục và chuyển thành tín hiệu số trước khi truyền đi. Tại phía thu sẽ làm
nhiệm vụ ngược lại để khôi phục tín hiệu nói. Khi không có lỗi truyền dẫn thì
dạng sóng của tiếng nói khôi phục rất giống với dạng sóng của tiếng nói gốc. Ưu

điểm của loại mã hóa này là: độ phức tạp, giá thành thiết kế, độ trễ và công suất
tiêu thụ thấp. Mã hóa dạng sóng có thể được thực hiện trên cả miền tần số cũng
như miền thời gian.
1.4.1.1

Mã hóa trên miền thời gian

Mã hóa trên miền thời gian thực hiện việc mã hóa trên khoảng thời gian lấy
mẫu của tín hiệu. Các phương pháp mã hóa trong miền thời tường dùng gồm có:
Điều chế mã xung (PCM), điều chế mã xung thích ứng (APCM), điều chế mã
xung vi phân (DPCM), điều chế mã xung vi phân thích ứng (ADPCM), điều chế
Delta (DM), điều chế Delta thích ứng, mã hoá dự đoán thích ứng (APC)... Tiếp
theo ta sẽ xem xét một vài phương pháp mã hoá quan trọng trong miền thời

gian.



Mã hóa PCM


18

Hình 1.7 Cấu hình cơ bản của phương pháp thông tin PCM
Điều chế mã xung là phương pháp đơn giản nhất trong mã hóa dạng sóng.
Điểm cốt yếu của phương pháp này chính là quá trình lượng tử hóa. Phương
pháp lượng tử hóa phổ biển hiện nay là lượng tử hóa logarithm: mục tiêu của
phương pháp này là duy trì một tỷ số SNR ít thay đổi trong phạm vi biên độ.
Thay vì lượng tử hóa giá trị tương tự của tín hiệu lấy mẫu, trước tiên ta tính toán
hàm logarithm của từng giá trị rồi mới lượng tử hóa chúng. SNR sẽ chỉ phụ

thuộc vào bước lượng tử. Lượng tử logarithm là một quá trình nén, chúng làm
giảm miền giá trị đầu vào một cách đáng kể tùy thuộc vào hàm logarithm được
dùng. Sau khi nén, một quá trình ngược lại là mũ hóa được dùng để tái tạo lại tín
hiệu nguyên thủy ban đầu.


Mã hóa DM

Là một trong những phương pháp điều chế vi sai, dựa trên tính chất tín hiệu
tiếng nói tại thời điểm có ít nhiều phụ thuộc vào tín hiệu ở các thời điểm trước
đó, vì thế ta có thể dự đoán tín hiệu tại thời điểm hiện tại, và chỉ cần lưu trữ giá
trị khác biệt giữa giá trị thực và giá trị dự đoán của tín hiệu, sự sai khác này giúp
tiết kiệm băng thông để đạt hiệu quả cao.
Ý tưởng của phương pháp điều chế delta là chỉ truyền đi giá trị thay đổi tuyệt
đối của tín hiệu. Dựa vào sự khác nhau của tín hiệu tại thời điểm liền kề nhau
mà ta tính được tín hiệu phải phải truyền trên đường dây. Phương pháp này chỉ
sử dụng 1 bit mã để mã hóa tín hiệu sai khác đó, nghĩa là cho biết tín hiệu tại
thời điểm t+1 là là lớn hơn hay nhỏ hơn tín hiệu tại thời điểm t.


Mã hóa DPCM

Đây là phương pháp cũng dựa trên nguyên tắc chỉ truyền đi sự khác nhau của
tín hiệu tại thời điểm kề nhau là t và t+1. Khác với DM chỉ dùng 1 bit để giải
mã, DPCM dùng N bit để có thể biểu diễn giá trị sai khác này. Chất lượng điều
chế khá tốt với lượng bit cần dùng ít hơn so với PCM.


19



Mã hóa ADPCM

Là phương pháp mở rộng của DPCM. Người ta vẫn dùng một số bit nhất
định để mã hóa sự sai khác giữa tín hiệu tại 2 thời điểm kề nhau, nhưng bước
lượng tử có thể được điều chỉnh tại các thời điểm khác nhau để tối ưu hóa việc
điều chế.
1.4.1.2

Mã hóa trong miền tần số

Mã hoá dạng sóng trong miền tần số chia tín hiệu thành các thành phần tần số
khác nhau và tiến hành mã hoá từng thành thành phần này. Số bít sử dụng để mã
hoá từng thành phần tần số có thể thay đổi.
Mã hoá trong miền tần số được chia ra làm hai nhóm là: mã hoá băng con
(subband) và mã hoá biến đổi (transform).


Mã hóa băng con

Mã hóa băng con được sử dụng một bộ lọc dải thông để chia tín hiệu đầu vào
thành các tín hiệu con (subband signal) mà đã được mã hóa. Tại bộ thu các tín
hiệu con được giải mã và cộng lại nhằm khôi phục lại tín hiệu ban đầu.
Ưu điểm chính của phương pháp mã hoá băng con đó là nhiễu lượng tử hoá
sinh ra trong một dải tần sẽ bị hạn chế trong chính dải tần đấy.



Mã hóa biển đổi


Kỹ thuật này cần có một khối chuyển đổi của cửa sổ tín hiệu đầu vào thành
các thành phần tần số, hoặc một vài miền tương tự. Mã hoá thích ứng sau đó sẽ
hoàn thành bằng cách phân bổ thêm bít vào các thành phần hệ số quan trọng
hơn. Tại bộ thu thì bộ giải mã sẽ thực hiện việc chuyển đổi ngược để thu lại tín
hiệu cần khôi phục. Ta có thể sử dụng một số phép biến đổi như: phép biến đổi
Fourier rời rạc (DFT) hay là phép biến đổi cosine rời rạc (DCT).
1.4.2

Mã hóa nguồn

Bộ mã hóa nguồn tiếng nói là một loại mã hóa trong đó tín hiệu tiếng nói
được phân tích tại bộ phát, phát các thông số suy ra từ phép phân tích và sau đó


20

tổng hợp tại phía thu nhờ các thông số này. Nguyên lý dựa trên việc cho rằng
tuyến âm thanh thay đổi từ từ, trang thái và cấu hình của chúng tại bất cứ thời
điểm nào có thể được mô phỏng một cách gần đúng bằng một tập nhỏ các tham
số. Nhờ việc tuyến âm có tộc độ thay đổi từ từ cho phép mỗi tập tham số có thể
đại diện cho trạng thái của nó qua một khoảng thời gian 25 ms. Hầu hết các mã
hóa nguồn biểu diễn đặc tính của nguồn kích thích và tuyến âm chỉ bằng 1 tập
tham số. Mã hóa nguồn có khả năng chuyển giữa 2 kiểu nguồn kích thích là
nguồn xung đối âm hữu thanh và nhiễu trắng đối với âm vô thanh. Bên phía tổng
hợp sẽ dùng 1 trong 2 nguồn này cho đi qua bộ lọc gồm các hệ số của khung dữ
liệu để tổng hợp tiếng nói.
Ngoài việc đạt được tốc độ bit thấp, bộ mã nguồn còn có ưu điểm là phân
tích được các tham số nguồn kích thích. Bit biểu thị âm sắc, âm lượng và âm
hữu thanh/ âm vô thanh. Bản thân nó là các bit trong khung dữ liệu, nên các sự
thay đổi của chúng có thể được sửa đổi trước hoặc trong khi tổng hợp. Vì thế ta

có thể biến một âm thanh hữu thanh thành một lời thì thầm khi thiết đặt lại giá
trị của bit âm hữu thanh/ âm vô thanh. Cũng có thể thay đổi bản thân câu nói
bằng cách sửa đổi tham số cộng hưởng.

1.4.3

Mã hóa lai

Mã hóa dạng sóng nói chung không cho phép đạt chất lượng tiếng nói tốt ở
tốc độ bit dưới 16Kbps. Mặt khác mã hóa nguồn có thể đạt được tốc độ bit rất
thấp, tuy nhiên phương pháp này tổng hợp lại tiếng nói nên có nhược điểm rất
khó nhận diện được người nói và thường xuyên gặp vấn đề với nhiễu nền. Mã
hóa lai cố gằng tận dụng ưu điểm của cả 2 phương pháp điều chế trên. Nó mã
hóa tiếng nói ở tốc độ thấp, mà lại cho kết quả tiếng nói tái tạo lại tốt, có thể
nhận dạng được người nói. Băng thông yêu cầu thường nằm trong khoảng
4,8Kbps đến 16Kbps.


21

Vấn đề cơ bản đối với mã nguồn là kích thích được mô phỏng một cách đơn
giản: tín hiệu tiếng nói được coi là vô thanh hay hữu thanh, nó làm cho tiếng nói
nhận được có dạng được nhân tạo hơn là vẻ tự nhiên. Các phương pháp mã hóa
lai cố gắng cải thiện điều này bằng cách thay đổi nguồn kích thích tiếng nói theo
cách khác.
Tổng hợp tiếng nói

1.5

Tổng hợp tiếng nói là quá trình tạo tiếng nói xuất phát từ biểu diễn ngữ âm

của lời nói và cơ chế sản sinh ra tiếng nói. Trong vài thập niên gần đây, các bộ
tổng hợp tiếng nói có chất lượng ngày càng cao. Tuy nhiên, chất lượng của các
phương pháp hiện nay mới chỉ đạt đến mức phù hợp cho một vài ứng dụng,
chẳng hạn như đa phương tiện và truyền thông.
Hiện nay có nhiều phương pháp tổng hợp tiếng nói, dưới đây ta sẽ xét các
phương pháp đặc trưng trong tổng hợp tiếng nói.
1.5.1

Tổng hợp trực tiếp

Một phương pháp đơn giản thực hiện việc tổng hợp các bản tin là phương
pháp tổng hợp trực tiếp trong đó các phần của bản tin được chắp nối bởi các
phần đơn vị của tiếng nói con người.
Đặc điểm của phương pháp này là có sự tham gia của con người. Đây là
cách dễ nhất để tạo tiếng nói tuy nhiên nó yêu cầu số lượng lời nói ghi âm phải
lớn do đó cần nhiều bộ nhớ để lưu trữ các lời nói này. Các đơn vị tiếng nói
thường là các từ hoặc các cụm từ được lưu trữ và bản tin tiếng nói mong muốn
được tổng hợp bằng cách lựa chọn và chắp nối các đơn vị thích hợp. Có nhiều
kỹ thuật trong việc tổng hợp trực tiếp tiếng nói và các kỹ thuật này được phân
loại theo kích thước của các đơn vị dùng để chắp nối cũng như những loại biểu
diễn tín hiệu dùng để chắp nối. Các phương pháp phổ biến có thể kể đến là:
phương pháp chắp nối từ, chắp nối các đơn vị từ con, chắp nối các phân đoạn
dạng sóng tín hiệu.
1.5.2

Tổng hợp tiếng nói theo Formant


22


Hình 1.8 mô tả sơ đồ tổng quát của một hệ thống tổng hợp theo formant.
Nguyên lý tổng quát của hệ thống được mô tả như sau. Âm thanh được ra từ một
nguồn.
Đối với các nguyên âm và các phụ âm hữu thanh thì nguồn âm này có thể
được tạo ra hoặc đầy đủ bằng một hàm tuần hoàn trong miền thời gian hoặc
bằng một dãy đáp ứng xung đưa qua mạch lọc tuyến tính mô phỏng khe thanh.
Đối với các âm vô thanh thì nguồn âm này được ra từ một bộ phát ngẫu nhiên.
Đối với các âm tắc thì nguồn cơ bản này được tạo ra bằng cách kết hợp nguồn
cho âm hữu thanh và nguồn cho âm vô thanh.
Tín hiệu âm thanh từ nguồn âm cơ bản được đưa vào mô hình tuyến âm. Để
tái tạo tất cả các format, mô phỏng khoang miệng và khoang mũi được xây dựng
song song riêng biệt. Do đó, khi tín hiệu đi qua hệ thống sẽ đi qua mô hình
khoang miệng, nếu có yêu cầu về các âm mũi thì cũng đi qua hệ thống mô hình
khoang mũi. Cuối cùng kết cả các thành phần âm thanh tạo ra từ các mô hình
khoang miệng và mũi được kết hợp lại và đưa qua hệ thống phát xạ, hệ thống
này mô phỏng các đặc tính lan truyền và đặc tính tải của môi và mũi.
Mặc dù là một phương pháp tổng hợp đơn giản và thường mang lại tín hiệu
âm thanh rõ, phương pháp tổng hợp theo formant khó đạt được tính tự nhiên của
tín hiệu tiếng nói. Điều này là do mô hình nguồn và mô hình chuyển đổi đã bị
đơn giản hóa quá mức và đã bỏ qua nhiều yếu tố phụ trợ góp phần tạo ra đặc
tính động của tín hiệu.


23

Khoang mũi
Nguồn

Phát xạ


Nguồn lưu lượng vận tốc

Tiếng nói áp suất dạng lỏng

Khoang miệng

Môi/Mũi
Lưu lượng vận tốc

Hình 1.8. Sơ đồ phương pháp tổng hợp theo formant
1.5.3

Tổng hợp dùng bộ máy phát âm

Ngày nay các bộ tổng hợp sử dụng nguyên lý mô phỏng bộ máy phát âm
ngày càng phức tạp và hoàn thiện hơn. Các hình dạng ống phức tạp được xấp xỉ
bằng một loại các ống đơn giản nhỏ hơn. Với mô hình các ống đơn giản, vì
chúng ta biết được các đặc tính truyền âm của nó, chúng ta có thể xây dựng các
mô hình bộ máy phát âm tổng quát phức tạp.
Một ưu điểm của phương pháp tổng hợp mô phỏng bộ máy phát âm là cho
phép tạo ra một cách tự nhiên hơn để tạo ra tiếng nói. Tuy nhiên, phương pháp
này cũng có một số nhược điểm:
-

Thứ nhất đó là việc quyết định làm thể nào để có được các tham số điều khiển từ

-

các yêu cầu tín hiệu cần tổng hợp.
Thứ hai là việc cân bằng giữa việc xây dựng một mô hình mô phỏng chính xác

cao nhất giống với bộ máy phát âm sinh học của con người và một mô hình thực
tiễn dễ thiết kế và thực hiện. Đây cũng là các lý do mà có rất ít các hệ thống tổng
hợp theo nguyên lý mô phỏng bộ máy phát âm có chất lượng so với các bộ tổng
hợp theo nguyên lý khác.


24

Speech

Nguồn âm

Tuyến âm

Tham số điều kiện

Hình 1.9 Mô hình tổng hợp tiếng nói bằng phương pháp mô phỏng nguồn âm
Mô phỏng nguồn âm (nguồn tuần hoàn): là quá trình mô phỏng hoạt động
của dây thanh. Các phương pháp mô phỏng dây thanh thường dùng là mô hình
một khối, mô hình hai khối, mô hình nhiều khối, mô hình dầm,…
Mô phỏng tuyến âm: thực chất là mô phỏng bộ máy phát âm từ thanh môn
trở lên. Tuyến âm được mô phỏng bằng cách rời rạc hoá, thay thế từng đoạn
tuyến âm bởi các ống cơ bản có chiều dài ngắn (các ống hình trụ) và sau đó thực
hiện tính toán trên các ống này.
1.5.4

Tổng hợp LPC
F0
Tạo xung


A
Tiếng nói
Bộ lọc số bậc p

Tạo tạp âm

a1

a2

ap

Hình 1.10. Mô hình tổng hợp bằng tiếng nói bằng phương pháp LPC
Chức năng từng khối:
-

Khối tạo xung: Khối này để tạo các tín hiệu tuần hoàn
Khối tạo tạp âm: Khối này để tạo các tín hiệu không tuần hoàn
Khối A: Khối thay đổi biên độ
Bộ lọc bậc p xác định các tham số a1 đến ap


25

LPC (Linear Prediction Coefficient): hệ số dự đoán tuyến tính.
Phương pháp này được thực hiện tự động 100% do có tiêu chí xác định các
hệ số ai. Tuy nhiên nhược điểm của phương pháp này là chất lượng tổng hợp âm
mũi kém do LPC chỉ dựa trên mô hình toàn điểm cực, không có điểm không (tức
là chỉ có khoang miệng mà không có khoang mũi), do đó chỉ áp dụng với
khoang miệng.

1.6

Kết luận chương
Ngày nay tín hiệu tiếng nói trở thành đối tượng và cũng là nguồn tải lớn nhất

của mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công nghệ hiện
đại thì các phương pháp xử lý tín hiệu tiếng nói cũng phát triển mạnh, vì vậy tìm
hiểu tín hiệu tiếng nói là một vấn đề quan trọng. Chương 1 của đồ án đã nghiên
cứu về tiếng nói (đặc tính vật lý, đặc tính âm học, cơ chế phát âm,…) và các
phương pháp xử lý tiếng nói như mã hóa tiếng nói hay tổng hợp tiếng nói.
Một số phương pháp cụ thể về xử lý tiếng nói sẽ được đề cập đến ở chương
tiếp theo.


×