Tải bản đầy đủ (.pdf) (54 trang)

Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.44 MB, 54 trang )

LỜI CẢM ƠN
Trước tiên em xin gửi lời cảm ơn chân thành đến trường Cao Đẳng CNTT Hữu
Nghị Việt Hàn đã tạo điều kiện thuận lợi cho em được ngồi học trong lớp học Tin Học
Viễn Thơng Khóa 4 của trường, em gửi lời cảm ơn chân thành đến quý thầy cô bộ môn
thuộc khoa công nghệ thông tin ứng dụng đã nhiệt tình giảng dạy, cung cấp kiến thức
và giúp đỡ động viên để em có thể hồn thành được đồ án này. Đặc biệt gửi lời cảm ơn
chân thành tới cô Phan Thị Lan Anh đã hướng dẫn tận tình cho em trong suốt thời gian
làm đồ án.
Xin cảm ơn những người thân trong gia đình tơi, cảm ơn những người bạn thân
thiết đã giúp đỡ tôi trong những lúc khó khăn nhất.

Sinh viên thực hiện:
Lương Văn Phượng

i


MỤC LỤC
LỜI CẢM ƠN ................................................................................................................. i
MỤC LỤC ...................................................................................................................... ii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH ............ v
DANH MỤC BẢNG BIỂU ......................................................................................... vii
DANH MỤC HÌNH ẢNH .......................................................................................... viii
MỞ ĐẦU ......................................................................................................................... 1
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI ........ 2
1.1 Giới thiệu chương .................................................................................................... 2
1.2 Nâng cao chất lượng tiếng nói là gì ? ..................................................................... 2
1.3 Tín hiệu, hệ thống và xử lý tín hiệu ....................................................................... 3
1.3.1 Tín hiệu ............................................................................................................. 3
1.3.2 Nguồn tín hiệu .................................................................................................. 4
1.3.3 Hệ thống và xử lý tín hiệu ................................................................................ 4


1.3.4 Phân loại tín hiệu ............................................................................................. 5
1.4 Lý thuyết về nhiễu ................................................................................................... 5
1.4.1 Nguồn nhiễu ..................................................................................................... 5
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các mơi trường khác nhau ................ 7
1.5 Tín hiệu rời rạc theo thời gian................................................................................ 8
1.5.1 Tín hiệu bước nhảy đơn vị ............................................................................... 8
1.5.2 Tín hiệu xung đơn vị......................................................................................... 9
1.5.3 Tín hiệu hàm mũ............................................................................................... 9
1.5.4 Tín hiệu hàm sin rời rạc ................................................................................... 9
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT ................................................ 9
1.6.1 Sự hội tụ của phép biến đổi Fourier .............................................................. 10
1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier ................................................ 10
1.6.3 Phép biến đổi Fourier ngược ......................................................................... 10
1.6.4 Các tính chất của phép biến đổi Fourier ....................................................... 11
1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc ................................................... 12
ii


1.6.6 Phổ biên độ và phổ pha .................................................................................. 12
1.7 Các thuật tốn sử dụng nâng cao chất lượng tiếng nói ...................................... 13
1.7.1 Trừ phổ ............................................................................................................ 13
1.7.2 Mơ hình thống kê ............................................................................................ 13
1.8 Tín hiệu tiếng nói ................................................................................................... 13
1.9 Cơ chế tạo tiếng nói ............................................................................................... 15
1.9.1 Bộ máy phát âm của con người ..................................................................... 15
1.9.2 Mơ hình kỹ thuật của việc tạo tiếng nói ........................................................ 16
1.9.3 Phân loại âm ................................................................................................... 16
1.9.4 Thuộc tính âm học của tiếng nói ................................................................... 16
1.10 Kết luận chương................................................................................................... 17
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI ....................................... 18

2.1 Giới thiệu chương .................................................................................................. 18
2.2 Phương pháp đánh giá chủ quan ......................................................................... 18
2.2.1 Các phương pháp đánh giá tuyệt đối ............................................................. 18
2.2.2 Các phương pháp đánh giá tương đối ........................................................... 19
2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu ........................... 19
2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng ............................... 20
2.3 Phương pháp đánh giá khách quan ..................................................................... 20
2.4 Kết luận chương..................................................................................................... 21
CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION ............................... 22
3.1 Giới thiệu chương .................................................................................................. 22
3.2 Thuật toán Spectral Subtraction .......................................................................... 22
3.2.1 Giới thiệu chung ............................................................................................. 22
3.2.2 Nguyên tắc cơ bản của thuật toán .................................................................. 22
3.2.3 Spectral subtraction đối với phổ biên độ........................................................ 23
3.2.4 Spectral subtraction đối với phổ công suất .................................................... 24
3.3 Sơ đồ khối của thuật toán Spectral Subtraction ................................................. 25
3.3.1 Phân tích tín hiệu theo từng frame ................................................................ 26

iii


3.3.2 Overlap và Adding .......................................................................................... 26
3.3.3 Hàm xử lý giảm nhiễu .................................................................................... 27
3.3.4 Ước lượng và cập nhật nhiễu ......................................................................... 28
3.3.4.1 Voice activity detection ............................................................................. 28
3.3.4.2 Quá trình ước lượng và cập nhật nhiễu ................................................... 29
3.4 Kết luận chương..................................................................................................... 29
CHƯƠNG 4: MÔ PHỎNG BẰNG MATLAP .......................................................... 30
4.1 Giới thiệu chương .................................................................................................. 30
4.2 Giới thiệu chung về phần mềm Matlab ............................................................... 30

4.2.1 Khái niệm về Matlab ....................................................................................... 30
4.2.2 Các tính năng chính ....................................................................................... 30
4.3 Quy trình thực hiện và đánh giá thuật toán ....................................................... 31
4.4 Lưu đồ thuật toán Spectral Subtraction ............................................................. 32
4.5 Thực hiện và đánh giá thuật toán ........................................................................ 33
4.6 Kết luận chương..................................................................................................... 36
4.7 Matlap Code của thuận toán giảm nhiễu ............................................................ 36
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI................................................... 43
TÀI LIỆU THAM KHẢO............................................................................................ ix
PHỤ LỤC ....................................................................................................................... x
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN ...................................................... xi

iv


DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ
TIẾNG ANH
Từ viết

Nghĩa tiếng Việt

Tiếng Anh

tắt
ACR

Absolute Categories Rating

Đánh giá theo giá trị tuyệt đối


CCR

Comparison Category Rating

Đánh giá bằng cách so sánh

DCR

Degradation Category Rating

Đánh giá suy giảm chất lượng

DFT

Discrete Fourier Transform

Phép biến đổi Fourier rời rạc

DTFT

Discrete- Time Fourier Transform

FFT

Fast Fourier Transform

IDTFT

ITU-T


Inverse Discrete Fourier
Transform

Phép biến đổi Fourier của tín hiệu rời
rạc.
Phép biến đổi Fourier nhanh
Phép biến đổi ngược Fourier rời rạc

International Telecommunications

Hiệp hội tiêu chuẩn viễn thông

Union Telecommunication

quốc tế

IS

IS Itakura_Saito

LLR

Log Likehook Raito

LPC

LPC Linear Prediction Coefficients Hệ số dự đốn tuyến tính

LTI


Linear Time-Invariant

MMSE

Minium Mean-Squared Error

MOS

Mean Opinion Scores

Đánh giá theo quan điểm người nghe

OE

Objective Evaluation

Đánh giá khách quan

PC

Personal Computer

Máy tính cá nhân

ROC

Region of Convergence

Miền hội tụ


SE

Subjective Evaluation

Đánh giá chủ quan

SNR

Signal Noise Ratio

Tỉ số tín hiệu trên nhiễu

SPL

Sound Pressure Level

Mức áp suất của âm thanh

SVD

Singular Value Decomposition

Phép phân tích giá trị đơn

SS

Spectral Subtraction

Thuật tốn giảm nhiễu tín hiệu


Hệ thống bất biến và biến thiên
theo thời gian
Tối thiểu hố sai lệch trung bình bình
phương

v


tiếng nói bằng phương pháp trừ
phổ
Thăm dị sự hoạt động của tiếng nói

VAD

Voice Activity Detection

SMB

Statistical Model Based

WSS

Weighted Spectral Slope

Đo theo trọng số của phổ

Frame

Khung tín hiệu.


Overlap và Addin

Xếp chồng và cộng

Hamming

Cửa sổ Hammingg

Speech Enhancement

Nâng cao chất lượng tiếng nói

Thuật tốn giảm nhiễu tín hiệu tiếng
nói dựa trên ngun lý thống kê

vi


DANH MỤC BẢNG BIỂU
Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS . ................................. 19
Bảng 2.2. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR ..................... 19
Bảng 2.3. Thang đánh giá DCR..................................................................................... 20

vii


DANH MỤC HÌNH ẢNH
Hình 1.1 Tín hiệu tiếng nói. .................................................................................... 4
Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe. .............. 6
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu. ....... 6

Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà
hàng. ................................................................................................................................ 7
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các mơi trường
khác nhau. ........................................................................................................................ 8
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz. ............... 13
Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và
dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ
“her”............................................................................................................................... 14
Hình 1.8 Mặt cắt dọc của cơ quan tạo tiếng nói. .................................................. 15
Hình 1.9 Mơ hình kỹ thuật tạo tiếng nói............................................................... 16
Hình 1.10 Bảng phân loại âm vị trong tiếng Anh của người Mỹ. ........................ 16
Hình 3.2 Phân tích tín hiệu thành các frame......................................................... 26
Hình 4.1. Sơ đồ thực hiện và đánh giá thuật tốn tăng cường.............................. 31
Hình 4.2 Lưu đồ thuật tốn SS ............................................................................. 32
Hình 4.3 Dạng sóng và phổ của tín hiệu sạch ...................................................... 33
Hình 4.4 Dạng sóng và phổ của tín hiệu bị nhiễu với SNR = 15dB .................... 33
Hình 4.5 Dạng sóng và phổ của tín hiệu sau khi xử lý nhiễu bằng thuật toán trừ
phổ biên độ .................................................................................................................... 34
Hình 4.6 Dạng sóng và phổ của tín hiệu sau khi xử lý nhiễu bằng thuật tốn trừ
phổ cơng suất. ................................................................................................................ 34
Hình 4.7 Dạng sóng và phổ của tín hiệu sạch ...................................................... 34
Hình 4.8 Dạng sóng và phổ của tín hiệu bị nhiễu với SNR = 5dB ...................... 35
Hình 4.9 Dạng sóng và phổ của tín hiệu sau khi xử lý nhiễu bằng thuật tốn trừ
phổ biên độ .................................................................................................................... 35
Hình 4.10 Dạng sóng và phổ của tín hiệu sau khi xử lý nhiễu bằng thuật tốn trừ
phổ cơng suất. ................................................................................................................ 35

viii



Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

MỞ ĐẦU
Tiếng nói đóng vai trị rất quan trọng trong thơng tin liên lạc. Q trình truyền tín
hiệu tiếng nói được truyền qua các phương tiện thông tin bị các loại nhiễu tác động nên
chất lượng suy giảm. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ
thoại như ngày nay. Tuy nhiên việc bảo tồn được tín hiệu tiếng nói trên các dịch vụ
này là điều vơ cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng
của nhiễu sẽ làm cho tín hiệu tiếng nói khơng cịn như ban đầu. Vì vậy, các thuật tốn
về Speech Enhancement ra đời. Tuy khơng thể bảo tồn được y ngun tín hiệu ban
đầu nhưng sử dụng các thuật tốn này ta có thể tăng cường được chất lượng tiếng nói
và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội
dung thông tin và khơng gây khó chịu bởi nhiễu đối với người nghe. Vì vậy, Speech
Enhancement đóng một vai trị rất quan trọng trong lĩnh vực thoại.
Trong bài đồ án này chúng ta sẽ đi tìm hiểu thuật tốn trừ phổ trong xử lý tiếng
nói. Thuật tốn dựa trên ngun tắc thừa nhận sự có mặt của nhiễu và có thể đạt được
mục đích ước lượng phổ của tiếng nói bằng cách trừ đi phổ của nhiễu với phổ của tiếng
nói đã bị nhiễu. Ta sẽ phân tích từng phần theo sự phát triển của thuật toán và đánh giá
kết quả mà thuật toán mang lại.
Để thực hiện được nội dung thì đồ án của em được kết cấu gồm 4 chương :
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói: Chương này giới thiệu
một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các loại nhiễu,
tín hiệu tiếng nói và sự hình thành tiếng nói. Bên cạnh đó cịn giới thiệu khái quát về
một số thuật toán trong Speech Enhancement.
Chương 2 : Đánh giá chất lượng tiếng nói: Chương này giới thiệu một số
phương pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của thuật toán
nâng cao tiếng nói.
Chương 3 : Thuật tốn Spectral Subtraction : Chương này đi sâu vào nghiên cứu
nguyên lý cơ bản của thuật tốn.
Chương 4 : Mơ phỏng bằng phần mềm matlap: Chương này mô phỏng bằng

phần mềm matlap thực hiện giảm nhiễu tín hiệu tiếng nói bằng thuật tốn đã nghiên
cứu ở chương 3 từ đó đưa ra nhận xét đánh giá.
Phương pháp nghiên cứu của đồ án là tìm hiểu lý thuyết của thuật toán để xây
dựng lưu đồ của thuật tốn, thực hiện xử lý tiếng nói bằng các thuật tốn đó. Dựa trên
các kết quả đạt được sau đó sử dụng phương pháp đánh giá khách quan để đánh giá
tính hiệu quả của thuật tốn xử lý trong môi trường thực tế.
SVTH: Lương Văn Phượng_CCVT03A

1


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG
TIẾNG NĨI
1.1 Giới thiệu chương
Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếng nói là gì,
các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đặc điểm cuả tín
hiệu tiếng nói. Chương này cịn giới thiệu khái qt về các thuật tốn sử dụng trong
speech enhancement.
1.2 Nâng cao chất lượng tiếng nói là gì ?
Nâng cao chất lượng tiếng nói liên quan đến việc cải thiện cảm nhận đối với
tiếng nói bị suy giảm chất lượng do sự có mặt của nhiễu trong tiếng nói. Trong hầu hết
các ứng dụng, thì mục đích của nâng cao chất lượng tiếng nói là sự cải thiện chất
lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu. Sự cải thiện về chất
lượng mà tốt thì nó làm giảm đi sự khó khăn cho người nghe khi nghe và trong nhiều
trường hợp nó cịn giúp cho người nghe có thể nghe trong mơi trường có nhiễu với
mức độ cao và nhiễu đó tồn tại trong thời gian dài. Các thuật toán nâng cao chất lượng
tiếng nói làm giảm và nén nhiễu nền đến một mức độ nào đó và nó được xem như là
các thuật toán nén nhiễu.

Trong nhiều trường hợp, sự cần thiết của việc tăng cường trong tín hiệu tiếng nói
xuất hiện khi tín hiệu tiếng nói hình thành trong vùng có nhiễu hoặc ảnh hưởng bởi
nhiễu trong các kênh truyền thơng. Có rất nhiều kịch bản u cầu đặt ra đối với Speech
enhancement trong nhiều trường hợp khác nhau, ví dụ đối với thông tin thoại, trên các
hệ thống điện thoại tế bào thì chịu sự ảnh hưởng nhiễu nền từ ơ tơ, nhà hàng,.. khi
truyền đến đích. Chính vì vậy mà các thuật toán trong nâng cao chất lượng tiếng nói có
thể được sử dụng để cải thiện chất lượng của tiếng nói tại điểm thu, mặt khác, nó có
thể được sử dụng trong các khối tiền xử lý của hệ thống mã hố tiếng nói dùng trong
các điện thoại tế bào chuẩn. Khi nhận dạng tiếng nói, tiếng nói bị nhiễu được tiền xử lý
bởi các thuật tốn nâng cao chất lượng trước khi được nhận dạng. Trong thông tin liên
lạc hàng không, các kỹ thuật nâng cao tiếng nói cần được sử dụng để cải thiện chất
lượng và tính dễ nghe của tiếng nói của phi cơng bị ảnh hưởng bởi nhiễu trong buồng
lái. Vì vậy mà nâng cao chất lượng tiếng nói cũng rất cần thiết trong thông tin liên lạc
của quân sự. Trong hệ thống hội nghị qua thoại, thì nguồn nhiễu xuất hiện ở một vùng
nào đó thì nó sẽ được truyền đến tất cả các vùng khác. Các thuật toán nâng cao chất
SVTH: Lương Văn Phượng_CCVT03A

2


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

lượng tiếng nói được sử dụng như tiền xử lý hoặc làm sạch nhiễu trong tiếng trước khi
được khuếch đại.
Như các ví dụ minh họa ở trên thì mục tiêu của các thuật toán tăng cường tuỳ
thuộc vào các ứng dụng mà chúng ta đang dùng. Xét trên phương diện lý tưởng, thì
chúng ta mong muốn Speech enhancement cải thiện được cả chất lượng và tính dễ
nghe hay sự trong suốt của tiếng nói. Tuy nhiên, xét trên phương diện thực tế thì các
thuật tốn Speech enhancement chỉ có thể cải thiện được chất lượng của tiếng nói. Nó
có thể làm giảm được nhiễu nền trong tiếng nói nhưng nó sẽ làm gia tăng thêm độ méo

của tín hiệu tiếng nói, chính điều này làm giảm đi tính dễ nghe của tiếng nói. Do đó,
u cầu chính trong việc thiết kế một thuật toán Speech enhancement phải đảm bảo
nén được nhiễu và không được gây ra méo trong sự cảm nhận tín hiệu tiếng nói.
Giải pháp tổng qt trong các vẩn đề của Speech enhancement phụ thuộc rất lớn
vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu và giao thoa
gây ra nhiễu, mối liên hệ giữa nhiễu và tín hiệu sạch, số microphone và cảm biến có
thể có. Sự giao thoa có thể xem như là nhiễu hoặc được xem như tín hiệu tiếng nói, nó
tuỳ thuộc vào mơi trường ta đang xét, nó có thể được xem như là sự tranh chấp giữa
các speaker. Đặc tính âm nhiễu có thể được cộng thêm vào tín hiệu sạch nếu âm thanh
được hình thành trong căn phòng bị dội âm thanh. Hơn nữa, nhiễu có thể có tính tương
quan hoặc khơng tương quan về mặt thống kê với tín hiệu sạch. Số lượng microphone
cũng có khả năng ảnh hưởng đến tính hiệu quả của các thuật tốn Speech
enhancement.
1.3 Tín hiệu, hệ thống và xử lý tín hiệu
1.3.1 Tín hiệu
Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức. Về mặt tốn học,
ta có thể mơ tả tín hiệu như một hàm theo biến thời gian, không gian hay các biến độc
lập khác. Chẳng hạn như, hàm: x(t) = 20t2 mô tả tín hiệu biến thiên theo biến thời gian
t. Hay một ví dụ khác, hàm: s(x,y) = 3x + 5xy + y2 mơ tả tín hiệu là hàm theo hai biến
độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng.
Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng hàm
theo biến độc lập. Tuy nhiên, trong thực tế, các mối quan hệ giưa các đại lượng vật lý
và các biến độc lập thường rất phức tạp nên khơng thể biểu diễn tín hiệu như trong hai
ví dụ vừa nêu trên.
SVTH: Lương Văn Phượng_CCVT03A

3


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói


Hình 1.1 Tín hiệu tiếng nói.
Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất khơng khí theo thời
gian. Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó được biểu diễn như hình
trên.
1.3.2 Nguồn tín hiệu
Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào đó.
Ví dụ tín hiệu tiếng nói được tạo ra bằng cách ép không khí đi qua dây thanh âm. Một
bức ảnh có được bằng cách phơi sáng một tấm phim chụp một cảnh/đối tượng nào đó.
Q trình tạo tín hiệu như vậy thường liên quan đến một hệ thống, hệ thống này đáp
ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói, hệ thống là hệ thống phát âm,
gồm môi, răng, lưỡi, dây thanh…Kích thích liên quan đến hệ thống được gọi là nguồn
tín hiệu. Như vậy ta có nguồn tiếng nói, nguồn ảnh và các nguồn tín hiệu khác.
1.3.3 Hệ thống và xử lý tín hiệu
Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu. Ví dụ,
bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọi là một hệ thống. Khi ta
truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói rằng đã xử lý tín hiệu
đó. Trong trường này, xử lý tín hiệu liên quan đến lọc nhiễu ra khỏi tín hiệu mong
muốn.
Xử lý tín hiệu là ý muốn nói đến một loạt các cơng việc hay các phép tốn được
thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức chứa bên
trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác.
Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó khơng chỉ đơn thuần là thiết bị
vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự kết hợp giữa phần cứng và phần

SVTH: Lương Văn Phượng_CCVT03A

4



Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

mềm. Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây là phần cứng.
Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt các phép tốn thực
hiện bởi chương trình phần mềm. Khi xử lý bằng các bộ vi xử lý-hệ thống bao gồm kết
hợp cả phần cứng và phần mềm, mỗi phần thực hiện các công việc riêng nào đó.
1.3.4 Phân loại tín hiệu
Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt chẽ vào đặc
điểm của tín hiệu. Có những phương pháp riêng áp dụng cho một loại tín hiệu nào đó.
Do vậy, trước tiên ta cần xem qua cách phân loại tín hiệu liên quan đến những ứng
dụng cụ thể. Chúng ta có thể phân tín hiệu thành các loại :
- Tín hiệu nhiều hướng và tín hiệu đa kênh
- Tín hiệu liên tục và tín hiệu rời rạc
- Tín hiệu biên độ liên tục và tín hiệu biên độ rời rạc
- Tín hiệu xác định và tín hiệu ngẫu nhiên
1.4 Lý thuyết về nhiễu
1.4.1 Nguồn nhiễu
Nhiễu một hiện thực, nó tồn tại ở mọi nơi, trên đường phố, trên xe, trong văn
phịng, trong nhà hàng, trong các tồ nhà. Nó có thể là tiếng xe chạy trên đường, tiếng
ồn trên các công trường xây dựng, tiếng ồn phát ra từ các quạt chạy trong PC, chng
điện thoại…, nó tồn tại với các hình dạng và hình thức khác nhau trong cuộc sống
hằng ngày của chúng ta.
Nhiễu có thể hình thành ở một nơi cố định, và không thay đổi theo thời gian, ví
dụ như là tiếng ồn phát ra từ quạt chạy trong PC. Nhiễu cũng có thể khơng đứng yên
một chỗ, ví dụ như nhiễu trong nhà hàng, đó là tiếng nói của nhiều người xen lẫn với
nhiều cách khác nhau với tiếng ồn phát ra từ nhà bếp. Các đặc tính về phổ cũng như
thời gian của nhiễu trong nhà hàng thay đổi không theo quy luật nên việc nén nhiễu
trong các mơi trường có nhiễu thay đổi như vậy sẽ khó khăn hơn nhiều so với các
nguồn nhiễu đứng yên không thay đổi.
Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ và sự

phân bố của năng lượng nhiễu trong miền tần số. Ví dụ, nhiễu gây ra bởi gió thì năng
lượng của nó tập trung ở tần số thấp dưới 500Hz. Nhưng đối với nhiễu trong nhà hàng,
trên xe, trên tàu thì khác, năng lượng của nó được phân bố trên một dải tần số rộng.

SVTH: Lương Văn Phượng_CCVT03A

5


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe.

Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu.

SVTH: Lương Văn Phượng_CCVT03A

6


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà
hàng.
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các mơi trường khác nhau
Điểm tới hạn trong việc thiết kế các thuật toán của Speech enhancement là sự
nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi trường thực
tế. Từ đó, chúng ta có thể mơ tả miền biến thiên của mức độ tỷ số tín hiệu trên
nhiễu(SNR) được bắt gặp trong môi trường thực tế. Điều này rất quan trọng để đánh
giá tính hiệu quả của các thuật toán Speech enhancement trong việc nén nhiễu và cải

thiện chất lượng của tiếng nói trong dải biến thiên của mức SNR.
Mức độ của tiếng nói và nhiễu được đo lường bằng mức độ âm thanh. Phép đo
lường ở đây là đo mức độ áp suất của âm thanh tính bằng dB SPL(sound pressure
level). Khoảng cách giữa người nói và người nghe cũng ảnh hưởng đến mức cường độ
âm thanh, nó tương ứng với phép đo được thực hiện khi microphone được đặt tại
những vị trí có khoảng cách khác nhau. Khoảng cách đặc trưng trong giao tiếp face-toface là 1m, khi khoảng cách đó tăng gấp đơi thì mức cường độ âm giảm đi 6 dB.
Hình bên dưới này là sự tổng hợp về mức độ âm trung bình giữa tiếng nói và
nhiễu trong các mơi trường khác nhau. Mức độ của nhiễu nhỏ nhất ở trong các môi
trường như phòng học, trong nhà ở, trong bệnh viện và trong các tồ nhà. Trong các
mơi trường khác nhau, thì mức độ âm của nhiễu nằm trong phạm vi biến thiên từ 50
đến 55 dB SPL, và mức độ âm của tiếng nói là 60 đến 70 dB SPL. Và khuyến nghị đưa
SVTH: Lương Văn Phượng_CCVT03A

7


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

ra là mức tỷ số SNR có hiệu quả trong các môi trường này là 5 đến 15 dB. Mức độ âm
của nhiễu rất cao trong các môi trường ở tàu điện ngầm, ở trên máy bay, nó đạt khoảng
70 đến 75 dB SPL. Và mức độ âm của tiếng nói trong các mơi trường này cũng đạt
mức đó, nên mức tỷ số SNR trong các môi trường này gần như là 0 dB.

Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác
nhau.
1.5 Tín hiệu rời rạc theo thời gian
Tín hiệu rời rạc theo thời gian x(n) có thể tạo ra bằng cách lấy mẫu tín hiệu liên
tục theo thời gian xa(t) với chu kỳ lấy mẫu là Ts (tần số lấy mẫu Fs = 1/ T). Ta có
xa(t)|t=nT = xa(nT) = x(n) , -∞ < n< ∞


(1.1)

Lưu ý n là biến nguyên, x(n) là hàm theo biến nguyên, chỉ định tại các giá trị n
ngun. Khi n khơng ngun, thì x(n) khơng xác định, chứ không phải bằng 0. Trong
nhiều sách về xử lý tín hiệu số, người ta quy ước: khi biến ngun thì biến được đặt
trong dấu ngoặc vng và khi biến liên tục thì được đặt trong dấu ngoặc trịn. Từ đây
trở đi, ta ký hiệu tín hiệu rời rạc là: x[n].
Một số tín hiệu rời rạc cơ bản
1.5.1 Tín hiệu bước nhảy đơn vị
1, n  0
2, n  0

u[n] = 

(1.2)

Tín hiệu bước nhảy dịch chuyển có dạng sau:
1, n  no
0, n  no

u[n - no] = 

SVTH: Lương Văn Phượng_CCVT03A

(1.3)

8


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói


1.5.2 Tín hiệu xung đơn vị
1, n  0
0, n  0

 [n]

(1.4)

Tín hiệu xung dịch chuyển có dạng sau
1, n  no
0, n  no

 [n no]  

(1.5)

Chúng ta có thể biểu diễn tín hiệu rời rạc theo thời gian x[n] thơng qua tín hiệu
xung đơn vị như sau


x[n] =

 x[k ] [n  k ]

(1.6)

k  

1.5.3 Tín hiệu hàm mũ

x[n] = C.an (C,a : là những hằng số)

(1.7)

Tín hiệu hàm mũ phía phải : x[n] = C.an.u[n]
Tín hiệu hàm mũ phía trái : x[n] = C.an.u[-n]
1.5.4 Tín hiệu hàm sin rời rạc
x[n]  A cos( 2fn   )

  n  

(1.8)

A : là biên độ của tín hiệu sin
 : pha ban đầu của tín hiệu sin

f : tần số số, f =

F
, F : là tần số của tín hiệu, Fs : tần số lấy mẫu
Fs

-0.5 < f < 0.5
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT
Phép biến đổi này áp dụng để phân tích cho cả tín hiệu và hệ thống. Nó được
dùng trong trường hợp dãy rời rạc dài vơ hạn và khơng tuần hồn.
DTFT : X () 




 x[n]e

 jn

(1.9)

n  

Ta nhận xét thấy rằng tuy tín hiệu rời rạc trong miền thời gian nhưng DTFT lại
liên tục và tuần hồn trong miền tần số.
DTFT chính là hàm phức theo biến tần số thực. Ta gọi DTFT là phổ phức
(complex spectrum) hay ngắn gọn là phổ của tín hiệu rời rạc x[n].

SVTH: Lương Văn Phượng_CCVT03A

9


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

1.6.1 Sự hội tụ của phép biến đổi Fourier
Khơng phải là tất cả DTFT đều tồn tại (hội tụ) vì DTFT chỉ hội tụ khi


 x[n]e

 jn




(1.10)

n  



 x[n]e  jn 

n  





n  


 x[n]e

 jn

n  

Như vậy, nếu x[n] thoả điều kiện

 x[n]e

n  

 x[n]e  jn 


Ta ln ln có :





 jn

| x[n] || e

 jn

|

(1.11)

n  


| x[n] |

n  



 | x[n] | <  thì biến đổi Fourier hội tụ.

n  


1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier
X ( z) 

Biểu thức tính ZT là:



 x[n]z

n

(1.12)

n  

Giả sử ROC có chứa đường trịn đơn vị. Tính X(Z) trên đường tròn đơn vị, ta
được


X ( z)

z e

j

  x[n]e  jn  X ()

(1.13)

n  


Như vậy, biến đổi Fourier chính là biến đổi Z tính trên đường trịn đơn vị. Dựa
vào đây, ta có thể phát biểu lại điều kiện tồn tại của DTFT như sau :
Biến đổi Fourier của một tín hiệu chỉ tồn tại khi ROC của biến Z của tín hiệu đó
có chứa đường tròn đơn vị.
1.6.3 Phép biến đổi Fourier ngược
- Biểu thức tính biến đổi Fourier ngược
Ta thấy X(  ) là một hàm tuần hoàn với chu kỳ 2 , do e j tuần hoàn với chu kỳ
2
e j   e j (   2  )  e j  e j 2   e j

(1.14)

Do đó dải tần số của tín hiệu rời rạc là một dải tần bất kỳ rộng 2  , thường chọn
là: ( ,  ) hay (0,2  ).
Vậy ta có thể khai triển X(  ) thành chuỗi Fourier trong khoảng
(   ,  ) hay (0,2 ) nếu điều kiện tồn tại của X(  ) thoả mãn. Các hệ số Fourier là x[n],
ta có thể tính được x[n] từ X(  ) theo cách sau:
SVTH: Lương Văn Phượng_CCVT03A

10


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

Nhân 2 vế của biểu thức DTFT với

1 jl
e
2


rồi lấy tích phân trong khoảng

(   ,  ) tacó
1
2



jl
 X ()e d 



1
2




 1
 
 jn  jl
x
[
n
]
e
e
d



x[n]


 n
 
n  

 2



 e

j ( l  n )




d  x[l ] (1.15)


Thay l = n và thay cận tích phân, khơng nhất thiết phải là (   ,  ) mà chỉ cần
khoảng giữa cân trên và dưới là 2  , ta được biểu thức tính biến đổi Fourier ngược
(IDTFT) như sau
x[n] 

1
2


 X ()e

j n

d

(1.16)

2

Ta có thể tính IDFT bằng hai cách : một là tính trực tiếp tích phân trên, hai là
chuyển về biến đổi Z rồi tính như biến đổi Z ngược. Tuỳ vào từng trường hợp cụ thể
mà ta chọn phương pháp nào cho thuận tiện.
1.6.4 Các tính chất của phép biến đổi Fourier
Tính tuyến tính:

ax1[n]  bx2 [n]  aX1 ()  bX 2 ()

(1.17)

Tính dịch thời gian:
x[n]  X ()

(1.18)

x[n  n0 ]  e  jn0 X ()

Qua đây ta thấy sự dịch chuyển tín hiệu trong miền thời gian sẽ không ảnh hưởng
biên độ của DTFT, tuy nhiên pha được thêm một lượng.

Tính dịch tần số / điều chế
x[n]  X ()
e

j 0 n

x[n]  X (   0 )

cos(  0 n) x[n] 

(1.19)

1
1
x (   0 )  X (   0 )
2
2

Như vây, việc điều chế gây ra dịch tần số.
Tính chập thời gian :
Tương tự như biến đổi Z, với biến đổi Fourier ta cũng có:
F
x1[n] * x2 [n] 
X 1 () X 2 ()

Tính nhân thời gian:

SVTH: Lương Văn Phượng_CCVT03A

x1[n].x2 [n] 


1
2

 X ( ) X
1

2

(   )d

(1.20)
(1.21)

2

11


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc
Trong miền tần số, mỗi tín hiệu đều có một đặc điểm riêng của nó. Ví dụ như, tín
hiệu sin chỉ có duy nhất một tần số đơn, trong khi nhiễu trắng chứa tất cả các thành
phần tần số. Sự biến thiên chậm của tín hiệu là do tần số thấp, trong khi sự biến thiến
nhanh và những xung nhọn là do tần số cao. Như xung vuông chẳng hạn, nó chứa tất
cả tần số và cả tần số cao.
Phổ của tín hiệu là mơ tả chi tiết các thành phần tần số chứa bên trong tín hiệu.
Ví dụ như tín hiệu xung vng, phổ của nó chỉ ra tất cả các đỉnh nhọn của các sóng sin
riêng có thể kết hợp lại hợp với nhau tạo ra xung vuông. Thơng tin này quan trọng vì

nhiều lý do. Ví dụ, thành phần tần số trong một mẫu nhạc chỉ cho ta biết các đặc trưng
của loa, để từ đó khi sản xuất ta lại có cải tiến cho hay hơn. Để dự đốn các ảnh hưởng
của bộ lọc trên tín hiệu, cần phải biết không chỉ bản chất của bộ lọc mà cịn phải biết
cả phổ của tín hiệu nữa.
1.6.6 Phổ biên độ và phổ pha
Phổ của tín hiệu gồm hai phần: phổ biên độ (magnitude spectrum) và phổ pha
(phase spectrum). Phổ biên độ chỉ ra độ lớn của từng thành phần tần số. Phổ pha chỉ
quan hệ pha giữa các thành phần tần số khác nhau. Công cụ để tính phổ tín hiệu rời rạc
khơng tuần hồn là DTFT.
Để tính phổ tín hiệu , ta qua hai bước : một là tính DTFT của tín hiệu – là
X(  ), hai là tính biên độ và pha của X(  )
X (  )  X (  ) e j (  )

(1.22)

ở đây |X(  )| là phổ biên độ và  (  ) là phổ pha.
Ta dễ dàng chứng minh được rằng đối với tín hiệu thực, phổ biên độ là một hàm
chẵn theo tần số  và phổ pha là một hàm lẻ theo  .
Do đó, nếu biết phổ X(  ) trong khoảng 0 đến  , ta có thể suy ra phổ trong tồn
dải tần số. Để dễ giải thích phổ, tần số số  từ 0 đến  thường được chuyển đổi thành
tần số tương tự từ 0 đến fs/2 nếu tần số lấy mẫu là fs.

SVTH: Lương Văn Phượng_CCVT03A

12


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz.

1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói
1.7.1 Trừ phổ
Spectral-subtraction (SS) hay cịn gọi là trừ phổ là một thuật tốn giảm nhiễu
đơn giản nhất. Nó dựa trên nguyên lý cơ bản là nó sẽ mơ tả và cập nhật nhiễu trong tín
hiệu có nhiễu bằng cách thu nhiễu khi khơng có sự hiện diện của tín hiệu. Và nhiễu đó
sẽ được trừ với tín hiệu có nhiễu, kết quả là tín hiệu của chúng ta sau khi xử lý bằng
thuật toán này sẽ được loại đi nhiễu và xét trên phương diện lý tưởng thì nó là tín hiệu
sạch. SS lúc ban đầu được đề xuất bởi Weiss trong miền tương quan, và sau đó được
đề xuất bởi Boll trong miền chuyển đổi Fourier.
1.7.2 Mơ hình thống kê
Vấn đề của nâng cao chất lượng tiếng nói là phải đề ra được khung mơ tả mang
tính thống kê. Nó là một tập các phép đo tương ứng với hệ chuyển đổi Fourier của tín
hiệu nhiễu, và chúng ta mong muốn sẽ tìm ra được một phương thức ước lượng tuyến
tính hoặc phi tuyến các tham số có lợi, đó là hệ chuyển đổi của tín hiệu sạch. Hai thuật
tốn được sử dụng đó là thuật tốn Wiener và minium mean-squared error(MMSE).
1.8 Tín hiệu tiếng nói
Tín hiệu tiếng nói là tín hiệu liên tục và có phổ năng lượng thay đổi theo thời
gian. Tuy nhiên khi khảo sát trong một khoảng thời gian đủ ngắn (khoảng 10 đến 30
ms) thì đặc tính phổ của nó coi như khơng thay đổi.

SVTH: Lương Văn Phượng_CCVT03A

13


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và
dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er”
trong từ “her”.

Dạng sóng của tín hiệu có thể được chia thành một số phân đoạn tương ứng với
các âm/từ. Trong ví dụ trên ta thấy một số phân đoạn có dạng sóng gần như tuần hồn
cịn số khác thì khơng có tính tuần hồn và bị nhiễu
Những kiểu của đoạn tiếng nói, chu kỳ, nhiễu, khoảng lặng… thường được tìm
thấy trong tiếng nói trơi chảy với sự thay đổi về cường độ, khoảng thời gian và đặc
tính phổ.

SVTH: Lương Văn Phượng_CCVT03A

14


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

1.9 Cơ chế tạo tiếng nói
1.9.1 Bộ máy phát âm của con người

1. Hốc mũi
2. Vòm miệng trên
3. Ổ răng
4. Vòm miệng mềm
5. Đầu lưỡi
6. Thân lưỡi
7. Lưỡi gà
8. Cơ miệng
9. Yết hầu
10.Nắp đóng của thanh quản
11. Dây thanh giả
12. Dây thanh
13. Thanh quản

14. Thực quản
Hình 1.8 Mặt cắt dọc của cơ quan tạo tiếng nói.

SVTH: Lương Văn Phượng_CCVT03A

15


Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

1.9.2 Mơ hình kỹ thuật của việc tạo tiếng nói

Hình 1.9 Mơ hình kỹ thuật tạo tiếng nói.
1.9.3 Phân loại âm
Các âm trong tiếng Anh được phân loại gồm: nguyên âm và nguyên âm đôi, bán
nguyên âm, âm mũi, âm stops, fricative, africatives, whisper.

Hình 1.10 Bảng phân loại âm vị trong tiếng Anh của người Mỹ.
1.9.4 Thuộc tính âm học của tiếng nói
Tín hiệu tiếng nói là tín hiệu tương tự, biểu diễn cho thông tin về mặt ngôn ngữ
và được thể hiện bằng các âm vị khác nhau. Số lượng các âm vị tuỳ thuộc vào từng
ngôn ngữ, vào khoảng 20 đến 30 và không vượt quá 50. Đối với từng loại âm vị nó có
đặc tính âm thanh khác nhau.Tổ hợp các âm vị tạo nên âm tiết. Âm tiết đóng vai trị
một từ trọn vẹn mang ngữ nghĩa.

SVTH: Lương Văn Phượng_CCVT03A

16



Tìm hiểu thuật tốn trừ phổ trong xử lý tiếng nói

1.10

Kết luận chương
Chương này đã trình bày được mục đích chính của speech enhancement là triệt

nhiễu hoặc là nén nhiễu trong tín hiệu tiếng nói đã bị nhiễu. Ngồi ra, nội dung của
chương cũng đã nêu rõ được các loại nhiễu xuất hiện trong từng môi trường cụ thể để
từ đó chúng ta có tìm ra được thuật tốn xử lý thích hợp ứng với mỗi trường hợp cụ
thể.

SVTH: Lương Văn Phượng_CCVT03A

17


×