thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.25 MB, 92 trang )

Đồ án tốt nghiệp PDF by http://www

.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệp Trang 1

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
LỜI CAM ĐOAN
Kính g ửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử _ Viễn thông _
Trường Đại học Bách Khoa Đà Nẵng.
Em tên là: Nguyễn Thị Ngọc Diệp
Hiện đang học lớp 04ĐT1- Khoa: Điện tử - Viễn thông – Trường: Đại học
Bách Khoa Đà Nẵng.
Nhóm em xin cam đoan nội dung của đồ án này không phải là bản sao chép
của bất cứ đồ án hoặc công trình đã có từ trước.
Sinh viên thực hiện
Nguyễn Thị Ngọc Diệp

SVTH: Nguyễn Thị Ngọc Diệp Trang 2
Đồ án tốt nghiệp PDF by http://www

.ebook.edu.vn

MỤC LỤC
LỜI CAM ĐOAN 1
MỤC LỤC 2
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH 8
MỞ ĐẦU 10
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 13
1.1 Giới thiệu chương 13
1.2 Nâng cao chất lượng tiếng nói là gì ? 13

1.3 Lý thuyết về tín hiệu và nhiễu 15
1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu 15
1.3.1.1 Tín hiệu 15
1.3.1.2 Nguồn tín hiệu 15
1.3.1.3 Hệ thống và xử lý tín hiệu 16
1.3.1.4 Phân loại tín hiệu 16
1.4 Lý thuyết về nhiễu 17
1.4.1 Nguồn nhiễu 17
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau 19
1.5 Tín hiệu rời rạc theo thời gian 20
1.5.1 Tín hiệu bước nhảy đơn vị 21
1.5.2 Tín hiệu xung đơn vị 21
1.5.3 Tín hiệu hàm mũ 21
1.5.4 Tín hiệu hàm sin rời rạc 21
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT 22
1.6.1 Sự hội tụ của phép biến đổi Fourier 22

SVTH: Nguyễn Thị Ngọc Diệp Trang 3
Đồ án tốt nghiệp PDF by http://www

.ebook.edu.vn

1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier 22
1.6.3 Phép biến đổi Fourier ngược 23
1.6.4 Các tính chất của phép biến đổi Fourier 23
1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc 24
1.6.6 Phổ tín hiệu và phổ pha 25
1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói 26
1.7.1 Trừ phổ 26
1.7.2 Mô hình thống kê 26

1.8 Tín hiệu tiếng nói 26
1.9 Cơ chế tạo tiếng nói 28
1.9.1.1 Bộ máy phát âm của con người 28
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói 28
1.9.3 Phân loại âm 29
1.9.4 Thuộc tính âm học của tiếng nói 29
1.10 Kết luận chương 29
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 30
2.1 Giới thiệu chương 30
2.2 Phương pháp đánh giá chủ quan 30
2.2.1 Các phương pháp đánh giá tuyệt đối 31
2.2.1.1 Phương pháp đánh giá tuyệt đối ACR 31
2.2.2 Các phương pháp đánh giá tương đối 31
2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu 31
2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng 32
2.3 Phương pháp đánh giá khách quan 33

SVTH: Nguyễn Thị Ngọc Diệp Trang 4
Đồ án tốt nghiệp PDF by http://www

.ebook.edu.vn

2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung 33
2.3.2 Đo khoảng cách phổ dựa trên LPC 35
2.3.2.1 Phương pháp đo LLR 35
2.3.2.2 Phương pháp đo IS 36
2.3.2.3 Phương pháp đo theo khoảng cách cepstrum 36
2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con người 37
2.3.3.1 Phương pháp đo Weighted Spectral Slope 37
2.3.3.2 Phương pháp đo Bark Distortion 38

2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ 39
2.4 Kết luận chương 39
CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER
FILTERING 41
3.1 Giới thiệu chương 41
3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering 41
3.3 Thuật toán Spectral Subtraction 41
3.3.1 Giới thiệu chung 41
3.3.2 Spectral subtraction đối với phổ biên độ 42
3.3.3 Spectral subtraction đối với phổ công suất 43
3.4 Thuật toán Wiener Filtering 45
3.4.1 Giới thiệu chung 45
3.4.2 Nguyên lý cơ bản của Wiener Filtering 46
3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói 48
3.5.1 Phân tích tín hiệu theo từng frame 48
3.5.2 Overlap và Adding 49

SVTH: Nguyễn Thị Ngọc Diệp Trang 5
Đồ án tốt nghiệp PDF by http://www

.ebook.edu.vn

3.6 Ước lượng và cập nhật nhiễu 50
3.6.1 Voice activity detection 51
3.6.2 Quá trình ước lượng và cập nhật nhiễu 51
3.7 Kết luận chương 52
CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 53
4.1 Giới thiệu chương 53
4.2 Quy trình thực hiện và đánh giá thuật toán 53
4.3 Lưu đồ thuật toán Spectral Subtraction 55

4.4 Lưu đồ thuật toán Wiener Filtering 56
4.5 Thực hiện thuật toán 57
4.6 Đánh giá chất lượng tiếng nói đã được xử lý 59
4.6.1 Cơ sở dữ liệu cho việc đánh giá 59
4.6.2 Tổng quan về quy trình đánh giá 59
4.6.3 Kiểm tra độ tin cậy của các phương pháp đánh giá 60
4.6.4 Thực hiện đánh giá 62
4.6.4.1 Đánh giá thuật toán với các hệ số dự đoán ban đầu 62
4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF 65
4.6.4.3 Hệ số gamma cho thuật toán SS 67
4.6.4.4 Đánh giá thuật toán sau khi đã tối ưu 68
4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi trường nhiễu khác 69
4.6.5 Kết luận chương 71
TÀI LIỆU THAM KHẢO 72
KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 75
PHỤ LỤC 76

SVTH: Nguyễn Thị Ngọc Diệp Trang 6
Đồ án tốt nghiệp PDF by http://www

.ebook.edu.vn

DANH

MỤC

CÁC

HÌNH

VẼ

VÀ

BẢNG
Hình 1.1 Tín hiệu tiếng nói [2]. 15
Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4] 18
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [4].
18
Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà
hàng[4]. 19
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường
khác nhau [4]. 20
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11]. 25
Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và
dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er”
trong từ “her” [11] 27
Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11] 28
Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11]. 28
Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11] 29
Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12] 31
Bảng 2.4. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR 32
Bảng 2.5. Thang đánh giá DCR 32
Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF 41
Hình 3.2 Sơ đồ khối của thuật toán Spectral subtraction [26]. 45
Hình 3.3 Sơ đồ khối của thuật toán Wiener Filtering. 48
Hình 3.4 Phân tích tín hiệu thành các frame [31] 49
Hình 3.5 quá trình thực hiện overlap và adding [32]. 50
Hình 4.1. Sơ đồ thực hiện và đánh giá thuật toán tăng cường 53
Hình 4.2 Lưu đồ thuật toán SS 55

Hình 4.3 Lưu đồ thuật toán WF 56
Hình 4.4 dạng sóng và spectrogram của tín hiệu sạch 57
Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB 57

SVTH: Nguyễn Thị Ngọc Diệp Trang 7
Đồ án tốt nghiệp PDF by http://www

.ebook.edu.vn

Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng
SS với SNR = 10dB. 58
Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng
WF với SNR = 10dB. 58
Hình 4.8 Quy trình thực hiện đánh giá 60
Hình 4.9. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu xe hơi 61
Hình 4.10. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu người nói
xung quanh 61
Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 63
Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2 64
Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và
NoiseMargin = 2 66
Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2. 67
Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật
toán WF, gama=1 cho thuật toán SS 69
Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh. 70

SVTH: Nguyễn Thị Ngọc Diệp Trang 8
Đồ án tốt nghiệp PDF by http://www

.ebook.edu.vn

DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG
ANH
Từ viết
tắt
Tiếng Anh Nghĩa tiếng Việt
SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu
PC Personal Computer Máy tính cá nhân
SPL Sound Pressure Level Mức áp suất của âm thanh
MMSE Minium Mean-Squared Error
Tối thiểu hoá sai lệch trung
bình bình phương
SVD Singular Value Decomposition Phép phân tích giá trị đơn
DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc
FFT Fast Fourier Transform Phép biến đổi Fourier nhanh
DTFT Discrete-Time Fourier Transform
Phép biến đổi Fourier của tín
hiệu rời rạc.
ZT Z Transform Phép biến đổi Z
ROC Region of Convergence Miền hội tụ
IDTFT
Inverse Discrete Fourier
Transform
Phép biến đổi ngược Fourier
rời rạc
LTI Linear Time-Invariant
Hệ thống tuyến tính và bất
biến theo thời gian
ITU-T
InternationalTelecommunications

Union-Telecommunication
Hiệp hội tiêu chuẩn viễn
thông quốc tế
ACR Absolute Categories Rating Đánh giá theo giá trị tuyệt đối
MOS Mean Opinion Scores
Đánh giá theo quan điểm
người nghe
CCR Comparison Category Rating Đánh giá bằng cách so sánh
DCR Degradation Category Rating Đánh giá suy giảm chất lượng

SVTH: Nguyễn Thị Ngọc Diệp Trang 9
Đồ án tốt nghiệp PDF by http://www

.ebook.edu.vn

SE Subjective Evaluation Đánh giá chủ quan
OE Objective Evaluation Đánh giá khách quan
IS Itakura_Saito
LLR Log likehook Raito
WSS Weighted Spectral Slope Đo theo trọng số của phổ
LPC Linear Prediction Coefficients Hệ số dự đoán tuyến tính
VAD Voice Activity Detection
Thăm dò sự hoạt động của
tiếng nói
Speech Enhancement Nâng cao chất lượng tiếng nói
SS Spectral Subtraction
Thuật toán giảm nhiễu tín
hiệu tiếng nói bằng phương
pháp trừ phổ.
WF Wiener Filter

Thuật toán giảm nhiễu tín
hiệu tiếng nói bằng cách sử
dụng bộ lọc Wiener.
Statistical-model-based
Thuật toán giảm nhiễu tín
hiệu tiếng nói dựa trên
nguyên lý thống kê
Frame
Khung tín hiệu.
Hamming Cửa sổ Hamming
Overlap và Adding Xếp chồng và cộng

SVTH: Nguyễn Thị Ngọc Diệp Trang 10
Đồ án tốt nghiệp PDF by http://www

.ebook.edu.vn

MỞ ĐẦU
Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với
con người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại
như ngày nay. Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ
này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh
hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu. Vì lý do
đó mà các thuật toán về Speech Enhancement ra đời. Tuy không thể bảo toàn
được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể
tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau
khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó
chịu bởi nhiễu đối với người nghe. Vì vậy, Speech Enhancement đóng một vai
trò rất quan trọng trong lĩnh vực thoại.
Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về Speech

Enhancement, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệu
quả của các thuật toán đó trong môi trường thực tế.
Để thực hiện được đồ án, nhóm đã phân chia thành 3 phần tương ứng với 3
thành viên :
- Nguyễn Ngọc Trung : nghiên cứu và thực hiện thuật toán xử lý tiếng nói
sử dụng phương pháp Spectral Subtraction.
- Nguyễn Phúc Nguyên : nghiên cứu và thực hiện thuật xử lý tiếng nói sử
dụng bộ lọc Wiener.
- Nguyễn Thị Ngọc Diệp : nghiên cứu và thực hiện các phương pháp đánh
giá từ các kết quả đạt được của 2 thuật toán trên trong môi trường thực tế.
Để thực hiện được nội dung phần của em thì đồ án của em được kết cấu
thành 2 phần, gồm 5 chương :
Phần 1 : Lý thuyết
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói. Chương này giới
thiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các

SVTH: Nguyễn Thị Ngọc Diệp Trang 11
Đồ án tốt nghiệp PDF by http://www

.ebook.edu.vn

loại nhiễu , tín hiệu tiếng nói và sự hình thành tiếng nói. Bên cạnh đó còn giới
thiệu khái quát về một số thuật toán trong Speech Enhancement .
Chương 2 : Đánh giá chất lượng tiếng nói. Chương này giới thiệu một số
phương pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói. Gồm
có đánh giá chủ quan và đánh giá khách quan.
Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chương
này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán.
Phần 2 : Thực hiện và đánh giá
Chương 4 : Thực hiện và đánh giá thuật toán. Chương này trình bày các kết

quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai
thuật toán đã nghiên cứu ở chương 3. Đồng thời so sánh kết quả thu được bằng
cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2
Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực
hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi
xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính
hiệu quả của các thuật toán xử lý trong môi trường thực tế.
Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trong
Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở
để đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điểm mới trong đồ án
của nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu.

SVTH: Nguyễn Thị Ngọc Diệp Trang 12
Đồ án tốt nghiệp PDF by http://www

.ebook.edu.vn

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệp Trang 13

CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
1.1 Giới thiệu chương
Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếng nói
là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các
đặc điểm cuả tín hiệu tiếng nói. Chương này còn giới thiệu khái quát về các
thuật toán sử dụng trong speech enhancement.
1.2 Nâng cao chất lượng tiếng nói là gì ?
Nâng cao chất lượng tiếng nói liên quan đến việc cải thiện cảm nhận đối với
tiếng nói bị suy giảm chất lượng do sự có mặt của nhiễu trong tiếng nói. Trong

hầu hết các ứng dụng, thì mục đích của nâng cao chất lượng tiếng nói là sự cải
thiện chất lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu. Sự cải
thiện về chất lượng mà tốt thì nó làm giảm đi sự khó khăn cho người nghe khi
nghe và trong nhiều trường hợp nó còn giúp cho người nghe có thể nghe trong
môi trường có nhiễu với mức độ cao và nhiễu đó tồn tại trong thời gian dài. Các
thuật toán âng cao chất lượng tiếng nói làm giảm và nén nhiễu nền đến một mức
độ nào đó và nó được xem như là các thuật toán nén nhiễu.
Trong nhiều trường hợp, sự cần thiết của việc tăng cường trong tín
hiệu tiếng nói xuất hiện khi tín hiệu tiếng nói hình thành trong vùng có nhiễu
hoặc ảnh hưởng bởi nhiễu trong các kênh truyền thông. Có rất nhiều kịch bản
yêu cầu đặt
ra đối với Speech enhancement trong nhiều trường hợp khác nhau, ví dụ đối với
thông tin thoại, trên các hệ thống điện thoại tế bào thì chịu sự ảnh hưởng nhiễu
nền từ ô tô, nhà hàng, khi truyền đến đích. Chính vì vậy mà các thuật toán trong
nâng cao chất lượng tiếng nói có thể được sử dụng để cải thiện chất lượng của
tiếng nói tại điểm thu, mặt khác, nó có thể được sử dụng trong các khối tiền xử lý
của hệ thống mã hoá tiếng nói dùng trong các điện thoại tế bào chuẩn [1]. Khi
nhận dạng tiếng nói, tiếng nói bị nhiễu được tiền xử lý bởi các thuật toán nâng
cao chất lượng trước khi được nhận dạng. Trong thông tin liên lạc hàng không,
các kỹ thuật nâng cao tiếng nói cần được sử dụng để cải thiện chất lượng và tính

SVTH: Nguyễn Thị Ngọc Diệp Trang 14
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

dễ nghe của tiếng nói của phi công bị ảnh hưởng bởi nhiễu trong buồng lái. Vì
vậy mà nâng cao chất lượng tiếng nói cũng rất cần thiết trong thông tin liên lạc
của quân sự. Trong hệ thống hội nghị qua thoại, thì nguồn nhiễu xuất hiện ở một
vùng nào đó thì nó sẽ được truyền đến tất cả các vùng khác. Các thuật toán nâng
cao chất lượng tiếng nói được sử dụng như tiền xử lý hoặc làm sạch nhiễu trong
tiếng trước khi được khuếch đại.

Như các ví dụ minh họa ở trên thì mục tiêu của các thuật toán tăng cường
tuỳ thuộc vào các ứng dụng mà chúng ta đang dùng. Xét trên phương
diện lý tưởng, thì chúng ta mong muốn Speech enhancement cải thiện
được cả chất lượng và tính dễ nghe hay sự trong suốt của tiếng nói. Tuy nhiên,
xét trên phương diện thực tế thì các thuật toán Speech enhancement chỉ có thể cải
thiện được chất lượng của tiếng nói. Nó có thể làm giảm được nhiễu nền trong
tiếng nói nhưng
nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này làm giảm
đi tính dễ nghe của tiếng nói. Do đó, yêu cầu chính trong việc thiết kế một thuật
toán Speech enhancement phải đảm bảo nén được nhiễu và không được gây ra
méo trong sự cảm nhận tín hiệu tiếng nói.
Giải pháp tổng quát trong các vẩn đề của Speech enhancement phụ thuộc
rất lớn vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu
và giao thoa gây ra nhiễu, mối liên hệ giữa nhiễu và tín hiệu sạch, số microphone
và cảm biến có thể có. Sự giao thoa có thể xem như là nhiễu hoặc được xem như
tín hiệu tiếng nói, nó tuỳ thuộc vào môi trường ta đang xét, nó có thể được xem
như là sự tranh chấp giữa các speaker. Đặc tính âm nhiễu có thể được cộng thêm
vào tín hiệu sạch nếu âm thanh được hình thành trong căn phòng bị dội âm thanh.
Hơn nữa, nhiễu có thể có tính tương quan hoặc không tương quan về mặt thống
kê với tín hiệu sạch. Số lượng microphone cũng có khả năng ảnh hưởng đến tính
hiệu quả của các thuật toán Speech enhancement.

SVTH: Nguyễn Thị Ngọc Diệp Trang 15
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

1.3 Lý thuyết về tín hiệu và nhiễu
1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu
1.3.1.1
Tín hiệu
Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức. Về mặt toán

học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các
biến độc lập khác. Chẳng hạn như, hàm: x(t) = 20t
2
mô tả tín hiệu biến thiên theo
biến thời gian t. Hay một ví dụ khác, hàm: s(x,y) = 3x + 5xy + y
2
mô tả tín hiệu
là hàm theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong
mặt phẳng [2].
Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng
hàm theo biến độc lập. Tuy nhiên, trong thực tế, các mối quan hệ giưa các đại
lượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín
hiệu như trong hai ví dụ vừa nêu trên.
Hình 1.1 Tín hiệu tiếng nói [2].
Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo
thời gian. Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó được biểu diễn
như hình trên.
1.3.1.2
Nguồn tín hiệu
Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào
đó. Ví dụ tín hiệu tiếng nói được tạo ra băngg cách ép không khí đi qua dây thanh

SVTH: Nguyễn Thị Ngọc Diệp Trang 16
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

âm. Một bức ảnh có được bằng cách phơi sáng một tấm phim chụp một cảnh/đối
tượng nào đó. Quá trình tạo tín hiệu như vậy thường liên quan đến một hệ thống,
hệ thống này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng
nói, hệ thống là hệ thống phát âm, gồm môi, răng, lưỡi, dây thanh…Kích thích
liên quan đến hệ thống được gọi là nguồn tín hiệu. Như vậy ta có nguồn tiếng

nói, nguồn ảnh và các nguồn tín hiệu khác.
1.3.1.3
Hệ thống và xử lý tín hiệu
Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu.
Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọi là một
hệ
thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói rằng
đã xử lý tín hiệu đó. Trong trường này, xử lý tín hiệu liên quan đến lọc nhiễu ra
khỏi tín hiệu mong muốn.
Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán
được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức
chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác.
Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó không chỉ đơn thuần là thiết
bị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự kết hợp giữa phần cứng và
phần mềm. Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây là
phần cứng. Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt
các phép toán thực hiện bởi chương trình phần mềm. Khi xử lý bằng các bộ vi xử
lý-hệ thống bao gồm kết hợp cả phần cứng và phần mềm, mỗi phần thực hiện các
công việc riêng nào đó.
1.3.1.4
Phân loại tín hiệu
Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt chẽ vào
đặc điểm của tín hiệu. Có những phương pháp riêng áp dụng cho một
loại tín hiệu nào đó. Do vậy, trước tiên ta cần xem qua cách phân loại tín hiệu
liên quan đến những ứng dụng cụ thể. Chúng ta có thể phân tín hiệu thành các
loại :
- Tín hiệu nhiều hướng và tín hiệu đa kênh

SVTH: Nguyễn Thị Ngọc Diệp Trang 17
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

- Tín hiệu liên tục và tín hiệu rời rạc

SVTH: Nguyễn Thị Ngọc Diệp Trang 18
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

- Tín hiệu biên độ liên tục và tín hiệu biên độ rời rạc
- Tín hiệu xác định và tín hiệu ngẫu nhiên
1.4 Lý thuyết về nhiễu
1.4.1 Nguồn nhiễu
Nhiễu một hiện thực, nó tồn tại ở mọi nơi, trên đường phố, trên xe, trong
văn phòng, trong nhà hàng, trong các toà nhà. Nó có thể là tiếng xe chạy trên
đường, tiếng ồn trên các công trường xây dựng, tiếng ồn phát ra từ các quạt chạy
trong PC, chuông điện thoại…, nó tồn tại với các hình dạng và hình thức khác
nhau trong cuộc sống hằng ngày của chúng ta.
Nhiễu có thể hình thành ở một nơi cố định, và không thay đổi theo
thời gian, ví dụ như là tiếng ồn phát ra từ quạt chạy trong PC. Nhiễu
cũng có thể không đứng yên một chỗ, ví dụ như nhiễu trong nhà hàng, đó là
tiếng nói của nhiều người xen lẫn với nhiều cách khác nhau với tiếng ồn phát
ra từ nhà bếp. Các đặc tính về phổ cũng như thời gian của nhiễu trong nhà hàng
thay đổi không theo quy luật nên việc nén nhiễu trong các môi trường có nhiễu
thay đổi như vậy
sẽ khó khăn hơn nhiều so với các nguồn nhiễu đứng yên không thay đổi.
Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ
và sự phân bố của năng lượng nhiễu trong miền tần số. Ví dụ, nhiễu gây ra bởi
gió thì năng lượng của nó tập trung ở tần số thấp dưới 500Hz. Nhưng đối với
nhiễu trong nhà hàng, trên xe, trên tàu thì khác, năng lượng của nó được phân bố
trên một dải tần số rộng [3].

SVTH: Nguyễn Thị Ngọc Diệp Trang 19

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4].
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên
tàu [4].

SVTH: Nguyễn Thị Ngọc Diệp Trang 20
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong
nhà hàng[4].
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau
Điểm tới hạn trong việc thiết kế các thuật toán của Speech enhancement là
sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi
trường thực tế. Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín
hiệu trên nhiễu(SNR) được bắt gặp trong môi trường thực tế. Điều này rất quan
trọng để đánh giá tính hiệu quả của các thuật toán Speech enhancement
trong việc nén nhiễu và cải thiện chất lượng của tiếng nói trong dải biến thiên
của mức
SNR.
Mức độ của tiếng nói và nhiễu được đo lường bằng mức độ âm thanh. Phép
đo lường ở đây là đo mức độ áp suất của âm thanh tính bằng dB
SPL(sound pressure level)[4]. Khoảng cách giữa người nói và người nghe cũng
ảnh hưởng đến mức cường độ âm thanh, nó tương ứng với phép đo được
thực hiện khi microphone được đặt tại những vị trí có khoảng cách khác
nhau. Khoảng cách đặc trưng trong giao tiếp face-to-face là 1m, khi khoảng
cách đó tăng gấp đôi thì

SVTH: Nguyễn Thị Ngọc Diệp Trang 21
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

mức cường độ âm giảm đi 6 dB[6].

SVTH: Nguyễn Thị Ngọc Diệp Trang 22
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

Hình bên dưới này là sự tổng hợp về mức độ âm trung bình giữa tiếng nói
và nhiễu trong các môi trường khác nhau. Mức độ của nhiễu nhỏ nhất ở trong các
môi trường như phòng học, trong nhà ở, trong bệnh viện và trong các toà nhà.
Trong các môi trường khác nhau, thì mức độ âm của nhiễu nằm trong phạm vi
biến thiên từ 50 đến 55 dB SPL, và mức độ âm của tiếng nói là 60 đến 70 dB
SPL. Và khuyến nghị đưa ra là mức tỷ số SNR có hiệu quả trong các môi trường
này là 5 đến 15 dB. Mức độ âm của nhiễu rất cao trong các môi trường ở tàu điện
ngầm, ở trên máy bay, nó đạt khoảng 70 đến 75 dB SPL. Và mức độ
âm của tiếng nói trong các môi trường này cũng đạt mức đó, nên mức tỷ số
SNR trong các môi trường này gần như là 0 dB.
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi
trường khác nhau [4].
1.5 Tín hiệu rời rạc theo thời gian
Tín hiệu rời rạc theo thời gian x(n) có thể tạo ra bằng cách lấy mẫu tín hiệu
liên tục theo thời gian x
a
(t) với chu kỳ lấy mẫu là T
s
(tần số lấy mẫu F
s
= 1/ T).
Ta có
x
a

(t)|
t=nT
= x
a
(nT) = x(n) , -∞ < n< ∞ (1.1)
Lưu ý n là biến nguyên, x(n) là hàm theo biến nguyên, chỉ định tại các giá
trị n nguyên. Khi n không nguyên, thì x(n) không xác định, chứ không phải bằng
0. Trong nhiều sách về xử lý tín hiệu số, người ta quy ước: khi biến nguyên thì

SVTH: Nguyễn Thị Ngọc Diệp Trang 23
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

biến được đặt trong dấu ngoặc vuông và khi biến liên tục thì được đặt trong dấu
ngoặc tròn. Từ đây trở đi, ta ký hiệu tín hiệu rời rạc là: x[n].[7]
Một số tín hiệu rời rạc cơ bản
1.5.1 Tín hiệu bước nhảy đơn vị

1, n
≥
0
u[n] =


2, n
<

0
(1.2)
Tín hiệu bước nhảy dịch chuyển có dạng sau:
u[n - n

o
] =
1.5.2 Tín hiệu xung đơn vị

1
,


0,
n ≥ no
n < no
(1.3)

1
,
δ
[n]=


0
,
n = 0
n ≠ 0
(1.4)
Tín hiệu xung dịch chuyển có dạng sau

1
,
δ
[n− no] =



0
,
n = no
n ≠ no
(1.5)
Chúng ta có thể biểu diễn tín hiệu rời rạc theo thời gian x[n] thông qua tín
hiệu xung đơn vị như sau
1.5.3 Tín hiệu hàm mũ
∞
x[n] =
∑
x[k ]
δ

[n
−
k
]
k =−∞
(1.6)
x[n] = C.a
n
(C,a : là những hằng số) (1.7)
Tín hiệu hàm mũ phía phải : x[n] = C.a
n
.u[n]
Tín hiệu hàm mũ phía trái : x[n] = C.a
n

.u[-n]
1.5.4 Tín hiệu hàm sin rời rạc
x[n]

=

A

cos(

2
π
fn

+
θ

)
A : là biên độ của tín hiệu sin
−

∞

<

n

<

∞

(1.8)
θ
: pha ban đầu của tín hiệu sin
f : tần số số, f =

s
SVTH: Nguyễn Thị Ngọc Diệp Trang 24
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

F
, F : là tần số của tín hiệu, F
F
s
: tần số lấy mẫu
-0.5 < f < 0.5

1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT
Phép biến đổi này áp dụng để phân tích cho cả tín hiệu và hệ thống. Nó
được dùng trong trường hợp dãy rời rạc dài vô hạn và không tuần hoàn.
DTFT : X
(
∞
)

=

∑

x
[n]

e
−
j
n
n=−∞
(1.9)
Ta nhận xét thấy rằng tuy tín hiệu rời rạc trong miền thời gian nhưng DTFT
lại liên tục và tuần hoàn trong miền tần số.
DTFT chính là hàm phức theo biến tần số thực. Ta gọi DTFT là phổ phức
(complex spectrum) hay ngắn gọn là phổ của tín hiệu rời rạc x[n].
1.6.1 Sự hội tụ của phép biến đổi Fourier
Không phải là tất cả DTFT đều tồn tại (hội tụ) vì DTFT chỉ hội tụ khi
∞
∑
x[n]e
−
j
n

<

∞
n
=−∞
(1.10)
∞
∑

x[n]e
−

j
n
n=−∞
∞
∞
≤

∑

x[n]e
−
j n
n=−∞
∞
Ta luôn luôn có :
∑

x[n]e
−
j
n
n=−∞
∞
∑

x[n]e
−
j
n
n=−∞

≤

∑
| x[n] || e
−
j n
|
n=−∞
∞
≤

∑
| x[n] |
n=−∞
(1.11)
∞
Như vậy, nếu x[n] thoả điều kiện
∑
| x[n] | <
∞
thì biến đổi Fourier hội tụ [7].
n=−∞
1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier
Biểu thức tính ZT là:
∞
X ( z)
=

∑

x[n]z
−
n
n=−∞
(1.12)
Giả sử ROC có chứa đường tròn đơn vị. Tính X(Z) trên đường tròn đơn vị,
ta được
X (
z
z =e
j
∞
=

∑

x[n]e
−
j
n=−∞

thuật toán spectral subtraction và wiener filtering. chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về