Tải bản đầy đủ (.pdf) (85 trang)

Nghiên cứu một số phương pháp cải thiện chất lượng tín hiệu tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.25 MB, 85 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

BÙI THẾ ANH

Bùi Thế Anh

CÔNG NGHỆ THÔNG TIN

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP
CẢI THIỆN CHẤT LƯỢNG TÍN HIỆU TIẾNG NĨI

LUẬN VĂN THẠC SĨ KỸ THUẬT

KHỐ 2011B

Hà Nội – Năm 2013


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

Bùi Thế Anh

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP
CẢI THIỆN CHẤT LƯỢNG TÍN HIỆU TIẾNG NĨI

Chun ngành: Cơng nghệ thơng tin


LUẬN VĂN THẠC SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS, TS. TRỊNH VĂN LOAN

Hà Nội – Năm 2013


MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... 4
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ............................................ 5
DANH MỤC CÁC BẢNG ......................................................................................... 7
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .................................................................... 8
MỞ ĐẦU .................................................................................................................. 10
Lý do chọn luận văn ............................................................................................. 10
Mục đích nghiên cứu của luận văn ....................................................................... 11
Đối tượng, phạm vi nghiên cứu của luận văn ....................................................... 11
Tóm tắt ................................................................................................................ 11
Phương pháp nghiên cứu ...................................................................................... 12
CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ TÍN HIỆU TIẾNG NĨI ........................ 13
1.1. Xử lý tín hiệu số............................................................................................ 13
1.1.1. Phổ tín hiệu tiếng nói ............................................................................ 14
1.1.2. Phép biến đổi Fourier của tín hiệu rời rạc DTFT ................................... 15
1.1.3. Sự hội tụ của phép biến đổi Fourier ...................................................... 15
1.1.4. Quan hệ giữa biến đổi Z và biến đổi Fourier ......................................... 15
1.1.5. Phép biến đổi Fourier ngược ................................................................. 16
1.1.6. Các tính chất của phép biến đổi Fourier ................................................ 17
1.1.7. Phân tích phổ của tín hiệu rời rạc .......................................................... 18
1.1.8. Phổ biên độ và phổ pha ......................................................................... 18
1.2. Khái niệm tăng cường chất lượng tín hiệu tiếng nói ...................................... 19

1.3. Lý thuyết về nhiễu ........................................................................................ 20
1.3.1. Nguồn nhiễu ......................................................................................... 20
1.3.2. Nhiễu và tín hiệu tiếng nói trong mơi trường khác nhau ........................ 21
1.4. Khái niệm và phân loại tín hiệu ..................................................................... 22
1


1.4.1. Tín hiệu là gì ......................................................................................... 22
1.4.2. Phân loại tín hiệu .................................................................................. 24
1.5. Xử lý tín hiệu tiếng nói ................................................................................. 25
1.6. Cơ chế tạo tiếng nói ...................................................................................... 26
1.6.1. Bộ máy phát âm của con người ............................................................. 26
1.6.2. Mơ hình kỹ thuật của việc tạo tiếng nói ................................................ 27
1.6.3. Thuộc tính âm học của tiếng nói ........................................................... 28
1.6.4. Các loại âm thanh ................................................................................. 28
1.7. Mục đích của xử lý tín hiệu tiếng nói ............................................................ 29
1.8. Ứng dụng của xử lý tín hiệu số...................................................................... 31
CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP CẢI THIỆN CHẤT LƯỢNG TÍN
HIỆU TIẾNG NĨI .................................................................................................. 33
2.1. Nhu cầu cải thiện chất lượng tín hiệu tiếng nói ............................................. 33
2.2. Giới thiệu các phương pháp đánh giá chất lượng tín hiệu tiếng nói ............... 33
2.2.1. Đánh giá chủ quan ................................................................................ 34
2.2.2. Đánh giá khách quan ............................................................................. 35
2.2.3. Đánh giá theo mô phỏng cảm nhận nghe của con người ........................ 38
2.3. Một số phương pháp cải thiện chất lượng tín hiệu tiếng nói .......................... 40
2.3.1. Một số thuật giải ................................................................................... 40
2.3.2. Sơ đồ khối chung của Trừ phổ và bộ lọc Wienner ................................. 40
2.3.3. Thuật giải Trừ phổ ................................................................................ 41
2.3.4. Thuật giải bộ lọc Wiener ....................................................................... 43
2.3.5. Phát hiện tiếng nói ................................................................................ 46

2.3.6. Thuật giải Kalman ................................................................................ 49
CHƯƠNG 3: ÁP DỤNG MỘT SỐ THUẬT GIẢI ĐỂ TĂNG CƯỜNG CHẤT
LƯỢNG TÍN HIỆU TIẾNG NĨI ........................................................................... 54
3.1. Cơ sở dữ liệu tín hiệu tiếng nói ..................................................................... 54
2


3.2. Áp dụng các thuật giải để tăng cường chất lượng tín hiệu tiếng nói ............... 54
3.2.1. Trừ phổ ................................................................................................. 54
3.2.2. Bộ lọc Wiener ....................................................................................... 60
3.2.3. Bộ lọc Kalman ...................................................................................... 66
3.3. Quy trình đánh giá chất lượng ....................................................................... 72
3.4. So sánh các kết quả đạt được ......................................................................... 73
KẾT LUẬN .............................................................................................................. 75
Kiến nghị ............................................................................................................. 76
TÀI LIỆU THAM KHẢO ....................................................................................... 77
PHỤ LỤC ................................................................................................................ 78
P1. MỘT SỐ KẾT QUẢ THỬ NGHIỆM CỦA CÁC GIẢI THUẬT VỚI CÁC
TRƯỜNG HỢP CẬP NHẬT NHIỄU KHÁC NHAU ........................................... 78
P1.1. Trừ phổ .................................................................................................. 78
P1.2. Bộ lọc Wiener ........................................................................................ 79
P1.3. Bộ lọc Kalman ....................................................................................... 81

3


LỜI CAM ĐOAN
Kính gửi: Hội đồng bảo vệ luận văn thạc sĩ Viện Công nghệ Thông tin và Truyền
thông - Đại học Bách khoa Hà Nội.
Em tên là: Bùi Thế Anh

Hiện đang là học viên cao học lớp KT-CNTT2011B - Viện Công nghệ Thông tin và
Truyền thông - Đại học Bách khoa Hà Nội.
Em xin cam đoan nội dung của luận văn này không phải là bản sao chép của bất cứ
luận văn hoặc cơng trình đã có từ trước.
Qua đây, em cũng xin gửi lời cảm ơn sâu sắc tới PGS, TS. Trịnh Văn Loan đã tận
tình giúp đỡ, định hướng để em hoàn thành luận văn này.
Người thực hiện luận văn
Bùi Thế Anh

4


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Từ viết tắt

Tên tiếng Anh

Nghĩa tiếng Việt

FFT

Fast Fourier Transform

Phép biến đổi Fourier nhanh

SNR

Signal Noise Ratio

Tỷ số tín hiệu trên nhiễu


SPL

Sound Pressure Level

Mức áp suất âm thanh

ACR

Absolute Category Rating

Đánh giá theo giá trị tuyệt đối

DCR

Degradation Category Rating

Đánh giá suy giảm chất lượng

MOS

Mean Opinion Scores

Đánh giá theo ý kiến người nghe

PESQ

Perceptual Evaluation of Speech Lượng giá cảm thụ chất lượng

ITU-T


Quality

tiếng nói

International

Hiệp hội tiêu chuẩn viễn thơng

Telecommunications Union-

quốc tế

Telecommunication
LPC

Linear Prediction Coefficients

Hệ số tiên đốn tuyến tính

LLR

Log likehook Ratio

Tỷ lệ log tương đồng

CEP

Cepstrum Distance Provides


Phương pháp ước lượng khoảng
cách Cepstrum

WSS

Weighted Spectral Slope

Bao phổ có trọng số

BS

Bark Distortion

Phương pháp đo khoảng cách
giữa các phổ âm lượng

IDFT

Inverse Discrete Fourier

Biển đổi ngược Fourier rời rạc

WF

Weiner Filter

Bộ lọc Weiner

VAD


Voice Activity Detection

Phát hiện tiếng nói

Frm

Frame

Khung tín hiệu

FT

Fourier Transform

Phép biến đổi Fourier
5


IFFT

Inverse Fast Fourier Transform

Biến đổi ngược Fourier nhanh

SNRseg

Signal to Noise Ratio segment

Độ nhiễu trên từng khung tín
hiệu


KF

Kalman Filter

IEEE

Institute of Electrical

Bộ lọc Kalman

and Viện kỹ nghệ điện và điện tử

Electronics Engineers
DIG

Digital

Số hóa

ADC

Analog Digital Convert

Chuyển tín hiệu tương tự sang
tín hiệu số

DAC

Chuyển tín hiệu số sang tín hiệu


Digital Analog Convert

tương tự

6


DANH MỤC CÁC BẢNG
Tên bảng

Trang

Bảng 1. Đánh giá theo MOS

34

Bảng 2. Đánh giá Threshold

35

Bảng 3. Đánh giá DCR

35

Bảng 4. So sánh các kết quả của 3 thuật giải SS, WF, KF

73

Bảng 5. So sánh thời gian thực hiện của 3 thuật giải KF, WF, SS


74

7


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Tên hình vẽ, đồ thị

Trang

Hình 1.1. Phổ tín hiệu tiếng nói và đường bao phổ

14

Hình 1.2. Phổ tín hiệu tiếng nói với số mẫu khác nhau

14

Hình 1.3. Tín hiệu có nhiễu trên xe ơtơ trong miền thời gian và tần số

20

Hình 1.4. Tín hiệu có nhiễu trên tàu trong miền thời gian và tần số

21

Hình 1.5. Tín hiệu có nhiễu trong nhà hàng trong miền thời gian và tần số

21


Hình 1.6. Mức nhiễu tín hiệu và tiếng nói trong các mơi trường khác nhau

22

Hình 1.7. Mặt cắt dọc của cơ quan tạo tiếng nói

26

Hình 1.8. Mơ hình kỹ thuật tạo tiếng nói

27

Hình 1.9. Tín hiệu tương tự của nguyên âm a

30

Hình 1.10. Phổ của tín hiệu của ngun âm a tại hình 1.9

31

Hình 2.1. Sơ đồ khối chung của thuật giải Trừ phổ và bộ lọc Wiener

40

Hình 2.2. Lưu đồ của thuật giải Trừ phổ đối với phổ cơng suất

43

Hình 2.3. Sơ đồ khối của thuật giải Bộ lọc Wiener


45

Hình 2.4. Lưu đồ thuật giải của thuật giải bộ lọc Wiener

46

Hình 2.5. Sơ đồ của bộ lọc Kalman

50

Hình 2.6. Lưu đồ thuật giải của mạch lọc Kalman

53

Hình 3.1. Thuật giải Trừ phổ

55

Hình 3.2. Tín hiệu (gồm nhiễu) trong miền thời gian

58

Hình 3.3. Phổ của tín hiệu (gồm nhiễu) trong miền tần số

59

Hình 3.4. Tín hiệu đã được giảm nhiễu với thuật giải SS trong miền thời
gian


59

Hình 3.5. Tín hiệu đã được giảm nhiễu với thuật giải SS trong miền tần số

60

Hình 3.6. Thuật giải bộ lọc Wiener

61
8


Hình 3.7. Tín hiệu (gồm nhiễu) trong miền thời gian

64

Hình 3.8. Phổ của tín hiệu (gồm nhiễu) trong miền tần số

65

Hình 3.9. Tín hiệu đã được giảm nhiễu với thuật giải Wiener trong miền
thời gian
Hình 3.10. Tín hiệu đã được giảm nhiễu với thuật giải Wiener trong miền
tần số

65

66

Hình 3.11. Thuật giải bộ lọc Kalman


67

Hình 3.12. Tín hiệu (gồm nhiễu) trong miền thời gian

69

Hình 3.13. Phổ của tín hiệu (gồm nhiễu) trong miền tần số

70

Hình 3.14. Tín hiệu đã được giảm nhiễu với thuật giải Kalman trong miền
thời gian
Hình 3.15. Tín hiệu đã được giảm nhiễu với thuật giải Kalman trong miền
tần số
Hình 3.16. Quy trình thực hiện đánh giá

70

71
72

9


MỞ ĐẦU
Kể từ khi xuất hiện, máy tính càng ngày càng chứng tỏ rằng đó là một cơng cụ
vơ cùng hữu ích trợ giúp con người xử lý thơng tin. Cùng với sự phát triển của xã hội,
khối lượng thông tin mà máy tính cần xử lý tăng rất nhanh trong khi thời gian dành
cho những công việc này lại giảm đi. Vì vậy, việc tăng tốc độ xử lý thơng tin và xử lý

thơng tin một cách chính xác, lọc lấy thông tin cần thiết để sử dụng trở thành một yêu
cầu cấp thiết. Một trong những hướng nghiên cứu này là sử dụng tiếng nói trong trao
đổi thơng tin người-máy. Những nghiên cứu này liên quan trực tiếp tới các kết quả của
chuyên ngành xử lý tiếng nói, trong đó có tăng cường chất lượng tiếng nói.

Lý do chọn luận văn
Ngày nay, nền công nghệ kỹ thuật trên thế giới đang phát triển nhanh chóng với
hàng loạt các giải pháp về công nghệ ra đời mỗi năm. Việc này đòi hỏi chúng ta phải
liên tục nghiên cứu những cơng nghệ tiên tiến trên thế giới để có thể đáp ứng được nhu
cầu của cuộc sống công nghệ.
Xử lý tín hiệu số là một trong những nhu cầu cần thiết được đặt ra trong thời đại
hiện nay. Nó giúp cho chúng ta có cái nhìn trực quan hơn về thế giới cơng nghệ. Trong
đó, có một bài tốn lớn đó là “xử lý tín hiệu tiếng nói”. Làm thế nào để có thể thu được
tiếng nói sạch, nhiễu tín hiệu được giảm trừ tới mức tốt nhất có thể? Đó là vấn đề được
đề cập đến trong luận văn này “Nghiên cứu một số phương pháp cải thiện chất
lượng tín hiệu tiếng nói”.
Với những phương pháp được đề cập trong phần sau của luận văn, tín hiệu
tiếng nói được cải thiện và tăng cường một cách đáng kể. Tín hiệu tiếng nói được lọc,
được giảm nhiễu tối đa để có thể thu được tín hiệu tiếng nói sạch. Từ những kết quả
được từ tín hiệu tiếng nói sạch, ta có thể sử dụng làm đầu vào để xử lý các hệ thống có
liên quan đến tiếng nói một cách dễ dàng.
10


Mục đích nghiên cứu của luận văn
Tăng cường chất lượng tín hiệu tiếng nói bao gồm: giảm nhiễu ồn của mơi
trường xung quanh tín hiệu tiếng nói, giảm/khử tiếng vọng, v.v... Luận văn nghiên cứu
việc giảm nhiễu, giảm tiếng ồn trong tín hiệu tiếng nói dựa vào việc xử lý tín hiệu số,
xử lý tín hiệu tiếng nói, các bộ lọc số.


Đối tượng, phạm vi nghiên cứu của luận văn
Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại. Tiếng
nói có rất nhiều yếu tố khác nhau hỗ trợ nhằm giúp người nghe hiểu được ý cần diễn
đạt như biểu hiện trên gương mặt, cử chỉ, điệu bộ. Vì có đặc tính tác động qua lại, nên
tiếng nói được sử dụng trong nhu cầu giao tiếp nhanh chóng. Trong khi đó, chữ viết lại
có khoảng cách về không gian lẫn thời gian giữa tác giả và người đọc. Sự biểu đạt của
tiếng nói hỗ trợ mạnh mẽ cho việc ra đời các hệ thống máy tính có sử dụng tiếng nói,
ví dụ như lưu trữ tiếng nói như là một loại dữ liệu, hay dùng tiếng nói làm phương tiện
giao tiếp qua lại. Nếu chúng ta có thể phân tích q trình giao tiếp qua nhiều lớp, thì
lớp thấp nhất chính là âm thanh và lớp cuối cùng là tiếng nói diễn tả ý nghĩa muốn nói.
Nhiễu vẫn tồn tại trong các ứng dụng cuộc sống của xử lý tiếng nói. Trong các
hệ thống liên lạc bằng âm thanh, ví dụ, một tín hiệu tiếng nói, khi được lấy thơng qua
kênh âm thanh bởi một micro, có thể bị nhiễu khơng mong muốn, ảnh hưởng rất lớn
đến chất lượng tín hiệu tiếng nói. Theo đó, bản chất của rất nhiều hệ thống mà chúng
ta có được là hiệu quả kỹ thuật nâng cao tỷ số nhiễu/tín hiệu tiếng nói để có được chất
lượng tín hiệu tiếng nói mong muốn.

Tóm tắt
Luận văn nghiên cứu cơng việc tăng cường chất lượng tín hiệu tiếng nói. Tiếng
nói trong mơi trường thực tế có lẫn nhiều tạp âm khác nhau, gây suy giảm chất lượng.
Vì vậy, mục đích cải thiện, tăng cường chất lượng tín hiệu tiếng nói là rất quan trọng.
11


Luận văn gồm 3 chương:
Chương 1: Nêu tổng quan về xử lý tín hiệu tiếng nói, mục đích, ứng dụng của việc xử
lý tín hiệu tiếng nói. Lý thuyết thực nghiệm để giải quyết vấn đề cải thiện chất lượng
tín hiệu tiếng nói. Giới thiệu các khái niệm, phân loại tín hiệu và một số lý thuyết cơ
bản có liên quan tới vấn đề đặt ra, là tiền đề để xem xét, đánh giá tính hiệu quả của các
thuật giải tăng cường chất lượng tín hiệu tiếng nói.

Chương 2: Giới thiệu lý thuyết của một số phương pháp đo chất lượng tín hiệu tiếng
nói và một số thuật giải dùng để tăng cường chất lượng tín hiệu tiếng nói như Trừ phổ,
bộ lọc Kalman và bộ lọc Wiener.
Chương 3: Áp dụng thuật giải Trừ phổ, bộ lọc Wiener và bộ lọc Kalman cho việc tăng
cường chất lượng tín hiệu tiếng nói. Các bước thực hiện thuật giải, đánh giá những kết
quả đạt được.
Kết luận và kiến nghị: Nêu lên những kết quả đạt được, áp dụng cho thực tế. Những
kiến nghị cho ứng dụng trong tương lai.

Phương pháp nghiên cứu
Từ nhu cầu thực tiễn, luận văn đã khảo sát các loại tín hiệu âm thanh, tiếng nói
gồm nhiễu, khảo sát nhu cầu của người sử dụng. Từ đó tìm hiểu lý thuyết về xử lý tín
hiệu số. Trong q trình nghiên cứu, một số file âm thanh là tiếng nói có nhiễu đã
được ghi lại, kết hợp với nhiều dạng nhiễu khác nhau lấy từ cơ sở dữ liệu của IEEE.
Những file này được sử dụng làm mẫu trong quá trình giảm nhiễu tín hiệu tiếng nói.
Sau đó, luận văn đã nghiên cứu về một số phương pháp lọc nhiễu tín hiệu là
Trừ phổ, Bộ lọc Wiener và Bộ lọc Kalman. Matlab được sử dụng để viết đoạn mã mô
phỏng q trình giảm nhiễu tín hiệu. Kết hợp lý thuyết của các thuật giải Phát hiện
tiếng nói (VAD), Cộng chồng (Overlap-add), các thuật giải giảm nhiễu để đưa ra đoạn
chương trình hồn chỉnh.

12


CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ TÍN HIỆU TIẾNG NĨI
1.1. Xử lý tín hiệu số
Xử lý tín hiệu số (DSP: Digital Signal Processing) đề cập đến các phép xử lý
các dãy số để có được các thơng tin cần thiết như phân tích, tổng hợp, mã hố, biến đổi
tín hiệu sang dạng mới phù hợp với hệ thống. So với xử lý tín hiệu tương tự, xử lý tin
hiệu số có nhiều ưu điểm như:

- Độ chính xác cao, sao chép trung thực, tin cậy.
- Tính bền vững: khơng chịu ảnh hưởng nhiều của nhiệt độ hay thời gian.
- Linh hoạt và mềm dẻo: thay đổi phần mềm có thể thay đổi các tính năng phần
cứng.
- Thời gian thiết kế nhanh, các chip DSP ngày càng hoàn thiện và có độ tích
hợp cao.
Xử lý tín hiệu số hay tổng quát hơn, xử lý tín hiệu rời rạc theo thời gian không thể
thiếu được cho nhiều ngành khoa học, kỹ thuật như: điện, điện tử, tự động hóa, điều
khiển, viễn thơng, tin học, vật lý,... Tín hiệu liên tục theo thời gian (tín hiệu tương tự)
cũng được xử lý một cách hiệu quả theo qui trình: biến đổi tín hiệu tương tự thành tín
hiệu số (biến đổi A/D), xử lý tín hiệu số (lọc, biến đổi, tách lấy thơng tin, nén, lưu trữ,
truyền,...) và sau đó, nếu cần, phục hồi lại thành tín hiệu tương tự (biến đổi D/A) để
phục vụ cho các mục đích cụ thể. Các hệ thống xử lý tín hiệu số, hệ thống rời rạc, có
thể là phần cứng hay phần mềm hay kết hợp cả hai.
Xử lý tín hiệu số có nội dung khá rộng dựa trên một cơ sở toán học tương đối
phức tạp. Nó có nhiều ứng dụng đa dạng, trong nhiều lĩnh vực khác nhau. Nhưng các
ứng dụng trong từng lĩnh vực lại mang tính chun sâu. Có thể nói, xử lý tín hiệu số
ngày nay đã trở thành một ngành khoa học.

13


1.1.1. Phổ tín hiệu tiếng nói
Dải tần số của tín hiệu âm thanh mà con người có thể cảm thụ được là khoảng
từ trên 0Hz đến 20KHz, tuy nhiên phần lớn công suất nằm trong dải tần số từ 0,3KHz
đến 3,4KHz. Dưới đây là một số hình ảnh của phổ tín hiệu tiếng nói:

Hình 1.1. Phổ tín hiệu tiếng nói và đường bao phổ

Hình 1.2. Phổ tín hiệu tiếng nói với số mẫu khác nhau


14


1.1.2. Phép biến đổi Fourier của tín hiệu rời rạc DTFT
Phép biến đổi này áp dụng để phân tích cho cả tín hiệu và hệ thống. Nó được
dùng trong trường hợp dãy rời rạc dài vô hạn và không tuần hồn.

Ta nhận xét thấy rằng tuy tín hiệu rời rạc trong miền thời gian nhưng DTFT lại liên tục
và tuần hồn trong miền tần số. DTFT chính là hàm phức theo biến tần số thực. Ta gọi
DTFT là phổ phức (complex spectrum) hay ngắn gọn là phổ của tín hiệu rời rạc x[n].

1.1.3. Sự hội tụ của phép biến đổi Fourier
Không phải là tất cả DTFT đều tồn tại (hội tụ) vì DTFT chỉ hội tụ khi

Như vậy, nếu x[n] thoả điều kiện

thì biến đổi Fourier hội tụ.

1.1.4. Quan hệ giữa biến đổi Z và biến đổi Fourier
Biểu thức tính biến đổi Z là:

15


Giả sử Miền hội tụ (ROC) có chứa đường trịn đơn vị. Tính X(z) trên đường trịn đơn
vị (tức là tính những điểm z thuộc ROC), ta được:

Như vậy, biến đổi Fourier chính là biến đổi Z tính trên đường trịn đơn vị. Dựa vào
đây, ta có thể phát biểu lại điều kiện tồn tại của DTFT như sau: Biến đổi Fourier của

một tín hiệu chỉ tồn tại khi ROC của biến Z của tín hiệu đó có chứa đường trịn đơn vị.

1.1.5. Phép biến đổi Fourier ngược
Biểu thức tính biến đổi Fourier ngược. Ta thấy X(Ω) là một hàm tuần hoàn với
chu kỳ 2π, do ejΩ tuần hoàn với chu kỳ 2π

Do đó dải tần số của tín hiệu rời rạc là một dải tần bất kỳ rộng 2π, thường chọn là: (π,
π) hay (0, 2π).
Vậy ta có thể khai triển X() thành chuỗi Fourier trong khoảng (-π, π) hay (0, 2π) nếu
điều kiện tồn tại của X() thoả mãn. Các hệ số Fourier là x[n], ta có thể tính được x[n]
từ X() theo cách sau:
Nhân 2 vế của biểu thức DTFT với

rồi lấy tích phân trong khoảng (-π, π) ta có:

16


Thay l = n và thay cận tích phân, khơng nhất thiết phải là (-π, π) mà chỉ cần khoảng
giữa cận trên và dưới là 2π, ta được biểu thức tính biến đổi Fourier ngược (IDTFT)
như sau:

Ta có thể tính IDFT bằng hai cách: một là tính trực tiếp tích phân trên, hai là chuyển
về biến đổi Z rồi tính như biến đổi Z ngược. Tuỳ vào từng trường hợp cụ thể mà ta
chọn phương pháp nào cho thuận tiện.

1.1.6. Các tính chất của phép biến đổi Fourier
- Tính tuyến tính

- Tính dịch thời gian


Qua đây ta thấy sự dịch chuyển tín hiệu trong miền thời gian sẽ khơng ảnh hưởng biên
độ của DTFT, tuy nhiên pha được thêm một lượng.
- Tính dịch tần số / điều chế

Như vậy, việc điều chế gây ra dịch tần số.
- Tính chập thời gian
Tương tự như biến đổi Z, với biến đổi Fourier ta cũng có:

17


- Tính nhân thời gian

1.1.7. Phân tích phổ của tín hiệu rời rạc
Trong miền tần số, mỗi tín hiệu đều có một đặc điểm riêng của nó. Ví dụ như,
tín hiệu sin chỉ có duy nhất một tần số, trong khi nhiễu trắng chứa tất cả các thành
phần tần số. Sự biến thiên chậm của tín hiệu là do tần số thấp, trong khi sự biến thiến
nhanh và những xung nhọn là do tần số cao. Như xung vuông chẳng hạn, nó chứa tất
cả tần số và cả tần số cao.
Phổ của tín hiệu là mơ tả chi tiết các thành phần tần số chứa bên trong tín hiệu. Ví dụ
như tín hiệu xung vng, phổ của nó chỉ ra tất cả các đỉnh nhọn của các sóng sin riêng
có thể kết hợp lại hợp với nhau tạo ra xung vng. Thơng tin này quan trọng vì nhiều
lý do. Ví dụ, thành phần tần số trong một mẫu nhạc chỉ cho ta biết các đặc trưng của
loa, để từ đó khi sản xuất ta lại có cải tiến cho hay hơn. Để dự đốn các ảnh hưởng của
bộ lọc tín hiệu, cần phải biết không chỉ bản chất của bộ lọc mà cịn phải biết cả phổ
của tín hiệu nữa.

1.1.8. Phổ biên độ và phổ pha
Phổ của tín hiệu gồm hai phần: phổ biên độ (magnitude spectrum) và phổ pha

(phase spectrum). Phổ biên độ chỉ ra độ lớn của từng thành phần tần số. Phổ pha chỉ
quan hệ pha giữa các thành phần tần số khác nhau. Công cụ để tính phổ tín hiệu rời rạc
khơng tuần hồn là DTFT.
Để tính phổ tín hiệu, ta qua hai bước: một là tính DTFT của tín hiệu – là X(), hai là
tính biên độ và pha của X()

ở đây |X()| là phổ biên độ và () là phổ pha.
18


Ta dễ dàng chứng minh được rằng đối với tín hiệu thực, phổ biên độ là một hàm chẵn
theo tần số  và phổ pha là một hàm lẻ theo . Do đó, nếu biết phổ X() trong
khoảng 0 đến , ta có thể suy ra phổ trong tồn dải tần số. Để dễ giải thích phổ, tần số
số  từ 0 đến π thường được chuyển đổi thành tần số tương tự từ 0 đến fs/2 nếu tần số
lấy mẫu là fs.
Dựa trên lý thuyết cơ bản của xử lý tín hiệu số với các phép biến đổi Fourier, một bài
toán đặt ra là làm sao để đánh giá được chất lượng tín hiệu tiếng nói trước và sau khi
đã cải thiện, giảm nhiễu. Điều này sẽ được trình bày trong chương 3. Song song với
việc đánh giá chất lượng tín hiệu trước và sau khi tăng cường, chương 3 đề cập tới một
số phương pháp, thuật giải để cải thiện chất lượng tín hiệu tiếng nói.

1.2. Khái niệm tăng cường chất lượng tín hiệu tiếng nói
Tăng cường chất lượng tín hiệu tiếng nói liên quan đến việc cải thiện cảm nhận
của người nghe với tiếng nói bị suy giảm chất lượng do sự ảnh hưởng của nhiễu có
trong tiếng nói. Trong hầu hết các ứng dụng thì việc tăng cường chất tín hiệu tiếng nói
chính là cải thiện về chất lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu
gây ra. Việc xử lý tốt thì sẽ giúp cho người nghe dễ nghe hơn. Kể cả trong mơi trường
có mức độ nhiễu cao và liên tục trong thời gian dài. Trong thực tế có rất nhiều nguồn
nhiễu như là nhiễu trên tàu hỏa, trên máy bay, trong phịng, trong bệnh viện… Tùy vào
mỗi mơi trường sẽ có yêu cầu tăng cường chất lượng và xử lý khác nhau.

Ví dụ: với thơng tin thoại thì chịu ảnh hưởng của nhiễu nền từ ô tô, nhà hàng...
khi truyền tới đich. Vì thế thuật giải tăng cường chất lượng tín hiệu có thể được xử lý
ngay tại điểm thu, trong các khối tiền xử lý.
Tuy nhiên nếu xét về phương diện thực tế thì các thuật giải lọc nhiễu tín hiệu
tiếng nói chỉ có thể cải thiện được chất lượng của tiếng nói mà khó có thể triệt tiêu
hồn tồn tác động của nhiễu tới tiếng nói. Các giải thuật đó có thể giảm được nhiễu
nền trong tiếng nói. Tuy nhiên nó sẽ làm tăng độ méo của tiếng nói. Do đó yêu cầu
19


chính của việc thiết kế một thuật giải là việc đảm bảo nén được nhiễu và không được
gây ra méo quá mức cho phép trong sự cảm nhận tín hiệu tiếng nói.
Giải pháp đưa ra cịn phụ thuộc vào ứng dụng chúng ta sử dụng. Trong đó có
các vấn đề về nguồn nhiễu, giao thoa nhiễu, mối liên hệ giữa nhiễu và tiếng nói sạch.

1.3. Lý thuyết về nhiễu
1.3.1. Nguồn nhiễu
Nguồn nhiễu tồn tại ở mọi nơi, trên phố, văn phịng, nhà hàng, các bến xe, khu
vui chơi giải trí, các cơng trường xây dựng… Nó tồn tại dưới nhiều hình dạng và hình
thức khác nhau. Nhiễu có thể hình thành ở một nơi cố định và không thay đổi theo thời
gian. Ví dụ tiếng ồn phát ra từ quạt máy tính. Nhiễu có thể ở nhiều chỗ khác nhau, như
trong các quán ăn, nhà hàng. Các đặc tính về phổ trong nhà hàng thay đổi không theo
quy luật nên việc nén nhiễu trong các mơi trường có nhiễu thay đổi như vậy sẽ gặp
nhiều khó khăn.
Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ và
sự phân bố của năng lượng nhiễu trong miền tần số. Ví dụ nhiễu gây ra bởi gió thì
năng lượng tập trung ở tần số thấp hơn 500 Hz. Nhưng đối với nhiễu trong nhà hàng,
trên xe lửa… thì lại có phổ phân bố trên một dải tần số rộng.

Hình 1.3. Tín hiệu có nhiễu trên xe ôtô trong miền thời gian và tần số

20


Hình 1.4. Tín hiệu có nhiễu trên tàu trong miền thời gian và tần số

Hình 1.5. Tín hiệu có nhiễu trong nhà hàng trong miền thời gian và tần số

1.3.2. Nhiễu và tín hiệu tiếng nói trong mơi trường khác nhau
Điểm tới hạn trong việc thiết kế các thuật giải tăng cường chất lượng tín hiệu
tiếng nói là nhận biết sự biến thiên của tiếng nói và mức độ cường độ nhiễu trong mơi
trường thực tế. Từ đó chúng ta có thể mơ tả miền biến thiên của mức độ tỷ số tín hiệu
trên nhiễu (SNR) được bắt gặp trong mơi trường thực tế. Mức độ của tiếng nói và
nhiễu được đo bằng mức độ âm thanh. Phép đo ở đây là đo mức độ áp suất của âm
thanh tính bằng dB SPL(Sound Pressure Level). Khoảng cách cũng ảnh hưởng tới
cường độ âm thanh. Khoảng cách đặc trưng trong giao tiếp mặt giáp mặt là 1m. Khi
khoảng cách tăng gấp đơi thì mức cường độ âm giảm đi.

21


Hình 1.6. Mức nhiễu tín hiệu và tiếng nói trong các mơi trường khác nhau
Hình trên là sự tổng hợp về mức độ âm trung bình giữa tiếng nói và nhiễu trong
các môi trường khác nhau. Mức độ nhiễu nhỏ nhất trong các mơi trường là: phịng học,
trong nhà, trong phịng bệnh viện, và trong siêu thị. Trong các mơi trường khác nhau
thì mức độ nhiễu nằm trong khoảng 50-55 dB. Và mức độ của tiếng nói là 60-70 dB.
Và ta đưa ra mức tỷ số tín hiệu trên nhiễu là 5-15 dB. Mức độ âm của nhiễu cao trong
các mơi trường tàu điện, trên máy bay nó đạt 70-75 dB. Do đó mức tỷ số SNR là bằng
0 dB.

1.4. Khái niệm và phân loại tín hiệu

1.4.1. Tín hiệu là gì
Trong cuộc sống, lồi người phát hiện, làm quen, xây dựng và sử dụng nhiều
kiểu loại tín hiệu khác nhau. Việc nghiên cứu tồn diện các loại tín hiệu đó, là nhiệm
vụ trung tâm của khoa tín hiệu học. Đã có nhiều quan niệm khác nhau và nhiều cách
phân loại khác nhau đối với tín hiệu. Để cho vấn đề ở đây trở nên đơn giản, đỡ phức
tạp, chúng ta quan niệm về tín hiệu như sau:

22


Tín hiệu là một sự vật (hoặc một thuộc tính vật chất, một hiện tượng) kích thích
vào giác quan của con người, làm cho con người ta tri giác được và lí giải, suy diễn tới
một cái gì đó nằm ngồi sự vật ấy.
Ví dụ: Đèn đỏ trong bảng đèn tín hiệu giao thơng đường bộ là một tín hiệu, bởi
vì, khi nó hoạt động (sáng lên), người ta thấy nó và suy diễn tới sự cấm đốn, khơng
được đi qua chỗ nào đó.
Vậy, một sự vật sẽ là một tín hiệu nếu nó thoả mãn các u cầu sau đây:
Phải là một sự vật hoặc thuộc tính vật chất được cảm nhận qua giác quan của
con người, chẳng hạn: âm thanh, màu sắc, ánh sáng, hình vẽ, vật thể,... Nói cách khác,
tín hiệu phải là vật chất, kích thích đến giác quan của con người và con người cảm
nhận được.
Phải đại diện cho một cái gì đó, gợi ra cái gì đó khơng phải là chính nó. Tức là
cái mà nó đại diện cho, khơng trùng với chính nó. Ví dụ: Tín hiệu đèn đỏ báo hiệu nội
dung cấm đi. Nội dung này và bản thể vật chất của cái đèn đỏ khơng hề trùng nhau.
Mặt khác, nó cũng sẽ chỉ là tín hiệu khi mối liên hệ giữa nó với "cái mà nó chỉ
ra" được người ta nhận thức, tức là người ta phải biết liên hệ nó với cái gì.
Sự vật đó phải nằm trong một hệ thống tín hiệu nhất định để được xác định tư
cách tín hiệu của mình cùng với các tín hiệu khác. Chẳng hạn, cái đèn đỏ vừa nói bên
trên là một tín hiệu, thế nhưng, nếu tách nó ra, đưa vào chùm đèn trang trí thì nó lại
khơng phải là tín hiệu nữa. Sở dĩ như thế là vì chỉ có nằm trong hệ thống tín hiệu đèn

giao thơng, nó mới có tư các tín hiệu, được xác định cùng với đèn xanh, đèn vàng nhờ
vào sự đối lập quy ước giữa chúng với nhau.
Về mặt vật lý: tín hiệu là dạng biểu diễn vật lý của thơng tin.
Ví dụ:
- Các tín hiệu ta nghe thấy là do âm thanh phát ra gây nên sự nén dãn áp suất
khơng khí đưa đến tai chúng ta.

23


×