Tải bản đầy đủ (.pdf) (70 trang)

Nghiên cứu kỹ thuật giảm nhiễu cho tín hiệu tiếng nói sử dụng bộ lọc kalman thích nghi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.29 MB, 70 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

LUẬN VĂN THẠC SĨ KHOA HỌC
NGÀNH: ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN

NGHIÊN CỨU KĨ THUẬT GIẢM NHIỄU CHO TÍN
HIỆU TIẾNG NÓI SỬ DỤNG BỘ LỌC KALMAN
THÍCH NGHI

ĐẶNG QUANG HẢI
Người hướng dẫn Luận văn: NGUYỄN QUỐC CƯỜNG

Hà Nội, 2010


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

MỤC LỤC
trang
DANH SÁCH CÁC HÌNH……………………………………………………………4
DANH SÁCH CÁC BẢNG……………………………………………………….......6
LỜI MỞ ĐẦU…………………………………………………………………………7
CHƯƠNG I: ĐẶT VẤN ĐỀ………………………………………………………….9
1.1. Nâng cao chất lượng tiếng nói là gì?........................................................................9
1.2. Đánh giá chất lượng của thuật toán nâng cao chất lượng tiếng nói như thế nào?....11
1.2.1. Tỷ số SNR (signal to noise ratio)……………………………………..12
1.2.2. PESQ (Perceptual Evaluation of Speech Quality)……………………12
1.2.3. Log-Spectral Distortion (LSD)……………………………………….13



CHƯƠNG II: CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI..15
2.1. Các phương pháp thao tác trên miền phổ biên độ…………………………………...15
2.2. Các phương pháp dùng bộ lọc thích nghi …………………………………………...16
2.3. Các phương pháp dùng mô hình tiếng nói …………………………………………..17
2.4. Các phương pháp dùng phân li không gian con ……………………………………..18
2.5. Các phương pháp ước lượng nhiễu ………………………………………………….18

CHƯƠNG III: MÔ HÌNH HOÁ TÍN HIỆU TIẾNG NÓI VÀ TÍN HIỆU NHIỄU....20
3.1 Tín hiệu tiếng nói và mô hình tiếng nói…………………………………………..20
3.1.1. Tín hiệu tiếng nói……………………………………………………….20

Đặng Quang Hải

--- 1 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

3.1.2. Mô hình tiếng nói……………………………………………………….24
3.1.3. Mô hình kích thích……………………………………………………...25
3.1.4. Mô hình mở rộng……………………………………………………….26
3.1.5. Mô hình nhiễu…………………………………………………………..27
3.2 Tín hiệu nhiễu……………………………………………………………………27
3.2.1 Nhiễu và méo dạng tín hiệu…………………………………………….27
3.2.2 Các loại nhiễu thường gặp………………………………………….......28


CHƯƠNG IV: BỘ LỌC KALMAN THÍCH NGHI VÀ ỨNG DỤNG
TRONG XỬ LÝ TIẾNG NÓI………………………………………………………….30
4.1. Khái quát về bộ lọc số và lọc thích nghi………………………………………..30
4.1.1. Bộ lọc số………………………………………………………………..30
4.1.2. Bộ lọc thích nghi………………………………………………………..31
4.2. Bộ lọc Kalman và ứng dụng trong xử lý tiếng nói………………………………34
4.2.1. Lý thuyết chung về bộ lọc Kalman……………………………………..34
4.2.2. Bộ lọc Kalman trong nâng cao chất lượng tiếng nói……………………40
4.2.2.1. Lọc nhiễu màu…………………………………………………42
4.2.2.2. Bổ sung các vecto trạng thái…………………………………..43
4.2.2.3. Đo sai lệch……………………………………………………..44
4.2.2.4. Phép lọc Kalman sử dụng băng con…………………………...46

CHƯƠNG V: CƠ SỞ DỮ LIỆU VÀ THUẬT TOÁN………………………………...49
5.1. Cơ sở dữ liệu……………………………………………………………………..49
5.1.1. NOIZEUS database………………………………………………..........49
5.1.2. Dữ liệu thực tế (Thu âm trong môi trường thực tế)…………………….49
Đặng Quang Hải

--- 2 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

5.2. Chương trình thuật toán………………………………………………………….49
5.2.1. Sơ đồ khối………………………………………………………………49
5.2.2. Khối phân chia tín hiệu thành các băng con……………………………51

5.2.3. Khối ước lượng nhiễu…………………………………………………..60
5.2.4. Khối ước lượng các thông số của mô hình tiếng nói…………………...61
5.2.5. Khối sử dụng mô hình tiếng nói ước lượng để khôi phục
tiếng nói sạch dùng bộ lọc Kalman……………………………………..61

CHƯƠNG VI: KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN ………………62
TÀI LIỆU THAM KHẢO………………………………………………………………67

Đặng Quang Hải

--- 3 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

DANH SÁCH CÁC HÌNH

Hình 1.1: Các phương pháp nâng cao chất lượng tiếng nói……………………………10
Hình 1.2: Tỷ số tín hiệu trên nhiễu…………………………………………………………12
Hình 2.1 : Phương pháp trừ phổ kinh điển……………………………………………….15
Hình 2.2: Hệ thống nâng cao chất lượng tiếng nói sử dụng một microphone……….16
Hình 3.1 : Mô hình tạo ra tiếng nói………………………………………………………..21
Hình 3.2: Ảnh phổ tiếng nói của một phụ nữ phát âm cụm từ “ Argue history”……23
Hình 3.3: Ảnh phổ của tín hiệu kích thích thu được từ quá trình lọc đảo LPC tín hiệu
tiếng nói trong hình 3.2……………………………………………………………………..24
Hình 3.4: Nhiễu trắng……………………………………………………………………….29
Hình 3.5: Nhiễu không ổn định…………………………………………………………….29

Hình 4.1: Mô hình bộ lọc số………………………………………………………………..30
Hình 4.2: Mô hình lọc nhiễu của bộ lọc thích nghi……………………………………..33
Hình 4.3: Vòng quay liên tục của bộ lọc Kalman rời rạc……………………………...38
Hình 4.4: Hoạt động của lọc Kalman…………………………………………………….39
Hình 4.5 : Mô hình hệ thống tuyến tính động……………………………………………40
Hình 4.6: Quá trình lọc Kalman…………………………………………………………..42
Hình 4.7: Quá trình lọc Kalman trên băng con…………………………………………47
Hình 4.8 : Quá trình ước lượng thông số mô hình tiếng nói…………………………..47
Hình 4.9 : Thuật toán phát triển tiếng nói sử dụng bộ lọc Kalman…………………..48
Hình 5.1: Sơ đồ nguyên lí chung của thuật toán………………………………………..50
Hình 5.2: Cấu trúc băng lọc phân tích………………………………………………….51
Hình 5.3 : Cấu trúc phần bộ lọc trong băng lọc phân tích…………………………...52

Đặng Quang Hải

--- 4 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

Hình 5.4 : Cấu trúc bộ phân chia trong băng lọc phân tích………………………..53
Hình 5.5: Đáp ứng xung của h(n)………………………………………………………54
Hình 5.6: Dải thông của h(n)……………………………………………………………54
Hình 5.7: Dải thông của các bộ lọc Hi(ejw) trường hợp lý tưởng (a)
Và thực tế đạt được (b)H1(ejw)÷H7(ejw)…………………………………55
Hình 5.8: Cấu trúc của bộ lọc tổng hợp……………………………………………….57
Hình 5.9: Phép nội suy hệ số 2………………………………………………………….57

Hình 5.10: Hiện tượng tạo ảnh trong bộ nội suy…………………………………….58
Hình 5.11: Loại bỏ thành phần ảnh phụ trong bộ lọc nội suy………………………59
Hình 5.12: Ước lượng phổ công suất của nhiễu……………………………………...61
Hình 6.1: Đoạn âm thanh trước (a) và sau (b) khi đưa qua thuật toán…………..64

Đặng Quang Hải

--- 5 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

DANH SÁCH CÁC BẢNG

Bảng 4-1: Các biểu thức Update thời gian lọc Kalman tuyến tính……………………38
Bảng 4-2: Các biểu thức Update giá trị đo lọc Kalman tuyến tính…………………...38
Bảng 5-1: Tỉ số tín hiệu trên nhiễu (SNR) của kết quả sử dụng bộ lọc Kalman…….62
Bảng 5-2: Độ méo của kết quả sử dụng bộ lọc Kalman……………………………….62
Bảng 5-3: Chỉ số điểm PESQ sử dụng bộ lọc Kalman………………………………...63

Đặng Quang Hải

--- 6 ---

Lớp: CH Đo lường 2007-2009



NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

LỜI MỞ ĐẦU
Trải qua hàng nghìn năm nay việc giao tiếp giữa con người với con người hầu
hết là thông qua ngôn ngữ giao tiếp hàng ngày. Trong thời đại công nghệ bùng nổ
như hiện nay việc giao tiếp giữa con người và con người lại còn được mở rộng trên
phương diện người và máy. Ở bất kì thời điểm nào thì việc trao đổi thông tin qua
ngôn ngữ giao tiếp lời nói giữa người nói và người nghe cũng rất cần thiết và cực
kì quan trọng, đặc biệt là giao tiếp giữa người và máy do có những đặc thù riêng.
Vấn đề hiểu được thông tin từ phía người nói thông qua ngôn ngữ truyền đạt trong
những điều kiện có nhiều trở ngại như tiếng ồn, khó khăn về phần cứng đã và đang
được đặt ra trong mấy chục năm trở lại đây. Vấn đề nâng cao chất lượng trao đổi
thông tin nói chung, và nâng cao chất lượng tiếng nói nói riêng, đã thu hút rất nhiều
các nhà nghiên cứu. Cải thiện tiếng nói là nâng cao chất lượng của tiếng nói hay
tính hiểu được của tiếng nói trong những môi trường có những trở ngại cho việc
truyền đạt.
Trong những năm gần đây, khái niệm lọc Kalman đã trở nên phổ biến trong
lĩnh vực nghiên cứu do đặc tính ước lượng chính xác của nó. Các nhà kỹ thuật đã
vận dụng những ưu điểm của bộ lọc Kalman nhằm tạo ra những kết quả hữu dụng
trong quá trình xử lý tín hiệu tiếng nói. Ngày nay, lọc Kalman đã trở thành một kỹ
thuật lọc nổi tiếng, đưa ra những đánh giá ước lượng và loại trừ những sai lệch
nhiễu dư còn tồn tại trong tiếng nói.
Với mục đích nghiên cứu và thử nghiệm một kỹ thuật mới dựa trên nền tảng là
bộ lọc Kalman, nhằm đưa ra kết quả xử lý tiếng nói cao hơn, trong luận văn này,
tác giả đã lựa chọn sử dụng bộ lọc thích nghi Kalman, thao tác trong miền không
gian trạng thái mô hình tín hiệu tiếng nói và tín hiệu nhiễu, kết hợp với thuật toán
ước lượng nhiễu của Doblinger và thuật toán LSL (Least Squares Lattice) ước
lượng tham số hồi quy của tiếng nói, để khôi phục tín hiệu tiếng nói gốc từ tín hiệu
tiếng nói có nhiễu. Chương trình xử lý được chạy thử nghiệm với bộ cơ sở dữ liệu

chuẩn NOIZEUS và dữ liệu thu âm thực tế để đưa ra kết quả đánh giá.

Đặng Quang Hải

--- 7 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

Để hoàn thành luận văn này, ngoài những nỗ lực cố gắng của bản thân, phải kể
đến sự chỉ dẫn tận tình của giáo viên hướng dẫn – TS. Nguyễn Quốc Cường, sự trao
đổi kiến thức giúp đỡ của bạn bè, cùng sự hỗ trợ động viên từ phía gia đình trong suốt
thời gian qua. Em xin chân thành cảm ơn thầy, bạn bè và gia đình !
Hà Nội, ngày tháng năm 2010

Đặng Quang Hải

Đặng Quang Hải

--- 8 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI


CHƯƠNG I: ĐẶT VẤN ĐỀ
1.1 Nâng cao chất lượng tiếng nói là gì?
Nhiễu có mặt ở mọi nơi và trong hầu hết các ứng dụng liên quan đến xử lí âm
thanh và tiếng nói, ví dụ như các hệ thống giao tiếp người - máy, các hệ thống giao
tiếp “hand-free”, các hệ thống VoiIP, các máy trợ thính, các hệ thống hội thảo trực
tuyến, phòng thí nghiệm trực tuyến, và rất nhiều các hệ thống khác nữa. Các tín hiệu
mà chúng ta quan tâm thông thường ở đây là tiếng nói trước khi đưa đến các
microphone, trong đó thường tồn tại nhiễu làm giảm chất lượng của tiếng nói. Do đó,
các tín hiệu tiếng nói đến microphone cần phải được loại bỏ nhiễu và nâng cao chất
lượng (bằng các công cụ xử lí tín hiệu) trước khi được lưu trữ, phân tích, truyền phát,
hoặc phát lại. Các quá trình loại bỏ nhiễu thường được gọi là “giảm nhiễu” (noise
reduction) . Vấn đề giảm nhiễu đã thu hút được một lượng lớn các nhà nghiên cứu
trong hàng chục năm qua và đã đạt được những kết quả nhất định.
Giảm nhiễu hay nâng cao chất lượng tiếng nói có thể nói là như nhau. Cả hai
khái niệm này đều chỉ đến một phương pháp loại bỏ các thành phần làm suy giảm chất
lượng của tiếng nói, mà cụ thể ở đây là nhiễu hay tiếng ồn, để từ đó nâng cao được
tính hiểu được của tiếng nói và chất lượng của tiếng nói.
Nâng cao chất lượng tiếng nói trong các môi trường có tiếng ồn (ví dụ như: trên
đường phố, trong ô tô, tàu hỏa, sân bay hay nhiễu ở các môi trường có đông người),
việc cải thiện chất lượng và tính hiểu được của tiếng nói sẽ làm giảm những khó khăn
gặp phải trong giao tiếp bằng tiếng nói.
Hiện nay có rất nhiều phương pháp để nâng cao chất lượng tiếng nói, đồng thời
cũng có nhiều cách đánh giá các phương pháp đó. Do đó, khó có thể đưa ra một nhận
định chính xác, toàn diện rằng phương pháp nào tốt hơn phương pháp nào. Các kỹ
thuật nâng cao chất lượng tiếng nói có thể chia đơn giản theo số lượng sử dụng các
microphone: loại sử dụng một microphone, loại sử dụng hai microphone và loại sử
dụng mảng microphone.

Đặng Quang Hải


--- 9 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

Các phương pháp
nâng cao chất
lượng tiếng nói
Các phương pháp
sử dụng một sensor

Các phương pháp sử
dụng nhiều sensor

Khử nhiễu
thích nghi

Bộ lọc Wiener

Bộ lọc Kalman

Triệt tiêu
chùm nhiễu

ước lượng phổ
Hệ thống
nhiều đầu

vào - nhiều
đầu ra

Phục hồi tín
hiệu thông qua
mô hình dựa
trên Phân tíchTổng hợp

Hình 1.1: Các phương pháp nâng cao chất lượng tiếng nói
Ưu điểm của các phương pháp sử dụng một microphone là đơn giản, dễ thực
hiện về mặt phần cứng do chỉ cần đặt trực tiếp microphone vào gần nguồn tín hiệu.
Ngược lại, nhược điểm của phương pháp sử dụng một microphone là chất lượng bị hạn
chế. Các phương pháp nâng cao chất lượng tiếng nói sử dụng nhiều microphone cho
kết quả tốt hơn, tuy nhiên việc triển khai là khó hơn.
Ở trong bài luận văn này em chỉ sử dụng phương pháp nâng cao chất lượng
tiếng nói sử dụng một microphone do tính đơn giản của nó trong việc triển khai và lắp
đặt.
Các hệ thống nâng cao chất lượng tiếng nói như đã nói ở trên được ứng dụng rất
nhiều trong các hệ thống liên quan đến âm thanh, mà cụ thể ở đây là tiếng nói nhằm
cải thiện chất lượng của hệ thống như: hệ thống giao tiếp người - máy, hệ thống nhận

Đặng Quang Hải

--- 10 ---

Lớp: CH Đo lường 2007-2009

Các
bộ
giải


đưa
ra mô
hình
thống

của
tín
hiệu

nhiễu


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

dạng tiếng nói tự động, hệ thống hội thảo trực tuyến hay các phòng thí nghiệm trực
tuyến… Hệ thống nâng cao chất lượng tiếng nói cũng được sử dụng phục vụ cho các
ứng dụng dân dụng như trong các máy trợ thính nhằm hỗ trợ cho những người bị hạn
chế về khả năng nghe. Đối với các hệ thống nhận dạng tiếng nói, nếu trong môi trường
không có nhiễu thì hệ thống hoạt động với chất lượng rất cao, tuy nhiên trong những
môi trường có tiếng ồn thì chất lượng hệ thống lại giảm mạnh. Trong các hệ thống hội
thảo trực tuyến hay các phòng thí nghiệm trực tuyến, thì tiếng nói thường được mã hóa
trước khi gửi đi. Tuy nhiên, do dung lượng đường truyền có hạn, và nếu như trong
trường hợp không có tiếng nói thì hệ thống vẫn hoạt động do có sự tồn tại của nhiễu
tiếng ồn, điều đó dẫn đến gây lãng phí cho hệ thống. Các hệ thống nâng cao chất lượng
(hay giảm nhiễu) có thể được sử dụng trước khâu mã hóa tiếng nói để nhằm tiết kiệm
dung lượng đường truyền. Có thể nói các hệ thống nâng cao chất lượng tiếng nói có
một phạm vi ứng dụng rất lớn, do đó việc nghiên cứu, phát triển và đưa vào khai thác
các hệ thống này là cần thiết.

1.2 Đánh giá chất lượng của thuật toán nâng cao chất lượng tiếng nói như thế nào?
Để đánh giá chất lượng của các hệ thống cải thiện tiếng nói hầu hết là dựa vào
việc đánh giá chất lượng của tiếng nói sau khi đã được xử lí bởi các hệ thống. Một yếu
tố cũng quan trọng không kém trong việc đánh giá chất lượng của các hệ thống cải
thiện tiếng nói đó là tính đáp ứng thời gian thực của hệ thống. Chỉ riêng việc đánh giá
chất lượng của tiếng nói sau khi xử lí cũng đã có rất nhiều tiêu chí đánh giá. Nhưng
tựu chung lại thì tiếng nói có thể được đánh giá dựa trên tính hiểu được của tiếng nói
(Inteligibility) và chất lượng tổng thể của tiếng nói (speech quality).
Trong luận văn này, tôi sử dụng một số phương pháp đánh giá chủ quan được
sử dụng nhiều trong những năm gần đây, đó là:
- Tỷ số tín hiệu trên nhiễu (SNR: Signal to Noise Ratio)
- Thông số ước lượng bằng cảm nhận chất lượng tiếng nói (PESQ: Perceptual
Evaluation of Speech Quality )
- Logarit méo dạng phổ (LSD: Log-Spectral Distortion)

Đặng Quang Hải

--- 11 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

1.2.1 . Tỷ số SNR (signal to noise ratio)
Tỷ số SNR là tỉ số được tính giữa công suất tín hiệu đầu vào với công suất của
nhiễu dư trên thang dB

Trong đó :


x(in) : tín hiệu đầu vào
q

: tín hiệu nhiễu dư (lượng nhiễu còn lại trong tín hiệu sau

khi đã qua xử lý)
(giá trị bình phương thể hiện công suất của tín hiệu)

Hình 1. 2: Tỷ số tín hiệu trên nhiễu.
Dựa vào tỷ số SNR, chúng ta có thể đánh giá được chất lượng của hệ thống
nâng cao chất lượng tiếng nói: Nếu SNR lớn thì lượng nhiễu trong tín hiệu sau khi
được xử lý qua hệ thống đã được làm giảm nhiều (tương ứng với công suất nhiễu
thấp), chứng tỏ hệ thống hoạt động đạt chất lượng tốt, và ngược lại.
1.2.2. PESQ (Perceptual Evaluation of Speech Quality: đánh giá chất lượng tiếng
nói qua cảm nhận) [12]
Thuật toán PESQ là một phương pháp khách quan đánh giá phép đo chất lượng
tiếng nói. Về cơ bản, PESQ dự đoán các kết quả MOS khách quan thông qua việc so
sánh các quá trình ghi âm tiếng nói được truyền dẫn qua mạng dưới phép kiểm tra (ví
dụ, các file tiếng nói ‘đã được xử lý’), với các bản nguyên gốc của tiến trình ghi âm
tiếng nói đã được xem là đầu vào của mạng truyền dẫn dưới phép kiểm tra (ví dụ, các
file tiếng nói ‘có nhiễu’)

Đặng Quang Hải

--- 12 ---

Lớp: CH Đo lường 2007-2009



NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

Điều quan trọng cần lưu ý là PESQ chỉ đo tính toán trên phương diện chất
lượng truyền dẫn. Khuyến nghị ITU-T P.862 đã diễn tả như sau: “nên chú ý rằng thuật
toán PESQ không cung cấp một đánh giá bao hàm của chất lượng truyền dẫn. Nó chỉ
thực hiện tính toán các ảnh hưởng của méo tiếng nói một đường và nhiễu trên chất
lượng tiếng nói. Các ảnh hưởng của sự suy giảm cường độ âm, độ trễ, nội âm, tiếng
vang, và những hiện tượng suy giảm khác liên quan tới sự tương tác hai đường (ví dụ,
bộ hạn chế trung tâm) không được phản ánh trong các kết quả PESQ. Do đó, có thể đạt
được các kết quả PESQ cao, nhưng xét tổng thể thì chất lượng kết nối lại thấp”
PESQ được suy ra từ việc dự đoán các kết quả trung bình ý kiến (MOS: Mean
Opinion Scores) của chất lượng mạng đầu cuối tới đầu cuối cũng như đánh giá từ bảng
điều khiển của những người nghe. Mỗi người nghe sẽ đánh giá ‘chất lượng của kết
nối’ thông qua việc chọn lựa một trong các chọn lựa: ‘tồi’, ‘xấu’, ‘bình thường’, ‘tốt’,
‘tuyệt hảo’. Các chọn lựa này được đánh số tương ứng từ 1 đến 5, và trung bình của
các con số này sẽ mô tả giá trị MOS. Ví dụ, một hệ thống với kết quả MOS là 3.2 có
nghĩa là ‘bình thường’.
Kể từ khi PESQ được giả định từ phép đo MOS, thì độ chính xác của thuật toán
PESQ được xác định thông qua so sánh PESQ với các kết quả MOS. Ví dụ, giả định
MOS cho một mạng kết nối đặc biệt là 3.2. Nếu thuật toán PESQ là chính xác thì kết
quả PESQ sau đó sẽ rất gần với giá trị 3.2. Nói cách khác, các kết quả PESQ không
gần với giá trị 3.2 sẽ chỉ ra rằng thuật toán PESQ không chính xác. Bằng việc so sánh
các kết quả MOS dự đoán và quan sát được thông qua nhiều kết nối mạng lưới, độ
chính xác của thuật toán PESQ có thể được ước lượng.
1.2.3. Log-Spectral Distortion (LSD)
Logarit méo dạng phổ (hay còn được gọi là logarit khoảng cách phổ (logspectral distance) là một phép đo khoảng cách (trên thang dB) giữa hai quang phổ.
Logarit méo dạng phổ giữa phổ P(ω) và

Đặng Quang Hải


--- 13 ---

được định nghĩa như sau:

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

Một thuật toán nâng cao chất lượng tiếng nói được cho là tốt nếu nó thỏa mãn
đồng thời cả ba tiêu chí : chỉ số tín hiệu trên nhiễu phân đoạn lớn, độ méo trên thang
logarithm nhỏ, và chỉ số PESQ là cao. Ngoài ra, còn có một số tiêu chí đánh giá dựa
vào tăng tỉ lệ nhận dạng ở các hệ thống nhận dạng tiếng nói tự động.

Đặng Quang Hải

--- 14 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

CHƯƠNG II: CÁC PHƯƠNG PHÁP NÂNG CAO
CHẤT LƯỢNG TIẾNG NÓI
Hiện nay trên thế giới có rất nhiều các phương pháp nâng cao chất lượng tiếng nói,
và cũng có rất nhiều các phương pháp hay tiêu chuẩn để đánh giá chúng. Trong các

phương pháp nâng cao chất lượng tiếng nói sử dụng một microphone có thể chia thành
các nhóm phương pháp sau đây: [16]
1 Nhóm các phương pháp thao tác trên miền phổ biên độ của tín hiệu,
2 Nhóm các phương pháp sử dụng bộ lọc thích nghi,
3 Nhóm các phương pháp sử dụng phân li trong không gian con,
4 Nhóm các phương pháp sử dụng sử dụng mô hình của tiếng nói.
Tuy nhiên giữa các nhóm phương pháp không phải tồn tại độc lập mà có thể kết
hợp với nhau.
2.1 Các phương pháp thao tác trên miền phổ biên độ [16]
Nhóm các phương pháp này trước tiên giả thiết rằng phổ pha của tín hiệu không
bị ảnh hưởng bởi phổ pha của nhiễu do đó có thể lấy phổ pha của nhiễu để làm phổ
pha của tín hiệu tiếng nói sạch. Về cơ bản ý tưởng của phương pháp này đó là xác định
phổ năng lượng của tín hiệu nhiễu sau đó phổ năng lượng của tín hiệu sạch được tính
bằng cách lấy phổ năng lượng của tín hiệu có nhiễu trừ đi phổ năng lượng của tín hiệu
nhiễu. Có thể được mô tả như ở hình vẽ dưới

Speech+noise

speech

Spectral
subbtraction

Noise
estimation

Hình 2.1 : Phương pháp trừ phổ kinh điển

Đặng Quang Hải


--- 15 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

Ưu điểm của phương pháp trừ phổ đó là việc thực hiện đơn giản. Tuy nhiên
nhược điểm của phương pháp trừ phổ đó chính là do quá trình ước lượng nhiễu không
được chính xác dẫn đến hiện tượng “musical noise”.
Một phương pháp nâng cao chất lượng tiếng nói khác cũng được nhắc đến
nhiều đó là phương pháp cực tiểu hóa trung bình bình phương sai lệch giữa biên độ tín
hiệu tiếng nói thực và biên độ tiếng nói được ước lượng. Phương pháp này cho kết quả
tốt hơn và loại bỏ hiện tượng “musical noise” và méo tiếng nói.
Những phương pháp thao tác trên miền phổ biên độ thường kết hợp với các
phương pháp ước lượng nhiễu để đạt được kết qua cao hơn. Các phương pháp ước
lượng nhiễu ở đây bao gồm phương pháp ước lượng nhiễu thống kế cực tiểu (minimim
stastistic) và phương pháp ước lượng nhiễu theo trung bình đệ quy cực tiểu có điều
khiển (minimal controller recursive averaging).
2.2 Các phương pháp sử dụng bộ lọc thích nghi [16]
Nhóm các phương pháp sử dụng bộ lọc thích nghi có thể được sử dụng để xác
định các thành phần của tiếng nói mà có tương quan với các tín hiệu tiếng nói ở frame
trước. Nhìn chung cấu trúc của một hệ thống nâng cao chất lượng tiếng nói sử dụng
một microphone có dạng như hình vẽ phía dưới

Hình 2.2: Hệ thống nâng cao chất lượng tiếng nói sử dụng một microphone
Tín hiệu tiếng nói có nhiễu x(n) được lấy trể đi D mẫu và được đưa qua bộ lọc
để đạt được tín hiệu y(n). Tin hiệu y(n) sau đó được trừ đi x(n) để tạo ra tín hiệu sai
lệch e(n). Đáp ứng bộ lọc được điểu chỉnh để theo đường những phản hồi để làm giảm

công suất tín hiệu sai lệch e(n) và đầu ra của bộ lọc được coi như là tổng hợp của tín

Đặng Quang Hải

--- 16 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

hiệu sai lệch e(n) và tín hiệu đầu ra của bộ lọc y(n) theo nguyên tắc nếu có những
thành phần điều hòa hay tiếng nói thì được tăng cường, ngược lại thì loại bỏ. Với tín
hiệu đầu vào x(n) là ổn định, đáp ứng xung w(n) của bộ lọc mà cực tiểu hóa tín hiệu
sai lệch được xác định như sau:

Trong đó rij= E(x(n)x(n+i-j)) và gi=riD=E(x(n)x(n+i+D)). Độ phân giải tần số
của bộ lọc xấp xỉ bằng nghịch đảo chiều dài đáp ứng xung của nó.
Bộ lọc thích nghi thường hầu hết được thực hiện bằng cách sử dụng thuật thoán
LMS hoặc thuật toán bước giảm cực đại NLMS. Thuật toán LMS và NLMS có thể thể
cải thiện được các hệ thống trong trường hợp đầu vào của hệ thống là không ổn định ví
dụ như là tiếng nói.
Việc sử dụng bộ lọc thích nghi đề giảm nhiễu lần đầu tiên được đưa ra bởi
Widrow [1]. Mặc dù các lí thuyết chính được đưa ra là bộ lọc 2 kênh, trong đó việc
tách nhiễu ra khỏi tiếng nói chuẩn là đã có sẵn. Sự phức tạp của việc sử dụng bộ lọc
thích nghi một kênh cho các hệ thống nâng cao chất lượng tiếng nói đó là cả cả thành
phần dải rộng và điều hòa đều tồn tại trong nhiễu và tiếng nói. Do đó cần thiết phải có
sự chọn lọc các thông số của bộ lọc thích nghi một cách cần thận để chỉ tăng cường
thành phần mong muốn.

2.3 Các phương pháp sử dụng mô hình của tiếng nói [16]
Các phương pháp nâng cao chất lượng tiếng nói sử dụng mô hình tiếng nói lợi
dụng các thông tin tiên nghiệm về mô hình ngẫu nhiên rõ ràng của tiếng nói và trong
một số trường hợp là cả của nhiễu. Một số các mô hình khác của tiếng nói hiện có sẵn
bao gồm một số kết hợp với mô hình tự hồi quy của tiếng nói (autoregressive), mô
hình các hệ số cepstral, mô hình Markov ẩn, mô hình bám theo pitch.
Các phương pháp dựa vào mô hình tiếng nói nhìn chung không có ràng buộc so
với tính ổn định của các hệ số hồi quy ước lượng. Trong các ứng dụng mã hóa tiếng
nói, tuy nhiên, các ràng buộc là không có khả năng bất biến để cho phép các giá trị hệ
số bằng phép biến đổi chúng trong miền LSP trước khi lượng tử hóa (ITU-T, 1993a).

Đặng Quang Hải

--- 17 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

2.4 Các phương pháp phân li trong không gian con [16]
Mô hình âm học của hệ thống ống dẫn thanh của người nói thông thường được
sử dụng rộng rãi như là mô hình của một quá trình tự hồi quy (AR). Mô hình này được
coi như là bất biến trong khoảng thời gian khoảng 20ms. Kết quả của phương pháp này
đó là các mẫu tiếng nói trong một frame với chiều dài nằm trong bậc của không gian
con; theo đó mục đích của các phương pháp nâng cao chất lượng tiếng nói sử dụng
cách thức phân li trong không gian con. Phương pháp đầu tiên được đưa ra bởi
Dendrinos và sau đó được Ephraim, Van Trees phát triển, việc sử dụng tách các véc tơ
đặc trưng của ma trận hiệp phương sai của tín hiệu tiếng nói đầu vào được xác định

trong không gian con của tín hiệu. Phương pháp này giả thiết rằng nhiễu là trắng và
như thế ma trận hiệp phương sai của tín hiệu tiếng nói có nhiễu do đó phù hợp với
tổng của ma trận bậc thấp xuất hiện từ tiếng nói và một thừa số của một ma trận xác
định xuất hiện trong nhiễu. Phép ước lượng tuyến tính của tiếng nói ở đây là cực tiểu
độ méo của tiếng nói để ràng buộc với công suất của nhiễu hoặc là trong miền thời
gian hoặc là trong miền tần số.
Một phương pháp được đưa ra bởi Loizou để làm giảm nhiễu màu đó là trong
đó một phép biến đổi không trực giao được sử dụng để tách mà trận hiệp phương sai
của nhiễu và tiếng nói. Phương pháp này sau đó được xem xét lại bởi Lev-Ari và
Ephraim.
2.5 Các phương pháp ước lượng nhiễu [16]
Vấn đề sử dụng cực tiểu hoá thống kê cho quá trình ước lượng nhiễu được giới
thiệu trong Martin năm 1994 và được mở rộng năm 2001. Giả định rằng trong các
miền tần số xuất hiện những khoảng mà năng lượng tín hiệu nhỏ và mức năng lượng
này sau đó sẽ bị ảnh hưởng chi phối bởi nhiễu. Nếu những xuất hiện này xảy ra ít nhất
một lần trong khoảng thời gian T, chúng ta có thể đánh giá năng lượng nhiễu như là
mức năng lượng nhỏ nhất xuất hiện trong khoảng thời gian T trong quá khứ (thông
thường từ 0.5 đến 1.5s). Trong Martin [2001] hệ số bù cố định sử dụng trong thuật
toán gốc được thay thế bằng một hệ số biến thiên theo thời gian và tần số. Một phương
pháp tương tự là sử dụng trong Doblinger [1995] nhưng thay vì đưa ra một giá trị cực
tiểu trên miền thời gian T, phổ tín hiệu tiếng nói có nhiễu được làm trơn sử dụng hai

Đặng Quang Hải

--- 18 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI

SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

hằng số thời gian khác nhau, một hằng số thời gian ngắn được sử dụng khi năng lượng
trong một khoảng tần số giảm dần nhằm đảm bảo tính thích ứng nhanh với một giá trị
cực tiểu mới, trong khi một hằng số thời gian dài được sử dụng khi năng lượng tăng
nhằm chống lại sự thích ứng với năng lượng tín hiệu tiếng nói. Phương pháp này đạt
hiệu quả trong tính toán nhưng khi tính đến quá trình thực hiện thì nó không được
đánh giá cao so với phương pháp cực tiểu hoá thống kê, bởi việc chọn lựa hằng số thời
gian dài là một sự thoả hiệp giữa đáp ứng của những gia tăng đột biến trong tín hiệu
nhiễu và những cản trở năng lượng tín hiệu tiếng nói từ quá trình điều chỉnh năng
lượng nhiễu đã ước lượng.
Qua cái nhìn tổng quan trên, chúng ta có thể thấy mỗi nhóm phương pháp đều
có những ưu nhược điểm riêng, từ phương pháp kinh điển nhất là phương pháp trừ phổ
với thuật toán đơn giản, dễ cài đặt nhưng kết quả thu được không cao (tỷ số SNR
thấp), đồng thời tạo ra một loại nhiễu mới - ‘musical noise’, cho tới những phương
pháp được phát triển về sau này đều gặp phải những hạn chế nhất định, (ví dụ như:
phương pháp lọc Wiener thực hiện khá tốt với việc loại bỏ nhiễu dư trong trường hợp
nhiễu là ổn định (nhiễu trắng), tuy nhiên với trường hợp nhiễu không ổn định, thì
ngoài việc lọc bỏ nhiễu dư, bộ lọc Wiener còn làm mất cả thành phần tiếng nói ….)
Với mục đích nghiên cứu và thử nghiệm một kỹ thuật tổng hợp nhằm đưa ra kết
quả xử lý tiếng nói cao hơn, trong luận văn này, em lựa chọn sử dụng bộ lọc thích nghi
Kalman, thao tác trong miền không gian trạng thái mô hình tín hiệu tiếng nói và tín
hiệu nhiễu, kết hợp với thuật toán ước lượng nhiễu của Doblinger và thuật toán LSL
(Least Squares Lattice) ước lượng tham số hồi quy của tiếng nói, để khôi phục tín hiệu
tiếng nói gốc từ tín hiệu tiếng nói có nhiễu. Chương trình xử lý được chạy thử nghiệm
với bộ cơ sở dữ liệu chuẩn NOIZEUS và dữ liệu thu âm thực tế để đưa ra kết quả đánh
giá.
Các chương tiếp sau đây sẽ lần lượt làm rõ từng vấn đề lý thuyết được sử dụng
để xây dựng thuật toán lọc Kalman thích nghi trong xử lý tiếng nói.


Đặng Quang Hải

--- 19 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

CHƯƠNG III: MÔ HÌNH HOÁ TÍN HIỆU TIẾNG NÓI VÀ TÍN HIỆU NHIỄU
Trong chương này, em xin trình bày những phần sau đây:
- Giới thiệu về tín hiệu tiếng nói và mô hình tiếng nói
- Giới thiệu về các loại nhiễu
3.1 Tín hiệu tiếng nói và mô hình tín hiệu tiếng nói
Chúng ta xem xét vấn đề phát triển tiếng nói sử dụng bộ lọc Kalman. Quá trình
lọc Kalman là một mô hình có tham số dựa trên thuật toán ước lượng. Do đó, chúng ta
sẽ xây dựng các mô hình tín hiệu thích hợp liên quan đến hệ thống phát triển tiếng nói.
In chương này, các mô hình số cho tín hiệu tiếng nói và tín hiệu nhiễu sẽ lần lượt được
giới thiệu. Sau đó, biểu thức toán học của bộ lọc Kalman được phân theo nhóm các
biến trạng thái, các mô hình tín hiệu được công thức hoá trong không gian trạng thái.
3.1.1 Tín hiệu tiếng nói.
Các biểu diễn dạng số của tín hiệu tiếng nói thu được từ quá trình mô hình hoá
thích hợp của quá trình sinh học tạo ra tiếng nói. Cách tổ chức của quá trình tạo ra
tiếng nói được sắp xếp theo hai bước cơ bản: kích thích và chuyển giọng. Sự kích thích
là lực không khí tác động thông qua thanh môn, bộ phận sau đó sẽ tạo ra vùng phát âm
để phát ra tiếng nói. Với những dạng âm thanh khác nhau, kích thích thanh môn và
vùng phát âm sẽ có những đặc tính khác nhau. Có một cách phân loại cơ bản giữa âm
hữu thanh và âm vô thanh. Cách phân loại này được sử dụng rộng rãi trong rất nhiều
kỹ thuật xử lý tiếng nói và nó cũng hữu ích cho mục đích nghiên cứu của chúng ta. Mô

hình bộ lọc nguồn tín hiệu tiếng nói cũng được dựa trên cách phân loại này. Sơ đồ khối
của mô hình được chỉ ra trong hình dưới.

Đặng Quang Hải

--- 20 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

Hình 3.1 : Mô hình tạo ra tiếng nói [3]
Quá trình kích thích tạo ra hai trạng thái của âm hữu thanh và âm vô thanh. Với
các âm hữu thanh, thanh môn tạo ra những xung trong không khí gần như là chu kỳ
với dao động của các dây thanh âm. Mô hình số cho kích thích hữu thanh do đó sẽ là
một chuỗi xung có chu kỳ được điều chỉnh cho phù hợp với mô hình của xung thanh
môn. Với các âm vô thanh, không khí được tạo áp lực trực tiếp từ các lá phổi tới vùng
phát âm. Một nhiễu ngẫu nhiên cũng đủ cho kiểu kích thích này. Do vậy, tín hiệu kích
thích có thể được viết như sau:
⎧⎪ ∞ = −∞g (n − p n )
e(n) = ⎨∑k
⎪⎩
σ d d ( n)

với tín nói hữu thanh
với tiếng nói vô thanh

(3.1)


Trong đó g(n) là dạng xung thanh môn, pn là chu kỳ pitch (đại lượng được giả
định là không đổi trong những khoảng thời gian ngắn), d(n) là biến đơn vị trung bình
zero của nhiễu Gauss trắng.
Vùng phát âm là một hệ thống biến thiên chậm, do đó một mô hình đơn có thể
sử dụng cho cả âm hữu thanh và âm vô thanh. Mô hình ống không tổn hao mô tả vùng
phát âm như là sự kết hợp p vùng nối liền nhau, là một mô hình chấp nhận được về
mặt sinh học. Sự kích thích được giả định thành hình thông qua những ống này đề tạo
Đặng Quang Hải

--- 21 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

ra tiếng nói cuối cùng. Những ống không tổn hao này mô tả cùng với một bộ lọc nhiều
điểm cực biến thiên theo thời gian.

V ( z) =

G
1 + α 1 z + ... + α p z − p

(3.2)

−1


Dựa trên mô hình bộ lọc nguồn, mẫu tiếng nói tại thời điểm n được mô tả như
một sự kết hợp tuyến tính của p mẫu trước đó cộng với tín hiệu kích thích
p

s ( n ) = ∑ a k ( n ) s ( n − k ) + e( n )

(3.3)

k =1

Trong đó: a k = −α k với k=1…p

Nhiều thuật toán phát triển tiếng nói được phát triển dựa trên thiết lập bộ lọc
Kalman xấp xỉ tín hiệu kích thích với nhiễu. Sự xấp xỉ này tạo ra các kết quả phù hợp
cho tiếng nói vô thanh. Nhưng ngược lại, với tiếng nói hữu thanh, sai lệch của quá
trình mô hình hoá làm xấu đi các kết quả của việc nâng cao chất lượng. Thuật toán
được đề xuất giả định một kích thích cố định và nó tạo ra thúc đẩy cơ bản cho tiến
trình này
e( n ) = k n e( n − p n ) + σ d d ( n )

(3.4)

Mô hình mô tả đồng thời kích thích hữu thanh và vô thanh. σ d2 là biến thiên
nhiễu trắng, pn là chu kỳ pitch tức thời, và kn là sức bền tức thời của giọng nói. Với
tiếng nói vô thanh, kn gần bằng zero và kích thích được coi như là nhiễu trắng. Với
tiếng nói vô thanh thì ngược lại, kn gần bằng 1 và σ d2 tiến gần tới zero. Trong trường
hợp này, e(n) tín hiệu có chu kỳ pn. Một ưu điểm khác của mô hình này (có dáng dấp
của mô hình mờ) là kn và σ d2 có các giá trị nằm giữa zero và 1, và do đó có thể mô tả
được các đặc tính pha trộn giữa hữu thanh – vô thanh của tiếng nói.
Mô hình theo biểu thức (3.4) dựa trên giả định rằng tiếng nói là không đổi trên

toàn phổ. Tuy nhiên giả định này không hợp lý. Trong quá trình phục hồi các thành
phần điều hoà trong vùng có tiếng nói, hướng tiếp cận này đã đưa ra một số thành
phần điều hoà phụ trội bổ sung. Nói cách khác, tiếng nói hữu thanh (thực tế cũng chứa
các đặc tính trội vô thanh trong một vài dải tần số) được tái tạo lại như một tín hiệu
hoàn toàn có tính chu kỳ. Với động cơ nhằm xoá bỏ nhược điểm này, mục tiêu chính
Đặng Quang Hải

--- 22 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

nghiên cứu trong luận văn này là mô hình tiếng nói có kích thích đa dải. Tín hiệu kích
thích sẽ được mô hình hoá như là một sự kết hợp M tín hiệu subband (băng con), mỗi
subband này được định nghĩa như trong biểu thức (3.4)
e(n) = e1 ( n) + e2 (n) + ... + e M (n) (3.5)

ei (n) = k ni ei (n − pin ) + σ i d (n) với i = 1…M (3.6)

Trong đó d(n) được định nghĩa như một nhiễu trắng Gauss trung bình 0 phương
sai 1. Mô hình này sẽ giúp chúng ta mô tả được các đặc tính âm thanh của tiếng nói.
Kích thích được mô tả như một sự pha trộn giữa tín hiệu chu kỳ và nhiễu, với tỷ lệ pha
trộn được tính toán tách biệt trên những dải tần khác nhau. Kể từ thời điểm các đặc
tính âm thanh của một đoạn tiếng nói biến thiên qua dải tần số, một phép phân tích
giọng nói ở dải thông sẽ được tiến hành. Thông tin mang tính chu kỳ của mỗi kích
thích subband ei (n) có thể được tính toán hoặc bằng cách sử dụng chu kỳ pitch cơ bản,
hoặc bằng thành phần điều hoà nhỏ nhất của chu kỳ pitch bên trong dải. Kỹ thuật mã

hoá tiếng nói hiện thời cũng khuyến khích sử dụng phân tích giọng nói dải thông nhằm
nâng cao chất lượng tiếng nói. Điều cần thiết cho phép phân tích giọng nói dải thông
cũng có thể nhìn thấy rõ trong hình 3.3. Tín hiệu kích thích khi xem xét trên các băng
khác nhau sẽ có các đặc tính khác nhau. Trong một vài khoảng thời gian cố định, đặc
tính mang tính chu kỳ sẽ nổi bật trong một số băng, trong khi ở một số băng khác
thành phần nhiễu chiếm ưu thế hơn hẳn về tính chu kỳ.

Hình 3.2: Ảnh phổ tiếng nói của một phụ nữ phát âm cụm từ “ Argue history” [3]

Đặng Quang Hải

--- 23 ---

Lớp: CH Đo lường 2007-2009


NGHIÊN CỨU KỸ THUẬT GIẢM NHIỄU CHO TÍN HIỆU TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN THÍCH NGHI

Chúng ta nghiên cứu thuật toán phát triển dựa trên quá trình lọc Kalman, do đó
ở phần tiếp theo, chúng ta sẽ biểu thức hoá mô hình mục tiêu theo các biến không gian
trạng thái.
3.1.2. Mô hình tiếng nói.
Vectơ trạng thái cho tín hiệu tiếng nói được xây dựng từ p mẫu trước đó (trong
quá khứ) của tiếng nói.
x s (n) = [s (n) s (n − 1) ... s (n − p + 1)

]T

Trong thực tế, mô hình bậc p thông thường được chọn là 10. Với định nghĩa

vectơ trạng thái này, mô hình LPC của tiếng nói có thể được diễn tả trong không gian
trạng thái như sau:
x s (n) = Fs (n) x s (n − 1) + Ds e(n)

(3.7)

s ( n ) = C s x s ( n)

(3.8)

Trong đó:
⎡a1 (n) a 2 (n)
⎢ 1
0

Fn ( s ) = ⎢ 0
1

Λ
⎢ Λ
⎢⎣ 0
0

DsT = C s = [1 0 Λ

Λ
Λ
Λ
Ο
Λ


a p −1 (n) a p (n)⎤
0
0 ⎥⎥
0
0 ⎥

Λ
Λ ⎥
1
0 ⎥⎦

0]

(3.9)

(3.10)

Hình 3.3: Ảnh phổ của tín hiệu kích thích thu được từ quá trình lọc đảo LPC tín hiệu
tiếng nói trong hình 3.2
Đặng Quang Hải

--- 24 ---

Lớp: CH Đo lường 2007-2009


×