Tải bản đầy đủ (.pdf) (76 trang)

Nghiên cứu hệ thống nhận dạng bền vững tiếng nói ứng dụng trong nhận dạng từ khóa tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.45 MB, 76 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------NGUYỄN THỊ ANH XUÂN

Nghiên cứu hệ thống nhận dạng bền vững tiếng nói Ứng dụng trong nhận dạng từ khóa tiếng Việt

Chuyên ngành : Đo lường và các hệ thống điều khiển

LUẬN VĂN THẠC SĨ KHOA HỌC :
ĐO LƯỜNG

NGƯỜI HƯỚNG DẪN KHOA HỌC :
TS NGUYỄN QUỐC CƯỜNG
Hà Nội, 2010


Luận văn thạc sỹ khoa học

MỤC LỤC…………………………………………………………………………...i
LỜI CAM ĐOAN ..................................................................................................... iv 
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT............................................ vi 
DANH MỤC CÁC BẢNG....................................................................................... vii 
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ................................................................. viii 
MỞ ĐẦU.....................................................................................................................1 
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT ...........................................................................3 
1.1.Mô hình hệ thống tự động nhận dạng tiếng nói................................................3 
1.2. Các vấn đề tồn tại trong hệ thống nhận dạng tiếng nói hiện nay......................6 
1.2.1. Các vấn đề tồn tại......................................................................................6 
1.2.2. Hướng giải quyết.......................................................................................7 
1.3. Một số phương pháp nâng cao chất lượng nhận dạng tiếng nói.......................8 
1.3.1. Các phương pháp lọc nhiễu tín hiệu tiếng nói đầu vào.............................8 


1.3.2. Các phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói.........12 
1.3.3. Mô hình nhận dạng thích nghi với môi trường .......................................14 
1.4. Lựa chọn phương pháp nhận dạng bền vững với nhiễu của môi trường........21 
CHƯƠNG 2: PHƯƠNG PHÁP THÍCH NGHI MÔ HÌNH CỦA HỆ THỐNG
NHẬN DẠNG TIẾNG NÓI DÙNG CHUỖI TAYLOR (VECTOR TAYLOR
SERIES - VTS) .........................................................................................................27 
2.1. Ý tưởng và sơ đồ khối của phương pháp VTS ...............................................27 
2.2. Thuật toán cập nhật lại Mean và Variance mô hình của hệ thống nhận dạng
tiếng nói .................................................................................................................28 
2.3. Cập nhật lại Mean và Variance của nhiễu và kênh truyền .............................31 
2.3.1. Cập nhật lại Mean của kênh truyền.........................................................32 
Trần Thị Anh Xuân                                         i 


Luận văn thạc sỹ khoa học

2.3.2. Cập nhật lại Mean và Variance của nhiễu...............................................32 
2.4. Lưu đồ thuật toán............................................................................................35 
CHƯƠNG 3: TRIỂN KHAI THUẬT TOÁN VTS ..................................................37 
3.1. Những khó khăn trong quá trình triển khai thuật toán ...................................37 
3.2. Tổng quan về Sphinx ......................................................................................38 
3.3. Cách tích hợp thuật toán VTS vào hệ thống Sphinx ......................................40 
3.3.1. Cấu trúc chung của một module trong Sphinx........................................40 
3.3.2. Xây dựng module về thuật toán VTS......................................................42 
3.4. Ứng dụng thuật toán VTS trong bài toán nhận dạng tiếng nói chữ số tiếng
Việt.........................................................................................................................45 
3.4.1. Cơ sở dữ liệu ...........................................................................................45 
3.4.2. Xây dựng mô hình nhận dạng .................................................................47 
3.4.3. Chạy thử nghiệm và đánh giá kết quả của thuật toán ở thử nghiệm 1....50 
3.5. Xây dựng chương trình mô phỏng thuật toán HMM + VTS ..........................55 

3.5.1. Giao diện của chương trình mô phỏng....................................................56 
3.5.2. Cách sử dụng chương trình mô phỏng ....................................................56 
CHƯƠNG 4: ỨNG DỤNG TRONG NHẬN DẠNG TỪ KHÓA............................58 
4.1. Khái niệm về nhận dạng từ khóa ....................................................................58 
4.2. Mô hình của hệ thống nhận dạng từ khóa.......................................................58 
4.3. Các phương pháp nhận dạng từ khóa .............................................................61 
4.3.1. Xây dựng mô hình dựa trên kinh nghiệm và hiểu biết về mặt âm học
tiếng nói.............................................................................................................61 
4.3.2. Xây dựng mô hình dựa trên hệ thống nhận dạng từ điển lớn .................61 
4.3.3. Xây dựng mô hình cho các nhóm từ bổ sung..........................................62 

Trần Thị Anh Xuân                                         ii 


Luận văn thạc sỹ khoa học

4.4. Ứng dụng thuật toán VTS trong bài toán nhận dạng từ khóa tiếng Việt........62 
4.4.1. Cơ sở dữ liệu ...........................................................................................62 
4.4.2. Xây dựng mô hình nhận dạng .................................................................63 
4.4.3. Chạy thử nghiệm và đánh giá kết quả của thuật toán ở thử nghiệm 2....64 
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................66 
TÀI LIỆU THAM KHẢO.........................................................................................67 

Trần Thị Anh Xuân                                         iii 


Luận văn thạc sỹ khoa học

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, dưới sự hướng

dẫn trực tiếp của TS.Nguyễn Quốc Cường – Đại học Bách Khoa Hà Nội.Các số
liệu, kết quả nghiên cứu trình bày trong luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ một công trình nghiên cứu nào khác.
Học viên

Trần

Trần Thị Anh Xuân                                         iv 

Thị

Anh

Xuân


Luận văn thạc sỹ khoa học

LỜI CẢM ƠN
Tác giả xin chân thành cảm ơn TS.Nguyễn Quốc Cường đã tận tình chỉ bảo,
hướng dẫn, giúp đỡ và tạo mọi điều kiện trong suốt thời gian tác giả nghiên cứu để
hoàn thành luận văn.
Tác giả cũng xin chân thành cảm ơn ban lãnh đạo và các anh chị tại trung tâm
MICA – Đại học Bách Khoa Hà Nội đã tạo mọi điều kiện cho tác giả trong suốt thời
gian thực tập hoàn thành luận văn.

Trần Thị Anh Xuân                                         v 


Luận văn thạc sỹ khoa học


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Các ký hiệu, các chữ viết tắt được sử dụng trong luận văn:
CMN

: Cepstral Mean Normalization

CMVN

: Cepstral Mean and Variance Normalization

HMM

: Hidden Markov Models

MFCC

: Mel-Frequency Cepstrum Coefficients

MLLR

: Maximum Likelihood Linear Regression

PMC

: Parallel Model Combination

VTS

: Vector Taylor Series


WAcc

: Word Accuracy

WER

: Word Error Rate

Trần Thị Anh Xuân                                         vi 


Luận văn thạc sỹ khoa học

DANH MỤC CÁC BẢNG
Bảng 1: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có nhiễu..........21
Bảng 2: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có ồn trắng .....22
Bảng 3: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có nhiễu pink..22
Bảng 4: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có nhiễu..........23
công nghiệp ...............................................................................................................23
Bảng 5: Tỷ lệ lỗi trung bình của phương pháp PMC và MLLR,1 ............................24
Bảng 6: Tỷ lệ lỗi trung bình của phương pháp PMC và MLLR, 2 ...........................24
Bảng 7: Tỷ lệ nhận dạng đúng của VTS và MLLR trong môi trường có nhiễu thuộc
nhóm A: a, VTS; b, MLLR ...............................................................................25
Bảng 8: Tỷ lệ nhận dạng đúng của VTS và MLLR trong môi trường có nhiễu thuộc
nhóm B: a, VTS; b, MLLR ...............................................................................26
Bảng 9: WER của hệ thống nhận dạng với HMM sạch ở thử nghiệm 1 ..................51
Bảng 10: WER của hệ thống nhận dạng với HMM + VTS ở thử nghiệm 1.............51
Bảng 11: WER của HMM sạch và HMM+VTS ở SNR =0dB, ở thử nghiệm 2.......64
 


Trần Thị Anh Xuân                                         vii 


Luận văn thạc sỹ khoa học

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1: Sơ đồ quá trình huấn luyện ............................................................................3
Hình 2: Sơ đồ hệ thống tự động nhận dạng tiếng nói .................................................3
Hình 3: Sơ đồ khối của thuật toán nâng cao chất lượng tiếng nói sử dụng ..............10
phương pháp trừ phổ .................................................................................................10
Hình 4: Mô hình tiếng nói trong môi trường có nhiễu.............................................12
Hình 5: Mô hình của phương pháp PMC..................................................................20
Hình 6: Sơ đồ khối hệ thống nhận dạng có áp dụng phương pháp VTS .................... i
Hình 7: Mô hình của tiếng nói trong môi trường có nhiễu .......................................28
Hình 8: Sơ đồ lưu đồ thuật toán thích nghi mô hình HMM dùng xấp xỉ Taylor ......37
Hình 9: Mô hình hệ thống nhận dạng từ khóa không áp dụng thuật toán VTS ........48
Hình 10: Mô hình hệ thống nhận dạng từ khóa áp dụng thuật toán VTS .................48
Hình 11: Sơ đồ khối phân tích đặc trưng MFCC của tín hiệu tiếng nói ...................49
Hình 12: Đồ thị kết quả nhận dạng của HMM sạch và HMM+VTS ở SNR = 0dB ở
thử nghiệm 1......................................................................................................53
Hình 13: Đồ thị kết quả nhận dạng của HMM sạch và HMM+VTS ở SNR = 5dB ở
thử nghiệm 1......................................................................................................53
Hình 14: Đồ thị kết quả nhận dạng của HMM sạch và HMM+VTS ở SNR = 10dB ở
thử nghiệm 1......................................................................................................54
Hình 15: Đồ thị kết quả nhận dạng của HMM sạch và HMM+VTS ở SNR = 15dB ở
thử nghiệm 1......................................................................................................54
Hình 16: Giao diện chương trình mô phỏng thuật toán VTS...................................56
Hình 17: Sơ đồ nhận dạng tiếng nói chung...............................................................60
Hình 18: Mô hình ngôn ngữ sử dụng trong nhận dạng từ khóa...............................60

Hình 19: Đồ thị kết quả nhận dạng của HMM sạch và HMM+VTS ở SNR = 0dB ở
thử nghiệm 2......................................................................................................65

Trần Thị Anh Xuân                                         viii 


Luận văn thạc sỹ khoa học

MỞ ĐẦU
Lý do chọn đề tài
• Cơ sở khoa học:
Nhận dạng tiếng nói là lĩnh vực nghiên cứu đuợc bắt đầu từ những năm 1960
và hiện nay vẫn đang được nghiên cứu tại các phòng thí nghiệm trên thế giới.
Nhận dạng tiếng nói bao gồm: xử lý tín hiệu tiếng nói và kỹ thuật nhận dạng.
• Cơ sở thực tiễn:
Các hệ thống tự động nhận dạng tiếng nói có những ứng dụng rất tích cực vào
đời sống của con người. Các hệ thống này góp phần làm “thông minh hóa” cuộc
sống của chúng ta, như điều khiển các thiết bị điện-điện tử bằng tiếng nói: ti vi, điều
hòa nhiệt độ,…,nhập các thông tin bằng tiếng nói, và đặc biệt có vai trò quan trọng
trong các trường hợp điều khiển khi mà hai tay của người vận hành đều bận.
Do vậy, việc nâng cao chất lượng của hệ thống nhận dạng tiếng nói là rất cần
thiết. Đó chính là lý do quan trọng để tôi chọn đề tài “Nghiên cứu hệ thống nhận
dạng bền vững tiếng nói – Ứng dụng trong nhận dạng từ khóa tiếng Việt” làm luận
văn thạc sỹ của mình
Lịch sử nghiên cứu
Các phương pháp bền vững tiếng nói được nghiên cứu từ khoảng cách đây 10
năm, nhưng các phương pháp này mới được nghiên cứu và phát triển vào trong các
hệ thống nhận dạng tiếng nói ở Việt Nam trong mấy năm gần đây.
Mục đích nghiên cứu của luận văn
Nghiên cứu và lựa chọn ra phương pháp nhận dạng tiếng nói bền vững với

nhiễu để cải thiện chất lượng nhận dạng tiếng nói so với mô hình hệ thống nhận
dạng được huấn luyện bởi bộ dữ liệu sạch.

Trần Thị Anh Xuân




Luận văn thạc sỹ khoa học

Các đóng góp mới
Ứng dụng phương pháp bền vững với nhiễu vào hệ thống nhận dạng tiếng
Việt. Đây là lĩnh vực chưa được nghiên cứu tại Việt Nam.
Phương pháp nghiên cứu:
Đầu tiên nghiên cứu lý thuyết, và triển khai thuật toán trên Matlab. Sau đó
triển khai thuật toán bằng ngôn ngữ C và tích hợp vào hệ thống nhận dạng tiếng nói
Sphinx3 để đánh giá chất lượng của thuật toán.
Hệ thống nhận dạng được xây dựng bằng mô hình Markov ẩn HMM kết hợp
với phương pháp thích nghi với nhiễu.
Cấu trúc luận văn:
Tác giả chia luận văn gồm các phần sau:
Mở đầu
Chương 1: Cơ sở lý thuyết
Chương 2: Phương pháp thích nghi mô hình của hệ thống nhận dạng tiếng nói
dùng chuỗi Taylor (Vector Taylor Series - VTS)
Chương 3: Triển khai thuật toán
Chương 4: Ứng dụng trong nhận dạng từ khóa
Kết luận
Để đánh giá chất lượng của thuật toán nhận dạng bền vững với nhiễu, tác giả
tiến hành hai thử nghiệm:

• Thử nghiệm 1: Ứng dụng thuật toán trong nhận dạng tiếng nói chữ số tiếng
Việt
• Thử nghiệm 2: Ứng dụng thuật toán trong nhận dạng từ khóa (mười tiếng nói
chữ số tiếng Việt)
Và do thuật toán thích nghi với nhiễu chỉ tác động đến mô hình âm học của hệ
thống nhận dạng, nên trong mô hình nhận dạng của hai thử nghiệm trên tác giả chỉ
sử dụng mô hình âm học, không sử dụng mô hình ngôn ngữ.
Trần Thị Anh Xuân




Luận văn thạc sỹ khoa học

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1.1.Mô hình hệ thống tự động nhận dạng tiếng nói

Tín hiệu

Trích chọn

Huấn

Mô hình

tiếng nói

đặc trưng

luyện


âm học

Hình 1: Sơ đồ quá trình huấn luyện

 

Mô hình

 

âm học

 
 
 
 
 

Tín hiệu

Trích chọn

Giải mã

Kết quả

tiếng nói

đặc trưng


(Decoding)

nhận dạng

 
 
 

Từ điển

Mô hình

phiên âm

ngôn ngữ

Hình 2: Sơ đồ hệ thống tự động nhận dạng tiếng nói
Tín hiệu tiếng nói sau khi được lấy mẫu và tiền xử lý sẽ được đưa đến khối trích
chọn đặc trưng để lấy các thông tin có ích về tiếng nói, phục vụ cho quá trình nhận
dạng. Sau khi trích chọn đặc trưng, các vector đặc trưng tiếng nói được đưa vào
khối nhận dạng (giải mã) (Hình 2), kết hợp với các hiểu biết về đặc trưng ngôn ngữ
học và đặc trưng về âm học của tiếng nói, khối nhận dạng sẽ đưa ra kết quả nhận
dạng hợp lý nhất. Bộ tham số của mô hình nhận dạng thu được trong quá trình
luyện mô hình với một tập dữ liệu huấn luyện có trước (Hình 1). Nếu tập dữ liệu
huấn luyện càng lớn thì khả năng nhận dạng của mô hình sẽ càng cao.

Trần Thị Anh Xuân





Luận văn thạc sỹ khoa học

Quá trình trích chọn đặc trưng tiếng nói
Quá trình này nhằm giảm kích thước (dung lượng thông tin) của tiếng nói đầu
vào và lấy ra các thông tin có ích về tín hiệu tiếng nói. Tiếng nói được phân tích
theo các khung thời gian được gọi là frame. Kết quả của giai đoạn này là các vector
đặc tính của mỗi khung tín hiệu tiếng nói.
Có nhiều phương pháp trích chọn đặc trưng tiếng nói như MFCC, LPC,
PLP,…Trong đó, phương pháp MFCC là được dùng phổ biến hiện nay.
MFCC là phương pháp phân tích đặc trưng tín hiệu tiếng nói dựa trên sự cảm
nhận của tai người đối với các dải tần số khác nhau. Với tần số thấp (< 1000Hz), độ
cảm nhận của tai người là tuyến tính với tần số. Đối với các tần số cao, độ cảm nhận
của tai người là biến thiên theo hàm logarit.
Người ta chọn tần số 1kHz, 40dB trên ngưỡng nghe là 1000 Mel. Công thức gần
đúng biểu diễn quan hệ tần số ở thang Mel và thang Hz như sau:
(1)
Một phương pháp để chuyển đổi sang thang Mel là sử dụng băng lọc, trong đó
mỗi bộ lọc có đáp ứng tần số dạng tam giác. Các băng lọc tuyến tính ở tần số thấp
và biến thiên theo hàm số logarit ở tần số cao.
Phương pháp huấn luyện mô hình và giải mã (decoding) câu tiếng nói
Một phương pháp kinh điển được sử dụng trong hệ thống nhận dạng tiếng nói đó
là mô hình Markov ẩn HMM [1].
Mô hình Markov ẩn là phương pháp mô hình hóa cấu trúc động của tiếng nói.
Phương pháp này là hướng tiếp cận đối sánh mẫu xác suất, với giả định rằng ở đó
các mẫu tiếng nói tuần tự theo thời gian là kết quả của quá trình thống kê, và các kết
quả này có thể ước lượng.
Các thành phần cơ bản của mô hình Markov ẩn:


Trần Thị Anh Xuân




Luận văn thạc sỹ khoa học

1. Số lượng trạng thái của mô hình N:


. Ký hiệu trạng thái ở thời điểm t

.
2. Số lượng quan sát phân biệt M. Ký hiệu tập quan sát là V =
3. Ma trận phân phối xác suất chuyển trạng thái A =

, trong đó aijlà xác suất

chuyển từ trạng thái i ở thời điểm t sang trạng thái j ở thời điểm t+1
aij = P (

)

với

Với điều kiện:
4. Ma trận phân phối xác suất phát ra một quan sát ở một trạng thái B =
trong đó

là xác suất nhận được quan sát


,

ở trạng thái j:
với

Với điều kiện:
5. Ma trận phân phối trạng thái ban đầu:

, trong đó

là xác suất của mô

hình ở trạng thái i tại thời điểm ban đầu t=1:

Với điều kiện:
Mô hình Markov ẩn được ký hiệu như sau:
Ý tưởng của quá trình nhận dạng với mô hình Markov ẩn:
Cho chuỗi quan sát O =
được một chuỗi quan sát

và mô hình

, làm sao ta chọn

tương ứng phù hợp nhất.

Ý tưởng của quá trình huấn luyện với mô hình Markov ẩn: Làm thế nào để điều
chỉnh tham số mô hình


để mô tả tốt nhất sự xuất hiện của mỗi chuỗi

quan sát, nghĩa là tìm max P(O|λ).

Trần Thị Anh Xuân




Luận văn thạc sỹ khoa học

1.2. Vấn đề tồn tại trong hệ thống nhận dạng tiếng nói hiện nay
1.2.1. Vấn đề tồn tại
a. Vấn đề
Các nghiên cứu ở Việt Nam chủ yếu tập trung vào xây dựng các hệ thống nhận
dạng tiếng nói trong môi trường “sạch”, không có nhiễu
Điều này là một hạn chế rất lớn trong việc đưa hệ thống nhận dạng tiếng nói
vào trong các ứng dụng thực tế
b. Nguyên nhân
1. Ảnh hưởng của nhiễu làm sai lệch tín hiệu tiếng nói
2. Sự không phù hợp giữa tập dữ liệu luyện (môi trường luyện) và dữ liệu
kiểm tra (môi trường kiểm tra)
3. Môi trường truyền khác nhau (microphone khác nhau)

c. Các chỉ tiêu đánh giá chất lượng hệ thống nhận dạng
Khi thiết kế hệ thống tự động nhận dạng tiếng nói, các yếu tố có tính chất
quyết định tính khả thi của hệ thống đó là:
1. Chất lượng nhận dạng tiếng nói
Chất lượng của hệ thống nhận dạng tiếng nói thường được đánh giá dựa
trên tỷ lệ lỗi từ. Hệ thống nhận dạng tiếng nói có tỷ lệ lỗi từ càng thấp là hệ thống

nhận dạng tiếng nói càng chính xác.
Công thức xác định tỷ lệ lỗi Word Error Rate (WER) như sau:
(2)
Trong đó:
S là số lượng từ bị thay thế
I là số lượng từ bị them vào
Trần Thị Anh Xuân




Luận văn thạc sỹ khoa học

D là số lượng từ bị xóa
N là tổng số từ cần nhận dạng
Và khi đó tỷ lệ nhận dạng chính xác của hệ thống nhận dạng tiếng nói
Word Accuracy (WAcc) được tính như sau:
(3)
Trong đó, H là số lượng từ nhận dạng đúng
2. Thời gian nhận dạng tiếng nói
d. Bài toán đặt ra với hệ thống tự động nhận dạng tiếng nói
Bài toán: Xây dựng hệ thống nhận dạng tiếng nói có thể hoạt động được trong
môi trường có nhiễu.
Muốn tăng chất lượng của hệ thống tự động nhận dạng tiếng nói, chúng ta cần
áp dùng rất nhiều thuật toán phức tạp vào trong quá trình trích đặc trưng tiếng nói
hoặc quá trình cập nhật lại bộ tham số mô hình Markov. Điều này dẫn đến khối
lượng tính toán tăng, thời gian xử lý tăng, và do đó thời gian nhận dạng tăng lên,
trong nhiều trường hợp có thể phá vỡ tính thời gian thực của hệ thống tự động nhận
dạng tiếng nói online.
Vì vậy, vấn đề đặt ra đối với hệ thống tự động nhận dạng tiếng nói, đó là bài

toán dung hòa giữa vấn đề nâng cao chất lượng nhận dạng tiếng nói và thời gian
nhận dạng tiếng nói.
1.2.2. Hướng giải quyết
Để giải quyết bài toán đặt ra của hệ thống nhận dạng tiếng nói trên, chúng ta
tích hợp các phương pháp thích nghi với nhiễu vào trong hệ thống tự động nhận
dạng tiếng nói, trong đó:
• Vẫn sử dụng mô hình Markov ẩn HMM trong hệ thống nhận dạng tiếng nói
• Khâu thích nghi với nhiễu sẽ được tích hợp vào trong quá trình giải mã

Trần Thị Anh Xuân




Luận văn thạc sỹ khoa học

1.3. Một số phương pháp nâng cao chất lượng nhận dạng tiếng nói
Các hệ thống nhận dạng tiếng nói thường được huấn luyện trong môi trường
phòng thí nghiệm (được coi là môi trường sạch), do đó sẽ bỏ qua rất nhiều yếu tố
môi trường thực có thể tác động đến tín hiệu tiếng nói. Điều này làm cho chất lượng
hệ thống nhận dạng tiếng nói sẽ giảm trong môi trường thực và thay đổi ở các môi
trường khác nhau.
Một phương án giải quyết đó là, với mỗi một môi trường ứng dụng khác nhau,
chúng ta sẽ xây dựng lại một hệ thống nhận dạng tương ứng, với tập dữ liệu luyện
được thu âm tại chính môi trường đó. Phương án này mặc dù có thể sẽ cải thiện chất
lượng của hệ thống nhận dạng, nhưng mất nhiều thời gian và công sức. Mặt khác
phương pháp này chỉ áp dụng được với một môi trường cụ thể với điều kiện môi
trường đó ít có những biến động đột biến, vì khi có những tác động đột biến vào
tiếng nói cần nhận dạng, mà điều này không xuất hiện trong tập dữ liệu luyện thì sẽ
làm tăng tỷ lệ lỗi của hệ thống nhận dạng tiếng nói.

Phương án khả thi hơn, áp dụng các phương pháp nhận dạng bền vững với
nhiễu vào hệ thống nhận dạng tiếng nói, nhờ đó cùng một hệ thống nhận dạng tiếng
nói có thể ứng dụng vào các môi trường khác nhau mà chất lượng nhận dạng của hệ
thống được cải thiện.
Một số phương pháp nhận dạng tiếng nói bền vững với nhiễu:
1. Lọc nhiễu tín hiệu tiếng nói đầu vào
2. Biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói về dạng phù hợp với đặc
trưng tín hiệu tiếng nói sạch hoặc về các dạng ít chịu ảnh hưởng của nhiễu hơn
3. Mô hình nhận dạng thích nghi với môi trường

1.3.1. Các phương pháp lọc nhiễu tín hiệu tiếng nói đầu vào
Một số phương pháp lọc nhiễu kinh điển tín hiệu tiếng nói đầu vào:
• Phương pháp trừ phổ
• Phương pháp ước lượng cực tiểu hóa trung bình bình phương sai lệch
Trần Thị Anh Xuân




Luận văn thạc sỹ khoa học

• Phương pháp ước lượng cực tiểu hóa trung bình bình phương sai lệch
trên thang logarithm

Các phương pháp lọc nhiễu kinh điển tín hiệu tiếng nói đầu vào có cải thiện
chất lượng nhận dạng nhưng không nhiều.
Bên cạnh các phương pháp lọc nhiễu kinh điển tín hiệu tiếng nói đầu vào, có
một số phương pháp lọc nhiễu nâng cao được rất nhiều chất lượng nhận dạng,
nhưng công thức rất phức tạp, làm cho thời gian tính toán sẽ tăng, sẽ làm vi phạm
tính thời gian thực của hệ thống nhận dạng online.

1.3.1.1. Phương pháp trừ phổ
a. Ý tưởng của phương pháp
Theo phương pháp trừ phổ [11][12] thì nếu gọi

,

,

lần lượt là phổ

biên độ của tín hiệu tiếng nói có nhiễu, tiếng nói gốc và nhiễu. Giả thiết rằng pha
của tiếng nói có nhiễu và pha của tiếng nói là giống nhau, tiếng nói và nhiễu là độc
lập với nhau thì ta có

. Trong đó k là chỉ số trong miền tần số, l là

chỉ số khung dữ liệu, h là cửa sổ phân tích Hamming có chiều dài L, L-M là lượng
dữ liệu ở hai khung kế tiếp chồng lên nhau. Tín hiệu trước khi được biến đổi
Fourier thì được phân vào các khung dữ liệu xếp chồng lên nhau và nhân thường
với hàm cửa sổ Hamming h.
Giả sử như nhiễu đã biết thì có thể xác định được tín hiệu tiếng nói gốc đơn
giản như sau:
(4)
Sử dụng phép biến đổi Fourier ngược cùng với hàm cửa sổ tổng hợp

chúng

ta thu được ước lượng tín hiệu tiếng nói sạch có dạng:
(5)
Mô hình chung của phương pháp được khái quát hóa như sau:


Trần Thị Anh Xuân




Luận văn thạc sỹ khoa học

Tiếng nói có nhiễu

phân tích

FFT

Ước lượng phổ
biên độ nhiễu

Phổ pha

Ước lượng phổ
biên độ tiếng nói
xˆ( n)

tổng hợp

IFFT

Tiếng nói
Hình 3: Sơ đồ khối của thuật toán nâng cao chất lượng tiếng nói sử dụng
phương pháp trừ phổ

Trong phương pháp trừ phổ thì nhiễu giả thiết là đã biết hoặc là được ước
lượng bằng phổ biên độ trung bình của L khung dữ liệu đầu. Thường chọn L = 6
trong trường hợp tín hiệu tiếng nói được lấy mẫu với tần số là 8kHz. Chiều dài
khung dữ liệu được chọn là 20ms. Hàm cửa sổ được chọn ở đây là hàm cửa sổ
Hamming. Tín hiệu sau khi được phân thành các khung dữ liệu nhỏ sẽ được nhân
thường với hàm của sổ Hamming để tính biến đổi Furier. Phổ biên độ của tín hiệu
tiếng nói sạch sẽ được tính bằng hiệu của phổ biên độ tiếng nói có nhiễu trừ đi phổ
biên độ của nhiễu. Phổ pha của tín hiệu tiếng nói sạch được lựa chọn là phổ pha của
tín hiệu tiếng nói có nhiễu do phổ pha coi như là không đổi [13]. Tiếng nói được
khôi phục từ phổ biên độ và phổ pha được tính như trên.
b. Ưu điểm và nhược điểm
Ưu điểm
Ưu điểm của phương pháp trừ phổ là thời gian thực hiện là nhanh.
Nhược điểm

Trần Thị Anh Xuân

10 


Luận văn thạc sỹ khoa học

Nhược điểm của phương pháp trừ phổ là do việc ước lượng nhiễu không được
chính xác dẫn đến sự biến thiên đột ngột của phổ biên độ của tiếng nói sạch và gây
ra hiện tượng âm thanh khó chịu khi nghe hay còn gọi là hiện tượng “musical
noise”. Ngoài ra trong phương pháp trừ phổ thì lượng nhiễu dư cũng còn nhiều.
Phương pháp chỉ tốt trong trường hợp là nhiễu thấp và nhiễu là ổn định.
1.3.1.2. Phương pháp ước lượng cực tiểu hóa bình phương sai lệch
Ý tưởng của phương pháp:
Quá trình ước lượng thực hiện trong khung dữ liệu của tín hiệu có kích

thước T (đủ nhỏ để xem như tiếng nói là dừng). Ta sẽ dùng các hàm cửa sổ để tạo ra
các khung dữ liệu có độ dài thích hợp.
Mô hình hóa tiếng nói vẫn được giữ như cũ:

với

,

quá trình quan sát được thực hiện trong khung dữ liệu có kích thước T.
Phân tích phổ Fourier của tín hiệu:
biểu diễn thành phần phổ thứ k của tín hiệu

,
,



và tín hiệu quan sát

trong

khoảng [0,T].
Mục đích của phương pháp: ước lượng các hệ số

dựa vào chuỗi quan sát

. Với giả thuyết độc lập thống kê của các thành phần phổ, biểu thức ước
lượng

có thể được xác định như sau sao cho cực tiểu hóa kì vọng sai lệch giữa


tín hiệu thực và tín hiệu được ước lượng [13]:
(6)
Trong

là giá trị biên độ của đại lượng cần ước lượng tại điểm tần số thứ k.

Cần lưu ý là giá trị ước lượng của A được tính toán sau khi đã quan sát được
tín hiệu y(t). Do đó kì vọng sai lệch ở trên có thể được viết lại như sau:
(7)
Kết quả của phép ước lượg ở trên cho kết quả:
(8)

Trần Thị Anh Xuân

11 


Luận văn thạc sỹ khoa học

1.3.2. Các phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói
Mục đích của biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói là loại bỏ tính
biến thiên không liên quan đến cách phát âm, giảm sự không phù hợp giữa tập dữ
liệu huấn luyện và tập dữ liệu kiểm tra.Thậm chí trong trường hợp không biết đặc
trưng tín hiệu tiếng nói bị phá hỏng thế nào, việc áp dụng các phương pháp biến đổi
chuẩn hóa đặc trưng tín hiệu tiếng nói vẫn có thể làm giảm tác dụng của sự phá
hỏng đó.
Chúng ta xét một số phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng
nói [4][1] như sau:
• Cepstral Mean Normalization (CMN)

• Cepstral Mean and Variance Normalization (CMVN)
•…
Xét mô hình tiếng nói trong môi trường thực như sau:

x[m]

y[m]

h[m]

n[m]
Hình 4: Mô hình tiếng nói trong môi trường có nhiễu
Với x, h, y, n lần lượt là đặc trưng tín hiệu tiếng nói sạch, kênh truyền, tiếng
nói có nhiễu, nhiễu trong miền cepstral.
1.3.2.1. Cepstral Mean Normalization (CMN) [4]
a. Vấn đề
Mỗi microphone khác nhau có hàm truyền đạt khác nhau, và thậm chí với
cùng một microphone thì hàm truyền đạt cũng có thế khác nhau, phụ thuộc vào
khoảng cách của microphone tới nguồn phát ra tiếng nói. Do đó tín hiệu tiếng nói
nhận được sau microphone sẽ khác nhau [4].

Trần Thị Anh Xuân

12 


Luận văn thạc sỹ khoa học

b. Thuật toán
Xét


là đặc trưng tiếng nói sạch; h là hàm truyền của

microphone tương ứng với bộ lọc tuyến tính;

là tiếng nói sau khi

qua microphone.
Phương pháp CMN [4] sử dụng tín hiệu chuẩn hóa sai lệch giữa đặc trưng
tiếng nói và giá trị trung bình đặc trưng tiếng nói. Quá trình thực hiện biến đổi
chuẩn hóa đặc trưng tiếng nói như sau:
(9)
(10)
Nếu hàm truyền h[m] ngắn hơn cửa sổ phân tích dùng để tính toán cepstral thì
coi như:
(11)
Mặt khác, chúng ta thấy:
(12)
(13)
Kết hợp công thức (2),(4) và (5), chúng ta được:
(14)
Thay công thức (4), (7) vào (6), ta được đặc trưng chuẩn hóa của đặc trưng tín
hiệu tiếng nói:
(15)
Kết quả của công thức (8) được:

. Như vậy, sau khi chuẩn hóa đặc

trưng tín hiệu tiếng nói theo phương pháp CMN, chúng ta thấy rằng đặc trưng của


Trần Thị Anh Xuân

13 


Luận văn thạc sỹ khoa học

tiếng nói có nhiễu y (với bất kể microphone nào) đã được biến đổi về dạng giống
như đặc trưng của tín hiệu tiếng nói sạch.
c. Phạm vi sử dụng
CMN là phương pháp thích nghi với các microphone khác nhau.
1.3.2.2. Cepstral Mean and Variance Normalization (CMVN) [4][1]
Phương pháp CMVN là cải tiến của phương pháp CMN.
CMVN sử dụng cả giá trị trung bình mẫu và độ lệch chuẩn để biến đổi chuẩn
hóa các vector đặc trưng trong miền cepstral.
Bằng thực nghiệm [4] cho thấy, CMVN nâng cao tính bền vững của hệ thống
nhận dạng với các microphone khác nhau, với sự biến thiên của người nói và với
môi trường nhiễu.
CMVN chủ yếu được áp dụng trong các bài toán thích nghi với các
microphone khác nhau.
1.3.3. Mô hình nhận dạng thích nghi với môi trường
Bản chất của mô hình nhận dạng thích nghi với môi trường là làm cho mô
hình âm học phù hợp với tiếng nói ở môi trường kiểm tra, thông qua việc dùng các
thuật toán thích nghi để cập nhật lại bộ tham số của mô hình HMM sạch.
Có một số phương pháp nhận dạng thích nghi mô hình như sau:
• Maximum Likelihood Linear Regression (MLLR)
• Parallel Model Combination (PMC)
• Vector Taylor Series
•…
1.3.3.1. Maximum Likelihood Linear Regression

a. Tham số tác động
MLLR là phương pháp thích nghi mà ước lượng chuyển đổi tuyến tính cho các
thông số kỳ vọng và phương sai của phân bố Gauss trong HMM.
b. Mục đích
Trần Thị Anh Xuân

14 


Luận văn thạc sỹ khoa học

Chuyển dịch các thành phần kỳ vọng và biến đổi phương sai trong hệ thống
khởi tạo để cho mỗi trạng thái trong hệ thống HMM giống hơn với bộ dữ liệu thích
nghi.
c. Thuật toán
MLLR ước lượng một sự thiết lập các ma trận chuyển đổi cho các tham số
Gauss HMM sao cho cực đại likelihood của dữ liệu thích nghi.
Mô hình Markov được sửa đổi sao cho:
(16)
Với :
L là likelihood
λ là mô hình Markov cũ
~

λ là mô hình Markov sau khi đã được cập nhật các tham số mean
^

λ là mô hình Markov sau khi đã được cập nhật cả các tham số mean

và phương sai

là đặ trưng tín hiệu tiếng nói dùng trong quá trình thích
nghi mô hình.
Hai loại tham số được điều chỉnh trong HMM để thích nghi với dữ liệu thích
nghi:
1. Kỳ vọng (mean) µ
2. Phương sai (variance) ∑
Thích nghi MLLR cho các Meanµ [1][4]
Trong các hàm mật độ Gauss, vecto kỳ vọng thứ k µ ik của mỗi trạng thái i
được chuyển đổi như sau:
(17)
Trong đó: Ac là ma trận hồi quy

Trần Thị Anh Xuân

15 


Luận văn thạc sỹ khoa học

bc là vector thêm vào có liên quan với vài broad class c (có thể là
broad class phone hoặc tập các trạng thái Markov)
Mục đích của chuyển đổi trong công thức (10) là đưa vector kỳ vọng µ vào
trong một không gian mới mà sự không phù hợp giữa bộ dữ liệu luyện và bộ dữ liệu
kiểm tra có thể được loại bỏ.
Phương trình (17) có thể được đơn giản hóa như sau:
(18)
Với:

µik được mở rộng thành vector µik = [1, µikt]t
Wc được mở rộng thành ma trận Wc = [b, A]


Để ước lượng các tham số của ma trận chuyển đổi Wc, ta tiến hành tìm
theo Wc (hàm Q được xét theo thuật toán EM). Quá trình này

max

được thực hiện bằng cách đạo hàm một phần của hàm Q thep Wc và cho đạo hàm đó
bằng 0, rút gọn lại chúng ta được:
(19)
bik là mật độ Gauss thứ k trong trạng thái i, phụ thuộc vào lớp phân loại
Từ đó, ta có:
(20)
Viết lại công thức (20) dưới dạng sau:
(21)
Trong đó:
(22)

(23)
Trần Thị Anh Xuân

16 


×