Tải bản đầy đủ (.pdf) (92 trang)

Ứng dụng lý thuyết phi tuyến trong xử lý và nhận dạng tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.2 MB, 92 trang )

..

Luận văn tốt nghiệp cao học

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

PHẠM HỮU BIÊN
ỨNG DỤNG LÝ THUYẾT PHI TUYẾN TRONG XỬ LÝ VÀ
NHẬN DẠNG TIẾNG VIỆT
CHUYÊN NGÀNH: KỸ THUẬT ĐIỆN TỬ

LUẬN VĂN THẠC SĨ KHOA HỌC
KỸ THUẬT ĐIỆN TỬ

NGƢỜI HƢỚNG DẪN KHOA HỌC
PGS.TS Nguyễn Tiến Dũng
Hà Nội – 2014

i


Luận văn tốt nghiệp cao học

Lời cam đoan
Tôi xin cam đoan luận văn này là cơng trình nghiên cứu thực sự của cá nhân tôi,
đƣợc thực hiện dƣới sự hƣớng dẫn khoa học của PGS.TS. Nguyễn Tiến Dũng.
Các số liệu, kết quả nghiên cứu trong luận văn này là trung thực.

Tơi xin chịu trách nhiệm về nghiên cứu của mình.



Học viên
Phạm Hữu Biên

ii


Luận văn tốt nghiệp cao học

MỤC LỤC
Lời cam đoan ................................................................................................................... ii
MỤC LỤC ...................................................................................................................... iii
Danh mục các ký hiệu và các chữ viết tắt .......................................................................... v
Danh sách các bảng .........................................................................................................vi
Danh sách các hình vẽ và đồ thị ......................................................................................vii
MỞ ĐẦU .......................................................................................................................... 1
CHƢƠNG 1: NGHIÊN CỨU TỔNG QUAN.................................................................... 3
1.1 Tổng quan tình hình nghiên cứu nhận dạng tiếng nói trong nƣớc và trên thế giới .... 3
1.2 Lịch sử nghiên cứu nhận dạng tiếng nói tự động (ASR) .......................................... 5
1.3 Mối quan hệ giữa tiếng nói và hệ thống động phi tuyến .......................................... 6
1.4 Tổng kết .................................................................................................................. 8
CHƢƠNG 2: CƠ SỞ XỬ LÝ TIẾNG NĨI VÀ CÁC MƠ HÌNH NHẬN DẠNG TIẾNG
NĨI .................................................................................................................................. 9
2.1 Cơ sở xử lý tín hiệu số .......................................................................................... 10
2.1.1 Phép biến đổi tần số liên tục ........................................................................... 10
2.1.2 Phép biến đổi tần số rời rạc ............................................................................ 13
2.1.3 Các bộ lọc số. ................................................................................................. 15
2.2 Phân tích phổ tách các đặc trƣng ........................................................................... 17
2.2.1 Giới thiệu phƣơng pháp phân tích phổ ............................................................ 17
2.2.2 Hệ số Cepstral trong tần số Mel (MFCC) ....................................................... 19

2.2.3 Đặc trƣng năng lƣợng, đạo hàm bậc 1 và đạo hàm bậc 2 ................................ 23
2.2.4 Tổng hợp vectơ đặc trƣng .............................................................................. 24
2.3 Mơ hình thống kê cho nhận dạng mẫu ................................................................... 25
2.3.1 Mơ hình Gauss ............................................................................................... 25
2.3.2 Mơ hình Markov ẩn ........................................................................................ 30
2.4 HMM và bài tốn nhận dạng tiếng nói .................................................................. 39

iii


Luận văn tốt nghiệp cao học

2.4.1 Xây dựng mơ hình Markov ẩn ........................................................................ 39
2.4.2 Xây dựng HMM cho nhận dạng số tiếng Việt................................................. 39
2.5 Tổng kết ................................................................................................................ 40
CHƢƠNG 3: PHƢƠNG THỨC XỬ LÝ TÍN HIỆU PHI TUYẾN TÍNH VÀ CÁC
PHƢƠNG PHÁP TÌM ĐẶC TRƢNG TRONG KHƠNG GIAN PHI TUYẾN TÍNH ..... 41
3.1 Cơ sở lý thuyết và định lý của Takens ................................................................... 42
3.2 Các đặc trƣng thu đƣợc từ không gian RPS ........................................................... 45
3.2.1 Phân bố tự nhiên ............................................................................................. 45
3.2.2 Thông tin quỹ đạo .......................................................................................... 47
3.2.3 Kết hợp vectơ đặc trƣng thu đƣợc từ xử lý phi tuyến và vectơ đặc trƣng MFCC
................................................................................................................................ 48
3.3 Kỹ thuật mơ hình hóa và nhận dạng ...................................................................... 50
3.3.1 Mơ hình hóa các đặc trƣng thu đƣợc RPS ....................................................... 50
3.3.2 Mơ hình hóa vectơ chung ............................................................................... 52
3.3.3 Xây dựng mơ hình nhận dạng từ tiếng Việt .................................................... 53
3.4 Tổng kết ............................................................................................................... 55
CHƢƠNG 4: CÀI ĐẶT CHƢƠNG TRÌNH NHẬN DẠNG TIẾNG NĨI VÀ ĐÁNH GIÁ
KẾT QUẢ ...................................................................................................................... 56

4.1 Phần mềm ............................................................................................................. 56
4.2 Dữ liệu .................................................................................................................. 57
4.3 Cài đặt thí nghiệm ................................................................................................. 58
4.3.1 Lựa chọn tham số ........................................................................................... 58
4.3.2 Xây dựng các bài thí nghiệm .......................................................................... 61
4.4 Một số kết quả chính ............................................................................................. 62
4.5 Đánh giá kết quả ................................................................................................... 72
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ....................................................................... 76
Tài liệu tham khảo .......................................................................................................... 77
PHỤ LỤC ....................................................................................................................... 80
iv


Luận văn tốt nghiệp cao học

Danh mục các ký hiệu và các chữ viết tắt

Ký hiệu

Tên tiếng Anh

ANN

Artificial Neural Network

ASR

Automatic Speech Recognition

DCT


Discrete Cosine Transform

DFT

Discrete Fourier Transform

DTW

Dynamic Time Warping

EM

Expectation Maximization

FFT

Fast Fourier Transform

GMM

Gaussian Mixture Model

HMM

Hidden Markov Model

HTK

Hidden Markov Modeling Toolkit


IDFT

Inverse Discrete Fourier Transform

LPC

Linear Predicative Coding

MFCC

Mel Frequency Cepstral Coefficients

PDF

Probability Density Function

RPS

Reconstructed Phase Space

TIMIT

Texas Instruments & Massachusetts
Institute of Technology speech corpus

Z

Z Transform


MGHMM

Mixture of Gauss Hidden Markov Model

v


Luận văn tốt nghiệp cao học

Danh sách các bảng
Bảng 1: Bảng ký hiệu dùng cho phân tích tín hiệu ............................................................ 9
Bảng 2: Bảng các ký hiệu dùng để xử lý tín hiệu trong khơng gian phi tuyến tính........... 41
Bảng 3: Bảng các ký hiệu dùng cho bài thí nghiệm ......................................................... 56
Bảng 4: Tên các bài thí nghiệm thực hiện ....................................................................... 61
Bảng 5: Kết quả nhận dạng sử dụng các đặc trƣng MFCC .............................................. 62
Bảng 6: Kết quả nhận dạng sử dụng các đặc trƣng phi tuyến........................................... 64
Bảng 7: Kết quả nhận dạng sử dụng kết hợp đặc trƣng phi tuyến với đặc trƣng MFCC ... 66
Bảng 8: Kết quả nhận dạng sử dụng mơ hình trọng số .................................................... 68
Bảng 9: Bảng so sánh kết quả nhận dạng với các đặc trƣng khác nhau ............................ 72
Bảng 10: Bảng so sánh kết quả nhận dạng giữa các đặc trƣng ......................................... 74

vi


Luận văn tốt nghiệp cao học

Danh sách các hình vẽ và đồ thị
Hình 1: Sơ đồ khơng gian pha (RPS) của tiếng nói của một từ .......................................... 7
Hình 2: Đồ thị hàm X (e jw ) ............................................................................................. 10
Hình 3: Biểu diễn Z theo phần thực phần ảo ................................................................... 11

Hình 4: Biểu diễn Z trên mặt phẳng phức ....................................................................... 12
Hình 5: Thực hiện biến đổi Z trên vòng tròn đơn vị ........................................................ 12
Hình 6: Sơ đồ khối mơ hình tạo tiếng nói ........................................................................ 17
Hình 7: Sơ đồ khối mơ hình lọc nguồn tạo tiếng nói ....................................................... 17
Hình 8: Đồ thị minh họa đặc trƣng phổ và logarithm độ lớn phổ ..................................... 18
Hình 9: Sơ đồ tính tốn đặc trƣng MFCC........................................................................ 19
Hình 10: Đồ thị cửa sổ Hamming.................................................................................... 21
Hình 11: Đồ thị minh họa mối quan hệ giữa thang tần số Mel và thang tần số Hz ........... 22
Hình 12: Sơ đồ khối minh họa tính tốn vectơ đặc trƣng MFCC ..................................... 25
Hình 13: Hàm mật độ Gauss ........................................................................................... 25
Hình 14: Mơ hình Gauss ................................................................................................. 26
Hình 15: Hàm mật độ Gauss của ba phân phối ................................................................ 27
Hình 16: Mơ hình Markov 3 trạng thái ............................................................................ 30
Hình 17: Mơ hình Markov ẩn 3 trạng thái ....................................................................... 31
Hình 18: Chuỗi Q tối ƣu cục bộ ...................................................................................... 35
Hình 19: Sơ đồ xây dựng HMM...................................................................................... 40
Hình 20: Hình vẽ minh họa RPS của các từ „một‟, „hai‟, „ba‟, „bốn‟ ............................... 43
Hình 21: Đồ thị RPS của từ “một” với các độ trễ khác nhau (τ = 1, τ = 6, τ =24 ) ........... 44
Hình 22: So sánh tâm và bán kính của quỹ đạo từ ”một” và quỹ đạo từ “hai” ................. 45
Hình 23: So sánh tâm và bán kính của quỹ đạo từ ”một” và quỹ đạo “hai” ..................... 46
Hình 24: So sánh tâm và bán kính của quỹ đạo từ ”một” với hai ngƣời nói khác nhau .... 47
Hình 25: Hình vẽ minh họa phân bố các điểm trong RPS và quỹ đạo RPS ...................... 47
Hình 26: Mối quan hệ giữa các chỉ số cho vectơ tổng hợp .............................................. 50

vii


Luận văn tốt nghiệp cao học

Hình 27: Minh họa RPS bằng mơ hình Gauss với 256 Mixtures ..................................... 51

Hình 28: Mơ hình Markov ẩn left-right ẩn 6 trạng thái .................................................... 53
Hình 29: Sơ đồ khởi tạo ma trận xác suất phát ra ........................................................... 54
Hình 30: Sơ đồ thuật tốn huấn luyện ............................................................................. 54
Hình 31: Thuật tốn nhận dạng từ tiếng Việt................................................................... 54
Hình 32: Chƣơng trình thu nhận âm thanh huấn luyện .................................................... 57
Hình 33: Sơ đồ thuật tốn cắt tự động ............................................................................. 58
Hình 34: Đồ thị RPS của từ “một” với các độ trễ khác nhau ........................................... 58
Hình 35: Đồ thị minh hoạ RPS dùng mơ hình Gauss với 256 Mixtures .......................... 60
Hình 36: Đồ thị kết quả nhận dạng các số tiếng Việt với đặc trƣng MFCC ..................... 63
Hình 37: Đồ thị kết quả nhận dạng các số tiếng Việt với đặc trƣng thu đƣợc từ RPS ...... 65
Hình 38: Biều đồ thể hiện tỉ lệ nhận dạng chính xác số tiếng Việt với vectơ đặc trƣng
đƣợc kết hợp từ vectơ đặc trƣng phi tuyến và vectơ đặc trƣng MFCC. ............................ 67
Hình 39: Đồ thị kết quả nhận dạng sử dụng mơ hình Markov ẩn 9 trạng thái với vectơ đặc
trƣng (dùng mơ hình trọng số) ........................................................................................ 69
Hình 40: Đồ thị kết quả nhận dạng sử dụng mơ hình Markov ẩn 15 trạng thái với vectơ
đặc trƣng (dùng mô hình trọng số) .................................................................................. 70
Hình 41: Đồ thị kết quả nhận dạng với mơ hình Markov ẩn ............................................ 70
Hình 42: Giao diện chƣơng trình demo kết quả ............................................................... 71
Hình 43: Đồ thị kết quả nhận dạng với mơ hình dùng trọng số và không dùng trọng số .. 75

viii


Luận văn tốt nghiệp cao học

MỞ ĐẦU
Ngày nay nhu cầu trao đổi thông tin ngày càng nhiều dẫn đến sự tƣơng tác giữa
ngƣời và máy tính ngày càng gia tăng. Có rất nhiều phƣơng thức tiếp cận khác nhau nhƣ
thơng qua sóng tín hiệu điện não để ra lệnh cho máy, thơng qua tiếng nói, thơng qua các
cử chỉ chuyển động. Một trong những phƣơng thức giao tiếp với máy tính đƣợc phát triển

nhiều nhất đó là thơng qua tiếng nói. Đã có rất nhiều cơng trình nghiên cứu về nhận dạng
tiếng nói trên thế giới và đã có những thành cơng đáng kể nhƣ: hệ thống nhận dạng tiếng
nói tiếng Anh Via Voice của IBM, Spoken Toolkit của CSLU(Central of Spoken Laguage
Under-standing), Speech Recognition của Microsoft, Hidden Markov Model tookit của
đại học Cambridge, CMU Sphinx của đại học Carnegie Mello,…Ngồi ra một số hệ thống
nhận dạng tiếng nói tiếng Pháp, Đức, Trung Quốc,… cũng khá phát triển. Nhận dạng
tiếng nói tiếng Việt cũng có một số cơng trình nhƣ Robot hƣớng dẫn làm hƣớng dẫn viên
bảo tàng, AILab, Vietvoice, Vspeech….. Phần lớn các cơng trình nghiên cứu này sử dụng
cơng cụ kỹ thuật phân tích và xử lý tín hiệu tuyến tính. Gần đây có một cơng cụ đƣợc phát
triển cho việc phân tích và xử lý tín hiệu là mơ hình ứng dụng lý thuyết về phi tuyến. Tại
một số nƣớc nhƣ Nhật, Pháp, Anh thì mơ hình này đã đƣợc áp dụng cho nhận dạng tiếng
nói và đã có kết quả tốt. Đối với tiếng Việt, phƣơng pháp tiếp cận nghiên cứu dùng lý
thuyết phi tuyến nhằm ứng dụng cho nhận dạng tiếng nói chƣa đƣợc nghiên cứu.
Với mong muốn góp phần tạo nên những bƣớc phát triển trong lĩnh vực nhận dạng
tiếng nói ở nƣớc ta cả về mặt nghiên cứu cũng nhƣ ứng dụng sản phẩm thực tiễn cho đời
sống, với sự định hƣớng của thầy giáo PGS.TS. Nguyễn Tiến Dũng và thầy giáo
PGS.TS. Hoàng Mạnh Thắng luận văn này tập trung vào việc thu nhận tiếng nói tiếng
Việt, ứng dụng các kết quả trong l thuyết phi tuyến tính để tìm ra các đặc trƣng phục vụ
cho việc xử l và nhận dạng các từ tiếng Việt.
Để hoàn thành đƣợc luận văn này em xin chân thành cảm ơn thầy giáo PGS.TS.
Nguyễn Tiến Dũng và thầy giáo PGS.TS. Hồng Mạnh Thắng đã tận tình hƣớng dẫn
và giúp đỡ em trong quá trình thực hiện luận văn. Em xin cảm ơn các thầy, cô giáo trong
1


Luận văn tốt nghiệp cao học

Viện điện tử - viễn thông, trƣờng Đại học Bách khoa Hà Nội đã tạo điều kiện cho em
hoàn thành luận văn này. Em xin cảm ơn các thành viên trong SIPLAB và các bạn sinh
viên đã tạo điều kiện cho em trong quá trình thu thập dữ liệu làm luận văn này.

Bố cục của luận văn đƣợc tổ chức nhƣ sau:
Chƣơng 1: Nghiên cứu tổng quan. Chƣơng này giới thiệu tổng quan về tình hình
nghiên cứu nhận dạng tiếng nói ở trong nƣớc và các nƣớc trên thế giới, lịch sử phát triển
của nghiên cứu nhận dạng tiếng nói, giới thiệu một số kết quả nhận dạng tiếng nói sử
dụng lý thuyết phi tuyến và giới hạn phạm vi nghiên cứu của luận văn.
Chƣơng 2: Cơ sở xử lý tiếng nói và các mơ hình nhận dạng tiếng nói. Chƣơng này
giới thiệu mơ hình tuyến tính sử dụng cho phân tích và tìm đặc trƣng của các từ tiếng Việt
cần nhận dạng, giới thiệu mơ hình thống kê nhận dạng mẫu, xây dựng mơ hình nhận dạng
từ tiếng Việt sử dụng mơ hình Markov ẩn.
Chƣơng 3: Phƣơng thức xử lý tín hiệu phi tuyến tính và các phƣơng pháp tìm vectơ
đặc trƣng trong khơng gian phi tuyến tính. Chƣơng này giới thiệu các kết quả lý thuyết
phi tuyến tính của Takens, trình bày phƣơng pháp tách các đặc trƣng trong khơng gian phi
tuyến tính, xây dựng mơ hình Markov ẩn cho nhận dạng từ tiếng Việt với các đặc trƣng
phi tuyến, trình bày phƣơng pháp kết hợp đặc trƣng đƣợc tách từ không gian phi tuyến và
đặc trƣng đƣợc tách từ phƣơng thức xử lý tuyến tính thơng thƣờng. Xây dựng mơ hình
Markov ẩn cho các vectơ đặc trƣng chung tìm đƣợc.
Chƣơng 4: Cài đặt chƣơng trình nhận dạng tiếng nói và đánh giá kết quả. Chƣơng
này trình bày các kết quả nhận dạng tiếng nói với các đặc trƣng tìm đƣợc trong khơng
gian phi tuyến và các đặc trƣng tìm đƣợc trong khơng gian phi tuyến kết hợp với đặc
trƣng MFCC, đồng thời đánh giá kết quả nhận dạng tiếng nói đã đạt đƣợc.
Phần cuối của luận văn là kết luận và hƣớng phát triển của đề tài trình bày về các
vấn đề luận văn đã làm đƣợc và các vấn đề cần phát triển sau luận văn.
Sau đây là chi tiết từng chƣơng:

2


Luận văn tốt nghiệp cao học

CHƢƠNG 1: NGHIÊN CỨU TỔNG QUAN

Chƣơng này giới thiệu tổng quan về tình hình nghiên cứu nhận dạng tiếng nói ở
trong nƣớc và các nƣớc trên thế giới, lịch sử phát triển của nghiên cứu nhận dạng tiếng
nói, giới thiệu một số kết quả nhận dạng tiếng nói sử dụng lý thuyết phi tuyến và giới hạn
phạm vi nghiên cứu của luận văn.
1.1 Tổng quan tình hình nghiên cứu nhận dạng tiếng nói trong nƣớc và trên thế giới
Vấn đề nghiên cứu các phƣơng pháp nhận dạng tiếng nói đã và đang thu hút rất
nhiều sự đầu tƣ và nghiên cứu của các nhà khoa học trên khắp thế giới. Ý tƣởng về xây
dựng các hệ thống nhận dạng tiếng nói đã có từ những năm 50 của thế kỷ 20 và đến nay
đã đạt đƣợc nhiều kết quả đáng kể.
Trên thế giới đã có rất nhiều hệ thống nhận dạng tiếng nói tiếng Anh đã và đang
đƣợc ứng dụng rất hiệu quả nhƣ: Via Voice của IBM, Spoken Toolkit của CSLU (Central
of Spoken Laguage Under-standing), Speech Recognition Engine của Microsoft, Hidden
Markov Model toolkit của đại học Cambridge, CMU Sphinx của đại học Carnegie
Mellon,… Ngoài ra một số hệ thống nhận dạng tiếng nói tiếng Pháp, Đức, Trung Quốc,…
cũng khá phát triển.
Đối với nƣớc ta đã có nhiều nghiên cứu về nhận dạng tiếng nói tiếng Việt và đã đạt
đƣợc một số thành tựu, nhƣng nhìn chung vẫn chƣa đạt đƣợc kết quả cần thiết để có thể
tạo ra các sản phẩm mang tính ứng dụng cao. Có thể kể đến các cơng trình sau:
Robot hƣớng dẫn làm hƣớng dẫn viên bảo tàng của viện nghiên cứu quốc tế (MICA)
Đại học Bách khoa Hà Nội. Trên robot gắn camera thực hiện chức năng thị giác, micro
nhận dạng tiếng nói và tám cảm biến hồng ngoại giúp nó di chuyển thuận lợi. Robot đƣợc
mang thử nghiệm tại khu trƣng bày hiện vật của dân tộc Chăm, Khmer, Hoa tại Bảo tàng
dân tộc học Việt Nam với dữ liệu khoảng 500 thông tin và cho kết quả tốt. Tuy nhiên
trong điều kiện ồn ào, nhiễu sóng nhƣ ở bảo tàng, robot nhiều khi vẫn chƣa hiểu đúng yêu
cầu của khách hàng [38].

3


Luận văn tốt nghiệp cao học


Mơ hình căn phịng thơng minh của viện nghiên cứu quốc tế (MICA) Đại học Bách
khoa Hà Nội bao gồm 5 thiết bị: cửa ra vào, camera, đèn, vơ tuyến, điều hịa có khả năng
tƣơng tác hai chiều (nghe/nhận/thực hiện lệnh và trả lời) với ngƣời điều khiển bằng tiếng
nói tiếng Việt theo ngơn ngữ chuẩn miền Bắc. Mọi thiết bị trong chƣơng trình đều đƣợc
hỗ trợ điều khiển bằng tay và bằng tiếng nói. Với những thiết bị đƣợc lắp đặt để tƣơng tác
nhƣ: cửa ra vào, camera, đèn, vơ tuyến, điều hịa… khi ngƣời điều khiển bằng tiếng nói
(tiếng Việt) theo ngơn ngữ chuẩn miền Bắc nói với tốc độ trung bình thì tỷ lệ nhận dạng
chính xác 90% trong mơi trƣờng ít nhiễu.
AILab: Đây là cơng trình đƣợc phịng thí nghiệm Trí tuệ Nhân tạo – AILab thuộc
Đại học Khoa học Tự nhiên tạo ra dựa trên các công nghệ tiên tiến nhất về nhận dạng và
tổng hợp tiếng nói để đáp ứng nhu cầu của ngƣời dùng. Dựa trên công nghệ xử lý tiếng
nói tiếng Việt, AILab đã xây dựng phần mềm iSago chun hỗ trợ tìm kiếm thơng tin qua
tiếng nói. Thơng qua ứng dụng phần mềm ngƣời sử dụng có khả năng hỗ trợ giao tiếp với
điện thoại di động trực tiếp bằng lời nói. Từ đó ngƣời sử dụng tìm kiếm thơng tin nhà
hàng, qn Bar, Cafe trên địa bàn TP. HCM. Khi ngƣời dùng đặt câu hỏi bằng tiếng nói,
iSago sẽ truyền nội dung truy vấn này về server để xử lý và gửi lại kết quả tìm kiếm, dạng
một danh sách: tên nhà hàng, địa chỉ. Phần mềm này cũng cho phép ngƣời dùng hiển thị
địa chỉ tìm đƣợc dạng bản đồ hoặc nghe đọc địa chỉ trực tiếp bằng cơng nghệ tổng hợp
giọng nói. Hiện nay phần mềm này đang dừng ở mức 100 từ khóa. Phần mềm đƣợc cung
cấp miễn phí tại địa chỉ www.ailab.hcmus.edu.vn [20].
Vietvoice: Đây là phần mềm của một ngƣời dân Việt Nam cƣ trú tại Canada. Phần
mềm có khả năng nói tiếng Việt từ các tập tin. Để chạy đƣợc chƣơng trình, cần cài đặt
Microsoft Visual C++ 2005 Redistributable Package (x86). Đối với ngƣời khiếm thị, phần
mềm này cho phép sử dụng cách gõ tắt (nhấn nút Ctrl và một chữ) để chọn lựa một trong
các tính năng hiển thị trên màn hình. Ngƣời dùng có thể cập nhật từ điển các chữ viết tắt
và các từ ngữ tiếng nƣớc ngoài [19].
Vspeech: Đây là một phần mềm điều khiển máy tính bằng tiếng nói do một nhóm
sinh viên Đại học Bách Khoa TP. HCM viết. Phần mềm sử dụng thƣ viện Microsoft
4



Luận văn tốt nghiệp cao học

Speech SDK để nhận dạng tiếng Anh nhƣng đƣợc chuyển thành tiếng Việt. Nhóm đã khá
thành công với

tƣởng này, do sử dụng lại thƣ viện nhận dạng engine nên thời gian thiết

kế rút ngắn lại mà hiệu quả nhận dạng khá tốt. Phần mềm Vspeech có các lệnh gọi hệ
thống đơn giản nhƣ gọi thƣ mục My Computer, nút Start,…Phiên bản mới nhất có tƣơng
tác với MS Word 2003, lƣớt web với trình duyệt Internet Explorer. Khơng có các chức
năng tùy chỉnh lệnh và gọi tắt các ứng dụng. Phần mềm chạy trên nền Windows XP,
microphone và card âm thanh sử dụng tiêu chuẩn thông thƣờng [18].
Tuy nhiên việc ứng dụng nhận dạng tiếng nói vào điều khiển máy tính cịn nhiều hạn
chế. Ở Việt Nam thì hầu nhƣ chỉ mới có bộ phần mềm Vspeech của nhóm sinh viên
trƣờng Đại học Bách Khoa TP. HCM, các phần mềm khác chỉ thử nghiệm trong phòng thí
nghiệm, chƣa đƣợc sử dụng thực tế vì chƣa đạt trên 100 từ. Phần mềm Vspeech đƣợc phát
triển từ mã nguồn mở Microsoft Speech SDK nhận dạng tiếng Anh thông qua phƣơng
thức huấn luyện dữ liệu tiếng Việt và phƣơng thức chuyển đổi trung gian giữa tiếng Việt
và tiếng Anh, việc nhận dạng từ tiếng Việt đƣợc thực hiện trong Vspeech để nhận biết
tiếng nói tiếng Việt.
1.2 Lịch sử nghiên cứu nhận dạng tiếng nói tự động (ASR)
Hệ thống nhận dạng tiếng nói đầu tiên đƣợc xây dựng tại Bell Labs vào trƣớc năm
1950 [6]. Nhiệm vụ của hệ thống này là nhận dạng các số rời rạc đƣợc phát ra từ một
ngƣời nói. Hệ thống sử dụng kỹ thuật xử lý tín hiệu tƣơng tự và thực hiện nhận dạng bằng
cách phát hiện ra các đỉnh tần số cộng hƣởng (gọi là các formants). Mặc dù hệ thống vẫn
còn thơ sơ nhƣng đã nhận dạng chính xác đến 98%, kết quả này đã chứng tỏ rằng máy
móc có thể nhận dạng tiếng nói của con ngƣời [6].
Vào các năm từ 1960 đến 1970 các nghiên cứu nhận dạng tiếng nói tiếp tục đƣợc

phát triển dẫn tới kỹ thuật tính toán dữ liệu số chủ yếu tập trung vào xử lý tín hiệu và
nhận dạng mẫu. Điều đó làm tiền đề để phát triển nhận dạng tiếng nói. Đóng góp quan
trọng để phân tích tiếng nói đó là Fast Fourier Transform (FFT), phân tích cepstral, linear
predictive coding (LPC). Các thuật toán nhận dạng mẫu nhƣ mạng nơron (ANN),
5


Luận văn tốt nghiệp cao học

dynamic time warping (DTW) và Hidden Markov Model (HMM) đã đƣợc ứng dụng
thành công cho nhận dạng tiếng nói.
Vào khoảng năm 1980 đến năm 1990, các nghiên cứu nhận dạng tiếng nói tập trung
vào việc mở rộng khả năng của hệ thống ASR để thực hiện các nhiệm vụ nhận dạng tự
động phức tạp hơn bao gồm những tập dữ liệu ngƣời nói độc lập, từ vựng lớn và nhiễu.
Các quá trình nghiên cứu này đƣợc kết hợp chặt chẽ với đặc trƣng là các hệ số MFCC
(Mel Frequency Cepstral coeffcients) và phƣơng thức nhận dạng HMM. Cũng trong giai
đoạn này các nhóm nghiên cứu và các tổ chức đã xây dựng đƣợc hệ thống cơ sở dữ liệu
và các phần mềm nhận dạng tiếng nói dùng chung cho các bài thí nghiệm để so sánh,
đánh giá kết quả nghiên cứu của các nhà khoa học.
Cơ sở dữ liệu tiếng nói chuẩn đƣợc biên dịch và công bố nhƣ là TIMIT. Những công
cụ phần mềm nhận dạng tiếng nói với mã nguồn mở có Hidden Markov Modeling Tookit
(HTK). Nổi tiếng nhất là IBM Via Voice và Dragon System Naturally speaking.
Từ năm 2000 đến nay các nhà nghiên cứu tập trung vào áp dụng mơ hình xử lý tín
hiệu phi tuyến để tìm ra các đặc trƣng mới cho hệ thống nhận dạng tiếng nói, xây dựng
mơ hình mới để nâng cao độ chính xác của hệ thống nhận dạng tiếng nói. Khởi đầu cho
thời kì này là các nghiên cứu của Banbrook [24], Narayanan [31] và Kumar [2]. Và hiện
nay thì trên thế giới đã có các cơng bố chỉ ra là có thể áp dụng các kỹ thuật xử lý tín hiệu
phi tuyến cho nhận dạng tiếng nói từ con ngƣời [1, 2, 4, 6, 8, 9, 10, 11, 14, 15, 22, 24, 25,
30].
1.3 Mối quan hệ giữa tiếng nói và hệ thống động phi tuyến

Trong hệ thống động phi tuyến nói chung, các ứng dụng đƣợc xây dựng dựa trên các
kết quả thí nghiệm về sự biến thiên chuỗi dữ liệu trạng thái theo thời gian của Takens,
Sauer và Yorke. Lý thuyết Takens nói rằng khơng gian trạng thái của hệ thống có thể
đƣợc xây dựng lại thông qua phép làm trễ của tín hiệu gốc. Khơng gian trạng thái mới này
có thể hiểu là không gian pha xây dựng lại (RPS: Reconstructed Phase Space) và nó đƣợc
coi nhƣ là cấu trúc hình học của hệ thống động nếu tất cả các biến trạng thái đó đƣợc đo
6


Luận văn tốt nghiệp cao học

đạc từ hệ thống [32, 33]. Một RPS có thể là một miền xử lý tín hiệu mạnh khi hệ thống
động quan tâm là phi tuyến và hỗn loạn [14, 15]. Theo kỹ thuật xử lý tuyến tính thơng
thƣờng thì miền tần số là khơng gian xử lý với phép biến đổi Fourier rời rạc (DFT) theo
thời gian [36]. Với hệ thống động tuyến tính cấu trúc hỗn loạn xuất hiện trong miền tần số
chính là các đỉnh cộng hƣởng trong phổ tần số. Tuy nhiên với hệ thống phi tuyến hay hệ
thống hỗn loạn, cấu trúc hỗn loạn không xuất hiện trong miền tần số, bởi vì phổ tần số
thƣờng là dải sóng rộng và nhiễu giống nhau. Trong miền không gian xây dựng lại (RPS),
cấu trúc quỹ đạo của các điểm hấp dẫn thƣờng nhấp nhô một cách hỗn độn. Quỹ đạo của
các điểm hấp dẫn này bao gồm các thông tin về sự chuyển động của hệ thống nghĩa là
những đặc trƣng thu đƣợc từ RPS có thể bao gồm các thơng tin khác với các thông tin thu
đƣợc từ phổ tần số. Một ví dụ về khơng gian pha xây dựng lại (RPS) đƣợc thể hiện ở
Hình 1 dƣới đây. Giả sử có tín hiệu x[n], dựa vào tín hiệu này ta có thể xây dựng lại
khơng gian trạng thái cho hệ thống động phi tuyến tính bằng cách tạo ra tín hiệu với độ trễ
τ = 6 (x[n-6]).

Hình 1: Sơ đồ khơng gian pha (RPS) của tiếng nói của một từ

Mục đích chính sử dụng RPS cho xử lý tín hiệu là điều khiển, dự đoán và lọc nhiễu,
[14, 15, 36]. Chỉ có thƣa thớt các lý thuyết sử dụng những đặc trƣng thu đƣợc từ RPS cho


7


Luận văn tốt nghiệp cao học

phân loại và nhận dạng [1, 4, 9, 11, 22, 25, 30, 35]. Tập đặc trƣng có thể thu đƣợc từ RPS
đƣợc biết nhƣ là phân bố tự nhiên và hình dạng quỹ đạo của các điểm hấp dẫn [4, 5, 15,
16]. Phân bố tự nhiên đƣợc hiểu đơn giản là phân bố các điểm trong khơng gian RPS. Bởi
vì, tiếng nói là một tín hiệu có chiều dài hữu hạn vì vậy chúng có thể đƣợc đánh giá thơng
qua các mơ hình tốn học. Các nghiên cứu trƣớc đây đã chỉ ra rằng mô hình Gauss có thể
đánh giá chính xác sự phân bố tự nhiên của các điểm hấp dẫn trong RPS [1, 11]. Luận văn
này tập trung vào phƣơng pháp đánh giá phân bố tự nhiên của các điểm hấp dẫn trong
RPS một cách tự động thơng qua mơ hình Gauss và sử dụng chúng làm đặc trƣng nhận
dạng và phân loại từ tiếng Việt.
1.4 Tổng kết
Nhƣ vậy kỹ thuật xử lý tín hiệu phi tuyến có thể áp dụng cho nhận dạng tiếng nói.
Bởi vì chúng có khả năng khơi phục lại hệ thống động phi tuyến và không gian trạng thái
đƣợc xây dựng lại từ kỹ thuật này có thể bao gồm nhiều thông tin khác nhau của các từ
cần nhận dạng. Mặc dù vậy kỹ thuật xử lý tín hiệu phi tuyến ít đƣợc quan tâm và chúng
khơng đƣợc sử dụng rộng rãi nhƣ kỹ thuật xử lý tín hiệu tuyến tính.
Để làm sáng tỏ khả năng phân tích của mơ hình xử lý tín hiệu phi tuyến, khám phá
các đặc trƣng thu đƣợc từ RPS và mở rộng sự hiểu biết về những phƣơng thức xử lý tín
hiệu phi tuyến này. Luận văn thực hiện nhiệm vụ là nhận dạng các số tiếng Việt phát ra từ
tiếng nói của con ngƣời. Nguyên nhân là do nhận dạng các từ tiếng Việt với số lƣợng nhỏ
cho phép tập trung sâu vào hiệu suất của các đặc trƣng. Chƣơng tiếp theo sẽ làm sáng tỏ
về mặt kiến thức cũng nhƣ mơ hình phân tích đặc trƣng và phân loại các từ tiếng Việt.

8



Luận văn tốt nghiệp cao học

CHƢƠNG 2: CƠ SỞ XỬ LÝ TIẾNG NĨI VÀ CÁC MƠ HÌNH NHẬN DẠNG
TIẾNG NĨI
Chƣơng này giới thiệu mơ hình tuyến tính cho phân tích và tìm các đặc trƣng của
các từ tiếng Việt, giới thiệu mơ hình nhận dạng mẫu và xây dựng mơ hình nhận dạng từ
sử dụng mơ hình Markov ẩn. Dƣới đây là bảng các ký hiệu dùng cho phân tích tín hiệu.
Ký hiệu
n

Tên ký hiệu
Chỉ số của tín hiệu số trong miền thời gian

s[n]

Tín hiệu rời rạc trong miền thời gian

e[n]

Tín hiệu kích thích trong miền thời gian

h[n]

Bộ lọc tuyến tính bất biến trong miền thời gian

s f [ n]

Khung tín hiệu trong miền thời gian




Tần số

S ( )

Tín hiệu trong miền tần số

E ( )

Tín hiệu kích thích trong miền tần số

H ( )

Bộ lọc tuyến tính bất biến trong miền tần số

S f ( )
q

Khung tín hiệu trong miền tần số
Chỉ số lƣợng tử

C (q)

Mảng các hệ số cepstral

FMel

Thang tần số mel


FHz

Thang tần số Hz

t

Chỉ số của mỗi frame

c

MFCC của một khung tín hiệu

E

Năng lƣợng



Đạo hàm bậc 1 (còn đƣợc gọi là delta)



Đạo hàm bậc 2 (còn đƣợc gọi là delta- delta)

O

Vectơ đặc trƣng
Bảng 1: Bảng ký hiệu dùng cho phân tích tín hiệu

9



Luận văn tốt nghiệp cao học

2.1 Cơ sở xử lý tín hiệu số
2.1.1 Phép biến đổi tần số liên tục
 Biến đổi Fourier
Biến đổi Fourier của một tín hiệu x[n] hay x(n) đƣợc định nghĩa nhƣ sau:
X (e j ) 

n 

 x ( n)e

 j n

(2.1.1)

n 

Hình 2: Đồ thị hàm X (e jw )

Vì e j  cos( )  j sin() tuần hồn với chu kì 2π, do vậy khi thể hiện X (e j ) cần thể hiện
với dải từ 0 đến 2π hoặc từ -π đến π rồi lấy tuần hoàn.
Cách thể hiện X (e j ) :
Biểu diễn theo phần thực phần ảo:
X (e j ) = Re[ X (e j ) ]+ jIm[ X (e j ) ]

(2.1.2)


Biểu diễn theo Module và Argument:
X (e j ) | X (e j ) | e j arg[ X ( e

j

)]

(2.1.3)

Biểu diễn độ lớn và pha: Độ lớn có thể lấy giá trị âm và dƣơng
X (e j )  A(e j )e j ( )

(2.1.4)

Sự tồn tại của biến đổi Fourier:
Căn cứ vào tính chất hội tụ của chuỗi và sự ánh xạ đầy đủ từ miền thời gian rời rạc
n sang miền tần số  (tức là khi sang miền tần số  , chỉ tồn tại biến  chứ không tồn

tại biến n ), ta có:
Biến đổi Fourier của một dãy x(n) sẽ tồn tại khi và chỉ khi:
n 

n 

n 

n 

 | x(n) |  ( có nghĩa là chuỗi
10


 | x(n) | hội tụ)

(2.1.5)


Luận văn tốt nghiệp cao học

 Biến đổi Fourier ngƣợc (IFT: Inverse Fourier Transform)
Biến đổi ngƣợc của phổ tín hiệu X (e j ) đƣợc định nghĩa nhƣ sau:
x ( n) 

1
2



 X (e

j

)e jn d

(2.1.6)



Ở đây biến đổi ngƣợc giúp ta xác định đƣợc x(n) từ X (e jw ) . Một số tính chất biến đổi
Fourier có thể tham khảo tại [39].
 Biến đổi Z

Định nghĩa: Biến đổi Z của một dãy x(n) đƣợc định nghĩa nhƣ sau:
X ( z) 

n 

 x ( n) z

n

(2.1.7)

n 

Định nghĩa trên cịn đƣợc gọi là biến Z hai phía. Ta sẽ có biến đổi Z một phía nếu thay
đổi cận chạy từ 0 đến +  .
X ( z) 

n 

 x ( n) z

n

(2.1.8)

n 0

Ở đây ta phải thấy đƣợc z là một biến số phức đƣợc biểu diễn 2 dạng:
+ Biểu diễn phần thực Re[z], phần ảo Im[z]
z = Re[z]+j.Im[z]


(2.1.9)

Hình 3: Biểu diễn Z theo phần thực phần ảo

Biểu diễn theo tọa độ cực
z = re j  r (cos   j sin )  r.cos   r.sin  =Re[z]+jIm[z]

11

(2.1.10)


Luận văn tốt nghiệp cao học

Hình 4: Biểu diễn Z trên mặt phẳng phức

Miền hội tụ của biến đổi Z: Tập hợp tất cả các giá trị của z mà tại đó chuỗi
X ( z) 

n 

 x ( n) z

n

(2.1.11) hội tụ đƣợc gọi là miền hội tụ của biến đổi Z.

n 


 Biến đổi Z ngƣợc (IZT: Inverse Z Transform)
Biến đổi Z ngƣợc đƣợc định nghĩa nhƣ sau:
x ( n) 



c

1
2



c

X ( z ).z n 1dz

(2.1.12)

- Đƣờng cong kín đi qua gốc tọa độ. Tích phân đƣờng theo chiều dƣơng. Một số tính

chất biến đổi Z tham khảo tại [39].
 Quan hệ giữa biến đổi Fourier và biến đổi Z
Ta thấy theo định nghĩa biến đổi Z:
X ( z) 

n 

 x ( n) z


n

(2.1.13)

n 

Mặt khác z là một biến số phức và đƣợc biểu diễn trong mặt phẳng phức tọa độ cực nhƣ
sau: z = re j . Nếu chúng ta đánh giá biến đổi Z trên vịng trịn đơn vị (r = 1), ta có:
X ( z ) |z e j 

n 

 x ( n )e

 j n

 X (e j )

n 

Hình 5: Thực hiện biến đổi Z trên vòng tròn đơn vị

12

(2.1.14)


Luận văn tốt nghiệp cao học

Nhƣ vậy, có thể rút ra một số nhận xét:

- Biến đổi Fourier chính là biến đổi Z đƣợc thực hiện trên vòng tròn đơn vị.
- Biến đổi Fourier chỉ là trƣờng hợp riêng của biến đổi Z.
- Ngồi ra có thể tìm biến đổi Fourier từ biến đổi Z bằng cách đánh giá ZT trên vòng
tròn đơn vị với điều kiện vòng tròn đơn vị phải nằm trong miền hội tụ của biến đổi Z.
2.1.2 Phép biến đổi tần số rời rạc
 Biến đổi Fourier rời rạc (Discrete Fourier Transform- DFT)
Nếu một tín hiệu xN (n) tuần hồn với chu kỳ N thì:
xN (n)  xN (n  N )

(2.1.15)

Biến đổi Fourier rời rạc của một dãy tuần hồn xN (n) có chu kỳ N đƣợc định nghĩa nhƣ
sau:
N 1

X (k )   x(n)e

j

2
kn
N

n 0

Trong đó k 

2
k
N


N 1

  x(n)e  jk n

(2.1.16)

n 0

k  0  N  1

n  0  N  1

xN (n) là dãy tuần hoàn chu kỳ N nên nó thỏa mãn xN (n)  xN (n  kN )

Đặt
W kn  e jk n  e

j

2
kn
N

, W  kn  e j n  e
k

j

2

kn
N

, WN  e

j

2
N

, W 1N  e

j

2
N

, W 0N  1

Theo cách đặt nhƣ trên thì biến đổi Fourier rời rạc đối với dãy tuần hoàn chu kỳ N đƣợc
viết lại nhƣ sau:
N 1

X (k )   x(n)WN kn

(2.1.17)

n 0

Biến đổi Fourier rời rạc ngƣợc (IDFT)

X (k ) 

1 N 1
X (k )WN  kn

N k 0

Tính chất của DFT đƣợc tham khảo tại [39].

13

(2.1.19)


Luận văn tốt nghiệp cao học

 Biến đổi Fourier nhanh
Biến đổi Fourier nhanh - FFT (Fast Fourier Transform) là thuật tốn rất hiệu quả để
tính DFT của một chuỗi dữ liệu số. Ƣu điểm của biến đổi này là nhiều tính tốn đƣợc lặp
lại do tính tuần hồn của số hạng Fourier e

j

2
kn
N

. Dạng DFT là:

N 1


X (k )   x(n)WN kn

(2.1.20)

n 0

Ta có W( N qN )( k rN )  Wnk với mọi q , r nguyên do tính tuần hồn của số hạng Fourier.
Tách DFT thành 2 phần:
N
1
2

N
1
2

n 0

n 0

X (k )   x(2n)WN 2 kn   x(2n  1)WN (2 n1) k

(2.1.21)

Chỉ số dƣới N của số hạng Fourier biễu diễn kích thƣớc của chuỗi. Nếu chúng ta biểu
diễn thành phần chẵn của chuỗi số x(n) bằng xev và thành phần lẻ là xod thì phƣơng trình
có thể viết lại:
N
1

2

N
1
2

X (k )   xev WN nk   xod WN nk
n 0

n 0

2

(2.1.22)

2

Ta có hai biểu thức DFT, do đó có thể viết:
X (k )  X ev (k )  WNk X od (k )

(2.1.23)

2

Chỉ số k chạy đến N  1 nhƣng do sử dụng tính chu kỳ của hàm chẵn và hàm lẻ nên chỉ
cần tính DFT

N
điểm để có đƣợc giá trị của X (k ) :
2

X ev (k )  X ev (k 

N
)
2

N
 k  N 1
2

(2.1.24)

Tiếp tục chia DFT kết quả thành hai nửa chẵn, lẻ cho đến khi chỉ cịn phải tính hai điểm
DFT. Đối với 2 điểm này chỉ cần phép cộng và trừ mà khơng cần phép nhân. Để tính tồn
N

bộ DFT, chúng ta nhân 2 điểm DFT với các thừa số thích hợp từ W0 tới W 2 .
 Biến đổi Cosine rời rạc
14


Luận văn tốt nghiệp cao học

Biến đổi Cosine rời rạc DCT (Discrete Cosine Transform) đƣợc sử dụng rộng rãi trong xử
lý tiếng nói. Nó là một phép biến đổi chuyển tín hiệu sang miền tần số.
Phép biến đổi thuận:
N 1

 (2n  1)k


n 0

2N

X (k )  a(k ) x(n).cos[

]

k  0,1, 2,..., N 1

(2.1.25)

]

n  0,1, 2,..., N 1

(2.1.26)

Biến đổi ngƣợc:
N 1

 (2n  1)k

k 0

2N

x(n)  a(n) X (k ).cos[

2.1.3 Các bộ lọc số.

Bộ lọc số của một hệ thống số dùng để làm biến dạng sự phân bố tần số của các
thành phần của một tín hiệu theo các tiêu chí đã cho.
Lọc số là các thao tác xử l dùng để làm biến dạng sự phân bố tần số của các thành
phần của một tín hiệu theo các tiêu chí đã cho nhờ một hệ thống số.
 Bộ lọc thông thấp lý tƣởng
| | 0

1
H (e j )  
0

(2.1.27)

0 |  | 

Sử dụng định nghĩa của biến đổi Fourier, ta đƣợc:
h( n) 

1
2

0





e jn d 

0


(e j0n  e j0n ) sin 0 n

 0 sin c(0 n)
2 jn
n

Ở đây hàm sinc đƣợc định nghĩa nhƣ sau: sin c( x) 

sin x
x

(2.1.28)
(2.1.29)

 Bộ lọc thông cao lý tƣởng
0
H (e j )  
1

| | 0
0 |  | 

(2.1.30)

Sử dụng định nghĩa của biến đổi Fourier, ta đƣợc:

15



Luận văn tốt nghiệp cao học

1
h( n) 
2



e

j n



1
d 
2

0

e

j n



1
d 
2




e

j n

0

(e j0n  e j0n )  sin 0 n
d =

 0 sin c(0 n)
2 jn
n

(2.1.31)
Ở đây hàm sinc đƣợc định nghĩa trong công thức (2.1.29).
 Bộ lọc FIR và IIR
Các hệ thống có đặc tính xung có chiều dài hữu hạn đƣợc gọi là FIR:
 0
h( n)  
 0

N1  n  N 2
  n  N1 v

N2  n  

(2.1.32)


Giả sử hệ thống FIR:
 bk

h(n)   a0
0


0k M

(2.1.33)

k

Khi đó đặc tính xung của hệ thống:
y ( n) 

1
a0

M

 b x(n  k )
k 0

(2.1.34)

k

Các hệ thống có đặc tính xung có chiều dài vô hạn đƣợc gọi là IIR:
N


M

k 0

k 0

 ak y(n  k )   bk x(n  k )

(2.1.35)

Phƣơng trình trên là một phƣơng trình đệ quy:
N

M

k 1

k 0

y(n)   ak y (n  k )   bk x(n  k )

(2.1.36)

Vì vậy IIR cịn đƣợc gọi là lọc đệ quy và FIR là lọc không đệ quy
Khi đó hệ thống có hàm truyền đạt trong mặt phẳng Z:
M

Y ( z)
H ( z) 


X ( z)

M

 bk z  k
k 0
N

1   ak z
k 1


k

b z

k

a z

k

k 0
N

k 0

k


(2.1.37)

k

16


Luận văn tốt nghiệp cao học

2.2 Phân tích phổ tách các đặc trƣng
2.2.1 Giới thiệu phương pháp phân tích phổ
Mục đích của phƣơng thức phân tích phổ âm là để tách các đặc trƣng của một vùng
âm thanh từ nguồn âm. Bởi vì những đặc trƣng của vùng âm thanh bao gồm các thông tin
của các từ nhận dạng [21]. Phép phân tích phổ là một phép xử lý tín hiệu tuyến tính, nơi
mà các tốn tử phi tuyến đƣợc đƣa vào biểu thức có thuộc tính tuyến tính.
Mơ hình tạo tiếng nói đƣợc đƣa ra hình dƣới:
Nguồn âm
Khối tạo tín
hiệu xung

Khối lọc âm
thanh

Khối khuếch
đại

Tín hiệu
tiếng nói
Bộ lọc vùng
âm thanh


Khơng phải
tiếng nói
Khối tạo tín
hiệu nhiễu

Âm thanh
thốt ra khỏi
mơi

Khối khuếch
đại

Hình 6: Sơ đồ khối mơ hình tạo tiếng nói

Đây là mơ hình chính xác nhƣng khi phân tích có thể làm đơn giản hơn bằng cách thay
thế khối lọc âm thanh, lọc vùng âm thanh và âm thanh thoát ra khỏi mơi bằng một bộ lọc
đơn giản ở Hình 7. Mơ hình này gộp tất cả các bộ lọc này vào một bộ lọc bằng cách sử
dụng phép nhân.
Tín hiệu từ nguồn
âm

Khối lọc vùng âm
thanh

Tín hiệu tiếng
nói

Hình 7: Sơ đồ khối mơ hình lọc nguồn tạo tiếng nói


Mơ hình phân tích này có thể đƣợc cơng thức hóa theo các mơ hình dƣới đây. Theo
mơ hình biểu diễn ở Hình 7, tín hiệu tiếng nói là sự kết hợp nguồn âm kích thích với bộ
lọc vùng âm thanh.

17


×