Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (289.14 KB, 15 trang )

Nhận dạng tiếng Việt sử dụng biến đổi Wavelet
và mô hình Markov ẩn
Phùng Trung Nghĩa
Trường Đại học Giáo dục
Luận văn ThS chuyên ngành: Kỹ thuật Điện tử - Viễn thông; Mã số: 2 07 00
Người hướng dẫn: TS. Trịnh Anh Vũ
Năm bảo vệ: 2006
Abstract: Tổng quan về nhận dạng tiếng nói, xử lý tiếng nói, rút trích vector đặc trưng và
nghiên cứu về biến đổi wavelet, về mô hình Markov ẩn HMM và ứng dụng trong nhận
dạng tiếng nói. Khảo sát về các đặc điểm ngữ âm của tiếng Việt như âm vị tiếng Việt,
thanh điệu tiếng Việt. Từ đó xây dựng hệ thống nhận dạng thanh điệu tiếng Việt theo chu
kỳ, nhận dạng tiếng Việt nguyên từ rời rạc có áp dụng phân lớp theo thanh điệu, dùng
vectơ đặc trưng SCWT và mô hình HMM trái phải 5 trạng thái. Đồng thời xây dựng bộ
tiền xử lý nâng cao chất lượng tiếng nói dùng kỹ thuật triệt nhiễu kết hợp kỹ thuật trừ phổ
và kỹ thuật triệt nhiễu bằng wavelet.
Keywords: Mô hình Markov ẩn; Nhận dạng lời nói; Tin học; Tiếng Việt; Wavelet

Content
Thông tin tiếng nói là loại hình thông tin phổ biến nhất trong các hệ thống viễn thông
hiện nay. Do vậy lĩnh vực nghiên cứu về tiếng nói và xử lý tiếng nói được rất nhiều nhà nghiên
cứu trong ngành điện tử viễn thông quan tâm. Về cơ bản tiếng nói là một loại tín hiệu một
chiều điển hình nên các kiến thức về xử lý tín hiệu hoàn toàn có thể áp dụng với tín hiệu tiếng
nói. Đó cũng là một điều thuận lợi đối với những nhà nghiên cứu về xử lý tiếng nói vì lý thuyết
và công nghệ xử lý tín hiệu đã có những bước phát triển to lớn và được ứng dụng rộng rãi
trong thời gian gần đây. Xử lý tiếng nói bao gồm nhiều lĩnh vực như triệt nhiễu và nâng cao
chất lượng tiếng nói, mã hóa và nén tiếng nói, tổng hợp tiếng nói, nhận dạng tiếng nói,...
Lĩnh vực nhận dạng tiếng nói có nhiều ứng dụng trong thực tế như điều khiển (thiết bị,
robot, máy tính) bằng tiếng nói, chuyển tiếng nói thành văn bản, dịch tự động, đặt hàng, giao
dịch ngân hàng tự động qua mạng điện thoại, quay số điện thoại bằng tiếng nói, hộp thư thoại
tự động,... Nhận dạng tiếng nói đã được nghiên cứu nhiều trên thế giới và thu được nhiều kết

quả quan trọng, một số sản phẩm nhận dạng tiếng nói đã được ứng dụng trong thực tiễn. Tuy
nhiên mức độ chính xác của hầu hết các hệ thống nhận dạng là chưa thật cao, do vậy tính ứng
dụng thực tiễn còn thấp. Đặc biệt, do vấn đề trên thế giới có nhiều ngôn ngữ, mỗi ngôn ngữ lại
có những đặc điểm ngữ âm riêng, nên rất khó có thể xây dựng được một hệ thống nhận dạng
tiếng nói sử dụng tốt cho tất cả các ngôn ngữ. Trong khi các hệ thống nhận dạng tiếng nói tiếng
Anh hiện nay cho độ chính xác khá cao thì các hệ thống nhận dạng tiếng Việt, tiếng Thái,... có
độ chính xác chưa cao và cần phải nghiên cứu nhiều hơn nữa mới có thể ứng dụng nhiều trong
thực tiễn.
Tại Việt Nam, ngay từ khi Công nghệ Viễn thông và Công nghệ Thông tin mới bắt đầu
phát triển đầu những năm 80 đã có những nhà nghiên cứu mạnh dạn đi vào lĩnh vực nhận dạng
tiếng nói tiếng Việt (GS.TSKH Bạch Hưng Khang, nguyên Viện trưởng Viện Công nghệ thông
tin, Viện Khoa học &Công nghệ Việt Nam). Từ đó đến nay nhiều công trình nghiên cứu về
nhận dạng tiếng Việt đã ra đời và thu được những kết quả quan trọng [1, 2, 5, 6, 7, 10, 11, 12,
15, 16], tuy nhiên một thực tế là hiện nay vẫn chưa có một hệ thống nhận dạng tiếng Việt nào
hoàn chỉnh, chính xác có tính ứng dụng cao trong thực tiễn. Vì thế những nghiên cứu về nhận
dạng tiếng Việt vẫn sẽ là một trong những hướng nghiên cứu “nóng” trong thời gian tới tại
Việt Nam.
Biến đổi wavelet ra đời được ví như một cuộc cách mạng trong lĩnh vực xử lý tín hiệu,
biến đổi wavelet đã được sử dụng thay thế biến đổi Fourier truyền thống trong rất nhiều hệ
thống xử lý tín hiệu. Trong lĩnh vực xử lý, nhận dạng tiếng nói, biến đổi wavelet cũng có nhiều
ứng dụng. Trên thế giới đã có những hệ thống nhận dạng tiếng Anh dùng biến đổi wavelet cho
độ chính xác rất cao. Tại Việt Nam cũng mới bắt đầu có những nghiên cứu sử dụng biến đổi
wavelet để rút trích vector đặc trưng trong nhận dạng tiếng Việt [15], tuy nhiên những nghiên
cứu này cũng mới dừng lại ở mức độ kiểm chứng một phương pháp mới trong nhận dạng tiếng
Việt chứ chưa xây dựng được một hệ thống nhận dạng tiếng Việt hoàn chỉnh hiệu quả.
Ngoài việc xác định được vector đặc trưng hiệu quả, để hệ thống nhận dạng là độc lập
người nói, ít phụ thuộc vào môi trường và điều kiện khi nói (bản chất của tiếng nói là cùng một
từ có thể được phát âm khác nhau đối với mỗi người và với bản thân một người trong các điều
kiện khác nhau) cũng như tăng số lượng từ nhận dạng thì công việc phân lớp và huấn luyện

mẫu là rất quan trọng. Có nhiều phương pháp để phân lớp và huấn luyện mẫu như sử dụng

mạng Neural nhân tạo (ANN), mô hình Markov ẩn (HMM), mô hình SVM, ... Đối với hầu hết
các ngôn ngữ trên thế giới như tiếng Anh, mô hình HMM được xem là mô hình hiệu quả nhất,
hầu hết các nghiên cứu hiện nay về nhận dạng tiếng Việt sử dụng phương pháp ANN [1, 2, 5,
7,11], một số khác đi theo hướng tiếp cận dùng HMM [4, 13].
Tiếng Việt là ngôn ngữ có thanh điệu, điểm khác biệt lớn nhất của tiếng Việt so với các
ngôn ngữ khác như tiếng Anh, tiếng Pháp là thanh điệu. So với các ngôn ngữ thanh điệu khác
như tiếng Thái, tiếng Hoa, tiếng Việt lại có các đặc điểm ngữ âm của thanh điệu riêng. Bài toán
nhận dạng thanh điệu là một bài toán đã được nghiên cứu nhiều trong nhận dạng tíếng Việt [2,
12, 16]. Một sự khác biệt nữa của tiếng Việt so với các ngôn ngữ khác là các đặc điểm ngữ âm
của âm vị. Do sự khác biệt này, mô hình nhận dạng theo âm vị trong tiếng Việt cũng có những
điểm khác biệt so với các hệ thống nhận dạng khác.
Luận văn này thừa kế các vấn đề lý thuyết đã được nghiên cứu và kiểm chứng trong và
ngoài nước, sử dụng các nghiên cứu về biến đổi wavelet và mô hình HMM để áp dụng đề xuất
một phương pháp nhận dạng thanh điệu tiếng Việt theo chu kỳ pitch và xây dựng hệ thống
nhận dạng thanh điệu theo chu kỳ pitch. Kết quả nhận dạng thanh điệu thu được là 95 %.
Tiếp theo, luận văn cũng đề xuất một phương pháp nhận dạng tiếng Việt nguyên từ rời
rạc hoàn chỉnh. Phương pháp này sử dụng mô hình nhận dạng thanh điệu đã tiếng Việt đã khảo
sát để phân lớp và sử dụng vector đặc trưng là các hệ số SCWT biến đổi sang miền Ceptral.
Ngoài việc nhận dạng tiếng nói thu âm sẵn, một hệ thống thu âm và nhận dạng tiếng nói
trực tiếp từ micro cũng được xây dựng với bộ tiền xử lý nâng cao chất lượng tiếng nói dùng
một phương pháp triệt nhiễu kết hợp kỹ thuật trừ phổ và kỹ thuật triệt nhiễu dùng biến đổi
wavelet.
Các kết quả thu được độ chính xác của hệ thống nhận dạng là 91 % kém hơn một chút
so với các hệ thống nhận dạng truyền thống dùng MFCC và ANN. Mặc dù đã có nhiều nghiên
cứu nhận dạng tiếng Việt dùng MFCC và ANN, đã có nhiều cải tiến, nhiều đề xuất nhưng độ
chính xác của hệ thống nhận dạng không tăng được nhiều. Trong hoàn cảnh đó, việc xây dựng
một hệ thống nhận dạng dùng phương pháp khác cho chất lượng gần tương đương cũng rất có

ý nghĩa. Nếu được đầu tư nghiên cứu nhiều hơn, phương pháp nhận dạng tiếng Việt dùng
SCWT và HMM có phân lớp thanh điệu theo chu kỳ pitch sẽ là một phương pháp hứa hẹn có
khả năng nâng cao được độ chính xác của hệ thống nhận dạng và có thể ứng dụng trong thực
tiễn.

References
Tiếng Việt
[1] Hoàng Đình Chiến, Lê Tiến Thường (2005), “Nhận dạng tiếng Việt dùng mạng Neural kết
hợp với trích đặc trưng LPC và AMDF”, Hội thảo CNTT Quốc Gia.
[2] Hoàng Đình Chiến, “Nhận dạng tiếng Việt dùng mạng Neural kết hợp với trích đặc trưng
LPC và AMDF”, Chuyên san Tạp chí BCVT.
[3] Hà Đình Dũng, Nguyễn Kim Quang (2003), “Xây dựng bộ giảm nhiễu sử dụng phương pháp
trừ phổ ứng dụng trong hệ thống nhận dạng tiếng nói”, Báo cáo hội thảo quốc gia CNTT, Thái
Nguyên
[4] Đỗ Xuân Đat, Võ Văn Tuấn (2003), Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận
dạng tiếng nói, Luận văn tốt nghiệp Cử nhân CNTT, Đại học KHTN TP Hồ Chí Minh.
[5] Đặng Ngọc Đức, “Ứng dụng mạng neural trong nhận dạng tiếng nói mười chữ số tiếng Việt”,
Chuyên san Tạp chí BCVT.
[6] Đặng Ngọc Đức, “Gán nhãn âm vị trong quá trình xây dựng CSDL tiếng Việt”, Chuyên san
Tạp chí BCVT.
[7] Đặng Ngọc Đức, Lương Chi Mai, “Tăng cường độ chính xác của mạng neural nhận dạng
tiếng Việt”, Chuyên san Tạp chí BCVT.
[8] Nguyễn Hoàng Hải, Hà Trần Đức, Nguyễn Việt Anh (2005), Công cụ phân tích wavelet và
ứng dụng trong MATLAB, NXB Khoa học kỹ thuật.
[9] Bùi Huy Hải (2004), Nén tín hiệu tiếng nói dùng biến đổi Wavelet, Luận văn thạc sỹ khoa
học, ĐH Bách Khoa Hà Nội.
[10] Trịnh Văn Loan, Nguyễn Nam Hà, Phạm Việt Hà, “Xác đinh tham số đặc trưng của các
nguyên âm không dấu tiếng Việt”, Chuyên san Tạp chí BCVT.
[11] Lương Chi Mai, Đặng Ngọc Đức (2005), “Hệ thống nhận dạng tiếng việt không dấu liên tục

có bộ từ vựng kích thước trung bình”, Hội thảo CNTT Quốc Gia, Hải Phòng.
[12] Nguyễn Thị Thanh Mai, Ngô Hoàng Huy, Nguyễn Huy Hoàng (2005), “Nhận dạng thanh
điệu tiếng Việt trên tiếng nói rời rạc phụ thuộc người nói”, Hội thảo CNTT Quốc Gia, Hải
Phòng.
[13] Nguyễn Hồng Quang (2004), Nhận dạng tiếng nói tiếng Việt tìm hiểu và ứng dụng, Luận
văn tốt nghiệp Cử nhân CNTT, Đại học KHTN TP Hồ Chí Minh.

[14] Nguyễn Đình Thông (2005), “Tài liệu hướng dẫn báo cáo phần Xử lý ảnh và tín hiệu”, Hệ
Cao học, Đại học Quốc gia Hà nội.
[15] Lê Tiến Thường, Hoàng Đình Chiến, Trần Thanh Hùng (2004), “Phương pháp hiệu quả
nhận dạng tiếng Việt ứng dụng phép biến đổi Wavelet”, Chuyên san Tạp chí BCVT.
[16] Lê Tiến Thường, Huỳnh Ngọc Phiên, “Phương pháp mới trích chu kỳ cao độ trung bình
trong nhận dạng thanh điệu tiếng Việt”, Chuyên san Tạp chí BCVT, 2005.
[17] Lê Tiến Thường, Hoàng Đình Chiến, “Biến đổi wavelets, subband coding và một số ứng
dụng trong xử lý tín hiệu”.
[18] Nguyễn Quốc Trung (2002), Xử lý tín hiệu và lọc số, tập 1,2 NHB KHKT.
[19] Nguyễn Quốc Trung (2002), Bài giảng môn Xử lý tín hiệu nâng cao, Hệ cao học, ĐH Bách
Khoa Hà Nội.
Tiếng Anh
[20] Donoho, D. L.(1995), “Denoising via soft thresholding'', IEEE Trans. Information Theory,
41: pp. 613-627.
[21] Bob Dunn (29 April 2003), Speech Signal Processing and Speech Recognition.
[22] Christine Englund (2004), “Speech recognition in the JAS 39 Gripen aircraft
adaptation to speech at different G-loads”, pp. 2 – 5.
[23] R. Favero and R. King, (1993). Wavelet parameterization for speech recognition, Preprint.
[24] Qiang Fu (2003), “A novel speech enhancement system based on wavelet denoising”.
[25] Yi Hu, Student Member, IEEE, and Philipos C. Loizou, Member, IEEE, (2003), “Speech
Enhancement Based on Wavelet Thresholding the Multitaper Spectrum”.
[26] M. Krishnan, C. Neophytou, and G. Prescott (1994). Wavelet transform speech recognition

using vector quantization, dynamic time wraping and articicial neural networks. Preprint.
[27] S.Manikandan (2006), “Speech enhancement based on wavelet denoising”.
[28] Lawrence Rabiner and Biing-Hwang Juang (1993), Fundamentals of Speech
Recognition, Prentice Hall.
[29] Gibert Strang, Truong Nguyen (1996), Wavelet and Filter Banks, Weliesley- Cambridge
Press, The United States of America.
[30] H. Talhami, T.Le-Tien, D.T. Nguyen, (1997), “Simple algorithm for wavelet maxima
modulus extraction in time-scale representation”, IEEE Electronic Letter, An Internaltional
Publication, England, Vol.33.

[31]

Beng T. TAN, Minyue Fu, Andrew Spray (2000), “The use of wavelet transforms in

phoneme recognition”
[32] Le Tien Thuong, Nguyen Huu Loc (1998), “An efficient algorithm for ridge extraction in
time-scale and time-frequency representations”
[33] Keiichi Tokuda, HMM-Based Speech Synthesis toward Human-like Talking
Machines.

Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về