Tải bản đầy đủ (.pdf) (120 trang)

Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.82 MB, 120 trang )



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ





Phùng Trung Nghĩa





NHẬN DẠNG TIẾNG VIỆT SỬ DỤNG BIẾN ĐỔI
WAVELET VÀ MÔ HÌNH MARKOV ẨN





LUẬN VĂN THẠC SĨ

















Hà Nội - 2006

ĐẠI HỌC QUỐC GIA HÀ NỘI


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ




Phùng Trung Nghĩa






NHẬN DẠNG TIẾNG VIỆT SỬ DỤNG BIẾN ĐỔI
WAVELET VÀ MÔ HÌNH MARKOV ẨN


Ngành: Công nghệ Điện tử - Viễn thông

Chuyên ngành: Kỹ thuật vô tuyến điện tử và thông tin liên lạc
Mã số:2.07.00


LUẬN VĂN THẠC SĨ


NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRỊNH ANH VŨ










Hà Nội - 2006

2
MỤC
L
ỤC



Lời cam đoan 1
Mục lục 2
Danh mục các ký hiệu, các chữ viết tắt 6

Danh mục các bảng 8
Danh mục các hình vẽ, đồ thị 9
MỞ ĐẦU 13
Chương 1. TỔNG QUAN 17
1.1 Nhận dạng 17
1.2 Nhận dạng tiếng nói 18
1.2.1 Xử lý âm thanh 18
1.2.2 Phân loại nhận dạng tiếng nói 19
1.2.2.1 Nhận dạng từ liên tục và nhận dạng từ cách biệt 19
1.2.2.2 Nhận dạng phụ thuộc người nói và độc lập người nói 20
1.2.3 Hệ thống nhận dạng tiếng nói tự động 21
1.2.4 Lý thuyết nhận dạng tiếng nói 23
1.2.4.1 Rút trích vector đặc trưng 23
1.2.4.2 Phân lớp 25
Chương 2. XỬ LÝ TIẾNG NÓI - RÚT TRÍCH VECTOR ĐẶC TRƯNG 28
2.1 Xử lý tiếng nói 28
2.1.1 Lấy mẫu tín hiệu 28
2.1.2 Bộ lọc tín hiệu 29
2.1.3 Dò tìm điểm cuối (end-point detection) 30
2.2 Rút trích đặc trưng 31
2.2.1 Các bước rút trích đặc trưng 32
2.2.1.1 Làm rõ tín hiệu 33
2.2.1.2 Phân đoạn thành các khung 33
2.2.1.3 Lấy cửa sổ 34

3
2.2.2 Các dạng đặc trưng tiếng nói 38
2.2.2.1 Biến đổi tín hiệu sang miền tần số 39
2.2.2.2 Đặc trưng năng lượng 41
2.2.2.3 Đặc trưng MFCC 42

2.2.2.4 Đặc trưng LPC 44
2.2.2.5 Đặc trưng tần số cơ bản 47
Chương 3 MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN
DẠNG TIẾNG NÓI 55
3.1 Mô hình Markov ẩn 55
3.2 Ứng dụng Mô hình Markov vào nhận dạng tiếng nói 57
3.2.1 Thuật toán tiến 58
3.2.2 Thuật toán lùi 59
3.2.3 Phương pháp tìm chuỗi trạng thái tối ưu 60
3.2.4 Thuật toán Viterbi 61
3.2.5 Ước lượng Baum-Welch 63
Chương 4 BIẾN ĐỔI WAVELET VÀ ỨNG DỤNG TRONG XỬ LÝ VÀ
NHẬN DẠNG TIẾNG NÓI 65
4.1 Mục đích và ứng dụng của phân tich wavelet 65
4.1.1 Biến đổi Fourier 65
4.1.2 Biến đổi Fourier thời gian ngắn 65
4.1.3 Biến đối wavelet 66
4.2 Các loại biến đổi Wavelet 67
4.2.1 Biến đổi Wavelet liên tục CWT 67
4.2.2.Biến đổi Wavelet rời rạc DWT 70
4.2.3 Biến đổi Wavelet gói 72
4.3 Ứng dụng biến đổi Wavelet trong xử lý nhiễu và nâng cao chất lượng
tiếng nói 73
4.3.1 Phương pháp truyền thống của Dohono và Johnstone 73
4.3.2 Phương pháp khử nhiễu kết hợp kỹ thuật trừ phổ và wavelet 75

4
4.4 Ứng dụng biến đổi Wavelet trong nhận dạng tiếng nói 79
4.4.1 Tổng quan 79
4.4.2 Nhận dạng tiếng nói dùng CWT 79

4.4.3 Nhận dạng tiếng nói dùng DWT 81
4.4.4 So sánh SCWT, FWT và các vector đặc trưng truyền thống 83
4.5 Rút trích các đặc trưng tiếng Việt dùng biến đổi Wavelet 84
4.5.1 Trích formant dùng CWT 84
4.5.2 Trích chu kỳ Pitch dùng CWT 87
Chương 5. KHẢO SÁT VỀ NGỮ ÂM TIẾNG VIỆT ỨNG DỤNG XÂY DỰNG
HỆ THỐNG NHẬN DẠNG THANH ĐIỆU TIẾNG VIỆT 90
5.1 Một số đặc trưng ngữ âm tiếng Việt 90
5.1.1 Thanh điệu 90
5.1.2 Âm vị 90
5.1.3 Trường độ 91
5.2 Một số khảo sát về thanh điệu tiếng Việt 91
5.2.1 Tổng quan 91
5.2.2 Thanh 1(thanh ngang) 91
5.2.3 Thanh 2 (thanh huyền) 92
5.2.4 Thanh 3 (thanh ngã) 92
5.2.5 Thanh 4 (thanh hỏi) 94
5.2.6 Thanh 5 (thanh sắc) 95
5.2.7 Thanh 6 (thanh nặng) 96
5.3 Giải pháp nhận dạng theo mô hình âm vị 99
5.4 Xây dựng mô hình nhận dạng thanh điệu tiếng Việt 100
5.4.1 Khối tiền xử lý 100
5.4.2 Khối trích chu kỳ Pitch 101
5.4.3 Tạo vector đặc trưng V(F0) 101
5.4.4 Huấn luyện mô hình 102
5.4.5 Nhận dạng 103

5
5.5 Các kết quả nhận dạng thanh điệu 104
Chương 6. XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT NGUYÊN

TỪ RỜI RẠC HOÀN CHỈNH 106
6.1 Phương pháp sử dụng 106
6.1.1 Tổng quát 106
6.1.2 Tiền xử lý 106
6.1.3 Huấn luyện mẫu 106
6.1.4 Công đoạn nhận dạng 107
6.2 Cài đặt hệ thống nhận dạng tiếng Việt nguyên từ rời rạc hoàn chỉnh 108
6.2.1 Môi trường xây dựng 108
6.2.2 Bộ từ dùng cho huấn luyện và nhận dạng 108
6.2.3 Tạo vector đặc trưng V(SCWT) 109
6.2.4 Phân lớp 109
6.2.5 Mô hình HMM cho các từ nhận dạng 109
6.2.6 Kết quả nhận dạng 110
KẾT LUẬN 112
1. Các kết quả đạt được của luận văn 112
2. Những vấn đề còn tồn tại và biện pháp khắc phục 112
3. Các đề xuất 113
4. Hướng phát triển 113
Tài liệu tham khảo 115

6
DANH MỤC CÁC TỪ VIẾT TẮT

VIẾT TẮT
TIẾNG ANH
TIẾNG VIỆT
AMDF
Average Magnitude
Difference Function
Hàm hiệu biên độ trung bình

ANN
Affriciant Neural Network
Mạng Neural nhân tạo
ASR
Automatic Speech Recognition
Hệ thống nhận dạng tiếng nói tự động
CLIP
Center Clipping Pitch Detector
Phương pháp trích chu kỳ pitch CLIP
COR
Autocorrelation coefficients
Các hệ số tự tương quan
CTR
Cofficient to Thershold Ratio
Tỷ lệ hệ số trên ngưỡng
CWT
Continuous Wavelet Transform
Biến đổi Wavelet liên tục
DP
Dynamic Programming
Phương pháp lập trình Dynamic
DTW
Dynamic Time Warping
Phương pháp nhận dạng tiếng nói DTW
DWT
Discrete Wavelet Transform
Biến đổi Wavelet rời rạc
FCT
Fast Cosine Transform
Biến đổi Cosine nhanh

FFT
Fast Fourier Transform
Biến đổi Fourier nhanh
FIR
Finite Impulse Response
Bộ lọc đáp ứng xung hữu hạn
FT
Fourier Transform
Biến đổi Fourier
FWT
Fast Wavelet Transform
Biến đổi Wavelet nhanh
GMM
Gausian Mixture Model
Phương pháp nhận dạng GMM
HMM
Hidden Markov Model
Mô hình Markov ẩn
IDWT
Inverse Discrete Wavelet
Transform
Biến đổi wavelet rời rạc ngược
IIR
Infinite Impulse Response
Bộ lọc đáp ứng xung vô hạn
JPEG
Joint Photographic Experts
Group
Chuẩn nén ảnh JPEG
LAR

Log Area Ratio coefficients
Vector đặc trưng tiếng nói trên miền
Logarit
LPC
Linear Prediction Filter
Cofficient
Hệ số tiên đoán tuyến tính

7
LSP
Line Spectrum Pairs
Vector đặc trưng tiếng nói trên miền tần
số LSP
MFCC
Mel Frequency Ceptral
Cofficient
Hệ số tần số Ceptral thang Mel
MRA
Multi-Resolution Analysis
Phân tích đa phân giải
PARCOR
Partial Correlation Cofficients
Hệ số tương quan thành phần
PLP
Perceptional Linear Prediction
Hệ số tiên đoán tri giác tuyến tính
SCWT
Sampled Continuous Wavelet
Transform
Biến đổi Wavelet liên tục rút gọn

SIFT
Simplified Inverse Filter
Tracking
Phương pháp ước lượng lỗi SIFT
STFT
Short Time Fourier Transform
Biến đổi Fourier thời gian ngắn
SVM
Support Vector Machine
Phương pháp nhận dạng SVM
VAD
Voice Activity Detector
Bộ phát hiện tiếng nói
VQ
Vector Quantilization
Phương pháp nhận dạng ước lượng vector
VQ
VUS
Voice, Unvoice and Silence
Kỹ thuật dò tìm điểm cuối theo mức năng
lượng VUS
WT
Wavelet Transform
Biến đổi Wavelet


8
DANH

SÁCH BẢNG BIỂU

Bảng 2.1 Phân chia FFT chuỗi tín hiệu 16 điểm 41
Bảng 5.1 Kết quả nhận dạng thanh điệu 105
Bảng 6.1 Kết quả phân lớp thanh điệu 110
Bảng 6.2 Kết quả nhận dạng trên tập dữ liệu huấn luyện 110
Bảng 6.3 Kết quả nhận dạng trên tập dữ liệu mới 111


9

DANH

SÁCH

HÌNH

VẼ


Hình 1.1: Sơ đồ nhận dạng tổng quát 17
Hình 1.2: Các lĩnh vực trong xử lý tiếng nói 18
Hình 1.3: Ranh giới giữa “cô” và “ấy” không rõ ràng 19
Hình 1.4: Người nói khác nhau sẽ phát âm khác nhau 21
Hình 1.5: Mô hình nhận dạng bán độc lập người nói 21
Hình 1.6: Các thành phần cơ bản của hệ thống ASR 22
Hình 1.7: Các dạng cửa sổ thường dùng 24
Hình 1.8: Tổng quát quá trình rút trích vector đặc trưng 25
Hình 1.9: Các kỹ thuật nhận dạng tiếng nói và xu hướng phát triển 25
Hình 1.10: HMM với 3 trạng thái và trọng số chuyển trạng thái 27
Hình 2.1: Ví dụ về lấy mẫu tín hiệu f(t) trên miền thời gian 28
Hình 2.2: Minh họa hoạt động bộ lọc FIR 30

Hình 2.3: Minh họa hoạt động bộ lọc IIR 30
Hình 2.4: Dò tìm điểm cuối dựa vào mức năng lượng 31
Hình 2.5: Sơ đồ rút trích vector đặc trưng tổng quát 32
Hình 2.6: Sơ đồ rút trích đặc trưng chi tiết 32
Hình 2.7: Phân đoạn tiếng nói thành các khung chồng lấp 34
Hình 2.8a Âm „a‟ cửa sổ chữ nhật 512 điểm (45ms trái) và 64 điểm (5,6ms
phải) 36
Hình 2.8b Âm „a‟ cửa sổ Hamming 512 điểm (45ms trái) và 64 điểm (5,6ms
phải) 36
Hình 2.8c Âm „a‟ cửa sổ Hanning 512 điểm (45ms trái) và 64 điểm (5,6ms
phải) 37
Hình 2.9: Sự khác biệt giữa các dạng cửa sổ tín hiệu 38
Hình 2.10: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz 42
Hình 2.11: Các bước trích đặc trưng MFCC 43

10
Hình 2.12: Bộ lọc trên thang Mel 43
Hình 2.13: Bộ lọc trên tần số thật 43
Hình 2.14: Minh họa các bước biến đổi MFCC 44
Hình 2.15: Sơ đồ xử lý LPC dùng cho trích đặc trưng tiếng nói 45
Hình 2.16: Hình dạng tín hiệu tiếng nói 53
Hình 2.17: Kết quả trích F0 54
Hình 2.18: Kết quả sau khi lọc Median 54
Hình 3.1: Minh họa hoạt động của mô hình Markov ẩn 55
Hình 3.2: Mô hình Left - Right 57
Hình 3.3: Mô hình Bakis 57
Hình 3.4: Mô hình Tuyến tính 57
Hình 3.5:Minh họa thuật toán tiến 59
Hình 3.6:Minh họa thuật toán lùi 59
Hình 3.7: Ví dụ minh họa thuật toán Viterbi 62

Hình 3.8:Ví dụ minh họa thuật toán Viterbi (tt) 62
Hình 3.9: Ví dụ minh họa so khớp dùng thuật toán tiến-lùi 63
Hình 3.10: Minh họa ước lượng Baum - Welch 64
Hình 4.1: Biến đổi Fourier 65
Hình 4.2: Biến đổi Fourier thời gian ngắn 66
Hình 4.3: Phân tích wavelet 67
Hình 4.4: Wavele dịch 67
Hình 4.5: Wavele tỉ lệ 68
Hình 4.6: Bước 1. So sánh Wavele với tín hiệu nguyên thủy 69
Hình 4.7: Bước 2. Dịch Wavelet 69
Hình 4.8: Bước 4. Định tỷ lệ 69
Hình 4.9: Scalogram của CWT 70
Hình 4.10: Lọc một tầng cho xấp xỉ và chi tiết 71
Hình 4.11: Giảm tần số lấy mẫu 71
Hình 4.12: Phân tách đa mức 72

11
Hình 4.13: Tái tạo Wavelet 72
Hình 4.14: Tăng mẫu 73
Hình 4.15: Quá trình đặt ngưỡng 75
Hình 4.16: Sơ đồ khối hệ thống khử nhiễu kết hợp kỹ thuật trừ phổ và
wavelet 75
Hình 4.17: Sơ đồ chi tiết khối trừ phổ 76
Hình 4.18: Ước lượng ngưỡng cho khung thứ p và bank con thứ i 78
Hình 4.19: Morlet Wavelet 81
Hình 4.20: SCWT của từ “this” 81
Hình 4.21: Deubechies DB8 82
Hình 4.22: FWT DB8 của từ “this” 82
Hình 4.23: So sánh tỉ lệ nhận dạng với nhận dạng nguyên từ rời rạc dùng
MFCC, SCWT, FWT 83

Hình 4.24: So sánh tỉ lệ nhận dạng đúng với nhận dạng âm tiết dùng MFCC
và SCWT 84
Hình 4.25: Trích formant dùng CWT 86
Hình 4.26: Trích chu kỳ pitch dùng CWT 88
Hình 5.1: Thanh ngang 92
Hình 5.2: Thanh huyền 92
Hình 5.3a: Thanh ngã bị tách đôi 93
Hình 5.3b: Thanh ngã không bị tách đôi 93
Hình 5.4: Thanh hỏi 94
Hình 5.5a: Thanh sắc (trường hợp a) 95
Hình 5.5b: Thanh sắc (trường hợp b) 96
Hình 5.6a: Thanh nặng (trường hợp a) 97
Hình 5.6b: Thanh nặng (trường hợp b) 97
Hình 5.7: Minh họa việc nhận dạng âm vị trong HMM 99
Hình 5.8: Mô hình nhận dạng thanh điệu tiếng Việt 100
Hình 5.9: Tín hiệu tuần hoàn của nguyên âm [o] trong tiếng „hỏi‟ 101

12
Hình 5.10: Quá trình khởi tạo các tham số 103
Hình 5.11: Sơ đồ khối hệ nhận dạng thanh điệu tiếng Việt 104
Hình 6.1 Mô hình tổng quát hệ nhận dạng nguyên từ tiếng Việt 106
Hình 6.2: Công đoạn huấn luyện mẫu 106
Hình 6.3: Công đoạn nhận dạng 108
Hình 6.4 Mô hình ngôn ngữ của hệ nhận dạng 110
PDF Merger
Thank you for evaluating AnyBizSoft PDF
Merger! To remove this page, please
register your program!
Go to Purchase Now>>
 Merge multiple PDF files into one

 Select page range of PDF to merge
 Select specific page(s) to merge
 Extract page(s) from different PDF
files and merge into one
AnyBizSoft

13
MỞ
Đ
ẦU


Thông tin tiếng nói là loại hình thông tin phổ biến nhất trong các hệ
thống viễn thông hiện nay. Do vậy lĩnh vực nghiên cứu về tiếng nói và xử lý
tiếng nói được rất nhiều nhà nghiên cứu trong ngành điện tử viễn thông quan
tâm. Về cơ bản tiếng nói là một loại tín hiệu một chiều điển hình nên các kiến
thức về xử lý tín hiệu hoàn toàn có thể áp dụng với tín hiệu tiếng nói. Đó cũng
là một điều thuận lợi đối với những nhà nghiên cứu về xử lý tiếng nói vì lý
thuyết và công nghệ xử lý tín hiệu đã có những bước phát triển to lớn và được
ứng dụng rộng rãi trong thời gian gần đây. Xử lý tiếng nói bao gồm nhiều lĩnh
vực như triệt nhiễu và nâng cao chất lượng tiếng nói, mã hóa và nén tiếng nói,
tổng hợp tiếng nói, nhận dạng tiếng nói,
Lĩnh vực nhận dạng tiếng nói có nhiều ứng dụng trong thực tế như điều
khiển (thiết bị, robot, máy tính) bằng tiếng nói, chuyển tiếng nói thành văn bản,
dịch tự động, đặt hàng, giao dịch ngân hàng tự động qua mạng điện thoại, quay
số điện thoại bằng tiếng nói, hộp thư thoại tự động, Nhận dạng tiếng nói đã
được nghiên cứu nhiều trên thế giới và thu được nhiều kết quả quan trọng, một
số sản phẩm nhận dạng tiếng nói đã được ứng dụng trong thực tiễn. Tuy nhiên
mức độ chính xác của hầu hết các hệ thống nhận dạng là chưa thật cao, do vậy
tính ứng dụng thực tiễn còn thấp. Đặc biệt, do vấn đề trên thế giới có nhiều

ngôn ngữ, mỗi ngôn ngữ lại có những đặc điểm ngữ âm riêng, nên rất khó có
thể xây dựng được một hệ thống nhận dạng tiếng nói sử dụng tốt cho tất cả các
ngôn ngữ. Trong khi các hệ thống nhận dạng tiếng nói tiếng Anh hiện nay cho
độ chính xác khá cao thì các hệ thống nhận dạng tiếng Việt, tiếng Thái, có độ
chính xác chưa cao và cần phải nghiên cứu nhiều hơn nữa mới có thể ứng dụng
nhiều trong thực tiễn.
Tại Việt Nam, ngay từ khi Công nghệ Viễn thông và Công nghệ Thông
tin mới bắt đầu phát triển đầu những năm 80 đã có những nhà nghiên cứu mạnh
dạn đi vào lĩnh vực nhận dạng tiếng nói tiếng Việt (GS.TSKH Bạch Hưng

14
Khang, nguyên Viện trưởng Viện Công nghệ thông tin, Viện Khoa học &Công
nghệ Việt Nam). Từ đó đến nay nhiều công trình nghiên cứu về nhận dạng tiếng
Việt đã ra đời và thu được những kết quả quan trọng [1, 2, 5, 6, 7, 10, 11, 12,
15, 16], tuy nhiên một thực tế là hiện nay vẫn chưa có một hệ thống nhận dạng
tiếng Việt nào hoàn chỉnh, chính xác có tính ứng dụng cao trong thực tiễn. Vì
thế những nghiên cứu về nhận dạng tiếng Việt vẫn sẽ là một trong những hướng
nghiên cứu “nóng” trong thời gian tới tại Việt Nam.
Biến đổi wavelet ra đời được ví như một cuộc cách mạng trong lĩnh vực
xử lý tín hiệu, biến đổi wavelet đã được sử dụng thay thế biến đổi Fourier
truyền thống trong rất nhiều hệ thống xử lý tín hiệu. Trong lĩnh vực xử lý, nhận
dạng tiếng nói, biến đổi wavelet cũng có nhiều ứng dụng. Trên thế giới đã có
những hệ thống nhận dạng tiếng Anh dùng biến đổi wavelet cho độ chính xác
rất cao. Tại Việt Nam cũng mới bắt đầu có những nghiên cứu sử dụng biến đổi
wavelet để rút trích vector đặc trưng trong nhận dạng tiếng Việt [15], tuy nhiên
những nghiên cứu này cũng mới dừng lại ở mức độ kiểm chứng một phương
pháp mới trong nhận dạng tiếng Việt chứ chưa xây dựng được một hệ thống
nhận dạng tiếng Việt hoàn chỉnh hiệu quả.
Ngoài việc xác định được vector đặc trưng hiệu quả, để hệ thống nhận
dạng là độc lập người nói, ít phụ thuộc vào môi trường và điều kiện khi nói

(bản chất của tiếng nói là cùng một từ có thể được phát âm khác nhau đối với
mỗi người và với bản thân một người trong các điều kiện khác nhau) cũng như
tăng số lượng từ nhận dạng thì công việc phân lớp và huấn luyện mẫu là rất
quan trọng. Có nhiều phương pháp để phân lớp và huấn luyện mẫu như sử dụng
mạng Neural nhân tạo (ANN), mô hình Markov ẩn (HMM), mô hình SVM,
Đối với hầu hết các ngôn ngữ trên thế giới như tiếng Anh, mô hình HMM được
xem là mô hình hiệu quả nhất, hầu hết các nghiên cứu hiện nay về nhận dạng
tiếng Việt sử dụng phương pháp ANN [1, 2, 5, 7,11], một số khác đi theo
hướng tiếp cận dùng HMM [4, 13].

15
Tiếng Việt là ngôn ngữ có thanh điệu, điểm khác biệt lớn nhất của tiếng
Việt so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp là thanh điệu. So với
các ngôn ngữ thanh điệu khác như tiếng Thái, tiếng Hoa, tiếng Việt lại có các
đặc điểm ngữ âm của thanh điệu riêng. Bài toán nhận dạng thanh điệu là một
bài toán đã được nghiên cứu nhiều trong nhận dạng tíếng Việt [2, 12, 16]. Một
sự khác biệt nữa của tiếng Việt so với các ngôn ngữ khác là các đặc điểm ngữ
âm của âm vị. Do sự khác biệt này, mô hình nhận dạng theo âm vị trong tiếng
Việt cũng có những điểm khác biệt so với các hệ thống nhận dạng khác.
Luận văn này thừa kế các vấn đề lý thuyết đã được nghiên cứu và kiểm
chứng trong và ngoài nước, sử dụng các nghiên cứu về biến đổi wavelet và mô
hình HMM để áp dụng đề xuất một phương pháp nhận dạng thanh điệu tiếng
Việt theo chu kỳ pitch và xây dựng hệ thống nhận dạng thanh điệu theo chu kỳ
pitch. Kết quả nhận dạng thanh điệu thu được là 95 %.
Tiếp theo, luận văn cũng đề xuất một phương pháp nhận dạng tiếng Việt
nguyên từ rời rạc hoàn chỉnh. Phương pháp này sử dụng mô hình nhận dạng
thanh điệu đã tiếng Việt đã khảo sát để phân lớp và sử dụng vector đặc trưng là
các hệ số SCWT biến đổi sang miền Ceptral.
Ngoài việc nhận dạng tiếng nói thu âm sẵn, một hệ thống thu âm và nhận
dạng tiếng nói trực tiếp từ micro cũng được xây dựng với bộ tiền xử lý nâng

cao chất lượng tiếng nói dùng một phương pháp triệt nhiễu kết hợp kỹ thuật trừ
phổ và kỹ thuật triệt nhiễu dùng biến đổi wavelet.
Các kết quả thu được độ chính xác của hệ thống nhận dạng là 91 % kém
hơn một chút so với các hệ thống nhận dạng truyền thống dùng MFCC và
ANN. Mặc dù đã có nhiều nghiên cứu nhận dạng tiếng Việt dùng MFCC và
ANN, đã có nhiều cải tiến, nhiều đề xuất nhưng độ chính xác của hệ thống nhận
dạng không tăng được nhiều. Trong hoàn cảnh đó, việc xây dựng một hệ thống
nhận dạng dùng phương pháp khác cho chất lượng gần tương đương cũng rất có
ý nghĩa. Nếu được đầu tư nghiên cứu nhiều hơn, phương pháp nhận dạng tiếng
Việt dùng SCWT và HMM có phân lớp thanh điệu theo chu kỳ pitch sẽ là một

16
phương pháp hứa hẹn có khả năng nâng cao được độ chính xác của hệ thống
nhận dạng và có thể ứng dụng trong thực tiễn.

17
Chương

1. TỔNG

QUAN VỀ NHẬN DẠNG TIẾNG NÓI
1.1 Nhận

dạng

Nhận dạng của loài người là một quá trình hoàn hảo, đó là sự quan sát đối
tượng cần nhận dạng, ghi nhận lại những đặc trưng của đối tượng, phân lớp đối
tượng và có sử dụng khả năng phán đoán suy luận để phân biệt đối tượng đó với đối
tượng khác (trong một tập gần như vô hạn đối tượng).
Trong khi đó, nhận dạng tự động – nhận dạng bằng công cụ máy vi tính chỉ

đơn giản là quá trình phân biệt tín hiệu này với tín hiệu khác (trong một tập hữu hạn
các tín hiệu), quá trình này được thực hiện bằng cách thực hiện các bước tổng quát
sau (như trong hình 1.1).







Hình 1.1 Sơ đồ nhận dạng tổng quát
- Thu nhận tín hiệu và trích đặc trưng: thu nhận tín hiệu cần nhận dạng, khử
nhiễu, lọc tín hiệu (tiền xử lý) và rút ra các đặc trưng của tín hiệu
- Học mẫu: phân lớp các nhóm vector đặc trưng của từng nhóm tín hiệu
(bằng các thuật giải Heristic, bằng cách sử dụng mạng Neural, bằng các thuật toán
K-means, Batchelor- Wilkins, ……). Quá trình này tạo ra các lớp tín hiệu, mỗi lớp
đặc trưng cho từng nhóm tín hiệu.

18
- Nhận dạng, so khớp mẫu: tìm mối liên hệ giữa tín hiệu cần nhận dạng và các
lớp tín hiệu được tạo ra ở bước trước (bằng cách thông qua quy tắc người láng giềng
gần nhất chẳng hạn). Nếu như tín hiệu đó so khớp nhất (và mức độ so khớp thỏa
mãn một ngưỡng nào đó) ứng với một lớp tín hiệu nào thì hệ thống nhận dạng xác
định tín hiệu đó thuộc vào nhóm tín hiệu đó với một tỉ lệ nhất định gọi là độ chính
xác của hệ thống nhận dạng (tỉ lệ này dĩ nhiên là càng cao càng tốt).
1.2 Nhận

dạng

tiếng


nói

1.2.1

Xử



âm

thanh

Khi âm thanh được máy vi tính hỗ trợ thì nhu cầu xử lý âm thanh đã xuất
hiện. Các nhu cầu này đã tạo ra nhiều lĩnh vực ứng dụng trong thực tế. Chẳng hạn
như: tổng hợp âm thanh (synthesis), nén âm thanh (compression), nhận dạng người
nói (speaker recognition), nhận dạng tiếng nói (speech recognition)… Các lĩnh
vực ứng dụng khác nhau của xử lý tiếng nói được thể hiện qua hình 1.2.
Xử lý âm thanh đóng một vai trò quan trọng trong quá trình nhận dạng tiếng
nói, nó cần trong việc lọc nhiễu tín hiệu, biến đổi tín hiệu, rút trích vector đặc trưng,…









Hình 1.2: Các lĩnh vực trong xử lý tiếng nói


19
1.2.2

Phân

loại

nhận

dạng

tiếng

nói

1.2.2.1 Nhận dạng từ liên tục và nhận dạng từ cách biệt
Một hệ nhận dạng tiếng nói có thể là một trong hai dạng: nhận dạng liên
tục và nhận dạng từng từ.
Nhận dạng liên tục tức là nhận dạng tiếng nói được phát liên tục trong một
chuỗi tín hiệu, chẳng hạn như một câu nói, một mệnh lệnh hoặc một đoạn văn
được đọc bởi người dùng. Các hệ thống loại này rất phức tạp, nó phức tạp ở chỗ các
từ được phát liên tục khó xử lý kịp (nếu cần thời gian thực), hoặc khó tách ra nếu như
người nói liên tục không có khoảng nghỉ (thông thường rất hay xảy ra trong thực tế).
Kết quả tách từ ảnh hưởng rất lớn đến các bước sau, cần xử lý thật tốt trong quá
trình này.
Trái lại, đối với mô hình nhận dạng từng từ, mỗi từ cần nhận dạng được phát
âm một cách rời rạc, có các khoảng nghỉ trước và sau khi phát âm một từ. Mô hình
loại này dĩ nhiên đơn giản hơn mô hình nhận dạng liên tục, đồng thời cũng có
những ứng dụng thực tiễn như trong các hệ thống điều khiển bằng lời nói, quay số

bằng giọng nói…, với độ chính xác khá cao, tuy nhiên khó áp dụng rộng rãi đối với
mô hình trên.








Hình 1.3: Ranh giới giữa “cô” và “ấy” không rõ ràng

20
1.2.2.2 Nhận dạng phụ thuộc người nói và độc lập người nói
Đối với nhận dạng phụ thuộc người nói thì mỗi một hệ nhận dạng chỉ phục vụ
được cho một người, và nó sẽ không hiểu người khác nói gì nếu như chưa được
huấn luyện lại từ đầu. Do đó, hệ thống nhận dạng người nói khó được chấp nhận
rộng rãi vì không phải ai cũng đủ khả năng kiến thức và nhất là kiên nhẫn để huấn
luyện hệ thống. Đặc biệt là hệ thống loại này không thể ứng dụng ở nơi công cộng.
Ngược lại, hệ thống nhận dạng độc lập người nói thì lý tưởng hơn, ứng dụng
rộng rãi hơn, đáp ứng được hầu hết các yêu cầu đề ra. Nhưng không may là hệ
thống lý tưởng như vậy gặp một số vấn đề, nhất là độ chính xác của hệ thống.
Trong thực tế, mỗi người có một giọng nói khác nhau, thậm chí ngay cùng
một người cũng có giọng nói khác nhau ở những thời điểm khác nhau. Điều này
ảnh hưởng rất lớn đến việc nhận dạng, nó làm giảm độ chính xác của hệ thống nhận
dạng xuống nhiều lần. Do đó để khắc phục khuyết điểm này, hệ thống nhận dạng
độc lập người nói cần được thiết kế phức tạp hơn, đòi hỏi lượng dữ liệu huấn luyện
lớn hơn nhiều lần (dữ liệu được thu từ nhiều giọng khác nhau của nhiều người).
Nhưng điều này cũng không cải thiện được bao nhiêu chất lượng nhận dạng. Do đó,
trong thực tế có một cách giải quyết là bán độc lập người nói. Phương pháp

này thực hiện bằng cách thu mẫu một số lượng lớn các giọng nói khác biệt nhau.
Khi sử dụng, hệ thống sẽ được điều chỉnh cho phù hợp với giọng của người dùng,
bằng cách nó học thêm một vài câu có chứa các từ cần thiết (người dùng trước khi
sử dụng hệ thống cần phải qua một quá trình ngắn huấn luyện hệ thống).
Nhận dạng độc lập người nói khó hơn rất nhiều so với nhận dạng phụ thuộc
người nói. Cùng một từ, một người, dù có cố gắng phát âm cho thật giống đi nữa
thì cũng có sự khác biệt. Đối với bộ não con người, một hệ thống hoàn hảo, thì sự
khác biệt đó có thể được bỏ qua do ngữ cảnh, và do có phần xử lý làm mờ đi của
não. Nhưng đối với máy tính thì rất khó xây dựng được một mô hình giải quyết cho
tất cả các trường hợp khác biệt đó.

21


Hình 1.4: Người nói khác nhau sẽ phát âm khác nhau











H
Hình 1.5: Mô hình nhận dạng bán độc lập người nói
1.2.3


Hệ

thống

nhận

dạng

tiếng

nói

tự

động

Nhận dạng tiếng nói tự động ASR có nghĩa là chuyển đổi tự động tiếng nói
thành chữ viết hoặc thành một trong các chức năng của thiết bị.
Một hệ thống nhận dạng tiếng nói tự động gồm có các thành phần sau:
- Khối tiền xử lý: Quá trình này giải quyết các vấn đề dò tìm điểm cuối (phân
biệt trong chuỗi âm thu được đâu là tiếng nói đâu là độ ồn nền), lọc, khử nhiễu và

22
nâng cao chất lượng tiếng nói.
- Khối rút trích đặc trưng tiếng nói: biến đổi tín hiệu âm thanh thành
chuỗi các vector đặc trưng.
- Khối phân lớp và nhận dạng: Thực chất đây là quá trình nhận dạng
dựa trên mô hình âm thanh, từ điển phát âm và mô hình ngôn ngữ của hệ thống. Mô
hình ngôn ngữ ở đây thực chất chỉ biểu diển một ngữ pháp nào đó, nó có thể ứng với
một ngôn ngữ cụ thể hoặc đơn giản chỉ gói gọn trong phạm vi ứng dụng của hệ

thống, điều này góp phần giảm thiểu phạm vi nhận dạng của tiếng đó trong một vài từ
chứ không phải toàn bộ từ vựng.







Hình 1.6: Các thành phần cơ bản của hệ thống ASR
- Khối giải mã: Quá trình giải mã có thể chỉ đơn giản là xuất ra chuỗi văn
bản nhận dạng được hoặc phân tích chuỗi nhận được ứng với công việc gì và thực
hiện công việc đó.
Ứng dụng:
- Điều khiển bằng tiếng nói (khoảng 30 từ): Nhận dạng tên người, chữ số
của hệ thống quay số bằng giọng nói trên điện thoại di động, điều khiển thiết bị điện
tử,…
- Trong viễn thông (khoảng 2000 từ): Tự động điền mẫu đơn trong hệ thống
xử lý thông tin, tổng đài điện thoại, …
- Từ điển (khoảng 64k từ): Chuyển đổi thư thoại (bộ từ vựng lớn), thư ký

23
điện tử,…
1.2.4



thuyết

nhận


dạng

tiếng

nói

Nhận dạng tiếng nói là kỹ thuật nhận ra các thành phần lời nói của con người.
Quá trình này có thể được thực hiện từ việc thu vào tín hiệu tiếng nói từ micro, và
kết thúc bằng từ đã được nhận dạng được hệ thống xuất ra. Những bước của quá trình
trên sẽ được đề cập ở phần sau.
Việc nghiên cứu nhận dạng tiếng nói đã được bắt đầu từ cuối thập niên 40,
trong đó sự phát triển nhanh chóng của công nghệ máy tính đã đóng góp rất nhiều
vào sự phát triển của nhận dạng tiếng nói. Ngày nay nhận dạng tiếng nói đã có mặt
trong công nghiệp và đời sống ở một số lĩnh vực. Trong công nghiệp, khi tay và
mắt của con người đã được tận dụng triệt để, thì việc điều khiển bằng tiếng nói có
một thuận lợi rất lớn. Những ứng dụng khác của nhận dạng tiếng nói như hệ thống
nhận đặt phòng tự động qua điện thoại, bằng cách này khách hàng cảm thấy thuận lợi
hơn so với việc nhấn các nút của điện thoại. Hơn nữa, nhận dạng tiếng nói còn có
nhiều ứng dụng khác như hệ thống chính tả, các đồ chơi trẻ em, trò chơi game,…
Một cách lý tưởng, một chương trình nhận dạng sẽ có thể nhận dạng được
các từ khác nhau của bất kỳ người nào trong bất kỳ môi trường nào. Nhưng trong
thực tế, khả năng của hệ thống phụ thuộc vào nhiều yếu tố khác nhau. Bộ từ vựng,
đa người dùng, nhận dạng liên tục (phức tạp hơn nhiều so với nhận dạng từng từ) là
các yếu tố gây khó khăn, phức tạp cho việc nhận dạng tiếng nói. Tương tự như vậy
đối với độ ồn nền.
1.2.4.1 Rút trích vector đặc trưng
Ngày nay, việc xử lý tín hiệu tiếng nói hầu hết được thực hiện trên miền số.
Tín hiệu số được thu bằng cách lấy mẫu theo một tần số nhất định, đó là việc đo tín
hiệu theo một chu kỳ thời gian. Theo lý thuyết, bất cứ một tín hiệu có băng tần giới

hạn nào cũng có thể tái tạo lại một cách hoàn chỉnh nếu như tần số lấy mẫu F
S

ít
nhất là gấp đôi tần số tối đa của tín hiệu (định lý Nyquist). Chất lượng của tín hiệu

×