Tải bản đầy đủ (.pdf) (120 trang)

(LUẬN VĂN THẠC SĨ) Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn Luận văn ThS Kỹ thuật Điện tử - Viễn thông 2 07 00

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.87 MB, 120 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phùng Trung Nghĩa

NHẬN DẠNG TIẾNG VIỆT SỬ DỤNG BIẾN ĐỔI
WAVELET VÀ MƠ HÌNH MARKOV ẨN

LUẬN VĂN THẠC SĨ

Hà Nội - 2006
ĐẠI HỌC QUỐC GIA HÀ NỘI

TIEU LUAN MOI download :


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phùng Trung Nghĩa

NHẬN DẠNG TIẾNG VIỆT SỬ DỤNG BIẾN ĐỔI
WAVELET VÀ MƠ HÌNH MARKOV ẨN
Ngành: Cơng nghệ Điện tử - Viễn thông
Chuyên ngành: Kỹ thuật vô tuyến điện tử và thông tin liên lạc
Mã số:2.07.00

LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRỊNH ANH VŨ

Hà Nội - 2006


TIEU LUAN MOI download :


2

MỤC LỤC

Lời cam đoan.............................................................................................................1
Mục lục......................................................................................................................2
Danh mục các ký hiệu, các chữ viết tắt.....................................................................6
Danh mục các bảng....................................................................................................8
Danh mục các hình vẽ, đồ thị....................................................................................9
MỞ ĐẦU .................................................................................................................13
Chương 1. TỔNG QUAN ....................................................................................17
1.1 Nhận dạng..........................................................................................................17
1.2 Nhận dạng tiếng nói ..........................................................................................18
1.2.1 Xử lý âm thanh................................................................................................18
1.2.2 Phân loại nhận dạng tiếng nói ........................................................................19
1.2.2.1 Nhận dạng từ liên tục và nhận dạng từ cách biệt ........................................19
1.2.2.2 Nhận dạng phụ thuộc người nói và độc lập người nói ................................20
1.2.3 Hệ thống nhận dạng tiếng nói tự động ...........................................................21
1.2.4 Lý thuyết nhận dạng tiếng nói .......................................................................23
1.2.4.1 Rút trích vector đặc trưng............................................................................23
1.2.4.2 Phân lớp.......................................................................................................25
Chương 2. XỬ LÝ TIẾNG NÓI - RÚT TRÍCH VECTOR ĐẶC TRƯNG ........28
2.1 Xử lý tiếng nói...................................................................................................28
2.1.1 Lấy mẫu tín hiệu ..........................................................................................28
2.1.2 Bộ lọc tín hiệu ................................................................................................29
2.1.3 Dị tìm điểm cuối (end-point detection).........................................................30
2.2 Rút trích đặc trưng.............................................................................................31

2.2.1 Các bước rút trích đặc trưng ..........................................................................32
2.2.1.1 Làm rõ tín hiệu ............................................................................................33
2.2.1.2 Phân đoạn thành các khung .........................................................................33
2.2.1.3 Lấy cửa sổ ...................................................................................................34

TIEU LUAN MOI download :


3

2.2.2 Các dạng đặc trưng tiếng nói .........................................................................38
2.2.2.1 Biến đổi tín hiệu sang miền tần số ..............................................................39
2.2.2.2 Đặc trưng năng lượng..................................................................................41
2.2.2.3 Đặc trưng MFCC.........................................................................................42
2.2.2.4 Đặc trưng LPC ............................................................................................44
2.2.2.5 Đặc trưng tần số cơ bản..............................................................................47
Chương 3 MƠ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN
DẠNG TIẾNG NĨI................................................................................................55
3.1 Mơ hình Markov ẩn...........................................................................................55
3.2 Ứng dụng Mơ hình Markov vào nhận dạng tiếng nói .......................................57
3.2.1 Thuật toán tiến ...............................................................................................58
3.2.2 Thuật toán lùi .................................................................................................59
3.2.3 Phương pháp tìm chuỗi trạng thái tối ưu .......................................................60
3.2.4 Thuật tốn Viterbi ..........................................................................................61
3.2.5 Ước lượng Baum-Welch .................................................................................63
Chương 4 BIẾN ĐỔI WAVELET VÀ ỨNG DỤNG TRONG XỬ LÝ VÀ
NHẬN DẠNG TIẾNG NÓI..................................................................................65
4.1 Mục đích và ứng dụng của phân tich wavelet.....................................................65
4.1.1 Biến đổi Fourier...............................................................................................65
4.1.2 Biến đổi Fourier thời gian ngắn.......................................................................65

4.1.3 Biến đối wavelet...............................................................................................66
4.2 Các loại biến đổi Wavelet...................................................................................67
4.2.1 Biến đổi Wavelet liên tục CWT.......................................................................67
4.2.2.Biến đổi Wavelet rời rạc DWT........................................................................70
4.2.3 Biến đổi Wavelet gói........................................................................................72
4.3 Ứng dụng biến đổi Wavelet trong xử lý nhiễu và nâng cao chất lượng
tiếng nói.....................................................................................................................73
4.3.1 Phương pháp truyền thống của Dohono và Johnstone.....................................73
4.3.2 Phương pháp khử nhiễu kết hợp kỹ thuật trừ phổ và wavelet.........................75

TIEU LUAN MOI download :


4

4.4 Ứng dụng biến đổi Wavelet trong nhận dạng tiếng nói......................................79
4.4.1 Tổng quan........................................................................................................79
4.4.2 Nhận dạng tiếng nói dùng CWT......................................................................79
4.4.3 Nhận dạng tiếng nói dùng DWT......................................................................81
4.4.4 So sánh SCWT, FWT và các vector đặc trưng truyền thống...........................83
4.5 Rút trích các đặc trưng tiếng Việt dùng biến đổi Wavelet..................................84
4.5.1 Trích formant dùng CWT................................................................................84
4.5.2 Trích chu kỳ Pitch dùng CWT.........................................................................87
Chương 5. KHẢO SÁT VỀ NGỮ ÂM TIẾNG VIỆT ỨNG DỤNG XÂY DỰNG
HỆ THỐNG NHẬN DẠNG THANH ĐIỆU TIẾNG VIỆT ..............................90
5.1 Một số đặc trưng ngữ âm tiếng Việt................................................................90
5.1.1 Thanh điệu....................................................................................................90
5.1.2 Âm vị............................................................................................ ................90
5.1.3 Trường độ......................................................................................................91
5.2 Một số khảo sát về thanh điệu tiếng Việt.........................................................91

5.2.1 Tổng quan.....................................................................................................91
5.2.2 Thanh 1(thanh ngang)...................................................................................91
5.2.3 Thanh 2 (thanh huyền)..................................................................................92
5.2.4 Thanh 3 (thanh ngã)......................................................................................92
5.2.5 Thanh 4 (thanh hỏi).......................................................................................94
5.2.6 Thanh 5 (thanh sắc).......................................................................................95
5.2.7 Thanh 6 (thanh nặng)....................................................................................96
5.3 Giải pháp nhận dạng theo mơ hình âm vị.........................................................99
5.4 Xây dựng mơ hình nhận dạng thanh điệu tiếng Việt......................................100
5.4.1 Khối tiền xử lý............................................................................................100
5.4.2 Khối trích chu kỳ Pitch...............................................................................101
5.4.3 Tạo vector đặc trưng V(F0).........................................................................101
5.4.4 Huấn luyện mơ hình....................................................................................102
5.4.5 Nhận dạng........................................................................................... ........103

TIEU LUAN MOI download :


5

5.5 Các kết quả nhận dạng thanh điệu..................................................................104
Chương 6. XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT NGUYÊN
TỪ RỜI RẠC HOÀN CHỈNH.............................................................................106
6.1 Phương pháp sử dụng.....................................................................................106
6.1.1 Tổng quát....................................................................................................106
6.1.2 Tiền xử lý....................................................................................................106
6.1.3 Huấn luyện mẫu..........................................................................................106
6.1.4 Công đoạn nhận dạng..................................................................................107
6.2 Cài đặt hệ thống nhận dạng tiếng Việt nguyên từ rời rạc hồn chỉnh...............108
6.2.1 Mơi trường xây dựng..................................................................................108

6.2.2 Bộ từ dùng cho huấn luyện và nhận dạng...................................................108
6.2.3 Tạo vector đặc trưng V(SCWT)....................................................................109
6.2.4 Phân lớp.........................................................................................................109
6.2.5 Mơ hình HMM cho các từ nhận dạng...........................................................109
6.2.6 Kết quả nhận dạng..........................................................................................110
KẾT LUẬN........................................................................................................... 112
1. Các kết quả đạt được của luận văn...................................................................112
2. Những vấn đề còn tồn tại và biện pháp khắc phục...........................................112
3. Các đề xuất.......................................................................................................113
4. Hướng phát triển..............................................................................................113
Tài liệu tham khảo ...................................................................... ............................115

TIEU LUAN MOI download :


6

DANH MỤC CÁC TỪ VIẾT TẮT
VIẾT TẮT
AMDF

TIẾNG ANH
Average Magnitude

TIẾNG VIỆT
Hàm hiệu biên độ trung bình

Difference Function
ANN


Affriciant Neural Network

Mạng Neural nhân tạo

ASR

Automatic Speech Recognition

Hệ thống nhận dạng tiếng nói tự động

CLIP

Center Clipping Pitch Detector

Phương pháp trích chu kỳ pitch CLIP

COR

Autocorrelation coefficients

Các hệ số tự tương quan

CTR

Cofficient to Thershold Ratio

Tỷ lệ hệ số trên ngưỡng

CWT


Continuous Wavelet Transform

Biến đổi Wavelet liên tục

DP

Dynamic Programming

Phương pháp lập trình Dynamic

DTW

Dynamic Time Warping

Phương pháp nhận dạng tiếng nói DTW

DWT

Discrete Wavelet Transform

Biến đổi Wavelet rời rạc

FCT

Fast Cosine Transform

Biến đổi Cosine nhanh

FFT


Fast Fourier Transform

Biến đổi Fourier nhanh

FIR

Finite Impulse Response

Bộ lọc đáp ứng xung hữu hạn

FT

Fourier Transform

Biến đổi Fourier

FWT

Fast Wavelet Transform

Biến đổi Wavelet nhanh

GMM

Gausian Mixture Model

Phương pháp nhận dạng GMM

HMM


Hidden Markov Model

Mơ hình Markov ẩn

IDWT

Inverse Discrete Wavelet

Biến đổi wavelet rời rạc ngược

Transform
IIR

Infinite Impulse Response

Bộ lọc đáp ứng xung vô hạn

JPEG

Joint Photographic Experts

Chuẩn nén ảnh JPEG

Group
LAR

Log Area Ratio coefficients

Vector đặc trưng tiếng nói trên miền
Logarit


LPC

Linear Prediction Filter

Hệ số tiên đốn tuyến tính

Cofficient

TIEU LUAN MOI download :


7

LSP

Line Spectrum Pairs

Vector đặc trưng tiếng nói trên miền tần
số LSP

MFCC

Mel Frequency Ceptral

Hệ số tần số Ceptral thang Mel

Cofficient
MRA


Multi-Resolution Analysis

Phân tích đa phân giải

PARCOR

Partial Correlation Cofficients

Hệ số tương quan thành phần

PLP

Perceptional Linear Prediction

Hệ số tiên đốn tri giác tuyến tính

SCWT

Sampled Continuous Wavelet

Biến đổi Wavelet liên tục rút gọn

Transform
SIFT

Simplified Inverse Filter

Phương pháp ước lượng lỗi SIFT

Tracking

STFT

Short Time Fourier Transform

Biến đổi Fourier thời gian ngắn

SVM

Support Vector Machine

Phương pháp nhận dạng SVM

VAD

Voice Activity Detector

Bộ phát hiện tiếng nói

VQ

Vector Quantilization

Phương pháp nhận dạng ước lượng vector
VQ

VUS

Voice, Unvoice and Silence

Kỹ thuật dị tìm điểm cuối theo mức năng

lượng VUS

WT

Wavelet Transform

Biến đổi Wavelet

TIEU LUAN MOI download :


8

DANH SÁCH BẢNG BIỂU
Bảng 2.1 Phân chia FFT chuỗi tín hiệu 16 điểm.....................................................41
Bảng 5.1 Kết quả nhận dạng thanh điệu ..............................................................105
Bảng 6.1 Kết quả phân lớp thanh điệu..................................................................110
Bảng 6.2 Kết quả nhận dạng trên tập dữ liệu huấn luyện.....................................110
Bảng 6.3 Kết quả nhận dạng trên tập dữ liệu mới.................................................111

TIEU LUAN MOI download :


9

DANH SÁCH HÌNH VẼ
Hình 1.1: Sơ đồ nhận dạng tổng quát .............................................................17
Hình 1.2: Các lĩnh vực trong xử lý tiếng nói ..................................................18
Hình 1.3: Ranh giới giữa “cơ” và “ấy” khơng rõ ràng .................................19
Hình 1.4: Người nói khác nhau sẽ phát âm khác nhau...................................21

Hình 1.5: Mơ hình nhận dạng bán độc lập người nói ....................................21
Hình 1.6: Các thành phần cơ bản của hệ thống ASR .....................................22
Hình 1.7: Các dạng cửa sổ thường dùng ........................................................24
Hình 1.8: Tổng qt q trình rút trích vector đặc trưng ..............................25
Hình 1.9: Các kỹ thuật nhận dạng tiếng nói và xu hướng phát triển .............25
Hình 1.10: HMM với 3 trạng thái và trọng số chuyển trạng thái...................27
Hình 2.1: Ví dụ về lấy mẫu tín hiệu f(t) trên miền thời gian..........................28
Hình 2.2: Minh họa hoạt động bộ lọc FIR......................................................30
Hình 2.3: Minh họa hoạt động bộ lọc IIR .......................................................30
Hình 2.4: Dị tìm điểm cuối dựa vào mức năng lượng ...................................31
Hình 2.5: Sơ đồ rút trích vector đặc trưng tổng qt .....................................32
Hình 2.6: Sơ đồ rút trích đặc trưng chi tiết ....................................................32
Hình 2.7: Phân đoạn tiếng nói thành các khung chồng lấp ...........................34
Hình 2.8a Âm „a‟ cửa sổ chữ nhật 512 điểm (45ms trái) và 64 điểm (5,6ms
phải).................................................................................................................36
Hình 2.8b Âm „a‟ cửa sổ Hamming 512 điểm (45ms trái) và 64 điểm (5,6ms
phải).................................................................................................................36
Hình 2.8c Âm „a‟ cửa sổ Hanning 512 điểm (45ms trái) và 64 điểm (5,6ms
phải).................................................................................................................37
Hình 2.9: Sự khác biệt giữa các dạng cửa sổ tín hiệu ....................................38
Hình 2.10: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz ..............................42
Hình 2.11: Các bước trích đặc trưng MFCC .................................................43

TIEU LUAN MOI download :


10

Hình 2.12: Bộ lọc trên thang Mel ...................................................................43
Hình 2.13: Bộ lọc trên tần số thật...................................................................43

Hình 2.14: Minh họa các bước biến đổi MFCC .............................................44
Hình 2.15: Sơ đồ xử lý LPC dùng cho trích đặc trưng tiếng nói ...................45
Hình 2.16: Hình dạng tín hiệu tiếng nói .........................................................53
Hình 2.17: Kết quả trích F0 ............................................................................54
Hình 2.18: Kết quả sau khi lọc Median ..........................................................54
Hình 3.1: Minh họa hoạt động của mơ hình Markov ẩn.................................55
Hình 3.2: Mơ hình Left - Right........................................................................57
Hình 3.3: Mơ hình Bakis .................................................................................57
Hình 3.4: Mơ hình Tuyến tính .........................................................................57
Hình 3.5:Minh họa thuật tốn tiến..................................................................59
Hình 3.6:Minh họa thuật tốn lùi ...................................................................59
Hình 3.7: Ví dụ minh họa thuật tốn Viterbi ..................................................62
Hình 3.8:Ví dụ minh họa thuật tốn Viterbi (tt) .............................................62
Hình 3.9: Ví dụ minh họa so khớp dùng thuật tốn tiến-lùi ...........................63
Hình 3.10: Minh họa ước lượng Baum - Welch..............................................64
Hình 4.1: Biến đổi Fourier ..............................................................................65
Hình 4.2: Biến đổi Fourier thời gian ngắn .....................................................66
Hình 4.3: Phân tích wavelet ............................................................................67
Hình 4.4: Wavele dịch .....................................................................................67
Hình 4.5: Wavele tỉ lệ ......................................................................................68
Hình 4.6: Bước 1. So sánh Wavele với tín hiệu ngun thủy..........................69
Hình 4.7: Bước 2. Dịch Wavelet......................................................................69
Hình 4.8: Bước 4. Định tỷ lệ............................................................................69
Hình 4.9: Scalogram của CWT........................................................................70
Hình 4.10: Lọc một tầng cho xấp xỉ và chi tiết...............................................71
Hình 4.11: Giảm tần số lấy mẫu......................................................................71
Hình 4.12: Phân tách đa mức..........................................................................72

TIEU LUAN MOI download :



11

Hình 4.13: Tái tạo Wavelet..............................................................................72
Hình 4.14: Tăng mẫu.......................................................................................73
Hình 4.15: Quá trình đặt ngưỡng....................................................................75
Hình 4.16: Sơ đồ khối hệ thống khử nhiễu kết hợp kỹ thuật trừ phổ và
wavelet.............................................................................................................75
Hình 4.17: Sơ đồ chi tiết khối trừ phổ.............................................................76
Hình 4.18: Ước lượng ngưỡng cho khung thứ p và bank con thứ i................78
Hình 4.19: Morlet Wavelet..............................................................................81
Hình 4.20: SCWT của từ “this”......................................................................81
Hình 4.21: Deubechies DB8............................................................................82
Hình 4.22: FWT DB8 của từ “this”................................................................82
Hình 4.23: So sánh tỉ lệ nhận dạng với nhận dạng nguyên từ rời rạc dùng
MFCC, SCWT, FWT........................................................................................83
Hình 4.24: So sánh tỉ lệ nhận dạng đúng với nhận dạng âm tiết dùng MFCC
và SCWT .........................................................................................................84
Hình 4.25: Trích formant dùng CWT..............................................................86
Hình 4.26: Trích chu kỳ pitch dùng CWT.......................................................88
Hình 5.1: Thanh ngang...................................................................................92
Hình 5.2: Thanh huyền....................................................................................92
Hình 5.3a: Thanh ngã bị tách đơi...................................................................93
Hình 5.3b: Thanh ngã khơng bị tách đơi........................................................93
Hình 5.4: Thanh hỏi........................................................................................94
Hình 5.5a: Thanh sắc (trường hợp a).............................................................95
Hình 5.5b: Thanh sắc (trường hợp b).............................................................96
Hình 5.6a: Thanh nặng (trường hợp a)..........................................................97
Hình 5.6b: Thanh nặng (trường hợp b)..........................................................97
Hình 5.7: Minh họa việc nhận dạng âm vị trong HMM .................................99

Hình 5.8: Mơ hình nhận dạng thanh điệu tiếng Việt.....................................100
Hình 5.9: Tín hiệu tuần hoàn của nguyên âm [o] trong tiếng „hỏi‟..............101

TIEU LUAN MOI download :


12

Hình 5.10: Quá trình khởi tạo các tham số...................................................103
Hình 5.11: Sơ đồ khối hệ nhận dạng thanh điệu tiếng Việt..........................104
Hình 6.1 Mơ hình tổng qt hệ nhận dạng ngun từ tiếng Việt...................106
Hình 6.2: Cơng đoạn huấn luyện mẫu..........................................................106
Hình 6.3: Cơng đoạn nhận dạng...................................................................108
Hình 6.4 Mơ hình ngơn ngữ của hệ nhận dạng.............................................110

TIEU LUAN MOI download :


Thank you for evaluating AnyBizSoft PDF
Merger! To remove this page, please
register your program!
Go to Purchase Now>>

AnyBizSoft

PDF Merger
 Merge multiple PDF files into one
 Select page range of PDF to merge

 Select specific page(s) to merge

 Extract page(s) from different PDF
and merge
into one
TIEU LUAN files
MOI download
:


13

MỞ ĐẦU
Thơng tin tiếng nói là loại hình thơng tin phổ biến nhất trong các hệ
thống viễn thông hiện nay. Do vậy lĩnh vực nghiên cứu về tiếng nói và xử lý
tiếng nói được rất nhiều nhà nghiên cứu trong ngành điện tử viễn thông quan
tâm. Về cơ bản tiếng nói là một loại tín hiệu một chiều điển hình nên các kiến
thức về xử lý tín hiệu hồn tồn có thể áp dụng với tín hiệu tiếng nói. Đó cũng
là một điều thuận lợi đối với những nhà nghiên cứu về xử lý tiếng nói vì lý
thuyết và cơng nghệ xử lý tín hiệu đã có những bước phát triển to lớn và được
ứng dụng rộng rãi trong thời gian gần đây. Xử lý tiếng nói bao gồm nhiều lĩnh
vực như triệt nhiễu và nâng cao chất lượng tiếng nói, mã hóa và nén tiếng nói,
tổng hợp tiếng nói, nhận dạng tiếng nói,...
Lĩnh vực nhận dạng tiếng nói có nhiều ứng dụng trong thực tế như điều
khiển (thiết bị, robot, máy tính) bằng tiếng nói, chuyển tiếng nói thành văn bản,
dịch tự động, đặt hàng, giao dịch ngân hàng tự động qua mạng điện thoại, quay
số điện thoại bằng tiếng nói, hộp thư thoại tự động,... Nhận dạng tiếng nói đã
được nghiên cứu nhiều trên thế giới và thu được nhiều kết quả quan trọng, một
số sản phẩm nhận dạng tiếng nói đã được ứng dụng trong thực tiễn. Tuy nhiên
mức độ chính xác của hầu hết các hệ thống nhận dạng là chưa thật cao, do vậy
tính ứng dụng thực tiễn còn thấp. Đặc biệt, do vấn đề trên thế giới có nhiều
ngơn ngữ, mỗi ngơn ngữ lại có những đặc điểm ngữ âm riêng, nên rất khó có

thể xây dựng được một hệ thống nhận dạng tiếng nói sử dụng tốt cho tất cả các
ngơn ngữ. Trong khi các hệ thống nhận dạng tiếng nói tiếng Anh hiện nay cho
độ chính xác khá cao thì các hệ thống nhận dạng tiếng Việt, tiếng Thái,... có độ
chính xác chưa cao và cần phải nghiên cứu nhiều hơn nữa mới có thể ứng dụng
nhiều trong thực tiễn.
Tại Việt Nam, ngay từ khi Công nghệ Viễn thông và Công nghệ Thông
tin mới bắt đầu phát triển đầu những năm 80 đã có những nhà nghiên cứu mạnh
dạn đi vào lĩnh vực nhận dạng tiếng nói tiếng Việt (GS.TSKH Bạch Hưng

TIEU LUAN MOI download :


14

Khang, nguyên Viện trưởng Viện Công nghệ thông tin, Viện Khoa học &Cơng
nghệ Việt Nam). Từ đó đến nay nhiều cơng trình nghiên cứu về nhận dạng tiếng
Việt đã ra đời và thu được những kết quả quan trọng [1, 2, 5, 6, 7, 10, 11, 12,
15, 16], tuy nhiên một thực tế là hiện nay vẫn chưa có một hệ thống nhận dạng
tiếng Việt nào hồn chỉnh, chính xác có tính ứng dụng cao trong thực tiễn. Vì
thế những nghiên cứu về nhận dạng tiếng Việt vẫn sẽ là một trong những hướng
nghiên cứu “nóng” trong thời gian tới tại Việt Nam.
Biến đổi wavelet ra đời được ví như một cuộc cách mạng trong lĩnh vực
xử lý tín hiệu, biến đổi wavelet đã được sử dụng thay thế biến đổi Fourier
truyền thống trong rất nhiều hệ thống xử lý tín hiệu. Trong lĩnh vực xử lý, nhận
dạng tiếng nói, biến đổi wavelet cũng có nhiều ứng dụng. Trên thế giới đã có
những hệ thống nhận dạng tiếng Anh dùng biến đổi wavelet cho độ chính xác
rất cao. Tại Việt Nam cũng mới bắt đầu có những nghiên cứu sử dụng biến đổi
wavelet để rút trích vector đặc trưng trong nhận dạng tiếng Việt [15], tuy nhiên
những nghiên cứu này cũng mới dừng lại ở mức độ kiểm chứng một phương
pháp mới trong nhận dạng tiếng Việt chứ chưa xây dựng được một hệ thống

nhận dạng tiếng Việt hoàn chỉnh hiệu quả.
Ngoài việc xác định được vector đặc trưng hiệu quả, để hệ thống nhận
dạng là độc lập người nói, ít phụ thuộc vào môi trường và điều kiện khi nói
(bản chất của tiếng nói là cùng một từ có thể được phát âm khác nhau đối với
mỗi người và với bản thân một người trong các điều kiện khác nhau) cũng như
tăng số lượng từ nhận dạng thì cơng việc phân lớp và huấn luyện mẫu là rất
quan trọng. Có nhiều phương pháp để phân lớp và huấn luyện mẫu như sử dụng
mạng Neural nhân tạo (ANN), mơ hình Markov ẩn (HMM), mơ hình SVM, ...
Đối với hầu hết các ngôn ngữ trên thế giới như tiếng Anh, mô hình HMM được
xem là mơ hình hiệu quả nhất, hầu hết các nghiên cứu hiện nay về nhận dạng
tiếng Việt sử dụng phương pháp ANN [1, 2, 5, 7,11], một số khác đi theo
hướng tiếp cận dùng HMM [4, 13].

TIEU LUAN MOI download :


15

Tiếng Việt là ngơn ngữ có thanh điệu, điểm khác biệt lớn nhất của tiếng
Việt so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp là thanh điệu. So với
các ngôn ngữ thanh điệu khác như tiếng Thái, tiếng Hoa, tiếng Việt lại có các
đặc điểm ngữ âm của thanh điệu riêng. Bài toán nhận dạng thanh điệu là một
bài toán đã được nghiên cứu nhiều trong nhận dạng tíếng Việt [2, 12, 16]. Một
sự khác biệt nữa của tiếng Việt so với các ngôn ngữ khác là các đặc điểm ngữ
âm của âm vị. Do sự khác biệt này, mơ hình nhận dạng theo âm vị trong tiếng
Việt cũng có những điểm khác biệt so với các hệ thống nhận dạng khác.
Luận văn này thừa kế các vấn đề lý thuyết đã được nghiên cứu và kiểm
chứng trong và ngoài nước, sử dụng các nghiên cứu về biến đổi wavelet và mơ
hình HMM để áp dụng đề xuất một phương pháp nhận dạng thanh điệu tiếng
Việt theo chu kỳ pitch và xây dựng hệ thống nhận dạng thanh điệu theo chu kỳ

pitch. Kết quả nhận dạng thanh điệu thu được là 95 %.
Tiếp theo, luận văn cũng đề xuất một phương pháp nhận dạng tiếng Việt
nguyên từ rời rạc hồn chỉnh. Phương pháp này sử dụng mơ hình nhận dạng
thanh điệu đã tiếng Việt đã khảo sát để phân lớp và sử dụng vector đặc trưng là
các hệ số SCWT biến đổi sang miền Ceptral.
Ngoài việc nhận dạng tiếng nói thu âm sẵn, một hệ thống thu âm và nhận
dạng tiếng nói trực tiếp từ micro cũng được xây dựng với bộ tiền xử lý nâng
cao chất lượng tiếng nói dùng một phương pháp triệt nhiễu kết hợp kỹ thuật trừ
phổ và kỹ thuật triệt nhiễu dùng biến đổi wavelet.
Các kết quả thu được độ chính xác của hệ thống nhận dạng là 91 % kém
hơn một chút so với các hệ thống nhận dạng truyền thống dùng MFCC và
ANN. Mặc dù đã có nhiều nghiên cứu nhận dạng tiếng Việt dùng MFCC và
ANN, đã có nhiều cải tiến, nhiều đề xuất nhưng độ chính xác của hệ thống nhận
dạng khơng tăng được nhiều. Trong hồn cảnh đó, việc xây dựng một hệ thống
nhận dạng dùng phương pháp khác cho chất lượng gần tương đương cũng rất có
ý nghĩa. Nếu được đầu tư nghiên cứu nhiều hơn, phương pháp nhận dạng tiếng
Việt dùng SCWT và HMM có phân lớp thanh điệu theo chu kỳ pitch sẽ là một

TIEU LUAN MOI download :


16

phương pháp hứa hẹn có khả năng nâng cao được độ chính xác của hệ thống
nhận dạng và có thể ứng dụng trong thực tiễn.

TIEU LUAN MOI download :


17


Chương 1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI
1.1 Nhận dạng
Nhận dạng của lồi người là một q trình hồn hảo, đó là sự quan sát đối
tượng cần nhận dạng, ghi nhận lại những đặc trưng của đối tượng, phân lớp đối
tượng và có sử dụng khả năng phán đốn suy luận để phân biệt đối tượng đó với đối
tượng khác (trong một tập gần như vô hạn đối tượng).
Trong khi đó, nhận dạng tự động – nhận dạng bằng cơng cụ máy vi tính chỉ
đơn giản là q trình phân biệt tín hiệu này với tín hiệu khác (trong một tập hữu hạn
các tín hiệu), q trình này được thực hiện bằng cách thực hiện các bước tổng quát
sau (như trong hình 1.1).

Hình 1.1 Sơ đồ nhận dạng tổng quát
- Thu nhận tín hiệu và trích đặc trưng: thu nhận tín hiệu cần nhận dạng, khử
nhiễu, lọc tín hiệu (tiền xử lý) và rút ra các đặc trưng của tín hiệu
- Học mẫu: phân lớp các nhóm vector đặc trưng của từng nhóm tín hiệu
(bằng các thuật giải Heristic, bằng cách sử dụng mạng Neural, bằng các thuật toán
K-means, Batchelor- Wilkins, ……). Quá trình này tạo ra các lớp tín hiệu, mỗi lớp
đặc trưng cho từng nhóm tín hiệu.

TIEU LUAN MOI download :


18

- Nhận dạng, so khớp mẫu: tìm mối liên hệ giữa tín hiệu cần nhận dạng và các
lớp tín hiệu được tạo ra ở bước trước (bằng cách thông qua quy tắc người láng giềng
gần nhất chẳng hạn). Nếu như tín hiệu đó so khớp nhất (và mức độ so khớp thỏa
mãn một ngưỡng nào đó) ứng với một lớp tín hiệu nào thì hệ thống nhận dạng xác
định tín hiệu đó thuộc vào nhóm tín hiệu đó với một tỉ lệ nhất định gọi là độ chính

xác của hệ thống nhận dạng (tỉ lệ này dĩ nhiên là càng cao càng tốt).
1.2 Nhận dạng tiếng nói
1.2.1 Xử lý âm thanh
Khi âm thanh được máy vi tính hỗ trợ thì nhu cầu xử lý âm thanh đã xuất
hiện. Các nhu cầu này đã tạo ra nhiều lĩnh vực ứng dụng trong thực tế. Chẳng hạn
như: tổng hợp âm thanh (synthesis), nén âm thanh (compression), nhận dạng người
nói (speaker recognition), nhận dạng tiếng nói (speech recognition)… Các lĩnh
vực ứng dụng khác nhau của xử lý tiếng nói được thể hiện qua hình 1.2.
Xử lý âm thanh đóng một vai trị quan trọng trong q trình nhận dạng tiếng
nói, nó cần trong việc lọc nhiễu tín hiệu, biến đổi tín hiệu, rút trích vector đặc trưng,…

Hình 1.2: Các lĩnh vực trong xử lý tiếng nói

TIEU LUAN MOI download :


19

1.2.2 Phân loại nhận dạng tiếng nói
1.2.2.1 Nhận dạng từ liên tục và nhận dạng từ cách biệt
Một hệ nhận dạng tiếng nói có thể là một trong hai dạng: nhận dạng liên
tục và nhận dạng từng từ.
Nhận dạng liên tục tức là nhận dạng tiếng nói được phát liên tục trong một
chuỗi tín hiệu, chẳng hạn như một câu nói, một mệnh lệnh hoặc một đoạn văn
được đọc bởi người dùng. Các hệ thống loại này rất phức tạp, nó phức tạp ở chỗ các
từ được phát liên tục khó xử lý kịp (nếu cần thời gian thực), hoặc khó tách ra nếu như
người nói liên tục khơng có khoảng nghỉ (thông thường rất hay xảy ra trong thực tế).
Kết quả tách từ ảnh hưởng rất lớn đến các bước sau, cần xử lý thật tốt trong quá
trình này.
Trái lại, đối với mơ hình nhận dạng từng từ, mỗi từ cần nhận dạng được phát

âm một cách rời rạc, có các khoảng nghỉ trước và sau khi phát âm một từ. Mơ hình
loại này dĩ nhiên đơn giản hơn mơ hình nhận dạng liên tục, đồng thời cũng có
những ứng dụng thực tiễn như trong các hệ thống điều khiển bằng lời nói, quay số
bằng giọng nói…, với độ chính xác khá cao, tuy nhiên khó áp dụng rộng rãi đối với
mơ hình trên.

Hình 1.3: Ranh giới giữa “cơ” và “ấy” không rõ ràng

TIEU LUAN MOI download :


20

1.2.2.2 Nhận dạng phụ thuộc người nói và độc lập người nói
Đối với nhận dạng phụ thuộc người nói thì mỗi một hệ nhận dạng chỉ phục vụ
được cho một người, và nó sẽ khơng hiểu người khác nói gì nếu như chưa được
huấn luyện lại từ đầu. Do đó, hệ thống nhận dạng người nói khó được chấp nhận
rộng rãi vì khơng phải ai cũng đủ khả năng kiến thức và nhất là kiên nhẫn để huấn
luyện hệ thống. Đặc biệt là hệ thống loại này không thể ứng dụng ở nơi công cộng.
Ngược lại, hệ thống nhận dạng độc lập người nói thì lý tưởng hơn, ứng dụng
rộng rãi hơn, đáp ứng được hầu hết các yêu cầu đề ra. Nhưng không may là hệ
thống lý tưởng như vậy gặp một số vấn đề, nhất là độ chính xác của hệ thống.
Trong thực tế, mỗi người có một giọng nói khác nhau, thậm chí ngay cùng
một người cũng có giọng nói khác nhau ở những thời điểm khác nhau. Điều này
ảnh hưởng rất lớn đến việc nhận dạng, nó làm giảm độ chính xác của hệ thống nhận
dạng xuống nhiều lần. Do đó để khắc phục khuyết điểm này, hệ thống nhận dạng
độc lập người nói cần được thiết kế phức tạp hơn, đòi hỏi lượng dữ liệu huấn luyện
lớn hơn nhiều lần (dữ liệu được thu từ nhiều giọng khác nhau của nhiều người).
Nhưng điều này cũng không cải thiện được bao nhiêu chất lượng nhận dạng. Do đó,
trong thực tế có một cách giải quyết là bán độc lập người nói. Phương pháp

này thực hiện bằng cách thu mẫu một số lượng lớn các giọng nói khác biệt nhau.
Khi sử dụng, hệ thống sẽ được điều chỉnh cho phù hợp với giọng của người dùng,
bằng cách nó học thêm một vài câu có chứa các từ cần thiết (người dùng trước khi
sử dụng hệ thống cần phải qua một quá trình ngắn huấn luyện hệ thống).
Nhận dạng độc lập người nói khó hơn rất nhiều so với nhận dạng phụ thuộc
người nói. Cùng một từ, một người, dù có cố gắng phát âm cho thật giống đi nữa
thì cũng có sự khác biệt. Đối với bộ não con người, một hệ thống hồn hảo, thì sự
khác biệt đó có thể được bỏ qua do ngữ cảnh, và do có phần xử lý làm mờ đi của
não. Nhưng đối với máy tính thì rất khó xây dựng được một mơ hình giải quyết cho
tất cả các trường hợp khác biệt đó.

TIEU LUAN MOI download :


21

Hình 1.4: Người nói khác nhau sẽ phát âm khác nhau

H
Hình 1.5: Mơ hình nhận dạng bán độc lập người nói
1.2.3 Hệ thống nhận dạng tiếng nói tự động
Nhận dạng tiếng nói tự động ASR có nghĩa là chuyển đổi tự động tiếng nói
thành chữ viết hoặc thành một trong các chức năng của thiết bị.
Một hệ thống nhận dạng tiếng nói tự động gồm có các thành phần sau:
- Khối tiền xử lý: Quá trình này giải quyết các vấn đề dị tìm điểm cuối (phân
biệt trong chuỗi âm thu được đâu là tiếng nói đâu là độ ồn nền), lọc, khử nhiễu và

TIEU LUAN MOI download :



22

nâng cao chất lượng tiếng nói.
- Khối rút trích đặc trưng tiếng nói: biến đổi tín hiệu âm thanh thành
chuỗi các vector đặc trưng.
- Khối phân lớp và nhận dạng: Thực chất đây là q trình nhận dạng
dựa trên mơ hình âm thanh, từ điển phát âm và mơ hình ngơn ngữ của hệ thống. Mơ
hình ngơn ngữ ở đây thực chất chỉ biểu diển một ngữ pháp nào đó, nó có thể ứng với
một ngơn ngữ cụ thể hoặc đơn giản chỉ gói gọn trong phạm vi ứng dụng của hệ
thống, điều này góp phần giảm thiểu phạm vi nhận dạng của tiếng đó trong một vài từ
chứ khơng phải tồn bộ từ vựng.

Hình 1.6: Các thành phần cơ bản của hệ thống ASR
- Khối giải mã: Quá trình giải mã có thể chỉ đơn giản là xuất ra chuỗi văn
bản nhận dạng được hoặc phân tích chuỗi nhận được ứng với cơng việc gì và thực
hiện cơng việc đó.
Ứng dụng:
- Điều khiển bằng tiếng nói (khoảng 30 từ): Nhận dạng tên người, chữ số
của hệ thống quay số bằng giọng nói trên điện thoại di động, điều khiển thiết bị điện
tử,…
- Trong viễn thông (khoảng 2000 từ): Tự động điền mẫu đơn trong hệ thống
xử lý thông tin, tổng đài điện thoại, …
- Từ điển (khoảng 64k từ): Chuyển đổi thư thoại (bộ từ vựng lớn), thư ký

TIEU LUAN MOI download :


23

điện tử,…

1.2.4 Lý thuyết nhận dạng tiếng nói
Nhận dạng tiếng nói là kỹ thuật nhận ra các thành phần lời nói của con người.
Q trình này có thể được thực hiện từ việc thu vào tín hiệu tiếng nói từ micro, và
kết thúc bằng từ đã được nhận dạng được hệ thống xuất ra. Những bước của quá trình
trên sẽ được đề cập ở phần sau.
Việc nghiên cứu nhận dạng tiếng nói đã được bắt đầu từ cuối thập niên 40,
trong đó sự phát triển nhanh chóng của cơng nghệ máy tính đã đóng góp rất nhiều
vào sự phát triển của nhận dạng tiếng nói. Ngày nay nhận dạng tiếng nói đã có mặt
trong cơng nghiệp và đời sống ở một số lĩnh vực. Trong công nghiệp, khi tay và
mắt của con người đã được tận dụng triệt để, thì việc điều khiển bằng tiếng nói có
một thuận lợi rất lớn. Những ứng dụng khác của nhận dạng tiếng nói như hệ thống
nhận đặt phòng tự động qua điện thoại, bằng cách này khách hàng cảm thấy thuận lợi
hơn so với việc nhấn các nút của điện thoại. Hơn nữa, nhận dạng tiếng nói cịn có
nhiều ứng dụng khác như hệ thống chính tả, các đồ chơi trẻ em, trị chơi game,…
Một cách lý tưởng, một chương trình nhận dạng sẽ có thể nhận dạng được
các từ khác nhau của bất kỳ người nào trong bất kỳ môi trường nào. Nhưng trong
thực tế, khả năng của hệ thống phụ thuộc vào nhiều yếu tố khác nhau. Bộ từ vựng,
đa người dùng, nhận dạng liên tục (phức tạp hơn nhiều so với nhận dạng từng từ) là
các yếu tố gây khó khăn, phức tạp cho việc nhận dạng tiếng nói. Tương tự như vậy
đối với độ ồn nền.
1.2.4.1 Rút trích vector đặc trưng
Ngày nay, việc xử lý tín hiệu tiếng nói hầu hết được thực hiện trên miền số.
Tín hiệu số được thu bằng cách lấy mẫu theo một tần số nhất định, đó là việc đo tín
hiệu theo một chu kỳ thời gian. Theo lý thuyết, bất cứ một tín hiệu có băng tần giới
hạn nào cũng có thể tái tạo lại một cách hoàn chỉnh nếu như tần số lấy mẫu FS ít
nhất là gấp đơi tần số tối đa của tín hiệu (định lý Nyquist). Chất lượng của tín hiệu

TIEU LUAN MOI download :



×