Tải bản đầy đủ (.pdf) (141 trang)

(Luận Văn Thạc Sĩ) Nhận Dạng Tự Động Tiếng Nói Phát Âm Liên Tục Cho Các Phương Ngữ Chính Của Tiếng Việt Theo Phương Thức Phát Âm.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.51 MB, 141 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Phạm Ngọc Hưng

NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC
CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT
THEO PHƯƠNG THỨC PHÁT ÂM

Chuyên ngành: Hệ thống thông tin
Mã số: 62480104

LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Trịnh Văn Loan
2. TS. Nguyễn Hồng Quang

Hà Nội - 2017


LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Nhận dạng tự động tiếng nói
phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” là
cơng trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và
chưa từng được công bố trong bất kỳ cơng trình nào. Việc tham khảo các nguồn tài liệu đã
được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.
TẬP THỂ HƯỚNG DẪN KHOA HỌC

TÁC GIẢ LUẬN ÁN


PGS.TS. Trịnh Văn Loan

Phạm Ngọc Hưng

TS. Nguyễn Hồng Quang

2


LỜI CẢM ƠN
Tơi xin bày tỏ lịng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ
Thông tin và Truyền thơng, Bộ mơn Kỹ thuật máy tính, Bộ môn Hệ thống thông tin đã tạo
điều kiện thuận lợi cho tơi trong q trình học tập tại Trường.
Tơi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là
PGS.TS. Trịnh Văn Loan và TS. Nguyễn Hồng Quang. Hai Thầy đã ln tận tình giúp đỡ,
đưa ra những lời khuyên, những định hướng khoa học rất q báu để tơi có thể triển khai
và hồn thành cơng việc nghiên cứu của mình.
Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống
Thơng tin, Bộ mơn Kỹ thuật máy tính, Viện Công nghệ Thông tin và Truyền thông,
Trường Đại học Bách khoa Hà Nội nơi tôi học tập, thực hiện đề tài nghiên cứu đã nhiệt
tình giúp đỡ và động viên tơi trong suốt q trình nghiên cứu.
Cảm ơn Khoa Cơng nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng
Yên, nơi tôi đang công tác đã luôn tạo điều kiện cho tơi trong suốt q trình nghiên cứu và
hồn thành luận án này.
Với tấm lịng biết ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè
thân hữu đã động viên và giúp đỡ tơi trong q trình nghiên cứu.
Cuối cùng tơi muốn bày tỏ lịng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là
nguồn động lực để tôi vượt mọi trở ngại khó khăn để hồn thành luận án này.

Phạm Ngọc Hưng


3


MỤC LỤC
MỤC LỤC ............................................................................................................................. 4
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT............................................................ 7
DANH MỤC CÁC BẢNG .................................................................................................. 10
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ .......................................................................... 12
MỞ ĐẦU ............................................................................................................................. 14
1.

TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ
19
1.1.

Nhận dạng tiếng nói .............................................................................................. 19

1.1.1.

Tổng quan về nhận dạng tiếng nói ................................................................ 19

1.1.2.

Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói ...... 20

1.1.3.

Các thách thức đối với nhận dạng tự động tiếng nói ..................................... 21


1.1.4.

Phân loại hệ thống nhận dạng tự động tiếng nói ........................................... 22

1.2.

Nhận dạng phương ngữ......................................................................................... 24

1.2.1.

Các mơ hình nhận dạng phương ngữ ............................................................. 24

1.2.2.

Nhận dạng phương ngữ theo các phương diện khác nhau............................. 25

1.3.

Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ tiếng Việt ............... 30

1.4.

Một số mơ hình nhận dạng ................................................................................... 31

1.4.1.

Mơ hình GMM .............................................................................................. 31

1.4.2.


Bộ phân lớp SVM .......................................................................................... 33

1.4.3.

Mạng nơ ron nhận tạo .................................................................................... 39

1.5.

Kết chương ............................................................................................................ 43

2. XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ
TIẾNG VIỆT ....................................................................................................................... 45
2.1.

Tổng quan phương ngữ tiếng Việt ........................................................................ 45

2.1.1.

Phương ngữ và phân vùng phương ngữ tiếng Việt........................................ 45

2.1.2.

Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt ....................... 46

2.1.3.

Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 47

2.2.


Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt ........................................... 49

2.2.1.

Âm tiết và âm vị trong tiếng Việt .................................................................. 49

2.2.2.

Âm đệm và cách kết hợp âm đệm trong các phương ngữ ............................. 53

4


2.3.

Phụ âm đầu trong phương ngữ tiếng Việt ............................................................. 54

2.3.1.

Hệ thống phụ âm đầu ..................................................................................... 54

2.3.2.

So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam ................... 56

2.4.

Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt ...................... 56

2.4.1.


Hệ thống thanh điệu Hà Nội .......................................................................... 57

2.4.2.

Hệ thống thanh điệu Nghệ - Tĩnh và Huế...................................................... 57

2.4.3.

Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh .......................... 58

2.4.4.

Một số nhận xét về hệ thống thanh điệu các phương ngữ ............................. 59

2.5.

Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói ........................................... 60

2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng
phương ngữ tiếng Việt ..................................................................................................... 60
2.6.1.

Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt ......................... 62

2.6.2.

Chuẩn bị và chuẩn hóa văn bản ..................................................................... 62

2.6.3.


Ghi âm ........................................................................................................... 64

2.6.4.

Kết quả ghi âm và đặc tính VDSPEC ............................................................ 67

2.7.

2.7.1.

Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ .................. 68

2.7.2.

Phân tích thống kê phân bố F0 của các thanh điệu........................................ 70

2.7.3.

Phân tích dữ liệu dùng LDA .......................................................................... 72

2.8.
3.

Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC .... 68

Kết chương ............................................................................................................ 76

NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT .......................................................... 78
3.1.


Nhận dạng phương ngữ tiếng Việt với GMM ...................................................... 78

3.1.1.

Công cụ thử nghiệm nhận dạng phương ngữ ALIZE .................................... 78

3.1.2.

Lựa chọn số lượng hệ số MFCC.................................................................... 80

3.1.3. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
MFCC với tham số F0 ................................................................................................. 81
3.1.4. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
formant, dải thông tương ứng và tham số F0 .............................................................. 84
3.1.5. Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng
phương ngữ tiếng Việt ................................................................................................. 85
3.2.

SVM nhận dạng phương ngữ tiếng Việt ............................................................... 87

3.2.1.

Bộ phân lớp SMO .......................................................................................... 87

5


3.2.2.
3.3.


Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO ..................... 88

lBk nhận dạng phương ngữ tiếng Việt .................................................................. 92

3.3.1.

Bộ phân lớp IBk ............................................................................................ 92

3.3.2.

Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk ............................... 95

3.4.

Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron .......... 96

3.4.1.

Bộ phân lớp MultilayerPerceptron trong Weka ............................................ 96

3.4.2.

MultilayerPerceptron nhận dạng phương ngữ tiếng Việt .............................. 96

3.5.

JRip nhận dạng phương ngữ tiếng Việt ................................................................ 97

3.5.1.


Bộ phân lớp JRip ........................................................................................... 97

3.5.2.

Nhận dạng phương ngữ tiếng Việt với JRip .................................................. 98

3.6.

Nhận dạng phương ngữ tiếng Việt với PART ...................................................... 99

3.6.1.

Bộ phân lớp PART ........................................................................................ 99

3.6.2.

Kết quả dùng PART nhận dạng phương ngữ tiếng Việt ............................... 99

3.7.

Kết chương ............................................................................................................ 99

4. CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ
PHƯƠNG NGỮ ................................................................................................................ 102
4.1.

HMM nhận dạng tiếng Việt nói .......................................................................... 102

4.1.1.


Mơ hình HMM ............................................................................................ 102

4.1.2.

HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính ........................ 115

4.2.
ngữ

Cải thiện hiệu năng nhận dạng tiếng Việt nói thơng qua sử dụng thơng tin phương
120

4.2.1.

Mơ hình nhận dạng tiếng Việt nói với việc sử dụng thơng tin phương ngữ 120

4.2.2.

Nhận dạng tiếng Việt nói khi có thơng tin phương ngữ .............................. 122

4.3.

Kết chương .......................................................................................................... 123

KẾT LUẬN VÀ KIẾN NGHỊ ........................................................................................... 125
TÀI LIỆU THAM KHẢO ................................................................................................. 128
DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN ............................ 140

6



GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt

Chữ viết đầy đủ

AANN

Auto-Associative Neural Network

AM

Acoustic Model

Mơ hình âm học

ANN

Artificial Neural Network

Mạng nơ-ron nhân tạo

ARFF

Attribute-Relation File Format

Định dạng file tham số đặc trưng
trong Weka


ASR

Automatic Speech Recognition

Tự động nhận dạng tiếng nói

BKSPEC

Bach Khoa SPEech Corpus

Bộ ngữ liệu được phát triển tại Bộ
mơn Kỹ thuật Máy tính – Viện
Cơng nghệ Thơng tin và Truyền
thông – Đại học Bách khoa Hà Nội

BKTC

Bach Khoa Text Code

BMMI

Boosted Maximum Mutual
Information

Thông tin tương hỗ cực đại tăng
cường

CD

Concept Description


Mô tả khái niệm

CFG

Context-Free Grammar

Ngữ pháp phi ngữ cảnh

CMS

Cepstral Mean Subtraction

Trừ trung bình Cepstral

CMU SLM

Carnegie Mellon University
Statistical Language Modeling
Toolkit

Bộ cơng cụ mơ hình hóa ngơn ngữ
thống kê của trường Carnegie
Mellon

DCF

Detection Cost Function

Hàm giá phát hiện


DET

Detection Error Tradeoff

Cân bằng sai số phát hiện

DL

Descrition Length

Độ dài mô tả

DNN

Deep Neural Networks

Mạng nơ-ron sâu

ELRA

European Language Resources
Association

Hội tài nguyên ngôn ngữ châu Âu

EM

Expectation Maximization


Cực đại hóa kỳ vọng

ERM

Empirical Risk Minimization

Tối thiểu hóa rủi ro theo kinh
nghiệm

F0

Fundamental frequency

Tần số cơ bản

fMLLR

feature-space MLLR

fMMI

feature-space MMI

fMPE

feature-space Minimum Phone Error

FST

Finite-State-Transducer


Chuyển trạng thái hữu hạn

GMM

Gaussian Mixture Model

Mơ hình hỗn hợp Gauss

Giải thích

7


HLDA

Heteroscedastic Linear Discriminant
Analysis

Phân tích phân biệt tuyến tính hiệp
phương sai khơng đồng nhất

HMM

Hidden Markov Model

Mơ hình Markov ẩn

HTK


Hidden Markov Model Toolkit

Bộ cơng cụ mơ hình Markov ẩn

IBk

Instance Based k

Tên gọi bộ phân lớp k láng giềng
gần nhất trong Weka

IBL

Instance Based Learning

Học dựa trên đối tượng

IREP

Incremental Reduced Error Pruning

JRip
KKT

Karush–Kuhn–Tucker

Điều kiện Karush–Kuhn–Tucker

k-NN


k-Nearest Neighbour

K láng giềng gần nhất

LDA

Linear Discriminant Analysis

Phân tích phân biệt tuyến tính

LDC

Linguistic Data Consortium

Hội đồn dữ liệu ngơn ngữ

LLR

Log Likelihood Ratio

LPC

Linear Prediction Coding

MAP

Maximum a Posteriori

MFCC


Mel Frequency Cepstral Coefficients

MHAH

Mơ hình âm học

MHNN

Mơ hình ngơn ngữ

MLLR

Maximum Likelihood Linear
Regression

MLLT

Maximum Likelihood Linear
Transforms

MMI

Maximum Mutual Information

MPE

Minimum Phone Error

Cực tiểu hóa lỗi âm


NIST

National Institute of Standards and
Technology

Viện Tiêu chuẩn và Công nghệ
Quốc gia của Mỹ

NLP

Natural Language Processing

Xử lý ngơn ngữ tự nhiên

NN

Neural Networks

Mã hóa tiên đốn tuyến tính
Các hệ số Cepstral theo thang đo
tần số Mel

PART
PCA

Principal Component Analysis

Phân tích các thành phần chính

PLP


Perceptual Linear Prediction

Tiên đốn cảm thụ tuyến tính

PNB

Phương ngữ Bắc

PNN

Phương ngữ nam

PNT

Phương ngữ Trung

8


PPR

Parallel Phone Recognition

PPRLM

Parallel Phone Recognition followed
by Language Modeling

PRLM


Phone Recognition followed by
Language Modeling

QP

Quadratic Programming

Quy hoạch toàn phương

RBF

Radial Basis Function

Hàm cơ bản hướng Gauss

RIPPER

Repeated Incremental Pruning to
Produce Error Reduction

RM

Risk Minimization

Tối thiểu hóa rủi ro

SAT

Speaker Adaptive Training


Huấn luyện thích nghi người nói

SBS

Sequential Backward Selection

Lựa chọn lùi lần lượt

SFS

Sequential Forward Selection

Lựa chọn tiến lần lượt

SMO

Sequential Minimal Optimization

Thuật giải tối ưu hóa cực tiểu lần
lượt

SRILM

Stanford Research Institute
Language Modeling

Bộ cơng cụ tạo mơ hình ngơn ngữ
SRI


SRM

Structural Risk Minimization

Tối thiểu hóa rủi ro cấu trúc

SVM

Support Vector Machines

Máy véc-tơ hỗ trợ

TTS

Text-to-Speech

Văn bản thành tiếng nói

VDSPEC

Vietnamese Dialect Speech Corpus

Bộ ngữ liệu phương ngữ tiếng Việt

VTLN

Vocal Tract Length Normalization

Chuẩn hóa chiều dài tuyến âm


WER

Word Error Rate

Tỷ lệ lỗi từ

9


DANH MỤC CÁC BẢNG
Bảng 2.1: Sự khác biệt giữa các phương ngữ về từ và cách sử dụng từ .............................. 48
Bảng 2.2: Cấu trúc âm tiết tiếng Việt .................................................................................. 50
Bảng 2.3: Hệ thống phụ âm làm âm đầu ............................................................................. 51
Bảng 2.4: Bảng các âm chính là nguyên âm đơn ................................................................ 52
Bảng 2.5: Cách thể hiện bằng chữ viết các nguyên âm ....................................................... 52
Bảng 2.6: Vị trí các âm vị trong hệ thống âm cuối .............................................................. 53
Bảng 2.7: Hệ thống phụ âm đầu ở Bắc Bộ .......................................................................... 55
Bảng 2.8: So sánh các hệ thống phụ âm đầu giữa PNB, PNT và PNN ............................... 56
Bảng 2.9: Phân loại thanh điệu theo truyền thống............................................................... 56
Bảng 2.10: Đặc tính văn bản theo chủ đề ............................................................................ 63
Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC ...................................................... 67
Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ .......................... 67
Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề ................................... 68
Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu .............................................................. 69
Bảng 3.1: Kết quả nhận dạng dùng GMM với các tham số MFCC, F0 và các giá trị chuẩn
hóa từ F0 .................................................................................................................... 83
Bảng 3.2: Ma trận nhầm lẫn nhận dạng phương ngữ khơng phụ thuộc giới tính khi sử dụng
hệ số MFCC kết hợp với tham số F0 ......................................................................... 83
Bảng 3.3: Kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
formant, dải thông tương ứng và các tham số F0 ....................................................... 85

Bảng 3.4: Tỷ lệ nhận dạng trung bình với số lượng thành phần Gauss khác nhau ............. 87
Bảng 3.5: Bộ phân lớp SMO, kết quả nhận dạng với 384 tham số ..................................... 89
Bảng 3.6: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m với 384 tham số ....................................... 90
Bảng 3.7: Bộ phân lớp SMO, kết quả nhận dạng khi khơng có thông tin liên quan trực tiếp
F0 ............................................................................................................................... 90
Bảng 3.8: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m khi không có thông tin liên quan trực tiếp
F0 ............................................................................................................................... 90
Bảng 3.9: Bộ phân lớp SMO, kết quả thử nghiệm khi chỉ dùng tham số liên quan trực tiếp
F0 ............................................................................................................................... 91
Bảng 3.10: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m khi chỉ sử du ̣ng tham số liên quan trực
tiếp F0 ........................................................................................................................ 91
Bảng 3.11: Bộ phân lớp SMO, kết quả nhận dạng khi chỉ dùng tham số liên quan trực tiếp
MFCC......................................................................................................................... 91
Bảng 3.12: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m khi chỉ dùng tham số liên quan trực tiếp
MFCC......................................................................................................................... 91
Bảng 3.13: Thuật giải IBl, CD – Concept Description [8] .................................................. 93

10


Bảng 3.14: Mô tả thuật giải k-láng giềng gần nhất ............................................................. 94
Bảng 3.15: Bộ phân lớp IBk, kết quả nhận dạng với k = 1 ................................................. 95
Bảng 3.16: Bộ phân lớp IBk, ma trâ ̣n sai nhầ m với k=1 ..................................................... 95
Bảng 3.17: Bộ phân lớp IBk, kết quả nhận dạng với k=5 ................................................... 95
Bảng 3.18: Bộ phân lớp IBk, ma trâ ̣n sai nhầ m với k=5 ..................................................... 96
Bảng 3.19: Kết quả nhận dạng phương ngữ tiếng Việt dùng MultilayerPerceptron ........... 97
Bảng 3.20: Ma trâ ̣n sai nhầ m nhâ ̣n da ̣ng phương ngữ tiếng Việt
dùng
MultilayerPerceptron.................................................................................................. 97
Bảng 3.21: Kết quả dùng bộ phân lớp JRip nhận dạng phương ngữ tiếng Việt .................. 98

Bảng 3.22: Ma trâ ̣n sai nhầ m khi dùng JRip nhâ ̣n da ̣ng phương ngữ tiếng Việt ................ 98
Bảng 3.23: Kết quả sử dụng PART nhận dạng phương ngữ tiếng Việt .............................. 99
Bảng 3.24: Ma trâ ̣n sai nhầ m khi sử dụng PART nhận dạng phương ngữ tiếng Việt ......... 99
Bảng 4.1: Phân chia tập dữ liệu dùng cho huấn luyện và thử nghiệm .............................. 119
Bảng 4.2: Kết quả nhận dạng khi chưa biết thông tin phương ngữ ................................... 119
Bảng 4.3: Kết quả nhận dạng khi đã biết thông tin về phương ngữ .................................. 122

11


DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1: Quyết định lề mềm .............................................................................................. 34
Hình 1.2: Ba phương pháp khác nhau huấn luyện SVM: Chunking, Osuna và SMO ....... 38
Hình 1.3: Mơ hình một nơ-ron ............................................................................................ 39
Hình 1.4: Biến đổi làm mịn tạo ra do có thiên áp bk ; lưu ý là vk = bk nếu uk = 0. .............. 41
Hình 1.5: Mơ hình nơ-ron phi tuyến .................................................................................... 41
Hình 2.1: Vị trí, vai trị âm đệm trong âm tiết ..................................................................... 51
Hình 2.2: Sơ đồ kết hợp âm đệm /w/ với các nguyên âm ở PNB và PNT .......................... 54
Hình 2.3: So sánh cấu trúc âm tiết PNB, PNT với PNN ..................................................... 54
Hình 2.4: Sơ đồ biến đổi các phụ âm ngạc hóa trong PNB và PNN ................................... 55
Hình 2.5: Đồ thị hệ thống thanh điệu Hà Nội (a), Huế (b), TP Hồ Chí Minh (c) ............... 59
Hình 2.6: Sự phân bố các âm vị trong VDSPEC ................................................................. 63
Hình 2.7: Đáp ứng tần số của SM48 ................................................................................... 64
Hình 2.8: (a) Dạng sóng tín hiệu được ghi âm. (b) Tỉ số tín hiệu trên nhiễu tính theo dB và
giá trị trung bình của tỉ số này.................................................................................... 66
Hình 2.9: Biến thiên F0 các thanh điệu của giọng nữ Hà Nội (a), Huế (b) và Thành phố Hồ
Chí Minh (c) ............................................................................................................... 69
Hình 2.10: Biến thiên F0 các thanh điệu của giọng nam Hà Nội (a), Huế (b) và Thành phố
Hồ Chí Minh (c) ......................................................................................................... 69
Hình 2.11: Biến thiên F0 của thanh hỏi ............................................................................... 70

Hình 2.12: Biến thiên F0 của thanh ngã .............................................................................. 70
Hình 2.13: Biến thiên F0 của thanh nặng ............................................................................ 71
Hình 2.14: Biến thiên F0 của thanh ngang .......................................................................... 71
Hình 2.15: Biến thiên F0 của thanh huyền .......................................................................... 71
Hình 2.16: Biến thiên F0 của thanh sắc ............................................................................... 71
Hình 2.17: Các bước thực hiện phân lớp theo LDA ............................................................ 74
Hình 2.18: Phân lớp phương ngữ dùng LDA cho thanh sắc (từ “chính”) ........................... 75
Hình 2.19: Phân lớp phương ngữ dùng LDA cho thanh ngang (từ “kinh”) ........................ 75
Hình 2.20: Phân lớp phương ngữ dùng LDA cho thanh nặng (từ “mạnh”) ........................ 75
Hình 2.21: Phân lớp phương ngữ dùng LDA cho thanh huyền (từ “thành”) ...................... 75
Hình 2.22: Phân lớp phương ngữ dùng LDA cho thanh hỏi (từ “tỉnh”) .............................. 76
Hình 2.23: Phân lớp phương ngữ dùng LDA cho thanh ngã (từ “vĩnh”) ............................ 76
Hình 3.1: Sơ đồ hệ thống nhận dạng phương ngữ tiếng Việt .............................................. 79
Hình 3.2: Thử nghiệm đánh giá, lựa chọn số hệ số MFCC ................................................. 80
Hình 3.3: Đồ thị DET với số thành phần Gauss (M) từ 20 đến 4096 .................................. 86
Hình 3.4: Hai nhân tử Lagrange phải đáp ứng tất cả các ràng buộc của bài toán đầy đủ. . 88

12


Hình 3.5: Phương pháp k láng giềng gần nhất .................................................................... 94
Hình 4.1: Kiến trúc bộ nhận dạng dựa trên HMM ............................................................ 104
Hình 4.2: Mơ hình âm vị dựa trên HMM .......................................................................... 106
Hình 4.3: Mơ hình âm phụ thuộc ngữ cảnh ....................................................................... 108
Hình 4.4: Tạo mơ hình kết nối các trạng thái .................................................................... 109
Hình 4.5: Phân cụm cây quyết định ................................................................................... 110
Hình 4.6: Minh họa lưới từ ................................................................................................ 113
Hình 4.7: Minh họa mạng nhầm lẫn .................................................................................. 114
Hình 4.8: Cấu trúc lưới từ tạo ra bởi hệ thống HTK ......................................................... 115
Hình 4.9: Mơ hình nhận dạng tự động tiếng nói ............................................................... 116

Hình 4.10: Phương pháp huấn luyện của Kaldi ................................................................. 117
Hình 4.11: Sơ đồ hệ thống nhận dạng tiếng Việt nói sử dụng thơng tin phương ngữ ....... 120
Hình 4.12: Sơ đồ hệ thống nhận dạng tiếng nói sử dụng thơng tin phương ngữ trên bộ ngữ
liệu VDSPEC ........................................................................................................... 121

13


MỞ ĐẦU
1.

Lý do chọn đề tài

Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính
trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều u cầu nhằm đơn giản hố q
trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong bối
cảnh đó, xử lý tiếng nói nói chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang
được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy
tính phục vụ con người trong cuộc sống.
Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành
công. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế.
Riêng về nhận dạng tiếng Việt, mặc dù đã có nhiều nghiên cứu và đạt được các thành công
nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn
chế, đặc biệt là độ chính xác, chất lượng nhận dạng. Ngồi các khó khăn trong nhận dạng
tiếng nói nói chung, nhận dạng tiếng Việt nói cịn gặp trở ngại lớn phải kể đến là vấn đề về
phương ngữ tiếng Việt.
Tiếng Việt có nhiều phương ngữ khác nhau. Giữa các phương ngữ có sự khác biệt
cả về từ vựng và ngữ âm trong đó ngữ âm là yếu tố quan trọng để tạo nên sự khác biệt và
phân chia các phương ngữ. Xét về từ vựng, sự khác nhau có thể ở một số bộ phận cấu
thành từ hay sự biến đổi của từ. Sự khác nhau cũng có thể xuất phát từ nguồn gốc của từ.

Ví dụ khi nói về cái kính (để đeo lên mắt), cái gương (để soi), theo cách gọi ở miền Bắc,
chúng được phân biệt rõ ràng bởi từ “kính”, “gương” (“đeo kính”, “soi gương”). Trong khi
đó, ở miền Nam, cả hai vật này chỉ được gọi bằng một từ là kiếng (biến thể về âm của
kính). Thay vì nói “đeo kính”, phương ngữ Nam lại dùng cách nói “đeo kiếng”. Cũng như
vậy, thay vì “soi gương” phương ngữ Nam lại dùng cách nói “soi kiếng”. Ở miền Trung,
hai vật kính và gương đều được gọi bằng từ “gương”. Hai thao tác tương ứng đeo kính, soi
gương được diễn đạt bằng “soi gương” và “đeo gương”. Xét về mặt ngữ âm, sự khác biệt
giữa các phương ngữ được thể hiện khá rõ ràng. Chẳng hạn với phương ngữ Nam, hai phụ
âm cuối “nh” và “ch” thường bị biến đổi thành “n” và “t” trong cách phát âm. Do vậy, từ
“tịch” theo cách phát âm giọng miền Nam thì lại là “tựt” (nguyên âm “i” biến thành “ư” và
phụ âm cuối “ch” thành “t”) hoặc “nhanh” thì thành “nhăn”, “mình” thành “mừn”.
Sự khác biệt nêu trên gây ra khơng ít khó khăn cho ngay chính con người khi giao
tiếp với người sử dụng phương ngữ khác. Rõ ràng, sự khác biệt đó cũng ảnh hưởng tới các
hệ thống nhận dạng tiếng Việt nói, làm giảm hiệu quả nhận dạng của các hệ thống nhận
dạng tiếng nói. Cùng một nội dung nhưng do phát âm khác nhau ở mỗi phương ngữ dẫn
đến tiếng nói đầu vào cho hệ thống nhận dạng khác nhau. Điều này có thể gây ra sự sai
nhầm trong nhận dạng tiếng nói. Các nghiên cứu nhận dạng tiếng Việt nói đến hiện tại
chưa thấy có sự chú trọng vấn đề khác biệt về phương ngữ trong phát âm của tiếng nói
trước khi đưa vào nhận dạng nội dung. Do vậy, nếu hệ thống nhận dạng tiếng nói chung
cho các phương ngữ thì khó tránh khỏi các ảnh hưởng do sự khác biệt trong phương thức

14


phát âm mỗi phương ngữ tác động lên và làm sai lệch kết quả nhận dạng. Nếu hệ thống
nhận dạng tiếng nói biết trước tiếng nói cần nhận dạng là thuộc phương ngữ nào thì có thể
lựa chọn các tham số phù hợp, sử dụng mơ hình đã được huấn luận theo phương ngữ đó để
nhận dạng. Như vậy có thể giảm được các sai nhầm và giúp cải thiện hiệu năng cho hệ
thống nhận dạng dạng.
Chính vì vậy, cần thiết phải nghiên cứu vấn đề nhận dạng tiếng Việt nói theo các

vùng phương ngữ khác nhau nhằm tìm ra giải pháp kỹ thuật nâng cao hiệu quả nhận dạng
tiếng Việt nói. Trước khi tiến hành nhận dạng nội dung tiếng nói, nếu có thể xác định được
tiếng nói đó thuộc phương ngữ nào thì có thể xây dựng hệ thống nhận dạng với ngữ liệu
được tổ chức phù hợp cho từng phương ngữ và sử dụng ngữ liệu này để nhận dạng tiếng
nói của phương ngữ tương ứng. Với cách xây dựng hệ thống nhận dạng tiếng nói như vậy,
các sai nhầm nhận dạng của hệ thống do phương thức phát âm hay thậm chí là cả do sử
dụng từ địa phương sẽ được giảm bớt, hiệu năng nhận dạng của hệ thống sẽ được cải thiện.
Từ các lý do nêu trên, luận án lựa chọn đề tài nghiên cứu “Tự động nhận dạng tiếng
nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm”
nhằm nghiên cứu sâu hơn về vấn đề xử lý nhận dạng tiếng Việt nói, giải quyết một số hạn
chế trong nhận dạng tiếng Việt nói hiện tại liên quan đến phương ngữ và góp phần phát
triển các ứng dụng công nghệ thông tin cho người Việt cũng như các sản phẩm ứng dụng
công nghệ thông tin sử dụng tiếng Việt trong dịch tự động, giao tiếp và tương tác ngườimáy.
2.

Mục tiêu nghiên cứu của luận án

Mục tiêu chính của luận án là Nghiên cứu nhận dạng tiếng Việt nói cho các vùng
phương ngữ chính, đánh giá ảnh hưởng của phương ngữ đến hiệu năng của hệ thống nhận
dạng và đề xuất giải pháp kỹ thuật nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng
tiếng Việt nói nhằm nâng cao hiệu năng nhận dạng.
3.

Nhiệm vụ nghiên cứu của luận án
Để đạt mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính sau:
(1) Nghiên cứu đặc điểm phương ngữ tiếng Việt từ đó xác định được các nét đặc
trưng, sự khác biệt giữa các phương ngữ chính của tiếng Việt làm cơ sở cho
nghiên cứu nhận dạng phương ngữ tiếng Việt. Luận án cũng đánh giá sự ảnh
hưởng của phương ngữ tới hệ thống nhận dạng tự động tiếng Việt nói.
(2) Xây dựng bộ ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu nhận

dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói.
(3) Nghiên cứu, đề xuất mơ hình hệ thống nhận dạng tự động, bộ tham số phù hợp
để nhận dạng phương ngữ tiếng Việt.
(4) Nghiên cứu, đề xuất mơ hình hệ thống nhận dạng tự động tiếng Việt nói theo
phương ngữ chính của tiếng Việt. Hệ thống mới sử dụng các thông tin về
phương ngữ nhằm nâng cao hiệu năng của hệ thống nhận dạng tiếng Việt nói.

15


4.

Đối tượng và phạm vi nghiên cứu của luận án

Đối tượng nghiên cứu trọng tâm của luận án là nhận dạng phương ngữ tiếng Việt.
Từ kết quả nhận dạng phương ngữ, xây dựng mơ hình nhận dạng tiếng Việt nói theo
phương ngữ. Mơ hình mới sử dụng thơng tin về phương ngữ nhằm cải thiện hiệu năng hệ
thống nhận dạng tiếng Việt nói. Việc nghiên cứu phương ngữ tiếng Việt chủ yếu chỉ tập
trung theo hướng xử lý tín hiệu.
Phương ngữ tiếng Việt rất phong phú. Về mặt địa lý, xét theo phương thức phát âm,
phương ngữ có thể thay đổi theo từng làng, xã. Tuy nhiên, trong phạm vi nghiên cứu của
luận án, do thời gian có hạn, luận án chỉ giới hạn nghiên cứu nhận dạng ba phương ngữ
chính và phổ biến của tiếng Việt theo phương thức phát âm là phương ngữ Bắc (lấy giọng
Hà Nội làm đại diện), phương ngữ Trung (lấy giọng Huế làm đại diện) và phương ngữ
Nam (lấy giọng Thành phố Hồ Chí Minh làm đại diện).
Bên cạnh đó, với mục tiêu ứng dụng kết quả nhận dạng phương ngữ tiếng Việt vào
hệ thống nhận dạng tự động tiếng Việt nói nhằm cải thiện hiệu năng nhận dạng, nhận dạng
phương ngữ được xem là bước tiền xử lý trong hệ thống nhận dạng tự động tiếng Việt.
Việc nhận dạng phương ngữ cần được tiến hành trước khi nhận dạng nội dung, nghĩa là ở
thời điểm cịn chưa biết nội dung tiếng nói. Vì vậy, thao tác của hệ thống nhận dạng

phương ngữ chưa thể khai thác các thông tin về từ địa phương mà chủ yếu là khai thác
thông tin về phương thức phát âm của phương ngữ.
Các thử nghiệm nhận dạng phương ngữ mà luận án tiến hành dựa trên ngữ liệu với
số lượng từ vựng hạn chế để từ đó xác định được các đặc trưng của từng phương ngữ và đề
xuất mơ hình nhận dạng phương ngữ nhằm nâng cao chất lượng hệ thống nhận dạng tiếng
Việt nói.
5.

Ý nghĩa khoa học và thực tiễn của luận án

Nội dung nghiên cứu, kết quả dự kiến đạt được của luận án sẽ có đóng góp đáng kể
cho mở rộng nghiên cứu về phương ngữ tiếng Việt. Các nghiên cứu về phương ngữ tiếng
Việt đã được triển khai cho đến nay chủ yếu thực hiện theo phương diện ngôn ngữ. Nghiên
cứu về phương diện xử lý tín hiệu vẫn cịn hạn chế. Do vậy, hướng nghiên cứu theo
phương diện xử lý tín hiệu sẽ giúp mở rộng phạm vi nghiên cứu cũng như gia tăng khả
năng ứng dụng các kết quả đạt được trong lĩnh vực nghiên cứu xử lý tiếng Việt nói nói
chung và nhận dạng tiếng Việt nói nói riêng.
Từ kết quả nhận dạng phương ngữ, đề xuất mơ hình mới nhận dạng tiếng Việt nói
sử dụng thơng tin phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng Việt nói,
góp phần hồn thiện hơn khả năng nhận dạng của hệ thống nhận dạng tự động tiếng Việt
nói.
6.

Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận án là kết hợp nghiên cứu lý thuyết với nghiên
cứu thực nghiệm.

16



Về lý thuyết: luận án nghiên cứu tổng quan về phương ngữ tiếng Việt, các mơ hình
nhận dạng phương ngữ của một số ngôn ngữ trên thế giới, các mô hình nhận dạng tiếng nói
dựa trên các tài liệu, cơng trình khoa học đã được cơng bố, sách báo, giáo trình liên quan.
Về thực nghiệm: luận án xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên
cứu nhận dạng phương ngữ tiếng Việt và nhận dạng nội dung tiếng Việt nói. Luận án cũng
sử dụng các cơng cụ mã nguồn mở kết hợp lập trình phần mềm xử lý dữ liệu, thực hiện các
nghiên cứu, thử nghiệm nhận dạng phương ngữ tiếng Việt, xây dựng và thử nghiệm mơ
hình nhận dạng phương ngữ cũng như nhận dạng tiếng Việt nói theo phương ngữ.
7.

Kết quả nghiên cứu, đóng góp của luận án
Kết quả nghiên cứu và đóng góp của luận án tập trung vào các điểm chính sau:
(1) Phân tích đặc điểm phương ngữ tiếng Việt, sự khác biệt giữa các phương ngữ
chính của tiếng Việt về phương diện phát âm về mặt xử lý tín hiệu.
(2) Xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên cứu nhận dạng
phương ngữ tiếng Việt cũng như các nghiên cứu khác về nhận dạng tiếng Việt
nói; thực hiện một số nghiên cứu, thử nghiệm, phân tích đặc điểm của phương
ngữ tiếng Việt.
(3) Đề xuất mơ hình nhận dạng phương ngữ tiếng Việt và bộ tham số phù hợp cho
mô hình nhận dạng phương ngữ tiếng Việt.
(4) Sử dụng mơ hình HMM (Hidden Markov Model) nhận dạng tiếng Việt nói trên
bộ ngữ liệu có phương ngữ.
(5) Đề xuất mơ hình nhận dạng tiếng Việt nói theo phương ngữ.

8.

Nội dung luận án
Nội dung chính của luận án được trình bày trong 4 chương như sau:


Chương 1: Tổng quan về nhận dạng tiếng nói và nhận dạng phương ngữ. Chương
này trình bày tổng quan về nhận dạng tiếng nói, lịch sử phát triển và các tiến bộ trong
nghiên cứu nhận dạng tiếng nói; các nghiên cứu và kết quả đạt được về nhận dạng phương
ngữ; việc nghiên cứu về nhận dạng tiếng nói và phương ngữ tiếng Việt, các vấn đề cịn tồn
tại trong nghiên cứu, nhận dạng tiếng Việt nói và phương ngữ tiếng Việt; làm rõ vấn đề
cần nghiên cứu, giải quyết trong luận án.
Chương 2: Xây dựng bộ ngữ liệu cho nghiên cứu nhận dạng phương ngữ tiếng
Việt. Nội dung chương này đề cập các nghiên cứu chi tiết hơn về phương ngữ tiếng Việt,
từ đó cho thấy sự khác biệt giữa các phương ngữ, đặc biệt là phương thức phát âm, làm cơ
sở cho nghiên cứu nhận dạng phương ngữ tiếng Việt. Chương 2 cũng trình bày phương
pháp xây dựng bộ ngữ liệu dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt và kết
quả phân tích đạt được đối với một số đặc trưng của phương ngữ tiếng Việt dựa trên ngữ
liệu đã xây dựng.
Chương 3: Nhận dạng phương ngữ tiếng Việt. Chương này tập trung vào nghiên
cứu các mơ hình nhận dạng phương ngữ tiếng Việt, việc lựa chọn tham số ứng dụng cho

17


mỗi mơ hình và trình bày các kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử
dụng các mô hình và tham số đã đề xuất.
Chương 4: Cải thiện hiệu năng nhận dạng tiếng Việt với thông tin về phương ngữ.
Luận án sẽ trình bày mơ hình nhận dạng tiếng nói dựa trên HMM sử dụng các thơng tin về
phương ngữ nhằm cải thiện hiệu năng nhận dạng tiếng Việt nói. Kết quả thử nghiệm cho
thấy mơ hình nhận dạng tiếng Việt nói có sử dụng thơng tin phương ngữ cho hiệu năng
nhận dạng tốt hơn so với trường hợp khơng có thơng tin về phương ngữ.
Cuối cùng, phần Kết luận tổng hợp các kết quả nghiên cứu đã đạt được, hướng mở
rộng nghiên cứu, phát triển đề tài và các đóng góp khoa học của luận án.

18



CHƯƠNG 1

1.

TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN
DẠNG PHƯƠNG NGỮ

Chương 1 đề cập nội dung tổng quan về nhận dạng tiếng nói và nhận dạng phương
ngữ. Đây là vấn đề chính mà luận án quan tâm. Trong chương này, luận án tập trung tổng
hợp, phân tích tình hình nghiên cứu trong và ngoài nước về nhận dạng tiếng nói và nhận
dạng phương ngữ nhằm xác định các hướng tiếp cận, phương pháp giải quyết các bài toán
trong lĩnh vực này. Đồng thời, Chương 1 cũng tổng hợp các nghiên cứu liên quan về nhận
dạng tiếng Việt và phương ngữ tiếng Việt, nêu bật những mặt còn tồn tại, những vấn đề
cần giải quyết đối với nhận dạng tiếng Việt và phương ngữ tiếng Việt từ đó tìm hướng tiếp
cận nhằm nâng cao hiệu năng cho hệ thống nhận dạng tiếng Việt nói.

1.1. Nhận dạng tiếng nói
1.1.1. Tổng quan về nhận dạng tiếng nói
Nhiệm vụ của hệ thống nhận dạng tiếng nói là làm cho hệ thống hiểu được tiếng
nói của con người. Nhờ hệ thống này, tiếng nói có thể được chuyển đổi tự động thành văn
bản, hoặc tự động điều khiển các quá trình khác [179]. Phương thức truyền thông tự nhiên
nhất đối với con người là thơng qua tiếng nói nên ước mơ cuối cùng của nhận dạng tiếng
nói là cho phép con người có ngơn ngữ khác nhau giao tiếp với nhau và với máy một cách
tự nhiên, hiệu quả hơn. Có thể nói, các ứng dụng nhận dạng tiếng nói hiện đang dần trở
nên phổ biến, phục vụ đời sống con người cũng như trong các lĩnh vực kỹ thuật khác nhau.
Trong lĩnh vực tương tác người máy, nhận dạng tiếng nói được định nghĩa là khả năng hệ
thống máy tính có thể chấp nhận đầu vào là lời nói theo định dạng file âm thanh và tạo ra
được văn bản chứa nội dung tương ứng.

Nhận dạng tự động tiếng nói ASR (Automatic Speech Recognition) mơ phỏng khả
năng nghe và hiểu lời nói của con người. Hệ thống ASR có thể chuyển đổi lời nói thành
văn bản. Bài tốn nhận dạng tự động tiếng nói là một chương trình máy tính tiếp nhận đầu
vào là các mẫu tiếng nói và tạo ra văn bản tương ứng mà con người có thể hiểu được như
khi trực tiếp nghe tiếng nói đó. ASR là một trong các lĩnh vực của nhận dạng mẫu. ASR
phát triển mạnh tương xứng với các lĩnh vực khác của nhận dạng mẫu vì mong muốn tạo ra
được cỗ máy có khả năng tạo ra được các quyết định phức tạp và thực tế, có chức năng
nhanh như con người đồng thời có thể hiểu được lời nói. Tương tự như bất kỳ hệ thống
nhận dạng mẫu nào, ASR tìm kiếm để hiểu được các mẫu tiếng nói đầu vào. Các nghiên
cứu về xử lý tín hiệu, xử lý tiếng nói và đặc biệt là nhận dạng tiếng nói đã thu hút nhiều
nhà khoa học tham gia và mang lại nhiều thành tựu trong các lĩnh vực này [33, 37, 55, 57,
63, 75, 94, 95, 135].

19


Mục tiếp theo dưới đây sẽ trình bày tóm lược về lịch sử phát triển và các tiến bộ
trong nghiên cứu nhận dạng tiếng nói.
1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng
tiếng nói
Điều đầu tiên quan trọng cần phải kể đến trong lịch sử phát triển của nhận dạng
tiếng nói là việc thành lập các mơ hình thống kê và các thuật giải liên quan tạo điều kiện
cho việc thực hiện các mơ hình này. Mơ hình HMM đã được giới thiệu như là một mơ hình
âm học của hệ thống nhận dạng tiếng nói từ đầu những năm 1970 [12, 82]. Hơn 30 năm
sau, phương pháp này vẫn còn được sử dụng rộng rãi. Một lượng lớn các mơ hình và thuật
giải đã được đề xuất và sử dụng hiệu quả trong lĩnh vực này. Thuật giải tối đa hóa kỳ vọng
EM (Expectation Maximization) và thuật giải quay lui (Forward – Backward) hoặc thuật
giải Baum – Welch [14, 36] đã có vai trị chủ yếu và quan trọng trong việc huấn luyện mơ
hình HMM một cách hiệu quả. Tương tự như vậy, mô hình ngơn ngữ N-gram và các biến
thể được huấn luyện với các tính tốn cơ bản hoặc sử dụng kỹ thuật EM-Style đã đạt được

các hiệu quả quan trọng. Bên cạnh mơ hình âm học HMM và mơ hình ngơn ngữ cơ bản
N-gram, đã có nghiên cứu mới được cơng bố như các mơ hình phân đoạn [38, 39, 60] và
các mơ hình ngơn ngữ và tiếng nói có cấu trúc [27, 40, 176]. Các thuật giải thích nghi hiệu
quả cho phép tích hợp được trên các ứng dụng địi hỏi xử lý nhanh. Đây là chìa khóa dẫn
đến thành công cho việc phát triển các sản phẩm thương mại của cơng nghệ nhận dạng
tiếng nói. Các kỹ thuật thích nghi phổ biến có thể kể đến là tối đa xác suất hậu nghiệm
MAP (Maximum a Posteriori probability), ước lượng MLLR (Estimation và Maximum
Likelihood Linear Regression) [96]. Các kỹ thuật thích nghi đã được tổng qt hóa để huấn
luyện các mơ hình chung, một đại diện tốt trong số đó có thể kể đến là mơ hình thống kê
tồn thể của tập dữ liệu huấn luyện đầy đủ. Kỹ thuật này được gọi là kỹ thuật huấn luyện
thích nghi người nói SAT (Speaker Adaptive Training) [9]. Huang cùng cộng sự đã có
nghiên cứu so sánh các phương pháp nhận dạng độc lập người nói, nhận dạng phụ thuộc
người nói và nhận dạng thích nghi người nói [74]. Kết quả nghiên cứu này cho thấy: khi
nhận dạng độc lập người nói, tỷ lệ lỗi từ đạt 4,3%, còn khi sử dụng dữ liệu phụ thuộc
người nói, tỷ lệ lỗi từ đã giảm đến 1,4%. Trong các thử nghiệm, nhóm tác giả đều áp dụng
phương pháp thich nghi người nói.
Nhóm thứ hai trong những tiến bộ đáng kể của lĩnh vực xử lý tiếng nói là sự hình
thành cơ sở hạ tầng tính tốn mạnh về phần cứng cho phép phát triển được các thuật giải,
mơ hình thống kê nêu trên. Định luật Moore quan sát sự tiến bộ trong lĩnh vực phát triển
của máy tính và dự báo khả năng tính tốn tăng gấp đơi sau mỗi khoảng thời gian từ 12 đến
18 tháng. Cũng như vậy, chi phí cho bộ nhớ sẽ được giảm đi. Cơ sở hạ tầng mạnh nói trên
là phương tiện cho phép các nhà nghiên cứu về nhận dạng tiếng nói có thể phát triển và
đánh giá độ phức tạp các thuật giải trên các tác vụ đủ lớn. Ngữ liệu tiếng nói đóng vai trị
quan trọng để thực hiện các nghiên cứu nhận dạng tiếng nói. Ngữ liệu tiếng nói lớn cho
phép các mơ hình thống kê học hiệu quả hơn. Trong những năm qua, Viện Tiêu chuẩn và

20




×