Tải bản đầy đủ (.pdf) (141 trang)

Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng việt theo phương thức phát âm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.71 MB, 141 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Phạm Ngọc Hưng

NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC
CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT
THEO PHƯƠNG THỨC PHÁT ÂM

Chuyên ngành: Hệ thống thông tin
Mã số: 62480104

LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Trịnh Văn Loan
2. TS. Nguyễn Hồng Quang

Hà Nội - 2017


LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Nhận dạng tự động tiếng nói
phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” là
công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và
chưa từng được công bố trong bất kỳ công trình nào khác ngoài các công trình đã được
công bố trong luận án này. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn
và ghi nguồn tài liệu tham khảo đúng quy định.
TM. TẬP THỂ HƯỚNG DẪN KHOA HỌC

TÁC GIẢ LUẬN ÁN



PGS.TS. Trịnh Văn Loan

Phạm Ngọc Hưng

2


LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ
Thông tin và Truyền thông, Bộ môn Kỹ thuật máy tính, Bộ môn Hệ thống thông tin đã tạo
điều kiện thuận lợi cho tôi trong quá trình học tập tại Trường.
Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là
PGS.TS. Trịnh Văn Loan và TS. Nguyễn Hồng Quang. Hai Thầy đã luôn tận tình giúp đỡ,
đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai
và hoàn thành công việc nghiên cứu của mình.
Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống
Thông tin, Bộ môn Kỹ thuật máy tính, Viện Công nghệ Thông tin và Truyền thông,
Trường Đại học Bách khoa Hà Nội nơi tôi học tập, thực hiện đề tài nghiên cứu đã nhiệt
tình giúp đỡ và động viên tôi trong suốt quá trình nghiên cứu.
Cảm ơn Khoa Công nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng
Yên, nơi tôi đang công tác đã luôn tạo điều kiện cho tôi trong suốt quá trình nghiên cứu và
hoàn thành luận án này.
Với tấm lòng biết ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè
thân hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu.
Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là
nguồn động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này.

Phạm Ngọc Hưng


3


MỤC LỤC
MỤC LỤC ............................................................................................................................. 4
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT............................................................ 7
DANH MỤC CÁC BẢNG .................................................................................................. 10
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ .......................................................................... 12
MỞ ĐẦU ............................................................................................................................. 14
1.

TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ
19
1.1.

Nhận dạng tiếng nói .............................................................................................. 19

1.1.1.

Tổng quan về nhận dạng tiếng nói ................................................................ 19

1.1.2.

Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói ...... 20

1.1.3.

Các thách thức đối với nhận dạng tự động tiếng nói ..................................... 21

1.1.4.


Phân loại hệ thống nhận dạng tự động tiếng nói ........................................... 22

1.2.

Nhận dạng phương ngữ......................................................................................... 24

1.2.1.

Các mô hình nhận dạng phương ngữ ............................................................. 24

1.2.2.

Nhận dạng phương ngữ theo các phương diện khác nhau............................. 25

1.3.

Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ tiếng Việt ............... 30

1.4.

Một số mô hình nhận dạng ................................................................................... 31

1.4.1.

Mô hình GMM .............................................................................................. 31

1.4.2.

Bộ phân lớp SVM .......................................................................................... 33


1.4.3.

Mạng nơ ron nhận tạo .................................................................................... 39

1.5.

Kết chương ............................................................................................................ 43

2. XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ
TIẾNG VIỆT ....................................................................................................................... 45
2.1.

Tổng quan phương ngữ tiếng Việt ........................................................................ 45

2.1.1.

Phương ngữ và phân vùng phương ngữ tiếng Việt........................................ 45

2.1.2.

Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt ....................... 46

2.1.3.

Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 47

2.2.

Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt ........................................... 49


2.2.1.

Âm tiết và âm vị trong tiếng Việt .................................................................. 49

2.2.2.

Âm đệm và cách kết hợp âm đệm trong các phương ngữ ............................. 53

4


2.3.

Phụ âm đầu trong phương ngữ tiếng Việt ............................................................. 54

2.3.1.

Hệ thống phụ âm đầu ..................................................................................... 54

2.3.2.

So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam ................... 56

2.4.

Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt ...................... 56

2.4.1.


Hệ thống thanh điệu Hà Nội .......................................................................... 57

2.4.2.

Hệ thống thanh điệu Nghệ - Tĩnh và Huế...................................................... 57

2.4.3.

Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh .......................... 58

2.4.4.

Một số nhận xét về hệ thống thanh điệu các phương ngữ ............................. 59

2.5.

Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói ........................................... 60

2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng
phương ngữ tiếng Việt ..................................................................................................... 60
2.6.1.

Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt ......................... 62

2.6.2.

Chuẩn bị và chuẩn hóa văn bản ..................................................................... 62

2.6.3.


Ghi âm ........................................................................................................... 64

2.6.4.

Kết quả ghi âm và đặc tính VDSPEC ............................................................ 67

2.7.

2.7.1.

Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ .................. 68

2.7.2.

Phân tích thống kê phân bố F0 của các thanh điệu ........................................ 70

2.7.3.

Phân tích dữ liệu dùng LDA .......................................................................... 72

2.8.
3.

Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC .... 68

Kết chương ............................................................................................................ 76

NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT .......................................................... 78
3.1.


Nhận dạng phương ngữ tiếng Việt với GMM ...................................................... 78

3.1.1.

Công cụ thử nghiệm nhận dạng phương ngữ ALIZE .................................... 78

3.1.2.

Lựa chọn số lượng hệ số MFCC.................................................................... 80

3.1.3. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
MFCC với tham số F0 ................................................................................................. 81
3.1.4. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
formant, dải thông tương ứng và tham số F0 .............................................................. 84
3.1.5. Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng
phương ngữ tiếng Việt ................................................................................................. 85
3.2.

SVM nhận dạng phương ngữ tiếng Việt ............................................................... 87

3.2.1.

Bộ phân lớp SMO .......................................................................................... 87

5


3.2.2.
3.3.


Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO ..................... 88

lBk nhận dạng phương ngữ tiếng Việt .................................................................. 92

3.3.1.

Bộ phân lớp IBk ............................................................................................ 92

3.3.2.

Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk ............................... 95

3.4.

Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron .......... 96

3.4.1.

Bộ phân lớp MultilayerPerceptron trong Weka ............................................ 96

3.4.2.

MultilayerPerceptron nhận dạng phương ngữ tiếng Việt .............................. 96

3.5.

JRip nhận dạng phương ngữ tiếng Việt ................................................................ 97

3.5.1.


Bộ phân lớp JRip ........................................................................................... 97

3.5.2.

Nhận dạng phương ngữ tiếng Việt với JRip .................................................. 98

3.6.

Nhận dạng phương ngữ tiếng Việt với PART ...................................................... 99

3.6.1.

Bộ phân lớp PART ........................................................................................ 99

3.6.2.

Kết quả dùng PART nhận dạng phương ngữ tiếng Việt ............................... 99

3.7.

Kết chương ............................................................................................................ 99

4. CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ
PHƯƠNG NGỮ ................................................................................................................ 102
4.1.

HMM nhận dạng tiếng Việt nói .......................................................................... 102

4.1.1.


Mô hình HMM ............................................................................................ 102

4.1.2.

HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính ........................ 115

4.2.
ngữ

Cải thiện hiệu năng nhận dạng tiếng Việt nói thông qua sử dụng thông tin phương
120

4.2.1.

Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông tin phương ngữ 120

4.2.2.

Nhận dạng tiếng Việt nói khi có thông tin phương ngữ .............................. 122

4.3.

Kết chương .......................................................................................................... 123

KẾT LUẬN VÀ KIẾN NGHỊ ........................................................................................... 125
TÀI LIỆU THAM KHẢO ................................................................................................. 128
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ............................ 140

6



GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt

Chữ viết đầy đủ

AANN

Auto-Associative Neural Network

AM

Acoustic Model

Mô hình âm học

ANN

Artificial Neural Network

Mạng nơ-ron nhân tạo

ARFF

Attribute-Relation File Format

Định dạng file tham số đặc trưng
trong Weka

ASR


Automatic Speech Recognition

Tự động nhận dạng tiếng nói

BKSPEC

Bach Khoa SPEech Corpus

Bộ ngữ liệu được phát triển tại Bộ
môn Kỹ thuật Máy tính – Viện
Công nghệ Thông tin và Truyền
thông – Đại học Bách khoa Hà Nội

BKTC

Bach Khoa Text Code

BMMI

Boosted Maximum Mutual
Information

Thông tin tương hỗ cực đại tăng
cường

CD

Concept Description


Mô tả khái niệm

CFG

Context-Free Grammar

Ngữ pháp phi ngữ cảnh

CMS

Cepstral Mean Subtraction

Trừ trung bình Cepstral

CMU SLM

Carnegie Mellon University
Statistical Language Modeling
Toolkit

Bộ công cụ mô hình hóa ngôn ngữ
thống kê của trường Carnegie
Mellon

DCF

Detection Cost Function

Hàm giá phát hiện


DET

Detection Error Tradeoff

Cân bằng sai số phát hiện

DL

Descrition Length

Độ dài mô tả

DNN

Deep Neural Networks

Mạng nơ-ron sâu

ELRA

European Language Resources
Association

Hội tài nguyên ngôn ngữ châu Âu

EM

Expectation Maximization

Cực đại hóa kỳ vọng


ERM

Empirical Risk Minimization

Tối thiểu hóa rủi ro theo kinh
nghiệm

F0

Fundamental frequency

Tần số cơ bản

fMLLR

feature-space MLLR

fMMI

feature-space MMI

fMPE

feature-space Minimum Phone Error

FST

Finite-State-Transducer


Chuyển trạng thái hữu hạn

GMM

Gaussian Mixture Model

Mô hình hỗn hợp Gauss

Giải thích

7


HLDA

Heteroscedastic Linear Discriminant
Analysis

Phân tích phân biệt tuyến tính hiệp
phương sai không đồng nhất

HMM

Hidden Markov Model

Mô hình Markov ẩn

HTK

Hidden Markov Model Toolkit


Bộ công cụ mô hình Markov ẩn

IBk

Instance Based k

Tên gọi bộ phân lớp k láng giềng
gần nhất trong Weka

IBL

Instance Based Learning

Học dựa trên đối tượng

IREP

Incremental Reduced Error Pruning

JRip
KKT

Karush–Kuhn–Tucker

Điều kiện Karush–Kuhn–Tucker

k-NN

k-Nearest Neighbour


K láng giềng gần nhất

LDA

Linear Discriminant Analysis

Phân tích phân biệt tuyến tính

LDC

Linguistic Data Consortium

Hội đoàn dữ liệu ngôn ngữ

LLR

Log Likelihood Ratio

LPC

Linear Prediction Coding

MAP

Maximum a Posteriori

MFCC

Mel Frequency Cepstral Coefficients


MHAH

Mô hình âm học

MHNN

Mô hình ngôn ngữ

MLLR

Maximum Likelihood Linear
Regression

MLLT

Maximum Likelihood Linear
Transforms

MMI

Maximum Mutual Information

MPE

Minimum Phone Error

Cực tiểu hóa lỗi âm

NIST


National Institute of Standards and
Technology

Viện Tiêu chuẩn và Công nghệ
Quốc gia của Mỹ

NLP

Natural Language Processing

Xử lý ngôn ngữ tự nhiên

NN

Neural Networks

Mã hóa tiên đoán tuyến tính
Các hệ số Cepstral theo thang đo
tần số Mel

PART
PCA

Principal Component Analysis

Phân tích các thành phần chính

PLP


Perceptual Linear Prediction

Tiên đoán cảm thụ tuyến tính

PNB

Phương ngữ Bắc

PNN

Phương ngữ nam

PNT

Phương ngữ Trung

8


PPR

Parallel Phone Recognition

PPRLM

Parallel Phone Recognition followed
by Language Modeling

PRLM


Phone Recognition followed by
Language Modeling

QP

Quadratic Programming

Quy hoạch toàn phương

RBF

Radial Basis Function

Hàm cơ bản hướng Gauss

RIPPER

Repeated Incremental Pruning to
Produce Error Reduction

RM

Risk Minimization

Tối thiểu hóa rủi ro

SAT

Speaker Adaptive Training


Huấn luyện thích nghi người nói

SBS

Sequential Backward Selection

Lựa chọn lùi lần lượt

SFS

Sequential Forward Selection

Lựa chọn tiến lần lượt

SMO

Sequential Minimal Optimization

Thuật giải tối ưu hóa cực tiểu lần
lượt

SRILM

Stanford Research Institute
Language Modeling

Bộ công cụ tạo mô hình ngôn ngữ
SRI

SRM


Structural Risk Minimization

Tối thiểu hóa rủi ro cấu trúc

SVM

Support Vector Machines

Máy véc-tơ hỗ trợ

TTS

Text-to-Speech

Văn bản thành tiếng nói

VDSPEC

Vietnamese Dialect Speech Corpus

Bộ ngữ liệu phương ngữ tiếng Việt

VTLN

Vocal Tract Length Normalization

Chuẩn hóa chiều dài tuyến âm

WER


Word Error Rate

Tỷ lệ lỗi từ

9


DANH MỤC CÁC BẢNG
Bảng 2.1: Sự khác biệt giữa các phương ngữ về từ và cách sử dụng từ .............................. 48
Bảng 2.2: Cấu trúc âm tiết tiếng Việt .................................................................................. 50
Bảng 2.3: Hệ thống phụ âm làm âm đầu ............................................................................. 51
Bảng 2.4: Bảng các âm chính là nguyên âm đơn ................................................................ 52
Bảng 2.5: Cách thể hiện bằng chữ viết các nguyên âm ....................................................... 52
Bảng 2.6: Vị trí các âm vị trong hệ thống âm cuối .............................................................. 53
Bảng 2.7: Hệ thống phụ âm đầu ở Bắc Bộ .......................................................................... 55
Bảng 2.8: So sánh các hệ thống phụ âm đầu giữa PNB, PNT và PNN ............................... 56
Bảng 2.9: Phân loại thanh điệu theo truyền thống............................................................... 56
Bảng 2.10: Đặc tính văn bản theo chủ đề ............................................................................ 63
Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC ...................................................... 67
Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ .......................... 67
Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề ................................... 68
Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu .............................................................. 69
Bảng 3.1: Kết quả nhận dạng dùng GMM với các tham số MFCC, F0 và các giá trị chuẩn
hóa từ F0 .................................................................................................................... 83
Bảng 3.2: Ma trận nhầm lẫn nhận dạng phương ngữ không phụ thuộc giới tính khi sử dụng
hệ số MFCC kết hợp với tham số F0 ......................................................................... 83
Bảng 3.3: Kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
formant, dải thông tương ứng và các tham số F0 ....................................................... 85
Bảng 3.4: Tỷ lệ nhận dạng trung bình với số lượng thành phần Gauss khác nhau ............. 87

Bảng 3.5: Bộ phân lớp SMO, kết quả nhận dạng với 384 tham số ..................................... 89
Bảng 3.6: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m với 384 tham số ....................................... 90
Bảng 3.7: Bộ phân lớp SMO, kết quả nhận dạng khi không có thông tin liên quan trực tiếp
F0 ............................................................................................................................... 90
Bảng 3.8: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m khi không có thông tin liên quan trực tiếp
F0 ............................................................................................................................... 90
Bảng 3.9: Bộ phân lớp SMO, kết quả thử nghiệm khi chỉ dùng tham số liên quan trực tiếp
F0 ............................................................................................................................... 91
Bảng 3.10: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m khi chỉ sử du ̣ng tham số liên quan trực
tiếp F0 ........................................................................................................................ 91
Bảng 3.11: Bộ phân lớp SMO, kết quả nhận dạng khi chỉ dùng tham số liên quan trực tiếp
MFCC......................................................................................................................... 91
Bảng 3.12: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m khi chỉ dùng tham số liên quan trực tiếp
MFCC......................................................................................................................... 91
Bảng 3.13: Thuật giải IBl, CD – Concept Description [8] .................................................. 93

10


Bảng 3.14: Mô tả thuật giải k-láng giềng gần nhất ............................................................. 94
Bảng 3.15: Bộ phân lớp IBk, kết quả nhận dạng với k = 1 ................................................. 95
Bảng 3.16: Bộ phân lớp IBk, ma trâ ̣n sai nhầ m với k=1 ..................................................... 95
Bảng 3.17: Bộ phân lớp IBk, kết quả nhận dạng với k=5 ................................................... 95
Bảng 3.18: Bộ phân lớp IBk, ma trâ ̣n sai nhầ m với k=5 ..................................................... 96
Bảng 3.19: Kết quả nhận dạng phương ngữ tiếng Việt dùng MultilayerPerceptron ........... 97
Bảng 3.20: Ma trâ ̣n sai nhầ m nhâ ̣n da ̣ng phương ngữ tiếng Việt
dùng
MultilayerPerceptron.................................................................................................. 97
Bảng 3.21: Kết quả dùng bộ phân lớp JRip nhận dạng phương ngữ tiếng Việt .................. 98
Bảng 3.22: Ma trâ ̣n sai nhầ m khi dùng JRip nhâ ̣n da ̣ng phương ngữ tiếng Việt ................ 98

Bảng 3.23: Kết quả sử dụng PART nhận dạng phương ngữ tiếng Việt .............................. 99
Bảng 3.24: Ma trâ ̣n sai nhầ m khi sử dụng PART nhận dạng phương ngữ tiếng Việt ......... 99
Bảng 4.1: Phân chia tập dữ liệu dùng cho huấn luyện và thử nghiệm .............................. 119
Bảng 4.2: Kết quả nhận dạng khi chưa biết thông tin phương ngữ ................................... 119
Bảng 4.3: Kết quả nhận dạng khi đã biết thông tin về phương ngữ .................................. 122

11


DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1: Quyết định lề mềm .............................................................................................. 34
Hình 1.2: Ba phương pháp khác nhau huấn luyện SVM: Chunking, Osuna và SMO ....... 38
Hình 1.3: Mô hình một nơ-ron ............................................................................................ 39
Hình 1.4: Biến đổi làm mịn tạo ra do có thiên áp bk ; lưu ý là vk = bk nếu uk = 0. .............. 41
Hình 1.5: Mô hình nơ-ron phi tuyến .................................................................................... 41
Hình 2.1: Vị trí, vai trò âm đệm trong âm tiết ..................................................................... 51
Hình 2.2: Sơ đồ kết hợp âm đệm /w/ với các nguyên âm ở PNB và PNT .......................... 54
Hình 2.3: So sánh cấu trúc âm tiết PNB, PNT với PNN ..................................................... 54
Hình 2.4: Sơ đồ biến đổi các phụ âm ngạc hóa trong PNB và PNN ................................... 55
Hình 2.5: Đồ thị hệ thống thanh điệu Hà Nội (a), Huế (b), TP Hồ Chí Minh (c) ............... 59
Hình 2.6: Sự phân bố các âm vị trong VDSPEC ................................................................. 63
Hình 2.7: Đáp ứng tần số của SM48 ................................................................................... 64
Hình 2.8: (a) Dạng sóng tín hiệu được ghi âm. (b) Tỉ số tín hiệu trên nhiễu tính theo dB và
giá trị trung bình của tỉ số này.................................................................................... 66
Hình 2.9: Biến thiên F0 các thanh điệu của giọng nữ Hà Nội (a), Huế (b) và Thành phố Hồ
Chí Minh (c) ............................................................................................................... 69
Hình 2.10: Biến thiên F0 các thanh điệu của giọng nam Hà Nội (a), Huế (b) và Thành phố
Hồ Chí Minh (c) ......................................................................................................... 69
Hình 2.11: Biến thiên F0 của thanh hỏi ............................................................................... 70
Hình 2.12: Biến thiên F0 của thanh ngã .............................................................................. 70

Hình 2.13: Biến thiên F0 của thanh nặng ............................................................................ 71
Hình 2.14: Biến thiên F0 của thanh ngang .......................................................................... 71
Hình 2.15: Biến thiên F0 của thanh huyền .......................................................................... 71
Hình 2.16: Biến thiên F0 của thanh sắc ............................................................................... 71
Hình 2.17: Các bước thực hiện phân lớp theo LDA ............................................................ 74
Hình 2.18: Phân lớp phương ngữ dùng LDA cho thanh sắc (từ “chính”) ........................... 75
Hình 2.19: Phân lớp phương ngữ dùng LDA cho thanh ngang (từ “kinh”) ........................ 75
Hình 2.20: Phân lớp phương ngữ dùng LDA cho thanh nặng (từ “mạnh”) ........................ 75
Hình 2.21: Phân lớp phương ngữ dùng LDA cho thanh huyền (từ “thành”) ...................... 75
Hình 2.22: Phân lớp phương ngữ dùng LDA cho thanh hỏi (từ “tỉnh”) .............................. 76
Hình 2.23: Phân lớp phương ngữ dùng LDA cho thanh ngã (từ “vĩnh”) ............................ 76
Hình 3.1: Sơ đồ hệ thống nhận dạng phương ngữ tiếng Việt .............................................. 79
Hình 3.2: Thử nghiệm đánh giá, lựa chọn số hệ số MFCC ................................................. 80
Hình 3.3: Đồ thị DET với số thành phần Gauss (M) từ 20 đến 4096 .................................. 86
Hình 3.4: Hai nhân tử Lagrange phải đáp ứng tất cả các ràng buộc của bài toán đầy đủ. . 88

12


Hình 3.5: Phương pháp k láng giềng gần nhất .................................................................... 94
Hình 4.1: Kiến trúc bộ nhận dạng dựa trên HMM ............................................................ 104
Hình 4.2: Mô hình âm vị dựa trên HMM .......................................................................... 106
Hình 4.3: Mô hình âm phụ thuộc ngữ cảnh ....................................................................... 108
Hình 4.4: Tạo mô hình kết nối các trạng thái .................................................................... 109
Hình 4.5: Phân cụm cây quyết định ................................................................................... 110
Hình 4.6: Minh họa lưới từ ................................................................................................ 113
Hình 4.7: Minh họa mạng nhầm lẫn .................................................................................. 114
Hình 4.8: Cấu trúc lưới từ tạo ra bởi hệ thống HTK ......................................................... 115
Hình 4.9: Mô hình nhận dạng tự động tiếng nói ............................................................... 116
Hình 4.10: Phương pháp huấn luyện của Kaldi ................................................................. 117

Hình 4.11: Sơ đồ hệ thống nhận dạng tiếng Việt nói sử dụng thông tin phương ngữ ....... 120
Hình 4.12: Sơ đồ hệ thống nhận dạng tiếng nói sử dụng thông tin phương ngữ trên bộ ngữ
liệu VDSPEC ........................................................................................................... 121

13


MỞ ĐẦU
1.

Lý do chọn đề tài

Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính
trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hoá quá
trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong bối
cảnh đó, xử lý tiếng nói nói chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang
được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy
tính phục vụ con người trong cuộc sống.
Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành
công. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế.
Riêng về nhận dạng tiếng Việt, mặc dù đã có nhiều nghiên cứu và đạt được các thành công
nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn
chế, đặc biệt là độ chính xác, chất lượng nhận dạng. Ngoài các khó khăn trong nhận dạng
tiếng nói nói chung, nhận dạng tiếng Việt nói còn gặp trở ngại lớn phải kể đến là vấn đề về
phương ngữ tiếng Việt.
Tiếng Việt có nhiều phương ngữ khác nhau. Giữa các phương ngữ có sự khác biệt
cả về từ vựng và ngữ âm trong đó ngữ âm là yếu tố quan trọng để tạo nên sự khác biệt và
phân chia các phương ngữ. Xét về từ vựng, sự khác nhau có thể ở một số bộ phận cấu
thành từ hay sự biến đổi của từ. Sự khác nhau cũng có thể xuất phát từ nguồn gốc của từ.
Ví dụ khi nói về cái kính (để đeo lên mắt), cái gương (để soi), theo cách gọi ở miền Bắc,

chúng được phân biệt rõ ràng bởi từ “kính”, “gương” (“đeo kính”, “soi gương”). Trong khi
đó, ở miền Nam, cả hai vật này chỉ được gọi bằng một từ là kiếng (biến thể về âm của
kính). Thay vì nói “đeo kính”, phương ngữ Nam lại dùng cách nói “đeo kiếng”. Cũng như
vậy, thay vì “soi gương” phương ngữ Nam lại dùng cách nói “soi kiếng”. Ở miền Trung,
hai vật kính và gương đều được gọi bằng từ “gương”. Hai thao tác tương ứng đeo kính, soi
gương được diễn đạt bằng “soi gương” và “đeo gương”. Xét về mặt ngữ âm, sự khác biệt
giữa các phương ngữ được thể hiện khá rõ ràng. Chẳng hạn với phương ngữ Nam, hai phụ
âm cuối “nh” và “ch” thường bị biến đổi thành “n” và “t” trong cách phát âm. Do vậy, từ
“tịch” theo cách phát âm giọng miền Nam thì lại là “tựt” (nguyên âm “i” biến thành “ư” và
phụ âm cuối “ch” thành “t”) hoặc “nhanh” thì thành “nhăn”, “mình” thành “mừn”.
Sự khác biệt nêu trên gây ra không ít khó khăn cho ngay chính con người khi giao
tiếp với người sử dụng phương ngữ khác. Rõ ràng, sự khác biệt đó cũng ảnh hưởng tới các
hệ thống nhận dạng tiếng Việt nói, làm giảm hiệu quả nhận dạng của các hệ thống nhận
dạng tiếng nói. Cùng một nội dung nhưng do phát âm khác nhau ở mỗi phương ngữ dẫn
đến tiếng nói đầu vào cho hệ thống nhận dạng khác nhau. Điều này có thể gây ra sự sai
nhầm trong nhận dạng tiếng nói. Các nghiên cứu nhận dạng tiếng Việt nói đến hiện tại
chưa thấy có sự chú trọng vấn đề khác biệt về phương ngữ trong phát âm của tiếng nói
trước khi đưa vào nhận dạng nội dung. Do vậy, nếu hệ thống nhận dạng tiếng nói chung
cho các phương ngữ thì khó tránh khỏi các ảnh hưởng do sự khác biệt trong phương thức

14


phát âm mỗi phương ngữ tác động lên và làm sai lệch kết quả nhận dạng. Nếu hệ thống
nhận dạng tiếng nói biết trước tiếng nói cần nhận dạng là thuộc phương ngữ nào thì có thể
lựa chọn các tham số phù hợp, sử dụng mô hình đã được huấn luận theo phương ngữ đó để
nhận dạng. Như vậy có thể giảm được các sai nhầm và giúp cải thiện hiệu năng cho hệ
thống nhận dạng dạng.
Chính vì vậy, cần thiết phải nghiên cứu vấn đề nhận dạng tiếng Việt nói theo các
vùng phương ngữ khác nhau nhằm tìm ra giải pháp kỹ thuật nâng cao hiệu quả nhận dạng

tiếng Việt nói. Trước khi tiến hành nhận dạng nội dung tiếng nói, nếu có thể xác định được
tiếng nói đó thuộc phương ngữ nào thì có thể xây dựng hệ thống nhận dạng với ngữ liệu
được tổ chức phù hợp cho từng phương ngữ và sử dụng ngữ liệu này để nhận dạng tiếng
nói của phương ngữ tương ứng. Với cách xây dựng hệ thống nhận dạng tiếng nói như vậy,
các sai nhầm nhận dạng của hệ thống do phương thức phát âm hay thậm chí là cả do sử
dụng từ địa phương sẽ được giảm bớt, hiệu năng nhận dạng của hệ thống sẽ được cải thiện.
Từ các lý do nêu trên, luận án lựa chọn đề tài nghiên cứu “Tự động nhận dạng tiếng
nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm”
nhằm nghiên cứu sâu hơn về vấn đề xử lý nhận dạng tiếng Việt nói, giải quyết một số hạn
chế trong nhận dạng tiếng Việt nói hiện tại liên quan đến phương ngữ và góp phần phát
triển các ứng dụng công nghệ thông tin cho người Việt cũng như các sản phẩm ứng dụng
công nghệ thông tin sử dụng tiếng Việt trong dịch tự động, giao tiếp và tương tác ngườimáy.
2.

Mục tiêu nghiên cứu của luận án

Mục tiêu chính của luận án là Nghiên cứu nhận dạng tiếng Việt nói cho các vùng
phương ngữ chính, đánh giá ảnh hưởng của phương ngữ đến hiệu năng của hệ thống nhận
dạng và đề xuất giải pháp kỹ thuật nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng
tiếng Việt nói nhằm nâng cao hiệu năng nhận dạng.
3.

Nhiệm vụ nghiên cứu của luận án
Để đạt mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính sau:
(1) Nghiên cứu đặc điểm phương ngữ tiếng Việt từ đó xác định được các nét đặc
trưng, sự khác biệt giữa các phương ngữ chính của tiếng Việt làm cơ sở cho
nghiên cứu nhận dạng phương ngữ tiếng Việt. Luận án cũng đánh giá sự ảnh
hưởng của phương ngữ tới hệ thống nhận dạng tự động tiếng Việt nói.
(2) Xây dựng bộ ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu nhận
dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói.

(3) Nghiên cứu, đề xuất mô hình hệ thống nhận dạng tự động, bộ tham số phù hợp
để nhận dạng phương ngữ tiếng Việt.
(4) Nghiên cứu, đề xuất mô hình hệ thống nhận dạng tự động tiếng Việt nói theo
phương ngữ chính của tiếng Việt. Hệ thống mới sử dụng các thông tin về
phương ngữ nhằm nâng cao hiệu năng của hệ thống nhận dạng tiếng Việt nói.

15


4.

Đối tượng và phạm vi nghiên cứu của luận án

Đối tượng nghiên cứu trọng tâm của luận án là nhận dạng phương ngữ tiếng Việt.
Từ kết quả nhận dạng phương ngữ, xây dựng mô hình nhận dạng tiếng Việt nói theo
phương ngữ. Mô hình mới sử dụng thông tin về phương ngữ nhằm cải thiện hiệu năng hệ
thống nhận dạng tiếng Việt nói. Việc nghiên cứu phương ngữ tiếng Việt chủ yếu chỉ tập
trung theo hướng xử lý tín hiệu.
Phương ngữ tiếng Việt rất phong phú. Về mặt địa lý, xét theo phương thức phát âm,
phương ngữ có thể thay đổi theo từng làng, xã. Tuy nhiên, trong phạm vi nghiên cứu của
luận án, do thời gian có hạn, luận án chỉ giới hạn nghiên cứu nhận dạng ba phương ngữ
chính và phổ biến của tiếng Việt theo phương thức phát âm là phương ngữ Bắc (lấy giọng
Hà Nội làm đại diện), phương ngữ Trung (lấy giọng Huế làm đại diện) và phương ngữ
Nam (lấy giọng Thành phố Hồ Chí Minh làm đại diện).
Bên cạnh đó, với mục tiêu ứng dụng kết quả nhận dạng phương ngữ tiếng Việt vào
hệ thống nhận dạng tự động tiếng Việt nói nhằm cải thiện hiệu năng nhận dạng, nhận dạng
phương ngữ được xem là bước tiền xử lý trong hệ thống nhận dạng tự động tiếng Việt.
Việc nhận dạng phương ngữ cần được tiến hành trước khi nhận dạng nội dung, nghĩa là ở
thời điểm còn chưa biết nội dung tiếng nói. Vì vậy, thao tác của hệ thống nhận dạng
phương ngữ chưa thể khai thác các thông tin về từ địa phương mà chủ yếu là khai thác

thông tin về phương thức phát âm của phương ngữ.
Các thử nghiệm nhận dạng phương ngữ mà luận án tiến hành dựa trên ngữ liệu với
số lượng từ vựng hạn chế để từ đó xác định được các đặc trưng của từng phương ngữ và đề
xuất mô hình nhận dạng phương ngữ nhằm nâng cao chất lượng hệ thống nhận dạng tiếng
Việt nói.
5.

Ý nghĩa khoa học và thực tiễn của luận án

Nội dung nghiên cứu, kết quả dự kiến đạt được của luận án sẽ có đóng góp đáng kể
cho mở rộng nghiên cứu về phương ngữ tiếng Việt. Các nghiên cứu về phương ngữ tiếng
Việt đã được triển khai cho đến nay chủ yếu thực hiện theo phương diện ngôn ngữ. Nghiên
cứu về phương diện xử lý tín hiệu vẫn còn hạn chế. Do vậy, hướng nghiên cứu theo
phương diện xử lý tín hiệu sẽ giúp mở rộng phạm vi nghiên cứu cũng như gia tăng khả
năng ứng dụng các kết quả đạt được trong lĩnh vực nghiên cứu xử lý tiếng Việt nói nói
chung và nhận dạng tiếng Việt nói nói riêng.
Từ kết quả nhận dạng phương ngữ, đề xuất mô hình mới nhận dạng tiếng Việt nói
sử dụng thông tin phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng Việt nói,
góp phần hoàn thiện hơn khả năng nhận dạng của hệ thống nhận dạng tự động tiếng Việt
nói.
6.

Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận án là kết hợp nghiên cứu lý thuyết với nghiên
cứu thực nghiệm.

16



Về lý thuyết: luận án nghiên cứu tổng quan về phương ngữ tiếng Việt, các mô hình
nhận dạng phương ngữ của một số ngôn ngữ trên thế giới, các mô hình nhận dạng tiếng nói
dựa trên các tài liệu, công trình khoa học đã được công bố, sách báo, giáo trình liên quan.
Về thực nghiệm: luận án xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên
cứu nhận dạng phương ngữ tiếng Việt và nhận dạng nội dung tiếng Việt nói. Luận án cũng
sử dụng các công cụ mã nguồn mở kết hợp lập trình phần mềm xử lý dữ liệu, thực hiện các
nghiên cứu, thử nghiệm nhận dạng phương ngữ tiếng Việt, xây dựng và thử nghiệm mô
hình nhận dạng phương ngữ cũng như nhận dạng tiếng Việt nói theo phương ngữ.
7.

Kết quả nghiên cứu, đóng góp của luận án
Kết quả nghiên cứu và đóng góp của luận án tập trung vào các điểm chính sau:
(1) Phân tích đặc điểm phương ngữ tiếng Việt, sự khác biệt giữa các phương ngữ
chính của tiếng Việt về phương diện phát âm về mặt xử lý tín hiệu.
(2) Xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên cứu nhận dạng
phương ngữ tiếng Việt cũng như các nghiên cứu khác về nhận dạng tiếng Việt
nói; thực hiện một số nghiên cứu, thử nghiệm, phân tích đặc điểm của phương
ngữ tiếng Việt.
(3) Đề xuất mô hình nhận dạng phương ngữ tiếng Việt và bộ tham số phù hợp cho
mô hình nhận dạng phương ngữ tiếng Việt.
(4) Sử dụng mô hình HMM (Hidden Markov Model) nhận dạng tiếng Việt nói trên
bộ ngữ liệu có phương ngữ.
(5) Đề xuất mô hình nhận dạng tiếng Việt nói theo phương ngữ.

8.

Nội dung luận án
Nội dung chính của luận án được trình bày trong 4 chương như sau:

Chương 1: Tổng quan về nhận dạng tiếng nói và nhận dạng phương ngữ. Chương

này trình bày tổng quan về nhận dạng tiếng nói, lịch sử phát triển và các tiến bộ trong
nghiên cứu nhận dạng tiếng nói; các nghiên cứu và kết quả đạt được về nhận dạng phương
ngữ; việc nghiên cứu về nhận dạng tiếng nói và phương ngữ tiếng Việt, các vấn đề còn tồn
tại trong nghiên cứu, nhận dạng tiếng Việt nói và phương ngữ tiếng Việt; làm rõ vấn đề
cần nghiên cứu, giải quyết trong luận án.
Chương 2: Xây dựng bộ ngữ liệu cho nghiên cứu nhận dạng phương ngữ tiếng
Việt. Nội dung chương này đề cập các nghiên cứu chi tiết hơn về phương ngữ tiếng Việt,
từ đó cho thấy sự khác biệt giữa các phương ngữ, đặc biệt là phương thức phát âm, làm cơ
sở cho nghiên cứu nhận dạng phương ngữ tiếng Việt. Chương 2 cũng trình bày phương
pháp xây dựng bộ ngữ liệu dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt và kết
quả phân tích đạt được đối với một số đặc trưng của phương ngữ tiếng Việt dựa trên ngữ
liệu đã xây dựng.
Chương 3: Nhận dạng phương ngữ tiếng Việt. Chương này tập trung vào nghiên
cứu các mô hình nhận dạng phương ngữ tiếng Việt, việc lựa chọn tham số ứng dụng cho

17


mỗi mô hình và trình bày các kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử
dụng các mô hình và tham số đã đề xuất.
Chương 4: Cải thiện hiệu năng nhận dạng tiếng Việt với thông tin về phương ngữ.
Luận án sẽ trình bày mô hình nhận dạng tiếng nói dựa trên HMM sử dụng các thông tin về
phương ngữ nhằm cải thiện hiệu năng nhận dạng tiếng Việt nói. Kết quả thử nghiệm cho
thấy mô hình nhận dạng tiếng Việt nói có sử dụng thông tin phương ngữ cho hiệu năng
nhận dạng tốt hơn so với trường hợp không có thông tin về phương ngữ.
Cuối cùng, phần Kết luận tổng hợp các kết quả nghiên cứu đã đạt được, hướng mở
rộng nghiên cứu, phát triển đề tài và các đóng góp khoa học của luận án.

18



CHƯƠNG 1

1.

TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN
DẠNG PHƯƠNG NGỮ

Chương 1 đề cập nội dung tổng quan về nhận dạng tiếng nói và nhận dạng phương
ngữ. Đây là vấn đề chính mà luận án quan tâm. Trong chương này, luận án tập trung tổng
hợp, phân tích tình hình nghiên cứu trong và ngoài nước về nhận dạng tiếng nói và nhận
dạng phương ngữ nhằm xác định các hướng tiếp cận, phương pháp giải quyết các bài toán
trong lĩnh vực này. Đồng thời, Chương 1 cũng tổng hợp các nghiên cứu liên quan về nhận
dạng tiếng Việt và phương ngữ tiếng Việt, nêu bật những mặt còn tồn tại, những vấn đề
cần giải quyết đối với nhận dạng tiếng Việt và phương ngữ tiếng Việt từ đó tìm hướng tiếp
cận nhằm nâng cao hiệu năng cho hệ thống nhận dạng tiếng Việt nói.

1.1. Nhận dạng tiếng nói
1.1.1. Tổng quan về nhận dạng tiếng nói
Nhiệm vụ của hệ thống nhận dạng tiếng nói là làm cho hệ thống hiểu được tiếng
nói của con người. Nhờ hệ thống này, tiếng nói có thể được chuyển đổi tự động thành văn
bản, hoặc tự động điều khiển các quá trình khác [179]. Phương thức truyền thông tự nhiên
nhất đối với con người là thông qua tiếng nói nên ước mơ cuối cùng của nhận dạng tiếng
nói là cho phép con người có ngôn ngữ khác nhau giao tiếp với nhau và với máy một cách
tự nhiên, hiệu quả hơn. Có thể nói, các ứng dụng nhận dạng tiếng nói hiện đang dần trở
nên phổ biến, phục vụ đời sống con người cũng như trong các lĩnh vực kỹ thuật khác nhau.
Trong lĩnh vực tương tác người máy, nhận dạng tiếng nói được định nghĩa là khả năng hệ
thống máy tính có thể chấp nhận đầu vào là lời nói theo định dạng file âm thanh và tạo ra
được văn bản chứa nội dung tương ứng.
Nhận dạng tự động tiếng nói ASR (Automatic Speech Recognition) mô phỏng khả

năng nghe và hiểu lời nói của con người. Hệ thống ASR có thể chuyển đổi lời nói thành
văn bản. Bài toán nhận dạng tự động tiếng nói là một chương trình máy tính tiếp nhận đầu
vào là các mẫu tiếng nói và tạo ra văn bản tương ứng mà con người có thể hiểu được như
khi trực tiếp nghe tiếng nói đó. ASR là một trong các lĩnh vực của nhận dạng mẫu. ASR
phát triển mạnh tương xứng với các lĩnh vực khác của nhận dạng mẫu vì mong muốn tạo ra
được cỗ máy có khả năng tạo ra được các quyết định phức tạp và thực tế, có chức năng
nhanh như con người đồng thời có thể hiểu được lời nói. Tương tự như bất kỳ hệ thống
nhận dạng mẫu nào, ASR tìm kiếm để hiểu được các mẫu tiếng nói đầu vào. Các nghiên
cứu về xử lý tín hiệu, xử lý tiếng nói và đặc biệt là nhận dạng tiếng nói đã thu hút nhiều
nhà khoa học tham gia và mang lại nhiều thành tựu trong các lĩnh vực này [33, 37, 55, 57,
63, 75, 94, 95, 135].

19


Mục tiếp theo dưới đây sẽ trình bày tóm lược về lịch sử phát triển và các tiến bộ
trong nghiên cứu nhận dạng tiếng nói.
1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng
tiếng nói
Điều đầu tiên quan trọng cần phải kể đến trong lịch sử phát triển của nhận dạng
tiếng nói là việc thành lập các mô hình thống kê và các thuật giải liên quan tạo điều kiện
cho việc thực hiện các mô hình này. Mô hình HMM đã được giới thiệu như là một mô hình
âm học của hệ thống nhận dạng tiếng nói từ đầu những năm 1970 [12, 82]. Hơn 30 năm
sau, phương pháp này vẫn còn được sử dụng rộng rãi. Một lượng lớn các mô hình và thuật
giải đã được đề xuất và sử dụng hiệu quả trong lĩnh vực này. Thuật giải tối đa hóa kỳ vọng
EM (Expectation Maximization) và thuật giải quay lui (Forward – Backward) hoặc thuật
giải Baum – Welch [14, 36] đã có vai trò chủ yếu và quan trọng trong việc huấn luyện mô
hình HMM một cách hiệu quả. Tương tự như vậy, mô hình ngôn ngữ N-gram và các biến
thể được huấn luyện với các tính toán cơ bản hoặc sử dụng kỹ thuật EM-Style đã đạt được
các hiệu quả quan trọng. Bên cạnh mô hình âm học HMM và mô hình ngôn ngữ cơ bản

N-gram, đã có nghiên cứu mới được công bố như các mô hình phân đoạn [38, 39, 60] và
các mô hình ngôn ngữ và tiếng nói có cấu trúc [27, 40, 176]. Các thuật giải thích nghi hiệu
quả cho phép tích hợp được trên các ứng dụng đòi hỏi xử lý nhanh. Đây là chìa khóa dẫn
đến thành công cho việc phát triển các sản phẩm thương mại của công nghệ nhận dạng
tiếng nói. Các kỹ thuật thích nghi phổ biến có thể kể đến là tối đa xác suất hậu nghiệm
MAP (Maximum a Posteriori probability), ước lượng MLLR (Estimation và Maximum
Likelihood Linear Regression) [96]. Các kỹ thuật thích nghi đã được tổng quát hóa để huấn
luyện các mô hình chung, một đại diện tốt trong số đó có thể kể đến là mô hình thống kê
toàn thể của tập dữ liệu huấn luyện đầy đủ. Kỹ thuật này được gọi là kỹ thuật huấn luyện
thích nghi người nói SAT (Speaker Adaptive Training) [9]. Huang cùng cộng sự đã có
nghiên cứu so sánh các phương pháp nhận dạng độc lập người nói, nhận dạng phụ thuộc
người nói và nhận dạng thích nghi người nói [74]. Kết quả nghiên cứu này cho thấy: khi
nhận dạng độc lập người nói, tỷ lệ lỗi từ đạt 4,3%, còn khi sử dụng dữ liệu phụ thuộc
người nói, tỷ lệ lỗi từ đã giảm đến 1,4%. Trong các thử nghiệm, nhóm tác giả đều áp dụng
phương pháp thich nghi người nói.
Nhóm thứ hai trong những tiến bộ đáng kể của lĩnh vực xử lý tiếng nói là sự hình
thành cơ sở hạ tầng tính toán mạnh về phần cứng cho phép phát triển được các thuật giải,
mô hình thống kê nêu trên. Định luật Moore quan sát sự tiến bộ trong lĩnh vực phát triển
của máy tính và dự báo khả năng tính toán tăng gấp đôi sau mỗi khoảng thời gian từ 12 đến
18 tháng. Cũng như vậy, chi phí cho bộ nhớ sẽ được giảm đi. Cơ sở hạ tầng mạnh nói trên
là phương tiện cho phép các nhà nghiên cứu về nhận dạng tiếng nói có thể phát triển và
đánh giá độ phức tạp các thuật giải trên các tác vụ đủ lớn. Ngữ liệu tiếng nói đóng vai trò
quan trọng để thực hiện các nghiên cứu nhận dạng tiếng nói. Ngữ liệu tiếng nói lớn cho
phép các mô hình thống kê học hiệu quả hơn. Trong những năm qua, Viện Tiêu chuẩn và

20


Công nghệ NIST (National Institute of Standard and Technology), Hiệp hội dữ liệu ngôn
ngữ học LDC (Linguistic Data Consortium), Hiệp hội Tài nguyên Ngôn ngữ châu Âu

ELRA (European Language Resources Association) và các tổ chức khác đã xây dựng được
các bộ ngữ liệu tiếng nói, chú giải và chia sẻ rộng rãi cho cộng đồng trên toàn thế giới. Với
sự phát triển, hội nhập và chia sẻ trên phạm vi toàn cầu, hiện nay, nhiều phòng thí nghiệm,
các nhà nghiên cứu đã được hưởng lợi ích từ các công cụ phục vụ cho nghiên cứu được
cung cấp miễn phí như HTK (Hidden Markov Model Toolkit), Sphinx, CMU LM toolkit
và SRILM toolkit. Mặt khác, các hỗ trợ cho nghiên cứu sâu, rộng, kết hợp với các hội nghị,
hội thảo, hệ thống đánh giá được DARPA (U.S. Department of Defense Advanced
Research Projects Agency) và các tổ chức, cá nhân khác tài trợ đã trở nên cần thiết cho sự
phát triển hệ thống nhận dạng tiếng nói hiện nay.
Nhóm tiến bộ thứ 3 có thể kể đến thuộc về lĩnh vực biểu diễn tri thức. Các kỹ thuật
phân tích tham số tiếng nói như MFCC (Mel-Frequency Cepstral Coefficients) [35], tiên
đoán cảm thụ tuyến tính PLP (Perceptual Linear Prediction) [70], chuẩn hóa thông qua trừ
trung bình cepstral CMS (Cepstral Mean Subtraction) [139], RASTA [70] và chuẩn hóa
chiều dài tuyến âm VTLN (Vocal Tract Length Normalization) [42]. Gần đây, có nhiều
thuật giải đã được đề xuất cho nhận dạng tiếng nói mang lại hiệu quả cao như Phân tích
phân biệt tuyến tính hiệp phương sai không đồng nhất HLDA (Heteroscedastic Linear
Discriminant Analysis) [90], cực tiểu lỗi từ theo không gian đặc trưng fMPE (feature-space
Minimum Phone Error) [132] và mạng nơ ron dựa trên các đặc trưng [112].
Nhóm cuối cùng trong các tiến bộ lớn của nhận dạng tiếng nói là giải mã và các
thuật giải tìm kiếm. Ban đầu tập trung vào giải mã ngăn xếp (thuật giải tìm kiếm A∗) [84]
và tìm kiếm đồng bộ thời gian Viterbi (time-synchronous Viterbi search) [115, 143, 169,
171]. Nếu không có các thuật giải khả thi thì các nhận dạng tiếng nói liên tục có quy mô
lớn khó có thể thực hiện được.
Như vậy có thể thấy, nhận dạng tiếng nói đã đạt được nhiều tiến bộ trong các năm
qua. Có nhiều mô hình nhận dạng đã được đề xuất trong đó mô hình HMM với nền tảng
chính không có nhiều thay đổi song việc mô hình hóa, các kỹ thuật cài đặt cụ thể vẫn liên
tục được cải tiến. Vì thế, HMM vẫn giữ được vị trí quan trọng trong các hệ thống nhận
dạng tiếng nói. Bên cạnh đó, các kỹ thuật phân tích tham số cũng đạt được những bước
tiến quan trọng. Các thuật giải tìm kiếm được cải tiến giúp bộ giải mã thực hiện các nhiệm
vụ tìm kiếm, cho ra lời giải hiệu quả hơn.

1.1.3. Các thách thức đối với nhận dạng tự động tiếng nói
Vì có nhiều ý nghĩa trong nghiên cứu cũng như thực tiễn ứng dụng, nhận dạng
tiếng nói đã thu hút nhiều nhà khoa học tham gia nhưng lĩnh vực này cũng phải đối mặt với
nhiều thách thức.
Thách thức lớn đầu tiên đối với nhận dạng tự động tiếng nói có thể kể đến là làm
thế nào để xử lý được các biến thiên trong tiếng nói. Cùng một âm do cùng một người nói
ở những thời điểm khác nhau song tín hiệu tiếng nói có thể không hoàn toàn như nhau.

21


Trong các hệ thống nhận dạng tiếng nói phụ thuộc người nói, sự khác biệt của tiếng nói
thường không lớn so với hệ thống nhận dạng độc lập người nói. Ngay cả khi tiếng nói
được giới hạn bởi một người nói thì sự thay đổi về môi trường ghi âm, điều kiện nói, thiết
bị ghi âm... vẫn là tồn tại khách quan tạo ra sự khác biệt trong tín hiệu tiếng nói cần nhận
dạng.
Thách thức lớn khác đối với ASR là phải giải quyết bài toán nhận dạng nhầm, khi
mà hệ thống thường phải đối mặt với thực tế là tiếng nói cần nhận dạng không hoàn toàn
theo đúng với tiếng nói đã được huấn luyện. Trong ASR, một số người nói thường sẽ đọc
các văn bản đã được chọn từ trước và sử dụng tiếng nói thu được theo cách đó để xây dựng
các mô hình. Độ chính xác của ASR thường tỷ lệ với sự tương tự giữa dữ liệu huấn luyện
và dữ liệu thử nghiệm. Dễ dàng nhận thấy, hệ thống nhận dạng cho độ chính xác cao khi
dữ liệu huấn luyện và nhận dạng đều do một người nói và nội dung nói tương tự nhau. Độ
chính xác đó sẽ giảm khi dữ liệu thử nghiệm và dữ liệu dùng huấn luyện là tiếng nói của
những người khác nhau, nội dung nói khác nhau hay môi trường, thiết bị ghi âm khác
nhau. Thách thức đặt ra đối với người thiết kế ASR là phải chuẩn bị đủ về mặt dữ liệu và
cài đặt thuật giải tốt.
Tác động phức tạp nhất tới tín hiệu tiếng nói mà ASR phải xử lý là nhiễu kênh,
nhiễu nền và các nhiễu khác từ bên ngoài. Kỹ thuật trừ phổ cơ bản giúp giải quyết được
vấn đề nhiễu cộng trong khi một số kỹ thuật khác giúp khử được nhiễu chập.

Mặc dù phải đối mặt với nhiều thách thức song nhận dạng tự động tiếng nói đã đạt
được nhiều bước tiến quan trọng. Các kết quả nghiên cứu đã dần đi vào cuộc sống trở
thành các ứng dụng thường ngày. Lĩnh vực này vẫn tiếp tục thu hút nhiều nhà khoa học
tham gia nhằm tiếp tục cải thiện hiệu năng nhận dạng, gia tăng khả năng ứng dụng trong
thực tiễn.
1.1.4. Phân loại hệ thống nhận dạng tự động tiếng nói
Các hệ thống nhận dạng tự động tiếng nói có thể được phân loại theo các cách khác
nhau tùy thuộc tiêu chí sử dụng phân loại như dựa trên sự phụ thuộc người nói, đặc điểm
liên tục hay rời rạc của tiếng nói cần nhận dạng, độ lớn của từ vựng.
Theo tiêu chí sự phụ thuộc vào người nói, hệ thống nhận dạng tiếng nói có thể được
chia làm 3 loại gồm hệ thống nhận dạng tiếng nói phụ thuộc người nói, hệ thống nhận dạng
tiếng nói độc lập người nói và hệ thống nhận dạng tiếng nói thích nghi người nói, cụ thể
như sau:
1) Hệ thống nhận dạng tiếng nói phụ thuộc người nói: hệ thống này đòi hỏi người
dùng phải huấn luyện hệ thống bằng chính tiếng nói của mình. Nói khác đi,
tiếng nói cần nhận dạng và tiếng nói dùng cho huấn luyện đều do cùng một
người nói. Hệ thống này có thể được xây dựng một cách dễ dàng với chi phí
thấp và độ chính xác cao. Tuy nhiên, mức độ linh hoạt của hệ thống lại thấp
hơn so với hệ thống nhận dạng không phụ thuộc người nói và hệ thống nhận
dạng thích nghi người nói.

22


2) Hệ thống nhận dạng không phụ thuộc người nói: có đặc điểm là không đòi hỏi
người dùng phải huấn luyện hệ thống bằng chính giọng nói của mình. Nói cách
khác, hệ thống có thể được huấn luyện độc lập, sử dụng tiếng nói của người
khác để huấn luyện mà vẫn có khả năng nhận dạng được tiếng nói được phát
âm bởi người không tham gia huấn luyện. Hệ thống này có thể làm việc với
tiếng nói được phát âm từ người nói bất kỳ. Việc xây dựng hệ thống như vậy

thường phức tạp và đòi hỏi chi phí cao hơn song có ưu điểm là hệ thống rất linh
hoạt nhưng độ chính xác thường thấp hơn so với hệ thống phụ thuộc người nói.
3) Hệ thống nhận dạng tiếng nói thích nghi người nói: được xây dựng để có khả
năng thích nghi với người nói mới. Hệ thống này đã được huấn luyện sẵn trước
khi sử dụng bằng tiếng nói có thể khác với tiếng nói của người sử dụng. Trong
quá trình hoạt động, hệ thống sẽ tiếp nhận thông tin, đặc điểm của người nói
mới để điều chỉnh nhằm thích nghi theo các đặc điểm riêng của người nói mới.
Hệ thống này có vị trí xếp hạng nằm giữa hai hệ thống được nêu trước đó. Hệ
thống vừa có tính linh hoạt vì không ràng buộc huấn luyện và sử dụng cùng
người nói như hệ thống phụ thuộc người nói lại vẫn đạt được độ chính xác nhờ
khả năng thich nghi người nói.
Các hệ thống nhận dạng tiếng nói được phân loại dựa trên đặc điểm của tiếng nói
huấn luyện và nhận dạng sẽ gồm bốn loại như sau:
1) Hệ thống nhận dạng tiếng nói theo từ rời rạc: hệ thống này được thiết kế để
nhận dạng tiếng nói được phát âm thành từng từ rời rạc. Giữa các từ có khoảng
lặng đủ lớn và phân tách với nhau. Hệ thống này là dạng đơn giản nhất của hệ
thống nhận dạng tiếng nói. Tuy khả năng nhận dạng có hạn chế nhưng hệ thống
này lại được sử dụng phổ biến trong các sản phẩm thực.
2) Hệ thống nhận dạng tiếng nói cho các từ có liên kết với nhau: trong trường hợp
này, hệ thống nhận dạng tiếng nói được thiết kế để nhận dạng các từ tương tự
như hệ thống nhận dạng từ rời rạc. Tuy nhiên, các từ này có liên kết với nhau
nên hệ thống cho phép tiếng nói cần nhận dạng có thể được phân tách với nhau
bởi các khoảng lặng nhỏ.
3) Hệ thống nhận dạng tiếng nói phát âm liên tục: hệ thống làm việc với tiếng nói
trong đó không có khoảng lặng về mặt tín hiệu giữa các từ. Hệ thống cho phép
người dùng có thể phát âm một cách tự nhiên, cùng với đó thì máy tính sẽ thực
hiện việc nhận dạng nội dung. Các hệ thống loại này đòi hỏi xử lý phức tạp hơn
vì việc xác định các từ là rất khó về mặt tín hiệu.
4) Hệ thống nhận dạng tiếng nói tự nhiên: hệ thống được thiết kế để nhận dạng
được tiếng nói được phát âm một cách tự nhiên với các từ phát ra một cách liên

tiếp có thể xen kẽ những âm đệm không có nghĩa như "ừ", "à"... thậm chí là nói
lắp.

23


Hệ thống nhận dạng tiếng nói cũng có thể phân loại theo lượng từ vựng. Theo cách
này, các hệ thống nhận dạng tiếng nói có thể chia thành 3 loại bao gồm hệ thống nhận dạng
với từ vựng ít (số lượng từ chỉ đến hàng chục từ), hệ thống nhận dạng tiếng nói với từ vựng
trung bình (số lượng từ đến vài trăm từ) và hệ thống nhận dạng tiếng nói với từ vựng lớn
(số lượng từ lên đến hàng nghìn từ).
Hệ thống nhận dạng tiếng nói rất đa dạng và phong phú. Cách tiếp cận trong nghiên
cứu nhận dạng tiếng nói cũng đa dạng tương tự. Mặc dù mục tiêu, nội dung cụ thể của từng
nghiên cứu là khác nhau song đều có điểm chung là cải thiện hiệu năng, nâng cao hiệu quả
hoạt động của hệ thống nhận dạng.

1.2. Nhận dạng phương ngữ
Nhận dạng phương ngữ dựa trên tín hiệu tiếng nói là một lĩnh vực của xử lý tín
hiệu tiếng nói thu hút nhiều nhà khoa học tham gia. Phương ngữ có thể hiểu là tiếng nói ở
một vùng, địa phương có những đặc điểm khác biệt với tiếng nói ở vùng, hay địa phương
khác. Sự khác biệt có thể là ở từ vựng, ngữ pháp, ngữ âm. Chương 2 sẽ bàn luận chi tiết
hơn về khái niệm phương ngữ, đặc điểm và sự phân vùng phương ngữ của tiếng Việt. Nếu
nhận dạng được phương ngữ chính xác thì có thể giúp cải thiện nhiều ứng dụng, dịch vụ
như nhận dạng tự động tiếng nói, hệ thống chăm sóc sức khỏe điện tử (e-health), các hệ
thống e-learning,... Nhận dạng phương ngữ có nhiều nét tương tự như nhận dạng ngôn ngữ
tuy nhiên phức tạp và chứa đựng nhiều thách thức hơn so với nhận dạng ngôn ngữ của
tiếng nói.
1.2.1. Các mô hình nhận dạng phương ngữ
Phương pháp tiếp cận của nhận dạng phương ngữ cũng tương tự như các phương
pháp được dùng trong nhận dạng ngôn ngữ. Các phương pháp tiếp cận này có thể chia làm

hai nhóm bao gồm phương pháp dựa trên âm học và phương pháp dựa trên ràng buộc âm
vị. Trong khi phương pháp đầu dựa trên mô hình đặc trưng phổ của tiếng nói thì phương
pháp thứ hai dựa trên việc mô hình ngôn ngữ để nhận dạng các từ đặc trưng.
1.2.1.1.

Mô hình ràng buộc âm vị

Với mỗi ngôn ngữ, các từ đều được cấu thành từ một tập các âm vị. Các mô hình
nhận dạng phương ngữ dựa theo phương pháp ràng buộc âm vị (Phonotactic Modeling)
được xây dựng dựa trên các bộ nhận dạng âm vị. Bộ nhận dạng âm vị sẽ tiến hành phân
tích tiếng nói cần nhận dạng thành các âm vị. Mỗi từ đều có thể được phiên âm bởi một tập
các âm vị đã biết. Nhiệm vụ được đặt ra là phải xây dựng được bộ nhận dạng âm vị có độ
chính xác cao. Một cách thực hiện theo hướng tiếp cận này là xây dựng bộ nhận dạng âm
vị theo mô hình ngôn ngữ PRLM (Phone Recognition followed by Language Modeling)
[20]. Tiếp theo, bộ nhận dạng âm vị đơn lẻ được sử dụng để nhận dạng phương ngữ. Bộ
nhận dạng âm vị sẽ tạo ra một dãy các âm vị dùng để huấn luyện các mô hình ngôn ngữ
N-gram cho mỗi phương ngữ. Trong quá trình nhận dạng, tiếng nói cần nhận dạng sẽ được

24


phân đoạn bằng cách sử dụng bộ nhận dạng âm vị và phương ngữ đã được đánh số theo mô
hình ngôn ngữ sẽ cho ra điểm số cao nhất ứng với phương ngữ nhận dạng được. Mở rộng
của phương pháp PRLM là phương pháp sử dụng bộ nhận dạng âm vị song song theo mô
hình ngôn ngữ PPRLM (Parallel Phone Recognition followed by Language Modeling).
PPRLM sử dụng các bộ nhận dạng âm vị nhiều đầu ra thay cho bộ nhận dạng âm vị đơn
được sử dụng trong PRLM. Tiếng nói cần nhận dạng sẽ được nạp vào một dãy các bộ nhận
dạng âm vị đã được huấn luyện cho từng phương ngữ. Đầu ra của các bộ nhận dạng là các
điểm số được tính thông qua một dãy các mô hình ngôn ngữ. Cả hai phương pháp này
thường được sử dụng cho trường hợp dữ liệu phiên âm bị hạn chế. Khi dữ liệu phiên âm

sẵn có và phong phú, có thể sử dụng các bộ nhận dạng âm vị độc lập trong đó mỗi bộ nhận
dạng có riêng một mô hình ngôn ngữ. Trong quá trình nhận dạng, tập các bộ nhận dạng âm
vị song song được sử dụng và cho ra dãy âm vị đã được tối ưu vì mỗi bộ nhận dạng có một
mô hình ngôn ngữ của riêng mình. Phương pháp này được gọi là phương pháp nhận dạng
âm vị song song PPR (Parallel Phone Recognition). Phương pháp PPR gặp trở ngại là cần
phải có dữ liệu phiên âm cho tất cả các phương ngữ cần nhận dạng.
Trong cả ba phương pháp đã nêu, việc nhận dạng phương ngữ đều dựa trên kết quả
phân tích, nhận dạng âm vị của tiếng nói cần xử lý và mô hình ngôn ngữ tương ứng với
mỗi phương ngữ có thể nhận dạng.
1.2.1.2.

Mô hình âm học

Cách tiếp cận khác để nhận dạng phương ngữ thay cho cách tiếp cận dựa trên mô
hình ràng buộc âm vị là sử dụng mô hình âm học (Acoustic Modeling) [186]. Cách tiếp cận
này sử dụng mô hình hỗn hợp Gauss GMM (Gaussian Mixture Model) để xây dựng hệ
thống nhận dạng. GMM đã được sử dụng thành công trong các ứng dụng nhận dạng
phương ngữ [29, 51, 110]. GMM sử dụng các tham số là các đặc trưng của tiếng nói cần
nhận dạng. Các đặc trưng này trích chọn trong thời gian ngắn của tiếng nói bao gồm phổ,
thông tin về ngôn điệu như tần số cơ bản và đường bao tần số cơ bản, cường độ tại các
phần đặc biệt của tiếng nói và biến thiên theo thời gian của cường độ tương ứng, ngữ điệu,
năng lượng,... GMM là một trong các công cụ được sử dụng phổ biến hiện nay trong nhận
dạng tiếng nói, nhận dạng ngôn ngữ và nhận dạng phương ngữ. Mô hình GMM sẽ trình
bày chi tiết hơn trong Chương 3 của luận án.
1.2.2. Nhận dạng phương ngữ theo các phương diện khác nhau
1.2.2.1.

Theo phương diện ngôn ngữ học

Phương ngữ là khía cạnh phức tạp trong nhận dạng tiếng nói, tương ứng với đặc

trưng của ngôn ngữ trong một cộng đồng giao tiếp cụ thể. Phương ngữ không phải là cố
định mà nó thay đổi theo thời gian và theo vùng địa lý, lãnh thổ. Dễ dàng nhận thấy, trong
giao tiếp của thế hệ trẻ hiện nay, ngoài ngôn từ vốn có của ngôn ngữ đang sử dụng họ còn
dùng những từ, cụm từ mới, chưa từng được sử dụng trước đây. Cùng với thời gian, ngôn
ngữ bị thay đổi kéo theo các đặc điểm của phương ngữ cũng bị thay đổi.

25


×