Nghiên cứu đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.98 MB, 253 trang )

1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

NGÔ HOÀNG HUY

NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ
RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT
LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội – 2016

2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

NGÔ HOÀNG HUY

NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ
RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT

LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT
Chuyên ngành: Cơ sở Toán học cho Tin học
Mã số: 62 46 01 10

LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. LƯƠNG CHI MAI
2. PGS.TS. NGÔ QUỐC TẠO

Hà Nội – 2016

3

LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các kết quả
nghiên cứu và các kết luận trong luận án này là trung thực, không sao chép từ bất kỳ một
nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu đã được thực hiện
trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.

Tác giả luận án

Ngô Hoàng Huy

4

LỜI CẢM ƠN
Luận án này báo cáo một phần các kết quả nghiên cứu và làm việc của tôi trong hơn
hai chục năm qua. Trong suốt thời gian này ngoài nỗ lực làm việc của bản thân tôi, phòng

Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin đã tạo cho tôi một môi trường
làm việc, điều kiện để thực hiện các nghiên cứu về chuyên nghành rộng là nhận dạng và
chuyên nghành hẹp nhận dạng và tổng hợp tiếng Việt.
Tôi xin chân thành cảm ơn PGS.TS Lương Chi Mai và PGS.TS Ngô Quốc Tạo đã chỉ
dẫn tôi làm việc trong bước đường khoa học của tôi, tận tình chỉ dẫn tôi để hoàn thành được
luận án này.
Xin cảm ơn các đồng nghiệp tại Phòng Nhận dạng và Công nghệ tri thức, Viện Công
nghệ Thông tin đã đóng góp những ý kiến thiết thực để tôi hiệu chỉnh lại các tiếp cận nghiên
cứu của mình, cảm ơn các kỹ sư tại công ty Cổ phần Phần mềm và Công nghệ ứng dụng đã hỗ
trợ tôi thử nghiệm các kết quả về tổng hợp và nhận dạng khẩu lệnh tiếng Việt trên nền tảng
chip PSoC.
Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới vợ tôi Mai Thị Bạch Tuyết mà thiếu
điều này chắc chắn tôi đã không đủ nghị lực để hoàn thành bản luận án này.

5

MỤC LỤC
Danh mục các thuật ngữ và từ viết tắt

i

Danh sách bảng

ii

Danh sách hình vẽ

iii

MỞ ĐẦU

1

1. Tính cấp thiết của đề tài .................................................................................... 1
2. Mục tiêu, phạm vi nghiên cứu của luận án. ....................................................... 4
3. Phương pháp và nội dung nghiên cứu ............................................................... 5
4. Kết quả đạt được của luận án ............................................................................ 6

CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG
NÓI

10

1.1. Tổng hợp tiếng nói ....................................................................................... 10
1.1.1. Chuẩn hóa văn bản và phân tích câu – xử lý ngôn ngữ tự nhiên ........ 11
1.1.2. Chuyển văn bản sang đơn vị tiếng nói .............................................. 11
1.1.3. Dự báo ngôn điệu ............................................................................. 11
1.1.4. Các phương pháp tổng hợp tiếng nói ................................................ 12
1.1.5. Các hệ thống tổng hợp tiếng nói tiếng Việt ....................................... 21
1.1.6. Các tham số ngôn điệu ..................................................................... 23
1.1.7. Tổng quan về âm học và các hiện tượng ngôn điệu tiếng Việt trong
ngữ lưu ..................................................................................................... 25
1.1.8. Hiệu chỉnh đường tần số cơ bản ....................................................... 33
1.2. Nhận dạng tiếng nói ..................................................................................... 38
1.2.1. Liệt kê các lớp bài toán nhận dạng tiếng nói ..................................... 38
1.2.2. Môi trường thu nhận tín hiệu ............................................................ 39
1.2.3. Biểu diễn tiếng nói - đặc trưng tiếng nói ........................................... 40

6

1.2.4. Phương pháp nhận dạng tiếng nói ..................................................... 42
1.2.5. Các hệ thống nhận dạng tiếng nói tiếng Việt..................................... 43
1.3. Kết luận chương 1 ........................................................................................ 44

CHƯƠNG 2. XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH HỌC MÁY

46

2.1. Xử lý tiếng nói ............................................................................................. 46
2.1.1. Xử lý nhiễu ...................................................................................... 46
2.1.2. Một số loại nhiễu trong môi trường thực ......................................... 47
2.1.3. Trích chọn đặc trưng tiếng nói .......................................................... 50
2.1.4. Thuật toán PSOLA ........................................................................... 56
2.2. Mô hình dự báo CART ................................................................................ 59
2.3. Mô hình Markov ẩn (HMM, Hidden Markov Model) ................................... 63
2.3.1. Tham số của mô hình HMM ............................................................. 64
2.3.2. Nhận dạng tiếng nói với mô hình Markov ẩn .................................... 66
2.4. Kết luận chương 2 ........................................................................................ 67

CHƯƠNG 3. DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ TỔNG HỢP
THANH ĐIỆU TIẾNG VIỆT

68

3.1. Khảo sát một số đặc tính âm học tiếng Việt.................................................. 69
3.1.1. Đặc tính trường độ của âm tiết do ảnh hưởng của phụ âm và nguyên
âm trong ngữ cảnh ..................................................................................... 70
3.1.2. Quy luật biến đổi thanh điệu trong ngữ cảnh .................................... 71

3.1.3. Quy luật biến đổi formant của nguyên âm trong ngữ cảnh ................ 73
3.1.4. Cách điệu hóa đường F0 của âm tiết tiếng Việt ................................ 78
3.2. Dự báo thông tin trường độ, âm lượng của âm tiết tiếng Việt trong ngữ cảnh
câu

............................................................................................................. 86
3.2.1. Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo .......................... 87
3.2.2. Dự báo ngôn điệu ............................................................................. 92

7

3.2.3. Thiết kế bộ phân tích ngôn điệu và xác định tham số huấn luyện dự
báo trường độ và âm lượng ........................................................................ 93
3.2.4. Tổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế .................... 101
3.3. Kết luận chương 3 ...................................................................................... 103

CHƯƠNG 4. KẾT HỢP THAM SỐ CẤU ÂM, FORMANT VÀ THANH
ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT

105

4.1. Nhận dạng thanh điệu tiếng Việt ................................................................ 105
4.2. Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0108
4.2.1. Phép chuẩn hóa VTLN ................................................................... 110
4.2.2. Tổ hợp giá trị F0 và chuẩn hóa VTLN ............................................ 112
4.2.3. Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant .. 117
4.3. Hệ thống nhận dạng tiếng Việt nhúng ........................................................ 124
4.3.1. Điều khiển thiết bị tự hành bằng tiếng nói ...................................... 126
4.3.2. Biểu diễn HMM trong bộ nhớ SRAM của chip với tính toán chấm tĩnh

(fixed point) ............................................................................................ 130
4.4. Kết luận chương 4 ...................................................................................... 131

KẾT LUẬN

133

1. Kết quả về tổng hợp tiếng Việt ...................................................................... 133
1.1. Kết quả chính .................................................................................... 133
1.2.Kết quả khác ...................................................................................... 134
1.3.Một kết quả ứng dụng ........................................................................ 134
2. Kết quả về nhận dạng tiếng Việt ................................................................... 134
2.1. Kết quả chính .................................................................................... 134
2.2.Kết quả khác ...................................................................................... 135
2.3.Một kết quả ứng dụng ........................................................................ 136
3. Hướng phát triển ........................................................................................... 136

8

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ

138

TÀI LIỆU THAM KHẢO

140

PHỤ LỤC

149

1. Cách tổ chức cây dự báo CART của Wagon/Festival .................................... 153
1.1. Sự hỗn tạp trong dữ liệu (tạp âm) ...................................................... 153
1.2. Định dạng dữ liệu .............................................................................. 156
1.3. Xây dựng cây .................................................................................... 161
2. Phân loại âm vị tiếng Việt ............................................................................. 163
3. Cơ sở dữ liệu ngữ âm .................................................................................... 171
4. Các câu trích từ tập truyện “Dế mèn phiêu lưu ký” ....................................... 213

i

Danh mục các thuật ngữ và từ viết tắt
Tên đầy đủ

Từ viết tắt
ADC

Analog-Digital-Converter

ADPCM

Adaptive differential pulse-code modulation

ANN

Artificial neural network

CART

Class And Regression Tree

CD-HMM

Continuous-Density Hidden Markov Model

CMS

Cepstral-mean-subtraction

CSDL

Cơ sở dữ liệu

C-V

Consonant-Vow

C-V-C

Consonant-Vow-Consonant

dB

Decibel

DFT

Discrete Fourier Transform

EM

Expectation Maximization

FFT

Fast Fourier Transform

F0

Fundamental Frequency

GMM

Gaussian Mixture Models

GPIO

General-purpose Input/Output

HMM

Hidden Markov Model

HTK

Hidden Markov Model Toolkit

IDFT

Inverse Discrete Fourier Transform

IFFT

Inverse Fast Fourier Transform

LPC

Linear Predictive Coding

LPCC

Linear Predictive Cepstral Coefficient

LPF

Low Pass filter

LSF

Line Spectral Frequency

LSP

Line Spectrum Pair

ii

MAP

Maximum A posteriori

MFCC

Mel Frequency Cepstral Coefficient

ML

Maximum Likelihood

PDF

Probility Density Function

POS

Part-Of-speech

PSOC

Programmable System On Chip

PSOLA

Pitch Synchronous Overlap Add

RMSE

Root Mean Square Error

SD

Speaker Dependent

SI

Speaker Independent

SS

Spectral Subtraction

SRAM

Static Random Access Memory

STC

Shared decision Tree Cluster

ToBI

Tones and Break Indices

TTS

Text To Speech

VTLN

Vocal Tract Length Normalization

VAD

Voice Activity Detection

ZCR

Zero Crossing Rate

WF

Wiener Filter

VTL

Vocal Tract Length

ii

Danh sách bảng
1. 1

Bảng so sánh một số sản phẩm tổng hợp tiếng Việt đã công bố ....................... 21

1. 2

Các tham số đặc trưng của ngôn điệu .............................................................. 24

1. 3

Phân loại âm tiết tiếng Việt. ............................................................................ 27

1. 4

Các loại nhận dạng tiếng nói ........................................................................... 39

1. 5

Liệt kê các môi trường theo mức nhiễu ................................................................39

2. 1

Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC. ............. 66

3. 1. Trường độ nguyên âm trong kết hợp với thanh điệu. ........................................... 72
3. 2. Trường độ nguyên âm trong kết hợp với thanh điệu. ........................................... 73
3. 3. Vùng tần số của các nguyên âm .......................................................................... 76
3. 4. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu. ...... 76
3. 5. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu. ...... 77
3. 6. Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu .......................... 83
3. 7. Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu.84
3. 8. Bảng độ dài âm vị không tính ngữ cảnh .............................................................. 87
3. 9. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối .................................... 88
3. 10. Bảng độ dài âm cuối ràng buộc bởi nguyên âm ................................................. 88
3. 11. Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm ........................................... 89
3. 12. Bảng độ dài thanh điệu theo âm tiết ràng buộc bởi âm kết thúc ......................... 90

3. 13. Bảng tham số đầu vào cho mô hình CART .............................................................95
4. 1

Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC ......... 109

4. 2

Một số dạng của phép hiệu chỉnh tần số ...................................................... 111

4. 3

Bảng kết quả thực nghiệm kiểm tra ............................................................. 116

4. 4

Bảng kết quả giải mã tên trường của người đọc........................................... 117

4. 5

Bảng kết quả thực nghiệm kiểm tra ............................................................... 123

4. 6

Bảng cấu hình GAIN kết hợp bộ lọc thông thấp. ........................................... 126

4. 7

Khẩu lệnh điều khiển xe lăn. ......................................................................... 128

iii

4. 8

Khẩu lệnh điều khiển robot hút bụi. .............................................................. 129

4. 9

Các bước của chương trình thử nghiệm trên máy tính ....................................... 130

5. 1

Phân chia nguyên âm tiếng Việt theo độ nâng của lưỡi ................................ 165

5. 2

Bảng phiên âm tiếng Việt.............................................................................. 167

iii

Danh sách hình vẽ
1. 1

Hệ thống TTS tổng quát. ................................................................................. 10

1. 2

Xử lý ngôn điệu tiếng Việt .............................................................................. 12

1. 3

Sơ đồ hệ thống tổng hợp ghép nối. .................................................................. 17

1. 4

Tổng hợp tiếng nói theo HMM [71]. ............................................................... 20

1. 5

Mô hình VnSpeech tổng hợp tiếng Việt dựa vào formant. ............................... 21

1.6

Mô hình VoS tổng hợp ghép nối âm tiết và cụm từ. ........................................ 22

1.7

Mô hình hệ thống TTS dựa trên mô hình Markov ẩn....................................... 23

1.8

Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm.. ....................................... 26

1.9

Biểu đồ thanh điệu điển hình........................................................................... 28

1.10

Đường F0 của thanh ngang ............................................................................. 29

1.11

Đường F0 của thanh ngã ................................................................................. 29

1.12

Sơ đồ mô hình Fujisaki. .................................................................................. 33

1.13

Đường nét của thành phần trọng âm Gp(t). ..................................................... 34

1.14

Đường nét của thành phần trọng âm Ga(t) ...................................................... 35

1.15 Trình bày biểu diễn sơ đồ F0, mối liên hệ sự kiện ngữ điệu đoạn trong mô hình
Tilt ............................................................................................................................ 36
1.16

Cách phân tích các tham số trong mô hình Tilt............................................... 37

1.17

Liệt kê các kiểu hệ thống nhận dạng tiếng nói. ............................................... 39

1.18

Các bước rút trích đặc trưng MFCC từ tín hiệu âm thanh. .............................. 41

1. 19 Chi tiết bước trích chọn MFCC. ..................................................................... 41
1. 20 MFCC chuẩn ................................................................................................. 42
1. 21 MFCC đã biến đổi ......................................................................................... 42
1. 22 Mô hình mạng lai ghép HMM/ANN .................................................................... 43
2. 1 “Men tường” thu âm khi bật động cơ hút bụi ................................................... 46
2. 2

Tiếng nói được lọc .......................................................................................... 46

2. 3

Quá trình hình thành tiếng nói nhiễu. .............................................................. 47

iv

2. 4

Nhiễu hình thành do hướng và âm thanh phản hồi. ......................................... 47

2. 5

Nhiễu khuyếch tán. ......................................................................................... 48

2. 6

Đi xoắn ốc” thu âm khi robot hút bụi đang di chuyển...................................... 49

2. 7

Tiếng nói được lọc. ......................................................................................... 49

2. 8

Sơ đồ khối cho hai thuật toán SS và WF ......................................................... 50

2. 9

Các băng lọc dạng tam giác ............................................................................ 51

2. 10 Trích chọn đặc trưng MFCC. .......................................................................... 51
2. 11 Cộng xếp chồng các đoạn tín hiệu ................................................................... 56
2. 12 Ghép nối 2 diphone ......................................................................................... 58
2. 13 Một mô hình Markov ẩn với sáu trạng thái .......................................................... 66
3. 1

Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu 69

3. 2

Thanh không dấu (âm a) ................................................................................. 79

3. 3

Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được ................. 79

3. 4

Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được .......................... 80

3. 5

Thanh nặng được cách điệu từ các giá trị F0 đo được ..................................... 80

3. 6 Thanh hỏi được cách điệu từ một dãy giá trị F0 đo được ................................ 80
3. 7

Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã. ......................................... 82

4. 1

Cách tuyến tính hóa đường F0 từng phân đoạn ............................................. 106

4. 2

Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc ......................... 107

4. 3

Hiệu chỉnh tần số và trích chọn đặc trưng MFCC .......................................... 110

1

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Ngày nay, với sự bùng nổ của xã hội thông tin, con người không còn chỉ có nhu
cầu giao tiếp với nhau nữa mà còn cần giao tiếp với những thiết bị điện tử. Hình thức

giao tiếp người – máy thông qua ngôn ngữ tự nhiên sẽ đem lại nhiều ứng dụng, góp
phần giải phóng sức lao động của con người. Chính vì vậy, vai trò của nhận dạng, tổng
hợp tiếng nói có tầm quan trọng đặc biệt liên quan đến quá trình phát triển của văn
minh nhân loại. Các ứng dụng nhận dạng và tổng hợp tiếng nói như Dragon của LH,
Viavoice, Google voice search, Siri của Apple v.v…ngày càng trở nên thông dụng và
hữu ích trong cuộc sống.
Về các hệ thống tổng hợp tiếng nói, hiện nay đã có nhiều phương pháp tổng hợp
được nghiên cứu và ứng dụng trong thực tế như: tổng hợp theo cấu âm, tổng hợp bằng
ghép nối, cách điệu hóa đường F0 và hiện tượng ngôn điệu [23][25][27], tổng hợp theo
phương pháp thống kê dựa trên HMM [18][71][72] … Tuy nhiên, vấn đề tổng hợp
giọng tự nhiên cho tới nay vẫn là một vấn đề mở, ngay cả trong các ngôn ngữ châu Âu
thông dụng như tiếng Anh. Bởi vì để tổng hợp được giọng tự nhiên đòi hỏi rất nhiều
yếu tố từ việc xử lý các đặc trưng tín hiệu, hiện tượng ngôn điệu và ngữ cảnh ứng dụng
(như trạng thái cảm xúc…) v.v…
Các hệ thống nhận dạng tiếng nói thường sử dụng các kỹ thuật học máy truyền
thống như mạng nơ ron, mô hình Markov ẩn (HMM), chiến thuật tìm kiếm dựa trên
quy hoạch động, các mô hình này có tính khái quát cao được ứng dụng ở nhiều lĩnh
vực ngoài nhận dạng và tổng hợp tiếng nói. Để tăng được chất lượng nhận dạng tiếng
nói các hệ thống nhận dạng cần phải bổ sung các phép tiền xử lý tín hiệu tiếng nói, các
phép trích chọn đặc trưng tiếng nói như xử lý giảm thiểu sự sai lệch về phổ giữa đặc
trưng tiếng nói của tập giọng nói người được huấn luyện và giọng nói của người sử
dụng hệ thống [26][50] (ứng dụng trong các hệ thống nhận dạng độc lập người nói).

2

Lọc nhiễu tiếng nói [28][58], trích chọn đặc trưng [35][36][46], tích hợp đặc trưng
ngôn điệu [16]…
Hai môi trường nền phổ biến cho các hệ thống nhận dạng và tổng hợp tiếng nói là
server hoặc nhúng (các ứng dụng tiếng nói cho điều khiển thiết bị, nhúng v.v…), các

môi trường này có tài nguyên lưu trữ và tính toán khác nhau, điều đó dẫn đến các tiếp
cận khác nhau trong việc cân bằng giữa chất lượng nhận dạng tổng hợp tiếng nói và sử
dụng tài nguyên (lưu trữ, tính toán và điện năng tiêu thụ), thời gian thu thập mẫu huấn
luyện v.v…Môi trường nhúng có tầm quan trọng đặc biệt, được tập trung nghiên cứu
phát triển nhiều trong thời gian gần đây do các thiết bị nhúng hầu hết không trang bị
thiết bị nhập liệu như bàn phím và màn hình cảm ứng, giao tiếp bằng tiếng nói thể hiện
hình thức tương tác tự nhiên, tuy vậy các hệ thống này đòi hỏi phải tối ưu rất nhiều so
với quy trình nhận dạng tổng hợp tiếng nói nói chung [13][47][52]
Nhận dạng và xử lý tiếng Việt (ngôn ngữ và tiếng nói) là một trong những mục
tiêu cơ bản của phát triển và ứng dụng công nghệ thông tin ở Việt Nam do sự khác biệt
về bản chất của hệ thống âm tiết, ngữ pháp và hiện tượng thanh điệu nên không thể sử
dụng nguyên các hệ thống ứng dụng cho tiếng nước ngoài. Hiện nay những nghiên cứu
về đặc trưng tín hiệu, hiện tượng ngôn điệu tiếng Việt mới chỉ đề cập ở mức độ ban
đầu.
Trong nước đã hình thành nhiều trung tâm nghiên cứu của các Viện nghiên cứu
và các khoa Công nghệ Thông tin của các trường Đại học về xử lý tiếng nói (tiếng
Việt) và ngôn ngữ tự nhiên như : Viện Công nghệ Thông tin, Trung tâm Pháp –Việt
MICA của Đại học Gronobe và Đại học Bách khoa Hà Nội, Trung tâm SLP của Đại
học khoa học tự nhiên Đại học Quốc Gia TP. HCM, Viện Công nghệ Bộ Khoa học và
Công nghệ v.v...
Các kết quả nghiên cứu tập trung vào việc sử dụng, cải tiến các công nghệ nguồn
về Nhận dạng và Tổng hợp tiếng nói của tiếng Anh.

3

Phòng thí nghiệm Trí tuệ nhân tạo AILab (Đại học Khoa học tự nhiên TP HCM)
đã thiết kế và xây dựng các hệ thống Nhận dạng và tổng hợp tiếng Việt với nhiều cách
tiếp cận khác nhau như tổng hợp ghép nối, tổng hợp dựa trên mô hình HMM.
Về ứng dụng cho điều khiển, Viện Hàn lâm Khoa học và Công nghệ Việt Nam,

với đề tài “Nghiên cứu thiết kế và chế tạo hệ thống điều khiển bằng tiếng nói tích hợp
vào robot hút bụi tự động thông minh”, thực hiện năm 2011-2013[77] đã nghiên cứu
phát triển mẫu robot dịch vụ - robot hút bụi điều khiển bằng khẩu lệnh tiếng Việt. Viện
nghiên cứu Quốc tế MICA (Đại học Bách khoa Hà Nội) đã nghiên cứu một
robot hướng dẫn bảo tàng từ giữa năm 2009 và thử nghiệm tại Bảo tàng Dân tộc học
Việt Nam. Robot có khả năng hiểu một số câu hỏi của khách thăm quan, đồng thời sẽ
giới thiệu cho khách thăm quan bằng tiếng nói nhiều thông tin liên quan đến các hiện
vật trưng bày v.v…
Chính vì vậy việc đi sâu nghiên cứu các đặc trưng của ngôn ngữ tiếng Việt, khai
thác, áp dụng các đặc trưng đó vào các hệ thống nhận dạng, tổng hợp tiếng nói để nâng
cao chất lượng tổng hợp và nhận dạng tiếng Việt đang là vấn đề cần thiết nhằm tiến tới
xây dựng các ứng dụng phù hợp với đặc thù của ngôn ngữ tiếng Việt, đáp ứng các nhu
cầu ứng dụng ngày càng cao của xã hội.
Xuất phát từ thực tế và những lý do trên, việc lựa chọn đề tài “Nghiên cứu các
đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng Tổng hợp và Nhận
dạng tiếng Việt”, nghiên cứu các đặc trưng tiếng nói phù hợp với đặc thù ngôn ngữ
tiếng Việt, các đặc trưng ngữ âm như thanh điệu, trường độ và formant để nâng cao
chất lượng Tổng hợp và nhận dạng tiếng Việt trong các ứng dụng giao tiếp người máy.
Đề tài này cũng nghiên cứu hướng tới các ứng dụng tương tác điều khiển thiết bị, robot
dịch vụ, ứng dụng hỗ trợ người khuyết tật, những ứng dụng mà công nghệ nhận dạng
và tổng hợp tiếng Việt có vai trò quan trọng.

4

2. Mục tiêu, phạm vi nghiên cứu của luận án.
Mục tiêu chính của đề tài là tập trung chủ yếu ở vấn đề về xử lý ngôn điệu và đặc
trưng tín hiệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt.
Các hiện tượng ngôn điệu có thể là đường F0, trường độ và âm lượng của âm tiết
hoặc từ đa âm tiết trong ngữ cảnh câu. Nghiên cứu về các ràng buộc ngôn điệu cho

tổng hợp tiếng Việt còn ít được đề cập tới, trong khi để đạt được độ tự nhiên cao của
tiếng nói tổng hợp cũng như để tăng độ chính xác của các hệ thống nhận dạng tiếng nói
(nhận dạng khẩu lệnh, nhận dạng tên, nhận dạng đối thoại v.v…) đều đòi hỏi phải tích
hợp các đặc trưng ngôn điệu của tiếng nói trong ngữ lưu và trong môi trường sử dụng
thực tế của tiếng nói. Ngoài phương pháp học ngôn điệu dựa trên các mô hình thống
kê, các tác giả của Viện Ứng dụng Công nghệ, Đại học Quốc gia TP HCM cũng đã giới
thiệu một hệ thống tổng hợp tiếng Việt VOS với giọng đọc gần tiếng nói tự nhiên dựa
trên tiếp cận kiểu kho ngữ liệu (corpus-based), mô hình này đòi hỏi rất nhiều dữ liệu
được gán nhãn (dựa trên công nghệ phân đoạn tự động câu tiếng nói thành các đơn vị
tiếng nói kết hợp với điều chỉnh tay) và chỉ phù hợp với ứng dụng cho môi trường
server, bên cạnh đó tiếp cận này cũng có điểm hạn chế là đọc không chuẩn các ngữ
đoạn ít thông dụng.
Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu,
các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một
vấn đề quan trọng nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về
xử lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường
dựa trên đặc trưng chuẩn MFCC. Khi ứng dụng thuật toán nhận dạng HMM với các
đặc trưng MFCC cơ sở cho việc nhận dạng tiếng nói liên tục không phụ thuộc người
nói, hệ thống thường suy giảm độ chính xác với những người nói có có đặc trưng giọng
nói không phù hợp với những mẫu giọng được sử dụng để huấn luyện mô hình HMM.
Xuất phát từ mục tiêu trên, phạm vi nghiên cứu của đề tài tập trung vào các vấn
đề sau:

5

 Nghiên cứu các mô hình dự báo các hiện tượng ngôn điệu như trường độ, âm lượng,
thanh điệu của các âm tiết tiếng Việt trong ngữ lưu, tích hợp trong các hệ thống tổng
hợp tiếng Việt, tối ưu hiệu quả sử dụng tài nguyên lưu trữ và tính toán ứng dụng cho
hệ thống nhúng.

 Nghiên cứu các phương pháp giảm thiểu sự sai lệch về cấu âm, phổ của tập giọng
nói huấn luyện và giọng của người sử dụng dựa trên đặc trưng ngữ âm tiếng Việt để
tăng độ chính xác nhận dạng tiếng nói cho các hệ thống nhận dạng tiếng Việt độc lập
người nói.
Đối tượng nghiên cứu của đề tài là:
 Các mô hình học máy như HMM, CART.
 Các đặc trưng tiếng nói (MFCC, F0, formant, VTL v.v …)
 Mô hình biểu diễn, cách điệu đường F0, mô hình xử lý nhiễu, cân bằng tần số v.v…
 Phương pháp tổng hợp ghép nối.
 Phép chuẩn hóa VTLN cho các hệ thống nhận dạng tiếng nói độc lập người nói.

3. Phương pháp và nội dung nghiên cứu
Phương pháp luận trong nghiên cứu của luận án là kết hợp giữa nghiên cứu lý
thuyết và thực nghiệm. Các tư liệu và thông tin liên quan chủ yếu được thu thập, tổng
hợp từ các nguồn tạp chí khoa học chuyên ngành trong và ngoài nước, qua các buổi
seminar hoặc tham gia báo cáo tại các hội thảo khoa học, qua trao đổi với thầy hướng
dẫn và các đồng nghiệp cùng lĩnh vực nghiên cứu v.v…Tổng hợp các thông tin liên
quan, lựa chọn các cách tiếp cận đã được áp dụng thành công, tiến hành thử nghiệm
với tiếng Việt, đánh giá kết quả, từ đó sẽ tiến hành nghiên cứu sâu hơn về giải pháp cải
tiến có thể để phát hiện các quy luật, ràng buộc cơ bản của đặc trưng ngôn điệu tiếng
Việt cho tổng hợp và nhận dạng tiếng Việt.
Cấu trúc luận án gồm: phần mở đầu, 4 chương nội dung, kết luận, danh mục tài
liệu tham khảo và phụ lục.
Chương 1: Tổng quan về tổng hợp và nhận dạng tiếng nói.

6

Chương này trình bày khái quát về tổng hợp và nhận dạng tiếng nói dựa trên
phương pháp Corpus-based theo cả hai phương pháp là chọn đơn vị để ghép nối và mô

hình tổng hợp dựa trên HMM cho vấn đề tổng hợp tiếng nói và mô hình HMM cho vấn
đề nhận dạng tiếng nói. Chương này còn phân tích một số hệ thống tổng hợp và nhận
dạng tiếng nói cũng như mô hình Fujisaki để tổng hợp đường F0.
Chương 2: Xử lý tiếng nói và các mô hình học máy.
Chương này trình bày các công cụ cơ bản trong tiền xử lý tiếng nói, trích chọn
đặc trưng tiếng nói, đặc trưng ngôn điệu và các mô hình học máy cho vấn đề dự báo,
học và nhận dạng tiếng nói.
Chương 3. Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng Việt
Chương này trình bày một số kết quả của luận án về tổng hợp tiếng Việt:
 Nghiên cứu về các mô hình ngôn điệu, phân tích đặc trưng tiếng Việt.
 Thanh điệu.
 Dự báo trường độ và âm lượng của âm tiết trong ngữ lưu.
 Tổng hợp tiếng Việt trên các hệ thống tài nguyên hạn chế.
Chương 4. Kết hợp tham số cấu âm, formant và thanh điệu để nâng cao chất
lượng nhận dạng tiếng Việt
 Nghiên cứu về nhận dạng thanh điệu tiếng Việt.
 Nghiên cứu đưa đặc trưng thanh điệu, tham số formant và tham số cấu âm của
người nói để nâng cao chất lượng nhận dạng tiếng Việt.
 Nhận dạng tiếng Việt trên các hệ thống tài nguyên hạn chế.

4. Kết quả đạt được của luận án
Các kết quả đạt được của luận án đã được công bố trong 2 bài báo tại chí chuyên
ngành năm 2011, 3 bài báo cáo đăng tại kỷ yếu hội nghị trong nước năm 2012, 2014.
Ngoài ra nghiên cứu sinh cũng là đồng tác giả của một số báo cáo tại hội nghị trong

7

nước, nước ngoài thời gian trước khi là nghiên cứu sinh. Những kết quả đạt được của
luận án có thể tóm tắt như sau:

Bài tạp chí
 “Tổ hợp đường F0 và VTLN cho nhận dạng tên riêng tiếng Việt“, Tạp chí Tin học
và Điều khiển học”, trang 273 – 282, Tập 27, số 3, 2011. Bài báo trình bày nghiên
cứu và thử nghiệm hiệu ứng của tổ hợp đặc trưng F0 và chuẩn hóa độ dài bộ phận
cấu âm (VTLN, vocal tract length normalisation) để nâng cao chất lượng nhận dạng
tiếng tên tiếng Việt trong mô hình nhận dạng tiếng nói phát âm liên tục dựa trên
HMM. Các kết quả của bài báo chứng tỏ rằng hệ nhận dạng tiếng nói độc lập người
nói với đặc trưng tiếng nói dựa trên đường F0 và đặc trưng MFCC biến đổi theo
VTLN đã chuẩn hóa tốt biến thiên tần số của người nói mới và cải tiến được kết
quả nhận dạng.
 “Dự báo các giá trị ngôn điệu tiếng Việt cho tiếng nói tổng hợp”, Tạp chí Công
nghệ Thông tin và Truyền thông, Tập V-1 số 6(26), 09-2011, trang 236-241. Bài
báo trình bày các kết quả nghiên cứu và thử nghiệm tích hợp các giá trị ngôn điệu
tiếng Việt được dự báo như trường độ và âm lượng cho câu tiếng nói tổng hợp sử
dụng mô hình học thống kê CART.
Các kết quả trình bày trong bài báo chứng tỏ việc đưa giá trị ngôn điệu được dự
báo từ văn bản vào trong bộ tổng hợp tiếng Việt được thống kê chi tiết cho cơ sở dữ
liệu âm huấn luyện mô hình kết hợp các ngữ cảnh mức âm vị khác nhau đã cải tiến
được chất lượng dự báo các tham số ngôn điệu như trường độ và âm lượng, dẫn đến
thay đổi đáng kể chất lượng câu tiếng nói được tổng hợp.

Kỷ yếu hội thảo
 “Trích chọn đặc trưng âm học tiếng Việt dựa trên F0 và biến thể của MFCC với
ước lượng VTLN từ các giá trị formant”. Hội nghị quốc gia lần thứ VII "Nghiên
cứu cơ bản và ứng dụng Công nghệ thông tin", FAIR 2014. Bài báo cáo trình bày

8

ứng dụng phương pháp ước lượng tham số VTLN dựa trên bộ phát hiện tiếng nói

và các giá trị formant thay thế cho phương pháp ML (Maximum likelihood) để tối
ưu hóa về tính toán khi xây dựng một hệ thống nhận dạng tên tiếng Việt.
 “Tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp Tiếng Việt dựa trên
ghép nối”, Hội nghị quốc gia lần thứ VII "Nghiên cứu cơ bản và ứng dụng Công
nghệ thông tin", FAIR 2014. Bài báo cáo trình bày kết quả xây dựng hệ tổng hợp
tiếng Việt theo phương pháp ghép nối âm cơ bản trên môi trường chip với tài
nguyên hạn chế.
 “Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị tự hành trên
nền các vi hệ thống điện năng thấp với phép chuẩn hóa VTLN – MFCC”, hội nghị
VCM-2012. Bài báo cáo trình bày thiết kế và thử nghiệm hệ thống nhận dạng khẩu
lệnh tiếng Việt để điều khiển thiết bị tự hành, tích hợp hoàn toàn trong một chip vi
hệ thống điện năng thấp như họ PSoC5 lõi (ARMCortex M3 chip, 64KB RAM,
256KB Flash) hoặc họ OMAP3 (lõi ARM7,128MB RAM), được phát triển dựa
trên mô hình nhận dạng Markov ẩn kết hợp mạng nơ ron dự báo.
Các công bố trước thời gian làm nghiên cứu sinh
 Phân lớp các đường thanh điệu trong ngữ cảnh câu, kỷ yếu Hội thảo Quốc gia,
NXB KHKT, 2006, tr 279-284.
 Nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc phụ thuộc người nói, kỷ yếu
Hội thảo Quốc gia, NXB KH&KT, tr 443-449, 2006.
 Sử dụng mô hình Fujisaki và mạng nơ ron trong nhận dạng và tổng hợp thanh điệu
tiếng Việt" (2006), kỷ yếu hội thảo: “Nghiên cứu cơ bản và ứng dụng công nghệ
thông tin FAIR2005”, Thành phố Hồ Chí Minh tháng 9 năm 2005, NXB KHKT,
Hà Nội.
 Toward integrating the Fujisaki model into Vietnamese TTS, proceeding of the
International Conference on Spoken Language Processing, Korea 2004.

9

 Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese,” Proc. in

EUROSPEECH, Geneva, pages 177-180, 2004.
 Thiết kế các hệ thống nhận dạng tiếng Việt trong thời gian thực, kỷ yếu báo cáo
hội nghị FAIR nghiên cứu cơ bản và ứng dụng công nghệ thông tin, trang 349 –
357, 2003.
 Development of Automatic Data Entry Systems with Pattern Recognition
Techniques,

International

Symposium

on

Knowledge

Creation

in

Economics,Enviromental and Societal Systems, JAIST, Kanazawa, pp 72-78.
 Vietnamese text normalize
Conference.

and processing,

Proceedings of

National IT

10

CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ
NHẬN DẠNG TIẾNG NÓI
1.1. Tổng hợp tiếng nói
Tổng hợp tiếng nói là một bộ môn khoa học nhằm nghiên cứu và xây dựng các
công nghệ để tạo ra âm thanh tiếng nói từ máy giống như tiếng nói của con người.
Trong những năm gần đây tiếng nói tổng hợp đã trải qua chặng đường khá dài,
việc ứng dụng tổng hợp tiếng nói vào thực tiễn đã trở nên phổ biến. Tuy nhiên, chất
lượng âm thanh và độ tự nhiên của tiếng nói tổng hợp cho đến nay vẫn còn là những
vấn đề mở.

Hình 1. 1. Hệ thống TTS tổng quát.
Nói chung quá trình Tổng hợp tiếng nói bao gồm các giai đoạn chính:
i)Chuẩn hóa văn bản và phân tích câu - xử lý ngôn ngữ tự nhiên.
ii) Chuyển văn bản sang đơn vị tiếng nói.
iii) Dự báo ngôn điệu.
iv) Sinh tiếng nói.

11

1.1.1. Chuẩn hóa văn bản và phân tích câu – xử lý ngôn ngữ tự nhiên
Chuẩn hoá văn bản là quá trình tiền xử lý văn bản trong thiết lập đầu vào của hệ
thống TTS, mục đích của bước này là phân tích văn bản và diễn giải được văn bản đầu
vào thành một chuỗi văn bản để máy có thể hiểu và đọc đúng.
Quá trình chuẩn hóa văn bản thường không đơn giản. Lý do là các văn bản
thường chứa nhiều từ đồng tự, số và từ viết tắt, đòi hỏi phải hiểu ngữ cảnh để diễn đạt
lại trong văn bản đầy đủ. Do trong văn bản có khá nhiều từ phi chữ số như đại lượng,
ngày tháng, chữ viết tắt, có các từ tiếng Anh xuất hiện xen kẽ trong văn bản tiếng Việt

v.v…
Quá trình này bao gồm ba bước chính:
-

Tiền xử lý: mô đun tiền xử lý tổ chức các câu đầu vào thành dãy các từ. Nó xác
định các số, các từ viết tắt, tên riêng, thành ngữ và biến đổi chúng thành dạng văn
bản đầy đủ khi cần đến.

-

Phân tích hình thái: nhiệm vụ cung cấp mọi khả năng loại từ của một từ riêng lẻ.

-

Phân tích ngữ cảnh: xét các từ trong ngữ cảnh và từ loại đi với chúng trong từng
ngữ cảnh đó. Quá trình này phải xem xét các từ trong ngữ cảnh để phiên âm phù
hợp nhất với ngữ cảnh trong câu. Xử lý các khả năng xuất hiện sự nhập nhằng về
mặt ngữ nghĩa của từ hiện tại và các từ lân cận với nó.

1.1.2. Chuyển văn bản sang đơn vị tiếng nói
Bước này thực hiện dựa trên từ điển phát âm hay theo quy luật ngôn ngữ. Quá
trình chuyển đổi “phiên âm” này rất quan trọng, chiếm tới hơn 30% khối lượng công
việc cho phần lớn các ngôn ngữ và chữ viết không phải là loại chữ viết ghi âm - loại
chữ viết nhằm tái hiện lại chuỗi âm thanh nối tiếp nhau trong từ (chữ viết của tiếng
Việt là loại chữ viết ghi âm, đọc và viết là như nhau) [9]

1.1.3. Dự báo ngôn điệu
Trong tổng hợp tiếng nói, việc xử lý ngữ điệu được thực hiện trên các yếu tố vật
lý của tiếng nói bao gồm: tần số cơ bản F0, cường độ và trường độ. Các hệ thống tổng

Nghiên cứu đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về