Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.33 MB, 39 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CƠNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ
Ngơ Hồng Huy

NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC
NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP
VÀ NHẬN DẠNG TIẾNG VIỆT
Chuyên ngành: Cơ sở Toán học cho Tin học
Mã số: 62 46 01 10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1.

PGS.TS. Lương Chi Mai

2.

PGS.TS. Ngô Quốc Tạo

Hà Nội – 2016
1

Cơng trình được hồn thành tại:
Viện Hàn lâm Khoa Học và Công Nghệ Việt Nam

Học viện Khoa học và Công nghệ

Người hướng dẫn khoa học: PGS.TS. Lương Chi Mai
PGS.TS. Ngô Quốc Tạo
Phản biện 1: TS. Trịnh Anh Tuấn
Phản biện 2: TS. Nguyễn Phú Bình
Phản biện 3: PGS.TS. Vũ Kim Bảng

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại:
…….………………………………………………………………………..
Vào hồi giờ ngày tháng năm

Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam.
- Thư viện Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa
học và Công nghệ Việt Nam.

2

Phạm vi, nội dung, phương pháp nghiên cứu và kết cấu luận án
Cấu trúc tổng thể của luận án được chỉ ra trong Hình 1.2 và các chương cịn lại của luận án được
tổ chức như sau:
Chương 1. Tổng quan về tổng hợp và nhận dạng tiếng nói.
Chương 2. Xử lý tiếng nói và các mơ hình học máy.
Chương 3. Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng việt.
Chương 4. Kết hợp tham số cấu âm, formant và thanh điệu để nâng cao chất lượng nhận
dạng tiếng Việt.
Phụ lục

3

Luận án

Chương 1. tổng quan về
tổng hợp và nhận dạng
tiếng nói.

Tổng hợp tiếng nói
Nhận dạng tiếng nói
Các cơng trình đã xuất bản
liên quan

Chương 2. xử lý tiếng nói
và các mơ hình học máy.
Xử lý tiếng nói
Mơ hình dự báo CART.
Mơ hình Markov ẩn
(HMM, Hidden Markov
Model)
Chương 3. Dự báo trường
độ, âm lượng và tổng hợp
thanh điệu tiếng việt
Khảo sát một số đặc tính
âm học tiếng Việt

Chương 4. kết hợp tham số
cấu âm, formant và thanh
điệu để nâng cao chất

lượng nhận dạng tiếng
Việt

Dự báo thông tin trường
độ, âm lượng của âm tiết
tiếng Việt trong ngữ cảnh
câu, thử nghiệm đánh giá
trong hệ thống tổng hợp
tiếng Việt theo phương
pháp ghép nối

Nhận dạng thanh điệu
tiếng Việt.
Đặc trưng MFCC với phép
chuẩn hóa độ dài cấu âm
VTLN kết hợp với F0
Hệ thống nhận dạng tiếng
Việt nhúng

4

CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG NĨI.
Chương này trình bày khái niệm tổng hợp và nhận dạng tiếng nói, khái quát về phạm vi
ứng dụng của nhận dạng, tổng hợp tiếng nói trong cuộc sống. Trong chương này, các phương
pháp tiếp cận nhận dạng, tổng hợp tiếng nói hiện đại, so sánh những ưu, nhược điểm của từng
phương pháp cũng được giới thiệu, từ đó đề xuất sử dụng các đặc trưng ngôn điệu để nâng cao
chất lượng nhận dạng và tổng hợp tiếng Việt. Phần tiếp theo của chương này, luận án đề cập đến
những kiến thức cơ bản,liên quan đến xử lý tiếng nói, trích chọn đặc trưng và các mơ hình học
máy được sử dụng trong luận án gồm HMM và CART.

1.1.

Tổng hợp tiếng nói

Hình 1. 1. Hệ thống TTS tổng qt.
Nói chung q trình Tổng hợp tiếng nói bao gồm các giai đoạn chính:
i) Chuẩn hóa văn bản và phân tích câu - xử lý ngôn ngữ tự nhiên.
ii) Chuyển văn bản sang đơn vị tiếng nói.
iii) Dự báo ngơn điệu.
iv) Sinh tiếng nói.

Câu tổng hợp chưa thay đổi trường độ/âm
lượng

“Tơi đang học nói tiếng Việt”
Thay đổi trường độ/âm lượng của câu
tổng hợp
Hình 1. 2. Xử lý ngơn điệu tiếng Việt

5

1.2.

Nhận dạng tiếng nói

Độ phức tạp của hệ thống nhận dạng tiếng nói thường phụ thuộc vào các yếu tố cơ bản sau :
- Mơi trường thu nhận tín
hiệu.
- Tập từ vựng được sử

dụng.
- Sự phụ thuộc vào người
nói.
- Kiểu phát âm (rời rạc,
kết nối, liên tục).

Hình 1.3. Liệt kê các kiểu hệ thống nhận dạng tiếng nói.

- Tài nguyên hệ thống.
Bảng 1. 1. Các loại nhận dạng tiếng nói
Chế độ nói : liên tục.
Người nói : phụ thuộc và độc lập người nói.
Mơi trường thu nhận tín hiệu

Từ vựng : vừa và nhỏ.
Kiểu nói : tự nhiên và mệnh lệnh

Độ chính xác nhận dạng trong các mơi trương như : nhà ở-văn phịng; trong ơ tơ; trong mơi
trường cơng nghiệp; nguồn âm có khoảng cách với mic là rất khác nhau, nguyên nhân do tín hiệu
nhiễu, tiếng vang gây ra.
Bảng 1. 2. Phân loại môi trường theo mức nhiễu
Môi trường
nhà ở-văn phịng
ơ tơ
Mơi trường tự nhiên-cơng nghiệp

Độ nhiễu
[20dB,30dB]
[-5dB, 10dB]
[-5dB, 10dB]

Tập từ vựng
Căn cứ vào số lượng từ nhận dạng mà người ta chia các hệ thống sử dụng công nghệ nhận
dạng tiếng nói làm ba loại: số lượng từ vựng nhỏ (30-100), số lượng từ vựng trung bình (100500), và số lượng từ vựng lớn (> 500).
Sự phụ thuộc người nói
Trong hệ thống nhận dạng phụ thuộc người nói, chủ thể tương tác với hệ thống phải là
người có dữ liệu tiếng nói trong tập dữ liệu huấn luyện ban đầu của hệ thống.
Đối với hệ thống nhận dạng độc lập người nói, người tương tác với hệ thống có thể là bất
kỳ. Hệ thống này địi hỏi phải có một nguồn dữ liệu tiếng nói kích thước lớn của nhiều người
nói. Khả năng nhận dạng chính xác của hệ thống độc lập người nói thấp hơn hệ thống phụ thuộc
người nói.
Tài nguyên hệ thống
Tài nguyên hệ thống chủ yếu gồm năng lực tính tốn và dung lượng bộ nhớ . Các chip
thường chỉ đủ đáp ứng yêu cầu tính tốn chấm tĩnh, như vậy hệ thống nhận dạng nếu khơng được
thiết kế tốt thì độ chính xác sẽ bị suy giảm hoặc không đáp ứng được yếu tố thời gian thực.
CHƯƠNG 2. XỬ LÝ TIẾNG NÓI VÀ CÁC MƠ HÌNH HỌC MÁY
6

Chương này trình bày tổng quan về các thuật tốn khử nhiễu, mơ hình học máy HMM và
CART
2.1. Xử lý tiếng nói
Một số loại nhiễu trong mơi trường thực :
- Nhiễu hướng (Directional noise) : nhiễu từ hướng như âm TV, giọng nói v.v…
- Nhiễu khuếch tán (Diffuse noise): nhiễu môi trường, nền v.v...
- Vang (Reverberation) : nhiễu do trễ khi phản xạ tường, trần nhà v.v…
- Nhiễu thiết bị : quạt tản nhiệt, cơ cấu chấp hành, mang cả tính hướng và khuếch tán.

Hình 2. 1. Q trình hình thành tiếng nói nhiễu
Huấn luyện HMM :

Nhận dạng với HMM:

Đầu vào gồm T frame các đặc trưng MFCC.

Đầu vào gồm T frame các đặc trưng
Bước 1: Xác định đãy trạng thái tối ưu bằng MFCC.
thuật toán Viterbi:
Giải mã theo Viterbi để xác định tập
nhãn, và đãy trạng thái tối ưu ứng với bộ
T
S  ({s t }Tt 1 )  arg max  log p(Ot  , W )
tham số mơ hình HMM đã cho:
t 1
Bước 2: Hiệu chỉnh lại tham số mơ hình
T

HMM:   arg max  log p(Ot  , st , W )

T

(W , S  {s t }Tt 1 )  arg max  log p(Ot  , st )
t 1

*

t 1

Bước 3: Đặt =*, lặp lại tới khi mơ hình hội
tụ.

Đặc trưng MFCC
Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu bằng cách:chia tín hiệu thành
các đoạn độ dài 5-15 ms, mỗi đoạn gọi là một khung (frame). Mỗi frame sẽ cho đặc trưng là một
vector và đặc trưng của tồn bộ tín hiệu sẽ là một dãy vector. MFCC là phương pháp trích đặc
trưng (theo thang tần số mel, không phải theo Hz) dựa trên đặc điểm cảm thụ tần số âm của tai
người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz. Việc tính
đặc trưng MFCC có sơ đồ như sau
7

Hình 2. 2. Các băng lọc dạng tam giác
Kỹ thuật cộng chồng đồng bộ cao độ tần số cơ bản – PSOLA
PSOLA (Pitch Synchronous Overlap Add) là phương pháp tổng hợp dựa trên sự phân tích
một tín hiệu thành một chuỗi các tín hiệu thành phần, được sử dụng để thay đổi giá trị đường F0
và trường độ trực tiếp trên dạng sóng tiếng nói.
2.2.

Mơ hình dự báo CART

Các cây CART tự nó đã bao gồm các câu hỏi yes/no về các điểm đặc trưng và cuối cùng đưa ra
một mật độ xác suât, khi dự đoán các giá trị xác thực (cây phân loại), hoặc một độ lệch tiêu
chuẩn khi dự báo các giá trị liên tục (cây hồi quy). Các kỹ thuật tốt có thể được sử dụng để xây
dựng một cây tối ưu từ tập dữ liệu huấn luyện. Chương trình được phát triển liên kết với Festival,
gọi là Wagon, cung cấp một phương thức cơ bản nhưng đủ mạnh cho việc xây dựng cây.
2.3.

Mơ hình Markov ẩn (HMM, Hidden Markov Model)

Mơ hình Markov ẩn được mở rộng khái niệm từ mơ hình Markov bằng cách mỗi trạng thái

được gắn với một hàm phát xạ quan sát (observation distribution). Ngồi q trình ngẫu nhiên
chuyển giữa các trạng thái, tại mỗi trạng thái cịn có một q trình ngẫu nhiên sinh ra một quan
sát. Như vậy trong Mô hình Markov ẩn có một q trình ngẫu nhiên kép, trong đó có một q
trình ngẫu nhiên khơng quan sát được. Tập các quan sát O được sinh ra bởi dãy các trạng thái S1,
S2, ..., SN của mơ hình, mà dãy các trạng thái này là không thấy được, đó chính là lý do mơ hình
được gọi là mơ hình Markov ẩn (hidden).
Mơ hình HMM là một máy trạng thái sinh ra dãy quan sát thời gian rời rạc. Tại mỗi đơn vị
thời gian (frame), sự thay đổi trạng thái HMM theo xác suất chuyển trạng thái, sau đó sinh ra dãy
quan sát Ot tại thời điểm t theo phân bố xác suất đầu ra của trạng thái hiện tại.
Một HMM N trạng thái định nghĩa bởi phân bố xác
suất chuyển trạng thái A  {aij }iN, j 1 , phân bố xác suất
output B  {b j (o)}Nj1 , phân bố xác suất trạng thái khởi
tạo   { i }iN1 . Ta kí hiệu   ( A, B, ) là bộ tham số
của mơ hình.

Nhận dạng tiếng nói với mơ hình Markov ẩn
Các hệ thống nhận dạng dựa trên HMM thường sử dụng đặc trưng chuẩn MFCC và quy
trình huấn luyện và nhận dạng theo thuật toán sau:
8

Bảng 2. 1. Thuật tốn nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC.
Huấn luyện HMM :

Nhận dạng với HMM:

Đầu vào gồm T frame các đặc trưng MFCC.

Đầu vào gồm T frame các đặc trưng
Bước 1: Xác định dãy trạng thái tối ưu bằng MFCC.

thuật toán Viterbi:
Giải mã theo Viterbi để xác định tập
nhãn, và dãy trạng thái tối ưu ứng với bộ
T
S  ({s t }Tt 1 )  arg max  log p(Ot  , W )
tham số mơ hình HMM đã cho:
t 1
Bước 2: Hiệu chỉnh lại tham số mơ hình

T

(W , S  {s t }Tt 1 )  arg max  log p(Ot  , st )

T

HMM:   arg max  log p(Ot  , st , W )

t 1

*

t 1

Bước 3: Đặt =*, lặp lại tới khi mơ hình hội
tụ.

CHƯƠNG 3. DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ TỔNG HỢP
THANH ĐIỆU TIẾNG VIỆT
9

Vấn đề tổng hợp tiếng Việt giọng tự nhiên hiện nay vẫn là một vấn đề phức tạp do tiếng
nói tự nhiên hàm chứa rất nhiều hiện tượng ngôn điệu như trường độ, âm lượng và thanh điệu.
Chuyên đề này trình bày các đặc trưng tiếng nói phù hợp với đặc thù ngôn ngữ tiếng Việt, các
đặc trưng ngữ âm như thanh điệu, trường độ và formant để đạt được hiệu quả nâng cao chất
lượng Tổng hợp và nhận dạng tiếng Việt như:


Nghiên cứu về các phương pháp tổng hợp và nhận dạng tiếng nói và cách trích chọn các
đặc trưng của đối tượng cần nhận dạng.



Nghiên cứu về các mơ hình ngơn điệu, phân tích đặc trưng tiếng Việt.



Nghiên cứu các luật ngơn điệu, đặc trưng tín hiệu để nâng cao chất lượng tổng hợp và nhận
dạng tiếng Việt.

Hình 3. 1. Sơ đồ của một hệ thống tổng hợp tiếng nói ghép nối.

Quy luật biến đổi thanh điệu trong ngữ cảnh
Bảng 3. 1. Trường độ nguyên âm trong kết hợp với thanh điệu CTV nam
Thanh điệu
Huyền

Ngang

Trường độ (ms)

Ngã
Sắc

Hỏi

Nặng
10

Nguyên âm
[i]
[e]
[]
[]
[]
[a]
[u]
[o]
[]

371
332
357
331
339
322
341
345
367

363
324
352
328
333
317
333
331
333

313
301
301
300
276
271
275
291
288

256
257
258
274
276
290
258
289
291

267
233
220
254
254
222
247
257
228

158
184
178
176
167
159
186
197
160

Biểu đồ 3.2: Trường độ nguyên âm kết hợp với thanh điệu CTV nữ
Trường độ nguyên âm kết hợp với thanh điệu

400
350

Trường độ

300

Huyền

250

Ngang
Ngã

200

Sắc
Hỏi

150

Nặng

100
50
0
i

ê

e

ư

ơ

a

u

ô

o

Nguyên âm

Bảng 3. 2. Trường độ nguyên âm trong kết hợp với thanh điệu CTV nữ
Thanh điệu
Nguyên âm
[i]
[e]
[]
[]
[]
[a]

Huyền

Ngang

379
415
368
394
408
407

328
353
346
354
363
351

Trường độ (ms)
Ngã
Sắc
314
298
283
272
305
312

260
286
299
264
272
288

Hỏi

Nặng

259
276

280
257
288
266

202
216
185
199
195
171
11

[u]
[o]
[]

380
404
370

371
364
367

289
322
294

280
294
273

274
266
259

187
227
165

Quy luật biến đổi formant của nguyên âm trong ngữ cảnh.
Bảng 3. 3. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu

CTV Nam
Nguyên
Ngang
Huyền
Ngã
Hỏi
Sắc
Nặng
âm
F1
F2
F1
F2
F1
F2

F1
F2
F1
F2
F1
F2
[i]
291 2231 315 2307 314 2407 309 2445 311 2452 299 2512
[e]
394 2239 401 2195 495 2284 428 2211 443 2263 464 2207
[]
598 2304 571 2274 676 2348 626 2270 640 2322 661 2269
[]
399 1296 710 1659 384 1292 429 1377 386 1321 395 1299
[]
453 1290 874 1860 591 1308 487 1286 522 1319 580 1297
[a]
994 1749 920 1719 970 1716 968 1688 924 1687 943 1714
[u]
466 2125 504 1656 405 1140 398 1014 402 1137 390 984
[o]
456 963 568 1437 489 918 514 1056 539 1229 478 894
[]
793 1116 808 1052 856 1115 801 1051 849 1138 831 1120
Bảng 3. 4. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu

CTV Nữ
Nguyên
âm
[i]

[e]
[]
[]
[]
[a]
[u]
[o]
[]

Ngang
F1
F2
312 2881
516 2420
685 2569
353 1303
548 1225
897 1937
345 811
509 979
744 1216

Huyền
F1
F2
350 2780
493 2395
618 2539
379 1288
530 1321

846 1630
365 619
455 790
709 1154

Ngã
F1
F2
363 2933
570 2334
677 2515
430 1330
632 1304
833 1652
397 701
546 891
693 1084

Hỏi
F1
F2
334 2913
486 2446
688 2608
379 1235
532 1312
821 1740
370 652
450 817
719 1164

Sắc
F1
F2
337 2945
510 2488
702 2604
401 1274
547 1281
863 1743
379 649
466 800
718 1113

Nặng
F1
F2
366 2968
510 2421
708 2556
425 1205
567 1298
844 1606
403 698
483 830
751 1085

Cách điệu hóa đường F0 của âm tiết tiếng Việt.
Trong [10][11] các tác giả đã sử dụng phương pháp bình phương tối thiểu để cách điệu hóa
tuyến tính đường F0 của các thanh điệu tiếng Việt trong ngữ lưu. Các tác giả đã đi đến kết luận

là rất khó để cách điệu hóa tuyến tính đường F0 của một số thanh điệu tiếng Việt như thanh nặng
và thanh ngã.
Tuy nhiên chúng tôi vẫn tổng hợp được các thanh nặng (cho âm tiết không tận cùng bằng p-tc/ch) và thanh ngã từ các âm tiết mang thanh điệu – thanh ngang (thanh không dấu). Với các âm
12

tiết tiếng Việt tận cùng bằng p-t-c/ch thì thanh sắc được tổng hợp từ cùng âm tiết gốc nhưng có
thanh điệu nặng.

Hình 3. 2. Thanh khơng dấu (âm a)

Hình 3. 3. Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được
204,208,201,200,196,196,192,192,189,185,182,179,179,170,170.

Hình 3. 4. Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được
222,222,209,209,209,209,209,213,213,218,218,228,238,238,256,270,295,346.

13

Hình 3. 5. Thanh nặng được cách điệu từ các giá trị F0 đo được
213,217,222,213,213,208,185,185,80,80.

Hình 3. 6. Thanh hỏi được cách điệu từ một dãy giá trị F0 đo được
150,179,188,200,207,208,201,197,192,184,177,174,177,177,179,188,191,184,163,1
50

Để cách điệu hóa thanh điệu, chúng tơi khơng sử dụng phương pháp cách điệu hóa tuyến tính
như [10][11] mà sử dụng mơ hình Xu [68] đã được sử dụng rộng rãi cho tiếng Trung Quốc phổ
thơng –Mandarin.

Mơ hình Xu để mơ hình hóa đường tần số cơ bản F0 của các thanh điệu trong ngữ cảnh
(dùng cho các ngôn ngữ có thanh), mơ hình này đã áp dụng được cho tiếng Mandarin.

F t    et  at  b , như vậy F0 được tạo ra từ sự kết hợp của 2 thành phần xấp xỉ:


Thành phần xấp xỉ tuyến tính:

at  b



Thành phần phân rã hàm mũ của sai số xấp xỉ:

 e  t

14

Việc tính các hệ số của mơ hình Xu khi cho trước giá trị đường F0 cũng sử dụng phương pháp
bình phương tối thiểu, thay vì tìm các hệ số a,b,, ta xác định các hệ số a,b, k (k=e-) bằng
phép cực tiểu hóa như sau:

n 1

F
i 1

0,i 1

 a (i  1)  b  k  F0,i  ai  b 



2

 min (3.1)

ở đó n là số frame của đoạn tiếng nói,  F0,i i 1 là giá trị đường F0 của đoạn tiếng nói.
n

Phương pháp cách điệu hóa sử dụng mơ hình của Xu được xây dựng như sau :
Bước 1 : Chọn âm tiết gốc có thanh điệu – thanh ngang, thanh nặng cho các âm tiết tận cùng p-tc/ch, xác định giá trị đường F0 của âm tiết.
Bước 2 : Biên tập giá trị đường F0 của thanh điệu cần tổng hợp. Sử dụng mơ hình Xu để khớp
các tham số a,b,k (các thanh khơng dấu, huyền, sắc, nặng có một bộ tham số a,b,k, các thanh hỏi
và ngã có 2 bộ tham số a,b, k. Thanh sắc của âm tận cùng p-t-c/ch cũng có một tham số a,b,k)
Bước 3 : Sử dụng thuật toán PSOLA tổng hợp âm tiết với thanh điệu xác định từ âm tiết gốc
(nếu âm tiết gốc không tận cùng là p-t-c/ch thì âm tiết gốc mang thanh điệu –thanh ngang, trường
hợp ngược lại thì âm tiết gốc mang thanh điệu là thanh nặng.)

Hình 3. 7. Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã.
Các kết quả tổng hợp thanh điệu cho tất cả các loại âm tiết tiếng Việt như


Chỉ có ngun âm



Khơng có phụ âm đầu



Kết thúc là bán nguyên âm.



Kết thúc là p-t-c/ch...
15

đã được thực hiện và kiểm tra với sự cộng tác của các nhà nghiên cứu ngữ âm học như Vũ
Kim Bảng, Vũ Thị Hải Hà... Viện ngôn ngữ, Viện Hàn lâm KHXH Việt Nam đều đưa đến kết
luận là âm nghe rõ, không bị hiện tượng rè, thanh điệu tổng hợp nghe rõ ràng, giữ được đường
nét đặc trưng thanh điệu tương ứng.
Tổng hợp thanh điệu tiếng Việt trong ngữ lưu
Trong [42] chúng tơi đã trình bày kết quả tổng hợp ðýờng thanh ðiệu trong ngữ lýu bằng mơ
hình Fujisaki theo hướng tiếp cận phân tích – tổng hợp.
Để phân tích đường nét F0, một cơng cụ phân tích các tham số của mơ hình Fujisaki được
sử dụng.. Fb được đặt bằng 96 Hz cho giọng nam và 210 Hz cho giọng nữ. α và β cho cả giọng
nam và nữ được lần lượt đặt bằng 2 Hz và 25 Hz.
Các bước tiến hành phân tích bao gồm:


Tính đường nét F0.



Lựa các chọn lệnh ngữ câu nói.



Dựa vào thanh điệu của các âm tiết để lựa chọn các lệnh thanh điệu phù hợp.



Điều chỉnh các tham số sao cho đường nét F0 sinh ra xấp xỉ tốt đường nét F0 thực.



Tổng hợp lại câu nói với đường nét thanh điệu mới sử dụng phương pháp PSOLA.



Cảm nhận bằng tai câu nói tổng hợp, so sánh với câu nói gốc và điều chỉnh lại.

Các kết quả phân tích cơ sở dữ liệu cho thấy, các thanh ngang, sắc, ngã được biểu diễn
bằng một lệnh thanh điệu dương, thanh huyền và hỏi được biểu diễn bằng một lệnh thanh điệu
âm, thanh nặng không cần lệnh thanh điệu.
Bảng 3. 5. Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu
Thanh điệu
Ngang
Sắc
Hỏi
Huyền
Ngã
Nặng

Biểu diễn bằng lệnh thanh điệu
Một lệnh thanh điệu dương ở trước âm tiết
Mộtlệnh thanh điệu dương

Một lệnh thanh điệu âm
Một lệnh thanh điệu âm
Một lệnh thanh điệu dương
Một dùng lệnh thanh điệu

Các câu được phân tích chỉ sử dụng một lệnh ngữ cho cả câu, phù hợp với hiện tượng trong
câu nói, người nói th ường lên giọng ở đầu câu và hạ giọng ở cuối câu. Tuy nhiên trong tiếng
Việt hiện tượng này không rõ rệt như ở các ngôn ngữ khác nên cường độ của lệnh ngữ này
không lớn.

16

Hình 3. 8. Kết quả phân tích thanh điệu tiếng Việt bằng mơ hình Fujisaki
Thanh ngã và thanh sắc được biểu diễn bằng môt lệnh ngữ điệu dương phù hợp với nhận
xét về sự giống nhau giữa 2 thanh này trong phần trước.
Thanh hỏi có đường nét F0 đi xuống, đến giữ a thanh, đường nét F0 lại đi lên, thanh này
giống thanh T3 (low tone) của tiếng Trung và được biểu diễn bằng một lệnh thanh điệu âm giống
như trường hợp của tiếng Trung.

Bảng 3. 6. Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu.
Thanh
Aa
T1rel
T2rel
1
.218
-.09
.86
2

.523
.61
1.04
3
.556
.53
1.11
4
-.341
.45
.91
5
-.132
.37
1.07
6
.00
6’
-.378
.42
.70
2’
.617
.16
.84
Quy định thời gian đơn giản được xây dựng bằng thực nghiệm. Các kết quả được thể hiện
trong Bảng 3.6 và 3.7. Thời gian được đo bằng 10 đơn vị mi li giây. Kết quả thống kê cho thấy
thời gian của âm phụ thuộc nhiều hơn nữa về thanh điệu hơn vị trí. Âm với thanh điệu 3, 6 'và 2'
ngắn hơn những âm khác. Kết quả cho thấy các đường bao F0 được tạo ra bởi các mơ hình
Fujisaki nói chung làm việc tốt cho câu tiếng Việt.

Phân lớp thanh điệu trong ngữ cảnh câu
Trong [4] chúng tơi đã trình bày cách phân lớp thanh điệu trong ngữ lưu. Cách tiếp cận này
dùng phương pháp lượng tử hóa các dạng đường thanh điệu để quy về một số lớp thanh điệu có
đường nét đặc trưng cho mỗi lớp. Sau khi lượng tử hóa dùng cây quyết định khảo sát sự chuyển
lớp của các thanh điệu dựa trên thơng tin văn bản. Từ đó đưa ra những khảo sát hiện tượng biến
thanh trong tiếng Việt nhằm cải tiến ngôn điệu trong hệ tổng hợp tiếng Việt.
Số lượng các dạng đường thanh điệu trong câu liên tục tăng lên rất nhiều lần so với âm tiết
rời rạc, để phân cụm các đường thanh điệu về một số lớp, dùng phương pháp lượng tử hóa tập
các đường thanh điệu mẫu quy về một số lớp hữu hạn. Số lớp này lớn hơn số các đường thanh
17

điệu tiếng Việt 6 thanh. Trong luận án chỉ xét sự biến thiên đường thanh điệu trong 3 âm tiết liên
tục.

Phân
cụm
LBG

Tập các
véc tơ F0
huấn luyện

CSDL
âm và gán
nhãn văn

bản

Codeboo

k

Bộ lượng
tử hóa
(lớp thanh
điệu)

Véc tơ F0 âm tiết vào

Chỉ số
codebook

CSDL
âm tiết
biến
thanh

Hình 3. 9. Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu sử dụng
Cơ sở dữ liệu tiếng nói huấn luyện mơ hình dự báo
Cơ sở dữ liệu gồm hơn 1250 câu tiếng nói đọc bởi phát thanh viên chuyên nghiệp, giọng
Hà Nội, đã được sử dụng trong phần thực nghiệm này. Tập câu được ghi âm với tần số lấy mẫu
là Fs=22050Hz, đơn kênh, độ phân giải một mẫu là 16bit.
Để tăng độ chính xác của giá trị ngôn điệu được dự báo như trường độ và âm lượng của âm
tiết trong câu tổng hợp, chúng tơi đã tiến hành phân tích các tham số thống kê chi tiết của các giá
trị này trong các ngữ cảnh âm vị khác nhau của cơ sở dữ liệu câu huấn luyện như được tóm tắt ở
các bảng dưới đây:
Bảng 3. 7. Bảng độ dài âm vị không tính ngữ cảnh
Tên âm vị

Tần suất

a
iz
m
aw
mz
k
th
ch
cz
s
uz
kh

2280
1948
710
828
487
1315
599
687
619
332
673
291

Độ dài min
(s)
0.021855

0.016414
0.025538
0.024235
0.026109
0.015311
0.022596
0.020341
0.011557
0.024672
0.019240
0.018458

Độ dài max
(s)
0.646632
0.390000
0.245256
0.242580
0.295968
0.320000
0.162560
0.300000
0.127612
0.210381
0.481884
0.215535

Trung bình
0.119814
0.078273

0.085783
0.077581
0.117891
0.041839
0.066307
0.061498
0.044278
0.104234
0.097447
0.093406

Độ lệch
chuẩn
0.066424
0.043617
0.033361
0.029928
0.046261
0.017588
0.023378
0.022193
0.021161
0.043465
0.045938
0.029868

Bảng 3. 8. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối
Nguyên
âm
a

Âm đầu

Âm cuối

Tần suất

ch,th,ph
m,n,n,ng

null
ban
nguyen

53
67

Độ dài
min (s)
0.067591
0.034432

Độ dài
max
0.354356
0.162890

Trung bình
0.167803
0.082867

Độ lệch
chuẩn
0.061436
0.032960

18

am

Bảng 3. 9. Bảng độ dài âm cuối ràng buộc bởi nguyên âm
Âm cuối

Nguyên âm

Tần suất

Độ dài min

Độ dài max

Trung bình

cz
cz
iz
iz
mz
mz

pz
pz
tz
tz
uz
uz
uz

aw
i
uo
uwow
aa
ow
a
aw
a
aw
aw
e
uw

37
11
31
173
48
16
9
15

48
74
142
38
8

0.017871
0.019492
0.027146
0.018976
0.049768
0.074060
0.026369
0.018157
0.019623
0.016356
0.023469
0.027209
0.049287

0.103455
0.064362
0.200000
0.169185
0.295968
0.256748
0.069933
0.112483
0.090000
0.134143

0.481884
0.187259
0.118485

0.048423
0.033094
0.086638
0.063940
0.137286
0.130268
0.042885
0.055905
0.041001
0.044069
0.110776
0.073656
0.076594

Độ lệch
chuẩn
0.022201
0.012113
0.049505
0.034708
0.051088
0.045005
0.015182
0.028921
0.016166
0.023076

0.058130
0.032710
0.023276

Bảng 3. 10. Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm
Phụ âm đầu

Nguyên âm

Tần suất

Độ dài min

Độ dài max

Trung bình

b
b
ch
ch
h
h
k
k
k
kh
kh
l
l

l
m
m
m
ph
ph
s
s
t
t
th
th
v

aw
ee
a
u
i
u
e
ee
u
a
ie
a
oa
oo
a
aa

uwow
a
uwow
a
aa
ow
u
aa
ie
a

54
28
20
67
21
11
22
42
115
42
12
369
23
20
158
45
28
61
33

63
13
25
33
74
22
151

0.025391
0.036980
0.034816
0.024178
0.036870
0.040000
0.022826
0.020343
0.015311
0.052388
0.051503
0.029959
0.052390
0.042708
0.033945
0.028441
0.025538
0.023593
0.049614
0.028638
0.026092
0.018038

0.012559
0.023631
0.028795
0.020957

0.207781
0.120000
0.102819
0.300000
0.090697
0.157039
0.170296
0.062757
0.078733
0.167643
0.210360
0.165244
0.124459
0.190000
0.206957
0.166226
0.145181
0.138148
0.153171
0.186613
0.183017
0.114752
0.060969
0.100928
0.121672

0.162675

0.076246
0.074974
0.063057
0.059879
0.060960
0.078191
0.043214
0.039003
0.038037
0.100004
0.110791
0.074203
0.087344
0.094174
0.078506
0.095594
0.071455
0.066544
0.090524
0.110303
0.077653
0.036266
0.028529
0.056069
0.077662
0.061447

Độ lệch

chuẩn
0.030834
0.019760
0.015888
0.034934
0.015621
0.034558
0.030460
0.011922
0.012070
0.025507
0.046332
0.026375
0.020237
0.039680
0.029608
0.034975
0.027013
0.023755
0.021938
0.036228
0.050040
0.022071
0.011556
0.017729
0.026268
0.029520

v

uwow

15

0.035674

0.083957

0.062528

0.011667

Dự báo ngơn điệu
Trong kỹ thuật tổng hợp tiếng Việt, chất lượng tổng hợp tập trung chính vào trường độ và
cao độ của âm vị, đó là hai tham số chính truyền đạt thơng tin ngữ âm.
19

Bộ phân tích ngơn điệu của hệ thống TTS tập trung vào việc tính tốn giá trị của tập các
biến ngữ âm. Trong một dạng tối thiểu, các biến này là trường độ âm vị và F0. Việc tính tốn các
giá trị như vậy có thể dựa vào các quy luật hoặc dựa vào các phương pháp học máy, như mơ hình
CART. Kết quả trên việc sử dụng CART được huấn luyện với các phong cách đọc khác nhau đã
được nghiên cứu trong nhiều hệ thống TTS tiếng nước ngoài cũng như cho tiếng Việt, điểm mới
ở đây là chúng tơi vận dụng mơ hình dự báo CART để dự báo cả trường độ và âm lượng của các
đơn vị tiếng Việt như âm vị, âm tiết và sử dụng giá trị gián tiếp Z-score được tính dựa trên các
tham số thống kê của đơn vị âm trong ngữ cảnh câu, thay thế cho các giá trị trường độ gốc của
đơn vị âm. Hai hệ số đo sai số là dự báo hệ số tương quan và trung bình độ lệch bình phương cho
mơ hình CART được cho như sau:

d

M

R

m 1

d
M

m 1

obs
m

RMSE 

obs
m

d

d

obs



obs 2

1

M

 d

pred
m

d
M

m 1

d
M

m 1

d

obs
m

pred
m

d



pred

d

pred
m





(3.1)

pred 2

2

(3.2)

Ở đây M là kích thước dữ liệu của tập huấn luyện hoặc kiểm tra, d mobs , d
trung bình thực tế, d mpred , d

pred

obs

là trường độ và

là trường độ và trung bình dự đốn của mơ hình.

Thử nghiệm và kết luận

Sau khi huấn luyện mơ hình dự báo CART các tham số đánh giá độ chính xác dự báo trường độ
của âm tiết của các câu không năm trong cơ sở dữ liệu âm huấn luyện đạt được với R=0.87 và
RMSE=0.044(s). Các ước lượng này là tốt hơn xét trên độ lớn của tập câu huấn luyện và dự báo
và so sánh với các kết quả của các tác giả khác, ở đó độ chính xác dự báo là R=0.5794 và
RMSE=0.0531(s). Ngoài ra việc dự báo giá trị âm lượng đã đạt được kết quả tốt, âm lượng của
các âm tiết ở giữa và các âm tiết là từ dừng như “rằng”, “thì”, “là”, “và”, “mà” v.v… là hồn
tồn phù hợp trong câu được tổng hợp.
Chúng tôi đã ứng dụng mô hình dự báo ngơn điệu tiếng Việt ở mức câu vào bộ tổng hợp
tiếng Việt Vnvoice (một sản phẩm thương mại được viết chính bởi tác giả bài báo). Vnvoice đã
có đầy đủ các mơ đun chuẩn hóa văn bản tiếng Việt [3] [30] cho hệ thống TTS, ngoài ra
Vnvoice cịn có tính năng phân biệt từ tiếng Anh trộn lẫn trong văn bản tiếng Việt, phát âm tự
động các âm tiết trong câu văn bản, chèn khoảng lặng thích hợp vào các âm tiết tận cùng hoặc
bắt đầu là p-t-c/ch, âm tiết mang dấu nặng [3], thay đổi tốc độ đọc (nhanh và chậm) v.v… Đầu ra
tín hiệu âm thanh của Vnvoice được biến đổi về trường độ/âm lượng sử dụng mơ đun dự báo tích
hợp bên trong.

20

Hình 3.11. Câu “Lũ trẻ bắt được cà ra đem bán lấy tiền mua sách.” trong CSDL ngữ
âm.(xem Phụ lục)

Hình 3.12 : Hệ phát âm tài liệu Microsoft Word sử dụng nhân của Vnvoice.

Thử nghiệm cho thấy chất lượng âm tổng hợp đã cải thiện được độ tự nhiên khi được điều
khiển trường độ và âm lượng ở mức độ âm tiết của câu tổng hợp.
21

“Tơi đang học nói tiếng Việt”

“Tơi đang học nói tiếng Việt”

Câu tổng hợp từ Vnvoice chưa thay đổi Thay đổi trường độ/âm lượng của câu tổng
hợp
trường độ/âm lượng
Hình 3. 13. Thay đổi trường độ/âm lượng của đầu ra của Vnvoice
Đánh giá kết quả
Để đánh giá độ tự nhiên tiếng nói tổng hợp sau khi ghép phần dự báo trường độ và âm
lượng, chúng tôi sử dụng độ đo MOS (Mean Opinion Score)
Người nghe đánh giá chất lượng tiếng nói của mô đun tổng hợp Vnvoice trước và sau
khi ghép mô đun dự báo trường độ và âm lượng khác nhau trên cùng tập câu mẫu. Thang điểm
đánh giá trong bảng dưới đây:
Bảng 3.13: Thang điểm độ đo MOS.
Chất lượng tiếng nói tổng hợp

Đ
iểm

Xuất sắc

4.1 – 5

Tốt

3.1 – 4

Bình thường

2.1 – 3

Kém

1.1 – 2

Tồi

0–1

Phương pháp này đo sự ảnh hưởng của ngôn ngữ và yếu tố tâm lý. Văn bản kiểm tra
được phân thành một số chủ đề khác nhau như: chính trị, kinh tế, thể thao, khoa học, … Văn bản
mẫu này cho người nghe đánh giá toàn bộ chất lượng tiếng nói tổng hợp ở theo các phương pháp
tổng hợp khác nhau và cho điểm. Điểm trung bình là điểm cuối cùng để đánh giá.
Chúng tôi chọn 10 cán bộ nghiên cứu của Viện ngơn ngữ trong đó có 4 chuyên gia về
ngữ âm học để đánh giá.
Bảng 3.14: Kết quả đánh giá tính tự nhiên các hệ thống tổng hợp tiếng Việt.
Mơ đun tổng hợp
MOS

Vnvoice
Av

Vnvoice có ghép dự báo



Av


22

3.6

0.6

3.8

0.4

Trong đó Av là điểm trung bình đánh giá,  là độ lệch chuẩn.
Theo độ đo MOS, các kết quả thu được tương ứng chất lượng tiếng nói như sau:
Điểm

Chất lượng

(4.0 - 4.5)

Tự nhiên, giọng người nói.

MOS

(3.5 ,4.0)
(2.5 ,3.5)

Dễ hiểu, phù hợp với các ứng dụng thông
báo, truyền thông.
Giọng nhân tạo, không tự nhiên.

Hệ tổng hợp VnVoice cải tiến (3.8 điểm) tốt hơn so với VnVoice khi chưa ghép mô đun dự báo

âm lượng và trường độ (3.6 điểm). Tuy nhiên, VnVoice đã cải tiến vẫn cần hoàn thiện hơn nữa
bằng cách thử nghiệm các mơ hình thanh điệu và mơ hình trường độ khác nhau.
Tổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế
Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan, người ta đã
nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có tài nguyên hạn chế để
đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc thù của hệ thống tài
nguyên hạn chế, các hệ tổng hợp chạy trên các hệ thống này cũng cần sử dụng lượng bộ nhớ và
chí phí tính toán đủ nhỏ. Các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả
trên những hệ thống có tài nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính
tốn rất thấp.

23

CHƯƠNG 4. KẾT HỢP THAM SỐ CẤU ÂM, FORMANT VÀ THANH ĐIỆU ĐỂ NÂNG
CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT
Các tác giả đã đưa ra một mơ hình sử dụng ngơn điệu để nâng cao chất lượng nhận dạng
tiếng nói trong đó mơ hình cho từ và âm vị là hai mơ hình cho từ và nhận dạng được xây dựng
trên ngữ điệu của một ngữ đoạn tiếng nói và trọng âm các phân tích lý thuyết và thực nghiệm đã
chứng tỏ rằng: thông tin âm học kết hợp với ngữ điệu và mơ hình ngơn ngữ đã tăng thơng tin cho
việc đưa ra giả thuyết từ đúng để quyết định từ đúng. Bộ nhận dạng tiếng nói có tích hợp của các
tác giả đã rút gọn được 11% lỗi so với bộ nhận dạng khơng có kết hợp ngơn điệu. Ngồi ra các
tác đã phân tích ảnh hưởng của ngôn điệu đối với các hệ số MFCC.
Các tác giả đã kết hợp thông tin tần số cơ bản để xây dựng bộ lọc thay thế phép lọc truyền
thống – tam giác trong q trình tính tốn các hệ số MFCC, với bộ lọc này các tác giả đã chứng
tỏ hệ số MFCC được biến đổi đã tăng khả năng phân biệt và giảm ảnh hưởng nhiễu của bộ nhận
dạng tiếng nói.
Các tác giả đã kết hợp giá trị của tần số cơ bản vào đặc trưng MFCC bình đẳng như các
thành phần khác của vector hệ số MFCC. Với một thử nghiệm có giới hạn cho một bộ nhận dạng
tiếng nói liên tục các tác giả đã chỉ ra khả năng tăng độ chính xác nhận dạng khi kết hợp đặc

trưng thanh điệu tiếng Việt vào bộ nhận dạng
Trong chương này chúng tơi trình bày các kết quả nghiên cứu của chúng tôi trong vấn đề
kết hợp đặc trưng thanh điệu và đặc trưng cấu âm của người nói để tăng độ chính xác của bộ
nhận dạng tiếng nói rời rạc hoặc liên tục
Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0
Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu, các tần số
formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một vấn đề tất yếu
nhưng hiện tại ít được đề cập tới trong các cơng trình nghiên cứu về xử lý âm thanh tiếng Việt.
Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa trên đặc trưng chuẩn MFCC
24

Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ cảnh để
nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu tiếng Việt. Các tiếp cận này chủ
yếu vẫn ghép trực tiếp đặc trưng thanh điệu vào các kiểu đặc trưng tiếng nói như MFCC, PLP.
Có một tiếp cận khác sử dụng giá trị đường F0, các tần số formant để xây dựng một phép hiệu
chỉnh lại các đặc trưng MFCC, dẫn đến kiểu đặc trưng không phụ thuộc người nói trong cả q
trình huấn luyện và nhận dạng, qua đó kết quả nhận dạng của các hệ thống khơng phụ thuộc
người nói được cải thiện đáng kế.
Phép chuẩn hóa VTLN
VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ các tham
số hiệu chỉnh tần số cho mỗi người nói hoặc một phát âm. Có hai tiếp cận chính cho VTLN, một
là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm âm học của người nói như các tần số
formant, hai là cách duyệt trên lưới của tham số hiệu chỉnh để tối ưu hóa hàm mục tiêu của mơ
hình nhận dạng.

Hình 4. 1. Hiệu chỉnh tần số và trích chọn đặc trưng MFCC
Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t) trong miền tần số bằng biến đổi FFT:
X()= H()S() + N(), ở đó H() là biến dạng kênh và N() nhiễu cộng của tín hiệu. Sử dụng
M bộ lọc tam giác với khoảng cách giữa các vị trí k trong thang tần số mel:

   k 1
    ,   [k 1 , k ]
 k
k 1
Bk ( )  
 k 1   ,   [ ,  ]
k
k 1
 k 1  k

, Y (m) 


 

[

Bk ( ) X ( ) ,0m M-1 (*)
2

(4.1)

k 1 , k 1 ]

1

n  m  
2

log Y ( m) , 0nN-1

MFCC(n) =  cos
M
m 0
M 1

(4.2)

Khi đó với phép hiệu chỉnh tần số có dạng ’= () thì cơng thức (*) trở thành :
Y (m) 


 

[

Bk ( ) X ( ( ))

2

(4.2)

k 1 , k 1 ]

Tổ hợp giá trị F0 và chuẩn hóa VTLN
Phương pháp ghép giá trị F0 vào các hệ số MFCC đã được nắn lại sau phép hiệu chỉnh tần
số đề xuất trong nghiên cứu của tác giả này được thực hiện gồm 4 bước chính sau:
Bước 1. Xác định tham số  và hiệu chỉnh lại các vector đặc trưng MFCC nhờ phương
pháp huấn luyện hợp lý cực đại ML (xem quy trình nêu ở bước 4)
Bước 2. Tính F0 theo thuật tốn RAPT, nội suy xác định giá trị liên tục của đường F0 trên
cả đoạn vô thanh. Làm trơn và chuẩn hóa các giá trị F0.

Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về