Tải bản đầy đủ (.docx) (75 trang)

Nghiên cứu mô hình thuật toán phân tích tổng hợp tiếng nói MELP

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (951.89 KB, 75 trang )

i

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐINH VĂN NGỌC

NGHIÊN CỨU MÔ HÌNH THUẬT TOÁN PHÂN TÍCH
VÀ TỔNG HỢP TIẾNG NÓI MELP

LUẬN VĂN THẠC SĨ CÔNG NGHỆ ĐIỆN TỬ - VIỄN THÔNG

Hà Nội – 2014


ii

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐINH VĂN NGỌC

NGHIÊN CỨU MÔ HÌNH THUẬT TOÁN PHÂN TÍCH
VÀ TỔNG HỢP TIẾNG NÓI MELP
Ngành: Công nghệ Điện tử - Viễn thông
Chuyên ngành: Kỹ thuật Điện tử
Mã số: 60 52 02 03

LUẬN VĂN THẠC SĨ CÔNG NGHỆ ĐIỆN TỬ - VIỄN THÔNG

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. TRẦN ĐỨC TÂN



Hà Nội – 2014


iii
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc công bố
trong bất kỳ công trình nào khác.

Tác giả

Đinh Văn Ngọc


iv

MỤC LỤC

MỤC LỤC ......................................................................................................................
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ....................................................
DANH MỤC BẢNG ...................................................................................................
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .....................................................................
MỞ ĐẦU

.........................................

Chƣơng 1

- TỔNG QUAN MÃ HÓA


1.1Giới thiệu chung ...............................................................

1.2Phân loại các bộ mã hóa tiếng nói ....................................

1.2.1Phân loại theo tốc độ bít .

1.2.2Phân loại theo kỹ thuật m

1.3Ứng dụng của các bộ mã hóa tiếng nói .............................

1.4Tiếng nói và mô hình hóa ..................................................

1.5Mô hình hóa hệ thống tạo tiếng nói ...................................
Chƣơng 2

- MÔ HÌNH THUẬT TO

2.1Mô hình tạo tiếng nói MELP ............................................

2.1.1Mô hình tạo tiếng nói LP

2.1.2Mô hình tạo tiếng nói ME
2.1.3Mô hình thuật toán phân

2.2Các thuật toán phân tích tiếng nói MELP ........................

2.2.1Tính toán Pitch: pitch ngu

2.2.2Phân tích Bandpass voici


2.2.3Xác định cờ Aperiodic ...

2.2.4Phân tích LP ..................

2.2.5Tính toán Peakness ........

2.2.6Tính toán Gain ...............


v

2.2.7Tính toán các đại lƣợng
2.2.8Lƣợng tử các tham số:
Fourier ...................................................................................................................

2.3Các thuật toán tổng hợp tiếng nói MELP ........................
2.3.1Giải mã và nội suy các

2.3.2Tạo tính hiệu Mixed ex

2.3.3Cải thiện phổ thích ngh

2.3.4Tổng hợp LP ................

2.3.5Thay đổi Gain ..............

2.3.6Phân tán xung ..............

Chƣơng 3- THỰC THI MÔ HÌNH


3.1Thực thi MELP trên Matlab ............................................

3.2Cấu trúc tệp .....................................................................

3.3Đánh giá kết quả .............................................................
Chƣơng 4- PHÂN TÍCH VÀ ĐỀ
KẾT LUẬN ...................................................................................................................
DANH MỤC CÔNG TRÌNH KHOA HỌC ..................................................................
TÀI LIỆU THAM KHẢO .............................................................................................


vi

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Từ viết tắt
3GPP
ACELP
ACR
ADPCM
APCM
AR
ARMA
CCR
CELP
CS-ACELP
DC
DFT
DPCM
DSP

DTFT
FFT
FIR
FM
FS 1015
IDFT
IIR
LD-CELP
LMS


vii
LP
LPC
MSE
MSVQ
PCM
PESQ
PG
PSQM
PVQ
QCELP
RC
RV
RF
SD
SNR
UMTS
VSCELP
VoIP

VQ


viii

DANH MỤC BẢNG
Bảng 1-1 Phân loại bộ mã hóa tiếng nói theo tốc độ bit................................................ 4
Bảng 2-1 Cấp phát bit của mã hóa MELP................................................................... 16
Bảng 2-2 Thứ tự các bit trong khung truyền dữ liệu MELP........................................16
Bảng 2-3 Mã hóa/Giải mã pitch và voicing strength tần thấp...................................... 31
Bảng 2-4 Các hệ số bộ lọc cho 5 dải thông.................................................................. 37
Bảng 2-5 Hệ số bộ lọc phân tán xung.......................................................................... 40
Bảng 3-1 Các mẫu âm thanh dùng đề đánh giá MELP................................................ 46
Bảng 3-2 Kết quả đánh giá bằng công cụ PESQ.......................................................... 46
Bảng 3-3 Các tệp mẫu âm thanh có nhiễu................................................................... 49
Bảng 3-4 Kết quả đánh giá bằng công cụ PESQ.......................................................... 49
Bảng 4-1 Kết quả sau khi đề xuất thay đổi.................................................................. 52

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1-1 Hệ thống mã hóa tiếng nói.............................................................................. 3
Hình 1-2 Bộ mã hóa tiếng nói........................................................................................ 4
Hình 1-3 Hệ thống tạo tiếng nói của ngƣời................................................................... 7
Hình 1-4 Tiếng nói và không phải tiếng nói.................................................................. 8
Hình 1-5 Cấu trúc bộ tạo tiếng nói đƣợc đơn giản........................................................ 9
Hình 2-1 Mô hình tạo tiếng nói LPC........................................................................... 10
Hình 2-2 Mô hình tạo tiếng nói MELP........................................................................ 12
Hình 2-3 Cấu trúc chung của một bộ mã hóa tiếng nói................................................ 13
Hình 2-4 Bộ mã hóa MELP......................................................................................... 14
Hình 2-5 Bộ giải mã MELP......................................................................................... 15
Hình 2-6 Tính chu kỳ pitch.......................................................................................... 18

Hình 2-7 Tính toán Voicing strengths.......................................................................... 21
Hình 2-8 Một số tín hiệu và peakness của nó.............................................................. 28


ix
Hình 2-9 Tính toán các đại lƣợng Fourier................................................................... 29
Hình 2-10 Quá trình tạo kích thích xung..................................................................... 35
Hình 2-11 Bộ lọc tạo hình........................................................................................... 37
Hình 3-1 Mô hình thực thi MELP trên Matlab............................................................ 41
Hình 3-2 Lƣu đồ thực thi bộ mã hóa MELP................................................................ 42
Hình 3-3 Lƣu đồ thực thi bộ giải mã MELP................................................................ 42
Hình 3-4 Tín hiệu tiếng nói tệp Nam03.wav, trên: tín hiệu nguyên gốc, dƣới: tín hiệu
đã xử lý MELP............................................................................................................ 47
Hình 3-5 Mật độ phổ công suất chuẩn hóa tệp Nam03.wav, trên: phổ nguyên gốc,
dƣới: phổ đã xử lý MELP........................................................................................... 47
Hình 3-6 Tín hiệu tiếng nói tệp Nu03.wav, trên:tín hiệu nguyên gốc, dƣới: tín hiệu đã
xử lý MELP................................................................................................................. 48
Hình 3-7 Mật độ phổ công suất chuẩn hóa tệp Nu03.wav, trên:phổ nguyên gốc, dƣới:
phổ đã xử lý MELP..................................................................................................... 48
Hình 3-8 Tín hiệu tiếng nói tệp Nam01_Noise30.wav, trên:tín hiệu nguyên gốc, dƣới:
tín hiệu đã xử lý MELP............................................................................................... 50
Hình 3-9 Mật độ phổ công suất chuẩn hóa tệp Nam01_Noise30.wav, trên:phổ nguyên
gốc, dƣới: phổ đã xử lý MELP.................................................................................... 50


1

MỞ ĐẦU
1.


Lý do chọn đề tài

Ngày nay, với sự phát triển của khoa học kỹ thuật có rất nhiều ứng dụng trong lĩnh
vực xử lý tiếng nói. Trong đó không thể không nhắc tới mã hóa tiếng nói, tiếng anh
nguyên gốc là Speech coding. Mã hóa tiếng nói đƣợc ứng dụng rộng rãi trong thông
tin di động, Voice IP, truyền tiếng nói qua sóng vô tuyến.
Mã hóa tiếng nói là biểu diễn lại tín hiệu tiếng nói đã đƣợc số hóa sử dụng số bít ít
hơn có thể với chất lƣợng âm thanh có thể chấp nhận. Mã hóa tiếng nói có thể gọi là
nén tiếng nói (speech compression).
Hƣớng nghiên cứu của luận văn tập trung vào mô hình thuật toán phân tích và tổng
hợp tiếng nói MELP, là một mô hình mã hóa tiếng nói. Mô hình này đƣợc sử dụng phổ
biến trong các thiết bị thông tin liên lạc vô tuyến quân sự. Nghiên cứu và làm chủ mô
hình MELP là hết sức quan trọng phục vụ sản xuất các thiết bị thông tin liên lạc vô
tuyến trong Quân sự, giúp giảm tốc độ truyền tiếng nói xuống 2400bps, do đó có thể
truyền đƣợc trong các môi trƣờng có nhiễu cao.
Xuất phát từ những lý do trên mà tôi đã chọn đề tài: “Nghiên cứu mô hình thuật
toán phân tích tổng hợp tiếng nói MELP”.
2.

Mục tiêu và nhiệm vụ nghiên cứu

Mục tiêu của luận văn này là tập trung vào nghiên cứu mô hình phân tích tổng hợp
tiếng nói MELP do đƣợc dùng nhiều trong các thiết bị thông tin liên lạc trong quân sự.
Mỹ có tiêu chuẩn liên quan đến MELP là MIL-STD-3005, Nato có tiêu chuẩn liên
quan là STANAG 4591:
3.

Phân tích tổng quan mã hóa tiếng nói.
Mô hình mã hóa tiếng nói MELP.
Phân tích, xây dựng, và triển khai thực thi thuật toán MELP trên Matlab.

Phân tích, đánh giá kết quả.
Đối tượng và phạm vi nghiên cứu

+ Đối tƣợng nghiên cứu
Tìm hiểu tổng quan mã hóa tiếng nói MELP.
+ Phạm vi nghiên cứu

Các vấn đề về mã hóa tiếng nói.
Thực thi thuật toán MELP trên Matlab.


2

4.

Phương pháp nghiên cứu

+ Phƣơng pháp nghiên cứu lý thuyết
Nghiên cứu tài liệu, ngôn ngữ và công nghệ liên quan.
Tổng hợp các tài liệu.
Phân tích và thiết kế hệ thống.
+ Phƣơng pháp nghiên cứu thực

nghiệm Thực thi thuật toán trên Matlab.
Đánh giá kết quả đạt đƣợc, đề xuất phƣơng án mở rộng kết quả nghiên cứu.
5.

Kết quả dự kiến

Thực thi thuật toán MELP trên Matlab, phục vụ nghiên cứu đánh giá thuật toán MELP.

6.

Ý nghĩa khoa học và thực tiễn của luận văn

+ Về mặt lý thuyết

Tìm hiểu tổng quan thuật toán mã hóa tiếng nói MELP.
Đề xuất khả năng triển khai thuật toán MELP trên các nền tảng số hiện nay nhƣ DSP,
FPGA.
+ Về mặt thực tiễn
Ứng dụng các công cụ, ngôn ngữ hỗ trợ để thực thi thuật toán MELP trên Matlab.
Kết quả của luận văn có thể áp dụng cho nhiều ứng dụng thực tiễn, đặc biệt trong
điều kiện ngành điện tử - viễn thông đang rất phát triển nhƣ hiện nay.
7.

Đặt tên đề tài

“NGHIÊN CỨU MÔ HÌNH THUẬT TOÁN PHÂN TÍCH VÀ TỔNG HỢP TIẾNG
NÓI MELP”
8.

Bố cục luận văn

Nội dung chính của luận văn đƣợc chia thành 4 chƣơng nhƣ sau:
Chƣơng 1: Tổng quan mã hóa tiếng nói
Chƣơng 2: Mô hình thuật toán MELP
Chƣơng 3: Thực thi thuật toán MELP trên Matlab
Chƣơng 4: Phân tích và đề xuất



3

Chương 1 - TỔNG QUAN MÃ HÓA TIẾNG NÓI
1.1 Giới thiệu chung
Ngày nay do sự bùng nổ của thông tin số, tiếng nói ngày càng đóng vai trò quan
trọng trong truyền tải thông tin. Bộ mã hóa tiếng nói đƣợc ứng dụng rộng rãi trong
thông tin di động, truyền tiếng nói qua nền tảng IP, truyền tiếng nói trên sóng vô tuyến.
Thêm vào đó là sự phát triển của ngành công nghệ điện tử giúp cho việc thực thi các
bộ mã hóa ngày càng nhanh và mạnh hơn. Bộ mã hóa tiếng nói phân tích tiếng nói
thành các tham số, lƣợng tự hóa chúng thành các bit dữ liệu sao cho đảm bảo bên thu
nhận đƣợc và tổng hợp lại thành tiếng nói với chất lƣợng chấp nhận đƣợc.
Cấu trúc của một hệ thống mã hóa tiếng nói ứng dụng trong thực tế.
Tiếng
nói đầu

Bộ
vào

Kênh

Giải mã
kênh

Hình 1-1 Hệ thống mã hóa tiếng nói
Nguồn tín hiệu tiếng nói tƣơng tự thời gian liên tục đƣợc đƣợc số hóa bằng cách
đƣa qua bộ lọc để loại bỏ các hài không thuộc dải tín hiệu tiếng nói, sau đó đi qua bộ lấy
mẫu biến đổi thành tín hiệu thời gian rời rạc, trƣớc khi đi qua bộ biến đổi tƣơng tự
- số (A/D converter). Đầu ra sau bộ biến đổi tƣơng tự - số là tín hiệu tiếng nói rời rạc
với các mẫu đã đƣợc số hóa, ta có thể gọi là tín hiệu tiếng nói số.


Hệ thống mã hóa tiếng nói đƣợc thiết kế cho các ứng dụng truyền thông cùng
với tần số đƣợc giới hạn 300Hz đến 3400Hz. Theo định lý lấy mẫu Nyquist, tần số lấy


mẫu thông thƣờng đƣợc chọn để lấy mẫu tín hiệu tiếng nói là 8kHz. Để lƣợng tử hóa
các mẫu của tín hiệu tiếng nói có thể dùng 8-bit/mẫu, hoặc 16-bit/mẫu để có chất
lƣợng tốt hơn.


4
Ta có thể tính toán tốc độ bít của tiếng nói đầu vào: Bit-rate = 8kHz x 16 bits =
128 kbps
Nhƣ vậy để có thể truyền tải đƣợc tín hiệu tiếng nói này kênh truyền phải có
tốc độ tối thiểu là 128 kbps. Tốc độ bít này là tốc độ bít đầu ra sau bộ biến đổi A/D.
Tín hiệu đầu ra của bộ mã hóa nguồn (Encoder) đƣợc mã hóa có tốc độ bít thấp hơn
đầu vào, giả sử là 2.4 kbps, nhƣ vậy nó giảm đi 53 lần so với đầu vào. Tín hiệu này sẽ
đƣợc qua bộ mã hóa kênh rồi đƣa lên kênh truyền, tại phía thu của kênh truyền sẽ có
bộ giải mã tín hiệu trên kênh truyền trƣớc khi đƣa tín hiệu có tốc độ 2.4 kbps vào bộ
giải mã nguồn (Decoder) sẽ giải mã và đƣa ra tín hiệu đã đƣợc giải mã với tốc độ 128
kbps trƣớc khi qua bộ biến đổi số-tƣơng tự để thành tín hiệu liên tục, tiếp theo tín hiệu
đƣợc đƣa qua bộ lọc.
Vậy với một bộ mã hóa tiếng nói mà ta quan tâm có thể đƣợc rút gọn lại nhƣ
sau:

Tín hiệu vào
(128kbps)

Hình 1-2 Bộ mã hóa tiếng nói
Ta có thể thấy rằng tín hiệu vào ở tốc độ 128kbps sau khi qua bộ mã hóa sẽ giảm
tốc độ bit xuống <<128kbps và luồng bit này sẽ đƣợc đƣa qua bộ giải mã để khôi

phục lại tín hiệu tiếng nói có tốc độ bit là 128kbps.
1.2 Phân loại các bộ mã hóa tiếng nói
1.2.1 Phân loại theo tốc độ bít
Bảng 1-1 Phân loại bộ mã hóa tiếng nói theo tốc độ bit
Phân loại
Tốc độ bít cao
Tốc độ bít trung bình
Tốc độ bit thấp
Tốc độ bít rất thấp
Theo bảng này thì các kỹ thuật mã hóa sẽ đƣa ra các tốc độ bít khác nhau, chất
lƣợng của tiếng nói sau khi giải mã sẽ phụ thuộc rất nhiều vào tốc độ mã hóa. Chất
lƣợng tiếng nói sẽ tỷ lệ nghịch với tốc độ bít. Hiện nay thì các bộ mã hóa tiếng nói


5
thông thƣờng cho chất lƣợng tốt ở tốc độ trên 2kbps và cao hơn, cá biệt một số bộ mã
hóa có thể đƣa tốc độ bít xuống 600bps.
1.2.2 Phân loại theo kỹ thuật mã hóa
Các bộ mã hóa đường bao (waveform coders)
Các bộ mã hóa này tập trung vào việc bảo toàn đƣờng bao của tín hiệu và có thể sử
dụng cho nguồn tín hiệu bất kỳ. Các bộ mã hóa này tốt hơn khi mã với tốc độ bít cao, hiệu
năng mã hóa có thể giảm nhiều khi giảm tốc độ bít. Thông thƣờng các bộ mã hóa này làm
việc tốt nhất ở tốc độ 32kbps hoặc cao hơn. Tỷ lệ tín trên tạp là tham số để đo chất lƣợng
của các bộ mã hóa đƣờng bao. Một số ví dụ cho các bộ mã hóa kiểu này nhƣ PCM (Pulse
Code Modulation), và ADPCM (Adaptive Differential PCM).

Các bộ mã hóa tham số (Parametric Coders)
Tín hiệu tiếng nói giả định đƣợc tạo ra từ mô hình, mô hình này đƣợc điều
khiển bới một vài tham số. Trong suốt quá trình mã hóa, các tham số của mô hình
đƣợc ƣớc lƣợng từ tín hiệu tiếng nói, và các tham số này đƣợc truyền đi. Các bộ mã

hóa tham số này không bảo toàn đƣợc hình dạng đƣờng bao gốc của tiếng nói, và tỷ lệ
tín trên tạp thƣờng dùng để đo chất lƣợng. Chất lƣợng của tiếng nói đƣợc giải mã liên
quan trực tiếp đến độ chính xác và sự phức tạp của mô hình. Bởi sự giới hạn này, bộ
mã hóa này dành riêng cho tín hiệu riêng biệt nhƣ tiếng nói, hiệu năng rất tồi cho các
tín hiệu không phải tiếng nói.
Có một vài mô hình đƣợc công bố, về cơ bản đều dựa vào mô hình dự đoán
tuyến tính. Xét gần đùng, bộ tạo tiếng nói con ngƣời sử dụng một bộ lọc thời gian thay
đổi, cùng với các hệ số của bộ lọc đƣợc tìm ra khi dùng bộ phân tích dự đoán tuyến
tính.
Các bộ mã hóa tiếng nói dạng tham số này làm việc tốt với tốc độ bít thấp. Tăng
tốc độ bít thông thƣờng không tăng chất lƣợng lên nhiều, nó bị giới hạn bởi việc chọn
lựa mô hình. Tốc độ bít chuẩn từ 2 – 5kbps. Ví dụ cho các bộ mã hóa tiếng nói này
nhƣ LPC (linear prediction coding), MELP (mixed excitation linear prediction).
MELP là mô hình mà ta sẽ nghiên cứu trong khuân khổ luận văn này.
Các bộ mã hóa lai (Hybrid Coders)
Một bộ mã hóa lai là kết hợp sức mạnh của một bộ mã hóa đƣờng bao cùng với
một bộ mã hóa tham số. Giống nhƣ một bộ mã hóa tham số, nó sử dụng một mô hình sản
sinh tiếng nói, trong suốt quá trình mã hóa tiếng nói, các tham số của mô hình đƣợc lƣu
giữ. Các tham số thêm vào của mô hình đƣợc tối ƣu theo cách của bộ giải mã


6
là gần nhất có thể với dạng sóng nguyên gốc, sự gần giống này đƣợc đo bởi hệ số
phần trăm độ lỗi tín hiệu.
Các bộ mã hóa này thƣờng làm việc với tốc độ bít trung bình, ví dụ CELP
(Code-Excited Linear Prediction).
1.3 Ứng dụng của các bộ mã hóa tiếng nói
Có rất nhiều tiêu chuẩn mã hóa tiếng nói đƣợc thiết kế cho các ứng dụng thực tế,
ví dụ:
FS1015 LPC: mô hình này đƣợc tạo ra từ năm 1984 để cung cấp truyền thông bảo

mật cho các ứng dụng quân sự. Trên chiến trƣờng, các thông điệp phải đƣợc gửi đi sao
cho đối phƣơng không thể hiểu đƣợc chúng, thông qua một mô hình nén bảo mật.

TIA IS54 VSELP: mô hình này đƣợc tiêu chuẩn hóa từ năm 1989 cho hệ thống
điện thoại di động số TDMA ở Bắc Mỹ.
ETSI AMR ACELP: mô hình này đƣợc chuẩn hóa năm 1999, là một phần của hệ
thống viễn thông di động toàn cầu (UMTS) liên kết với 3GPP.
1.4 Tiếng nói và mô hình hóa
Trƣớc khi chuyển sang chƣơng 2 nghiên cứu về mô hình thuật toán mã hóa tiếng
nói MELP chúng ta tìm hiểu nguồn gốc tiếng nói, các loại tiếng nói, và mô hình hóa
của một hệ thống tạo tiếng nói.
Nguồn gốc tiếng nói
Dạng sóng của tiếng nói là sóng áp suất âm thanh đƣợc điều khiển bởi chuyển
động của các kết cấu của hệ thống tạo tiếng nói của con ngƣời. Một cấu trúc đƣợc đơn
giản hóa thể hiện trên hình 1-3. Tiếng nói tạo ra từ sóng âm đƣợc đƣa ra từ mũi và
mồm, khi không khí đƣợc phát ra từ phổi. Ba khoang của hệ thống tạo tiếng nói là
khoang mũi, khoang miệng, khoang họng tạo lên các thành phần chính của bộ lọc âm
thanh. Bộ lọc này đƣợc kích thích bởi không khí từ phổi và đƣợc đƣa ra qua môi.


7

Hình 1-3 Hệ thống tạo tiếng nói của người
Rãnh âm miệng (vocal tract) liên quan đến họng và hốc mồm đƣợc liên kết lại.
Rãnh âm mũi (nasal tract) bắt đầu ở vòm miệng mềm và kết thúc ở các lỗ mũi. Khi
vòm miệng là thấp, âm mũi liên kết với âm miệng để sinh ra các âm thanh mũi của
tiếng nói.
Khung mẫu và hình dạng của âm miệng và âm mũi thay đổi liên tục theo thời
gian, tạo ra một bộ lọc âm có đáp ứng tần số thời gian thay đổi. Không khí từ phổi qua
các bộ phận phát âm, phổ tần số đƣợc tạo ra bởi sự lựa chọn tần số của các bộ phần

phát âm này. Các tần số cộng hƣởng của bộ tạo âm miệng đƣợc gọi là tần số thành tố
(formant frequancies) hay gọi gắn gọn là các thành tố, nó phụ thuộc vào hình dạng và
độ dài của bộ phận tạo ra âm miệng.
Bên trong thanh quản là một bộ phận quan trọng nhất của hệ thống tạo ra tiếng
nói là dây âm thanh. Dây âm thanh là một cặp của các cơ đang hồi và màng nhầy, là
cái sẽ đóng mở cực nhanh trong suốt quá trình tạo ra tiếng nói. Tốc độ đóng mở dây
âm thanh là tùy thuộc mỗi ngƣời.
Tiếng nói có thể đƣợc phân loại thành không phải tiếng nói (unvoiced) và tiếng
nói (voiced). Tiếng nói đƣợc tạo ra khi dây âm thanh rung khi không khí từ phổi ra bị
ngắt quãng có chu kỳ, tạo ra các xung tuần tự kích thích bộ phận tạo ra rãnh âm miệng.
Khi dây thanh quan ít di chuyển, sự nhiễu loạn này đƣợc tạo bởi không khí đi qua nút
thắt của bộ tạo âm thanh sẽ gây ra âm vô thanh.


8

Hình 1-4 Tiếng nói và không phải tiếng nói
Trong miền thời gian, âm hữu thanh đặc tính bởi sự có chu kỳ trong tín hiệu,
cùng với tần số cơ sở gọi là tần số pitch hay gọi gắn gọn là pitch. Với nam giới pitch
trong khoảng từ 50 đến 250Hz, trong khi phụ nữ thông thƣờng từ 120 đến 500Hz. Trái
với âm hữu thanh, âm vô thanh không có đặc tính chu kỳ trong tín hiệu, tín hiệu có
tính chất ngẫu nhiên.
Hình 1-4 đƣa ra một ví dụ về dạng sóng tín hiệu âm thanh, gồm cả tiếng nói và
không phải tiếng nói. Nhìn vào khung tiếng nói ta có thể thấy rõ dàng tính chu kỳ
trong miền thời gian, tín hiệu lặp lại trong một chu kỳ định sẵn. Trong miền tần số, cấu
trúc của các hài là có thể quan sát đƣợc rõ ràng. Phổ tần số chỉ thị tín hiệu tần số thấp
đó chính là giá trị tần số pitch. Với khung không phải tiếng nói, tín hiệu là ngẫu nhiên.
Phổ tần số của nó có rất nhiều các thành phần tần số cao, biểu hiện sự thay đổi tín hiệu
nhanh.



9
Việc phân loại tiếng nói và không phải tiếng nói là rất cần thiết nhƣng nó thực
sự khó khăn và không rõ ràng với mọi khung dữ liệu, có khung dữ liệu là sự chuyển
tiếp từ tiếng nói sang không phải tiếng nói và ngƣợc lại nên việc quyết định và tiếng
nói hay không phải tiếng nói là rất khó.
Hầu hết các bộ mã hóa tiếng nói, tín hiệu đƣợc xử lý trên cơ sở các khung dữ
liệu nối tiếp nhau, một khung có một số xác định mẫu. Độ dài của khung đƣợc lựa
chọn theo cách thông kê tính bất biến gần nhƣ nguyên vẹn tín hiệu trong một khoảng
thời gian. Độ dài này cho tín hiệu tiếng nói thông thƣờng là từ 20ms đến 30ms, hoặc
160 mẫu đến 240 mẫu khi lấy mẫu 8kHz.
1.5 Mô hình hóa hệ thống tạo tiếng nói
Hệ thống tạo tiếng nói của con ngƣời có thể đƣơc mô hình hóa sử dụng một cấu
trúc đơn giản hơn: phổi- tạo ra không khí hoặc năng lƣợng để kích thích rãnh âm
miệng- đƣợc trình diễn bởi nguồn nhiễu trắng. Tất cả các thành phần đƣờng sóng âm
trong cơ thể liên quan đến bộ lọc thay đổi theo thời gian.
Bộ tạo
nhiễu trắng

Phổi

-Khí quản
- yết hầu
- khoang mũi
- vòng họng
- lỗ mũi
- mồm

Hình 1-5 Cấu trúc bộ tạo tiếng nói được đơn giản
Mô hình đơn giản này là cấu trúc cốt lỗi của nhiểu thuật toán mã hóa tiếng nói.

Sự dụng lý thuyết về dự đoán tuyến tính có thể ƣớc lƣợng các tham số của bộ lọc thay
đổi theo thời gian từ tín hiệu đƣợc quan sát.
Sự giả định của mô hình là sự phân bố năng lƣợng của tín hiệu tiếng nói trong
miền tần số hoàn toàn phụ thuộc vào bộ lọc thay đổi theo thời gian, cùng với phổi tạo
ra tín hiệu kích thích là nhiễu trắng phổ phẳng.
Tiếp theo chúng ta sẽ nghiên cứu mô hình thuật toán mã hóa tiếng nói MELP.


10

Chương 2 - MÔ HÌNH THUẬT TOÁN MELP
2.1 Mô hình tạo tiếng nói MELP
2.1.1 Mô hình tạo tiếng nói LPC
Trƣớc khi đi vào nghiên cứu mô hình tạo tiếng nói MELP chúng ta tìm hiểu mô
hình tạo tiếng nói LPC. MELP là một sự phát triển từ LPC để khắc phục một số nhƣợc
điểm của LPC cũng nhƣ nâng cao chất lƣợng của mô hình.
Pitch

Bộ tạo
xung

Bộ tạo
nhiễu trắng

Hình 2-1 Mô hình tạo tiếng nói LPC
Mô hình này dựa trên sự quan sát các đặc tính của tính hiệu tiếng nói và cố
gắng bắt chƣớc sao cho giống nhất với bộ phận tạo tiếng nói của con ngƣời. Kết hợp
của luồng âm, rãnh âm, và khẩu hình của môi đƣợc mô hình bằng bộ lọc tổng hợp.
Đầu vào của bộ lọc hay còn gọi là tín hiệu kích thích đƣợc mô hình hóa bởi xung tác
động (âm tiếng nói – voiced speech) hoặc nhiễu ngẫu nhiên (không phải âm tiếng nói unvoiced speech). Công tắc chọn sẽ phụ thuộc đâu là âm thanh và đâu không phải âm

thanh để chuyển mạch. Mức năng lƣợng đầu ra sẽ đƣợc điều khiển bởi tham số độ lợi.
Các mẫu âm thanh sẽ đƣợc chia thành các khung dữ liệu không chồng lấn
trƣớc khi đƣa vào xử lý. Độ dài của khung đƣợc xác định sao cho các đặc tính của tín
hiệu giữ không đổi. Các tham số của mô hình đƣợc ƣớc lƣợng từ các mẫu tiếng nói
theo từng khung, các tham số đó là:
-

Voicing: xác định khung này là tiếng nói hay không phải tiếng nói.
Gain: mức năng lƣợng của khung.
Filter coefficients: các tham số của bộ lọc tổng hợp.
Pitch period: độ dài thời gian giữa các xung kích thích liên tiếp.


Các tham số này đƣợc phân tích lặp đi lặp lại mỗi khung dữ liệu và chúng sẽ
đƣợc truyền đi thay thế các mẫu tiếng nói của khung. Thay vì gửi các mẫu của khung
ta gửi đi các tham số đƣợc phân tích ra vì thế tùy thuộc vào tốc độ bit muốn đạt đƣợc


11
mà chúng ta phải chịu mất mát về chất lƣợng của tín hiệu. Tuy nhiên, tạo lại âm thanh
chất lƣợng cao trong một số trƣờng hợp là không cần thiết, mục tiêu chính vấn là làm
sao giảm tốc độ truyền cho nên tiếng nói tổng hợp lại là chấp nhận đƣợc.
Bộ mã hóa đóng vài trò thực hiện việc ƣớc lƣợng các tham số, bộ giải mã sẽ
nhận các tham số này và tổng hợp ra tiếng nói. Tiếng nói dùng cùng bộ tham số và
điều kiện khởi tạo bộ lọc là khác so với đầu vào do bộ tạo nhiễu là ngẫu nhiên. Mật độ
phổ công suất của tiếng nói gốc đƣợc lấy ra bởi bộ lọc tổng hợp, mặc dù mật độ phổ
công suất của tiếng nói đƣợc tổng hợp là gần giống với nguyên bản do phổ phẳng của
đầu vào kích thích. Nguyên lý này cũng bỏ qua tất cả thông tin về pha của tín hiệu gốc
và chỉ giữ lại độ lớn của phổ tần số. Âm thanh đƣợc tổng hợp sẽ giống nguyên gốc vì
pha ít ảnh hƣởng đến thông tin.





Chuỗi xung kích thích cho bƣởi: i=−∞

δ [n − iT ]

Với
Với T là hằng số dƣơng. Chu kỳ xung kích thích tạo chu kỳ trong dạng sóng ra
có mật độ phổ công suất giống với tín hiệu âm thanh.
Các hệ số của bộ lọc tổng hợp phải đƣợc lƣợng tử và truyền đi, chỉ một vài hệ
số đƣợc tính toán để đảm bảo tốc độ bit thấp. Với mô hình LPC ta chỉ cần 10 hệ số là
đủ để tổng hợp lại tiếng nói. Nếu sử dụng nhiều hơn 10 hệ số thì chất lƣợng của bộ lọc
càng tốt, nhƣng chúng ta sẽ phải trả giá về số lƣợng bít cần để lƣợng tử các hệ số này.
Thực tế chứng minh chỉ cần 10 hệ số bộ giải mã sẽ tổng hợp lại tiếng nói với chất
lƣợng chấp nhận đƣợc.
2.1.2 Mô hình tạo tiếng nói MELP
Mô hình tạo tiếng nói MELP đƣợc thể hiện ở hình 2-2, mô hình này cải tiến mô
hình LPC trƣớc đó. So sánh với sơ đồ khối chức năng của mô hình LPC, rõ ràng
MELP phức tạp hơn. Tuy nhiên, hai mô hình này có điểm giống nhau; nhƣ cùng có bộ
lọc tổng hợp xử lý tín hiệu kích thích để tạo ra tiếng nói tổng hợp.

Chu kỳ
Pitch


Tiếng

voicing

strengths

Hình 2-2 Mô hình tạo tiếng nói MELP
Hoạt động của mô hình tạo tiếng nói MELP cơ bản giống LPC, có một số thay
đổi để cải thiện chất lƣợng. Bộ tạo xung sẽ tạo ra các xung có chu kỳ thay đổi theo
pitch và jitter, dãy xung đi qua bộ lọc tạo xung và tới bộ lọc tạo hình xung, đồng thời
nhánh thứ 2 bộ tạo nhiễu trắng tạo nhiễu đƣa tới bộ lọc tạo hình nhiễu. Hai tín hiệu
này đƣợc cộng lại trƣớc khi cho đi qua bộ lọc tổng hợp, tín hiệu tiếng nói đƣợc tổng
hợp sau bộ lọc sẽ đƣợc thay đổi độ lợi bới gain.
Các điểm cải tiến chính của MELP so với LPC:
+ Một giá trị chu kỳ jitter được tạo ra ngẫu nhiên sử dụng để làm thay đổi giá trị

Pitch period phục vụ việc tạo dãy xung không theo chu kỳ.
Một trong những giới hạn của LPC là sự phân loại rõ ràng một khung tiếng nói
thành hai loại: tiếng nói và không phải tiếng nói. MELP mở rộng số loại thành 3: tiếng
nói, không phải tiếng nói, và tiếng nói jittery (jittery voiced). Trạng thái tiếng nói
jittery là khi sự kích thích là không theo chu kỳ nhƣng không hoàn toàn là ngẫu nhiên,
đây sẽ thƣờng là các đoạn chuyển tiếp tiếng nói. Trạng thái tiếng nói biến đổi đƣợc
điều khiển trong mô hình MELP bởi tham số chu kỳ jitter và thƣờng là một số ngẫu
nhiên. Kinh nghiệm cho thấy thông thƣờng chu kỳ biến đổi là biến đổi ±25% giá trị
của chu kỳ pitch cho kết quả tốt.
+ Hình dạng của xung kích thích tuần hoàn được lấy ra từ tín hiệu tiếng nói đầu vào

và được truyền đi như là một thông tin trên khung dữ liệu.
Trong LPC, âm thanh kích thích bao gồm một dãy các xung tác động; các xung
tác động này có hình dạng lý tƣởng không đổi, nó khác xa với thực tế của tiếng nói.
Hình dạng của xung bao gồm các thông tin quan trọng và đƣợc phân tích ra bởi bộ mã
hóa MELP thông qua các đại lƣợng Fourier của lỗi dự đoán. Các đại lƣợng đƣợc sử



13
dụng để tạo ra đáp ứng xung của bộ lọc tạo xung, đáp ứng cho sự tổng hợp các kích
thích có chu kỳ.
+ Kích thích có chu kỳ và kích thích nhiễu được lọc bởi bộ lọc hình xung và bộ lọc

hình nhiễu, đầu ra của các bộ lọc này được cộng với nhau thành kích thích tổng, hay
còn gọi là kích thích đã trộn, các phần của nhiễu và xung tác động được trộn cùng
nhau.
Điều này cốt lõi của mô hình MELP và nó đƣợc dựa trên cơ sở sự quan sát thực
tế, chuỗi lỗi dự đoán là kết hợp của một xung tác động cùng với nhiễu. Do đó, mô hình
MELP có tính thực tế hơn mô hình LPC khi kích thích chỉ là do xung tác động hoặc
nhiễu.
Đáp ứng tần số của các bộ lọc đƣờng bao đƣợc điều khiển bởi một tập các
tham số đƣợc gọi là voicing strengths, đƣợc đo bằng “voicedness”. Các đáp ứng của
các bộ lọc là thay đổi theo thời gian, cùng với các tham số đƣợc ƣớc lƣợng từ tín hiệu
tiếng nói đầu vào, và đƣợc truyền nhƣ thông tin của khung dữ liệu.
2.1.3 Mô hình thuật toán phân tích và tổng hợp tiếng nói MELP
Ta xét cấu trúc của một bộ mã hóa tiếng nói nói chung, nó gồm hai thành phần
chính là bộ mã hóa và bộ giải mã. Bộ mã hóa gồm các thuật toán phân tích các tham số
của tín hiệu tiếng nói đầu vào, đóng gói thành dòng bit tƣơng ứng dựa trên các tham
số phân tích đƣợc. Bộ giải mã gồm các thuật toán tổng hợp tiếng nói từ các tham số
nhận đƣợc từ dòng bit.

Tiếng
nói
PCM
đầu vào

Dòng bit



Hình 2-3 Cấu trúc chung của một bộ mã hóa tiếng nói


×