(Luận văn thạc sĩ) nghiên cứu mô hình thuật toán phân tích tổng hợp tiếng nói MELP

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.47 MB, 63 trang )

i

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐINH VĂN NGỌC

NGHIÊN CỨU MƠ HÌNH THUẬT TỐN PHÂN TÍCH
VÀ TỔNG HỢP TIẾNG NĨI MELP

LUẬN VĂN THẠC SĨ CƠNG NGHỆ ĐIỆN TỬ - VIỄN THÔNG

Hà Nội – 2014

ii

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐINH VĂN NGỌC

NGHIÊN CỨU MƠ HÌNH THUẬT TỐN PHÂN TÍCH
VÀ TỔNG HỢP TIẾNG NĨI MELP
Ngành: Cơng nghệ Điện tử - Viễn thông
Chuyên ngành: Kỹ thuật Điện tử
Mã số: 60 52 02 03

LUẬN VĂN THẠC SĨ CÔNG NGHỆ ĐIỆN TỬ - VIỄN THÔNG

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. TRẦN ĐỨC TÂN

Hà Nội – 2014

iii
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc cơng bố
trong bất kỳ cơng trình nào khác.

Tác giả

Đinh Văn Ngọc

iv

MỤC LỤC

MỤC LỤC ......................................................................................................................iv
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ....................................................vi
DANH MỤC BẢNG ................................................................................................... viii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ..................................................................... viii
MỞ ĐẦU ......................................................................................................................... 1
Chƣơng 1 - TỔNG QUAN MÃ HÓA TIẾNG NÓI ........................................................ 3
1.1 Giới thiệu chung ....................................................................................................3
1.2 Phân loại các bộ mã hóa tiếng nói .........................................................................4
1.2.1 Phân loại theo tốc độ bít .................................................................................4
1.2.2 Phân loại theo kỹ thuật mã hóa ......................................................................5
1.3 Ứng dụng của các bộ mã hóa tiếng nói .................................................................6

1.4 Tiếng nói và mơ hình hóa ...................................................................................... 6
1.5 Mơ hình hóa hệ thống tạo tiếng nói .......................................................................9
Chƣơng 2 - MƠ HÌNH THUẬT TỐN MELP ............................................................ 10
2.1 Mơ hình tạo tiếng nói MELP ...............................................................................10
2.1.1 Mơ hình tạo tiếng nói LPC ...........................................................................10
2.1.2 Mơ hình tạo tiếng nói MELP ........................................................................11
2.1.3 Mơ hình thuật tốn phân tích và tổng hợp tiếng nói MELP ......................... 13
2.2 Các thuật tốn phân tích tiếng nói MELP ........................................................... 17
2.2.1 Tính tốn Pitch: pitch nguyên, pitch thập phân, pitch cuối cùng .................17
2.2.2 Phân tích Bandpass voicing ..........................................................................20
2.2.3 Xác định cờ Aperiodic ..................................................................................21
2.2.4 Phân tích LP .................................................................................................22
2.2.5 Tính tốn Peakness ....................................................................................... 27
2.2.6 Tính tốn Gain .............................................................................................. 28

v
2.2.7 Tính tốn các đại lƣợng Fourier ...................................................................29
2.2.8 Lƣợng tử các tham số: LPC, Pitch, Gain, Bandpass voicing, các đại lƣợng
Fourier ................................................................................................................... 31
2.3 Các thuật tốn tổng hợp tiếng nói MELP ............................................................ 34
2.3.1 Giải mã và nội suy các tham số ....................................................................34
2.3.2 Tạo tính hiệu Mixed excitation ....................................................................35
2.3.3 Cải thiện phổ thích nghi ...............................................................................38
2.3.4 Tổng hợp LP .................................................................................................39
2.3.5 Thay đổi Gain ............................................................................................... 39
2.3.6 Phân tán xung ............................................................................................... 39
Chƣơng 3 - THỰC THI MƠ HÌNH THUẬT TỐN MELP TRÊN MATLAB ...........41
3.1 Thực thi MELP trên Matlab ................................................................................41
3.2 Cấu trúc tệp ..........................................................................................................43

3.3 Đánh giá kết quả ..................................................................................................45
Chƣơng 4 - PHÂN TÍCH VÀ ĐỀ XUẤT .....................................................................51
KẾT LUẬN ................................................................................................................... 53
DANH MỤC CƠNG TRÌNH KHOA HỌC ..................................................................54
TÀI LIỆU THAM KHẢO ............................................................................................. 54

vi

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Từ viết tắt

Tiếng Anh đầy đủ

Nghĩa tiếng Việt
Dự án đối tác thứ 3

3GPP

The 3rd Generation Partnership
Project

ACELP

Algebraic code-excited linear
prediction

Dự đốn tuyến tính mã kích thích
mã đại số

ACR

Absolute category rating

Tỉ lệ phân loại tuyệt đối

ADPCM

Adaptive differential pulse code
modulation

Điều chế mã xung sai phân thích
nghi

APCM

Adaptive pulse code modulation

Điều chế mã xung thích nghi

AR

Autoregressive

Tự hồi quy

ARMA

Autoregressive moving average

Trung bình dịch chuyển tự hồi quy

CCR

Comparison category rating

Tỉ lệ phân loại so sánh

CELP

Code-excited linear prediction

Dự đốn tuyến tính mã kích thích

CS-ACELP

Conjugate structure algebraic
code-excited linear prediction

Dự đốn tuyến tính mã kích thích
đại số cấu trúc liên hợp

DC

Direct current

Dịng một chiều

DFT

Discrete Fourier transform

Biến đổi Fourier rời rạc
Điều chế mã xung sai phân

DPCM

Differential pulse code
modulation

Xử lý tín hiệu số

DSP

Digital signal
processing/processor

DTFT

Discrete time Fourier transform

Biến đổi Fourier thời gian rời rạc

FFT

Fast Fourier transform

Biến đổi Fourier nhanh

FIR

Finite impulse response

Đáp ứng xung hữu hạn

FM

Frequency modulation

Điều tần

FS 1015

Federal Standard 1015

Chuẩn liên bang 1015
Biến đổi Fourier rời rạc nghịch đảo

IDFT

Inverse discrete Fourier
transform

IIR

Infinite impulse response

Đáp ứng xung vô hạn

LD-CELP

Low-delay code-excited linear
prediction

Dự đốn tuyến tính mã kích thích trễ
thấp

LMS

Least mean square

Bình phƣơng trung bình tối thiểu

vii

LP

Linear prediction

Dự đốn tuyến tính
Mã hóa dự đốn tuyến tính

LPC

Linear prediction
coding/coefficient

MSE

Mean square error

Sai số bình phƣơng trung bình

MSVQ

Multistage vector quantization

Lƣợng tử hóa vector đa lớp

PCM

Pulse code modulation

Điều chế mã xung

PESQ

Perceptual evaluation of speech
quality

Đánh giá cảm nhận về chất lƣợng
thoại

PG

Prediction gain

Độ lợi dự đoán
Đo đạc chất lƣợng thoại

PSQM

Perceptual speech quality
measure

PVQ

Predictive vector quantization

Lƣợng tử hóa vec-tơ dự đốn

QCELP

Qualcomm code-excited linear
prediction

Dự đốn tuyến tính kích thích mã
Qualcomm

RC

Reflection coefficient

Hệ số phản xạ

RV

Random variable

Biến ngẫu nhiên

RF

Radio frequency

Tần số ra đi ô

SD

Spectral distortion

Sự biến dạng phổ

SNR

Signal to noise ratio

Tỉ lệ tín hiệu trên nhiễu

UMTS

Universal Mobile
Telecommunications Service

Hệ thống viễn thơng di động tồn
cầu

VSCELP

Vector sum excited linear
prediction

Dự đốn tuyến tính kích thích tổng
véc tơ

VoIP

Voice over internet protocol

Truyền âm qua giao thức internet

VQ

Vector quantization

Lƣợng tử hóa véc-tơ

viii

DANH MỤC BẢNG
Bảng 1-1 Phân loại bộ mã hóa tiếng nói theo tốc độ bit .................................................4
Bảng 2-1 Cấp phát bit của mã hóa MELP .....................................................................16
Bảng 2-2 Thứ tự các bit trong khung truyền dữ liệu MELP .........................................16
Bảng 2-3 Mã hóa/Giải mã pitch và voicing strength tần thấp .......................................31
Bảng 2-4 Các hệ số bộ lọc cho 5 dải thông ...................................................................37
Bảng 2-5 Hệ số bộ lọc phân tán xung............................................................................40
Bảng 3-1 Các mẫu âm thanh dùng đề đánh giá MELP .................................................46
Bảng 3-2 Kết quả đánh giá bằng công cụ PESQ ........................................................... 46

Bảng 3-3 Các tệp mẫu âm thanh có nhiễu .....................................................................49
Bảng 3-4 Kết quả đánh giá bằng công cụ PESQ ........................................................... 49
Bảng 4-1 Kết quả sau khi đề xuất thay đổi ....................................................................52

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1-1 Hệ thống mã hóa tiếng nói ...............................................................................3
Hình 1-2 Bộ mã hóa tiếng nói ......................................................................................... 4
Hình 1-3 Hệ thống tạo tiếng nói của ngƣời .....................................................................7
Hình 1-4 Tiếng nói và khơng phải tiếng nói ...................................................................8
Hình 1-5 Cấu trúc bộ tạo tiếng nói đƣợc đơn giản .......................................................... 9
Hình 2-1 Mơ hình tạo tiếng nói LPC .............................................................................10
Hình 2-2 Mơ hình tạo tiếng nói MELP .........................................................................12
Hình 2-3 Cấu trúc chung của một bộ mã hóa tiếng nói .................................................13
Hình 2-4 Bộ mã hóa MELP ........................................................................................... 14
Hình 2-5 Bộ giải mã MELP........................................................................................... 15
Hình 2-6 Tính chu kỳ pitch ........................................................................................... 18
Hình 2-7 Tính tốn Voicing strengths ...........................................................................21
Hình 2-8 Một số tín hiệu và peakness của nó................................................................ 28

ix
Hình 2-9 Tính tốn các đại lƣợng Fourier .....................................................................29
Hình 2-10 Q trình tạo kích thích xung .......................................................................35
Hình 2-11 Bộ lọc tạo hình ............................................................................................. 37
Hình 3-1 Mơ hình thực thi MELP trên Matlab.............................................................. 41
Hình 3-2 Lƣu đồ thực thi bộ mã hóa MELP. ................................................................ 42
Hình 3-3 Lƣu đồ thực thi bộ giải mã MELP. ................................................................ 42
Hình 3-4 Tín hiệu tiếng nói tệp Nam03.wav, trên: tín hiệu nguyên gốc, dƣới: tín hiệu
đã xử lý MELP ..............................................................................................................47
Hình 3-5 Mật độ phổ cơng suất chuẩn hóa tệp Nam03.wav, trên: phổ nguyên gốc,

dƣới: phổ đã xử lý MELP .............................................................................................. 47
Hình 3-6 Tín hiệu tiếng nói tệp Nu03.wav, trên:tín hiệu nguyên gốc, dƣới: tín hiệu đã
xử lý MELP ................................................................................................................... 48
Hình 3-7 Mật độ phổ cơng suất chuẩn hóa tệp Nu03.wav, trên:phổ nguyên gốc, dƣới:
phổ đã xử lý MELP .......................................................................................................48
Hình 3-8 Tín hiệu tiếng nói tệp Nam01_Noise30.wav, trên:tín hiệu nguyên gốc, dƣới:
tín hiệu đã xử lý MELP .................................................................................................50
Hình 3-9 Mật độ phổ cơng suất chuẩn hóa tệp Nam01_Noise30.wav, trên:phổ nguyên
gốc, dƣới: phổ đã xử lý MELP ...................................................................................... 50

1

MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, với sự phát triển của khoa học kỹ thuật có rất nhiều ứng dụng trong lĩnh
vực xử lý tiếng nói. Trong đó khơng thể khơng nhắc tới mã hóa tiếng nói, tiếng anh
nguyên gốc là Speech coding. Mã hóa tiếng nói đƣợc ứng dụng rộng rãi trong thông
tin di động, Voice IP, truyền tiếng nói qua sóng vơ tuyến.
Mã hóa tiếng nói là biểu diễn lại tín hiệu tiếng nói đã đƣợc số hóa sử dụng số bít ít
hơn có thể với chất lƣợng âm thanh có thể chấp nhận. Mã hóa tiếng nói có thể gọi là
nén tiếng nói (speech compression).
Hƣớng nghiên cứu của luận văn tập trung vào mơ hình thuật tốn phân tích và tổng
hợp tiếng nói MELP, là một mơ hình mã hóa tiếng nói. Mơ hình này đƣợc sử dụng phổ
biến trong các thiết bị thông tin liên lạc vô tuyến quân sự. Nghiên cứu và làm chủ mơ
hình MELP là hết sức quan trọng phục vụ sản xuất các thiết bị thông tin liên lạc vô
tuyến trong Quân sự, giúp giảm tốc độ truyền tiếng nói xuống 2400bps, do đó có thể
truyền đƣợc trong các mơi trƣờng có nhiễu cao.
Xuất phát từ những lý do trên mà tơi đã chọn đề tài: “Nghiên cứu mơ hình thuật
tốn phân tích tổng hợp tiếng nói MELP”.

2. Mục tiêu và nhiệm vụ nghiên cứu
Mục tiêu của luận văn này là tập trung vào nghiên cứu mơ hình phân tích tổng hợp
tiếng nói MELP do đƣợc dùng nhiều trong các thiết bị thơng tin liên lạc trong qn sự.
Mỹ có tiêu chuẩn liên quan đến MELP là MIL-STD-3005, Nato có tiêu chuẩn liên
quan là STANAG 4591:

3.

Phân tích tổng quan mã hóa tiếng nói.
Mơ hình mã hóa tiếng nói MELP.
Phân tích, xây dựng, và triển khai thực thi thuật toán MELP trên Matlab.
Phân tích, đánh giá kết quả.
Đối tượng và phạm vi nghiên cứu

+ Đối tƣợng nghiên cứu
Tìm hiểu tổng quan mã hóa tiếng nói MELP.
+ Phạm vi nghiên cứu
Các vấn đề về mã hóa tiếng nói.
Thực thi thuật tốn MELP trên Matlab.

2

4. Phương pháp nghiên cứu
+ Phƣơng pháp nghiên cứu lý thuyết
Nghiên cứu tài liệu, ngôn ngữ và công nghệ liên quan.
Tổng hợp các tài liệu.
Phân tích và thiết kế hệ thống.
+ Phƣơng pháp nghiên cứu thực nghiệm

Thực thi thuật toán trên Matlab.
Đánh giá kết quả đạt đƣợc, đề xuất phƣơng án mở rộng kết quả nghiên cứu.

5. Kết quả dự kiến
Thực thi thuật toán MELP trên Matlab, phục vụ nghiên cứu đánh giá thuật toán MELP.

6. Ý nghĩa khoa học và thực tiễn của luận văn
+ Về mặt lý thuyết
Tìm hiểu tổng quan thuật tốn mã hóa tiếng nói MELP.
Đề xuất khả năng triển khai thuật toán MELP trên các nền tảng số hiện nay nhƣ DSP,
FPGA.
+ Về mặt thực tiễn
Ứng dụng các công cụ, ngôn ngữ hỗ trợ để thực thi thuật toán MELP trên Matlab.
Kết quả của luận văn có thể áp dụng cho nhiều ứng dụng thực tiễn, đặc biệt trong
điều kiện ngành điện tử - viễn thông đang rất phát triển nhƣ hiện nay.

7. Đặt tên đề tài
“NGHIÊN CỨU MƠ HÌNH THUẬT TỐN PHÂN TÍCH VÀ TỔNG HỢP TIẾNG
NĨI MELP”

8. Bố cục luận văn
Nội dung chính của luận văn đƣợc chia thành 4 chƣơng nhƣ sau:
Chƣơng 1: Tổng quan mã hóa tiếng nói
Chƣơng 2: Mơ hình thuật toán MELP
Chƣơng 3: Thực thi thuật toán MELP trên Matlab
Chƣơng 4: Phân tích và đề xuất

3

Chương 1 - TỔNG QUAN MÃ HÓA TIẾNG NÓI
1.1 Giới thiệu chung
Ngày nay do sự bùng nổ của thông tin số, tiếng nói ngày càng đóng vai trị quan
trọng trong truyền tải thơng tin. Bộ mã hóa tiếng nói đƣợc ứng dụng rộng rãi trong
thông tin di động, truyền tiếng nói qua nền tảng IP, truyền tiếng nói trên sóng vơ
tuyến. Thêm vào đó là sự phát triển của ngành công nghệ điện tử giúp cho việc thực
thi các bộ mã hóa ngày càng nhanh và mạnh hơn. Bộ mã hóa tiếng nói phân tích tiếng
nói thành các tham số, lƣợng tự hóa chúng thành các bit dữ liệu sao cho đảm bảo bên
thu nhận đƣợc và tổng hợp lại thành tiếng nói với chất lƣợng chấp nhận đƣợc.
Cấu trúc của một hệ thống mã hóa tiếng nói ứng dụng trong thực tế.
Tiếng
nói đầu
vào

Bộ lọc

Lấy mẫu

Chuyển
đổi
A/D

Mã hóa
nguồn

Mã hóa
kênh

Bộ lọc

Tiếng
nói đầu
ra

Kênh

Giải mã
kênh

Giải mã
nguồn

Chuyển
đổi
D/A

Hình 1-1 Hệ thống mã hóa tiếng nói
Nguồn tín hiệu tiếng nói tƣơng tự thời gian liên tục đƣợc đƣợc số hóa bằng cách
đƣa qua bộ lọc để loại bỏ các hài khơng thuộc dải tín hiệu tiếng nói, sau đó đi qua bộ
lấy mẫu biến đổi thành tín hiệu thời gian rời rạc, trƣớc khi đi qua bộ biến đổi tƣơng tự
- số (A/D converter). Đầu ra sau bộ biến đổi tƣơng tự - số là tín hiệu tiếng nói rời rạc
với các mẫu đã đƣợc số hóa, ta có thể gọi là tín hiệu tiếng nói số.
Hệ thống mã hóa tiếng nói đƣợc thiết kế cho các ứng dụng truyền thông cùng
với tần số đƣợc giới hạn 300Hz đến 3400Hz. Theo định lý lấy mẫu Nyquist, tần số lấy
mẫu thơng thƣờng đƣợc chọn để lấy mẫu tín hiệu tiếng nói là 8kHz. Để lƣợng tử hóa
các mẫu của tín hiệu tiếng nói có thể dùng 8-bit/mẫu, hoặc 16-bit/mẫu để có chất
lƣợng tốt hơn.

4

Ta có thể tính tốn tốc độ bít của tiếng nói đầu vào: Bit-rate = 8kHz x 16 bits =
128 kbps
Nhƣ vậy để có thể truyền tải đƣợc tín hiệu tiếng nói này kênh truyền phải có tốc
độ tối thiểu là 128 kbps. Tốc độ bít này là tốc độ bít đầu ra sau bộ biến đổi A/D. Tín
hiệu đầu ra của bộ mã hóa nguồn (Encoder) đƣợc mã hóa có tốc độ bít thấp hơn đầu
vào, giả sử là 2.4 kbps, nhƣ vậy nó giảm đi 53 lần so với đầu vào. Tín hiệu này sẽ
đƣợc qua bộ mã hóa kênh rồi đƣa lên kênh truyền, tại phía thu của kênh truyền sẽ có
bộ giải mã tín hiệu trên kênh truyền trƣớc khi đƣa tín hiệu có tốc độ 2.4 kbps vào bộ
giải mã nguồn (Decoder) sẽ giải mã và đƣa ra tín hiệu đã đƣợc giải mã với tốc độ 128
kbps trƣớc khi qua bộ biến đổi số-tƣơng tự để thành tín hiệu liên tục, tiếp theo tín hiệu
đƣợc đƣa qua bộ lọc.
Vậy với một bộ mã hóa tiếng nói mà ta quan tâm có thể đƣợc rút gọn lại nhƣ
sau:
Tín hiệu vào
(128kbps)

Bộ mã
hóa

Dịng bit đã mã hóa
(<<128kbps)

Bộ giải
mã

Tín hiệu ra
(128kbps)

Hình 1-2 Bộ mã hóa tiếng nói
Ta có thể thấy rằng tín hiệu vào ở tốc độ 128kbps sau khi qua bộ mã hóa sẽ giảm

tốc độ bit xuống <<128kbps và luồng bit này sẽ đƣợc đƣa qua bộ giải mã để khơi phục
lại tín hiệu tiếng nói có tốc độ bit là 128kbps.
1.2 Phân loại các bộ mã hóa tiếng nói
1.2.1 Phân loại theo tốc độ bít
Bảng 1-1 Phân loại bộ mã hóa tiếng nói theo tốc độ bit
Phân loại

Tốc độ bít

Tốc độ bít cao

>15kbps

Tốc độ bít trung bình

5 – 15kbps

Tốc độ bit thấp

2 – 5kbps

Tốc độ bít rất thấp

<2kbps

Theo bảng này thì các kỹ thuật mã hóa sẽ đƣa ra các tốc độ bít khác nhau, chất
lƣợng của tiếng nói sau khi giải mã sẽ phụ thuộc rất nhiều vào tốc độ mã hóa. Chất
lƣợng tiếng nói sẽ tỷ lệ nghịch với tốc độ bít. Hiện nay thì các bộ mã hóa tiếng nói

5
thông thƣờng cho chất lƣợng tốt ở tốc độ trên 2kbps và cao hơn, cá biệt một số bộ mã
hóa có thể đƣa tốc độ bít xuống 600bps.
1.2.2 Phân loại theo kỹ thuật mã hóa
Các bộ mã hóa đường bao (waveform coders)
Các bộ mã hóa này tập trung vào việc bảo tồn đƣờng bao của tín hiệu và có thể
sử dụng cho nguồn tín hiệu bất kỳ. Các bộ mã hóa này tốt hơn khi mã với tốc độ bít
cao, hiệu năng mã hóa có thể giảm nhiều khi giảm tốc độ bít. Thơng thƣờng các bộ mã
hóa này làm việc tốt nhất ở tốc độ 32kbps hoặc cao hơn. Tỷ lệ tín trên tạp là tham số
để đo chất lƣợng của các bộ mã hóa đƣờng bao. Một số ví dụ cho các bộ mã hóa kiểu
này nhƣ PCM (Pulse Code Modulation), và ADPCM (Adaptive Differential PCM).
Các bộ mã hóa tham số (Parametric Coders)
Tín hiệu tiếng nói giả định đƣợc tạo ra từ mơ hình, mơ hình này đƣợc điều
khiển bới một vài tham số. Trong suốt quá trình mã hóa, các tham số của mơ hình
đƣợc ƣớc lƣợng từ tín hiệu tiếng nói, và các tham số này đƣợc truyền đi. Các bộ mã
hóa tham số này khơng bảo tồn đƣợc hình dạng đƣờng bao gốc của tiếng nói, và tỷ lệ
tín trên tạp thƣờng dùng để đo chất lƣợng. Chất lƣợng của tiếng nói đƣợc giải mã liên
quan trực tiếp đến độ chính xác và sự phức tạp của mơ hình. Bởi sự giới hạn này, bộ
mã hóa này dành riêng cho tín hiệu riêng biệt nhƣ tiếng nói, hiệu năng rất tồi cho các
tín hiệu khơng phải tiếng nói.
Có một vài mơ hình đƣợc cơng bố, về cơ bản đều dựa vào mơ hình dự đốn
tuyến tính. Xét gần đùng, bộ tạo tiếng nói con ngƣời sử dụng một bộ lọc thời gian thay
đổi, cùng với các hệ số của bộ lọc đƣợc tìm ra khi dùng bộ phân tích dự đốn tuyến
tính.
Các bộ mã hóa tiếng nói dạng tham số này làm việc tốt với tốc độ bít thấp. Tăng
tốc độ bít thơng thƣờng khơng tăng chất lƣợng lên nhiều, nó bị giới hạn bởi việc chọn
lựa mơ hình. Tốc độ bít chuẩn từ 2 – 5kbps. Ví dụ cho các bộ mã hóa tiếng nói này
nhƣ LPC (linear prediction coding), MELP (mixed excitation linear prediction). MELP
là mơ hình mà ta sẽ nghiên cứu trong khuân khổ luận văn này.
Các bộ mã hóa lai (Hybrid Coders)

Một bộ mã hóa lai là kết hợp sức mạnh của một bộ mã hóa đƣờng bao cùng với
một bộ mã hóa tham số. Giống nhƣ một bộ mã hóa tham số, nó sử dụng một mơ hình
sản sinh tiếng nói, trong suốt q trình mã hóa tiếng nói, các tham số của mơ hình
đƣợc lƣu giữ. Các tham số thêm vào của mơ hình đƣợc tối ƣu theo cách của bộ giải mã

6
là gần nhất có thể với dạng sóng nguyên gốc, sự gần giống này đƣợc đo bởi hệ số phần
trăm độ lỗi tín hiệu.
Các bộ mã hóa này thƣờng làm việc với tốc độ bít trung bình, ví dụ CELP (CodeExcited Linear Prediction).
1.3 Ứng dụng của các bộ mã hóa tiếng nói
Có rất nhiều tiêu chuẩn mã hóa tiếng nói đƣợc thiết kế cho các ứng dụng thực tế,
ví dụ:
FS1015 LPC: mơ hình này đƣợc tạo ra từ năm 1984 để cung cấp truyền thông
bảo mật cho các ứng dụng quân sự. Trên chiến trƣờng, các thông điệp phải đƣợc gửi đi
sao cho đối phƣơng không thể hiểu đƣợc chúng, thơng qua một mơ hình nén bảo mật.
TIA IS54 VSELP: mơ hình này đƣợc tiêu chuẩn hóa từ năm 1989 cho hệ thống
điện thoại di động số TDMA ở Bắc Mỹ.
ETSI AMR ACELP: mơ hình này đƣợc chuẩn hóa năm 1999, là một phần của hệ
thống viễn thông di động tồn cầu (UMTS) liên kết với 3GPP.
1.4 Tiếng nói và mơ hình hóa
Trƣớc khi chuyển sang chƣơng 2 nghiên cứu về mơ hình thuật tốn mã hóa tiếng
nói MELP chúng ta tìm hiểu nguồn gốc tiếng nói, các loại tiếng nói, và mơ hình hóa
của một hệ thống tạo tiếng nói.
Nguồn gốc tiếng nói
Dạng sóng của tiếng nói là sóng áp suất âm thanh đƣợc điều khiển bởi chuyển
động của các kết cấu của hệ thống tạo tiếng nói của con ngƣời. Một cấu trúc đƣợc đơn
giản hóa thể hiện trên hình 1-3. Tiếng nói tạo ra từ sóng âm đƣợc đƣa ra từ mũi và
mồm, khi khơng khí đƣợc phát ra từ phổi. Ba khoang của hệ thống tạo tiếng nói là
khoang mũi, khoang miệng, khoang họng tạo lên các thành phần chính của bộ lọc âm

thanh. Bộ lọc này đƣợc kích thích bởi khơng khí từ phổi và đƣợc đƣa ra qua môi.

7

Hình 1-3 Hệ thống tạo tiếng nói của người
Rãnh âm miệng (vocal tract) liên quan đến họng và hốc mồm đƣợc liên kết lại.
Rãnh âm mũi (nasal tract) bắt đầu ở vòm miệng mềm và kết thúc ở các lỗ mũi. Khi
vòm miệng là thấp, âm mũi liên kết với âm miệng để sinh ra các âm thanh mũi của
tiếng nói.
Khung mẫu và hình dạng của âm miệng và âm mũi thay đổi liên tục theo thời
gian, tạo ra một bộ lọc âm có đáp ứng tần số thời gian thay đổi. Khơng khí từ phổi qua
các bộ phận phát âm, phổ tần số đƣợc tạo ra bởi sự lựa chọn tần số của các bộ phần
phát âm này. Các tần số cộng hƣởng của bộ tạo âm miệng đƣợc gọi là tần số thành tố
(formant frequancies) hay gọi gắn gọn là các thành tố, nó phụ thuộc vào hình dạng và
độ dài của bộ phận tạo ra âm miệng.
Bên trong thanh quản là một bộ phận quan trọng nhất của hệ thống tạo ra tiếng
nói là dây âm thanh. Dây âm thanh là một cặp của các cơ đang hồi và màng nhầy, là
cái sẽ đóng mở cực nhanh trong suốt q trình tạo ra tiếng nói. Tốc độ đóng mở dây
âm thanh là tùy thuộc mỗi ngƣời.
Tiếng nói có thể đƣợc phân loại thành khơng phải tiếng nói (unvoiced) và tiếng
nói (voiced). Tiếng nói đƣợc tạo ra khi dây âm thanh rung khi khơng khí từ phổi ra bị
ngắt quãng có chu kỳ, tạo ra các xung tuần tự kích thích bộ phận tạo ra rãnh âm miệng.
Khi dây thanh quan ít di chuyển, sự nhiễu loạn này đƣợc tạo bởi khơng khí đi qua nút
thắt của bộ tạo âm thanh sẽ gây ra âm vô thanh.

8

Hình 1-4 Tiếng nói và khơng phải tiếng nói

Trong miền thời gian, âm hữu thanh đặc tính bởi sự có chu kỳ trong tín hiệu,
cùng với tần số cơ sở gọi là tần số pitch hay gọi gắn gọn là pitch. Với nam giới pitch
trong khoảng từ 50 đến 250Hz, trong khi phụ nữ thông thƣờng từ 120 đến 500Hz. Trái
với âm hữu thanh, âm vơ thanh khơng có đặc tính chu kỳ trong tín hiệu, tín hiệu có
tính chất ngẫu nhiên.
Hình 1-4 đƣa ra một ví dụ về dạng sóng tín hiệu âm thanh, gồm cả tiếng nói và
khơng phải tiếng nói. Nhìn vào khung tiếng nói ta có thể thấy rõ dàng tính chu kỳ
trong miền thời gian, tín hiệu lặp lại trong một chu kỳ định sẵn. Trong miền tần số, cấu
trúc của các hài là có thể quan sát đƣợc rõ ràng. Phổ tần số chỉ thị tín hiệu tần số thấp
đó chính là giá trị tần số pitch. Với khung khơng phải tiếng nói, tín hiệu là ngẫu nhiên.
Phổ tần số của nó có rất nhiều các thành phần tần số cao, biểu hiện sự thay đổi tín hiệu
nhanh.

9
Việc phân loại tiếng nói và khơng phải tiếng nói là rất cần thiết nhƣng nó thực
sự khó khăn và khơng rõ ràng với mọi khung dữ liệu, có khung dữ liệu là sự chuyển
tiếp từ tiếng nói sang khơng phải tiếng nói và ngƣợc lại nên việc quyết định và tiếng
nói hay khơng phải tiếng nói là rất khó.
Hầu hết các bộ mã hóa tiếng nói, tín hiệu đƣợc xử lý trên cơ sở các khung dữ liệu
nối tiếp nhau, một khung có một số xác định mẫu. Độ dài của khung đƣợc lựa chọn
theo cách thơng kê tính bất biến gần nhƣ nguyên vẹn tín hiệu trong một khoảng thời
gian. Độ dài này cho tín hiệu tiếng nói thông thƣờng là từ 20ms đến 30ms, hoặc 160
mẫu đến 240 mẫu khi lấy mẫu 8kHz.
1.5 Mơ hình hóa hệ thống tạo tiếng nói
Hệ thống tạo tiếng nói của con ngƣời có thể đƣơc mơ hình hóa sử dụng một cấu
trúc đơn giản hơn: phổi- tạo ra khơng khí hoặc năng lƣợng để kích thích rãnh âm
miệng- đƣợc trình diễn bởi nguồn nhiễu trắng. Tất cả các thành phần đƣờng sóng âm
trong cơ thể liên quan đến bộ lọc thay đổi theo thời gian.
Bộ tạo

nhiễu trắng

Phổi

Bộ lọc thay
đổi theo
thời gian

Tiếng nói

-Khí quản
- yết hầu
- khoang mũi
- vịng họng
- lỗ mũi
- mồm

Hình 1-5 Cấu trúc bộ tạo tiếng nói được đơn giản
Mơ hình đơn giản này là cấu trúc cốt lỗi của nhiểu thuật tốn mã hóa tiếng nói.
Sự dụng lý thuyết về dự đốn tuyến tính có thể ƣớc lƣợng các tham số của bộ lọc thay
đổi theo thời gian từ tín hiệu đƣợc quan sát.
Sự giả định của mơ hình là sự phân bố năng lƣợng của tín hiệu tiếng nói trong
miền tần số hồn tồn phụ thuộc vào bộ lọc thay đổi theo thời gian, cùng với phổi tạo
ra tín hiệu kích thích là nhiễu trắng phổ phẳng.
Tiếp theo chúng ta sẽ nghiên cứu mơ hình thuật tốn mã hóa tiếng nói MELP.

10

Chương 2 - MƠ HÌNH THUẬT TỐN MELP

2.1 Mơ hình tạo tiếng nói MELP
2.1.1 Mơ hình tạo tiếng nói LPC
Trƣớc khi đi vào nghiên cứu mơ hình tạo tiếng nói MELP chúng ta tìm hiểu mơ
hình tạo tiếng nói LPC. MELP là một sự phát triển từ LPC để khắc phục một số nhƣợc
điểm của LPC cũng nhƣ nâng cao chất lƣợng của mơ hình.
Pitch

Bộ tạo
xung

Chuyển
mạch
voiced /
unvoiced

Bộ tạo
nhiễu trắng

Bộ lọc tổng
hợp

Gain
Voicing

Tiếng nói

Các hệ số
bộ lọc

Hình 2-1 Mơ hình tạo tiếng nói LPC

Mơ hình này dựa trên sự quan sát các đặc tính của tính hiệu tiếng nói và cố
gắng bắt chƣớc sao cho giống nhất với bộ phận tạo tiếng nói của con ngƣời. Kết hợp
của luồng âm, rãnh âm, và khẩu hình của mơi đƣợc mơ hình bằng bộ lọc tổng hợp.
Đầu vào của bộ lọc hay còn gọi là tín hiệu kích thích đƣợc mơ hình hóa bởi xung tác
động (âm tiếng nói – voiced speech) hoặc nhiễu ngẫu nhiên (khơng phải âm tiếng nói unvoiced speech). Cơng tắc chọn sẽ phụ thuộc đâu là âm thanh và đâu không phải âm
thanh để chuyển mạch. Mức năng lƣợng đầu ra sẽ đƣợc điều khiển bởi tham số độ lợi.
Các mẫu âm thanh sẽ đƣợc chia thành các khung dữ liệu không chồng lấn trƣớc
khi đƣa vào xử lý. Độ dài của khung đƣợc xác định sao cho các đặc tính của tín hiệu
giữ khơng đổi. Các tham số của mơ hình đƣợc ƣớc lƣợng từ các mẫu tiếng nói theo
từng khung, các tham số đó là:
-

Voicing: xác định khung này là tiếng nói hay khơng phải tiếng nói.
Gain: mức năng lƣợng của khung.
Filter coefficients: các tham số của bộ lọc tổng hợp.
Pitch period: độ dài thời gian giữa các xung kích thích liên tiếp.

Các tham số này đƣợc phân tích lặp đi lặp lại mỗi khung dữ liệu và chúng sẽ
đƣợc truyền đi thay thế các mẫu tiếng nói của khung. Thay vì gửi các mẫu của khung
ta gửi đi các tham số đƣợc phân tích ra vì thế tùy thuộc vào tốc độ bit muốn đạt đƣợc

11
mà chúng ta phải chịu mất mát về chất lƣợng của tín hiệu. Tuy nhiên, tạo lại âm thanh
chất lƣợng cao trong một số trƣờng hợp là không cần thiết, mục tiêu chính vấn là làm
sao giảm tốc độ truyền cho nên tiếng nói tổng hợp lại là chấp nhận đƣợc.
Bộ mã hóa đóng vài trị thực hiện việc ƣớc lƣợng các tham số, bộ giải mã sẽ
nhận các tham số này và tổng hợp ra tiếng nói. Tiếng nói dùng cùng bộ tham số và
điều kiện khởi tạo bộ lọc là khác so với đầu vào do bộ tạo nhiễu là ngẫu nhiên. Mật độ
phổ công suất của tiếng nói gốc đƣợc lấy ra bởi bộ lọc tổng hợp, mặc dù mật độ phổ

cơng suất của tiếng nói đƣợc tổng hợp là gần giống với nguyên bản do phổ phẳng của
đầu vào kích thích. Nguyên lý này cũng bỏ qua tất cả thơng tin về pha của tín hiệu gốc
và chỉ giữ lại độ lớn của phổ tần số. Âm thanh đƣợc tổng hợp sẽ giống nguyên gốc vì
pha ít ảnh hƣởng đến thông tin.


Chuỗi xung kích thích cho bƣởi:

1
0

  n  
Với

   n  iT 

i 

n0
n0

Với T là hằng số dƣơng. Chu kỳ xung kích thích tạo chu kỳ trong dạng sóng ra
có mật độ phổ cơng suất giống với tín hiệu âm thanh.
Các hệ số của bộ lọc tổng hợp phải đƣợc lƣợng tử và truyền đi, chỉ một vài hệ
số đƣợc tính tốn để đảm bảo tốc độ bit thấp. Với mơ hình LPC ta chỉ cần 10 hệ số là
đủ để tổng hợp lại tiếng nói. Nếu sử dụng nhiều hơn 10 hệ số thì chất lƣợng của bộ lọc
càng tốt, nhƣng chúng ta sẽ phải trả giá về số lƣợng bít cần để lƣợng tử các hệ số này.
Thực tế chứng minh chỉ cần 10 hệ số bộ giải mã sẽ tổng hợp lại tiếng nói với chất
lƣợng chấp nhận đƣợc.
2.1.2 Mơ hình tạo tiếng nói MELP

Mơ hình tạo tiếng nói MELP đƣợc thể hiện ở hình 2-2, mơ hình này cải tiến mơ
hình LPC trƣớc đó. So sánh với sơ đồ khối chức năng của mơ hình LPC, rõ ràng
MELP phức tạp hơn. Tuy nhiên, hai mơ hình này có điểm giống nhau; nhƣ cùng có bộ
lọc tổng hợp xử lý tín hiệu kích thích để tạo ra tiếng nói tổng hợp.

12

Chu kỳ jitter
Đáp ứng xung

Chu kỳ
Pitch
Bộ tạo
xung

Bộ lọc
tạo
xung

Bộ lọc
tạo hình
xung

Các hệ số
lọc
Gain
Bộ lọc
tổng
hợp

voicing
strengths
Bộ tạo
nhiễu
trắng

Tiếng
nói

Bộ lọc
tạo hình
nhiễu

Hình 2-2 Mơ hình tạo tiếng nói MELP
Hoạt động của mơ hình tạo tiếng nói MELP cơ bản giống LPC, có một số thay
đổi để cải thiện chất lƣợng. Bộ tạo xung sẽ tạo ra các xung có chu kỳ thay đổi theo
pitch và jitter, dãy xung đi qua bộ lọc tạo xung và tới bộ lọc tạo hình xung, đồng thời
nhánh thứ 2 bộ tạo nhiễu trắng tạo nhiễu đƣa tới bộ lọc tạo hình nhiễu. Hai tín hiệu này
đƣợc cộng lại trƣớc khi cho đi qua bộ lọc tổng hợp, tín hiệu tiếng nói đƣợc tổng hợp
sau bộ lọc sẽ đƣợc thay đổi độ lợi bới gain.
Các điểm cải tiến chính của MELP so với LPC:
+ Một giá trị chu kỳ jitter được tạo ra ngẫu nhiên sử dụng để làm thay đổi giá trị
Pitch period phục vụ việc tạo dãy xung không theo chu kỳ.
Một trong những giới hạn của LPC là sự phân loại rõ ràng một khung tiếng nói
thành hai loại: tiếng nói và khơng phải tiếng nói. MELP mở rộng số loại thành 3: tiếng
nói, khơng phải tiếng nói, và tiếng nói jittery (jittery voiced). Trạng thái tiếng nói
jittery là khi sự kích thích là khơng theo chu kỳ nhƣng khơng hồn tồn là ngẫu nhiên,
đây sẽ thƣờng là các đoạn chuyển tiếp tiếng nói. Trạng thái tiếng nói biến đổi đƣợc
điều khiển trong mơ hình MELP bởi tham số chu kỳ jitter và thƣờng là một số ngẫu

nhiên. Kinh nghiệm cho thấy thông thƣờng chu kỳ biến đổi là biến đổi ±25% giá trị
của chu kỳ pitch cho kết quả tốt.
+ Hình dạng của xung kích thích tuần hồn được lấy ra từ tín hiệu tiếng nói đầu vào
và được truyền đi như là một thông tin trên khung dữ liệu.
Trong LPC, âm thanh kích thích bao gồm một dãy các xung tác động; các xung
tác động này có hình dạng lý tƣởng khơng đổi, nó khác xa với thực tế của tiếng nói.
Hình dạng của xung bao gồm các thơng tin quan trọng và đƣợc phân tích ra bởi bộ mã
hóa MELP thơng qua các đại lƣợng Fourier của lỗi dự đoán. Các đại lƣợng đƣợc sử

13
dụng để tạo ra đáp ứng xung của bộ lọc tạo xung, đáp ứng cho sự tổng hợp các kích
thích có chu kỳ.
+ Kích thích có chu kỳ và kích thích nhiễu được lọc bởi bộ lọc hình xung và bộ lọc
hình nhiễu, đầu ra của các bộ lọc này được cộng với nhau thành kích thích tổng, hay
cịn gọi là kích thích đã trộn, các phần của nhiễu và xung tác động được trộn cùng
nhau.
Điều này cốt lõi của mơ hình MELP và nó đƣợc dựa trên cơ sở sự quan sát thực
tế, chuỗi lỗi dự đoán là kết hợp của một xung tác động cùng với nhiễu. Do đó, mơ hình
MELP có tính thực tế hơn mơ hình LPC khi kích thích chỉ là do xung tác động hoặc
nhiễu.
Đáp ứng tần số của các bộ lọc đƣờng bao đƣợc điều khiển bởi một tập các tham
số đƣợc gọi là voicing strengths, đƣợc đo bằng “voicedness”. Các đáp ứng của các bộ
lọc là thay đổi theo thời gian, cùng với các tham số đƣợc ƣớc lƣợng từ tín hiệu tiếng
nói đầu vào, và đƣợc truyền nhƣ thơng tin của khung dữ liệu.
2.1.3 Mơ hình thuật tốn phân tích và tổng hợp tiếng nói MELP
Ta xét cấu trúc của một bộ mã hóa tiếng nói nói chung, nó gồm hai thành phần
chính là bộ mã hóa và bộ giải mã. Bộ mã hóa gồm các thuật tốn phân tích các tham số
của tín hiệu tiếng nói đầu vào, đóng gói thành dòng bit tƣơng ứng dựa trên các tham số
phân tích đƣợc. Bộ giải mã gồm các thuật tốn tổng hợp tiếng nói từ các tham số nhận

đƣợc từ dịng bit.
Phân tích và xử lý
Tiếng
nói
PCM
đầu vào

Tách,
mã hóa
tham số
1

Tách,
mã hóa
tham số
2

……
…

Tách,
mã hóa
tham số
N
Dịng bit

Đóng gói
Dịng bit

Mở gói

Giải mã
tham số
1

Giải mã
tham số
2

……
…

Tổng hợp và xử lý

Giải mã
tham số
N

Tiếng
nói
PCM
đầu ra

Hình 2-3 Cấu trúc chung của một bộ mã hóa tiếng nói

14
Tất cả các bộ mã hóa tiếng nói kiểu theo số đều tuân theo cấu trúc chung nhƣ
trên, ở đây ta có thể kể đến các bộ mã hóa tiếng nói nhƣ LPC, MELP, CELP …
Bộ mã hóa MELP bao gồm các thành phần chính như hình 2-4.

Tính tốn đại
lượng Fourier

Mã hóa đại
lượng Fourier

Phân tích LP

Tính tốn VS

Mã hóa VS
băng thơng

Tính tốn Gain

Mã hóa LPC

Bộ lọc sai số
dự đốn

Ước lượng
Pitch period
cuối cùng

Mã hóa Gain

Giải mã LPC

Quyết định cờ
Aperiodic

Mã hóa
VS tần thấp/
Pitch period

Cờ Aperiodic

Chỉ số VS băng thấp
/ Pitch period

Chỉ số đại lượng Fourier

Ước lượng
pitch period
bước 1

Chỉ số gain

Phân đoạn
khung

Các chỉ số VS băng
thơng

Chỉ số LPC

Tiếng nói
PCM đầu
vào

Đóng gói
Luồng bit MELP

Hình 2-4 Bộ mã hóa MELP
Hình 2-4 cho thấy bộ mã hóa MELP bao gồm một số các thuật tốn cho phép
phân tích ra các tham số của khung tiếng nói:
-

Chỉ số LPC: 10 hệ số của bộ lọc LPC đã đƣợc lƣợng tử hóa.
Cờ Aperiodic: cờ xác định khung jitter.
Chu kỳ Pitch và Voicing strength băng thấp đƣợc phân tích và lƣợng tử hóa
cùng nhau.
Các Voicing strengths (từ 2-5) đƣợc phân tích và lƣợng tử trƣớc khi đƣa xuống
luồng bit.
Chỉ số Gain: chỉ số độ lợi của khung dữ liệu đã đƣợc lƣợng tử hóa.
Chỉ số đại lƣợng Fourier: 10 đại lƣợng Fourier đã đƣợc lƣợng tử hóa.

Các thuật tốn được sử dụng để phân tích trong bộ mã hóa MELP:
-

Tính tốn pitch: gồm tính pitch ngun, pitch thập phân, pitch cuối cùng.
Phân tích Bandpass voicing.

15

-

-

Xác định cờ Aperiodic.
Phân tích LP.
Tính tốn Peakness.
Tính tốn Gain.
Tính toán các đại lƣợng Fourier.
Lƣợng tử các tham số: LPC, Pitch, Gain, Bandpass voicing, các đại lƣợng
Fourier.
Bộ giải mã MELP gồm các thành phần chính như hình 2-5.
Mở gói
Chỉ số đại
lượng
Fourier

Chỉ số VS
băng thấp/
Pitch period

Giải mã và nội
suy đại lượng
Fourier

Cờ Aperiodic

Giải mã VS
băng thấp /
Pitch period

Chỉ số VS
băng thông

Tham số bộ
lọc định hình

Nội suy Pitch
period

Sinh và nội suy
Jitter

Bộ tạo xung

Điều chỉnh chu
kỳ pitch

Bộ lọc định
hình xung

Hệ số lọc định
hình xung

Bộ tạo nhiễu
trắng

Lọc định hình
nhiễu

Chỉ số gain

Chỉ số LPC

Luồng bit
MELP

Giải mã và nội
suy gain

Giải mã và nội
suy LPC

Bộ lọc nâng
cao phổ

Bộ lọc tổng
hợp
y[n]

Tiếng nói tổng hợp

Bộ lọc phân
tán xung

g0

Tính tốn hệ
số tỷ lệ

g

Hình 2-5 Bộ giải mã MELP
Tại bộ giải mã MELP, luồng bit đƣợc tách ra các tham số theo từng khung. Các

tham số này đƣợc tính tốn, nơi suy thành các đầu vào các thuật toán tổng hợp.
-

Giải mã và nội suy các tham số.
Tạo tính hiệu kích thích đƣợc trộn.
Cải thiện phổ thích nghi.
Tổng hợp LP.
Thay đổi gain.
Phân tán xung.
Các u cầu của mơ hình phân tích và tổng hợp tiếng nói:

16

-

Tín hiệu đầu vào: 100-3800Hz
Biến đổi A/D: 16-bit (-32768 đến +32767)
Chu kỳ khung dữ liệu: 22.5ms ± 0.01%
Số mẫu trong khung: 180
Tần số lấy mẫu: 8kHz
Số bit trên một khung MELP: 54-bit
Tốc độ luồng bit ra: 2400bps
Chi tiết các bít trong khung dữ liệu MELP 54-bit:
Bảng 2-1 Cấp phát bit của mã hóa MELP
Tham số

Âm
thanh Khơng
âm

(voiced)
thanh
(unvoiced)

LPC

25

25

Pitch period/ VS băng thấp

7

7

VS băng thông

4

-

Gain thứ nhất g1

3

3

Gain thứ hai g2

5

5

Cờ Aperiodic

1

-

Đại lƣợng Fourier

8

-

Đồng bộ hóa

1

1

Bảo vệ lỗi

-

13

Tổng cộng (bit):

54

54

Bảng 2-1 cho chúng ta biết sự cấp phát bit cho khung dữ liệu MELP, sự khác
nhau giữa các khung voiced và unvoiced chủ yếu nằm ở các bit bảo vệ lỗi.
Thứ tự các bit trong khung đƣợc truyền đi:
Bảng 2-2 Thứ tự các bit trong khung truyền dữ liệu MELP
Bit

Voiced

Unvoiced

Bit

Voiced

Unvoiced Bit

Voiced

Unvoiced

1

G(2)-1

G(2)-1

19

LSF(1)-7

LSF(1)-7 37

G(1)-1

G(1)-1

2

BP-1

FEC(1)-1

20

LSF(4)-6

LSF(4)-6 38

BP-3

FEC(1)-3

3

P-1

P-1

21

P-4

P-4

BP-2

FEC(1)-2

4

LSF(2)-1

LSF(2)-1

22

LSF(1)-6

LSF(1)-6 40

LSF(2)-2

LSF(2)-2

5

LSF(3)-1

LSF(3)-1

23

LSF(1)-5

LSF(1)-5 41

LSF(3)-4

LSF(3)-4

6

G(2)-4

G(2)-4

24

LSF(2)-6

LSF(2)-6 42

LSF(2)-3

LSF(2)-3

(Luận văn thạc sĩ) nghiên cứu mô hình thuật toán phân tích tổng hợp tiếng nói MELP

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về