Tải bản đầy đủ (.docx) (24 trang)

Mã hóa tiếng nói trong di động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (480.18 KB, 24 trang )

1 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Khoa Viễn Thông 1

----------

TIỂU LUẬN

MÃ HÓA TIẾNG NÓI
TRONG DI ĐỘNG
Giảng viên:
Sinh viên thực hiện:
Mã sinh viên:

Hà nội, tháng 4 năm 2016


2 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

2

LỜI MỞ ĐẦU
Trong thời đại ngày nay, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật thì nhu
cầu trao đổi thông tin của con người cũng ngày càng tăng lên.từ lúc đầu chỉ giao tiếp ,tương


tác thông qua các văn bản giấy tờ, ngày nay nhu cầu sử dụng tiếng nói trong truyền thông,
tương tác người và máy càng trở nên cấp thiết hơn.Vì vậy một lĩnh vực kỹ thuật mới đã ra
đời, đó là mã hóa tiếng nói.
Tiếng nói như một phương tiện chúng ta sử dụng hàng ngày,nhờ có tiếng nói ta có thể
biểu hiện những tâm tư, tình cảm, suy nghĩ của mình ,giúp chúng ta giao tiếp,làm việc với
mọi người xung quanh.Khi các phương pháp mã hóa ra đời và đạt được những thành tựu
đáng kể và các ứng dụng của việc mã hóa tiếng nói được áp dụng trong rất nhiều các lĩnh
vực khác nhau trong xã hội thì ta không thể không kể đến việc mã hóa tiếng nói trong thông
tin di động ngày nay.Việc mã hoá tiếng nói là rất cần thiết ,giúp giảm thiểu số lượng tín
hiệu trên đường truyền nhưng vẫn đảm bảo chất lượng cuộc gọi. Trong bài tiểu luận này,em
xin trình bày 3 nội dung chính như sau:




Chương 1: Tổng quan về tiếng nói
Chương 2: Các phương pháp mã hóa tiếng nói
Chương 3: Bộ mã hóa và giải mã tiếng nói trong hệ thống GSM


3 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

3

MỤC LỤC


4 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG


Đề tài: Mã hóa tiếng nói trong di động

4

MỤC LỤC

LỜI MỞ ĐẦU
MỤC LỤC
THUẬT NGỮ VIẾT TẮT
DANH MỤC CÁC HÌNH VẼ
Chương I: Tổng quan về tiếng nói
1.1. Quá trinh tạo ra tiếng nói……………………………………
1.2. Các đặc điểm của tiếng nói……………………………
1.2.1.Các đặc tính vật lý của âm thanh…………………………………………..
1.2.2.Các đặc tính âm học của âm thanh…………………………………………
1.3. Phân loại đơn giản dạng sóng tiếng nói ……
Chương II: Tổng quan về các phương pháp mã hóa tiếng nói
2.1.Mã hóa dạng sóng…………………………………………………………………..
2.1.1.Mã hóa trên miền thời gian………………………………………………..
2.1.2.Mã hóa trên miền tần số……………………………………………………
2.2.Mã hóa nguồn………………………………………………
2.2.1.Nguyên tắc mã hóa Vocoder……………………………………………
2.2.2.Mô hình LPC……………………………………………………………
2.3.Mã hóa lai……………………………………………………………………………


5 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động


5

Chương III: Mã hóa và giải mã tiếng nói trong hệ thống GSM:
3.1.Quá trình mã hóa và giải mã tiếng nói trong thông tin di động……………………
3.2.Các bộ mã hóa tiếng nói trong hệ thống GSM………………………………………
3.2.1.SBC-APCM………………………………………………………………
3.2.2.SBC-ADPCM………………………………………………………………
3.2.3.MPE-LTP…………………………………………………………………
3.2.4.RPE-LTP…………………………………………………………………
3.3.Bộ mã hóa và giải mã RPE-LTP trong hệ thống GSM……………………………
KẾT LUẬN
TÀI LIỆU THAM KHẢO


6 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

6

THUẬT NGỮ VIẾT TẮT
A/D
AbS
ADPCM
D/A
DM
DPCM
GSM
LP

LPC
LTP
MPE-LTP
PCM
PDF
RELP
RPE
RPE-LTP
SNR
STP

Analog to Digital
Analysis by Synthesis
Adaptive Differently PCM
Digital to Analog
Delta Modulation
Differential PCM
Global System For
Mobile Communications
Linear Prediction
Linear Prediction Coding
Long Term Predictor
Multi-Pulse Excited LPC
Codec with Long term
Predictor
Pulse Code Modulation
Probability Density Function
Residual Excited Linear
Prediction
Regular Pulse Excitation

Regular Pulse Excited Long Term Prediction
Signal to Noise Ratio
Short term Predictor

Tương tự sang số
Phân tích bằng tổng hợp
Điều chế mã xung vi sai thích ứng
Số sang tương tự
Điều chế Delta
Điều chế mã xung vi sai
Hệ thống thông tin di động toàn cầu
Dự đoán tuyến tính
Mã hoá dự đoán tuyến tính
Dự đoán dài hạn
Dự đoán tuyến tính kích thích đa
xung với bộ dự đoán dài hạn
Điều chế xung mã
Hàm mật độ xác suất
Dự đoán tuyến tính kích thích bằng
tín hiệu sau dự đoán
Kích thích xung đều
Kích thích xung đều - Dự đoán dài
hạn
Tỉ số tín hiệu trên nhiễu
Dự đoán ngắn hạn


7 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động


DANH MỤC HÌNH VẼ
Hình 1.1: Bộ máy phát âm của con người.
Hình 1.2: Một đoạn điển hình của các âm hữu thanh
Hình 1.3: Một đoạn điển hình của các âm vô thanh
Hình 2.1: Các phương pháp mã hóa tiếng nói
Hình 2.2: Mô hình toán học của LPC
Hình 3.1: Quá trình mã hóa và giải mã trong thông tin di động
Hình 3.2: Bộ mã hóa dựa trên giải thuật RPE-LTP
Hình 3.3: Sơ đồ khối mô tả quá trình giải mã tiếng theo RPE-LTP

7


8 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

8

CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI
1.1.

Quá trình tạo ra tiếng nói:

Tiếng nói là âm thanh mang mục đích diễn đạt thông tin,rất uyển chuyển và đặc biệt.Là công
cụ của tư duy và trí tuệ,tiếng nói mang đặc trưng cơ bản của loài người.Nhờ có ngôn ngữ tiếng nói
mà loài người sống thành xã hội tiến bộ, có văn hóa, văn minh như ngày nay.Trong quá trình giao
tiếp người nói có nhiều câu nói. Mỗi câu gồm nhiều từ, ở tiếng Việt ,số từ thường được sử dụng vào
khoảng 6700 âm tiết.

Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc đàm thoại thể
hiện kinh nghiệm của con người. Đàm thoại là một quá trình gồm nhiều người, có sự hiểu biết
chung và một nghi thức luân phiên nhau nói. Những người có điều kiện thể chất và tinh thần bình
thường thì rất dễ diễn đạt tiếng nói của mình, do đó tiếng nói là phương tiện giao tiếp chính trong
lúc đàm thoại. Tiếng nói có rất nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu được ý cần diễn
đạt như biểu hiện trên gương mặt, cử chỉ , điệu bộ. Vì các đặc tính tác động qua lại, nên tiếng nói
được sử dụng trong nhu cầu giao tiếp nhanh chóng.
Sóng âm thoại là một sóng áp suất âm thanh được tạo ra từ nhừng chuyển động có điều khiển
của các bộ phận cơ thể con người hình thành nên hệ thống tạo âm thoại.
Một cấu trúc đơn giản của hệ thống tạo âm thoại được minh họa ở hình vẽ 1.1. Cơ bản, thoại
được tạo ra như là sóng âm từ các hốc mũi và miệng khi không khí bị bật ra từ các lá phổi với kết
quả là luồng không khí bị xáo trộn bởi sự co thắt ở bên trong cơ thể con người. Nguồn năng lượng
chính nằm ở thanh môn, Tuyến âm sẽ được kích thích bởi nguồn năng lượng chính tại thanh môn.
Tiếng nói được tạo ra sóng âm học do kích thích từ thanh môn phát ra đẩy không khí có trong phổi
lên tạo thành dòng khí va chạm vào hai dây thanh trong tuyến âm. Hai dây thanh dao động sẽ tạo ra
cộng hưởng, dao động âm sẽ được lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng)
và sau khi đi qua khoang mũi, môi sẽ tạo ra tiếng nói.





Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng đầu tiên của quá trình tạo
thành âm thanh.
Ống dẫn âm là một ống không đồng dạng bắt đầu từ môi, kết thúc bởi dây thanh hoặc thanh
quản. Ống có độ dài khoảng 17cm đối với người bình thường.
Khoang mũi cũng là ống không đồng dạng thuộc vùng cố định bắt đầu từ mũi, kết thục tại vòm
miệng, đối với người bình thường khoang mũi có độ dài 12 cm.
Khoang miệng là các nếp da chuyển động có thể điều khiển sự ghép âm thanh giữa khoang
miệng và khoang mũi.


Trong quá trình phát âm, nếu là âm mũi thì vòm miệng hạ thấp và dòng khí chỉ đi qua đường
mũi, nếu là âm thường thì vòm miệng mở, đường mũi khép lại và dòng khí đi theo khoang miệng ra
môi.


9 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

9
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.

Hốc mũi
Vòm miệng trên
Ổ răng

Vòm miệng mềm
Đầu lưỡi
Thân lưỡi
Lưỡi gà
Cơ miệng
Yết hầu
Nắp đóng của thanh quản
Dây thanh giả
Dây thanh
Thanh quản
Thực quản
Khí quản

Hình 1.1. Bộ máy phát âm của con người

1.2. Các đặc điểm của tiếng nói
1.2.1. Đặc tính vật lý của âm thanh
Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao động của
vật thể và được truyền đi trong một môi trường truyền âm nhất định.
Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của các bộ phận
trong bộ máy phát âm và được truyền đi trong môi trường truyền âm (thường là không khí). Những
sóng âm này truyền đến tai người nghe, đập vào màng nhĩ - một màng mỏng rất nhạy cảm của tai
người – làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác
âm khi tần số dao động của sóng đạt đến một độ lớn nhất định và người nghe nhận biết được lời
nói. Liên lạc thông tin bằng tiếng nói là truyền thông tin từ não người nói sang não người nghe. Có
thể xem như tiếng nói (thoại) là một trường hợp riêng nhưng phổ biến của âm thanh.
Âm thanh có các tham số đánh giá đặc trưng sau đây:
1. Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong một
đơn vị thời gian là 1 giây. Tần số biểu thị độ cao (pitch) của âm thanh. Tần số càng lớn thì âm
thanh càng cao và ngược lại. Ðơn vị để đo tần số của âm thanh là Hertz (viết tắt là Hz).

Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến khoảng
20000Hz. Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hay âm tần hoặc sóng
âm. Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những âm có tần số lớn hơn 20000
Hz gọi là sóng siêu âm và con người không cảm nhận được các sóng âm này nhưng có khá nhiều
loài vật có thể cảm nhận được (ví dụ loài dơi có thể nghe được sóng siêu âm). Sóng âm, sóng siêu
âm và hạ âm không chỉ truyền trong không khí mà còn có thể lan truyền tốt ở những môi trường
rắn, lỏng, do đó sử dụng rất nhiều trong các thiết bị máy móc hiện nay.Ứng với mỗi tần số dao
động f, có chu kỳ dao động T là một bước sóng l của âm thanh được xác định theo biểu thức l =
c.T (c là tốc độ lan truyền của âm thanh trong không khí = 340m/s). Do đó, bước sóng của âm
thanh trong dải âm tần là từ 21.25m đến 0.017m.Trong thực tế, một âm phát ra thường không phải
là một âm đơn mà là một âm phức bao gồm một âm đơn và một số âm hài có tần số gấp 2, 3 hoặc
4… lần âm đơn. Ngoài ra, trong dải âm tần người ta chia ra: tiếng trầm từ 16Hz đến 300Hz; tiếng
vừa từ 300Hz đến 3000Hz và tiếng bổng (tiếng thanh) 3000Hz đến 12000Hz. Tiếng nói con người
thường có dải tần số từ 300Hz đến 3400Hz.


10 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG
1
0

Đề tài: Mã hóa tiếng nói trong di động

2. Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp. Âm thanh truyền lan đến
đâu thì làm thay đổi áp suất không khí ở đó. Áp suất do âm thanh tạo thêm ra ở một điểm gọi là
thanh áp ở điểm đó. Đơn vị đo thanh áp là bar. Một bar là thanh áp tác động lên một diện tích
1cm2 một lực là 1dyn. 1 bar = 1dyn/cm2. Tuy nhiên, ngày nay, người ta thường dùng đơn vị
Pascan (Pa) để đo thanh áp. 1 bar = 10 Kpa; 1 Pa = 1 N/m2.
3. Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gian một
giây. Công suất âm thanh P có thể tính bằng biểu thức:
P = p.S.v


(1.1)

Trong đó p là thanh áp, v là tốc độ dao động của một phần tử không khí tại đó và S là diện
tích. Công suất âm thanh tính theo đơn vị oát (W).
Thông thường máy bay phản lực có công suất âm thanh là 10.000W; ô tô vận tải phóng
nhanh: 0.12W; nói chuyện bình thường: 0.0003W.
4. Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị diện
tích là 1cm2.
I=P/S= p.v

(1.2)

Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền với nhau.
Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn thì công suất,
cường độ và áp suất của âm thanh càng lớn.
5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động là
trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn, âm thanh
càng vang to và ngược lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viết tắt là dB). Trong lời
nói của một người, độ mạnh của âm thanh là yếu tố cơ bản tạo nên âm lượng của âm và trọng âm
của từ.
6. Ðộ dài (Length): Do thời gian dao động của vật thể quyết định. Ðộ dài của âm thanh tạo
nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nên các nguyên
âm đối lập nhau về độ dài. Hai từ "tang" và "tăng" trong tiếng Việt có sự đối lập âm a dài (trong
"tang") và âm a ngắn (trong "tăng").
7. Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào các
thành phần kết cấu của âm. Ðây là vẻ riêng biệt của một âm. Âm sắc được quyết định bởi: thể
chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âm thanh và phương
pháp làm cho vật thể dao động. Một âm có cùng độ cao, độ mạnh, độ dài được phát ra từ dây tơ sẽ
khác với từ một dây đồng; từ một ống sáo to dài, sẽ khác với từ một ống sáo nhỏ, ngắn; từ việc

gẩy sẽ khác với từ việc gõ, búng, cọ xát hoặc thổi.
Âm sắc chính là cái sắc thái riêng của từng âm. Âm sắc còn được quyết định bởi vật thể dao
động theo chu kì đều đặn hay không đều đặn; dao động theo chu kì đều đặn thì tạo ra âm
vang(sonants), chu kì không đều đặn thì tạo ra âm ồn hay âm có nhiều tiếng động (non - sonants
hoặc bruyants).

1.2.2. Các đặc tính âm học của âm thanh:
Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt ngôn ngữ và được mô tả
bởi các âm vị khác nhau. Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vị nhiều hay ít. Thông
thường số lượng các âm vị vào khoảng 20 – 30 và nhỏ hơn 50 đối với mọi ngôn ngữ. Đối với từng


11 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG
1
1

Đề tài: Mã hóa tiếng nói trong di động

loại âm vị mà có các đặc tính âm thanh khác nhau. Các âm vị được chia thành hai loại nguyên âm
và phụ âm. Tổ hợp các âm vị tạo nên âm tiết. Âm tiết đóng vai trò một từ trọn vẹn mang ngữ nghĩa.
1.2.2.1.Nguyên âm:
Nguyên âm được tạo ra bằng sự cộng hưởng của dây thanh khi dòng khí được thanh môn đẩy
lên. Khoang miệng được tạo lập thành nhiều hình dạng nhất định tạo thành các nguyên âm khác
nhau. Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định. Mỗt nguyên âm được đặc
trưng bởi 3 formant đầu tiên, các formant tiếp theo thường thì ít mang thông tin hơn.
1.2.2.2.Phụ âm:
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm co thắt của đường
dẫn âm thanh do cách phát âm tạo thành. Dòng không khí tại chỗ đóng của vòm miệng tạo ra phụ
âm tắc. Những phụ âm xát được phát ra từ chỗ co thắt lớn nhất và các âm tắc xát tạo ra từ khoảng
giữa. Phụ âm có đặc tính hữu thanh và vô thanh tuỳ thuộc việc dây thanh có dao động để tạo thành

cộng hưởng không. Đặc tính của phụ âm tuỳ thuộc vào tính chu kỳ của dạng sóng, phổ tần số, thời
gian tồn tại và sự truyền dẫn âm.
1.2.2.3.Tỷ suất thời gian:
Trong khi nói chuyện, khoảng nói chuyện và khoảng nghỉ xen kẽ nhau. Phần trăm thời gian
nói trên tổng số thời gian nói và nghỉ được gọi là tỷ xuất thời gian. Giá trị này biến đổi tuỳ thuộc
vào tốc độ nói và từ đó ta có thể phân loại thành nói nhanh, nói chậm hay nói bình thường.
1.2.2.4. Hàm năng lượng thời gian ngắn:
Hàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia tín hiệu tiếng nói
thành nhiều khung chứa N mẫu và tính diện tích trung bình tổng các mẫu tín hiệu trong mỗi khung.
Các khung này được đưa qua một cửa sổ có dạng hàm như sau:

W ( n )
W( n ) = 
0

Với n≥N

Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ chữ nhật, cửa sổ Hamming và cửa
sổ Hanning.
1.2.2.5. Tần số vượt qua điểm không
Tần suất vượt qua điểm không là số lần biên độ tín hiệu tiếng nói vượt qua giá trị không trong
một khoảng thời gian cho trước. Thông thường giá trị này đối với âm vô thanh lớn hơn âm hữu
thanh do đặc tính ngẫu nhiên của âm vô thanh. Do đo tần suất vượt qua điểm không là tham số quan
trọng để phân loại âm hữu thanh và âm vô thanh.
1.2.2.6.Phát hiện điểm cuối
Trong xử lý tiếng nói việc xác định khi nào bắt đầu xuất hiện tín hiệu tiếng nói và khi nào kết
thúc quá trình nói rất cần thiết và quan trọng. Trong một môi trường nhiều tiếng ồn (nhiễu ) hoặc
môi trường nhiều người nói thì việc phát hiện điểm kết thúc rất khó khăn.Đã có những phương pháp
phát hiện điểm cuối của tiếng nói.
1.2.2.7. Tần số cơ bản

Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu trong đó biên độ biến đổi ngẫu
nhiên và phần tuần hoàn. Phần tín hiệu có tính chu kỳ chứa các thành phần tần số có dạng điều hòa.
Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần số dao động của dây dây thanh.
Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau. Tần số cơ bản của trẻ em
thường cao hơn so với người lớn và của nữ giới cao hơn so với nam giới.


12 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG
1
2

Đề tài: Mã hóa tiếng nói trong di động
Bảng 1: Một số giá trị tần số cơ bản tương ứng với giới tính và tuổi:

Người nói

Giá trị tần số cơ
bản

Nam

80-200Hz

Nữ

150-450Hz

Đối với hai âm có
cùng cường độ, cùng
Trẻ em

200-600HZ
độ cao sẽ được phân
biệt bởi tính tuần hoàn.
Một âm hữu thanh có tín hiệu gần như tuần hoàn khi được phân tích phổ sẽ xuất hiện một vạch tại
vùng tần số rất thấp. Vạch này đặc trưng cho tính tuần hoàn cơ bản của âm hay đó chính là tần số cơ
bản của âm. Trong giao tiếp bình thường tần số cơ bản thay đổi liên tục tạo nên ngữ điệu cho tiếng
nói.
1.2.2.8. Formant
Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên độ cao nhất xét trong một khoảng
nào đó (còn gọi là cực trị địa phương) xác định một formant. Ngoài tần số, formant còn được xác
định bởi biên độ và dải thông của chúng. Về mặt vật lý các tần số formant tương ứng với các tần số
cộng hưởng của tuyến âm. Trong xử lý tiếng nói và nhất là trong tổng hợp tiếng nói để mô phỏng
lại tuyến âm người ta phải xác định được các tham số formant đối với từng loại âm vị, do đó việc
đánh giá, ước lượng các formant có ý nghĩa rất quan trọng.
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính của người nói và phụ
thuộc vào các dạng âm vị tương ứng với formant đó. Đồng thời, formant còn phụ thuộc các âm vị
trước và sau đó. Về cấu trúc tự nhiên, tần số formant có liên hệ chặt chẽ với hình dạnh và kích
thước tuyến âm. Thông thường trong phổ tần số của tín hiệu có khoảng 6 formant nhưng chỉ có 3
formant đầu tiên ảnh hưởng quan trọng đến các đặc tính của các âm vị, còn các formant còn lại
cũng có ảnh hưởng song rất ít. Các formant có giá trị tần số xê dịch từ vài trăm đến vài nghìn Hz.
Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người nói trong điều kiện
phát âm nhất định. Mặc dù phạm vi của các tần số formant tương ứng với mỗi nguyên âm có thể
trùng lên nhau nhưng vị trí giữa các formant đó không đổi vì sự xê dịch của các formant là song
song.
Ngoài formant, các âm mũi còn có các tần số bị suy giảm gọi là phản formant (anti-formant).
Phản formant được tạo nên khi luồng khí đi qua khoang mũi. Các formant tương ứng nói các điểm
cực của hàm truyền đạt vì tại lân cận điểm cực giá trị hàm truyền đạt là rất lớn, tương tự vậy các
anti-formant tương ứng với các điểm không của hàm truyền đạt.
1.2.


1.3.Phân loại đơn giản dạng sóng tiếng nói:

Phần gần tuần hoàn mà hầu như lặp lại cùng chu kỳ được gọi là tiếng nói hữu thanh (voiced
speech). Chu kỳ lặp lại đó gọi là chu kì cơ bản T 0 nghịch đảo của T0 là tần số cơ bản F 0. Âm hữu
thanh được phát ra bởi một luồng khí cực mạnh từ thanh môn thổi qua dây thanh làm dung dây
thanh, sự dao động của dây thanh tạo nên nguồn tuần hoàn. Nguồn tuần hoàn kích thích tuyến âm
tạo nên âm hữu thanh. Vùng âm hữu thanh chiếm thành phần chủ yếu của sóng tiếng nói, chứa đựng
lượng tin nhiều nhất và thời gian lớn nhất trong quá trình nói.


13 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

1
3

Phần tín hiệu có dạng giống như tập âm nhiễu có biên độ ngẫu nhiên còn được gọi là tiếng nói
vô thanh (unvoiced speech). Tiếng nói vô thanh được tạo ra do sự co thắt theo một dạng nào đó
của tuyến âm và luồng khí chạy qua chỗ thắt với tộc độ lớn tạo nên nhiễu loạn, ví dụ như lúc ta nói
thì thào (cần phân biệt thì thầm với thì thào, theo từ điển tiếng Việt thì thào là nói chuyện với nhau
rất nhỏ tựa như gió thoảng qua tai còn thì thầm là nói chuyện với nhau không để người ngoài nghe
thấy). Năng lượng do nguồn nhiễu loạn tạo ra sẽ kích thích tuyến âm tạo nên tiếng nói vô thanh,
năng lượng của tiếng nói vô thanh nhỏ hơn so với tiếng nói hữu thanh.
Ta có thể phát hiện ra tiếng nói hữu thanh là khi nói dây thanh rung. Còn âm vô thanh khi nói
dây thanh không rung. Nói thì thào thì ở xa không nghe được do năng lượng của âm vô thanh rất
nhỏ và tiếng thì thào là do âm vô thanh tạo nên.
Các âm bật - nổ (plosive sound): được tạo ra khi có sự đóng hoàn toàn ở cuống họng, và áp
suất không khí được hình thành ở phía sau được giải phóng đột ngột.-> phụ âm.
Một số âm thanh không được xem như thuộc vào một trong ba loại âm thanh nói trên, tuy

nhiên chúng là sự hỗn hợp. Ví dụ như các âm xát (phụ âm xát hoặc rít – cọ xát) được hình thành
khi các có sự rung động của dây thanh âm và khe hẹp trong cuống họng được hình thành.

Hình 1.2. Một đoạn điển hình của các âm hữu thanh


14 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

1
4

Hình 1.3. Một đoạn điển hình của các âm vô thanh

CHƯƠNG II: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI
Trong một vài thập kỷ vừa qua, đã có rất nhiều kỹ thuật mã hoá nén tiếng nói được đưa ra,
phân tích và phát triển. Trong chương này , giới thiệu một số kỹ thuật đang được sử dụng hiện nay.
Thông thường thì mã hoá tiếng nói được chia làm ba phương pháp đó là: mã hoá dạng sóng
(waveform coder) và mã hoá nguồn (source coder) (hay còn được gọi là mã hoá thông số) và mã
hóa lai (hybrid coder). Mã hoá dạng sóng được thực hiện ở tốc độ bít cao và cho chất lượng mã hoá
tiếng nói tốt. Mã hoá nguồn thực hiện ở tốc độ bít thấp, nhưng nó có xu hướng tạo ra tiếng nói có
chất lượng nhân tạo, mã hoá lai (hybrid coder), đây là kỹ thuật mã hoá tổng hợp của phương pháp
mã hoá dạng sóng và mã hoá nguồn, nó cho chất lượng tiếng nói khá tốt và thực hiện ở tốc độ bít
trung bình.


15 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động


1
5

Hình 2.1. Các phương pháp mã hóa tiếng nói

2.1. Mã hóa dạng sóng:
Mã hoá dạng sóng nhằm tái tạo lại tín hiệu đầu vào của tiếng nói. Nó thường được chia thành
các tín hiệu độc lập do vậy nó có thể được dùng để mã hoá rất nhiều loại tín hiệu. Thông thường,
đây là phương pháp mã hoá có độ phức tạp thấp tuy nhiên lại cho chất lượng cao với tốc độ bít cao
(lớn hơn khoảng 16kbps). Mã hoá dạng sóng có thể được thực hiện trên cả miền tần số cũng như
trên miền thời gian.
2.1.1. Mã hóa trên miền thời gian:
Mã hoá trên miền thời gian thực hiện việc mã hóa trên khoảng thời gian lấy mẫu của tín hiệu.
Các phương pháp mã hoá trong miền thời gian thường được dùng gồm có: Điều chế mã xung
(PCM), điều chế mã xung thích ứng (APCM), điều chế mã xung vi phân (DPCM), điều chế mã
xung vi phân thích ứng (ADPCM), điều chế Delta (DM), điều chế Delta thích ứng, và mã hoá dự
đoán thích ứng (APC). Tiếp theo ta sẽ xem xét một vài phương pháp mã hoá quan trọng trong miền
thời gian.
Mã hóa PCM:
Điều chế mã xung là phương pháp đơn giản nhất trong mã hoá dạng sóng. Điểm cốt yếu của
phương pháp này chính là quá trình lượng tử hóa. Bất cứ dạng lượng tử hoá vô hướng nào cũng có
thể được sử dụng trong phương pháp này, nhưng dạng hay được dùng nhất là lượng tử hoá logarit.
Uỷ ban tư vấn điện thoại và điện báo quốc tế đã giới thiệu G.711 như là phương pháp chuẩn cho
việc mã hoá tiếng nói thoại. Chuẩn G.711 xác định 8 bit theo luật μ và luật A của PCM. Mã hoá
dùng luật μ có ít lợi thế hơn trong việc thực hiện vì nó cho tỉ số tín hiệu trên nhiễu bé hơn.
Mã hoá DPCM và ADPCM:
PCM không giả định về tính tự nhiên của dạng sóng được mã hóa, do đó nó làm việc tốt với
các tín hiệu mà không phải là tiếng nói. Tuy nhiên, khi mã hoá tiếng nói thì sẽ có sự tương quan rất



16 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

1
6

lớn giữa các mẫu cạnh nhau. Sự tương quan này có thể được sử dụng để khôi phục được tốc độ bít
của kết quả. Một phương pháp đơn giản để thực hiện việc này đó là chỉ truyền sự sai khác giữa các
mẫu. Tín hiệu khác biệt này sẽ có phạm vi dao động nhỏ hơn so với tín hiệu tiếng nói ban đầu, do
vậy nó có thể lượng tử hoá một cách hiệu quả bằng việc sử dụng các bộ vector lượng tử hoá với
mức xây dựng lại thấp hơn. Trong phương pháp trên, mẫu trước được sử dụng để dự đoán giá trị
của mẫu hiện tại. Sự dự đoán này có thể được cải thiện nếu như ta sử dụng một khối lớn hơn của
tín hiệu tiếng nói cho việc dự đoán. Phương pháp này được gọi là điều chế mã hoá xung vi phân
(DPCM).
Một phiên bản phát triển của DPCM là điều chế mã xung thích ứng ADPCM. Trong ADPCM,
bộ dự đoán và lượng tử hoá được thích ứng với các đặc tính của tín hiệu đầu vào. Có một số chuẩn
được ITU giới thiệu cho việc mã hoá tín hiệu âm thanh dựa vào giải thuật ADPCM (với dải thông
hẹp khoảng 8kHz) ví dụ như G.726 thực hiện ở các tốc độ bít 40, 32, 24 và 16 kbps. Độ phức tạp
của ADPCM là thực sự thấp. Mã hoá ADPCM sẽ cho tín hiệu tín hiệu trên nhiễu cao (vào khoảng
30 đến 35 dB).

2.1.2. Mã hóa trên miền tần số:
Mã hoá dạng sóng trong miền tần số chia tín hiệu thành các thành phần tần số khác nhau và
tiến hành mã hoá từng thành thành phần này. Số bít sử dụng để mã hoá từng thành phần tần số có
thể thay đổi. Mã hoá trong miền tần số được chia ra làm hai nhóm là: mã hoá băng con (subband)
và mã hoá biến đổi (transform).
Mã hoá băng con (subband)
Mã hoá băng con sử dụng một số bộ lọc dải thông để chia tín hiệu đầu vào thành các tín hiệu

con (subband signal) mà đã được mã hoá. Tại bộ thu các tín hiệu con được giải mã và cộng lại
nhằm khôi phục lại tín hiệu ban đầu. Ưu điểm chính của phương pháp mã hoá băng con đó là nhiễu
lượng tử hoá sinh ra trong một dải tần sẽ bị hạn chế trong chính dải tần đấy. Hiệp hội viễn thông
quốc tế ITU đã đưa ra chuẩn G.722 trong mã hoá băng con (subband) để truyền thông với các tốc
độ 48, 56 hay là 64 kbps.
Mã hoá biến đổi (transform)
Kỹ thuật này cần có một khối chuyển đổi của cửa sổ tín hiệu đầu vào thành các thành phần tần
số, hoặc một vài miền tương tự. Mã hoá thích ứng sau đó sẽ hoàn thành bằng cách phân bổ thêm bít
vào các thành phần hệ số quan trọng hơn. Tại bộ thu thì bộ giải mã sẽ thực hiện việc chuyển đổi
ngược để thu lại tín hiệu cần khôi phục. Ta có thể sử dụng một số phép biến đổi như: phép biến đổi
Fourier rời rạc (DFT) hay là phép biến đổi cosine rời rạc (DCT).

2.2. Mã hóa nguồn:
Mã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm dưới 16 Kbps. Để tiếp tục
giảm tốc độ bit, cần phải khai thác mô hình tạo tiếng nói. Từ đây, người ta có khái niệm mã hóa
nguồn hay còn gọi là mã hóa dựa trên mô hình.
Ở đây, các bộ mã hóa nguồn hoạt động sử dụng mô hình nguồn tín hiệu được tạo ra như thế
nào và cố gắng trích chọn ra từ tín hiệu đang được mã hóa các tham số của mô hình và truyền
chúng tới bộ giải mã. Các bộ mã hóa nguồn cho tín hiệu thoại còn được gọi là Vocoder (Voice +
Coder).
Ưu điểm của loại mã hóa này là nó rất có hiệu quả đối với âm thanh thoại, dễ hiểu, trong khi
nó lại có nhược điểm là phức tạp hơn nhiều so với phương pháp mã hóa dạng sóng và nó chỉ có
thể xử lý được tiếng nói của con người. Mã hóa tham số hoạt động với tốc độ bit thấp (xuống
đến 2,4 Kbps) và mặc dù là tiếng nói được tái tạo lại là hoàn toàn dễ hiểu nhưng chúng lại khác


17 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động


1
7

khá nhiều so với giọng nói tự nhiên của con người.

2.2.1. Nguyên tắc mã hóa Vocoder:
Mã hóa Vocoder là kiểu mã hóa tiếng nói dựa trên các tham số mô phỏng bộ máy phát âm,
khác với mã hóa dạng sóng của tiếng nói tương tự, gọi là mã hóa nguồn( Vocoder).Nguyên lý dựa
trên việc tuyến âm thanh thay đổi từ từ trạng thái và cấu hình của chúng tại bất cứ thời điểm nào
và có thể được mô phỏng một cách gần đúng bằng một tập nhỏ các tham số. Nhờ việc tuyến âm
có tốc độ thay đổi từ từ cho phép mỗi tập tham số có thể đại diên cho trạng thái của nó qua một
khoảng thời gian 25ms.Hầu hết mã hóa Vocoder biểu diễn đặc tính của nguồn kích thích và tuyến
âm chỉ bằng một tập tham số. Nó gồm khoảng 10 đến 15 hệ số của bộ lọc để định nghĩa các đặc
tính cộng hưởng của tuyến âm, một tham số, hai giá trị đơn giản để chỉ ra nguồn phát âm là âm vô
thanh hay âm hữu thanh, một tham số chỉ ra năng lượng kích thích và một tham số chỉ ra chu kì
cơ bản ( âm săc, chỉ có với âm hữu thanh). Trạng thái của tuyến âm được suy ra bằng cách phân
tích dạng sóng tiếng nói trong khoảng thời gian 10 đến 25ms và tính toán ra một tập mới các tham
( một khung dữ liệu) tại phần cuối của khoảng thời gian đó. Khung dữ liệu này được truyền đi và
sau đó được dung để điều khiển việc tổng hợp lại tiếng nói. Mã hóa Vocoder có khả năng chuyển
giữa hai kiểu nguồn kích thích là nguồn xung đối với âm hữu thành cà nhiều trắng đối với âm vô
thanh. Bên phía tống hợp sẽ dùng một trong hai nguồn này cho đi qua bộ lọc gồm các hệ số của
khung dữ liệu để tổng hợp tiếng nói.
Ngoài việc đạt được tốc độ bít thấp, Vocoder có ưu điểm là phân tích được các tham số
nguồn kích thích. Bít biểu thị âm sắc,âm lượng,âm hữu thanh và âm vô thanh. Bản thân nó là các
bít trong khung dự liệu, nên các sự thay đổi của chúng có thể được sửa đổi trước hoặc trong khi
tổng hợp. Vì thế ta có thể biến một âm hữu thành thành một lời thì thầm khi đặt lại giá trị của bit
âm hữu thanh/ vô thanh. Cũng có thể thay đổi bản thân câu nói bằng cách sửa đổi các tham số
cộng hưởng.
Nhược điểm của phương pháp này là tiếng nói có dạng tổng hợp,khó có khả năng nhận dạng
được người nói.


2.2.2. Mô hình LPC:
Mã hóa tham số (parametric coding) hay còn gọi là Vocoder. Ở đây, các tín hiệu thoại được
giả thiết được tạo ra từ một mô hình (giống như mô hình tạo tiếng nói từ cơ quan phát âm của con
người), mô hình này được điều khiển bởi một vài tham số chức năng. Trong quá trình mã hóa,
những tham số của mô hình được suy ra (ước đoán) từ tín hiệu thoại đầu vào. Kiểu mã hóa này
không bảo toàn hình dạng sóng ban đầu của tín hiệu nên không thể dùng tỷ số tín hiệu trên nhiễu
SNR để đánh giá. Chất lượng nhận thức (cảm nhận) của tín hiệu thoại sau khi giải mã liên quan
trực tiếp đến độ chính xác của mô hình. Do hạn chế này, bộ mã hóa tham số có hiệu năng thấp đối
với các tín hiệu không phải là tín hiệu thoại.
Có một số mô hình đề xuất cho bộ mã hóa tham số và thành công nhất là mô hình dự đoán
tuyến tính. Theo cách tiếp cận này, cơ chế tạo ra tiếng nói của con người được thực hiện bằng
việc sử dụng bộ lọc biến đổi theo thời gian với các tham số của bộ lọc được xây dựng dựa trên thủ
tục phân tích dự đoán tuyến tính.
Bộ mã hóa tham số làm việc rất tốt với tốc độ bit thấp từ 2 đến 5 Kbps và ví dụ điển hình của
các bộ mã hóa tham số là bộ mã hóa dự đoán tuyến tính LPC (Linear Prediction Coding) và bộ mã
hóa dự đoán tuyến tính kích thích hỗn hợp MELP (Mixed Excitation Linear Prediction).
Mô hình toán học của mã hóa dự đoán tuyến tính được minh họa ở hình vẽ dưới đây:


18 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG
1
8

Đề tài: Mã hóa tiếng nói trong di động

Hình 2.2. Mô hình toán học của LPC
Ở đây tín hiệu thoại số là đầu ra của bộ lọc số - bộ lọc LPC có đầu vào là dãy các xung hoặc
chuỗi nhiễu trắng. Nói cách khác, cuống họng được đặc trưng bởi bộ lọc biến đổi theo thời gian và
bị kích thích với những nguồn nhiễu trắng khác cho phân đoạn thoại vô thanh hoặc một dãy các

xung phân tách theo chu kỳ âm thanh cho các âm hữu thanh.
Do vậy thông tin phải được gửi đến bộ giải mã là các tham số đặc trưng cho bộ lọc; âm vô
thanh/hữu thanh; những thay đổi cần thiết của tín hiệu kích thích, chu kỳ âm thanh. Quá trình này
được cập nhật liên tục 10–20 ms theo bản chất không dừng (non- stationary) của tín hiệu thoại.
Các tham số của mô hình có thể được xác định bởi bộ mã hóa theo một số cách khác nhau sử
dụng các kỹ thuật trong miền thời gian hoặc tần số. Đồng thời các thông tin có thể được mã hóa
để truyền dẫn theo những cách khác nhau.
Mối quan hệ giữa mô hình toán học và mô hình vật lý – cơ quan phát âm thoại của con
người được mô tả dưới đây:
Cuống họng  H(z) ( Bộ lọc LPC)
Không khí  u(n)
Dao động của dây thanh âm  V ( Các âm hữu thanh)
Chu kỳ dao động của day thanh âm  T ( Độ cao âm thanh)
Các âm vô thanh  UV ( Vô thanh)
Lượng không khí  G ( Độ tăng ích)
Hàm truyền đạt của bộ lọc được xác định theo biểu thức (2.1):
H (z) =

1
1 + a1 z + a2 z −2 + ... + a10 z −10
−1

(2.1)
Điều này tương đương với việc quan hệ vào ra của bộ lọc tuân theo phương trinh vi phân
tuyến tính:
10

s (n) + ∑ ai s (n − i ) = u (n)
i =1


(2.2)

Mô hình LPC có thể được biểu diễn lại dưới dạng vecto như sau:

A = (a1 , a2 , a3 , a4 , a5 , a6 , a7 , a8 , a9 , a10 , G, V / UV , T )
(2.3)
A thay đổi theo chu kỳ 20ms, tại tần số mẫu 8KHz, chu kỳ 20 ms tương đương với 160 mẫu.


19 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

1
9

Do vậy tín hiệu thoại được phân chia thành các khung có kích cỡ 20ms hau có 50 khung/sec. Mô
hình A theo biểu thức (2.3) tương đương với:
S=(s(0),s(1),…,s(159))
(2.4)
Cho nên 160 giá trị của S được đại diện tương ứng bởi 13 giá trị của A.

2.3. Mã hóa lai:
Mã hoá lai (hybrid coder) là phương pháp tổng hợp giữa phương pháp mã hóa dạng sóng và
mã hoá nguồn, nhằm khắc phục các nhược điểm của hai phương pháp trên. Như ta đã nói thì mã
hóa dạng sóng sẽ cho chất lượng tốt với tốc độ bít vào khoảng 16kbps, trong khi đó mã hoá nguồn
được thực hiện ở một tốc độ bít rất thấp (vào khoảng 2.4 kbps) nhưng không thể đưa ra chất lượng
tự nhiên. Mặc dù còn có một số dạng mã hóa lai khác còn tồn tại, tuy nhiên phương pháp thành
công nhất và được sử dụng rộng rãi đó là phương pháp mã hoá trong miền tần số Analysys - by –
Synthesis (AbS). Phương pháp này cũng sử dụng mô hình lọc dự đoán tuyến tính. Tuy nhiên, thay

vì áp dụng mô hình đơn giản gồm có hai trạng thái là hữu thanh/vô thanh (voiced / unvoiced) để tìm
đầu vào cần thiết cho bộ lọc, thì tín hiệu kích thích được chọn sao cho tín hiệu được khôi phục gần
với tín hiệu ban đầu. Một mô hình chung của mã hóa AbS được đưa ra t. AbS được giới thiệu lần
đầu tiên vào năm 1982 bởi Atal và Remde, và ban đầu nó được gọi là mã hóa kích thích đa xung
(MPE), và sau đó thì RPE và CELP lần lượt được đưa ra. Nhiều bản CELP khác nhau đã được
chuẩn hoá, gồm có G.723.1 hoạt động ở tốc độ bít là 6.3/5.3 kbps, G.729 ở 8 kbps, G.728 ở 16 kbps
và tất cả các chuẩn mã hoá mạng thoại di động như GSM, IS – 54, IS – 95, IS – 136.


20 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

2
0

CHƯƠNG III. :MÃ HÓA VÀ GIẢI MÃ TIẾNG NÓI TRONG
HỆ THỐNG GSM.
3.1. Quá trình mã hóa và giải mã tiếng trong thông tin di động:
Quá trình mã hóa và giải mã tiếng trong thông tin di động được cho trên hình 3.1. Tín hiệu
tiếng ở MS được đưa qua bộ lọc thông thấp, qua bộ biến đổi ADC để được mã hóa PCM đồng đều
sau đó tín hiệu này được đưa lên bộ mã hóa. Ở đầu ra của bộ ADC ta được luồng số phân đoạn
thành các khối 20ms. Nếu tín hiệu dầu vào mạng thông tin di động lấy từ mạng PSTN thì trước hết
tín hiệu 8 bit PCM luật A được biến đổi thành luồng bit được mã hóa đồng đều như trên ,sau đó đưa
các đoạn 20ms lên bộ mã hóa.
Ở phía thu quá trình được thực hiện theo hướng ngược lại:

Ký hiệu:
1: Micro; 2: Mã PCM luật A, 8000 mẫu/bit (từ mạng PSTN); 3: Loa; 4: Mã PCM loại A (từ
mạng PSTN); LPF: Bộ lọc thông thấp; ADC: Bộ biến đổi tương tự/số; DAC: bộ biến đổi số/tương

tự.
Hình 3.1. Quá trình mã hóa và giải mã tiếng nói trong thông tin di động

3.2. Các bộ mã hóa tiếng nói trong hệ thống GSM:
3.2.1. SBC-APCM
SBC-APCM là codec mã hoá băng con với PCM thích nghi theo khối. Codec này sử dụng các
bộ lọc gương cầu phương QMF () để phân tách tín hiệu lối vào thành 16 băng con rộng 250 Hz, hai
băng cao nhất trong số đó không được truyền đi. Ấn định bit thích nghi đã được sử dụng trong các
băng con trên cơ sở tỷ lệ công suất của một loạt băng tạo thành nên thông tin biên cần truyền đi.
Tốc độ truyền dẫn tổng cộng của các tín hiệu băng con là 10 kbps, thông tin biên là 3kbps mà chúng
được bảo vệ bởi độ dư thừa 3kbps của mã sửa lỗi hướng đi FEC (Forward Error Correction).

3.2.2. SBC-ADPCM:
SBC-ADPCM là codec mã hoá băng con với PCM delta thích nghi. Trong sơ đồ này, tiếng
nói lối vào đã được chia thành 8 băng con, trong số đó chỉ có 6 băng được truyền đi.
Các tín hiệu băng con đã được mã hoá bằng mã vi sai với đánh giá ngược và thích nghi để
đổi lại với SBC-APCM đã được đề nghị, trong đó đánh giá thuận và thích nghi đã được sử dụng.
Ấn định bit của các băng con được đặt cố định, do vậy không có thông tin biên nào được truyền đi,
nhờ đó làm cho hệ thống thích nghi với tạp nhiễu nhiều hơn và thế không cần mã FEC. Tốc độ mã
của codec này chỉ 15 kbps.


21 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

2
1

3.2.3. MPE-LTP :

MPE-LTP (Multi-Pulse Excited LPC codec with Long Term Predictor) là codec dự doán
tuyến tính kích thích đa xung với bộ dự đoán dài hạn. Việc thực bộ mã hoá và giải mã tiếng nói cụ
thể được sử dụng trong thử nghiệm để so sánh đòi hỏi tốc độ truyền dẫn 13.2 kbps và mã hoá FEC
được gắn vào đó với tốc độ 2.8 kbps nữa đã được sử dụng để bảo vệ các bit quan trọng nhất của bộ
mã hoá và giải mã tiếng nói.

3.2.4. RPE-LPT:
RPE-LPT( Regular Pulse Excited – Long Term Prediction) là codec LTP kich thích xung đều.
Bộ mã hóa này dựa trên nền tảng kích thích xung đều với dự đoán dài hạn liên quan đến hai bộ mã
hóa tiếng nói khác là: RELP (Redidual Excited Linear Prediction) và MPE-LPC ( Multi Pulse
Excited LPC) .Lợi thế của REPL là không quá phức tạp do sử dụng mã hóa dải tần gốc. Bộ mã hóa
MPE-LTP phức tạp hơn nhưng nó cung cấp mức độ hiệu quả cao hơn. Bộ mã hóa RPE – LTP cho
một kết quả khá tốt,cân bằng giữa hiệu năng và tính phức tạp.

3.3. Bộ mã hóa và giải mã RPE-LTP trong GSM:
Mã hóa tiếng ở GSM có thể thực hiện ở tốc độ 13kbit/s (toàn tốc) hoặc ở 6,5kbit/s (bán
tốc).Sơ đồ mã hóa tiếng trong GSM ở tốc độ 13kbit/s dựa trên giải thuật RPE-LTP (Regular Pulse
Excited – Long Term Prediction : kích thích xung đều- dự đoán dài hạn) cho ở hình 3.1.Tín hiệu mã
hóa PCM đồng đều 13bit/8000 mẫu/s được nhấn mạnh trước rồi được phân đoạn thành các đoạn
20ms/160 mẫu/13 bit đưa vào đầu vào của bộ mã hóa. Nguyên lý chung của bộ mã hóa dựa trên cơ
sở là để tiết kiệm băng thông, người ta sẽ chỉ gửi đi các thông số cần thiết nhất để có thể khôi phục
lại được tiếng nói ở đầu thu : thông số về cơ quan phát âm và xung kích của bộ phận này.

Hình 3.2. Bộ mã hóa dựa trên giải thuật RPE –LTP
Để vậy người ta sử dụng hai kiểu mã hóa kết hợp : Mã hóa kiểu phát âm (Vocoder) và mã hóa
dạng sóng (PCM đồng đều). Để thực hiện mã hóa kiểu phát âm, các đoạn tiếng 20ms nói trên được
đưa qua bộ lọc LPC ( Linear Prediction Coding : bộ lọc mã hóa dự đoán tuyến tính) có đặc tính đảo
so với cơ quan phát âm của con người để nhận được các xung kích thích. Trong quá trình này các
thông số của bộ lọc LPC cũng được phân tích và được gửi đi. Bộ lọc phân tích LPC là bộ lọc tuyến
tính bậc n thực hiện tổ hợp tín hiệu hiện thời với tín hiệu được trễ 1,2,3, …, n mẫu ở tần số 8KHz

để mô phỏng cơ quan phát âm. Các tham số của bộ lọc này thay đổi từ khối này đến khối khác và
được gửi đi ở khung tiếng. Do các đoạn liên tiếp của tiếng nói khá giống nhau, nên trong thực tế ta
chỉ cần gửi đi sự khác nhau ( tín hiệu dư) giữa các đoạn liên tiếp này. Quá trình lấy tín hiệu dư như


22 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG
2
2

Đề tài: Mã hóa tiếng nói trong di động

sau. Sau LPC chuỗi kích thích được chia thành các khối 5ms/40 mẫu đưa qua bộ lọc LTP (Long
Term Prediction: bộ lọc dự đoán dài hạn). Bộ lọc này thực hiện trừ đoạn tín hiệu hiện thời với đoạn

Nr
được trễ

br
mẫu và được nhân với hệ số

Nr
.Các giá trị của

br


được truyền trong khung tiếng

Nr
cứ 5ms một lần.Trễ vào khoảng 40 đến 120 mẫu (5 đến 15 ms) để có thể tương ứng với tần số cơ

bản của tiếng nói ( tùy thuộc vào người nói). Sau LTP ta được tín hiệu dư giống với xung kích thích
hơn. Để lấy ra chuỗi kích thích, tín hiệu dư sau LTP được đưa qua bộ lọc thông thấp và được lấy
mẫu đều (RPE : Regular Pulse Excitation) với tần số lấy mẫu là 8/3 KHz. Quá trình này giống như
mã hóa dạng sóng. Theo lý thuyết xử lý tín hiệu thì chỉ có thông tin của chuỗi kích thích có tần số
thấp hơn 1,3KHz là được gửi đi. Tương ứng ta có 13 mẫu trong các khoảng 5ms. Pha của các mẫu
8/3KHz được gửi đi trong khung tiếng 5ms một lần.Các mẫu được mã hóa điều xung mã thích ứng
APCM. Ở mã hóa này biên độ cực đại và tỉ số giữa mẫu với biên độ cực đại được mã hóa riêng biệt
Các thông số LPC+LTP =3,6kbps
Các thông số RPE: 9,4 kbps
Giải mã tiếng trong kỹ thuật RPE-LTP bao gồm các giai đoạn sau thể hiện ở hình 3.2:
• Tạo lại các mẫu 8kHz bằng cách bổ sung 27 mẫu không vào 13 mẫu tiếng trong các
khối 5ms.
• Lọc LTP( đảo so với phía phát) bao gồm các mẫu của khối 5ms hiện thời và ba khối
trước đó.
• Lọc ( đảo so với phía phát) theo các thông số được truyền.
• Khử nhấn mạnh.

Hình 3.3. Sơ đồ khối mô tả quá trình giải mã tiếng nói theo RPE-LTP

KẾT LUẬN
Mã hóa dạng sóng là mã hóa chính sản phẩm tiếng nói của con người thành tín hiệu số và
truyền các chuổi bit mã giá trị mẫu đó.
Mã hóa nguồn( hay còn gọi là mã hóa tham số) là việc mã hóa các thông số kích thích, tham
số lọc của mô hình tạo tiếng nói thành các tín hiệu số và truyền các chuỗi bit mã các thông số sang
bên thu.
Mã hoá lai (hybrid coder) là phương pháp tổng hợp giữa phương pháp mã hóa dạng sóng và
mã hoá nguồn .Và về căn bản ta có thể thấy bộ mã hóa tiếng nói trong GSM là một bộ mã hóa tiếng
nói dạng lai giữa LPC vocoder và mã hóa dạng sóng.Trong đó mô hình lọc từ cấu hình Vocoder



23 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

2
3

được giữ nguyên xong các tham số kích thích lại được cải thiện.Nghĩa là phần chủ yếu của các tham
số được truyền đi liên quan đến chuỗi kích thích.
Quy trình mã hóa tiếng nói trong bộ mã hóa tiếng nói có thể được tóm gọn như sau:Tín hiệu
tiếng nói đầu vào được chia thành từng khung 20ms để biến đổi thành tín hiệu số.Các bước cơ bản
của quá trình mã hóa bao gồm: Lọc dự đoán tuyến tính LPC,lọc dự đoán dài hạn LTP và mã hóa
kích thích xung đều RPE. Các thông số được mã hóa do vậy cũng bao gồm bit mã của các thông số
LPC, LTP và RPE.
Do thời gian và kiến thức có hạn nên bài tiểu luận của em không tránh khỏi những thiếu sót,
em rất mong được sự nhận xét, đánh giá, góp ý của thầy để tạo cho em tiền đề để làm tốt bài luận
văn tốt nghiệp sau này. Cuối cùng,em xin gửi lời cảm ơn chân thành,một lời chúc sức khỏe đến
thầy.


24 MÃ HÓA TIẾNG NÓI TRONG DI ĐỘNG

Đề tài: Mã hóa tiếng nói trong di động

TÀI LIỆU THAM KHẢO
[1] Giáo trình Thông tin di dộng - TS. Nguyễn Phạm Anh Dũng
[2] Giáo trình Xử lý âm thanh và hình ảnh - Lê Nhật Thăng
[3] Đồ án Mã hoá tiếng nói trong GSM - Nguyễn Đại Hoà
[4] Đồ án Kỹ thuật mã hoá tiếng nói dự đoán phân tích nhờ tổng hợp - Cao Tiến Việt
[6] Một số nguồn trên Internet khác


2
4



×