LUẬN VĂN KỸ THUẬT MÃ HÓA TIẾNG NÓI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (916.34 KB, 76 trang )

CHơng I
Những khái niệm cơ bản
1. Âm thanh
:
* Khái niệm cơ bản:
Sóng âm là sự biến đổi các tính chất của môi trờng đàn hồi khi năng lợng âm
truyền qua.
Sóng âm có thể truyền trong vật chất thể rắn, lỏng , khí, sóng âm không truyền
đợc trong chân không.
Đơn vị có liên quan:
- áp suất: 1 pascal = Pa = n/m
2
1 bar = 10
6
dyne/cm
2
= 10
5
Pa
P
0
áp suất khí quyển 1 bar =10
6
thanh áp trung bình trong không khí.
Độ truyền âm c = 33.145
273
T
cm/s (T: nhiệt độ k
0
của môi trờng)
- Âm trở của môi trờng:

)xscm/g(cZ
2
=

là khối lợng riêng của không khí.
*Đ
ịnh nghĩa cờng độ âm:
- Cờng độ âm: Là công suất âm thông qua một đơn vị diện tích mặt sóng.
- Mật độ năng lợng âm: Là năng lợng âm trong một đơn vị thể tích trờng âm.
I =

. c
2. Thính giác:
a.
Cảm thụ về tần số:
Tai ngời có thể cảm thụ đợc với những tần số trong dải tần 16-20000 Hz là
phạm vi tần số âm gọi là tần số âm hay âm tần.
- Trên 20000 Hz gọi là siêu âm.
- Dới 16Hz gọi là hạ âm.
1
- Khi tăng liên tiếp gấp đôi tần số thì tai ngời thấy bậc biến thiên bằng nhau về
độ cao âm.
Trong âm học ngời ta dùng đơn vị Octave (oct).
Số oct tơng ứng với tần số f
n
đợc xác định nh sau:
fo
fn
lg34,3

fo
fn
logn
2
==
Vậy 1 oct tơng ứng biến thiên gấp đôi lần về tần số so với tần số chuẩn f
0
.
Khoảng âm tần chiếm từ 10 oct.
Ngời ta còn dùng đơn vị 1/3 oct .Ví dụ nh chọn f
0
= 20Hz ta có bảng sau:
f
n
(Hz)
20 25 31,
5
40 50 63 80 100 125 160 200 250 315
n(oct)
0 1/3 2/3 1 4/3 5/3 2 7/3 8/3 3 10/
3
11/
3
4
f
n
(Hz) 630 1000 1250 2000 3150 5000 10000 20000
n(oct) 5 17/3 6 20/3 22/3 8 9 10
- Cực tiểu biến thiên tơng đối của tần số mà tai ngời nhận ra (nh là có thay đổi
độ cao âm) gọi là ngỡng vi phân của độ thính theo tần số. Ngỡng này phụ thuộc

vào tần số theo giá trị khởi đầu của tần số, cũng phụ thuộc vào biên độ di tần và tốc
độ di tần.
Ví dụ:
Khoảng thấp hơn so với 500 Hz:
%1
f
f
=

Khoảng cao hơn 4000 Hz: 0,4
ữ
0,5%.
Khoảng tần số trung bình: 0,2 - 0,3%
* Vậy sự cảm thụ về tần số âm gần với quy luật log
2
theo tần số. Các đặc tính
tần số của thiết bị điện thanh sử dụng trục tần số theo thang tỷ lệ log
2
sẽ rất trực
quan.
2
b.
Cảm thụ về biên độ:
Cảm thụ về biên độ thể hiện "độ to" của âm thờng gọi là âm lợng. Âm lợng
không chỉ phụ thuộc vào tần số và hàng loạt yếu tố khác.
Ví dụ: Khi tác động lâu một âm thanh có biên độ không đổi thì âm lợng âm
thanh giảm đi.
Ngỡng nghe đợc: Là mức thanh áp nhỏ nhất của âm đơn mà tai ngời còn cảm
thụ đợc.
Ngỡng nghe là mức giới hạn chuyển từ trạng thái nghe thấy sang trạng thái

không nghe thấy và ngợc lại.
Ngỡng nghe đợc phụ thuộc vào tần số, lứa tuổi ngời nghe, biện pháp bố trí
nguồn âm thanh áp hiệu dung của dao động điều hoà 1000Hz bằng 2.10
-5
N/m
2
gọi là
ngỡng nghe đợc tiêu chuẩn.
- Ngỡng chói tai: Là mức thanh áp của thanh đơn là lớn nhất mà tai ngời còn
chịu đựng đợc. Ngỡng chói tai mức là giới hạn khả năng chịu đựng nếu vợt quá sẽ
gây ra tổn thơng về thính giác không hồi phục đợc.
Ngỡng chói tai phụ thuộc vào tần số (nhng phụ thuộc ít hơn so với ngỡng nghe
đợc).
Thanh áp điều hoà 1000Hz bằng 20N/m
2
gọi là ngỡng chói tai tiêu chuẩn. Nói
một cách gần đúng cứ mỗi khoảng tăng gấp 10 lần cờng độ âm (đơn) thì tơng ứng
tăng âm lợng một lần. Cảm thụ về biên độ âm gần với quy luật log
10
(theo âm lợng).
Ben là đơn vị so sánh tơng đối với chuẩn để biểu thị mức âm lợng:
M = lg I/I
0
(Ben)
I
0
là âm lợng chuẩn.
+
ở
tần số 1000Hz thính giác phân biệt bién thiên âm lợng 0,1 Ben =1dB. Đơn

vị dB rất thờng dùng:
N = 10 x lg I/I
0
(dB)
Từ công thức sóng âm phẳng và điều hoà ta có:
N = 10 lg I/I
0
= 10lg

/

0
= 20 lg P/P
0
= 20 lgV/V
0

3
Nếu chuẩn so sánh là ngỡng nghe đợc tiêu chuẩn (I
0
= 10
-12
w/m
2
;

0
= 3.10
-15
J/m

3
; V
0
= 3.10
-8
m/s).
Thì số dB tơng ứng là mức tuyệt đối của âm.
Ví dụ mức tuyệt đối của ngỡng chói tai là 120 dB.
Cực tiểu biến thiên âm lợng mà tai ngời nhận ra gọi là ngỡng vi phân của độ
thính theo biên độ. Nghĩa là âm lợng biểu thị tính chất "lợng tử" của thính giác với
âm lợng bé gần ngỡng nghe thì ngỡng

N chừng vài dB. Còn với âm lợng trung bình

N

0,4dB. Trong thông tin, ngời ta thờng dùng đơn vị dB để chỉ mức các đại lợng
điện so sánh với chuẩn. Cần lu ý rằng ngời ta chọn rất nhiều giá trị chuẩn khác nhau
tuỳ theo ứng dụng do đó dễ nhầm lẫn:
Ví dụ:
W1
P
tg10)dBW( =

V1
U
lg20)dBV( =

mW1
P

lg10)dBm( =
Trong trờng hợp dBm, nếu trở kháng chuẩn R
0
= 600

(điểm 0dB = 1mW) th-
ờng đợc coi là điểm đầu vào mạng thông tin điện thoại, thì ta có tơng đơng:
(dBm) = 20 lg
V775,0
U
= 20 lg
mA29,1
1
(1dB = 0,115 Nêpe ; 1 Nêpe = 8,686 dB)
Khi dùng đơn vị so sánh tơng đối việc cộng hay trừ không thể nh số thờng.
Ví dụ: 2 loa cùng phát cùng một chơng trình có mức lệch nhau 7 dB, nếu loa
có công suất bé bị ngắt thì âm lợng chỉ giảm 0,8 dB.
c.
Đờng cong đẳng âm lợng:
- ĐCĐÂL là kết quả tổng hợp nghiên cứu thống kê về thính giác. Để xây đựng
đờng cong đẳng âm ngời ta đa ra đơn vị "phôn", số "phôn" của một âm đơn tần số f
nào đó đúng bằng số dB của âm 1000Hz khi thính giác cân bằng âm lợng của chúng.
ĐCĐÂL đợc vẽ trên đồ thị mà trục tung là mức dB, trục hoành là thang tần số âm
với tham số họ đờng cong là "phôn".
4
- Cách vẽ đờng cong đẳng âm lợng:
+ Vẽ đờng 60 phôn cho máy phát A phát âm đơn 1000Hz, 60dB, cho máy phát
B phát âm đơn 100hz. Ngời nghe sẽ điều chỉnh mức âm đơn 100 sao cho đạt tới cảm
giác âm lợng 100Hz cân bằng với âm lợng máy phát A. Đồng hồ đo thanh áp của
máy phát B cho biết mức âm 100Hz là 65dB.

Vậy ở 100Hz mức tuyệt đối 65 dB đẳng âm lợng với mức tuyệt đối 60dB của
âm 1000Hz, tung độ là 65dB.
Thay đổi tần số và mức âm lợng của máy phát B, dùng tai để cân bằng âm lợng
máy phát B với máy A, ta vẽ đợc một đờng cong đẳng âm lợng 60 phôn. Đờng này
cắt đờng f = 1000hz ở điểm có tung độ 60dB, phần ĐCĐÂL 60 phôn nằm dới đờng
N = 60dB ở trong khoảng tần số trung bình, ở đó tai có độ nhạy lớn. Phần đờng cong
đẳng âm lợng 60 phôn nằm trên đờng N = 60dB ở 2 đầu dải âm tần, ở đó tai kém
nhạy hơn.
*
Nhận xét:
- Với âm lợng càng lớn thì đờng cong đẳng âm lợng phẳng hơn nghĩa là âm l-
ợng ít thay đổi theo tần số hơn .
-
ở
tần số thấp (f<2000Hz) thì độ nhạy của tai kém.
- Khi mức truyền đạt giảm tuyệt đối, không phụ thuộc vào tần số thì cảm thụ
dải tần bị cắt xén.
Ví dụ: ở mức 60dB dải tần từ 35Hz ở mức 20dB dải tần từ 120Hz bị thu hẹp lại
.Vậy mạch điều chỉnh âm lợng đợc thiết kế tốt nhất là thay đổi số phôn.
5

d.
Hiệu ứng che lấp:
- Là hiệu ứng nâng cao mức nghe đợc (độ nhạy thính giác giảm đối với một
âm thanh xét khi có một âm thanh nhiễu)
Ngời ta đánh giá mức che lấp bằng đại lợng mức che lấp
M=N
0
-N
0

N
0
mức ngỡng nghe đợc đối với âm xét khi không nhiễu
N
0

mức ngỡng nghe đợc với âm xét khi có nhiễu
Đại lợng che lấp mức M phụ thuộc vào mức và tần số, vào chênh lệch mức và
chênh lệch tần số, của âm thanh bị che lấp và nhiễu.
- Hiệu ứng che lấp là đặc điểm của thính giác bình thờng (khác với bệnh nặng
tai do thính giác bị quá tải, không hồi phục do tác động của âm năng lợng lớn).
e. Tính phi tuyến của thính giác:
Giả sử tín hiệu âm thanh có dải tần hẹp (hay âm đơn). Ví dụ cho tác động âm
nhiễu: - Lúc đầu có cùng dải tần nh tín hiệu xét, sau đó ta điều chỉnh mở rộng dải
tần âm nhiễu về 2 phía. Do năng lợng âm nhiễu tăng lên đại lợng che lấp tăng dần.
Những âm nhiễu đạt dải thông tới hạn

F
th
thì đại lợng che lấp đạt cực đại, băng M
tới hạn ngay cả

F >

F
th
thì M = M
th
.

F
th
tơng ứng dải tới hạn nào đó của thính
giác. Trong khoảng 20 - 16000Hz có 24 dải tới hạn của thính giác chính cấu trúc dải
tới hạn của thính giác làm cơ sở cho tính phi tuyến của thính giác. Các thực nghiệm
sau đây thể hiện tính phi tuyến của thính giác:

+ Cho tác động âm đơn f1 với mức 100dB. Ngời nghe không chỉ thấy âm f
1
mà
còn cảm thấy có hài bậc (2f
1
) với âm lợng 88dB, cả hài bậc (3f
1
) với âm lợng 74dB.
+ Cho tác động âm dơn f
1
đồng thời với âm đơn f
2
khác mà tần số f
2
thay đổi
liên tục tuỳ ý. Ngời nghe cảm thụ thấy âm phách F =
1f2f
khi f
2
= nf
1
với
n=1,2,3
- Cho tác động 2 âm đơn f
1
và f
2
. Tần số 2âm đơn này ở vào 2 dải tần số tới hạn
khác nhau của thính giác. Ngời nghe cảm thụ các âm f = mf
1

nf
2
với các mức âm l-
ợng khác nhau, trong đó lớn nhất là f
1
- f
2
.
6
Do thính giác có tính phi tuyến nên ta cảm thụ gần đúng các âm phức gồm âm
tần cơ bản và các sóng hài, nhng ta lại cảm thụ sai các âm phức gồm những thành
phần tần số không bội (méo âm thanh do thêm thành phần sóng hài không gây sai
lệch cảm thụ lớn bằng méo âm thanh do thêm thành phần tần số không bội )

3. tiếng nói

Phần trình bày này sẽ đợc nêu kỹ trong chơng 3. Tuy nhiên ở đây nêu ra định
nghĩa cơ bản về ttiếng nói.
-
Tiếng nói
: tiếng nói là do cơ quan phát âm của con ngời tạo ra nhằm mục
đích thông tin. Tiếng nói đợc phân loại thô thành 2 loại âm hữu thanh và âm vô
thanh.
+ Âm hữu thanh tạo ra do luồng không khí từ phổi làm dao động thanh đới
phát ra những xung âm thanh (Đa ra từ thanh quản) trên hình vẽ là chuỗi xung có
tần số f
0
gọi là tần số âm cơ bản phạm vi từ 70Hz- 450Hz, trung bình f
0

của nam là
150Hz còn của nữ là 250Hz. Đờng bao phổ của những xung âm cơ bản có độ dốc
giảm dần từ phía tần số cao khoảng 60dB/1 oct.
+ Âm vô thanh là âm có bản chất tạp âm(trắng) kết quả của sự phụt hơi qua các
khe trong khoang miệng (môi, mũi, răng, lơị ).Thực chất khoang miệng là môt hệ
thống bộ lọc âm học phức tạp với hàng loạt hốc cộng hởng mà tần số cộng hởng
thay đổi nhờ con ngời điều khiển tinh vi rất nhiều cơ trong khoang miệng.
Khi xét đến đặc điểm phổ của một ngôn ngữ, ngời ta thấy có một số xác định
những mẫu âm nguyên tố gọi là phonem. Đờng bao phổ của mỗi phonem có dạng
xác định với một số xác định các cực đại (formant) và các cực tiểu (Cantiformant).
Thành phần phổ mang tin tức là khá hẹp so với toàn bộ phổ tiếng nói và không
khớp với phần mang năng lợng âm chủ yếu (94% công suất tiếng nói thuộc dải tần
80-2000Hz). Dải tần của tín hiệu thoại từ 300 - 3400Hz. Hình vẽ sau miêu tả đặc tr-
ng của tiếng nói và đờng bao phổ liên quan.
7

Hình vẽ 1, a) biểu diễn theo thời gian của tín hiệu tiếng nói
b) và c) biểu diễn phổ của thành phần thoại và phi thoại
4.

So sánh HTTTTT và HTTTS
ngày nay
(Hệ thống thông tin tơng tự và
hệ thống thông tin số):
Khi hệ thống thông tin số cha ra đời thì hệ thống thông tin tơng tự đợc sử dụng
làm công cụ liên lạc (thoại). Khi sử dụng HTTTTT tuy đơn giản hơn nhng không
tăng đợc dung lợng kênh truyền nên rất khó khăn cho việc tăng số lợng thuê bao,
nên việc thông tin liên lạc bị trì trệ cha đáp ứng đợc nhu cầu thông tin trong mọi nơi
mọi lúc. Vì thế mà HTTTS ra đời nhằm khắc phục những nhợc điểm của HTTTTT là
tăng đợc dung lợng kênh truyền và nhiều ngời có thể gọi cùng một thời điểm. Trong

hệ thống thông tin số tin tức đợc má hoá thành các con số nhị phân trớc khi đa tới bộ
điều chế số, điều này làm cho chất lợng thông tin tăng lên.

+ Nguyên lý hoạt động của hệ thống thông tin số:
- Tiếng nói đợc biến đổi từ tơng tự sang số sau đó đợc truyền đi qua các kênh
TDMA (ghép kênh theo thời gian) tức là cùng một tần số có thể truyền tiếng nói
theo các thời điểm khác nhau sau đó đợc điều chế số (chuyển đổi tiếng nói số sang
tơng tự ở tần số thấp sang tần số cao) sau đó truyền đi qua kênh truyền đến phía thu
qua bộ trộn chọn lấy tần số tổng hợp sau đó đợc đa đến bộ giải điều chế số biến đổi
8
tiếng nói số biến đổi tín hiệu tơng tự thành tiếng nói số từ tần số cao sang tần số
thấp sau đó ghép kênh theo thời gian và đợc khôi phục tiếng nói nhờ bộ giải mã.
Nh vậy quá trình biến đổi tiếng nói trong HTTTS tởng chừng nh phức tạp nhng
hiệu quả của việc truyền thông tin tăng đáp ứng đợc nhu cầu của ngời liên lạc qua hệ
thống liên lạc thoại.
Tuy nhiên HTTTS phát triển dựa trên nền tảng của HTTTTT .
Ta sẽ đi tìm hiểu các phơng pháp mã hoá tiếng nói của HTTTS dựa trên
nguyên lý dự đoán tuyến tính (LPC), các phơng pháp mã hoá khác nh PCM, DPCM,
ADPCM, Chơng 2 trình bày về cơ sở toán học cho mã hoá tiếng nói, lợng tử véc
tơ, lợng tử vô hớng, biến đổi Z sử dụng trong mạch lọc số ứng dụng trong mã hoá
tiếng nói nhằm nâng cao hiệu quả mã hoá với tốc độ bít thấp. Chơng 3 trình tổng
quan về các phơng pháp mã hoá tiếng nói trong đó nêu bảng tổng hợp các thuật toán
mã hoá đợc ứng dụng trong điện thoại cố định và di động. Chơng 4 trình bày phơng
pháp mã hoá tiếng nói bằng nội suy và nội suy tăng cờng (Waveform Interpolation
WI và Enhanced Waveform InterpolationEWI) với chất lợng cao tốc độ bit thấp với
các thuật toán tối u hoá tốc độ bít thấp để khắc phục những nhợc điểm khi truyền
tiếng nói (lỗi đơn, lỗi kênh ) đem lại tiếng nói trung thực, chất lợng.
Hình vẽ sau đa ra sơ đồ khối một hệ thống thông tin thoại
9
12/25/02 Datacom II Spring 2002 8

The Tyranny of the DS0
DS0
OC-3/12
DS3DS3DS3
DS1
DS0
DS0
DS1
DS1
DS0
OC-48 OC-48
3/1 DACS
SONET
ADM
DS3 DS3DS3
DS1
DS0
DS0
DS1
DS1
OC-48
Class
Class
-
-
5
5
Switch
Switch
Class

Class
-
-
4
4
Switch
Switch
Class
Class
-
-
4
4
Switch
Switch
Class
Class
-
-
5
5
Switch
Switch
3/1 DACS
SONET
ADM
OC-3/12
Customer
Premise
Customer

Premise
Local
CO
Interexchange
Local
CO
Switching and transport based on circuits
Rigid structure yields high cost for packet
TransportTransport
Switching
Switching
!"#$%&%'%('% &%)*
Hình 2. Sơ đồ một hệ thống thông tin điện thoại
Trong các hệ thống thông tin thoại ngày nay việc sử dụng hệ thống đã số hoá làm
tăng hiệu qủa sử dụng kênh truyền lên đáng kể từ đó giảm giá thành cho ngời sử
dụng. Sơ đồ trên là một ví dụ của hệ thống thông tin thoại đang đợc áp dụng. Tại
khâu ngời sử dụng tín hiệu tiếng nói tơng ứng với mã hoá cơ bản DS0 64kbit trên
giây, sau đó đợc đa qua các hệ thống sử lý phức tạp để mã hoá xuống tốc độ thấp
hơn rối đợc đa qua các khối sử lý chuyển mạch áp dụng các công nghệ mới nh
VOiP, Frame relay, ATM Chính vì vậy chất lợng thông tin thoại ngày càng tăng
kèm theo là giá thành giảm và tiện lợi cho ngời sử dụng trong thông tin di động.
10
chơng ii
cơ sở lý thuyết mã hoá tiếng nói
I. Lợng tử hoá
:
Lợng tử hoá là quá trình biến đổi biên độ của một xung lấy mẫu thành một
xung lợng tử có biên độ bằng mức lợng tử gần nhất (
Hay: làm tròn giá trị biên độ
xung lấy mẫu thành giá trị mức lợng tử

). Mục đích của lợng tử hoá là nhằm biến đổi
các xung lấy mẫu thành các tín hiệu nhị phân hay nói cách khác là biến đổi tín hiệu
tiếng nói thành tín hiệu số để đa lên kênh truyền. Ngày nay ngời ta sử dụng hai ph-
ơng pháp lợng tử là lợng tử đồng dạng hay lợng tử vô hớng và lợng tử véc tơ trong
việc mã hoá và giải mã tiếng nói. Trớc khi phân tích phơng pháp lợng tử véc tơ ta
hãy phân tích phơng pháp cơ bản là lợng tử đồng dạng, gọi tắt là lợng tử hoá.
1.
Lợng tử vô hớng:
Lợng tử hoá chia ra 2 bớc thực hiện là: Chia mức và làm tròn.
- Chia mức: Chia giới hạn dải động của tín hiệu thành các mức lợng tử. Ta có
một số khái niệm:
11
+ , ! - . / ' % 0
1

+ , ! - . / ' % 0
1

2
3
2

4
4
2
+
2 3 4
# 5 # 5
2 * ! ' 6 * ! 7 ! , ! 8 2 9
: $ - 6 ; . 6 !

4
2

2

2 4

2
+
<
# 5
<

+Vạch giới hạn các mức (V
K
): Các giá trị biên độ giới hạn phân chia giữa
các mức (Trong đó chỉ số k là số tự nhiên = 1,2,3 )
+ Gọi tổng số vạch giới hạn mức là M. Nh vậy: M = K
max

+ Độ lớn bớc (Gọi tắt là bớc - B): khoảng cách giữa 2 vạch giới hạn mức.
Quan hệ giữa các đại lợng trên nh sau
: Ta gọi

S là khoảng biến thiên biên
độ của tín hiệu có tính thêm phần dự trữ biên độ, đợc tính theo biểu thức:

S = (S
max

- S
min
)/ (0,9
ữ
0,95) =

S / h (1)
Trong đó
: h = 0.9
ữ
0.95 - Hệ số dự trữ biên độ

S = S
max
- S
min
- Khoảng biến thiên của tín hiệu.
và d =

S' -

S - Độ dự trữ biên độ (2)
Nếu giả thiết độ lớn của các bớc là bằng nhau (
sau này ta sẽ thấy không nhất
thiết có giả thiết này
), thì:
M =

S' : B + 1 (3)
Thông thờng ngời ta chọn trớc M (

theo điều kiện sẽ trình bày trong phần Lập
cốt sau
), vì thế thờng sử dụng công thức:
B =

S' : (M - 1) (4)
Khi đó vạch giới hạn các mức lần lợt sẽ là:
Vạch mức thứ 1 (vạch Min): V
1
= V
min
= s
min
- d/2
Vạch mức thứ 2 V
2
= V
1
+ B = V
1
+ 1.B
Vạch mức thứ 3 V
3
= V
1
+ B = V
1
+ 2B
Vạch mức thứ 4 V
4

= V
3
+ B = V
1
+ 3B

Vạch mức thứ k: V
k
= V
1
+ (k - 1) B (5)

Vạch mức thứ M (
vạch max
)V
M
= V
max
= V
1
+ (M - 1) B =
12
=

S + s
min
+ d/2 =
= s
max
+ d/2

-
Làm tròn:
Nh vậy các xung
có biên độ nằm trong khoảng

vạch mức thứ k
đến k + 1
có thể nhận
Mức lợng tử L
theo 2 quy tắc nh sau:
1. Quy tròn dới: V
k

s
PAM

V
k
+ B/2 => L = k - 1
V
k
+ B/2 < s
PAM

V
k + 1
=> L = k
2. Quy tròn trên: V

k

s
PAM
< V
k
+ B/2 => L = k - 1
V
k
+ B/2

s
PAM

V
k + 1
=> L = k
Sau hai bớc trên ta nhận đợc tín hiệu đầu ra của khối lợng tử là tín số đại diện bằng
các con số nhị phân.

2.
Lợng tử véc tơ.
13
2 2
# 5
2
=
2

2

2

2
>
2

2 2

? +
<
# 5
<

+ , !
+ , !
+ , !
+ , ! >
+ , !
+ , !
+ , !
+ , ! =
%
@ ) A
B C D . 6 1 > = =
B C D % E 1 > = = = >
%

Nh trên trình bày lợng tử vô hớng biểu diễn các mức biên độ của tín hiệu tiếng
nói thành chuỗi các con số nhị phân vì vậy từ mã biểu diễn dài khi múc biên độ tăng
lên. Ví dụ với mức biên độ 256 ta cần từ mã có độ dài n=8 bít và tốc độ mã hoá tơng
đơng là 8x8kHz=64kbit trên giây. Tốc độ này tơng đơng tốc độ một kênh truyền. Để
giảm tốc độ mã hoá tiếng nói ngời ta đa ra Lợng tử véc tơ.
Mỗi tập thông số đầu vào đợc đại diện thành một véc tơ, độ dài véc tơ tơng ứng
với độ dài từ mã và tập hợp các véc tơ đầu vào tơng ứng với một bảng mã.
Trớc hết mã hoá tín hiệu rời rạc S(n) thành véc tơ cha lợng tử X(n) sau đó biến
véc tơ này thành Y(n) (vectơ đã lợng tử). Tín hiệu số đại diện cho véc tơ Y(n) đợc
phát trên kênh truyền là C(n). Tại phía thu, nhận đợc C'(n) khác C(n) do sai số kênh
truyền, bên thu giải mã C'(n) thành Y'(n) đa vào bộ phân tích để cho ra R(n) xấp xỉ
S(n). Nếu không có sai số kênh truyền thì C(n) = C'(n) , Y' = Y(n)
- Quá trình sử lý bằng cách xấp xỉ tín hiệu cho biên độ biến thiên liên tục
theo thời gian thành tín hiệu số có biên độ rời rạc là một khía cạnh quan trọng trong
việc mã hoá và nén số liệu. Việc giảm tốc độ mã hoá bit/s sẽ làm tăng dung lợng
kênh và giảm yêu cầu bộ nhớ cho các thiết bị thông tin. Tuy nhiên để đánh giá chất
lợng mã hoá thoại lợng tử riêng biệt mỗi giá trị thông số với tín hiệu đợc gọi là lợng
tử vô hớng, trong khi đó lợng tử liên kết của mỗi khối, các thông số đợc gọi là lợng
tử khối hay lợng tử vectơ
Lợng tử vectơ ngày nay đợc áp dụng cho cả mã hoá hình ảnh và tiếng nói, tuy
nhiên trong luận văn chỉ đi sâu phân tích lợng tử vectơ trong việc mã hoá thoại.
* Công thức liên quan
:
Coi X = (X
1
.X
2
X

n
) là vectơ N chiều, các thành phần của nó (X
n
, n

k

N)
là các biến ngẫu nhiên biến đổi liên tục (T thể hiện là sự chuyển vị trong lợng tử
vectơ, vectơ X đợc vẽ thành vectơ Y có biên độ rời rạc và có giá trị thực, hay nói
cách khác X đợc lợng tử thànhY và Y là giá trị đã đợc lợng tử của X và viết Y =
q(X) (
q: quantize
) trong đó q(.) là hàm lợng tử Y là vectơ tái tạo hay là vectơ đầu ra
tơng ứng và X, Y nhận một Y
i
là
Y
Y
= {Y
i
; 1

i

L} trong đó Y
i
= [Y
i1
, Y

i2
, Y
in
]
Tập
Y
đợc coi là sự tái tạo bảng hay nói cách khác là bảng mã L là kích thớc
bảng mã và (Y
i
) là các thành phần hay khuôn. L đợc gọi là số lợng các mức. Để thiết
kế bảng mã đó ta phân không gian N chiều của vectơ ngẫu nhiên X thành L mức
14
hoặc tế bào {C
i
; 1

i

L} và tổ chức mỗi tế bào C
i
một vectơ Y
i
. Khối lợng tử sau
đó ấn định vectơ mã Y
i
nếu X ở trong C
i
.
q(x) = Y
i

Nếu x thuộc C
i
Việc sử lý thiết kế bảng mã đợc gọi là huấn luyện hay định hình bảng mã.
Hình sau chỉ ra 1 ví dụ việc phân chia không gian 2 chiều N
1
- N
2
cho mức
định lợng tử vectơ.
N2

Y
i
2 Y
2
3
C
i

Y
i
1 N
1
L = 14 cells
N = 2
Hình 3. Sơ đồ tế bào trong lợng tử véc tơ
ở
đây tất cả vectơ đầu vào X trong Cell C
i
sẽ đợc lợng tử thành vectơ mã Y

i
.
Hình dạng của các tế bào khác nhau ở vị trí các véc tơ mã tơng ứng với các tế bào đ-
ợc vẽ bằng các dấy chấm (.), tổng tất cả các vectơ đầu vào là 14.
Với N = 1, lợng tử véc tơ trở về lợng tử vô hớng
Ci
X
Giá trị mã (
Đầu ra hay mức tái tạo
) đợc vẽ bằng các dáu chấm. Các giá trị đầu
vào X nằm trong khoảng C
i
đợc lu trữ thành Y
i
. Mức ở đây là L = 8
Lợng tử vô hớng có dạng tế bào (Cell) giống nhau (
Vì 1 chiều
)
15
Khi X đợc lợng tử thành Y thì kết quả sai số xuất hiện và một hệ số méo d(x,y)
gọi là thông số khoảng cách. Do vectơ Y(n) (ở các thời gian khác nhau n) đợc phát
đi vì vậy xuất hiện độ méo trung bình.

=
M
1n
)]n(Y),n(X[d
M
1

limD
Để phát xạ, mỗi vectơ Y
i
đợc mã hoá thành một từ mã các số nhị phân (bit) C
i
với độ dài B
i
bit. Tốc độ mã hoá T đợc xác định nh sau:
T = B . Fc bit/s Trong đó:

=
>
=
M
1n
M
)n(B
M
1
limB
bit/vectơ
Đây là độ dài từ mã trung bình, B(n) là số bit đợc dùng để mã hoá vectơ X(n)
ở thời điểm n và Fc là số từ mã hoá đợc phát trên giây.

N
B
R =
bit/chiều (
Dimension
) là số bit trung bình trên một chiều. Với bảng

mã kích thớc L số lợng bit lớn nhất cần cho mã hoá mỗi vectơ là:
B
max
= log
2
L
3
. Đo độ méo trong lợng tử vectơ:
Để đánh giá độ méo ngời ta đa ra các phơng pháp sau:
3.1. Sai số trung bình:
dựa vào công thức

=
==
N
1k
2
KK
T
2
)YX(
N
1
)YX()YX(
N
1
)Y,X(d
Phơng pháp này đơn giản về mặt toán học nó có thể đợc kiểm soát dễ dàng.
3.2. Sai số trung bình trọng số:
d

w
(X,Y) = (X - Y)
T
W (X - Y)
Trong đó W là ma trận trọng số có giá trị dơng xác định.
W = N
-1
I (I là ma trận đặc tính (ma trận riêng) trong đó d
w
= d
2
. Một lựa chọn
trong phân loại các ứng dụng là W = r
-1
trong đó r là ma trận (covarian) của vectơ
ngẫu nhiên x.
16
r = E [(X -
X
) (X -
X
)
T
]
X
=

(X) Trong trờng hợp này d
w
giảm thành:

d
w
(X,Y) = (X - Y)
T
r
-1
(X - Y)
3.3. Méo Itakura - Saito:
Một phép đo độ méo dùng trong dự đoán lợng tử là phép đo Itakura - Saito đa
ra và bắt nguồn từ nguyên tắc cực đại một dạng thay đổi của méo Itakura - Saito
giữa 1 véc tơ của hệ số dự đoán X = [a(1),a(2) a(N)]
T
và véc tơ khác của hệ số dự
đoán Y đợc nêu ra sau đây :
d
1
(X,Y) = (X-Y)
T

X
(X-Y) trong đó

X
= {

(i-k) /

(0), i

0, k

N-1}
Là ma trận tơng quan mà hệ số của nó

(i-k) đợc sử dụng để tính toán véc tơ
của hệ số dự đoán.

17
chơng iii
mã hoá và giải mã tiếng nói
i. khái niệm mã hoá tiếng nói
1.
Mô hình và định nghĩa liên quan
a. Mô hình phát tiếng nói:
- Nguồn âm thanh đợc điều chế bởi bộ lọc thực hiện các chỉnh lý mịn.
Cho âm sắc tuỳ theo hình dạng của hệ thống phát âm (hàm, lỡi môi)
- Nguồn âm (thanh quản)
* Định nghĩa:
-
Tiếng nói
: tiếng nói là do cơ quan phát âm của con ngời tạo ra nhằm mục
đích thông tin.Tiếng nói đợc phân loại thô thành 2 loại âm hữu thanh và âm vô
thanh.
+ Âm hữu thanh tạo ra do luồng không khí từ phổi làm dao động thanh đới
phát ra những xung âm thanh (Đa ra từ thanh quản) trên hình vẽ là chuỗi xung có
tần số f
0
gọi là tần số âm cơ bản phạm vi từ 70Hz- 450Hz, trung bình f
0

của nam là
150Hz còn của nữ là 250Hz. Đờng bao phổ của những xung âm cơ bản có độ dốc
giảm dần từ phía tần số cao khoảng 60dB/1 oct.
+ Âm vô thanh là âm có bản chất tạp âm(trắng) kết quả của sự phụt hơi qua
các khe trong khoang miệng (môi, mũi, răng, lợi ).Thực chất khoang miệng là môt
hệ thống bộ lọc âm học phức tạp với hàng loạt hốc cộng hởng mà tần số cộng hởng
thay đổi nhờ con ngời điều khiển tinh vi rất nhiều cơ trong khoang miệng .
Khi xét đến đặc điểm phổ của một ngôn ngữ, ngời ta thấy có một số xác định
những mẫu âm nguyên tố gọi là phonem. Đờng bao phổ của mỗi phonem có dạng
xác định với một số xác định các cực đại (formant) và các cực tiểu Cantiformant.
Thành phần phổ mang tin tức là khá hẹp so với toàn bộ phổ tiếng nói và không
khớp với phần mang năng lợng âm chủ yếu (94% công suất tiếng nói thuộc dải tần
80-2000Hz). Dải tần của tín hiệu thoại từ 300 - 3400Hz.
b.
ứ
ng dụng mô hình:
18
Bản thân tiếng nói gốc là tơng tự. Nhờ số hoá và xử lí số đối với tiếng nói, ngời
ta có thể chỉnh lý truyền thoại bằng kĩ thuật thông tin số, có thể tổng hợp và phân
tích tiếng nói (trong thông minh nhân tạo). Để số hoá tiếng nói ngời ta lấy mẫu với
chu kì khoảng 20ms. Mỗi mẫu đợc đặc trng bởi tập các thông số: thông số chuyển
mạch (để chỉ mẫu âm là âm vô thanh hay hữu thanh) thông số về âm cơ bản (nếu là
âm hữu thanh) nếu là thông số về tạp âm (nếu là âm vô thanh) thông số về bộ lọc
khoang miệng.
Mục đích xử lý số là đảm bảo sự chính xác khi phân tích hay tổng hợp tiếng nói
Một kĩ thuật xử lí tiếng nói là mã hoá dự đoán tuyến tính LPC (linear predictive
coding). LPC dự đoán tín hiệu thoại ở mẫu xét trên cơ sở lấy trung bình cuả mẫu tr-
ớc. Số các mẫu trớc (đợc lấy trung bình) bằng số các thông số (theo nguyên tắc số
phơng trình độc lập cần có bằng số ẩn cần tìm). Sự sai lệch giữa thông số thực với
thông số dự doán đợc gọi là sai số dự đoán. Thực chất của mạng thông tin số truyền

thoại là truyền dòng bit hiển thị các thông số đặc trng của tiếng nói. Tại nơi thu, với
số liệu nhận đợc và với mô hình đã biết về tiếng nói ngời ta sẽ tạo lại tiếng nói đã
phát.
2.
Cơ sở công nghệ mã hoá tiếng nói :
19
3
@ C F 5 C '
G * H I % J '
' C I
K ! ( ' 5 C L %
$ - M !
N C ! O
: N C ! O
8 @ P C # H 7 % I 9
' C I
8 G # P C Q R R 9
S * ' T ' % O '
K % O '
G U
M ô h i n h t ổ n g h ợ p t i ế n g n ó i
@
(

'

C
L
%

Việc truyền dẫn tín hiệu tiếng nói trên các đờng thông tin thoại, kênh vô tuyến
cho đến nay đang thu hút mạnh mẽ sự quan tâm của nhiều nhà nghiên cứu. Do đó
trên 3 thập kỷ qua nhiều nghiên cứu đã tập trung vào các công nghệ mã hoá và giải
mã tiếng nói.
Nguồn tín hiệu tơng tự ( tiếng nói ) có dạng
x(t)
đó là hàm mẫu của một quá trình
ngẫu nhiên
X(t)
. Giả sử
X(t)
là một quá trình ngẫu nhiên dừng với hàm tự tơng quan
xx ( )
và hàm mật độ phổ công suất
xx (f)
. Thêm vào đó giả sử rằng
X(t)
là một
quá trình dừng trong dải đã đợc giới hạn. Do đó theo lý thuyết lấy mấu,
X(t)
có thể
đợc biểu diễn nh sau:
Trong đó
{X(n/2W)}
đại diện cho các mẫu của
X(t)
đợc lấy mẫu với tỷ lệ
Fs = 2W

mẫu trên giây. Đầu ra của nguồn tín hiệu tơng tự đợc biến đổi thành các mẫu liên

tiếp rời rạc theo thời gian còn đợc gọi là quá trình rời rạc hoá tín hiệu. Các mẫu này
sau đó đợc lợng tử hoá về biên độ và đợc mã hoá thành các số nhị phân. Do vậy nếu
ta có
L
mức, cần phải có
R=log
2
L
bít trên mẫu nếu
L
tơng ứng với bậc mũ 2 hoặc
R= log
2
L +1
với trờng hợp
L
còn lại. Mặt khác nếu các mức không cân bằng và xác
suất của các mức đầu ra đã biết ta có thể dùng mã Huffman để cải thiện hiệu quả
của quá trình mã hoá. Lợng tử hoá mức biên độ của tín hiệu tiếng nói đã lấy mẫu sẽ
tạo ra quá trình nén số liệu nhng cũng đồng thời tạo ra méo dạng sóng hoặc gây ra
suy giảm hay mất độ trung thực. Cực tiểu hoá độ méo trong quá trình này đóng vai
trò rất quan trọng trong việc mã hoá tiếng nói.
Trong các hệ thống thông tin thoại số hay hệ thống lu trữ, quá trình lấy mẫu và l-
ợng tử tín hiệu tơng tự thờng tạo ra một đại diện số đó là tín hiệu PCM (Pulse code
mudulation). Trong hệ thống mạng tổ hợp đa dịch vụ (ISDN), băng tần thoại 300Hz
đến 3400Hz, tỷ lệ lấy mẫu yêu cầu là 8kHz. Để tái tạo lại tiếng nói một cách trung
thực, lợng tử theo luật
A
hoặc

với 8 bít trên một mẫu sẽ đợc sử dụng và tạo ra tốc
độ tơng đơng 64 kbit/s ( theo khuyến nghị G.711 ITU). Tuy nhiên để khai thác hiệu
quả băng thông thì cần thực hiện nén hơn nữa. Trong hệ thống di động các thuật
toán mã hoá tiếng nói có thể tạo ra cả các thành phần d và không liên quan. Vì vậy
20

=
)2/(2
)2/(2sin
)
2
()(
WntW
WntW
W
n
XtX

sự tái tạo tiếng nói cần đảm bảo duy trì chất lợng tiếng nói một cách tốt nhất. Việc
phát triển các thuật toán mã hoá đợc xác định theo các yêu cầu đó là: chất lợng cao,
tốc độ bít thấp, độ phức tạp tính toán thấp, cờng độ mạnh nhằm chống lại sai số do
kênh truyền và có độ trễ thuật toán thấp. Với một ứng dụng nào đó thì việc dung hoà
giữa các điều kiện trái ngợc nh vậy phải đợc thực hiện. Đặc biệt trong các hệ thống
thông tin thoại công cộng việc dùng các thuật toán mã hoá đã đợc tiêu chuẩn hoá là
rất quan trọng, nó cho phép các sản phẩm có khả năng phù hợp giữa các nhà sản

xuất thiết bị và dich vụ cung cấp cho ngời sử dụng. Các nghiên cứu mã hoá tiếng nói
thờng liên qua tới tiêu chuẩn của uỷ ban t vấn điện báo và điện thoại quốc tế
CCITT/ITU-T, ETSI hoặc ISO-MPEG.
So với tín hiệu âm thanh, tiếng nói có đặc điểm là băng tần hẹp hơn rất
nhiều,300Hz đến 3400 Hz so với 20Hz đến 20000Hz. Vì vậy tần số lấy mẫu tín
hiệu tiếng nói cũng thấp hơn đó là 8kHz so với 32kHz đến 48kHz của âm thanh. Đối
với tiếng nói băng thông rộng tới 7kHz tỷ lệ lấy mẫu 16kHz đang thu hút sự quan
tâm của nhiều nhà nghiên cứu đặc biệt là cho các ứng dụng trong hệ thống ISDN
chất lợng cao thuận tiện với dịch vụ thoại cho hội nghị truyền hình. Hầu hết các
thuật toán mã hoá tiếng nói đều căn cứ vào sự tạo ra tiếng nói với tốc độ mã hoá
thấp và trung bình từ 0.5 đến 2 bít trên một mẫu tơng đơng 4 đến 16 kilô bít trên
giây.
Hình vẽ sau nêu ra các kỹ thuật mã hoá tiếng nói phổ biến đã và đang đợc ứng
dụng hiện tại cũng nh trong tơng lai. Về phân loại, các bộ mã hoá và giải mã tiếng
nói hiện nay có thể đợc phân loại thành các loại nh sau: Mã hoá dạng sóng
(Waveform codecs), mã hoá nguồn (source codecs), mã hoá hỗn hợp hay mã hoá lai
(hybrid codecs). Ngoài 3 loại trên vào thập kỷ 90 các nhà nghiên cứu bắt đầu hớng
vào loại mã hoá mới đó là phơng pháp nội suy ( hay xen kẽ ) dạng sóng nguyên mẫu
( Prototype waveform Interpolation - PWI). Vào giữa và cuối thập kỷ 90 trên cơ sở
PIW một số nghiên cứu đã tập trung vào mã hoá và giải mã WI và mã hoá nội suy
tăng cờng ( Enhance Waveform Interpolation - EWI). Về cơ bản bộ mã hoá dạng
sóng đợc sử dụng với tốc độ bít cao và cho tiếng nói chất lợng rất cao. Mã hoá
nguồn hoạt động ở tốc độ bít thấp thậm chí rất thấp nhng tiếng nói mang tính tổng
hợp và không đạt chất lợng cao. Mã hoá lai sử dụng phối hợp các kỹ thuật của cả
21
hai loại trên và cho ra tiếng nói chất lợng cao với tốc độ bít trung bình. Hình vẽ sau
mô tả đặc điểm quan hệ giữa tốc độ và chất lợng tiếng nói của 3 loại mã hoá trên.
Hình vẽ 4: Biểu diễn quan hệ giữa tốc độ và chất lợng của 3 loại mã hoá
Từ hình vẽ ta thấy rằng phơng pháp mã hoá dạng sóng cho phép tốc độ từ khoảng
10 đến 64 ki lô bít giây và cho chất lợng thoại rất cao. Trong khi đó phơng pháp mã

hoá nguồn cho chất lợng thoại tồi đến kém nhng có đạt tốc độ mã hoá rất thấp vào
khoảng gần 1 ki lô bít giây. Phơng pháp hỗn hợp hay mã hoá lai có tốc độ trung
bình 2 đến 16 ki lô bít giây và cho ra chất luợng thoại từ mức chấp nhận đợc cho đến
mức chất lợng cao.
22
Mã hoá dạng sóng
Mã hoá lai
Mã hoá nguồn

Hình 5: Sơ đồ biểu diễn theo khối của 3 loại mã hoá
Trong các sơ đồ trên, sơ đồ a biểu diễn cho bộ mã hoá và giải mã nguồn
(Waveform codecs ), sơ đồ b biểu diễn cho bộ mã hoá dạng sóng (Vocoders ), và sơ
đồ c biểu diễn cho bộ mã hoá lai ( Hybrid coders ).
Các bộ biến đổi A/D thực hiện biến đổi nguồn tín hiệu đầu vào từ tơng tự sang tín
hiệu số. Bên phía thu, quá trình biến đổi ngợc từ số về tơng tự D/A khôi phục hay tái
tạo lại tiếng nói đã phát đi từ phía phát. Với sơ đồ a, nguồn tín hiệu số đại diện cho
tiếng nói đợc đa qua bộ lọc lọc lấy thành phần mong muốn, tín hiệu này đợc lợng tử
và đi tới máy phát. Kênh truyền (channel ) có thể là các kênh vô tuyến, vệ tinh, cáp
dẫn hay cáp quang. Tại đầu thu (Receiver) ngời ta thực hiện quá trình tổng hợp
(Synthesis) và lọc lấy tín hiệu số đã phát đi. Từ sơ đồ b, sau khi biến đổi A/D thay vì
phát đi toàn bộ các thành phần đại diện cho tiếng nói, ngời ta thực hiện quá trình
phân tích các thông số ( Parameter analysis) lấy ra các thông số đặc trng và phát đi
trên kênh truyền. Tại đầu thu khối tái tạo hàm kích hoạt (Generator) đợc kích thích
bằng các chỉ số từ trạm phát, tạo ra các tín hiệu kích hoạt hay còn gọi là kích thích
23

(excitation) đa tới tác động vào các thông số của bộ lọc tổng hợp (Synthesis Filter)
tái tạo lại tín hiệu số đã phát đi. Sơ đồ c là tổng hợp hai sơ đồ trên. Các phân tích cụ

thể của 3 loại trên sẽ đợc phân tích kỹ hơn trong các mục sau.
3.
Các thành phần của bộ mã hoá tiếng nói:
a. Một số khái niệm
+ Bộ mã hoá tiếng nói, hay gọi đầy đủ tên là Bộ mã hoá và giải mã tiếng nói,
(speech coder) hay (speech codecs) luôn bao gồm khối mã hoá (Encoder) và khối
giải mã (Decoder). Bộ mã hoá thực hiện nh là một quá trình (hay hàm) nén trong khi
bộ giải mã là một hàm bung nén hay giải nén. Quá trình trên luôn đợc kết hợp trong
các hệ thống truyền phát hay lu trữ tiếng nói. Hình vẽ sau mô tả quá trình đó. Trong
trạng thái nén, khối mã hoá nhận tín hiệu tiếng nói ban đầu đã đợc số hoá và tạo ra
dòng bít có tốc độ thấp để đa tới máy phát hoặc thiết bị lu trữ. Ngợc lại ở trạng thái
giải nén bộ giải mã thực hiện biến đổi ngợc lại quá trình bên khối mã hoá đã thực
hiện và xây dựng lại giá trị xấp xỉ của tiếng nói ban đầu từ dòng bít thu đợc.

Hình 6: Sơ đồ khối hệ thống lu trữ và truyền tiếng nói
+ Khung và khung con: Trong các bộ mã hoá tiếng nói, để nâng cao hiệu quả và
giảm tốc độ mã hoá một số biện pháp phân chia cần thiết khác nh phân chia các
khung (20 mi-li giây) thành các khung con (Frame và subframe ). Ngời ta đã đo đạc
và thấy rằng trong khoảng thời gian 20 mi li giây tiếng nói có đặc điểm là không
thay đổi, thời gian đó đợc gọi là một khung tiếng nói. Một số bớc sử lý tiếp theo với
24
Mã hoá và
phát tiếng nói
Thu và giải
mã tiếng nói
yêu cầu độ phân giải cao hơn theo thời gian và cần phải thực hiện trong khoảng thời
gian hẹp hơn hay khung hẹp hơn. khoảng đó đợc gọi là khung con.
+ Các khía cạnh cần xem xét:
Để chọn lựa bộ mã hoá tiếng nói, các yếu tố đợc và mất cần đợc xem xét và dung
hoà. Ví dụ việc giảm tốc độ bít làm tăng tốc độ hay dung lợng kênh truyền và tăng

hiệu quả sử dụng kênh nhng cũng đồng thời làm giảm chất lợng và độ trung thực
của tiếng nói đồng thời gây ra trễ do các thuật toán và quá trình tính toán gây nên.
Ví dụ trích dẫn sau đây cho thấy sự liên quan giữa mức thời gian trễ theo tiêu chuẩn
của ITU và thời gian trễ do quá trình tính toán của các thuật toán gây ra: Trễ thuật
toán thờng nằm trong phạm vi 10 đến 15 mi li giây với hầu hết các thuật toán mã
hoá. Trễ kênh truyền theo tiêu chuẩn thoại của ITU là trong phạm vi từ 0 đến 150 mi
li giây. Tuy nhiên một số tiêu chuẩn cho phép độ trễ kênh truyền từ dới 400 mi li
giây. Đối với thông tin vệ tinh nh hệ thống INMARSAT độ trễ thoại trong một kênh
vệ tinh lên và xuống có thể vợt 400 mi li giây.
Các ứng dụng khác nhau cũng yêu cầu các bộ mã hoá đạt mức độ tối u khác nhau
với những khía cạnh khác nhau. Tám khía cạnh quan trọng đợc nêu ra sau đây:
(i) Tốc độ bít trung bình: Đợc đo bằng bít/giây và đợc nêu ra vì một số bộ mã hoá
có tỷ lệ bit thay đổi.
(ii) Chất lợng tiếng nói: Một phơng pháp phổ biến để đánh giá chất lợng tiếng nói
là Điểm trung bình chung ( MOS - Mean Opinion Score ) đó là thực hiện thẩm định
theo đánh giá chủ quan của ngời nghe (Subjective measurement). Ngời nghe đánh
giá theo các thang điểm: xấu, kém, trung bình, tốt và vô cùng tốt ( bad, poor, fair,
good, excellent ) ( xem hình trên ). Phơng pháp này yêu cầu số lợng trong phạm vi
rộng ngời nghe, ngời nói và số liệu tiếng nói. Tại bắc Mỹ thang điểm MOS giữa 4
và 4,5 đợc coi là tốt ( toll-quality ) trong khi đó chất lợng tổng hợp ( synthetic
quality ) nằm trong khoảng 3,5. Cũng có một số quan điểm đo tỷ số tín hiệu trên tạp
âm SNR đợc gọi là phơng pháp đo các thông số bằng thiết bị đo (Objective
measurements). Phơng pháp này có thể thực hiện nhanh và rẻ nhng nó không căn cứ
vào các thành phần cảm nhận của con ngời.
(iii) Trễ thuật toán: Các bộ mã hoá đều sử lý các mẫu theo các khối do đó luôn gây
ra trễ thời gian hay gọi là trễ mã hoá. Nó đợc xác định là thời gian cho việc sử lý 2
khối tiếng nói liên tiếp. Đối với thông tin thoại giới hạn rất khắt khe đối với thời
25

LUẬN VĂN KỸ THUẬT MÃ HÓA TIẾNG NÓI

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về