Tải bản đầy đủ (.pdf) (29 trang)

Kỹ thuật audio video chương 2

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.09 MB, 29 trang )

MULTIMEDIA
MULTIMEDIA

NỘI DUNG
• TỔNG QUAN
• KỸ THUẬT AUDIO
• KỸ THUẬT VIDEO


Kỹ thuật Audio

Nội dung










GIỚI THIỆU
MÃ HOÁ AUDIO CẢM QUAN
PHÂN TÍCH TÂM LÝ ÂM HỌC
KỸ THUẬT NÉN AUDIO
MPEG-1
MPEG-2
AC-3 (DOLBY DIGITAL)
APT-X100
MÃ HOÁ ÂM THANH NỔI




Giới thiệu
• Âm thanh:
• Dạng lan truyền của sóng trong không gian,
• Sóng âm khi ñến tai người nghe, ñập vào màng nhĩ, làm cho người ñó
cảm nhận ñược sự rung ñộng này
• Con người có khả năng phân biệt với các âm thanh khác dựa vào một
số ñặc tính như tần số, nhịp ñiệu, mức áp lực...

• Mục ñích của các hệ thống audio:
• Xử lý, tạo hiệu ứng, nén tín hiệu audio từ tín hiệu thu nhận từ nguồn.

• Audio số:


Chuỗi các giá trị số ñược biểu diễn bằng mức âm thanh theo thời gian.

Ứng dụng


Các hệ thống thông tin không dây:
– Truyền hình phân giải cao (HighDensity TV HDTV), Âm thanh quảng
bá số (Digital Broadcast Audio DBA), Vệ tinh quảng bá trực tiếp
(Digital Broadcast Satelite DBS).



Các môi trường mạng:
– Âm thanh theo yêu cầu (chuyển mạch gói, Internet), Truyền hình cáp

(CATV) các tuyến studio.



Các ứng dụng ña môi trường:
– CD-R, ðĩa ña năng số (DVD).



Cinema:
– Dolby AC-3 (5 kênh, @384kbps), APT-x100.



Lưu trữ khối:
– MiniDisc, DCC.


Audio số
• Hệ thống audio tương tự và số
• Hệ thống audio tương tự, việc xử lý tín hiệu gặp phải một số vấn ñề
như khả năng của linh kiện (về mặt tần số), lưu trữ, phức tạp... từ ñó
méo phi tuyến cao, SNR bé.
• Hệ thống audio số, việc thu nhận, hiệu chỉnh, xử lý và phát lại trở nên
dễ dàng hơn rất nhiều. Các kỹ thuật tổng hợp và nhận dạng phát triển
một cách nhanh chóng, tương thích máy tính và con người trở nên
phong phú hơn.
• Ưu ñiểm của audio số là: ðộ méo tín hiệu nhỏ (0,01%), Dải ñộng âm
thanh lớn gần mức tự nhiên (>90dB), Dải tần rộng hơn (20Hz ñến
20kHz), ðáp tuyến tần số bằng phẳng, Cho phép ghi âm nhiều lần mà

không giảm chất lượng, Thuận tiện lưu trữ, xử lý, Tăng dung lượng
kênh truyền, Khả năng xử lý bằng hệ phi tuyến

Quá trình thu nhận audio số
Tín hiệu vào
tương tự Khuếch ñại Lọc thông Lấy và
L
tuyến tính
thấp
giữ mấu


hóa

Tạo
Dither
Tín hiệu vào
tương tự Khuếch ñại Lọc thông Lấy và
R
tuyến tính
thấp
giữ mấu

Ghép
kênh


hóa

Hình 2-1 Quá trình thu nhận âm thanh số


Xử lý

Tín hiệu
ra số


Lấy mẫu và lượng tử hoá
• Lấy mẫu và giữ mức:
Lấy mẫu là quá trình rời rạc hóa tín hiệu về mặt thời gian và giữ cho biên
ñộ trong khoảng thời gian lấy mẫu không ñổi.

• Lượng tử hóa:
Lượng tử hóa là quá trình rời rạc tín hiệu về mặt biên ñộ. Tại mỗi mẫu,
biên ñộ ñược chia thành các mức gọi là các mức lượng tử

Tín hiệu vào

Lượng tử
Hình 2-2 Lấy giữ mẫu và lượng tử

Dither
• Nguyên nhân: Lượng tử hóa
méo. Tín hiệu có biên ñộ càng nhỏ thì
méo lượng tử càng cao.
• Khắc phục: Cộng âm thanh trước khi lấy mẫu với một tạp âm tương tự
Ngẫu nhiên hóa các ảnh hưởng méo lượng tử ñể phân phối ñều méo lượng
tử thành các lỗi ngẫu nhiên chứ không tập trung nhiều vào phần có biên ñộ
thấp.
• Khái niệm: Dither là một nhiễu ñược cộng vào tín hiệu âm thanh.

• Mục ñích: Loại bỏ méo lượng tử.
• Cơ sở: Dither làm cho tín hiệu âm thanh bị biến ñổi giữa các mức lượng tử
gần nhau, ñiều này làm giảm ñộ tương quan của lượng tử hóa tín hiệu, loại
các ảnh hưởng của lỗi và mã hóa các biên ñộ tín hiệu thấp hơn một mức
lượng tử.
• Nhược ñiểm: Cộng nhiễu vào tín hiệu.


Dither
Tín hiệu gốc

Tín hiệu gốc

Tín hiệu lấy mẫu

Tín hiệu lấy mẫu

Tín hiệu sau khi lọc

Tín hiệu sau khi lọc

Không dither

Dither

Hình 2-3 Dither và không dither

Mã hóa và mã hóa kênh
• Mã hoá
– là quá trình chuyển các mức rời rạc thành một chuỗi các mẫu số nhị

phân (hoặc các hệ ñếm khác) theo một quy luật nhất ñịnh.
– Sau mã hóa nhị phân, ta ñược tín hiệu ñiều xung mã PCM.
– Tín hiệu PCM không thích hợp ñể lưu trữ hoặc truyền dẫn vì vẫn còn
tồn tại thành phần một chiều mã hóa kênh.

• Mã hóa kênh
– biến ñổi dữ liệu với mục ñích ñạt ñược mật ñộ bit cao trong giới hạn
băng thông của kênh truyền.
– Giảm sự tổn hao trong khi truyền hoặc lưu trữ.
– Cải thiện dải thông, dữ liệu truyền dẫn có ñặc tính tối ưu.
– Làm cho phổ tín hiệu âm thanh số ít méo.


Ghép kênh
– Tín hiệu âm thanh số thường bao gồm nhiều kênh, ví dụ hệ
thống âm thanh 5.1 gồm các kênh trái, phải, trung tâm, trái
vòm, phải vòm và siêu trầm, ngoài ra còn có các tín hiệu
mã phụ, mã ñồng bộ…
– Nguyên lý ghép kênh có thường ñược áp dụng ñó là ghép
kênh phân chia theo thời gian, mỗi kênh sử dụng một khe
thời gian ñược ấn ñịnh trước.
L
L

R
Ghép kênh L+R

R
Hình 2-4 Ghép kênh tín hiệu audio


MÃ HOÁ AUDIO CẢM QUAN
• Giới thiệu
Mục ñích:
Biểu diễn chuỗi số ngắn gọn.
Tốc ñộ bit thấp.
Chất lượng cao
ðộng cơ:
Giảm tốc ñộ dữ liệu.
Giảm chi phí truyền dẫn (BW).
Giảm các yêu cầu lưu trữ.
Mạnh.
Các yêu cầu:
Cảm nhận trong suốt.
ðộc lập nguồn.
Có khả năng ña kênh.
ðộ phức tạp bất ñối xứng.
ðộ trễ hợp lý.


MÃ HOÁ AUDIO CẢM QUAN
Mã hoá nguồn không thực tế với tín hiệu audio, do ñó, trong audio, người
ta tiến hành
- Khai thác các ñặc tính thu ñược.
- Loại bỏ các thành phần không thích hợp với cảm nhận.
- Giảm các dư thừa thống kê.

Băng thông
Tốc ñộ lấy mẫu
Số bits trên mẫu
Tốc ñộ bit thô

Số kênh
Mô hình hiệu quả nguồn
Sức chịu ñựng nguồn
Chất lượng mong ñợi
Tính ña dạng của phổ

Thoại
200-3400Hz
8kHz
8bits
64kbps
1

Có thể yêu cầu
Méo do bị giới hạn
Harmonic, V/UV/TR

Audio
20Hz-20kHz
44.1kHz/48kHz
16+bits
768kbps
1-6+kênh
Không
Yêu cầu
Chất lượng “CD”
Không thể phân loại

MÃ HOÁ AUDIO CẢM QUAN
• Các tiêu chuẩn lấy mẫu theo các yêu cầu cụ thể khác nhau

- Chất lượng.
- ðộ trễ.
- Băng thông.
- Tốc ñộ

Tiêu chuẩn

Tốc ñộ lấy
mẫu

Số bits/mẫu

Mono/stereo

Tốc ñộ

Băng tần

ðiện thoại

8 kHz

8 bits/mẫu

Mono

8 kbytes/s

4Khz


AM radio

11.025 kHz

8 bits/mẫu

Mono

11.0 kbytes/s

5kHz

FM radio

22.05 kHz

16 bits/mẫu

Stereo

88.2 kbytes/s

10kHz

CD

44.1 kHz

16 bits/mẫu


Stereo

176.4 kbytes/s

20kHz

DAT

48 kHz

16 bits/mẫu

Stereo

192.0 kbytes/s

20Khz


MÃ HOÁ AUDIO CẢM QUAN
Băng lọc số:
Băng lọc số là một tập hợp các bộ lọc số có chung ñầu vào nhiều ñầu ra hoặc chung
ñầu ra nhiều ñầu vào.
Băng lọc số phân tích là tập hợp các bộ lọc số có ñáp ứng tần số Hk(ejω) có chung
ñầu vào và nhiều ñầu ra
H0(ejω)
x(n)

H1(ejω)



X(ejω)

HM-1(ejω)

x0(n)
x1(n)
xM-1(n)

X0(ejω)
X1(ejω)
XM-1(ejω)

Ngõ ra gồm M tín hiệu Xk(n) chiếm dải tần liên tiếp nhau gọi là các tín hiệu băng
con (subband).
Các bộ lọc H0(ejω): thông thấp, HM-1(ejω): thông cao, Hi(ejω): thông dải, với i từ 1
ñến M-2

MÃ HOÁ AUDIO CẢM QUAN
Băng lọc số tổng hợp:
Là tập hợp các bộ lọc số có ñáp ứng tần số Gk(ejω) có chung ñầu ra
x0(n)
x1(n)
xL-1(n)

X0(ejω)
X1(ejω)
XL-1

(ejω)


G0(ejω)
G1(ejω)


+

GL-1(ejω)

+

x(n)
X(ejω)

Các bộ lọc : G0(ejω): thông thấp, GM-1(ejω): thông cao, Gi(ejω): thông dải, với i từ 1
ñến L-2
Băng lọc số nhiều nhịp hai kênh và băng lọc gương cầu phương QMF
(Quadrature Mirror Filter Bank):
Băng lọc số nhiều nhịp là sự kết hợp của băng lọc số phân tích, băng lọc số tổng
hợp với bộ phân chia và bộ nội suy.
Với số bộ lọc của băng lọc phân tích và tổng hợp bằng 2 thì ta có băng lọc số nhiều
nhịp hai kênh.


MÃ HOÁ AUDIO CẢM QUAN
x(n)
H0(ejω)

x0(n)


↓2

y0(n)

v0(n)

↓2

H1(ejω)
x1(n)

↑2

G0(ejω)

↑2

G1(ejω)

+

xˆ(n)

y1’(n)

y1(n)

v1(n)

y0’(n)


• H0(ejω), G0(ejω) :Lọc thông thấp. H1(ejω), G1(ejω) :Lọc thông cao.
• Lý tưởng: xˆ ( n) = x(n)
• Nếu |H0(ejω)|=|H1(ejω)| và nếu chọn tần số cắt cho 2 bộ lọc là π/2 thì ta thấy
|H0(ejω)|là ảnh của |H1(ejω)| qua gương ñặt ở vị trí π/2. Băng lọc nhiều nhịp
hai kênh với ñặc tính như vậy gọi là băng lọc gương cầu phương.
• Nếu xˆ (n) = cx(n − n0 )giống dạng tín hiệu ngõ vào thì ta gọi là băng lọc gương
cầu phương khôi phục hoàn hảo PRQMF (Perfect Reconstructure QMF)

MÃ HOÁ AUDIO CẢM QUAN
• Mã hoá băng con và cấu trúc bộ lọc QMF
– Mã hoá băng con
• Sử dụng bộ lọc số ñể mã hoá băng con
x(n)
H0(ejω)

x0(n)

↓2

v0(n)

Kênh
truyền
dẫn

↓2

H1(ejω)
x1(n)


v0(n)

v1(n)

v1(n)

y0(n)
↑2

G0(ejω)

↑2

G1(ejω)
y1(n)

y0’(n)

+

xˆ(n)

y1’(n)

Mã hoá
Giải mã
• Thuận lợi cho việc nén tín hiệu âm thanh vì phổ tập trung không
ñồng ñều. Từ ñó, ta có ñược sự phân bố hợp lý, vừa hiệu quả, vừa
ñạt chất lượng cao.



MÃ HOÁ AUDIO CẢM QUAN
• Cấu trúc dạng cây ñơn phân giải
H020(ejω)

↓2

H120(ejω)

↓2

H021(ejω)

↓2

H121(ejω)

↓2

x(n)
H01(ejω)

H11(ejω)

↓2

↓2

MÃ HOÁ AUDIO CẢM QUAN

• Cấu trúc dạng cây ña phân giải
– Cấu trúc này cho ta lượng bit ngõ ra tối ưu và phù thuộc
vào sự phân bố phổ của tín hiệu.
H020(ejω)

↓2

H120(ejω)

↓2

x(n)
H01(ejω)

H11(ejω)

↓2

↓2


MÃ HOÁ AUDIO CẢM QUAN
• Các phương pháp mã hoá chuyển ñổi






FFT (Fast Fourier Transform)

DFT (Discrete Fourier Transform)
DCT (Discrete Cosine Transform)
MDCT (Modified DCT)
Wavelets.

MÃ HOÁ AUDIO CẢM QUAN
• DCT (Discrete Cosine Transform)
DCT là phép biến ñổi trực giao, một thuật toán hiệu quả, cho các ñặc tính nén
mạnh và giảm ñộ tương quan.
N −1
π (2n + 1)k
Chuyển ñổi DCT thuận:
X (k ) = ∑ ∆(n) x(n) cos
n =0

Chuyển ñổi DCT ngược

2N

,

k = 0,..N − 1

,

n = 0,.., N − 1

1

, n = 0;


N
∆ ( n) = 
 2 ,0 < n ≤ N − 1
 N
N −1

π (2n + 1)k

k =0

2N

x(n) = ∑ ∆(n) X (k ) cos

1

, n = 0;

N
∆ ( n) = 
 2 ,0 < n ≤ N − 1
 N


MÃ HOÁ AUDIO CẢM QUAN
• MDCT (Modified DCT): DCT ñược hiệu chỉnh.
MDCT là phép biến ñổi trực giao tuyến tính ñược hiệu chỉnh từ DCT.
MDCT thuận:
N −1

N
N
π

(2n + 1 + )(2k + 1)  ; n = 0,.., N − 1; k = 0,.., − 1.
X (k ) = ∑ p (n) x(n)cos 
2N
2
2


n =0

Và chuyểnN ñổi MDCT ngược (IMDCT):
x ( n) =

4
N

2

−1

π

N



∑ p(n) X (k ) cos  2 N (2n + 1 + 2 )(2k + 1),


n = 0,.., N − 1; k = 0,..,

k =0

Với p(x) là hàm cửa sổ sin ñược xác ñịnh:

p ( x) = sin(

• Wavelets

πx
N

N
− 1.
2

)

Wavelets có thể ñược xem như một bộ phân tích băng con, với cây không cân
bằng, nghĩa là các tần số ñược chia một cách không ñồng nhất. Vậy, băng lọc
tương ñồng với dải tới hạn.

MÃ HOÁ AUDIO CẢM QUAN


DWT (Discrete Wavelet Transform)

Mở rộng và dịch chuyển “hàm mẹ” h(t) bằng cách ñịnh nghĩa một cơ sở trực

giao, wavelet cơ sở:

(

hn.m (t ) = 2− m / 2 h 2− m t − n

)

Trong ñó: n là tỷ lệ, m là ñộ dời và t là thời gian.
Hệ số tỷ lệ n chỉ thị ñộ rộng của các wavelet và hệ số vị trí m xác ñịnh vị
trí của nó. Với hàm mẹ h(t), ta ñược một tập hàm wavelet trực giao cơ sở.
Trực giao:
f(t), g(t) là hai vector thuộc không gian L2(a,b). t∈
∈[a,b].
Hai vector gọi là trực giao khi tích vô hướng của chúng bằng 0.
b

< f (t ), g (t ) >= ∫ f (t ) g * (t ) dt = 0
a


MÃ HOÁ AUDIO CẢM QUAN
• Cơ sở trực giao:
Tập các vector {vk}={v1,v2, …,vn} ñược gọi là cơ sở trực giao nếu chúng trực
giao từng ñôi một và có ñộ dài bằng 1.
b

<vm,vn>=δ
δmn. Hay:


∫ h (t ) h *
k

l

(t ) dt = δ kl .

a

•Hàm delta:

1, k = l
0, k ≠ l

δ kl = 

Chuyển ñổi Wavelet:

X ω (n, m) = cn ,m = ∑ x(t )hn*,m
Chuyển ñổi wavelet ngược:
+∞ +∞

x(t ) = ∑∑ cn.m hn ,m (t )
−∞ −∞

PHÂN TÍCH TÂM LÝ ÂM HỌC
• Hệ thống thính giác của con người
– ðược chú trọng khai thác trong mã hoá audio cảm quan.
– Con người có thể nghe trong dải 20Hz ñến 20kHz với khả năng nghe không
ñồng nhất với các tần số trong dải này. Việc cảm nhận còn phụ thuộc vào mức

áp lực và tuỳ thuộc vào từng người.
– Dải 20Hz÷20kHz ñược chia thành các dải con không ñồng nhất và không tuyến
tính. Cảm nhận tốt trong khoảng 2kHz ñến 4kHz và ngưỡng nghe ñến ngưỡng
ñau khoảng 96dB.
– Phụ thuộc vào môi trường nghe, với môi trường nhiễu lớn thì hạn chế khả năng
nghe và khả năng phân biệt các âm thanh khác nhau.
– Vậy, phân tích tâm lý nghe là xét các vấn ñề:
• ðộ nhạy của tai, khả năng ñáp ứng của các cường ñộ khác nhau.
• ðáp ứng của tai với các tần số khác nhau.
• Nghe một âm khi có mặt một âm khác.


PHÂN TÍCH TÂM LÝ ÂM HỌC
• Ngưỡng nghe tuyệt ñối ATH (Absolute Theshold of
Hearing)
– Thí nghiệm:ðặt một người trong phòng kín, im lặng, phát âm kiểm tra (test
tone) với tần số xác ñịnh (1kHz), tăng mức âm thanh cho ñến khi có thể nghe
ñược, ghi lại các giá trị và lặp lại với tần số khác.
– Vẽ ñồ thị, ta ñược ngưỡng nghe tuyệt ñối. Thử với người khác, ghi kết quả.

PHÂN TÍCH TÂM LÝ ÂM HỌC
• Dải tới hạn (critical bankwidth)
– Fletcher tiến hành các thử nghiệm và cho thấy việc nghe của con người giống
như sử dụng các bộ lọc tâm sinh lý có ñộ rộng gần bằng một giá trị tới hạn và
Flecher gọi ñộ rộng của bộ lọc tới hạn là dải tới hạn.
– Dải tới hạn biểu diễn công suất xác ñịnh của tai cho cho các tần số hay dải tần
số liên tục.
– Các thí nghiệm cho thấy rằng:
• Với các tần số che nhỏ hơn 500Hz thì dải tới hạn không ñổi với ñộ rộng khoảng
100Hz.

• Với các tần số che lớn hơn 500Hz thì dải tới hạn có ñộ rộng tăng tương ñối tuyến
tính theo tần số.

– Vậy, thang tần số không tuyến tính

thang bark (Barkhausen)


PHÂN TÍCH TÂM LÝ ÂM HỌC
• Dải tới hạn (critical bankwidth)
– Flecher chia băng thông âm thanh thành 25 dải tới hạn.
Dải

Tần số thấp

Tsố trung tâm

Tần số cao

Băng thông

1

-

50

100

-


2

100

150

200

100

..

..

..

..

..

4

300

350

400

100


5

400

450

510

110

6

510

570

630

120

7

630

700

770

140












25

15500

18775

22050

6550

PHÂN TÍCH TÂM LÝ ÂM HỌC
• Dải tới hạn (critical bankwidth)
– Bark là ñơn vị ñể biểu diễn một dải tới hạn, 1 bark=1 ñộ rộng dải tới hạn.
f

– Công thức chuyển ñổi:
f < 500
,


100
1bark = 
f
9 + 4 log 2 (
),
1000


f ≥ 500

– Công thức khác: 1bark=13arctg(0.76f)+3.5arctg(f/7500) [bark]
– Công thức khác nữa: 1bark=13arctg(0.76f)+3.5arctg(f2/65.25) [bark]


PHÂN TÍCH TÂM LÝ ÂM HỌC
• Kỹ thuật che (masking)
Con người khi nghe một âm với sự có mặt của một âm khác sẽ cảm nhận yếu ñi khi âm này
có tần số gần với âm cần nghe hoặc biên ñộ lớn.

– Che tần số (frequency masking)
Thí nghiệm: ðặt một người trong phòng kín, phát ra một âm che (masking tone) với tần số
xác ñịnh (1kHz) ở một mức nào ñó (60dB), sau ñó, phát âm kiểm tra (test tone) (1,1kHz) , tăng
mức ñến khi có thể nghe ñược. Thay ñổi âm kiểm tra, vẽ ngưỡng nghe, lặp lại với âm che khác.

PHÂN TÍCH TÂM LÝ ÂM HỌC
– Che thời gian (temporal masking)
Thí nghiệm:
Phát một âm che ở tần số 1kHz, biên ñộ 55dB, thêm một âm kiểm tra 1,1kHz, biên ñộ 20dB
trước và sau âm che. Âm kiểm tra không thể nghe ñược (nó ñang bị che).
Lặp lại các mức khác của âm kiểm tra và vẽ.

Với thí nghiệm trên, ta thấy âm 1,1kHz với 20dB bị che trước khoảng 15ms và che sau
khoảng 50ms.


KỸ THUẬT NÉN AUDIO
• Cơ sở
Âm thanh trung thực và chất lượng dịch vụ thoả mãn thì tốc ñộ dòng dữ liệu phải
lớn.
Ví dụ : Hệ thống âm thanh ña kênh mã hoá 16 bits, tần số lấy mẫu 48kHz (6 kênh)
sẽ có tốc ñộ: 48x16x6=4.5Mbps.
Tốc ñộ cao Khó khăn lưu trữ, truyền dẫn và giá thành thiết bị. Nén.

• Nén không tổn hao
Khôi phục ñúng thông tin ban ñầu sau khi giải nén.
Cơ sở: Loại bỏ dư thừa thống kê, các thông tin xuất hiện trong tín hiệu mà có thể
dự báo trước.
Tỷ số nén thấp, khoảng 2:1, phụ thuộc vào ñộ phức tạp của tín hiệu nguồn.
Thường sử dụng kỹ thuật mã hoá dự ñoán trong miền thời gian.

KỸ THUẬT NÉN AUDIO


Thuật toán vi sai:
Tín hiệu âm thanh có ñặc tính lặp ñi lặp lại nên xuất hiện sự dư thừa số liệu.
Thông tin lặp sẽ ñược loại bỏ trong quá trình mã hoá và ñược ñưa vào lại trong quá
trình giải mã sử dụng kỹ thuật DPCM.
Các tín hiệu audio ñầu tiên ñược phân tích thành tập hợp các dải băng con bao
gồm một số lượng âm thanh rời rạc, sau ñó, DPCM ñược sử dụng ñể dự báo các tín
hiệu lặp lại theo chu kỳ. Nếu sử dụng ADPCM còn cho kết quả tốt hơn.
– Mã hoá Entropy:

Tận dụng ñộ dư thừa trong cách miêu tả các hệ số băng con ñã lượng tử hoá nhằm
cải thiện tính hiệu quả của quá trình mã hoá. Các hệ số lượng tử ñược gởi ñi theo sự
tăng dần của tần số.
Kết quả nhận ñược là bảng mã tối ưu thống kê các giá trị miền tần số thấp và cao.
Sử dụng mã hoá Hufman, Lempel-Zip ñể nén.


KỸ THUẬT NÉN AUDIO
• Nén tổn hao
Hệ thống thính giác của con người không thể phân biệt các thành phần phổ có biên
ñộ nhỏ giữa các thành phần phổ có biên ñộ lớn.
Hệ số nén lớn, khoảng 20:1 phụ thuộc vào quá trình nén và giải nén và chất lượng
audio yêu cầu.
– Các kỹ thuật ñược sử dụng:
- Kỹ thuật che (masking) ñối với các thành phần tín hiệu trong miền thời gian và
tần số.
- Che mức tạp âm lượng tử cho từng âm ñộ của tín hiệu âm thanh bằng cách chỉ
ñịnh số bit vừa ñủ ñể chắc chắn rằng mức nhiễu lượng tử luôn nằm dưới mức giá trị
cần che.
- Mã hoá ghép: Khai thác ñộ dư thừa trong hệ thống audio ña kênh với các thành
phần số liệu trong các kênh giống nhau. Mã hoá một phần số liệu chung trên một kênh
và chỉ ñịnh cho bộ giải mã lặp lại tín hiệu ñó trên các kênh còn lại.

MPEG-1
• Giới thiệu

MPEG-1

Mono và Stereo
32, 44.1, 48kHz


Lớp I

Lớp II

Lớp III

ðược phát triển trên cơ sở phối hợp chuẩn ISO/IEC 11172.
Sử dụng tần số lấy mẫu của CD-DA, với fs=32;44.1;48kHz, mã hoá 16bits/mẫu tín
hiệu.
Tốc ñộ bít: 32 - 768 kbps/channel.
Các kiểu: Mono, dual-mono, dual-stereo, joint-stereo.
Xác ñịnh các tham số khác nhau về tốc ñộ, dòng số sau khi nén, số mẫu trong
header cho một kênh, cấu trúc thời gian khung, phương pháp mã hoá dự ñoán và các
chế ñộ làm việc.


MPEG-1
• ðặc tính
Lớp I

Lớp II

Lớp III

Dùng cho thiết bị dân dụng

Dùng cho thiết bị chuyên
dụng, ña môi trường


Dùng cho thiết bị chuyên
dụng, ña môi trường

Tốc ñộ dòng số liệu từ 32448kbps

Tốc ñộ dòng số liệu từ 32384kbps

Tốc ñộ dòng số liệu từ 32320kbps

384mẫu/khung/kênh

1152mẫu/khung/kênh

1152mẫu/khung/kênh

32 băng con ñều nhau, mỗi
băng con gồm block 12 mẫu

32 băng con ñều nhau, mỗi
băng con gồm block 36 mẫu

32 băng con tới hạnthành
18 MDCT

Chu kỳ một khung 8ms cho
kênh có fs=48kHz

Chu kỳ một khung 24ms
cho kênh có fs=48kHz


Chu kỳ một khung 24ms
cho kênh có fs=48kHz

Hệ số tỷ lệ 6 bits/băng, phân
phối bit theo phương thức ứng
trước.

Hệ số tỷ lệ 6 bits/băng,
phân phối bit theo phương
thức ứng trước.

Hệ số tỷ lệ 6 bits/băng,
phân phối bit theo phương
thức ứng trước.

MPEG-1
12 mẫu 12 mẫu 12 mẫu
Các mẫu
Audio
ngõ vào

Lọc băng con 0
Lọc băng con 1

12 mẫu 12 mẫu 12 mẫu
12 mẫu 12 mẫu 12 mẫu

Lọc băng con 2




12 mẫu 12 mẫu 12 mẫu

Lọc băng con 31



Khung lớp I
: 12x32 =384.
Khung lớp II, III: 12x32x3=1152.

Khung
lớp I

Khung lớp II
và lớp III


MPEG-1


Kiến trúc
Băng lọc
phân tích ña
pha 32 kênh

MPEG1 lớp 1,2
s(n)

32


Lượng tử
hoá
Mã hoá

32

FFT
LI: 512
LII: 1024

Phân tích
tâm sinh lý
âm học

M
U
X

Lượng tử

SMR

SMR: Tỷ số tín
hiệu/ngưỡng che

Dữ liệu

Phân phối
bit ñộng


kênh

Thông
tin thêm

MPEG1 lớp 3

Dữ liệu
Băng lọc
32
phân tích ña
pha 32 kênh

↓32

MDCT

Vòng lặp chỉ ñịnh bit
Lượng tử hoá
Mã hoá Huffman
M
U
X

s(n)

FFT

Phân tích

tâm sinh lý
âm học

SMR

kênh

Mã thông Thông
tin thêm

tin thêm

MPEG-1
• Thuật toán cơ bản


Tiến hành chia ngõ vào thành 32 băng con bởi các băng lọc.
• Lấy 32 mẫu PCM trong cùng một thời ñiểm, kết quả là 32 hệ số tần số ở ngõ ra.



Trong MPEG-1 lớp I thì tập 32 giá trị PCM ñược kết hợp vào trong khối gồm
12 nhóm 32 mẫu này.
– MPEG-1 lớp II và lớp III thì gồm 3 khối 12 nhóm này.
– Phân bố bit ñảm bảo rằng mọi nhiễu lượng tử nằm ở dưới các ngưỡng che.
– Với mỗi băng con, xác ñịnh mức biên ñộ và mức nhiễu bằng mô hình tâm sinh
lý nghe. SMR (signal-mask rate) ñược sử dụng ñể xác ñịnh số bit cho quá trình
lượng tử hoá ñối với mỗi băng con với mục ñích giảm thiểu dung lượng.



MPEG-1
Ví dụ: Sau khi phân tích, mức của 16 băng con ñầu là:
Band
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Level (db)
0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1
Nếu mức của băng con thứ 8 là 60 thì nó che 12 dB ở băng con thứ 7 và 15 dB ở
băng con thứ 9.
Băng con 7 có mức 10dB<12dB: loại. Băng con 9 có mức 35dB>15dB: gởi ñi.
Chỉ có các mức lớn hơn mức che là ñược gởi ñi thay vì dùng 6 bits ñể mã hoá, ta
chỉ dùng 4 bits.
MPEG-Layer I: Bộ lọc DCT 1 khung và tần số bằng phẳng trong mỗi băng con.
Mô hình tâm sinh lý nghe sử dụng che tần số.
MPEG-Layer II: Có 3 khung trong bộ lọc (trước, hiện tại và kế), tổng là 1125
mẫu. Sử dụng vài bits ñể che thời gian.
MPEG-Layer III: Sử dụng bộ lọc tới hạn ñể ñáp ứng tốt hơn. Mô hình tâm sinh lý
nghe sử dụng che thời gian, che tần số, tính toán ñộ dư thừa stereo và mã hoá
Hufman.

MPEG-1
• Cấu trúc khung
Header Info

Side Info

Subband Samples

Aux Data

– Header Info: Gồm 12 bits ñồng bộ; 20 bis thông tin hệ thống chỉ thị tốc ñộ bit,

tần số lấy mẫu, dạng nhấn…; 16 bits CRC với ña thức sinh x16+x15+x2+1.
– Side Info: Gồm phân bố bit: lớp 1 với 4 bits tuyến tính cho các băng con, lớp
II 4 bits cho các băng con tần thấp, 3 bit tần trung và 2 bits tần cao; hệ số tỷ lệ
là 6 bits/băng con kết hợp với phân bố bits và các bits mã hóa cho băng con ñó
ñể xác ñịnh giá trị, lớp III mã hóa âm thanh nổi.
– Subband Samples: 32x12 mẫu ñối với lớp I và 32x36 mẫu ñối với lớp II và lớp
III.
– Aux Data: Dữ liệu bổ sung


MPEG-2

Mở rộng MPEG-1 cho các ứng dụng mới.

Có khả năng áp dụng nhiều tốc ñộ khác nhau, từ 32 ñến 1066kbps. Tần số lấy mẫu
có thể giảm 1 nửa so với MPEG-1 (16; 22,05; 24kHz).

Khả năng ña kênh, tốc ñộ bits mở rộng có thể lên ñến 1 Mbps cho các ứng dụng
tốc ñộ cao. Cho phép nén ñồng thời nhiều kênh.

Chất lượng âm thanh tuỳ thuộc ứng dụng.

Hỗ trợ khả năng lồng tiếng, bình luận nhiều ngôn ngữ trong phần bits mở rộng.

MPEG-2 sử dụng mã hoá cường ñộ cao, giảm xuyên âm, mã hoá dự ñoán liên
kênh và mã hoá ảo ảnh kênh trung tâm ñể nhận ñược tốc ñộ bit kết hợp 384 kbps.

Khung MPEG-2 ñược chia thành 2 phần, phần ñầu là MPEG-1stereo, phần mở
rộng MPEG-2 chứa tất cả những dữ liệu surround khác.


MPEG-2
MPEG-2
Mono-stereo

Mono-stereo

5 channels

MPEG-1

MPEG-2

MPEG-2

32;44.1;48kHz

16;22,05;24kHz

multi channel

Layer I
Layer II
Layer III

32;44.1;48kHz

Layer I
Layer II
Layer III


Layer I
Layer II
Layer III


MPEG-2


Mã hoá và giải mã MPEG-2

channel

L0

L

R0

C
R

Matrix

MPEG-1
encoder

+

MPEG-1
decoder


T3

LS

T4

RS

T5

L0’

L’

R0’

C’

T3’
MPEG-2
Extension
encoder

Inverse
Matrix

MPEG-2 T4’
Extension
decoder

T5’

R’
LS’
RS’

MPEG-2
Trong ñó:

 L0 = α (L + βC + δLS)

R0 = α (R + βC + δRS)

,α =

1
1
;β =δ =
1+ 2
2

or

α = 1; β = δ = 0

Với R: phải, L: trái, C: trung tâm, LS:trái vòm và RS: phải vòm.
Từ ñó dễ dàng trong mã hóa thuận nghịch

Cấu trúc khung


MPEG1 header
Khung MPEG-1/2

MPEG-1 Data

MPEG-1 Auxillary Data

MPEG2 header

MPEG2 Data


AC-3 (DOLBY DIGITAL)









Chuyển tải âm thanh ña kênh trong các ứng dụng như DVD-Video, DTV và DBS.
Phát triển từ AC-1 và AC-2.
Mã hoá âm thanh từ 1 ñến 6 kênh, thông thường cung cấp âm thanh 5.1 kênh: trái,
phải, trung tâm, trái vòm, phải vòm và 1 kênh hiệu ứng tần số thấp.
6 kênh yêu cầu 6x48kHzx18bits=5.184Mbps chưa nén có thể ñược mã hoá tối thiểu
với tốc ñộ 384kbps (tỷ lệ 13:1).
Tuy nhiên, AC-3 hỗ trợ tốc ñộ từ 32 ñến 640kbps.
Cung cấp khả năng tự chọn mức âm thanh cho thính giả.

Cho phép giảm dữ liệu bằng quá trình lượng tử biểu diễn trong miền tần số của tín
hiệu âm thanh.
Bộ mã hoá sử dụng băng lọc phân tích chuyển các mẫu PCM thành các hệ số trong
miền tần số. Mỗi hệ số biểu diễn ký hiệu mũ nhị phân gồm phần số mũ và phần
ñịnh trị. Các tập số mũ ñược mã hoá thô qua phổ tín hiệu và xem như là ñường bao
phổ. Sử dụng phân phối bít xác ñịnh số bits cần mã hoá mỗi ñịnh trị dựa vào ñường
bao phổ. ðường bao phổ và các ñịnh trị ñược lượng tử cho 6 khối âm thanh (1536
mẫu âm thanh) ñược ñịnh dạng thành khung rồi chuyển ñi.

AC-3 (DOLBY DIGITAL)
Quá trình giải mã hoàn toàn ngược lại, ở ñây chỉ xét quá trình mã hoá

Các mẫu
PCM

Băng lọc
phân tích

Số


Mã hoá
ñường bao

Chỉ ñịnh bit

Phần ñịnh trị

Lượng tử hoá
phần ñịnh trị


Thông tin chỉ ñịnh bit

Phần ñịnh trị ñược
lượng tử hoá

ðường bao phổ
ñược mã hoá

ðịnh dạng khung AC-3

Dòng bit
AC-3


×