Tải bản đầy đủ (.doc) (73 trang)

Kỹ thuật mã hóa thụ cảm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (423.65 KB, 73 trang )

Phân tích và ứng dụng chuẩn MP3
MỤC LỤC
Mục lục…….....................................................................................................1
Lời mở đầu....................................................................................................5
Các thuật ngữ thường dùng.........................................................................6
PHẦN 1 : LÝ THUYẾT...............................................................................7
CHƯƠNG I: CÁC ĐẶC ĐIỂM CƠ BẢN CỦA ÂM THANH................7
I. Các đặc tính cơ bản của âm thanh...................................................7
1. Tần số sóng âm.........................................................................7
2. Biên độ sóng âm........................................................................8
II. Khái quát về âm thanh số..............................................................9
1. Lấy mẫu rời rạc thời gian, tín hiệu audio tương tự....................9
2. Lượng tử hoá và các mẫu rời rạc thời gian................................9
3. Tỉ số tín hiệu trên sai số (Signal-to-error ratio).........................10
CHƯƠNG II: GIỚI THIỆU VỀ MPEG...................................................11
I. GIỚI THIỆU....................................................................................11
1. MPEG là gì?..............................................................................11
2. So sánh các chuẩn MPEG:.........................................................11
3. Âm thanh MPEG.......................................................................12
4. Hoạt động:.................................................................................13
II. CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG........................................14
1. Lược đồ mã hóa Perceptual Subband........................................14
2. Giải thích về hiệu qủa che (masking effect).............................14
a. Nén âm thanh MPEG...........................................................15
b. Hiệu quả che........................................................................16
3. Các lớp âm thanh MPEG..........................................................17
a. Lớp I (Layer I)......................................................................18
b. Lớp II (Layer II)...................................................................18
c. Lớp III (Layer III)................................................................19
III. CÁC THÔNG SỐ DÙNG TRONG MPEG.....................................20
1. Mode..........................................................................................20


2. Sampling Frequency (tốc độ lấy mẫu).......................................21
3. Bit Rate......................................................................................21
CHƯƠNG III: MÃ HÓA THỤ CẢM.........................................................23
Trang 1
Phân tích và ứng dụng chuẩn MP3
I. CƠ SỞ ÂM TÂM LÝ.........................................................................23
1. Ngưỡng nghe tuyệt đối (absolute threshold of hearing) ...........23
2. Các băng tới hạn(critical bands) ...............................................23
3. Hiện tượng che (masking) ........................................................24
II. MÃ HÓA BĂNG PHỤ .......................................................................26
III. MÃ HOÁ BIẾN ĐỔI .........................................................................26
IV. MÃ HOÁ MP3 ( MP3 ENCODING) .................................................27
1. Phân tích phép biến đổi Fourier nhanh (FFT analysis) .............27
2. Ngưỡng che(Masking Threshold) .............................................28
3. Băng lọc phân tích (Analysis Filterbank) .................................28
4. MDCT với cửa sổ động ............................................................28
5. Chia tỉ lệ và lượng tử hóa (Scaling và Quantization) ................29
6. Mã hóa Huffman và sinh ra dòng bit (Huffman Coding and
Bitstream Generation) ...................................................................30
7. Thông tin (Side Information) ....................................................32
CHƯƠNG IV: GIẢI MÃ MPEG1 LỚP 3...................................................33
I. GIẢI MÃ MP3 (MP3 DECODING) .....................................................33
1. Đònh dạng khung (Frame Format) ............................................33
a. Tiêu đề ................................................................................34
b. Thông tin (side infomation).................................................38
c. Dữ liệu chính (main data).....................................................39
d. Dữ liệu phụ (Ancillary Data) ..............................................40
2. Giải mã Huffman.......................................................................40
3. Lượng tử hoá lại (requantization) .............................................41
4. Sắp xếp lại thứ tự ( reordering) ................................................42

5. Giải mã stereo ..........................................................................42
a.Giải mã Stereo MS ...............................................................42
b.Giải mã cường độ stereo ......................................................43
6. Giảm biệt danh (Alias Redution) ..............................................43
7. IMDCT .....................................................................................44
8. Khối lọc đa pha tổng hợp ( Synthesis Polyphase Filterbank) .. .46
II. NHÌN CHUNG VỀ HIỆU QUẢ CÁC
GIẢI THUẬT GIẢI MÃ MP3 ......................................................46
1 . Giải mã Huffman .....................................................................46
2 . Bộ lượng tử hóa lại (Requantizer) ...........................................48
3. Phép biến đổi cosin rời rạc cải tiến đảo ngược (IMDCT) ........51
4. Băng lọc đa pha ( Polyphase Filterbank) ..................................53
Trang 2
Phân tích và ứng dụng chuẩn MP3
PHẦN 2: XÂY DỰNG PHẦN MỀM...........................................................57
CHƯƠNG I:GIAO DIỆN VÀ THUYẾT MINH CHƯƠNG TRÌNH......57
1. Thanh SkinProgress .................................................................58
2. Nút Minimize ............................................................................58
3. Nút Colse...................................................................................58
4. Timer.........................................................................................58
5. Tổng thời gian ...........................................................................58
6 .Nút Open...................................................................................58
7 .Nút Play.....................................................................................58
8. Nút Pause..................................................................................59
9. Nút Stop ....................................................................................59
10. Thanh tiến trình .....................................................................59
11. Nút Volume ............................................................................59
CHƯƠNG II : LƯU ĐỒ GIẢI THUẬT VÀ CẤU TRÚC DỮ LIỆU......60
I. SƠ ĐỒ KHỐI.....................................................................................60
II. LƯU ĐỒ GIẢI THUẬT ..................................................................61

III. CẤU TRÚC DỮ LIỆU ...................................................................63
1. File Agrs.h.................................................................................63
a. Lớp MPArgs ........................................................................63
b. Cấu trúc MPInfo ..................................................................66
c. Cấu trúc frame......................................................................66
2. File Common.h .........................................................................67
a. Cấu trúc ID3TagStruct.........................................................67
b. Cấu trúc gr_info_s................................................................67
c. Cấu trúc bandInfoStruct .......................................................68
d. Cấu trúc III_sideinfo............................................................68
3. File Elsound.h............................................................................69
a. Cấu trúc esInputMode..........................................................69
b. Cấu trúc esOutputMode.......................................................69
c. Cấu trúc esPlayerMode........................................................69
d. Cấu trúc esPlayerError ........................................................69
4. File Huffman.h..........................................................................70
IV. ĐỊNH NGHĨA..................................................................................70
1. Các đònh nghóa dùng trong tập tin <Common.h>.......................70
2. Các đònh nghóa dùng trong Player.h...........................................71
Trang 3
Phân tích và ứng dụng chuẩn MP3
3. Các đònh nghóa dùng trong Resource.h......................................71
PHẦN 3 : TỔNG KẾT.................................................................................72
Tài liệu tham khảo .................................................................................73
Trang 4
Phân tích và ứng dụng chuẩn MP3
LỜI MỞ ĐẦU
Trong thời đại bùng nổ của công nghệ thông tin, việc truyền tải dữ liệu là
nhu cầu cần thiết. Đặc biệt là việc gởi dữ liệu theo đường Internet, vì chất
lượng đường truyền thấp nên cần phải nén dữ liệu nhỏ gọn để thuận lợi cho

việc upload hay download. Đối với lónh vực âm nhạc cũng vậy, nhu cầu gởi
tặng bài hát cho nhau , nghe nhạc trực tuyến trên mạng rất phổ biến vì vậy
việc nén file nhạc vô cùng cần thiết để tiết kiệm đường truyền, thời gian và
tiền bạc.
Để giải quyết vấn đề này MPEG có rất nhiều chuẩn để nén như MPEG 1,
MPEG 2,… dùng để nén file theo nhiều cách khác nhau. Một trong những
chuẩn phổ biến là chuẩn MPEG 1, trong khuôn khổ đề tài này chúng em chỉ
tìm hiểu về chuẩn MPEG 1 Layer 3 hay còn gọi là mp3 và minh hoạ bằng
một chương trình giải mã file mp3, sau đó phát ra loa.
Trang 5
Phân tích và ứng dụng chuẩn MP3
CÁC THUẬT NGỮ THƯỜNG DÙNG
MDCT Modified Discrete Cosine Transform.
IMDCT Inverse Modified Discrete Cosine Transform.
Sample rate Tốc độ lấy mẫu.
FFT Fast Fourier Transform.
DFT Discrete Fourier Transform.
Signal-to-noise (S/N) Tỉ số giữa tín hiệu và nhiễu.
CRC Cyclic Redundancy Check.
ADC Analog to Digital Converter.
CODEC CODer/DECoder.
CPU Central Processing Unit.
DCT Discrete Cosine Transform .
DSP Digital Signal Processor.
FS Sampling Frequency, e.g. 44100 Hz for CD audio.
FIFO First in, first out.
FLOP Floating-point operation.
FPU Floating point unit. Hardware math acceleration.
inside a CPU.
ISO International Standards Organisation.

MFLOPS Million floating-point operations per second.
MPEG Motion Picture Expert Group. Working group
within ISO.
PCM Pulse Code Modulation. Output from an ADC.
Trang 6
Phân tích và ứng dụng chuẩn MP3
PHẦN I : LÝ THUYẾT
CHƯƠNG I : CÁC ĐẶC ĐIỂM CƠ BẢN CỦA ÂM THANH
Âm thanh được tạo bởi một thực thể dao động. Không có dao động thì
không có âm thanh. Thực thể dao động thì được gọi là nguồn âm. Nguồn âm
làm cho các phần tử của môi trường bên cạnh nó dao động. Các phần tử này
lại làm cho các phần tử kế nó dao động. Bằng cách này các phần tử của môi
trường truyền đến tai của người nghe. Khi chúng ta cảm nhận một âm thanh
nào đó, các phần tử dao động làm cho màng nhó của chúng ta cũng dao
động. Các dao động này được tiếp nhận và phân tích bởi bộ não của chúng
ta.
Âm thanh có thể truyền qua môi trường không khí, nước hoặc các cấu trúc
xây dựng… âm thanh truyền đi dưới dạng sóng âm, sự truyền âm thanh thực
chất là sự truyền năng lượng từ nơi này đến nơi khác.

I. CÁC ĐẶC TÍNH CƠ BẢN CỦA ÂM THANH
Bất kỳ âm thanh đơn giản nào chẳng hạn như một nốt nhạc đều có thể hoàn
toàn được mô tả bởi 3 đặc tính cảm nhận sau: cao độ (pitch ), cường độ
(intensity), âm sắc (timbre).
Những đặc tính này lần lượt tương ứng với các đặc tính vật lý sau của âm
thanh: tần số (frequency), biên độ (amplitude), sự cấu thành của các hài
(harmonic constitution).
1. Tần số sóng âm
Âm thanh được truyền đi dưới dạng sóng âm. Khi sóng âm truyền đi sự
truyền dao động của các phần tử dao động theo hướng truyền sóng. Sự

dòch chuyển của các phần tử của môi trường tạo ra các vùng có mật độ
phần tử cao thấp khác nhau. Các vùng có mật độ phần tử cao được gọi là
các vùng đậm đặc (compression). Các vùng có mật độ phần tử thấp được
gọi là vùng loãng (rarefaction).

Các vùng loãng và vùng đậm đặc lan truyền theo hướng truyền của
sóng. Các phần tử dao động không lan truyền theo hứơng truyền sóng,
Trang 7
Phân tích và ứng dụng chuẩn MP3
chúng dao động xung quanh vò trí cân bằng của chúng. Mỗi một dao
động hoàn chỉnh được gọi là chu kỳ dao động (từ điểm bắt đầu của nó,
tới một khoảng cách tối đa theo một hứơng, sau đó trở về vò trí ban đầu,
tới một khoảng cách theo hướng ngược lại, và cuối cùng là trở về vò trí
ban đầu ).
Số chu kỳ dao động được thực hiện trong một giây được gọi là tần số dao
động, đây cũng chính là tần số của âm thanh. Một trong những khác biệt
chính giữa hai âm thanh là sự khác biệt về cao độ, và cũng chính tần số
của âm thanh quyết đònh cao độ của nó .
Tần số được tính bằng Hertz (Hz), KiloHertz (kHz,1kHz=1000Hz)…Một
người bình thường có thể nghe được các nguồn âm có dải tần số từ 20Hz
đến 20kHz.
2. Biên độ sóng âm
Biên độ sóng âm chính là khoảng cách dòch chuyển tối đa của các phần
tử dao động. Tương quan giữa biên độ sóng âm với các vùng loãng và
vùng đậm đặc .
Biên độ của sóng âm thể hiện mức độ dao động của các phần tử của môi
trường tạo nên sóng âm. Biên độ sóng âm càng lớn thì các phần tử dao
động có năng lượng càng lớn và âm thanh sẽ có cường độ càng lớn.
Cường độ âm thanh tỉ lệ nghòch với khoảng cách tính từ nguồn âm. Càng
xa nguồn âm cường độ âm thanh càng giảm, kết quả là tai ta nghe càng

khó .
Cường độ âm được biểu diễn bởi mức áp suất âm thanh SPL (Sound
Pressure Level). Mức SPL của một nguồn âm nào đó được tính như sau:
SPL(dB)= 20 log(P/P
0
)
Trong đó P : áp suất của nguồn âm (N/m
2
)
P
0
: áp suất chuẩn qui chiếu, P
o
=2* 10
-5
N/m
2
m thanh SPL(dB)
Trang 8
Phân tích và ứng dụng chuẩn MP3
Ngưỡng im lặng 0
Tiếng thì thầm 10
Phòng thu âm 20
Nói bình thường 60
Tiếng la hét 80
Tiếng xe tải 90
Nhạc rock 100
Ngưỡng cảm
nhận
120

Ngưỡng đau 140
Một số mức SPL của vài dạng âm thanh.
II. KHÁI QUÁT VỀ ÂM THANH SỐ
1. Lấy mẫu rời rạc thời gian, tín hiệu Audio tương tự
Tín hiệu audio tương tự thay đổi liên tục theo thời gian, nghóa là biên bộ của
tín hiệu thay đổi liên tục theo thời gian. Lấy mẫu tín hiệu audio tương tự là
xác đònh biên độ của tín hiệu ở những thời điểm theo những khoảng thời
gian cách điều nhau vì vậy các mẫu là các xung có biên độ nhất đònh.
Khoảng thời gian cách đều này gọi là chu kỳ lấy mẫu T
s
, tần số lấy mẫu
(tốc độ lấy mẫu ) f
s
= (1 / T
s
).
2. Lượng tử hoá và các mẫu rời rạc thời gian
Lượng tử hoá là biểu diễn biên độ của các xung tín hiệu thành 1 giá trò số sử
dụng hệ thống số nhò phân. Người ta dùng một từ ( word) có độ dài n bit để
biểu diễn các giá trò đó. Số bits n được chọn tùy thuộc vào giá trò của các
mẫu và n được gọi là độ phân giải lượng tử hoá( quantization resolution).
Giá trò của 1 word xác đònh 1 mức lïng tử hoá (quantization level) và độ
chênh lệch giữa 2 mức liên tiếp gọi là khoảng lượng tử hoá (quantization
interval).
Ví dụ: ta sử dụng n=8 bit để biểu diễn các giá trò điện thế liên tục từ
0 -> 25,5 V như sau:
V1=0 thì word= 0000 0000 ( mức 0)
V2=0,1 thì word= 0000 0001 ( mức 1)
Trang 9
Phân tích và ứng dụng chuẩn MP3

V3 = 0,2 thì word= 0000 0010 ( mức 2)
…………………………………………………………………….
V255= 25,5 thì word =1111 1111 (mức 255)
Giả sử ta có V
a
=0,15 V thì word ở mức 1 (0000 0001 ) hoặc mức 2 (0000
0010) tuỳ thuộc vào sự lựa chọn của chúng ta. Nhưng nếu V
a
=0.12 thì nó
thuộc mức 1 vì gần giá trò ở mức 1 hơn.
Các giá trò lượng tử hoá chỉ là xấp xỉ gần bằng giá trò thực tế của các mẫu.
Độ sai biệt giữa giá trò lượng tử hoá và giá trò thực được gọi là sai số lượng
tử hoá ( quantization error).
3. Tỉ số tín hiệu trên sai số (Signal-to-error ratio)
Để đánh giá chất lượng của hệ thống lượng tử hóa, một thông số quan trọng
được đònh nghóa là tỉ số của biên độ tín hiệu cực đại trên sai số lượng tử hóa
cực đại, tỉ số này được gọi là tỉ số tỉ hiệu trên sai số (S/E).
Trang 10
Phân tích và ứng dụng chuẩn MP3
CHƯƠNG II: GIỚI THIỆU VỀ MPEG
I. GIỚI THIỆU
1. MPEG là gì?
MPEG, viết tắt của cụm từ ‘ Moving Picture Experts Group’, là 1 nhóm
chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm
thanh theo chuẩn ISO/IEC. Ngày nay, nhóm làm việc MPEG đã phát
triển và phát hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4. Chuẩn
MPEG-3 được kết hợp vào MPEG-2 và không còn tách riêng nữa. Nhóm
MPEG hiện nay đã phát triển đến chuẩn MPEG-7. MPEG chỉ là một tên
riêng, tên chính thức của nó là : ISO/IEC JTC1 SC29 WG11.
ISO : International Organization for Standardization

(Tổ chức chuẩn quốc tế)
IEC : International Electro-technical Commission
(Hội đồng kỹ thuật điện tử quốc tế )
JTC1 : Joint Technical Committee 1
(Hội đồng kỹ thuật liên hợp 1)
SC29 : Sub-committee 29
(Hội đồng phụ 29)
WG11: Work Group 11 (moving picture with audio).
(Nhóm làm việc 11)
2. So sánh các chuẩn MPEG
MPEG-1 đònh nghóa một tiêu chuẩn cho việc lưu trữ và phục hồi các hình
ảnh động và âm thanh trên các thiết bò lưu trữ. Tiêu chuẩn này đònh
nghóa rằng hình ảnh được phát lại ở tốc độ 30 frames một giây và âm
thanh được phát lại ở chất lượng như CD-audio, độ phân giải hình ảnh là
352 x 240. Chuẩn MPEG-1 được dùng điển hình trong các phần mềm
huấn luyện bằng máy tính, các game hành động trong máy tính, video
chất lượng VHS, Karaoke..
Trang 11
Phân tích và ứng dụng chuẩn MP3
MPEG-2 đònh nghóa cho một tiêu chuẩn kỹ thuật truyền hình số. Chuẩn
MPEG-2 khắc phục một vài nhược điểm của chuẩn MPEG-1. Ví dụ,
MPEG-2 có thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao hơn
và rõ hơn (720 x 480 và 1280 x 720). Các đặc tính của MPEG-2 bao gồm
hình ảnh chất lượng cao và âm thanh nổi..
MPEG-3 đònh nghóa một tiêu chuẩn cho High Difinition Television
(HDTV), là thế hệ tiếp theo của công nghệ truyền hình theo đònh dạng
số đầu đủ. Tiêu chuẩn này đã không được phát triển hoàn thiện và cuối
cùng được kết hợp vào với chuẩn MPEG-2. MPEG-3 nhắm đến mục tiêu
là các ứng dụng HDTV với kích thước mẫu lên đến 1920x1080x30 Hz và
được mã hoá ở tốc độ bit 20 đến 40 Mbits/s. Cuối cùng người ta đã nhận

ra rằng với một vài điều chỉnh thích hợp, MPEG-1 và MPEG-2 làm việc
rất tốt đối với HDTV.
MPEG-4 đònh nghóa một tiêu chuẩn cho các ứng dụng Multi-media. Đặc
biệt nó đònh nghóa tiêu chuẩn truyền cho dòng phức tạp các hình ảnh, âm
thanh và dữ liệu đồ hoạ và việc tái hợp chúng trên thiết bò thu. MPEG-4
được phát triển theo 2 giai đoạn, 1 và 2. Chuẩn MPEG-4 đònh nghóa các
đối tượng hình ảnh mà trong đó các phần của một cảnh có thể được thao
tác trong khi những phần khác vẫn không đổi.
MPEG-5 và MPEG-6 vẫn chưa được công bố.
MPEG-7 đònh nghóa một tiêu chuẩn về việc biểu diễn nội dung cho các
nghiên cứu thông tin hình ảnh và âm thanh. Tên chính thức là
“Multimedia Content Description Interface”. Mục tiêu của MPEG-7 là
chuẩn hoá việc biểu diễn các mô tả về nội dung nghe nhìn. Tuy nhiên
chuẩn không đònh nghóa các công cụ để nhận ra nội dung nghe nhìn thật
sự.
3. Âm thanh MPEG
Về cơ bản, âm thanh MPEG sẽ làm giảm kích thước lưu trữ 1 tâp tin âm
thanh đi rất nhiều. Một đóa Audio-CD lưu trữ được khoảng 650 Mbyte dữ
liệu âm thanh thô với cách mã hóa 16 bit (bitdepth) và tần số lấy mẫu
(sample rate) 44.1 kHz. Nếu đem phát ra thì cũng chỉ được 60 đến 72
phút.
• bitdepth: mô tả mức biên độ lớn nhất mà một mẫu âm thanh có
thể đạt tới. Ví dụ : 8 bit = 256 mức, 16 bit = 65.536 mức, về hình
ảnh thì đó chính là độ phân giải.
Trang 12
Phân tích và ứng dụng chuẩn MP3
• sample rate: mô tả số mẫu âm thanh được lấy trong 1 giây. Ví dụ :
22 kHz = 22.000 mẫu / 1giây.
Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thông tin.
Nếu đổi cách lưu trữ âm thanh từ 16 bit sang 8 bit chúng ta có thể giảm

kích thước lưu trữ đi 1 nửa, tuy nhiên như thế chất lượng âm thanh cũng
sẽ giảm đi 1 nửa.
4. Hoạt động
Khi đưa ra phương pháp mã hóa âm thanh, nền tảng vẫn là yếu tố
“hệ thống nghe” của con người. Thật không may đó không phải 1
thiết bò hoàn hảo để nhận biết âm thanh nhưng là thiết bò duy nhất
chúng ta có được. Nhưng chúng ta có thể chuyển những khuyết điểm
của nó thành ưu điểm : đó là đặc tính phi tuyến của ngưỡng nghe và
khả năng thích hợp của nó.
MPEG hoạt động dựa trên hệ thống nghe của con người, đó là cảm
giác về âm mang đặc tính sinh lý và tâm lý.
Âm thanh CD ghi lại tất cả tần số, kể cả những tần số bò ‘che’.
Âm thanh MPEG chỉ ghi lại những tần số mà tai người có thể nghe.
Như vậy, MPEG sẽ bỏ qua những thông tin không quan trọng. Dựa
trên nghiên cứu về nhận thức âm thanh của con người, bộ mã hóa sẽ
quyết đònh những thông tin nào là căn bản và những thông tin nào có
thể bỏ qua.
Trang 13
Phân tích và ứng dụng chuẩn MP3
Hiệu quả này đặc biệt quan trọng trong âm nhạc. Nếu trong một dàn
nhạc có một nhạc cụ chơi cực mạnh, làm át tiếng của các nhạc cụ
khác ta không thể nghe được. Nhưng máy thâu âm vẫn ghi lại đầy đủ
tất cả tần số của tất cả nhạc cụ, nghóa là thiết bò thâu âm hoàn toàn
không có khả năng thích nghi động như con người. Nhưng khi phát
lại, ta vẫn không nghe được âm thanh của những nhạc cụ bò át. Vì
vậy việc lưu trữ / ghi lại những tần số này là thừa, làm chiếm dung
lượng khá nhiều. Cách ghi âm tuyến tính trên đóa CD là hoàn toàn
không hiệu quả về khía cạnh này. Do đó thay vì phải ghi lại thông tin
của những âm không nghe được, ta sẽ dành chỗ cho các âm có thể
nghe được. Theo cách này, dung lượng của thiết bò ghi âm cần thiết

có thể xem như giảm đi mà không làm giảm chất lượng âm thanh.
Trước khi chúng ta nghe được điều gì, thông tin sẽ được phân tích bởi
bộ não của chúng ta. Não bộ sẽ dòch âm thanh và lọc bỏ những thông
tin không cần thiết. Kỹ thuật âm thanh MPEG làm việc này thay thế
cho não bộ. Như vậy, những thông tin lẽ ra phải được lọc bởi não bộ
bây giờ không còn cần phải lưu trữ chiếm giữ không gian đóa nữa.
II. CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG
1. Lược đồ mã hóa Perceptual Subband
Bộ mã hóa âm thanh theo “perceptual subband” phân tích liên tục các
tín hiệu vào và xác đònh ra đường cong che (masking curve), đó là mức
ngưỡng mà những âm thanh ở dưới nó không thể nghe được bởi hệ thống
nghe của con người.
Trang 14
Phân tích và ứng dụng chuẩn MP3
Tín hiệu vào được chia thành 1 số dãi tần số, gọi là “subband”. Mỗi tín
hiệu “subband” được lượng tử hóa theo cách mà sự lượng tử hóa tiếng ồn
được bắt đầu bởi việc mã hóa sẽ không vượt quá đường cong che của
subband đó. Sự lượng tử hóa phổ tiếng ồn vì thế thích nghi động với phổ
của tín hiệu. Thông tin trên bộ số hóa được dùng trong mỗi subband được
truyền dọc theo các mẫu subband được mã hóa. Bộ giải mã sẽ giải mã
dòng bit (bitstream) mà không cần phải biết cách mà bộ mã hóa xác đònh
những thông tin này. Điều này cho phép bộ mã hóa hoạt động với những
mức độ khác nhau về chất lượng và độ phức tạp, và cũng cho phép sự
phát triển trong tương lai của bộ mã hóa.
2. Giải thích về hiệu quả che (masking effect)
a. Nén âm thanh MPEG
MPEG có thể nén 1 dòng bit 32 kbit/s đến 384 kbit/s. Một dòng bit
âm thanh PCM thô thì khoảng 705 kbit/s, do đó tỉ số nén tối đa có thể
Trang 15
Phân tích và ứng dụng chuẩn MP3

là 22. Tỉ số nén bình thường là 1:6 hay 1:7. 96 kbit/s là xem như trong
suốt cho hầu hết các mục đích thực tế. Có nghóa rằng ta không cần
phải lưu tâm đến bất kỳ sự khác biệt nào giữa tín hiệu gốc và tín hiệu
nén đối với nhạc pop hay nhạc rock’n roll. Đối với một số ứng dụng
khác như là hòa tấu piano, tốc độ bit có thể lên tới 128 kbit/s.
Để đạt được tỉ số nén này, đối với âm thanh, về cơ bản ta có hai chọn
lựa: hoặc giảm số lần lấy mẫu, hoặc giảm số bit để lượng tử hoá. Con
người có thể nghe âm thanh với tần số từ 20 Hz đến 20 kHz. Theo
thuyết của Nyquist, ta phải lấy mẫu âm thanh ở tần số tối thiểu là hai
lần tần số cao nhất mà ta muốn phát lại. Tần số lấy mẫu 44,1 kHz là
thích hợp. Vấn đề còn lại là phải chọn số bit cho một mẫu mã hóa là
bao nhiêu. Thông thường là 16 bit.
Lý do để chọn con số 16 bit bắt nguồn từ tỉ số tín hiệu và nhiễu (S/N).
Nhiễu nói ở đây sinh ra do qúa trình số hóa. Cứ mỗi bit thêm vào, ta
có tỉ số S/N tốt hơn 6dB (đối với tai người, 6 dB tương ứng với mức to
gấp đôi). Âm thanh CD đạt tới khoảng 90 dB S/N. Mức này phù hợp
với phạm vi động của tai người còn tốt. Nghóa là ta không thể nghe
được bất kỳ nhiễu nào đến từ bản thân hệ thống. Điều gì xảy ra nếu
ta lấy mẫu với 8 bit? Ta sẽ nghe thấy rất nhiều tiếng sôi trong bản
ghi. Dễ dàng nghe thấy nhiễu trong khoảng nghỉ của bản nhạc hoặc
giữa các từ nếu ta ghi âm một giọng nói.
b. Hiệu quả che
Giả sử có một âm mạnh với tần số 1000Hz, và một âm kèm theo có
tần số 1100Hz nhưng với cường độ âm nhỏ hơn 18dB. Ta sẽ không
thể nghe thấy âm này vì nó đã bò che hoàn toàn bởi âm chủ 1000Hz.
Nói một cách khác, một âm thanh yếu gần một âm thanh mạnh sẽ bò
che. Nếu có một âm thanh khác tần số 2000Hz cũng có mức to thấp
hơn âm 1000Hz là 18dB thì ta sẽ nghe được âm này. Để không nghe
được âm này ta phải giảm mức to của âm này xuống còn thấp hơn
45dB so với âm chủ 1000Hz. Hiệu qủa che có ý nghóa rằng ta có thể

gia tăng mức ồn nền xung quanh một âm mạnh mà vẫn không nghe
được tiếng ồn vì chúng sẽ bò che hoàn toàn. Tăng mức ồn nền còn có
nghóa là dùng ít bit để số hóa. Và điều này cũng giống như là ta đã
nén âm thanh vậy.
Bây giờ hãy xem bộ mã hoá âm thanh MPEG hoạt động như thế nào.
Bộ mã hóa chia phổ tần số (20Hz đến 20kHz) thành 32 dãi nhỏ (sub-
Trang 16
Phân tích và ứng dụng chuẩn MP3
band). Mỗi sub-band giữ 1 phần nhỏ của phổ. Trong vùng trên của
sub-band 8 ta phát một âm có tần số 1000Hz với mức to 60dB. Bộ mã
hóa sẽ tính toán hiệu qủa che của âm này và nhận ra rằng có một
ngưỡng che cho toàn bộ sub-band thứ 8 (tất cả những âm có cùng tần
số). Ngưỡng che này thấp hơn âm phát ra 35 dB. Tỉ số S/N có thể
chấp nhận được là 60 - 35 = 25 dB, tương đương với 4 bit. Ngoài ra nó
còn ảnh hưởng trên các sub-band 9-13 và 5-7 với hiệu qủa che giảm
dần từ sub-band 8. Hơn nữa, bộ mã hóa cũng xem xét mức độ nhạy
cảm của tai đối với các tần số khác nhau. Tai người ít nhạy cảm với
các tần số cao và thấp. Nó nhạy cảm nhất đối với tần số 2-4 kHz,
cùng dãi tần số với tiếng nói con người.
Các sub-band nên phù hợp với tai người, nghóa là mỗi sub-band cần
có các tần số có cùng các tính chất âm học tâm lý. Trong MPEG
layer II, mỗi sub-band có độ rộng 625Hz, do đó cần phải có những bộ
lọc băng thông phức tạp. Để các bộ lọc đỡ phức tạp, người ta thêm
FFT (Fast Fourier Transform) vào song song với bộ lọc và sử dụng
các thành phần phổ từ FFT như là các thông tin thêm vào bộ mã hóa.
Bằng cách này ta sẽ lấy mật độ bit cao hơn đối với các tần số thấp
mà tai người nhạy cảm hơn.
Còn nhiều vấn đề cần phải bàn tới. Chúng ta chỉ mới giải thích sự
che đồng bộ, hiệu qủa che còn xảy ra trước và sau một âm mạnh.
3. Các lớp âm thanh MPEG

Có nhiều sự nhầm lẫn về lớp âm thanh MPEG. Tất cả các lớp đều
dựa trên cùng một lược đồ mã hóa (mã hóa theo nhận thức). Mức độ
phức tạp của bộ mã hóa và giải mã tuỳ thuộc vào mỗi lớp. Sau đây là
hình ảnh cho thấy tỉ số nén mà ta cần phải đạt tới 100% chất lượng
CD với các bộ mã hóa và giải mã khác nhau.
Trang 17
Phân tích và ứng dụng chuẩn MP3
Sau đây là chi tiết về các lớp.
a. Lớp I (Layer I)
Đây là lớp đơn giản nhất phù hợp cho ứng dụng của người dùng. Mô
hình âm học tâm lý của lớp này chỉ sử dụng các tần số che. Điều này
có nghóa rằng nó sẽ bỏ qua các tần số bò khuất sau các tần số khác.
Phạm vi tốc độ bit từ 32 kbit/s (mono) đến 448 kbit/s (stereo). Tùy
thuộc vào mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng
cao (gần với âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s
trên một chương trình stereo. Không nên mã hóa với mức nén cao
hơn 384 kb/s. Độ phức tạp của bộ giải mã thấp, độ phức tạp của bộ
mã hóa cao hơn 1.5 - 3 lần. Lớp I được dùng nhiều trong DDC và
Solid State Audio.
b. Lớp II (Layer II)
Lớp II đề nghò mức độ nén cao hơn lớp I và mức độ lọc sâu hơn. Nó
có những ứng dụng số cho cả âm thanh chuyên nghiệp và nghiệp dư,
như qua đài phát thanh, TiVi…Phạm vi tốc độ bit từ 32 - 192 kb/s cho
âm thanh mono, và từ 64 - 384 kb/s cho âm thanh stereo. Tùy thuộc
vào mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng cao
(gần với âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên
Trang 18
Phân tích và ứng dụng chuẩn MP3
một chương trình stereo. Mức độ phức tạp của bộ giải mã 25% cao
hơn so với lớp I, và bộ mã hóa có mức phức tạp cao hơn 2 - 4 lần.

c. Lớp III (Layer III)
Lớp III còn đưa ra mức độ nén và lọc cao hơn cả lớp II và sử dụng
một bộ mã hóa Huffman.
Layer
Complexity
Encoder Decoder
I 1.5 – 3 1
II 2 – 4 1.25
III > 7.5 2.5
Trong bảng trên, độ phức tạp của bộ giải mã lớp I được dùng để so
sánh với lớp II và III.
Lớp III là chuẩn hiệu quả nhất và đã trở thành chuẩn trong thực tế
cho việc mã hoá chất lượng âm thanh. Lập luận này dành riêng cho
việc thực thi lớp III của chuẩn MPEG 1 được gọi là MP3.
Những cải thiện của lớp 3 so với lớp 1 và lớp 2 :
• Giảm sự chồng phổ :Lớp 3 cung cấp phương pháp xử lý các giá
trò MDCT để loại bỏ sự dư thừa do sự chồng lấp giữa các băng.
• Lượng tử hóa phi tuyến :Bộ lượng tử hóa lớp 3 nâng các lối vào
của nó lên ¾ năng lượng trứơc khi lượng tử hóa để cung cấp tỉ
số tín hiệu trên nhiễu (SNR) cao hơn.
• Mã hóa entropy các giá trò dữ liệu : Lớp 3 sử dụng mã Huffman
để mã hóa các mẫu lượng tử hóa cho việc nén dữ liệu tốt hơn .
• Sử dụng một bộ dữ trữ bit (bit reservoir): Dòng bit lớp 3 phù
hợp hơn với độ dài thay đổi của dữ liệu được nén. Cũng giống
như lớp 2, khung dữ liệu lớp 3 có 1152 mẫu. Lớp 3 không giống
lớp 2 ở chỗ dữ liệu mã hóa không nhất thiết phải vừa vặn trong
Trang 19
Phân tích và ứng dụng chuẩn MP3
một khung cố đònh. Bộ mã hóa có thể lấy hoặc mượn các bit từ
bộ dự trữ bit nếu cần thiết .

• Sự phân bố nhiễu hay sự phân bố bit : Quá trình phân bố bit
trong lớp 1 và lớp 2 chỉ xấp xỉ lượng nhiễu gây bởi lượng tử hóa
theo số bit cho trước. Bộ mã hóa lớp 3 sử dụng một vòng lặp
phân bố nhiễu. Theo cách này , các bộ lượng tử hóa được thay
đổi theo thứ tự , và lượng tử hóa có được là do tính toán và được
phân bố cho mỗi băng phụ.
III. CÁC THÔNG SỐ DÙNG TRONG MPEG
Chuẩn MPEG cho phép ta chọn lựa các thông số cho việc nén âm
thanh tốt nhất phù hợp với ứng dụng mà ta sử dụng. Lược đồ mã hóa
cho các loại là tổng quát. Các thông số có thể chọn lựa trong bộ mã
hóa MPEG bao gồm : Mode, Sampling frequency, bitrate, và Layer.
1. Mode
Chuẩn MPEG có 4 chế độ:
Mono.
Dual channel.
Stereo.
Intensity Stereo (còn gọi là Joint Stereo).
Chế độ Mono rõ ràng được dùng cho âm thanh 1 kênh.
Để chọn chế độ cho các ứng dụng 2 kênh, đầu tiên ta phải xác đònh
đâu là tín hiệu trái và đâu là tín hiệu phải để chia chúng ra thành 2
files khác nhau, nhằm sau này ta có thể làm việc độc lập trên kênh
trái hoặc phải. Lúc đó ta sẽ chọn chế độ Mono. Nếu 2 kênh không
cần hoạt động độc lập, ta chọn Stereo, Dual hay Intensity Stereo để
tạo một file duy nhất.
Chế độ Stereo hay kênh Dual là hoàn toàn đồng nhất khi chúng cùng
sinh ra một file duy nhất cho tín hiệu stereo. Tuy nhiên một bit chỉ thò
sẽ nhận dạng xem một file là ở chế độ nào và có thể được dùng cho
những áp dụng nào.
Trang 20
Phân tích và ứng dụng chuẩn MP3

Chế độ Intensity Stereo xem xét sự dư thừa giữa các kênh trái và
phải nhằm tối ưu mã. Chất lượng của Intensity Stereo thay đổi theo
nội dung của tín hiệu đã mã hóa. Tuy nhiên nó đặc biệt thích hợp cho
tốc độ truyền bit thấp.
2. Sampling Frequency (tốc độ lấy mẫu)
Một số tốc độ lấy mẫu:
• 32 kHz, 44.1 kHz và 48 kHz đối với MPEG 1 (Tiêu chuẩn
ISO/IEC 11172-3).
• 16 kHz, 22.05 kHz và 24 kHz đối với MPEG 2 (Tiêu chuẩn ISO/
IEC 13818-3).
Khi chọn lựa tốc độ lấy mẫu cần xem xét các vấn đề:
Tần số lấy mẫu càng lớn thì càng nghe thuận tai (độ dài frame nhỏ
hơn).
Băng thông tín hiệu giới hạn ở mức 15 kHz khi lấy mẫu ở tốc độ 32
kHz và 8 kHz ở tốc độ 16 kHz.
Tần số lấy mẫu (kHz) và tốc độ của âm thanh mã hóa (kbps) có thể
chọn độc lập.
Tần số lấy mẫu 44.1 kHz hay 22.05 kHz là không thiết thực cho việc
chọn lọc vì độ dài frame (byte) là thay đổi.
Những file được lấy mẫu ở những tần số khác nhau thì rất khó khăn
khi hòa trộn.
Khi dùng ngõ nhập số AES/EBU, tần số lấy mẫu bò cố đònh bởi tín
hiệu nhập.
Nếu không bắt buộc, Digigram yêu cầu lấy mẫu ở 48 kHz hoặc 44.1
kHz cho phát thanh hay ứng dụng multimedia. Nếu ta phải sử dụng
tốc độ bit thấp cho sự truyền có hiệu quả, tốc độ 24 kHz là thích hợp.
3. Bit Rate
Mỗi Layer và chế độ có nhiều cách chọn lựa tốc độ bit (bit rate).
Việc chọn tốc độ bit tùy thuộc trước tiên vào chất lượng âm yêu cầu.
Băng thông tín hiệu là hẹp hơn nếu tốc độ bit thấp, khiến cho nó

Trang 21
Phân tích và ứng dụng chuẩn MP3
không thực tế đối với một số ứng dụng. Tốc độ bit được đo theo
kilobits / sec(kbps).
Khi chọn lựa tốc độ bit cần xem xét các vấn đề:
Tại 128 kbps trên mỗi kênh (hay 256 kbps stereo), chất lượng âm
thanh CD sẽ đạt được với Layer I hay Layer II.
Tại 192 kbps trên mỗi kênh, chất lượng âm thanh là hoàn toàn trong
suốt.
Tốc độ 128 kbps / kênh được dùng phổ biến nhất trong phát thanh.
Nó tương ứng với tỉ số nén 1:6 ở tốc độ lấy mẫu 48 kHz. Tốc độ thấp
hơn 128 kbps / kênh được dùng trong các ứng dụng yêu cầu tỉ số nén
lớn hơn do giới hạn của băng thông truyền hay thiết bò lưu trữ.
Một số tốc độ bit cung cấp bởi chuẩn âm thanh MPEG :
• MPEG 1: 32 kHz, 44.1 kHz and 48 kHz
- Layer I :
32, 64, 96, 128, 160, 192, 224, 256, 288, 320, 352, 384, 416, 448
kbps.
Những tốc độ này là có thể ở chế độ Mono hay stereo..
- Layer II :
32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320, 384 kbps.
32, 48, 56, 80 kbps chỉ có thể ở chế độ Mono; •64, 96, 112, 128, 160, 192
kbps có thể ở cả hai chế độ Mono và Stereo;•224, 256, 320, 384 kbps chỉ
có thể ở chế độ Stereo.
Trang 22
Phân tích và ứng dụng chuẩn MP3
CHƯƠNG III: MÃ HÓA THỤ CẢM
I . CƠ SỞ ÂM TÂM LÝ
Các thuật toán mã hoá thụ cảm đều dựa trên mô hình tiếp nhận âm thanh
để tối ưu hiệu qủa mã hoá. Đó chính là tai người , sự cảm nhận âm thanh bò

ảnh hưởng bởi các tính chất che. m tâm lý học là 1 lónh vực khoa học
nghiên cứu và giải thích sự cảm nhận âm thanh của tai người đối với sự
kích thích của nguồn âm. Các phương pháp mã hoá thụ cảm đều dựa vào
các nguyên lý cơ bản của âm tâm lý học như :ngưỡng nghe, các băng tới
hạn, hiện tượng che. Các phương pháp này loại bỏ các thành phần dư thừa
không nghe được của tín hiệu audio để giảm bớt dữ liệu trong quá trình
nén.
1. Ngưỡng nghe tuyệt đối (absolute threshold of hearing)
Ngưỡng nghe tuyệt đối là mức năng lượng cần thiết của một tone thuần (ở
mức độ cho trước ) để mà nó có thể nghe được trong một môi trường không
có tiếng ồn.
2. Các băng tới hạn (critical bands)
Các nghiên cứu thực tế cho thấy tai người có thể cảm nhận được các nguồn
âm có tần số từ 20 Hz đến 20KHz. Ngoài ra , tai người còn được coi là bộ
phân tích phổ đối với phổ tần nghe được. Tai người được coi là 1 băng lọc
(filter bank) gồm nhiều mạch lọc thông dãi với các băng thông có độ rộng
khác nhau, nó đặc trưng cho khả năng phân giải âm thanh của tai người.
Các băng này được gọi là băng tới hạn, chúng có độ rộng thay đổi theo tần
số từ thấp đến cao. Trên thực tế có 25 băng tới hạn được qui ước theo bảng
các băng tới hạn dưới , mỗi băng có một tần số trung tâm. Độ rộng của mỗi
băng có thể được tính xấp xỉ như sau :
BW
c
(f)=25+75[1+1.4(f/1000)
2
]
0.69
(HZ)
Một băng tới hạn có độ rộng là một Bark(đặt theo tên của nhà khoa học
Barkhausen). Hàm sau đây cho phép chuyển từ giai tần số sang giai Bark:

Z(f) = 13arctan(0.00076f) + 3.5arctan[(f/75000)
2
] (Bark)
Tai người có khả năng phân tích thời gian tần số, khả năng này tạo ra các
hiện tượng che đồng thời và không đồng thời. Các hiện tượng này được sử
Trang 23
Phân tích và ứng dụng chuẩn MP3
dụng bởi các bộ mã hóa để xác đònh các thành phần dư thừa nhằm loại bỏ,
không mã hóa chúng.
Băng tới
hạn
Tần số trung
tâm
Độ rộng
(Hz)
Tần số dưới
(Hz)
Tần số trên
(Hz)
1
2
3
4
5
6
7
8
9
10
11

12
13
14
15
16
17
18
19
20
21
22
23
24
25
50
150
250
350
450
570
700
840
1000
1170
1370
1600
1850
2150
2500
2900

3400
4000
4800
5800
7000
8500
10500
13500
18755
-
100
100
100
110
120
140
150
160
190
210
240
280
320
380
450
550
700
900
1100
1300

1800
2500
3500
6550
-
100
200
300
400
510
630
770
920
1080
1270
1470
1720
2000
2320
2700
3150
3700
4400
5300
6400
7700
9500
12000
15500
100

200
300
400
510
630
770
920
1080
1270
1470
1720
2000
2320
2700
3150
3700
4400
5300
6400
7700
9500
12000
15500
22050
Bảng các băng tới hạn
3. Hiện tượng che( masking)
Hiện tượng che xảy ra khi một hoặc nhiều nguồn âm bò làm cho không nghe
được do sự có mặt của một nguồn âm khác. Tín hiệu che các tín hiệu khác
Trang 24
Phân tích và ứng dụng chuẩn MP3

được gọi là các thành phần che (masker), các tín hiệu bò che thì gọi là các
thành phẩn bò che (maskee). Độ chênh lệch giữa thành phần che và ngưỡng
che (do tần số và mức áp suất âm thanh của thành phần che quyết đònh) gọi
là tỉ số tín hiệu trên che SMR (Signal-to-masking ratio). Thông số này rất
quan trọng trong phương pháp mã hóa thụ cảm. Hiện tượng che có 2 loại :
che đồng thời và che không đồng thời.
• Hiện tượng che đồng thời : xảy ra khi nhiều nguồn âm tác động vào tai
người. Mặc dù phổ tần âm thanh có thể chứa nhiều hiện tượng che đồng
thời phức tạp, vì mục tiêu đònh dạng sái dạng mã hóa, ta chỉ cần quan
tâm đến 3 loại che đồng thời : nhiễu che tone , tone che nhiễu, nhiễu che
nhiễu.
 Nhiễu che tone (Noise-Masking-Tone, NMT) : ví dụ như 1 nhiễu
băng thông hẹp (có băng thông là 1 Bark) che một tone với điều kiện
là tone bò che có mức SPL nhỏ hơn ngưỡng do nhiễu che quyết đònh.
 Tone che nhiễu (Tone – Masking - Noise, TMN): Ví dụ như 1 tone ở
tần số trung tâm của 1 băng nhiễu (băng thông là 1 Bark) che băng
nhiễu đó khi mức SPL của băng nhiễu thấp hơn mức ngưỡng do tone
che quyết đònh .
 Nhiễu che nhiễu (Noise - Masking – Noise, NMN): Đây là trường
hợp mà 1 nhiễu băng thông hẹp bò che bởi 1 băng nhiễu khác.
• Hiện tượng che không đồng thời :xảy ra khi các tone (hoặc nhiễu) được
phát lên đồng thời nhưng gần nhau theo thời gian. Hiện tượng tiền che
xảy ra khi một tone (hoặc nhiễu) bò che bởi một tone (hoặc nhiễu) xảy ra
sau. Tương tự, hiện tượng hậu che khi một tone xảy ra trước che một tone
xảy ra sau đó.
Bộ mã hoá thụ cảm phân tích thành phần tần số và biên độ của tín hiệu
audio vào và so sánh với mô hình âm sinh lý của tai người. Bộ mã hoá loại
bỏ các thành phần dư thừa không cần thiết ( phần tai người không cảm nhận
được) vì vậy giảm 1 lượng đáng kể dữ liệu cần mã hoá. Về mặt lý thuyết,
phương pháp này làm hao hụt thông tin nhưng tai người vẫn không cảm thấy

được sự suy giảm chất lượng tín hiệu audio.
Trang 25

×