Phân tích và ứng dụng chuẩn MP3
Trang 1
Luận văn
Phân tích và ứng dụng
chuẩn MPEG
Phân tích và ứng dụng chuẩn MP3
Trang 2
MỤC LỤC
Mục lục…… 1
Lời mở đầu 5
Các thuật ngữ thường dùng 6
PHẦN 1 : LÝ THUYẾT 7
CHƯƠNG I: CÁC ĐẶC ĐIỂM CƠ BẢN CỦA ÂM THANH 7
I. Các đặc tính cơ bản của âm thanh 7
1. Tần số sóng âm 7
2. Biên độ sóng âm 8
II. Khái quát về âm thanh số 9
1. Lấy mẫu rời rạc thời gian, tín hiệu audio tương tự 9
2. Lượng tử hoá và các mẫu rời rạc thời gian 9
3. Tỉ số tín hiệu trên sai số (Signal-to-error ratio) 10
CHƯƠNG II: GIỚI THIỆU VỀ MPEG 11
I. GIỚI THIỆU 11
1. MPEG là gì? 11
2. So sánh các chuẩn MPEG: 11
3. Âm thanh MPEG 12
4. Hoạt động: 13
II. CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG. 14
1. Lược đồ mã hóa Perceptual Subband. 14
2. Giải thích về hiệu qủa che (masking effect). 14
a. Nén âm thanh MPEG. 15
b. Hiệu quả che. 16
3. Các lớp âm thanh MPEG. 17
a. Lớp I (Layer I) 18
b. Lớp II (Layer II) 18
c. Lớp III (Layer III). 19
III. CÁC THÔNG SỐ DÙNG TRONG MPEG 20
1. Mode. 20
2. Sampling Frequency (tốc độ lấy mẫu). 21
3. Bit Rate. 21
CHƯƠNG III: MÃ HÓA THỤ CẢM 23
I. CƠ SỞ ÂM TÂM LÝ. 23
1. Ngưỡng nghe tuyệt đối (absolute threshold of hearing) . 23
2. Các băng tới hạn(critical bands) . 23
3. Hiện tượng che (masking) . 24
Phân tích và ứng dụng chuẩn MP3
Trang 3
II. MÃ HÓA BĂNG PHỤ . 26
III. MÃ HOÁ BIẾN ĐỔI 26
IV. MÃ HOÁ MP3 ( MP3 ENCODING) . 27
1. Phân tích phép biến đổi Fourier nhanh (FFT analysis) . 27
2. Ngưỡng che(Masking Threshold) . 28
3. Băng lọc phân tích (Analysis Filterbank) . 28
4. MDCT với cửa sổ động . 28
5. Chia tỉ lệ và lượng tử hóa (Scaling và Quantization) . 29
6. Mã hóa Huffman và sinh ra dòng bit (Huffman Coding and
Bitstream Generation) . 30
7. Thông tin (Side Information) . 32
CHƯƠNG IV: GIẢI MÃ MPEG1 LỚP 3 33
I. GIẢI MÃ MP3 (MP3 DECODING) . 33
1. Định dạng khung (Frame Format) . 33
a. Tiêu đề . 34
b. Thông tin (side infomation). 38
c. Dữ liệu chính (main data) 39
d. Dữ liệu phụ (Ancillary Data) . 40
2. Giải mã Huffman 40
3. Lượng tử hoá lại (requantization) . 41
4. Sắp xếp lại thứ tự ( reordering) . 42
5. Giải mã stereo . 42
a.Giải mã Stereo MS . 42
b.Giải mã cường độ stereo . 43
6. Giảm biệt danh (Alias Redution) . 43
7. IMDCT . 44
8. Khối lọc đa pha tổng hợp ( Synthesis Polyphase Filterbank) . 46
II. NHÌN CHUNG VỀ HIỆU QUẢ CÁC
GIẢI THUẬT GIẢI MÃ MP3 . 46
1 . Giải mã Huffman . 46
2 . Bộ lượng tử hóa lại (Requantizer) . 48
3. Phép biến đổi cosin rời rạc cải tiến đảo ngược (IMDCT) 51
4. Băng lọc đa pha ( Polyphase Filterbank) . 53
PHẦN 2: XÂY DỰNG PHẦN MỀM 57
CHƯƠNG I:GIAO DIỆN VÀ THUYẾT MINH CHƯƠNG TRÌNH 57
1. Thanh SkinProgress 58
2. Nút Minimize 58
3. Nút Colse 58
4. Timer 58
5. Tổng thời gian 58
6 .Nút Open 58
Phân tích và ứng dụng chuẩn MP3
Trang 4
7 .Nút Play 58
8. Nút Pause 59
9. Nút Stop 59
10. Thanh tiến trình 59
11. Nút Volume 59
CHƯƠNG II : LƯU ĐỒ GIẢI THUẬT VÀ CẤU TRÚC DỮ LIỆU 60
I. SƠ ĐỒ KHỐI 60
II. LƯU ĐỒ GIẢI THUẬT 61
III. CẤU TRÚC DỮ LIỆU 63
1. File Agrs.h 63
a. Lớp MPArgs 63
b. Cấu trúc MPInfo 66
c. Cấu trúc frame 66
2. File Common.h 67
a. Cấu trúc ID3TagStruct 67
b. Cấu trúc gr_info_s 67
c. Cấu trúc bandInfoStruct 68
d. Cấu trúc III_sideinfo 68
3. File Elsound.h 69
a. Cấu trúc esInputMode 69
b. Cấu trúc esOutputMode 69
c. Cấu trúc esPlayerMode 69
d. Cấu trúc esPlayerError 69
4. File Huffman.h 70
IV. ĐỊNH NGHĨA 70
1. Các định nghĩa dùng trong tập tin <Common.h> 70
2. Các định nghĩa dùng trong Player.h 71
3. Các định nghĩa dùng trong Resource.h 71
PHẦN 3 : TỔNG KẾT 72
Tài liệu tham khảo 73
Phân tích và ứng dụng chuẩn MP3
Trang 5
LỜI MỞ ĐẦU
Trong thời đại bùng nổ của công nghệ thông tin, việc truyền tải dữ liệu là nhu
cầu cần thiết. Đặc biệt là việc gởi dữ liệu theo đường Internet, vì chất lượng
đường truyền thấp nên cần phải nén dữ liệu nhỏ gọn để thuận lợi cho việc
upload hay download. Đối với lĩnh vực âm nhạc cũng vậy, nhu cầu gởi tặng bài
hát cho nhau , nghe nhạc trực tuyến trên mạng rất phổ biến vì vậy việc nén file
nhạc vô cùng cần thiết để tiết kiệm đường truyền, thời gian và tiền bạc.
Để giải quyết vấn đề này MPEG có rất nhiều chuẩn để nén như MPEG 1,
MPEG 2,… dùng để nén file theo nhiều cách khác nhau. Một trong những
chuẩn phổ biến là chuẩn MPEG 1, trong khuôn khổ đề tài này chúng em chỉ
tìm hiểu về chuẩn MPEG 1 Layer 3 hay còn gọi là mp3 và minh hoạ bằng một
chương trình giải mã file mp3, sau đó phát ra loa.
Phân tích và ứng dụng chuẩn MP3
Trang 6
CÁC THUẬT NGỮ THƯỜNG DÙNG
MDCT Modified Discrete Cosine Transform.
IMDCT Inverse Modified Discrete Cosine Transform.
Sample rate Tốc độ lấy mẫu.
FFT Fast Fourier Transform.
DFT Discrete Fourier Transform.
Signal-to-noise (S/N) Tỉ số giữa tín hiệu và nhiễu.
CRC Cyclic Redundancy Check .
ADC Analog to Digital Converter.
CODEC CODer/DECoder.
CPU Central Processing Unit.
DCT Discrete Cosine Transform .
DSP Digital Signal Processor.
FS Sampling Frequency, e.g. 44100 Hz for CD audio.
FIFO First in, first out.
FLOP Floating-point operation.
FPU Floating point unit. Hardware math acceleration.
inside a CPU.
ISO International Standards Organisation.
MFLOPS Million floating-point operations per second.
MPEG Motion Picture Expert Group. Working group
within ISO.
PCM Pulse Code Modulation. Output from an ADC.
Phân tích và ứng dụng chuẩn MP3
Trang 7
PHẦN I : LÝ THUYẾT
CHƯƠNG I : CÁC ĐẶC ĐIỂM CƠ BẢN CỦA ÂM THANH
Âm thanh được tạo bởi một thực thể dao động. Không có dao động thì không
có âm thanh. Thực thể dao động thì được gọi là nguồn âm. Nguồn âm làm cho
các phần tử của môi trường bên cạnh nó dao động. Các phần tử này lại làm cho
các phần tử kế nó dao động. Bằng cách này các phần tử của môi trường truyền
đến tai của người nghe. Khi chúng ta cảm nhận một âm thanh nào đó, các phần
tử dao động làm cho màng nhĩ của chúng ta cũng dao động. Các dao động này
được tiếp nhận và phân tích bởi bộ não của chúng ta.
Âm thanh có thể truyền qua môi trường không khí, nước hoặc các cấu trúc xây
dựng… âm thanh truyền đi dưới dạng sóng âm, sự truyền âm thanh thực chất là
sự truyền năng lượng từ nơi này đến nơi khác.
I. CÁC ĐẶC TÍNH CƠ BẢN CỦA ÂM THANH
Bất kỳ âm thanh đơn giản nào chẳng hạn như một nốt nhạc đều có thể hoàn
toàn được mô tả bởi 3 đặc tính cảm nhận sau: cao độ (pitch ), cường độ
(intensity), âm sắc (timbre).
Những đặc tính này lần lượt tương ứng với các đặc tính vật lý sau của âm
thanh: tần số (frequency), biên độ (amplitude), sự cấu thành của các hài
(harmonic constitution).
1. Tần số sóng âm
Âm thanh được truyền đi dưới dạng sóng âm. Khi sóng âm truyền đi sự
truyền dao động của các phần tử dao động theo hướng truyền sóng. Sự dịch
chuyển của các phần tử của môi trường tạo ra các vùng có mật độ phần tử
cao thấp khác nhau. Các vùng có mật độ phần tử cao được gọi là các vùng
đậm đặc (compression). Các vùng có mật độ phần tử thấp được gọi là vùng
loãng (rarefaction).
Các vùng loãng và vùng đậm đặc lan truyền theo hướng truyền của sóng.
Các phần tử dao động không lan truyền theo hứơng truyền sóng, chúng dao
động xung quanh vị trí cân bằng của chúng. Mỗi một dao động hoàn chỉnh
được gọi là chu kỳ dao động (từ điểm bắt đầu của nó, tới một khoảng cách
tối đa theo một hứơng, sau đó trở về vị trí ban đầu, tới một khoảng cách
theo hướng ngược lại, và cuối cùng là trở về vị trí ban đầu ).
Số chu kỳ dao động được thực hiện trong một giây được gọi là tần số dao
động, đây cũng chính là tần số của âm thanh. Một trong những khác biệt
Phân tích và ứng dụng chuẩn MP3
Trang 8
chính giữa hai âm thanh là sự khác biệt về cao độ, và cũng chính tần số của
âm thanh quyết định cao độ của nó .
Tần số được tính bằng Hertz (Hz), KiloHertz (kHz,1kHz=1000Hz)…Một
người bình thường có thể nghe được các nguồn âm có dải tần số từ 20Hz
đến 20kHz.
2. Biên độ sóng âm
Biên độ sóng âm chính là khoảng cách dịch chuyển tối đa của các phần tử
dao động. Tương quan giữa biên độ sóng âm với các vùng loãng và vùng
đậm đặc .
Biên độ của sóng âm thể hiện mức độ dao động của các phần tử của môi
trường tạo nên sóng âm. Biên độ sóng âm càng lớn thì các phần tử dao động
có năng lượng càng lớn và âm thanh sẽ có cường độ càng lớn. Cường độ âm
thanh tỉ lệ nghịch với khoảng cách tính từ nguồn âm. Càng xa nguồn âm
cường độ âm thanh càng giảm, kết quả là tai ta nghe càng khó .
Cường độ âm được biểu diễn bởi mức áp suất âm thanh SPL (Sound
Pressure Level). Mức SPL của một nguồn âm nào đó được tính như sau:
SPL(dB)= 20 log(P/P
0
)
Trong đó P : áp suất của nguồn âm (N/m
2
)
P
0
: áp suất chuẩn qui chiếu, P
o
=2* 10
-5
N/m
2
Aâm thanh SPL(dB)
Ngưỡng im lặng 0
Tiếng thì thầm 10
Phòng thu âm 20
Nói bình thường 60
Tiếng la hét 80
Tiếng xe tải 90
Nhạc rock 100
Ngưỡng cảm nhậ
n
120
Ngưỡng đau 140
Một số mức SPL của vài dạng âm thanh.
II. KHÁI QUÁT VỀ ÂM THANH SỐ
Phân tích và ứng dụng chuẩn MP3
Trang 9
1. Lấy mẫu rời rạc thời gian, tín hiệu Audio tương tự
Tín hiệu audio tương tự thay đổi liên tục theo thời gian, nghĩa là biên bộ của tín
hiệu thay đổi liên tục theo thời gian. Lấy mẫu tín hiệu audio tương tự là xác
định biên độ của tín hiệu ở những thời điểm theo những khoảng thời gian cách
điều nhau vì vậy các mẫu là các xung có biên độ nhất định. Khoảng thời gian
cách đều này gọi là chu kỳ lấy mẫu T
s
, tần số lấy mẫu (tốc độ lấy mẫu ) f
s
= (1
/ T
s
).
2. Lượng tử hoá và các mẫu rời rạc thời gian
Lượng tử hoá là biểu diễn biên độ của các xung tín hiệu thành 1 giá trị số sử
dụng hệ thống số nhị phân. Người ta dùng một từ ( word) có độ dài n bit để
biểu diễn các giá trị đó. Số bits n được chọn tùy thuộc vào giá trị của các mẫu
và n được gọi là độ phân giải lượng tử hoá( quantization resolution). Giá trị của
1 word xác định 1 mức luợng tử hoá (quantization level) và độ chênh lệch giữa
2 mức liên tiếp gọi là khoảng lượng tử hoá (quantization interval).
Ví dụ: ta sử dụng n=8 bit để biểu diễn các giá trị điện thế liên tục từ
0 -> 25,5 V như sau:
V1=0 thì word= 0000 0000 ( mức 0)
V2=0,1 thì word= 0000 0001 ( mức 1)
V3 = 0,2 thì word= 0000 0010 ( mức 2)
…………………………………………………………………….
V255= 25,5 thì word =1111 1111 (mức 255)
Giả sử ta có V
a
=0,15 V thì word ở mức 1 (0000 0001 ) hoặc mức 2 (0000
0010) tuỳ thuộc vào sự lựa chọn của chúng ta. Nhưng nếu V
a
=0.12 thì nó
thuộc mức 1 vì gần giá trị ở mức 1 hơn.
Các giá trị lượng tử hoá chỉ là xấp xỉ gần bằng giá trị thực tế của các mẫu. Độ
sai biệt giữa giá trị lượng tử hoá và giá trị thực được gọi là sai số lượng tử hoá (
quantization error).
3. Tỉ số tín hiệu trên sai số (Signal-to-error ratio)
Để đánh giá chất lượng của hệ thống lượng tử hóa, một thông số quan trọng
được định nghĩa là tỉ số của biên độ tín hiệu cực đại trên sai số lượng tử hóa
cực đại, tỉ số này được gọi là tỉ số tỉ hiệu trên sai số (S/E).
Phân tích và ứng dụng chuẩn MP3
Trang 10
CHƯƠNG II: GIỚI THIỆU VỀ MPEG
I. GIỚI THIỆU
1. MPEG là gì?
MPEG, viết tắt của cụm từ ‘ Moving Picture Experts Group’, là 1 nhóm
chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh
theo chuẩn ISO/IEC. Ngày nay, nhóm làm việc MPEG đã phát triển và phát
hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4. Chuẩn MPEG-3 được
kết hợp vào MPEG-2 và không còn tách riêng nữa. Nhóm MPEG hiện nay
đã phát triển đến chuẩn MPEG-7. MPEG chỉ là một tên riêng, tên chính
thức của nó là : ISO/IEC JTC1 SC29 WG11.
ISO : International Organization for Standardization
(Tổ chức chuẩn quốc tế)
IEC : International Electro-technical Commission
(Hội đồng kỹ thuật điện tử quốc tế )
JTC1 : Joint Technical Committee 1
(Hội đồng kỹ thuật liên hợp 1)
SC29 : Sub-committee 29
(Hội đồng phụ 29)
Phân tích và ứng dụng chuẩn MP3
Trang 11
WG11: Work Group 11 (moving picture with audio).
(Nhóm làm việc 11)
2. So sánh các chuẩn MPEG
MPEG-1 định nghĩa một tiêu chuẩn cho việc lưu trữ và phục hồi các hình
ảnh động và âm thanh trên các thiết bị lưu trữ. Tiêu chuẩn này định nghĩa
rằng hình ảnh được phát lại ở tốc độ 30 frames một giây và âm thanh được
phát lại ở chất lượng như CD-audio, độ phân giải hình ảnh là 352 x 240.
Chuẩn MPEG-1 được dùng điển hình trong các phần mềm huấn luyện bằng
máy tính, các game hành động trong máy tính, video chất lượng VHS,
Karaoke
MPEG-2 định nghĩa cho một tiêu chuẩn kỹ thuật truyền hình số. Chuẩn
MPEG-2 khắc phục một vài nhược điểm của chuẩn MPEG-1. Ví dụ,
MPEG-2 có thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao hơn và
rõ hơn (720 x 480 và 1280 x 720). Các đặc tính của MPEG-2 bao gồm hình
ảnh chất lượng cao và âm thanh nổi
MPEG-3 định nghĩa một tiêu chuẩn cho High Difinition Television
(HDTV), là thế hệ tiếp theo của công nghệ truyền hình theo định dạng số
đầu đủ. Tiêu chuẩn này đã không được phát triển hoàn thiện và cuối cùng
được kết hợp vào với chuẩn MPEG-2. MPEG-3 nhắm đến mục tiêu là các
ứng dụng HDTV với kích thước mẫu lên đến 1920x1080x30 Hz và được
mã hoá ở tốc độ bit 20 đến 40 Mbits/s. Cuối cùng người ta đã nhận ra rằng
với một vài điều chỉnh thích hợp, MPEG-1 và MPEG-2 làm việc rất tốt đối
với HDTV.
MPEG-4 định nghĩa một tiêu chuẩn cho các ứng dụng Multi-media. Đặc
biệt nó định nghĩa tiêu chuẩn truyền cho dòng phức tạp các hình ảnh, âm
thanh và dữ liệu đồ hoạ và việc tái hợp chúng trên thiết bị thu. MPEG-4
được phát triển theo 2 giai đoạn, 1 và 2. Chuẩn MPEG-4 định nghĩa các đối
tượng hình ảnh mà trong đó các phần của một cảnh có thể được thao tác
trong khi những phần khác vẫn không đổi.
MPEG-5 và MPEG-6 vẫn chưa được công bố.
MPEG-7 định nghĩa một tiêu chuẩn về việc biểu diễn nội dung cho các
nghiên cứu thông tin hình ảnh và âm thanh. Tên chính thức là “Multimedia
Content Description Interface”. Mục tiêu của MPEG-7 là chuẩn hoá việc
biểu diễn các mô tả về nội dung nghe nhìn. Tuy nhiên chuẩn không định
nghĩa các công cụ để nhận ra nội dung nghe nhìn thật sự.
3. Âm thanh MPEG
Phân tích và ứng dụng chuẩn MP3
Trang 12
Về cơ bản, âm thanh MPEG sẽ làm giảm kích thước lưu trữ 1 tâp tin âm
thanh đi rất nhiều. Một đĩa Audio-CD lưu trữ được khoảng 650 Mbyte dữ
liệu âm thanh thô với cách mã hóa 16 bit (bitdepth) và tần số lấy mẫu
(sample rate) 44.1 kHz. Nếu đem phát ra thì cũng chỉ được 60 đến 72 phút.
bitdepth: mô tả mức biên độ lớn nhất mà một mẫu âm thanh có thể
đạt tới. Ví dụ : 8 bit = 256 mức, 16 bit = 65.536 mức, về hình ảnh thì
đó chính là độ phân giải.
sample rate: mô tả số mẫu âm thanh được lấy trong 1 giây. Ví dụ : 22
kHz = 22.000 mẫu / 1giây.
Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thông tin.
Nếu đổi cách lưu trữ âm thanh từ 16 bit sang 8 bit chúng ta có thể giảm kích
thước lưu trữ đi 1 nửa, tuy nhiên như thế chất lượng âm thanh cũng sẽ giảm
đi 1 nửa.
4. Hoạt động
Khi đưa ra phương pháp mã hóa âm thanh, nền tảng vẫn là yếu tố “hệ
thống nghe” của con người. Thật không may đó không phải 1 thiết bị
hoàn hảo để nhận biết âm thanh nhưng là thiết bị duy nhất chúng ta có
được. Nhưng chúng ta có thể chuyển những khuyết điểm của nó thành
ưu điểm : đó là đặc tính phi tuyến của ngưỡng nghe và khả năng thích
hợp của nó.
MPEG hoạt động dựa trên hệ thống nghe của con người, đó là cảm giác
về âm mang đặc tính sinh lý và tâm lý.
Âm thanh CD ghi lại tất cả tần số, kể cả những tần số bị ‘che’.
Âm thanh MPEG chỉ ghi lại những tần số mà tai người có thể nghe.
Phân tích và ứng dụng chuẩn MP3
Trang 13
Như vậy, MPEG sẽ bỏ qua những thông tin không quan trọng. Dựa trên
nghiên cứu về nhận thức âm thanh của con người, bộ mã hóa sẽ quyết
định những thông tin nào là căn bản và những thông tin nào có thể bỏ
qua.
Hiệu quả này đặc biệt quan trọng trong âm nhạc. Nếu trong một dàn
nhạc có một nhạc cụ chơi cực mạnh, làm át tiếng của các nhạc cụ khác
ta không thể nghe được. Nhưng máy thâu âm vẫn ghi lại đầy đủ tất cả
tần số của tất cả nhạc cụ, nghĩa là thiết bị thâu âm hoàn toàn không có
khả năng thích nghi động như con người. Nhưng khi phát lại, ta vẫn
không nghe được âm thanh của những nhạc cụ bị át. Vì vậy việc lưu trữ
/ ghi lại những tần số này là thừa, làm chiếm dung lượng khá nhiều.
Cách ghi âm tuyến tính trên đĩa CD là hoàn toàn không hiệu quả về khía
cạnh này. Do đó thay vì phải ghi lại thông tin của những âm không nghe
được, ta sẽ dành chỗ cho các âm có thể nghe được. Theo cách này, dung
lượng của thiết bị ghi âm cần thiết có thể xem như giảm đi mà không
làm giảm chất lượng âm thanh.
Trước khi chúng ta nghe được điều gì, thông tin sẽ được phân tích bởi
bộ não của chúng ta. Não bộ sẽ dịch âm thanh và lọc bỏ những thông tin
không cần thiết. Kỹ thuật âm thanh MPEG làm việc này thay thế cho
não bộ. Như vậy, những thông tin lẽ ra phải được lọc bởi não bộ bây giờ
không còn cần phải lưu trữ chiếm giữ không gian đĩa nữa.
II. CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG
1. Lược đồ mã hóa Perceptual Subband
Bộ mã hóa âm thanh theo “perceptual subband” phân tích liên tục các tín
hiệu vào và xác định ra đường cong che (masking curve), đó là mức ngưỡng
mà những âm thanh ở dưới nó không thể nghe được bởi hệ thống nghe của
con người.
Phân tích và ứng dụng chuẩn MP3
Trang 14
Tín hiệu vào được chia thành 1 số dãi tần số, gọi là “subband”. Mỗi tín hiệu
“subband” được lượng tử hóa theo cách mà sự lượng tử hóa tiếng ồn được
bắt đầu bởi việc mã hóa sẽ không vượt quá đường cong che của subband đó.
Sự lượng tử hóa phổ tiếng ồn vì thế thích nghi động với phổ của tín hiệu.
Thông tin trên bộ số hóa được dùng trong mỗi subband được truyền dọc
theo các mẫu subband được mã hóa. Bộ giải mã sẽ giải mã dòng bit
(bitstream) mà không cần phải biết cách mà bộ mã hóa xác định những
thông tin này. Điều này cho phép bộ mã hóa hoạt động với những mức độ
khác nhau về chất lượng và độ phức tạp, và cũng cho phép sự phát triển
trong tương lai của bộ mã hóa.
2. Giải thích về hiệu quả che (masking effect)
a. Nén âm thanh MPEG
MPEG có thể nén 1 dòng bit 32 kbit/s đến 384 kbit/s. Một dòng bit âm
thanh PCM thô thì khoảng 705 kbit/s, do đó tỉ số nén tối đa có thể là 22.
Tỉ số nén bình thường là 1:6 hay 1:7. 96 kbit/s là xem như trong suốt
cho hầu hết các mục đích thực tế. Có nghĩa rằng ta không cần phải lưu
Phân tích và ứng dụng chuẩn MP3
Trang 15
tâm đến bất kỳ sự khác biệt nào giữa tín hiệu gốc và tín hiệu nén đối với
nhạc pop hay nhạc rock’n roll. Đối với một số ứng dụng khác như là hòa
tấu piano, tốc độ bit có thể lên tới 128 kbit/s.
Để đạt được tỉ số nén này, đối với âm thanh, về cơ bản ta có hai chọn
lựa: hoặc giảm số lần lấy mẫu, hoặc giảm số bit để lượng tử hoá. Con
người có thể nghe âm thanh với tần số từ 20 Hz đến 20 kHz. Theo
thuyết của Nyquist, ta phải lấy mẫu âm thanh ở tần số tối thiểu là hai lần
tần số cao nhất mà ta muốn phát lại. Tần số lấy mẫu 44,1 kHz là thích
hợp. Vấn đề còn lại là phải chọn số bit cho một mẫu mã hóa là bao
nhiêu. Thông thường là 16 bit.
Lý do để chọn con số 16 bit bắt nguồn từ tỉ số tín hiệu và nhiễu (S/N).
Nhiễu nói ở đây sinh ra do qúa trình số hóa. Cứ mỗi bit thêm vào, ta có
tỉ số S/N tốt hơn 6dB (đối với tai người, 6 dB tương ứng với mức to gấp
đôi). Âm thanh CD đạt tới khoảng 90 dB S/N. Mức này phù hợp với
phạm vi động của tai người còn tốt. Nghĩa là ta không thể nghe được bất
kỳ nhiễu nào đến từ bản thân hệ thống. Điều gì xảy ra nếu ta lấy mẫu với
8 bit? Ta sẽ nghe thấy rất nhiều tiếng sôi trong bản ghi. Dễ dàng nghe
thấy nhiễu trong khoảng nghỉ của bản nhạc hoặc giữa các từ nếu ta ghi
âm một giọng nói.
b. Hiệu quả che
Giả sử có một âm mạnh với tần số 1000Hz, và một âm kèm theo có tần
số 1100Hz nhưng với cường độ âm nhỏ hơn 18dB. Ta sẽ không thể nghe
thấy âm này vì nó đã bị che hoàn toàn bởi âm chủ 1000Hz. Nói một
cách khác, một âm thanh yếu gần một âm thanh mạnh sẽ bị che. Nếu có
một âm thanh khác tần số 2000Hz cũng có mức to thấp hơn âm 1000Hz
là 18dB thì ta sẽ nghe được âm này. Để không nghe được âm này ta phải
giảm mức to của âm này xuống còn thấp hơn 45dB so với âm chủ
1000Hz. Hiệu qủa che có ý nghĩa rằng ta có thể gia tăng mức ồn nền
xung quanh một âm mạnh mà vẫn không nghe được tiếng ồn vì chúng sẽ
bị che hoàn toàn. Tăng mức ồn nền còn có nghĩa là dùng ít bit để số hóa.
Và điều này cũng giống như là ta đã nén âm thanh vậy.
Bây giờ hãy xem bộ mã hoá âm thanh MPEG hoạt động như thế nào. Bộ
mã hóa chia phổ tần số (20Hz đến 20kHz) thành 32 dãi nhỏ (sub-band).
Mỗi sub-band giữ 1 phần nhỏ của phổ. Trong vùng trên của sub-band 8
ta phát một âm có tần số 1000Hz với mức to 60dB. Bộ mã hóa sẽ tính
toán hiệu qủa che của âm này và nhận ra rằng có một ngưỡng che cho
toàn bộ sub-band thứ 8 (tất cả những âm có cùng tần số). Ngưỡng che
này thấp hơn âm phát ra 35 dB. Tỉ số S/N có thể chấp nhận được là 60 -
35 = 25 dB, tương đương với 4 bit. Ngoài ra nó còn ảnh hưởng trên các
sub-band 9-13 và 5-7 với hiệu qủa che giảm dần từ sub-band 8. Hơn
nữa, bộ mã hóa cũng xem xét mức độ nhạy cảm của tai đối với các tần
Phân tích và ứng dụng chuẩn MP3
Trang 16
số khác nhau. Tai người ít nhạy cảm với các tần số cao và thấp. Nó nhạy
cảm nhất đối với tần số 2-4 kHz, cùng dãi tần số với tiếng nói con
người.
Các sub-band nên phù hợp với tai người, nghĩa là mỗi sub-band cần có
các tần số có cùng các tính chất âm học tâm lý. Trong MPEG layer II,
mỗi sub-band có độ rộng 625Hz, do đó cần phải có những bộ lọc băng
thông phức tạp. Để các bộ lọc đỡ phức tạp, người ta thêm FFT (Fast
Fourier Transform) vào song song với bộ lọc và sử dụng các thành phần
phổ từ FFT như là các thông tin thêm vào bộ mã hóa. Bằng cách này ta
sẽ lấy mật độ bit cao hơn đối với các tần số thấp mà tai người nhạy cảm
hơn.
Còn nhiều vấn đề cần phải bàn tới. Chúng ta chỉ mới giải thích sự che
đồng bộ, hiệu qủa che còn xảy ra trước và sau một âm mạnh.
3. Các lớp âm thanh MPEG
Có nhiều sự nhầm lẫn về lớp âm thanh MPEG. Tất cả các lớp đều dựa
trên cùng một lược đồ mã hóa (mã hóa theo nhận thức). Mức độ phức
tạp của bộ mã hóa và giải mã tuỳ thuộc vào mỗi lớp. Sau đây là hình ảnh
cho thấy tỉ số nén mà ta cần phải đạt tới 100% chất lượng CD với các bộ
mã hóa và giải mã khác nhau.
Sau đây là chi tiết về các lớp.
a. Lớp I (Layer I)
Phân tích và ứng dụng chuẩn MP3
Trang 17
Đây là lớp đơn giản nhất phù hợp cho ứng dụng của người dùng. Mô
hình âm học tâm lý của lớp này chỉ sử dụng các tần số che. Điều này có
nghĩa rằng nó sẽ bỏ qua các tần số bị khuất sau các tần số khác. Phạm vi
tốc độ bit từ 32 kbit/s (mono) đến 448 kbit/s (stereo). Tùy thuộc vào
mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng cao (gần với
âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên một chương
trình stereo. Không nên mã hóa với mức nén cao hơn 384 kb/s. Độ phức
tạp của bộ giải mã thấp, độ phức tạp của bộ mã hóa cao hơn 1.5 - 3 lần.
Lớp I được dùng nhiều trong DDC và Solid State Audio.
b. Lớp II (Layer II)
Lớp II đề nghị mức độ nén cao hơn lớp I và mức độ lọc sâu hơn. Nó có
những ứng dụng số cho cả âm thanh chuyên nghiệp và nghiệp dư, như
qua đài phát thanh, TiVi…Phạm vi tốc độ bit từ 32 - 192 kb/s cho âm
thanh mono, và từ 64 - 384 kb/s cho âm thanh stereo. Tùy thuộc vào
mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng cao (gần với
âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên một chương
trình stereo. Mức độ phức tạp của bộ giải mã 25% cao hơn so với lớp I,
và bộ mã hóa có mức phức tạp cao hơn 2 - 4 lần.
c. Lớp III (Layer III)
Lớp III còn đưa ra mức độ nén và lọc cao hơn cả lớp II và sử dụng một
bộ mã hóa Huffman.
Layer
Complexity
Encoder Decoder
I 1.5 – 3 1
II 2 – 4 1.25
III > 7.5 2.5
Trong bảng trên, độ phức tạp của bộ giải mã lớp I được dùng để so sánh
với lớp II và III.
Lớp III là chuẩn hiệu quả nhất và đã trở thành chuẩn trong thực tế cho
việc mã hoá chất lượng âm thanh. Lập luận này dành riêng cho việc
thực thi lớp III của chuẩn MPEG 1 được gọi là MP3.
Những cải thiện của lớp 3 so với lớp 1 và lớp 2 :
Phân tích và ứng dụng chuẩn MP3
Trang 18
Giảm sự chồng phổ :Lớp 3 cung cấp phương pháp xử lý các giá
trị MDCT để loại bỏ sự dư thừa do sự chồng lấp giữa các băng.
Lượng tử hóa phi tuyến :Bộ lượng tử hóa lớp 3 nâng các lối vào
của nó lên ¾ năng lượng trứơc khi lượng tử hóa để cung cấp tỉ
số tín hiệu trên nhiễu (SNR) cao hơn.
Mã hóa entropy các giá trị dữ liệu : Lớp 3 sử dụng mã Huffman
để mã hóa các mẫu lượng tử hóa cho việc nén dữ liệu tốt hơn .
Sử dụng một bộ dữ trữ bit (bit reservoir): Dòng bit lớp 3 phù hợp
hơn với độ dài thay đổi của dữ liệu được nén. Cũng giống như
lớp 2, khung dữ liệu lớp 3 có 1152 mẫu. Lớp 3 không giống lớp 2
ở chỗ dữ liệu mã hóa không nhất thiết phải vừa vặn trong một
khung cố định. Bộ mã hóa có thể lấy hoặc mượn các bit từ bộ dự
trữ bit nếu cần thiết .
Sự phân bố nhiễu hay sự phân bố bit : Quá trình phân bố bit trong
lớp 1 và lớp 2 chỉ xấp xỉ lượng nhiễu gây bởi lượng tử hóa theo
số bit cho trước. Bộ mã hóa lớp 3 sử dụng một vòng lặp phân bố
nhiễu. Theo cách này , các bộ lượng tử hóa được thay đổi theo
thứ tự , và lượng tử hóa có được là do tính toán và được phân bố
cho mỗi băng phụ.
III. CÁC THÔNG SỐ DÙNG TRONG MPEG
Chuẩn MPEG cho phép ta chọn lựa các thông số cho việc nén âm thanh
tốt nhất phù hợp với ứng dụng mà ta sử dụng. Lược đồ mã hóa cho các
loại là tổng quát. Các thông số có thể chọn lựa trong bộ mã hóa MPEG
bao gồm : Mode, Sampling frequency, bitrate, và Layer.
1. Mode
Chuẩn MPEG có 4 chế độ:
Mono.
Dual channel.
Stereo.
Intensity Stereo (còn gọi là Joint Stereo).
Chế độ Mono rõ ràng được dùng cho âm thanh 1 kênh.
Để chọn chế độ cho các ứng dụng 2 kênh, đầu tiên ta phải xác định đâu
là tín hiệu trái và đâu là tín hiệu phải để chia chúng ra thành 2 files khác
nhau, nhằm sau này ta có thể làm việc độc lập trên kênh trái hoặc phải.
Phân tích và ứng dụng chuẩn MP3
Trang 19
Lúc đó ta sẽ chọn chế độ Mono. Nếu 2 kênh không cần hoạt động độc
lập, ta chọn Stereo, Dual hay Intensity Stereo để tạo một file duy nhất.
Chế độ Stereo hay kênh Dual là hoàn toàn đồng nhất khi chúng cùng
sinh ra một file duy nhất cho tín hiệu stereo. Tuy nhiên một bit chỉ thị sẽ
nhận dạng xem một file là ở chế độ nào và có thể được dùng cho những
áp dụng nào.
Chế độ Intensity Stereo xem xét sự dư thừa giữa các kênh trái và phải
nhằm tối ưu mã. Chất lượng của Intensity Stereo thay đổi theo nội dung
của tín hiệu đã mã hóa. Tuy nhiên nó đặc biệt thích hợp cho tốc độ
truyền bit thấp.
2. Sampling Frequency (tốc độ lấy mẫu)
Một số tốc độ lấy mẫu:
32 kHz, 44.1 kHz và 48 kHz đối với MPEG 1 (Tiêu chuẩn ISO/IEC
11172-3).
16 kHz, 22.05 kHz và 24 kHz đối với MPEG 2 (Tiêu chuẩn
ISO/IEC 13818-3).
Khi chọn lựa tốc độ lấy mẫu cần xem xét các vấn đề:
Tần số lấy mẫu càng lớn thì càng nghe thuận tai (độ dài frame nhỏ hơn).
Băng thông tín hiệu giới hạn ở mức 15 kHz khi lấy mẫu ở tốc độ 32 kHz
và 8 kHz ở tốc độ 16 kHz.
Tần số lấy mẫu (kHz) và tốc độ của âm thanh mã hóa (kbps) có thể chọn
độc lập.
Tần số lấy mẫu 44.1 kHz hay 22.05 kHz là không thiết thực cho việc
chọn lọc vì độ dài frame (byte) là thay đổi.
Những file được lấy mẫu ở những tần số khác nhau thì rất khó khăn khi
hòa trộn.
Khi dùng ngõ nhập số AES/EBU, tần số lấy mẫu bị cố định bởi tín hiệu
nhập.
Nếu không bắt buộc, Digigram yêu cầu lấy mẫu ở 48 kHz hoặc 44.1 kHz
cho phát thanh hay ứng dụng multimedia. Nếu ta phải sử dụng tốc độ bit
thấp cho sự truyền có hiệu quả, tốc độ 24 kHz là thích hợp.
3. Bit Rate
Phân tích và ứng dụng chuẩn MP3
Trang 20
Mỗi Layer và chế độ có nhiều cách chọn lựa tốc độ bit (bit rate). Việc
chọn tốc độ bit tùy thuộc trước tiên vào chất lượng âm yêu cầu. Băng
thông tín hiệu là hẹp hơn nếu tốc độ bit thấp, khiến cho nó không thực
tế đối với một số ứng dụng. Tốc độ bit được đo theo kilobits /
sec(kbps).
Khi chọn lựa tốc độ bit cần xem xét các vấn đề:
Tại 128 kbps trên mỗi kênh (hay 256 kbps stereo), chất lượng âm thanh
CD sẽ đạt được với Layer I hay Layer II.
Tại 192 kbps trên mỗi kênh, chất lượng âm thanh là hoàn toàn trong
suốt.
Tốc độ 128 kbps / kênh được dùng phổ biến nhất trong phát thanh. Nó
tương ứng với tỉ số nén 1:6 ở tốc độ lấy mẫu 48 kHz. Tốc độ thấp hơn
128 kbps / kênh được dùng trong các ứng dụng yêu cầu tỉ số nén lớn
hơn do giới hạn của băng thông truyền hay thiết bị lưu trữ.
Một số tốc độ bit cung cấp bởi chuẩn âm thanh MPEG :
MPEG 1: 32 kHz, 44.1 kHz and 48 kHz
- Layer I :
32, 64, 96, 128, 160, 192, 224, 256, 288, 320, 352, 384, 416, 448 kbps.
Những tốc độ này là có thể ở chế độ Mono hay stereo
- Layer II :
32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320, 384 kbps.
32, 48, 56, 80 kbps chỉ có thể ở chế độ Mono; •64, 96, 112, 128, 160, 192
kbps có thể ở cả hai chế độ Mono và Stereo;•224, 256, 320, 384 kbps chỉ có
thể ở chế độ Stereo.
Phân tích và ứng dụng chuẩn MP3
Trang 21
CHƯƠNG III: MÃ HÓA THỤ CẢM
I . CƠ SỞ ÂM TÂM LÝ
Các thuật toán mã hoá thụ cảm đều dựa trên mô hình tiếp nhận âm thanh để tối
ưu hiệu qủa mã hoá. Đó chính là tai người , sự cảm nhận âm thanh bị ảnh
hưởng bởi các tính chất che. Aâm tâm lý học là 1 lĩnh vực khoa học nghiên
cứu và giải thích sự cảm nhận âm thanh của tai người đối với sự kích thích của
nguồn âm. Các phương pháp mã hoá thụ cảm đều dựa vào các nguyên lý cơ
bản của âm tâm lý học như :ngưỡng nghe, các băng tới hạn, hiện tượng che.
Các phương pháp này loại bỏ các thành phần dư thừa không nghe được của tín
hiệu audio để giảm bớt dữ liệu trong quá trình nén.
1. Ngưỡng nghe tuyệt đối (absolute threshold of hearing)
Ngưỡng nghe tuyệt đối là mức năng lượng cần thiết của một tone thuần (ở mức
độ cho trước ) để mà nó có thể nghe được trong một môi trường không có tiếng
ồn.
2. Các băng tới hạn (critical bands)
Các nghiên cứu thực tế cho thấy tai người có thể cảm nhận được các nguồn âm
có tần số từ 20 Hz đến 20KHz. Ngoài ra , tai người còn được coi là bộ phân
tích phổ đối với phổ tần nghe được. Tai người được coi là 1 băng lọc (filter
bank) gồm nhiều mạch lọc thông dãi với các băng thông có độ rộng khác
nhau, nó đặc trưng cho khả năng phân giải âm thanh của tai người. Các băng
này được gọi là băng tới hạn, chúng có độ rộng thay đổi theo tần số từ thấp
đến cao. Trên thực tế có 25 băng tới hạn được qui ước theo bảng các băng tới
hạn dưới , mỗi băng có một tần số trung tâm. Độ rộng của mỗi băng có thể
được tính xấp xỉ như sau :
BW
c
(f)=25+75[1+1.4(f/1000)
2
]
0.69
(HZ)
Một băng tới hạn có độ rộng là một Bark(đặt theo tên của nhà khoa học
Barkhausen). Hàm sau đây cho phép chuyển từ giai tần số sang giai Bark:
Z(f) = 13arctan(0.00076f) + 3.5arctan[(f/75000)
2
] (Bark)
Tai người có khả năng phân tích thời gian tần số, khả năng này tạo ra các hiện
tượng che đồng thời và không đồng thời. Các hiện tượng này được sử dụng
bởi các bộ mã hóa để xác định các thành phần dư thừa nhằm loại bỏ, không
mã hóa chúng.
Băng tới
hạn
Tần số trung
tâm
Độ rộng
(Hz)
Tần số dưới
(Hz)
Tần số trên
(Hz)
Phân tích và ứng dụng chuẩn MP3
Trang 22
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
50
150
250
350
450
570
700
840
1000
1170
1370
1600
1850
2150
2500
2900
3400
4000
4800
5800
7000
8500
10500
13500
18755
-
100
100
100
110
120
140
150
160
190
210
240
280
320
380
450
550
700
900
1100
1300
1800
2500
3500
6550
-
100
200
300
400
510
630
770
920
1080
1270
1470
1720
2000
2320
2700
3150
3700
4400
5300
6400
7700
9500
12000
15500
100
200
300
400
510
630
770
920
1080
1270
1470
1720
2000
2320
2700
3150
3700
4400
5300
6400
7700
9500
12000
15500
22050
Bảng các băng tới hạn
3. Hiện tượng che( masking)
Hiện tượng che xảy ra khi một hoặc nhiều nguồn âm bị làm cho không nghe
được do sự có mặt của một nguồn âm khác. Tín hiệu che các tín hiệu khác được
gọi là các thành phần che (masker), các tín hiệu bị che thì gọi là các thành phẩn
bị che (maskee). Độ chênh lệch giữa thành phần che và ngưỡng che (do tần số
và mức áp suất âm thanh của thành phần che quyết định) gọi là tỉ số tín hiệu
trên che SMR (Signal-to-masking ratio). Thông số này rất quan trọng trong
phương pháp mã hóa thụ cảm. Hiện tượng che có 2 loại : che đồng thời và che
không đồng thời.
Hiện tượng che đồng thời : xảy ra khi nhiều nguồn âm tác động vào tai
người. Mặc dù phổ tần âm thanh có thể chứa nhiều hiện tượng che đồng
thời phức tạp, vì mục tiêu định dạng sái dạng mã hóa, ta chỉ cần quan tâm
đến 3 loại che đồng thời : nhiễu che tone , tone che nhiễu, nhiễu che nhiễu.
Phân tích và ứng dụng chuẩn MP3
Trang 23
Nhiễu che tone (Noise-Masking-Tone, NMT) : ví dụ như 1 nhiễu băng
thông hẹp (có băng thông là 1 Bark) che một tone với điều kiện là tone
bị che có mức SPL nhỏ hơn ngưỡng do nhiễu che quyết định.
Tone che nhiễu (Tone – Masking - Noise, TMN): Ví dụ như 1 tone ở
tần số trung tâm của 1 băng nhiễu (băng thông là 1 Bark) che băng
nhiễu đó khi mức SPL của băng nhiễu thấp hơn mức ngưỡng do tone
che quyết định .
Nhiễu che nhiễu (Noise - Masking – Noise, NMN): Đây là trường hợp
mà 1 nhiễu băng thông hẹp bị che bởi 1 băng nhiễu khác.
Hiện tượng che không đồng thời :xảy ra khi các tone (hoặc nhiễu) được
phát lên đồng thời nhưng gần nhau theo thời gian. Hiện tượng tiền che xảy
ra khi một tone (hoặc nhiễu) bị che bởi một tone (hoặc nhiễu) xảy ra sau.
Tương tự, hiện tượng hậu che khi một tone xảy ra trước che một tone xảy ra
sau đó.
Bộ mã hoá thụ cảm phân tích thành phần tần số và biên độ của tín hiệu audio
vào và so sánh với mô hình âm sinh lý của tai người. Bộ mã hoá loại bỏ các
thành phần dư thừa không cần thiết ( phần tai người không cảm nhận được) vì
vậy giảm 1 lượng đáng kể dữ liệu cần mã hoá. Về mặt lý thuyết, phương pháp
này làm hao hụt thông tin nhưng tai người vẫn không cảm thấy được sự suy
giảm chất lượng tín hiệu audio.
Phân tích và ứng dụng chuẩn MP3
Trang 24
Bộ đệm,
Biến đổi
Lượng tử hoá
thích nghi
Mã hoá
Entropy
II. MÃ HÓA BĂNG PHỤ
Trong phương pháp mã hoá băng phụ tín hiệu Audio được cho vào 1 băng lọc
gồm M mạch lọc thông dãi chiếm đầy phổ tần nghe được. Mô hình âm tâm lý
được sử dụng để tính toán ngưỡng che cho mỗi băng phụ. Lối ra của mỗi mạch
lọc được lấy mẫu tới hạn, và được lượng tử hoá và mã hoá một cách riêng biệt.
Việc lượng tử hoá của mỗi băng phụ được dựa trên tỉ số năng lượng đỉnh trên
mức che (độ chênh lệch giữa thành phần các mức SPL cao nhất và ngưỡng che)
tính được cho mỗi băng phụ. Tỉ số này được sử dụng bởi bộ phân phối bit để
phân bố số bit cần thiết cho việc lượng tử hoá mỗi băng phụ, các thành phần
thấp hơn ngưỡng che thì không được mã hoá. Cuối cùng các mẫu lượng tử hoá
được đóng thành các khung dữ liệu, trong khung có kèm theo các dữ liệu phụ
khác.
Phần mạch giải mã thì đơn giản hơn do nó không cần mô hình âm tâm lý. Các
khung dữ liệu được mở ra, các mẫu băng phụ thì được giải mã và đuợc phân
tích tần số thời gian để tạo lại tín hiệu audio ban đầu.
II. MÃ HOÁ BIẾN ĐỔI
Trong phương pháp mã hoá biến đổi các mẫu Audio trong miền thời gian được
chuyển sang miền tần số nhờ các phép biến đổi toán học. Các bộ mã hoá có thể
sử dụng các phép biến đổi như phép biến đổi Fourier rời rạc DFT (Discrete
Fourier Transform) hoặc MDCT. Các hệ số có được từ các phép biến đổi được
lượng tử hoá và mã hoá dựa trên mô hình âm tâm lý, các thành phần bị che
được loại bỏ. Đứng trên quan điểm thông tin, sự biến đổi làm giảm Entropy của
tín hiệu cho phép mã hoá hiệu quả hơn.
Trong các bộ mã hoá biến đổi thích nghi, một mô hình được sử dụng để lượng
tử hoá thích nghi mỗi băng phụ, nhưng các hệ số trong mỗi băng được lượng tử
hoá vời cùng số bit. Thuật toán phân phối bit tính toán nhiễu lượng tử hoá trong
mỗi băng để có được tỉ số S/N cần thiết cho việc che. Trong vài trường hợp tốc
độ bit lối ra có thể thay đổi. Trước khi truyền đi , dữ liệu thường được nén với
phương pháp mã hoá Entropy, chẳng hạn như mã hoá Huffman. Mô hình mã
hóa thích nghi được minh họa như hình sau:
Audio_vào Audio ra
Phân tích và ứng dụng chuẩn MP3
Trang 25
Tính toán
ngưỡng che
FFT và mô
hình âm tâm
lý
Bộ mã hoá biến đổi thích nghi
III. MÃ HOÁ MP3 ( MP3 ENCODING)
Tín hiệu vào bộ mã hóa là bộ điều biến mã xung bình thường (PCM) được
phân chia vào khung có 1152 mẫu. Khung này được chia làm hai granules, mỗi
granule là 576 mẫu. Khung được gởi đến cả hai khối biến đổi Fourier nhanh
(FFT) và băng lọc phân tích.
1. Phân tích phép biến đổi Fourier nhanh (FFT analysis)
Khối FFT chuyển 576 mẫu đến miền tần số sử dụng phép biến đổi Fourier.