Tải bản đầy đủ (.pdf) (10 trang)

Nén âm thanh dải rộng MP3

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (699.62 KB, 10 trang )

LÝ THUYẾT NÉN ÂM THANH DẢI RỘNG MP3

1.1 Âm thanh số theo chuẩn MPEG-1
1.1.1 Tổng quan về chuẩn MPEG-1 cho âm thanh
• Moving Picture Experts Group Phase 1 (MPEG-1) là tiêu chuẩn được công
bố trong ISO/IEC 11172, cho phép mã hóa hình ảnh động và âm thanh liên
quan cho phương tiện kĩ thuật số với mức nén tối đa 1.5 Mbits/s
• MPEG-1 là chuẩn nén video và audio có mất mát thông tin (lossy). Hiện
nay, MPEG-1 là định dạng nén mất mát thông tin tương thích rộng rãi nhất
trên thế giới.
• MPEG-1 được thiết kế cho âm thanh tổng quát (không chỉ gói gọn trong
tiếng nói), hỗ trợ nhiều tần số lấy mẫu 16, 22.05, 24, 32, 44.1, 48 kHz
• Chuẩn MPEG-1 Audio sử dụng các sub-band và psychoacoustics (mô hình
cảm thụ) để làm giảm đáng kể tốc độ dữ liệu (data rate) của dòng âm thanh
(audio stream). Nó làm giảm hoặc loại bỏ hoàn toàn một số phần âm thanh
được xác định là tai người không nghe được (do tần số mà tai có độ nhạy
cảm thấp, hoặc bị che bởi âm khác)
1.1.2 Các layer trong chuẩn MPEG-1 Audio
• MPEG-1 Audio được chia làm 3 lớp (layer). Lớp càng cao thì độ phức tạp
tính toán càng cao, cũng như hiệu quả càng cao. Các layer cao tương thích
hoàn toàn với các layer thấp hơn
• Layer 1: tỉ lệ bitrate từ 32 – 448 Kbps
• Layer 2: tỉ lệ bitrate từ 32 – 384 Kbps
• Layer 3: tỉ lệ bitrate từ 32 – 320 Kbps
• MPEG-1 Audio Layer 1 được thiết kế cho các ứng dụng đòi hỏi quá trình mã
hóa và giải mã đơn giản, đồng thời cũng có hiệu quả nén thấp nhất.
• MPEG-1 Audio Layer 2 có hiệu quả nén cao hơn. Bộ giải mã của MPEG-1
Audio Layer 2 cũng có thể giải mã luồng tín hiệu mã hóa bởi bộ mã hóa
MPEG-1 Audio Layer 1. Nhờ bộ giải mã đơn giản, MPEG-1 Audio Layer 2



được sử dụng trong phát thanh, truyền hình cũng như các ứng dụng phát
sóng video.
• MPEG-1 Audio Layer 3 (MP3) có hiệu suất nén cao, phù hợp với tín hiệu
âm nhạc. Nhìn chung, MP3 phù hợp với các ứng dụng lưu trữ và truyền tải
âm nhạc (mono/stereo). Hiện nay, MP3 là định dạng phổ biến nhất để lưu trữ
và truyền tải nhạc, ngoài ra còn được ứng dụng rộng rãi trong truyền hình số
vệ tinh, điện thoại di động.
• Các ưu điểm của MP3 so với MPEG-1 Layer 1-2:
• Độ phân giải tần số cao hơn.
• Lượng tử hóa không đều.
• Sử dụng scale-factor band thay vì sub-band, thể hiện tốt hơn các band
của tai người.
• Sử dụng Entropy Coding (mã Huffman)

1.2 Các phương pháp nén âm thanh theo chuẩn MPEG-1
1.2.1 Phương pháp nén âm thanh chung theo chuẩn MPEG-1
Sơ đồ nén, mã hóa âm thanh MPEG-1

Sub-bank Filter
• Lọc tín hiệu âm thanh vào 32 băng lọc theo tần số


• Việc chia tín hiệu âm thanh theo tần số giúp cho thuật toán có thể nén được
tốt hơn, do ngưỡng nghe của con người ở các tần số khác nhau là khác nhau
• Chuẩn MPEG-1 sử dụng 32 băng lọc
o Với Layer 1 và 2, 32 băng lọc này được chia đều theo tần số
o Với Layer 3, 32 băng lọc này được chia không đều, tần số càng cao thì
độ rộng băng càng lớn
• Đầu ra của các băng lọc được nhóm lại thành các block, 32 block sẽ hợp
thành 1 frame

o Layer 1: mỗi block gồm 12 mẫu, mỗi frame gồm 384 mẫu
o Layer 2, 3: mỗi block gồm 36 mẫu, mỗi frame gồm 1152 mẫu
Mô hình cảm thụ
• Đây là thành phần quan trọng nhất trong chuẩn MPEG-1, nó có tác dụng
phân tích, loại bỏ các thành phần tín hiệu không cần thiết, giúp cho thuật
toán nén có độ nén tốt mà vẫn bảo đảm được chất lượng âm thanh
• Ngưỡng nghe của con người ở các tần số khác nhau là khác nhau, do đó, sau
khi phân ra thành các băng theo tần số, mỗi băng sẽ có một ngưỡng nghe
riêng. Nếu tín hiệu nhỏ hơn ngưỡng nghe, băng đó sẽ bị loại khỏi quá trình
mã hóa

• Ngưỡng che: khi một âm có cường độ lớn, con người sẽ không thể nghe
được các âm có cường độ nhỏ hơn ở lân cận. Đây là hiện tượng chắn âm.


Mô hình cảm thụ sẽ tính toán ngưỡng che của từng băng dựa trên các băng
lân cận. Các băng nào có cường độ nhỏ hơn ngưỡng che cũng sẽ bị loại khỏi
quá trình mã hóa

Lượng tử hóa
• Các thành phần tần số được lượng tử hóa và mã hóa với điều kiện giữ cho
nhiễu lượng tử ở dưới ngưỡng che
• Tùy thuộc vào thuật toán, bước này được thực hiện theo các cách khác nhau
o Layer 1: mỗi băng lọc sẽ tính tín hiệu lớn nhất theo giá trị tuyệt đối,
mã hóa bằng 6 bit, gọi là scale factor. Sau đó xác định số bit cần mã
hóa bằng cách giữ cho thành phần nhiễu lượng tử dưới ngưỡng che
o Layer 2: tương tự Layer 1, nhưng mỗi băng lọc có 3 scale factor, thuật
toán sẽ chọn sử dụng 1, 2 hoặc cả 3 tùy theo độ chênh lệch giữa các
scale factor
o Layer 3: trình bày bên dưới

Mã hóa dòng bit
• Một bộ định dạng dòng bit sẽ được sử dụng để tập hợp dữ liệu thành dòng
bit
• Bao gồm dữ liệu lấy từ bộ lượng tử hóa, và các thông tin liên quan như:
thông tin phân bổ bit, các thông tin về file âm thanh…


1.2.2 MPEG-1 Audio Layer 3 (MP3)

Mô hình nén âm thanh MP3 cũng tuân theo mô hình nén âm thanh MPEG-1
Filter bank
• Các băng lọc được chia không đều theo tần số, tần số càng cao thì độ rộng
của băng càng lớn. Điều này phù hợp với cảm nhận của tai người, nhạy cảm
ở các tần số thấp hơn tần số cao
• Sau khi qua băng lọc, tín hiệu mỗi băng sẽ đi qua một bộ biến đổi cosine rời
rạc (MDCT), và được tách tiếp ra 18 băng con (tổng 576 băng) nhằm tăng
hiệu quả nén
Mô hình cảm thụ: tương tự MPEG-1 tổng quát
Lượng tử hóa và mã hóa
• Lượng tử hóa không đều (power-law): giá trị lớn sẽ có độ chính xác thấp
hơn.
• Mã hóa Huffman Coding: không mất mát thông tin.
• Việc lượng tử hóa và mã hóa được thực hiện đồng thời bởi hai vòng lặp lồng
nhau:
o Vòng lặp trong (rate-control loop): thực hiện Huffman coding với các
bước lượng tử, cho đến khi số lượng bit của Huffman đủ ngắn
o Vòng lặp ngoài (noise-control loop): kiểm soát lỗi lượng tử không
vượt quá mặt nạ ngưỡng bằng scale factor
Mã hóa dòng bit: tương tự MPEG-1 tổng quát



1.3 Ứng dụng cụ thể của âm thanh MP3
• Ứng dụng MP3
• Lưu trữ và nghe nhạc trên máy tính
• Dịch vụ nghe nhạc trực tuyến
• …
• Nếu không có nén, mỗi file bài hát (khoảng 4 phút) sẽ có dung lượng tới
40MB.
• Một thiết bị nghe nhạc (điện thoại, máy tính…) sẽ chứa được rất ít bài
hát
• Khi nghe nhạc trực tuyến, sẽ phải cần đường truyền lên tới 1.4 Mbps


Âm thanh MP3 với độ nén cao sẽ khắc phục được các vấn đề trên. Bên cạnh
độ nén cao, âm thanh MP3 cho chất lượng tốt, hoàn toàn có thể lưu
trữ/truyền tải âm thanh âm nhạc.

1.4 So sánh sơ đồ nén âm thanh MP3 và sơ đồ mã hóa tiếng
nói GSM
1.4.1 GSM dùng trong truyền thông di động
• Sơ đồ khối GSM dùng trong di động

• Tín hiệu tiếng nói được đưa qua 1 bộ lọc thông thấp, sau đó đưa qua bộ
chuyển đổi tương tự-số (ADC) có tần số lấy mẫu là 8kHz, 13bit/mẫu. Tín


hiệu sau bộ chuyển đổi ADC có bitrate 104kbps. Thuật toán RPE-LTP sẽ
nén tín hiệu xuống bitrate 13kbps
• Sơ đồ mã hóa:


• Các khối mã hóa:
• Linear Predictive Coding (LPC)
• Long-term Prediction (LTP)
• Regular Pulse Excitation (RPE)
• Các bước mã hóa:
• Bước 1: Input được chia thành các block 160 mẫu (20ms)
Kích thước block đủ ngắn để các tham số thống kê được coi là không
đổi
• Bước 2: Sử dụng LPC


Sử dụng thuật toán LPC để tìm các tham số của bộ lọc bằng phương
pháp ước lượng tham số

Ở trường hợp này, mô hình có 8 tham số, chiếm 36 bit
• Bước 3: sử dụng LTP
Chia block thành 4 phần 40 sample, với mỗi phần tính tự tương quan
với khối của lần tính trước. Mỗi khối còn tồn tại những phần giống
nhau, ta tính RPE (cross-correlation) chênh lệch giữa 2 khối (2 bit
amplication, 7 bit translation) (tổng 36 bit)

• Bước 4: sử dụng RPE
 Dùng bộ lọc thông thấp với pha tuyến tính trên từng part 40
sample
 Chia tín hiệu còn lại thành 3 polyphase, chọn polyphaser có
năng lượng lớn nhất (2 bit thứ tự)
 Chuẩn hóa giá trị cực đại của polyphaser đã chọn (6 bit)
 Lượng tử hóa 13 giá trị của polyphaser với 3 bit
 Sử dụng (2 + 6 + 13 * 3) * 4 = 188bits



• Tổng cộng các thông tin cần truyền đi: 36 bit (LPC) + 36 bit (LTP) + 188 bit
(RPE) = 260 bit cho 160 mẫu (hay 20ms). Từ đó ta có tốc độ truyền
260bit/20ms = 13kbps
1.4.2 So sánh sơ đồ nén âm thanh MP3 và sơ đồ mã hóa tiếng nói GSM
MP3

RPE-LTP trong GSM

Mục đích Nén âm thanh số để lưu trữ và Mã hóa tín hiệu để giảm băng
truyền tải.
thông để có thể truyền thông di
(Âm thanh cần chân thực, mức động. Thời gian nén thấp.
độ sai khác phải trong ngưỡng (Âm thanh không cần chân thực,
chấp nhận được)
chỉ cần rõ nghĩa)
Thuật
toán nén

Continuous Coding (Mã hóa liên Block Coding (Mã hóa khối)
tục)
Linear Predictive Coding (LPC)
Entropy
Coding
(Huffman
Coding)

Kiểu mã Mã hóa dạng sóng (Mã hóa các Mã hóa tham số (Tính toán các
hóa
mẫu theo thứ tự)

tham số của mô hình)
Kênh

Mono/Stereo

Mono

Input

Tín hiệu âm thanh số PCM: Tín hiệu âm thanh số PCM: 104
bitrate đa dạng
kbps
(8000 samples/s, 13 bits/sample)

Output

Tín hiệu số: 32 – 320 kbps

Tín hiệu số: 13 kbps

(Sampling Frequency: 32, 44.1, (Sampling Frequency: 8 kHz)


48 kHz)



×