Tải bản đầy đủ (.doc) (87 trang)

NGHIÊN CỨU CÁC KỸ THUẬT NÉN TÍN HIỆU AUDIO TRONG TRUYỀN HÌNH SỐ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1 MB, 87 trang )

1

MỞ ĐẦU
1. Cơ sở nghiên cứu của luận văn
So với các loại dữ liệu kỹ thuật số, tốc độ dữ liệu âm thanh kỹ thuật số không
nén là rất lớn. Kỹ thuật nén âm thanh số cho phép lưu trữ và truyền tải dữ liệu âm
thanh hiệu quả. Nén là quá trình làm giảm tốc độ bit của các dòng dữ liệu tốc độ cao
mà vẫn đảm bảo chất lượng hình ảnh hoặc âm thanh cần truyền tải.
Tín hiệu audio số PCM được sử dụng trong truyền hình, truyền thông đa phương
tiện cũng như trong nhiều ứng dụng khác. Các dòng số này có tốc độ bít rất cao. Ví
dụ khi âm thanh được lấy mẫu với tần số 48 KHz và độ phân giải là 16 bít thì dòng
số tạo ra sẽ có tốc độ 1,54 Mbps. Một hệ thống âm thanh surround cung cấp dòng số
có tốc độ lên tới 4,5 Mbps. Bởi vậy, yêu cầu phải có một phương pháp nén hiệu quả
cho lưu trữ dữ liệu thời gian dài cũng như khi phân phối dữ liệu qua các kênh có bề
rộng dải thông hẹp. Việc nén audio hiện nay được tổ hợp trong các ứng dụng đa
phương tiện trên cơ sở là máy tính, cho sự phân phối chương trình trên đĩa CDROM và mạng. Nó cũng được sử dụng trong truyền dẫn qua vệ tinh quảng bá
(Digital Broadcast Satellite-DBS).
Mặt dù cho đến nay đã có rất nhiều kỹ thuật nén tín hiệu audio như: MPEG layer
1,2,3, AAC, MPEG4. Mỗi tiêu chuẩn đều có kỹ thuật nén khác nhau để tạo đựơc
dòng bít nhỏ hơn so với âm thanh PCM. Nhưng để lựa chọn, đánh giá các chuẩn
nén âm thanh có chất lượng cao sử dụng trong mục đích sử dụng truyền tải đòi hỏi
phải nghiên cứu đánh giá là điều không thể thiếu. Luận văn tập trung nghiên cứu
đánh giá hai chuẩn nén âm thanh được xem là có chất lượng cao nhất và được sử
dụng ghép truyền tải cùng với truyền hình số là: MPEG và AAC.
2. Mục đích nghiên cứu
Luận văn tập trung nghiên cứu các nội dung sau:


Nghiên cứu nguyên lý về các kỹ thuật nén âm thanh




Nghiên cứu các kỹ thuật nén âm thanh MPEG và AAC



Đánh giá hiệu quả các kỹ thuật nén âm thanh MPEG và AAC


2

3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu


Nghiên cứu kỹ thuật nén âm thanh chuẩn MPEG3 và AAC

3.2. Phạm vi nghiên cứu


Tìm hiệu tổng quan về kỹ thuật nén



Nghiên cứu các thuật toán nén



Đánh giá chất lượng các kỹ thuật nén

4. Phương pháp nghiên cứu



Nghiên cứu lý thuyết các kỹ thuật nén



Xây dựng các File âm thanh



Thực hiện chương trình nén



Đánh giá

5. Ý nghĩa khoa học của đề tài


Hổ trợ cho việc sử dụng các công nghệ truyền tải dữ liệu trong truyền

hình số


Phát triển sử dụng chương trình mã hóa âm thanh

6. Cấu trúc của luận văn
Luận văn được chia làm 4 chương. Phần mở đầu luận văn trình bày tóm tắt mục
đích nghiên cứu, đối tượng nghiên cứu, phạm vi nghiên cứu, phương pháp nghiên
cứu và ý nghĩa khoa học đề tài.

Chương 1: CÁC CHUẨN NÉN TÍN HIỆU AUDIO TRONG TRUYỀN HÌNH
SỐ
Chương 2: CÁC KỸ THUẬT MÃ HÓA ÂM THANH.
Chương 3: KỸ THUẬT MÃ HÓA ÂM THANH MPEG-3 VÀ MPEG-2 AAC,
Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ


3

Chương 1: CÁC CHUẨN NÉN TÍN HIỆU AUDIO TRONG
TRUYỀN HÌNH SỐ
1.1. Một số chuẩn truyền hình số hiện nay trên thế giới [7]
Chuẩn truyền dẫn truyền hình số (DTV_ Digital television) sử dụng quá trình
nén và xử lý số để có khả năng truyền dẫn đồng thời nhiều chương trình TV trong
một dòng dữ liệu, cung cấp chất lượng ảnh khôi phục tuỳ theo mức độ phức tạp của
máy thu.
DTV là một sự thay đổi đáng kể trong nền công nghiệp sản suất và quảng bá các
sản phẩm truyền hình. Nó mang lại tính mềm dẻo tuyệt vời trong sử dụng do có
nhiều dạng thức ảnh khác nhau trong nén số.
Hiện nay trên thế giới tồn tại song song ba tiêu chuẩn truyền hình số. Đó là:


ATSC (Advance Television System Commitee) của Mỹ.



DVB (Digital Video Broadcasting) của Châu Âu.




EDTV_II (Enhanced Definition Television) của Nhật.

1.1.1. Chuẩn ATSC
Hệ thống ATSC có cấu trúc dạng lớp, tương thích với mô hình OSI 7 lớp của
các mạng dữ liệu. Mỗi lớp ATSC có thể tương thích với các ứng dụng khác cùng
lớp. ATSC sử dụng dạng thức gói MPEG-2 cho cả Video, Audio và dữ liệu phụ.
Các đơn vị dữ liệu có độ dài cố định phù hợp với sửa lỗi, ghép dòng chương trình,
chuyển mạch, đồng bộ, nâng cao tính linh hoạt và tương thích với dạng thức ATM.
Tốc độ bít truyền tải 20 MHz cấp cho một kênh đơn HDTV hoặc một kênh TV
chuẩn đa chương trình.
Chuẩn ATSC cung cấp cho cả hai mức HDTV (phân giải cao) và SDTV (truyền
hình tiêu chuẩn). Đặc tính truyền tải và nén dữ liệu của ATSC là theo MPEG-2.
1.1.2. Chuẩn DVB
Chuẩn DVB được sử dụng ở Châu Âu, truyền tải Video số MPEG-2 qua cáp, vệ
tinh và phát truyền hình mặt đất.
Chuẩn DVB có một số đặc điểm như sau:


Mã hoá Audio tiêu chuẩn MPEG-1 Layer 2 vàd MPEG-2-AAC


4



Mã hoá Video chuẩn MPEG-2.

DVB gồm một loạt các tiêu chuẩn. Trong đó cơ bản là:



DVB - S: Hệ thống truyền tải qua vệ tinh. Bề rộng băng thông mỗi bộ

phát đáp từ 11 đến 12 G hz.
Hệ thống DVB - S sử dụng phương pháp điếu chế QPSK (Quadratue Phase Shift Keying), mỗi sóng mang cho một bộ phát đáp. Tốc độ bit truyền tải tối đa
khoảng 38,1Mbps.


DVB - C: Hệ thống cung cấp tín hiệu truyền hình số qua mạng cáp, sử

dụng các kênh cáp có dung lượng từ 7 đến 8 MHz và phương pháp điều chế
64_QAM (64 Quadratue Amplitude Modulation). DVB - C có mức SNR (tỉ số
Signal/noise) cao và điều biến kí sinh (Intermodulation) thấp. Tốc độ bit lớp truyền
tải MPEG-2 tối đa là 38,1 Mbps.


DVB - T: Hệ thống truyền hình mặt đất với các kênh 8MHz. Tốc độ bit

tối đa 24 Mbps. Sử dụng phương pháp điều chế RF mới đó là COFDM.
1.2. Các chuẩn nén âm thanh trong truyền hình số
1.2.1. Chuẩn mã hóa âm thanh MPEG [7]
MPEG-1 là thuật toán nén âm thanh tiêu chuẩn quốc tế đầu tiên cho nén âm
thanh kỹ thuật số có độ trung thực cao, được thông qua do Tổ chức tiêu chuẩn quốc
tế và Ủy ban điện tử quốc tế (ISO / IEC) vào cuối năm 1992. Các thuật toán nén âm
thanh MPEG-1 được đề cập một trong ba phần (âm thanh, video, và hệ thống), tốc
độ bít khoảng 1,5(Mbps). Chuẩn nén âm thanh MPEG-1 với tốc độ lấy mẫu 32,
44.1, 48 kHz. Tốc độ bít có thể hỗ trợ một hoặc hai kênh âm thanh và được xác
định trong khoảng từ 32 đến 224 kbps cho mỗi kênh, tương đương với một tỷ lệ nén
từ 24 đến 2,7. thường là tỷ lệ 1/6 (tức là, 16-bit stereo lấy mẫu 48 kHz tốc độ 256
kbps) với tốc độ bít này người nghe khó có thể phân biệt giữa các đoạn âm thanh
được mã hóa và âm thanh gốc. Chuẩn mã hóa âm thanh MPEG được phân chia

thành 3 lớp.


Layer 1 có độ phức tạp thấp nhất và bitrate cao nhất, dao động từ 32-

224 kbps cho mỗi kênh nếu muốn thực hiện tốc độ bít 192 kbps cho mỗi kênh. Chỉ


5

có sử dụng đặc tính psychoacoustic, độ nhạy thính giác và mặt nạ tần số. Mỗi khung
bao gồm 384 mẫu được xử lý bởi 32 subbands có chiều rộng bằng nhau (xem Hình
1.1), mỗi subband có chứa 12 mẫu.


Lớp 2 có độ phức tạp trung trung bình tốc độ bít (bitrate) khoảng 128

kbps cho mỗi kênh. Sử dụng kỹ thuật mặt nạ tần số và thời gian trong mã hóa. Mỗi
khung chứa 1.152 mẫu được chia thành 32 dãi con (subbands) có chiều rộng bằng
nhau, mỗi dãi con sử dụng 36 mẫu (Xem hình 1.1). Ứng dụng cho lớp này được
dùng mã hóa âm thanh cho phát thanh truyền hình số (DAB), lưu trữ đồng bộ chuỗi
video và âm thanh trên đĩa CD-ROM.


Layer 3 có độ phức tạp cao nhất và cung cấp chất lượng âm thanh tốt

nhất, đặc biệt là đối với tốc độ bít (bitrate) khoảng 64 kbps cho mỗi kênh. Dữ liệu
nén của lớp này cũng được đặt tên cho định dạng là MP3. Định dạng này được phát
triển vào cuối những năm 1980 do Viện Fraunhofer kết hợp với trường Đại học
Erlangen.. Ngoài việc sử dụng mặt nạ tần số và thời gian, MP3 còn sử dụng mã hóa

(Huffman) với bảng mã thay đổi theo xác suất của thông tin được mã hóa, để tiếp
tục giảm dư thừa. Cũng như Trong lớp 2, mỗi khung chứa 1.152 mẫu được chia
thành 32 subbands có chiều rộng bằng nhau, mỗi subband sử dụng 36 mẫu.
Kiểm soát nhiểu
Mô hình
cảm quan

Bộ lọc
32 band

Biến đổi
MDCT
18p/band

Mã hóa
kênh

Đặt hệ số
chia tỷ lệ

Lượng tử
hóa

Tổng hợp dòng bít

Hình 1.1: Sơ đồ mã hóa âm thanh chuẩn MPEG[7]

Khử
nhiễu và
Mã hóa



6

1.2.2. Chuẩn nén âm thanh AC3
Dolby Digital và công nghệ mã hóa âm thanh AC-3 được sửng dụng rộng rãi và
trở thành không thể thiếu được trong các máy giải trí gia đình, DVD và HDTV.
Dolby Digital trở nên không thể thiếu được trên đĩa phim DVD-Video và được thấy
thường xuyên trên đĩa DVD-Audio. Hầu hết các đầu thu AV Preamp có khả năng
giải mã Dolby Digital. Ưu điểm chính của Dolby Digital chính.
1.2.3. Chuẩn nén âm thanh AAC [7]
Để tiến đến công nghệ mã hóa âm thanh vượt qua MP3, AC3, một nỗ lực được
thực hiện để tạo ra một mã mới âm thanh có chất lượng không thể phân biệt tại tốc
độ bít 64 kbps cho mono đó là chuẩn âm thanh MPEG-2 AAC. Về mặt kỹ thuật,
định dạng AAC được tiêu chuẩn hóa vào năm 1997, được xây dựng trên một cấu
trúc tương tự như MP3 và do đó giữ lại hầu hết các tính năng thiết kế của nó.
Nhưng không giống như các lớp MPEG trước đây, AAC sử dụng một cách tiếp cận
kiểu mô-đun (xem hình 1.2).


7

Hình 1.2: Sơ đồ mã hóa âm thanh chuẩn MPEG2-AAC[7]


8

Chương 2: KỸ THUẬT MÃ HÓA ÂM THANH
2.1. Tổng quan về mã hóa âm thanh
Mã hóa tín hiệu audio trong truyền hình số được thực hiện dựa trên cơ sở mô

hình tâm lý thính giác, sự cảm nhận về âm thanh của hệ thống thính giác con người,
sự hạn chế về mặt cảm nhận và hiện tượng che lấp các thành phần tín hiệu âm
thanh.
2.1.1. Đặc tính sinh lý về sự cảm nhận âm thanh
Hệ thống thính giác của con người (Human Auditory System-HAS) có đặc điểm
như một bộ phân tích phổ. Nó chia dải phổ âm thanh nghe thấy thành các băng tần
gọi là các “ băng tới hạn”(critical bands) như một dãy các bộ lọc thông dải. Các
băng này có bề rộng dải thông là 100 Hz với các tần số dưới 500 Hz và tăng theo
tần số tín hiệu với các tần số lớn hơn 500 KHz. Bề rộng dải thông này tăng tới vài
KHz khi tần số tín hiệu lớn hơn 10 KHz.
2.1.2. Sự che lấp tín hiệu âm thanh
Hệ thống thính giác của con người còn có một đặc điểm vô cùng quan trọng, đã
là tính che lấp “ masking”. Khi nghe 2 âm thanh mạnh yếu khác nhau với tần số
khác nhau xảy ra cùng một lúc, âm mạnh hơn có thể che lấp khiến tai không thể
nghe được âm yếu hơn. Có hai dạng che lấp, đó là : che lấp thời gian và che lấp tần
số. Tiến hành thực nghiệm đối với hệ thống thình giác, người ta đã xây dựng được
đặc tuyến che lấp trong miền thời gian và trong miền tần số.


Che lấp tần số

Sự che lấp về mặt tần số là hiện tượng một âm thanh nghe thấy ở tần số này
bỗng trở nên không cảm nhận được do ngưỡng nghe thấy bị dâng lên vì sự có mặt
của một âm thanh ở tần số khác có cường độ mạnh hơn. Để tai người có thể nghe
thấy, bất cứ một âm thanh ở tần số đơn nào cũng phải có mức áp suất âm lớn hơn
một giá trị ngưỡng xác định.
Tập hợp tất cả các giá trị ngưỡng này đối với tất cả các âm đơn trong dải tần
nghe được tạo nên một đường cong gọi là “ngưỡng nghe thấy tuyệt đối” (absolute
hearing threshold), là đường đậm nét ở hình 2.1. Tất cả các âm thanh nằm dưới



9

đường cong này đều không có khả năng được con người cảm nhận.

Hình 2.1 : Ngưỡng nghe thấy tuyệt đối và ngưỡng che phủ tần số[9]


Sự che phủ thời gian

Sự che phủ thời gian là hiện tượng tai người chỉ cảm nhận được âm sau khi âm
đã bắt đầu khoảng 200 ms và có cảm tưởng âm thanh còn kéo dài khoảng 200ms
nữa sau khi âm thanh đã dứt. Ngoài ra, thính giác cũng không phân biệt được
khoảng ngừng nhỏ hơn 50 ms giữa hai âm thanh giống nhau đi liền nhau.

Hình 2.2: Mô tả về che lấp thời gian[9]


10

2.2. Các kỹ thuật mã hóa âm thanh
Sơ đồ của bộ mã hóa như hình 2.3, sự cảm nhận âm thanh của hệ thống thính
giác của con người phụ thuộc vào độ phân giải tần số. Tín hiệu vào sẽ được chia
thành các băng con (subband).
2.2.1. Kỹ thuật xử lý băng con ( Subband ) [7]
Do thuộc tính che tần số của hệ thống thính giác trong miền tần số, việc dùng
băng con (subband) hoặc biến đổi bộ lọc dãi (transform filter bank) là rất hiệu quả
trong phân tích cảm quan về sự cảm nhận âm thanh của con người.
Mã hóa và giải mã âm thanh trên khung như hình 2.3. Là Bộ mã hóa có một
khung dữ liệu âm thanh và có thể chia thành nhiều subbands không chồng chéo

bằng cách sử dụng các bộ lọc để kéo dài toàn bộ dải tần số âm thanh (ví dụ, từ 0 đến
22 kHz). Biến đổi Fourier rời rạc (hoặc biến đổi cosin rời rạc, DCT một số tần số )
để tính toán toàn bộ tần số của khung âm thanh, so sánh năng lượng mức tín hiệu
với các ngưỡng mặt nạ mỗi subband dựa trên cơ sở mã hóa cảm quan
(psychoacoustics). Lượng tử hóa được tính toán trên tỷ lệ tín hiệu so với mặt nạ (the
signal-to-mask ratios ) để quyết định số bít cho lượng tử hóa nhằm giảm thiểu nhiễu
lượng tử hóa.

Bộ lọc
32 band

FFT

Đặt hệ số
chia tỷ lệ
và lượng
tử hóa

Mô hình
Cảm quan

Tổng hợp
dòng bít

Mã hóa

Hình 2.3: Sơ đồ bộ mã hóa tín hiệu âm thanh trên 1 khung [7]


11


2.2.2. Kỹ thuật chia các băng con
Trong công nghệ nén audio, sử dụng một số loại bộ lọc băng con ví dụ PQMF
(Polyphase Quadrature Mirror Filter). Bộ lọc này có độ chồng phổ thấp và thường
được sử dụng cho các mẫu gần kề về mặt thời gian.
Trong tiêu chuẩn nén audio MPEG, một khung audio gồm 1152 mẫu được chia
thành 32 băng con, mỗi băng con chứa 36 mẫu.


Dãy chuyển đổi: áp dụng thuật toán DCT có biến đổi ( Modified

Discrete Cosine Transform- MDCT ) để chuyển đổi tín hiệu audio miền thời gian
thành một số lượng lớn các băng con ( từ 256 đến 1024 ) trong miền tần số.


Dãy bộ lọc cân bằng : ( Hybrid Filter Bank ).

Tín hiệu vào trước tiên được chia thành 32 băng con nhờ các bộ lọc PQMF.
Sau đó áp dụng phép biến đổi MDCT cho18 mẫu của băng con. Kết quả sẽ thu
được 576 băng rất hẹp (41,76 Hz tại tần số lấy mẫu 48 KHz). Việc kết hợp này có
độ phân giải thời gian khoảng 3,8 ms.
Dãy bộ lọc có độ phân giải thấp (nghĩa là băng tần rộng) sẽ cho số lượng băng
con nhỏ. Khi đó, trong mỗi băng con sẽ chứa hầu hết các thành phần âm của phổ tín
hiệu audio khiến tác dụng che lấp giảm và sẽ cần rất nhiều bít để mã hoá các thành
phần tín hiệu trong các băng con. Tuy nhiên, số lượng các băng con thấp sẽ giảm
được mức độ phức tạp mã hoá/giải mã mà vẫn giữ được độ phân giải tốt về thời
gian.
Nếu dãy bộ lọc có độ phân giải cao, sẽ cho số lượng lớn các băng tần con và các
thành phần âm đơn của phổ tín hiệu audio sẽ không rơi vào tất cả các băng con. Khi
đó, một số băng con không chứa thành phần âm sẽ không cần phải mã hoá. Bề rộng

băng tần hẹp cho khả năng mô phỏng tốt hơn các băng tới hạn của HAS.
2.2.3. Kỹ thuật phân phối bít
Sử dụng thuật toán biến đổi Fourier nhanh (Fast Fourier Transform-FFT) được
thực hiện để xác định nội dung tần số và năng lượng của tín hiệu vào. Từ ngưỡng
nghe được và đặc tính che phủ tần số của HAS, người ta tính toán được đường cong


12

che lấp như minh họa trên hình 2.4 sau đây:

Hình 2.4 : Đường cong che lấp và sự phân phối bít
Hình dạng và kích thước đường cong che lấp phụ thuộc nội dung tín hiệu. Trong
hình vẽ trên, có thể thấy sai số giữa đường bao phổ tín hiệu và đường cong che lấp
giảm xuống, điểm có giá trị max là 40 dB. Giá trị sai lệch max này quyết định số
lượng bít (thông thường lượng tử hoá cơ bản là 6 dB/bít) cần thiết để mã hoá tất cả
các thành phần phổ tần của tín hiệu audio. Quá trình phân phối bít cần đảm bảo tạp
âm lượng tử hoá thấp hơn ngưỡng nghe được.
Từ đường cong che lấp, ngưỡng che lấp của mỗi băng con được xác định. Chúng
quy định năng lượng tạp âm lượng tử cực đại có thể chấp nhận trong mỗi băng con,
tại đó tạp âm bắt đầu trở nên nghe thấy.
Sau khi ước lượng ngưỡng che lấp cho mỗi băng tần con, các tham số xếp loại
được sử dụng để biến đổi bước lượng tử của mỗi băng con, tức biến đổi cấu trúc tạp
âm lượng tử sao cho phù hợp nhất. Cuối cùng, mã hoá Huffman được sử dụng.
2.2.4. Lượng tử hóa
Quá trình lượng tử hoá các băng tần con trong phổ tín hiệu audio là một quá
trình không đồng bộ. Tức là mỗi băng con được lượng tử với một bước lượng tử
khác nhau phù hợp với mức năng lượng cũng như mức độ che lấp của băng tần.
Bước lượng tử được xác định nhờ bộ phân phối bít.



13

2.2.5. Ghép kênh dữ liệu
Các khối (hay còn gọi là các nhóm) 12 mẫu dữ liệu từ đầu ra bộ lượng tử hoá
được ghép kênh cùng với tham số xếp loại tương ứng của chúng và thông tin phân
phối bít để hình thành nên khung dữ liệu audio trong dòng bít mã hoá.
2.2.6. Công nghệ giảm tốc độ nguồn dữ liệu audio số
Công nghệ mã hoá nguồn được sử dụng để loại bỏ đi sự dư thừa trong tín hiệu
audio (khi giá trị vi sai mẫu - mẫu sấp sỉ gần giá trị 0), còn công nghệ che lấp dựa
trên mô hình tâm lý thính giác của con người có tác dụng loại bỏ các mẫu không có
giá trị cảm nhận (các mẫu không nghe thấy).
Có hai công nghệ nén cơ bản. Đó là:


Mã hoá dự báo miền thời gian: sử dụng mã hoá vi sai mã hoá các gía trị

chêch lệch giữa các mẫu liên tiếp nhau để loại bỏ sự dư thừa thông tin nhằm thu
được dòng bít tốc độ thấp.


Mã hoá chuyển đổi miền tần số: Công nghệ này sử dụng các khối mẫu

PCM tuyến tính biến đổi từ miền thời gian thành một số nhất định các băng tần
trong miền tần số.
Hiện tượng che lấp quan trọng nhất xảy ra trong miền tần số. Để lợi dụng đặc
điểm này, phổ tín hiệu audio được phân tích thành nhiều băng phụ có độ phân giải
thời gian và tần số phù hợp với bề rộng các băng tần tới hạn của HAS. Mỗi băng
phụ chứa một số thành phần âm rời rạc.



14

Chương 3: KỸ THUẬT MÃ HÓA ÂM THANH MP3 VÀ AAC
3.1. Kỹ thuật mã hóa âm thanh MP3 [8]
Sự phổ biến của internet đã tăng lên rất nhiều trong vài năm qua và nó đã trở
thành một phương tiện để chia sẻ tập tin. Ngày nay dịch vụ mạng băng rộng kết nối
với internet, thực tế vẫn còn số lượng lớn người nối vào mạng sử dụng đường dây
điện thoại. Modem điện thoại kết nối tối đa chỉ có 56 kbps. Nếu với tốc độ kết nối
như vậy, tập tin 10 MB có thể được tải về trong khoảng 25 phút. Tiết kiệm thời gian
và không gian lưu trữ có nghĩa là chi phí rẻ hơn. Thực tế này đã mở đường cho các
nhu cầu về cải tiến trong nén dữ liệu.
Định dạng MP3 được sử dụng để mã hóa dữ liệu âm thanh sử dụng nén tổn hao.
Chủ yếu dựa vào mô hình cảm quan. Loại bỏ một số Tần số âm thanh không được
nghe theo hệ thống thính giác của con người. Vì vậy, bằng cách loại bỏ những âm
thanh không có hiệu ứng với hệ thống thính giác mà kết quả vẫn không thể phân
biệt với bản gốc. Định dạng MP3 đã sử dụng mô hình nén cảm quan này và cho tỷ
lệ nén rất cao.
Audio CD sử dụng định dạng WAV. Các định dạng WAV là đầu vào được chấp
nhận để mã hóa MP3. Kích thước của một tập tin WAV phụ thuộc vào tỷ lệ lấy mẫu
của nó. Âm thanh nổi theo định dạng WAV là 16-bit với một tỷ lệ lấy mẫu 44,1
kHz thì sử dụng 176.400 byte mỗi giây (44.100 / giây * 2 byte * 2 kênh). Một phút
của một đĩa CD âm thanh chất lượng khoảng 10 MB. Những yêu cầu này rất lớn
trong lưu trữ dữ liệu. Chính vì lẽ đó mà kỹ thuật mã hóa âm thanh chuẩn MP3 là
một trong các tiêu chuẩn được đánh giá cao và được sử dụng rộng rãi nhất trong quá
trình nén âm thanh.
3.2. Lịch sử phát triển tiêu chuẩn MP3 [8]
Tháng 1 năm 1988, MPEG (Moving Pictures Expert Group) được thành lập. Và
được gọi là ISO / IEC JTC1/SC29/WG11 làm việc trên tiêu chuẩn hóa các thuật
toán nén video và âm thanh. MPEG-1 đã được tiêu chuẩn hóa trong tháng 11 năm

1992. Và trong năm 1994, những kỹ thuật mã hóa dựa trên sự cảm nhận âm thanh


15

theo mô hình cảm quan đã được đưa ra bởi Fraunhaufer-IIS hợp tác với trường Đại
học Erlangen (Giáo sư Dieter Seitzer). Kỹ thuật mã hóa âm thanh chuẩn MP3 của
họ đã thành công vang dội, MP3 viết tắt của MPEG-1 Audio Layer III, và MPEG-3
là một quan niệm phổ biến.
3.3. Thuật toán mã hóa MP3 [8]
Thuật toán nén MPEG gồm các bước sau:


Đầu tiên tín hiệu âm thanh được chia thành các thành phần nhỏ hơn gọi

là khung. Các tín hiệu từ miền thời gian được ánh xạ sang miền tần số. Bộ lọc QMF
phân chia tín hiệu thành những băng con (subbands).


Bước thứ hai biến đổi FFT 1024 điểm trên một mẫu và áp dụng mô

hình cảm quan (psychoacoustic).


Bước thứ ba định lượng và mã hóa mỗi mẫu của băng con (subband)

bằng cách tính toán hệ số cần thiết đại diện cho tỷ lệ (SNR). Xem xét đầu ra các
mẫu từ bộ lọc và các tỷ số SMRs từ mô hình cảm quan (psychoacoustic) để điều
chỉnh việc phân bổ tỷ lệ bit theo yêu cầu mặt nạ.



Bước cuối cùng định dạng dòng bít (bitstream). lượng tử hóa kết quả

đầu ra giàn lọc, phân bổ nhiễu và các thông tin yêu cầu được thu thập sau đó mã
hóa và định dạng.
Thông số kỹ thuật khác cho các thuật toán như sau:


Tỷ lệ bit từ 8 kbps đến 320 kbps. Tỷ lệ bit đề cập đến số lượng dữ liệu

(bit) được lưu trữ cho tất cả âm thanh sau. Tỷ lệ bit tiêu chuẩn là 128 kbps.


Tỷ lệ lấy mẫu là 32 kHz, kHz 44.1, 48 kHz. Tỷ lệ lấy mẫu liên quan

đến tần số mà tín hiệu được lưu trữ. Tỷ lệ lấy mẫu mặc định tiêu chuẩn là 44,1 kHz.


Dòng bit được mã hóa với một tốc độ bit không đổi (CBR) hoặc với

một biến thay đổi (VBR)


Chế độ hỗ trợ sẽ là mono, dual channel, stereo and joint stereo.


16

Hình: 3.1: Sơ đồ chi tiết bộ mã hóa
3.3.1. Giàn lọc thời gian – tần số

3.3.1.1. Lọc thông cao
Tiêu chuẩn MP3 sử dụng một bộ lọc thông cao. Cho phép tần số trên tần số cắt
đi qua và không cho phép những tần số thấp hơn đi qua. Để làm làm suy giảm các
tần số thấp hơn tần số cắt. Các tần số cắt phải ở trong phạm vi của 2 Hz đến 10 Hz.
Việc áp dụng loại bộ lọc này tránh được yêu cầu tốc độ bit cao không cần thiết
cho các băng con thấp làm tăng chất lượng âm thanh tổng thể.
3.3.1.2. Bộ lọc phân tích băng con
Bộ lọc phân tích các băng con là một bộ lọc đa pha. Được thiết kế từ các bộ lọc
dãi bao gồm toàn bộ dải tần số âm thanh. Được sử dụng để phân chia các tín hiệu
PCM đầu vào với tần số lấy mẫu fs thành các băng con (subbands). Kết quả sẽ có
32 subbands bằng nhau với tần số lấy mẫu fs/32. Bộ lọc đa phase với biến đổi
MDCT đầu ra được gọi là giàn lọc.
3.3.1.3. Bộ lọc đa phase
Các bộ lọc đa pha được sử dụng trong MP3 có tên là Masking Pattern Adapted
Universal Subband Integrated Coding and Multiplexing (MUSICAM). Nguyên mẫu
từ biến đổi cosin của bộ lọc thông thấp với bộ lọc thông dãi song song M kênh.
Được gọi là QMF (Quadrature Mirror Filter) bộ lọc gương tứ cầu. Với M chạy từ 0
đến 31. Ưu điểm của bộ lọc là:


17



Thiết kế đơn giản từ bộ lọc một bộ lọc FIR có đáp ứng xung hữu hạn



Các kênh đều có phase tuyến tính


3.3.1.4.Thực hiện thuật toán
Phân tích subband được thực hiện trong các thuật toán nén MP3 gồm các bước
sau đây:
 Đầu vào 32 mẫu âm thanh Wi với i = 0 đến 31.
 Xây dựng một vector đầu vào X gồm 512 phần tử
Xi = Xi-32 ; for i = 511 down to 32

(3.1)

32 mẫu âm thanh tại các vị trí từ 0 đến 31, gần nhất tại vị trí 0, và 32 phần tử cũ
nhất được chuyển ra.
Xi = W31-i ; for i = 31 down to 0

(3.2)

 Lập cữa sổ vector X vector C. Các hệ số Ci là như trong Bảng 3.1,3.2, 3.3,
3.4, 3.5, 3.6, 3.7 và 3.8 và tính:
Zi = Ci * Xi ; for i = 0 to 511

(3.3)

 Tính 64 giá trị của Yi bởi công thức sau:
7

Yi = ∑ z i + 64 j for i = 0 : 63
j =0

(3.4)

Tính 32 mẫu subband ma trận Si

63

S i = ∑ M i ,k + Yk
k =0

for i = 0 : 31

(3.5)

Các hệ số ma trận M có thể được tính theo công thức sau đây:
 (2i + 1)(k − 16)π 
M i , k = cos 

64


for i = 0:31, k=0:63

Hình 3.2: Thực hiên chia 32 băng con của 1file âm thanh *.WAV

(3.6)


18

Bảng 3.1: Hệ số Ci
i
0
4
8

12
16
20
24
28
32
36
40
44
48
52
56
60
64
68
72
76
80
84
88
92
96
100

Giá trị
0.000000000
-0.000000477
-0.000000954
-0.000001431
-0.000002384

-0.000003815
-0.000006199
-0.000009060
-0.000013828
-0.000019550
-0.000027657
-0.000037670
-0.000049591
-0.000062943
-0.000076771
-0.000090599
0.000101566
0.000108242
0.000106812
0.000095367
0.000069618
0.000027180
-0.000034332
-0.000116348
-0.000218868
-0.000339031

i
1
5
9
13
17
21
25

29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
101

Giá trị
-0.000000477
-0.000000477
-0.000000954
-0.000001907
-0.000002861
-0.000004292
-0.000006676
-0.000010014
-0.000014782

-0.000021458
-0.000030041
-0.000040531
-0.000052929
-0.000066280
-0.000080585
-0.000093460
0.000103951
0.000108719
0.000105381
0.000090122
0.000060558
0.000013828
-0.000052929
-0.000140190
-0.000247478
-0.000371456

i
2
6
10
14
18
22
26
30
34
38
42

46
50
54
58
62
66
70
74
78
82
86
90
94
98
102

Giá trị
i
-0.000000477 3
-0.000000477 7
-0.000000954 11
-0.000001907 15
-0.000003338 19
-0.000004768 23
-0.000007629 27
-0.000011444 31
-0.000016689 35
-0.000023365 39
-0.000032425 43
-0.000043392 47

-0.000055790 51
-0.000070095 55
-0.000083923 59
-0.000096321 63
0.000105858 67
0.000108719 71
0.000102520 75
0.000084400 79
0.000050545 83
-0.000000954 87
-0.000072956 91
-0.000165462 95
-0.000277042 99
-0.000404358 103

Giá trị
-0.000000477
-0.000000954
-0.000001431
-0.000002384
-0.000003338
-0.000005245
-0.000008106
-0.000012398
-0.000018120
-0.000025272
-0.000034809
-0.000046253
-0.000059605
-0.000073433

-0.000087261
-0.000099182
0.000107288
0.000108242
0.000099182
0.000077724
0.000039577
-0.000017166
-0.000093937
-0.000191212
-0.000307560
-0.000438213

Bảng 3.2: Hệ số Ci
i
104
108
112
116
120
124
128
132

Giá trị
-0.000472546
-0.000611782
-0.000747204
-0.000866413
-0.000954151

-0.000994205
0.000971317
0.000868797

i
105
109
113
117
121
125
129
133

Giá trị
-0.000507355
-0.000646591
-0.000779152
-0.000891685
-0.000968933
-0.000995159
0.000953674
0.000829220

i
106
110
114
118
122

126
130
134

Giá trị
-0.000542164
-0.000680923
-0.000809669
-0.000915051
-0.000980854
-0.000991821
0.000930786
0.000783920

i
107
111
115
119
123
127
131
135

Giá trị
-0.000576973
-0.000714302
-0.000838757
-0.000935555
-0.000989437

-0.000983715
0.000902653
0.000731945


19

Bảng 3.3: Hệ số Ci
i
136
140
144
148
152
156
160
164
168
172
176
180
184
188
192
196
200

Giá trị
0.000674248
0.000378609

-0.000021458
-0.000522137
-0.001111031
-0.001766682
-0.002457142
-0.003141880
-0.003771782
-0.004290581
-0.004638195
-0.004752159
-0.004573822
-0.004049301
0.003134727
0.001800537
0.000033379

i
137
141
145
149
153
157
161
165
169
173
177
181
185

189
193
197
201

Giá trị
0.000610352
0.000288486
-0.000137329
-0.000661850
-0.001269817
-0.001937389
-0.002630711
-0.003306866
-0.003914356
-0.004395962
-0.004691124
-0.004737377
-0.004477024
-0.003858566
0.002841473
0.001399517
-0.000475883

i
138
142
146
150
154

158
162
166
170
174
178
182
186
190
194
198
202

Giá trị
0.000539303
0.000191689
-0.000259876
-0.000806808
-0.001432419
-0.002110004
-0.002803326
-0.003467083
-0.004048824
-0.004489899
-0.004728317
-0.004703045
-0.004357815
-0.003643036
0.002521515
0.000971317

-0.001011848

i
139
143
147
151
155
159
163
167
171
175
179
183
187
191
195
199
203

Giá trị
0.000462532
0.000088215
-0.000388145
-0.000956535
-0.001597881
-0.002283096
-0.002974033
-0.003622532

-0.004174709
-0.004570484
-0.004748821
-0.004649162
-0.004215240
-0.003401756
0.002174854
0.000515938
-0.001573563

i
207
211
215
219
223
227
231
235
239
243
247
251
255
259
263
267
271
275
279

283

Giá trị
-0.004072189
-0.006937027
-0.010103703
-0.013489246
-0.016994476
-0.020506859
-0.023907185
-0.027073860
-0.029890060
-0.032248020
-0.034055710
-0.035242081
-0.035758972
0.035586357
0.034730434
0.033225536
0.031132698
0.028532982
0.025527000
0.022228718

Bảng 3.4: Hệ số Ci
i
204
208
212
216

220
224
228
232
236
240
244
248
252
256
260
264
268
272
276
280

Giá trị
-0.002161503
-0.004756451
-0.007703304
-0.010933399
-0.014358521
-0.017876148
-0.021372318
-0.024725437
-0.027815342
-0.030526638
-0.032754898
-0.034412861

-0.035435200
0.035780907
0.035435200
0.034412861
0.032754898
0.030526638
0.027815342
0.024725437

i
205
209
213
217
221
225
229
233
237
241
245
249
253
257
261
265
269
273
277
281


Giá trị
-0.002774239
-0.005462170
-0.008487225
-0.011775017
-0.015233517
-0.018756866
-0.022228718
-0.025527000
-0.028532982
-0.031132698
-0.033225536
-0.034730434
-0.035586357
0.035758972
0.035242081
0.034055710
0.032248020
0.029890060
0.027073860
0.023907185

i
206
210
214
218
222
226

230
234
238
242
246
250
254
258
262
266
270
274
278
282

Giá trị
-0.003411293
-0.006189346
-0.009287834
-0.012627602
-0.016112804
-0.019634247
-0.023074150
-0.026310921
-0.029224873
-0.031706810
-0.033659935
-0.035007000
-0.035694122
0.035694122

0.035007000
0.033659935
0.031706810
0.029224873
0.026310921
0.023074150


20

Bảng 3.5: Hệ số Ci
i
284
288
292
296
300

Giá trị
0.021372318
0.017876148
0.014358521
0.010933399
0.007703304

i
285
289
293
297

301

Giá trị
0.020506859
0.016994476
0.013489246
0.010103703
0.006937027

i
286
290
294
298
302

Giá trị
0.019634247
0.016112804
0.012627602
0.009287834
0.006189346

i
287
291
295
299
303


Giá trị
0.018756866
0.015233517
0.011775017
0.008487225
0.005462170

i
307
311
315
319
323
327
331
335
339
343
347
351
355
359
363
367
371
375
379
383
387
391

395
399
403

Giá trị
0.002774239
0.000475883
-0.001399517
-0.002841473
0.003858566
0.004477024
0.004737377
0.004691124
0.004395962
0.003914356
0.003306866
0.002630711
0.001937389
0.001269817
0.000661850
0.000137329
-0.000288486
-0.000610352
-0.000829220
-0.000953674
0.000995159
0.000968933
0.000891685
0.000779152
0.000646591


Bảng 3.6: Hệ số Ci
i
304
308
312
316
320
324
328
332
336
340
344
348
352
356
360
364
368
372
376
380
384
388
392
396
400

Giá trị

0.004756451
0.002161503
-0.000033379
-0.001800537
0.003134727
0.004049301
0.004573822
0.004752159
0.004638195
0.004290581
0.003771782
0.003141880
0.002457142
0.001766682
0.001111031
0.000522137
0.000021458
-0.000378609
-0.000674248
-0.000868797
0.000971317
0.000994205
0.000954151
0.000866413
0.000747204

i
305
309
313

317
321
325
329
333
337
341
345
349
353
357
361
365
369
373
377
381
385
389
393
397
401

Giá trị
0.004072189
0.001573563
-0.000515938
-0.002174854
0.003401756
0.004215240

0.004649162
0.004748821
0.004570484
0.004174709
0.003622532
0.002974033
0.002283096
0.001597881
0.000956535
0.000388145
-0.000088215
-0.000462532
-0.000731945
-0.000902653
0.000983715
0.000989437
0.000935555
0.000838757
0.000714302

i
306
310
314
318
322
326
330
334
338

342
346
350
354
358
362
366
370
374
378
382
386
390
394
398
402

Giá trị
0.003411293
0.001011848
-0.000971317
-0.002521515
0.003643036
0.004357815
0.004703045
0.004728317
0.004489899
0.004048824
0.003467083
0.002803326

0.002110004
0.001432419
0.000806808
0.000259876
-0.000191689
-0.000539303
-0.000783920
-0.000930786
0.000991821
0.000980854
0.000915051
0.000809669
0.000680923

Bảng 3.7: Hệ số Ci
i
404
408
412

Value
i Value
i
0.000611782 405 0.000576973 406
0.000472546 409 0.000438213 410
0.000339031 413 0.000307560 414

Value
i Value
0.000542164 407 0.000507355

0.000404358 411 0.000371456
0.000277042 415 0.000247478


21

Bảng 3.8: Hệ số Ci
416
420
424
428
432
436
440
444
448
452
456
460
464
468
472
476
480
484
488
492
496
500
504

508

0.000218868
0.000116348
0.000034332
-0.000027180
-0.000069618
-0.000095367
-0.000106812
-0.000108242
0.000101566
0.000090599
0.000076771
0.000062943
0.000049591
0.000037670
0.000027657
0.000019550
0.000013828
0.000009060
0.000006199
0.000003815
0.000002384
0.000001431
0.000000954
0.000000477

417
421
425

429
433
437
441
445
449
453
457
461
465
469
473
477
481
485
489
493
497
501
505
509

0.000191212
0.000093937
0.000017166
-0.000039577
-0.000077724
-0.000099182
-0.000108242
-0.000107288

0.000099182
0.000087261
0.000073433
0.000059605
0.000046253
0.000034809
0.000025272
0.000018120
0.000012398
0.000008106
0.000005245
0.000003338
0.000002384
0.000001431
0.000000954
0.000000477

418
422
426
430
434
438
442
446
450
454
458
462
466

470
474
478
482
486
490
494
498
502
506
510

0.000165462
0.000072956
0.000000954
-0.000050545
-0.000084400
-0.000102520
-0.000108719
-0.000105858
0.000096321
0.000083923
0.000070095
0.000055790
0.000043392
0.000032425
0.000023365
0.000016689
0.000011444
0.000007629

0.000004768
0.000003338
0.000001907
0.000000954
0.000000477
0.000000477

419
423
427
431
435
439
443
447
451
455
459
463
467
471
475
479
483
487
491
495
499
503
507

511

0.000140190
0.000052929
-0.000013828
-0.000060558
-0.000090122
-0.000105381
-0.000108719
-0.000103951
0.000093460
0.000080585
0.000066280
0.000052929
0.000040531
0.000030041
0.000021458
0.000014782
0.000010014
0.000006676
0.000004292
0.000002861
0.000001907
0.000000954
0.000000477
0.000000477

3.3.2.Mô hình cảm quan
3.3.2.1. Ngưỡng nghe tuyệt đối
Ngưỡng nghe tuyệt đối là đại lượng biểu thị về mức năng lượng âm thanh cần

thiết có thể nghe được trong môi trường yên lặng. Giá trị ngưỡng được biểu hiên là
dB SPL (Sound Pressure Level) và được đặc trưng bởi hàm tuyến tính sau:
 f
Tq ( f ) = 3,64
 100






−0 ,8

− 6,5e

−0, 6 (

f
−3, 3) 2
1000

4

 f 
+ 10 
 dB
 1000 
3

(3.7)


3.3.2.2. Băng tới hạn ( band tới hạn)
Hóc tai của con người được xem như bộ lọc thông dãy với độ rộng băng thông
không đồng đều. Băng thông tăng theo tần số, được xem như là một hàm của tần số


22

thể hiện phẩm chất lọc được thể hiện với đơn vị là Bard và được dùng theo công

thức sau:

 f  2 
  Bard
Z(f) =13 arctan(.00076f) +3,5 arctan 
 7500  

(3.8)

Các loại băng tới hạn như trong bảng 3.9
Bảng 3.9: Các loại băng tới hạn
Số band
1
2
3
4
5
6
7
8

9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Tần số trung tâm (Hz) Độ rộng band(Hz)
50
-100
150
100-200
250
200-300
350
300-400
450
400-510
570

510-630
700
630-770
840
770-920
1000
920-1080
1175
1080-1270
1370
1270-1480
1600
1480-1720
1850
1720-2000
2150
2000-2320
2500
2320-2700
2900
2700-3150
3400
3150-3700
4000
3700-4400
4800
4400-5300
5800
5300-6400
7000

6400-7700
8500
7700-9500
10500
9500-12000
13500
12000-15500
19500
15500-

3.3.2.3. Thực hiện thuật toán
Việc phân bổ bit trong số 32 subbands là tính toán trên cơ sở của SMRs cho
tất cả các băng con. Đối với mỗi băng con để biết mức độ tín hiệu tối đa và
ngưỡng mặt nạ tối thiểu. Ngưỡng mặt nạ tối thiểu do biến đổi FFT của tín hiệu
PCM đầu vào, và tính toán mô hình cảm quan


23

Biến đổi FFT song song với bộ lọc băng con là để bù lại cho việc thiếu phổ
chọn lọc thu được ở tần số thấp của giàn lọc. Kỹ thuật này cung cấp cả hai độ
phân giải thời gian cho tín hiệu âm thanh được mã hóa và độ phân giải phổ để
tính ngưỡng mặt nạ.
Mức độ biến dạng răng cưa các tần số được tính toán để có một tỷ lệ bit tối
thiểu cho những băng con nhằm loại bỏ các thành phần răng cưa trong bộ giải
mã. Việc tính toán của SMR được dựa trên các bước sau đây.
 Tính thời gian FFT để chuyển đổi tần số.
 Xác định mức áp lực âm thanh trong mỗi băng con
 Xác định ngưỡng yên lặng (ngưỡng tuyệt đối).
 Tìm kiếm âm và không âm (nhiễu) các thành phần của tín hiệu âm thanh.

 Giảm mặt nạ, để có được mặt nạ liên quan
 Tính toán các ngưỡng mặt nạ cần
 Xác định ngưỡng mặt nạ toàn phần
 Xác định ngưỡng che tối thiểu trong mỗi băng con.
 Tính toán SMR trong mỗi băng con
3.3.2.4. Biến đổi FFT
Mẫu âm thanh đến, s (n), được chuẩn hóa [8] theo chiều dài FFT là N, và số bit
cho mỗi mẫu là b, sử dụng theo phương trình:
x ( n) =

s ( n)
N 2 b −1

(

)

(3.9)

Ngưỡng mặt nạ ước tính từ của mật độ phổ công suất, P (k) được tính bằng FFT
1024-điểm
N −1

P (k ) = PN + 10 log ∑ h( n ) x( n ) e

−j

2πkn 2
N


dB với 0 ≤ k ≤ N/2

(3.10)

n =0

h (n) là một cửa sổ Hann tính từ
2πn 

h(n) = 0,51 − cos
 với 0 ≤ n ≤ N-1
N −1


Và PN năng lượng tham chiếu ở mức 96 dB SPL.

(3.11)


24

Trong thời gian phân bổ bit cho các mẫu băng con tương ứng, các mẫu PCM vào
để phân tích FFT có thể bị trể:


Việc chậm trễ là từ các bộ lọc phân tích băng con 256 mẫu, tương ứng

5,8 ms ở tần số lấy mẫu 44,1 kHz. Điều này tương ứng với một sự thay đổi cửa sổ là
256 mẫu.



Các cửa sổ Hann phải trùng khớp với các mẫu băng con của khung.



Kích thước cửa sổ tùy thuộc vào tần số lấy mẫu fs được liệt kê trong

Bảng 3.10
Bảng 3.10: Thông số kỹ thuật của FFT
Transform length
Window size if f s = 48
Window size if f s =
Window size if f s = 32
Frequency resolution

1024
21.3
23.2
32
f

3.3.2.5. Xác định SPL
L SB mức áp lực âm thanh trong băng con thứ n được tính bằng:
LSB (n) = max[P (k),20 log (SC Fmax (n) * 32768) — 10] (dB)

(3.12)

P (k) là mức áp suất dòng âm thanh với k là chỉ số của biến đổi FFT với biên độ
tối đa trong phạm vi tần số tương ứng với băng con n. SC Fmax (n) biểu thị tối đa
ba hệ số chia tỷ lệ băng con thứ n trong khung. Mức -10 db là hiệu trung bình bình

phương của đỉnh.
3.3.2.6. Ngưỡng yên lặng
Các ngưỡng yên lặng T q (k), hoặc ngưỡng nghe tuyệt đối được tính theo phương
trình: 3.13 và tính theo bảng 3.11, 3.12, 3.113, 3.14 và 3.15.
 f
Tq ( f ) = 3, 64 
 100







−0 , 8

− 6,5e

−0 , 6 (

f
−3 , 3 ) 2
1000

 f 

+ 10 
 1000 
3


4

dB

(3.13)


25

Bảng 3.11: Phân chia tần số, băng tần tới hạn, ngưỡng
Chỉ số (i)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

20
21
22
23
24
25
26
27
28
29
30

Tần số

Critical Band Rate

(Hz)

(z)

43.07
86.13
129.20
172.27
215.33
258.40
301.46
344.53
387.60
430.66

473.73
516.80
559.86
602.93
646.00
689.06
732.13
775.20
818.26
861.33
904.39
947.46
990.53
1033.59
1076.66
1119.73
1162.79
1205.86
1248.93
1291.99

.425
.850
1.273
1.694
2.112
2.525
2.934
3.337
3.733

4.124
4.507
4.882
5.249
5.608
5.959
6.301
6.634
6.959
7.274
7.581
7.879
8.169
8.450
8.723
8.987
9.244
9.493
9.734
9.968
10.195

Ngưỡng (dB)
45.05
25.87
18.70
14.85
12.41
10.72
9.47

8.50
7.73
7.10
6.56
6.11
5.72
5.37
5.07
4.79
4.55
4.32
4.11
3.92
3.74
3.57
3.40
3.25
3.10
2.95
2.81
2.67
2.53
2.39


×