Tải bản đầy đủ (.pdf) (88 trang)

Thiết kế và thực hiện chương trình đọc file âm thanh định dạng MP3

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.21 MB, 88 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------TRẦN THỊ BÍCH HẰNG

Trần Thị Bích Hằng

ĐIỆN TỬ VIỄN THÔNG

THIẾT KẾ VÀ THỰC HIỆN CHƯƠNG TRÌNH ĐỌC
FILE ÂM THANH ĐỊNH DẠNG MP3

LUẬN VĂN THẠC SĨ KHOA HỌC
ĐIỆN TỬ VIỄN THÔNG

KHOÁ 2008 - 2010
Hà Nội – Năm 2011


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

Họ và tên tác giả luận văn
Trần Thị Bích Hằng

TÊN ĐỀ TÀI LUẬN VĂN

THIẾT KẾ VÀ THỰC HIỆN CHƯƠNG TRÌNH ĐỌC FILE ÂM
THANH ĐỊNH DẠNG MP3

Chuyên ngành: Điện tử viễn thông



LUẬN VĂN THẠC SĨ KHOA HỌC
ĐIỆN TỬ VIỄN THÔNG

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS. Nguyễn Vũ Thắng

Hà Nội – Năm 2011


Luận văn thạc sỉ

Trần Thị Bích Hằng

MỤC LỤC
MỤC LỤC .........................................................................................................1
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ....................................3
DANH MỤC CÁC BẢNG ................................................................................4
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ...........................................................5
MỞ ĐẦU ...........................................................................................................6
CHƯƠNG I:
I.

ĐỊNH DẠNG NÉN ÂM THANH SỐ MP3 ..........................7

KHÁI QUÁT ..............................................................................................7

I.1.


Khái niệm về MP3...................................................................................7

I.2.

Lịch sử ra đời MP3..................................................................................8

II.

ĐẶC ĐIỂM MP3 ....................................................................................9

II.1. Chuẩn nén âm thanh số lớp 3 ..................................................................9
II.2. Chế độ hoạt động...................................................................................10
II.3. Mã hóa âm thanh dựa trên mô hình cảm nhận âm học của con người 11
II.4. Tốc độ bit và tần số lấy mẫu .................................................................16
III.

CẤU TRÚC TẬP TIN MP3..................................................................18

III.1.

Cấu trúc tập tin...................................................................................18

III.2.

Cấu trúc khung...................................................................................19

III.3.

Thẻ dữ liệu ID3..................................................................................36


CHƯƠNG II:
I.

MÃ HÓA VÀ GIẢI MÃ MP3 .............................................38

MÃ HÓA MP3 ( MP3 ENCODING) .......................................................38

I.1.

Khái quát ...............................................................................................38

I.2.

Quá trình mã hóa MP3 ..........................................................................39

II.

GIẢI MÃ MP3 (MP3 DECODING).....................................................46

II.1. Khái quát ...............................................................................................46
II.2. Quá trình giải mã MP3 ..........................................................................46

1


Luận văn thạc sỉ

Trần Thị Bích Hằng

CHƯƠNG III:


TRIỂN KHAI THIẾT KẾ PHẦN MỀM GIẢI MÃ MP3....56

I.

TRÌNH TỰ GIẢI MÃ MP3......................................................................56

II.

SƠ ĐỒ KHỐI BỘ GIẢI MÃ MP3........................................................59

III.

TRIỂN KHAI ........................................................................................60

III.1.

Quá trình giải mã huffman.................................................................60

III.2.

Cấu trúc dữ liệu..................................................................................66

III.3.

Lưu đồ thuật toán ...............................................................................69

IV.

KẾT QUẢ VÀ ĐÁNH GIÁ ..................................................................74


IV.1.

Dự kiến đầu vào và đầu ra của quá trình giải mã Huffman...............74

IV.2.

Giao diện phần mềm ..........................................................................76

IV.3.

Kết quả và đánh giá ...........................................................................79

TÀI LIỆU THAM KHẢO ...............................................................................85
KẾT LUẬN VÀ KIẾN NGHỊ .........................................................................86

2


Luận văn thạc sỉ

Trần Thị Bích Hằng

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
AC 3 – Advanced Codec 3
CCITT – Consulative Committee for International Telephone and Telegraph
CD – Compact Disc
CRC – Cylic Redundancy Code
DVD – Digital Versatile Disc
FFT – Fast Fourier Transform

GSM – Global System for Mobile communications
IEC – International Electrotechnical Commission
IMDCT – Inverse Modified Discrete Cosine Transform
ISO – International Organization for Standardization
ITU – International Telecommunications Union
KHz – KiloHertz
kbps – Kilo Bits Per Second
MDCT – Modified Discrete Cosine Transform
MPEG – Motion Picture Experts Group
MP3 – MPEG 1 Layer III
MS – Mid Side stereo
PCM – Pulse Code Modulation
SMR – Signal to Masking Ratio
WMA – Windows Media Audio

3


Luận văn thạc sỉ

Trần Thị Bích Hằng

DANH MỤC CÁC BẢNG
Bảng 1: Độ phức tạp của bộ mã hóa và giải mã đối với các lớp của âm thanh
MPEG………………. .............................................................................................. 10
Bảng 2:

Bảng các băng tới hạn ............................................................................ 13

Bảng 3:


Các trường trong phần tiêu đề ................................................................ 22

Bảng 4:

Bảng cấu trúc các bit trong phần thông tin ............................................ 28

Bảng 5:

21 dải hệ số tỷ lệ chia thành 4 nhóm ...................................................... 29

Bảng 6:

Phân vùng của phổ tần số....................................................................... 29

Bảng 7:

Phân bố bit thông tin hệ số tỷ lệ ............................................................. 30

Bảng 8:

Phân chia giữa các tần số thấp và cao .................................................... 30

Bảng 9:

Loại cửa sổ ............................................................................................. 31

Bảng 10:

Bảng Preemphasis ................................................................................. 32


Bảng 11:

Kích thước hệ số tỷ lệ scalefactor của bước lượng tử ........................... 32

Bảng 12:

Bảng mã Hufman cho vùng Count1 ...................................................... 33

Bảng 13:

Cấu trúc dữ liệu thẻ ID3 ........................................................................ 36

Bảng 14:

Giá trị bit của thẻ dữ liệu ID3................................................................ 36

Bảng 15:

Dự kiến đầu ra của khối đồng bộ........................................................... 75

Bảng 16:

Giá trị các trường thông tin trong phần tiêu đề ..................................... 81

Bảng 17:

Giá trị các trường trong phần thông tin................................................. 83

4



Luận văn thạc sỉ

Trần Thị Bích Hằng

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1:

Đường cong che (mặt nạ) âm thanh ....................................................... 14

Hình 2:

Mô hình ngưỡng nghe của tai người ...................................................... 15

Hình 3:

Tín hiệu âm thanh được mã hóa ở tốc độ bitrate khác nhau .................. 16

Hình 4:

Các thành phần cơ bản tập tin MP3 ....................................................... 18

Hình 5:

Sơ đồ tổng quan cấu trúc các phần trong tập tin MP3 ........................... 19

Hình 6:

Cấu trúc khung theo các line tần số ở chế độ hai kênh .......................... 20


Hình 7:

Cấu trúc khung ....................................................................................... 20

Hình 8:

Cấu trúc phần thông tin .......................................................................... 27

Hình 9:

Kỹ thuật dự trữ bit được sử dụng trong việc lưu trữ dữ liệu chính ........ 34

Hình 10:

Ngưỡng che âm thanh ............................................................................ 38

Hình 11:

Sơ đồ khối quá trình mã hóa MP3.......................................................... 39

Hình 12:

Sơ đồ khối quá trình giải mã MP3 ......................................................... 46

Hình 13:

Từ mã đồng bộ của tập tin MP3 ............................................................. 47

Hình 14:


Phân vùng dữ liệu cho mỗi kênh của MP3............................................. 48

Hình 15:

Cửa sổ ngắn và cửa sổ dài ...................................................................... 50

Hình 16:

Quá trình sắp xếp lại............................................................................... 50

Hình 17:

Cấu trúc hình bướm giảm hiệu ứng Alias .............................................. 53

Hình 18:

Lược đồ thiết kế IMDCT........................................................................ 54

Hình 19:

Khối lọc đa pha tổng hợp ....................................................................... 55

Hình 20:

Sơ đồ khối trình tự giải mã..................................................................... 56

Hình 21:

Lược đồ trình tự giải mã MP3................................................................ 58


Hình 22:

Ngõ ra của bộ giải mã Huffman ............................................................. 60

Hình 23:

Phân vùng dữ liệu tập tin MP3 cho một kênh ........................................ 65

Hình 24:

Lược đồ giải mã Huffman ...................................................................... 69

Hình 25:

Lưu đồ thuật toán khối đồng bộ ............................................................. 71

Hình 26:

Lưu đồ thuật toán của khối giải mã huffman ......................................... 73
5


Luận văn thạc sỉ

Trần Thị Bích Hằng

MỞ ĐẦU
Tập tin MP3 có dung lượng nhỏ, chất lượng tốt, được sử dụng rất rộng rãi trên
nhiều lĩnh vực, đặc biệt trên lĩnh vực nghe nhạc. Nó có mặt trên các phương tiện

truyền thông hiện đại: Internet, viễn thông, phát thanh, truyền hình. MP3 thâm nhập,
đi sâu vào đời sống của con người, nó thể hiện bằng các phần cứng và phần mềm
nghe định dạng MP3 phổ biến toàn cầu trên các phương tiện kỹ thuật số cá nhân và
cho nhiều ứng dụng khác trong thực tế hiện nay.
Đề tài đi sâu nghiên cứu tìm hiểu chuẩn nén âm thanh số MP3, các tham số kỹ
thuật, các thuật toán giải mã MP3, các vấn đề cốt lõi, để nắm bắt và làm chủ định
dạng MP3. Qua các nghiên cứu và hiểu chuẩn MP3, giúp ta hiểu đầy đủ về đặc điểm
và khả năng ứng dụng của MP3 để đưa ra định hướng đúng đắn khi sử dụng MP3
cho các mục đích khác nhau.
Đề tài triển khai xây dựng một đoạn chương trình giải mã định dạng MP3.
Chương trình này có thể cài đặt trên các máy tính cá nhân, sử dụng nghe nhạc MP3.
Hiện nay các phương tiện số cá nhân, hầu hết sử dụng các chương trình nghe MP3
của nước ngoài, ta không làm chủ được phần code chương trình của nó. Chương
trình giải mã MP3 này không thể như các chương trình phần mềm chuyên nghiệp,
nhưng ta làm chủ được phần code, đó là tiền đề để xây dựng và phát triển lên mức
cao hơn.
Trong quá trình thực hiện và triển khai đề tài, em đã nỗ lực, cố gắng hết sức và
nhận được sự giúp đỡ từ nhiều phía thấy cô và bạn bè. Em xin gửi lời cảm ơn tới
thầy giáo TS. Nguyễn Vũ Thắng, người đã tận tâm, đồng hành cùng em trong suốt
quá trình làm cho đến khi hoàn thành đề tài. Cuối cùng em xin cám ơn tất cả các thầy
cô đã hướng dẫn, dạy em trong hai năm qua, đó chính là nền tảng kiến thức quan
trọng hỗ trợ em thực hiện đề tài này. Do thời gian có hạn, kiến thức còn hạn chế, đề
tài không tránh khỏi những thiếu sót, rất mong sự đóng góp của các thầy cô giáo.

6


Luận văn thạc sỉ

Trần Thị Bích Hằng


CHƯƠNG I: ĐỊNH DẠNG NÉN ÂM THANH SỐ MP3
Chương này đề tài đi vào nghiên cứu chuẩn nén âm thanh số MP3, lịch sử hình
thành và phát triển MP3, những đặc tính cơ bản và cấu trúc tập tin MP3. Cung cấp
các kiến thức về MP3 làm tiền đề cho nghiên cứu các chương tiếp theo.

I. KHÁI QUÁT
I.1. Khái niệm về MP3
Định nghĩa
MP3 là một chuẩn nén âm thanh số. Âm thanh số ở định dạng MP3, là âm thanh
nén, có dung lượng tập tin nhỏ hơn nhiều lần so với âm thanh không nén nhưng chất
lượng âm thanh rất ít hoặc không suy giảm.
Ý nghĩa tên MP3
MP3 là cách viết ngắn gọn của MPEG1 lớp 3 (MPEG1 layer 3). MPEG là tên
viết tắt của một nhóm chuyên gia hình ảnh động Motion Pictures Expert Group, một
gia đình các tiêu chuẩn nén trong lĩnh vực nghe nhìn. Tên được đặt chính thức của
nhóm này là ISO/IEC JTC1/SC29/WG11. Nhưng chủ yếu được biết đến với biệt
danh của nó, Moving Pictures Experts Group, được thành lập bởi các tiêu chuẩn
ISO/IEC vào năm 1988 để phát triển các tiêu chuẩn chung (sử dụng trong nhiều ứng
dụng khác nhau) đại diện cho mã hoá âm thanh, hình ảnh động.
MPEG-1 là tên gọi cho giai đoạn đầu tiên của quá trình làm việc MPEG. MPEG1 định nghĩa một tiêu chuẩn cho việc lưu trữ và phục hồi các âm thanh và hình ảnh
động trên các thiết bị lưu trữ.
Âm thanh MPEG-1 bao gồm ba chế độ hoạt động, được gọi là "lớp": lớp 1, lớp 2
và lớp 3. Các lớp càng cao thì sự phức tạp và hiệu suất ngày càng tăng. Lớp 3, với sự
phức tạp cao nhất, được thiết kế để cung cấp chất lượng âm thanh cao ở tốc bit thấp.

7


Luận văn thạc sỉ


Trần Thị Bích Hằng

I.2. Lịch sử ra đời MP3
¾ Những mốc thời gian quan trọng trong lịch sử phát triển MP3
-

Năm 1987 – Tổ chức Fraunhofer Institut ở Đức bắt đầu nghiên cứu dự án
EUREKA mã số EU147, về phát thanh số Digital Audio Broadcasting (DAB).

-

Tháng 1 năm 1988 – Nhóm chuyên gia Moving Picture Experts Group (MPEG)
được thành lập như là một tiểu ban của Tổ chức tiêu chuẩn quốc tế (ISO)/Uỷ ban
kỹ thuật điện quốc tế hoặc theo tiêu chuẩn (IEC).

-

Tháng 4 năm 1989 – Tổ chức Fraunhofer nhận bằng sáng chế của Đức về MP3.

-

Năm 1992 – Thuật toán mã hóa âm thanh của tổ chức Fraunhofer và Dieter được
tích hợp vào MPEG-1.

-

Năm 1993–Tiêu chuẩn MPEG-1 được công bố.

-


Năm 1995, MPEG1 lớp-3 đã được chọn như một định dạng âm thanh cho hệ
thống phát sóng kỹ thuật số vệ tinh được phát triển bởi thế giới-không gian
(World-Space). Đây là bước đầu tiên MPEG1 lớp-3 bước vào thị trường đại
chúng. Bước thứ hai ngay sau đó, là sự bùng nổ Internet, với các lợi thế của
mình MP3 được sử dụng rộng rãi để phân phối âm nhạc. Nó đã trở lên rất phổ
biến, tăng trưởng theo hàm mũ từ năm 1995.

-

Ngày 26 tháng 11 năm 1996 - Hoa Kỳ cấp bằng sáng chế MP3 cho tổ chức
Fraunhofer.

-

Tháng 9 năm 1998 – Tổ chức Fraunhofer bắt đầu thực thi quyền bằng sáng chế
của họ. Tất cả các nhà phát triển của bộ mã hóa MP3 và người giải mã / người
dùng bây giờ phải trả một lệ phí bản quyền cho Fraunhofer.

-

Tháng 2 năm 1999 - Công ty thu âm SubPop lần đầu tiên phân phối các bản nhạc
bằng định dạng MP3.

-

Năm 1999 – Các máy nghe nhạc MP3 cầm tay bắt đầu xuất hiện. Cụm từ ".mp3"
đã trở thành thuật ngữ tìm kiếm phổ biến nhất trên Web (theo nghiên cứu và
thống kê của trang web ).


8


Luận văn thạc sỉ
-

Trần Thị Bích Hằng

Cho đến nay: các định dạng tập tin âm thanh MP3 đã trở lên rất phổ biến. Nó
được sử dụng rộng rãi trên Internet, các máy nghe nhạc, các thiết bị cầm tay đa
phương tiện…

¾ Những đóng góp của các tổ chức và cá nhân trong sự nghiệp phát triển
MP3
Công ty Fraunhofer, Đức
Công ty Gesellshaft của Đức, một trung tâm nghiên cứu có uy tín của
Fraunhofer, đã phát triển công nghệ MP3 từ năm 1987. Bắt đầu nghiên cứu nâng cao,
mã hóa âm thanh tốc độ bit thấp, dự án mang tên EUREKA mã số EU147, phát âm
thanh số (Digital Audio Broadcasting-DAB), tiền thân của công nghệ MP3. Công ty
này đã được trao giấy phép quyền sáng chế trong lĩnh vực công nghệ nén âm thanh United States Patent 5.579.430 về mã hóa âm thanh kỹ thuật số “digital encoding
process ".
Ông Karlheinz Brandenburg
Người dẫn đường trong các nghiên cứu của tổ chức Fraunhofer, được gọi là "cha đẻ
của" MP3. Karlheinz Brandenburg là một chuyên gia trong lĩnh vực toán học và điện tử, đã
nghiên cứu các phương pháp nén âm thanh từ năm 1977. Trong suốt qua trình từ năm 1977
đến 1997, ông đã có nhiều nghiên cứu và kết quả cống hiến cho lĩnh vực nén âm thanh theo
chuẩn MP3: kỹ thuật mã hóa cảm nhận ASPEC, mã hóa cảm nhận âm thanh và cảm nhận
âm học, định nghĩa hệ thống ISO/IEC MPEG lớp-3. Karlheinz Brandenburg đã nhận được
nhiều bằng sáng chế trong lĩnh vực nén âm thanh số MP3.


II. ĐẶC ĐIỂM MP3
MP3 là chuẩn nén âm thanh số. Nó được tối ưu hóa về cấu trúc tập tin, các dữ
liệu dư thừa bị loại bỏ mà không làm mất thông tin. Kích thước tập tin nhỏ gọn, chất
lượng âm thanh đáp ứng các nhu cầu sử dụng khác nhau. Sau đây là các đặc điểm cơ
bản làm nên sự hữu dụng và tính phổ biến của tập tin MP3.
II.1. Chuẩn nén âm thanh số lớp 3
MP3 là chuẩn âm thanh nén lớp 3 của MPEG1. Nó mang các đặc điểm cơ bản
của âm thanh nén MPEG1 nhưng nó mang đặc trưng riêng của âm thanh nén thuộc
9


Luận văn thạc sỉ

Trần Thị Bích Hằng

lớp 3. Đó là mức độ nén và độ phức tạp cao hơn so với các chuẩn nén âm thanh
thuộc lớp 1 và 2. Tín hiệu âm thanh nén ở lớp 3 sử dụng bộ mã hóa Huffman. Dưới
đây là bảng so sánh độ phức tạp của các bộ giải mã và mã hóa khác nhau đối với các
lớp mã hóa âm thanh khác nhau.
Lớp

Độ phức tạp
Bộ mã hóa

Bộ giải mã

I

1.5 – 3


1

II

2–4

1.25

III

> 7.5

2.5

Bảng 1: Độ phức tạp của bộ mã hóa và giải mã đối với các lớp của âm thanh
MPEG
Những ưu điểm của tín hiệu âm thanh nén thuộc lớp 3 so với lớp 1 và lớp 2:
-

Giảm sự chồng phổ: Lớp 3 cung cấp phương pháp xử lý các giá trị MDCT
để loại bỏ sự dư thừa do sự chồng lấp giữa các băng.

-

Bộ lượng tử hóa lớp 3 nâng các lối vào của nó lên ¾ năng lượng trứơc
khi lượng tử hóa để cung cấp tỉ số tín hiệu trên tạp âm (SNR) cao hơn.

-

Lớp 3 sử dụng mã Huffman để mã hóa các mẫu lượng tử hóa cho việc nén

dữ liệu tốt hơn .

-

Sử dụng một bộ dữ trữ bit (bit reservoir): Dòng bit lớp 3 phù hợp hơn với
độ dài thay đổi của dữ liệu được nén. Cũng giống như lớp 2, khung dữ
liệu lớp 3 có 1152 mẫu. Lớp 3 không giống lớp 2 ở chỗ dữ liệu mã hóa
không nhất thiết phải vừa vặn trong một khung cố định. Bộ mã hóa có thể
lấy hoặc mượn các bit từ bộ dự trữ bit nếu cần thiết.

II.2. Chế độ hoạt động
Âm thanh MP3 làm việc ở cả hai định dạng kênh mono và stereo. Kỹ thuật mã
hóa âm thanh stereo, được sử dụng để nâng cao chất lượng của một tín hiệu âm thanh
lập thể nhờ sự kết hợp mã hóa của kênh trái và phải. MP3 cho phép mã hóa kết hợp
giữa cường độ tín hiệu và âm thanh stereo. Điều này đặc biệt hữu ích đối với tín hiệu

10


Luận văn thạc sỉ

Trần Thị Bích Hằng

âm thanh ở tốc độ bit thấp, nhưng ngược lại phải chịu nguy cơ thay đổi hình ảnh âm
thanh.
Chuẩn MPEG có 4 chế độ:
-

Single channel (Mono)


-

Dual channel (2 mono channels)

-

Stereo

-

Joint Stereo (Stereo)

Mono là chế độ dùng cho âm thanh 1 kênh. Tín hiệu âm thanh được lưu trữ trên
một kênh, người nghe chỉ cảm nhận được độ rõ nét và thông tin về âm thanh mà
không thể cảm nhận được quang cảnh của âm thanh.
Âm thanh stereo, khắc phục được các nhược điểm của âm thanh mono, giúp
người nghe cảm nhận được quang cảnh không gian của âm thanh, nâng cao chất
lượng âm thanh một cách rõ rệt.
Chế độ Dual channel, tập tin âm thanh bao gồm hai kênh mono độc lập. Tốc độ
bit mỗi kênh bằng một nửa tốc độ bit của cả file. Đầu ra các bộ giải mã tập tin âm
thanh ở chế độ Dual channel có hai kênh nhưng hoàn toàn độc lập không thể thấy
quang cảnh âm thanh như tập tin âm thanh stereo.
Joint Stereo là chế độ mở rộng của stereo, số bít được mã hóa cho mỗi khung
được quyết định một cách linh hoạt, để giảm đi những dữ liệu không cần thiết của
tập tin. Joint stereo chia sẻ các bit kênh trái và kênh phải ở tần số cao. Điều này làm
cải thiện đáng kể việc nén âm thanh stereo suy giảm ít. Các tần số thấp được xử lý
như âm thanh stereo thông thường.
II.3. Mã hóa âm thanh dựa trên mô hình cảm nhận âm học của con người
Các thuật toán mã hoá âm thanh MP3 dựa trên mô hình mã hóa cảm nhận âm
học của con người, dựa trên mô hình tiếp nhận âm thanh để tối ưu hiệu qủa quá trình

mã hoá.
Mô hình tiếp nhận âm thanh dựa trên các cảm nhận chính là tai người, sự cảm
nhận âm thanh bị ảnh hưởng bởi tính chất che. Tâm lý của con người trong cảm nhận
11


Luận văn thạc sỉ

Trần Thị Bích Hằng

âm học hay còn gọi là tâm lý âm học là lĩnh vực khoa học nghiên cứu và giải thích
sự cảm nhận âm thanh của tai người đối với sự kích thích của nguồn âm. Các phương
pháp mã hoá dựa trên cảm nhận âm học đều dựa vào các nguyên lý cơ bản của tâm lý
âm học như: ngưỡng nghe, các băng tới hạn, hiện tượng che. Các phương pháp này
loại bỏ các thành phần dư thừa không nghe được của tín hiệu âm thanh để giảm kích
thước file dữ liệu trong quá trình nén.
1. Ngưỡng nghe tuyệt đối
Ngưỡng nghe tuyệt đối là mức năng lượng cần thiết của một âm chuẩn (ở mức
độ cho trước) để có thể nghe được trong một môi trường không có tiếng ồn.
2. Các băng tới hạn
Các nghiên cứu thực tế cho thấy tai người có thể cảm nhận được các nguồn âm
có tần số từ 20 Hz đến 20KHz. Ngoài ra, tai người còn được coi là bộ phân tích phổ
đối với các phổ tần nghe được. Tai người được coi là 1 băng lọc (filter bank) gồm
nhiều mạch lọc thông dải với các băng thông có độ rộng khác nhau, nó đặc trưng cho
khả năng phân giải âm thanh của tai người. Các băng này được gọi là băng tới hạn,
chúng có độ rộng thay đổi theo tần số từ thấp đến cao. Trên thực tế có 25 băng tới
hạn được qui ước theo bảng các băng tới hạn dưới đây, mỗi băng có một tần số trung
tâm f. Độ rộng của mỗi băng có thể được tính xấp xỉ như sau :
bwc (f)=25+75[1+1.4(f/1000)2]0.69 (Hz)
Một băng tới hạn có độ rộng là bark (đặt theo tên của nhà khoa học barkhausen).

Hàm sau đây cho phép chuyển từ dải tần số sang dải bark:
z(f) = 13arctan(0.00076f) + 3.5arctan[(f/75000)2] (bark)
băng tới
hạn

tần số trung
tâm

độ rộng
(Hz)

tần số dưới
(Hz)

tần số trên
(Hz)

1
2
3
4
5
6
7
8

50
150
250
350

450
570
700
840

100
100
100
110
120
140
150

100
200
300
400
510
630
770

100
200
300
400
510
630
770
920


12


Luận văn thạc sỉ

9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Trần Thị Bích Hằng

1000
1170
1370
1600
1850

2150
2500
2900
3400
4000
4800
5800
7000
8500
10500
13500
18755

160
190
210
240
280
320
380
450
550
700
900
1100
1300
1800
2500
3500
6550


920
1080
1270
1470
1720
2000
2320
2700
3150
3700
4400
5300
6400
7700
9500
12000
15500

1080
1270
1470
1720
2000
2320
2700
3150
3700
4400
5300

6400
7700
9500
12000
15500
22050

Bảng 2: Bảng các băng tới hạn

3. Hiện tượng che
Tai người có khả năng phân tích tần số theo thời gian, khả năng này tạo ra hiện
tượng che đồng thời và hiện tượng che không đồng thời. Các hiện tượng này được
ứng dụng trong các bộ mã hóa để xác định các thành phần dư thừa cần loại bỏ, không
mã hóa chúng.
Hiện tượng che xảy ra khi một hoặc nhiều nguồn âm bị che không nghe được do
sự có mặt của một nguồn âm khác. Tín hiệu che các tín hiệu khác được gọi là các
thành phần che (masker), các tín hiệu bị che thì gọi là các thành phần bị che
(maskee). Độ chênh lệch giữa thành phần che và ngưỡng che (phụ thuộc tần số và
mức áp suất âm thanh của thành phần che quyết định) gọi là tỉ số tín hiệu trên
ngưỡng che (signal-to-masking ratio). Thông số này rất quan trọng trong phương
pháp mã hóa dựa trên mô hình cảm nhận âm học.

13


Luận văn thạc sỉ

Trần Thị Bích Hằng
Biên độ


Tín hiệu
âm thanh lớn
Khu vực tín hiệu âm thanh
yếu hơn bị che phủ

Tần số

Hình 1: Đường cong che (mặt nạ) âm thanh
Hiện tượng che đồng thời xảy ra khi nhiều nguồn âm tác động vào tai người.
Mặc dù phổ tần số âm thanh có thể chứa nhiều hiện tượng che đồng thời phức tạp,
nhưng vì mục tiêu xác định các dạng mã hóa, ta chỉ cần quan tâm đến 3 loại che
đồng thời : tạp âm che tín hiệu âm thanh, tín hiệu âm thanh che tạp âm, tạp âm che
tạp âm.
Hiện tượng che không đồng thời: xảy ra khi các âm (hoặc tạp âm) được phát lên
gần nhau theo thời gian. Hiện tượng tiền che xảy ra khi một âm (hoặc tạp âm) bị che
bởi một âm (hoặc tạp âm) xảy ra sau. Tương tự, hiện tượng hậu che khi một âm xảy
ra trước che một âm xảy ra sau đó.
Một đặc điểm nữa của hệ thống thính giác của con người đó là thời gian cảm
nhận âm thanh. Tai của con người phải mất một thời gian ngắn để cảm nhận, nên nó
trở nên ít nhạy cảm với tần số thấp, thoáng qua.
Các nghiên cứu trên (về tâm lý âm học) như: ngưỡng nghe, các băng tới hạn,
hiện tượng che đã dẫn đến những hiểu biết quan trọng về cách thức hoạt động của hệ
thống thính giác của con người. Điều này đã giúp chúng ta nhận ra rằng trong dữ liệu
âm thanh có trong thực tế, rất nhiều dữ liệu mà con người không thể nghe thấy có thể
bỏ đi mà không nhận thấy một sự khác biệt. Một số trường hợp chính:
-

Nếu tần số nằm ngoài phạm vi 20Hz đến 20KHz

-


Nếu có một tiếng động lớn và tiếng động nhỏ cùng lúc.

-

Nếu có 2 âm thanh tương tự nhau.

14


Luận văn thạc sỉ

Trần Thị Bích Hằng

Con người chỉ có thể nghe thấy âm thanh trong một dải rất cụ thể. Bất kỳ tần số
dưới 20Hz và trên 20KHz con người không nhận thức được, và do đó có thể loại bỏ
được. Đối với người trung tuổi, phạm vi tần số có thể nghe thấy thu hẹp hơn, trong
khoảng nhận thức được là 20Hz đến 16KHz.
Con người nhạy cảm nhất với âm thanh trong khoảng 2KHz đến 4KHz. Điều
này có nghĩa rằng bất kỳ mất mát dữ liệu ở các tần số này sẽ gây ra một sự xuống
cấp chất lượng âm thanh rất rõ ràng.
Một tiếng động lớn và nhỏ xảy ra đồng thời , kết quả là con người có xu hướng
chỉ nghe thấy tiếng động lớn, điều này có nghĩa là tiếng động nhỏ có thể được bỏ đi
và không làm giảm chất lượng âm thanh.
Nếu có 2 âm thanh tần số tương tự nhau con người có xu hướng cảm nhận nó
như là một âm thanh. Vì vậy một trong những tần số đó có thể được loại bỏ với sự
suy giảm chất lượng rất ít.
Số lượng lớn các thông tin về khả năng cảm nhận âm học xác định ngưỡng nghe
của con người như mô hình toán học.


Hình 2: Mô hình ngưỡng nghe của tai người
Tập tin âm thanh MP3 được xây dựng trên bộ mã hóa thụ cảm, dựa trên mô hình
cảm nhận âm học của tai người, các dữ liệu âm thanh không cần thiết trên tập tin gốc
bị loại bỏ nhưng không làm mất thông tin. Do vậy tập tin MP3 có dung lượng nhỏ
hơn nhiều lần so với tập tin âm thanh gốc nhưng chất lượng không suy giảm mấy.
15


Luận văn thạc sỉ

Trần Thị Bích Hằng

II.4. Tốc độ bit và tần số lấy mẫu
Tốc độ bit (Bitrates) và tần số lấy mẫu (Sampling rates) được chọn khi mã hóa
âm thanh tương tự. Nếu chọn tốc độ bit cao hơn thì kích thước tập tin sẽ lớn hơn
đồng thời chất lượng của âm thanh cũng sẽ được tốt hơn. Người dùng phải đưa ra
một quyết định lựa chọn tốc độ bitrate phù hợp, phụ thuộc vào mục đích sử dụng với
chất lượng âm thanh tương ứng. Tốc độ bit và tần số lấy mẫu và có thể lựa chọn một
cách độc lập.
1. Tốc độ Bit (Bit-rate)
Tốc độ bit được đo theo đơn vị kilobits/sec(kbps).
Âm thanh MPEG 1 lớp-3, làm việc với các tốc độ bit từ 8 kbit/s lên đến 320
kbit/s. Hơn nữa, bộ giải mã lớp-3 hỗ trợ kỹ thuật chuyển đổi tốc độ bit từ khung âm
thanh này đến khung âm thanh khác trong cấu trúc tập tin MP3. Kết hợp với kỹ
thuật dự trữ bit, cho phép MP3 mã hóa tốc độ bit biến đổi và tốc độ bit cố định ở bất
kỳ giá trị nào trong phạm vi các thiết lập tiêu chuẩn.
Việc chọn tốc độ bit tùy thuộc trước tiên vào chất lượng âm thanh yêu cầu. Tốc
độ bit càng lớn chất lượng âm thanh MP3 càng cao, dung lượng sẽ tăng. Trong một
số trường hợp không đòi hỏi chất lượng âm thanh quá cao (như tiếng nói, tiếng động
hiện trường…), sử dụng MP3 ở tốc độ bit thấp vẫn đáp ứng được yêu cầu sử dụng.


Tín hiệu âm
thanh tương tự

Tín hiệu âm thanh
số ở 64 kbps

Tín hiệu âm thanh
số ở 128 kbps

Hình 3: Tín hiệu âm thanh được mã hóa ở tốc độ bitrate khác nhau
Hình trên cho thấy mã hóa âm thanh với tốc độ bit cao hơn cho ra một tập tin với
chất lượng tốt hơn. Ở tốc độ bitrate 64kbps tại mỗi bit đại diện cho nhiều dữ liệu hơn
âm thanh, kết quả này làm cho mô hình cảm nhận - âm học được áp dụng khá gay gắt
và nhiều dữ liệu phải xử lý. Với tốc độ bitrate 128 kbps có nhiều bit hơn sẵn sàng để
lưu trữ các dữ liệu âm thanh, do đó, mô hình cảm nhận - âm học được áp dụng ít gay
16


Luận văn thạc sỉ

Trần Thị Bích Hằng

gắt và tăng sự tinh tế của âm thanh. Ở tốc độ bitrate 128kbps càng gần giống đường
cong của tín hiệu tương tự hơn so với tốc độ bitrate 64kbps, chất lượng âm thanh
MP3 tương đương chất lượng âm thanh trên CD .
Tại tốc độ bit 192 kbps trên mỗi kênh, chất lượng âm thanh là hoàn toàn trong
suốt.
Tốc độ bit 128 kbps / kênh được dùng phổ biến nhất trong phát thanh. Tốc độ
thấp hơn 128 kbps / kênh được dùng trong các ứng dụng yêu cầu tỉ số nén lớn do

giới hạn của băng thông truyền hay thiết bị lưu trữ.
Có một cách xem xét khác về tốc độ bitrate. Nó có thể mã hóa với tốc độ bit
không đổi (Constant Bitrate - CBR) hoặc tốc độ bitrate biến đổi (Variable Bitrate VBR). Với CBR chỉ định rõ tốc độ bitrate và được sử dụng trong suốt quá trình mã
hóa bất kể các đoạn âm thanh phức tạp hay đơn giản. Với bộ mã hóa VBR xem xét
sự phức tạp để phân bổ bit phù hợp tới từng đoạn âm thanh tùy vào độ phức tạp ít
hay nhiều. Điều này có thể dẫn đến một mã hóa tốt hơn cho âm thanh nói chung.
Với VBR phải xác định cấp độ chất lượng yêu cầu để đáp ứng, và các bộ mã hóa
quyết định số lượng các bit cần thiết. Một điều được xem như sự cải tiến đối hơn so
với CBR, có thể mã hóa nhiều lần các đoạn âm thanh với tốc độ bitrate khác nhau để
đạt được chất lượng theo yêu cầu. VBR làm ta không thể kiểm soát trực tiếp vào kích
thước của tập tin được tạo ra.
2. Tần số lấy mẫu
Tần số lấy mẫu là số mẫu âm thanh được lấy trong khoảng thời gian 1 giây. Ví
dụ: 44,1 KHz = 44.100 mẫu/1giây.
Lấy mẫu là một giai đoạn trong quá trình số hóa chuyển đổi từ tín hiệu âm thanh
tương tự sang tín hiệu âm thanh số, tiến hành lấy mẫu tín hiệu âm thanh tương tự.
Xác định biên độ của tín hiệu ở những thời điểm theo những khoảng thời gian cách
đều nhau vì vậy các mẫu là các xung có biên độ nhất định. Khoảng thời gian cách
đều này gọi là chu kỳ lấy mẫu Ts , tần số lấy mẫu (tốc độ lấy mẫu) fs = (1/Ts). Số
lượng mẫu lấy trong một giây càng cao thì chất lượng của âm thanh càng tốt. Đối với

17


Luận văn thạc sỉ

Trần Thị Bích Hằng

một số ứng dụng, ví dụ như dòng dữ liệu trên đường truyền kết nối internet thường
sử dụng tần số lấy mẫu thấp hơn để phù hợp với tốc độ chậm.

Âm thanh MP3 hoạt động trên một số tần lấy mẫu khác nhau: 32KHz, 44,1 KHz
và 48 KHz. Thông thường sử dụng tần số lấy mẫu 44.1KHz
Khi chọn lựa tần số lấy mẫu cần xem xét các vấn đề:
-

Tần số lấy mẫu càng lớn thì chất lượng âm thanh càng cao, người nghe
càng nghe thuận tai.

-

Băng thông tín hiệu tăng khi tần số lấy tăng, VD: băng thông tín hiệu 15
KHz khi tần lấy mẫu là 32 KHz và băng thông tín hiệu rộng 8 KHz khi tần
lấy mẫu là 16 KHz.

-

Khi tín hiệu đầu vào theo tiêu chuẩn âm thanh số AES/EBU, thì tần số lấy
mẫu cũng bị cố định theo.

-

Trong phát thanh hay ứng dụng đa phương tiện, nên lấy mẫu ở 48 KHz
hoặc 44.1 KHz cho chất lượng tín hiệu âm thanh cao.

Chất lượng và dung lượng tập tin MP3 phụ thuộc vào hai tham số cơ bản: tần số
lấy mẫu, tốc độ bitrate. Việc lựa chọn các tham số này, phụ thuộc vào mục đích và
nhu cầu sử dụng. Do đó, tập tin MP3 có khả năng lựa chọn linh hoạt (trong phạm vi
các tiêu chuẩn cho phép).

III. CẤU TRÚC TẬP TIN MP3

III.1. Cấu trúc tập tin
Một tập tin MP3 bao gồm nhiều khung và các thẻ dữ liệu ID3 ở đầu và cuối tập
tin. Có cấu trúc như sau:
[Thẻ ID3v2]

Khung1

Khung2

Khung3

……………

[Thẻ ID3v1]

Hình 4: Các thành phần cơ bản tập tin MP3
Các khung trong tập tin MP3 có kết cấu liên quan đến nhau (thông qua các byte
“dự trữ"), do đó không thể xuất khung ra một cách tùy ý. Mỗi khung bao gồm phần
tiêu đề và phần khối dữ liệu. Phần tiêu đề có các giá trị bit khác nhau, tùy thuộc vào
18


Luận văn thạc sỉ

Trần Thị Bích Hằng

các tập tin MP3. Tiêu chuẩn ISO/IEC 11.172-3 xác định phạm vi và các giá trị cho
từng phần của tiêu đề cùng với các đặc điểm kỹ thuật của nó. Phần khối dữ liệu của
khung bao gồm các thông tin âm thanh về tần số và biên độ.
Thẻ (tag) ID3 chứa các dữ liệu của tập tin MP3, được xử lý trước hoặc sau các

khung MP3. Thẻ ID3 cung cấp các thông tin về tiêu đề, tác giả, nhạc sỹ, diễn xuất,
thời lượng, album …
Dưới đây là sơ đồ tổng quan về các thành phần trong tập tin MP3

[Thẻ ID3v2]

Tag

Khung1

title

Tiêu đề

Khung2

Artist

Album

CRC

Thông tin

Khung3

Year

Comment


Dữ liệu chính

……………

"0"

[Thẻ ID3v1]

Track

Genre

Dữ liệu phụ thuộc

Hình 5: Sơ đồ tổng quan cấu trúc các phần trong tập tin MP3
III.2. Cấu trúc khung
Khung là một khái niệm trung tâm khi giải mã dòng bit MP3. Nó bao gồm 1152
mẫu, được chia thành hai “grannule”, mỗi “grannule” gồm 576 mẫu. Mỗi “grannule”
được chia làm 32 khối băng con, mỗi băng con có 18 line tần số.

19


Luận văn thạc sỉ

Trần Thị Bích Hằng

Khung

Hình 6: Cấu trúc khung theo các line tần số ở chế độ hai kênh

Phổ tần số dao động từ 0 tới Fs/2 Hz. Các băng con phân chia phổ tấn số thành
32 phần bằng nhau. Mỗi băng con chứa 18 mẫu đã được biến đổi đến miền tần số
bằng phép biến đổi MDCT.
576 line tần số trong một “grannule” được phân chia vào trong 21 hệ số tỉ lệ
được thiết kế để phù hợp tần số băng tới hạn. Dải hệ số tỉ lệ được sử dụng chính cho
việc lượng tử hóa lại (requantization) của các mẫu.
Cấu trúc của khung gồm 5 phần: tiêu đề (header), mã phát hiện lỗi (CRC), thông
tin, dữ liệu chính (main data) và dữ liệu phụ thuộc (ancillary data).
Tiêu đề
32 bit

CRC
16 bit

Thông tin

Dữ liệu chính

Dữ liệu phụ thuộc

136 bit đơn kênh / 256 bit 2 kênh

Hình 7: Cấu trúc khung
Đối với tập tin MPEG 1lớp III, cấu trúc khung không độc lập, các khung có mối
quan hệ và lệ thuộc vào các khung bên cạnh, nên không thể cắt bất kỳ khung nào đi
được. Khi đọc thông tin về tập tin MPEG thông thường chỉ đọc khung đầu tiên hay
phần tiêu đề của khung đầu tiên, và cho rằng những khung khác cũng tương tự. Điều
này có thể không đúng trong mọi trường hợp. Tập tin MPEG 1 lớp 3 sử dụng tốc độ
bit khác nhau tùy vào nội dung của khung được gọi là chuyển đổi tốc độ bit (bitrate


20


Luận văn thạc sỉ

Trần Thị Bích Hằng

switching), như vậy tốc độ bit chuyển đổi dọc theo nội dung của khung. Với cách
này tốc độ bit thấp hơn có thể được sử dụng trong khung mà không làm giảm chất
lượng âm thanh.
Các khung có thể có phần kiểm tra lỗi CRC. Nếu nó tồn tại nó nằm ngay sau
phần tiêu đề và trước phần thông tin. Phần kiểm tra lỗi CRC dài 16 bit . Chiều dài
của khung được tính toán để xác định các phần tiêu đề khác. Nó cũng được sử dụng
để tính toán CRC của khung và so sánh kỹ lưỡng với tập tin âm thanh. Đây thực sự
là một phương pháp tốt để kiểm tra các giá trị phần tiêu đề.
1. Phần tiêu đề
1.1. Cấu trúc phần tiêu đề
MP3 bao gồm nhiều khung đều chứa phần tiêu đề và phần giá trị dữ liệu. Những
dữ liệu này sau đó được tái tạo lại trong bộ giải mã. Vào đầu mỗi khung là phần tiêu
đề khung. Chứa 32 bit cơ sở dữ liệu tham chiếu tới các khung đến. Cơ sở dữ liệu
được chia thành các trường đại diện cho thông tin khác nhau về khung, chứa thông
tin về lớp, tốc độ bit, tần số mẫu và chế độ stereo… (được thể hiện trong bảng sau):
Trường

Bit bắt

Bit kết thúc

Chiều dài


đầu
Bit đồng bộ

1

11

11

Bit phiên bản MPEG

12

13

2

Bit cho biết lớp thực

14

15

2

Bit bảo vệ

16

16


1

Tốc độ Bit

17

20

4

Tần số lấy mẫu

21

22

2

Bit đệm

23

23

1

hiện

21



Luận văn thạc sỉ

Trần Thị Bích Hằng

Bit riêng

24

24

1

Bit kênh

25

26

2

Bit lựa chọn chế độ

27

28

2


Bit bản quyền

29

29

1

Bit gốc

30

30

1

Bit quan trọng

31

32

2

Bảng 3: Các trường trong phần tiêu đề
1.2. Ý nghĩa và giá trị bit của các trường trong phần tiêu đề
Các bit đồng bộ (Sync Bit) nằm ở đầu của mỗi khung, được sử dụng khi xác định
một khung hợp lệ để bắt đầu phát tập tin MP3. Các bộ giải mã phải kiểm tra giá trị
các bit đồng bộ trong hai khung hình liên tục và kiểm tra tính hợp lệ các phần khác
của dữ liệu tiêu đề trước khi nó khẳng định đó là một khung hợp lệ trước khi giải mã

MP3.
Các bit đồng bộ khung gồm 11 bit (thiết lập tất cả các bit):
11111111111
Bit phiên bản MPEG (MPEG version): xác định MPEG thuộc phiên bản nào, các
tham số kỹ thuật của MPEG là các dữ liệu được mã hóa phù hợp tuân theo phiên bản
MPEG.
2 bit phiên bản âm thanh MPEG, bao gồm các giá trị sau:
00 - MPEG phiên bản 2.5
01 – Dành riêng
10 - MPEG Phiên bản 2 (ISO/IEC 13.818-3)
11 - MPEG Phiên bản 1 (ISO/IEC 11.172-3)
Bit lớp thi hành (Layer implemented) chỉ ra lớp nén nào đã được sử dụng trên
tập tin. Bao gồm 2 bit, miêu tả các lớp:

22


Luận văn thạc sỉ

Trần Thị Bích Hằng

00 – Dành riêng
01 – Lớp III
10 - Lớp II
11 - Lớp I
Các bit bảo vệ (protection bit)cho biết phần kiểm tra lỗi 16 bit CRC được chèn
vào trước các dữ liệu âm thanh không.
Bao gồm 1 bit, mang các giá trị:
0 – Được bảo vệ bởi phần kiểm tra lỗi CRC (dài 16 bit sau phần tiêu đề khung)
1 – Không được bảo vệ

Bit chỉ số tốc độ bitrate (bitrate index) được sử dụng để xác định các tốc độ
bitrate mà khung đã được mã hóa.
Bao gồm 4 bit, cho biết tốc độ bit sử dụng:
Bits

V1,L3

0000

Tự do

0001

32

0010

40

0011

48

0100

56

0101

64


0110

80

0111

96

1000

112

1001

128

1010

160

1011

192

1100

224

23



×