Tải bản đầy đủ (.docx) (29 trang)

DPCM, ADPCM và mã hóa âm thanh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (669.14 KB, 29 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ GTVT
KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO MÔN HỌC
MẠNG KHÔNG DÂY VÀ DI ĐỘNG

Tên đề tài:
Tìm hiểu về DPCM, ADPCM, Mã hóa âm thanh

Hà Nội, tháng …/…..


ĐẶT VẤN ĐỀ
Lịch sử thông tin dữ liệu có thể coi được bắt đầu từ năm 1837 với sự phát minh
điện tín của Samuel F. B. Morse. Đó là hệ thống truyền các xung điện biểu diễn cho
các dấu chấm, vạch(tương đương với các số nhị phân 1, 0) trên các đường dây nhờ các
máy cơ điện. Các tổ hợp khác nhau của các mã này thay cho các chữ, số, dấu.. được
gọi là mã Morse. Với lịch sử phát triền lâu dài qua hàng thập kỉ của ngành thông tin dữ
liệu, các phương thức truyền dẫn, mã hóa thông tin ngày càng đa dạng và hoàn thiện
hơn. Với đề tài “Tìm hiểu về DPCM, ADPCM, Mã hóa âm thanh”, chúng tôi mong
muốn qua bài báo cáo này các bạn sẽ hiểu hơn về các kĩ thuật mã hóa trên. Trong quá
trình làm đề tài do kiến thức còn hạn hẹp, khó tránh được các vấn đề liên quan đến lỗ
hổng kiến thức, khó hiểu mong các bạn góp ý và thông cảm.
Chúng tôi xin chân thành cảm ơn!

2


Mục lục

3




DANH MỤC HÌNH
Hình
1.1
1.2
1.3
1.4
1.5
2.1
2.2
3.1
3.2
4.1
4.2
4.3
4.4

Nội dung
Lấy mẫu
Qúa trình lấy mẫu liên tục
Lượng tử hóa tín hiệu PAM
Qúa trình lượng tử hóa tuyến tính
Hệ thống truyền dẫn PCM
Sơ đồ mã hóa và giải mã DPCM
Hiện tượng quá tải sườn
Mã hóa và giải mã ADPCM
Sơ đồ khối giải mã ADPCM
Hiệu ứng che âm thanh
Masking Frequency

Sơ đồ mã hóa MPEG
Sơ đồ khối kĩ thuật nén MPEG-Audio

Số Trang
7
7
8
8
10
11
13
14
20
22
23
24
28

DANH MỤC BẢNG
Bảng

Nội Dung

Số trang

1.1

Đặc tính chung của âm thanh số

9


3.1

Đặc tính vào ra của bộ lượng tử hóa 16 kbps

15

3.2

Đặc tính vào ra của bộ lượng tử hóa 40 kbps

16

3.3

Đặc tính vào ra của bộ lượng tử hóa 32 kbps

16

3.4

Đặc tính vào ra của bộ lượng tử hóa 24 kbps

17

4.1

Độ phức tạp của Layer

25


4.2

Bảng phân giải các giá trị của Layer I, Layer II

28

DANH MỤC TỪ VIẾT TẮT
Từ viết tắt
PCM
DPCM
ADPCM
PAM
CCITT

Ý nghĩa
Pulse Code Modulation
Differential Pulse Code Modulation
Adaptive Differential Pulse Code Modulation
Pulse Amplitude Moduration
Consultative Committee for International Telephony
and Telegraphy - Uỷ ban tư vấn quốc tế về điện thoại và
điện báo

4


I. KHÁI QUÁT VỀ KĨ THUẬT ĐIỀU XUNG MÃ
1.1. Khái niệm
Điều chế xung mã (Pulse Code Modulation) thực chất là một dạng biến đổi tương tựsố trong đó thông tin trong các mẫu tức thời của tín hiệu tương tự được biểu diễn bằng các từ

mã.
Đặc trưng của quá trình điều xung mã được đặc trưng bởi 4 quá trình:





Lọc giới hạn băng
Lấy mẫu
Lượng tử hóa
Mã hóa

1.2. Các đặc trưng của pcm
1.2.1. Lọc giới hạn băng
Xét tín hiệu thoại, có phổ tập trung trong độ dài từ 0,3 đến 3,4 kHz. Việc cắt bỏ các
thành phần tần số ngoài dải nói trên không gây ra những méo mó cảm quá lớn, tức là không
gây nên những trở ngại đặc biệt đối với quá trình thông thoại. Để hạn chế phổ tín hiệu có thể
tiến hành loại bỏ các thành phần tần số lớn hơn 3,4 kHz trong tín hiệu điện thoại bằng lọc
thông thấp, tức là giá trị cực đại của tần số W của tín hiệu thoại là 3,4 kHz. Trong trường
hợp này, sau số do lọc hạn băng gây ra chủ yếu là bởi không thể chế tạo được mạch lọc
thông thấp lý tưởng mà chỉ có thể chế tạo được các mạch lọc không dốc đứng tại tần số cắt.
Để không gây ra những méo thụ cảm rõ ràng nhận ra, tần số cắt của mạch lọc hạn băng phải
chọn cao hơn 3,4 kHz. Các mạch lọc tiêu chuẩn trong thực tế có tần số cắt rất sát với 4 kHz.
1.2.2. Lấy mẫu (Sampling)
Thực chất là quá trình rời rạc hóa tín hiệu theo thời gian: Ts <= 1/(2fmax)
Ý nghĩa:







Là cơ sở để biến đổi tín hiệu liên tục thành tín hiệu rời rạc và tín hiệu số.
Khi truyền tin tức trong một tín hiệu x(t) liên tục thay vì truyền nó đi toàn bộ
tín hiệu x(t) ta chỉ truyền đi một số các giá trị tức thời của nó.
Điều kiện của các điểm lấy mẫu để tái tạo tín hiệu x(t) liên tục từ các mẫu rời
rạc mà không bị méo.
Tuân theo định lý lấy mẫu để có được các tín hiệu điều biên xung (PAM –
Pulse Amplitude Moduration).
Tần số lấy mẫu tiêu chuẩn cho tín hiệu thoại thường được chọn là 8KHz.

5


Hình 1.1. Lấy mẫu

Trục thời gian được chia thành những khoảng cố định, giá trị của biên độ tín hiệu
được đọc tại thời điểm bắt đầu của thời khoảng. Thời khoảng này được xác định một xung
đồng hồ (clock pulse). Tần số của xung đồng hồ được gọi là tốc độ lấy mẫu (sample rate)
hay tần số lấy mẫu (sample frequency). Mạch điện thực hiện việc này gọi là mạch lấy mẫu
và dừng (sampling and hold circuit). Mỗi điểm dừng lấy mẫu ứng với một giá trị của biên
độ. Ta có một dãy nhiều giá trị biên độ liên tục, nhưng rời rạc theo thời gian. Mỗi thời
khoảng mẫu chỉ có một giá trị.

Hình 1.2. Qúa trình lẫy mẫu liên tục

Các đặc điểm của lấy mẫu:
• PAM: là quá trình điều biên xung. Dùng tín hiệu tương tự, lấy mẫu với thời
gian liên tiếp và cách đều nhau tạo thành một chuỗi các xung rời rạc.
• Tốc độ lẫy mẫu thấp nhất phải bằng hai lần tần số cao nhất của tín hiệu gốc.

Nếu tần số cao nhất của tín hiệu là xHZ thì chúng ta thực hiện lấy mẫu sau
1/2x.
1.2.3. Lượng tử hóa (Quantizing)
Qúa trình biến đổi các giá trị mẫu liên tục thành các giá trị rời rạc được gọi là lượng
hóa.
Trong quá trình này ta chia dãy tín hiệu thành các số cố định của các thời khoảng, mỗi
thời gian khoảng bằng nhau được gán một số. Mỗi mẫu có một số giới hạn các giá trị chọn
lựa. Trong một thời khoảng, tín hiệu chỉ được gán một giá trị duy nhất.
6


Kích thước giá trị trong một thời khoảng gọi là bước lượng tử hóa.

Hình 1.3. Lượng tử hóa tín hiệu PAM

Chuyển tín hiệu vô hạn mức x(t) thành hữu hạn mức x*(t).
Với N mức cần n bit để mã hóa: 2n >= N
• Sai số lượng tử hóa: δx = x(t) – x*(t)
a. Lượng tử hoá tuyến tính

Hình 1.4. Qúa trình lượng tử hóa tuyến tính
o
o
o
o

Giả sử x(t) thay đổi trong 0-Xmax
Chia 0-Xmax thành N mức từ 0 -> N-1
N=2n mỗi mức ứng với 1 tổ hợp nhị phân (n bit)
Bức lượng tử hóa: x = Xmax/(N-1) = Xmax/(2n-1) = const


=> S/N không đồng đều
• S/N lớn khi x lớn
• S/N giảm khi x nhỏ
• Muốn tăng S/N cần giảm Δx -> tăng N -> tăng n
=> Thường sử dụng trong đo lường
b. Lượng tử hóa phi tuyến
• Khắc phục những nhược điểm của lượng tử hóa tuyến tính
• Bước lượng tử thay đổi giả sử Δx = k.x
• Xác định Δx bằng cách tìm hàm y = y(x) sao cho lượng tử hóa phi
7


tuyến với x tương ứng với lượng tử hóa tuyến tính với y (Δx thay đổi
– Δy không đổi)
Tính được:

y = (ln x + C0)

Xác định số mức lượng tử hóa:
Sự khác biệt tối đa giữa các giá trị lượng hóa và giá trị tín hiệu tương tự gốc gọi là
bước lượn hóa. Sự khác biệt này còn được gọi là lỗi lượng hóa hay nhiễu lượng hóa
(quantatization noise). Số mức lượng hóa càng lớn thì bước lượng hóa càng nhỏ và kéo theo
nhiễu lượng hóa càng nhỏ. Só các mức lượng hóa xác định số bit cần thiết để biểu diễn mẫu
và được xác định bởi công thức:
b = log2Q  Q = 2b
Trong đó: b: số bit cần thiết để biểu diễn mẫu
Q: số mức lượng tử hóa
Mối quan hệ giữa chất lượng tín hiệu số hóa và tín hiệu tương tự gốc đo bằng hệ số
tín hiệu nhiễu (SNR – Signal-to-noise ratio) tính bằng dB được định nghĩa bởi:

SNR = 20log10(S/N)
Trong đó: S: biên độ cực đại của tín hiệu, N: nhiễu lượng hóa.
Nếu lấy bước lượng giá là q thì N = q và S = 2bq.
Thay vào biểu thức: SNR = 20log10(sbq/q) = 20blog10(2) = 6b
Ta thấy nếu dung thêm 1 bit để biểu diễn các mẫu làm gia tăng hệ số tín hiệu nhiễu là
6dB. Chúng ta xem xét trường hợp âm thanh bắt đầu nghe được. Trong trường hợp âm thanh
cực đại (100dB – 120dB). Để không nghe nhiễu lượng tử hóa thì SNR ≥ 100dB, CD audio
dung 16 bit cho mẫu lượng hóa => SNR = 6x16 = 96dB nó hỏ hơn cận dưới mà ta mong
muốn (100dB đến 120dB). Tuy nhiên 16 bit dễ thao tác và xử lý trong các hệ thống số nhị
phân. Do vậy người ta dung 16 bit thay cho 17 bit.
Tóm lại âm thanh số cần được lấy mẫu liên tục với tốc độ cố định, mỗi mẫu cần được
biểu diễn bằng một số cố định
Ứng Dụng

Số Kênh

Tốc độ

Số bit

CD- audio

2

44.100

16

DAT


2

48.000

16

Digital Telephone

1

8.000

8

Digital radio, long play

2

32.000

16

Bảng 1.1. Đặc tính chung của âm thanh số.

1.2.4. Mã hóa (Coding)
Mã hóa là quá trình chuyển các mức lượng tử từ các mã nhị phân để truyền đi trên hệ
thống truyền dẫn số.

8



Hình 1.5. Hệ thống truyền dẫn PCM

Việc mã hóa các mức lượng tử để tạo thành tín hiệu PCM được thực hiện bằng các tổ
hợp 8 bít đối với cả hệ Mỹ lẫn hệ Châu Âu và cùng có dạng PABCDXYZ. Trong đó,
ABCDXYZ chỉ các bit được mã hóa của tín hiệu. P là giá trị chỉ cực tính của giá trị lượng tử.
Với P = 0 chỉ tín hiệu dương và P = 1 chỉ tín hiệu âm.
1.2.5. Sai số trong truyền dẫn PCM:
Trong thực tế, các tín hiệu lối vào điều chế xung mã là các tín hiệu có phổ trải vô hạn.
Sau lọc hạn chế tín hiệu phổ tín hiệu, tín hiệu có phổ hạn chế do vậy thời gian tổn tại trải
rộng vô hạn, nghĩa là về lý thuyết, việc lấy mẫu phải được thực hiện với vô hạn mẫu. Từ đó
chúng ta có thể thấy rằng tín hiệu liên tục khôi phục lại ở phần thu, ngay cả trong trường hợp
không tính đến méo và nhiễu trên đường truyền, cũng chỉ là một phiên bản gần đúng của tín
hiệu liên tục càn truyền đi ở phần phát mà thôi. Sai số giữa các tín hiệu phiên bản và nguyên
bản gây ra bởi các nguyên nhân sau:
a) Việc lấy mẫu không thể tiến hành trong thời gian dài vô hạn được.
b) Sai số do làm tròn (lượng tử hóa).
c) Các đặc tính lọc không hoàn toàn lý tưởng.
d) Phiên bản là một tín hiệu có phổ hạn chế, không như tín hiệu
nguyên bản.
II. PHƯƠNG PHÁP MÃ HÓA DPCM:
2.1. Khái niệm
PCM được thực hiện bằng cách mã hóa các giá trị mẫu được lượng tử hóa của tín
hiệu liên tục lối vào. Số bit mã cần thiết đã được CCITT xác định là 8. Tốc độ tín hiệu
thoại PCM như vậy 64 kb/s, chiếm phổ tần khá lớn.
Trong đàm thoại, một người đàm thoại tiêu biểu thường nói trong 40% thời gian
và đối với các giai đoạn tiếng nói tích cực (giai đoạn có nói trong đoạn đàm thoại) thì
các âm hữu thanh xảy ra gấp 4 lần so với các âm vô thanh. Sự trội hơn hẳn của các âm
9



hữu thanh có nghĩa là tính tương quan trong các tín hiệu âm thoại có thể khai thác được
một cách hieju quả. Do tính tương quan cao của các mẫu tiếng nói, sai lệch giữa hai mẫu
kế nhau thường khá nhỏ so với giá trị của từng mẫu.
Sn –Sn-1 << Sn
Trong đó Sn = s[n/fs] là giá trị mẫu của tín hiệu vào tại nhịp lấy mẫu thứ n. Vì vậy,
thay vì mã hóa các giá trị mẫu tiếng nói như PCM, chỉ cần mã hóa sai lệch giữa các mẫu
tiếng nói liên tiếp và chỉ cần một số bit ít hơn để mã. Đây là phương pháp dựa trên tính
chất tương quan của tín hiệu tiếng nói, chỉ truyền đi độ chênh lệch giữa các mẫu cạnh
nhau của tiếng nói:

Hình 2.1. Sơ đồ mã hóa và giải mã DPCM

Thay vì truyền đi giá trị mẫu, trong mã hóa tiên đoán, sai khác giữa một tiên đoán đối
với giá trị mẫu và giá trị mẫu hiện tại được mã hóa và truyền đi.
Tín hiệu vào qua bộ lọc băng thông thấp, hạn chế băng tần của tín hiệu vào (thường là
một nửa tần số lấy mẫu), máy phát lượng tử và mã hóa lượng tử chênh lệch giữa xung lấy
mẫu tương tự xn và tín hiệu dự đoán xn lấy từ đầu ra bộ dự đoán x-n. Gía trị dự đoán của mẫu
tiếp theo có được nhờ ngoại suy từ p giá trị mẫu cho trước:

ai là hệ số của các bộ dự đoán, độ chênh lệch giữa xung lấy mẫu đầu vào và tín hiệu ra
lấy mẫu là:

10


Đây chính là giá trị dùng để lượng tử hóa và truyền đi, ở phía thu sẽ tiến hành khôi
phục lại tín hiệu sai số này và tích phân lại cộng với tín hiệu đã khôi phục trước đó, tuy
nhiên để giảm lỗi cộng lại của nhiều lần ta dùng phía thu một bộ dự đoán giống với phía
phát. Việc sử dụng vòng phản hồi giúp cho bộ lượng tử hạn chế độ chênh lệch giữa sai số e n

và sai số được lượng tử e`n(e`n – en). Nếu giúa trị này ngày càng nhỏ thì chất lượng tín hiệu
càng tốt.
2.2. Bộ dự đoán DPCM.
Do độ tương quan giữa các mẫu tiếng nói khá lớn nên có thể thực hiện dự đoán
được một cách gần đúng với một giá trị mẫu nào đó. Một vài phương pháp mã hóa với
bộ dự đoán đã và đang được phát triển nhằm đạt được hiệu quả phổ tần cao để truyền tín
hiệu cũng như các tín hiệu băng rộng như video. Trong quá trình mã hóa có dự đoán,
ước lượng về mẫu tiếp theo có thể dự trên môi trường tương quan giữa các phần tử, các
đoạn hay các mẫu tín hiệu. Khi ước lượng này phù hợp thì sau lệnh giữa một giá trị mẫu
và giá trị mẫu dự đoán của nó còn nhỏ hơn nữa so với sai lệch giữa các mẫu kế tiếp. Vì
vậy, bằng cách sử dụng thêm bộ dự đoán ta có thể chỉ cần mã giá trị sai lệch giữa giá trị
thực và giá trị dự đoán của mẫu tín hiệu và số bit cần sử dụng để mã còn có thể giảm
hơn nữa so với DPCM không có bộ dự đoán. Nhờ vậy có thể giảm hơn nữa tốc độ truyền
và độ rộng phổ chiếm.
Theo cấu trúc mã và giải nén như hình 2.1, một bộ dự đoán được sử dụng để tạo ra
giá trị ước lượng của mẫu tiếp theo và sai lệch của sự ước lượng này với giá trị thực của mẫu
tín hiệu kế tiếp được mã hóa PCM. Tín hiệu lối vào của bộ dự đoán được hình thành từ một
bộ giải mã PCM. Ở phía thu, các thuật toán ngược lại được thực hiện. Tín hiệu lối vào bộ mã
hóa PCM ở phía phát là:

Trong đó, chỉ số n phía trên chỉ nhịp lấy mẫu thứ n.
Gía trị ước lượng của mẫu tiếp theo (tín hiệu lối ra của bộ dự đoán) được xác định từ
L mẫu trước đó theo biểu thức:

Các hệ số ai là các hệ số của thuật toán dự đoán, được lựa chọn một cách thích hợp.
Trong đó Sn = [n/fs] là giá trị lấy mẫu tại nhịp lấy mẫu thứ n.
2.3. Hiện tượng quá tải sườn
DPCM dựa trên tiền đề là các mẫu tín hiệu liên tiếp nói chung có độ chênh lệch nhỏ,
vì vậy chỉ cần ít bit để mã. Điều này đúng với các loại tín hiệu biến thiên tương đối chậm.
11



Với các tín hiệu biến thiên khá nhanh thì việc sử dụng tương đối ít bit để mã độ chênh lệch
sẽ gây méo tín hiệu. Hiện tượng này gọi là hiện tượng quá tải sườn.
Để thấy rõ hiện tượng này, ta xét trường hợp đơn giản nhất của DPCM là điều chế
delta (DM: Delta Modulation). Trong đó độ chênh lệch giữa hai mẫu liên tiếp được mã chỉ
bằng 1 bit: khi độ chênh lệch dương thì bit mã là 1, ngược lại khi độ chênh lệch âm, bit mã
là 0. Tại phía thu, một lượng cố định ∆ được cộng vào hay trừ đi với mức tín hiệu trước đó
(tính tích lũy) tùy theo cực tính của bit nhận đưucọ là 1 hay 0, hình thành 1 tín hiệu dạng bậc
thang. Sau đó tín hiệu bậc thang được cho qua lọc.

Hình 2.2. Hiện tượng quá tải sườn

III. ĐIỀU CHẾ XUNG MÃ VI SAI THÍCH ỨNG ADPCM
Đây là phương pháp mã hóa khá quan trọng, tập hợp được những ưu điểm của các
phương pháp trên và đã được ITU-T tiêu chuẩn hóa trong khuyến nghị G721, và đã có
nhiều ứng dụng trong thực tế như hệ thống di động CT2 của Hàn Quốc, DECT của Mỹ.
Vì vậy ta sẽ nghiên cứu sâu phương pháp. Các tốc độ tiêu chuẩn là 40,32,24,26 kbps.
Phương pháp này dựa trên tính chất thay đổi chậm của phương sai và hàm tự tương
quan, với phương pháp PCM ta dùng bộ lượng tử đều có công suất tạp âm là ∆ 2/12, phương
pháp ADPCM và các phương pháp dự đoán tuyến tính nói chung là thay đổi ∆ hay còn gọi
là phương pháp dùng bộ lượng tự hóa tự thích nghi. Các thuật toán được phát triển cho hệ
thống điều xung mã vi sai khi mã hóa tín hiệu tiếng nói bằng cách sử dụng bộ lượng tử hóa
và bộ dự đoán thích nghi, có thông số thay đổi theo chu kỳ để phản ánh tính thống kê của tín
hiệu tiếng nói.
3.1. Tổng quan
Bộ mã hóa có vai trò biến đổi tín hiệu điều chế xung mã PCM luật A hoặc µ 64 kbit/s
thành tín hiệu đầu ra có tốc độ là 40, 32, 24, 1 kbit/s.

12



a). Mã hóa

b). Giải mã
Hình 3.1. Mã hóa và giải mã ADPCM

3.1.1. Mã hóa ADPCM (ADPCM Encoding)
Sau khi biến đổi tín hiệu thành dạng PCM đồng dạng, tín hiệu vi phân được tính toàn,
bằng phép trừ giá trị ước lượng của tín hiệu vào và chính nó. Bộ lượng tử thích ứng 31-, 15-,
7-, 4 sử dụng 5, 4, 3 hoặc hai bit nhị phân tương ứng, giá trị của tín hiệu vi phân được truyền
đến phía thu. Một bộ lượng tử ngược tạo ra các tín hiệu vi sai lượng tử hóa từ các mẫu bit
này. Tín hiệu ước lượng được cộng vào tín hiệu vi phân lượng tử hóa này để hồi phục dạng
tín hiệu. Cả hai tín hiệu hồi phục và tín hiệu vi phân lượng tử hóa thực hiện nhờ bộ phỏng
đoán tương thích (adaptive predictor), có tác dụng ước lượng tín hiệu vào, và hoàn thành
vòng lặp.
3.1.2. Giải mã ADPCM (ADPCM Decoder):
Khối giải mã có cấu trúc gần giống với phần hồi tiếp của bộ mã hóa. Cùng với khối
biến đổi ngược lại từ PCM đồng dạng thành PCM luật A hoặc µ 64 kbit/s và khối điều chỉnh
13


mã hóa đồng bộ, khối điều chỉnh mã hóa đồng bộ điều chỉnh để tránh tích lũy méo xuất hiện
khi mã hóa đồng bộ Tandem. Điều chỉnh mã PCM phía ra sao cho méo lượng tử trong bước
tiếp theo là nhỏ nhất.
3.2. Nguyên lý mã hóa ADPCM (ADPCM Encoder Principles):
3.2.1. Biến đổi định dạng đầu vào (Input pcm format conversion)
Khối này biến đổi tín hiệu s(k) luật A hoặc µ PCM thành tín hiệu PCM sl(k) đồng
dạng.
3.2.2. Tính toán tín hiệu vi sai (Difference signal computation)

Tín hiệu vi sai d(k) được tính từ công thức (k):
d(k) = sl (k) –se(k)
Tín hiệu đồng dạng PCM sl(k)
Tín hiệu ước lượng se(k)
3.2.3. Bộ lượng tử tương thích (adaptive quantizer):
Bộ lượng tử thích ứng không đồng dạng các mức 31-, 15, 7-, 4 sử dụng để lượng
tử tín hiệu vi sai d(k) với các tốc độ tương đương 40, 32, 24, 16 kbit/s. Chu kỳ lượng tử,
d(k) được biến đổi dựa trên hai thuật toán representation và chia thang bởi y(k), được
tính với khối tương thích hệ số thang. Đặc tính đầu vào/ đầu ra tiêu chuẩn hóa của bộ
lượng tử như các bảng sau:

Bảng 3.1., Đặc tính vào ra của bộ lượng tử hóa 16kbps

14


Bảng 3.2. Đặc tính vào ra của bộ lượng tử hóa 40kbps

Bảng 3.3. Đặc tính vào ra của bộ lượng tử hóa 32kbps

15


Bảng 3.4 Đặc tính vào ra của bộ lượng tử hóa 24kbps

3.2.4. Bộ lượng tử hóa tương thích ngược (Inverse adaptive quantizer):
Một dạng lượng tử hóa của tín hiệu vi sai dq(k) được tạo ra bằng cách chia thang,
sử dụng y(k), giá trị cụ thể được lựa chọn từ đặc tính lượng tử hóa tiêu chuẩn như chỉ ra
ở các bẳng trên và sau đó kết quả được truyền từ vùng tính toán
3.2.5. Tương thích hệ số phân thang bộ lượng tử (quantizer scale factor adaptation):

Khối này tính toán hệ số y(k). Xung vào là 5-bit, 4-bit, 3-bit, 2-bit đầu ra là l(k)
và thông số điều khiển tiếng nói thích ứng al(k).
Nguyên lý căng bản sử dụng trong phân mức bộ lượng tử hóa là hai chế độ:



Nhanh với tín hiệu mà có tín hiệu mà có tín hiệu vi sai thay đổi lớn (thoại).
Nhanh với tín hiệu mà có tín hiệu vi sai có thay đổi nhỏ (số liệu).

Sự tương thích của tín hiệu tiếng nói được điều khiển bởi hệ số thang kết hợp
nhanh chậm.
Hệ số phân thang nhanh yu(k) được tính theo vòng lặp:
Yu(k) = (1-2-5)y(k) + 2-5W[I(k)], (2,-2)
Trong đó yu(k) được giới hạn trong khoảng 1.06 và 10.00.
Với ADPCM 40 kbit/s, hàm rời rạc W(I) được định nghĩa (giá trị chính xác) như
các bảng dưới đây:

16


Với ADPCM 32 kbit/s, hàm rời rạc W(I) được định nghĩa:

Với ADPCM 24 kbit/, hàm rời rạc W(I) được định nghĩa:

Với ADPCM 16 kbit/s, hàm rời rạc W(I) được định nghĩa:

Hệ số thang biến thiên chậm:

Sau khi tính được hai hệ số trên ta có giá trị kết hợp:


3.2.6. Bộ tính toán tín hiệu hồi phục và bộ phỏng đoán tương thích
Hàm sơ cấp của bộ đoán tương thích để tìm tín hiệu ước lượng s e(k) từ tín hiệu sai
số lượng tử dq(k). Sử dụng cấu trúc hai bộ phỏng đoán, hàm truyền theo mô hình 6 điểm
không, hai điểm cực. Dùng hai bộ để tránh xung đột tín hiệu.
Tính tín hiệu ước lượng theo công thức:

Trong đó:

Tín hiệu hồi phục được định nghĩa như sau:

17


Các bộ số phỏng đoán được tính và cập nhật.
Bộ tiên đoán bậc hai:

Trong đó:

Và sgn[0] = 1, ngoại trừ sgn [p(k-1)] = 0 chỉ khi p(k-1) = 0 và I=0.
3.3. Nguyên lý giải mã ADPCM:

Hình 3.2. Sơ đồ khối giải mã ADPCM

Các nguyên lý chung về giải mã như bộ lượng tử thích ứng đảo, bộ lượng tử thích
ứng hệ số thang, điều khiển tốc độ thích ứng, bộ tính tín hiệu hồi phục và tiên đoán tương
thích đều có chung đặc điểm với các phần đã trình bày trong phần mã hóa ADPCM
3.3.1. Biến đổi định dạng đầu ra PCM
Khối này biến đổi tín hiệu phục hồi đồng dạng PCM s r(k) thành tín hiệu PCM sp(k)
luật A hoặc µ theo yêu cầu.
18



3.3.2. Điều chỉnh mã hóa đồng bộ
Việc này thực hiện để tránh tích lũy méo khi mã hóa tandem đồng bộ (ADPCMPCM-ADPCM, etc, kết nối số), khi:
1. Truyền ADPCM và tín hiệu trung gian 64 kbit/s PCM không lỗi.
2. ADPCM và chuỗi bit PCM 64 kbit/s không bị nhiễu bởi phần cứng.
Nếu bộ mã hóa và giải mã có cùng điều kiện khởi tạo, khi đó việc đồng bộ tandem
phải mất thời gian khởi tạo. Hơn nữa, nếu bị nhiễu hoặc không nhận được tín hiệu khởi tạo,
khi đó có thể phục hồi tín hiệu ở băng 200 đến 3400Hz.
Khi bộ giải mã và mã hóa đồng bộ, khối điều chỉnh đồng bộ mã hóa ước lượng lượng
tử ở phần mã hóa. Nếu tất cả các biến trạng thái ở hai phía là như nhau và phần truyền không
bị lỗi, thì điều kiện không bị méo có thể được đảm bảo.
Điều này có thể đạt được bằng cách biến đổi tín hiệu luật A và µ thành PCM đồng
dạng và sau đó tính tín hiệu vi sai dx(k):

dx(k) được so sánh với độ chính xác của bộ lượng tử ADPCM chu kỳ được quyết định
với I(k) và y(k). Khi đó sd(k) như sau:
sd(k) = sp+(k) nếu dx(k) < biên dưới của khoảng lặp
= sp-(k), nếu dx(k) >= biên trên của khoảng lặp
= sp với các trường hợp khác
Trong đó:
Sd(k) là từ mã phía ra của bộ giải mã.
sp+(k) là từ mã thể hiện mức ra PCM dương.
sp-(k) là từ mã thể hiện mức ra PCM âm.
IV. MÃ HÓA ÂM THANH
4.1. MPEG là gì?
MPEG, viết tắt của cụm từ “Moving Picture Experts Group” là một nhóm chuyên
nghiên cứu và phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo tiêu chuẩn
ISO/IEC.
Âm thanh MPEG (MPEG-Audio).

Khả năng của âm thanh MPEG, về cơ bản âm thanh MPEG sẽ làm giảm kích thước
lưu trữ 1 tập tin âm thanh đi rất nhiều. Một đĩa Audio – CD được lưu trữ được khoảng 650
19


Mbyte dữ liệu âm thanh thô với cách mã hóa 16 bit (bitdepth) và tần số lấy mẫu (sample
rate) 44.1 kHz. Nếu đem phát ra thì cũng chỉ được khoảng 60-72 phút.
-bitdepth: mô tả mức biên độ lớn nhất mà một mẫu âm thanh có thể đạt tới. VD: 8 bit
= 256 mức
- sample rate: mô tả số mẫu âm thanh lấy được trong 1 giây. VD 22 kHz = 22.000
mẫu / 1 giây
Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thông tin. Ví dụ đổi
lưu trữ âm thanh từ 16 bit snag 8 bit thì kích thước lưu trữ giảm đi 1 nửa song song với đó là
chất lượng âm thanh giảm đi 1 nửa.
4.1.1. Các khái niệm âm thanh MPEG
a.Hiệu ứng che (masking): nói đơn giản là âm lớn át âm bé, âm mạnh át âm yếu.

Hình 4.1. Hiệu ứng che âm thanh

b. Ngưỡng nghe và mức nhạy cảm
Ngưỡng nghe: là mức mà dưới nó 1 âm thanh không thể nghe được. Nó thay đổi theo
tần số âm thanh, và dĩ nhiên giữa mỗi người khác nhau. Hầu hết mọi người đều nhạy cảm ở
mức 2 đến 5kHz. Một người có nghe đươc âm thanh hay không tùy thuộc vào tần số âm và
độ to của âm đó ở trên hay dưới ngưỡng nghe tại tần số đó. Tai nhạy cảm ở mức 2 đến 5
kHz.
Ngưỡng nghe cũng có tính thích nghi, thay đổi cố định
âm thanh mà ta nghe được. Ví dụ, một cuộc nói chuyện bình thường
một phòng thì có thể nghe được rõ ràng ở điều kiện bình thường.
nhiên, cũng cuộc trò chuyện đó nằm trong vùng lân cận của những
ồn lớn, như là tiếng ồn do một chiếc phản lực bay ngang bên trên, là

toàn không thể nghe được do lúc này ngưỡng nghe đã bị sai lệch.
20

bởi
trong
Tuy
tiếng
hoàn
Khi


chiếc phản lục đã đi rồi thì ngưỡng nghe trở lại bình thường. Aâm thanh
mà ta không thể nghe được do sự thích nghi động của ngưỡng nghe gọi là
bị “che” (masked).
c. Che tần số (Frequency Masking)
Thí nghiệm:
Phát ra 1 âm có tần số với 1 kHz với mức to là 60 dB, gọi là “âm che”. Phát ra một
âm khác ở mức tần số khác, và tăng mức to của âm này cho đến khi có thể nghe đươc nó.
Làm lại thí nghiệm với các âm thử và vẽ ra một ngưỡng mà tại đó các âm thử bắt đầu
có thể phân biệt được
Làm thí nghiệm với các masking tones khác nhau ta có hình vẽ:

Hình 4.2. Masking Frequency

d. Che nhất thời (Che thời gian)
Nếu ta nghe một âm thanh lớn, rồi ngưng nó lại, mãi một lúc sau ta mới có thể nghe
được một âm lân cận nhỏ hơn.
4.1.2. Hoạt động
Khi đưa ra các phương pháp mã hóa âm thanh, nền tảng vẫn là yếu tố “hệ thống
nghe” của con người. Đó là thiết bị nghe duy nhất mà chúng ta có được. Đặc tính phi tuyến

của ngưỡng nghe và khả năng thích hơp của nó cũng là ưu điểm và cũng là khuyết điểm.
MPEG-Audio là kỹ thuật nén không chặt, giả thiết về bản chất nguồn của âm thanh.
MPEG khai thác giới hạn nhận thức của hệ thống thính giác của con người: xóa bỏ những tín
hiệu audio không phù hợp với nhận thức thính giác con người. MPEG cho phép ba hệ số
mẫu: 32, 44.1 và 48 kHz.
21


MPEG-Audio là một họ ba sơ đồ giải nén: MPEG-Audio layer 1, layer 2, layer 3 với
độ phức tạp tăng dần và tỷ suất nén cũng tăng dần. Bộ giải nén tầng cao, có thể giải nén
encoded stream được mã hóa bởi bộ mã hóa thấp hơn.
4.2. Các đặc điểm của MPEG
4.2.1. Lược đồ mã hóa perceptual subband
Bộ mã hóa âm thanh theo “Perceptual Subband” phân tích liên tục các tín hiệu vào và
xác định các đường cong che (masking curver), đó chính là các âm thanh mà tai người
không nghe được.

Hình 4.3. Sơ đồ mã hóa MPEG

Tín hiệu vào được chia thành 1 số dải tần số, gọi là “subband”. Mỗi tín hiệu
“subband” được lượng tử hóa theo cách mà sự lượng tử hóa bắt đầu với điều kiện mã hóa
không được vượt qua đường cong che của subband đó. Thông tin trên bộ số hóa được dùng
trong mỗi subband được truyền dọc theo các mẫu subban được mã hóa. Bộ giải mã sẽ giải
mã dòng bit mà không cần biết cách mà bộ mã hóa xác định những thông tin cần giải mã.
Điều này cho phép bộ mã hóa hoạt động với những mức độ khác nhau về chất lượng và độ
phức tạp, và cũng cho phép sự phát triển trong tương lai về bộ mã hóa.
Các subband chủ yếu hoạt động nền tảng dưa trên masking effect (hiệu ứng che).
22



4.2.2. Các lớp trong MPEG
a. Lớp I (Layer I):
Đây là lớp đơn giản nhất phù hợp cho ứng dụng của người dùng.
Mô hình âm học tâm lý của lớp này chỉ sử dụng các tần số che. Điều này
có nghĩa rằng nó sẽ bỏ qua các tần số bị khuất sau các tần số khác. Phạm
vi tốc độ bit từ 32 kbit/s (mono) đến 448 kbit/s (stereo). Tùy thuộc vào
mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng cao (gần với
âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên một chương
trình stereo. Không nên mã hóa với mức nén cao hơn 384 kb/s. Độ phức
tạp của bộ giải mã thấp, độ phức tạp của bộ mã hóa cao hơn 1.5 - 3 lần.
Lớp I được dùng nhiều trong DDC và Solid State Audio.
b. Lớp II (Layer II):
Lớp II đề nghị mức độ nén cao hơn lớp I và mức độ lọc sâu hơn.
Nó có những ứng dụng số cho cả âm thanh chuyên nghiệp và tài tử, như
qua đài phát thanh, TiVi...Phạm vi tốc độ bit từ 32 - 192 kb/s cho âm thanh mono, và từ 64 384 kb/s cho âm thanh stereo. Tùy thuộc vào mức độ phức tạp của bộ mã hóa, một âm thanh
chất
lượng
cao
(gần
với
âm
thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên một chương trình
stereo. Mức độ phức tạp của bộ giải mã 25% cao hơn so với lớp I, và bộ
mã hóa có mức phức tạp cao hơn 2 - 4 lần.
c. Lớp III (Layer III).
Lớp III còn đưa ra mức độ nén và lọc cao hơn cả lớp II và sử dụng
một bộ mã hóa Huffman

Bảng 4.1. Độ phức tạp của Layer


Trong bảng trêm, độ phức tạp của bộ giải mã lớp I được dùng để
so sánh.
4.3. CÁC THÔNG SỐ DÙNG TRONG MPEG-AUDIO

23


Chuẩn MPEG-Audio cho phép ta chọn lựa các thông số cho việc nén âm thanh tốt
nhất phù hợp với ứng dụng mà ta sử dụng. Lược đồ mã hóa cho các loại là tổng quát. Các
thông số có thể lựa chọn trong bộ mã hóa MPEG bao gồm: Mode, Sampling frequency,
bitrate và Layer.
a. Mode.
Chuẩn MPEG có 4 chế độ:





Mono.
Dual channel.
Stereo.
Intensity Stereo.

Chế độ Mono rõ ràng được dùng cho âm thanh 1 kênh.
Để chọn chế độ cho các ứng dụng 2 kênh, đầu tiên ta phải xác
đâu là tín hiệu trái và đâu là tín hiệu phải để chia chúng ra thành 2
khác nhau, nhằm sau này ta có thể làm việc độc lập trên kênh trái
phải. Lúc đó ta sẽ chọn chế độ Mono. Nếu 2 kênh không cần hoạt
độc lập, ta chọn Stereo, Dual hay Intensity Stereo để tạo một file duy nhất.


định
files
hoặc
động

Chế độ Stereo hay kênh Dual là hoàn toàn đồng nhất khi chúng
cùng sinh ra một file duy nhất cho tín hiệu stereo. Tuy nhiên một bit chỉ
thị sẽ nhận dạng xem một file là ở chế độ nào và có thể được dùng cho
những áp dụng nào.
Chế độ Intensity Stereo xem xét sự dư thừa giữa các kênh trái và
phải nhằm tối ưu mã. Chất lượng chủ quan của Intensity Stereo thay đổi
theo hình ảnh stereo của tín hiệu đã mã hóa. Tuy nhiên nó đặc biệt thích
hợp cho tốc độ truyền bit thấp.
b. Sampling Frequency (tốc độ lấy mẫu)
Một số tốc độ lấy mẫu:
- 32kHz,
11172-3).
16kHz,
ISO/IEC13818-3).

44.1kHzvà

48kHz

đối

22.05kHzvà24kHz

với
đối


MPEG1
với

(Tiêu

chuẩn

MPEG2

ISO/IEC

(Tiêu

chuẩn

Khi chọn lựa tốc độ lấy mẫu cần xem xét các vấn đề:
Tần số lấy mẫu
cao(độ dài frame nhỏ hơn).

càng

lớn

24

thì

chất


lượng

âm

thanh

càng


Băng thông tín hiệu giới hạn ở mức 15 kHz khi lấy mẫu ở tốc
độ 32 kHz và 8 kHz ở tốc độ 16 kHz.
Tần số lấy
có thể chọn độc lập.

mẫu

(kHz)



tốc

độ

của

âm

Tần số lấy mẫu 44.1 kHz hay 22.05
cho việc chọn lọc vì độ dài frame (byte) là thay đổi.

Những file được
khó khăn khi hòa trộn.

lấy

Khi dùng đường
định bởi tín hiệu nhập

mẫu

nhập

số



những

thanh

kHz
tần

AES/EBU,



số

tần




hóa

không

(kbps)

thiết

thực

khác

nhau

thì

rất

lấy

mẫu

bị

cố

số


Nếu không bắt buộc, Digigram yêu cầu lấy mẫu ở 48 kHz hoặc 44.1
kHz cho phát thanh hay ứng dụng multimedia. Nếu ta phải sử dụng tốc độ
bit thấp cho sự truyền có hiệu qủa, tốc độ 24 kHz là thích hợp.
c. Bit Rate.
Mỗi Layer và chế độ có nhiều cách chọn lựa tốc độ bit (bit rate).
Việc chọn tốc độ bit tùy thuộc trước tiên vào chất lượng âm yêu cầu. Băng
thông tín hiệu là hẹp hơn nếu tốc độ bit thấp, khiến cho nó không thực tế
đối với một số ứng dụng. Tốc độ bit được đo theo kilobits/sec(kbps).
Khi chọn lựa tốc độ bit cần xem xét các vấn đề:
Tại 128 kbps trên mỗi kênh (hay
âm thanh CD sẽ đạt được với Layer I hay Layer II.
Tại 192
toàn trong suốt.

kbps

trên

mỗi

kênh,

256

chất

kbps

lượng


stereo),
âm

thanh

chất

lượng



hoàn

Tốc độ 128 kbps/kênh được dùng phổ biến nhất trong phát thanh.
Nó tương ứng với tỉ số nén 1:6 ở tốc độ lấy mẫu 48 kHz. Tốc độ thấp hơn
128 kbps/kênh được dùng trong các ứng dụng yêu cầu tỉ số nén lớn hơn
do giới hạn của băng thông truyền hay thiết bị lưu trữ.
Một số tốc độ bit cung cấp bởi chuẩn âm thanh MPEG :
MPEG 1: 32 kHz, 44.1 kHz và 48 kHz
- Layer I : 32, 64, 96, 128, 160, 192, 224, 256, 288, 320, 352, 384, 416, 448
kbps.
Những tốc độ này có thể ở chế độ Môn hay stereo..
25


×