Tải bản đầy đủ (.docx) (17 trang)

sơ đồ khối bộ mã hóa DPCM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (754.19 KB, 17 trang )

Sơ đồ khối bộ mã hóa DPCM

Bộ lọc dự đoán





Thực chất bộ lọc dự đoán gồm nhiều mạch trễ nối tiếp
Thời gian trễ TS của mỗi mạch bằng chu kỳ lấy mẫu
Nếu bộ lọc dự đoán chỉ dùng 1 mạch trễ thì sự dự đoán là bậc 1
Nếu dùng 3 mạch trễ liên tiếp dự đoán bậc 3

Dự đoán bậc 3 cho sự đánh giá tốt hơn bậc 1, tạo ra khả năng mã hoá và số bit ít hơn


Sơ đồ khối bộ giải mã DPCM

Phương pháp mã hóa dự đoán tuyến tính LPC (tt)
 Sơ đồ khối bộ mã hóa và giải mã LPC:
 Mã hóa:

Tín
hiệu
thoại

Lấy mẫu
fs =8000
mẫu/s

Xác định âm


hữu thanh

{aPitch
p(k)



hay vô

Kích thích

hóa

thanh và
kích thích



Giải mã:

}


H ( z) =

G
p

1 + ∑ a p (k ) z − k
k =1


Pitch
Kích thích
Giải mã

{ap(k)}

Bộ tạo tín

Bộ lọc IIR

hiệu

H(z)

Tín hiệu

Lọc thông

thoại

thấp


 Quá trình mã hóa:
 Lấy mẫu:
• Tín hiệu tiếng nói được lấy mẫu ở tốc độ f s = 8000 mẫu/s.





• Sau đó được chia thành các segment: (160 mẫu, 20 ms)
Xác định âm hữu thanh hay vô thanh:
• Căn cứ vào biên độ (năng lượng) hay tần số tín hiệu trong segment
• Dùng 1 bit để báo cho bộ giải mã biết.
Ước lượng tần số pitch
• Dựa vào hàm tự tương quan
• Giá trị pitch được lượng tử hóa và mã hóa dùng 6 bit
Xác định các thông số của bộ lọc




Các hệ số của bộ lọc G, {ap(k)}.

 Quá trình giải mã:
 Xác định tín hiệu kích thích và tần số pitch:
• Khi segment là âm vô thanh: tạo nguồn kích thích là nhiễu trắng
• Khi segment là âm hữu thanh: tạo nguồn là chuỗi xung tuần hoàn
 Xác định các hệ số G và {ap(k)} cho từng segment.


Cho tín hiệu kích thích qua bộ lọc à tạo ra tín hiệu thoại.

Mỗi segment được giải mã độc lập, sau đó được kết hợp lại với nhau

Kết hợp câu 2.6 trrong đề cương
Bài tập liên quan




Ưu nhược điểm của LPC
 Giới hạn 1: Trong một số trường hợp, một khung âm thanh không phải chỉ được phân
loại thành hữu thanh và vô thanh
 Giới hạn 2: Việc sử dụng hoàn toàn nhiễu ngẫu nhiên hoặc hoàn toàn chuỗi xung có chu
kỳ tạo kích thích không phù hợp với thực tế
 Giới hạn 3: Thông tin về pha của tín hiệu nguyên thủy không được xem xét.
 Giới hạn 4: Phương pháp thực hiện việc tổng hợp các khung thoại, trong khi một chuỗi
xung dùng để kích thích bộ lọc tổng hợp với các hệ số có được từ việc phân tích LP vi
phạm nền tảng của mô hình AR.
Mã hóa âm thanh bằng cảm nhận


Kỹ thuật che(masking)
Con người khi nghe một âm với sự có mặt của một âm khác sẽ cảm nhận yếu đi khi âm này có
tần số gần với âm cần nghe hoặc biên độ lớn.
Mặt nạ tần số:

Khi nghe hai âm thanh mạnh yếu khác nhau với tần số khác nhau xảy ra cùng lúc,
âm mạnh hơn có thể “che khuất” khiến tai không nghe được âm yếu hơn.
Hiệu ứng này gọi là mặt nạ tần số

Mặt nạ thời gian:


Nếu âm yếu hơn được phát ra ngay trước hoặc ngay sau âm mạnh hơn thì cũng bị
“che khuất”. Hiệu ứng này gọi là mặt nạ thời gian (temporal masking).

Mã hóa audio cảm quan (perceptual encoding) là một kỹ thuật lợi dụng những đặc
điểm cảm quan của tai người để đạt được tỷ lệ nén cao với chất lượng nén tốt.

 Phân tích tín hiệu thành các dải tần số riêng biệt qua việc sử dụng dải bộ
lọc.
 Phân tích năng lượng tín hiệu trong các dải khác nhau và xác định
ngưỡng che tổng của mỗi dải bởi các tín hiệu trong dải khác.
 Lượng tử hóa các mẫu trong các dải khác nhau có tỷ lệ chính xác với
mức che.
 Một tín hiệu nào đó dưới mức che không cần mã hóa.
Tín hiệu trên mức che được lượng tử hóa và các bit được gán qua các dải sao
cho mỗi bit thêm vào có thể giảm tối đa méo cảm nhận

Output

Giải thuật mã hóa cảm nhận

.


1. Bộ lọc chia tín hiệu audio (e.g., 48 kHz sound) thành các băng con
ví dụ MPEG chia thành 32 băng con (sub-band filtering)
1. Xác định masking cho mỗi băng dựa trên ngưỡng nghe và mức năng
lượng của các băng liền kề (Psychoacoustic Model)
2. Nếu năng lượng trong băng thấp hơn ngưỡng mặt nạ thì không mã hóa
3. Nếu không xác định số các bít cần đại diện hệ số trong băng sao cho
nhiễu lượng tử dưới ngưỡng mặt nạ.
4. Định dạng luồng bít: Chèn phần tiêu đề, mã hóa dùng Huffman...vv
Ex:
 Say, performing the sub-band filtering step on the input results in the
following values (for demonstration, we are only looking at the first 16
of the 32 bands):


Band

1

2

3

4

5

6

7

8

9

10

11

1
2

1
3


1
4

1
5

1
6

Leve
l

0

8

1
2

1
0

6

2

1
0

6

0

3
5

2
0

1
5

2

3

5

3

1

❒ The 60dB level of the 8th band gives a masking of 12 dB in the 7th band, 15dB in
the 9th. (according to the Psychoacoustic model)
❒ The level in 7th band is 10 dB ( < 12 dB ), so ignore it.
❒ The level in 9th band is 35 dB ( > 15 dB ), so send it.
❒ We only send the amount above the masking level
❒ Therefore, instead of using 6 bits to encode it, we can use 4 bits -- a
saving of 2 bits (= 12 dB).
❒ “determine number of bits needed to represent the coefficient such
that, the noise introduced by quantization is below the masking

effect” [noise introduced = 12bB; masking = 15 dB]
Liên hệ MP#3


LZW

Kết quả: input:
output :

16*8=128bit
5*8+5*9=85bit


tỷ số nén 128/85=1,5

Nénanhr
 Tín hiệu video thường chứa đựng một lượng lớn các thông tin thừa, chúng thường được
chia thành hai loại:
 1. Thừa tĩnh bên trong từng frame (statistical) : Nén trong ảnh
 2. Thừa động giữa các frame (subjective): Nén liên ảnh
Nén liên ảnh:

 Loại bỏ dư thừa về thời gian được thực hiện trước hết nhờ sử dụng các tính chất giống nhau
giữa các ảnh liên tiếp (Inter-frame techniques).
 Các bức ảnh mới được tạo ra nhờ vào những thông tin từ những ảnh đã gửi trước nó
(“predicted”).
 Phía bộ mã hoá chỉ cần gửi những bức ảnh có thay đổi so với những ảnh trước, sau đó ta lại
dùng phương pháp nén về không gian để loại bỏ sự dư thừa về không gian trong chính bức
ảnh sai khác này.
Dự đoán chuyển động và bù chuyển động

 Nguyên lý dự đoán bù chuyển động là tìm ra các vùng ảnh giống nhau hoặc gần giống
nhau giữa hai ảnh kế tiếp (gọi là ảnh tham khảo và ảnh dự đoán). Thông tin về ảnh dự
đoán sẽ được truyền đi dưới dạng vector chuyển động tức vector xác định vị trí mới của
vùng ảnh thuộc ảnh tham khảo có mặt trong ảnh dự đoán.
 Quá trình tìm kiếm hướng chuyển động của vật thế là “ước lượng chuyển động” (Motion
Estimation). Kết quả về sự chuyển dịch của vật thể theo hai hướng x, y được phản ánh
bằng giá trị vector gọi là “vector chuyển động”
 Quá trình khôi phục ảnh dựa trên vector này gọi là quá trình bù chuyển động (motion
compensation).
 Dựa trên sự phán đoán hướng chuyển động của các bức ảnh tức là các ảnh thành phần
trong dãy video sẽ được thay thế gần đúng.
 Hạn chế bớt các thông số của chuyển động bởi việc dùng các vector chuyển động để mô
tả sự dịch chuyển của các điểm ảnh.
 Kết quả tiên đoán tốt nhất của một điểm ảnh là dựa trên sự tiên đoán bù chuyển động từ
một bức ảnh đã mã hoá được truyền phía trước của nó.
 Cả hai thông số, sai số chuyển động (biên độ) và các vectors chuyển động (hướng chuyển
động) đều được truyền tới phía bên nhận
Nén trong ảnh;


 Nén về không gian dựa trên nguyên tắc là phát hiện sự giống nhau của các điểm ảnh
(pixels) lân cận nhau (Intra-frame coding techniques): Ví dụ JPEG

MPEG
 MPEG-1 ~ 1-1.5Mbps (early 90s)
 For compression of 320x240 full-motion video at rates around
1.15Mb/s
 Applications: video storage (VCD)
 MPEG-2 ~ 2-80Mbps (mid 90s)
 For higher resolutions

 Support interlaced video formats and a number of features for
HDTV
 Address scalable video coding
 Also used in DVD
 MPEG-4 ~ 9-40kbps (later 90s)
 For very low bit rate video and audio coding
 Applications: interactive multimedia and video telephony
 MPEG-21 ~ ongoing
CHUẨN nén MPEG






Tiêu chuẩn MPEG là sự kết hợp giữa nén trong ảnh và nén liên ảnh.
Phương pháp nén có tổn hao dựa trên sự biến đổi DCT
Bù chuyển động.
MPEG dùng biểu diễn màu bằng YC C .
r b
Nén MPEG là sự kết hợp hài hoà của bốn kỹ thuật cơ bản:
1.Tiền xử lý (Preprocessing)
2. Dự đoán trước sự chuyển động của các frame ở bộ mã hoá (temporal prediction)
3. Bù chuyển động ở bộ giải mã (motion compensation)
4. Mã lượng tử hoá (quatisation coding).








 Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu video và những
thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ của mắt người.
 Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các ảnh trong chuỗi video dường như
có liên quan mật thiết với nhau theo thời gian: Mỗi frame tại một thời điểm nhất định sẽ
có nhiều khả năng giống với các frame đứng ngay phía trước và ngay phía sau nó.
 Các bộ mã hoá sẽ tiến hành quét lần lượt từng phần nhỏ trong mỗi frame gọi là macro
blocks, sau đó nó sẽ phát hiện macro block nào không thay đổi từ frame này tới frame
khác. Bộ mã hoá sẽ tiên đoán trước sự xuất hiện của các macro blocks khi biết vị trí và
hướng chuyển động của nó. Do đó chỉ những sự thay đổi giữa các khối trong frame hiện
tại (motion compesated residual) và các khối được tiên đoán mới được truyền tới bên
phía thu. Phía bên thu tức bộ giải mã đã lưu trữ sẵn những thông tin mà không thay đổi từ
frame này tới frame khác trong bộ nhớ đệm của nó và chúng được dùng để điền thêm một
cách đều đặn vào các vị trí trống trong ảnh được khôi phục




A Group-of-Picture (GOP) contains 3 types of frames (I/P/B)



Frame order
I1 BBB P1 BBB P2 BBB I2 …



Coding order
I1 P1 BBB P2 BBB I2 BBB …

 Ảnh loại I (Intra-picture)
 Ảnh loại P (Predicted-picture)
 Ảnh loại B ( Bi-directional predicted picture)

Cấu trúc của một GOP có thể được mô tả bởi hai tham số: N là số các ảnh trong GOP và M là khoảng
cách giữa các ảnh P-pictures.

ảnh I
 Kiểu ảnh ‘Intra’ (I-pictures) là ảnh được mã hoá một cách độc lập mà không cần tham khảo
tới các ảnh khác. Hiệu quả nén tín hiệu đạt được do loại bỏ sự thừa về không gian mà không
có yếu tố thời gian tham gia vào quá trình.
 I-pictures được dùng một cách tuần hoàn để tạo thành các điểm tựa cho dòng dữ liệu trong
quá trình giải mã.
ảnh P


 Ảnh ‘Predictive’ (P-pictures) có thể sử dụng các ảnh I hoặc P ngay sát phía trước nó để
bù chuyển động và chính nó cũng có thể được dùng để tham khảo cho việc tiên đoán các
ảnh khác tiếp theo.
 Mỗi khối ảnh trong P-picture có thể hoặc được mã theo kiểu tiên đoán (predicted) hoặc
được mã một cách độc lập (intra-coded).
 Do sử dụng cả nén theo không gian và thời gian, hiệu quả nén của P-pictures được tăng
lên một cách đáng kể so với I-pictures.
ẢNh B

 Ảnh B- Pictures có thể sử dụng các ảnh I hoặc P phía trước hoặc phía sau nó cho việc bù
chuyển động và do vậy cho kết quả nén cao nhất.
 Mỗi khối trong B-pictures có thể được tiên đoán theo chiều ngược, xuôi, cả hai hướng
hoặc được mã một cách độc lập. Để có thể tiên đoán ngược từ một bức ảnh phía sau nó,
bộ mã hoá sẽ tiến hành sắp xếp lại các bức ảnh từ thứ tự xuất hiện một cách tự nhiên sang

một thứ tự khác của các ảnh trên đường truyền.
 B-pictures được truyền sau các ảnh dùng để tham khảo ở phía trước và phía sau của nó.
 Điều này sẽ tạo ra độ trễ do phải sắp xếp lại thông tin, độ trễ này lớn hay nhỏ là tuỳ thuộc
vào số các bức ảnh B-pictures liên tiếp nhau được truyền.

Cấu trúc dòng bit MPEG

Kiến trúc dòng dữ liệu MPEG


 1. Khối: là block 8x8 điểm ảnh của tín hiệu chói hoặc tín hiệu màu .
 2. Lớp macroblock: Ảnh số trong MPEG được chia ra thành các Macroblock kích thước
 16x16. Trong một macroblock có thông tin về 4 block Y, 1 block Cr và 1 block Cb (theo
chuẩn lấy mẫu 4:2:0).
 3. Mảng (Slice): Là một chuỗi macroblock kề nhau. Kích thước lớn nhất của mảng có
thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một macroblock. Slice
header chứa đựng vị trí của mảng trong toàn bộ ảnh, và hệ số lượng tử dùng để xác định
ma trận lượng tử trong quá trình giải mã slice.
 4. Ảnh (Picture): có 3 loại ảnh là ảnh P, I hay ảnh B. Picture header chứa thông tin về:
thứ tự ảnh trong nhóm ảnh (thông tin này dùng để sắp xếp các lại thứ tự ảnh ở decoder),
loại ảnh, kích thước vùng tìm kiếm vector chuyển động.
 Nhóm ảnh (GOP): nhóm ảnh là tổ hợp của nhiều ảnh I, P và B. Như đã đề cập ở phần
trên, cấu trúc nhóm ảnh được xác định bằng hai tham số M và N. Mỗi một nhóm ảnh bắt
đầu bằng một khung I. GOP header chứa mã xác định thời gian của ảnh đầu tiên trong
nhóm.
 Đoạn ảnh (Sequence of pictures): Đoạn ảnh bắt đầu bằng sequence header, sau đó là một
hoặc nhiều GOP, cuối cùng là từ mã "end-of-sequence". Sequence header chứa đựng các


thông số như: kích thước của ảnh, khổ ảnh, tần số ảnh, tốc độ bit của dòng video số, tần

số ảnh và kích thước bộ nhớ đệm.
Bộ mã hóa MPEG tiêu biểu

Bộ giải mã MPEG

Hoạt động mã hóa MPEG
 Quá trình mã hoá cho P pictures và B pictures được giải thích như sau:
 Dữ liệu từ các khối ảnh (macroblocks) cần được mã hoá sẽ được đưa đến cả bộ trừ
(Subtractor) và bộ đoán chuyển động (Motion Estimator).


 1. Bộ đoán chuyển động sẽ so sánh các khối ảnh mới được đưa vào này với các khối ảnh
đã được đưa vào trước đó và được lưu lại như là các ảnh dùng để tham khảo (Reference
Picture). Kết quả là bộ đoán chuyển động sẽ tìm ra các khối ảnh trong ảnh tham khảo gần
giống nhất với khối ảnh mới này. Bộ đoán chuyển động sau đó sẽ tính toán vector chuyển
động (Motion Vector), vector này sẽ đặc trưng cho sự dịch chuyển theo cả hai chiều dọc
và ngang của khối ảnh mới cần mã hoá so với ảnh tham khảo. Chúng ta lưu ý rằng vector
chuyển động có độ phân giải bằng một nửa do thực hiện quét xen kẽ.
 2. Bộ đoán chuyển động cũng đồng thời gửi các khối ảnh tham khảo này mà chúng
thường được gọi là các khối tiên đoán (Predicted macroblock) tới bộ trừ để trừ với khối
ảnh mới cần mã hoá (thực hiện trừ từng điểm ảnh tương ứng tức là Pixel by pixel). Kết
quả là ta sẽ được các sai số tiên đoán (Error Prediction) hoặc tín hiệu dư, chúng sẽ đặc
trưng cho sự sai khác giữa khối ảnh cần tiên đoán và khối ảnh thực tế cần mã hoá.
 3.Tín hiệu dư hay sai số tiên đoán này sẽ được biến đổi DCT, các hệ số nhận được sau
biến đổi DCT sẽ được lượng tử hoá để làm giảm số lượng các bits cần truyền. Các hệ số
này sẽ được đưa tới bộ mã hoá Huffman, tại đây số bits đặc trưng cho các hệ số tiếp tục
được làm giảm đi một cách đáng kể. Dữ liệu từ đầu ra của mã hoá Huffman sẽ được kết
hợp với vector chuyển động và các thông tin khác (thông tin về I, P, B pictures) để gửi tới
bộ giải mã.
 Đối với trường hợp P-pictures, các hệ số DCT cũng được đưa đến bộ giải mã nội bộ (nằm

ngay trong bộ mã hoá). Tín hiệu dư hay sai số tiên đoán được biến đổi ngược lại dùng
phép biến đổi IDCT và được cộng thêm vào ảnh đứng trước để tạo nên ảnh tham khảo
(ảnh tiên đoán). Vì dữ liệu ảnh trong bộ mã hoá được giải mã luôn nhờ vào bộ giải mã
nội bộ ngay chính bên trong bộ mã hoá, do đó ta có thể thực hiện thay đổi thứ tự các bức
ảnh và dùng các phương pháp tiên đoán
Giải mã
 Quá trình khôi phục lại ảnh tại bộ giải mã là hoàn toàn ngược lại. Từ luồng dữ liệu nhận
được ở đầu vào, vector chuyển động được tách ra và đưa vào bộ bù chuyển động (Motion
Compensator), các hệ số DCT được đưa vào bộ biến đổi ngược IDCT để biến tín hiệu từ
miền tần số thành tín hiệu ở miền không gian. Đối với P pictures và B pictures, vector
chuyển động sẽ được kết hợp với các khối tiên đoán (predicted macroblock) để tạo thành
các ảnh tham khảo.



×