0
Bộ giáo dục và đào tạo
TRờNG ĐạI Học BáCH KHOA Hà Nội
Luận văn thạc sĩ khoa học
nén ảnh động dùng wavelet
Ngành: Điện tử viễn thông
Nguyễn Hữu phát
Ngời hớng dẫn khoa học
: PGS TS. Hồ Anh Tuý
Hà nội 2005
1
Mục lục
Trang
Lời nói đầu 4
Chơng 1 TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG
6
1.1. Khái niệm về Video và phơng pháp nén Video 5
1.1.1. Khái niệm Video 5
1.1.1.1. Không gian mầu (Color Space) 5
1.1.1.2. Các cơ cấu số hoá tín hiệu Video 6
1.1.2. Các phơng pháp nén Video
8
1.1.2.1. Giảm tốc độ dòng bit 9
1.1.2.2. Nén dòng tín hiệu Video số theo không gian
10
1.1.2.3. Nén dòng tín hiệu theo thời gian.
11
1.1.2.4. Nén hỗn hợp sử dụng tổ hợp các phơng pháp trên 11
1.1.3. Tham số nén Video. 11
1.2. Giới thiệu chung về chuẩn MPEG 12
1.3. Các khái niệm cơ bản trong nén Video theo chuẩn MPEG.
14
1.3.1. Cấu trúc phân cấp Video theo chuẩn MPEG. 14
1.3.2. Phân loại frame Video. 17
1.3.3. Nhóm ảnh (GOP: Group Of Picture).
19
1.4. Phơng pháp nén ảnh Video theo chuẩn MPEG.
21
1.4.1. Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG 21
1.4.2. Lấy mẫu thông tin về màu 22
1.4.3. Lợng tử hoá.
23
1.4.4. Nội suy ảnh.
23
1.4.5. Dự đoán bù chuyển động. 24
1.4.5.1. Đánh giá chuyển động (motion estimation) 24
1.4.5.2. Bù chuyển động (Motion Compensation).
24
1.4.6. Biến đổi Cosine rời rạc.
26
1.4.7. Mã VLC 27
1.5. Quá trình nén Video theo chuẩn MPEG-1. 27
1.5.1. Tham số đặc trng.
27
1.5.2. Quá trình mã hoá 28
1.5.3.Quá trình giải mã 32
1.6. Quá trình nén Video theo chuẩn MPEG-2.
33
2
1.6.1. Tham số đặc trng. 36
1.6.2. Mô hình mã hoá Non-scalable theo MPEG-2. 37
1.6.3. Mô hình mã hoá scalable theo MPEG-2. 38
Chơng 2 M hoá SCALABLE VIDEO 42
2.1. Băng lọc 1/2 pixel biến đổi ngợc theo thời gian - tính toán bù chuyển
động 42
2.1.1. Giới thiệu 44
2.1.2. Thuật toán
46
2.1.2.1 Mô hình Video phổ biến
46
2.1.2.2. Quét luỹ tiến Video với véctơ chuyển động chính xác 1/2 điểm ảnh .49
2.1.2.3. Di chuyển cục bộ mở rộng 51
2.1.3. Ba tham số mã hoá băng con sử dụng IMCTF
54
2.1.4. Kết quả thực nghiệm
55
2.1.5. Tóm tắt và kết luận
59
2.2. Mã hoá scalable video 61
2.2.1. Khái quát 62
2.2.1.1. Mã hoá lai truyền thống 63
2.2.1.1.1.Mã hoá Scalable SNR
63
2.2.1.1.2 Phân giải mã Scalable
66
2.2.1.2. Embedded Coding and Fine Granularity Scalability 66
2.2.1.3. Mã hoá sử dụng băng con 3 chiều và mã hoá Wavelet 69
2.2.2. Hệ thống tổng quan
70
2.2.3. Băng con mã hoá 3 chiều
71
2.2.4. Tỷ lệ dòng bít mã hoá 74
2.2.4.1.Hệ thống dòng bít 74
2.2.4.2. Lựa chọn dòng bít mã hoá và truyền dẫn
78
2.2.5. Kết quả thực nghiệm
81
2.2.5.1. So sánh với mã hoá Nonscalable 81
2.2.5.2. So sánh mã hoá LZC và 3D-SPIHT 83
2.2.5.3. Mã hoá tốc độ đa phân giải
86
2.2.6. Tóm tắt và kết luận
91
Chơng 3 Đối tợng-cơ sở m hoá SCALABLE 95
3.1. Đối tợng cơ bản - Cơ sở mã hoá 97
3.1.1 Mặt phẳng đối tợng Video 97
3.1.2. Công cụ mã hoá cho đối tợng Video 98
3.1.2.1. Định dạng mã hoá
98
3.1.2.2. Cấu trúc mã hoá
99
3.2. Đối tợng-Cơ sở mã hoá sử dụng EZBC 100
3
3.2.1. Tổng quan
101
3.2.2. Miền Cơ sở biến đổi Wavelet rời rạc 102
3.2.3. Đối tợng-Cơ sở mã hoá mặt phẳng bít EZBC 103
3.3. Kết quả thực nghiệm
104
3.4. Tóm tắt và kết luận 106
Chơng 4: Chơng trình thử nghiệm và đánh giá kết
quả 111
4.1. Xây dựng chơng trình
111
4.1.1. Khái quát chung
111
4.1.2. Cấu trúc chơng trình
111
4.2. Đánh giá kết quả thử nghiệm 112
4.2.1 Dữ liệu thử nghiệm
112
4.2.2. Kết quả thử nghiệm 112
4.2.3. Nhận xét về tỷ số nén,chất lợng nén 115
Kết luận
118
1.
ứ
ng dụng luận văn
118
2. Hớng phát triển cho tơng lai
119
TàI LIệU THAM KHảO 120
PHụ LụC 122
THUậT NGữ tiếng anh 122
4
Lời nói đầu
Trong những năm gần đây do sự phát triển mạnh mẽ của Internet nên vấn
đề truyền dữ liệu trên mạng đặc biệt là truyền ảnh và âm thanh đợc quan
tâm. Do đó việc nén dữ liệu đặc biệt dữ liệu phim ảnh là cần thiết hơn bao giờ
hết. Trong phạm vi luận văn này tôi tập trung vào việc nén dữ liệu video.
Đối với nén ảnh động, chuẩn MPEG(Moving Photographic Experts
Group) đã đợc xác lập bởi ISO và IEC. Đây là một kỹ thuật nén ảnh động đã
mang lại nhiều thành công. Nó có thể đạt tỷ lệ nén khá cao 10:1 mà mắt
thờng khó phân biệt đợc. Tuy nhiên đây vẫn cha phải là tỷ lệ cao tối u.
Sự ra đời của Wavelet đã mở ra một công nghệ mới. Đó là chuẩn
MJPEG2000. Sự ra đời của MJPEG2000 mở ra một tơng lai mới cho kỹ
thuật nén ảnh với những tính năng cao. Kỹ thuật Wavelet cũng đợc nghiên
cứu trong nhiều phần mềm nh Matlap
Mục đích của luận văn này nhằm nghiên cứu một số phơng pháp nén
ảnh động đang đợc quan tâm. Luận văn này đợc trình bày thành bốn
chơng và một phụ lục. Chơng Một là tổng quan về nén ảnh động. Chơng
này giới thiệu một số chuẩn nén ảnh động là MPEG1,MPEG2,MPEG4 và
MPEG7. Đồng thời cũng trình bày cấu trúc của video. Chơng Hai trình bày
phơng pháp nén Scalable video. Chơng này đề cập đến thuật toán LZC và
3D-SPIHT. Chơng Ba đi sâu vào nghiên cứu đối tợng mã hoá của video dựa
trên biến đổi Wavelet. Chơng Bốn nêu khái quát cách thiết kế và cài đặt
chơng trình. Chơng này mang tính chất minh hoạ cho những gì đã đợc
trình bày ở các chơng trớc. Phần phụ lục nêu một số chơng trình nguồn
thông dụng viết trên Visual C + + 6. 0.
Do thời gian có hạn nên tôi chỉ mới nghiên cứu đợc phần nào trong kỹ
thuật nén ảnh động do vậy chắc chắn không tránh khỏi thiếu sót. Cuối cùng
tôi xin chân thành cảm ơn sự giúp đỡ nhiệt tình và hiệu quả của PGS TS Hồ
Anh Tuý đã giúp đỡ tôi hoàn thành luận văn này.
Hà nội ngày 20/10/2005
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
5
Chơng 1
TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG
1.1. Khái niệm về
Video
và phơng pháp nén
Video
1.1.1. Khái niệm Video
Video là sự biểu diễn điện tử của một chuỗi các ảnh liên tiếp. Những
ảnh này là những ảnh tĩnh và đợc gọi là các frame. Chuỗi các frame xuất
hiện với tốc độ rất nhanh sẽ cho ta cảm giác chuyển động liên tục (tối thiểu là
25frame/giây). Mặc dù mỗi frame có sự khác nhau, cần thiết phải có tốc độ
frame cao để đạt đợc cảm giác chuyển động thực sự. Tốc độ frame và độ
phân giải của mỗi frame là các nhân tố quan trọng ảnh hởng trực tiếp đến
chất lợng Video. Trong truyền hình, độ phân giải của truyền hình là 720x576
và tốc độ frame là 25 hoặc 30 Hz.
1.1.1.1. Không gian mầu (Color Space)
Dựa theo lý thuyết về ảnh màu, cảm thụ về màu của mắt trên cơ sở 3
màu cơ bản: màu đỏ (Red), màu lục (Green) và màu lam (Blue).
Trong hệ màu RGB, các màu có thể đợc mô tả là các điểm bên trong
hình lập phơng đơn vị, với gốc toạ độ (0, 0, 0) là màu đen; 3 thành phần R
(đỏ), G (lục), B (lam) biểu diễn cho 3 trục.
Một hệ thống biểu diễn màu khác đợc sử dụng chính trong lĩnh vực
truyền hình nhằm giúp việc số hóa đợc thuận lợi hơn là hệ màu YUV, miêu
tả mỗi ảnh trong Video gồm các thành phần độ chói (Y) và sắc màu (UV). Hệ
màu này nhằm đạt đợc hiệu suất truyền cao hơn, và giữ nguyên tính tơng
thích với hệ số truyền hình màu đen trắng. Thành phần chói (
luminance) cung
cấp giá trị mức xám của ảnh, hai thành phần còn lại mang thông tin về màu
sắc (chrominance) để chuyển đổi từ ảnh xám sang ảnh màu.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
6
Chuyển đổi RGB sang YUV đợc thực hiện theo chuẩn CCIR 601 nh
sau:
Y = 0.299R + 0.587G + 0.114B
U = 0.493 (B - Y)
V = 0.877 (R - Y)
trong đó: Y là thành phần chói và U, V là hai thành phần màu.
Đặc biệt: khi R = G = B thì Y = R = G = B và U = V = 0.
Một định dạng màu khác là, tơng tự YUV là Y, C
B
, C
R
với Y tơng tự
nh trên và hai thành phần nh sau:
C
B
= U/2 + 0.5
C
R
= V/1.6 + 0.5
Do đó, màu C
B
, C
R
luôn nằm trong khoảng [0, 1].
Với u điểm trên hệ YC
B
C
R
đợc áp dụng rộng rãi trong việc số hoá
Video.
1.1.1.2. Các cơ cấu số hoá tín hiệu Video
Hình 1.1.
Cấu trúc lấy mẫu
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
7
Trong truyền hình, các frame trong chuỗi Video có độ phân giải là 720
x 576 điểm và có tốc độ frame là 25 hoặc 30Hz. Mỗi ảnh trong chuỗi Video
đợc lấy số hoá nh hình 1.1.
Cấu trúc 4: 2: 2
Giả sử một dòng ngang của TV gồm 720 điểm ảnh.
Hình 1.2.
Cấu trúc lấy mẫu 4: 2: 2
Việc lấy mẫu sẽ tuần tự diễn ra nh sau:
- Điểm đầu lấy mẫu tín hiệu chói (Y) và lấy mẫu 2 màu (C
B
, C
R
).
- Điểm tiếp theo chỉ lấy mẫu tín hiệu chói (Y) và không lấy mẫu 2 tín
hiệu. Khi giải mã, màu suy ra từ điểm ảnh trớc.
Tuần tự nh vậy, cứ 4 lần lấy mẫu Y, có 2 lần lấy mẫu C
R
, 2 lần lấy mẫu C
B
.
Cấu trúc 4: 1: 1
Hình 1.3.
Cấu trúc lấy mẫu 4: 1: 1
Điểm ảnh đầu tiên lấy mẫu đủ Y, C
R
, C
B
, 3 điểm kế tiếp chỉ lấy mẫu Y,
không lấy mẫu tín hiệu màu. Khi giải mã, mầu của 3 điểm ảnh phải suy ra từ
điểm ảnh đầu. Tuần tự nh vậy, cứ 4 lần lấy mẫu Y, có 1 lần lấy mẫu C
R
, 1 lần
lấy mẫu C
B
.
Cấu trúc lấy mẫu 4: 2: 0
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
8
Lấy mẫu tín hiệu Y tại tất cả các điểm ảnh của dòng, còn tín hiệu màu thì
cứ 4 Y, có 2 màu C
R
và C
B
cách nhau theo từng hàng.
Hình 1.4. Cấu trúc lấy mẫu 4: 2: 0
Cấu trúc lấy mẫu 4: 4: 4
Lấy mẫu tín hiệu Y, C
R
, C
B
tại tất cả các điểm ảnh của dòng.
Hình 1.5.
Cấu trúc lấy mẫu 4: 4: 4
1.1.2. Các phơng pháp nén Video
Mục tiêu chính của việc nén tín hiệu Video là biểu diễn một nguồn tín
hiệu Video bằng một số bit ít nhất có thể đợc mà vẫn đảm bảo yêu cầu chất
lợng cảm thụ. Với tín hiệu Video, giới hạn dải thông của tín hiệu tơng tự
khoảng 6MHz, trong khi tín hiệu Video số hoá theo tiểu chuẩn CCIR 601 với
tốc độ bit là 270Mbit/s chiếm dải thông không dới 189MHz, tức là lớn hơn
31,5 lần so với dải thông của tín hiệu tơng tự. Chính vì vậy, giảm dải thông là
vấn đề quan trọng với công nghệ Video số.
Về cơ bản giảm dải thông đợc thực hiện bằng 4 cách:
- Giảm tốc độ dòng bit (bit Rate Reduction - BRR).
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
9
- Nén dòng tín hiệu Video số theo không gian, tức giảm độ d thừa
trong một số frame (spatial redundancy).
-
Nén dòng tín hiệu theo thời gian, tức giảm độ d thừa theo thời
gian (temporal redundancy).
- Nén hỗn hợp sử dụng tổ hợp các phơng pháp trên.
1.1.2.1. Giảm tốc độ dòng bit.
Có hai phơng pháp giảm tốc độ dòng bit.
Cách thứ nhất dựa trên đặc điểm sinh lý của mắt ngời. Mắt ngời
không nhạy cảm với các tín hiệu màu nên trong phơng pháp này, ngời ta
giảm bớt độ phân giải các tín hiệu màu.
Cách thứ hai dựa trên ý nghĩa của các bit lợng tử hoá các điểm ảnh.
Với 8 bit lợng tử hoá, các bit của byte này đợc chia làm hai nhóm: nhóm có
ý nghĩa hơn (MMB-More Meaning Bit) và nhóm ít ý nghĩa hơn (LMB-Less
Meaning Bit). Việc ta cắt giảm các bit của nhóm LMB sẽ không ảnh hởng
nhiều tới chất lợng của ảnh. Tuy nhiên, phơng pháp này không đợc chấp
nhận trong các giải pháp giảm dải thông hiện tại, nên cũng sẽ không đợc đề
cập đến.
Phần lớn các định dạng số thành phần hiện nay đều sử dụng tần số lấy
mẫu 13.5MHz đối với tín hiệu chói. Theo chuẩn CCIR 601, nếu 2 tín hiệu màu
đợc lấy màu đợc lấy mẫu với tần số nh tín hiệu chói, chúng ta sẽ có định
dạng 4: 4: 4.Định dạng này đợc sử dụng trong các thiết bị dựng phim phi
tuyến và trong đồ hoạ vi tính liên quan đến phim nhựa. Tốc độ bit của định
dạng này cho hệ PAL là:
Với lợng tử hoá 8 bit: (720 + 720 +720) x 576 x 8 x 25 = 249
Mbit/s
Với lợng tử hóa 10 bit: (720 + 720 +720) x 576 x 10 x 25 = 311
Mbit/s.
Trong đó: 720 x 576 là độ phân giải màn hình (576 là số dòng /frame).
25 là tốc độ chuyển ảnh (25 frames/s).
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
10
Hiện nay, các thiết bị sử dụng kỹ thuật số ở thị trờng thiết bị Video
chuyên dụng thờng sử dụng chuẩn CCIR 601 4: 2: 2. Theo định dạng số hoá
này, tín hiệu Video thành phần đợc lấy mẫu với tần số 13.5 MHz đối với tín
hiệu chói, và 6,75 MHz đối với hai tín hiệu màu.
Tốc độ dòng dữ liệu của định dạng này đợc tính nh sau:
Khi lấy mẫu 8 bit: (720 +360 +360) x 576 x 8 x 25 = 166 Mbit/s.
10 bit: (720 +360 +360) x 576 x 10 x 25 = 207 Mbit/s.
Nh vậy, so với phơng pháp lẫy mẫu không cắt giảm (4: 4: 4), phơng
pháp này cho phép cắt giảm đợc 33% tốc độ dòng bit.
Với định dạng 4: 1: 1 và 4: 2: 0, tốc độ dòng bit còn đợc cắt giảm
nhiều hơn. Với 8 bit lấy mẫu, tốc độ dòng bit tính cho PAL là:
(720 +180 +180) x 576 x 8 x 25 = 124.4 Mbit/s.
tức là giảm đợc 50% so với nguyên mẫu 4: 4: 4.
1.1.2.2. Nén dòng tín hiệu Video số theo không gian
Gần nh tất cả các ảnh đều chứa một số lợng lớn các giá trị dữ liệu
thông tin giống nhau. Trong các hệ thống không giảm dữ liệu, các dữ liệu
giống nhau này đợc lặp lại để tạo lại các vùng đều nhau trong một ảnh (ví dụ,
bầu trời xanh), và do đó có thông tin d thừa trong dòng dữ liệu.
Để giảm độ d thừa trong một frame, ta sử dụng các phơng pháp nén
ảnh. Các phơng pháp nén ảnh có thể chia làm 2 loại:
Nén không tổn hao (lossless compression): là phơng pháp nén mà tín hiệu
gốc đối chiếu với tín hiệu đợc nén (mã hoá), sau đó giải nén (giải mã) thì
không có sự phân biệt.
Nén có tổn hao (lossy compression): là phơng pháp nén mà tín hiệu gốc
có sự khác biệt với tín hiệu đợc khôi phục sau khi nén và giải nén.
Chất lợng hình ảnh của các thiết bị dùng phơng pháp nén không tổn hao
là rất tốt, có thể so sánh đợc với chất lợng ảnh không nén. Tuy nhiên, tỉ
số nén của phơng pháp này rất thấp. Chính vì vậy, các u điểm của việc
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
11
nén tín hiệu không đợc phát huy một cách tối đa, giá thành thiết bị vẫn
còn rất cao.
Để nâng tỉ số nén, phát huy tối đa u điểm của việc nén tín hiệu,
phơng pháp nén có tổn hao đợc sử dụng trong hầu hết các thiết bị hiện nay.
Có hai định dạng nén đợc áp dụng rộng rãi trong các thiết bị truyền hình, nén
Video là JPEG và MPEG, cùng các phiên bản của nó.
1.1.2.3. Nén dòng tín hiệu theo thời gian.
Các frame trong Video có quan hệ mật thiết với nhau, thậm chí các
frame hiện tại chỉ thay đổi chút ít so với các frame trớc và sau đó. Để giảm
bớt thông tin truyền tải, ngời ta chỉ truyền những phần thông tin sai lệch và
kết hợp với thông tin cũ. Có nhiều phơng pháp khác nhau để xác định sự thay
đổi giữa các frame, đó là các phơng pháp xác định véctơ chuyển động. Ngoài
ra còn nhiều phơng pháp khác, những giải thuật này có chất lợng cao,
nhng mức độ tính toán phức tạp và còn đang trong giai đoạn nghiên cứu.
1.1.2.4. Nén hỗn hợp sử dụng tổ hợp các phơng pháp trên
Để đạt đợc hiệu quả nén cao mà vẫn đảm bảo chất lợng hình ảnh,
ngời ta sử dụng tổ hợp các phơng pháp trên. Phơng pháp nén Video theo
chuẩn MPEG là một phơng pháp nén tổ hợp của các phơng pháp trên.
1.1.3. Tham số nén Video.
Tham số nén Video đợc đề cập đến ở đây là định dạng ảnh và tỉ số
nén, tỉ số nén cho phép đánh giá hiệu quả của hệ thống nén. Khi so sánh tỉ số
nén của các hệ thống nén khác nhau, thì định dạng ảnh của các hệ thống nén
trên phải giống nhau.
Định dạng bao gồm:
Số dòng/ảnh và số pixel/dòng.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
12
Số frame/s.
Và cấu trúc lấy mẫu bao gồm: 4: 4: 4, 4: 2: 2, 4: 2: 0, 4: 1: 1, độ phân
giải của mẫu là 8/10 bit (hoặc 12 bit).
Tốc độ bit của ảnh gốc (trớc khi nén) có thể rút ra từ công thức:
Ví dụ: với tốc độ bit dữ liệu ảnh gốc 166 Mbit/s ở trên áp dụng vào máy
ghi hình đĩa PDR-100 (Tektronix), và giả sử chất lợng nén tơng đơng
24Mbit/s, thì tỉ số nén là 166/24 = 6.92.
1.2. Giới thiệu chung về chuẩn MPEG
Chuẩn MPEG (Moving Picture Expert Group) đợc xây dựng và phát
triển bởi các tổ chức ISO và IEC (International Electrotechnical Commission)
với mục đích mã hoá tín hiệu hình ảnh và âm thanh cho DSM (
Digital Storage
Media), DSS (Digital Satellite System), HDTV (High Definition Television),
VideoConferencing, Internet Video, và các ứng dụng Video số. Chuẩn MPEG
ngày càng đợc sử dụng rộng rãi trong nhiều ứng dụng lu trữ, truyền thông
đa phơng tiện, và đợc biết đến với các chuẩn MPEG-1, MPEG-2, MPEG-4,
MPEG-7.
MPEG-1 (~1992): mã ISO/IEC 11172, là chuẩn đầu tiên của MPEG nhằm
mục đích nén Video có kích thớc khuôn hình 320x240 cho dòng dữ liệu
có tốc độ từ 1 đến 1.5 Mb/s trong các ứng dụng DSM (nh công nghệ ghi
VCD), vô tuyến truyền hình.
MPEG-2 (~1995): mã ISO/IEC 13818, là chuẩn dành cho giải pháp cao
hơn dùng trong studio số, DVD, truyền hình số và HDTV. Khác với
MPEG-1 tín hiệu Video luôn là quét liên tục (progressive), MPEG-2 áp
dụng cho cả quét liên tục và quét xen kẽ (interlace). Tốc độ dòng dữ liệu
lên tới 15 Mb/s.
T
ốc độ dữ liệu ảnh gốc
T
ỉ số nén =
T
ốc độ dữ liệu ảnh nén
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
13
MPEG-4 (~1998): mã ISO/IEC 14496, là chuẩn chủ yếu dành cho các ứng
dụng đa phơng tiện tơng tác, phân loại khung cảnh đa phơng tiện thành
các đối tợng nội dung media, tập trung vào dồn kênh, đồng bộ dữ liệu với
các đối tợng media để truyền qua mạng. MPEG-4 sử dụng tốc độ bit
(Video) rất thấp: 5ữ64 Kb/s. Vai trò nén ít đợc đề cập trong phiên bản
này.
MPEG-7 (~2001): MPEG-7 là chuẩn mô tả thông tin của rất nhiều loại
phơng tiện. Mô tả này cho khả năng tìm kiếm nhanh và hiệu quả theo yêu
cầu ngời dùng. Tuy nhiên, chuẩn MPEG-7 đợc mô tả về phần nội dung
giống nh MPEG-4, và đợc gọi chính thức là Giao thức mô tả nội dung
đa phơng tiện (Multimedia Content Description Interface). MPEG-7 đặc
trng cho một tập tiêu chuẩn biểu diễn nhiều loại thông tin multimedia
khác nhau. MPEG-7 không phải là chuẩn nén.
Sơ đồ giới thiệu các chuẩn nén và các công nghệ nén xem hình 1.6:
Hình 1.6.
Các chuẩn, các công nghệ nén, truyền thông đa phơng tiện
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
14
1.3. Các khái niệm cơ bản trong nén
Video
theo chuẩn MPEG.
1.3.1. Cấu trúc phân cấp Video theo chuẩn MPEG.
Cấu trúc dòng bit Video đợc chia thành phân cấp các lớp (layer) để hỗ
trợ quản lý lỗi, truy cập ngẫu nhiên, dựng hình (editting) và đồng bộ với dòng
bit audio.
Block: Là các khối kích thớc 8x8 điểm ảnh của tín hiệu chói và màu đợc
dùng để biến đổi DCT.
Macroblock: Một Macroblock là một nhóm các khối DCT (theo nội dung
thông tin) trong ảnh gốc. Header của Marcroblock chứa thông tin về các
khối độ chói và độ màu, và thông tin bù chuyển động. Có ba loại
Macroblock (phân loại theo phơng pháp mã hoá Macroblock):
u
Skipped MB:
sử dụng dự đoán từ
frame
giải mã trớc đó với véctơ
chuyển động bằng 0. Không có thông tin về Macroblock đợc giải
mã cũng nh đợc truyền đến nơi nhận.
u Inter MB: sử dụng dự đoán bù chuyển động từ frame trớc đó. Do
đó, cần truyền đi kiểu MB, địa chỉ MB, vectơ chuyển động, các hệ
số DCT và kích thớc bớc lợng tử.
u Intra MB: không dùng dự đoán từ frame trớc đó. Nên chỉ cần
truyền kiểu MB, địa chỉ MB, các hệ số DCT và kích thớc bớc
lợng tử đến nơi nhận.
Slice: Slice cung cấp khả năng phòng ngừa sự sai lệch dữ liệu. Khi gặp lỗi
trong dòng bit của một ảnh, bộ giải mã có thể khôi phục bằng cách đợi
Slice tiếp theo mà không phải huỷ bỏ toàn bộ ảnh. Slice chứa header và một
hoặc nhiều Macroblock liên tiếp. Kích thớc Slice cực đại có thể là toàn
cảnh, kích thớc cực tiểu có thể là một
Macroblock
. Header của
Slice
chứa
thông tin về vị trí của nó trong ảnh và hệ số thang độ của bộ lợng tử hoá.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
15
Picture (frame): Một ảnh tơng ứng với một frame của Video. Có ba kiểu
ảnh chính là: ảnh I, P và B. Các ảnh này không độc lập nhau, nên thứ tự
dòng bit (tức là thứ tự các cảnh đợc truyền, lu trữ và khôi phục) không
theo thứ tự hiển thị, mà là thứ tự cho phép bộ giải mã có thể giải mã dòng
bit. Lớp ảnh bao gồm phần header và một hoặc nhiều Slice. Header chỉ thị
sự sắp xếp để truyền frame, cho phép bộ giải mã hiển thị frame đúng theo
bậc, kiểu ảnh và thông tin mã hoá.
GOP (Group Of Picture): Một nhóm ảnh là một điểm truy nhập ngẫu
nhiên (random access point), là đơn vị mã hoá nhỏ nhất mà có thể đợc
giải mã độc lập, bao gồm phần header và các ảnh. Header chứa thông tin
thời gian và dựng hình (editting). Một nhóm ảnh GOP hình thành từ liên
kết một hoặc nhiều frame I, và các frame P, và/hoặc frame B. Cấu trúc
GOP đợc biểu diễn thông qua hai tham số: n (số frame trong GOP) và m
(khoảng cách dự đoán), thông thờng n=15, m = 3. Mỗi GOP bắt đầu bằng
một
frame
I. Thứ tự các ảnh dòng mã là thứ tự mà qua quá trình giải mã
đa chúng trở lại bình thờng. Đặc biệt, ảnh B trong dòng giải mã đợc
đa ngay ra màn hình; ảnh mã cuối cùng của nhóm ảnh (trong thứ tự trình
diễn) là ảnh I hoặc P.
Chuỗi Video (Video sequence): Là lớp cao nhất của phân cấp mã hoá.
Chuỗi chứa một header, một hoặc nhiều GOP và một mã kết thúc chuỗi.
Thông tin quan trọng nhất chứa trong header là kích thớc theo chiều
ngang và đứng của mỗi ảnh, tỉ lệ pixel, tốc độ bit của ảnh trong chuỗi, tốc
độ ảnh và các kích thớc tối thiểu của bộ nhớ cho bộ giải mã, . . . . để khởi
gán trạng thái của bộ giải mã. Chuỗi Video và thông tin header tạo thành
dòng bit mã hoá, đợc gọi là dòng sơ cấp Video ES (elementary stream).
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t
16
H×nh 1.7.
C¸c líp video theo chuÈn MPEG
H×nh 1.8. C
Êu tróc dßng d÷ liÖu MPEG
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
17
1.3.2. Phân loại frame Video.
Căn cứ vào đặc tính của
Video
có sự d thừa không gian và d thừa thời
gian để đa ra hai phơng pháp nén giảm độ d thừa không gian (mã hoá
intraframe) và nén giảm độ d thừa thời gian tơng ứng (mã hoá
intrerframe), và do đó chia các frame Video thành 3 loại là: frame I, frame
P, frame B.
Frame I (
I
ntra
C
oded
P
icture):
Frame I là frame đầu tiên trong mỗi nhóm ảnh của chuỗi Video,
frame này đợc mã hoá tơng tự nh mã hoá ảnh tĩnh theo chuẩn JPEG.
Các frame I đợc mã hoá độc lập, không cần tham chiếu đến các frame
khác trong chuỗi Video. Mã hoá các frame I chỉ làm giảm độ d thừa
không gian và cho một tỉ lệ nén vừa phải. Frame I có thể dùng làm
điểm truy cập ngẫu nhiên trong chuỗi cho bộ giải mã, và có thể dùng
nh nh là frame tham chiếu (reference frame) để dự đoán các frame
khác.
Frame P (Predictive Code Picture):
Qua frame I, bộ mã hoá có thể dự đoán thuận (forward
predection) frame tiếp theo. Frame đợc dự đoán gọi là frame P
(predicted frame), và frame P cũng có thể đợc dự đoán từ các frame
trớc đó. Nh vậy, mỗi frame P đợc dự đoán từ frame I hoặc P trớc
đó. Việc mã hoá ảnh P có sử dụng bù chuyển động. Thông tin ớc
lợng chuyển động của các khối nằm trong véctơ chuyển động. véctơ
này xác định một
Macroblock
(MB) nào đó đợc sử dụng từ ảnh gốc.
Frame P cho hệ số nén cao hơn, và có thể sử dụng làm một frame so
sánh, tham chiếu cho việc bù chuyển động cho các frame P và B khác.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
18
Hình 1.9.
Nội suy bù chuyển động
Frame B (
B
idirectionally
P
redicted
0
icture):
Bộ mã hoá cũng có thể sử dụng đồng thời dự đoán thuận và ngợc. Những
frame này gọi là frame dự đoán nội suy 2 chiều (Bi-directional
Interpolated Prediction), hay frame B. Không nh frame I (đợc dự đoán
độc lập) và frame P (đợc dự đoán dựa vào frame I hoặc P trớc đó), frame
B đợc dự đoán 2 chiều dựa vào cặp frame I và P, hoặc P và P, hoặc P và I
(với
frame
I của nhóm ảnh tiếp theo). Việc sử dụng thông tin lấy từ ảnh
trong tơng lai hoàn toàn có thể thực hiện đợc vì tại thời điểm mã hoá thì
bộ mã hoá đã sẵn sàng truy cập tới ảnh phía sau. Frame B cho tỉ lệ nén cao
nhất, và không đợc dùng làm frame tham chiếu.
Theo phơng pháp nén này, frame I gọi là frame intra (sử dụng kỹ thuật
mã hoá intraframe), frame P và B gọi là các frame Inter (sử dụng kỹ thuật mã
hoá interframe).
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
19
Một thuận lợi khi sử dụng nhiều loại frame là để theo dõi dữ liệu trong
quá trình truyền, nếu có frame bị mất (thờng là frame P hoặc frame B) thì
chất lợng Video cũng không bị ảnh hởng nhiều.
Kích thớc các frame đợc minh hoạ trong hình vẽ sau:
Hình 1.10. K
ích thớc các loại frame
1.3.3. Nhóm ảnh (GOP: Group Of Picture).
Công nghệ MPEG sử dụng 3 loại ảnh I, P và B, trong đó P, B không
phải là một ảnh hoàn chỉnh mà chỉ chứa sự khác biệt giữa ảnh đó và ảnh xuất
hiện trớc đó (đối với P), hay sự khác biệt đối với cả ảnh xuất hiện trớc và
sau nó (đối với B). Để có một khuôn hình hoàn chỉnh ảnh P và B cần có dữ
liệu từ các ảnh lân cận, chính vì vậy đối với MPEG có một khái niêm là GOP
(nhóm ảnh). Mỗi nhóm phải bắt đầu bằng một ảnh hoàn chỉnh I và tiếp theo là
một loạt các ảnh B, P. Có hai loại nhóm là mở và đóng. Nhóm mở bắt đầu
bằng một ảnh I và kết thúc bằng một ảnh I, việc dự đoán ảnh phụ thuộc cả vào
thông tin của các GOP khác. Nhóm đóng có cấu trúc khép kín, việc dự đoán
ảnh không phụ thuộc vào thông tin của nhóm khác và ảnh cuối cùng của một
nhóm bao giờ cũng là một ảnh P.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
20
Chuỗi ảnh MPEG thờng có cấu trúc IBBPBBPBBI nhng thứ tự truyền
dẫn và thứ tự hiển thị ảnh là khác nhau do khi tạo ảnh B cần thông tin từ cả
khung quá khứ và tơng lai. ảnh tơng lai cần phải đợc truyền dẫn trớc, khi
hiển thị phải theo đúng thứ tự nguồn. Để thực hiện điều này, lớp ảnh (Picture
layer) của dòng dữ liệu MPEG có thông tin về số thứ tự ảnh để trợ giúp hiển
thị. Hình dới trình bày thứ tự truyền dẫn và thứ tự hiển thị ảnh.
Hình 1.11.
Thứ tự truyền dẫn và thứ tự hiển thị ảnh
Chuẩn MPEG không định nghĩa số lợng giới hạn các frame B liên tiếp
trong nhóm ảnh, nên số lợng frame B liên tiếp phụ thuộc vào từng ứng dụng.
Thông thờng, số lợng này là 2 (I, B, B, P, B, B, P) để đảm bảo hiệu quả nén
và chất lợng Video.
Một cấu trúc nhóm ảnh thông thờng đợc mô tả bởi hai tham số: n - số
ảnh trong một nhóm và m - số khoảng cách cho ảnh B. Nh ví dụ trên n=9 và
m=3.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
21
1.4. Phơng pháp nén ảnh
Video
theo chuẩn MPEG.
1.4.1. Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG.
Nén Video số nhằm mục đích loại bỏ d thừa không gian và d thừa
thời gian trong chuỗi Video mà không ảnh hởng đến mức độ cảm thụ của mắt
ngời.
Trong phơng pháp nén Video theo chuẩn MPEG có hai kỹ thuật nén
đợc sử dụng là:
Kỹ thuật mã hoá Intra frame: Kỹ thuật mã hoá Intra frame nhằm giảm
độ d thừa không gian trong một frame. Kỹ thuật này xuất phát từ mối
tơng quan không gian giữa các điểm ảnh trong một ảnh, từ đó để nén ảnh
hiệu quả. Phơng pháp đợc sử dụng để giảm d thừa không gian là kỹ
thuật mã hoá biến đổi Cosine rời rạc (DCT) trên các khối 8x8 điểm ảnh.
Kỹ thuật này đã đợc sử dụng trong phơng pháp nén ảnh tĩnh trình bày ở
Chơng 2.
Kỹ thuật mã hoá Inter frame: nhằm giảm độ d thừa thời gian giữa các
frame ảnh: Kỹ thuật mã hoá Inter frame tính giá trị của một điểm ảnh
riêng biệt bằng cách dự đoán từ các điểm ảnh trong ảnh lân cận. Kỹ thuật
này xuất phát từ mối tơng quan thời gian giữa các điểm ảnh trong các ảnh
lân cận. Phơng pháp để giảm độ d thừa thời gian là kỹ thuật mã hoá
DPCM dựa trên dự đoán bù chuyển động giữa các frame.
Trong mô hình nén Video theo chuẩn MPEG, để đạt đợc hiệu quả nén cao
cần kết hợp cả hai kỹ thuật nén ở trên để giảm d thừa không gian và thời
gian. Mô hình nén Video Hybrid DPCM/DCT là sự kết hợp của hai kỹ
thuật trên (xem hình 1.12).
Mô hình Hybrid DPCM/DCT gồm có các kỹ thuật:
Lấy mẫu (subsampling) thông tin về màu để thích hợp với độ nhậy cảm của
mắt ngời.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
22
Lợng tử hoá (Quantization-Q)
Nội suy ảnh (picture interpolation).
Dự đoán bù chuyển động bao gồm: đánh giá chuyển động (motion
estimation) và bù chuyển động (motion compensation-MC)
Biến đổi Cosine rời rạc (DCT) để khai thác tính d thừa không gian.
Mã hoá chiều dài thày đổi (VLC-Variable length coding).
Hình 1.12.
Nguyên lý mã hoá Hybrid DCT/DPCM
1.4.2. Lấy mẫu thông tin về màu.
Lấy mẫu với tần số lấy mẫu thấp hơn là để giảm kích thớc của Video
đầu vào và nh thế sẽ giảm số lợng các điểm trớc khi mã hoá.
Lấy mẫu màu nghĩa là lấy mẫu màu ở tần số thấp hơn tần số lấy mẫu
theo lý thuyết Nyquist hoặc Shannon.
Mắt ngời nhạy cảm nhất với độ phân giải thành phần độ chói của ảnh
và ít nhạy cảm với thông tin về màu. Lấy mẫu là một phơng pháp giảm dữ
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
23
liệu rất có hiệu quả, nhng sự tổn thất độ phân giải ảnh và các thành phần
chồng phổ sẽ làm giảm chất lợng nội dung ảnh gốc. Vì lý do này, nên không
dùng lấy mẫu thấp cho tín hiệu chói. Cấu trúc lấy mẫu thờng dùng là 4: 2: 2
và 4: 2: 0. MPEG dùng cấu trúc 4: 2: 0.
1.4.3. Lợng tử hoá.
Lợng tử hoá đợc thực hiện bằng cách chia mỗi hệ số DCT cho các giá trị
kích thớc bớc lợng tử tơng ứng trong bảng lợng tử, sau đó làm tròn về số
nguyên gần nhất.
(,)
(,)
(,)
q
Suv
Suv
Quv
=
trong đó:
- [] là làm tròn về số nguyên gần nhất.
- Q(u,v): hệ số lợng tử hoá xác định bởi bảng lợng tử hoá. Q(u,v) có
giá trị từ 1 đến 255 xác định bớc của kích thớc lợng tử hoá tơng
ứng.
Giải lợng tử hoá đợc thực hiện bởi:
'(,) (,)* (,)
q
Suv S uv Quv
=
1.4.4. Nội suy ảnh.
Bộ giải mã có thể khôi phục ảnh hiện tại từ ảnh trớc và ảnh sau, thì kỹ
thuật khôi phục đó gọi là kỹ thuật nội suy ảnh. Các khối trong ảnh hiện tại có
thể đợc dự đoán thuận hoặc ngợc và đợc dịch theo các véctơ chuyển động.
Bộ giải mã có thể tái tạo các giá trị điểm ảnh theo một khối cho trớc là trung
bình của các giá trị của khối trớc và khối sau.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
24
1.4.5. Dự đoán bù chuyển động.
1.4.5.1. Đánh giá chuyển động (motion estimation).
Đánh giá chuyển động là quá trình đánh giá xấp xỉ các điểm của frame
hiện tại từ frame tham chiếu.
Đánh giá chuyển động phải xác định các véctơ chuyển động, và đợc
thực hiện tại bộ mã hoá với nhiều sự tính toán phức tạp. Có nhiều chiến lợc
tìm kiếm để xác định véctơ chuyển động. Với mỗi chiến lợc tìm kiếm, bộ mã
hoá cố gắng đối sánh các điểm trong một Macroblock với các điểm trong ảnh
đợc mã hoá trớc hoặc sau đó (theo thứ tự hiển thị). Khi quá trình tìm kiếm
kết thúc, sẽ tạo ra véctơ chuyển động (motion véctơ) thích hợp nhất (xem hình
1.13).
Hình 1.13. Xác định vectơ chuyển động
mv
(
m
otion
v
ector)
1.4.5.2. Bù chuyển động (Motion Compensation).
Trong thực tế thì không phải khối tơng thích lúc nào cũng giữ nguyên
trạng thái cân bằng sau khi dịch chuyển mà trong quá trình dịch chuyển nó bị