CÁC CÔNG NGHỆ NÉN TÍN HIỆU VIDEO TRONG TRUYỀN HÌNH SỐ
Nén nhằm giảm tốc độ bit của các dòng dữ liệu tốc độ cao mà vẫn đảm bảo
chất lượng hình ảnh hoặc âm thanh cần truyền tải. Tín hiệu Video sau khi được số
hoá (8 bit) có tốc độ bằng 216 Mb/s. Để có thể truyền trong một kênh truyền hình
thông thường, thì tín hiệu video số cần phải được nén trong khi vẫn đảm bảo được
chất lượng hình ảnh. Chương 2 nêu các nội dung này nhằm xây dựng nội dung lý
luận cho các giải pháp sẽ đưa ra trong chương tiếp theo (chương 3) về ứng dụng
công nghệ nén trong sản xuất chương trình truyền hình.
2.1. Tổng quan về kỹ thuật nén Video số
2.1.1. Khái niệm chung
2.1.1.1. Mục đích của nén Video số
Nén video có hai lợi ích quan trọng thấy rõ:
Thứ nhất: nén video giúp chúng ta có thể sử dụng nguồn video số đã được
mã hoá để truyền đi hay lưu trữ một cách có hiệu quả ngay cả trên những môi
trường truyền dẫn không hỗ trợ những file video chưa được nén lúc đầu. Ví dụ,
một đĩa DVD sẽ chỉ có thể chứa được vài giây một đoạn video nguyên bản không
qua nén ở độ phân giải và tốc độ khung hình tương đương với chất lượng tương
ứng trên tivi truyền hình sẽ không thể sử dụng như lý giải ở trên.
Thứ hai: quá trình nén video cho phép việc sử dụng những nguồn video đã
qua nén cho quá trình lưu trữ hay truyền đi một cách có hiệu quả. Ví dụ, với một
kênh truyền dẫn tốc độ cao, việc lựa chọn và truyền đi một video nén với độ phân
giải cao thậm chí cả những luồng video nén là hợp lý hơn nhiều so với việc sẽ
truyền đi một video đơn lẻ với độ phân giải thấp hay từng luồng video chưa qua
nén.
2.1.1.2. Bản chất của nén
Khác với nguồn dữ liệu một chiều nh− nguồn âm, đặc tuyến đa chiều của
nguồn hình ảnh cho thấy: nguồn ảnh chứa nhiều sự d− thừa hơn các nguồn thông
tin khác. Đó lμ:
Sự d− thừa về mặt không gian (spatial redundancy):
Các điểm ảnh kề nhau trong một mμnh có nội dung gần giống nhau.
Sự d− thừa về mặt thời gian (temporal redundancy):
Các điểm ảnh có cùng vị trí ở các mμnh kề nhau rất giống nhau.
Sự d− thừa về mặt cảm nhận của con ng−ời:
Mắt ng−ời nhạy cảm hơn với các thμnh phần tần số thấp vμ ít nhạy cảm với
sự thay đổi nhanh, tần số cao.
Do vậy, có thể coi nguồn hình ảnh lμ nguồn có nhớ (memory source).
Nén ảnh thực chất lμ quá trình sử dụng các phép biến đổi để loại bỏ đi các
sự d− thừa vμ loại bỏ tính có nhớ của nguồn dữ liệu, tạo ra nguồn dữ liệu mới có
l−ợng thông tin nhỏ hơn. Đồng thời sử dụng các dạng mã hoá có khả năng tận
dụng xác suất xuất hiện của các mẫu sao cho số l−ợng bít sử dụng để mã hoá một
l−ợng thông tin nhất định lμ nhỏ nhất mμ vẫn đảm bảo chất l−ợng theo yêu cầu.
Nhìn chung quá trình nén vμ giải nén có thể lý giải một cách đơn giản nh− hình
2.1.
Dữ liệu
Dữ liệu
Dữ liệu đã nén
Biến đổi
Mã hoá
Giải mã
Biến đổi ngược
Dữ liệu đã nén
Quá trình nén
Quá trình giải nén
Hình 2.1: Sơ đồ khối quá trình nén vμ giải nén
Biến đổi:
Một số phép biến đổi vμ kỹ thuật đ−ợc sử dụng để loại bỏ tính có nhớ của
nguồn dữ liệu ban đầu, tạo ra một nguồn dữ liệu mới t−ơng đ−ơng chứa l−ợng
thông tin ít hơn. Ví dụ nh− kỹ thuật tạo sai số dự báo trong công nghệ DPCM hay
phép biến đổi cosin rời rạc của công nghệ mã hoá chuyển đổi. Các phép biến đổi
phải có tính thuận nghịch để có thể khôi phục tín hiệu ban đầu nhờ phép biến đổi
ng−ợc.
M∙ hoá:
Các dạng mã hoá đ−ợc lựa chọn sao cho có thể tận dụng đ−ợc xác suất xuất
hiện của mẫu. Thông th−ờng sử dụng mã RLC (run length coding: mã hoá loạt dμi)
vμ mã VLC (variable length coding): gắn cho mẫu có xác suất xuất hiện cao từ mã
có độ dμi ngắn sao cho chứa đựng một khối l−ợng thông tin nhiều nhất với số bit
truyền tải ít nhất mμ vẫn đảm bảo chất l−ợng yêu cầu.
2.1.1.3. Phân loại nén
Các thuật toán nén có thể phân lμm hai loại: Nén không tổn thất (lossless
compression) vμ nén có tổn thất (lossy compression).
Thuật toán nén không tổn thất không lμm suy giảm, tổn hao dữ liệu. Do vậy,
ảnh khôi phục hoμn toμn chính xác với ảnh nguồn.
Các thuật toán nén có tổn thất chấp nhận loại bỏ một số thông tin không
quan trọng nh− các thông tin không quá nhạy cảm với cảm nhận của con
ng−ời để đạt đ−ợc hiệu suất nén cao hơn, Do vậy, ảnh khôi phục chỉ rất gần chứ
không phải lμ ảnh nguyên thủy.
Đối với nén có tổn thất, chất l−ợng ảnh lμ một yếu tố vô cùng quan trọng,
Tuỳ theo yêu cầu ứng dụng mμ các mức độ loại bỏ khác nhau đ−ợc sử dụng, cho
mức độ chất l−ợng theo yêu cầu.
2.1.2. Một số dạng mã hoá sử dụng trong các công nghệ nén.
Các dạng mã hoá sử dụng trong công nghệ nén đều tận dụng đ−ợc xác suất
xuất hiện mẫu nhằm đạt đ−ợc độ dμi mã trung bình (số bit trung bình cần để mã
hoá một mẫu) lμ nhỏ nhất. Tuy nhiên, độ dμi nμy có một giới hạn d−ới mμ không
một ph−ơng pháp mã hoá nμo có thể cung cấp độ dμi từ mã trung bình nhỏ hơn.
Đó lμ “ entropy” của nguồn tín hiệu.
2.1.2.1. Khái niệm entropy của nguồn tín hiệu
Khái niệm ”entropy” của nguồn tín hiệu đ−ợc sử dụng để đo l−ợng thông tin
một nguồn tin chứa đựng.
Một nguồn tin có N mẫu {s
1
,s
2
,..,s
N
} với xác suất xuất hiện các mẫu t−ơng
ứng lμ {p(s
1
), p(s
2
),.., p(s
N
)}. Khi đó,” entropy” của nguồn tin đ−ợc định nghĩa nh−
sau: [1]
∑
=
−=
N
i
ii
SPSPH
1
2
)(log).(
Ví dụ một nguồn tin gồm các mẫu {1,0} với:
+ xác suất xuất hiện mẫu “1” lμ 0,8.
+ xác suất xuất hiện mẫu “0” lμ 0,2.
Khi đó “entropy” của nguồn lμ:
H = - (0,8.log
2
0,8 + 0,2.log
2
0,2)
= 0,7219 bit
“Entropy” của nguồn tin quy định giới hạn d−ới tốc độ bit tại đầu ra bộ mã
hoá. Ph−ơng pháp mã hoá nμo có độ dμi mã trung bình (số bit trung bình cần để
mã hoá một mẫu) cμng gần giá trị H thì ph−ơng pháp mã hoá đó cμng hiệu quả.
2.1.2.2. Mã hoá với độ dμi chạy RLC (run length coding). [3]
Phương pháp nén RLC này dựa trên cơ sở là sự liên tiếp lặp đi lặp lại các
điểm ảnh trong ảnh số, xuất hiện là do sự tương quan giữa các điểm ảnh, đặc biệt là
với các ảnh 2 mức (bi – level images). RLC tách các giá trị giống nhau và biểu
diễn như là một tổng, kỹ thuật này chỉ áp dụng cho các chuỗi symbols tuyến tính.
Có hai cách mã hoá RLC:
1- Tạo ra những từ mã cho mỗi độ dài chạy (động) và kết hợp với symbol
nguồn.
2- Sử dụng một số độ dài chạy và một symbol nguồn nếu như symbol nguồn
không phải là một số hay một ký đặc biệt để chỉ ra cho mỗi symbol nguồn.
Kỹ thuật RLC được dùng cho các hệ số lượng tử hoá tốt hơn là dùng trực
tiếp cho số liệu ảnh.
Một dạng cải tiến của mãc RLC là mã có độ dài thay đổi VLC (Variable
Length Code) dùng để biểu diễn các độ dài chạy cũng như các giá trị symbol. Cách
thực hiện là tính phân bố xác xuất của độ dài chạy và các giá trị symbol. Đây là sự
kết hợp của mã hoá RLC với mã hoá thống kê.
2.1.2.3. Mã hoá với độ dμi thay đổi VLC (variable length coding) (mã
Huffman)
Trong các công nghệ nén, mã Huffman lμ dạng mã đ−ợc sử dụng phổ biến
nhất. Bảng mã Huffman có thể cho độ dμi mã trung bình để mã hoá cho một mẫu
lμ nhỏ nhất do tận dụng xác suất xuất suất hiện của các mẫu trong nguồn tín hiệu.
Trong đó, mẫu có xác suất xuất hiện cao nhất sẽ đ−ợc gắn với một từ mã có
độ dμi ngắn nhất. Mặc dù có độ dμi mã thay đổi song mã Huffman vẫn có khả
năng giải mã đúng do có thuộc tính tiền tố duy nhất (không có bất cứ từ mã nμo lại
lμ phần đầu của từ mã tiếp theo).
Để xây dựng cây mã Huffman gồm các b−ớc sau:
1- Liệt kê các xác suất của các symbol nguồn và tạo ra các tập nút bằng
cách cho các xác suất này thành các nhánh của cây nhị phân.
2- Lấy hai nút với xác suất nhỏ nhất từ tập nút và tạo ra một xác suất mới
bằng tổng xác suất của các xác suất đó.
3- Tạo ra một nút mẹ với các xác suất mới, và đánh dấu 1 cho nút con ở trên
và 0 cho nút con ở dưới.
4- Tạo tiếp tập nút bằng cách thay thế 2 nút với xác xuất nhỏ nhất cho nút
mới. Nếu tập nút chỉ chứa một nút thì kết thúc, ngược lại thì ta quay lại
bước 2.
Ph−ơng pháp mã hoá thống kê Huffman sẽ trở nên nặng nề khi số tin của
nguồn quá lớn. Trong tr−ờng hợp nμy ng−ời ta dùng một biện pháp phụ để giảm
nhẹ công việc mã hoá. Tr−ớc tiên liệt kê các tin của nguồn theo thứ tự xác suất
giảm dần, sau đó ghép thμnh từng nhóm tin có tổng xác suất gần bằng nhau. Dùng
một mã đều để mã hoá các tin trong cùng một nhóm. Sau đó xem các nhóm tin nh−
một khối tin vμ dùng ph−ơng pháp Huffman để mã hoá các khối tin. Từ mã cuối
cùng t−ơng ứng với mỗi tin của nguồn gồm hai phần: một phần lμ mã Huffman vμ
một phần lμ mã đều.
Xét ví dụ thiết lập cây mã Huffman cho một nguồn tin chứa các mẫu :
{s
0
, s
1
, ..,s
7
} với xác suất xuất hiện lần l−ợt lμ :
p(s
i
) = {0,1;0,19;0,21;0,3;0,05;0,05;0,07;0,03}.
Cây mã Huffman xây dựng cho nguồn tin nμy nh− sau:
1.0
1
0.4
0
0
0.13
1
1
0.18
0
0
0
0
0
1
1
P(s
2
)=0.21
P(s
3
)=0.3
P(s
4
)=0.05
P(s
5
)=0.05
P(s
6
)=0.07
P(s
7
)=0.03
P(s
1
)=0.19
P(s
0
)=0.1
1
0011
11
10
01
0001
00101
0000
00100
Liệt kê Thiết kế mã Từ mã
xác suất
`
Mặc dù mã Huffman hiệu quả nh−ng chúng ta phải hiểu rằng mã hoá
Huffman chỉ tối −u khi đã biết tr−ớc xác suất của mã nguồn vμ mỗi biểu tr−ng của
mã nguồn đ−ợc mã hoá bằng một số bit nguyên.
Đặc biệt mã hoá Huffman đ−ợc phát triển cho ảnh số nh−ng áp dụng cho rất
nhiều loại ảnh, mỗi ảnh có xác suất xuất hiện biểu tr−ng của riêng nó. Do đó mã
Huffman không phải lμ tối −u cho bất cứ loại ảnh đặc biệt nμo.
2.1.2.4. Mã hoá dự đoán (Predictive coding)
Nh− đã nói, nguồn ảnh chứa một l−ợng thông tin rất lớn. Nếu mã hoá trực
tiếp nguồn tin nμy theo PCM, tốc độ dòng bit thu đ−ợc sẽ rất cao. Mặt khác, nguồn
ảnh lại chứa đựng sự d− thừa vμ tính “có nhớ”: giữa các điểm ảnh lân cận có mối
quan hệ t−ơng hỗ với nhau.
Mã hoá dự đoán đ−ợc xây dựng dựa trên nguyên tắc cơ bản nh− sau:
♦ Lợi dụng mối quan hệ t−ơng hỗ nμy, từ giá trị các điểm ảnh lân cận, theo
một nguyên tắc nμo đó có thể tạo nên một giá trị gần giống điểm ảnh hiện hμnh.
Giá trị nμy đ−ợc gọi lμ giá trị “dự báo”.
♦ Loại bỏ đi tính “có nhớ” của nguồn tín hiệu bằng một bộ lọc đặc biệt có
đáp ứng đầu ra lμ hiệu giữa tín hiệu vμo s(n) vμ giá trị dự báo của nó.
♦ Thay vì l−ợng tử hoá trực tiếp các mẫu điểm ảnh, mã hoá dự đoán l−ợng
tử vμ mã hoá các “sai số dự báo” tại đầu ra bộ lọc. “Sai số dự báo”lμ sự chênh lệch
giữa giá trị dự báo vμ giá trị thực của mẫu hiện hμnh. Do nguồn “sai số dự
báo”(error prediction source) lμ nguồn không có nhớ vμ chứa đựng l−ợng thông tin
thấp, nên số bit cần để mã hoá sẽ giảm đi rất nhiều.
Ph−ơng pháp tạo điểm ảnh dựa trên tổng giá trị của điểm dự đoán vμ sai số dự báo
gọi lμ “điều chế xung mã vi sai (DPCM)”.
Hình 2.2: Sơ đồ khối bộ mã hoá DPCM
Σ
Bộ dự đoán
Mã hoá
entropy
Bộ lượng tử hoá
Σ
Tín hiệu video số
V +
e
+
Kênh
V
’
p
+
V: Tín hiệu vào.
e = V-P (P- sai số dự đoán)
e
q
– là sai số lượng tử
V
’
= e
q
+ p tín hiệu tạo lại
Sơ đồ khối bộ mã hoá và giải mã DPCM có dạng sau:
e
q
+
Giải mã
entropy
Σ
Bộ dự đoán
Kênh tín hiệu
-
V
’
Đầu ra giải mã
p
Hình 2.3: Sơ đồ khối bộ giải mã DPCM
Nhằm tránh các lỗi có thể xuất hiện trong khi truyền, một mẫu đầy đủ sẽ
được gửi đi theo chu kỳ nhất định cho phép cập nhật được các giá trị chính xác. Mã
hoá DPCM cũng sử dụng thêm các kỹ thuật dự đoán và lượng tử hoá thích nghi để
hoàn thiện thêm kỹ thuật nén này.
2.1.2.5. Mã hoá chuyển đổi (Transform coding)
Đối với việc mã hoá riêng rẽ từng điểm một sẽ không đạt được hiệu quả bởi
ta không tận dụng được hết mối quan hệ giữa các khối điểm trong ảnh số. Phương
pháp mã chuyển vị là một phương pháp có hiệu quả trong việc mã hoá khối điểm
thông qua biến đổi tuyến tính các điểm này thành các hệ số chuyển vị và mã hoá
các hệ số chuyển vị đó. Phương pháp này tập trung vào một số các hệ số chuyển vị
mà không phải là các điểm ảnh của ảnh gốc và lượng thông tin chỉ trong một số ít
hệ số chuyển vị. Như vậy, số bit dùng cho quá trình mã hoá sẽ ít đi.
Hơn nữa, do hệ thống thị giác của con người không thể nhận biết hoàn toàn
các chi tiết của ảnh khi những chi tiết đó biến đổi nhanh so với các biến đổi chậm,
bởi vậy để mã hoá các hệ số chuyển vị ở tần số cao, ta chỉ cần một số ít bit mà chất
lượng hình ảnh vẫn tốt.
2.2. Các chuẩn nén video
Hiệp hội viễn thông quốc tế (ITU) và tổ chức tiêu chuẩn quốc tế/Uỷ ban kỹ
thuật điện tử quốc tế (ISO/IEC) là hai tổ chức phát triển các tiêu chuẩn mã hoá
Video. Theo ITU-T, các tiêu chuẩn mã hoá video được coi là các khuyến nghị gọi
tắt là chuẩn H.26x (H.261, H.262, H.263, H.264). Với tiêu chuẩn ISO/IEC, chúng
được gọi là MPEG-x (như MPEG-1, MPEG-2 và MPEG-4). Những khuyến nghị của
ITU được thiết kế dành cho các ứng dụng truyền thông video thời gian thực như video
Conferencing hay điện thoại truyền hình. Mặt khác, những tiêu chuẩn MPEG được
thiết kế hướng tới mục tiêu lưu trữ Video chẳng hạn như trên đĩa quang DVD, quảng
bá video số trên mạng cáp, đường truyền số DSL, truyền hình vệ tinh hay những ứng
dụng truyền dòng video trên mạng Internet hoặc thông qua mạng không dây. Với đối
tượng để truyền dẫn video là mạng Internet thì ứng cử viên hàng đầu là chuẩn nén
MPEG-4 AVC, còn được gọi là H.264, MPEG-4 part 10, H.26L hoặc JVT.
2.3. Nén Video theo tiêu chuẩn MPEG
Nhóm các chuyên gia về ảnh động (Motion Pictures Expert Group-MPEG)
làm việc cho tổ chức tiêu chuẩn quốc tế ISO (ISO/IEC) có nhiệm vụ nghiên cứu và
phát triển các tiêu chuẩn nén, giải nén tín hiệu video, audio. Hiện nay các chuẩn
nén MPEG đang được sử dụng phổ biến và được các tổ chức ISO/IEC, ITU
(International Telecommunication Union) công nhận là chuẩn nén quốc tế, áp dụng
cho các hệ truyền hình tại Mỹ, Nhật Bản, Châu âu.
MPEG-1: được phát triển vào năm 1988 – 1992, là tiêu chuẩn đầu tiên của
MPEG. Chuẩn MPEG-1 được sử dụng chủ yếu để nén tín hiệu VCD và các luồng
tốc độ thấp khoảng 1.5Mbps. MPEG-1 hỗ trợ nén các tín hiệu có phân giải thấp
352 x 240(60Hz) và 352 x 288(50Hz), sử dụng biến đổi cosin rời rạc (DCT) để loại
bỏ dư thừa không gian, có dự đoán và bù chuyển động. Điểm nổi bật của MPEG-1
khi đó là có hỗ trợ nén các hình ảnh quét lần lượt.
MPEG-2: Được xây dựng từ năm 1991 đến 1994 và vẫn đang được sử dụng
rộng rãi đến tận bây giờ. MPEG-2 có thuật toán nén tương tự như MPEG-1, song
đã được phát triển lên tầm cao hơn, hoàn chỉnh hơn với hệ thống công cụ và cấp
đa dạng (Profile và Level), hỗ trợ nén cho rất nhiều định dạng tín hiệu video, part 3
là về audio. MPEG-2/part 2 tương tự như MPEG-1 song đã có hỗ trợ nén hình ảnh
quét xen kẽ. Chính vì vậy, MPEG-2 được sử dụng rộng rãi và chính thức trong các
tiêu chuẩn truyền hình DVB, ISDB.
MPEG-3: Được phát triển vào năm 1992 với mục đích áp dụng cho HDTV,
tuy nhiên nó bị huỷ bỏ vào năm 1993 do nhận thấy rằng: MPEG-2 hoàn toàn có thể
thực hiện cho HDTV.
MPEG-4: Là thiết kế của MPEG nhằm hỗ trợ các ứng dụng audio/video
hướng đối tượng, các nội dung 3D và hỗ trợ quản lý bản quyền nội dung số DRM
(Digital Rights Management). Đây là một định dạng nén/mã hoá video có khả năng
truyền thông trong các môi trường băng thông rất khác nhau. So với MPEG-2,
MPEG-4 ưu việt hơn hẳn về tính năng tương tác. Hiện nay đa số các nhà cung cấp
dịch vụ Multimedia như, RealNetworks, DivXNetworks, Microsoft đều đã hỗ trợ
chuẩn MPEG-4 trong cấu trúc hạ tầng cũng như công cụ Codecs của mình (Apple
với Quick Time và các máy chủ Darwin Streaming Servers, RealNetWorks với
RealPlayers và các máy chủ Helix Servers, DivXNetworks với DivX, Microsoft
với Card Plug-ins cắm nối với Windows Media Players…). Trên môi trường mạng
sử dụng kỹ thuật TCP/UDP Streaming, chuẩn MPEG-4 AVC/H.264 có thể cho
phép xem truyền hình trực tuyến Online với chất lượng khá tốt tại các tốc độ bit ≤
500kbps.
MPEG-7: Là một chuẩn dùng để mô tả các nội dung multimedia, chứ không
phải là một chuẩn cho nén và mã hoá audio/ảnh động như MPEG-1,MPEG-2 hay
MPEG-4. MPEG-7 sử dụng ngôn ngữ đánh dấu mở rộng XML để lưu trữ các siêu
dữ liệu Metadata, đính kèm timecode để gắn thẻ cho các sự kiện hay đồng bộ các
dữ liệu. MPEG-7 bao gồm 03 bộ chuẩn sau:
- Bộ các sơ đồ đặc tả (description schemes) và các đặc tả (descriptors);
- Ngôn ngữ xác định DDL (Description Definition Languae) để định nghĩa
các sơ đồ đặc tả;
- Sơ đồ mã hoá quá trình đặc tả;
2.3.1. Nén Video theo MPEG-1
Tiêu chuẩn MPEG-1 gồm 4 phần:
Phần 1: Hệ thống (ISO/IEC 11172-1)
Phần 2: Nén video (ISO/IEC 11172-2)
Phần 3: Nén Audio (ISO/IEC 11172-3)
Phần 4: Kiểm tra (ISO/IEC 11172- 4)
MPEG-1 nghiên cứu cách thức ghép nối một hoặc vμi dòng dữ liệu chứa thông
tin thời gian để hình thμnh nên một dòng dữ liệu. Nó cung cấp qui tắc cú pháp đồng
bộ hoá quá trình phát lại cho một dải ứng dụng Video rộng.
MPEG-1 coi ảnh chuyển động nh− dạng thức dữ liệu máy tính (gồm các
điểm ảnh). Cũng nh− các dữ liệu máy tính (ảnh vμ văn bản), ảnh video chuyển
động có khả năng truyền vμ nhận bằng máy tính vμ mạng truyền thông. Chúng
cũng có thể đ−ợc l−u trữ trong các thiết bị l−u trữ dữ liệu số nh− đĩa CD, đĩa
Winchester vμ ổ quang.
MPEG-1 cung cấp cả các ứng dụng đối xứng vμ không đối xứng:
Trong ứng dụng không đối xứng, ảnh động đ−ợc nén một lần, sau đó giải nén
nhiều lần để truy cập thông tin, ví dụ trò chơi games.
Trong ứng dụng đối xứng, quá trình nén vμ giải nén phải cân bằng
nhau. VD: điện thoại hình, th− điện tử.
Để đạt đ−ợc hiệu suất nén cao mμ vẫn giữ tốt chất l−ợng ảnh phục hồi,
chuẩn MPEG-1 sử dụng cả công nghệ nén trong ảnh (Intraframe) vμ liên ảnh
(Interframe) để loại bỏ đ−ợc cả sự d− thừa không gian vμ thời gian.
Do MPEG-1 đ−ợc phát triển cho l−u trữ dữ liệu số nên đòi hỏi có sự truy
cập ngẫu nhiên (Random Access). Cách thức mã hoá tốt nhất cho truy cập ngẫu
nhiên lμ mã hoá Intraframe đơn thuần. Song do sự d− thừa thông tin về thời gian
ch−a đ−ợc loại bỏ nên hiệu suất nén rất thấp. Do vậy trong tiêu chuẩn nén MPEG-
1, có sự cân bằng giữa nén trong ảnh (Intraframe) vμ nén liên ảnh (Interframe)
bằng cách sử dụng các công nghệ sau đây:
Bù chuyển động
Dự báo
Nội suy
Biến đổi cosine rời rạc
L−ợng tử hoá
Mã hoá độ dμi thay đổi (mã Huffman-VLC)
Tức lμ có sự kết kết hợp hai công nghệ nén DPCM vμ Trasform Coding.
Thuật toán nén MPEG-1 sử dụng bù chuyển động khối để giảm sự d− thừa thời
gian với vecto chuyển động cho mỗi khối kích th−ớc 16 x16 điểm ảnh. Bù chuyển
động đ−ợc sử dụng cho cả dự báo nhân quả vμ không nhân quả
Dự báo nhân quả tạo dự báo ảnh hiện hμnh từ ảnh tr−ớc đó.
Dự báo không nhân quả tạo dự báo cho ảnh hiện hμnh dựa trên ảnh
trong quá khứ vμ cả t−ơng lai.
Vòng lặp DPCM đ−ợc sử dụng để tạo khung sai số dự báo. Sau đó,công
nghệ mã hoá chuyển đổi chuyển khung sai số nμy sang miền tần số để nén các hệ
số nhờ l−ợng tử hoá vμ mã hoá Huffman tr−ớc khi truyền tải hay l−u trữ.
2.3.1.1. Các thμnh phần ảnh cơ bản trong chuẩn nén MPEG
Các tiêu chuẩn MPEG cấu trúc dữ liệu dạng lớp. Bao gồm các thμnh phần
cơ bản sau đây:
Khối (Block): Lμ đơn vị cơ bản cho chuyển đổi DCT. Bao gồm 8x8 điểm ảnh
tín hiệu chói hoặc tín hiệu mμu.
Macro Block: Lμ nhóm các khối DCT t−ơng ứng với thông tin của một cửa sổ
16x16 điểm ảnh gốc. Có nhiều dạng Macro Block khác nhau phụ thuộc vμo
cấu trúc lấy mẫu đ−ợc sử dụng.
Phần đầu đề (header) của Macroblock chứa thông tin phân loại (Y hay Cb,
CR) vμ vector bù chuyển động t−ơng ứng.
Lát (slice): Đ−ợc cấu thμnh từ một hay một số MB liên tiếp nhau.
Phần header của slice chứa thông tin về vị trí của nó trong ảnh vμ tham số
quét l−ợng tử (quantized scaling factor). Kích cỡ của slice quyết định bởi mức bảo
vệ lỗĩ cần có trong ứng dụng vì bộ giải mã sẽ bỏ qua slice bị lỗi. Hệ số một chiều
DC đ−ợc định vị tại điểm bắt đầu mỗi slice.
Ảnh: Lớp ảnh cho bên thu biết về loại mã hoá khung I,P,B). Phần header
mang thứ tự truyền tải của khung để bên thu hiển thị khung theo đúng thứ tự,
ngoμi ra còn có một số thông tin bổ sung nh− thông tin đồng bộ, độ phân giải
vμ vecto chuyển động.
Hình 2.4: Cấu trúc Macroblock của các dạng lấy mẫu
Nhóm ảnh (group of picture): Gồm cấu trúc các ảnh I,B vμ P. Mỗi nhóm bắt
đầu bằng ảnh I cung cấp điểm vμo ra vμ tìm kiếm. Phần header chứa 25 bit
thời gian vμ chế độ điều khiển cho VTR vμ thông tin thời gian. Trong MPEG
có các cấu trúc nhóm ảnh điển hình nh− sau:
F
1
F1
F
2
F2
F
3
F3
F
4
F4
F
5
F5
F
6
F6
F
7
F7
F
8
F8
F
9
F9
F
10
F10
I
I
B
B
B
B
P
P
B
B
B
B
P
P
B
BB
B
B
B
I
I
R-601:
Khung
đã nénu truực:
ΙBBPBBPBBΙ
Cấu trúc IB
I
I
B
B
I
I
I
I
B
B
P
P
I
I
P
P
Cấu trúc IBP
Cấu trúc IP
Cấu trúc IBBPBBPBBI
Khung
CCIR_ 601
nguyên thuỷ Ι BBPBBPBBΙ
Hình 2.5: Các cấu trúc nhóm ảnh trong tiêu chuẩn MPEG
Chuỗi Video (Video Sequence): lớp chuỗi bao gồm phần header, một hoặc một
số nhóm ảnh (Picture Group) vμ phần kết thúc chuỗi Sequence end Code).
Y C
B
C
R
Frame
me
8X8
8X8
8X8
8X8
Y
C
B
C
R
Macroblock
Slice
frame
GOP
4:2:0
Thông tin quan trọng nhất của phần header lμ kích th−ớc (dọc, ngang) của mỗi
ảnh, tốc độ bit, tốc độ ảnh vμ dung l−ợng đòi hỏi bộ đệm dữ liệu bên thu. Thông
tin chuỗi ảnh vμ phần header của chuỗi lμ dòng bit đã mã hoá, còn gọi lμ dòng
video cơ bản.
Hình 2.6: Cấu trúc dòng dữ liệu video MPEG
2.3.1.2. Sự phân loại ảnh MPEG
Tiêu chuẩn nén video MPEG định nghĩa 3 loại ảnh: ảnh I, ảnh B vμ ảnh P.
a. Ảnh I: (Intra - Coded Picture)
Các ảnh I đ−ợc mã hoá theo mode Intra để có thể giải mã mμ không cần sử
dụng dữ liệu từ bất cứ một ảnh nμo khác. Đặc điểm của ph−ơng pháp mã hoá nμy
nh− sau:
Chỉ loại bỏ đ−ợc sự d− thừa không gian.
Dùng các điểm trong cùng một khung để tạo dự báo.
Không có bù chuyển động.
Các thông tin đ−ợc mã hoá rõ rμng, minh bạch nên số l−ợng bít yêu cầu lớn.
Do đ−ợc mã hoá Intra, ảnh I bao giờ cũng lμ ảnh đầu tiên trong một nhóm
ảnh hay một chuỗi ảnh. Nó cung cấp thông tin khởi động các ảnh tiếp theo trong
nhóm.
b. Ảnh P (Predictive Code Picture)
Ảnh P đ−ợc mã hoá liên ảnh một chiều (Interframe một chiều):
Dự báo Inter một chiều.
ảnh dự báo đ−ợc tạo ảnh tham chiếu tr−ớc đó (dự báo nhân quả). Ảnh tham
chiếu nμy có thể lμ ảnh I hoặc ảnh P gần nhất.
Có sử dụng bù chuyển động. Thông tin −ớc l−ợng chuyển động của các khối
nằm trong vecto chuyển động (motion vecto). Vecto nμy xác định
Macroblock nμo đ−ợc sử dụng từ ảnh tr−ớc.
Do vậy ảnh P bao gồm cả những MB mã hoá Inter (I - MB) lμ những
macroblock chứa thông tin lấy từ ảnh tham chiếu vμ những MB mã hoá Intra lμ
những MB ch−á thông tin không thể m−ợn từ ảnh tr−ớc. Ảnh P có thể đ−ợc sử
dụng lμm ảnh tham chiếu tạo dự báo cho ảnh sau.
c. Ảnh B (Bidirectionally Predicted Pictures)
Ảnh B lμ ảnh mã hoá liên ảnh hai chiều.Tức lμ :
Có sử dụng bù chuyển động.
Dự báo không nhân quả, ảnh dự báo gồm các macroblock của cả khung hình
tr−ớc đó vμ sau đó.
Việc sử dụng thông tin lấy từ ảnh trong t−ơng lai hoμn toμn có thể thực hiện
đ−ợc vì tại thời điểm mã hoá thì bộ mã hoá đã sẵn sμng truy cập tới ảnh phía sau.
Ảnh B không đ−ợc sử dụng lμm ảnh tham chiếu tạo dự báo cho các ảnh sau. [3]
Khung dự báo (B) = khung trước
- khung sau
+ vecto chuyển
động hai chiều
Đường di chuyển của vật thể
Vị trí nội suy
Vùng không bao phủ
Khung kề trước (n)
Khung hiện hành (n+1)
Dự báo bù chuyển động ảnh P
Khung dự báo (P) = khung trước
- khung hiện hành
+ vecto chuyển động
Khung kề trước (n-1)
Khung hiện hành (n)
Khung kề sau (n+1)
Dự báo bù chuyển động ảnh B
Hình 2.7: Nội suy bù chuyển động
d. Thứ tự truyền dẫn vμ thứ tự hiển thị ảnh.