Tải bản đầy đủ (.pdf) (34 trang)

NÉN ẢNH VIDEO THEO CHUẨN MPEG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.43 MB, 34 trang )

ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

BÁO CÁO BÀI TẬP LỚN
XỬ LÝ DỮ LIỆU ĐA PHƢƠNG TIỆN
Đề tài 11: NÉN ẢNH VIDEO THEO CHUẨN MPEG
Giảng viên hướng dẫn:

PGS.TS. Nguyễn Thị Hoàng Lan
Nhóm sinh viên thực hiện:

Trƣơng Nhật Quang -20102025
Trƣơng Văn Lai - 20101751
Phạm Tiến Đạt -20101362

Hà Nội – 05/2014


MỤC LỤC
NỘI DUNG ................................................................................................................4
I. Tổng quan về MPEG ..............................................................................................4
1.1. Khái niệm chuẩn MPEG .................................................................................4
1.2. Mục đích ra đời chuẩn MPEG ........................................................................4
1.3. Quy định về hệ màu ........................................................................................5
1.4. Cấu trúc frame I, P, B .....................................................................................7
1.5. Cấu trúc dòng dữ liệu ......................................................................................9
1.5.1.Video Sequence (Cảnh): ...........................................................................9
1.5.2. GOP (Group of picture): ..........................................................................9
1.5.3. Frame/Picture (khung hình): ....................................................................9
1.5.4. Slice ........................................................................................................10
1.5.5. Macroblock ............................................................................................10


1.5.6. Block: .....................................................................................................10
1.6. Phương pháp nén...........................................................................................11
1.6.1. Phương pháp mã hóa DPCM .................................................................11
1.6.2. Phép biến đổi DCT.................................................................................14
II. Chuẩn MPEG 1 ...................................................................................................15
2.1. Giới thiệu chuẩn MPEG 1.............................................................................15
2.2. Sơ đồ nén.......................................................................................................15
V. So sánh và sự phát triển các chuẩn MPEG .........................................................17
5.1. MPEG 1 và MPEG 2.....................................................................................17
5.2. MPEG 2 và MPEG 4.....................................................................................19
VI. Ảnh hưởng của phương pháp nén tới chất lượng video ....................................22
6.1. Vai trò của nén video ....................................................................................23
6.2. Một số phần tử dư thừa trong video..............................................................23
6.2.1. Dư thừa thống kê....................................................................................23
6.2.2. Dư thừa do cảm nhận sinh lý của mắt người .........................................24


6.3. Những thành phần ảnh hưởng tới chất lượng nén trong chuẩn MPEG ........24
6.3.1. Nén trong ảnh .........................................................................................25
6.3.2. Nén video theo thời gian ........................................................................28
VII. Ứng dụng chuẩn MPEG ...................................................................................31
Một số đặc điểm so sánh MPEG1 và MPEG2. ....................................................31
Quét xen kẽ vs quét tuần tự..................................................................................31
Độ phân giải. ........................................................................................................32
TÀI LIỆU THAM KHẢO .......................................................................................34


NỘI DUNG
I. Tổng quan về MPEG
1.1. Khái niệm chuẩn MPEG


MPEG(motion picture experts group) là một nhóm các chuyên gia về hình ảnh
được thành lập từ tháng 2 năm 1998 với nhiệm vụ xây dựng tiêu chuẩn cho tín hiệu
Audio và Video số. Ngày nay, MPEG đã trở thành một kỹ thuật nén Audio và
Video phổ biến nhất vì nó không chỉ là một tiêu chuẩn riêng biệt mà tùy thuộc vào
từng yêu cầu cụ thể của thiết bị sẽ có một tiêu chuẩn thích hợp nhưng vẫn trên
nguyên lý thống nhất.
Các thế hệ của chuẩn MPEG:
 MPEG 1 là thế hệ lưu trữ và phục hồi ảnh động và Audio trong lưu trữ Media.
MPEG-1 có thể nén tín hiêu video tới 1.5 Mbps với chất lượng VHS và âm
thanh lập thể (stereo audio) với tốc độ 192 bps. Được dùng để lưu trữ video và
âm thanh trên CD-ROM.
 MPEG 2 là thế hệ cho TV số.
 MPEG 4 là thế hệ cho các ứng dụng Multmedia. MPEG-4 trở thành 1 tiêu
chuẩn cho nén ảnh kỹ thuật truyền hình số, các ứng dụng về đồ họa và video
tương tác hai chiều (Games, Video conferencing) và các ứng dụng Multimedia
tương tác hai chiều (world wide web hoặc các ứng dụng nhằm phân phát dữ liệu
video như truyền hình cáp, internet video…). MPEG-4 đã trở thành một tiêu
chuẩn công nghệ trong quá trình sản xuất, phân phố và truy cập vào các hệ
thống video. Nó đã góp phần giải quyết vấn đề dung lượng cho các thiết bị lưu
trữ, giải quyết vấn đề về băng thông của đường truyền tín hiệu video hoặc kết
hợp cả hai vấn đề trên.
 MPEG 7 chứa đặc tả thông tin, giao diện cho việc tìm kiếm thông tin.
1.2. Mục đích ra đời chuẩn MPEG

Tín hiệu video sau khi được số hóa có tốc độ lớn, để có thể truyền trên một kênh
truyền hình thông thường mà vẫn đảm bảo chất lượng hình ảnh, tín hiệu video số
cần được nén để giảm tốc độ dòng bit của tín hiệu xuống một giá trị nhất định đủ
để có thể tái tạo lại hình ảnh khi giải nén, giảm dung lượng dữ liệu cũng như băng
thông cần thiết và giúp tiết kiệm chi phí trong lưu trữ và truyền dẫn.



MPEG ra đời nhằm đáp ứng các yêu cầu trên đối với tín hiệu video trong truyền
hình và internet
1.3. Quy định về hệ màu

Hệ màu chuẩn MPEG sử dụng là YUV và YcrCb.
Mô hình YUV qui định một không gian màu được tạo bởi một thành phần độ chói
và hai thành phần màu (chrominance). YUV được sử dụng trong hệ thống phát
sóng truyền hình theo chuẩn PAL, đây là chuẩn ở phần lớn các nước.
Mô hình YUV giúp tạo ra màu đúng với nhận thức của con người hơn chuẩn RGB,
là loại được dùng trong các thiết bị đồ hoạ máy tính, nhưng không chuẩn bằng
không gian màu HSV. Y đi diện cho thành phần độ chói, U và V là đại diện cho
các thành phần màu. Không gian màu YCbCr hay YPbPr, được sử dụng trong các
thiết bị phát hình, đều xuất phát từ nó (Cb/Pb và Cr/Pr là những phiên bản biến thể
của U và V), và đôi khi bị gọi một cách không chính xác là "YUV" . Không gian
màu YIQ được dùng trong các hệ thống truyền hình NTSC cũng liên quan đến nó,
tuy nhiên lại đơn giản hơn nó nhiều.
Các tín hiệu YUV đều xuất phát từ các nguồn RGB. Các giá trị trọng số của R, G
vàB được cộng lại với nhau để tạo ra một tín hiệu Y đơn, để biểu diễn độ sáng
chung tại một điểm đó. Tín hiệu U sau đó được tạo ra bằng các trừ Y khỏi tín hiệu
xanh lam (B của RGB), và được nhân với một tỉ lệ có sẵn; còn V được tính bằng
cách trừ Y khỏi màu đỏ (R của RGB), và nhân tỉ lệ với một hệ số khác.


Hình 1 Ví dụ mặt phẳng màu U-V tại giá trị Y=0.5, nằm trong phổ màu RGB

Các công thức sau có thể dùng để tnh toán Y, U và V từ R, G và B :
Y = 0.299R + 0.587G + 0.114B
U = 0.492(B − Y) = − 0.147R − 0.289G + 0.436B

V = 0.877(R − Y) = 0.615R − 0.515G − 0.100B

hay dùng ma trận

Ở đây, R, G và B được giả sử là nằm trong khoảng 0 đến 1, với 0 biểu diễn cường
độ bé nhất còn 1 là lớn nhất. Có hai điều cần chú ý:
- Hàng trên cùng là đồng nhất với công thức dùng trong không gian màu YUV
- Nếu:
= [1 1 1] thì
Nói cách khác, các hệ số ở hàng trên cùng có tổng là 1 và hai hàng sau có tổng là
0.


Tuy có thể chuyển từ RGB→YUV bằng công thức toán, nhưng thường để tiện lợi
dùng số xấp xỉ.
1.4. Cấu trúc frame I, P, B

I-frame (Intra frame - khung hình độc lập): I-frame là khung hình được mã hóa độc
lập mà không cần tham khảo tới các khung hình khác. Hiệu quả nén tín hiệu ạược
do loại bỏ sự dư thừa về không gian (không có yếu tố thời gian tham gia quá trình).
I-frame được dùng một cách tuần hoàn để tạo các điểm tựa cho dòng dữ liệu trong
quá trình giải mã. I-frame cung cấp khả năng truy xuất ngẫu nhiên các điểm trong
dữ liệu video nén và cung cấp độ nén vừa phải được dùng với 2 bit mỗi pixel.

P-frame (Predicted frame - khung hình dự đoán): P-frame có thể sử dụng các Iframe hay P-frame ngay trước nó để bù chuyển động. Công nghệ này gọi là công
nghệ dự đoán tiến (Forward prediction). Mỗi Macroblock trong P-frame có thể
được mã hóa hóa theo kiểu tiên đoán (Predicted) hoặc được mã hóa độc lập (intracoded). Cũng như I-frame, P-frame được dùng như một tham chiếu cho việc dự
đoán B-frame và P-frame kế tiếp. P-frame dùng để bù chuyển động và cũng cấp
nhiều khả năng nén hơn I-frame do sử cả nén không gian và thời gian. P-frame có
thể sinh ra các lỗi do P-frame được dự đoán từ I-frame hoặc P-frame trước đó.


B-frame (Bidirectional frame - khung hình hai hướng): B-frame là các khung hình
sử dụng các khung hình trong quá khứ và tương lai để tham khảo. B-frame cung
cấp khả năng nén lớn hơn và không sinh ra lỗi do nó không được dùng cho việc
tham chiếu.


Hình 2 Thứ tự truyền các khung hình
Thuật toán MPEG cho phép mã hóa để chọn ra các tần số và vị trí của I-frame.
Việc lựa chọn này dựa vào sự cần thiết của ứng dụng trong truy xuất ngẫu nhiên và
vị trí của cảnh. Đối với các ứng dụng mà việc truy xuất ngẫu nhiên quan trọng thì
I-frame luôn được sử dụng 2 lần một giây.
B-frame có thể sử dụng các ảnh I-frame hoặc P-frame phía trước hoặc phía sau nó
cho việc bù chuyển động và do vậy cho kết quả nén cao nhất. Mỗi khối trong Bframe có thể được tiên đoán theo chiều ngược, xuôi, cả hai hướng hoặc được mã
hóa một cách độc lập. Để có thể tiên đoán ngược từ một khung hình phía sau nó,
bộ mã hóa sẽ tiến hành sắp xếp lại các khung hình từ thứ tự xuất hiện một cách tự
nhiên sang một thứ tự khác của các khung hình trên đường truyền. Do vậy từ đầu
ra của bộ mã hóa, B-frame được truyền sau các khung hình dùng để tham khảo ở
phía trước và phía sau của nó. Điều này sẽ tạo độ trễ do phải sắp xếp lại thông tin,
độ trễ này lớn hay nhỏ là tùy thuộc vào số các B-frame liên tiếp nhau được truyền.
Bộ mã hóa chọn số B-frame nằm giữa mỗi cặp tham chiếu (I-frame hoặc P-frame).
Việc lựa chọn này dựa vào các yếu tố như khối lượng bộ nhớ trong bộ mã hóa và


đặc trưng của thành phần được mã hóa. Chẳng hạn một dãy khung hình thường có
hai khung hình hai hướng xen giữa các khung hình tham chiếu.
1.5. Cấu trúc dòng dữ liệu

Chuẩn MPEG định nghĩa một kiểu phân cấp cấu trúc trong dữ liệu Video như sau:


Hình 3 Cấu trúc dòng dữ liệu trong MPEG
1.5.1.Video Sequence (Cảnh): bắt đầu với một Sequence Header, bao gồm một
hoặc một nhóm khung hình và kết thúc với mã End-of-sequence.
1.5.2. GOP (Group of picture): một dãy liên tiếp các ảnh (picture) trong cảnh.
Trong GOP định nghĩa 2 tham số là m và n.
o m là khoảng cách giữa các frame dự đoán tiến (p-frame)
o n là độ dài của GOP.
1.5.3. Frame/Picture (khung hình): là thành phần mã hóa chính, thường chúng
ta có thể phân biết sự thay đổi về độ sáng của ảnh (Brightness) tốt hơn sự thay đổi
về màu (Chromiance), do đó trước hết các sơ đồ nén MPEG sẽ tiến hành chia
khung hình thành các thành phần độ sáng Y và thành phần độ màu Cb, Cr; một
khung hình sẽ gồm có ba ma trận ứng với các thành phần về độ sáng Y và độ màu
Cb, Cr.


Hình 4 Thành phần độ sáng và thành phần độ màu
Ma trận Y có số hàng và cột bằng nhau (ma trận vuông). Ma trận Cb và Cr có số
hàng và cột bằng nửa ma trận Y. Cứ 4 giá trị Y i có 2 giá trị kết hợp một của Cb
và một của Cr (Vị trí của giá trị Cb và Cr là tương đương).
1.5.4. Slice: Dãy các Macroblock, thứ tự của Macroblock bên trong Slice được
xác định từ trái qua phải, từ trên xuống dưới. Slice rất quan trong trong việc định
lỗi. Nếu dòng dữ liệu (Bitstream) có chứa lỗi, bộ giải mã có thể bỏ qua và tiếp tục
ở Slice kế tiếp. Nhiều slice trên dòng dữ liệu cho phép che giấu lỗi tốt hơn và được
dùng để cải thiện chất lượng hình ảnh.
1.5.5. Macroblock: Mpeg tách video thành một chuỗi các khối 8x8 để lượng tử
hóa. Bởi vì thành phần màu sắc có cấu trúc lấy mẫu 4:2:0, mỗi cặp khối màu
sắc(đỏ va xanh) tương ứng với 4 khối độ sáng khác nhau. Một tập gồm 6 khối(4
khối độ sáng, 2 khối chứa thông tin về màu) với độ phân giải 16x16 được gọi là
một marcoblock. Macroblock là thành phần độc lập nhỏ nhất của video. Nếu như
chiều rộng và chiều cao của video không phải là bội số của 16, bộ mã hóa sẽ thêm

vào các frame những pixel có giá trị 0 để mã hóa mặc dù khi giải mã sẽ không hiển
thị.
1.5.6. Block: Tập hợp 8x8 pixel trong 8 hàng và 8 cột , chứa các thông tin về
thành phần độ sáng Y và thành phần màu sắc Cr, Cb.


1.6. Phương pháp nén

Phương pháp nén video của mpeg dựa trên sự kết hợp của 2 kĩ thuật chủ yếu:
DPCM kết hợp với dự đoán bù chuyển động và phương pháp biến đổi DCT. Hai
phương pháp này đều dựa trên sự dư thừa của video về không gian và thời gian.

Hình 5 Sơ đồ nén tổng quát

1.6.1. Phương pháp mã hóa DPCM
Trước hết, DPCM l{ phương ph|p nén dựa trên sự dư thừa về thời gian của
video. Một đoạn video thông thường có nội dung cụ thể gắn liền với một cảnh
cụ thể. Trong một cảnh video, c|c đối tượng thuộc về phông nền thường ít
thay thay đổi, di chuyển. Chỉ có c|c đối tượng di chuyển trên phông nền mới
tạo ra sự khác biệt lớn giữa các frame trong một cảnh video (Hình 1). Tận
dụng đặc điểm đó, PCM chỉ mã hóa sự khác biệt giữa các frame trong một cảnh
video và truyền đi thông tin kh|c biệt đó. Điều này cho phép giảm rất nhiều
lượng thông tin cần mã hóa và truyền đi. Khi |p dụng DPCM, chúng ta cần chú


ý là chỉ có thể áp dụng DPCM cho từng cảnh video hoặc cho một số lượng
frame nhất định trong cùng một cảnh. Mục đích của việc l{m n{y chính l{ tăng
khả năng nén của phương ph|p. Bởi khi đ~ chuyển sang một cảnh khác thì các
frame không còn giống nhau nhiều nữa, và trong cùng một cảnh video nếu ta
áp dụng quá nhiều lần DPCM thì sự sai kh|c tăng lên rất nhiều, như vậy thì

hiệu quả nén cũng không còn.

Hình 1: mối quan hệ giữa các frame trong một cảnh video
DPCM mã hóa sự sai khác và truyền đi, vậy để có chất lượng nén cao, sự sai
kh|c được mã hóa càng nhỏ càng tốt. Sự sai khác có thể được x|c định đơn
giản bằng cách trừ 2 frame liên tiếp cho nhau để tìm ra sự sai khác. Tuy nhiên
phương ph|p n{y không mang lại hiệu quả nén cao, bởi các frame trong cùng
một cảnh không phải lúc n{o cũng tương quan với nhau nhiều. Vì thế, DPCM
áp dụng phương ph|p dự đo|n frame, v{ sự sai kh|c được x|c định bằng cách
đối sánh frame thực tế và frame dự đo|n của nó. Frame dự đo|n c{ng gần với
frame thực tế thì sự sai khác càng nhỏ, từ đó hiệu quả nén càng cao.
Phương ph|p dự đo|n đơn giản nhất giống như c|ch đối sánh 2 frame liên tiếp
đ~ nói ở trên, tức là ta sử dụng frame ngay trước đó để làm frame dự đo|n cho
frame hiện tại. Phương ph|p n{y đơn giản và dễ thực hiện nhưng hiệu quả
mang lại không cao. Cách dự đo|n phức tạp v{ chính x|c hơn l{ sử dụng một
chuỗi các frame liên tiếp để dự đo|n. C|ch thực hiện này tuy mang lại độ chính
xác dự đo|n cao, nhưng bù lại thì chi phí thực hiện lại lớn, không thích hợp
cho những ứng dụng yêu cầu thời gian thực (truyền hình hoặc quay film trực
tiếp…). Để khắc phục những vấn đề trên, MPEG đ~ sử dụng phương ph|p dự
đo|n frame dựa trên dự đo|n vector chuyển động cho từng đối tượng là các


block điểm ảnh. Ưu điểm của phương ph|p n{y l{ cho phép xử lý từng khối
điểm ảnh 8*8, xử lý xong ta có thể đưa lên đường truyền. Điều n{y đ|p ứng
được yêu cầu về thời gian của video. Ngoài ra, do chỉ cần sử dụng frame trước
để dự đo|n chuyển động cho frame sau nên chi phí bộ nhớ của phương ph|p
n{y cũng không cao.
Phương ph|p dự đo|n chuyển động thực hiện việc đối sánh khối điểm ảnh với
các vị trí xung quanh để tìm ra một vị trí tương đồng nhất, và sử dụng vị trí
mới n{y như l{ vị trí dự đo|n chuyển động của khối ban đầu. Vector chuyển

động được x|c định dựa theo đường nối vị trí của khối điểm ảnh:

Frame
Frame
N
N+1
Hình 2: Vector chuyển động của khối
điểm ảnh.
Như vậy, khi đ~ x|c định được vector chuyển động của khối điểm ảnh, ta có
thể x|c định được vị trí mới của khối nhờ vào phép tịnh tiến khối điểm ảnh
ban đầu dọc theo vector chuyển động của khối:

Hình 3: Xác định vị trí mới của khối điểm ảnh dựa vào vector chuyển động.
Như hình trên ta đ~ thấy, khối điểm ảnh sau khi được dự đo|n nhờ vào vector
chuyển động có vị trí gần với vị trí thực tế. Nhưng vector chuyển động lại
không thể x|c định được chuyển động của khối điểm ảnh nếu trong trường
hợp đó l{ chuyển động quay, khi đó, sự sai khác phát hiện được chủ yếu là do
sự quay. Nhưng trong phạm vi giữa 2 frame liên tiếp, sự sai khác do chuyển


động quay gây ra rất nhỏ. Vì thế dự đo|n chuyển động bằng vector chuyển
động mang lại kết quả rất gần với thực tế.
1.6.2. Phép biến đổi DCT
DCT là phép biến đổi áp dụng cho mỗi khối 8*8 điểm ảnh. Phép biến đổi DCT
nhằm giảm độ dư thừa về không gian trong một frame ảnh. Là phép biến đổi
đơn vị, tồn tại phép biến đổi ngược không gây sai số, không mất mát thông tin,
DCT biến đổi khối điểm ảnh chưa nén th{nh ma trận
gồm các thành phần tần số, phân bố theo các mức tần số
thấp, trung bình và cao.
Phép biến đổi DCT có một đặc điểm l{ sau khi lượng tử

hóa, đa phần các hệ số thuộc miền tần số cao và trung
đều bằng 0, chỉ còn lại các hệ số thuộc miền tần số thấp
có giá trị khác 0. Tận dụng đặc điểm này, khối điểm ảnh
sau DCT được quét zig-zag và áp dụng m~ hóa RLC để tăng hiệu quả nén. Ví dụ
cho khối điểm ảnh sau:

Như vậy, từ 64 hệ số, giờ ta chỉ cần truyền đi 15 số và một mã kết thúc khối
(EOB). Rõ ràng số lượng mã cần truyền đi trong trường hợp n{y đ~ giảm đi rất
nhiều.


II. Chuẩn MPEG 1
2.1. Giới thiệu chuẩn MPEG 1
MPEG-1 là thế hệ đầu tiên của các chuẩn MPEG. MPEG-1 có thể nén tín hiêu
video tới 1.5 Mbps và âm thanh lập thể (stereo audio) với tốc độ 192 bps. Nó
được dùng để lưu trữ video và âm thanh trên CD-ROM.
2.2. Sơ đồ nén

Hình 6 Sơ đồ nén MPEG 1
Sơ đồ nén gồm có 3 phần chính:
Khối mã hóa DCT, IDCT.
Khối lượng tử hóa & lượng tử hóa ngược.
Khối dự đo|n, bù chuyển động
Chức năng của các khối như sau:
Khối DCT thực hiện phép biến đổi Cosin rời rạc đối với đối tượng là sự
sai khác giữa frame hiện tại và frame được dự đo|n (đối với frame I, DCT
thực hiện biến đổi ngay trên các khối điểm ảnh của frame). IDCT thực hiện


phép biến đổi Cosin ngược, phục hồi lại sự sai kh|c đ~ được mã hóa, sử

dụng cho quá trình dự đo|n bù chuyển động.
Lượng tử hóa: rời rạc hóa tín hiệu theo c|c bước lượng tử, ở đ}y l{ rời
rạc hóa các giá trị của khối điểm ảnh đ~ qua biến đổi DCT.
Khối dự đo|n chuyển động: thực hiện tìm vector chuyển động của khối
điểm ảnh dựa theo frame hiện tại và frame tham chiếu(frame được dự
đo|n trước nó). Vector chuyển động cũng sẽ được mã hóa và truyền đi.
Khối bù chuyển độngcó nhiệm vụ khôi phục lại frame dự đo|n bằng
vector chuyển động và frame tham chiếu của nó. Từ frame dự đo|n v{
frame hiện tại, ta lấy được thông tin về sự sai kh|c, thông tin n{y được đưa
đến bộ mã hóa DCT.
MPEG1 là sự phối hợp của c|c kĩ thuật DPCM và DCT, do vậy nó có những đặc
điểm nén giống như 2 kỹ thuật đó. Nếu trong các khối của sơ đồ nén DPCM,
hiệu quả nén phụ thuộc rất nhiều vào khối dự đo|n, thì ở MPEG1 lại là khối dự
đo|n bù chuyển động. Về bản chất, dự đo|n bù chuyển động ở MPEG1 chính là
khối tiên đo|n ở DPCM. Tuy về mặt tính to|n, độ phức tạp của giải thuật, dự
đo|n chuyển động sẽ tốn chi phí cao; nhưng bù lại, độ chính xác dự đo|n lại
cao hơn nhiều so với các giải thuật dự đo|n DPCM. Khối DCT biến đổi khối
điểm ảnh theo một công thức được định nghĩa sẵn. Tức là DCT chỉ có ý nghĩa
l{m tăng giải tương quan trong một block ảnh chứ không có ý nghĩa quyết
định đến hiệu quả nén của cả sơ đồ. Thêm nữa, do được kế thừa từ DPCM nên
MPEG1 cũng có sai số mã hóa gây ra bởi khối lượng tử hóa. Nhưng ở MPEG1,
sai số này có thể được điều chỉnh, v{ theo đó có thể l{m tăng chất lượng video.
Khi ta tăng số bit lượng tử hóa, tức là sai số do lượng tử hóa giảm, tín hiệu sau
khi lượng tử hóa sẽ càng gần với tín hiệu thực tế.
Mô tả qu| trình nén như sau:
Frame I (frame đầu tiên) được mã hóa toàn bộ theo phương ph|p m~ hóa ảnh
JPEG, vector chuyển động = 0, frame này trở thành frame tham chiếu của
frame thứ 2.
Frame thứ 2: nhận frame tham chiếu l{ frame được dự đo|n trước đó (frame
1). Bộ đ|nh gi| chuyển động x|c định vector chuyển động dựa vào frame 2 và

frame 1. Bộ bù chuyển động tạo ra frame dự đo|n của frame 2 bằng cách kết


hợp vector chuyển động và frame tham chiếu của nó (là frame 1). Từ frame 2
và frame dự đo|n của nó, ta mã hóa sự sai khác giữa chúng, đưa lên đường
truyền sau khi đ~ lượng tử hóa.
Các frame sau tiếp tục qu| trình như trên.
Ngoài ra, MPEG1 còn áp dụng giải thuật m~ hóa Macroblock (MB). Ý tưởng của
giải thuật là khi một MB (đ~ qua biến đổi DCT) không thay đổi trong 2 frame
liên tiếp thì frame sau không cần phải truyền đi MB đó. Có 3 loại mã hóa
Macroblock(MB) khác nhau:
Skipped MB: khi dự đo|n từ c|c frame trước với vector dự đo|n chuyển
động bằng 0, không có thông tin nào cần truyền đi.
Inter MB: khi dự đo|n bù chuyển động từ các frame trước đó được sử
dụng. Khi đó cần truyền đi: kiểu m~ hóa MB, địa chỉ của MB, vector chuyển
động, các hệ số của DCT, bước lượng tử hóa.
Intra MB: khi không dự đo|n từ c|c frame trước đó (frame I), chỉ cần
truyền đi: kiểu m~ hóa MB, địa chỉ MB, các hệ số DCT, bước lượng tử hóa
được truyền đi.
V. So sánh và sự phát triển các chuẩn MPEG
5.1. MPEG 1 và MPEG 2

MPEG-1 là tiêu chuẩn nén ảnh động có kích thước 320x240 và tốc độ 11,5Mbit/s dung cho ghi hình trên bang từ v{ đĩa quang (CD), đồng thời truyền
dẫn trong các mạng , như mạng máy tính. Tuy nhiên chất lượng của nó hơi
kém so với và kém xa chất lượng ti vi chuẩn .MPEG-1 được sử dụng cho dịch
vụ như ph|t thanh số (DAB).MPEG-1 l{ định dạng cơ bản của chuẩn MP3 và nó
được sử dụng rộng rãi cho nhạc trên Internet.
MPEG-2: là thế hệ cho TV số , phát triển dựa trên MPEG -1,về sơ đồ nén cơ bản
giống với MPEG-1 nhưng có sự tiến bộ về tốc độ và một số đặc điểm hơn
MPEG-1 như sau :

 Mã hóa video với tốc độ khoảng 2-15Mb/s.MPEG-2 được dùng trong truyền
hình kỹ thuật số .


 MPEG-2 cho video có độ phân giải 720x480 và 1280x720 pixel với tốc độ
60fps v{ }m thanh đạt chất lượng AudioCD. Chuẩn này có thể nén được một
bộ phim d{i 2h th{nh 1 file có dung lượng vài GB.
 MPEG- 2 hỗ trợ định dạng 4:2:2 , điều này cho phép MPEG 2 hỗ trợ c|c định
dạng nén video chất lượng cao

Hình 7 Lấy mẫu YUV
 Trong kỹ thuật quét các hệ số để phục vụ việc mã hóa , MPEG -2 hỗ trợ
thêm kiểu quét Alternate Zic-zắc , tập trung nhiều năng lượng hơn (do
trong ma trận sau lượng tử hóa ), các hệ sốn kh|c không thường tập trung
ở góc trên bên trái ma trận), l{m cho m~ hóa C v{ VLC đạt hiệu quả hơn.


Hình 8 Quét Zig-zag và Alternate

 Chế độ đ|nh gi| chuyển động trong MPEG 2 chính xác tới ½ pixel, trong khi
đó MPEG 1 chỉ l{ full pixel .Điều này cho phép MPEG 2 nén video tốt hơn ,
chất lượng đầu ra tốt hơn .
 MPEG -2 hỗ trợ 2 kiểu quét video là quét tuần tự và quét xen kẽ trong khi
MPEG 1 chỉ hỗ trợ kiểu quét tuần tự.
5.2. MPEG 2 và MPEG 4

MPEG-4 ra đời với sự phát triển vượt bậc , là chuẩn nén video yêu cầu các yếu
tố tổng hơp thoại và hình,hình học bất quy tắc , trực quan máy tính và trí tuệ
nhân tạo để tái tạo hình ảnh .
 MPEG- 4 tạo ra một bước ngoặt mới cho truyền thông video .Trước đó chỉ

có thể xem phim với c|c định dạng rút gọn như Real, Quick Time….Với kĩ
thuật nén MPEG -4 , người ta có thể xem phim chất lượng cao trên Internet ,
đặc biệt là qua các giao thức băng rộng Wireless,vệ tinh, ADSL….
 MPEG -4 là chuẩn thuật to|n đồ họa và video dựa trên hai chuẩn MPEG-1 ,
MPEG-2 và công nghệ Quick Time của Apple. Nhờ có kích thước nhỏ hơn v{
tốc độ truyền tải thấp hơn , MPE-4 có thể truyền qua một băng thông hẹp
hơn , có thể trộn video với text , đồ họa , các lớp 2D, 3D động…


 MPEG- 4 được coi là chuẩn multimedia toàn cầu thế hệ kế tiếp, là một cuộc
cách mạng mới trong media số. Nó được thiết kế để truyền tải video với
chất lượng DVD (MPEG-2) qua mạng
Ứng dụng cho : mobile device , video conferencing, internet streaming.
Trong 1 frame nó sử dụng các không gian 4x4, 16x16
Độ chính xác của vecto chuyển động ½, ¼, 1 pixel
Dự đoán liên ảnh : 16x16, 8x16, 16x8, 8x8, 4x4 .
MPEG-4 có những cải tiến hơn so với MPEG-2 ở một số điểm sau đ}y:
Chất lượng : MPEG-2 là chuẩn kinh doanh v{ c|c đoạn video mà bạn xem
trên DVD và truyền hình kỹ thuật số được mã hóa bởi chuẩn MPEG-2. Chất
lượng MPEG-2 là hoàn hảo, nhưng định dạng này không phải dành cho các ứng
dụng đa phương tiện mạng. Nó không tạo được dòng video trên điện thoại
hoặc cho các ứng dụng broadcast. Vì vậy, chất lượng của một video nén ở định
dạng MPEG-2, nếu xem trực tuyến, sẽ bị ảnh hưởng.
Mặt kh|c, c|c định dạng MPEG-4 đ~ được phát triển cho các ứng dụng đa
phương tiện trực tuyến trên Internet. Vì vậy, một đoạn video được mã hóa
theo định dạng MPEG-4 sẽ cung cấp chất lượng hình ảnh và âm thanh tốt hơn
khi được xem trực tuyến, bởi nó được thiết kế cho các ứng dụng mạng hoặc đa
phương tiện. Với định dạng MPEG-4,chúng ta có thể sử dụng video
conferencing.
Chất lượng hình ảnh cải thiện đ|ng kể bằng cách dùng tỷ lệ nén dữ liệu lớn

hơn mà không cần thay đổi độ phân giải. MPEG không phải là một công cụ nén
đơn lẻ m{ ưu điểm của nén MPEG chính là ở chỗ có một tập hợp các công cụ
mã hóa chuẩn , chúng có thể kết hợp được với nhau một c|ch linh động để
phục vụ cho một loạt các ứng dụng khác nhau , khả năng truyền dẫn tốt trong
môi trường khắc nhiệt.
Nén : Nén hình ảnh hay âm thanh là tất cả các biện pháp nhằm duy trì cùng
một chất lượng âm thanh hoặc video, nhưng sử dụng kích thước bộ nhớ thấp
hơn. MPEG-4 nén là một sự cải tiến so với định dạng MPEG-2.
Nếu một file âm thanh hoặc dữ liệu tại phòng thu của một bộ phim được phát
hành mà không nén, nó sẽ mất ít nhất 20 DVD! Trong khi đó, nếu nó sử dụng


định dạng MPEG, cũng bộ phim đó có thể được chưa trên một đĩa DVD duy
nhất! Làm thế n{o để định dạng MPEG-2 đạt được điều n{y? Nó đạt được điều
này bằng cách loại bỏ một số phần dư thừa từ một khung được lặp lại trong
những khung phía sau . Đó l{, c|c bộ phận của khung hình tĩnh được lưu trữ
chỉ một lần! Chỉ có những sự khác biệt giữa các khung hình kế tiếp nhau sẽ
được lưu trữ sau đó. Có nhiều thủ thuật khác cùng tham gia làm giảm kích
thước của tập tin trong khi mã hóa. Bằng cách này các file hình ảnh được mã
hóa theo định dạng MPEG-2 v{ kích thước của các tập tin video được giảm
thiểu đ|ng kể. Vì vậy, khi bạn chạy môt file đ~ được mã hóa, thiết bị chạy video
của bạn phải có bộ giải mã MPEG-2 để trả lại các khung hình gốc từ các dạng
nén.
Nén MPEG-4 là khá phức tạp so với nén MPEG-2 khi nó được thiết kế để đạt
được các video chất lượng cao cho các ứng dụng đa phương tiện với bit rate
tương đối thấp. Để đơn giản, nén MPEG-4 loại bỏ c|c bit dư thừa bằng cách so
sánh nhiều khung hình hơn so với MPEG-2 tại một thời điểm bằng c|ch điều
chỉnh bit rate cho phù hợp. So với MPEG-2, MPEG-4 là một định dạng mã hóa
linh hoạt hơn rất nhiều.
Kích thước tập tin : So sánh file MPEG-2, file MPEG-4 chiếm bộ nhớ ít hơn.

Điều này là do thuật toán nén MPEG-4 được thiết kế để tạo các file mà có thể
được vận chuyển qua Internet, và xem trực tiếp trên các nền tảng mạng khác
nhau.
Bit rate : C|c file được mã hóa bằng định dạng MPEG-2 có một khoảng bitrate
từ 4 đến 9 MB/s, trong khi các file MPEG-4 có bit rate thấp hơn đ|ng kể (một
v{i kb/s). Điều n{y l{ do định dạng n{y được thiết kế cho các ứng dụng mạng.
Băng thông : Nếu bạn so s|nh băng thông MPEG-2 với MPEG-4, bạn sẽ tìm
thấy một sự khác biệt đ|ng kể khi chúng được thiết kế định dạng cho các nền
tảng khác nhau.Trong khi MPEG-2 có băng thông lên đến 40 MB/s, MPEG-4 có
băng thông khoảng 64 kbps.
Chúng ta có thể tham khảo thêm bảng dưới đ}y.


Hình 9 Bảng so sánh MPEG 2 và MPEG 4
Cả hai định dạng đang được sử dụng ngày nay cho các ứng dụng khác nhau.
MPEG-2 vẫn được sử dụng trong mã hóa DVD và TV broadcast, trong khi các
nền tảng Internet và videophone thuộc về c|c định dạng MPEG-4.
VI. Ảnh hưởng của phương pháp nén tới chất lượng video
Các tiêu chuẩn nén ra đời nhằm mục đích trình b{y chi tiết các thông tin
nhưng hạn chế hay loại bỏ phần thông tin dư thừa trong tín hiệu, cũng như
thành phần dư thừa trong cảm nhận của mắt người, do đó giảm tốc độ dòng
video số, đưa dòng tín hiệu video đ~ được nén trong một khuôn dạng nhất
định có thể sử dụng để sản xuất chương trình cũng như lưu trữ hay truyền
dẫn.
Để thực hiện đ|nh gi| hiệu quả của chuẩn nén đối với video thì ta sử dụng một
số yếu tố sau:
 Tốc độ bit
 Mức độ chính xác của video
 Mức độ phức tạp tính toán hay mức độ tiêu thụ tài nguyên cho quá trình
nén và giải mã video



6.1. Vai trò của nén video

Nén video l{ qu| trình được thực hiện khi tín hiệu đ~ được số hóa nhưng tín
hiệu sau quá trình số hóa để có thể truyền đi thì tốc độ sẽ rất lớn do đó kênh
truyền và các thiết bị hiện tại rất khó để đ|p ứng. Chẳng hạn tín hiệu theo tiêu
chuẩn truyền hình PAL số cần tốc độ 270Mb/s với tín hiệu 10 bit và 216Mb/s
với tín hiệu 8 bit. Với dòng dữ liệu có tốc độ cao sẽ cần một độ rộng băng
truyền lớn.
Thành phần nén cùng với các kỹ thuật được sử dụng trong chuẩn sẽ giúp giải
quyết vấn đề trên, trong đó c|c chuỗi ảnh trong video cũng như bản thân trong
các ảnh có nhiều phần tử giống nhau, bên cạnh đó l{ khả năng cảm thụ của hệ
thống mắt người, các thành phần tín hiệu dư thừa có thể được loại bỏ mà
không mất thông tin về ảnh hay video.
6.2. Một số phần tử dư thừa trong video
Các chuẩn nén video thường dựa trên c|c đặc điểm sinh lý của mắt người và
các giới hạn của nó để loại bỏ các thành phần tín hiệu không cân thiết trong
video. Ta xét hai loại l{ độ dư thừa và entropy của tín hiệu video
Về độ dư thừa của video có thể phân làm hai loại
6.2.1. Dư thừa thống kê
Do hầu hết các ảnh đều chứa một số lượng lớn các giá trị dữ liệu thông tin
giống nhau. Trong hầu hết các hệ thống không nén, các dữ liệu giống nhau
được lặp lại tạo th{nh c|c vùng đều nhau trong ảnh v{ do đó có sự dư thùa
trong không gian một dòng dữ liệu. Dư thừa dữ liệu tồn tại trong một vùng
không gian rộng được gọi là dư thừa không gian (spatial redundancy) v{ dư
thừa giữa một chuỗi ảnh gọi l{ dư thừa thoiaf gian (tempozal redundancy).
Các hệ thống nén sử dụng các yếu tố dữ liệu giống nhau này không cần phải
lặp đi lặp lại toàn bộ ở phần giải mã. Quá trình nhận dạng các pixel có giá trị
giống nhau trong một khung hay frame hay một chuỗi các khung hay frame gọi

là giải tương quan dư liệu (data decorrelation). Ví dụ phép biến đổi Cosin rời
rạc (DCT) tập trung năng lượng ở một khối (block) các pixel và một số ít nhất
có thể các hệ số biến đổi thấp nhất.


6.2.2. Dư thừa do cảm nhận sinh lý của mắt người
Các giá trị mẫu được số hóa trong một bức ảnh không ho{n to{n đồng nhất với
hệ thống cảm nhận của mắt người. Khi hệ thống cảm nhận ánh sang không
nhìn thấy một lỗi n{o đó, lỗi đó sẽ không ảnh hưởng tới quá trình tái tạo. Nhờ
vậy có thể cắt bớt hay loại bỏ một số mẫu mà không làm ảnh hưởng đến khả
năng cảm nhận ảnh trung thực của người xem. Thực nghiệm cho thấy trong
ảnh truyền hình chứa nhiều thông tin có thể loại bỏ như thế.
6.3. Những thành phần ảnh hưởng tới chất lượng nén trong chuẩn MPEG
Trong các hệ thống chuẩn nén có sử dụng c|c phương ph|p nén có mất mát
thông tin và không mất mát thông tin, tuy nhiên ứng với mỗi phương ph|p thì
chất lượng hay hiệu quả nén có sự thay đổi.
Nén không mất mát thông tin cho phép khôi phục lại đúng tín hiệu ban đầu
sau khi nén. Đ}y l{ một quá trình mã hóa có tính thuận nghịch. Hệ số nén phụ
vào chi tiết ảnh được nén. Hệ số nén sử dụng phương ph|p nén không mất
mát thông tin nhỏ hơn 2:1. C|c kỹ thuật nén không mất mát thông tin trong
MPEG sử dụng gồm có:
 Bộ m~ hóa sư dụng mã hóa với độ d{i thay đổi (VLC)
 Biến đổi Cosin rời rạc (DCT)
 Sử dụng khoảng xóa dòng
Nén có mất mát thông tin sử dụng hai hay nhiều hơn c|c kỹ thuật xử lý nhằm
đạt được một sự biểu diễn mã hóa thuận lợi cho tín hiệu hình ảnh. Nén có mất
mát thông tin cho tỉ số nén cao hơn nén không mất mát thông tin từ 2:1 tới
100:1 tùy thuộc vào mục đích sử dụng của video sau nén cũng như khả năng
đ|p ứng của máy và hệ thống cơ sở. Sauk hi nén một số thông tin sẽ bị mất và
chất lượng của ảnh sẽ bị suy hao do quá trình làm tròn và loại bỏ các giá trị

trong phạm vi giữa các khung hình hay trong khung hình. Suy hao chất lượng
ảnh sẽ không trầm trọng khi kỹ thuật nén nằm trong giới hạn cảm nhận của
con người. Hệ số nén có thể thay đổi tùy thuộc vào chi tiết ảnh và cho phép tạo
ra dòng bit có tốc độ không đổi, phục vụ cho các ứng dụng lưu trữ và truyền
dẫn. Tốc độ dòng dữ liệu đạt được trong hệ thống nén có mất mát thông tin
tùy thuộc vào chất lượng ảnh video cần lấy. Những quá trình có thể gây mất
mát thông tin trong quá trình nén video gồm:


 Lấy mẫu con (Supsampling)
 Điều chế mã vi phân (DPCM)
 Lượng tử hóa và mã hóa VLC các hệ số DCT
Để giải thích ảnh hưởng của phương ph|p nén đến chất lượng nén, em xin
trình bày những thành phần trong phương ph|p ảnh hưởng tới chất lượng
nén của video.
6.3.1. Nén trong ảnh
Nén trong ảnh là loại nén nhằm giảm bớt dữ liệu dư thừa trong miền không
gian. Nén trong ảnh sử dụng cả hai quá trình nén có tổn hao và nén không tổn
hao để giảm bớt dữ liệu trong một ảnh. Quá trình này không xét tới ảnh trước
và ảnh sau ảnh đang xét.
Trong quá trình sử dụng phương ph|p biến đổi DCT. Phương ph|p biến đổi tối
ưu cho m~ chuyển vị l{ phương ph|p đạt được bình phương của lỗi trong quá
trình xây dựng ảnh là nhỏ nhất, phương ph|p chuyển đổi tối ưu l{ phương
pháp KL, chuyển đổi thông qua ma trận chuyển đổi làm giảm trật tự tương
quan của một quá trình xử lý ngẫu nhiên liên tiếp dưới dạng đường chéo.
Nhưng KL không có một thuật toán biến đổi nhanh tổng qu|t, do đó không thể
áp dụng chung cho tất cả các ứng dụng của nén ảnh số. Và DCT với những ưu
điểm không chỉ sai số nhỏ, bên cạnh đó l{ thuật toán khá linh hoạt đ~ được áp
dụng trong hệ thống xử lý ảnh cũng như trong c|c chuẩn nén MPEG.
 Tiền xử lý

Trước khi tiến hành biến đổi DCT, cần thông qua một quá trình tiền xử lý
nhằm hạn chế các thành phần không cần thiết. Ảnh được chia thành các khối
riêng biệt không chồng nhau (macro block). Tùy theo cách lấy mẫu mỗi một
MB có thê có 4 khối màu tín hiệu độ chói Us và 2, 4 hoặc 8 khối màu cho một
tín hiệu màu (Cr, Cb).
Trong các khối có cùng kích thước và là ma trận điểm ảnh 8*8 từ ảnh theo
chiều từ trái sang phải. Thao tác nên chia thành khối điểm ảnh 8*8 do:
Hàm hiệp phương sai (Covariance) suy giảm nhanh trong khoảng cách từ pixel
mà hiệp phương sai được định nghĩa vượt qu| 8. Do đó phương ph|p nén ảnh
loại bỏ thông tin dư thừa trong không gian không quan tâm tới các khôi 8*8.


×