Tải bản đầy đủ (.docx) (82 trang)

Tổng quan về chuẩn nén MPEG 4 h 264AVC và khả năng ứng dụng trong thực tiễn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.05 MB, 82 trang )

LỜI GIỚI THIỆU
iện nay, chúng ta đang sống trong một kỷ nguyên mới “Kỷ nguyên
truyền thông đa phương tiện” các thiết bị mới, các kỹ thuật mới lần lượt
ra đời nhằm mục đích đáp ứng nhu cầu giải trí cho con người ngày một
tốt hơn. Các ứng dụng đa phương tiện thời gian thực truyền trên mạng di động, mạng
Internet, mạng truyền hình…ngày càng phát triển rầm rộ, các nhà sản xuất thiết bị chú
trọng áp dụng các công nghệ nén tiên tiến vào thiết bị của mình nhằm thõa mãn nhu cầu
“chất lượng trung thực về âm thanh, hình ảnh” của con người cũng như khả năng đáp ứng
yêu cầu thực tế của công nghệ. Thế nhưng không phải nhu cầu nào của chúng ta đều có
thể được đáp ứng một cách thuận lợi, vì sự gắn liền giữa độ phức tạp, tốn kém chi phí đầu
tư cơ sở hạ tầng, thiết bị đầu cuối…, luôn đi kèm với công nghệ cao. Bên cạnh đó vấn đề
truyền thông nội dung đa phương tiện hiện nay đang gặp một số khó khăn: băng thông
đường truyền, nhiễu kênh, giới hạn của pin cho các ứng dụng…. Trong khi băng thông
kênh truyền phải chờ đợi một công nghệ mới của tương lai mới có thể cải thiện, còn việc
cải thiện giới hạn của pin dường như không đáp ứng được sự phát triển của các dịch vụ
trong tương lai, thì phương pháp giảm kích thước dữ liệu bằng các kỹ thuật nén là một
cách giải quyết hiệu quả các khó khăn trên.
H
Cho đến nay có rất nhiều kỹ thuật nén dữ liệu đa phương tiện như: chuẩn JPEG, chuẩn
JPEG2000 và chuẩn MPEG… tuy nhiên hiệu quả nén của các tiêu chuẩn này cũng chưa
được cao, và vẫn chưa đáp ứng tốt yêu cầu của truyền hình HDTV… cũng như việc lưu
trữ dung lượng còn rất lớn. Gần đây nhất là sự thành công của tiêu chuẩn mã hóa MPEG-
2 được đánh dấu nổi bật từ những lần phóng thương mại đầu tiên các hệ thống vệ tinh
DTH vào giữa những năm 1990 và thành công của chuẩn nén MPEG-4 Part 2 trong ứng
dụng truyền hình số, các ứng dụng đồ họa… Nhưng với yêu cầu bộ mã hóa có thể tương
thích với các ứng dụng tốc độ bit thấp, thì nó không đáp ứng hiệu quả. Từ việc nghiên
cứu khắc phục nhược điểm của MPEG-2, phát triển bổ sung cho MPEG-4 Part 2 để cho
ra đời những chuẩn nén tiên tiến hơn, mà nổi bật là MPEG-4 H.264/AVC. Nó là sự kết
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
hợp hoàn hảo giữa 2 tổ chức nổi tiếng: nhóm chuyên gia mã hóa video của tổ chức ITU
và nhóm chuyên gia xử lý ảnh động ISO/IEC. Ta thử xét một ví dụ minh họa trong truyền


hình số, nếu sử dụng kỹ thuật nén MPEG-2 cung cấp định dạng SDTV với độ phân giải
640x480 pixel thì cần băng thông 4.3Mbps trên một kênh truyền còn đối với HDTV thì
cần 19Mbps, nhưng nếu sử dụng chuẩn nén H.264 thì băng thông cho truyền hình SDTV
chỉ có 1.5 – 2 Mbps hoặc 6-9 Mbps đối với HDTV. Chính vì những ưu điểm đó mà
MPEG-4 H.264/AVC đã dần dần chứng tỏ vị thế số 1 của mình, những ưu việt mà chuẩn
nén này mang lại chắc chắn sẽ có ảnh hưởng tích cực đến thị trường phim ảnh, cũng như
ngành công nghiệp chế tạo thiết bị đầu cuối. Để có thể hiểu biết hơn về tiêu chuẩn nén
tiên tiến này, em đã chọn đề tài “Tổng quan về chuẩn nén MPEG-4 H.264/AVC và khả
năng ứng dụng trong thực tiễn” làm đề tài tốt nghiệp của mình. Sau khi làm xong đồ án
em cũng có cái nhìn tổng quát về chuẩn nén MPEG-4 H.264/AVC, tuy nhiên do hạn chế
về kinh nghiệm và thời gian nen sẽ không tránh khỏi những sai sót, kính mong quý
Thầy cô và các bạn tham khoả và góp ý kiến.
Em xin chân thành cảm ơn Ths. Trần Thuý Hà đã giành những thời gian quý báu
hướng dẫn tận tình và cung cấp tài liệu bổ ích trong quá trình làm Đồ án. Đồng thời cũng
xin cảm ơn Quý Thầy Cô Trường HV Công Nghệ Bưu Chính Viễn Thông , đã tận tình
dạy dỗ, truyền thụ kiến thức và kinh nghiệm cho em trong suốt hơn bốn năm qua.
Kính chúc quý thầy cô mạnh khoẻ!
Tp.HN tháng 10/2012
Sinh viên thực hiện
Nguyễn Danh Nam
Nam
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
CÁC THUẬT NGỮ TIẾNG ANH
BAC Mã hóa số học nhị phân (Binary Arithmetic Coding)
CA Mã hóa thích nghi theo nội dung (Context Adaptive)
CC Mã xóa (Clear code)
CIF Định dạng mã hóa hình ảnh có kích thước 352 x 288 (Common
Intermediate Format)
DAB Phát quảng bá âm thanh số (Digital Audio Broadcasting)
DCT Biến đổi Cosine rời rạc (Discrete Cosine Transform)

DFT Biến đổi Fourier rời rạc (Discrete Fourier Transform)
DPCM Điều xung mã vi sai (Differential Pulse Code Modulation)
DS Thuật toán tìm kiểu hình thoi (Diamond Search)
DTH
DWT Biến đổi Wavelet rời rạc (Discrete Wavelet Transform)
EOI Mã kết thúc (End Of Information)
ES Dòng cơ bản (Elemenatary Stream)
Exp-Golomb Mã Exponential Golomb
FLC Mã hóa có chiều dài cố định (Fixed-Length Code)
FMO Thứ tự MB mềm dẻo (Flexible Macroblock Order)
GOP Nhóm ảnh (Group Of Pictures)
GMC Bù chuyển động toàn phần (Global Motion Compensation)
HDS Thuật toán tìm hình thoi nằm ngang (Horizontal Diamond search)
HDTV Truyền hình phân giải cao (High Definition Television)
HEXBS Thuật toán tìm kiểu hình lục giác (Hexagon-Based Search)
ICT Biến đổi nguyên Cosine rời rạc (Integer Discrete Cosine Transform)
IDR Ảnh làm tươi tức thời bộ giải mã (Instantaneous Decoder Refresh
Picture)
IDCT Biến đổi ngược Cosine rời rạc (Inverse Discrete Cosine Transform)
IP Giao thức Internet ( Internet Protocol)
ISDN Mạng tích hợp dịch vụ số (Integrated Service Digital Network)
JPEG Chuẩn nén ảnh của ủy ban JPEG quốc tế (Joint Photographic Experts
Group)
JPEG2000 Chuẩn nén ảnh JPEG2000
LOSSLESS Kỹ thuật nén ảnh không tổn hao (không mất dữ liệu)
LOSSY Kỹ thuật nén ảnh có tổn hao (có mất dữ liệu)
MB Đa khối (Macroblock)
MBAFF Mã hóa khung mành thích nghi (Macroblock-Adaptive Frame-Field
coding)
MC Bù chuyển động (Motion Compensation)

ME Ước lượng chuyển động(Motion Estimate)
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
MMS Dịch vụ tin nhắn đa phương tiện (Multimedia Messaging Services)
MSE Sai số bình phương trung bình (Mean Square Error)
MPEG Nhóm chuyên gia nén ảnh động (Moving Pictures Experts Group)
NAL Lớp trừu tượng mạng (Network Abstraction Layer)
NNS Tìm ở khối gần nhất (Nearest Neighbors Search)
PCM Điều xung mã (Pulse Code Modulation)
PF Hệ số co dãn (Parameter Factor)
MF Hệ số nhân(Multipy Factor)
PSNR Tỷ số tín hiệu đỉnh trên nhiễu (Peak Signal to Noise Ratio)
QCIF Định dạng hình ảnh có kích thước 176 x 144 (Quarter Common
Intermediate Format)
QP Thông số lượng tử (Quantization Parameter)
RBSP (Raw Byte Sequence Payload)
RGB Ba màu cơ bản màu đỏ/Xanh/Lam (Red/Green/Blue)
RLC Mã hoá dọc chiều dài (Run Length Coding)
RSVP Giao thức dành riêng tài nguyên mạng (Resource Reservation Protocol)
RTP Giao thức truyền tải thời gian thực (Real Time Transport Protocol)
SDTV Truyền hình tiêu chuẩn ( Standard Televison)
SMIL Ngôn ngữ tích hợp Multimedia đồng bộ (Synchronized Multimedia
Integration Language)
SRC Điều khiển tốc độ bit biến đổi được ( Scalable Rate Control)
TSS Thuật toán tìm ba bước (Three-Step search)
UMTS (Universal Mobile Telecommications System)
VCL Lớp mã hóa Video (Video Coding Layer)
VLC Mã có chiều dài thay đổi (Variable Length Code)
VO Đối tượng Video (Video Object)
VOP Đối tượng mặt phẳng Video (Video Object Plane)
YCbCr Độ chói, màu lam, màu đỏ (Luminance, Blue chrominance, Red

chrominance)
ISO Tổ chức quốc tế về tiêu chuẩn chất lượng (International Organization for
Standardization)
IEC Ủy ban kỹ thuật điện quốc tế (International Electro-technical
Commission)
JTC1 Ủy ban kỹ thuật 1 (Joint Technical Committee 1)
SC29 Ủy ban phụ 29 (Sub-committee 29)
WG11 Nhóm làm việc 11( Work Group 11)
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
LỜI MỞ ĐẦU
Để có thể đi sâu vào nghiên cứu chuẩn nén MPEG-4 H.264/AVC, thì chúng ta cần nắm
được các thuật ngữ, các kỹ thuật cần thiết cho việc nén tín hiệu, cũng như là các ưu
nhược điểm của các chuẩn nén trước đó đã mang lại.Vì đây là một đồ án lý thuyết, nên
bước quan trọng nhất của quá trình làm Đồ án tốt nghiệp là tìm kiếm tài liệu và tổng hợp
nó thành một chuỗi các kiến thức liên tục tránh lang man và yếu tố thuyết phục người
tham khảo cũng rất quan trọng, do đó bên cạnh trình bày chi tiết về cách thức nén, em đã
cố gắng mô phỏng một phần ưu điểm của chuẩn nén này nhằm góp phần sinh động cho
đồ án.
TỔ CHỨC ĐỒ ÁN
Đồ án được trình bày thành 6 chương và 1 phụ lục.
Chương I: Trình bày cơ sở về nén tín hiệu video, các thông số đặc trưng của tín hiệu số
và quá trình biến đổi tín hiệu màu, phân loại các nguyên lý nén.
Chương II: Trình bày các kỹ thuật được sử dụng trong nén Video, các phép biến đổi và
các kỹ thuật mã hóa, các tiêu chuẩn đáng giá chất lượng ảnh nén MSE, PSNR, MAE,SAE

Chương III: Trình bày các chuẩn nén thuộc họ MPEG, cấu trúc dòng bit, các ưu điểm
đã đạt được.
Chương IV: Cũng là chương quan trọng nhất, trình bày chuẩn nén: MPEG-4
H.264/AVC, các đặc tính nổi bật và các kỹ thuật mới trong chuẩn nén này.
Chương V: Các ứng dụng của MPEG-4 H.264/AVC trong thực tế và tương lai.

Chương VI: Mô phỏng một phần quá trình nén và giải nén của MPEG-4 H.264/AVC.
Tuy nhiên, do kinh nghiệm còn hạn chế, nên chắc chắn Đồ án sẽ không tránh khỏi sai sót,
kính mong Quý Thầy Cô, và bạn bè đồng nghiệp đóng góp ý kiến nhằm hoàn thiện tốt Đồ
án tốt nghiệp này.
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
CHƯƠNG I. CƠ SỞ VỀ NÉN TÍN HIỆU VIDEO
I.1 SỰ CẦN THIẾT CỦA NÉN TÍN HIỆU
Một tín hiệu video số thường chứa một lượng lớn dữ liệu, do đó sẽ gặp rất nhiều khó
khăn trong việc lưu trữ và truyền đi trong một băng thông kênh truyền hạn chế. Với sự
phát triển của khoa học kỹ thuật, ngày nay đã sản xuất được bộ cảm biến màu có độ phân
giải lên đến 16 triệu pixel tương đương với một bức ảnh có độ phân giải 4096x4096
pixels, nhưng thực tế ứng dụng cần độ phân giải cao nhất hiện nay cũng chỉ dùng lại ở
1920x1080 pixel, do đó để có thể tiết kiệm không gian lưu trữ và băng thông kênh truyền
thì cần nén tín hiệu.
Quá trình nén ảnh thực hiện được là do thông tin trong bức ảnh có tổ chức, có trật tự, vì
vậy nếu xem xét kỹ tính trật tự, cấu trúc ảnh sẽ phát hiện và loại bỏ được các lượng thông
tin dư thừa, chỉ giữa lại các thông tin quan trọng nhằm giảm số lượng bit khi lưu trữ cũng
như khi truyền mà vẫn đảm bảo tính thẩm mỹ của bức ảnh. Tại đầu thu, bộ giải mã sẽ tổ
chức, sắp xếp lại được bức ảnh xấp xỉ gần chính xác so với ảnh gốc nhưng vẫn đảm bảo
thông tin cần thiết. Tín hiệu video thường chứa đựng một lượng lớn các thông tin dư
thừa, chúng thường được chia thành 5 loại như sau:
+ Có sự dư thừa thông tin về không gian: giữa các điểm ảnh lân cận trong phạm vi
một bức ảnh hay một khung video, còn gọi là thừa tĩnh bên trong từng frame.
+ Có sự dư thừa thông tin về thời gian: giữa các điểm ảnh của các khung video trong
chuỗi ảnh video, còn gọi là thừa động giữa các frame
+ Có sự dư thừa thông tin về phổ: giữa các mẫu của các dữ liệu thu được từ các bộ
cảm biến trong camera, máy quay…
+ Có sự dư thừa do thống kê: do bản thân của các ký hiệu xuất hiện trong dòng bit
với các xác suất xuất hiện không đồng đều.
+ Có sự dư thừa tâm thị giác: thông tin không phù hợp với hệ thống thị giác con

người, những tần số quá cao so với cảm nhận của mắt người.
Ưu điểm của việc nén tín hiệu:
+ Tiết kiệm băng thông kênh truyền ( trong thời gian thực hoặc nhanh hơn).
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
+ Kéo dài thời giản sử dụng của thiết bị lưu trữ, giảm chi phí đầu tư cho thiết bị lưu
trữ.
+ Giảm dung lượng thông tin mà không làm mất tính trung thực của hình ảnh.
Có nhiều phương pháp nén tín hiệu, phương pháp nén bằng cách số hóa tín hiệu vẫn tỏ
ra hữu hiệu trong mọi thời đại, một mặt nó có thể làm giảm lượng thông tin không quan
trọng một cách đáng kể, mặt khác nó còn giúp cho tín hiệu được bảo mật hơn.
I.2 QUÁ TRÌNH SỐ HÓA TÍN HIỆU
Quá trình số hoá tín hiệu tương tự, bao gồm quá trình lọc trước (prefiltering), lấy mẫu,
lượng tử và mã hoá minh họa như hình I.1. Quá trình lọc trước nhằm loại bỏ các tần số
không cần thiết ở tín hiệu cũng như nhiễu, bộ lọc này còn gọi là bộ lọc chống nhiễu
xuyên kênh Aliasing.
I.2.1 LẤY MẪU
Thực chất đây là một phép toán rời rạc hay là một phép điều biên xung PAM và được
thực hiện bằng các mạch Op-amp có cực khiển strobe. Nó tạo ra giá trị tín hiệu tương tự
tại một số hữu hạn các giá trị có biến rời rạc gọi là các mẫu. Các mẫu được lấy cách đều
nhau gọi là chu kỳ lấy mẫu. Tần số lấy mẫu phải thoả mãn định lý Nyquist-Shannon :
mazs
ff 2≥
Trong đó: + f
s
là tần số lấy mẫu.
+ f
max
là tần số cực đại của phổ tín hiệu tương tự.
I.2.2 LƯỢNG TỬ HÓA.
Quá trình lượng tử là quá trình chuyển một xung lấy mẫu thành một xung có biên độ

bằng mức lượng tử gần nhất hay nói cách khác là lượng tử chuyển đổi các mức biên độ
của tín hiệu đã lấy mẫu sang một trong các giá trị hữu hạn các mức nhị phân. Lượng tử
hoá biến đổi tín hiệu liên tục theo thời gian thành tín hiệu có biên độ rời rạc, nhằm làm
giảm ảnh hưởng của tạp âm trong hệ thống, hạn chế các mức cho phép của tín hiệu lấy
mẫu và chuẩn bị truyền tín hiệu gốc từ tương tự sang số. Giá trị thập phân của các mẫu
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
Mã hoá tín hiệu
Tín hiệu được lấy mẫu
Xung lấy mẫu
Tín hiệu gốc
t
t
t
t
1000
0001
0000
TS chu kỳ lấy mẫu
Hình I.1: sơ đồ q trình tạo tín hiệu số
sau khi lượng tử hố sẽ được biểu diễn dưới dạng số nhị phân n bit (N= 2
n
), với n là độ
phân giải lượng tử hố, n càng lớn thì độ chia càng mịn, do đó độ chính xác càng cao.
Do làm tròn các mức nên tín hiệu bị méo dạng do sai số lượng tử gọi là méo lượng tử, tỷ
số tín hiệu trên méo lượng tử (S/N) được xác định bởi:
)(76,102,6 dBn
N
S
+=
Lượng tử hóa có hai loại:

+ Lượng tử tuyến tính: phép nén tín hiệu theo quy luật đường cong đồng đều, bước
lượng tử bằng nhau.
+ Lượng tử phi tuyến: phép nén tín hiệu theo quy luật đường cong khơng đồng đều,
tập trung nhiều mức lượng tử ở những vùng tín hiệu nhỏ. Trong kỹ thuật nén ảnh,
nén video thì loại lượng tử phi tuyến được dùng nhiều hơn vì nó giảm dung lượng
đến mức tối đa với độ méo lượng tử có thể chấp nhận được.
GVHD: Th.S. TRẦN TH HÀ SVTH: NGUYỄN DANH NAM
I.2.3 MÃ HÓA
Là quá trình thay thế mỗi mức điện áp cố định sau khi lượng tử bằng một dãy nhị phân
gọi là từ mã. Tất cả các từ mã đều chứa số xung nhị phân cố định và được truyền trong
khoảng thời gian giữa 2 thời điểm lấy mẫu cạnh nhau. Bộ mã được sử dụng để tái tạo các
xung nhị phân hoặc các từ mã từ các giá trị đã lượng tử xuất hiện ở đầu ra của bộ lượng
tử hoá.
I.3 TỐC ĐỘ BIT VÀ THÔNG LƯỢNG KÊNH TRUYỀN TÍN HIỆU SỐ
I.3.1 TỐC ĐỘ BÍT
Tốc độ bit là số lượng bit được truyền đi hay lưu trữ trong một đơn vị thời gian.
nfC
s
*=
(bit/s)
Trong đó :
+
s
f
là tần số lấy mẫu (Hz).
+ n là số bit nhị phân trong một ký hiệu.
+ C là tốc độ bit (bps).
I.3.2 THÔNG LƯỢNG KÊNH TRUYỀN
Là tốc độ số liệu cực đại có thể truyền được trên kênh truyền có độ rộng băng tần B.
)1(log.

2
N
S
BC +=
(bps)
Trong đó
+ C là tốc độ bit (bps)
+
N
S
là tỷ số tín hiệu trên nhiễu trắng.
+ B là băng thông kênh truyền (Hz).
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
R, G, B
Hình I.2. Quá trình biến đổi màu
R, G, B
Hình I.2. Quá trình biến đổi màu
R, G, B
Hình I.2. Quá trình biến đổi màu
R, G, B
Hình I.2. Quá trình biến đổi màu
R, G, B
Hình I.2. Quá trình biến đổi màu
R, G, B
Hình I.2. Quá trình biến đổi màu
R, G, B
Hình I.2. Quá trình biến đổi màu
Tốc độ bit càng lớn thì tín hiệu tương tự khôi phục lại càng trung thực tuy nhiên nó sẽ là
cho dung lượng lưu trữ và băng thông kênh truyền càng lớn. Trong thực tế để truyền tín
hiệu có tốc độ bit là C (bps) thì cần băng thông kênh truyền là:

CB
4
3

(Hz)
I.4 QUÁ TRÌNH BIẾN ĐỔI TÍN HIỆU MÀU
Một bức ảnh được chuyển từ RGB sang YUV nhằm giảm dung lượng lưu trữ cũng như
truyền đi, trong quá trình giải mã, trước khi hiển thị ảnh thì nó được biến đổi ngược lại
thành RGB. Công thức minh họa quá trình biến đổi như sau:
)(
1
5.0
)(
1
5.0
)1(
YR
k
C
YB
k
C
BkGkkRkY
r
r
b
b
brbr



=


=
+−−+=
(1)
Với
1
=++
grb
kkk
, k
b
= 0.114, k
r
= 0.299, khi thế vào công thức (1) thì ta được:
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
BGRYRC
BGRYBC
BGRY
r
b
081.0419.05.0)(
299.01
5.0
5.0331.0169.0)(
114.01
5.0
114.0587.0299.0
−−=−


=
+−−=−

=
++=
Nên ta có ma trận biến đổi từ RGB sang YUV như sau:





















−−
−−=











B
G
R
Cr
Cb
Y
081.0419.05.0
5.0331.0169.0
114.0587.0299.0

Thực hiện tương tự ta suy ra được ma trận biến đổi từ YUV sang RGB như sau:






















−−=










Cr
Cb
Y
B
G
R
0772.11

714.0344.01
402.101
I.5 CÁC TIÊU CHUẨN LẤY MẪU TÍN HIỆU VIDEO SỐ
Kiểu lấy mẫu cho ảnh video cũng là một vấn đề khá quan trọng của kỹ thuật nén ảnh.
Một số kiểu lấy mẫu phổ biến minh họa như hình I.3 và có đặc điểm như sau:
+ Tốc độ lấy mẫu 4:1:1 - tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín
hiệu hiệu màu là 3,375MHz.
+ Tốc độ lấy mẫu 4:2:2 - tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín
hiệu hiệu màu là 6,75MHz.
+ Tốc độ lấy mẫu 4:4:4 - cả 3 thành phần có cùng độ phân giải, nghĩa là tần số
lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín hiệu hiệu màu là 13,5MHz.
+ Tốc độ lấy mẫu 4:2:0 - là kiểu phổ biến, tần số lấy mẫu tín hiệu chói là
13,5MHz, và mỗi tín hiệu hiệu màu là 6,75MHz theo cả 2 chiều
Ví dụ : Một bức ảnh có độ phân giải 720 × 576 pixels
Độ phân giải của thành phần Y là 720 × 576 pixels được mã hóa bằng từ mã 8 bits.
+ Nếu sử dụng kiểu lấy mẫu 4:4:4 thì độ phân giải của thành phần Cb, Cr là 720 × 576
mẫu cũng được mã hóa bằng từ mã 8 bits.
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
Nén thời gian Nén không gian
Lưu trữ ảnh
Bộ mã hóa ENTROPY
Hình I.4. Sơ đồ khối nén tín hiệu Video cơ bản
=> Vậy tổng số bits sử dụng để mã hóa bức ảnh là 720 × 576 × 8 × 3 = 9 953 280 bits
+ Nếu sử dụng kiểu lấy mẫu 4:2:0 thì độ phân giải của thành phần Cb, Cr là 360 × 288
mẫu, cũng được mã hóa bằng từ mã 8 bits.
+ sử dụng là (720 × 576 × 8) + (360 × 288 × 8) × 2 = 4 976 640 bits

I.6 MÔ HÌNH NÉN TÍN HIỆU VIDEO
Các khối chính là:
- Khối nén dư thừa thời gian.

+ Dự đoán chuyển động
+ Bù chuyển động
- Khối nén dư thừa theo không gian.
+ Biến đổi DCT, DWT
+ Lượng tử hóa
+ Xắp xếp lại trật tự và mã hóa Entropy
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
I.6.1 NÉN TÍN HIỆU VIDEO
Tín hiệu video có dải phổ nằm trong khoảng 0 -> 6Mhz, do thành phần tần số cao chỉ
xuất hiện ở các đường viền của hình ảnh nên năng lượng phổ rất ít tập trung ở miền tần
số cao mà chủ yếu tập trung ở miền tần số thấp. Điều đó có nghĩa là số lượng bit ở miền
tần số thấp sẽ nhiều hơn ở miền tần số cao.
Trong các hệ thống nén, tỉ số nén chính là tham số quan trọng đánh giá khả năng nén của
hệ thống, ta gọi n1, n2 là số lượng bit của tín hiệu trước và sau khi nén nên ta có công
thức như sau:
Tỷ số nén sẽ là
2
1
n
n
C =
Phần trăm nén hay còn gọi là độ dư thừa dữ liệu tương đối.
%100%1001
1
21
1
2
x
n
nn

x
n
n
R

=








−=
Nếu n1= n2 thì ta có C =1, và R = 0 nghĩa là không có sự dư thừa dữ liệu.
Nếu n2<<n1 thì C
∞→
, R
1

, ta nói rằng có sự dư thừa dữ liệu lớn.
Ví dụ : n1 = 100Mb/s, n2 = 20Mb/s thì C = 5:1, R = 80%. Tức là ảnh có sự dư thừa lớn,
hiệu quả nén đạt 80%.
I.6.2 LƯỢNG TIN TRUNG BÌNH (ENTROPY)
Trước khi nghiên cứu các phương pháp nén, ta cần đánh giá lượng thông tin chủ yếu
được chứa đựng trong hình ảnh, từ đó xác định dung lượng tối thiểu cần sử dụng để miêu
tả, truyền tải thông tin về hình ảnh.
Thông tin được ký hiệu là a
i

và có xác suất p(a
i
) thì lượng tin được xác định theo công
thức sau:
)(log]
)(
1
[log)(
22 i
i
i
ap
ap
aI −==
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
Theo công thức trên ta thấy lượng tin chứa đựng trong một hình ảnh sẽ tỉ lệ nghịch với
khả năng xuất hiện của ảnh đó, nghĩa là sự kiện ít xảy ra sẽ chứa đựng nhiều thông tin
hơn và bằng tổng số lượng thông tin của từng phần tử ảnh.
Gọi lượng tin trung bình của hình ảnh là H(X) và được tính bằng công thức sau:
∑ ∑
−==
N N
ii
i
i
apap
ap
apXH
1 1
22

)(log*)(]
)(
1
[log*)()(
Xác suất phân bố càng nhiều thì lượng tin trung bình entropy càng nhỏ. Entropy đạt giá
trị cực đại đối với phân bố đều, do đó nếu một ký hiệu có xác suất lớn sẽ có số Entropy
nhỏ.
CHƯƠNG II. CÁC KỸ THUẬT NÉN VIDEO
II.1 PHÂN LOẠI CÁC KỸ THUẬT NÉN
Nén video được chia thành hai họ lớn: Nén không tổn hao và nén tổn hao.
+ Nén không tổn hao là quy trình biểu diễn các ký hiệu trong dòng bit nguồn thành
dòng các từ mã sao cho ảnh được khôi phục hoàn toàn giống ảnh gốc, các thuật
toán chỉ phụ thuộc vào cách thống kê nội dung dữ liệu và thường dựa trên việc
thay thế một nhóm các ký tự trùng lặp bởi một nhóm các ký tự đặc biệt khác ngắn
hơn mà không quan tâm đến ý nghĩa của dòng bit dữ liệu, nên đòi hỏi phải có thiết
bị lưu trữ và đường truyền lớn hơn.
+ Nén có tổn hao, tức là ảnh được khôi phục không hoàn toàn giống ảnh gốc, dạng
nén này thích hợp cho việc lưu trữ và truyền ảnh tĩnh, ảnh video qua một mạng có
băng thông hạn chế. Các dạng nén này thường có hệ số nén cao hơn (từ 2:1 đến
100:1) và gây nên tổn hao dữ liệu và sự suy giảm ảnh sau khi giải nén do việc xóa
và làm tròn dữ liệu trong một khung hay giữa các khung. Nó liên quan đến việc
dùng các phép biến đổi tín hiệu từ miền này sang miền khác.
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
Hình II1. Mô hình hệ thống nén tổn hao.
Biến đổi ngược
T-1
Giải lượng tử hóa RGiải mã D
Biến đổi
T
Lượng tử hóa

Q
Mã hóa
C
Giải nén
Bộ lượng tử Mã hóa entropy
Bộ tiên đoán
Hình II.2. Bộ mã hóa và bộ giải mã DPCM
Trong thực tế phương pháp nén tổn hao thường được sử dụng nhiều hơn và các kỹ thuật
nén tổn hao thường sử dụng như: mã hóa vi sai, biến đổi cosin rời rạc DCT, lượng tử vơ
hướng, qt zig-zag, mã hóa Entrop
II.2 Q TRÌNH BIẾN ĐỔI
Tín hiệu ngõ vào được biến đổi nhằm mục đích biểu diễn một số liệu khác thích hợp để
nén hơn so với tín hiệu nguồn. Ở phía giải mã tín hiệu nén sẽ được biến đổi ngược lại để
thu tín hiệu gốc. Một số phép biến đổi được áp dụng phổ biến hiện nay như:
II.2.1 ĐIỀU XUNG MÃ VI SAI DPCM
Các phương pháp nén dùng DPCM dựa trên ngun tắc phát hiện sự giống nhau và khác
nhau giữa các điểm ảnh gần nhau để loại bỏ các thơng tin dư thừa. Trong DPCM chỉ có
phần khác nhau giữa mẫu - mẫu được truyền đi, sự khác nhau này được cộng vào giá trị
mẫu đã giải mã hiện hành ở phía giải mã để tạo ra giá trị mẫu phục hồi. Hình II.2. mơ tả
sơ đồ khối của bộ mã hóa và giải mã DPCM.
GVHD: Th.S. TRẦN TH HÀ SVTH: NGUYỄN DANH NAM
Ví dụ
Mẫu tín hiệu vào 115 117 116 117 118 117 115 116
Sự khác nhau 2 -1 1 1 -1 -2 1
Dòng bit được nén như sau: 115 2 -1 1 1 -1 -2 1
II.2.2 MÃ HÓA BIẾN ĐỔI
Nhằm biến đổi các hệ số trong miền thời gian (video số), không gian 2D (bức ảnh tĩnh)
thành các hệ số trong miền tần số. Các hệ số này ít tương quan hơn có phổ năng lượng
tập trung hơn, thuận tiện cho việc loại bỏ thông tin dư thừa.
II.2.2.1 Biến đổi cosin rời rạc DCT

Vì ảnh gốc có kích thước rất lớn cho nên trước khi đưa vào biến đổi DCT, ảnh được phân
chia thành các MB biểu diễn các mức xám của điểm ảnh. Việc phân khối này sẽ làm
giảm được một phần thời gian tính toán các hệ số chung, mặt khác biến đổi cosin đối với
các khối nhỏ sẽ làm tăng độ chính xác khi tính toán với dấu phẩy tĩnh, giảm thiểu sai số
do làm tròn sinh ra. Phép biến đổi DCT cơ bản hoạt động dựa trên cơ sở ma trận vuông
của mẫu sai số dự đoán.
II.2.2.2 Biến đổi Hadamard
Là một ví dụ tổng quát hóa của biến đổi Fourier rời rạc, nó thực hiện các phép toán cộng
và trừ trên các ma trận 2
m
x 2
m
trực giao, đối xứng, tuyến tính…được định nghĩa theo
công thức sau:
T
nn
HH
=
−1
trong đó H
n
là ma trận NxN với N = 2
m
, m thường là các giá trị 1, 2 ,3 tương
ứng với các khối 2x2, 4x4, và 8x8, H
n
được tạo ra từ phép toán Kronecker như sau: H
n
=
111

HHH ⊗⊗

n lần.
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
Hình II.3. Quá trình lượng tử vector
Ví dụ H
2
= H
1


H
1
Với H
1
=






−11
11
2
1

II.3 QUÁ TRÌNH LƯỢNG TỬ
Sau khi thực hiện biến đối DCT, các hệ số sẽ được lượng tử hoá dựa trên một bảng lượng
tử Q(u,v) với 0≤u, v≤ n-1, n là kích thước khối. Bảng này được định nghĩa bởi từng ứng

dụng cụ thể, các phần tử trong bảng lượng tử có giá trị từ 1 đến 255 được gọi là các bước
nhảy cho các hệ số DCT. Quá trình lượng tử được coi như là việc chia các hệ số DCT cho
bước nhảy lượng tử tương ứng, kết quả này sau đó sẽ được làm tròn xuống số nguyên gần
nhất. Các hệ số năng lượng thấp này, tượng trưng cho các sự thay đổi pixel - pixel cỡ
nhỏ, có thể bị xóa mà không ảnh hưởng đến độ phân giải của ảnh phục hồi. Tại bộ mã
hoá sẽ có một bảng mã và bảng các chỉ số nội bộ, từ đó có thể ánh xạ các tín hiệu ngõ vào
để chọn được các từ mã tương ứng một cách tốt nhất cho tập hợp các hệ số được tạo ra.
Có 2 loại lượng tử hóa chủ yếu:
II.3.1 LƯỢNG TỬ HÓA VÔ HƯỚNG
Lượng tử từng giá trị một cách độc lập hay nói cách khác là ánh xạ một mẫu của tín hiệu
ngõ vào tạo thành một hệ số lượng tử ở ngõ ra. Đây là một quá trình tổn hao vì khi giải
lượng tử, không thể xác định chính xác giá trị gốc từ số nguyên đã được làm tròn. Lượng
tử hóa thuận theo công thức FQ = round(X/QP)
Lượng tử hóa ngược theo công thức Y = FQ*QP. Với QP là bước nhảy lượng tử. Ví dụ
quá trình giải lượng tử cho một tín hiệu ngõ vào như sau:
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
II.4 QUÁ TRÌNH MÃ HÓA
Bộ mã hóa có chức năng loại bỏ độ dư thừa trong các ký tự ở ngõ ra lượng tử hóa và ánh
xạ các ký tự này thành các từ mã tạo thành dòng bit ở ngõ ra bằng các loại mã hóa như:
mã hóa dự đoán, mã hóa VLC, mã hóa số học nhị phân, mã hóa theo hình dạng…
II.4.1 MÃ HÓA ĐỘ DÀI THAY ĐỔI
Kỹ thuật mã hóa độ dài thay đổi VLC dựa trên xác suất các giá trị biên độ giống nhau
trong một ảnh để lựa chọn các từ mã để mã hoá. Bộ mã hóa có độ dài thay đổi ánh xạ các
ký hiệu ngõ vào thành một chuỗi từ mã có độ dài thay đổi ở ngõ ra nhưng chứa số lượng
bít nguyên. Các ký hiệu có xác suất cao sẽ được gán từ mã có độ dài ngắn, còn các ký
hiệu có xác suất thấp sẽ được gán từ mã có độ dài lớn hơn, do đó nó sẽ làm tối thiểu
chiều dài trung bình của từ mã. Tại phía giải nén có các chỉ định mã giống nhau được
dùng để khôi phục lại các giá trị dữ liệu gốc. Các loại mã hóa VLC cơ bản như: mã hóa
Huffman, mã hoá RLC, mã hóa Exp-Golomb…
II.4.1.1 Mã hóa Huffman

Mã hóa Huffman là mã hóa thõa mãn tối ưu tính prefix và phương pháp mã hóa thường
dựa vào mô hình thống kê. Dựa vào dữ liệu gốc, người ta tính xác suất xuất hiện của các
ký tự. Việc tính toán xác suất được thực hiện bằng cách duyệt tuần tự tệp gốc từ đầu đến
cuối và các ký tự nào có xác suất càng cao thì từ mã càng ngắn nên giảm chiều dài trung
bình của từ mã một cách rõ rệt, mã hóa Huffman thường được biểu diễn dưới dạng cây
mã như sau:
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
0
0
0
0
0
0
1
1
1
1
1
u 1
u2
u 3 u4
u 5
u 6
u7
Các bước thực hiện mã hóa Huffman.
Bước 1: Các nguồn tin được liệt kê trong cột theo thứ tự xác suất xuất hiện giảm dần.
Bước 2: Hai tin cuối có xác suất nhỏ nhất được hợp thành tin phụ mới có xác suất bằng
tổng xác suất các tin hợp thành.
Bước 3: Các tin còn lại (N-2) với tin phụ mới được liệt kê trong cột phụ thứ nhất theo thứ
tự xác suất giảm dần.

Bước 4: Quá trình cứ thế tiếp tục cho đến khi hợp thành một tin phụ có xác suất xuất hiện
bằng 1.
II.4.1.2 Mã hoá mức dọc chiều dài RLC
Thông thường dữ liệu hay có sự trùng lặp, chẳng hạn nếu một bức ảnh có cùng một màu,
độ chói thì những vùng bên cạnh ảnh đó cũng giống như vậy. Do đó có thể mã hóa bằng
một từ mã đặc biệt nhằm chỉ báo sự bắt đầu và kết thúc của giá trị lặp lại, mỗi hệ số khác
0 sau giá trị DC được phát hiện sẽ được gán một từ mã gồm 2 thông số: số lượng bit 0
đứng trước đó và mức của nó sau khi lượng tử, để tạo ra từ mã là một đôi (level và run),
trong đó Level biểu thị giá trị của bit và Run biểu thị số lần lặp lại của bit. Khi dữ liệu
truyền có sự trùng lặp thì truyền từ mã này thay cho nó.
II.4.2 MÃ HÓA SỐ HỌC
Điểm bất lợi cơ bản của mã hóa dọc chiều dài là việc tạo ra bảng tra chứa toàn bộ số
lượng bit trên mỗi mẫu nên không thật sự tối ưu, vì số lượng bit tối ưu nhất cho một ký tự
tùy thuộc vào nội dung thông tin, mà thường là những số rất nhỏ. Đối với những ký tự có
xác xuất lớn hơn 0.5 thì hiệu suất nén không cao, nó chỉ hiệu quả khi mã hóa những ký
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
Hình II.4. Cây mã Huffman
hiệu này bằng một từ mã bit đơn. Còn mã hóa số học thì dựa vào xác suất của nội dung
thông tin nên còn có tên gọi là mã hóa số học thích nghi theo nội dung, mã hóa số học sử
dụng các đặc tính về không gian và thời gian để ước lượng khoảng xác suất. Nó biến đổi
luồng dữ liệu vào thành một phân số đơn lẻ, và sử dụng phân số tối ưu nhất để mã hóa dữ
liệu, do đó hiệu quả nén của nó có thể đạt mức tối đa mà giảm chi phí đầu tư cho lưu trữ.
II.5 TIÊU CHUẨN ĐÁNH GIÁ CHẤT LƯỢNG ẢNH NÉN
Đánh giá chất lượng video thông qua các giá trị cung cấp bởi hệ thống xử lý, và việc suy
giảm chất lượng tín hiệu có thể nhìn thấy được ( thông thường chúng được so sánh với tín
hiệu gốc. Qua hệ thống ta có thể thấy được những thay đổi về hình dạng, việc định chuẩn
chất lượng video là rất quan trọng. Để đánh giá chất lượng của bức ảnh (hay khung ảnh
video) ở đầu ra của bộ mã hoá, người ta thường sử dụng các tham số truyền thống sau để
đánh giá:
+ Sai số bình phương trung bình – MSE (mean square error) định nghĩa cho cường

độ sai khác giữa ảnh gốc và ảnh dự đoán
∑∑

=

=
−=
1
0
2
1
0
2
)(
1
:
N
j
jiji
N
i
RC
N
MSEErrorSquaredMean
+ Tỉ số tín hiệu trên nhiễu đỉnh – PSNR (peak to signal to noise ratio).
MSE
PSNR
b 2
10
)12(

log10

=
(dB)
Trong đó NxN kích thước bù chuyển động
hệ số C
i, j
và R
i, j
tương ứng với mẫu hiện tại và vùng mẫu tham khảo.
b số lượng bit/ mẫu.
Thông thường, nếu PSNR ≥ 40dB thì hệ thống mắt người gần như
không phân biệt được giữa ảnh gốc và ảnh khôi phục, tức là ảnh nén có
chất lượng xuất sắc.
+ 30 dB

PSNR < 33 dB thì chất lượng ảnh nén bình thường, mắt người có
sự phân biệt được.
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
1993 1995 1997 1999 2000 2001 2003 2005
MPEG-1
(11/1992)
MPEG-4
H.264
(2003)
MPEG-4 v1
(1998/99)
MPEG-4 v2
(1999/00)
MPEG-4 v3

(2001)
MPEG-2
(H.262)
(1994/95)
Hình III.1. Quá trình phát triển của kỹ thuật nén MPEG qua các giai đoạn
+ PSNR < 30 dB thì chất lượng ảnh nén kém.
+ Sai số tuyệt đối trung bình - MAE (Mean Absolute Error)
∑∑

=

=
−=
1
0
1
0
2
1
:
N
j
jiji
N
i
RC
N
MAEErrorAbsoluteMean
+ Tổng của các sai số tuyệt đối- SAE (Sum of Absolute Errors)
∑∑


=

=
−=
1
0
1
0
:
N
j
jiji
N
i
RCSAEErrorsAbsoluteofSum
CHƯƠNG III. CÁC CHUẨN NÉN THUỘC HỌ MPEG TRƯỚC
MPEG-4 H.264/AVC
Thuật ngữ MPEG viết tắt của cụm từ Moving Picture Experts Group là 1 nhóm
chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn
ISO/IEC từ năm 1988. Cho đến nay nhóm làm việc MPEG đã phát triển và phát hành
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
nhiều tiêu chuẩn nén cho các loại ứng dụng khác nhau, nhưng nổi bật là các chuẩn
MPEG-1, MPEG-2, MPEG-4, và H.264/AVC. MPEG chỉ là một tên riêng, tên chính thức
của nó là: ISO/IEC JTC1 SC29 WG11.
III.1 CÁC TIÊU CHUẨN NÉN TRƯỚC MPEG-4 H.264/AVC
III.1.1 TIÊU CHUẨN MPEG-1
Chuẩn MPEG-1 xuất hiện vào 11/1992 là chuẩn khởi đầu cho việc nén các ảnh động và
đây cũng là nền tảng phát triển cho các chuẩn nén khác trong họ MPEG, nó được mệnh
danh là chuẩn “khởi động thiết bị số“. MPEG-1 định nghĩa một tiêu chuẩn chuẩn mã hoá

video và âm thanh lưu trữ trong CD-ROM, đĩa Winchester với tốc độ vào khoảng
1,5Mbit/s, độ phân giải hình ảnh là 352 x 240 (30 frame/s) hay 352x288 (25 frame/s).
Chuẩn MPEG-1 được ứng dụng trong các phần mềm huấn luyện bằng máy tính, các
game hành động, video chất lượng VHS, Karaoke
Tín hiệu video số MPEG-1 bao gồm một tín hiệu chói Y và 2 tín hiệu màu Cr, Cb với tỷ
số lấy mẫu là 2:1. Trước khi mã hóa các ảnh có thể được sắp xếp lại theo trật tự giải mã
mới vì bộ giải mã chỉ có thể giải mã được ảnh B sau khi đã giải mã ảnh P và I. Sau quá
trình giải mã, các ảnh được sẽ được sắp xếp lại như cũ.
Sau khi chọn kiểu ảnh, bộ mã hoá sẽ đánh giá chuyển động cho mỗi khối MB và tạo ra
một vector chuyển động cho một ảnh P và 2 vector chuyển động cho ảnh B.
Tùy thuộc kiểu ảnh mà tín hiệu sai số được phát hiện bằng cách tìm ra sai số giữa dự
đoán bù chuyển động và dữ liệu hiện tại trong mỗi MB. Tín hiệu sai số dự đoán được
chuyển đến khối DCT 8x8 và bộ lượng tử để tạo hệ số lượng tử. Một bộ điều khiển tốc độ
bit có nhiệm vụ điều chỉnh dữ liệu ngõ ra thông qua điều chỉnh bước lượng tử. Các hệ số
này được quét theo ma trận Zig-Zag và mã hoá bằng mã Entropy rồi mới đưa ra kênh
truyền.
III.1.1.1 Các đặc điểm của tiêu chuẩn MPEG-1
+ Cấu trúc lấy mẫu 4:2:0
+ Chỉ có khả năng quét liên tiếp.
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
+ Biểu diễn mẫu bằng từ mã 8 bits, độ chính xác của quá trình lượng tử và biến đổi
DCT là 9 bits.
+ Sử dụng phương pháp DPCM để lượng tử hóa cho hệ số DC. Bù chuyển động cho
các MB 16x16 trong cùng một khung hình hoặc giữa các khung với nhau.
+ Độ chính xác dự đoán chuyển động là 1 pixel.
+ Chuẩn MPEG-1 có 4 kiểu ảnh đó là Intra, Predicted, Bidirectional và ảnh D (DC
coded picture). Nó gần giống ảnh I nhưng chỉ có thành phần một chiều ở đầu ra
DCT được thể hiện. Nó cho phép dò nhanh nhưng cho chất lượng ảnh thấp.
III.1.1.2 Cấu trúc dòng bit của MPEG-1
Chuẩn MPEG-1 định nghĩa một kiểu phân cấp cấu trúc trong dữ liệu Video và đây cũng

là cấu trúc dữ liệu chung cho cả chuẩn MPEG về sau. Cấu trúc dữ liệu như sau:
+ Khối (Block) gồm 8x8 pixels tín hiệu chói và màu được định nghĩa dùng cho nén DCT.
+ Tổ hợp khối (Macroblock) gồm các khối Y, Cb và Cr tương ứng với nội dung thông tin
của một khối 16x16 pixel của thành phần chói hoặc khối 8x8 của 2 thành phần màu trong
hình ảnh gốc. Một MB bao gồm 6 khối trong đó có 4 khối Y, 1 khối Cb và 1 Cr như hình
vẽ, các khối sẽ được đánh số thứ tự bắt đầu bằng 1.
+ Mảng (Slice) gồm nhiều MB. Kích thước slice lớn nhất là 1 ảnh, nhỏ nhất là 1 MB Thứ
tự các MB bên trong slice được xác định từ trái qua phải, trên xuống dưới. Phần header
của slice chứa thông tin về vị trí của mảng trong toàn bộ ảnh và hệ số của bộ lượng tử.
Slice rất quan trọng trong việc định lỗi, nếu dòng dữ liệu có chứa lỗi, bộ giải mã có thể
bỏ qua và tiếp tục ở slice kế tiếp. Nhiều slice trên dòng dữ liệu cho phép che giấu lỗi tốt
hơn và được dùng để cải thiện chất lượng hình ảnh.
+ Ảnh (Picture): gồm nhiều slice cho phép bộ giải mã xác định loại mã hóa khung. Thông
tin header để chỉ thứ tự truyền khung để bộ giải mã sắp xếp lại các ảnh đúng thứ tự, ngoài
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
Hình III.2. Cấu trúc chuỗi video MPEG
ra thông tin header còn chứa các thông tin về đồng bộ, độ phân giải, phạm vị của vector
chuyển động …
+ Nhóm ảnh (GOP): gồm nhiều ảnh bắt đầu từ ảnh I. Chỉ báo điểm bắt đầu cho việc biên
tập và việc tìm kiếm. Phần header chứa mã điều khiển và mã thời gian 25 bit cho thông
tin định thời.Cấu trúc của một GOP được mô tả bằng 2 tham số:
- N: là các ảnh trong GOP
- M: là khoảng cách giữa các ảnh P-pictures.
Ví dụ: Ta có 1 GOP như sau :
B1 B2 I3 B4 B5 B7 B8 P9 B10 B11 P12.
Tức N = 12 và M = 3.
+ Chuỗi ảnh (Sequence): bắt đầu là một Sequence Header, 1 hay nhiều GOP và 1 mã kết
thúc chuỗi End-of-Sequence. Thông tin header chứa kích thước mỗi chiều của bức ảnh,
kích thước điểm ảnh, tốc độ bit của dòng video số, tần số ảnh, bộ đệm tối thiểu cần có.
Chuỗi ảnh và thông tin header còn được gọi chung là dòng cơ bản ES.

Tiêu chuẩn nén MPEG-1 cho phép truy cập các khung hình ngẫu nhiên video, tìm kiếm
thuận nghịch trên dònh tín hiệu nén biên tập và phát lại trên dòng tín hiệu nén. Các công
cụ của nó đều có trong các tiêu chuẩn MPEG-2, nên MPEG-2 vẫn có thể giải mã các
dòng tín hiệu MPEG-1.
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM
III.1.2 TIÊU CHUẨN MPEG-2
III.1.2.1 Các đặc điểm của tiêu chuẩn MPEG-2
Kỹ thuật nén MPEG-2 xuất hiện vào 1995, định nghĩa cho một tiêu chuẩn kỹ thuật
“truyền hình số”. MPEG-2 có thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao
hơn và rõ hơn (720 x 480 và 1280 x 720) cho phép mã hoá ở nhiều mức độ phân giải
khác nhau đáp ứng cho nhiều ứng dụng như ứng dụng 2-5Mbps trong SDTV và 6-8Mbps
trong DVD, 20Mbps trong HDTV, đặc biệt được ứng dụng trong truyền hình số mặt đất
với mỗi thiết bị khác nhau, sẽ có các bộ mã hoá và giải mã khác nhau nhằm giảm băng
thông đường truyền.
Những cải tiến của nó như sau:
+ Chuẩn nén MPEG-2 có tốc độ bit > 4 Mbit/s.
+ Cấu trúc lấy mẫu 4:4:4, 4:2:2, 4:2:0.
+ Các giá trị hệ số DCT có thể biểu thị với mức độ chính xác cao.
+ Các ma trận lượng tử có thể thay đổi theo mức frame, thành phần màu.
+ Có khả năng quét xen kẽ và liên tục, cho phép xấp xỉ bù chuyển động, xây dựng
cơ sở dự báo trên cơ sở mành.
+ Khả năng tách lỗi và giảm độ nhạy tín hiệu nén đối với các lỗi truyền, nếu tỷ số
nén cao bị ảnh hưởng.
+ Độ chính xác mẫu vào là 10 bit. Dùng lượng tử DPCM chính xác cho các hệ số
DC.
+ Có tính tương hợp và co dãn cao theo không gian, thời gian.
+ Độ phân giải ước lượng chuyển động là ½ pixel, 1 pixel.
MPEG-2 định nghĩa các profile và các level khác nhau cho phù hợp với nhiều loại ứng.
Có 5 định nghĩa profile và 4 level như sau.
simple Main SNR spatially high

Low 4:2:0, 352x 288
4Mbps
4:2:0, 352x288
4Mbps, I, P, B
main 4:2:0 720x576
15 mbps, I, P
4:2:0 720 x 576
15 Mbps, I, P, B
4:2:0 720 x 576 15
Mbps, I, P, B
4:2:0 720 x
576 20Mbps,
I, P, B
GVHD: Th.S. TRẦN THUÝ HÀ SVTH: NGUYỄN DANH NAM

×