Nghiên cứu và đánh giá chuẩn mã hóa video HEVC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (789.26 KB, 82 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

ĐINH CÔNG MINH

NGHIÊN CỨU VÀ ĐÁNH GIÁ CHUẨN MÃ HÓA VIDEO HEVC

Chuyên ngành : Kỹ thuật máy tính và truyền thông

LUẬN VĂN THẠC SĨ KỸ THUẬT
KỸ THUẬT MÁY TÍNH VÀ TRUYỀN THÔNG

NGƯỜI HƯỚNG DẪN: TS. Nguyễn Kim Khánh

Hà Nội , tháng 4 năm 2016

1

MỤC LỤC
MỤC LỤC ...................................................................................................................2
LỜI CAM ĐOAN .......................................................................................................6
LỜI CẢM ƠN .............................................................................................................7
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ..............................................8
DANH MỤC CÁC BẢNG........................................................................................11
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ...................................................................12
MỞ ĐẦU ...................................................................................................................13
CHƯƠNG I: TỔNG QUAN VỀ NÉN VIDEO SỐ VÀ CÁC CHUẨN NÉN..........16
1.1

Tổng quan về nén video số ..........................................................................16

1.1.1 Khái niệm về kỹ thuật nén video số ..........................................................16
1.1.1.1 Khái niệm ............................................................................................16
1.1.1.2 Mô hình nén ảnh .................................................................................16
1.1.2 Các đặc điểm của nén tín hiệu số ..............................................................17
1.1.2.1 Độ dư thừa số liệu ...............................................................................17
1.1.2.2 Sai lệch bình phương trung bình .........................................................18
1.1.3 Các phương pháp nén ................................................................................19
1.1.3.1 Nén không mất thông tin....................................................................19
1.1.3.2 Nén có không mất thông tin ................................................................20
1.1.4 Tiêu chuẩn nén MPEG ..............................................................................21
1.1.4.1 Cấu trúc ảnh ........................................................................................21
1.1.4.2 Nhóm ảnh (GOP-Group Of Picture) ...................................................23
1.1.4.3 Cấu trúc dòng bit MPEG Video ..........................................................23
1. 2 Một số tiêu chuẩn video ..................................................................................27
2

1.2.1 Chuẩn H.261 ..............................................................................................27
1.2.2 Chuẩn H.262 ..............................................................................................27
1.2.3 Chuẩn H.263 ..............................................................................................27
1.2.4 Chuẩn H.264 ..............................................................................................28
CHƯƠNG II: CHUẨN NÉN HEVC ........................................................................29
2. 1 Những điểm nổi bật thiết kế và tính năng của mã hóa HEVC. ......................29
2.1.1.1 Cấu trúc đơn vị cây mã hóa (CTU) và khối cây mã hóa (CTB) .........30
2.1.1.2 Đơn vị mã hóa(CU) và khối mã hóa (CB) ..........................................31
2.1.1.3 Đơn vị dự đoán (PU) và khối dự đoán (PB) .......................................31
2.1.1.4 Đơn vị biến đổi (TU) và khối biến đổi (TB) .......................................31
2.1.1.5 Tín hiệu hóa vector chuyển động ........................................................32

2.1.1.6 Bù chuyển động ..................................................................................32
2.1.1.7 Dự đoán trong ảnh...............................................................................32
2.1.1.8 Điều khiển lượng tử hóa .....................................................................32
2.1.1.9 Mã hóa Entropy...................................................................................33
2.1.1.10 Bộ lọc bỏ khối trong-vòng ................................................................33
2.1.1.11 Bù thích ứng mẫu (SAO) ..................................................................33
2.2 Cú pháp mức cao .............................................................................................33
2.3 Các kỹ thuật mã hóa video HEVC ...................................................................34
2.3.1 Biểu diễn lấy mẫu của ảnh ........................................................................34
2.3.2 Phân chia hình ảnh thành đơn vị cây mã hóa ............................................35
2.3.3 Phân chia CTB thành CB ..........................................................................35
2.3.4 Khối dự đoán (PB) và đơn vị dự đoán (PU)..............................................35
2.3.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi ....37

3

2.3.6 Mảng (Slice) và Tile ..................................................................................38
2.3.7 Dự đoán trong ảnh .....................................................................................40
2.3.7.1 Phân chia khối dự đoán (PB) ..............................................................41
2.3.7.2 Dự đoán Intra_Angular .......................................................................42
2.3.7.3 Dự đoán Intra-Planar and Intra-DC ....................................................43
2.3.8 Dự đoán liên ảnh .......................................................................................43
2.3.8.1 Phân chia PB .......................................................................................43
2.3.8.2 Phép nội suy mẫu phân đoạn ..............................................................44
2.3.9 Mã hóa entropy..........................................................................................49
2.3.9.1 Mô hình hóa ngữ cảnh ........................................................................49
2.3.9.2 Quét hệ số thích ứng ...........................................................................50
2.3.9.3 Mã hóa hệ số .......................................................................................50
2.3.10 Bộ lọc trong-vòng ....................................................................................51

2.3.10.1 Bộ lọc bỏ khối ...................................................................................51
2.3.10.2 SAO ...................................................................................................53
2.4 Cấu hình, Tiers và Mức ...................................................................................54
2.4.1 Khái niệm cấu hình, tiers, mức..................................................................54
2.4.2 Định nghĩa cấu hình và mức HEVC ..........................................................55
CHƯƠNG III: THỬ NGHIỆM , ĐÁNH GIÁ CHUẨN NÉN HEVC VÀ SO SÁNH
VỚI CHUẨN NÉN H.264 ........................................................................................57
3.1. Các công cụ sử dụng để thử nghiệm và đánh giá ...........................................57
3.1.1 FFmpeg ......................................................................................................57
3.1.2 MediaInfo ..................................................................................................57
3.1.3 Matlab ........................................................................................................57

4

3.1.4 Bjontegaard metric ....................................................................................58
3.2 Thử nghiệm và đánh giá ..................................................................................58
3.2.1 Thử nghiệm 1: Đánh giá chất lượng video thông qua quá trình mã hóa
H.265/HEVC ở các tốc độ bit khác nhau so với chuẩn H.264/AVC .................58
3.2.2 Thử nghiệm 2: Mối quan hệ giữa các tham số điều khiển tốc độ và tốc độ
bit đầu ra giữa 2 chuẩn H264 và H265 ...............................................................62
3.2.3 Thử nghiệm 3: Sử dụng phép đo lường Bjøntegaard-Delta Bit-Rate BDBR .......................................................................................................................65
3.2.4 Thử nghiệm 4: Tính toán so sánh tốc độ mã hóa giữa chuẩn HEVC với
chuẩn AVC ở cùng 1 yếu tố tốc độ không đổi tương ứng. ................................74
3.3 Kết luận ............................................................................................................79
CHƯƠNG IV. KẾT LUẬN VÀ KIẾN NGHỊ ..........................................................80
Kết luận ..................................................................................................................80
Kiến nghị................................................................................................................80
TÀI LIỆU THAM KHẢO .........................................................................................81

5

LỜI CAM ĐOAN
Tôi cam đoan các kết quả nghiên cứu được đưa ra trong luận văn này dựa
trên các kết quả thu được trong quá trình nghiên cứu của riêng tôi, không sao chép
bất kỳ kết quả nghiên cứu nào của các tác giả khác. Nội dung của luận văn có tham
khảo và sử dụng một số thông tin, tài liệu từ các nguồn sách, tạp chí được liệt kê
trong danh mục các tài liệu tham khảo.

6

LỜI CẢM ƠN
Luận văn thạc sỹ kỹ thuật này được thực hiện tại Viện Công Nghệ Thông tin
và Truyền Thông, trường Đại Học Bách Khoa Hà Nội. Tôi xin chân thành cảm ơn
TS. Nguyễn Kim Khánh đã trực tiếp tận tình hướng dẫn, giúp đỡ, tạo mọi điều kiện
thuận lợi cho tôi trong suốt quá trình nghiên cứu. Tôi xin cảm ơn Ban lãnh đạo
trường Đại Học Bách Khoa Hà Nội, Viện Công Nghệ Thông Tin và Truyền Thông,
Viện Đào Tạo Sau Đại Học đã giúp đỡ tôi rất nhiều trong quá trình nghiên cứu, tạo
mọi điều kiện thuận lợi về mặt thủ tục cho hoạt động nghiên cứu của tôi.
Cuối cùng, tôi xin được bày tỏ lòng biết ơn sâu sắc tới toàn thể gia đình, bạn
bè đã luôn động viên, khích lệ tinh thần để tôi có đủ nghị lực hoàn thành luận văn.

7

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
AVC

Advanced Video Coding

Mã hóa video tiên tiến

ALF

Adaptive loop filter

Bộ lọc vòng lặp thích ứng

AMVP

Advanced motion vector

Dự đoán vector chuyển động tiên tiến

prediction
BD-BR

Bjøntegaard-Delta Bit-Rate

Tốc độ bit delta Bjøntegaard

BLA

Broken Link Access

Truy cập liên kết bị phá vỡ

CABAC Context Adaptive Binary

Mã hóa số học nhị phân thích ứng ngữ

Arithmetic Coding

cảnh

CB

Coding Block

Khối mã hóa

CPB

Coded Picture Buffer

Bộ đệm ảnh mã hóa

CRA

Clean Random Access

Truy cập ngẫu nhiên sạch

CRF

Constant Rate Factor

Yếu tố tốc độ không đổi

CTB

Coding tree block

Khối cây mã hóa

CTU

Coding Tree Unit

Đơn vị cây mã hóa

CU

Coding Unit

Đơn vị mã hóa

DBF

Deblocking Filter

Bộ lọc bỏ khối

DCT

Discrete Cosine Transform

Biến đổi Cosin rời rạc

DPB

Decoded Picture Buffer

Bộ đệm ảnh giải mã

DPCM

Differential Pulse Code

Điều chế xung mã vi sai

Modulation
DST

Discrete sine transform

Biến đổi sin rời rạc

GOP

Group Of Pictures

Nhóm ảnh

HD

High Definition

Độ nét cao

HEVC

High Efficiency Video

Mã hóa video hiệu suất cao

Coding
HPVC

High Performance Video

Mã hóa video hiệu suất cao

Coding

8

IDR

Instantaneous Decoder

Làm tươi bộ giải mã tức thời

Refresh
IEC

International Electrotechnical

Ủy ban điện tử quốc tế

Commission
IEEE

Institute of Electrical and

Viện kỹ sư điện và điện tử

Electronic Engineers
ISO

International Standardization

Tổ chức tiêu chuẩn hóa quốc tế

Organization
ITU-T

ITU Telecommunication

Đơn vị tiêu chuẩn hóa viễn thông của ITU

Standardization Sector
JCT-VC

Joint Collaborative Team on

Đội hợp tác chung về mã hóa video

Video Coding
JPEG

Joint Photographic Expert

Nhóm hợp tác các chuyên gia đồ họa

Group
JVT

Joint Video Team

Đội video hợp tác

KTA

Key Technical Areas

Các khu vực kỹ thuật chủ yếu

LP

Leading Picture

Ảnh cách quãng

MB

Macro Block

Khối macro

MC

Motion Compensation

Bù chuyển động

MPEG

Moving Picture Experts Group Nhóm chuyên gia về hình ảnh động

MPM

Most Probable Modes

Chế độ có thể xảy ra nhất

MSE

Mean Square Error

Sai số bình phương trung bình

MV

Motion Vector

Vectơ chuyển động

NAL

Network Abstraction Layer

Lớp trừu tượng hóa mạng

NGVC

Next-Generation Video

Mã hóa video thế hệ tiếp theo

Coding
PB

Prediction Blocks

Khối dự đoán

POC

Picture Order Count

Số đếm thứ tự ảnh

PSNR

Peak Signal To Noise Ratio

Tỉ số tín hiệu đỉnh trên nhiễu

9

PU

Prediction Unit

Đợn vị dự đoán

QP

Quantization Parameter

Tham số lượng tử hóa

RADL

Random Access Decodable

Cách quãng có thể giải mã truy cập ngẫu

Leading

nhiên

RAP

Random Access Point

Điểm truy cập ngẫu nhiên

RASL

Random Access Skipped

Cách quãng được bỏ qua truy cập ngẫu

Leading

nhiên

RD

Rate-Distortion

Biến dạng-Tỷ lệ

RLC

Run-Length Coding

Mã hóa với độ dài ( của từ mã ) động

RMS

Root Mean Square

Sai lệch bình phương trung bình

RPS

Reference Picture Set

Tập hợp ảnh tham chiếu

RTP

Real-time Transport Protocol

Giao thức vận chuyển thời gian thực

SAO

Sample Adaptive Offset

Bù đắp thích ứng mẫu

SEI

Supplemental Enhancement

Thông tin tăng cường bổ sung

Information
SPS

Sequence Parameter Set

Bộ tham số trình tự

STSA

Stepwise TSA

Truy cập lớp con theo thời gian bậc thang

SVC

Scalable Video Coding

Mã hóa video có khả năng mở rộng

TB

Transform Block

Khối biến đổi

TSA

Temporal Sublayer Access

Truy cập lớp con theo thời gian

TU

Transform Unit

Đơn vị biến đổi

URQ

Uniform Reconstruction

Lượng tử hóa tái thiết đồng nhất

Quantization
VCEG

International Electrotechnical

Ủy ban điện tử quốc tế

Commission
VCL

Variable Length Coding

Mã hóa với độ dài ( của từ mã) thay đổi

VPS

Video Parameter Set

Bộ tham số video

VUI

Video Usability Information

Thông tin khả dụng video

WPP

Wavefront Parallel Processing

Xử lý song song wavefront

10

DANH MỤC CÁC BẢNG
Bảng 2.1 Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL .........................................34
Bảng 2.2 Các hệ số bộ lọc cho phép nội suy lấy mẫu phân đoạn chói .....................46
Bảng 2.3 Các hệ số bộ lọc cho phép nội suy lấy mẫu phân đoạn chroma ................48
Bảng 2.4 Các loại mẫu EdgeIdx trong các lớp cạnh biên SAO ................................54
Bảng 3.1 Kết quả tính toán PSNR của các chuỗi video thử nghiệm ở các tốc độ bit
khác nhau...................................................................................................................60
Bảng 3.2 Kết quả thử nghiệm mối quan hệ giữa yếu tố tốc độ không đổi và tốc độ
bit đầu ra giữa 2 chuẩn H.264 và H.265. ..................................................................63
Bảng 3. 3 Các chuỗi video thử nghiệm. ....................................................................66
Bảng 3. 4 Kết quả tính toán PSNR và đo tốc độ bit của các chuỗi video đầu ra ....67
Bảng 3. 5 Tiết kiệm tốc độ bit HEVC ( bao gồm tiết kiệm BD-BR) với PSNR YUV
bằng nhau ..................................................................................................................71
Bảng 3. 6 Kết quả của tốc độ mã hóa các chuỗi video thử nghiệm với các yếu tố tốc
độ không đổi tương ứng. ...........................................................................................75
Bảng 3. 7 Tốc độ mã hóa của HEVC so với AVC với các chuỗi video có PSNR
tương ứng bằng nhau .................................................................................................78

11

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1. 1 Mô hình hệ thống nén Video.....................................................................16
Hình 1. 2 Dự đoán bù chuyển động một chiều và hai chiều .....................................23
Hình 1. 3 Kiến trúc dòng Video MPEG ....................................................................25
Hình 1. 4 Cấu trúc số liệu nén ảnh MPEG ................................................................26
Hình 2.1 Sơ đồ khối bộ mã hóa HEVC .....................................................................29
Hình 2.2 Chế độ chia tách một CB thành PBs.Đối với những dự đoán trong ảnh chỉ
có M × M và M / 2 × M / 2 được hỗ trợ....................................................................36
Hình 2.3 Chia nhỏ một CTB thành các CB [khối biến đổi (TB)].Đường liền chỉ ra
các biên CB và đường chấm chỉ ra các biên TB. ......................................................38
Hình 2.4 Chia nhỏ của một ảnh thành mảng (a) và tile (b), minh họa quá trình xử lý
song song wavefront (c) ............................................................................................40
Hình 2.5 Các chế độ và các hướng cho dự đoán hình trong ảnh. .............................41
Hình 2.6 Vị trí lấy mẫu số nguyên và phân đoạn cho phép nội suy thành phần chói.
...................................................................................................................................44
Hình 2.7 Ba chế phương pháp quét hệ số trong HEVC.(a) Quét đường chéo lên- bên
phải. (b) Quét theo chiều ngang.(c) Quét theo chiều dọc. ........................................50
Hình 2.8 Bốn dạng gradient sử dụng trong SAO. .....................................................52
Hình 3.1 Đồ thị thể hiện PSNR của chuỗi video thử nghiệm ở các tốc độ bit khác
nhau. ..........................................................................................................................61
Hình 3. 2 Đồ thị biểu diễn mối quan hệ giữa yếu tố tốc độ không đổi và tốc độ bit
đầu ra giữa 2 chuẩn H.264 và H.265 .........................................................................64
Hình 3. 3 Tính toán tiết kiệm tốc độ bit BD-BR .......................................................70
Hình 3. 4 (a)(c) Các đường cong R-D và (b)(d) biểu đồ tiết kiệm tốc độ bit tương
ứng cho một số ví dụ điển hình của chuỗi thử nghiệm. ............................................73

12

MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm trở lại đây, việc truyền tải và lưu trữ video càng trở lên
phổ biến hơn do yếu tố giá thành các sản phẩm liên quan như máy quay video HD,
TV màn hình lớn, các thiết bị lưu trữ… đang giảm rất nhanh. Ngoài ra, các bộ vi xử
lý mới ngày càng có tốc độ cao hơn rất nhiều, cùng với tốc độ internet được cải
thiện đáng kể đã giúp việc truyền tải một bộ phim nhanh chóng và xem chúng được
mượt mà hơn. Nhưng chừng đó là chưa đủ, do nhu cầu cuộc sống luôn ngày càng
lớn. Trước đây việc thưởng thức các bộ phim ở độ phân giải 480p rồi đến mHD
720p đã là thỏa mãn, thì giờ đây các bộ phim độ phân giải Full HD 1080p đã tràn
ngập. Nhu cầu đó càng thể hiện mạnh mẽ hơn khi 3 năm gần đây xuất hiện các TV
với công nghệ hình ảnh 4K cùng độ phân giải siêu cao làm người xem phải ngẩn
ngơ như lạc vào thế giới thực. Các thiết bị lưu trữ và đường truyền internet với áp
lực lớn hơn đã không kịp đáp ứng. Vì thế nhu cầu cần một chuẩn nén video mới
hiệu quả hơn nhằm giảm tải áp lực cho hệ thống ngày càng bức thiết hơn. Và
H265/HEVC đã được cho ra đời nhằm đáp ứng những nhu cầu trên. H.265/HEVC
là một chuẩn tiên tiến ra đời chính thức vào năm 2013. Nó tạo ra sự đột phá, cho
phép nén video một cách tốt hơn đồng thời cải thiện được chất lượng so với các
chuẩn trước đó.
HEVC tăng gấp đôi tỉ lệ nén dữ liệu so với H.264/AVC tại cùng một chất
lượng video. Các tập tin nén video sẽ là một nửa kích thước của tệp video nén với
H.264. Nó cũng có thể cải thiện chất lượng video tại cùng một tốc độ bit. Ngoài ra
H.265 có thể hỗ trợ lên đến 8 K UHD và độ phân giải tối đa để 8192 x 4320.
Vì vậy, tôi đã chọn việc nghiên cứu và đánh giá chuẩn H.265/HEVC làm
luận văn với đề tài: “Nghiên cứu và đánh giá chuẩn mã hóa video HEVC”.

13

2. Lịch sử nghiên cứu
Nhóm các chuyên gia mã hóa video ITU-T (VCEG) đã bắt đầu nghiên cứu
về thế hệ tiếp theo của chuẩn H.264/MPEG-4 AVC từ năm 2004, bằng cách phát
triển ra 1 chuẩn nén video mới hoàn toàn, hoặc chọn tiếp tục phát triển từ H.264.
Các kĩ thuật khác nhau để nâng cao tiềm năng của chuẩn H.264/MPEG-4 AVC
được khảo sát trong tháng 10 năm 2004. Tại cuộc họp tiếp theo của VCEG trong
tháng 1 năm 2005, VCEG bắt đầu chỉ định một số khu vực kĩ thuật quan trọng (Key
Technical Areas – KTA) cho mã hóa video thế hệ tiếp theo ( Next-generation Video
Coding – NGVC). Một cơ sở mã hóa phần mềm là KTA Codebase [9] cho NGVC
đã được phát triển dựa trên mô hình chung của MPEG và VCEG cho H.264. Yêu
cầu về chất lượng của NGVC được đề ra là giảm bitrate còn một nửa mà vẫn giữ
nguyên chất lượng so với H.264, ở tất cả các profile, hoặc giảm 25% tốc độ bit cùng
với độ phức tạp giảm 50%, hoặc thậm chí giảm tốc độ bit hơn nữa và tăng mức độ
phức tạp trong khi mã hóa lên. Công nghệ của năm 2009 chưa đủ mạnh nên HEVC
được định nghĩa như là phần mở rộng của H.264, chứ không phải là hướng phát
triển mới hoàn toàn. MPEG đã bắt đầu nghiên cứu dự án tương tự vào năm 2007,
lấy tên là HPVC - High Performance Video Coding, nhưng tốc độ bit trung bình chỉ
giảm 20% so với AVC High Profile, điều này đã dẫn đến sự hợp tác với VCEG của
MPEG. Cuộc họp vào tháng 4 năm 2010 đã tiến hành lập ra nhóm JCT-VC và các
kĩ thuật mã hóa được đem ra bàn thảo, tổng cộng có hơn 27 đề xuất được gửi [5].
Các thử nghiệm cho thấy rằng H.265 có thế đạt tỉ suất nén cao gấp đôi so với
H.264. Cũng tại cuộc họp, 2 dự án NGVC và HPVC được kết hợp lại, lấy tên là
HEVC, chính thức được gọi tắt là H.265. Ngay sau đó, JCT-VC đã kết hợp những
tính năng tốt nhất của 2 dự án trên vào một codebase duy nhất cho HEVC.
3. Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu
Mục đích nghiên cứu
Tìm hiểu các khái niệm về nén video và một số chuẩn mã hóa video tiền
nhiệm của HEVC. Đồng thời tìm hiểu tổng quan về chuẩn mã hóa HEVC và tiến

14

hành thử nghiệm đánh giá hiệu suất mã hóa của H.265/HEVC so với chuẩn
H.264/AVC.
Đối tượng nghiên cứu
Nghiên cứu và đánh giá hiệu suất của chuẩn mã hóa video HEVC so với
chuẩn mã hóa tiền nhiệm.
Phạm vi nghiên cứu
Luận văn tập trung đưa ra một cái nhìn tổng quan về chuẩn mã hóa HEVC
bao gồm : những điểm nổi bật trong thiết kế và tính năng, cú pháp mức cao, các kỹ
thuật mã hóa, cấu hình, tầng và mức của chuẩn mã hóa HEVC. Từ đó đưa ra các thử
nghiệm nhằm đánh giá hiệu suất mã hóa của chuẩn HEVC so với các chuẩn mã hóa
tiền nhiệm , cụ thể ở đây là chuẩn mã hóa H.264/AVC ngay trước nó.
4. Tóm tắt cô đọng các luận điểm cơ bản và đóng góp mới của tác giả
Luận văn trình bày tổng quan về nén video số và một số chuẩn nén tiền
nhiệm của HEVC. Trình bày những điểm nổi bật về thiết kế và các tính năng của
chuẩn mã hóa HEVC, cú pháp mức cao và các kỹ thuật mã hóa video. Tiến hành
thử nghiệm và đánh giá hiệu suất HEVC, nhằm làm rõ mục tiêu của HEVC là giảm
một nửa bitrate so với H.264/AVC mà vẫn đạt chất lượng tương đương.
5. Phương pháp nghiên cứu
Trong luận văn tôi sử dụng phương pháp thu thập và xử lý thông tin bao
gồm:
Phương pháp thu thập thông tin: phương pháp nghiên cứu tài liệu kết hợp với
kết quả thực nghiệm.
Phương pháp xử lý thông tin: xử lý toán học đối với các thông tin định
lượng, sử dụng phương pháp thống kê để xác định xu hướng diễn biến của tập hợp
số liệu thu thập được, tức là xác định quy luật thống kê của tập hợp số liệu.

15

CHƯƠNG I: TỔNG QUAN VỀ NÉN VIDEO SỐ VÀ CÁC CHUẨN NÉN
1.1 Tổng quan về nén video số
1.1.1 Khái niệm về kỹ thuật nén video số
1.1.1.1 Khái niệm
Nén về cơ bản là một quá trình trong đó lượng số liệu (data) biểu diễn lượng
thông tin của một ảnh hoặc nhiều ảnh được giảm bớt bằng cách loại bỏ những số
liệu dư thừa trong tín hiệu video. Các chuỗi ảnh truyền hình có nhiều phần ảnh
giống nhau, vậy tín hiệu truyền hình có chứa nhiều dữ liệu dư thừa, ta có thể bỏ qua
mà không làm không mất thông tin hình ảnh. Đó là các phần xoá dòng, xoá mành,
vùng ảnh tĩnh hoặc chuyển động rất chậm, vùng ảnh nền giống nhau, mà ở đó các
phần tử liên tiếp giống nhau hoặc khác nhau rất ít. Thường thì chuyển động trong
ảnh truyền hình có thể được dự báo, do đó chỉ cần truyền các thông tin về chuyển
động. Các phần tử lân cận trong ảnh thường giống nhau, nên chỉ cần truyền các
thông tin biến đổi. Các hệ thống nén sử dụng đặc tính này của tín hiệu Video và các
đặc trưng của mắt người là kém nhậy với sai số trong hình ảnh có nhiều chi tiết,các
phần tử chuyển động. Quá trình sau nén ảnh là giãn (giải nén) ảnh để tạo lại ảnh gốc
hoặc xấp xỉ ảnh gốc.[11]
1.1.1.2 Mô hình nén ảnh

Nguồn

Biểu
diễn
thuận lợi

Lượng
tử hóa

Gán
từ
mã

Xử
lý
kênh

Giải
từ
mã

Giải
L.T.
H
Giải mã video

Mã hóa video

Hình 1. 1 Mô hình hệ thống nén Video.

16

Biểu
diễn
thuận lợi

Video
khôi

phục

Ở tầng đầu tiên của bộ mã hoá video, tín hiệu video được trình bày dưới
dạng thuận tiện để nén có hiệu quả nhất. Điểm cốt yếu là chỉ xác định cái gì được
mã hoá. Sự biểu diễn có thể chứa nhiều mẩu thông tin để mô tả tín hiệu hơn là chính
tín hiệu, nhưng hầu hết thông tin quan trọng chỉ tập trung trong một phần nhỏ của
sự mô tả này. Trong cách biểu diễn có hiệu quả, chỉ có phần nhỏ dữ liệu là cần thiết
để truyền cho việc tái tạo lại tín hiệu video.
Hoạt động thứ hai của bộ mã hoá là lượng tử hoá, giúp rời rạc hoá thông tin
được biểu diễn. Để truyền tín hiệu video qua một kênh số, những thông tin biểu
diễn được lượng tử hoá thành một số hữu hạn các mức.
Hoạt động thứ ba là gán các từ mã. Các từ mã này là một chuỗi bit dùng để
biểu diễn các mức lượng tử hoá. Các quá trình sẽ ngược lại trong bộ giải mã video.
Mỗi hoạt động cố gắng loại bỏ phần dư thừa trong tín hiệu video và tận dụng
sự giới hạn của khả năng nhìn của mắt người. Nhờ bỏ đi các phần dư thừa, các
thông tin giống nhau hoặc có liên quan đến nhau sẽ không được truyền đi. Những
thông tin bỏ đi mà không ảnh hưởng đến việc nhìn cũng không được truyền đi.[11]
1.1.2 Các đặc điểm của nén tín hiệu số
1.1.2.1 Độ dư thừa số liệu
Nén số liệu là quá trình giảm lượng số liệu cần thiết để biểu diễn cùng một
lượng thông tin cho trước. Số liệu và thông tin không đồng nghĩa với nhau, số liệu
chỉ là phương tiện dùng để truyền tải thông tin. Cùng một lượng thông tin cho trước
có thể biểu diễn bằng các lượng số liệu khác nhau.
Độ dư thừa số liệu [11] là vấn đề trung tâm trong nén ảnh số. Đánh giá cho
quá trình thực hiện giải thuật nén là tỷ lệ nén (CN) được xác định như sau: Nếu N1
và N2 là lượng số liệu trong hai tập hợp số liệu cùng được biểu diễn một lượng
thông tin cho trước thì độ dư số liệu tương đối RD của tập hợp số liệu thứ nhất so
với tập hợp số liệu thứ hai có thể được định nghĩa như sau:

17

RD=1-1/ CN
Trong đó:
CN=N1/N2
Trong trường hợp N1=N2 thì CN=1 và RD=0, có nghĩa là so với tập số liệu thứ
hai thì tập số liệu thứ nhất không chứa số liệu dư thừa. Khi N2<vô cùng và RD tiến tới 1, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu
thứ nhất là khá lớn hay tập số liệu thứ hai đã được nén khá nhỏ.
Ở đây có sự kết hợp giữa tỉ lệ nén và chất lượng hình ảnh. Tỉ lệ nén càng cao
sẽ làm giảm chất lượng hình ảnh và ngược lại. Chất lượng và quá trình nén có thể
thay đổi tùy theo đặc điểm của hình ảnh nguồn và nội dung ảnh. Đánh giá chất
lượng ảnh được đề nghị tính số bit cho một điểm trong ảnh nén ( Nb). Nó được xác
định là tổng số bit ở ảnh nén chia cho tổng số điểm:
Nb= Số bit nén / Số điểm
1.1.2.2 Sai lệch bình phương trung bình
Một đánh giá thống kê khác có thể đánh giá cho nhiều giải thuật nén là sai
lệch bình phương trung bình so với ảnh gốc RMS (Root Mean Square) được tính
bởi biểu thức:

RMS =

1

n

−
i=1

Trong đó:

RMS – sai lệch bình phương trung bình
Xi – Giá trị điểm ảnh ban đầu
Xi’ – Giá trị điểm ảnh sau khi nén
n – Tổng số điểm ảnh trong một ảnh

18

′ 2

RMS chỉ ra sự khác nhau thống kê giữa ảnh ban đầu và ảnh sau khi nén. Đa
số trường hợp khi nén chất lượng của ảnh nén là tốt với RMS thấp. Tuy nhiên, trong
một số trường hợp có thể xảy ra là chất lượng ảnh nén với RMS cao tốt hơn ảnh nén
với RMS thấp hơn.[11]
1.1.3 Các phương pháp nén
1.1.3.1 Nén không mất thông tin
Nén không không mất thông tin [11] cho phép phục hồi lại đúng tín hiệu ban
đầu sau khi giải nén. Đây là một quá trình mã hoá có tính thuận nghịch. Hệ số nén
phụ thuộc vào chi tiết ảnh được nén. Hệ số nén của phương pháp nén không không
mất thông tin nhỏ hơn 2:1. Các kỹ thuật nén không không mất thông tin bao gồm:
a. Mã hoá với độ dài ( của từ mã ) thay đổi (VLC)
Phương pháp này còn được gọi là mã hoá Huffman và mã hoá Entropy, dựa
trên khả năng xuất hiện của các giá trị biên độ trùng hợp trong một bức ảnh và thiết
lập một từ mã ngắn cho các giá trị có tần suất xuất hiện cao nhất và từ mã dài cho
các giá trị còn lại. Khi thực hiện giải nén, các thiết lập mã trùng hợp sẽ được sử
dụng để tái tạo lại giá tri tín hiệu ban đầu. Mã hóa và giải mã Huffman có thể được
thực hiện một cách dễ dàng bằng cách sử dụng các bảng tìm kiếm.
b. Mã hoá với độ dài ( của từ mã ) động (RLC)

Phương pháp này dựa trên sự lặp lại của cùng giá trị mẫu để tạo ra các mã
đặc biệt biểu diễn sự bắt đầu và kết thúc của giá trị được lặp lại. Chỉ các mẫu có giá
trị khác không mới được mã hoá. Số mẫu có giá trị bằng không sẽ được truyền đi
dọc theo cùng dòng quét. Cuối cùng, các chuỗi 0 được tạo ra bằng quá trình giải
tương quan như phương pháp DCT hay DPCM.
c. Sử dụng khoảng xoá dòng, xoá mành

19

Vùng thông tin xoá được loại bỏ khỏi dòng tín hiệu để truyền đi vùng thông
tin tích cực của ảnh. Theo phương pháp đó, thông tin xoá dòng và xoá mành sẽ
không được ghi giữ và truyền đi. Chúng được thay bằng các dữ liệu đồng bộ ngắn
hơn tuỳ theo các ứng dụng.
d. Biến đổi cosin rời rạc (DCT)
Quá trình DCT thuận và nghịch được coi là không không mất thông tin nếu
độ dài từ mã hệ số là 13 hoặc 14 băng tần đối với dòng video số sử dụng 8 bit biểu
diễn mẫu. Nếu độ dài từ mã hệ số của phép biến đổi DCT nhỏ hơn, quá trình này trở
nên có không mất thông tin .
1.1.3.2 Nén có không mất thông tin
Nén có mất thông tin sử dụng hai hoặc nhiều hơn các kỹ thuật xử lý nhằm
đạt được một sự biểu diễn mã hóa thuận lợi tín hiệu hình ảnh. Nén có mất thông tin
đạt được hệ số nén cao hơn so với phương pháp nén không mất thông tin, vào cỡ
2:1 đến 100:1. Sau khi nén, một số thông tin sẽ bị mất và chất lượng ảnh bị suy hao
do quá trình làm tròn và loại bỏ giá trị trong phạm vi khung hình hay giữa các
khung hình.Suy hao chất lượng ảnh sẽ không trầm trọng khu kỹ thuật nén nằm trong
giới hạn của sự cảm nhận của mắt người. Hệ số nén có thể thay đổi theo chi tiết ảnh,
và cho phép tạo ra dòng bit có tốc độ không đổi, phục vụ cho các ứng dụng lưu trữ
và truyền dẫn. Tốc độ dòng số liệu đạt được trong hệ thống nén có mất thông tin
phụ thuộc vào yêu cầu chất lượng ảnh cần có.

a. Lấy mẫu con (Subsampling)
Đây là một phương pháp nén rất có hiệu quả, song độ phân giải của ảnh sau khi
giải nén giảm so với ảnh ban đầu. Vì vậy, kỹ thuật lấy mẫu con không áp dụng cho
tín hiệu chói. Phương pháp lấy mẫu con tín hiệu màu, chẳng hạn như cấu trúc lấy
mẫu 4:2:0 hay 4:1:1 được dùng trong ứng dụng ghi, trong khi cấu trúc 4:2:0 được
sử dụng trong các ứng dụng sản xuất và truyền dẫn chương trình MPEG.

20

b. Điều xung mã vi sai (DPCM)
Là một phương pháp mã hóa dự đoán, thay vì truyền đi toàn bộ các mẫu, kỹ
thuật này chỉ mã hóa và truyền đi sự khác nhau giữa các giá trị mẫu. Giá trị sai lệch
được cộng vào giá trị mẫu đã được giải mã trong quá trình giải nén để tạo lại giá trị
mẫu cần thiết.
Quá trình DPCM làm giảm lượng entropy của tín hiệu ban đầu. Tất cả các
giá trị sai lệch giữa các mẫu tập trung quanh giá trị 0 vì trong các ảnh sự xuất hiện
các vùng đều có khả năng cao. Với các ảnh có độ chi tiết cao, các giá trị sai lệch
lớn giữa các mẫu có thể được lượng tử hóa thô ( bằng lượng tử hóa tuyến tính ), do
cảm nhận của mắt người giảm theo độ chi tiết của ảnh. Các phương pháp nén kết
hợp sử dụng lượng tử hóa thô các giá trị sai lệch và kỹ thuật mã hóa VLC cho các
tín hiệu thu được.
Nhằm tránh các lỗi có thể xuất hiện trong khi truyền, một mẫu đầy đủ được
gửi đi theo chu kỳ nhất định, cho phép cập nhật được các giá trị chính xác. Mã hóa
DPCM cũng sử dụng thêm các kỹ thuật dự đoán và lượng tử hóa thích nghi để hoàn
thiện thêm kỹ thuật nén này.
c. Lượng tử hóa và mã hóa VLC các hệ số DCT
Phối hợp ba kỹ thuật này cho phép biểu diễn một khối các điểm ảnh bằng một
số ít các bit, do đó tạo được một hiệu quả nén rất cao.
1.1.4 Tiêu chuẩn nén MPEG

1.1.4.1 Cấu trúc ảnh
a. Ảnh I (Intra- Picture)
Là loại ảnh được mã hóa riêng, tương tự việc mã hóa ảnh tĩnh trong JPEG.
Ảnh I chứa đựng dữ liệu để tái tạo toàn bộ hình ảnh vì chúng được tạo thành bằng

21

thông tin của chỉ một ảnh. Ảnh I cho phép truy cập ngẫu nhiên , tuy nhiên đạt được
tỷ lệ nén thấp nhất
b. Ảnh P (Predicted - Picture)
Là ảnh được mã hóa có bù chuyển động từ ảnh I hoặc ảnh P phía trước ( ảnh
dự đoán trước ). Ảnh P cung cấp cho hệ số nén cao hơn ảnh I và có thể được sử
dụng làm một ảnh so sánh cho việc bù chuyển động cho các ảnh P và B khác.
d. Ảnh B (Bi-directional predicted Picture)
Là ảnh được mã hóa sử dụng bù chuyển động từ các ảnh I hoặc P ở phía
trước và ở phía sau ( ảnh dự đoán hai chiều ). Ảnh B cho tỷ lệ nén cao nhất, bên
cạnh đó việc sử dụng ảnh B còn có thêm một số ưu điểm sau:
 Giải quyết được các vấn đề thay đổi ảnh cũng như không dự báo được sự thay
đổi về nội dung hình ảnh.
 Việc sử dụng bù chuyển động từ hai ảnh cho tỉ số tín hiệu trên tạp âm tốt hơn
nếu như chỉ sử dụng bù chuyển động từ một ảnh.
 Vì ảnh B không sử dụng là ảnh so sánh cho các ảnh khác, nó có thể mã hóa với
số lượng bit thấp và không gây lỗi trễ đường truyền.

Khung dự đoán (P) =
Khung trước – Khung
hiện tại + Vec tơ chuyển
động

Khung hình trước (n)

Khung hình hiện tại (n+1)
a) Khung dự đoán chuyển động ảnh P

22

Vị trí nội suy

Khung (B) = Khung trước
– Khung hiện tại + Vec tơ
chuyển động hai hướng

Khung hình Khung
trước (n-1)

hình Khung hình tiếp

hiện tại (n)

(n+1)

b) Khung dự đoán chuyển động ảnh B
Hình 1. 2 Dự đoán bù chuyển động một chiều và hai chiều
1.1.4.2 Nhóm ảnh (GOP-Group Of Picture)
Đối với chuẩn MPEG, chất lượng ảnh không những phụ thuộc vào tỉ lệ nén
trong từng khuân hình mà còn phụ thuộc vào độ dài của nhóm ảnh. Nhóm ảnh
(GOP – Group of picture ) là khái niệm cơ bản của MPEG . Nhóm ảnh là đơn vị
mang thông tin độc lập của MPEG. Mỗi GOP bắt buộc phải bắt đầu bằng một ảnh

hoàn chỉnh I và tiếp sau nó là một loạt các ảnh P và B. Nhóm ảnh có thể mở ( Open)
hoặc đóng (Closed).
Nhóm ảnh mở luôn bắt đầu từ một ảnh I và kết thúc bằng một ảnh I tiếp theo,
tức là ảnh cuối cùng của GOP dùng ảnh đầu tiên của GOP tiếp theo làm chuẩn.
Đối với cấu trúc khép kín, việc dự đoán ảnh không sử dụng thông tin của GOP
khác. Ảnh cuối cùng của một GOP bao giờ cũng là ảnh P.
1.1.4.3 Cấu trúc dòng bit MPEG Video
Cấu trúc số liệu video MPEG-1 và MPEG-2 bao gồm 6 lớp [11] như sau:

23

 Khối : Khối 8x8 các điểm ảnh tín hiệu chói và tín hiệu màu dùng cho phương
pháp nén DCT.
 Tổ hợp ( cấu trúc ) khối (Macroblock): Là một nhóm các khối tương ứng với
lượng thông tin chứa đựng trong kích thước 16x16 điểm trên bức ảnh. Cấu
trúc khối này cũng xác định lượng thông tin chứa trong đó sẽ thay đổi tùy
theo cấu trúc mẫu được sử dụng. Thông tin đầu tiên trong cấu trúc khối dạng
của nó ( là cấu trúc khối Y hay CR , CB) và các vector bù chuyển động tương
ứng.
 Mảng (slice) : bao gồm một vài cấu trúc khối kề nhau. Kích thước lớn nhất
của mảng có thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng
là một cấu trúc khối. Thông tin đầu của mảng chứa đựng vị trí của mảng
trong toàn bộ ảnh, và hệ số cân bằng lượng tử. Kích thước thông tin đầu của
mảng được xác định bằng số lỗi cho phép xuất hiện trong mảng đối với một
ứng dụng nhất định, theo đó, bộ giải mã có thể bỏ qua các mảng có nhiều lỗi,
và xác định bằng tính hiệu quả của phương pháp nén ảnh, theo đó hệ số cân
bằng lượng tử có thể được điều chỉnh thường xuyên với việc sử dụng các
mảng có kích thước nhỏ hơn. Hệ số DC tham chiếu, dùng trong mã hóa
DCPM, sẽ được so chuẩn tại đầu mỗi mảng.



Ảnh : Lớp ảnh cho phép bộ giải mã xác định loại của ảnh được mã hóa là
ảnh P,I hay ảnh B. Thông tin đầu dùng để chỉ thứ tự truyền khung để bộ giải
mã có thể sắp xếp các ảnh lại theo một thứ tự đúng. Trong thông tin đầu của
ảnh còn chứa các thông tin về đồng bộ, độ phân giải và phạm vi của vector
chuyển động.

 Nhóm ảnh (GOP):Nhóm ảnh là tổ hợp của nhiều khung I,P và B. Cấu trúc
nhóm ảnh được xác định bằng hai tham số m và n. Mỗi một nhóm ảnh bắt
đầu bằng một khung I và xác định điểm bắt đầu để tìm kiếm và biên tập.
Thông tin đầu bao gồm 25 bit chứa mã định thời và điều khiển.

24

4:2:2

Khối
điểm ảnh

CB

CR

Y
Macroblock

Mảng

Khung

Nhóm ảnh
Hình 1. 3 Kiến trúc dòng Video MPEG
 Đoạn (chương trình) video: Đoạn video bao gồm thông tin đầu, một số nhóm
ảnh và thông tin kết thúc đoạn. Thông tin đầu của đoạn video chứa đựng kích
thước mỗi chiều của ảnh, kích thước của điểm ảnh, tốc độ bit của dòng video
số, tần số ảnh và bộ đệm tối thiểu cẩn có. Đoạn video và thông tin đầu tạo
thành một dòng bit được mã hóa gọi là dòng cơ bản.

25

Nghiên cứu và đánh giá chuẩn mã hóa video HEVC

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về