Tải bản đầy đủ (.pdf) (77 trang)

Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.49 MB, 77 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN HỮU BẰNG

ĐÁNH GIÁ HIỆU NĂNG CỦA KỸ THUẬT MÃ HÓA
VIDEO HEVC/H.265 TRUYỀN HÌNH QUA MẠNG IP

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2017


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN HỮU BẰNG

ĐÁNH GIÁ HIỆU NĂNG CỦA KỸ THUẬT MÃ HÓA
VIDEO HEVC/H.265 TRUYỀN HÌNH QUA MẠNG IP
CHUYÊN NGÀNH :

KỸ THUẬT VIỄN THÔNG

MÃ SỐ:

60.52.02.08

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)


NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. VŨ VĂN SAN

HÀ NỘI - 2017


i

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố
trong bất kỳ công trình nào khác.
Hà Nội, tháng 5 năm 2017
Sinh viên thực hiện

Nguyễn Hữu Bằng


ii

MỤC LỤC

LỜI CAM ĐOAN ....................................................................................................... i
MỤC LỤC .................................................................................................................. ii
DANH MỤC THUẬT NGỮ, TỪ VIẾT TẮT .......................................................... iv
DANH MỤC BẢNG BIỂU ...................................................................................... vi
DANH MỤC HÌNH VẼ ........................................................................................... vii
MỞ ĐẦU .................................................................................................................. ix
CHƯƠNG 1:
1.1.


KỸ THUẬT MÃ HÓA VIDEO HEVC/H.265 .................................1

Giới thiệu chung mã hóa video ....................................................................1

1.1.1.

Tổng quan mã hóa video .......................................................................1

1.1.2.

GOP .......................................................................................................2

1.1.3.

Lớp mạng trừu tượng (NAL) ................................................................4

1.2.

Chuẩn mã hóa video H.264/AVC ................................................................6

1.2.1.

Bối cảnh ra đời và sự phát triển ............................................................6

1.2.2.

Nguyên lý hoạt động cơ bản .................................................................6

1.2.3.


Các đặc điểm nổi bật .............................................................................8

1.3.

Chuẩn mã hóa video HEVC/H.265 ............................................................10

1.3.1.

Bối cảnh ra đời và sự phát triển ..........................................................10

1.3.2.

Nguyên lý hoạt động cơ bản ...............................................................11

1.3.3.

Các đặc điểm nổi bật ...........................................................................12

1.4.

Tổng kết chương 1 ......................................................................................27

CHƯƠNG 2:
2.1.

TRUYỀN HÌNH QUA MẠNG IP ..................................................28

Mô hình hệ thống truyền hình qua mạng IP ...............................................28

2.1.1.


Internet video ......................................................................................28

2.1.2.

IPTV ....................................................................................................29


iii

2.1.3.

Tình hình phát triển IPTV tại Việt Nam .............................................31

2.2.

Mã hóa và giải mã ......................................................................................34

2.3.

Ghép kênh...................................................................................................35

2.4.

Truyền dẫn qua mạng IP ............................................................................37

2.4.1.

Giao thức giao vận ..............................................................................37


2.4.2.

Đóng gói ..............................................................................................42

2.4.3.

Truyền thông điểm-điểm (unicast) và điểm-đa điểm (multicast) .......44

2.5.

Một số đặc điểm truyền dẫn qua mạng IP ..................................................49

2.5.1.

Mất gói ................................................................................................49

2.5.2.

Jitter .....................................................................................................50

2.5.3.

Trễ .......................................................................................................51

2.6.

Tổng kết chương 2 ......................................................................................52

CHƯƠNG 3: ĐÁNH GIÁ HIỆU NĂNG CỦA HEVC/H.265 TRONG KỊCH
BẢN TRUYỀN HÌNH QUA MẠNG IP...................................................................53

3.1.

Giới thiệu chung .........................................................................................53

3.2.

Mô hình và kịch bản mô phỏng ..................................................................54

3.2.1.

Kịch bản mô phỏng thứ nhất ...............................................................54

3.2.2.

Kịch bản mô phỏng thứ hai. ................................................................55

3.3.

Kết quả phân tích, đánh giá và khuyến nghị ..............................................56

3.3.1.
nhất

Kết quả phân tích, đánh giá và khuyến nghị của bài mô phỏng thứ
57

3.3.2.

Kết quả phân tích, đánh giá và khuyến nghị của bài mô phỏng thứ hai
60


3.4.

Tổng kết chương 3 ......................................................................................62

KẾT LUẬN VÀ KIẾN NGHỊ...................................................................................63
DANH MỤC TÀI LIỆU THAM KHẢO ..................................................................64


iv

DANH MỤC THUẬT NGỮ, TỪ VIẾT TẮT

STT

Từ viết tắt

1

CATV

2
3
4
5
6
7
8

CTB

CTU
DPB
ES
FTTH
GOP
HDTV

9

HEVC

10

IGMP

11

IPTV

Tiếng Anh
Community Access
Television
Coding Tree Blocks
Coding Tree Units
Decoded Picture Buffer
Elementary Stream
Fiber to The Home
Group of Picture
High-Definition Television
High Efficiency Video

Coding
Internet Group Management
Protocol
Internet Protocol Television

Tiếng việt
Truyền hình cáp
Khối cây mã hóa
Đơn vị cây mã hóa
Bộ đệm hình ảnh giải mã
Luồng cơ sở
Cáp quang đến hộ gia đình
Nhóm hình ảnh
Truyền hình độ nét cao
Mã hóa video hiệu suất cao
Giao thức quản lý nhóm
Internet
Truyền hình giao thức
Internet

International
Telecommunication Union Telecommunication
Local Area Network
Moving Picture Experts
Group

Liên minh Viễn thông Quốc
tế

12


ITU-T

13

LAN

14

MPEG

15

MPLS

Multi-Protocol Label
Switching

Chuyển mạch nhãn đa giao
thức

16

MSE

Mean Square Error

Sai số bình phương trung
bình


17

MTU

Maximum Tranmission Unit

Đơn vị truyền tải tối đa

18

NAL

Network Abstraction Layer

Lớp mạng trừu tượng

19

PES

Luồng cơ sở đóng gói

20

PIM

21

PSNR


Packetized Elementary
Stream
Protocol-Independent
Multicast
Peak Signal to Noise Ratio

Mạng máy tính nội bộ
Nhóm các chuyên gia hình
ảnh động

Tỉ số tín hiệu trên nhiễu đỉnh


v

22
23
24

QoE
QoS
OTT

Quality of Experience
Quality of Service
Over The Top

25

RTP


Real-time Transport Protocol

26

TCP

27

UDP

28

UHDTV

29
30
31

xDSL
VOD
WAN

32

WiMAX

Transmission Control
Protocol
User Datagram Protocol

Ultra-High-Definition
Television
Digital Subcriber Line
Video on Demand
Wide Area Network
Worldwide Interoperability
for Microwave Access

Chất lượng trải nghiệm
Chất lượng dịch vụ
Giao thức giao vận thời gian
thực
Giao thức điều khiển truyền
vận
Truyền hình độ nét siêu cao
Kênh thuê bao số
Video theo yêu cầu
Mạng diện rộng
Khả năng tương tác toàn cầu
với truy nhập vi ba


vi

DANH MỤC BẢNG BIỂU
Bảng 1.1 Kích thước khối trong HEVC và các chuẩn trước đó [4] ........................15
Bảng 1.2 Chế độ dự đoán trong ảnh [4] .................................................................17
Bảng 3.1 Các video mẫu được sử dụng trong bài đánh giá ....................................53



vii

DANH MỤC HÌNH VẼ
Hình 1.1 Cấu trúc GOP phẳng [2] ...........................................................................3
Hình 1.2 Cấu trúc GOP phân cấp không theo cặp [2] .............................................3
Hình 1.3 Cấu trúc GOP phân cấp theo cặp [2] ........................................................3
Hình 1.4 Tổng quan về mã hóa H.264/AVC và HEVC [4] .......................................4
Hình 1.5 Cấu trúc tiêu đề NAL [4] ...........................................................................5
Hình 1.6 Sơ đồ mã hóa H.264/AVC [6] ....................................................................7
Hình 1.7 Sơ đồ giải mã H.264/AVC [6] ....................................................................8
Hình 1.8 Sơ đồ khối bộ mã hóa/giải mã HEVC [8] ................................................11
Hình 1.9 Sơ đồ khối bộ giải mã [4] .........................................................................12
Hình 1.10 Chia CTU thành CU theo cấu trúc cây tứ phân [4] ................................13
Hình 1.11 Chia CU thành các PU [4] ......................................................................14
Hình 1.12 Chia CTB thành TB và CB theo cấu trúc cây tứ phân [4] .......................14
Hình 1.13 Đơn vị dự đoán [7] ...................................................................................18
Hình 1.14 Chế độ dự đoán hướng trong HEVC [7] ..................................................22
Hình 1.15 Nội suy dự đoán ảnh (theo trục dọc) [7] ..................................................22
Hình 1.16 Khái niệm dự đoán liên ảnh [4] ...............................................................23
Hình 1.17 Dự đoán liên ảnh trong HEVC [4] ..........................................................24
Hình 1.18 Vị trí ứng viên trong thông tin chuyển động. a) Thời gian; b) Không gian
[4]
..................................................................................................................25
Hình 1.19 Xác định các ứng viên AMVP không gian A, B [4] .................................25
Hình 1.20 Vị trí phân số trong bù chuyển động chói với độ chính xác ¼ điểm ảnh
[4]
..................................................................................................................26
Hình 2.1 Mạng cung cấp Internet Video [9] ...........................................................29
Hình 2.2 Chuỗi giá trị trong IPTV ..........................................................................30
Hình 2.3 Mô hình mạng IPTV .................................................................................31

Hình 2.4
Hình 2.5
Hình 2.6
Hình 2.7
Hình 2.8
Hình 2.9

Thị phần truyền hình trả tiền tại Việt Nam tính đến tháng 12/2016 ........32
Mô hình cung cấp dịch vụ IPTV trên hạ tầng broadband của VNPT ......33
Mô hình cung cấp dịch vụ IPTV trên hạ tầng broadband của FPT ........33
Dòng dữ liệu theo chuẩn MPEG [15] ......................................................36
Vị trí giao thức lớp giao vận [15] ............................................................38
Gói tin dài và gói tin ngắn [15] ...............................................................42


viii

Hình 2.10 Mô hình mạng cơ bản thiết kế cung cấp dịch vụ multicast bằng PIM và
IGMP
..................................................................................................................47
Hình 3.1 Mô hình mô phỏng trong bài đánh giá thứ hai ........................................55
Hình 3.2 Đường cong tỉ lệ giữa HEVC và H.264 trong video 720p .......................57
Hình 3.3 Đường cong tỉ lệ giữa HEVC và H.264 trong video 1080p .....................57
Hình 3.4 Đường cong tỉ lệ giữa HEVC và H.264 trong video 4K ..........................58
Hình 3.5 Thời gian nén giữa HEVC và H.264/AVC ...............................................58
Hình 3.6 Thời gian giải nén giữa HEVC và H.264/AVC ........................................59
Hình 3.7 Kịch bản mất gói ngẫu nhiên ...................................................................60
Hình 3.8 Khả năng che giấu lỗi của HEVC và H.264/AVC trong video Sunflower ...
..................................................................................................................60
Hình 3.9 Khả năng che giấu lỗi của HEVC và H.264/AVC trong video BlueSky ..61



ix

MỞ ĐẦU
Với sự bùng nổ của Internet, đặc biệt là Internet băng thông rộng đã làm thay
đổi cả nội dung và kỹ thuật truyền hình. Hiện tại, phần lớn các nội dung truyền hình
chỉ dừng lại ở mức độ nét cao, nhưng trong tương lai độ nét siêu cao sẽ là một xu thế
tất yếu. Hệ quả của sự phát triển này là sức ép ngày càng lớn lên hạ tầng truyền dẫn.
Để giải quyết vấn đề này, chuẩn mã hóa video thế hệ tiếp theo đã được phát triển với
tên gọi mã hóa video hiệu suất cao (HEVC/H.265).
Với mục đích đưa những đánh giá khách quan về hiệu năng của kỹ thuật mã
hóa video HEVC/H.265 khi truyền hình qua mạng IP, em xin chọn đề tài nghiên cứu
“Đánh giá hiệu năng của kỹ thuật mã hóa video HEVC/H.265 truyền hình qua mạng
IP.”.
Tổng quan, luận văn gồm 3 chương:
Chương 1 trình bày về mã hóa video hiệu suất cao HEVC.
Chương 2 giới thiệu về truyền hình qua mạng IP.
Chương 3 đánh giá hiệu năng của chuẩn mã hóa HEVC trong kịch bản truyền
hình qua mạng IP.
Sau một thời gian nỗ lực tìm hiểu cùng với sự chỉ bảo tận tình của các thầy cô
trong khoa, đặc biệt là thầy TS. Vũ Văn San, em đã hoàn thành bài luận văn này. Do
đây là đề tài còn khá mới và vốn kiến thức bản thân còn hạn chế nên không tránh
được các sai sót, kính mong quý thầy cô và các bạn đóng góp ý kiến để bài luận văn
này hoàn thiện hơn.
Em xin chân thành cảm ơn thầy Vũ Văn San và các thầy cô trong Khoa Quốc tế
và Đào tạo đã tận tình giúp đỡ em trong suốt thời gian qua.
Hà Nội, tháng 5 năm 2017

Nguyễn Hữu Bằng



1

CHƯƠNG 1:

1.1.
1.1.1.

KỸ THUẬT MÃ HÓA VIDEO HEVC/H.265

Giới thiệu chung mã hóa video
Tổng quan mã hóa video
Một tín hiệu video số thường chứa một lượng lớn dữ liệu, do đó sẽ gặp rất

nhiều khó khăn trong việc lưu trữ và truyền đi trên băng thông kênh truyền hạn chế.
Vì vậy để có thể tiết kiệm không gian lưu trữ và băng thông kênh truyền thì ta cần
nén (mã hóa) tín hiệu.
Nén video được chia thành hai nhóm: Nén không tổn hao và nén tổn hao.

- Nén không tổn hao là quy trình biểu diễn các ký hiệu trong dòng bit nguồn
thành dòng các từ mã sao cho ảnh được khôi phục hoàn toàn giống ảnh gốc,
các thuật toán chỉ phụ thuộc vào cách thống kê nội dung dữ liệu và thường dựa
trên việc thay thế một nhóm các ký tự trùng lặp bởi một nhóm các ký tự đặc
biệt khác ngắn hơn mà không quan tâm đến ý nghĩa của dòng bit dữ liệu, nên
đòi hỏi phải có thiết bị lưu trữ và đường truyền lớn hơn.

- Nén có tổn hao, tức là ảnh được khôi phục không hoàn toàn giống ảnh gốc,
dạng nén này thích hợp cho việc lưu trữ và truyền ảnh tĩnh, ảnh video qua một
mạng có băng thông hạn chế. Các dạng nén này thường có hệ số nén cao hơn

(từ 2:1 đến 100:1) và gây nên tổn hao dữ liệu và sự suy giảm ảnh sau khi giải
nén do việc xóa và làm tròn dữ liệu trong một khung hay giữa các khung. Nó
liên quan đến việc dùng các phép biến đổi tín hiệu từ miền này sang miền khác.
Trong thực tế phương pháp nén tổn hao thường được sử dụng nhiều hơn và
các kỹ thuật nén tổn hao thường sử dụng như: mã hóa vi sai, biến đổi Cosin rời rạc
DCT, lượng tử vô hướng, quét zig-zag, mã hóa Entropy…
Để đánh giá chất lượng video ta các giá trị cung cấp bởi hệ thống xử lý, và
việc suy giảm chất lượng tín hiệu có thể nhìn thấy được (thông thường chúng được


2

so sánh với tín hiệu gốc). Qua hệ thống ta có thể thấy được những thay đổi về hình
dạng, việc định chuẩn chất lượng video là rất quan trọng. Để đánh giá chất lượng
của bức ảnh (hay khung ảnh video) ở đầu ra của bộ mã hóa, ta thường sử dụng các
tham số sau để đánh giá:

- Sai số bình phương trung bình – MSE (Mean Square Error) định nghĩa cho
cường độ sai khác giữa ảnh gốc và ảnh dự đoán [1]:
Mean Squared Error

: MSE 

1
N2

N 1

N 1


  (C
i 0

j 0

ij

 Ri j ) 2

(1.1)

- Tỉ số tín hiệu trên nhiễu đỉnh – PSNR (Peak Signal to Noise Ratio) [1].
(2b  1)2
Peak signal to noise ratio : PSNR  10log10
(db)
MSE

(1.2)

Trong đó: + N×N kích thước bù chuyển động
+ hệ số Ci, j và Ri, j tương ứng với mẫu hiện tại và vùng mẫu tham khảo.
+ b số lượng bit/ mẫu.
Thông thường, nếu PSNR ≥ 40dB thì hệ thống mắt người gần như không
phân biệt được giữa ảnh gốc và ảnh khôi phục, tức là ảnh nén có chất lượng xuất
sắc.
• Nếu 30 dB  PSNR < 33 dB thì chất lượng ảnh nén bình thường, mắt người
có sự phân biệt được.
• Nếu PSNR < 30 dB thì chất lượng ảnh nén kém.
1.1.2.


GOP
Một GOP (nhóm các hình ảnh) xác định thứ tự mà khung hình intra và inter

được sắp xếp. Một chuỗi video thường gồm các GOP liên tiếp. Cấu trúc GOP thường
được xác định bằng một số cho biết khoảng cách giữa hai ảnh (I hoặc P). Một cấu
trúc GOP điển hình là IBBPBBP, … Với cấu trúc này, các ảnh I có thể được sử dụng
để dự đoán ảnh P đầu tiên và hai ảnh này cũng có thể được sử dụng để dự đoán ảnh
B đầu tiên và thứ 2. Ảnh P thứ hai có thể dự đoán bằng cách sử dụng Ảnh P thứ nhất


3

và nó có thể tham gia dự đoán ảnh B thứ ba và thứ tư. Việc lựa chọn kích thước GOP
phụ thuộc vào nhiều yếu tố khác như kích cỡ DPB và độ trễ. [2]
0

1

2

3

30

31

32

33


30

31

32

33

...
1

0

2

3

Hình 1.1 Cấu trúc GOP phẳng [2]
4

3

5

7

6

8


1

2

3

5

6

7

2
0

1
4

0

8

Hình 1.2 Cấu trúc GOP phân cấp không theo cặp [2]
4

5

7

3

1

8
6

3

5

7

2
2

6

0

1
4

0

Hình 1.3 Cấu trúc GOP phân cấp theo cặp [2]

8


4


Có rất nhiều cách chọn lựa cấu trúc GOP. Cấu trúc GOP phẳng (Hình 1.1)
thường không cho hiệu suất nén tốt và được sử dụng trong các bài kiểm tra để so sánh
hiệu suất nén và độ phức tạp tính toán. Một cấu trúc GOP thứ bậc theo cặp đôi điển
hình với 4 mức phân cấp được giới thiệu trong Hình 1.3. Ngoài ra, cấu trúc GOP thứ
bậc không phân cặp được minh họa trong Hình 1.2. Trong đó, thẻ màu đỏ thể hiện
ảnh I, thẻ màu xanh dương thể hiện ảnh P và thẻ màu xanh lục thể hiện ảnh B.
1.1.3.

Lớp mạng trừu tượng (NAL)
Lớp mạng trừu tượng là một tính năng thiết yếu, có sẵn trên cả H.264/AVC và

HEVC. Về cơ bản, đó là một phương pháp chia luồng bit video thành các đơn vị
NAL. Nhìn chung, HEVC và H.264/AVC có chung một cấu trúc trừ một vài bit tại
mào đầu. [3]
Hình 1.4 cho thấy một bộ mã hóa và giải mã H.264/AVC và HEVC. Ảnh được
đưa vào bộ mã hóa để mã hóa các hình này thành một luồng dữ liệu hay luồng bit.
Một luồng dữ liệu bao gồm một chuỗi các đơn vị dữ liệu được gọi là lớp trừu tượng
mạng (NAL), mỗi một đơn vị lại chứa một số nguyên byte. Hai byte đầu tiên của một
đơn vị NAL cấu thành tiêu đề NAL, trong khi phần còn lại của các đơn vị NAL chứa
các dữ liệu tải trọng. Một số đơn vị NAL mang một giá trị thiết lập tham số có chứa
thông tin điều khiển cho một vùng hoặc toàn bộ hình ảnh.

Hình 1.4 Tổng quan về mã hóa H.264/AVC và HEVC [4]

Đơn vị NAL được giải mã bởi bộ giải mã để tạo thành hình ảnh giải mã tại đầu
ra bộ giải mã. Cả hai bộ mã hóa và giải mã đều lưu trữ các hình ảnh trong bộ nhớ
đệm hình ảnh giải mã (DPB). Bộ đệm này chủ yếu được sử dụng để lưu trữ hình ảnh


5


phục vụ việc dự đoán các hình ảnh sau nó. Hình ảnh lưu trữ ở đây được gọi là hình
ảnh tham khảo (hay hình ảnh tham chiếu). Giống như AVC, HEVC xây dựng hai
danh sách tham khảo L0 và L1. Nó có thể giữ 16 tham khảo mỗi danh sách nhưng
giới hạn 8 ảnh khác nhau (phải lặp thêm các hình ảnh). Các bộ mã hóa có thể chọn
điều này để có thể dự đoán cùng một hình ảnh với trọng số khác nhau.
Đơn vị NAL được chia thành 2 loại – lớp mã hóa video (VCL) và lớp không
mã hóa video (non-VCL). [4] Mỗi đơn vị VCL chứa một phân đoạn slice trong dữ
liệu hình ảnh mã hóa. Còn các đơn vị non-VCL chứa thông tin điều khiển, thường
liên quan đến nhiều hình ảnh được mã hóa. Một hình ảnh được mã hóa, cùng với các
đơn vị non-VCL (có liên quan đến hình ảnh đó) được gọi là đơn vị truy cập HEVC.
Một đơn vị truy cập không nhất thiết phải chứa non-VCL. Tuy nhiên, trong trường
hợp có chứa hình ảnh được mã hóa, nó phải bao gồm một hoặc nhiều đơn vị VCL.
Cấu trúc tiêu đề NAL có độ dài 2 byte, dành cho cả VCL và non-VCL. Tiêu
đề này được thiết kế để dễ dàng phân tích các thuộc tính chính trong một đơn vị NAL:
xác định loại, lớp hoặc phân lớp. Các bit đầu tiên của tiêu đề NAL luôn luôn được
thiết lập bằng ‘0’ để tránh hiểu nhầm là MPEG-2. Sáu bit tiếp theo chứa các loại đơn
vị NAL – xác định loại dữ liệu được mang trong NAL. Như vậy, ở đây sẽ có 64 loại
giá trị đơn vị NAL, trong đó có 32 giá trị VCL và 32 giá trị non-VCL. Sáu bit tiếp
theo chứa một lớp định danh cho biết đơn vị NAL thuộc về lớp nào và dành cho khả
năng mở rộng trong tương lai. Ba bit cuối cùng của tiêu đề NAL chứa các danh định
tạm thời để đại diện cho bảy giá trị và một giá trị cấm.

Hình 1.5 Cấu trúc tiêu đề NAL [4]


6

1.2.
1.2.1.


Chuẩn mã hóa video H.264/AVC
Bối cảnh ra đời và sự phát triển
H.264 được chấp thuận bởi tổ chức truyền thông quốc tế ITU-T với tên gọi

Recommendation H.264 và bởi tổ chức chuẩn hóa quốc tế (ISO/IEC) với tên gọi
International Standard 14496-10 (MPEG-4 part 10) Advanced Video Coding. Lần
đầu tiên được đề xuất vào năm 1998, nhóm chuyên gia nén video (VCEG – ITU-T
SG16 Q.6) kêu gọi đưa ra ý tưởng cho dự án gọi là H.26L, với mục đích tăng gấp đôi
độ hiệu quả nén video so với các chuẩn nén video hiện có áp dụng cho nhiều loại ứng
dụng, thiết bị đa dạng. Thiết kế dự thảo đầu tiên được phê chuẩn vào tháng 10 năm
1999. Vào tháng 12 năm 2001, VCEG và nhóm chuyên gia về ảnh động (MPEG ISO/IEC JTC 1/SC 29/WG 11) hợp tác thành nhóm Joint Video Team (JVT), được
lập ra để hoàn thành bản dự thảo về chuẩn nén video mới để đệ trình chấp thuận với
tên H.264/AVC vào tháng 3 năm 2003 [5].
1.2.2.

Nguyên lý hoạt động cơ bản
Ngoại trừ tính năng lọc tách khối, H.264 vẫn bao gồm các khối chức năng cơ

bản như các chuẩn mã hóa trước đó như dự đoán, biến đổi, lượng tử hóa và mã hóa
entropy. Sự thay đổi quan trọng trong H.264 đến từ sự cải tiến chi tiết bên trong cách
khối chức năng đó.
Hình 1.6 thể hiện quá trình mã hóa H.264 bao gồm hai luồng lưu lượng
“chuyển tiếp” (từ trái sang phải) và “tái cấu trúc” (từ phải sang trái). Hình vẽ giải
thích các bước chính trong quá trình mã hóa và giải mã một khung trong một video.
Thuật ngữ khối để chỉ một phân vùng macroblock (MB) hoặc sub-macroblock (trong
mã hóa liên ảnh) hoặc các mẫu màu của khối 4x4, 16x16 hoặc các mẫu sáng (trong
mã hóa trong ảnh).



7

Phần dư

+

Ảnh
Dự đoán
chuyển động
Bù chuyển
động

Ảnh trước

Chọn kiểu dự
đoán intra

Ảnh cấu trúc
lại

Dự đoán
intra

Lọc tách
khối

Biến đổi
DCT nguyên

-


Lượng tử

Sắp xếp

Mã hóa
Entropy

-

Tín
Liên ảnh hiệu dự
đoán
Nội ảnh

+
+

+

Biến đổi
DCT
ngược

Giải lượng
tử

Hình 1.6 Sơ đồ mã hóa H.264/AVC [6]

Khung đầu vào được xử lý trong các đơn vị của một macroblock (MB). Mỗi

MB có thể được mã hóa trong ảnh hoặc liên ảnh. Ảnh đầu tiên hoặc điểm truy nhập
ngẫu nhiên sẽ được mã hóa Intra, các ảnh còn lại của dãy dùng dự đoán bù chuyển
động từ các ảnh đã mã hóa trước để mã hóa liên ảnh. Dữ liệu cần được mã hóa từ các
MB sẽ được đưa đến bộ trừ và bộ dự đoán chuyển động. Trong bộ dự đoán chuyển
động, các MB được đưa vào với các MB tham khảo để tìm MB có nhiều điểm tương
đồng nhất. Bộ dự đoán chuyển động sẽ tính toán vector chuyển động, vector này sẽ
đặc trưng cho sự dịch chuyển theo cả hai chiều ngang và thẳng đứng của MB mới cần
được mã hóa so với khung tham khảo. Tại bộ trừ, các sai số tiên đoán được tạo ra dựa
vào sự sai khác giữa MB tham khảo và MB cần mã hóa. Tín hiệu sai khác này sẽ
được biến đổi nguyên để tạo ra tập hệ số biến đổi sau đó được đưa qua bộ lượng tử
để làm giảm số lượng bit cần truyền. Đến đây, các hệ số lượng tử được chia làm hai
hướng, một hướng sắp xếp lại và đưa vào mã hóa Entropy, hướng còn lại đưa qua bộ
giải lượng tử và biến đổi ngược. Sau đó, tín hiệu từ khối biến đổi ngược được đưa
vào bộ cộng với tín hiệu dự đoán và được lọc tách khối trong vòng nhằm làm giảm
hiệu ứng khối tạo thành ảnh cấu trúc lại, được lưu trữ nhằm mục đích ước lượng và
dự đoán chuyển động. Dữ liệu tại đầu ra bộ mã hóa Entropy sẽ kết hợp với vector


8

chuyển động và các thông tin khác như thông tin về ảnh I, ảnh P, và ảnh B rồi truyền
ra ngoài kênh truyền dưới dạng dòng bit nén của các đơn vị NAL, gửi tới bộ giải mã.
Ảnh trước

Bù chuyển Liên ảnh
động
Tín hiệu
dự đoán
Dự đoán
Intra


Ảnh cấu trúc
lại

Nội ảnh

Lọc tách
khối

+
+

+

Biến đổi
ngược

Giải lượng
tử

Sắp xếp
trật tự

Giải mã
entropy

NAL

Hình 1.7 Sơ đồ giải mã H.264/AVC [6]


Đối với quá trình giải mã, bộ giải mã nhận được một luồng bit nén từ NAL.
Bộ giải mã sẽ giải mã Entropy để tách thông tin tiêu đề và vector dự đoán chuyển
động đưa vào bù chuyển động. Ngoài ra, các hệ số DCT được giải lượng tử và biến
đổi ngược IDCT để biến tín hiệu từ miền tần số thành tín hiệu ở miền không gian, các
hệ số biến đổi ngược thu được sẽ cộng với tín hiệu dự đoán. Sau đó một phần được
đưa qua bộ lọc tách khối để loại bỏ hiện tượng nhiễu trước khi đưa vào lưu trữ, phần
còn lại được sử dụng cho mục đích dự đoán.
1.2.3.

Các đặc điểm nổi bật
So với các chuẩn mã hóa video trước đó, H.264/AVC có một số những đặc

điểm nổi bật sau:
• Bù chuyển động với kích cỡ khối thay đổi: Tiêu chuẩn này mang lại
sự mềm dẻo cho sự lựa chọn kích thước và hình dạng, kích thước bù
chuyển động nhỏ nhất là 4x4. Điều này đã mang lại hiệu suất 15% so với
MPEG-2. Bù chuyển động ¼ làm giảm tính phức tạp của xử lý nội suy
so với các tiêu chuẩn trước đó [7].
• Bủ chuyển động chính xác đến một phần tư mẫu: Thiết kế mới cho
phép bù chuyển động chính xác đến một phần tư mẫu, lần đầu được giới


9

thiệu trong MPEG 4 Visual (Part 2), sau đó được cải tiến để giảm sự
phức tạp trong việc xử lý nội suy.
• Tách riêng hình ảnh tham khảo và hình ảnh hiển thị: ở các tiêu chuẩn
trước có sự phụ thuộc giữa hình tham khảo và hình hiển thị, còn trong
H.264/AVC bộ mã hóa có thể chọn hình ảnh để tham khảo gần nhất với
hình ảnh được mã hóa cho mục đích tham khảo dự đoán nên có thể hiển

thị với tính linh hoạt cao, do đó khoảng thời gian trễ sẽ được loại bỏ.
• Dự đoán trọng số: Một tính năng mới trong H.264/AVC cho phép các
tín hiệu dự đoán bù chuyển động có thể được cân đối và bù đắp bằng một
giá trị qui định bởi bộ mã hóa. H.264/AVC có thể hỗ trợ quá trình mờ
dần hay tối dần khung hình trong những đoạn phim có hiệu ứng mờ dần.
• Sử dụng bộ lọc tách khối: Trái ngược với bộ tiền xử lý hay bộ hậu xử
lý, bộ lọc tách khối được áp dụng trong suốt quá trình mã hóa trên mọi
khung đơn lẻ, nhưng trước đó nó sẽ được sử dụng để tham khảo cho
những khung đến sau. Cải tiến mới này sẽ giúp tránh được hiện tượng
kết khối làm ảnh hưởng đến chất lượng hình ảnh, đặc biệt là với tốc độ
bit thấp. Nhưng tốc độ mã hóa, giải mã sẽ bị giảm sút.
• Dự đoán trong ảnh sử dụng không gian định hướng: hỗ trợ tới 17 kiểu
dự đoán, làm cho việc dự đoán mẫu được chính xác hơn, đạt hiệu quả
nén cao hơn [6].
Ngoài ra, H.264/AVC còn có một số đặc tính làm tăng cường khả năng chống
sai số và mất dữ liệu như:
• Tham số cấu trúc: tập hợp các tham số nhằm tăng cường cho thông tin
tiêu đề của quá trình truyền được hiệu quả hơn. Ở những tiêu chuẩn trước,
nếu mất một số thông tin quan trọng như thông tin tiêu đề của chuỗi ảnh
sẽ ảnh hưởng rất lớn đến quá trình giải mã. Còn trong H.264/AVC thì
các thông tin này được tách riêng tạo tính linh hoạt và chuyên dụng hơn.


10

• Cấu trúc cú pháp của NAL: Mỗi cấu trúc cú pháp trong H.264/AVC
được đặt trong gói dữ liệu vật lý gọi là NAL. Cấu trúc cú pháp NAL giúp
việc chuyên chở nội dung video trở nên dễ dàng hơn, có thể tùy biến một
cách thích hợp theo từng môi trường mạng.
• Kích cỡ mảnh linh hoạt: H.264/AVC hỗ trợ kỹ thuật sắp xếp thứ tự

mềm dẻo và sắp xếp thứ tự mảnh bất kỳ.
• Dữ liệu dư của ảnh: Nhằm tăng cường khả năng chống lỗi, một tính
năng mới trong H.264/AVC cho phép bộ mã hóa gửi đi các thành phần
dư, giúp bộ giải mã tái tạo lại ảnh khi dữ liệu bị mất trong quá trình truyền
dẫn.

1.3.

Chuẩn mã hóa video HEVC/H.265
Bối cảnh ra đời và sự phát triển

1.3.1.

Sau thành công trong việc tiêu chuẩn hóa H.264/AVC vào năm 2002 (phiên
bản đầu tiên được hoàn thành vào tháng 5 năm 2003), một vài năm sau đó, ITU-T
Video Coding Experts Group (VCEG) và ISO/IEC Motion Picture Expert Group
(MPEG) đã tích cực tìm kiếm một công nghệ mới với hiệu suất nén cao hơn. Sau khi
nghiên cứu về tính khả thi trong nhiều năm, vào tháng 01 năm 2010, VCEG và MPEG
đã thành lập một nhóm liên kết kêu gọi chuẩn hóa cho High Efficiency Video Coding
(HEVC).
Tiêu chuẩn Mã hóa video hiệu suất cao (High Efficiency Video Coding) phản
ánh kinh nghiệm được tích lũy trong khoảng bốn thập kỷ nghiên cứu và ba thập kỉ
chuẩn hóa cho công nghệ mã hóa video kỹ thuật số. Kết quả, nó đã chính thức được
chuẩn hóa trong ITU-T Recommendation H.265 và ISO/IEC International Standard
23008-2 (MPEG-H part 2). Phiên bản đầu tiên của HEVC được hoàn thành vào tháng
01 năm 2013 (với sự chấp thuận và công bố chính thức vài tháng sau đó, ITU-T công
bố chính thức vào tháng 6 và ISO/IEC vào tháng 11). Phiên bản thứ hai vừa được
ITU-T xác nhận vào ngày 29 tháng 10 năm 2014 [4].



11

1.3.2.

Nguyên lý hoạt động cơ bản
Tiêu chuẩn HEVC được thiết kế cho nhiều mục đích, bao gồm hiệu năng mã

hóa, dễ dàng tích hợp hệ thống truyền dẫn và phục hồi dữ liệu bị mất cũng như tính
khả thi khi sử dụng kiến trúc xử lý song song. Hình 1.8 mô tả sơ đồ khối của một bộ
mã hóa video lai, có thể tạo luồng dữ liệu phù hợp với tiêu chuẩn HEVC.

Hình 1.8 Sơ đồ khối bộ mã hóa/giải mã HEVC [8]

Thuật toán mã hóa phù hợp với chuẩn HEVC thường được tiến hành như sau.
Mỗi bức ảnh sẽ được chia thành các khu vực khối hình với các phân vùng khối chính
xác rồi đưa tới bộ giải mã. Những hình ảnh đầu tiên của một chuỗi video được mã
hóa bằng cách sử dụng dự đoán trong ảnh (intra-picture). Đối với các hình còn lại của
một chuỗi sẽ được mã hóa bằng dự đoán liên ảnh (inter-picture). Quá trình dự đoán
liên ảnh thực hiện việc lựa chọn dữ liệu chuyển động bao gồm các hình ảnh tham
chiếu và vector chuyển động (MV) được chọn làm mẫu cho mỗi khối. Các bộ mã hóa
và giải mã tạo ra các tín hiệu dự đoán liên ảnh bằng cách áp dụng bù chuyển động.
Các tín hiệu dư trong quá trình dự đoán liên ảnh hoặc trong ảnh là do sự khác biệt
giữa các ảnh ban đầu và ảnh dự đoán. Các tín hiệu này được biến đổi, lượng tử hóa,
mã hóa entropy và được truyền cùng với thông tin dự đoán.


12

Hình 1.9 Sơ đồ khối bộ giải mã [4]


Bộ giải mã (Hình 1.9 và các khối màu xám trong Hình 1.9) thực hiện các bước
ngược lại so với bộ mã hóa như giải mã Entropy, giải lượng tử hóa và biến đổi ngược.
Phần dư này sau đó được bổ sung vào dự đoán. Kết quả của việc bổ sung sau đó có
thể đưa vào một hoặc hai vòng lọc để làm mịn các thành phần lạ gây ra bởi quá trình
xử lý và lượng tử hóa. Một bản sao tại đầu ra của bộ giải mã được lưu trữ trong bộ
đệm hình ảnh để sử dụng trong việc dự đoán các hình ảnh tiếp theo.
Các đặc điểm nổi bật

1.3.3.

Về cơ bản HEVC/H.265 có cấu trúc tương tự như các chuẩn trước đó, tuy
nhiên HEVC có nhiều cải tiến mới để đem lại khả năng mã hóa với hiệu suất cao.
1.3.3.1.

Cấu trúc khối linh hoạt

Thay vì sử dụng khối macroblock như H.264/AVC và các tiêu chuẩn mã hóa
trước đó, trong HEVC/H.265, một hình ảnh được chia thành nhiều khối vuông, gọi là
khối cây mã hóa (CTB – Coding Tree Blocks). Mỗi thành phần CTB sáng kết hợp
với hai thành phần CTB màu và các cú pháp được gộp chung gọi là đơn vị cây mã
hóa (CTU – Coding Tree Units). CTU đại diện cho đơn vị xử lý cơ bản trong HEVC
và nó tương tự như khái niệm macroblock trong các tiêu chuẩn mã hóa video trước


13

đây. Mỗi CTB bao gồm một khu vực hình vuông 2N × 2N các mẫu chói. Trong định
dạng 4:2:0, mỗi một thành phần màu CTB chứa một khu vực tương ứng 2N × 2N
mẫu màu. Tham số N ở đây là các thiết lập tham số thứ tự và có thể được lựa chọn
bởi bộ mã hóa giữa các giá trị N = 4, 5 và 6, tương ứng với kích thước mẫu màu

16×16, 32×32 và 64×64. Kích thước CTU lớn hơn thường cho hiệu suất mã hóa tốt
hơn nhưng làm tăng thời gian mã hóa và giải mã cũng như yêu cầu bộ nhớ và khả
năng tính toán phức tạp hơn.

Hình 1.10

Chia CTU thành CU theo cấu trúc cây tứ phân [4]

Các CTB có thể được chia nhỏ hơn nữa theo cấu trúc cây mã hóa thành các
khối mã hóa (CB). Đó là đối tượng mà bộ mã hóa quyết định giữa dự đoán trong ảnh
hay dự đoán bù chuyển động.
Một CTU có thể chia thành các CU với kích cỡ khác nhau. Tương tự như CTU,
mỗi thành phần CB sáng kết hợp với hai thành phần CB màu cùng với các cú pháp
liên quan tạo thành một đơn vị mã hóa (CU). Một CTB chứa một hoặc thành nhiều
CU. Và mỗi CU được phân chia thành đơn vị dự đoán (PU) và đơn vị biến đổi (TU).


14

Hình 1.11

Hình 1.12

Chia CU thành các PU [4]

Chia CTB thành TB và CB theo cấu trúc cây tứ phân [4]

Quyết định mã hóa bằng dự đoán liên ảnh hay trong ảnh được thực hiện ở cấp
CU. Nếu một CU được mã hóa bằng dự đoán liên ảnh, các thành phần CB sáng và
màu có thể được phân chia nhỏ hơn thành các khối dự đoán (PB). PB là các mẫu chứa

thành phần sáng hoặc màu sử dụng thông số chuyển động giống nhau. Các thông số
chuyển động bao gồm vector chuyển động được dự đoán và những hình ảnh tham
chiếu của các vector đó. HEVC hỗ trợ kích thước PB từ 64×64 đến 4×4 mẫu. Một
thành phần PB sáng kết hợp với nhiều thành phần PB màu cùng với các cú pháp liên
quan tạo thành một đơn vị dự đoán (PU).


×