Tải bản đầy đủ (.pdf) (52 trang)

Luận văn Thạc sĩ:Phát triển mô hình tạp âm tương quan nhằm nâng cao hiệu năng mã hóa của kỹ thuật mã hóa video phân tán DVC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.49 MB, 52 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG
ĐẠI
HỌCGIA
CÔNG
ĐẠI HỌC
QUỐC
HÀ NGHỆ
NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ THỊ QUỲNH ANH
Vũ Thị Quỳnh Anh

PHÁTPHÁT
TRIỂNTRIỂN
MÔ HÌNH
TẠP ÂM
TƯƠNG
QUANQUAN
NHẰM
MÔ HÌNH
TẠP
ÂM TƯƠNG
NÂNG
HIỆU
NĂNG
HÓAMÃ
CỦA
KỸCỦA
THUẬT


MÃ HÓA
NHẰMCAO
NÂNG
CAO
HIỆUMÃ
NĂNG
HÓA
KỸ THUẬT
VIDEO
PHÂN
TÁNTÁN
DVCDVC
MÃ HÓA
VIDEO
PHÂN
LUẬN VĂN THẠC SỸ NGÀNH ĐIỆN TỬ VIỄN THÔNG

Chuyên ngành: Kỹ thuật viễn thông

LUẬN VĂN THẠC SĨ
NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN TỬ - VIỄN THÔNG
Người
hướngngành:
dẫn khoa
TS.viễn
Hoàng
Văn Xiêm
Chuyên
Kỹhọc:
thuật

thông
TS. Đinh Triều Dương

HÀ NỘI, 2019

HÀ NỘI, 2019


LỜI CAM ĐOAN
Tôi xin cam đoan đề tài “PHÁT TRIỂN MÔ HÌNH TẠP ÂM TƯƠNG QUAN
NHẰM NÂNG CAO HIỆU NĂNG MÃ HÓA CỦA KỸ THUẬT MÃ HÓA VIDEO
PHÂN TÁN DVC” do TS. Hoàng Văn Xiêm và TS. Đinh Triều Dương hướng dẫn là
công trình nghiên cứu của tôi. Các nội dung nghiên cứu, kết quả trong luận văn này là
trung thực và không sao chép các công trình của người khác.
Tất cả các tài liệu tham khảo được sử dụng trong khóa luận này được ghi rõ nguồn
gốc và ghi tên tác giả. Nếu có sai sót, tôi xin chịu hoàn toàn trách nhiệm.
Hà Nội, ngày

tháng

năm 2019

Tác giả

Vũ Thị Quỳnh Anh

2


LỜI CẢM ƠN

Em xin bày tỏ lòng biết ơn sâu sắc đến hai thầy TS. Hoàng Văn Xiêm và TS. Đinh
Triều Dương đã tận tình hướng dẫn và hỗ trợ em hoàn thành luận văn này.
Em cũng xin cảm ơn các thầy cô giáo của khoa Điện tử Viễn thông, Trường Đại học
Công nghệ - Đại học Quốc gia Hà Nội đã giảng dạy cho em những kiến thức bổ ích
trong suốt quá trình học tập tại trường.
Cuối cùng, em xin bày tỏ lòng biết ơn vô hạn với gia đình thân yêu của mình. Cảm
ơn những người bạn thân thiết đã chăm sóc, khích lệ trong quá trình học tập nghiên cứu.
Trong quá trình thực hiện luận văn này, do kiến thức còn hạn chế, không thể tránh
khỏi những thiếu sót, em rất mong nhận được những ý kiến góp ý của các thầy cô để em
có thể tiếp tục hoàn thiện và phát triển đề tài này.

Hà Nội, tháng

năm 2019

Vũ Thị Quỳnh Anh

3


MỤC LỤC

LỜI CAM ĐOAN .......................................................................................................... 2
MỤC LỤC ...................................................................................................................... 4
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .................................................. 6
DANH MỤC HÌNH VẼ................................................................................................. 8
DANH MỤC BẢNG BIỂU ........................................................................................... 9
PHẦN MỞ ĐẦU .......................................................................................................... 10
PHẦN NỘI DUNG ...................................................................................................... 12
CHƯƠNG 1 .................................................................................................................. 12

1.1 Đặt vấn đề ............................................................................................................ 12
1.2 Tổng quan về mã hóa video dự đoán HEVC ....................................................... 12
1.2.1 Kiến trúc tổng quát của bộ mã hóa HEVC ....................................................... 14
1.2.2 Các kỹ thuật mã hóa video HEVC ................................................................... 17
1.2.2.1 Biểu diễn lấy mẫu ảnh ............................................................................... 17
1.2.2.2 Phân chia hình ảnh thành đơn vị cây mã hóa ............................................ 17
1.2.2.3 Phân chia CTB thành CB .......................................................................... 17
1.2.2.4 Khối dự đoán (PB) và đơn vị dự đoán (PU) .............................................. 17
1.2.2.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi .... 19
1.2.2.6 Mảng (Slice) và Tile .................................................................................. 20
1.2.2.7 Dự đoán trong ảnh ..................................................................................... 21
1.2.3 Kết luận chương ............................................................................................... 23
CHƯƠNG 2 .................................................................................................................. 24
2.1. Tổng quan về mã hóa video phân tán DVC ....................................................... 24
2.2 Định lý Slepian-Wolf .......................................................................................... 25
2.3 Định lý Winer-Ziv ............................................................................................... 26
2.4 Các mô hình thực nghiệm của kỹ thuật mã hóa video phân tán .......................... 27
2.4.1 Giải pháp Stanford ........................................................................................ 27
2.4.2 Giải pháp PRISM ......................................................................................... 30
2.5 Kết luận chương .................................................................................................. 32
CHƯƠNG 3 .................................................................................................................. 33
4


3.1 Mô hình tạp âm tương quan trong mã hóa video WZ ......................................... 33
3.2 Tính toán tham số CNM miền pixel PDWZ........................................................ 34
3.2.1 Cấu trúc bộ mã hóa WZ miền Pixel ............................................................. 34
3.2.2 Ước lượng tạp âm tương quan ở mức khung (Frame level) ......................... 36
3.2.3 Ước lượng tạp âm tương quan ở mức khối (Block level) ............................ 37
3.2.4 Ước lượng tạp âm tương quan ở mức pixel (Pixel level) ............................. 38

3.3 Tính toán tham số CNM miền biến đổi TDWZ .................................................. 39
3.3.1 Cấu trúc bộ mã hóa video WZ miền biến đổi............................................... 39
3.3.2 Ước lượng tạp âm tương quan ở mức DCT trong khung (DCT band-byframe level) ............................................................................................................ 39
3.3.3 Ước lượng tạp âm tương quan ở mức hệ số trong khối (Coefficient-by-block
level) ...................................................................................................................... 41
3.4 Kết luận chương .................................................................................................. 42
CHƯƠNG 4 .................................................................................................................. 43
4.1 Kết quả thực nghiệm............................................................................................ 43
4.2 Đánh giá và kết luận ............................................................................................ 49
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................. 50
TÀI LIỆU THAM KHẢO ............................................................................................. 51

5


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Từ viết tắt

Nghĩa tiếng Việt

Nghĩa tiếng Anh
A

AVC

Advanced Video Coding

Mã hóa video tiên tiến
B


BAC

Binary Arithmetic Coding

Mã hóa số học nhị phân
C

Content Adaptive Binary

Mã hóa số học nhị phân thích nghi

Arithmetic Coding

theo thuộc tính

Content Adaptive Variable

Mã chiều dài thay đổi thích nghi

Length Coding

theo thuộc tính

CNM

Correlation Noise Model

Mô hình tạp âm tương quan


CPU

Central Processing Unit

Đơn vị xử lý trung tâm

CTB

Coding Tree Block

Khối cây mã hóa

CTU

Coding Tree Unit

Đơn vị cây mã hóa

CU

Coding Unit

Đơn vị mã hóa

CABAC

CAVLC

D
DCT


Discrete Cosine Transform

Biến đổi Cosine rời rạc

DPB

Decoded Picture Buffer

Bộ đệm hình ảnh đã giải mã

DRAM
DVC

Dynamic Random Access

Bộ nhớ truy cập ngẫu nhiên động

Memory
Distributed Video Coding

Mã hóa video phân tán
G

GOP

Group Of Picture

Nhóm ảnh


GMC

Global Motion Compensation

Bù chuyển động toàn phần

H
HD

High Definition

Độ phân giải cao

HEVC

High Eficiency Video Coding

Mã hóa video hiệu suất cao
I
6


IDCT

Inverse Discrete Cosine
Transform

Biến đổi cosin rời rạc ngược
M


MCP

Motion Compensation Prediction Dự đoán bù chuyển động

MCFI

Motion Compensated Frame
Interpolation

Phép nội suy khung bằng cách bù
chuyển động
N

NAL

Lớp trừu tượng hóa mạng

Network Abstraction Layer
P

PB

Prediction Block

Khối dự đoán

PDWZ

Pixel Domain Wyner Ziv


Wyner Ziv miền pixel

PSNR

Peak Signal to Noise Ratio

Tỉ lệ tín hiệu đỉnh/ tạp âm
Q

QP

Tham số lượng tử hóa

Quantization Parameter
S

SI

Side Information

Thông tin phụ
T

TDWZ

Transform Domain Wyner Ziv

7

Wyner Ziv miền biến đổi



DANH MỤC HÌNH VẼ

Hình 1. 1: Minh họa sự sai khác giữa 2 khung liên tiếp trong dãy video .....................13
Hình 1. 2: Sơ đồ khối bộ mã hóa HEVC [12] ...............................................................14
Hình 1. 3: Chế độ chia tách một CB thành PBs ............................................................18
Hình 1. 4: Chia nhỏ một CTB thành các CB .................................................................20
Hình 1. 5: Các chế độ và các hướng cho dự đoán hình trong ảnh .................................21
Hình 2. 1: Mô hình mã hóa dự đoán cổ điển .................................................................24
Hình 2. 2: Sơ đồ mã nguồn phụ thuộc thống kê ............................................................25
Hình 2. 3: Biểu đồ vùng tỉ lệ tốc độ mã giữa 2 nguồn X, Y..........................................25
Hình 2. 4: Mô tả định lý Slepian – Wolf với thông tin phụ ..........................................26
Hình 2. 5: Mã hóa mất mát thông tin với thông tin phụ ở phần giải mã .......................26
Hình 2. 6: Kiến trúc bộ mã hóa DISCOVER [2]...........................................................27
Hình 2. 7: Bộ mã hóa PRISM: (a) cấu trúc mã hóa; (b) cấu trúc giải mã .....................31
Hình 3. 1: Cấu trúc bộ mã hóa PDWZ ..........................................................................34
Hình 3. 2: Biểu đồ tương đối của phần dư (WZ-SI) cho chuỗi video Foreman ở tần số
30 Hz [11] ......................................................................................................................35
Hình 3. 3: Cấu trúc bộ mã hóa video TDWZ ................................................................39
Hình 4. 1: Khung mẫu từ các chuỗi video test: (a) Soccer (frame 1); (b) Foreman
(frame 1); (c) Coastguard (frame 1); (d) Hallmonitor (frame 1) ...................................43
Hình 4. 2: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi
Foreman .........................................................................................................................45
Hình 4. 3: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi
Soccer ............................................................................................................................46
Hình 4. 4: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi
Coastguard .....................................................................................................................46
Hình 4. 5: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên
Hallmonitor ....................................................................................................................47


8


DANH MỤC BẢNG BIỂU
Bảng 1. 1: Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL ........................................... 16
Bảng 4. 1: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi
Foreman ......................................................................................................................... 45
Bảng 4. 2: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi
Soccer ............................................................................................................................ 46
Bảng 4. 3: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi 47
Bảng 4. 4: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi
Hallmonitor .................................................................................................................... 47
Bảng 4. 5: Bảng tổng hợp hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực
hiện trên các chuỗi test video và các giá trị QPs được thiết lập khác nhau................... 48
Bảng 4. 6: Bảng tổng hợp thời gian mô phỏng quá trình mã hóa và giải mã khung WZ
thực hiện trên các chuỗi test video với các giá trị QPs khác nhau ................................ 48

9


PHẦN MỞ ĐẦU

1. Lý do chọn đề tài
Hiện nay, với công nghệ phát triển, việc chia sẻ video trên mạng đã trở nên hết
sức phổ biến, nhu cầu sử dụng dữ liệu video được dự đoán sẽ tăng trưởng ngày càng
mạnh mẽ. Lưu lượng truy cập video trên thiết bị di động được dự báo sẽ tăng khoảng
50% mỗi năm cho đến năm 2022, chiếm gần 3/4 tổng lưu lượng dữ liệu di động. Ngoài
ra, việc sử dụng video nhúng trong phương tiện truyền thông xã hội và các trang web
tiếp tục phát triển, được thúc đẩy bởi màn hình thiết bị lớn hơn, độ phân giải cao hơn và

các nền tảng mới hỗ trợ phát trực tiếp. Video nhúng trong phương tiện truyền thông xã
hội và các trang web được tính là lưu lượng video. Giá trị trung bình từ các phép đo
trong một số mạng HSPA và LTE thương mại được chọn ở Châu Mỹ, Châu Á và Châu
Âu cho thấy, bất kể loại thiết bị nào, video là đóng góp lớn nhất cho lưu lượng truy cập.
Tuy nhiên, có một sự khác biệt lớn giữa các mạng.
Nhưng dữ liệu video thường là những dữ liệu có dung lượng lớn, ví dụ truyền
hình có độ phân giải cao HDTV không nén thì tốc độ lên tới 1,5Gbps, để truyền tải là
rất khó. Do vậy, các phương pháp để tăng hiệu năng nén video vẫn là vấn đề được quan
tâm nghiên cứu, phát triển. Trong các ứng dụng mã hóa video thông thường, ví dụ: phát
sóng hoặc truyền phát video, bộ giải mã video dựa trên sự mạnh mẽ bù chuyển động
dựa trên khối lai và biến đổi DCT kiến trúc chủ yếu được điều khiển bởi một-nhiều mô
hình với một bộ mã hóa phức tạp duy nhất và nhiều ánh sáng bộ giải mã. Gánh nặng
phức tạp của bộ mã hóa (đó là thông thường cao hơn 5 lần 10 lần so với bộ giải mã) liên
kết với nhiệm vụ ước tính chuyển động, chủ yếu chịu trách nhiệm về hiệu suất biến dạng
tốc độ cao (RD) đạt được. Tuy nhiên, kiến trúc này đang bị thách thức bởi một số ứng
dụng mới nổi như giám sát video không dây, mạng cảm biến đa phương tiện, camera
PC không dây, và camera điện thoại di động. Những ứng dụng này có khác nhau. yêu
cầu từ những mục tiêu của video truyền thống hơn hệ thống phân phối, ví dụ: trong các
hệ thống giám sát video không dây, bộ mã hóa chi phí thấp hoặc codec, cho phép phân
bổ linh hoạt độ phức tạp giữa bộ mã hóa và bộ giải mã rất quan trọng vì có rất nhiều bộ
mã hóa và chỉ một hoặc vài bộ giải mã. Yêu cầu đặt ra là phát triển mô hình mã hóa thế
10


nào để đơn giản phần mã hóa mà vẫn không làm tổn thất đáng kể về hiệu suất nén so
với các mô hình truyền thống. Trong nỗ lực đưa ra câu trả lời cho nhu cầu mã hóa video
đáp ứng nhu cầu thực tiễn này này, một mô hình mã hóa video mới được nghiên cứu, đã
và đang được phát triền hiện nay đó là mô hình mã hóa video phân tán DVC (Distributed
Video Coding).
2. Mục đích nghiên cứu

Luận văn tập trung tìm hiểu và nghiên cứu mô hình tạp âm tương quan và phương
pháp tính toán tham số cho mô hình này để đạt hiệu quả nén mong muốn trong mô hình
mã hóa video phân tán DVC có sử dụng mã hóa intra HEVC cho các khung chính.
3. Cấu trúc luận văn
-

Phần mở đầu

-

Phần nội dung:
o Chương 1: Giới thiệu tổng quan về mã hóa video
o Chương 2: Tổng quan về mã hóa video phân tán DVC
o Chương 3: Mô hình tạp âm tương quan CNM trong bộ mã hóa DVC
o Chương 4: Kết quả thực nghiệm và đánh giá

-

Kết luận và hướng phát triển

11


PHẦN NỘI DUNG
CHƯƠNG 1
GIỚI THIỆU TỔNG QUAN VỀ MÃ HÓA VIDEO

1.1 Đặt vấn đề
Ngày nay, công nghệ mã hóa video đã và đang được sử dụng rất phổ biến, từ các ứng
dụng truyền thống như truyền hình quảng bá, truyền hình hội nghị đến các ứng dụng

mới xuất hiện như mạng cảm biến (sensor), mạng giám sát từ xa. Trong đó, các ứng
dụng mới như mô hình mạng video giám sát giao thông, camera an ninh lắp đặt trong
các nhà hàng, bệnh viện… Những hệ thống này có đòi hỏi hoàn toàn khác so với hệ
thống truyền hình quảng bá là yêu cầu phần phát đơn giản, gọn nhẹ, rẻ tiền trong khi
phần phức tạp có thể chuyển về bộ xử lý trung tâm ở phía thu, nơi sẽ được đầu tư thiết
bị tập trung và hiện đại hơn. Do đó các chuẩn mã hóa video truyền thống sẽ không còn
phù hợp nữa.
Yêu cầu đặt ra là phát triển mô hình mã hóa thế nào để đơn giản phần mã hóa mà
vẫn không làm tổn thất đáng kể về hiệu suất nén so với các mô hình truyền thống. Trong
nỗ lực đưa ra câu trả lời cho nhu cầu mã hóa video đáp ứng nhu cầu thực tiễn này này,
một mô hình mã hóa video mới được nghiên cứu, đã và đang được phát triền hiện nay
đó là mô hình mã hóa video phân tán DVC (Distributed Video Coding).
1.2 Tổng quan về mã hóa video dự đoán HEVC
Video là một chuỗi các bức ảnh liên tiếp cùng mô tả một nội dung và chứa đựng
một thông tin, câu chuyện xuyên suốt nào đó. Do vậy, giữa các bức ảnh liên tiếp trong
video luôn tồn tại các mối tương quan lớn như được mô tả ở hình 1.1.

12


Hình 1. 1: Minh họa sự sai khác giữa 2 khung liên tiếp trong dãy video

Nhìn vào 2 khung hình trên (trong chuỗi khung liên tiếp của video), ta có thể thấy
sự khác biệt căn bản nẳm ở vị trí ô tô, do chuyển động, nên:
Khi mã hóa hiệu 2 khung hình (theo pixel tương ứng) thì chỉ cần dùng một lượng
bít ít hơn so với việc mã hóa toàn bộ thông tin trong ảnh thực tế.
Nếu có cách dự đoán khung 2 từ khung 1 để có sự sai khác giữa khung 2 và khung
dự đoán thì mã hóa còn có thể tốn ít bít mã hơn. Điều này là khả thi nếu có kỹ thuật dự
đoán tốt. Tuy nhiên giá phải trả cho dự đoán tốt, như sẽ nói ở mục sau chính là sự gia
tăng độ phức tạp tính toán tại phía mã hóa.

Lịch sử phát triển các chuẩn nén:

H.261

H.263

H.263+

H.263++

(1990)

(1996)

(1998)

(2000)

ITU-T
VCEG

MPEG-2
(H.262)

H.264
(AVC)

SVC
(H.264-G)


HEVC
(H.265)

(1995)

(2004)

(2007)

(2013)

MPEG-4 v1

MPEG-1
(1993)

(1999)

MPEG-4 v2
(2000)

ISO/IEC
MPEG

MPEG-4 v3
(2001)

Hình 1. 2: Lịch sử phát triển các chuẩn nén

13



1.2.1 Kiến trúc tổng quát của bộ mã hóa HEVC
Các thành phần chính:
-

Cấu trúc đơn vị mã hóa: Một trong những đặc trưng khác biệt nhất của
chuẩn H.265/HEVC so với các chuẩn trước đó như H.264/AVC hoặc
MPEG-4/Video chính là chác cấu trúc lại các đơn vị mã hóa. Trong chuẩn
H.264/AVC, đơn vị mã hóa cơ bản là các khối lớn (Macroblock) với kích
cỡ tối đa là 16×16. Trong khi đó, chuẩn H.265/HEVC chia các khối mã
hóa theo cấu trúc cây (coding tree block) với kích cỡ đa dạng hơn từ 4×4
tới 64×64. Cấu trúc này đảm bảo hiệu quả nén tốt hơn so với chuẩn
H.264/AVC khi các video với kích cỡ lớn như HD, 2K hay 4K được sử
dụng.
Điều khiển mã hóa

Mã hóa tứ phân với
Khối mã hóa CB

Phần dư với khối biến
đổi TB
Biến đổi, chia tỷ lệ và lượng
tử hóa

Mã hóa
Entropy
CABAC

010110...


Bộ giải mã
Chia tỷ lệ và biến đổi ngược
Chia thành các khối
cây mã hóa CTB

Dự đoán trong ảnh

Tín hiệu video đầu vào

Lọc in-loop
Tín hiệu
video đầu ra

Dự đoán liên ảnh

Các khối
dự đoán

Ước lượng chuyển động

Bộ đệm hình ảnh đã mã hóa

Hình 1. 3: Sơ đồ khối bộ mã hóa HEVC [12]

-

Cấu trúc đơn vị dự đoán và đơn vị biến đổi: Mỗi đơn vị khối mô tả ở phía
trên được phân chia thành hai cấu trúc tương ứng với hai thành phần chính
của chuẩn mã hóa H.265/HEVC; đó là cấu trúc đơn vị dự đoán và cấu trúc

đơn vị biến đổi. Đơn vị dự đoán (coding unit) cho phép khối mã hóa có
14


kích cỡ nhỏ nhất là 8×8 đối với thành phần xám (luma) và 4×4 với thành
phần màu (chroma). Trong khi đó, đơn vị biến đổi cô sin rời rạc có kích
cỡ đa dạng hơn bao gồm 4×4, 8×8, 16×16, 32×32.
-

Phương pháp dự đoán chuyển động nối vùng (merge mode): Đây là một
phương pháp dự đoán mới xuất hiện trong chuẩn H.265/HEVC. Phương
pháp này kế thừa có hiệu quả phương pháp dự đoán bỏ qua và dự đoán
trực tiếp trong chuẩn H.264/AVC mô tả ở trên. Trong đó có 2 sự khác
biệt chính là việc gửi thông tin về véc tơ chuyển động được lựa chọn và
thông tin về khung tham khảo được sử dụng

-

Dự đoán ảnh trong khung: H.265/HEVC hỗ trợ tới 35 mode dự đoán (so
với 9 mode trong H.264/AVC). Ngoài ra, khối dự đoán trong khung có thể
được tạo ra với hai loại khối, N×N và 2N×2N.

-

Dự đoán ảnh liên khung: Dự đoán ảnh liên khung trong chuẩn
H.265/HEVC cũng cho phép hỗ trợ dự đoán véc tơ chuyển động với độ
chính xác lên tới ¼ điểm ảnh (sub-pel). Các giá trị tại vị trí sub-pel được
nội suy dựa trên hai bô lọc với 7 hoặc 8 tham số cấu hình. Các khối hình
sử dụng trong dự đoán ảnh liên khung cũng đa dạng, có thể đối xứng hoặc
không đối xứng, ví dụ: 2N×2N, 2N×N, N×2N, N×N, 2N×nD, nL×2N.


-

Bù chuyển động: Cụ thể, ảnh được chia thành các CTU, mỗi CTU bao
gồm các CTB chói và các CTB màu . Một CTB có kích thước là LxL ( L=
16, 32, hoặc 64), trong đó các kích thước lớn hơn cho phép nén tốt hơn.
HEVC hỗ trợ việc phân chia các CTB thành các khối nhỏ hơn sử dụng cấu
trúc cây và tín hiệu hóa cây tứ phân.

-

Mã hóa Entropy: Khác với H.264/AVC, chuẩn H.265/HEVC chỉ cho
phép người dùng sử dụng mã CABAC; mục đích là tăng tối đa hiệu quả
nén chuẩn H.265/HEVC.

-

Bộ lọc giảm nhiễu khối: Một chút thay đổi, nâng cấp được đề xuất để
giảm nhiễu khối trong chuẩn H.265/HEVC.

-

Bộ lọc giảm nhiễu vòng: Đây là thành phần

mới trong chuẩn

H.265/HEVC so với các chuẩn trước kia như H.264/AVC, MPEG 2,4,…
Mục đích chính là giảm nhiễu vòng xuất hiện trong mộ số khung hình xuất
hiện do việc loại bỏ thành phân tần số cao ở khối lượng tử tuyến tính.
15



-

Cú pháp mức-cao của HEVC chứa nhiều yếu tố thừa hưởng từ NAL của
H.264 / MPEG-4 AVC. NAL cung cấp khả năng ánh xạ dữ liệu lớp mã
hóa video (VCL) mà nó thể hiện nội dung của các ảnh lên các lớp vận
chuyển khác nhau, bao gồm các hệ thống RTP / IP, ISO MP4, và H.222.0
/ MPEG-2, và cung cấp một khuôn khổ cho khả năng phục hồi mất mát dữ
liệu. Đối với các khái niệm chung của thiết kế NAL như các đơn vị NAL,
các bộ tham số, các đơn vị truy cập, định dạng dòng byte, và việc định
dạng đóng gói.[10]
Các đơn vị NAL được phân loại thành các đơn vị VCL NAL và khôngVCL NAL tương ứng với việc chúng có chứa ảnh được mã hóa hoặc dữ
liệu có liên quan. Trong chuẩn HEVC, một số loại đơn vị VLC NAL xác
định các loại ảnh cho mục đích khởi tạo bộ giải mã và truy cập ngẫu nhiên.
Bảng 1.1 liệt kê các loại đơn vị NAL và ý nghĩa liên quan và các lớp kiểu
trong chuẩn HEVC.
Bảng 1. 1: Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL

Kiểu

Ý nghĩa

Lớp

0, 1

VCL

2, 3

4, 5

Phân đoạn mảng của ảnh kế tiếp thông
thường
Phân đoạn mảng của ảnh TSA
Phân đoạn mảng của ảnh STSA

6, 7

Phân đoạn mảng của ảnh RADL

VCL

8, 9
10-15

Phân đoạn mảng của ảnh RASL
Dữ trữ cho tương lai

VCL
VCL

16-18
19, 20

Phân đoạn mảng của ảnh BLA
Phân đoạn mảng của ảnh IDR

VCL
VCL


21

Phân đoạn mảng của ảnh CRA

VCL

22-31
32

Dữ trữ cho tương lai
Bộ tham số video (VPS)

VCL
non-VCL

33
34

Bộ tham số trình tự (SPS)
Bộ tham số ảnh (PPS)

non-VCL
non-VCL

35
36

Dấu phân cách đơn vị truy cập
Cuối của trình tự


non-VCL
non-VCL

37

Cuối của dòng bit

non-VCL

38

Dữ liệu đệm

non-VCL

16

VCL
VCL


39, 40

SEI messages

non-VCL

41-47
48-63


Dữ trự cho tương lai
Không xác định (có thể sử dụng hệ thống)

non-VCL
non-VCL

1.2.2 Các kỹ thuật mã hóa video HEVC
1.2.2.1 Biểu diễn lấy mẫu ảnh
Để biểu diễn các tín hiệu video màu , HEVC sử dụng một không gian 3 màu
cơ bản YCbCr với lấy mẫu 4: 2: 0. Các ảnh video lấy mẫu tăng lên với kích thước ảnh
hình chữ nhật WxH, trong đó W là chiều rộng và H là chiều cao của ảnh theo quan
điểm lấy mẫu chói, còn với lấy mẫu màu 4: 2: 0 sẽ là W/2xH /2.
1.2.2.2 Phân chia hình ảnh thành đơn vị cây mã hóa
Một ảnh được phân chia thành các đơn vị mã hóa cây (CTU), mỗi CTU chứa
các khối cây mã hóa (CTB) chói và CTB màu. Một CTB chói lấy mẫu LxL cho các
thành phần chói và lấy mẫu L /2 x L/2 cho mỗi một trong hai thành phần màu. L=16,
32, hoặc 64 được xác định bởi một yếu tố cú pháp mã hóa được quy định trong SPS.
1.2.2.3 Phân chia CTB thành CB
Các khối CTB chói và màu có thể được sử dụng trực tiếp như các khối mã hóa
(CB) hoặc có thể phân chia tiếp thành nhiều CB. Việc phân chia được thực hiện bằng
cách sử dụng cấu trúc cây. Việc phân chia cấu trúc cây trong HEVC thường được áp
dụng đồng thời cho cả khối chói và màu, mặc dù các ngoại lệ áp dụng khi tiến tới kích
thước tối thiểu nhất định.
CTU chứa cú pháp cây tứ phân cho phép chia các CB đến một kích thước phù
hợp dựa trên các đặc điểm tín hiệu của vùng mà nó được bao phủ bởi các CTB. Quá
trình chia tách cây tứ phân có thể được lặp đến khi một CB chói đạt đến một kích
thước tối thiểu cho phép. Kích thước này được chọn bởi bộ mã hóa sử dụng cú pháp
trong SPS và luôn là 8x8 hoặc lớn hơn.
1.2.2.4 Khối dự đoán (PB) và đơn vị dự đoán (PU)

Chế độ dự đoán cho CU là được báo hiệu là trong ảnh hay liên ảnh, tùy vào
việc nó sử dụng dự đoán trong ảnh (theo không gian) hoặc dự đoán liên ảnh (theo thời
gian).
17


Khi chế độ dự đoán được báo hiệu là trong ảnh, kích thước PB là kích thước
khối tại nơi dự đoán trong ảnh được tạo sẵn có cùng kích thước với CB cho tất cả các
kích thước khối ngoại trừ kích thước CB nhỏ nhất. Đối với các trường hợp sau đó,
một cờ xuất hiện cho biết CB được chia thành bốn phần PB mà mỗi phần đều có dự
đoán trong ảnh riêng. Lý do của việc cho phép chia tách này là tạo khả năng lựa chọn
dự đoán trong ảnh cho các khối nhỏ 4x 4. Khi dự đoán trong ảnh thành phần chói hoạt
động với các khối 4x4, dự đoán trong ảnh thành phần màu cũng sử dụng các khối 4x4
(4 khối thành phần chói 4x 4). Kích thước vùng hiện tại có dự đoán trong ảnh ( nó là
khác so với kích thước PB có dự đoán trong ảnh được tạo sẵn) phụ thuộc vào việc
phân chia mã hóa dư thừa được mô tả như sau.

MxM

M/2xM

MxM/2

M/2xM/2

M/4xM (L)

M/4xM (R)

MxM/4 (U)


MxM/4 (D)

Hình 1. 4: Chế độ chia tách một CB thành PBs

Khi dự đoán là liên ảnh, nó xác định liệu các CB thành phần chói và màu được
chia thành một, hai hoặc bốn PB. Việc chia thành bốn PB chỉ được phép khi kích
thước CB bằng với kích thước CB cho phép tối thiểu. Khi một CB được chia thành
bốn PB, mỗi PB là một góc phần tư của CB và khi một CB được chia thành hai PB,
sẽ có 6 kiểu chia tách. Các khả năng phân chia cho CB dự đoán liên ảnh được mô tả
trong hình 1.4.
Bốn loại phân chia cao hơn minh họa cho trường hợp chia tách CB thành kích
thước Mx M, chia tách CB thành hai PB kích thước Mx M/2 hoặc M/2xM hoặc chia
tách nó thành bốn PB có kích thước M/2xM/2. 4 loại phân chia thấp hơn được gọi là
phân chia chuyển động bất đối xứng (AMP - asymmetric motion partitioning ), và chỉ
được phép khi M ≥ 16, đối với thành phần chói. Một PB của phân chia bất đối xứng
18


có chiều cao hoặc chiều rộng là M/4 và chiều rộng hoặc chiều cao là M và các PB
khác lấp đầy phần còn lại của CB bởi một chiều cao hoặc chiều rộng của 3M/4 và
chiều rộng hoặc chiều cao M. Mỗi PB dự đoán liên ảnh được gán một hoặc hai vectơ
chuyển động và các chỉ số ảnh tham chiếu. Để tối thiểu băng thông bộ nhớ trường hợp
xấu nhất, các PB của thành phần chói 4x4 là không được phép cho dự đoán liên ảnh,
và các PB của thành phần chói 4x8 và 8x4 được giới hạn cho mã hóa dự đoán đơn.
Các PB thành phần chói và màu kết hợp với cú pháp dự đoán tạo thành PU.
1.2.2.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi
Đối với mã hóa dư thừa, một CB có thể được phân vùng 1 cách đệ quy thành
các khối biến đổi (TB). Việc phân chia được báo hiệu bằng một cây tứ phân dư thừa.
Phân chia CB và TB, nơi mà một khối có thể được chia 1 cách đệ quy thành

các góc phần tư, như minh họa trong hình 1.5. Đối với một CB thành phần chói MxM,
một cờ báo hiệu có được chia thành bốn khối có kích thước M/2xM/2 không. Độ sâu
tối đa của cây tứ phân dư thừa trong SPS sẽ báo hiệu cho việc có chia tách thêm nữa
không. Mỗi góc phần tư có một cờ chỉ định việc nó có được chia thành bốn góc phần
tư không. Các khối nút lá từ cây tứ phân dư thừa là các khối biến đổi được xử lý tiếp
bằng mã hóa biến đổi. Các bộ mã hóa chỉ ra kích thước TB thành phần chói tối thiểu
và tối đa mà nó sẽ sử dụng. Việc chia tách là ngầm mặc định khi kích thước CB lớn
hơn so với kích thước TB tối đa. Và việc không chia tách là ngầm mặc định khi chia
tách sẽ cho kết quả là kích thước TB thành phần chói nhỏ hơn kích thước tối thiểu.
Kích thước TB thành phần màu bằng một nửa kích thước TB thành phần chói ở mỗi
chiều, ngoại trừ trường hơp kích thước TB chói là 4x4, trong đó trường hợp đó, một
TB màu 4x4 duy nhất được bao phủ bởi bốn TB chói 4x4. Trong trường hợp các CU
dự đoán trong ảnh, các mẫu được giải mã của các TB lân cận gần nhất(trong hoặc
ngoài CB) được sử dụng như là dữ liệu tham chiếu cho dự đoán trong ảnh.

19


a)

b)

Hình 1. 5: Chia nhỏ một CTB thành các CB
(a) Phân chia CTB. (b) Cây tứ phân tương ứng
Đường liền chỉ ra các biên CB và đường chấm là biên TB.

1.2.2.6 Mảng (Slice) và Tile
Mảng là một chuỗi các CTU được xử lý theo thứ tự của quét mành. Một ảnh
được chia thành một hoặc một vài mảng như vì thế một ảnh là một tập hợp của một
hoặc nhiều mảng. Mỗi mảng có thể được mã hóa sử dụng các loại mã hóa khác nhau

như sau.
Mảng I: tất cả CU của mảng được mã hóa chỉ sử dụng dự đoán trong ảnh.
Mảng P: Ngoài các loại mã hóa của mảng I, một số CU của mảng P cũng có
thể được mã hóa bằng dự đoán liên ảnh với nhiều nhất một tín hiệu dự đoán bù chuyển
động cho mỗi PB ( dự đoán đơn). Mảng P chỉ sử dụng danh sách 0 ảnh tham chiếu.
Mảng B: Bên cạnh các loại mã hóa có sẵn trong một mảng P, một số CU của
mảng B cũng có thể được mã hóa bằng dự đoán liên ảnh với nhiều nhất hai tín hiệu
dự đoán bù chuyển động cho mỗi PB (dự đoán đôi ). Mảng B sử dụng cả hai danh
sách 0 và 1 ảnh tham chiếu.
Mục đích chính của các mảng là đồng bộ lại sau khi dữ liệu mất. Hơn nữa, các
mảng thường được hạn chế để sử dụng số bit tối đa. Vì vậy, các mảng thường có thể
chứa số CTU thay đổi mức độ cao/mảng.
Tile là các vùng hình chữ nhật của ảnh có khả năng giải mã độc lập. Mục đích
chính của tile là cho phép sử dụng các kiến trúc xử lý song song đối với mã hóa và
giải mã. Nhiều tile có thể chia sẻ thông tin tiêu đề được chứa trong cùng mảng.

20


1.2.2.7 Dự đoán trong ảnh
Dự đoán trong ảnh hoạt động theo kích thước TB, và các mẫu biên giải mã
trước đó từ những TB lân cận về mặt không gian được sử dụng để tạo ra tín hiệu dự
đoán. Dự đoán trong ảnh hỗ trợ 33 hướng khác nhau với các kích thước TB từ 4x4
đến 32x32. Các hướng dự đoán được thể hiện trong hình 1.6. Ngoài ra dự đoán mặt
phẳng và dự đoán DC cũng có thể được sử dụng. Đối với thành phần màu, chế độ dự
đoán ngang, dọc, mặt phẳng và DC có thể được báo hiệu một cách rõ ràng, hoặc chế
độ dự đoán thành phần màu được chỉ định giống các chế độ dự đoán thành phần chói.

Hình 1. 6: Các chế độ và các hướng cho dự đoán hình trong ảnh


Mỗi CB được mã hóa bằng một trong những loại mã hóa, tùy thuộc vào loại
mảng. Tương tự như H.264 / MPEG-4 AVC, mã hóa dự đoán trong ảnh được hỗ trợ
trong tất cả các loại mảng. HEVC hỗ trợ các phương pháp mã hóa dự đoán trong ảnh
khác nhau gọi là Intra_Angular, Intra_Planar, and Intra−DC.
a) Phân chia khối dự đoán
Một CB dự đoán trong ảnh có kích thước MxM có thể có một trong hai loại
phân chia PB gọi là PART_2Nx2N và PART_NxN, loại đầu tiên chỉ ra rằng các CB
không phân chia và loại thứ hai chỉ ra rằng CB được chia thành bốn PB kích thước
bằng nhau. (N = M / 2). Tuy nhiên, nó có khả năng biểu diễn các vùng tương tự mà
có thể được xác định bởi bốn PB bằng cách sử dụng bốn CB nhỏ hơn khi kích thước
của các CB hiện tại lớn hơn so với kích thước CU tối thiểu. Vì vậy, HEVC chỉ cho
21


phép kiểu phân chia PART_NxN được sử dụng khi kích thước CB hiện tại bằng với
kích thước CU tối thiểu. Điều này có nghĩa rằng kích thước PB luôn bằng với kích
thước CB khi CB được mã hóa bằng chế độ dự đoán trong ảnh và kích thước CB là
không bằng với kích thước CU tối thiểu. Dù chế độ dự đoán trong ảnh ở mức PB,
nhưng các quá trình dự đoán thực tại lại hoạt động riêng biệt cho từng TB.
b) Dự đoán Intra_Angular
Dự đoán trong ảnh miền không gian trước đây đã được sử dụng trong H.264 /MPEG-4 AVC. Dự đoán trong ảnh của HEVC hoạt động tương tự trong miền không
gian, nhưng được mở rộng đáng kể, do kích thước của TB tăng và số lượng các hướng
dự đoán tăng. So với tám hướng dự đoán của H.264/MPEG-4 AVC, HEVC hỗ trợ 33
hướng dự báo, ký hiệu là Intra_Angular[k], k là số chế độ, k=2...34. Các góc được
thiết kế để cung cấp phạm vi dày hơn cho góc gần chiều ngang và gần thẳng đứng và
phạm vi kém hơn cho góc gần đường chéo để phản ánh sự phổ biến thống kê quan sát
được các góc và tính hiệu quả của việc xử lý dự đoán tín hiệu.
Khi sử dụng một chế độ Intra_Angular, mỗi TB được dự đoán là có hướng từ
các mẫu lân cận theo không gian đã được tái tạo lại (nhưng chưa được lọc bởi bộ lọc
trong vòng) trước khi được sử dụng cho dự đoán này. Đối với một TB có kích thước

N x N, tổng 4N + 1 mẫu lân cận theo không gian được sử dụng để dự đoán. Khi hoạt
động giải mã là có trước, các mẫu từ các TB phía dưới bên trái được sử dụng để dự
đoán trong HEVC bên cạnh các mẫu từ các TB ở bên trái, phía trên, và phía trên bên
phải của TB hiện tại.
Quá trình dự đoán của chế độ Intra_Angular có thể liên quan đến mẫu ngoại
suy từ vị trí mẫu tham chiếu dự đoán theo một hướng đã cho. Để loại bỏ sự chuyển
đổi mẫu-theo-mẫu giữa các bộ đệm hàng và cột tham chiếu, cho Intra_Angular [k] với
k = 2 ...17, các mẫu nằm ở hàng trên được dự tính như mẫu bổ sung nằm ở cột bên
trái; và với k = 18...34, các mẫu ở cột bên trái được dự tính nằm cùng với các mẫu
hàng trên.
Để cải thiện tính chính xác dự đoán trong ảnh, vị trí mẫu tham chiếu dự tính
được tính toán với độ chính xác 1/32 mẫu. Phép nội suy song tuyến tính được sử dụng
để có giá trị của mẫu tham chiếu dự tính sử dụng hai mẫu tham chiếu gần nhất nằm ở
vị trí số nguyên.
22


c) Dự đoán Intra-Planar và Intra-DC
Bên cạnh dự đoán Intra_Angular nhắm tới các vùng với các biên có hướng
mạnh mẽ, HEVC hỗ trợ hai phương pháp dự đoán khác, Intra_Planar và Intra_DC, 2
chế độ tương tự được quy định trong H.264 / MPEG-4 AVC. Trong khi dự đoán
Intra_DC sử dụng giá trị trung bình của các mẫu tham chiếu cho các dự đoán, giá trị
trung bình của hai dự đoán tuyến tính sử dụng bốn mẫu tham chiếu góc được sử dụng
trong dự đoán Intra_Planar để ngăn chặn sự gián đoạn dọc theo biên khối. Các chế độ
dự đoán Intra_Planar được hỗ trợ ở tất cả các kích thước khối trong HEVC, trong khi
H.264 / MPEG-4 AVC hỗ trợ dự đoán mặt phẳng chỉ khi PB thành phần chói là 16x16,
và dự đoán mặt phẳng hoạt động hơi khác so với dự đoán mặt phẳng trong HEVC.

1.2.3 Kết luận chương
Trong chương 1, luận văn đã tìm hiểu lịch sử phát triển các chuẩn nén, sự ra

đời của chuẩn nén tiên tiến H.265/HEVC, và phân tích một số kỹ thuật mã hóa trong
chuẩn nén H.265 để thấy được các đặc điểm chung nhất và những cải tiến của chuẩn
nén mới so với chuẩn nén cũ, từ đó đem lại chất lượng mã hóa tốt hơn.
Vì vậy, luận văn cũng sẽ áp dụng chuẩn nén H.265/HEVC Intra trong mô hình
mã hóa video phân tán được đề cập chi tiết trong Chương 2.

23


CHƯƠNG 2
TỔNG QUAN VỀ MÃ HÓA VIDEO PHÂN TÁN DVC
2.1. Tổng quan về mã hóa video phân tán DVC
Lý thuyết thông tin đã chứng minh được rằng:
-

Với các nguồn độc lập thì tốc độ tối thiểu để mã và giải mã không lỗi chính
là entropy của nguồn, ví dụ 2 nguồn độc lập X và Y thì tốc độ tối thiểu mã
là: H(X), H(Y).

-

Với 2 nguồn thống kê phụ thuộc, ví dụ X và Y có tương quan thì tốc độ
tối thiểu để mã hóa mã và khôi phụ không lỗi là H(X,Y).
Vì H(X) + H(Y) ≥ H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)

(2.1)

Điều này có nghĩa là nếu khai thác được đặc tính phụ thuộc của 2 nguồn sẽ cho
phép giảm tốc độ mã hóa đến entropy liên kết.
Hai nguồn thông tin phụ thuộc (có tương quan cao) này thực tế có thể là các

khung liên tiếp của cùng 1 chuỗi video. Mã liên kết 2 khung hình video liên tiếp có thể
là mã một khung (H(X)) rồi mã tiếp dự đoán của Y dựa trên thông tin về X (H(Y|X))
như công thức (2.1).
Tuy nhiên để có H(Y|X) nhỏ nhất, cần tìm vector dự đoán có xác suất cao nhất
điều này dẫn đến việc dò tìm phức tạp trong kiểu mã hóa liên kết của kỹ thuật mã hóa
truyền thống.
X
Y
X

Rx,y

Giải mã
hóa
liên kết
liên
kết Rx ≥ H(X)
Ry ≥ H(Y)
Rx,y=Rx+Ry ≥ H(X,Y)
Hình 2. 1: Mô hình mã hóa dự đoán cổ điển

24

X’
Y

X


2.2 Định lý Slepian-Wolf

Định lý này không đổi hỏi phải trực tiếp mã liên kết theo H(X,Y) như nói ở trên
mà có thể mã 2 nguồn phụ thuộc một cách độc lập mà vẫn khai thác đặc tính phụ thuộc
tức là không làm mất mát hiệu suất nén, song vẫn phải giải mã liên kết. Điều này cho
xác suất khôi phục có lỗi tiến đến 0.
Tuy nhiên mã độc lập phải thỏa mã 3 điều kiện (bất đẳng thức) sau:
Rx + Ry ≥ H(X,Y)
Rx ≥ H(X/Y)
Ry ≥ H(Y/X)

Mã hóa
nguồn X

X

Rx

Đồng giải


Phụ thuộc
thống kê
Y

Mã hóa
nguồn Y

X’
Y’

Ry


Hình 2. 2: Sơ đồ mã nguồn phụ thuộc thống kê

Khu vực không xảy ra lỗi
Mã hóa và giải mã độc lập

Có xác suất xảy ra lỗi
Mã hóa phân phối, đồng giải mã

Hình 2. 3: Biểu đồ vùng tỉ lệ tốc độ mã giữa 2 nguồn X, Y

Việc thực hiện định lý Slepian-Wolf có thể qua kỹ thuật mã kênh:
Coi X như một phiên bản lỗi của Y (như đi qua kênh truyền). Trong mã kênh để
hiệu chỉnh lỗi giải pháp là chèn thêm các bít chẵn lẻ (Parity bits) nhằm tăng thêm khoảng
25


×