Tải bản đầy đủ (.doc) (54 trang)

Phát triển mô hình tạp âm tương quan nhằm nâng cao hiệu năng mã hóa của kỹ thuật mã hóa video phân tán DVC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (944.18 KB, 54 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNGĐẠIHỌCĐẠQUIHỐỌCCGIACÔNGHÀ NGHNỘIỆ

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ THỊ QUỲNH ANH
Vũ Thị Quỳ nh Anh

PHÁTPHÁTTRIỂNTRIỂNMÔHÌNHMÔ HÌNHTẠPÂMTẠPTƯƠNGÂMTƯƠNGQUANQUANNHẰM
NÂNGNHẰMCAONÂNGHIỆUCAONĂNGHIỆUMÃNĂNGHÓAMÃCỦAHÓAKỸCỦATHUẬTKỸ THUẬTMÃHÓA

MÃ HÓAVIDEOVIDEOPHÂNPHÂNTÁNTÁNDVCDVC
LUẬN VĂN THẠC SỸ NGÀNH ĐIỆN TỬ VIỄN THÔNG

Chuyên ngành: Kỹ thuật viễn thông

LUẬN VĂN THẠC SĨ
NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN TỬ - VIỄN THÔNG
Người hướng dẫn khoa học: TS. Hoàng Văn Xiêm

Chuyên ngành: Kỹ thuật viễn thông
TS. Đinh Triều Dương

HÀ NỘI, 2019

HÀ NỘI, 2019


LỜI CAM ĐOAN
Tôi xin cam đoan đề tài “PHÁT TRIỂN MÔ HÌNH TẠP ÂM TƯƠNG QUAN
NHẰM NÂNG CAO HIỆU NĂNG MÃ HÓA CỦA KỸ THUẬT MÃ HÓA VIDEO


PHÂN TÁN DVC” do TS. Hoàng Văn Xiêm và TS. Đinh Triều Dương hướng dẫn là
công trình nghiên cứu của tôi. Các nội dung nghiên cứu, kết quả trong luận văn này là
trung thực và không sao chép các công trình của người khác.
Tất cả các tài liệu tham khảo được sử dụng trong khóa luận này được ghi rõ nguồn
gốc và ghi tên tác giả. Nếu có sai sót, tôi xin chịu hoàn toàn trách nhiệm.
Hà Nội, ngày

tháng

năm 2019

Tác giả

Vũ Thị Quỳnh Anh

2


LỜI CẢM ƠN
Em xin bày tỏ lòng biết ơn sâu sắc đến hai thầy TS. Hoàng Văn Xiêm và TS. Đinh
Triều Dương đã tận tình hướng dẫn và hỗ trợ em hoàn thành luận văn này.
Em cũng xin cảm ơn các thầy cô giáo của khoa Điện tử Viễn thông, Trường Đại
học Công nghệ - Đại học Quốc gia Hà Nội đã giảng dạy cho em những kiến thức bổ
ích trong suốt quá trình học tập tại trường.
Cuối cùng, em xin bày tỏ lòng biết ơn vô hạn với gia đình thân yêu của mình. Cảm ơn
những người bạn thân thiết đã chăm sóc, khích lệ trong quá trình học tập nghiên cứu.

Trong quá trình thực hiện luận văn này, do kiến thức còn hạn chế, không thể tránh
khỏi những thiếu sót, em rất mong nhận được những ý kiến góp ý của các thầy cô để
em có thể tiếp tục hoàn thiện và phát triển đề tài này.


Hà Nội, tháng

năm 2019

Vũ Thị Quỳnh Anh

3


MỤC LỤC

LỜI CAM ĐOAN .......................................................................................................... 2
MỤC LỤC ...................................................................................................................... 4
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .................................................. 6
DANH MỤC HÌNH VẼ ................................................................................................. 8
DANH MỤC BẢNG BIỂU ........................................................................................... 9
PHẦN MỞ ĐẦU .......................................................................................................... 10
PHẦN NỘI DUNG ...................................................................................................... 12
CHƯƠNG 1 .................................................................................................................. 12
1.1 Đặt vấn đề ............................................................................................................ 12
1.2 Tổng quan về mã hóa video dự đoán HEVC ....................................................... 12
1.2.1 Kiến trúc tổng quát của bộ mã hóa HEVC ....................................................... 14
1.2.2 Các kỹ thuật mã hóa video HEVC ................................................................... 17
1.2.2.1 Biểu diễn lấy mẫu ảnh ............................................................................... 17
1.2.2.2 Phân chia hình ảnh thành đơn vị cây mã hóa ............................................ 17
1.2.2.3 Phân chia CTB thành CB .......................................................................... 17
1.2.2.4 Khối dự đoán (PB) và đơn vị dự đoán (PU) .............................................. 17
1.2.2.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi .... 19
1.2.2.6 Mảng (Slice) và Tile .................................................................................. 20

1.2.2.7 Dự đoán trong ảnh ..................................................................................... 21
1.2.3 Kết luận chương ............................................................................................... 23
CHƯƠNG 2 .................................................................................................................. 24
2.1. Tổng quan về mã hóa video phân tán DVC ....................................................... 24
2.2 Định lý Slepian-Wolf .......................................................................................... 25
2.3 Định lý Winer-Ziv ............................................................................................... 26
2.4 Các mô hình thực nghiệm của kỹ thuật mã hóa video phân tán .......................... 27
2.4.1 Giải pháp Stanford ........................................................................................ 27
2.4.2 Giải pháp PRISM ......................................................................................... 30
2.5 Kết luận chương .................................................................................................. 32
CHƯƠNG 3 .................................................................................................................. 33
4


3.1 Mô hình tạp âm tương quan trong mã hóa video WZ ......................................... 33
3.2 Tính toán tham số CNM miền pixel PDWZ ........................................................ 34
3.2.1 Cấu trúc bộ mã hóa WZ miền Pixel ............................................................. 34
3.2.2 Ước lượng tạp âm tương quan ở mức khung (Frame level) ......................... 36
3.2.3 Ước lượng tạp âm tương quan ở mức khối (Block level) ............................ 37
3.2.4 Ước lượng tạp âm tương quan ở mức pixel (Pixel level) ............................. 38
3.3 Tính toán tham số CNM miền biến đổi TDWZ .................................................. 39
3.3.1 Cấu trúc bộ mã hóa video WZ miền biến đổi............................................... 39
3.3.2 Ước lượng tạp âm tương quan ở mức DCT trong khung (DCT band-byframe level) ............................................................................................................ 39
3.3.3 Ước lượng tạp âm tương quan ở mức hệ số trong khối (Coefficient-by-block
level) ...................................................................................................................... 41
3.4 Kết luận chương .................................................................................................. 42
CHƯƠNG 4 .................................................................................................................. 43
4.1 Kết quả thực nghiệm ............................................................................................ 43
4.2 Đánh giá và kết luận ............................................................................................ 49
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................. 50

TÀI LIỆU THAM KHẢO ............................................................................................. 51

5


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Từ viết tắt Nghĩa tiếng Anh

Nghĩa tiếng Việt
A

AVC

Advanced Video Coding

Mã hóa video tiên tiến
B

BAC

Binary Arithmetic Coding

Mã hóa số học nhị phân
C

CABAC

Content Adaptive Binary

Mã hóa số học nhị phân thích nghi


Arithmetic Coding

theo thuộc tính

Content Adaptive Variable

Mã chiều dài thay đổi thích nghi

Length Coding

theo thuộc tính

CNM

Correlation Noise Model

Mô hình tạp âm tương quan

CPU

Central Processing Unit

Đơn vị xử lý trung tâm

CTB

Coding Tree Block

Khối cây mã hóa


CTU

Coding Tree Unit

Đơn vị cây mã hóa

CU

Coding Unit

Đơn vị mã hóa

CAVLC

D
DCT

Discrete Cosine Transform

Biến đổi Cosine rời rạc

DPB

Decoded Picture Buffer

Bộ đệm hình ảnh đã giải mã

DRAM


Dynamic Random Access

Bộ nhớ truy cập ngẫu nhiên động

Memory
DVC

Distributed Video Coding

Mã hóa video phân tán
G

GOP

Group Of Picture

Nhóm ảnh

GMC

Global Motion Compensation

Bù chuyển động toàn phần

H
HD

High Definition

Độ phân giải cao


HEVC

High Eficiency Video Coding

Mã hóa video hiệu suất cao

I
6


IDCT

MCP

Inverse Discrete Cosine
Transform

Biến đổi cosin rời rạc ngược

M
Motion Compensation Prediction Dự đoán bù chuyển động
Motion Compensated Frame

MCFI

Phép nội suy khung bằng cách bù

Interpolation


chuyển động
N

NAL

Network Abstraction Layer

Lớp trừu tượng hóa mạng
P

PB
PDWZ
PSNR

Prediction Block

Khối dự đoán

Pixel Domain Wyner Ziv

Wyner Ziv miền pixel

Peak Signal to Noise Ratio

Tỉ lệ tín hiệu đỉnh/ tạp âm
Q

QP

Quantization Parameter


Tham số lượng tử hóa
S

SI

Side Information

Thông tin phụ
T

TDWZ

Transform Domain Wyner Ziv

7

Wyner Ziv miền biến đổi


DANH MỤC HÌNH VẼ
Hình 1. 1: Minh họa sự sai khác giữa 2 khung liên tiếp trong dãy video.....................13
Hình 1. 2: Sơ đồ khối bộ mã hóa HEVC [12].............................................................. 14
Hình 1. 3: Chế độ chia tách một CB thành PBs........................................................... 18
Hình 1. 4: Chia nhỏ một CTB thành các CB............................................................... 20
Hình 1. 5: Các chế độ và các hướng cho dự đoán hình trong ảnh................................21
Hình 2. 1: Mô hình mã hóa dự đoán cổ điển................................................................ 24
Hình 2. 2: Sơ đồ mã nguồn phụ thuộc thống kê........................................................... 25
Hình 2. 3: Biểu đồ vùng tỉ lệ tốc độ mã giữa 2 nguồn X, Y......................................... 25
Hình 2. 4: Mô tả định lý Slepian – Wolf với thông tin phụ.......................................... 26

Hình 2. 5: Mã hóa mất mát thông tin với thông tin phụ ở phần giải mã......................26
Hình 2. 6: Kiến trúc bộ mã hóa DISCOVER [2]......................................................... 27
Hình 2. 7: Bộ mã hóa PRISM: (a) cấu trúc mã hóa; (b) cấu trúc giải mã....................31
Hình 3. 1: Cấu trúc bộ mã hóa PDWZ......................................................................... 34
Hình 3. 2: Biểu đồ tương đối của phần dư (WZ-SI) cho chuỗi video Foreman ở tần số
30 Hz [11].................................................................................................................... 35
Hình 3. 3: Cấu trúc bộ mã hóa video TDWZ............................................................... 39
Hình 4. 1: Khung mẫu từ các chuỗi video test: (a) Soccer (frame 1); (b) Foreman
(frame 1); (c) Coastguard (frame 1); (d) Hallmonitor (frame 1)..................................43
Hình 4. 2: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi
Foreman....................................................................................................................... 45
Hình 4. 3: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi
Soccer.......................................................................................................................... 46
Hình 4. 4: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi
Coastguard................................................................................................................... 46
Hình 4. 5: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên
Hallmonitor................................................................................................................. 47

8


DANH MỤC BẢNG BIỂU
Bảng 1. 1: Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL.......................................... 16
Bảng 4. 1: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi
Foreman....................................................................................................................... 45
Bảng 4. 2: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi
Soccer.......................................................................................................................... 46
Bảng 4. 3: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi 47
Bảng 4. 4: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi
Hallmonitor.................................................................................................................. 47

Bảng 4. 5: Bảng tổng hợp hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực
hiện trên các chuỗi test video và các giá trị QPs được thiết lập khác nhau..................48
Bảng 4. 6: Bảng tổng hợp thời gian mô phỏng quá trình mã hóa và giải mã khung WZ
thực hiện trên các chuỗi test video với các giá trị QPs khác nhau................................ 48

9


PHẦN MỞ ĐẦU

1. Lý do chọn đề tài
Hiện nay, với công nghệ phát triển, việc chia sẻ video trên mạng đã trở nên hết
sức phổ biến, nhu cầu sử dụng dữ liệu video được dự đoán sẽ tăng trưởng ngày càng
mạnh mẽ. Lưu lượng truy cập video trên thiết bị di động được dự báo sẽ tăng khoảng
50% mỗi năm cho đến năm 2022, chiếm gần 3/4 tổng lưu lượng dữ liệu di động. Ngoài
ra, việc sử dụng video nhúng trong phương tiện truyền thông xã hội và các trang web
tiếp tục phát triển, được thúc đẩy bởi màn hình thiết bị lớn hơn, độ phân giải cao hơn
và các nền tảng mới hỗ trợ phát trực tiếp. Video nhúng trong phương tiện truyền thông
xã hội và các trang web được tính là lưu lượng video. Giá trị trung bình từ các phép đo
trong một số mạng HSPA và LTE thương mại được chọn ở Châu Mỹ, Châu Á và Châu
Âu cho thấy, bất kể loại thiết bị nào, video là đóng góp lớn nhất cho lưu lượng truy
cập. Tuy nhiên, có một sự khác biệt lớn giữa các mạng.
Nhưng dữ liệu video thường là những dữ liệu có dung lượng lớn, ví dụ truyền hình
có độ phân giải cao HDTV không nén thì tốc độ lên tới 1,5Gbps, để truyền tải là rất khó.
Do vậy, các phương pháp để tăng hiệu năng nén video vẫn là vấn đề được quan tâm
nghiên cứu, phát triển. Trong các ứng dụng mã hóa video thông thường, ví dụ: phát sóng
hoặc truyền phát video, bộ giải mã video dựa trên sự mạnh mẽ bù chuyển động dựa trên
khối lai và biến đổi DCT kiến trúc chủ yếu được điều khiển bởi một-nhiều mô hình với
một bộ mã hóa phức tạp duy nhất và nhiều ánh sáng bộ giải mã. Gánh nặng phức tạp của
bộ mã hóa (đó là thông thường cao hơn 5 lần 10 lần so với bộ giải mã) liên kết với nhiệm

vụ ước tính chuyển động, chủ yếu chịu trách nhiệm về hiệu suất biến dạng tốc độ cao
(RD) đạt được. Tuy nhiên, kiến trúc này đang bị thách thức bởi một số ứng dụng mới nổi
như giám sát video không dây, mạng cảm biến đa phương tiện, camera PC không dây, và
camera điện thoại di động. Những ứng dụng này có khác nhau. yêu cầu từ những mục tiêu
của video truyền thống hơn hệ thống phân phối, ví dụ: trong các hệ thống giám sát video
không dây, bộ mã hóa chi phí thấp hoặc codec, cho phép phân bổ linh hoạt độ phức tạp
giữa bộ mã hóa và bộ giải mã rất quan trọng vì có rất nhiều bộ mã hóa và chỉ một hoặc vài
bộ giải mã. Yêu cầu đặt ra là phát triển mô hình mã hóa thế

10


nào để đơn giản phần mã hóa mà vẫn không làm tổn thất đáng kể về hiệu suất nén so
với các mô hình truyền thống. Trong nỗ lực đưa ra câu trả lời cho nhu cầu mã hóa
video đáp ứng nhu cầu thực tiễn này này, một mô hình mã hóa video mới được nghiên
cứu, đã và đang được phát triền hiện nay đó là mô hình mã hóa video phân tán DVC
(Distributed Video Coding).
2. Mục đích nghiên cứu
Luận văn tập trung tìm hiểu và nghiên cứu mô hình tạp âm tương quan và phương
pháp tính toán tham số cho mô hình này để đạt hiệu quả nén mong muốn trong mô hình
mã hóa video phân tán DVC có sử dụng mã hóa intra HEVC cho các khung chính.

3. Cấu trúc luận văn
-

Phần mở đầu

-

Phần nội dung:

o Chương 1: Giới thiệu tổng quan về mã hóa video
o Chương 2: Tổng quan về mã hóa video phân tán DVC
o Chương 3: Mô hình tạp âm tương quan CNM trong bộ mã hóa DVC
o Chương 4: Kết quả thực nghiệm và đánh giá

-

Kết luận và hướng phát triển

11


PHẦN NỘI DUNG
CHƯƠNG 1
GIỚI THIỆU TỔNG QUAN VỀ MÃ HÓA VIDEO

1.1 Đặt vấn đề
Ngày nay, công nghệ mã hóa video đã và đang được sử dụng rất phổ biến, từ các
ứng dụng truyền thống như truyền hình quảng bá, truyền hình hội nghị đến các ứng
dụng mới xuất hiện như mạng cảm biến (sensor), mạng giám sát từ xa. Trong đó, các
ứng dụng mới như mô hình mạng video giám sát giao thông, camera an ninh lắp đặt
trong các nhà hàng, bệnh viện… Những hệ thống này có đòi hỏi hoàn toàn khác so với
hệ thống truyền hình quảng bá là yêu cầu phần phát đơn giản, gọn nhẹ, rẻ tiền trong
khi phần phức tạp có thể chuyển về bộ xử lý trung tâm ở phía thu, nơi sẽ được đầu tư
thiết bị tập trung và hiện đại hơn. Do đó các chuẩn mã hóa video truyền thống sẽ
không còn phù hợp nữa.
Yêu cầu đặt ra là phát triển mô hình mã hóa thế nào để đơn giản phần mã hóa mà
vẫn không làm tổn thất đáng kể về hiệu suất nén so với các mô hình truyền thống.
Trong nỗ lực đưa ra câu trả lời cho nhu cầu mã hóa video đáp ứng nhu cầu thực tiễn
này này, một mô hình mã hóa video mới được nghiên cứu, đã và đang được phát triền

hiện nay đó là mô hình mã hóa video phân tán DVC (Distributed Video Coding).
1.2 Tổng quan về mã hóa video dự đoán HEVC
Video là một chuỗi các bức ảnh liên tiếp cùng mô tả một nội dung và chứa đựng
một thông tin, câu chuyện xuyên suốt nào đó. Do vậy, giữa các bức ảnh liên tiếp trong
video luôn tồn tại các mối tương quan lớn như được mô tả ở hình 1.1.

12


Hình 1. 1: Minh họa sự sai khác giữa 2 khung liên tiếp trong dãy video

Nhìn vào 2 khung hình trên (trong chuỗi khung liên tiếp của video), ta có thể thấy
sự khác biệt căn bản nẳm ở vị trí ô tô, do chuyển động, nên:
Khi mã hóa hiệu 2 khung hình (theo pixel tương ứng) thì chỉ cần dùng một lượng
bít ít hơn so với việc mã hóa toàn bộ thông tin trong ảnh thực tế.
Nếu có cách dự đoán khung 2 từ khung 1 để có sự sai khác giữa khung 2 và khung
dự đoán thì mã hóa còn có thể tốn ít bít mã hơn. Điều này là khả thi nếu có kỹ thuật dự
đoán tốt. Tuy nhiên giá phải trả cho dự đoán tốt, như sẽ nói ở mục sau chính là sự gia
tăng độ phức tạp tính toán tại phía mã hóa.
Lịch sử phát triển các chuẩn nén:

H.261

H.263

(1990)

(1996)

H.263+

(1998)

ITU-T
VCEG

H.263++
(2000)

MPEG-2

H.264

(H.262)

(AVC)

(1995)

(2004)

SVC

HEVC

(H.264-G)

(H.265)

(2007)


(2013)

MPEG-4 v1
MPEG-1
(1993)

(1999)

MPEG-4 v2
(2000)

ISO/IEC
MPEG

MPEG-4 v3
(2001)

Hình 1. 2: Lịch sử phát triển các chuẩn nén

13


1.2.1 Kiến trúc tổng quát của bộ mã hóa HEVC
Các thành phần chính:
-

Cấu trúc đơn vị mã hóa: Một trong những đặc trưng khác biệt nhất của
chuẩn H.265/HEVC so với các chuẩn trước đó như H.264/AVC hoặc
MPEG-4/Video chính là chác cấu trúc lại các đơn vị mã hóa. Trong
chuẩn H.264/AVC, đơn vị mã hóa cơ bản là các khối lớn (Macroblock)

với kích cỡ tối đa là 16×16. Trong khi đó, chuẩn H.265/HEVC chia các
khối mã hóa theo cấu trúc cây (coding tree block) với kích cỡ đa dạng
hơn từ 4×4 tới 64×64. Cấu trúc này đảm bảo hiệu quả nén tốt hơn so với
chuẩn H.264/AVC khi các video với kích cỡ lớn như HD, 2K hay 4K
được sử dụng.
Điều khiển mã hóa
Mã hóa tứ phân với
Khối mã hóa CB

Phần dư với khối biến
đổi TB
Biến đổi, chia tỷ lệ và lượng

Mã hóa

tử hóa

Entropy
CABAC

010110...

Bộ giải mã

Chia tỷ lệ và biến đổi ngược
Chia thành các khối
cây mã hóa CTB

Dự đoán trong ảnh
Lọc in-loop

Tín hiệu
Tín hiệu video đầu vào

Các khối

video đầu ra

Dự đoán liên ảnh

dự đoán
Ước lượng chuyển động

Bộ đệm hình ảnh đã mã hóa

Hình 1. 3: Sơ đồ khối bộ mã hóa HEVC [12]
-

Cấu trúc đơn vị dự đoán và đơn vị biến đổi: Mỗi đơn vị khối mô tả ở phía
trên được phân chia thành hai cấu trúc tương ứng với hai thành phần chính
của chuẩn mã hóa H.265/HEVC; đó là cấu trúc đơn vị dự đoán và cấu trúc
đơn vị biến đổi. Đơn vị dự đoán (coding unit) cho phép khối mã hóa có

14


kích cỡ nhỏ nhất là 8×8 đối với thành phần xám (luma) và 4×4 với thành
phần màu (chroma). Trong khi đó, đơn vị biến đổi cô sin rời rạc có kích
cỡ đa dạng hơn bao gồm 4×4, 8×8, 16×16, 32×32.
-


Phương pháp dự đoán chuyển động nối vùng (merge mode): Đây là một
phương pháp dự đoán mới xuất hiện trong chuẩn H.265/HEVC. Phương
pháp này kế thừa có hiệu quả phương pháp dự đoán bỏ qua và dự đoán
trực tiếp trong chuẩn H.264/AVC mô tả ở trên. Trong đó có 2 sự khác
biệt chính là việc gửi thông tin về véc tơ chuyển động được lựa chọn và
thông tin về khung tham khảo được sử dụng

-

Dự đoán ảnh trong khung: H.265/HEVC hỗ trợ tới 35 mode dự đoán (so
với 9 mode trong H.264/AVC). Ngoài ra, khối dự đoán trong khung có
thể được tạo ra với hai loại khối, N×N và 2N×2N.

-

Dự đoán ảnh liên khung: Dự đoán ảnh liên khung trong chuẩn
H.265/HEVC cũng cho phép hỗ trợ dự đoán véc tơ chuyển động với độ
chính xác lên tới ¼ điểm ảnh (sub-pel). Các giá trị tại vị trí sub-pel được nội
suy dựa trên hai bô lọc với 7 hoặc 8 tham số cấu hình. Các khối hình sử
dụng trong dự đoán ảnh liên khung cũng đa dạng, có thể đối xứng hoặc
không đối xứng, ví dụ: 2N×2N, 2N×N, N×2N, N×N, 2N×nD, nL×2N.

-

Bù chuyển động: Cụ thể, ảnh được chia thành các CTU, mỗi CTU bao gồm
các CTB chói và các CTB màu . Một CTB có kích thước là LxL ( L= 16,
32, hoặc 64), trong đó các kích thước lớn hơn cho phép nén tốt hơn.

HEVC hỗ trợ việc phân chia các CTB thành các khối nhỏ hơn sử dụng
cấu trúc cây và tín hiệu hóa cây tứ phân.

-

Mã hóa Entropy: Khác với H.264/AVC, chuẩn H.265/HEVC chỉ cho
phép người dùng sử dụng mã CABAC; mục đích là tăng tối đa hiệu quả
nén chuẩn H.265/HEVC.

-

Bộ lọc giảm nhiễu khối: Một chút thay đổi, nâng cấp được đề xuất để
giảm nhiễu khối trong chuẩn H.265/HEVC.

-

Bộ lọc giảm nhiễu vòng: Đây là thành phần mới trong chuẩn H.265/HEVC
so với các chuẩn trước kia như H.264/AVC, MPEG 2,4,… Mục đích chính
là giảm nhiễu vòng xuất hiện trong mộ số khung hình xuất hiện do việc loại
bỏ thành phân tần số cao ở khối lượng tử tuyến tính.

15


-

Cú pháp mức-cao của HEVC chứa nhiều yếu tố thừa hưởng từ NAL của
H.264 / MPEG-4 AVC. NAL cung cấp khả năng ánh xạ dữ liệu lớp mã hóa
video (VCL) mà nó thể hiện nội dung của các ảnh lên các lớp vận chuyển
khác nhau, bao gồm các hệ thống RTP / IP, ISO MP4, và H.222.0

/ MPEG-2, và cung cấp một khuôn khổ cho khả năng phục hồi mất mát
dữ liệu. Đối với các khái niệm chung của thiết kế NAL như các đơn vị

NAL, các bộ tham số, các đơn vị truy cập, định dạng dòng byte, và việc
định dạng đóng gói.[10]
Các đơn vị NAL được phân loại thành các đơn vị VCL NAL và khôngVCL NAL tương ứng với việc chúng có chứa ảnh được mã hóa hoặc dữ
liệu có liên quan. Trong chuẩn HEVC, một số loại đơn vị VLC NAL xác
định các loại ảnh cho mục đích khởi tạo bộ giải mã và truy cập ngẫu
nhiên. Bảng 1.1 liệt kê các loại đơn vị NAL và ý nghĩa liên quan và các
lớp kiểu trong chuẩn HEVC.
Bảng 1. 1: Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL

Kiểu

Ý nghĩa

Lớp

0, 1

VCL

2, 3
4, 5
6, 7
8, 9
10-15

Phân đoạn mảng của ảnh kế tiếp thông
thường
Phân đoạn mảng của ảnh TSA
Phân đoạn mảng của ảnh STSA
Phân đoạn mảng của ảnh RADL

Phân đoạn mảng của ảnh RASL
Dữ trữ cho tương lai

16-18
19, 20

Phân đoạn mảng của ảnh BLA
Phân đoạn mảng của ảnh IDR

VCL
VCL

21

Phân đoạn mảng của ảnh CRA

VCL

22-31
32
33
34

Dữ trữ cho tương lai
Bộ tham số video (VPS)
Bộ tham số trình tự (SPS)
Bộ tham số ảnh (PPS)

VCL
non-VCL

non-VCL
non-VCL

35
36

Dấu phân cách đơn vị truy cập
Cuối của trình tự

non-VCL
non-VCL

37
38

Cuối của dòng bit
Dữ liệu đệm

non-VCL
non-VCL

16

VCL
VCL
VCL
VCL
VCL



39, 40

SEI messages

non-VCL

41-47
48-63

Dữ trự cho tương lai
Không xác định (có thể sử dụng hệ thống)

non-VCL
non-VCL

1.2.2 Các kỹ thuật mã hóa video HEVC
1.2.2.1 Biểu diễn lấy mẫu ảnh
Để biểu diễn các tín hiệu video màu , HEVC sử dụng một không gian 3 màu
cơ bản YCbCr với lấy mẫu 4: 2: 0. Các ảnh video lấy mẫu tăng lên với kích thước
ảnh hình chữ nhật WxH, trong đó W là chiều rộng và H là chiều cao của ảnh theo
quan điểm lấy mẫu chói, còn với lấy mẫu màu 4: 2: 0 sẽ là W/2xH /2.
1.2.2.2 Phân chia hình ảnh thành đơn vị cây mã hóa
Một ảnh được phân chia thành các đơn vị mã hóa cây (CTU), mỗi CTU chứa
các khối cây mã hóa (CTB) chói và CTB màu. Một CTB chói lấy mẫu LxL cho các
thành phần chói và lấy mẫu L /2 x L/2 cho mỗi một trong hai thành phần màu. L=16,
32, hoặc 64 được xác định bởi một yếu tố cú pháp mã hóa được quy định trong SPS.
1.2.2.3 Phân chia CTB thành CB
Các khối CTB chói và màu có thể được sử dụng trực tiếp như các khối mã
hóa (CB) hoặc có thể phân chia tiếp thành nhiều CB. Việc phân chia được thực hiện
bằng cách sử dụng cấu trúc cây. Việc phân chia cấu trúc cây trong HEVC thường

được áp dụng đồng thời cho cả khối chói và màu, mặc dù các ngoại lệ áp dụng khi
tiến tới kích thước tối thiểu nhất định.
CTU chứa cú pháp cây tứ phân cho phép chia các CB đến một kích thước phù
hợp dựa trên các đặc điểm tín hiệu của vùng mà nó được bao phủ bởi các CTB. Quá
trình chia tách cây tứ phân có thể được lặp đến khi một CB chói đạt đến một kích
thước tối thiểu cho phép. Kích thước này được chọn bởi bộ mã hóa sử dụng cú pháp
trong SPS và luôn là 8x8 hoặc lớn hơn.
1.2.2.4 Khối dự đoán (PB) và đơn vị dự đoán (PU)
Chế độ dự đoán cho CU là được báo hiệu là trong ảnh hay liên ảnh, tùy vào
việc nó sử dụng dự đoán trong ảnh (theo không gian) hoặc dự đoán liên ảnh (theo
thời gian).
17


Khi chế độ dự đoán được báo hiệu là trong ảnh, kích thước PB là kích thước
khối tại nơi dự đoán trong ảnh được tạo sẵn có cùng kích thước với CB cho tất cả
các kích thước khối ngoại trừ kích thước CB nhỏ nhất. Đối với các trường hợp sau
đó, một cờ xuất hiện cho biết CB được chia thành bốn phần PB mà mỗi phần đều có
dự đoán trong ảnh riêng. Lý do của việc cho phép chia tách này là tạo khả năng lựa
chọn dự đoán trong ảnh cho các khối nhỏ 4x 4. Khi dự đoán trong ảnh thành phần
chói hoạt động với các khối 4x4, dự đoán trong ảnh thành phần màu cũng sử dụng
các khối 4x4 (4 khối thành phần chói 4x 4). Kích thước vùng hiện tại có dự đoán
trong ảnh ( nó là khác so với kích thước PB có dự đoán trong ảnh được tạo sẵn) phụ
thuộc vào việc phân chia mã hóa dư thừa được mô tả như sau.

MxM

M/2xM

MxM/2


M/2xM/2

M/4xM (L)

M/4xM (R)

MxM/4 (U)

MxM/4 (D)

Hình 1. 4: Chế độ chia tách một CB thành PBs

Khi dự đoán là liên ảnh, nó xác định liệu các CB thành phần chói và màu
được chia thành một, hai hoặc bốn PB. Việc chia thành bốn PB chỉ được phép khi
kích thước CB bằng với kích thước CB cho phép tối thiểu. Khi một CB được chia
thành bốn PB, mỗi PB là một góc phần tư của CB và khi một CB được chia thành
hai PB, sẽ có 6 kiểu chia tách. Các khả năng phân chia cho CB dự đoán liên ảnh
được mô tả trong hình 1.4.
Bốn loại phân chia cao hơn minh họa cho trường hợp chia tách CB thành kích
thước Mx M, chia tách CB thành hai PB kích thước Mx M/2 hoặc M/2xM hoặc chia
tách nó thành bốn PB có kích thước M/2xM/2. 4 loại phân chia thấp hơn được gọi là
phân chia chuyển động bất đối xứng (AMP - asymmetric motion partitioning ), và chỉ
được phép khi M ≥ 16, đối với thành phần chói. Một PB của phân chia bất đối xứng

18


có chiều cao hoặc chiều rộng là M/4 và chiều rộng hoặc chiều cao là M và các PB
khác lấp đầy phần còn lại của CB bởi một chiều cao hoặc chiều rộng của 3M/4 và

chiều rộng hoặc chiều cao M. Mỗi PB dự đoán liên ảnh được gán một hoặc hai vectơ
chuyển động và các chỉ số ảnh tham chiếu. Để tối thiểu băng thông bộ nhớ trường
hợp xấu nhất, các PB của thành phần chói 4x4 là không được phép cho dự đoán liên
ảnh, và các PB của thành phần chói 4x8 và 8x4 được giới hạn cho mã hóa dự đoán
đơn. Các PB thành phần chói và màu kết hợp với cú pháp dự đoán tạo thành PU.
1.2.2.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi
Đối với mã hóa dư thừa, một CB có thể được phân vùng 1 cách đệ quy thành
các khối biến đổi (TB). Việc phân chia được báo hiệu bằng một cây tứ phân dư thừa.
Phân chia CB và TB, nơi mà một khối có thể được chia 1 cách đệ quy thành các
góc phần tư, như minh họa trong hình 1.5. Đối với một CB thành phần chói MxM, một
cờ báo hiệu có được chia thành bốn khối có kích thước M/2xM/2 không. Độ sâu tối đa
của cây tứ phân dư thừa trong SPS sẽ báo hiệu cho việc có chia tách thêm nữa không.
Mỗi góc phần tư có một cờ chỉ định việc nó có được chia thành bốn góc phần tư không.
Các khối nút lá từ cây tứ phân dư thừa là các khối biến đổi được xử lý tiếp bằng mã hóa
biến đổi. Các bộ mã hóa chỉ ra kích thước TB thành phần chói tối thiểu và tối đa mà nó
sẽ sử dụng. Việc chia tách là ngầm mặc định khi kích thước CB lớn hơn so với kích
thước TB tối đa. Và việc không chia tách là ngầm mặc định khi chia tách sẽ cho kết quả
là kích thước TB thành phần chói nhỏ hơn kích thước tối thiểu. Kích thước TB thành
phần màu bằng một nửa kích thước TB thành phần chói ở mỗi chiều, ngoại trừ trường
hơp kích thước TB chói là 4x4, trong đó trường hợp đó, một TB màu 4x4 duy nhất được
bao phủ bởi bốn TB chói 4x4. Trong trường hợp các CU dự đoán trong ảnh, các mẫu
được giải mã của các TB lân cận gần nhất(trong hoặc ngoài CB) được sử dụng như là
dữ liệu tham chiếu cho dự đoán trong ảnh.

19


b)

a)


Hình 1. 5: Chia nhỏ một CTB thành các CB
(a) Phân chia CTB. (b) Cây tứ phân tương ứng
Đường liền chỉ ra các biên CB và đường chấm là biên TB.

1.2.2.6 Mảng (Slice) và Tile
Mảng là một chuỗi các CTU được xử lý theo thứ tự của quét mành. Một ảnh
được chia thành một hoặc một vài mảng như vì thế một ảnh là một tập hợp của một
hoặc nhiều mảng. Mỗi mảng có thể được mã hóa sử dụng các loại mã hóa khác nhau
như sau.
Mảng I: tất cả CU của mảng được mã hóa chỉ sử dụng dự đoán trong ảnh.
Mảng P: Ngoài các loại mã hóa của mảng I, một số CU của mảng P cũng có thể
được mã hóa bằng dự đoán liên ảnh với nhiều nhất một tín hiệu dự đoán bù chuyển
động cho mỗi PB ( dự đoán đơn). Mảng P chỉ sử dụng danh sách 0 ảnh tham chiếu.

Mảng B: Bên cạnh các loại mã hóa có sẵn trong một mảng P, một số CU của
mảng B cũng có thể được mã hóa bằng dự đoán liên ảnh với nhiều nhất hai tín hiệu
dự đoán bù chuyển động cho mỗi PB (dự đoán đôi ). Mảng B sử dụng cả hai danh
sách 0 và 1 ảnh tham chiếu.
Mục đích chính của các mảng là đồng bộ lại sau khi dữ liệu mất. Hơn nữa,
các mảng thường được hạn chế để sử dụng số bit tối đa. Vì vậy, các mảng thường có
thể chứa số CTU thay đổi mức độ cao/mảng.
Tile là các vùng hình chữ nhật của ảnh có khả năng giải mã độc lập. Mục đích
chính của tile là cho phép sử dụng các kiến trúc xử lý song song đối với mã hóa và
giải mã. Nhiều tile có thể chia sẻ thông tin tiêu đề được chứa trong cùng mảng.

20


1.2.2.7 Dự đoán trong ảnh

Dự đoán trong ảnh hoạt động theo kích thước TB, và các mẫu biên giải mã trước
đó từ những TB lân cận về mặt không gian được sử dụng để tạo ra tín hiệu dự đoán. Dự
đoán trong ảnh hỗ trợ 33 hướng khác nhau với các kích thước TB từ 4x4 đến 32x32.
Các hướng dự đoán được thể hiện trong hình 1.6. Ngoài ra dự đoán mặt phẳng và dự
đoán DC cũng có thể được sử dụng. Đối với thành phần màu, chế độ dự đoán ngang,
dọc, mặt phẳng và DC có thể được báo hiệu một cách rõ ràng, hoặc chế độ dự đoán
thành phần màu được chỉ định giống các chế độ dự đoán thành phần chói.

Hình 1. 6: Các chế độ và các hướng cho dự đoán hình trong ảnh

Mỗi CB được mã hóa bằng một trong những loại mã hóa, tùy thuộc vào loại
mảng. Tương tự như H.264 / MPEG-4 AVC, mã hóa dự đoán trong ảnh được hỗ trợ
trong tất cả các loại mảng. HEVC hỗ trợ các phương pháp mã hóa dự đoán trong ảnh
khác nhau gọi là Intra_Angular, Intra_Planar, and Intra−DC.
a) Phân chia khối dự đoán
Một CB dự đoán trong ảnh có kích thước MxM có thể có một trong hai loại
phân chia PB gọi là PART_2Nx2N và PART_NxN, loại đầu tiên chỉ ra rằng các CB
không phân chia và loại thứ hai chỉ ra rằng CB được chia thành bốn PB kích thước
bằng nhau. (N = M / 2). Tuy nhiên, nó có khả năng biểu diễn các vùng tương tự mà
có thể được xác định bởi bốn PB bằng cách sử dụng bốn CB nhỏ hơn khi kích thước
của các CB hiện tại lớn hơn so với kích thước CU tối thiểu. Vì vậy, HEVC chỉ cho
21


phép kiểu phân chia PART_NxN được sử dụng khi kích thước CB hiện tại bằng với
kích thước CU tối thiểu. Điều này có nghĩa rằng kích thước PB luôn bằng với kích
thước CB khi CB được mã hóa bằng chế độ dự đoán trong ảnh và kích thước CB là
không bằng với kích thước CU tối thiểu. Dù chế độ dự đoán trong ảnh ở mức PB,
nhưng các quá trình dự đoán thực tại lại hoạt động riêng biệt cho từng TB.
b) Dự đoán Intra_Angular

Dự đoán trong ảnh miền không gian trước đây đã được sử dụng trong H.264 /MPEG-4 AVC. Dự đoán trong ảnh của HEVC hoạt động tương tự trong miền không
gian, nhưng được mở rộng đáng kể, do kích thước của TB tăng và số lượng các
hướng dự đoán tăng. So với tám hướng dự đoán của H.264/MPEG-4 AVC, HEVC
hỗ trợ 33 hướng dự báo, ký hiệu là Intra_Angular[k], k là số chế độ, k=2...34. Các
góc được thiết kế để cung cấp phạm vi dày hơn cho góc gần chiều ngang và gần
thẳng đứng và phạm vi kém hơn cho góc gần đường chéo để phản ánh sự phổ biến
thống kê quan sát được các góc và tính hiệu quả của việc xử lý dự đoán tín hiệu.
Khi sử dụng một chế độ Intra_Angular, mỗi TB được dự đoán là có hướng từ
các mẫu lân cận theo không gian đã được tái tạo lại (nhưng chưa được lọc bởi bộ lọc
trong vòng) trước khi được sử dụng cho dự đoán này. Đối với một TB có kích thước
N x N, tổng 4N + 1 mẫu lân cận theo không gian được sử dụng để dự đoán. Khi hoạt
động giải mã là có trước, các mẫu từ các TB phía dưới bên trái được sử dụng để dự
đoán trong HEVC bên cạnh các mẫu từ các TB ở bên trái, phía trên, và phía trên bên
phải của TB hiện tại.
Quá trình dự đoán của chế độ Intra_Angular có thể liên quan đến mẫu ngoại suy
từ vị trí mẫu tham chiếu dự đoán theo một hướng đã cho. Để loại bỏ sự chuyển đổi mẫutheo-mẫu giữa các bộ đệm hàng và cột tham chiếu, cho Intra_Angular [k] với

k = 2 ...17, các mẫu nằm ở hàng trên được dự tính như mẫu bổ sung nằm ở cột bên
trái; và với k = 18...34, các mẫu ở cột bên trái được dự tính nằm cùng với các mẫu
hàng trên.
Để cải thiện tính chính xác dự đoán trong ảnh, vị trí mẫu tham chiếu dự tính
được tính toán với độ chính xác 1/32 mẫu. Phép nội suy song tuyến tính được sử
dụng để có giá trị của mẫu tham chiếu dự tính sử dụng hai mẫu tham chiếu gần nhất
nằm ở vị trí số nguyên.
22


c) Dự đoán Intra-Planar và Intra-DC
Bên cạnh dự đoán Intra_Angular nhắm tới các vùng với các biên có hướng mạnh
mẽ, HEVC hỗ trợ hai phương pháp dự đoán khác, Intra_Planar và Intra_DC, 2 chế độ

tương tự được quy định trong H.264 / MPEG-4 AVC. Trong khi dự đoán Intra_DC sử
dụng giá trị trung bình của các mẫu tham chiếu cho các dự đoán, giá trị trung bình của
hai dự đoán tuyến tính sử dụng bốn mẫu tham chiếu góc được sử dụng trong dự đoán
Intra_Planar để ngăn chặn sự gián đoạn dọc theo biên khối. Các chế độ dự đoán
Intra_Planar được hỗ trợ ở tất cả các kích thước khối trong HEVC, trong khi H.264 /
MPEG-4 AVC hỗ trợ dự đoán mặt phẳng chỉ khi PB thành phần chói là 16x16, và dự
đoán mặt phẳng hoạt động hơi khác so với dự đoán mặt phẳng trong HEVC.

1.2.3 Kết luận chương
Trong chương 1, luận văn đã tìm hiểu lịch sử phát triển các chuẩn nén, sự ra
đời của chuẩn nén tiên tiến H.265/HEVC, và phân tích một số kỹ thuật mã hóa trong
chuẩn nén H.265 để thấy được các đặc điểm chung nhất và những cải tiến của chuẩn
nén mới so với chuẩn nén cũ, từ đó đem lại chất lượng mã hóa tốt hơn.
Vì vậy, luận văn cũng sẽ áp dụng chuẩn nén H.265/HEVC Intra trong mô
hình mã hóa video phân tán được đề cập chi tiết trong Chương 2.

23


CHƯƠNG 2
TỔNG QUAN VỀ MÃ HÓA VIDEO PHÂN TÁN DVC
2.1. Tổng quan về mã hóa video phân tán DVC
Lý thuyết thông tin đã chứng minh được rằng:
-

Với các nguồn độc lập thì tốc độ tối thiểu để mã và giải mã không lỗi
chính là entropy của nguồn, ví dụ 2 nguồn độc lập X và Y thì tốc độ tối
thiểu mã là: H(X), H(Y).

-


Với 2 nguồn thống kê phụ thuộc, ví dụ X và Y có tương quan thì tốc độ
tối thiểu để mã hóa mã và khôi phụ không lỗi là H(X,Y).
Vì H(X) + H(Y) ≥ H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)

(2.1)

Điều này có nghĩa là nếu khai thác được đặc tính phụ thuộc của 2 nguồn sẽ cho
phép giảm tốc độ mã hóa đến entropy liên kết.
Hai nguồn thông tin phụ thuộc (có tương quan cao) này thực tế có thể là các
khung liên tiếp của cùng 1 chuỗi video. Mã liên kết 2 khung hình video liên tiếp có thể
là mã một khung (H(X)) rồi mã tiếp dự đoán của Y dựa trên thông tin về X (H(Y|X))
như công thức (2.1).
Tuy nhiên để có H(Y|X) nhỏ nhất, cần tìm vector dự đoán có xác suất cao nhất
điều này dẫn đến việc dò tìm phức tạp trong kiểu mã hóa liên kết của kỹ thuật mã hóa
truyền thống.
X
Y


hóa

Rx,y
Rx ≥ H(X)

Giải mã
liên kết
Ry ≥ H(Y)

Rx,y=Rx+Ry ≥ H(X,Y)

Hình 2. 1: Mô hình mã hóa dự đoán cổ điển

24

X’
Y


2.2 Định lý Slepian-Wolf
Định lý này không đổi hỏi phải trực tiếp mã liên kết theo H(X,Y) như nói ở trên
mà có thể mã 2 nguồn phụ thuộc một cách độc lập mà vẫn khai thác đặc tính phụ thuộc
tức là không làm mất mát hiệu suất nén, song vẫn phải giải mã liên kết. Điều này cho
xác suất khôi phục có lỗi tiến đến 0.
Tuy nhiên mã độc lập phải thỏa mã 3 điều kiện (bất đẳng thức) sau:
Rx + Ry ≥ H(X,Y)
Rx ≥ H(X/Y)
Ry ≥ H(Y/X)

X

Mã hóa
nguồn X

Rx

Phụ thuộc
thống kê
Y

Đồng giải


Mã hóa
nguồn Y

X’
Y’

Ry

Hình 2. 2: Sơ đồ mã nguồn phụ thuộc thống kê

Khu vực không xảy ra lỗi
Mã hóa và giải mã độc lập

Có xác suất xảy ra lỗi
Mã hóa phân phối, đồng giải mã

Hình 2. 3: Biểu đồ vùng tỉ lệ tốc độ mã giữa 2 nguồn X, Y

Việc thực hiện định lý Slepian-Wolf có thể qua kỹ thuật mã kênh:
Coi X như một phiên bản lỗi của Y (như đi qua kênh truyền). Trong mã kênh để
hiệu chỉnh lỗi giải pháp là chèn thêm các bít chẵn lẻ (Parity bits) nhằm tăng thêm khoảng

25


×