Tải bản đầy đủ (.pdf) (49 trang)

Kỹ thuật mã hóa video phân tán DVC và ứng dụng kỹ thuật DVC trong mạng cảm biến hình ảnh không dây

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.44 MB, 49 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Anh Tuấn

KỸ THUẬT MÃ HÓA VIDEO PHÂN TÁN DVC VÀ ỨNG
DỤNG KỸ THUẬT DVC TRONG MẠNG CẢM BIẾN HÌNH
ẢNH KHÔNG DÂY

LUẬN VĂN THẠC SỸ
NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN TỬ - VIỄN THÔNG
Chuyên ngành: Kỹ thuật viễn thông

HÀ NỘI, 2019


LỜI CAM ĐOAN

Tôi xin cam đoan số liệu và kết quả nghiên cứu trong luận văn này là trung thực
và chƣa hề đƣợc sử dụng để bảo vệ học vị nào. Mọi sự giúp đỡ trong luận văn này đã
đƣợc cảm ơn và các thông tin trích dẫn trong luận văn đã đƣợc chỉ rõ nguồn gốc rõ
ràng và đƣợc phép công bố.

Hà Nội, ngày … tháng … năm 2019
Ngƣời thực hiện

Nguyễn Anh Tuấn

1



LỜI CẢM ƠN

Đƣợc sự phân công của Khoa Điện tử viễn thông, trƣờng Đại học Công nghệ,
dƣới sự hƣớng dẫn của TS Hoàng Văn Xiêm và TS Đinh triều Dƣơng, tôi đã hoàn
thành luận văn.
Để hoàn thành luận văn này tôi xin cảm ơn các Thầy cô trong Khoa Điện tử
viễn thông, trƣờng Đại học Công nghệ đã nhiệt tình dạy dỗ, cung cấp phƣơng pháp,
kiến thức trong suốt thời gian học tập. Tôi xin chân thành cảm ơn tới hai thầy giáo TS
Hoàng Văn Xiêm, TS Đinh triều Dƣơng và Ths Phí Công Huy đã tận tình hƣớng dẫn
và chỉ bảo tôi rất nhiều cả về kiến thức cũng nhƣ phƣơng pháp làm việc trong quá trình
thực hiện và hoàn thành luận văn.
Mặc dù đã cố gắng và tích cực trong việc thực hiện luận văn nhƣng không thể
tránh đƣợc những sai sót nhất định, tôi rất mong nhận đƣợc sự đóng góp của các Thầy
cô và các bạn đồng nghiệp để hoàn chỉnh luận văn và có hƣớng phát triển hơn nữa. Tôi
xin chân thành cảm ơn.

2


MỤC LỤC
CÁC THUẬT NGỮ VIẾT TẮT................................................................................................. 4
DANH MỤC BẢNG .................................................................................................................. 6
DANH MỤC SƠ ĐỒ, HÌNH VẼ ............................................................................................... 7
LỜI MỞ ĐẦU ............................................................................................................................ 8
1. Lý do lựa chọn đề tài .......................................................................................................... 8
2. Mục đích nghiên cứu ........................................................................................................ 10
3. Đối tƣợng nghiên cứu ....................................................................................................... 10
4. Phạm vi và phƣơng pháp nghiên cứu ............................................................................... 10
5. Cấu trúc luận văn .............................................................................................................. 10
CHƢƠNG I. TỔNG QUAN VỀ MÃ HÓA VIDEO DỰ ĐOÁN HEVC VÀ MÃ HÓA PHÂN

TÁN DVC ................................................................................................................................ 12
1.1. Giới thiệu chung ............................................................................................................ 12
1.2. Mã hóa video dự đoán chuẩn HEVC ............................................................................. 13
1.2.1. Sơ đồ cấu trúc ......................................................................................................... 13
1.2.2. Mã hóa trong khung (Intra coding) ........................................................................ 16
1.2.3. Mã hóa liên khung (Inter coding) ........................................................................... 17
1.2.4. Phép biến đổi cosin rời rạc (DCT) và phép lƣợng tử ............................................. 17
1.2.5. Mã hóa entropy ....................................................................................................... 18
1.2.6. Bộ lọc khối và bù thích ứng mẫu SAO ................................................................... 20
1.3. Mã hóa video phân tán (DVC – Distributed Video Coding) ......................................... 20
1.3.1. Định lý Slepian-Wolf và định lý Wyner-Ziv .......................................................... 20
1.3.2. Kiến trúc mã hóa video phân tán DISCOVER ....................................................... 22
1.4. Kết luận chƣơng ............................................................................................................ 23
CHƢƠNG II. XÂY DỰNG MÔ HÌNH MÃ HÓA VIDEO TIÊN TIẾN THẾ HỆ MỚI TRÊN
NỀN CHUẨN H.265/HEVC .................................................................................................... 25
2.1. Kiến trúc mã hóa video phân tán với bộ mã hóa H.265/HEVC .................................... 25
2.2. Tạo thông tin phụ ........................................................................................................... 27
2.3. Ứng dụng DVC trong mạng cảm biến hình ảnh không dây .......................................... 33
2.4. Kết luận chƣơng ............................................................................................................ 34
CHƢƠNG III. MÔ PHỎNG VÀ ĐÁNH GIÁ ......................................................................... 36
3.1. Điều kiện đánh giá ......................................................................................................... 36
3.2. Đánh giá chất lƣợng key frames .................................................................................... 39
3.3. Đánh giá hiệu năng mã hóa mô hình DVC-HEVC ....................................................... 43
3.4. Kết luận chƣơng ............................................................................................................ 45
KẾT LUẬN .............................................................................................................................. 46
TÀI LIỆU THAM KHẢO ........................................................................................................ 47
3


CÁC THUẬT NGỮ VIẾT TẮT


Từ viết tắt
A

AVC

B

BCH

CABAC
CB
C

D
G

CNM

Nghĩa Tiếng Việt

Advance Video Coding

Mã hóa video mở rộng

Bose Chaudhuri

Mã Bose Chaudhuri

Hocquenghem


Hocquenghem

Content Adaptive Binary

Mã hóa số học nhị phân

Arithmetic Coding

thích ứng ngữ cảnh

Coding Block

Khối mã hóa

Correlated Noise
Modeling

Mô hình nhiễu tƣơng quan

CTB

Coding Tree Block

Khối cây mã hóa

CTU

Coding Tree Unit


Đơn vị cây mã hoá

CU

Coding Unit

Đơn vị mã hóa

DCT

Discrete Cosine Transform

Biến đổi Cosin rời rạc

DVC

Distributed Video Coding

Mã hóa video phân tán

GOP

Group of Picture

Nhóm ảnh

HDR

High dynamic range


Dải động cao

HEVC
H

Nghĩa tiếng Anh

High Efficiency Video
Coding

HFR

High frame rate

HVC

Hybrid Video Coding

Mã hóa video hiệu quả cao
Tốc độ khung hình cao
Khung mã hóa video kết
hợp

Inverse Discrete Cosine

Biến đổi cosin rời rạc

Transform

ngƣợc


Joint Photographic Experts

Chuẩn nén ảnh của ủy ban

Group

quốc tế

I

IDCT

J

JPEG

L

LDPC

Low-density parity-check

M

MC

Motion Compensation
4


Mã kiểm tra chẵn lẻ mật độ
thấp
Bù chuyển động


MCTI
ME
MPEG

P

Q
S

T

Motion Compensation

Nội suy tạm thời bù chuyển

Temporal

động

Motion Estimation

Ƣớc lƣợng chuyển động

Moving Picture Experts


Nhóm các chuyên gia hình

Group

ảnh động
Giá trị trung bình bình

MSE

Mean Square Error

PB

Prediction Block

Khối dự đoán

PDWZ

Pixel Domain Wyner-Ziv

Wyner-Ziv miền pixel

PU

Prediction Unit

Đơn vị dự đoán

QM


Quantization Matrix

Ma trận lƣợng tử

SAO

Sample Adaptive Offset

Bù thích ứng mẫu

SI

Side Information

Thông tin phụ trợ

TB

Transform Block

Khối biến đổi

TDWZ

Transform Domain
Wyner-Ziv

phƣơng lỗi


Wyner-Ziv miền biến đổi

TU

Transform Unit

Đơn vị biến đổi

U

UHD

Ultra-high definition

Độ phân giải siêu cao

V

VLC

Variable Length Code

Mã có chiều dài thay đổi

W

WCG

Wide color gamut


Gam màu rộng

5


DANH MỤC BẢNG
Bảng 1.1: Giá trị lƣợng tử và xác suất tƣơng ứng .................................................................... 19
Bảng 1.2: Mã Huffman và số lƣợng bit cần mã hóa tƣơng ứng ............................................... 19
Bảng 2.1: Các mức tiêu thụ năng lƣợng trong mã hóa dự đoán và phân tán............................ 34
Bảng 3.1: Bảng mô tả tóm tắt các thông số sử dụng đánh giá.................................................. 37
Bảng 3.2: Giá trị lƣợng tử cho khung chính tại GOP=2, QCIF 15Hz ...................................... 38

6


DANH MỤC SƠ ĐỒ, HÌNH VẼ
Mã hóa video truyền thống và mã hóa video phân tán ............................................................... 9
Hình 1.1: Sơ đồ cấu trúc mã hóa video theo chuẩn HEVC ...................................................... 13
Hình 1.2: Kỹ thuật phân vùng trong HEVC ............................................................................. 15
Hình 1.3: Các chế độ và các hƣớng cho dự đoán hình trong khung [8] ................................... 17
Hình 1.4: Giá trị điểm ảnh trong miền pixel và miền DCT tƣơng ứng .................................... 18
Hình 1.5: Mô hình phép lƣợng tử tuyến tính ............................................................................ 18
Hình 1.6: Cây mã huffman ....................................................................................................... 19
Hình 1.7: Biểu đồ vùng tỷ lệ tốc độ mã giữ hai nguồn X,Y ..................................................... 22
Hình 1.8. Kiến trúc mã hóa video phân tán DVC DISCOVER[2] ........................................... 23
Hình 2.1: Cấu trúc mã hóa DVC-HEVC .................................................................................. 25
Hình 2.2: Quá trình nội suy khung ........................................................................................... 28
Hình 2.3: Lựa chọn vectơ chuyển động.................................................................................... 30
Hình 2.4: Ƣớc lƣợng chuyển động hai chiều............................................................................ 30
Hình 2.5: Quá trình nội suy khung kết hợp ƣớc lƣợng chuyển động trƣớc và sau................... 32

Hình 3.1: Mô tả khung hình đầu tiên của 4 chuỗi video .......................................................... 37
Hình 3.2: So sánh mã hóa khung chính với chuẩn H.264/AVC và chuẩn HEVC (Chuỗi video
Foreman)................................................................................................................................... 40
Hình 3.3: So sánh mã hóa khung chính với chuẩn H.264/AVC và chuẩn HEVC (Chuỗi video
Hall monitor) ............................................................................................................................ 40
Hình 3.4: So sánh mã hóa khung chính với chuẩn H.264/AVC và chuẩn HEVC (Chuỗi video
Coastguard)............................................................................................................................... 41
Hình 3.5: So sánh mã hóa khung chính với chuẩn H.264/AVC và chuẩn HEVC (Chuỗi video
Soccer) ...................................................................................................................................... 41
Hình 3.6: Đánh giá chất lƣợng khung hình giữa H.264/AVC và H.265/HEVC (Video
Foreman)................................................................................................................................... 42
Hình 3.7: Đánh giá chất lƣợng khung hình giữa H.264/AVC và H.265/HEVC (Video
coastguard)................................................................................................................................ 42
Hình 3.8: Đánh giá tổng thể hiệu năng mã hóa mô hình DVC-HEVC .................................... 43
(Video Foreman) ...................................................................................................................... 43
Hình 3.9: Đánh giá tổng thể hiệu năng mã hóa mô hình DVC-HEVC .................................... 43
(Video Hall monitor) ................................................................................................................ 43
Hình 3.10: Đánh giá tổng thể hiệu năng mã hóa mô hình DVC-HEVC .................................. 44
(Video Coastguard) .................................................................................................................. 44
Hình 3.11: Đánh giá tổng thể hiệu năng mã hóa mô hình DVC-HEVC .................................. 44
(Video Soccer) .......................................................................................................................... 44

7


LỜI MỞ ĐẦU
1. Lý do lựa chọn đề tài
Video chiếm khoảng 75% dữ liệu đƣợc truyền tải trong mạng trên toàn thế giới
và tỷ lệ này vẫn đang tăng lên đều đặn và dự kiến sẽ tiếp tục phát triển hơn nữa trong
tƣơng lai. Trong khi đó, việc giới thiệu các video với độ phân giải siêu cao (ultra-high

definition - UHD), dải động cao (high dynamic range - HDR), gam màu rộng (Wide
color gamut - WCG), tốc độ khung hình cao (High frame rate - HFR) và các dịch vụ
video trong tƣơng lai sẽ gia tăng đáng kể thách thức. Do đó, nhu cầu về các công nghệ
mã hóa (nén) video hiệu quả luôn luôn cấp bách.
Kể từ khi khái niệm mã hóa kết hợp đƣợc đề xuất bởi Habibi [1] vào năm 1974
và khung mã hóa không gian-thời gian kết hợp của Forchheimer vào năm 1981, khung
mã hóa video kết hợp (Hybrid Video Coding - HVC) đã đƣợc áp dụng rộng rãi vào các
chuẩn mã hóa hình ảnh/video phổ biến nhất hiện có nhƣ JPEG, H.261, MPEG2,
H.264/AVC và H.265/HEVC, v.v ... Hiệu suất mã hóa video đƣợc cải thiện khoảng
50% cứ sau 10 năm cùng với đó là sự tăng lên độ phức tạp tính toán và bộ nhớ. Và
hiện tại đã gặp phải những thách thức lớn để cải thiện đáng kể hiệu quả mã hóa nhằm
đáp ứng yêu cầu kỹ thuật của các ứng dụng phƣơng tiện thông minh và công nghệ hiện
đại nhƣ nhận diện khuôn mặt/cơ thể, theo dõi đối tƣợng, truy xuất hình ảnh, v.v.
Với sự tăng lên nhanh chóng của các thiết bị video, từ máy quay cầm tay đến
mạng cảm biến video công suất thấp và điện thoại di động đƣợc trang bị đa phƣơng
tiện, mã hóa độ phức tạp thấp trở nên quan trọng để đáp ứng với công suất và mức tiêu
hao năng lƣợng của các thiết bị di động. Để đáp ứng những nhu cầu này cho truyền
thông video, mã hóa video phân tán (Distributed Video Coding – DVC) [2], một mô
hình mã hóa video đƣợc phát triển dựa trên lý thuyết Slepian-Wolf và Wyner-Ziv [3].
DVC có thể đƣợc phát triển theo một trong hai cách tiếp cận chính. Cách tiếp
cận đầu tiên, đề xuất bởi nhóm nghiên cứu ở trƣờng Đại học Stanford [4], theo hƣớng
mã hóa toàn khung hình. Mỗi video đầu vào đƣợc chia tách tách thành hai loại, khung
hình chính (Key frame) và khung hình Wyner-Ziv (WZ frame). Trong khi các khung
chính đƣợc mã hóa bới các bộ mã hóa chuẩn với cấu hình phức tạp thấp (H.263 Intra
hoặc H.264/AVC Intra), các khung WZ đƣợc mã hóa sử dụng các bộ mã hóa kênh nhƣ
8


mã turbo hoặc mã LDPC [5], kết hợp với ƣớc lƣợng giá trị của khung hình tại phía thu.
Cách tiếp cận thứ hai là theo phƣơng pháp mã hóa khối – PRISM [6], trong đó cùng

với các khối đƣợc mã hóa theo phƣơng pháp truyền thống nhƣ mã hóa trong khung
(intra coding) kết hợp với mã kênh BCH. Một đặc điểm chung của cả hai cách tiếp cận
này là bộ mã hóa sẽ dịch chuyển các phần phức tạp nhƣ ƣớc lƣợng chuyển động từ
phía phát sang phía thu.
Hình dƣới mô tả tổng quan việc xử lý thông tin video theo phƣơng pháp dự
đoán truyền thồng và phƣơng pháp phân tán. Trong phƣơng pháp truyền thống, video
đƣợc tạo dự đoán tại cả phía phát và phía thu, thông tin dƣ thừa đƣợc xác định tại phía
phát sẽ đƣợc gửi đi, do vậy, phía phát sẽ phải làm rất nhiều nhiệm vụ phức tạp. Trong
khi đó, với phƣơng pháp mã hóa video phân tán , phía thu sẽ đảm nhiệm vai trò tạo dự
đoán, thông qua một bộ tạo thông tin phụ (Side information) nhƣ mô tả ở các chƣơng
sau. Phía phát chỉ đơn giản truyền đi sự khác biệt tƣơng quan giữa thông tin gốc và
thông tin phụ tại phía thu. Do vậy, thời gian mã hóa sẽ đƣợc giảm đi đáng kể.

Độ phức tạp
phía mã hóa cao

Độ phức tạp phía
giải mã thấp

Mã hóa

Giải mã

W

W

Độ phức tạp phía
mã hóa thấp


Độ phức tạp phía
giải mã cao

Mã hóa

Giải mã

W

W

Y

Y

a. Mã hóa video truyền thống

b. Mã hóa video phân tán

Mã hóa video truyền thống và mã hóa video phân tán

Sự ra đời gần đây của chuẩn mã hóa H.265/HEVC [7], với khoảng 50% lƣợng
bit yêu cầu thấp hơn so với chuẩn H.264/AVC [8] đã tạo động lực để tiếp tục các
nghiên cứu cải tiến cho mô hình mã hóa phân tán DVC. Trên cơ sở đó, luận văn này
tập trung nghiên cứu và xây dựng một mô hình mã hóa video phân tán thế hệ mới, trên
nền tảng chuẩn H.265/HEVC và mô hình tạo thông tin phụ mới.

9



2. Mục đích nghiên cứu
Luận văn tập trung tìm hiểu về chuẩn mã hóa video thế hệ mới H.265/HEVC
[7], mô hình mã hóa video phân tán DVC và từ đó nghiên cứu, đề xuất nhằm cải tiến
thông tin phụ đối với mã hóa video thế hệ mới H.265/HEVC [7].

3. Đối tƣợng nghiên cứu
Nghiên cứu, cải thiện chất lƣợng thông tin phụ trong mô hình DVC.
- Mô hình mã hóa video phân tán DVC-HEVC
- Các chuỗi video với khung hình thƣớc nhỏ do sử dụng mã video phân tán

4. Phạm vi và phƣơng pháp nghiên cứu
Luận văn đƣa ra cái nhìn tổng quan về mã hóa video dự đoán chuẩn HEVC, mã
hóa video phân tán DVC, mô hình DVC dựa trên kiến trúc DISCOVER [2, 9]. Từ mô
hình kiến trúc DISCOVER, luận văn sẽ tập trung vào cách hình thành nên thông tin
phụ.
Phƣơng pháp nghiên cứu:
-

Khảo sát và nghiên cứu lý thuyết

-

Phƣơng pháp thu thập thông tin bằng cách nghiên cứu tài liệu kết hợp với kết
quả thực nghiệm.

-

Tìm hiểu mô hình mã hóa video dự đoán chuẩn H.265/HEVC và mô hình mã
hóa video phân tán DVC.


-

Nghiên cứu và đƣa ra cải tiến tạo thông tin phụ.

-

Phân tích và đánh giá.

5. Cấu trúc luận văn
Nội dung chính của luận văn đƣợc trình bày qua 5 chƣơng:
Chương 1: Tổng quan về mã hóa video dự đoán HEVC và mã hóa phân tán DVC
Chƣơng này giới thiệu về bối cảnh của nghiên cứu mã hóa video và cấu trúc tổng
quan mã hóa video.
10


Chương 2: Xây dựng mô hình mã hóa video tiên tiến thế hệ mới trên nền chuẩn
H.265/HEVC
Chƣơng này trình bày về kiến trúc tổng quan mã hóa video phân tán sử dụng
HEVC cho mã hóa intra và sau đó đƣa ra mô hình tạo thông tin phụ mới, ứng dụng của
mã hóa DVC trong việc giúp cải thiện năng lƣợng tiêu thụ của các cảm biến.
Chương 3: Mô phỏng và đánh giá
Chƣơng này sẽ đƣa ra các kịch bản mô phỏng và đánh giá tính hiệu quả của mô
hình mã hóa video phân tán thế hệ mới, DVC-HEVC.
Kết luận
Kết luận sẽ tổng quát lại những kết quả lý thuyết và mô phỏng từ chƣơng 1,2,3 và
đƣa ra những nhận xét.

11



CHƢƠNG I. TỔNG QUAN VỀ MÃ HÓA VIDEO DỰ
ĐOÁN HEVC VÀ MÃ HÓA PHÂN TÁN DVC
1.1. Giới thiệu chung
Những năm gần đây, truyền tải và lƣu trữ video càng trở lên phổ biến hơn do
một số yếu tố nhƣ giá thành các sản phẩm liên quan nhƣ máy quay video HD, TV màn
hình lớn, các thiết bị lƣu trữ… đang giảm rất nhanh. Bên cạnh đó, các bộ vi xử lý mới
có tốc độ cao hơn rất nhiều, cùng với tốc độ internet đƣợc cải thiện đáng kể giúp việc
tải một bộ phim nhanh chóng cũng nhƣ trải nghiệm mƣợt mà hơn.
Nhu cầu trải nghiệm video ngày càng lớn, trƣớc đây việc thƣởng thức các bộ
phim ở độ phân giải 480p rồi đến mHD 720p đã là thỏa mãn, thì giờ đây các phim độ
phân giải Full HD 1080p đã ngày một nhiều hơn. Nhu cầu đó càng thể hiện mạnh mẽ
hơn khi 2 năm gần đây xuất hiện các TV với công nghệ hình ảnh 4K với độ phân giải
siêu cao. Các thiết bị lƣu trữ và đƣờng truyền internet với áp lực phải lớn hơn đã
không kịp đáp ứng và đòi hỏi cần có một chuẩn nén video mới hiệu quả hơn nhằm
giảm tải cho áp lực này.
Với hình ảnh độ phân giải Full HD (FHD) 1920x1080, chuẩn nén H.264 có thể
dễ dàng thực hiện tiến trình làm việc hay quá trình nén – giải mã tín hiệu. Tuy nhiên
ngày nay FHD đang bị thay thế dần bởi độ phân giải 4K x 2K (3840x2610) và H.264
có vẻ bị tụt hậu và phát sinh nhiều lỗi trƣớc các độ phân giải cao này. Vấn đề còn tệ
hơn nữa với việc xuất hiện độ phân giải rất cao 8K x 4K (7680x4320) hay còn đƣợc
gọi là Ultra HD, H.264 đang gặp vấn đề về dung lƣợng lƣu trữ và đặc biệt là quá trình
xử lý các hình ảnh độ nét cao hoặc gần nhƣ tối đa. Hay nói cách khác, xử lý các hình
ảnh độ phân giải cao 4K là nhiệm vụ bất khả thi với H.264 [8].
H.265 hay HEVC (High Efficiency Video Coding) [7] đƣợc Ủy ban Viễn thông
Quốc tế ITU-T thông qua và bắt đầu đƣợc các nhà phát triển đƣa vào sản phẩm thƣơng
mại. H.265 hứa hẹn mang lại khả năng nén cao gấp đôi so với ngƣời tiền nhiệm
H.264/AVC (Advance Video Coding) [8] hiện đang đƣợc dùng phổ biến (chiếm tới
80% các nội dung video lƣu trữ hiện nay). Với khả năng này H.265 giúp giảm băng
thông cần thiết để truyền tải phim, giảm dung lƣợng lƣu trữ và chúng ta phải trả ít tiền

12


hơn cho băng thông internet và thiết bị lƣu trữ. Ƣu điểm vƣợt trội này cũng sẽ là cú
hích cho thị trƣờng thiết bị nghe nhìn 4K/UHD.
Trong tƣơng lai, với các đoạn video trên youtube, facebook... chúng ta có thể
xem với hình ảnh cực nét mà không cần phải chờ đợi để tải về nữa.
Vào ngày 29/2/2012, tại triển lãm Mobile World Congress, hãng Qualcomm đã
trình chiếu hiệu năng của bộ nén mới trên tablet khi mà chuẩn nén mới đã cho chất
lƣợng hiện thị tƣơng đƣơng với dung lƣợng gần nhƣ giảm một nửa.
1.2. Mã hóa video dự đoán chuẩn HEVC
1.2.1. Sơ đồ cấu trúc
Hình 1.1 mô tả sơ đồ kiến trúc mã hóa video theo chuẩn HEVC [7].
Bộ điều khiển
chung

Đầu vào là 1
video

-

Bộ điều khiển
dữ liệu chung

Biến đổi
Tỷ lệ
Lƣợng tử
Tỷ lệ và biến
đổi ngƣợc


Chia thành
các CTUs

Ƣớc lƣợng
hình ảnh

Dự đoán
hình ảnh

Dự đoán dữ
liệu
Phân tích điều
khiển bộ lọc

Tạo khối và
lọc dữ liệu

Bù chuyển
động

Ƣớc lƣợng
chuyển động

Lƣợng tử
Biến đổi
Tỷ lệ

Định dạng
tiêu đề và
CABAC


Điều khiển
lọc dữ liệu

Luồng dữ
liệu nhị
phân đƣợc
mã hóa

Dữ liệu
chuyển động

Đầu ra cho
video

Hình ảnh đƣợc
giải mã và lƣu
trong bộ đệm

Hình 1.1: Sơ đồ cấu trúc mã hóa video theo chuẩn HEVC

Trong HEVC, mỗi ảnh đầu vào đƣợc chia thành các khối ảnh, sau đó đƣợc mã
hóa và đƣợc truyền tải đến các bộ giải mã. Ảnh đầu tiên của một chuỗi video đƣợc mã
hoá chỉ sử dụng dự đoán trong khung. Đối với các ảnh còn lại của chuỗi sử dụng các
chế độ mã hóa dự đoán liên khung theo thời gian. Quá trình mã hóa cho dự đoán liên
13


khung sẽ lựa chọn dữ liệu chuyển động bao gồm các ảnh tham chiếu và vector chuyển
động (MV) dùng để dự đoán các mẫu của mỗi khối ảnh. Các bộ mã hóa và giải mã tạo

ra tín hiệu dự đoán liên khung giống nhau bằng cách sử dụng kỹ thuật bù chuyển động
(MC) và thông tin phụ (side informartion) là dữ liệu để quyết định chế độ. Các tín hiệu
dƣ thừa của dự đoán trong khung và liên khung sẽ đƣợc biến đổi bởi phép biến đổi
không gian tuyến tính. Sau đó các hệ số biến đổi đƣợc định cỡ (scale), lƣợng tử hóa,
mã hóa entropy, và đƣợc truyền cùng với các thông tin dự đoán.
Đồng thời, bộ mã hóa cũng bao gồm cả phần xử lý giải mã sao cho cả hai phía
mã hóa và giải mã cùng tạo ra các dự đoán giống nhau đối với ảnh kế tiếp. Do đó, các
hệ số biến đổi lƣợng tử sẽ đƣợc tạo lại qua định cỡ ngƣợc và biến đổi ngƣợc để tạo lại
gần đúng tín hiệu dƣ thừa. Sau đó các tín hiệu dƣ thừa này cộng với các tín hiệu dự
đoán và đƣợc đƣa vào một hoặc hai bộ lọc để làm mịn ảnh. Ảnh biểu diễn cuối cùng
(một bản sao của đầu ra của bộ giải mã) đƣợc lƣu trữ trong một bộ đệm ảnh giải mã và
đƣợc sử dụng để dự đoán các ảnh tiếp theo.
Đối với các chuẩn mã hóa trƣớc đó, khung ảnh đƣợc chia thành các đơn vị mã
hóa là các macroblock, bao gồm một khối 16x16 các mẫu thành phần chói và các khối
8x8 các mẫu thành phần màu, trong khi đó các cấu trúc tƣơng tự trong HEVC là đơn vị
cây mã hóa (CTU). Cụ thể, ảnh đƣợc chia thành các CTU, mỗi CTU bao gồm các CTB
chói và các CTB màu. Một CTB có kích thƣớc là 16, 32 hoặc 64, trong đó các kích
thƣớc lớn hơn cho phép nén tốt hơn. HEVC hỗ trợ việc phân chia các CTB thành các
khối nhỏ hơn sử dụng cấu trúc cây và tín hiệu hóa cây tứ phân.
 Đơn vị mã hóa (CU – Coding Unit) và khối mã hóa (CB – Coding Block)
Cú pháp cây tứ phân (quadtree syntax) chứa trong CTU cho phép chia các CB
có kích cỡ và vị trí thích hợp dựa trên đặc tính tín hiệu của vùng tạo bởi CTB, do đó
gốc của cây tứ phân là CTU. Thông thƣờng, kích cỡ của CB đƣợc xác định nhƣ sau:
8x8 < kích cỡ CB size < kích cỡ CTB. Khi đó, đơn vị mã hóa CU sẽ gồm 1 CB chói và
2 CB màu, cùng cú pháp đi kèm. Một CTB có thể chứa chỉ một CU hoặc đƣợc phân
chia thành nhiều CU, và mỗi CU có một phân vùng liên quan đến các đơn vị dự báo
(PUs) và một cây các đơn vị biến đổi (TUs).
14



 Đơn vị dự đoán (PU) và khối dự đoán (PB)
Quyết định việc mã hóa một vùng ảnh sử dụng dự đoán liên khung hoặc dự
đoán trong khung đƣợc thực hiện ở mức CU. Cấu trúc phân chia PU có gốc ở mức CU.
Tùy thuộc vào kiểu dự đoán mà các CB chói và màu sau đó có thể đƣợc phân chia
thành các khối dự đoán (PB): chói và màu. Mỗi một PB sẽ chứa một vector chuyển
động.
 Đơn vị biến đổi (TU) và khối biến đổi (TB)
Dƣ thừa dự đoán đƣợc mã hóa sử dụng các biến đổi khối. Cấu trúc cây TU có
gốc ở mức CU. Dƣ thừa CB chói có thể giống với khối biến đổi (TB) chói hoặc tiếp
tục chia thành các TB chói nhỏ hơn. Điều tƣơng tự áp dụng cho các TB màu. Hàm số
nguyên tƣơng tự nhƣ hàm biến đổi cosin rời rạc (DCT) đƣợc xác định cho các TB có
kích thƣớc 4x4, 8x8, 16x16, và 32x32.

PU

Block
CU

CU

CU

CU
TU
TU

CU
CU

TU

TU

CU
CU

TU

TU TU
TU TU

CU CU
CU CU

Hình 1.2: Kỹ thuật phân vùng trong HEVC

15


1.2.2. Mã hóa trong khung (Intra coding)
Dự đoán trong khung hoạt động theo kích thƣớc TB, và các mẫu biên giải mã
trƣớc đó từ những TB lân cận về mặt không gian đƣợc sử dụng để tạo ra tín hiệu dự
đoán. Dự đoán trong ảnh hỗ trợ 33 hƣớng khác nhau với các kích thƣớc TB từ 4x4 đến
32x32. Các hƣớng dự đoán đƣợc thể hiện trong hình 1.3. Ngoài ra dự đoán mặt phẳng
và dự đoán DC cũng có thể đƣợc sử dụng. Đối với thành phần màu, chế độ dự đoán
ngang, dọc, mặt phẳng và DC có thể đƣợc báo hiệu một cách rõ ràng, hoặc chế độ dự
đoán thành phần màu đƣợc chỉ định giống các chế độ dự đoán thành phần chói.
Mỗi CB đƣợc mã hóa bằng một trong những loại mã hóa, tùy thuộc vào loại
mảng. Tƣơng tự nhƣ H.264 / MPEG-4 AVC, mã hóa dự đoán trong khung đƣợc hỗ trợ
trong tất cả các loại mảng. HEVC hỗ trợ các phƣơng pháp mã hóa dự đoán trong ảnh
khác nhau gọi là Intra_Angular, Intra_Planar, and Intra_DC.

Một CB dự đoán trong khung có kích thƣớc MxM có thể có một trong hai loại
phân chia PB gọi là PART_2Nx2N và PART_NxN, loại đầu tiên chỉ ra rằng các CB
không phân chia và loại thứ hai chỉ ra rằng CB đƣợc chia thành bốn PB kích thƣớc
bằng nhau. (N = M / 2). Tuy nhiên, nó có khả năng biểu diễn các vùng tƣơng tự mà có
thể đƣợc xác định bởi bốn PB bằng cách sử dụng bốn CB nhỏ hơn khi kích thƣớc của
các CB hiện tại lớn hơn so với kích thƣớc CU tối thiểu. Vì vậy, HEVC chỉ cho phép
kiểu phân chia PART_NxN đƣợc sử dụng khi kích thƣớc CB hiện tại bằng với kích
thƣớc CU tối thiểu. Điều này có nghĩa rằng kích thƣớc PB luôn bằng với kích thƣớc
CB khi CB đƣợc mã hóa bằng chế độ dự đoán trong khung và kích thƣớc CB là không
bằng với kích thƣớc CU tối thiểu. Dù chế độ dự đoán trong khung ở mức PB, nhƣng
các quá trình dự đoán thực tại lại hoạt động riêng biệt cho từng TB.

16


Hình 1.3: Các chế độ và các hướng cho dự đoán hình trong khung [8]

1.2.3. Mã hóa liên khung (Inter coding)
Dự đoán ảnh liên khung trong chuẩn H.265/HEVC cũng cho phép hỗ trợ dự
đoán vectơ chuyển động với độ chính xác lên tới ¼ điểm ảnh (sub-pel). Các giá trị tại
vị trí sub-pel đƣợc nội suy dựa trên hai bô lọc với 7 hoặc 8 tham số cấu hình. Các khối
hình sử dụng trong dự đoán ảnh liên khung cũng đa dạng, có thể đối xứng hoặc không
đối xứng, ví dụ: 2N×2N, 2N×N, N×2N, N×N, 2N×nD, nL×2N.
1.2.4. Phép biến đổi cosin rời rạc (DCT) và phép lƣợng tử
Phần dƣ từ khung gốc trừ đi cho khung dự đoán sau đó đƣợc đƣa qua bộ chuyển
đổi sang một miền khác, thƣờng đƣợc chuyển đổi sang miền tần số sử dụng phƣơng
pháp biến dổi Cosin rời rạc, mục đích của việc chuyển đổi này là để tách biệt các thành
phần tần số thấp và loại bỏ đƣợc thông tin ở thành phần tần số cao, vì vậy thông tin mã
hóa sẽ đƣợc giảm bớt, việc loại bỏ thông tin tại các thành phần tần số cao thƣờng ít
ảnh hƣởng tới cảm nhận của mắt ngƣời về chất lƣợng hình ảnh.


17


Hình 1.4: Giá trị điểm ảnh trong miền pixel và miền DCT tương ứng

Các thành phần tấn số cao thƣờng không nhạy cảm đối với mắt ngƣời và việc
loại bỏ các thành phần tần số này sẽ thực hiện thông qua phép lƣợng tử hóa. Mục đích
chính của phép lƣợng tử hóa là chuyển đổi tín hiệu vào tới các mức lƣợng tử, tín hiệu
vào ở đây là các hệ số DCT. Nhƣ vậy, bằng việc lƣợng tử hóa, nhiều giá trị DCT có
giá trị tƣơng đƣơng nhau sẽ đƣợc chuyển đổi về một giá trị lƣợng tử, giúp cho lƣợng
thông tin cần mã hóa đƣợc giảm bớt.

Hình 1.5: Mô hình phép lượng tử tuyến tính

1.2.5. Mã hóa entropy
Giá trị lƣợng tử sẽ là một chuỗi ký tự các số nguyên, để truyền tải chuỗi ký tự
này ta phải chuyển đổi sang chuỗi số nhị phân 0 và 1. Mã hóa entropy sẽ đƣợc áp dụng
cho từng khối ảnh, từng giá trị lƣợng tử với độ dài phù hợp. Ví dụ: mã Huffman gán
một VLC (Variable-length coding) cho mỗi ký hiệu dựa trên xác suất xuất hiện của các

18


ký hiệu. Theo đó chúng ta cần phải tính xác suất xuất hiện của mỗi ký hiệu và xây
dựng một bộ từ mã có độ dài thay đổi, ví dụ đƣợc đƣa ra nhƣ bảng sau:
Bảng 1.1: Giá trị lượng tử và xác suất tương ứng

Vectơ
-2

-1
0
1
2

Xác suất p
0.1
0.2
0.4
0.2
0.1

Log2(1/p)
3.32
2.32
1.32
2.32
3.32

1
0
0.6
0

1

1

0.4
0


0.2
1

0

1

0.2

0.2

0.1

0.1

0.4

1

-1

2

-2

0

Hình 1.6: Cây mã huffman


Từ cây mã Huffman, ta có thể dễ dàng xác định đƣợc các từ mã tƣơng ứng với
từng ký hiệu theo nhƣ bảng sau:
Bảng 1.2: Mã Huffman và số lượng bit cần mã hóa tương ứng

Vectơ
1
-1
2
-2
0


000
001
010
011
1

Số bit (thực tế)
3
3
3
3
1

19

Số bit (lý tƣởng)
2.32
2.32

3.32
3.32
1.32


Trong H.265/HEVC, mã hóa số học nhị phân thích ứng ngữ cảnh (CABAC)
đƣợc sử dụng để mã hóa entropy. Nó tƣơng tự nhƣ các sơ đồ CABAC trong H.264 /
MPEG-4 AVC, nhƣng có thêm một số cải tiến để cải thiện tốc độ lƣu lƣợng (đặc biệt
là cho các kiến trúc xử lý song song), hiệu suất nén, và để giảm bộ nhớ ngữ cảnh của
nó.
1.2.6. Bộ lọc khối và bù thích ứng mẫu SAO
Một bộ lọc khối giống nhƣ bộ lọc trong H.264 /AVC, H.265/HEVC, bộ lọc này
đƣợc sử dụng để làm giảm các nhiễu khối. Tuy nhiên, thiết kế đƣợc đơn giản hóa đối
với quá trình đƣa ra quyết định và lọc, và đƣợc làm thuận lợi hơn để xử lý song song.
Bù thích ứng mẫu SAO là một ánh xạ biên độ phi tuyến tính đƣợc đƣa vào
trong vòng lặp dự đoán liên ảnh đằng sau bộ lọc khối. Mục đích là để tái tạo tốt hơn
các biên độ tín hiệu ban đầu bằng cách sử dụng một bảng look-up , bảng này đƣợc mô
tả bằng một vài thông số bổ sung mà chúng có thể đƣợc xác định bằng cách phân tích
biểu đồ ở phía bộ mã hóa.
1.3. Mã hóa video phân tán (DVC – Distributed Video Coding)
1.3.1. Định lý Slepian-Wolf và định lý Wyner-Ziv
DVC đƣợc sử dụng cho các ứng dụng nhƣ các cảm biến camera, bộ mã hóa của
DVC thƣờng đơn giản và phần phức tạp của DVC sẽ đƣợc chuyển về phía giải mã. Bộ
mã hóa DVC đƣợc phát triển trên nền tảng lý thuyết thông tin với hai định lý chính là
Slepian-Wolf và Wyner-Ziv [3].
Entropy thông tin là một khái niệm mở rộng của entropy trong nhiệt động lực
học và cơ học thống kê sang lĩnh vực lý thuyết thông tin. Entropy thông tin mô tả mức
độ hỗn loạn trong một tín hiệu lấy từ một sự kiện ngẫu nhiên. Nói cách khác, entropy
cũng chỉ ra có bao nhiêu thông tin trong tín hiệu, với thông tin là các phần không hỗn
loạn ngẫu nhiên của tín hiệu.

Gọi tốc độ mã hóa là

,

là entropy của nguồn

.



tốc độ mã hóa tối thiểu để khôi phục chính xác nguồn X tại bộ giải mã. Với hai nguồn
20


độc lập

và . Tốc độ mã hóa tối thiểu cho từng nguồn để giải mã không lỗi chính là

entropy của từng nguồn



.

Với hai nguồn thống kê phụ thuộc thì tính chất của Entropy đồng thời:
(1)
Tính chất của entropy có điều kiện:
|
-


|

|

(2)

: là entropy có điều kiện đặc trƣng cho độ bất định về nguồn tin

X khi đã nhận đƣợc Y.
-

|

: là entropy có điều kiện đặc trƣng cho độ bất định về nguồn tin

Y khi biết nguồn tin X.
Trong trƣờng hợp cần mã hóa độc lập



thì tốc độ mã hóa tối thiểu sẽ là
(3)

 Định lý Slepian-Wolf
Định lý Slepian-Wolf đề cập đến việc nén không tổn thất. Mỗi nguồn tƣơng quan
đƣợc mã hóa độc lập và sau đó đƣợc giải mã liên kết tại cùng một bộ giải mã.
Định lý Slepian yêu cầu thỏa mãn ba điều kiện
|

(4)


|

So sánh với bộ mã hóa độc lập: bộ mã hóa độc lập bỏ qua sự tƣơng quan nguồn
sẽ cần tốc độ tối thiểu nhƣ điều kiện (3). Tuy nhiên, với mã Slepian-Wolf, bộ mã hóa
khai thác đƣợc sự tƣơng quan giữa các nguồn, do vậy tốc độ mã hóa đạt đƣợc tƣơng
đƣơng với mã hóa liên kết

.

 Định lý Wyner-Ziv
Định lý Wyner-Ziv là sự mở rộng của định lý Slepian-Wolf với mã hóa có mất
mát. Theo giả thuyết của định lý Wyner-Ziv, phía giải mã sẽ tập trung vào việc tái tạo


sẽ là thông tin phụ về

và có sẵn phía giải mã. Hệ thống nhƣ vậy đƣợc xây

dựng với xác suất lỗi nhỏ tùy ý trong việc tái tạo
21

. Nếu

đƣợc truyền với tốc độ ,


theo nhƣ biểu đồ Slepian-Wolf, tốc độ mã hóa X có thể đạt đƣợc về mặt
|


( nhỏ tùy ý).

R(X)

lý thuyết

H(Y)

Vùng mã hóa SlepianWolf

H(Y|X)

Vùng mã hóa WynerZiv

H(X|Y)

H(X)

R(X)

Hình 1.7: Biểu đồ vùng tỷ lệ tốc độ mã giữ hai nguồn X,Y

1.3.2. Kiến trúc mã hóa video phân tán DISCOVER
Hình 1.8 mô tả kiến trúc mã hóa video phân tán DVC, đề xuất và cải tiến bởi
nhóm nghiên cứu F. Pereira [2], với tên gọi DISCOVER.
Đây là kiến trúc mã hóa video phân tán phổ biến và đã đƣợc kiểm chứng là có
hiệu quả nhất so với các mô hình trƣớc đó.

22



Hình 1.8. Kiến trúc mã hóa video phân tán DVC DISCOVER[2]

Trong bộ mã hóa DVC DISCOVER, chuỗi video đƣợc chia thành hai chuỗi
chính: các khung WZ và các khung chính. Trong khi các khung chính đƣợc mã hóa
với chuẩn H.264/AVC, cấu hình Intra coding, thì các khung WZ đƣợc mã hóa theo
phƣơng pháp mã hóa kênh, đề xuất bởi trƣởng Đại học Stanford [4].
Mặc dù bộ mã hóa DISCOVER cung cấp hiệu năng mã hóa cao, các nghiên cứu
gần đây với sự ra đời của chuẩn HEVC đã cho thấy cần phải có các cải tiến hơn nữa
mô hình mã hóa video phân tán. Đặc biệt là sự kế thừa các kết quả nghiên cứu của
chuẩn HEVC. Trên cơ sở đó, chƣơng 2 của luận văn sẽ mô tả một mô hình mã hóa
video phân tán thế hệ mới, phát triển trên nền tảng chuẩn HEVC, với một số cải tiến
nhỏ tại khối tạo thông tin phụ.
1.4. Kết luận chƣơng
Chƣơng I đã giới thiệu và đề cập nhu cầu của mã hóa video ngày càng cao trong
bối cảnh độ phân giải Full HD 1080p đã ngày một nhiều hơn. Nhu cầu đó càng thể
hiện mạnh mẽ hơn khi gần đây xuất hiện các TV với công nghệ hình ảnh 4K với độ
phân giải siêu cao. Các thiết bị lƣu trữ và đƣờng truyền internet phải chịu nhiều áp lực
hơn để đáp ứng đƣợc các chuẩn phân giải mới. Trong bối cảnh đó, chuẩn mã hóa video
HEVC đƣợc ra đời để đáp ứng yêu cầu.
Sơ đồ bộ mã hóa HEVC đƣợc mô tả trong chƣơng này và các kỹ thuật cơ bản
của mã hóa video cơ bản bao gồm mã hóa trong khung, mã hóa liên khung, phép biến
23


đổi cosin rời rạc, mã hóa entropy, bộ lọc khối và bù thích ứng. Đối với các chuẩn mã
hóa trƣớc đó, khung ảnh đƣợc chia thành các đơn vị mã hóa là các macroblock, bao
gồm một khối 16x16 các mẫu thành phần chói và các khối 8x8 các mẫu thành phần
màu; trong khi đó các cấu trúc tƣơng tự trong HEVC là đơn vị cây mã hóa (CTU). Cụ
thể, ảnh đƣợc chia thành các CTU, mỗi CTU bao gồm các CTB chói và các CTB màu.

Một CTB có kích thƣớc là 16, 32 hoặc 64, chính nhờ việc chia đơn vị mã hóa một cách
linh hoạt đã giúp cho quá trình nén của HEVC linh hoạt và hiệu quả hơn so với chuẩn
nén tiền nhiệm.
Mạng cảm biến hình ảnh không dây đang trở thành xu thế mới trong thời gian
gần đây nhờ những ƣu điểm vƣợt trội về thu thập dữ liệu với quy mô lớn trong bất cứ
điều kiện và bất cứ vùng địa lý nào. Tuy nhiên, đối với mạng cảm biến hình ảnh không
dây, các cảm biến sẽ có mức tiêu thụ năng lƣợng thấp, chính vì vậy yêu cầu một chuẩn
mã hóa mới nhằm giảm mức độ phức tạp phía mã hóa và chuyển phần lớn các tính
toán phức tạp về phía giải mã. bộ mã hóa video phân tán DVC đƣợc phát triển nhằm
đáp ứng nhu cầu trên, trong chƣơng I đã giới thiệu sơ bộ về mã hóa video phân tán với
hai định lý nền tảng là định lý Slepian-Wolf và định lý Wyner-Ziv. Định lý SlepianWolf đề cập đến việc nén không tổn thất, mỗi nguồn tƣơng quan đƣợc mã hóa độc lập
và sau đó đƣợc giải mã liên kết tại cùng một bộ giải mã. Định lý Wyner-Ziv là sự mở
rộng của định lý Slepian-Wolf với mã hóa có mất mát, theo giả thuyết của định lý
Wyner-Ziv, phía giải mã sẽ tập trung vào việc tái tạo thông tin
phụ về



sẽ là thông tin

và có sẵn phía giải mã. Trong chƣơng này cũng đã giới thiệu về kiến trúc mã

hóa video phân tán DISCOVER với chuỗi video đầu vào đƣợc chia thành khung
Wyner-Ziv và khung chính, trong khi các khung chính đƣợc mã hóa với chuẩn
H.264/AVC, cấu hình Intra coding, thì các khung WZ đƣợc mã hóa theo phƣơng pháp
mã hóa kênh, đề xuất bởi trƣởng Đại học Stanford [4].

24



×