Tìm hiểu về H265

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (845.27 KB, 41 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOA:KỸ THUẬT ĐIỆN – ĐIỆN TỬ

Báo cáo: Công nghệ phát thanh truyền hình số
Đề tài: Tìm hiểu về H265
TÊN THÀNH VIÊN: NGUYỄN MINH HOÀNG
NGUYỄN ANH VĂN
TRẦN VĂN THỊNH
LỚP
: D11XLTH

HÀ NỘI, 2015

1

MỤC LỤC

TỔNG QUAN VỀ MÃ HÓA VIDEO HIỆU SUẤT CAO H265
(HEVC-High Efﬁciency Video Coding)
I GIỚI THIỆU
Tóm tắt:Mã hóa video hiệu suất cao (HEVC) hiện đang như mã hóa tiêu chuẩn mới
nhất của video ITU-T và ISO / IEC. Mục tiêu chính của các nỗ lực chuẩn HEVC là để
cho phép cải thiện hiệu suất nén tương đối so với các tiêu chuẩn trong phạm vi của việc
giảm tốc độ bit 50% cho chất lượng video bằng tri giác hiện tại. Bài viết này cung cấp
một cái nhìn tổng quan về các tính năng kỹ thuật và đặc điểm của các tiêu chuẩn HEVC.
HEVC tiêu chuẩn là dự án video chung gần đây nhất của ITU-T Video Coding
Experts Group (VCEG) và ISO / IEC Moving Picture Experts Group (MPEG) tổ chức
tiêu chuẩn hóa, làm việc với nhau trong một quan hệ đối tác, hợp tác chung về mã hóa
video (JCT-VC) [1]. Các phiên bản gốc đầu tiên của tiêu chuẩn HEVC được tung ra vào
tháng 1 năm 2013. Công việc bổ sung được quy hoạch để mở rộng các tiêu chuẩn để hỗ

trợ một số kịch bản ứng dụng bổ sung, bao gồm mở rộng phạm vi sử dụng chức năng và
hỗ trợ định dạng màu sắc, khả năng mã hóa video được mở rộng, và 3D / âm thanh.
Trong ISO / IEC, tiêu chuẩn HEVC sẽ trở thành MPEG-H phần 2
Tiêu chuẩn mã hóa video đã phát triển chủ yếu thông qua sự phát triển của các tiêu
chuẩn ITU-T và ISO / IEC nổi tiếng. ITU-T H.261 bản 2và H.263 bản 3, ISO / IEC bản 4
MPEG-1 4 và bản 5 MPEG-4 Visual và hai tổ chức hợp tác sản xuất các bản 6 và 7
H.262 / MPEG -2 Video và H.264 / MPEG-4 Advanced Video Coding (AVC) tiêu chuẩn.
Hai tiêu chuẩn được sản xuất cùng đã có một tác động đặc biệt mạnh mẽ và đã tìm thấy
con đường của họ vào một loạt các sản phẩm đang ngày càng phổ biến trong cuộc sống
hàng ngày của chúng tôi. Trong suốt quá trình tiến hóa này, những nỗ lực tiếp tục đã
được thực hiện để tối đa hóa khả năng nén và cải thiện các đặc tính khác như mất dữ liệu
mạnh mẽ, trong khi xem xét các tài nguyên tính toán mà là thực tế để sử dụng trong các
sản phẩm tại thời điểm triển khai dự đoán của mỗi tiêu chuẩn.
Các chính tiêu chuẩn mã hóa video trực tiếp trước các dự án HEVC H.264 / MPEG-4
AVC, ban đầu được phát triển trong thời gian giữa năm 1999 và 2003, và sau đó đã được
mở rộng trên nhiều năm 2003-2009. H.264 / MPEG-4 AVC đã là một công nghệ cho
phép video trong hầu hết mọi lĩnh vực mà trước đây không được bao phủ bởi H.262 /
MPEG-2 Video và đã di dời đáng kể các tiêu chuẩn cao niên trong lĩnh vực ứng dụng
hiện tại của nó.
2

Nó được sử dụng rộng rãi cho nhiều ứng dụng, bao gồm cả phát sóng (HD) tín hiệu
truyền hình qua vệ tinh, cáp, và các hệ thống truyền dẫn mặt đất, mua lại nội dung video
và chỉnh sửa hệ thống, máy quay phim, ứng dụng bảo mật, Internet và mạng lưới video,
và ứng dụng như chat video, hội nghị truyền hình, và các hệ thống telepresence. Tuy
nhiên, sự đa dạng ngày càng tăng của dịch vụ, sự phổ biến của HD video, và sự xuất hiện
của các định dạng HD (ví dụ, độ phân giải 4k x 2k hoặc 8k x 4k) đang tạo ra nhu cầu
mạnh mẽ hơn để mã hóa vượt trội so với H.264 /MPEG-4 AVC. Sự cần thiết thậm chí
còn mạnh mẽ hơn khi độ phân giải cao được đi kèm với âm thanh stereo hoặc chụp

MultiView và hiển thị. Hơn nữa, các ứng dụng video nhắm mục tiêu các thiết bị di động
và máy tính bảng, cũng như việc truyền tải cần cho dịch vụ video theo yêu cầu, được áp
đặt những thách thức nghiêm trọng trên mạng ngày nay. Một mong muốn tăng cho chất
lượng cao hơn và độ phân giải cũng được phát sinh trong các ứng dụng điện thoại di
động.
HEVC đã được thiết kế để giải quyết về cơ bản tất cả các ứng dụng hiện có của
H.264 / MPEG-4 AVC và đặc biệt tập trung vào hai vấn đề chính: tăng độ phân giải
video và tăng cường sử dụng kiến trúc xử lý song song. Cú pháp của HEVC là chung
chung và cũng thường thích hợp cho các ứng dụng khác.
Như các trường hợp cho tất cả video mã hóa của ITU-T và ISO / IEC, trong HEVC
chỉ là cấu trúc bitstream và cú pháp được chuẩn hóa, cũng như những hạn chế về
bitstream và lập bản đồ của nó cho các thế hệ của các hình ảnh được giải mã. Các ánh xạ
được cho bởi ý nghĩa của các yếu tố cú pháp và quá trình giải mã như vậy mà mỗi bộ giải
mã phù hợp với các tiêu chuẩn sẽ cho kết quả tương tự khi đưa ra một bitstream mà phù
hợp với những hạn chế của tiêu chuẩn. Sự hạn chế này trong phạm vi của tiêu chuẩn cho
phép tự do tối đa để tối ưu hóa việc triển khai một cách thích hợp để ứng dụng (cân bằng
chất lượng nén, chi phí thực hiện, thời gian để thị trường, và cân nhắc khác). Tuy nhiên,
nó không cung cấp bảo hành chất lượng, vì nó cho phép ngay cả kỹ thuật mã hóa thô
được xem xét phù hợp.
Để hỗ trợ các ngành công nghiệp cộng đồng trong việc học cách sử dụng các tiêu
chuẩn, các nỗ lực tiêu chuẩn hóa không chỉ bao gồm sự phát triển của một văn bản tài
liệu đặc hiệu nhưng cũng tham khảo các phần mềm mã nguồn như là một ví dụ về cách
HEVC video có thể được mã hóa và giải mã. Các phần mềm dự thảo tài liệu tham khảo
đã được sử dụng như một công cụ nghiên cứu cho công việc nội bộ của ủy ban trong việc
thiết kế các tiêu chuẩn, và cũng có thể được sử dụng như một công cụ nghiên cứu nói
chung và là cơ sở của sản phẩm. Một tiêu chuẩn bộ dữ liệu thử nghiệm cũng đang được
phát triển để kiểm tra sự phù hợp với các tiêu chuẩn.

3

II. HEVC -MÃ HÓA THIẾT KẾ VÀ TÍNH NĂNG NỔI BẬT
Tiêu chuẩn HEVC được thiết kế để đạt được nhiều mục tiêu, bao gồm cả mã hóa hệ
thống giao, lồng ghép khả năng phục hồi dữ liệu bị mất, cũng như sử dụng kiến trúc xử lý
song song. Các phần dưới đây sẽ mô tả các yếu tố quan trọng của thiết kế mà các mục
tiêu đạt được, và các hoạt động mã hóa điển hình mà sẽ tạo ra một bitstream hợp lệ.
2.1. Tầng mã hóa video
Lớp mã hóa video HEVCcùng phương pháp (dự đoán 2 bức tranh và 2D chuyển đổi
mã hóa) được sử dụng trong tất cả các tiêu chuẩn nén video từ H.261. Hình 1 mô tả sơ đồ
khối của một bộ mã hóa video lai, mà có thể tạo ra một bitstream phù hợp với các tiêu
chuẩn HEVC.
Một thuật toán mã hóa xuất một bitstream phù hợp,HEVC thường sẽ tiến hành như
sau:
Mỗi bức ảnh được chia thành nhiều vùng khối hình, với khối chính xác được truyền
đạt đến các bộ giải mã. Những hình ảnh đầu tiên của một chuỗi video (và hình ảnh đầu
tiên kinh ở mỗi điểm truy cập ngẫu nhiên vào một chuỗi video) được mã hóa bằng cách
sử dụng dự đoán hình ảnh (có sử dụng một số dự đoán của dữ liệu không gian đến khu
vực trong hình ảnh đó, nhưng không có sự phụ thuộc vào các hình ảnh khác). Đối với tất
cả các hình ảnh còn lại của một chuỗi hoặc giữa các điểm truy cập ngẫu nhiên, chế độ mã
hóa dự báo tạm thời interpicture được sử dụng cho hầu hết các khối. Quá trình mã hóa để
dự đoán interpicture bao gồm việc lựa chọn dữ liệu chuyển động các hình ảnh tham khảo
và chuyển động vectơ được chọn (MV) áp dụng để dự đoán các mẫu của mỗi khối. Các
bộ mã hóa và giải mã tín hiệu tạo ra giống hệt nhau dự đoán interpicture bằng cách áp
dụng đền bù chuyển động (MC) sử dụng các MV và quyết định chế độ dữ liệu, được
truyền như là thông tin phụ.
Các tín hiệu còn lại của dự đoán hình ảnh nội hay inter, đó là sự khác biệt giữa các
khối ban đầu và chọn từ trước của nó, được biến đổi bởi một tuyến liên kết không gian
chuyển đổi. Các hình thức xuyên được các quy mô, lượng tử hóa, entropy mã hóa, và
được truyền cùng với các thông tin dự đoán.
4

Các bộ mã hóa các bản sao các vòng lặp xử lý giải mã (xem hộp màu xám bóng mờ
trong hình. 1) như vậy mà cả hai sẽ tạo ra những dự đoán giống hệt nhau cho dữ liệu tiếp
theo. Vì vậy, các lượng tử chuyển đổi được xây dựng bằng rộng nghịch đảo và sau đó
được chuyển đổi ngược để lặp lại trong các xấp xỉ giải mã các tín hiệu còn lại. Việc còn
lại sau đó được bổ sung vào dự đoán, và kết quả của việc bổ sung mà sau đó có thể được
đưa vào một hoặc hai hiện vật gây ra bởi khối xử lý khôn ngoan và lượng tử hóa. Các đại
diện hình ảnh (đó là một bản sao của các đầu ra của bộ giải mã) được lưu trữ trong một
bộ đệm hình ảnh giải mã được sử dụng cho những dự đoán của hình ảnh tiếp theo. Nói
chung, thứ tự của mã hóa hoặc giải mã xử lý hình ảnh thường khác với thứ tự mà họ đến
từ các nguồn; cần thiết phải có một sự phân biệt giữa thứ tự giải mã (bitstream) và thứ tự
xuất (ví dụ, để hiển thị) cho một bộ giải mã.
HEVC dự kiến sẽ được đầu vào như hình ảnh quét liên tục (hoặc là do các nguồn
video có nguồn gốc ở định dạng đó hoặc do Deinterlacing trước khi mã hóa). Không có
tính năng mã hóa rõ ràng là hiện nay trong thiết kế HEVC để hỗ trợ việc sử dụng các
chức năng quét xen kẽ, như quét xen kẽ không còn được sử dụng để hiển thị và đang trở
thành đáng kể ít phổ biến để phân phối. Tuy nhiên, một cú pháp siêu dữ liệu đã được
cung cấp trong HEVC để cho phép một bộ mã hóa để chỉ ra rằng video quét đã được gửi
đi bằng cách mã hóa từng vùng(tức là, các dòng chẵn hoặc số lẻ của mỗi khung hình
video) của video như một bức tranh riêng biệt hoặc rằng nó đã được gửi đi bằng cách mã
hóa từng khung hình như một bức tranh HEVC mã. Điều này cung cấp một phương pháp
của mã hóa video mà không có gánh nặng giải mã với một nhu cầu để hỗ trợ quá trình
giải mã đặc biệt cho nó.

5

Hình 1. Điển hình bộ mã hóa video HEVC
Trong phần tiếp theo, các tính năng khác nhau tham gia vào video hybrid sử dụng mã

hóa HEVC được nhấn mạnh như sau.
1) Mã hóa các đơn vị cây và cấu trúc mã hóa khối cây (CTB): Cốt lõi của lớp mã hóa
trong các tiêu chuẩn trước đó là các khối mẫu, chứa 16 × 16 khối lumavà trong trường
hợp bình thường là 4: 2: 0 lấy mẫu màu, hai tương ứng với 8 × 8 khối của mẫu chroma;
trong khi đó các cấu trúc tương tự trong HEVC là đơn vị cây mã hóa (CTU), trong đó có
một kích thước lựa chọn bởi các bộ mã hóa và có thể lớn hơn một macroblock truyền
thống. Các CPU bao gồm một CTB luma và chroma CTBs và các yếu tố cú pháp tương
ứng. Kích thước L × L của một luma CTB thể được chọn là L = 16, 32, hoặc 64 mẫu, với
các kích thước lớn hơn thường cho phép nén tốt hơn. HEVC sau đó hỗ trợ một phân vùng
của CTBs thành các khối nhỏ hơn sử dụng một cấu trúc cây và giống như tín hiệu [8]
2) Đơn vị mã hóa (CUS) và khối mã hóa (NHTM): Cú pháp quadtree của CTU kích
thước và vị trí của luma và sắc độ của NHTM. Do đó, kích thước của các luma CTB là
kích thước được hỗ trợ lớn nhất cho một CB luma. Việc chia tách của một CTU vào luma
và chroma NHTM là báo hiệu cùng. Một CB luma và thường hai chroma NHTM, cùng
với cú pháp kết hợp, tạo thành một đơn vị mã hóa (CU). Một CTB có thể chỉ chứa một
CU hoặc có thể được tách ra để hình thành nhiều CUS, và mỗi CU có một phân vùng
thành các đơn vị liên quan dự báo và một cây chuyển các đơn vị (TUS).
3) đơn vị dự báo và dự báo khối (PBs): Các dữ liệu để mã một khu vực hình ảnh sử
dụng interpicture hoặc dự đoán hình ảnh liên được thực hiện ở cấp CU. Tùy thuộc về
quyết định dự đoán loại cơ bản, các luma và chroma NHTM sau đó có thể được phân
chia thêm kích thước và dự đoán từ khối luma và chroma dự đoán (PBs). HEVC hỗ trợ
kích thước PB biến từ 64 × 64 xuống 4 × 4 mẫu.
4) TUS và chuyển khối: Các dư dự đoán được mã hóa bằng khối biến đổi. Một cơ cấu
cây TU có gốc rễ của nó ở cấp CU. Các luma CB còn lại có thể giống với các luma
chuyển khối (TB) hoặc có thể được phân chia thêm vào TBS luma nhỏ. Điều tương tự
cũng áp dụng cho các TBS chroma.DCT là cho TB vuông kích thước 4 × 4, 8 × 8, 16 ×
16, và 32 × 32. Đối với 4 × 4 biến đổi của lima liên dư đoán hình ảnh, một số nguyên
biến đổi xuất phát từ một hình thức sin rời rạc DST.
5) Tín hiệu vectơ Motion: nâng cao dự báo vector chuyển động (AMP) được sử dụng,
bao gồm cả nguồn gốc của nhiều ứng cử viên có khả năng nhất dựa trên dữ liệu từ liền

kề PBs và hình ảnh tham khảo. Một chế độ nối cho MV mã hóa cũng có thể được sử
dụng, cho phép người thừa kế của MV từ tạm thời hoặc không gian lân cận PBs. Hơn
nữa, so với H.264 / MPEG-4 AVC, cải thiện và trực tiếp bỏ qua suy luận chuyển động.
6

6) Bồi thường Motion: Tứ mẫu chính xác được sử dụng cho các MV được sử dụng
cho nội suy vị trí phân đoạn mẫu (so với vị trí nửa mẫu tiếp theo là nội tuyến tính cho vị
trí tứ mẫu trong H.264 / MPEG-4 AVC). Tương tự như H.264 / MPEG-4 AVC, nhiều
hình ảnh tham khảo được sử dụng. Đối với mỗi PB, một hoặc hai vectơ chuyển động có
thể được truyền đi, hay bi mã hóa tiên đoán, tương ứng. Như trong H.264 / MPEG-4
AVC, nhân rộng và bù đắp hoạt động có thể được áp dụng cho các tín hiệu dự báo một
cách gọi như dự đoán quan trọng.
7) Ảnh dự đoán: Các mẫu ranh giới được giải mã của các khối liền kề được sử dụng
làm dữ liệu tham khảo cho dự đoán tại khu vực có dự đoán interpicture không được thực
hiện. Liên Ảnh dự đoán hỗ trợ 33 chế độ (so với tám chế độ như H.264 / MPEG-4 AVC),
cộng với mặt phẳng (bề mặt ) và DC chế độ dự đoán. Các chế độ dự đoán intrapicture
được chọn sẽ được mã hóa bằng cách bắt nguồn chế độ xác suất lớn nhất (ví dụ, hướng
dự đoán) dựa trên những giải mã trước đây PBs.
8) Kiểm soát Quantization: Như trong H.264 / MPEG-4 AVC, hình thức tái lượng tử
(IRQ) được sử dụng trong HEVC, với lượng tử ma trận rộng hỗ trợ cho các loại chuyển
đổi kích thước khối.
9) Entropy mã hóa: Bối cảnh thích ứng số học nhị phân (CABAC) được sử dụng để
mã hóa dữ liệu ngẫu nhiên. Điều này cũng tương tự như các chương trình CABAC trong
H.264 / MPEG-4 AVC, nhưng đã trải qua một số cải tiến để cải thiện tốc độ thông lượng
của nó (đặc biệt là cho các kiến trúc xử lý song song) và hiệu suất nén của nó, và để
giảm yêu cầu bộ nhớ ngữ cảnh của nó.
2.2 Kiến trúc cao cấp
Một số khía cạnh thiết kế mới với các tiêu chuẩn HEVC cải thiện cho hoạt động trên
một loạt các ứng dụng và các môi trường mạng và cải thiện mạnh mẽ đến mất mát dữ

liệu. Tuy nhiên, các kiến trúc cú pháp cao cấp được sử dụng trong các tiêu chuẩn AVC
H.264 / MPEG-4 đã thường được giữ lại, bao gồm các tính năng sau đây:
1) Thông số cấu trúc bộ: bộ thông số chứa thông tin mà có thể được chia sẻ cho các
giải mã nhiều vùng của video được giải mã. Các tham số cấu trúc bộ cung cấp một cơ
chế mạnh mẽ cho việc truyền dữ liệu cần thiết cho quá trình giải mã. Các khái niệm về
trình tự và thông số hình ảnh từ bộ H.264 / MPEG-4 AVC được tăng cường bởi một tham
số video mới tập (VPS) cấu trúc.
2) Cấu trúc cú pháp đơn vị NAL: Mỗi cấu trúc cú pháp được đặt vào một gói dữ liệu
logic được gọi là một lớp mạng trừu tượng (NAL) đơn vị. Sử dụng các nội dung của một
byte đơn vị NAL tiêu đề hai, nó có thể dễ dàng xác định mục đích của các dữ liệu tải
trọng liên quan.
7

3) Slices: Một cấu trúc dữ liệu có thể được giải mã một cách độc lập từ slice khác của
hình ảnh đó, trong điều khoản của entropy mã hóa, dự báo tín hiệu, và xây dựng lại tín
hiệu còn lại. Một lát, hoặc có thể là một hình ảnh toàn bộ hoặc một khu vực của một bức
tranh. Một trong những mục đích chính của lát là trong trường hợp mất mát dữ liệu.
Trong trường hợp truyền số lượng tối đa của các bit tải trọng trong một lát thường bị
hạn chế, và số lượng của CPU trong slice thường được thay đổi để giảm thiểu các chi
phí đóng gói thoại trong khi vẫn giữ kích thước của mỗi gói tin trong này bị ràng buộc.
4) Thông tin tăng cường bổ sung (SEI) và video khả năng sử dụng siêu dữ liệu (VUI):
Cú pháp bao gồm hỗ trợ cho nhiều loại siêu dữ liệu được gọi là SEI và VUI. Những dữ
liệu này cung cấp thông tin về thời gian của các hình ảnh video, việc giải thích đúng đắn
của các không gian màu được sử dụng trong các tín hiệu video, 3D stereoscopic khung
đóng gói thông tin, hiển thị gợi ý cấp thông tin khác, và như vậy.
2.3. Giải mã cú pháp và Cơ cấu cú pháp
Cuối cùng, bốn tính năng mới được giới thiệu trong các chuẩn HEVC ,để nâng cao
khả năng xử lý song song hoặc sửa đổi các cấu trúc dữ liệu lát cho mục đích đóng gói
thoại. Mỗi người có thể có các lợi ích trong bối cảnh ứng dụng cụ thể và nó thường lên

cho người thực hiện một bộ mã hóa hoặc giải mã để xác định xem liệu và làm thế nào để
tận dụng lợi thế của các tính năng này.
1) Gạch: Các tùy chọn để phân chia một bức ảnh thành các vùng hình chữ nhật được
gọi là gạch có được. Các tư thế chính của gạch là để tăng cường khả năng xử lý song
song chứ không phải là cung cấp khả năng phục hồi lỗi. Tiles là độc lập vùng giải mã
của một hình ảnh được mã hóa với một số thông tin tiêu đề chia sẻ. Gạch bổ sung có thể
được sử dụng cho các mục đích không gian truy cập ngẫu nhiên cho các khu vực địa
phương của hình ảnh video. Một điển hình con của một bức tranh gồm phân chia các
hình ảnh thành các vùng hình chữ nhật với các con số xấp xỉ bằng CPU của mỗi gạch.
Gạch cung cấp song song ở mức độ thô hơn của granularity (hình ảnh / subpicture), và
không đồng bộ phức tạp của chủ đề là cần thiết cho việc sử dụng chúng.
2) Đầu sóng xử lý song song: Khi xử lý song song đầu sóng được kích hoạt(WPP),
một lát được chia thành các hàng. Hàng đầu tiên kinh được xử lý một cách bình thường,
hàng ghế thứ hai có thể bắt đầu được xử lý sau khi chỉ có hai CPU đã được xử lý ở hàng
đầu tiên kinh, hàng ghế thứ ba có thể bắt đầu được xử lý sau khi chỉ có hai CTUs đã
được xử lý ở hàng thứ hai và như vậy các mô hình bối cảnh của các coder entropy trong
mỗi hàng được suy ra từ những người ở hàng trước với độ trễ xử lý hai-CTU. WPP cung
cấp một hình thức xử lý song song ở mức một lát. WPP thường có thể cung cấp hiệu suất
tốt hơn so với gạch nén (và tránh được một số hiện vật trực quan mà có thể được gây ra
bằng cách sử dụng gạch).
8

3) Phân đoạn lát phụ thuộc: Một cấu trúc được gọi là một phân đoạn lát phụ thuộc
cho phép dữ liệu liên kết với một điểm vào đầu sóng đặc biệt hoặc ngói vào được thực
hiện trong một đơn vị NAL riêng biệt, và do đó có khả năng làm cho những dữ liệu có
sẵn cho một hệ thống cho năng đóng gói phân mảnh với độ trễ thấp hơn nếu nó là tất cả
các mã trong cùng một lát. Một đoạn lát phụ thuộc cho một điểm vào đầu sóng chỉ có thể
được giải mã sau khi ít nhất một phần của quá trình giải mã một đoạn lát đã được thực
hiện. Phân đoạn lát phụ thuộc chủ yếu là hữu ích trong việc mã hóa độ trễ thấp, nơi mà

các công cụ khác song song có thể trừng phạt hiệu suất nén.
Trong hai phần sau đây,mô tả chi tiết hơn về các tính năng chính được đưa ra.
III. CÚ PHÁP CAO CẤP
Các cú pháp cao cấp của HEVC chứa nhiều yếu tố đã được thừa hưởng từ NAL của
H.264 / MPEG-4 AVC. Các NAL cung cấp khả năng bản đồ các lớp video mã hóa (VCL)
dữ liệu mà đại diện cho nội dung của hình ảnh lên lớp vận chuyển khác nhau, bao gồm
RTP / IP, ISO MP4, và H.222.0 / MPEG-2 Systems, và cung cấp một khuôn khổ cho khả
năng phục hồi mất gói tin. Đối với các khái niệm chung của các thiết kế NAL như các
đơn vị NAL, bộ tham số, đơn vị truy cập, định dạng dòng byte, và định dạng.
Đơn vị NAL được phân loại vào VCL và không VCL NAL đơn vị theo liệu chúng có
chứa hình ảnh hoặc dữ liệu được mã hóa có liên quan khác, tương ứng. Trong các tiêu
chuẩn HEVC, một số loại đơn vị NAL VCL xác định các loại hình ảnh cho mục đích
khởi tạo bộ giải mã và truy cập ngẫu nhiên được bao gồm. Bảng I liệt kê các loại NAL
đơn vị và ý nghĩa liên quan của họ và các lớp học kiểu trong tiêu chuẩn HEVC. Các phần
dưới đây sẽ trình bày một mô tả các tính năng mới được hỗ trợ bởi các cú pháp cao cấp.
3.1. Truy cập ngẫu nhiên và Bitstream nối
Các đặc điểm thiết kế mới hỗ trợ tính năng đặc biệt cho phép truy cập ngẫu nhiên và
nối bitstream. Trong H.264 / MPEG-4 AVC, một bitstream luôn phải bắt đầu với một
đơn vị truy cập IDR. Một đơn vị truy cập IDR chứa một cách độc lập mã một hình ảnh
được giải mã mà không giải mã bất kỳ hình ảnh trước đó trong các đơn vị NAL dòng. Sự
hiện diện của một đơn vị truy cập IDR chỉ ra rằng không có hình ảnh tiếp theo trong
bitstream sẽ yêu cầu tham chiếu đến hình ảnh trước khi hình ảnh mà nó chứa để được giải
mã. Những hình ảnh IDR được sử dụng trong một cấu trúc mã hóa được biết đến như một
GOP khép kín (trong đó đảng Cộng hòa đại diện cho nhóm các hình ảnh).
Các truy cập ngẫu nhiên (CRA) hình cú pháp chỉ tường việc sử dụng một hình ảnh
được mã hóa một cách độc lập ở vị trí của một điểm truy cập ngẫu nhiên (RAP), tức là,
một vị trí trong một bitstream mà tại đó một bộ giải mã có thể bắt đầu giải mã thành công
hình ảnh mà không cần để giải mã bất kỳ hình ảnh đã xuất hiện trước đó trong bitstream,
9

mà hỗ trợ để mã hóa thời gian ef được gọi là hoạt động mở GOP. Hỗ trợ tốt các truy cập
ngẫu nhiên là rất quan trọng cho phép chuyển mạch kênh, tìm kiếm các hoạt động hợp,
và các dịch vụ truyền động. Một số hình ảnh một bức tranh CRA để giải mã và đứng
trước nó để hiển thị có thể có những tham chiếu dự đoán interpicture đến hình ảnh mà
không có sẵn tại các bộ giải mã ,do đó phải được loại bỏ bởi một bộ giải mã bắt đầu quá
trình giải mã của nó tại một điểm CRA.
Các vị trí của các điểm mối nối từ bitstreams khác nhau mã ban đầu có thể được chỉ ra
bằng cách truy cập liên kết bị phá vỡ (BLA) hình ảnh. Một hoạt động bitstream nối có thể
được thực hiện bằng cách thay đổi các đơn vị loại hình CRA NAL trong một bitstream để
các giá trị mà chỉ là một hình ảnh BLA và cách nối các bitstream mới ở vị trí của một bức
tranh RAP trong bitstream khác. Một bức tranh RAP có thể là một hình ảnh IDR, CRA,
hoặc BLA, và cả hai CRA và BLA hình ảnh có thể được theo sau bởi hình ảnh RASL
trong bitstream (tùy thuộc vào giá trị cụ thể của các đơn vị NAL loại sử dụng cho một
bức tranh BLA). Bất kỳ hình ảnh RASL liên kết với một hình ảnh BLA luôn phải được
loại bỏ bởi bộ giải mã, vì chúng có thể chứa các tham chiếu đến hình ảnh mà không phải
là thực sự hiện diện trong bitstream do một hoạt động nối. Các loại khác của bức tranh đó
có thể làm theo một bức tranh RAP để giải mã và đứng trước nó để đầu ra là giải mã truy
cập ngẫu nhiên hàng đầu (Radl) hình ảnh, mà không thể có những tham chiếu đến bất kỳ
hình ảnh mà trước hình ảnh RAP để giải mã. RASL và Radl hình ảnh được gọi chung là
hình ảnh hàng đầu (LP). Hình ảnh đó làm theo một bức tranh RAP trong cả để giải mã và
đầu ra thứ tự, mà được biết đến như là hình ảnh dấu.
Bảng 1

10

3.2. Hỗ trợ Phân tán:
Tương tự như các tính năng khả năng mở rộng thời gian trong H.264 / MPEG-4 AVC
video khả năng mở rộng mã hóa (SVC) mở rộng thời gian trong các đơn vị tiêu đề NAL,

mà chỉ ra một mức độ trong một cấu trúc dự đoán thời gian theo cấp bậc. Điều này đã
được giới thiệu để đạt được khả năng mở rộng theo thời gian mà không cần phải phân
tích các bộ phận của bitstream khác với đơn vị NAL tiêu đề.
Trong những trường hợp nhất định, số lượng các lớp con thời gian giải mã có thể
được điều chỉnh trong quá trình giải mã của một chuỗi video được mã hóa. Các vị trí của
một điểm trong bitstream mà chuyển mạch lớp con có thể bắt đầu giải mã một số lớp thời
gian cao hơn có thể được chỉ định bởi sự hiện diện của lớp con truy cập thời gian (TSA)
hình ảnh và bước tiến khôn ngoan TSA (STSA) hình ảnh. Ở vị trí của một bức tranh
TSA, nó có thể chuyển đổi từ một lớp con giải mã thời gian thấp hơn để giải mã bất kỳ
lớp con thời gian cao hơn, và ở vị trí của một bức tranh STSA, nó có thể chuyển đổi từ
một lớp con giải mã thời gian thấp hơn để giải mã chỉ có một Đặc biệt, lớp con thời gian
cao hơn (nhưng không phải là lớp tiếp tục ở trên đó, trừ khi họ cũng chứa STSA hoặc
TSA hình ảnh).
11

Hình 2. Ví dụ về một cấu trúc thời gian dự đoán và các giá trị POC, để giải mã,
và nội dung RPC cho mỗi bức ảnh.
3.3. Thông số khác
VPS đã được thêm vào như là siêu dữ liệu để mô tả các đặc tính tổng thể của chuỗi
video được mã hóa, bao gồm cả phụ thuộc giữa các lớp con tạm thời. Mục đích chính của
việc này là để cho phép mở rộng tương thích của các tiêu chuẩn về hiệu tại tầng hệ thống,
ví dụ như, khi lớp cơ bản của một tương lai mở rộng khả năng mở rộng bitstream hoặc
MultiView sẽ cần phải được giải mã bởi một bộ giải mã di sản, nhưng mà thêm thông tin
về cấu trúc bitstream mà chỉ liên quan đến các bộ giải mã tiên tiến sẽ được bỏ qua.
3.4. Tham khảo Hình Sets và tham khảo Hình Lists
Đối với quản lý hình ảnh nhiều tài liệu tham khảo, một tập hợp các hình ảnh trước đó
được giải mã cần phải có mặt trong triển mã đệm hình ảnh (DPB) cho việc giải mã của
phần còn lại của hình ảnh trong bitstream. Để xác định những hình ảnh này, một danh
sách các số thứ tự hình ảnh (POC) được truyền đi trong mỗi tiêu đề slice. Tập hợp các

hình ảnh tham khảo giữ lại được gọi là hình ảnh tham khảo thiết (RPS). Vả. 2 cho thấy
giá trị POC, giải mã trình tự, và Ross cho một ví dụ cấu trúc dự đoán thời gian.
Như trong H.264 / MPEG-4 AVC, có hai danh sách được xây dựng như là danh sách
các hình ảnh trong DPB, và chúng được gọi là
Danh mục tài liệu tham khảo hình ảnh và danh sách 0 ,1. Một chỉ số được gọi là một
chỉ số hình ảnh tham chiếu được sử dụng để xác định một hình ảnh đặc biệt trong một
12

trong những danh sách này. Một hình ảnh có thể được lựa chọn từ một trong những danh
sách này. Hai hình ảnh được lựa chọn-một từ mỗi danh sách. Khi một danh sách chứa chỉ
có một hình ảnh, các chỉ số hình ảnh tham khảo ngầm có giá trị 0 và không cần phải được
truyền trong bitstream. Các cú pháp cao cấp cho việc xác định RPS ,danh sách hình ảnh
tham khảo cho dự đoán interpicture là mạnh mẽ hơn để mất mát dữ liệu hơn trong việc
thiết kế H.264 / MPEG-4 AVC trước và là thuận lợi hơn cho các hoạt động như truy cập
ngẫu nhiên và chế độ hoạt động (ví dụ như, tua đi, tua lại nhanh, tìm kiếm, và chuyển đổi
bitstream thích ứng). Một khía cạnh quan trọng của cải tiến này là cú pháp rõ ràng hơn,
thay vì phụ thuộc vào suy luận từ các trạng thái nội bộ được lưu trữ trong quá trình giải
mã vì nó giải mã hình ảnh bitstream bằng hình ảnh. Hơn nữa, cú pháp có liên quan cho
các khía cạnh của thiết kế thực sự là đơn giản hơn nó đã được cho H.264 / MPEG-4
AVC.
IV. HEVC-KỸ THUẬT MÃ HÓA VIDEO
Các thuật toán mã hóa nguồn cơ bản là một lai của dự đoán interpicture khai thác ,
thống kê về thời gian, dự đoán intrapicture để khai thác sự phụ thuộc thống kê không
gian, và chuyển đổi mã hóa của các dự đoán tín hiệu còn lại để tiếp tục khai thác những
phụ thuộc thống kê không gian. Không có yếu tố mã hóa duy nhất trong thiết kế HEVC
cung cấp phần lớn các cải tiến không thể trong yếu của nó trong BẢN nén liên quan đến
các tiêu chuẩn mã hóa video trước. Đó là, thay vào đó, đa số những cải tiến nhỏ mà thêm
đến sự tăng trọng yếu.
4.1. Lấy mẫu đại diện của hình ảnh

Đối với các tín hiệu video màu, HEVC thường sử dụng một không gian màu YCbCr
tristimulus với 4: 2: 0 mẫu (mặc dù phần mở rộng sang các định dạng mẫu khác là đơn
giản, và được quy hoạch trong một phiên bản tiếp theo). Điều này phân biệt một màu đại
diện thành ba thành phần được gọi là Y, Cb, Cr. Các thành phần Y cũng được gọi là
luma, và đại diện cho độ sáng. Hai thành phần chroma Cb và Cr đại diện cho mức độ mà
các màu từ xám lệch về phía màu xanh và màu đỏ tương ứng. Bởi vì hệ thống thị giác của
con người là nhạy cảm hơn với luma hơn chroma, 4: 2: 0 cấu trúc lấy mẫu thường được
sử dụng, trong đó mỗi thành phần chroma có một phần tư số lượng mẫu của các thành
phần luma (một nửa số lượng mẫu trong cả chiều ngang và chiều dọc). Mỗi mẫu cho mỗi
thành phần thường được đại diện với 8 hoặc 10 b chính xác, và những trường hợp 8-b là
một trong những điển hình hơn. Trong phần còn lại của bài viết này, chúng tôi tập trung
sự chú ý của chúng tôi về việc sử dụng điển hình: các thành phần YCbCr 4: 2: 0 mẫu và 8
b mỗi mẫu cho các đại diện của các đầu vào được mã hóa và giải mã tín hiệu video đầu
ra. Các hình ảnh video được thường dần dần lấy mẫu với hình chữ nhật kích thước
W × H trong đó W là chiều rộng và H là chiều cao của hình ảnh về mẫu luma. Mỗi mảng
13

thành phần chroma, với 4: 2: 0 lấy mẫu, sau đó là W / 2 × H / 2. Cho một tín hiệu video
như vậy, cú pháp HEVC ngăn bằng những hình ảnh tiếp theo mô tả sau.
4.2. Bộ phận của hình ảnh vào đơn vị mã hóa
Một hình ảnh được phân chia thành các đơn vị mã hóa cây (CTUs), mà mỗi chứa
CTBs luma và chroma CTBs. Một luma CTB bao gồm một khu vực hình chữ nhật hình
ảnh của L × L của các thành phần luma và các sắc độ tương ứng CTBs bọc lẫn L/2 × L/2
mẫu của mỗi của hai thành phần chroma. Giá trị của L có thể bằng 16, 32, hoặc 64 như
được xác định bởi một yếu tố cú pháp đặc hiệu mã hóa trong các SPS. So với các khối
mẫu truyền thống sử dụng một mảng kích thước cố định fi 16 × 16 mẫu luma, như được
sử dụng bởi tất cả của ITU-T và ISO / IEC JTC 1 chuẩn video mã hóa từ H.261 (mà đã
được chuẩn hóa vào năm 1990), HEVC hỗ trợ kích thước CTBs lựa chọn theo nhu cầu
của các bộ mã hóa về bộ nhớ và yêu cầu tính toán. Sự hỗ trợ của CTBs lớn hơn so với

tiêu chuẩn trước đó là đặc biệt khi mã hóa nội dung video độ phân giải cao. Các CTB
luma và CTBs hai sắc độ cùng với cú pháp liên quan tạo thành một CTU. CTU là đơn vị
chế biến cơ bản được sử dụng trong các tiêu chuẩn để xác định quá trình giải mã.
4.3. Bộ phận của CTB vào NHTM
Các khối luma và chroma CTBs có thể được sử dụng trực tiếp như các CB hoặc có thể
được tiếp tục phân chia thành nhiều NHTM. Phân vùng là đạt được bằng cách sử dụng
các cấu trúc cây. Các phân vùng cây trong HEVC thường được áp dụng đồng thời với cả
luma và sắc độ, mặc dù trường hợp ngoại lệ được áp dụng khi kích thước tối thiểu nhất
định được đạt cho chroma. CTU chứa một cú pháp cho phép tách các NHTM đến một
kích thước phù hợp được lựa chọn dựa trên các đặc tính tín hiệu của khu vực đó được bao
phủ bởi các CTB. Quá trình tách có thể được lặp cho đến khi kích thước cho một CB
luma đạt đến một kích thước tối thiểu cho phép luma CB được chọn bởi bộ mã hóa bằng
cách sử dụng cú pháp trong SPS và luôn luôn là 8 × 8 hoặc lớn hơn (trong đơn vị của
mẫu luma). Các ranh giới của hình ảnh là theo đơn vị tối thiểu cho phép kích thước luma
CB. Kết quả là, ở các cạnh phải và phía dưới của bức tranh, một số CTUs có thể bao gồm
các khu vực mà là một phần bên ngoài ranh giới của hình ảnh. Tình trạng này được phát
hiện bởi các bộ giải mã và CTU là mặc nhiên được phân chia như cần thiết để làm giảm
kích thước CB đến điểm mà toàn bộ CB vào hình ảnh.
4.4. PBs
Các chế độ dự đoán cho CU được báo hiệu như là nội, dù nó sử dụng trong bức
ảnh(không gian) dự đoán hoặc trong bức ảnh(thời gian) dự đoán. Khi chế độ dự đoán
được hiệu như bên trong, kích thước PB, đó là kích thước khối mà tại đó các chế độ dự
đoán trong bức ảnh được thành lập là giống như kích thước CB cho tất cả các kích thước
block trừ kích thước CB nhỏ nhất được phép vào bitstream. Đối với các trường hợp sau,
14

một mặt cho biết xem CB được chia thành bốn góc của mỗi PB có chế độ dự đoán trong
bức ảnh riêng của họ. Lý do cho phép phân chia này là để cho phép lựa chọn chế độ dự
đoán hình ảnh liên riêng biệt cho khối nhỏ như 4 × 4 trong kích thước. Khi dự đoán luma

trong bức ảnh hoạt động với 4 × 4 khối, dự đoán trang bức ảnh chroma cũng sử dụng 4 ×
4 khối (mỗi bao gồm các khu vực hình ảnh tương tự như khối bốn 4 × 4 luma). Kích
thước thực tế tại khu vực mà dự đoán trong bức ảnh hoạt động (đó là khác biệt với các
kích thước PB, mà tại đó các chế độ dự đoán trong bức ảnh được thành lập) phụ thuộc
vào các phân vùng mã hóa còn lại được mô tả như sau. Khi chế độ dự đoán được hiệu
như inter, nó là số liệu luma và chroma NHTM được chia thành một, hai hoặc bốn PBs.
Việc chia tách thành bốn PBs chỉ được phép khi kích thước CB bằng với kích thước tối
thiểu cho phép CB, sử dụng một loại hình tương đương của tách như nếu không có thể
được thực hiện ở cấp CB của thiết kế chứ không phải ở cấp PB. Khi một CB được chia
thành bốn PBs, mỗi PB bao gồm một góc phần tư của CB. Khi một CB được chia thành
hai PBs, sáu loại tách này là có thể. Các khả năng phân vùng cho trong bức ảnh dự đoán
các CB được mô tả trong hình. 3. Các phân vùng trên minh họa cho trường hợp không
tách CB có kích thước M × M, tách các CB thành hai PBs kích thước M × M/2 hoặc M/2
× M, hoặc chia tách nó thành bốn PBs của size M/2 × M/2. Bốn loại phân vùng thấp hơn
trong hình. 3 được gọi là phân vùng chuyển động như bất đối xứng (AMP), và chỉ được
phép khi M là 16 hoặc lớn hơn cho luma. Một PB của phân vùng bất đối xứng có chiều
cao hoặc chiều rộng M / 4 và chiều rộng hoặc chiều cao M, tương ứng, và PB khác LLS
phần còn lại của CB bởi có một chiều cao hoặc chiều rộng của 3M / 4 và chiều rộng hoặc
chiều cao M. Mỗi trong bức ảnh PB được gán một hoặc hai vectơ chuyển động và các chỉ
số hình ảnh tham khảo. Để hạn chế tối đa trường hợp xấu nhất băng thông bộ nhớ, PBs
kích thước luma 4 × 4 không được phép cho dự đoán trong bức ảnh , và PBs của luma
kích thước 4 × 8 và 8 × 4 được giới hạn cho mã hóa. Quá trình dự đoán trong bức ảnh
được trình bày cụ thể như sau. Các luma và chroma PBs, cùng với cú pháp dự đoán liên
quan, tạo PU.

15

Hình. 3. Chế độ để tách một CB vào PBs, chịu hạn chế kích thước nhất định. Đối
với hình ảnh dự đoán các CB, chỉ M × M và M/2 × M/2 được hỗ trợ

4.5. Cấu trúc phân vùng và đơn vị
Đối với mã hóa còn sót lại, một CB có thể được phân chia thành đệ quy đổi khối
(TBS). Các phân vùng được đánh dấu bằng một . Chỉ CB và TB phân vùng vuông là nơi
một khối có thể được đệ quy chia thành các góc phần tư, như minh họa trong hình. 4. Đối
với một CB luma nhất định kích thước M × M, một tín hiệu cho dù nó được chia thành
bốn khối có kích thước M/2 × M/2. nếu tách xa hơn là có thể, như báo hiệu bởi độ sâu tối
đa chỉ ra trong SPS, mỗi góc phần tư được giao cho biết cho dù nó được chia thành bốn
phần. Các khối nút lá còn lại là các biến đổi khối được tiếp tục xử lý bằng cách chuyển
đổi mã hóa. Các bộ mã hóa cho các TB luma tối đa và tối thiểu kích thước mà nó sẽ sử
dụng. Splitting là tiềm ẩn khi có kích thước CB là lớn hơn so với kích thước tối đa TB.
Không tách là tiềm ẩn khi chia sẽ cho kết quả trong một kích thước luma TB nhỏ hơn tối
thiểu quy định. Kích thước chroma TB là một nửa kích thước TB luma trong mỗi chiều,
trừ khi kích thước luma TB là 4 × 4, trong trường hợp một đơn 4 × 4 sắc độ TB được sử
dụng cho các khu vực được bao phủ bởi bốn 4 × 4 TBS luma. Trong các mẫu được giải
mã của TBS gần nhất lân cận (trong hoặc ngoài CB) được sử dụng làm dữ liệu tham khảo
cho dự đoán trong bức ảnh. Ngược lại với các tiêu chuẩn trước đó, việc thiết kế cho phép
một HEVC TB để chiều dài qua nhiều PBs cho CUS để tối đa hóa các mã hóa tiềm năng
của các phân vùng TB cấu trúc.

16

Hình 4. Phân ngành của một CTB vào các CB
4.6. Slices
Một chuỗi các CTUs đó được xử lý theo thứ tự của một raster quét. Một hình ảnh có
thể được chia thành một hoặc một vài lát như thể hiện trong hình 5 sẽ có một hình ảnh là
một tập hợp của một hoặc nhiều lát. Slice được khép kín trong ý nghĩa rằng, cho sự sẵn
có của các trình tự và thông số hình ảnh bộ hoạt động, các yếu tố cú pháp của họ có thể
được phân tích từ các bitstream và các giá trị của các mẫu trong các khu vực của hình ảnh
mà slice đại diện có thể được một cách chính xác giải mã (ngoại trừ đối với những tác

động của trong vòng gần cạnh của slice) mà không sử dụng bất kỳ dữ liệu từ slice khác
trong cùng một hình ảnh. Điều này có nghĩa là dự đoán trong hình ảnh (ví dụ trong bức
ảnh dự đoán tín hiệu không gian hoặc dự đoán của các vectơ chuyển động) không được
thực hiện qua các biên giới slice. Một số thông tin từ các lát khác có thể, tuy nhiên, là cần
thiết để áp dụng trong vòng qua biên của slice. Mỗi miếng có thể được mã hóa bằng cách
sử dụng các loại mã hóa khác nhau như sau.
1) Tôi cắt: Một lát trong đó tất cả cus của slice được mã hóa bằng cách sử dụng chỉ
dự đoán trong hình ảnh.
2) P slice: Ngoài các loại mã hóa của một I lát, một số cus của P lát cũng có thể được
mã hóa bằng cách sử dụng dự đoán với ít nhất một tín hiệu dự đoán bù chuyển động mỗi
PB. P lát chỉ sử dụng danh sách hình ảnh tham khảo 0.
3) B lát: Ngoài các loại mã hóa có sẵn trong một P lát, một số cus của B lát cũng có
thể được mã hóa bằng cách sử dụng dự đoán trong bức ảnh với ít nhất hai tín hiệu dự
đoán bù mỗi PB.
Lát B sử dụng cả hai danh sách hình ảnh tham khảo 0 và danh sách 1. Mục đích chính
của lát là sau khi mất mát dữ liệu. Hơn nữa, lát thường bị hạn chế sử dụng một số đa là
bit, ví dụ, để truyền packetized. Cho nên, lát thường có thể chứa một số lượng rất khác
nhau của CTUs mỗi miếng một cách phụ thuộc vào các hoạt động trong các cảnh video.
17

Ngoài lát, HEVC là khép kín và độc lập giải mã vùng của hình ảnh. Mục đích chính
của gạch là để cho phép việc sử dụng kiến trúc xử lý song song để mã hóa và giải mã.
Nhiều gạch có thể chia sẻ thông tin tiêu đề bằng được chứa trong cùng một lát. Ngoài ra,
một gạch duy nhất có thể chứa nhiều lát. Một gạch bao gồm một nhóm chữ nhật sắp xếp
của CTUs (thông thường, nhưng không nhất thiết, tất cả chúng có chứa khoảng cùng một
số CTUs), như thể hiện trong hình. 5b . Để hỗ trợ các chi tiết của dữ liệu gói tiếng, độc
lập được bổ sung. Cuối cùng, với WPP, một lát được chia thành các hàng của CTUs.
Việc giải mã của mỗi hàng có thể được bắt đầu ngay sau một vài quyết định cần thiết để
dự báo và thích ứng đã được thực hiện ở hàng ghế trước. Điều này hỗ trợ xử lý song song

của hàng CTUs bằng cách sử dụng một số luồng xử lý trong bộ mã hóa hoặc giải mã
(hoặc cả hai). Một ví dụ được hiển thị trong hình. 5c. Đối với thiết kế đơn giản, WPP
không được phép để được sử dụng kết hợp với gạch (mặc dù các tính năng có thể, về
nguyên tắc, hoạt động đúng với nhau).

Hình 5. Phân ngành của các bức

18

4.7. Dự đoán liên ảnh
Ảnh dự đoán hoạt động theo quy mô lao, và trước đó đã được giải mã mẫu ranh giới
từ không gian lân cận TBS được sử dụng để tạo thành các tín hiệu dự đoán. Dự đoán
hướng với 33 định hướng hướng khác nhau cho các kích cỡ (vuông) TB từ 4 × 4 đến 32 ×
32.

Hình 6. Các chế độ và phương hướng định hướng cho dự đoán liên hình ảnh.
Các hướng dự đoán có thể được hiển thị trong hình 6. pháp thay thế cực, dự đoán
phẳng (giả định một biên độ bề mặt có độ dốc ngang và dọc có nguồn gốc từ biên giới)
và DC dự đoán (một ở bề mặt với một giá trị phù hợp với các giá trị trung bình của các
mẫu biên) cũng có thể được sử dụng. Đối với sắc độ, ngang, dọc, phẳng, và DC chế độ
dự đoán có thể được báo hiệu một cách rõ ràng, hoặc chế độ dự đoán chroma có thể được
chỉ định để được giống như các chế độ dự đoán luma (và, như một trường hợp đặc biệt để
tránh tín hiệu dư thừa, khi một của đầu tiên ,bốn lựa chọn được chỉ định và cũng giống
như các chế độ dự đoán luma, chế độ được áp dụng thay thế). Mỗi CB có thể được mã
hóa bằng một trong những loại mã hóa, tùy thuộc vào loại slice. Tương tự như H.264 /
MPEG-4 AVC, hình ảnh nội tiên đoán mã hóa được hỗ trợ trong tất cả các loại slice.
19

HEVC hỗ trợ hình ảnh trong nội bộ tiên đoán phương pháp mã hóa khác nhau gọi là
Intra-Góc, Intra-Planar và Intra-DC. Các phần dưới đây sẽ trình bày một lời giải thích
ngắn gọn về các thêm và một số kỹ thuật được áp dụng chung.
1) PB phân vùng: Một CB dự đoán kích thước M×M có thể có một trong hai loại
phân vùng PB gọi là × PART-2N 2N và PART-N × N,trong đó chỉ ra rằng các CB không
chia và thứ hai chỉ ra rằng các CB được chia thành bốn kích thước bằng nhau PBs.
(Khái niệm, trong ký hiệu này, N = M/2).
2) Dự đoán Intra-góc: không gian tên miền dự đoán trước đây đã được sử dụng thành
công trong H.264 / MPEG-4 AVC. Các dự đoán của HEVC tương tự hoạt động trong
lĩnh vực không gian, nhưng được mở rộng trong yếu đáng, chủ yếu là do sự gia tăng kích
thước của TB và tăng số lượng các hướng dự đoán có thể lựa chọn. So với tám hướng dự
đoán của H.264 / MPEG- 4 AVC, HEVC hỗ trợ tổng cộng 33 dự đoán hướng
3) Intra-Planar và Intra-DC dự đoán: Ngoài dự đoán Intra-góc nhắm vùng có cạnh
hướng mạnh mẽ, HEVC hỗ trợ hai phương pháp dự báo khác, Intra-Planar và Intra-DC,
mà chế độ tương tự trong H. 264 / MPEG-4 AVC. Trong khi Intra-DC trước ngôn từ sử
dụng giá trị trung bình của các mẫu tham khảo cho các dự báo, giá trị trung bình của
hai tiên đoán tuyến tính sử dụng bốn mẫu tham khảo góc được sử dụng trong nội Planar
dự đoán để ngăn chặn sự gián đoạn dọc theo ranh giới khối. Các chế độ dự đoán IntraPlanar được hỗ trợ ở tất cả các kích thước khóa trong HEVC, trong khi H.264 / MPEG-4
AVC hỗ trợ dự đoán chiếc máy bay chỉ khi kích thước luma PB là 16 × 16, và dự đoán
chiếc máy bay của nó hoạt động hơi khác nhau từ các dự đoán phẳng trong HEVC.
4) Tham khảo mẫu Smoothing: Trong HEVC, các mẫu tham khảo sử dụng cho các dự
đoán hình ảnh liên đôi khi bởi [1 2 1]/4 trong một cách tương tự như những gì đã được
sử dụng cho 8 × 8 dự đoán hình ảnh liên trong H.264 / MPEG-4 AVC. HEVC làm mịn
các hoạt động thích nghi hơn, theo hướng từ, số lượng của sự gián đoạn phát hiện, và
kích thước khối.
5) Để loại bỏ các bất liên tục dọc theo khối ranh giới, trong ba chế độ, Intra-DC (chế
độ 1) và Intra-góc [k] với k = 10 hoặc 26 (chính xác ngang hoặc thẳng đứng chính xác),
6) Các mẫu tham khảo không có sẵn tại các lát gạch hoặc ranh giới. Ngoài ra, khi
một tính năng mất khả năng phục hồi được gọi là hạn chế dự báo trong nội bộ được kích
hoạt, các mẫu tham khảo láng giềng bên trong bất kỳ dự đoán PB cũng được coi là

không có sẵn để tránh để các dữ liệu hình ảnh có khả năng bị hỏng trước khi giải mã
truyền lỗi vào các tín hiệu dự đoán. Trong khi chỉ có chế độ dự đoán Intra-DC được
phép cho những trường hợp như vậy trong H.264 / MPEG-4 AVC, HEVC cho phép việc
sử dụng các phương thức dự đoán khác sau khi thay thế các giá trị mẫu tham khảo
20

7) Chế độ mã hóa: HEVC hỗ trợ tổng cộng 33 chế độ dự đoán Intra-góc và IntraPlanar và Intra-DC chế độ dự báo cho dự đoán luma cho tất cả các kích thước block. Do
sự gia tăng số lượng các hướng, HEVC xem xét ba phương thức có thể xảy ra nhất
(MPMs) khi mã hóa các chế độ dự đoán, chứ không phải là một chế độ có thể xảy ra
nhất xem xét trong H.264 / MPEG-4 AVC. Trong ba chế độ có thể xảy ra nhất, đầu tiên
kinh hai được theo các phương thức dự đoán các bên trên và bên trái PBs nếu những
PBs có sẵn và được mã hóa bằng cách sử dụng một chế độ dự đoán. Bất kỳ chế độ dự
báo không hoạt động được coi là Intra-DC.
Các PB trên luma CTB luôn luôn được coi là không có sẵn để tránh sự cần thiết để
lưu trữ một bộ đệm dòng của chế độ dự đoán luma gần nhất. Khi hai chế độ có thể xảy ra
nhất là không bằng nhau, chế độ xác suất lớn nhất thứ ba được thiết lập bằng IntraPlanar, Intra-DC, theo thứ tự này, không phải là một bản sao của một trong những đầu
tiên hai chế độ. Khi hai chế độ có thể xảy ra nhất là như nhau, nếu chế độ fi đầu tiên này
có giá trị Intra-Planar hoặc Intra-DC, các phương thức có thể xảy ra nhất thứ hai và thứ
ba được phân công như Intra-Planar, Intra-DC,theo đó các chế độ này, theo thứ tự này,
không phải là bản sao. Khi hai chế độ có thể xảy ra nhất là như nhau và các chế độ đầu
tiên có giá trị Intra-Góc, các phương thức có thể xảy ra nhất thứ hai và thứ ba được chọn
là hai chế độ dự đoán góc mà gần gũi nhất với các góc (tức là, các giá trị của k) của đầu
tiên .Trong trường hợp đó, chế độ dự đoán luma hiện nay là một trong ba MPMs, chỉ có
chỉ số MPM được truyền đến các bộ giải mã. Nếu không, các chỉ số của chế độ dự đoán
luma hiện nay không bao gồm ba MPMs được truyền đến các bộ giải mã bằng cách sử
dụng một 5b có chu cổ định.
4.8 Dự đoán trong hình ảnh
1) PB Phân vùng: So với dự đoán các CB, HEVC hỗ trợ nhiều hình dạng phân vùng
PB cho dự đoán NHTM. Các chế độ phân vùng của PART-2N×2N, PART-2N×N, và

PART-N×2N chỉ ra các trường hợp khi CB không được chia, tách thành hai bằng kích
thước chiều ngang PBs, và chia thành hai bằng kích thước PBs theo chiều dọc , tương
ứng. PART-N×N đặc hiệu mà các CB được chia thành bốn bằng kích thước PBs, nhưng
chế độ này chỉ được hỗ trợ khi kích thước CB bằng với kích thước nhỏ nhất CB phép.
Ngoài ra, có bốn loại phân vùng có hỗ trợ tách thành hai CB PBs có kích cỡ khác nhau:
PART-2N×nu, PART-2N nD, PART-nL×2N, và PART-nR×2N. Những loại này được
gọi là phân vùng chuyển động không đối xứng.
2) Mẫu Interpolation: Các mẫu của PB cho một dự đoán CB thu được từ những người
trong một khu vực khối tương ứng trong các hình ảnh tham khảo bởi một số hình ảnh
tham khảo, mà là ở một vị trí thay thế bởi các thành phần ngang và dọc của các vectơ
chuyển động. Ngoại trừ các trường hợp khi các vectơ chuyển động có một giá trị số
21

nguyên, phân số mẫu nội suy được sử dụng để tạo ra các mẫu dự đoán cho các vị trí lấy
mẫu. Như trong H.264 / MPEG-4 AVC, HEVC hỗ trợ vector chuyển động với các đơn vị
của một phần tư của khoảng cách giữa các mẫu luma. Đối với mẫu sắc độ, độ chính xác
các vectơ chuyển động được xác định theo các định dạng lấy mẫu sắc độ, mà cho 4 Kết
quả 0 mẫu trong các đơn vị của 1/8 của khoảng cách giữa các mẫu chroma 2.

Hình. 7. Vị trí lấy mẫu phân đoạn cho luma
Các mẫu phân đoạn cho mẫu luma trong HEVC sử dụng ứng dụng tách biệt của một
cho các vị trí nửa mẫu và bảy cho các vị trí mẫu trung tâm. Điều này trái ngược với quá
trình được sử dụng trong H.264/MPEG-4 AVC, mà áp dụng một quá trình nội suy hai
giai đoạn của đầu tiên tạo ra các giá trị của một hoặc hai mẫu lân cận ở vị trí nửa mẫu sử
dụng sáu, làm tròn kết quả trung gian, và sau đó hai giá trị trung bình ở vị trí số nguyên
hoặc nửa mẫu. HEVC thay vì sử dụng một quá trình duy nhất tách nội suy để tạo ra tất cả
các vị trí phân đoạn không hoạt động trung gian, giúp tăng độ chính xác và kiến trúc của
22

mẫu phân đoạn nội suy. Độ chính xác suy cũng được cải thiện bằng cách sử dụng trong
HEVC

Trong hình 7, các vị trí dán nhãn với chữ hoa chữ, Ai, j, đại diện cho các mẫu luma có
sẵn tại các địa điểm mẫu số nguyên, trong khi các vị trí khác có nhãn với chữ thường biểu
diễn các mẫu tại các địa điểm mẫu số nguyên không, mà cần phải được tạo ra bằng cách
nội suy . Các mẫu nhãn a0, j, b 0, j, c 0, j, d 0,0, 0,0 h, và n0,0 được bắt nguồn từ các mẫu
Ai, j bằng cách áp dụng tám cho nửa mẫu vị trí và bảy cho các vị trí tứ mẫu như sau:

nơi B ≥ liên tục 8 là bit độ sâu của các mẫu tham khảo (và thường là B = 8 cho hầu
hết các ứng dụng) được đưa ra trong Bảng II. Trong các công thức, biểu thị một >> dịch
chuyển số học ngay. Các mẫu nhãn e0,0, f 0,0, 0,0 g, i 0,0, 0,0 j, k 0,0, 0,0 p, q 0,0, và
r0,0 có thể được bắt nguồn bởi áp dụng tương ứng với các mẫu nằm ở a0 liền kề theo
chiều dọc, j, b 0, j và c0, vị trí j như sau:

23

Khi B được tính bằng 8, vì vậy các giá trị tương tự có thể được tính toán trong trường
hợp này bằng cách áp dụng đứng trước. Khi thực hiện một cách thích hợp, quá trình bồi
thường chuyển động của HEVC có thể được thực hiện bằng cách sử dụng các yếu tố chỉ
lưu trữ 16-b (mặc dù chăm sóc phải được thực hiện để làm điều này một cách chính xác).
Đó là vào thời điểm này trong quá trình trọng chọn từ trước được áp dụng khi lựa chọn
bởi các bộ mã hóa. Trong khi đó, H.264/MPEG-4 AVC hỗ trợ cả về mặt thời gian tiềm
ẩn và rõ ràng dự đoán trọng, trong HEVC chỉ dự đoán có trọng rõ ràng được áp dụng, bởi
tỉ lệ và bù đắp các dự đoán với các giá trị được gửi một cách rõ ràng bởi các bộ mã hóa.
Các bit độ sâu của các dự báo này sau đó được điều chỉnh để các bit gốc độ sâu của các
mẫu tham khảo..

Trong H.264 / MPEG-4 AVC, đến ba giai đoạn của hoạt động làm tròn được yêu cầu
để có được mỗi mẫu dự đoán (cho mẫu nằm ở vị trí tứ mẫu). Nếu dự đoán được sử dụng,
tổng số các hoạt động làm tròn là sau đó bảy trong trường hợp xấu nhất. Trong HEVC,
24

nhiều nhất là hai hoạt động làm tròn là cần thiết để có được mỗi mẫu nằm tại các vị trí tứ
mẫu, do đó đã làm tròn hoạt động là khu rừng đặc dụng trong trường hợp xấu nhất khi
được sử dụng. Hơn nữa, trong việc sử dụng phổ biến nhất, nơi độ sâu bit B là 8 b, tổng số
làm tròn hoạt động trong trường hợp xấu nhất là tiếp tục giảm đến 3. Do số lượng thấp
hơn các hoạt động làm tròn, các lỗi làm tròn số tích lũy được giảm và lớn được kích hoạt
liên quan đến cách thức thực hiện các hoạt động cần thiết trong các bộ giải mã. Quá trình
suy mẫu phân đoạn cho các thành phần chroma là tương tự như đối với các thành phần
luma, ngoại trừ các số là 4 và độ chính xác phân đoạn là 1/8 cho 4 thông thường: 2: 0
dạng chroma trường hợp. HEVC một bộ bốn cho vị trí thứ tám mẫu, được cho trong
Bảng III đối với trường hợp 4: 2: 0 dạng chroma (ở đâu, trong H.264/MPEG-4 AVC, chỉ
có hai được áp dụng). các giá trị ký hiệu là filter1 [i], fi [i] lter2, fi l- ter3 [i], và filter4 [i]
với i = -1, ..., 2 được sử dụng để liên polating 1/8, 2 / 8, 3/8, và 4/8 vị trí phân đoạn cho
các mẫu sắc độ, tương ứng. Sử dụng tính đối xứng cho / 8 5, 6/8, và 7 / vị trí phân đoạn
thứ 8, các giá trị nhân đôi của filter3 [1-i], fi lter2 [1-i], và fi lter1 [1-i] với i = -1, ..., 2
được sử dụng tương ứng.
3) Merge Mode: thông tin chuyển động thông thường bao gồm các giá trị chuyển
vectơ chuyển động theo chiều ngang và thẳng đứng, một hoặc hai chỉ số hình ảnh tham
khảo, và, trong trường hợp của khu vực sự tiên đoán trong B lát, một trong đó tham khảo
danh sách hình ảnh có liên quan đến mỗi chỉ số. HEVC bao gồm một chế độ nối để lấy
được các thông tin chuyển động từ khối không gian, tạm thời láng giềng. Nó được ký
hiệu là chế độ nối vì nó tạo thành một khu vực sáp nhập chia sẻ tất cả các thông tin
chuyển động. Các chế độ nối là khái niệm tương tự như trực tiếp và bỏ qua chế độ trong
H.264/MPEG-4 AVC. Tuy nhiên, có hai sự khác biệt quan trọng. Đầu tiên, nó truyền tải
thông tin chỉ số để lựa chọn một trong số nhiều ứng cử viên có sẵn, một cách đôi khi

được gọi là một chương trình cạnh tranh chuyển động. Nó cũng rõ ràng danh sách hình
ảnh tham khảo và chỉ số hình ảnh.

25

Tìm hiểu về H265

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về