Tải bản đầy đủ (.pdf) (6 trang)

Nghiên cứu về các công cụ hỗ trợ mã hóa trong chuẩn mã hóa H.266/VVC với dữ liệu ảnh Light Field

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (597.5 KB, 6 trang )

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

NGHIÊN CỨU VỀ CÁC CƠNG CỤ HỖ TRỢ MÃ
HĨA TRONG CHUẨN MÃ HĨA H.266/VVC VỚI
DỮ LIỆU ẢNH LIGHT FIELD
Phí Cơng Huy, Nguyễn Cảnh Châu
Học viện Cơng nghệ Bưu chính Viễn thơng
,
Abstract - Các tiêu chuẩn mã hóa video được phát triển để truyền
và lưu trữ dữ liệu hiệu quả, với nhiều yêu cầu về tốc độ bit, chất
lượng hình ảnh, độ trễ, khả năng truy cập ngẫu nhiên, độ phức
tạp, v.v. Dữ liệu LF là một phương pháp thu thập dữ liệu tổng hợp
cho phép xử lý hậu kỳ hình ảnh đa dạng như trích xuất 3D, thay
đổi điểm nhìn và lấy nét sau khi chụp. Hơn nữa, LF cung cấp khả
năng thu thập thơng tin phong phú, ví dụ, kết cấu, thơng tin hình
học, v.v. Do đó, kỹ thuật nén hiệu quả đóng một vai trị quan trọng
khi sử dụng dữ liệu LF, do lượng dữ liệu lớn. Các chuẩn mã hóa
video hiện đại đã xử lý hầu hết các đặc điểm của video phổ biến để
cải thiện hiệu quả nén như H.264/AVC, H.265/HEVC và
H.266/VVC. Hiện tại, chuẩn mã hóa video mới nhất - H.266/VVC
cung cấp hiệu suất so sánh vượt trội so với các tiêu chuẩn khác,
nhưng nó phải trả giá bằng độ phức tạp tính tốn cực cao, do một
số cơng cụ mã hóa mới được thêm vào (ví dụ: chế độ phân vùng
tam giác (TPM), đơn vị cây mã hóa (CTU) lớn 128 × 128 pixel,
v.v.). Tuy nhiên, hiện chưa có một phân tích bao qt về các cơng
cụ mã hóa cho chuẩn nén này, để tận dụng tối đa hiệu quả hoạt
động của nó, đặc biệt là đối với hình ảnh LF. Do đó, bài báo này
trình bày một nghiên cứu tổng quát đầu tiên về các cơng cụ mã
hóa của tiêu chuẩn mã hóa video cập nhật - H.266/VVC cho hình
ảnh LF. Hầu hết các cơng cụ mã hóa từ H.266/VVC (ví dụ: SMVD,
MIP, IBC, v.v.) được đánh giá trên chuỗi video giả 4D-LF, và được


so sánh hiệu suất nén và độ phức tạp.

gồm một lượng lớn thông tin về mỗi tia sáng bao gồm vị trí x,
y, z, góc Ө, Ø, bước sóng γ, và thời gian t. Dữ liệu ảnh LF có
kích thước lớn và nói chung có thể được mơ tả bằng hàm đa sơ
đồ 7D như sau, LF (x, y, z, Ө, Ø, γ, t) [6]. Với độ phức tạp của
hàm chức năng này, đặt ra nhiều thách thức trong việc chụp và
xử lý ảnh trong thực tế, do đó, hàm chức năng trên được giảm
xuống thành hàm chức năng 4D.
P = L (u, v, s, t)
(1)
trong đó cường độ ánh sáng, P, là một hàm của hình ảnh
khẩu độ phụ (điểm nhìn) (u, v) và vị trí (góc nhìn) (s, t) tương
ứng trong hình ảnh khẩu độ phụ.
Mơ hình dữ liệu ảnh LF được mô tả như sau, hai mặt phẳng
(s, t) và (u, v), lần lượt trình bày dưới dạng tập hợp các máy ảnh
và mặt phẳng tiêu điểm của chúng. Tập hợp các ảnh tạo bởi
khẩu độ phụ được gọi là SAI (Sub-aperture images), là cách thu
thập các tia sáng từ mỗi máy ảnh truyền từ mặt phẳng (u, v) đến
một điểm cụ thể trên mặt phẳng (s, t). Do đó, mơ hình hai mặt
phẳng này sử dụng mặt phẳng (s, t) để chỉ các kích thước góc,
trong khi mặt phẳng (u, v) đề cập đến các kích thước khơng
gian.
Về các tiêu chuẩn mã hóa video cập nhật, H.266/VVC [7]
là tiêu chuẩn mã hóa video mới nhất, được ITU-T và ISO/IEC
cùng xuất bản. Vào tháng 7 năm 2020, bộ mã hóa VVC được
cơng bố là chuẩn nén video thế hệ tiếp theo. Chuẩn nén video
này được thiết kế để đáp ứng hiệu quả và linh hoạt để đáp ứng
nhu cầu truyền thông hiện đại bằng cách cải thiện hiệu suất nén,
cho phép giao tiếp hiệu quả và lưu trữ nội dung video khổng lồ.

Trong bối cảnh này, nén dữ liệu LF dựa trên H.266/VVC là chủ
đề nghiên cứu rất được quan tâm gần đây. Nhiều bài báo đề xuất
và đánh giá hiệu suất nén của LF với codec H.266/VVC. Ví dụ,
V. Avramelos và cộng sự [9] ban đầu cung cấp nén hình ảnh LF
bằng H.266/VVC bằng cách so sánh hiệu suất mã hóa của ba
thế hệ tiêu chuẩn nén video mới nhất, tức là H.264/AVC [10],
H. 265/HEVC [8] và H.266/VVC [7]. Gần đây, H. Amirpour và
cộng sự [11] trình bày một nghiên cứu tương tự về so sánh hiệu
suất của bộ mã hóa video trong nén hình ảnh LF, tập trung vào
phần mềm mã hóa, tức là HM, VP9 [12], AV1 [13], XVC [14],

Keywords: Light field, plenoptic, super-pixel, coding standards,
compression efficiency, complexity.

I. GIỚI THIỆU
Dữ liệu LF gần đây đã được giới thiệu và áp dụng cho nhiều
lĩnh vực, như kính soi tai [1] trong y sinh học, kính hiển vi [2],
điều khiển robot dựa trên thị giác [3] và đo vận tốc [4], bởi vì
cấu trúc đặc biệt của máy ảnh LF. Máy ảnh LF không chỉ ghi
lại cường độ ánh sáng mà còn ghi lại hướng ánh sáng đến cảm
biến của máy, dựa trên các thấu kính nhỏ được thêm vào ống
kính chính trước cảm biến máy ảnh [5, 6]. Do đó, dữ liệu ảnh
LF có cấu trúc phức tạp và tính kích thước lớn, và rất cần được
phân tích và khám phá.
Dữ liệu LF trình bày tập hợp các tia sáng truyền theo mọi
hướng góc tại mọi điểm trong khơng gian 3D [6], và do đó bao

ISBN 978-604-80-7468-5

107



Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

x265 [8] và VTM [7]. Trong khi S. Umebayashi và cộng sự [15]
sử dụng bộ mã hóa VVC để nghiên cứu trên hệ thống kết hợp
4D LF bằng cách sử dụng hình ảnh đa tiêu điểm và chế độ xem
tham chiếu. Về các phương pháp tiếp cận mơ hình mạng, cơng
trình của N. Bakir và cộng sự [16] là sử dụng khả năng mở rộng
theo thời gian VVC để lựa chọn các chế độ xem tham chiếu /
bỏ qua của hình ảnh LF với mơ hình Mạng lưới Adverarial
Generative (GAN) phân biệt kép. Trong khi đó, F. Pakdaman
và cộng sự [17] tập trung vào mã hóa nội bộ VVC có độ phức
tạp thấp để học hai phương thức nhẹ.
Tuy nhiên, vẫn còn thiếu các tài liệu phân tích về khía cạnh
này. Do đó, bài báo này cung cấp phân tích cơng cụ mã hóa tồn
diện đầu tiên của H.266/VVC trên ảnh LF. Đóng góp của bài
báo này sẽ tập trung vào phân tích cơng cụ mã hóa phạm vi
rộng: hầu hết các cơng cụ mã hóa đổi mới của H.266/VVC được
phân loại và phân tích với điều kiện bật / tắt, chẳng hạn như
nhóm phân vùng khối (ví dụ: Quadtree cộng với MTT, v.v.),
Dự đốn liên ảnh nhóm (ví dụ: Dự đốn vectơ chuyển động tạm
thời dựa trên khối con (SBTMVP), Chênh lệch vectơ chuyển
động đối xứng (SMVD), v.v.), nhóm dự đốn trong ảnh (ví dụ:
Nhiều dịng tham chiếu (MRL), Nội bộ dựa trên ma trận -picture
Predcition (MIP), v.v.), và Nhóm chuyển đổi và lượng tử hóa
(ví dụ: Lượng tử hóa phụ thuộc (DQ), Lựa chọn nhiều biến đổi
(MTS), v.v.). Độ phức tạp tính tốn và hiệu suất nén sau đó
được báo cáo.
Cấu trúc của bài báo này như sau. Phần 2 mô tả cơ sở lý

thuyết liên quan đến bộ mã hóa video và tổng quan về các cơng
cụ mã hóa trên H.266/VVC, trong khi Phần 3 trình bày phân
tích về các cơng cụ mã hóa này với phương pháp quan sát và
đánh giá. Sau đó, Phần 4 thực hiện đánh giá thử nghiệm. Cuối
cùng, Phần 5 tóm tắt và kết luận

H.264/AVC, H.265/HEVC và H.266/VVC. Mỗi thành viên
trong gia đình H.26x đều có những thuận lợi và khó khăn do
nhu cầu của người sử dụng và yêu cầu về dữ liệu. Trên thực tế,
H.264/AVC vẫn là bộ mã hóa được sử dụng rộng rãi do độ phức
tạp thấp [19]. Cấu trúc mã hóa tiêu chuẩn này tương tự như cấu
trúc của tất cả các chuẩn video chính trước đây, dựa trên mã hóa
biến đổi bù chuyển động.
Chuẩn H.264/AVC nén hình ảnh từ trình tự bằng cách phân
vùng nó thành một hoặc nhiều lát, bao gồm các macroblock cho
mỗi lát có kích thước cố định (16 × 16 mẫu) và các cơng cụ mã
hóa sau, chẳng hạn như: Intra spatial (khối đế ) dự đốn, Dự
đốn liên thời gian, Tính năng mã hóa xen kẽ, Lượng tử hóa vơ
hướng, Bộ lọc gỡ lỗi, v.v. [18]. Công cụ mới của H.264/AVC
so với các tiêu chuẩn trước đây là bộ lọc gỡ lỗi thích ứng và dự
đoán trong khung [20].
Để cải thiện hiệu quả mã hóa, H.265/HEVC được hồn thiện
vào năm 2013 với cùng cấu trúc của phiên bản tiền nhiệm
nhưng bổ sung thêm một số tính năng nổi bật [8, 21]. Để làm rõ
hơn, biểu diễn khối dựa trên Quadtree được giới thiệu sau Đơn
vị Cây mã hóa (CTU) với kích thước lên đến 64 × 16 mẫu.
Cuối cùng, tiêu chuẩn mã hóa video mới nhất - H.266/VVC
được công bố vào tháng 7 năm 2020 với nhiều cải tiến về hiệu
quả mã hóa. Thứ nhất, tiêu chuẩn này cập nhật các cấu trúc khối
linh hoạt hơn và lớn hơn bằng cách tăng kích thước CTU lên

128 × 128 mẫu luma [22]. Điều này giúp tiêu chuẩn có thể hoạt
động với độ phân giải cao hơn và các đặc điểm video HDR.
Hơn nữa, các kỹ thuật mã hóa kế thừa từ các phần mở rộng mã
hóa nội dung màn hình H.265/HEVC cũng được áp dụng như
Intra Block Copy (IBC) điều chế mã xung vi sai mức khối
(BDPCM), Adaptive Color Transform (ACT). Tiêu chuẩn này
cũng cung cấp mã hóa đa lớp, cho phép khả năng mở rộng theo
thời gian, không gian và chất lượng, cùng với mã hóa đa điểm
[24].

II. CƠ SỞ LÝ THUYẾT
A. Các chuẩn mã hóa video

B. Mã hóa dữ liệu Light Field theo chuẩn H.266/VVC

Lịch sử của các chuẩn mã hóa video nằm trong Liên minh
Viễn thơng Quốc tế - Nhóm chun gia về tiêu chuẩn hóa viễn
thơng (ITU-T) (ITU-T VCEG) trong khoảng ba thập kỷ. Bắt
đầu với H.261 từ năm 1990, bộ mã hóa này mơ tả các phương
pháp mã hóa và giải mã video với các dịch vụ nghe nhìn ở tốc
độ p × 64 kbit/s, trong đó p nằm trong khoảng từ 1 đến 30. Ngoài
ra, H.261 xác định hai định dạng hình ảnh, nghĩa là, Định dạng
trung gian chung (CIF) và Định dạng trung gian chung phần tư
(QCIF). Về hệ thống hội nghị truyền hình và truyền thơng
video, codec này được coi là ứng dụng quan trọng nhất, tuy
nhiên, nó phù hợp với Frame Relay hoặc Internet TCP/IP do
tính năng tối ưu hóa của nó chỉ cho tốc độ dữ liệu thấp và video
chuyển động thấp [18].
Sau phiên bản đầu tiên của bộ mã hóa H.261, ITU đã cập
nhật nhiều tính năng hơn cho bộ mã hóa và thêm một số phiên

bản mới vào các chuẩn mã hóa video H.26x, đó là H.263,

ISBN 978-604-80-7468-5

Vì tiêu chuẩn H.266/VVC cho thấy hiệu suất nén vượt trội
so với các tiêu chuẩn khác [22], tiêu chuẩn này trở thành codec
được mong muốn nhất để đánh giá với tập dữ liệu morden như
video độ phân giải cao (ví dụ: 4K, 16K), video sống động (ví
dụ: Video 360 độ), Point Cloud và hình ảnh LF. Tuy nhiên,
nghiên cứu về nén hình ảnh LF dựa trên H.266/VVC mới chỉ là
bước khởi đầu.
Ban đầu, việc so sánh các phương pháp nén LF [9, 11, 23]
được tiến hành để đánh giá hiệu suất nén giữa các tiêu chuẩn
khác. Tiêu chuẩn mã hóa video nổi tiếng, tức là H.264/AVC,
H.265/HEVC và H.266/VVC đã được sử dụng trong [9] để mã
hóa hình ảnh LF theo cách tiếp cận chuỗi giả. Trong khi cơng
trình của tác giả [23] và T. Nguyen và D. Marpe [24] đã so sánh
hiệu suất nén của phần mềm mã hóa như JPEG-2000, VP9,
AV1, HM và phiên bản đầu tiên của VVC (JEM sotfware).

108


Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

Bảng. 1 Tổng quan về định nghĩa dữ liệu LF
Loại lấy nét LF

Mô tả


Số lượng mẫu

CWF

Lớp phức tạp với FOV rộng và lấy nét vào Tiền cảnh

10

CWB

Lớp phức tạp với FOV rộng và lấy nét vào Hậu cảnh

10

CNF

Lớp phức tạp với FOV hẹp và lấy nét vào Tiền cảnh

10

CNB

Lớp phức tạp với FOV hẹp và lấy nét vào Hậu cảnh

10

SWF

Lớp đơn giản với FOV rộng và lấy nét vào Tiền cảnh


8

SWB

Lớp đơn giản với FOV rộng và lấy nét vào Hậu cảnh

8

SNF

Lớp đơn giản với FOV hẹp và lấy nét vào Tiền cảnh

10

SNB

Lớp đơn giản với FOV hẹp và lấy nét vào Hậu cảnh

10

Cơng trình của A. S. Panayides và cộng sự [25] cung cấp cách
tiếp cận đơn giản nhưng tập trung vào AV1 và tiêu chuẩn
H.266/VVC cập nhật. Tổng hợp các kết quả từ các tài liệu,
H.266/VVC hoạt động tốt hơn đáng kể so với các tiêu chuẩn và
phần mềm khác. Đặc biệt, việc cải tiến và bổ sung các công cụ
hỗ trợ mã hóa của H.266/VVC giúp cho hiệu năng và tính linh
hoạt của bộ mã hóa được nâng cấp rất nhiều. Các cơng cụ hỗ
trợ mã hóa giúp chuẩn H.266/VVC có thể đáp ứng được các các
sản phẩm cơng nghệ mới hiện nay, như: nén 360 độ, thực tại ảo,
hình ảnh đa chiều Point Cloud.


193 SAI của hình ảnh LF với thứ tự quét xoắn ốc với tốc độ 30
khung hình / giây (fps). Ngồi ra, các PVS này cũng được sử
dụng các tiêu điểm và độ sâu trường ảnh khác nhau dựa trên các
kỹ thuật RI.
B. Công cụ hỗ trợ mã hóa H.266/VVC


III. DỮ LIỆU LIGHT FIELD VÀ CÁC CƠNG CỤ HỖ TRỢ MÃ HĨA
TRONG H.266/VVC
A. Dữ liệu Light Field
Tập dữ liệu LF được chọn từ tập dữ liệu nguồn EPFL [26],
với các loại Độ sâu trường ảnh (DOF) và Trường quan sát
(FOV) khác nhau được hiển thị cho người quan sát. Bảng 1 trình
bày tổng quan về dữ liệu này và lý do lựa chọn, với hình ảnh
thu nhỏ trong Bảng 1. Dữ liệu này được chia thành hai phần dựa
trên độ phức tạp của LF-FOV, tức là FOV lớp phức tạp và FOV
lớp đơn giản (trong đó phức tạp và phân đôi đơn giản đề cập
đến số lượng đối tượng cảnh mà chúng ta có thể tập trung vào
và xác định dễ dàng; nhiều hơn hai đối tượng cảnh được coi là
một lớp phức tạp). Mỗi loại LF-FOV chứa 2 loại LF-DOF: DOF
hẹp và DOF rộng (DOF hẹp và rộng đề cập đến phạm vi độ sâu
được lấy nét trong cảnh tương ứng). Cấu hình của độ dốc LF để
thay đổi tiêu điểm thay đổi trong phạm vi từ -0,6 (tức là lấy nét
tiền cảnh) đến 1,6 (tức là lấy nét nền). Để thay đổi tiêu điểm của
ảnh LF, chúng tôi đã thay đổi thông số độ dốc của ảnh LF bằng
cách sử dụng hộp công cụ Matlab LF v.0.4 [27].
Theo định nghĩa tập dữ liệu LF trong Bảng 1, tập dữ liệu có
thể được phân loại theo ba điều kiện kết xuất cảnh: độ phức tạp
(đơn giản và phức tạp), độ sâu (hẹp và rộng), và tiêu điểm (nền

và tiền cảnh). Trong nghiên cứu này, tập dữ liệu LF được chọn
từ các nội dung ảnh LF khác nhau để đánh giá được nén hoàn
toàn. Tập dữ liệu LF này được tạo bằng phương pháp thụ động
sử dụng phương pháp chuỗi video giả dựa trên SAI (PVS) và
hình ảnh tái tập trung (RI) dựa trên SAI. Kỹ thuật PVS sử dụng

ISBN 978-604-80-7468-5



109

Nhóm Dự đốn hình ảnh liên khung (inter-picture)
o Dự đoán vectơ chuyển động theo thời gian dựa trên
khối con (SBTMVP): TMVP ở chế độ hợp nhất kế
thừa một tập hợp thông tin chuyển động từ CU được
phân vùng theo thời gian. Phương pháp SBTMVP
trong VVC cho phép kế thừa thơng tin chuyển động từ
hình ảnh được chỉnh màu ở mức độ chi tiết tốt hơn,
nghĩa là, theo đơn vị khối con 8 × 8.
o MVD đối xứng (SMVD): Khi chuyển động của khối
hiện tại nằm trên một quỹ đạo chuyển động không đổi
giữa a quá khứ tạm thời và hình ảnh tham chiếu tạm
thời trong tương lai theo thứ tự hiển thị, các MV tương
ứng và hình ảnh tham chiếu các chỉ số có xu hướng đối
xứng. SMVD khai thác điều này để lưu các bit cho
MVD và báo hiệu chỉ mục hình ảnh tham chiếu.
o Chế độ phân vùng hình học (GPM): cho phép bù
chuyển động trên các phân vùng khơng hình chữ nhật
của các khối như một biến thể của chế độ hợp nhất

trong VVC. Khi chế độ này được sử dụng, CU được
chia thành hai phân vùng theo hình học nằm trên
đường thẳng và hai chỉ số hợp nhất (một chỉ số cho
mỗi phân vùng) được báo hiệu thêm.
o Dự đoán nội bộ/liên ảnh kết hợp (CIIP): Trong VVC,
khi CU được mã hóa ở chế độ hợp nhất, một tín hiệu
bổ sung được báo hiệu để cho biết liệu một chế độ CIIP
có được áp dụng cho CU hiện tại hay không. Chế độ
CIIP có thể được áp dụng cho CU chứa ít nhất 64 mẫu
luma khi cả chiều rộng CU và chiều cao CU đều nhỏ
hơn 128 mẫu luma.
Nhóm dự đốn hình ảnh liên khung (inter-picture)
o Nhiều đường tham chiếu (MRL): dự đoán sử dụng
nhiều đường tham chiếu hơn bên cạnh vùng lân cận


Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2022)





khơng gian gần nhất các mẫu được tái tạo để dự đoán
trong ảnh. Trong chế độ này, thay vì sử dụng dịng gần
nhất của mẫu làm dịng tham chiếu cho dự đốn trong
ảnh, mẫu từ hai dòng khác (một dòng tham chiếu hai
dòng cách xa và một dịng tham chiếu cách đó ba
dịng) có thể được sử dụng.
o Dự đốn khơng gian ảnh dựa trên ma trận (MIP): là
một chế độ dự đoán mới được bổ sung trong VVC. Lần

đầu tiên nó được đề xuất như một dự đoán dựa trên
mạng nơ-ron nhưng sau đó được đơn giản hóa để sử
dụng phép nhân ma trận và lập chỉ mục bảng ma trận.
o Phân vùng phụ nội bộ (ISP): chế độ chia một Luma
CU theo chiều dọc hoặc chiều ngang thành hai hoặc
bốn phân vùng con tùy thuộc vào kích thước khối.
Trong chế độ này, tất cả các tiêu đề con chia sẻ thông
tin về chế độ mã hóa, trong khi dự đốn và biến đổi
được xử lý riêng biệt. Kích thước khối tối thiểu cho
ISP là 4 × 8 hoặc 8 × 4 và tối đa kích thước khối là 64
× 64.
Nhóm biến đổi và lượng tử hóa
o Lựa chọn nhiều biến đổi (MTS): được sử dụng để mã
hóa dư cho cả mã hóa giữa ảnh và nội ảnh các khối.
Nó cung cấp khả năng chọn trong số một tập hợp con
được xác định trước của các phép biến đổi hình sin
(được tăng cường) bao gồm Biến đổi DCT loại II, DST
loại VII và DCT loại VIII cho CU có cả chiều rộng và
chiều cao nhỏ hơn hoặc bằng đến 32.
o Lượng tử hóa phụ thuộc (DQ): đề cập đến cách tiếp
cận trong đó tập hợp các giá trị tái tạo có sẵn cho một
hệ số biến đổi phụ thuộc vào các giá trị tái tạo đã được
chọn cho các hệ số biến đổi đứng trước nó theo thứ tự
qt. Hiệu quả chính của cách tiếp cận này, là độ méo
trung bình giữa một vectơ đầu vào được cho trong
không gian vectơ M chiều (tất cả các hệ số biến đổi
trong một TB) và vectơ tái cấu trúc gần nhất có thể
được giảm toàn cục.
o Giải mã chung của dư thừa sắc độ (JCCR): được sử
dụng để giảm thêm sự dư thừa của hai sắc độ tín hiệu

dư của các thành phần khi chúng tương tự nhau. Thay
vì báo hiệu phần dư cho hai các thành phần sắc độ
riêng biệt, một trong ba chế độ JCCR với các kết hợp
trọng số khác nhau của một mã đơn dư sắc độ có thể
được áp dụng một cách chọn lọc ở mức CU
Nhóm m hóa nội dung màn hình
o Intra-picture block copy (IBC): sử dụng các mẫu lặp
lại bên trong một bức tranh. Nó có thể được xem như
là một cơ bản dạng dự đoán bù chuyển động với số
nguyên MV (được gọi là vectơ khối) tham chiếu đến
các vùng được mã hóa trước đó của cùng một hình ảnh
thay vì các hình ảnh tham chiếu đã được mã hóa trước

ISBN 978-604-80-7468-5

o

đó. So với các phần mở rộng HEVC SCC, IBC trong
VVC đã được đơn giản hóa về bộ đệm mẫu tham
chiếu.
Chế độ Bảng màu (PM) được sử dụng để biểu diễn các
giá trị mẫu trong CU bằng một tập hợp các giá trị màu
đại diện. Tập hợp này được gọi là bảng màu. Đối với
CU được mã hóa trong chế độ bảng màu, bảng màu
đầu tiên được báo hiệu, sau đó cho mỗi mẫu trong CU,
một chỉ số bảng màu được báo hiệu. Trong VVC, đối
với các lát có cây mã hóa luma/chroma riêng biệt, bảng
màu được áp dụng trên luma (thành phần Y) và chroma
(thành phần Cb và Cr) riêng biệt, với bảng màu luma
mục nhập chỉ chứa giá trị Y và mục nhập bảng màu

chứa cả giá trị Cb và Cr.
IV. KIỂM THỬ VÀ KẾT QUẢ

A. Điều kiện kiểm thử
Những hình ảnh LF này được chuyển đổi thành chuỗi giả
4D-LF với thứ tự quét xoắn ốc. Để giảm hiệu ứng làm mờ nét
ảnh, chỉ có 193 khung hình được chọn chủ yếu từ trung tâm,
ngoại trừ các SAI từ các góc xa hơn. Các chuỗi giả thử nghiệm
được chọn ở độ phân giải 624 × 432, ở tốc độ khung hình 30Hz,
định dạng yuv, với kiểu nội dung phức tạp và đơn giản của hình
ảnh LF. Hình 1 là chuỗi dữ liệu LF sẽ được sử dụng để kiểm
thử.

(a)

(b)

(c)

(d)

Hình 1. Các dữ liệu LF sử dụng kiểm thử: (a) Rolex Learning Centre,
(b) Bikes, (c) Reeds, và (d) Chain link fence 1

Dựa trên sự tương quan cao của các SAI và các loại LF,
nghĩa là các lớp phức tạp và đơn giản, các cơng cụ mã hóa của
VVC codec được đánh giá bật và tắt tương ứng để xác định các
công cụ mã hóa khơng được sử dụng nhiều nhất, địi hỏi lượng
bitrate lớn nhưng thu được ít màn biểu diễn. Tuy nhiên, hình
ảnh LF có mối tương quan cao giữa mỗi SAI, vì vậy thử nghiệm

ban đầu cần được xem xét như sau:

110


Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

Bảng 2. Kết quả so sánh BD-PSNR của các công cụ hỗ trợ mã hóa khi tắt và bật
Ảnh LF

Loại
LF

BD-PSNR với các cơng cụ hỗ trợ mã hóa tắt (OFF)

CN

0.03

N/A

0.01

N/A

N/A

N/A

-0.06


0.04

0.01

IBC
(on)
-0.01

SN

-0.01

-0.02

N/A

0.01

-0.01

-0.06

-0.12

N/A

-0.01

0.02


-0.02

0.01

Reeds

SW

N/A

0.02

N/A

N/A

0.01

0.01

-0.13

N/A

-0.02

N/A

-0.01


-0.01

Rolex Learning
Centre

CW

-0.01

-0.03

N/A

0.02

0.02

-0.04

N/A

-0.03

-0.01

N/A

N/A


-0.01

Bikes
Chain_Link_fence_1

GPM

MRL

SBTMVP

SMVD

(a)

(d)

CIIP

DQ

JCCR

MTS

PM

(b)

Mỗi thử nghiệm chạy liên tục 5 lần với các cấu hình giống

nhau (lưu ý: cần đóng tất cả phần mềm nền) để thu thập độ
phức tạp về thời gian

-

Mỗi công cụ mã hóa cần chạy hai lần (một cho TẮT và một
cho BẬT) với cấu hình tương tự như trên.

0.02

(f)

LF. Các giá trị này có hiệu suất thay đổi khơng đang kể và rất
nhỏ. Do vậy, có thể thấy rằng việc tắt các cơng cụ hỗ trợ mã hóa
của chuẩn VVC khơng ảnh hưởng tới hiệu năng mã hóa của
chính nó.
V. KẾT LUẬN
Bài báo này đã cung cấp được một nghiên cứu tổng qt về
các cơng cụ hỗ trợ mã hóa trong bộ mã hóa H.266/VVC. Kết
quả cho thấy các cơng cụ hỗ trợ mã hóa khi tắt đi khơng có sự
thay đổi nhiều về hiệu năng và sự tiết kiệm bitrate. Điều này
cho thấy rằng, sự phức tạp của bộ mã hóa nằm ở một bộ phận
khác và cần được nghiên cứu trong tương lại. Đặc biệt, một
điểm chú ý cho thấy rằng, các cơng cụ mã hóa bị ảnh hưởng rất
nhiều bởi nội dung của dữ liệu ảnh LF.

B. Kết quả so sánh với các công cụ hỗ trợ mã hóa
Dựa theo kết quả Bảng 2 và hình 2, ta có thể thấy hiệu suất
thơng qua BD-PSNR của các cơng cụ mã hóa thể hiện cho từng
dữ liệu ảnh LF tương ứng. Kết quả BD-PSNR càng cao thể hiện

hiệu suất càng tốt. Thơng thường, bộ mã hóa VVC sẽ mã hóa
với điều kiện tất cả các cơng cụ hỗ trợ đều được bật. Do vậy,
tác giả sẽ tắt các công cụ mã hóa, và thử nghiệm so sánh với
điều kiện khi bật. Cơng cụ nào có chỉ số BD-PSNR tốt ở Bảng
2, chứng tỏ cơng cụ đó làm giảm hiệu năng của bộ mã hóa VVC
khi chúng được bật. Tuy nhiên, ta có thể thấy rằng hầu hết các
cơng cụ mã hóa đều có chỉ số âm ở Bảng 2, ngoại trừ 2 cơng cụ
có giá trị dương đó là CIIP và MIP, đặc biệt công cụ MTS đạt
giá trị cao nhất 0.04 dB, nhưng chỉ áp dụng cho 1 dạng dữ liệu

ISBN 978-604-80-7468-5

N/A

MIP

(c)

(e)
Hình 2. Bảng kết quả khác biệt giữa các chuỗi video và các cơng cụ mã hóa được tắt đi.

-

ISP

NGUỒN THAM KHẢO
1.

111


N. Bedard, T. Shope, A. Hoberman, M. A. Haralam, N.
Shaikh, J. Kovačević, N. Balram, and I. Tošić, "Light field
otoscope design for 3D in vivo imaging of the middle ear,"
Biomedical optics express, vol. 8, pp. 260-272, 2017.


Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

2.
3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

13.


14.

15.

H. Li, C. Guo, and S. Jia, "High-resolution light-field
microscopy," Frontiers in Optics, vol. FW6D. 3, 2017.
D. Tsai, D. G. Dansereau, T. Peynot, and P. Corke, "ImageBased Visual Servoing With Light Field Cameras," IEEE
Robotics and Automation Letters, vol. 2, no. 2, pp. 912-919,
2017.
K. Lynch, T. Fahringer, and B. Thurow, "Three-dimensional
particle image velocimetry using a plenoptic camera," in
American Institute of Aeronautics and Astronautics (AIAA),
2012.
R. Ng, et al., “Light field photography with a hand -held
plenoptic camera,” in Computer Science Technical Report,
vol. 2, no. 11, pp. 111, 2005.
G. Wu et al, “Light Field Image Processing: An Overview,”
IEEE Journal of Selected Topics in Signal Processing, vol.
11, no. 7, pp. 926-954, 2017.
B. Benjamin, C. Jianle, L. Shan, W. Ye-Kui, "Versatile
Video Coding (Draft 10)," 19th Meeting: by teleconference,
Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3
and ISO/IEC JTC 1/SC 29/WG 11, 2020
G. J. Sullivan, J. R. Ohm, W. J. Han and T. Wiegand,
“Overview of the High Efficiency Video Coding (HEVC)
Standard,” in IEEE Transactions on Circuits and Systems
for Video Technology, vol. 22, no. 12, pp. 1649-1668, Dec.
2012
V. Avramelos, J. D. Praeter, G. V. Wallendael, and P.

Lambert, “Light Field image compresison using Versatile
Video Coding,” in IEEE 9th International Conference on
Consumer Electronics (ICCE), Berlin, 2019
T. Wiegand, G. J. Sullivan, G. Bjøntegaard and A. Luthra,
“Overview of the H.264/AVC Video Coding Standard”,
IEEE Transactions on Circuits and Systems for Video
Technology, vol. 13, issue 7, pp. 560-576, 2003
H. Amirpour, A. M. G. Pinheiro, M. Pereira, M. Ghanbari,
“Performance comparison of video encoders in light field
image compression”, in Proc. IS&T Int’l. Symp. on
Electronic Imaging: 3D Imaging and Applications, pp 60-1
60-7,
2021,
/>D. Mukherjee et al., “A Technical Overview of VP9 – The
Latest Open-Source Video Codec,” SMPTE 2013 Annual
Technical Conference & Exhibition, Hollywood, CA, USA,
, pp. 1-17, 2013
J. Han et al., “A Technical Overview of AV1,” in
Proceedings of the IEEE, vol. 109, no. 9, pp. 1435-1462,
Sept. 2021, doi: 10.1109/JPROC.2021.3058584.
J. Samuelsson, “The XVC Video Code: A Revolutionary
Software-Defined Video Compression Format,” in SMPTE
Motion Imaging Journal, vol. 128, no. 10, pp. 1-8, Nov.-Dec.
2019, doi: 10.5594/JMI.2019.2937737.
S. Umebayashi, K. Kodama and T. Hamamoto, “A Study on
4D Light Field Compression Using Multi-focus Images and
Reference Views,” 2021 International Conference on Visual
Communications and Image Processing (VCIP), pp. 1-5,
2021, doi: 10.1109/VCIP53242.2021.9675378.


ISBN 978-604-80-7468-5

16. N. Bakir, W. Hamidouche, S. A. Fezza, K. Samrouth and O.
Déforges, “Light Field Image Coding Using Dual
Discriminator Generative Adversarial Network and VVC
Temporal Scalability,” 2020 IEEE International Conference
on Multimedia and Expo (ICME), pp. 1-6, 2020, doi:
10.1109/ICME46284.2020.9102880.
17. F. Pakdaman, M. A. Adelimanesh, and M. R. Hashemi.
“BLINC: Lightweight Bimodal Learning for LowComplexity VVC Intra Coding.” arXiv preprint
arXiv:2201.07823, 2022.
18. F. Bossen, J. Boyce, K. Suehring, X. Li, V. Seregin, “JVET
common test conditions and software reference
configurations for SDR video.” Jt. Video Expert. Team ITUT SG 16 WP 3 ISO/IEC JTC 1/SC 29/WG 11, 14th Meet,
2019.
19. D. Marpe, T. Wiegand, and G.J. Sullivan, “The
H.264/MPEG4 advanced video coding standard and its
applications”, IEEE Communications Magazine, vol. 44, no.
8, pp. 134—143, 2006.
20. J. Ostermann, et al. “Video coding with H.264/AVC: tools,
performance, and complexity.” IEEE Circuits and Systems
Magazine, vol. 4, pp. 7-28, 2004.
21. High Efficiency Video Coding, Rec. ITU-T H.265 and
ISO/IEC 23008-2, Jan. 2013.
22. B. Bross, J. Chen, J. -R. Ohm, G. J. Sullivan and Y. -K.
Wang, "Developments in International Video Coding
Standardization After AVC, With an Overview of Versatile
Video Coding (VVC)," in Proceedings of the IEEE, vol. 109,
no.
9,

pp.
1463-1493,
Sept.
2021,
doi:
10.1109/JPROC.2020.3043399.
23. H. P. Cong, S. Perry, V. T. Anh, and X. H. Van, “Joint
Exploration Model based Light Field Image Coding: A
Comparative Study”, In: 2017 4th NAFOSTED Conference
on Information and Computer Science (NICS 2017), Hanoi,
Vietnam, Nov. 2017.
24. T. Nguyen, D. Marpe, “Future video coding technologies: a
performance evaluation of av1, jem, vp9, and hm”, In: 2018
picture coding symposium (PCS), pp 31–35, 2018.
25. A. S. Panayides, M. S. Pattichis, M. Pantziaris, A. G.
Constantinides, C. S. Pattichis, “The battle of the video
codecs in the healthcare domain - a comparative
performance evaluation study leveraging VVC and AV1”,
IEEE Access, vol. 8, pp. 11469–11481, 2020.
26. M. Řeřábek, T. Ebrahimi, “New Light Field Image Dataset”.
In Proceedings of the 8th International Conference on
Quality of Multimedia Experience, Lisbon, Portugal, 6 - Jun.
2016.
27. D. Dansereau, “Light Field Toolbox for Matlab,” Feb. 2015.
Available
online:
(accessed on 12/01/2021).

112




×