Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
Khảo sát và đánh giá các thuật tốn cải thiện
chuẩn mã hóa video H.266/ Versatile Video
Coding
Bùi Thanh Hương1,2, Nguyễn Quang Sang2, Hoàng Văn Xiêm2
1
Trường Đại học Xây dựng Hà Nội
Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội
, ,
2
Abstract— Trong những năm gần đây, cùng với sự phát
triển của các hệ thống truyền thông đa phương tiện, số
lượng thiết bị và các loại hình video cũng gia tăng một cách
nhanh chóng. Nhằm đáp ứng nhu cầu về truyền tải và lưu
trữ nội dung video, các mơ hình mã hóa video trở thành
một chủ đề nghiên cứu mang tính cấp thiết. Vào tháng 7
năm 2020, tiêu chuẩn mã hóa video mới nhất với tên
H.266/Versatile Video Coding chính thức được chuẩn hóa
và thơng qua. Mơ hình mã hóa video này cho khả năng
nén hiệu quả với các video độ phân giải cao, video 360o,…
nhờ việc tích hợp các thuật tốn và kỹ thuật hiện đại. Tuy
nhiên, chuẩn mã hóa video này vẫn còn tồn tại những hạn
chế, đặc biệt là về mặt thời gian xử lý. Do đó, các nghiên
cứu nhằm cải thiện mơ hình mã hóa video này liên tục
được đề xuất và công bố. Bài báo này tiến hành khảo sát
và đánh giá một số nghiên cứu nổi bật giúp cải thiện chuẩn
mã hóa video H.266/Versatile Video Coding.
tuệ nhân tạo. Với các dữ liệu ảnh, video, kỹ thuật học
máy và học sâu được quan tâm nhiều bởi khả năng ứng
dụng hiệu quả trong các bài toán phân loại, dự đoán với
video dữ liệu lớn.
Trong những năm gần đây, các phương pháp, thuật
toán cùng với kỹ thuật học máy, học sâu tiên tiến đã và
đang được nghiên cứu, ứng dụng nhằm cải thiện các mơ
hình mã hóa video hiện đại. Các thuật toán này đã cho
thấy hiệu quả trong việc giải quyết các vấn đề còn tồn
tại của các bộ mã hóa video như cải thiện mơ hình phân
chia hình ảnh; tối ưu thời gian cho quá trình lựa chọn
chế độ và hướng dự đoán nội khung; tối ưu tập ứng viên
dự đốn, thu hẹp vùng tìm kiếm thích ứng để cải thiện
mơ hình dự đốn liên khung. Nhiều cơng trình nghiên
cứu đã ứng dụng các kỹ thuật trí tuệ nhân tạo, kỹ thuật
học sâu, mạng nơ ron tích chập trong nâng cao chất
lượng hình ảnh sau giải mã cũng giúp cải thiện hiệu năng
mã hóa, giảm thời gian xử lý, nâng cao trải nghiệm
người dùng.
Trong bài báo này, chúng tôi tiến hành khảo sát các
mơ hình mã hóa video được đề xuất nhằm cải thiện
chuẩn mã hóa video mới nhất hiện nay, H.266/Versatile
Video Coding (VVC). Cấu trúc bài báo được trình bày
gồm 4 phần. Phần 1 giới thiệu tổng quan về chủ đề
nghiên cứu. Phần 2 trình bày cấu trúc của chuẩn mã hóa
video H.266/VVC. Phần 3 trình bày khảo sát về các
thuật toán được đề xuất nhằm cải thiện chuẩn mã hóa
video H.266/VVC. Phần 4 là các kết luận và định hướng
nghiên cứu trong tương lai.
Keywords- Truyền thông đa phương tiện, Mã hóa video,
H.266/Versatile Video Coding.
I.
GIỚI THIỆU
Ngày nay, sự gia tăng lưu lượng video trong truyền
tải cũng như trong lưu trữ ngày càng cao. Sự gia tăng
này song hành cùng với sự ra đời của các thiết bị số hiện
đại nói riêng và sự phát triển như vũ bão của nhiều lĩnh
vực khoa học, kỹ thuật và công nghệ nói chung, những
yếu tố góp phần làm tăng nhu cầu sử dụng, truyền tải
video. Do đó, các chuẩn mã hóa video không ngừng
được phát triển với hiệu năng ngày càng cao để mã hóa
hiệu quả các video thơ chưa qua xử lý, đáp ứng được nhu
cầu truyền tải, lưu trữ video, đóng vai trị quan trọng cho
sự phát triển của các ứng dụng truyền thơng đa phương
tiện như truyền hình thời gian thực (streaming), thực tại
ảo (VR: Virtual Reality), 3D-TV,… Cụ thể, theo thời
gian, các chuẩn mã hóa video hiện nay như H.264/AVC
[1], H.265/HEVC [2] và mới nhất là H.266/VVC [3],
cũng không ngừng được nghiên cứu phát triển và cải
tiến, đảm bảo phù hợp, bắt kịp các ứng dụng truyền
thông đa phương tiện tiên tiến.
Một trong những kỹ thuật, công nghệ quan trọng,
đóng vai trị nền tảng trong phát triển các lĩnh vực khoa
học giai đoạn mới, cuộc cách mạng 4.0, đó chính là trí
ISBN 978-604-80-7468-5
II.
CHUẨN MÃ HĨA H.266/VERSATILE
VIDEO CODING
Đứng trước sự phát triển các dịch vụ truyền thông
video đáp ứng sự phát triển các ứng dụng phục vụ nhu
cầu ngày càng cao về chất lượng video, năm 2013 chuẩn
mã hóa video H.265/HEVC (High Efficiency Video
Coding) được thơng qua [2]. Sau đó, chuẩn mã hóa
video H.266/VVC (Versatile Video Coding) [3] đã được
chính thức thơng qua vào tháng 7 năm 2020. Chuẩn mã
hóa video này được tích hợp các kỹ thuật tiên tiến, thích
hợp với các ứng dụng mã hóa video độ phân giải cao
415
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
(HD, FullHD, 2K, 4K,…), đồng thời cho phép mã hóa
video khả chuyển (Scalable Vdeo Coding), mã hóa
video 360o,…
Hình 1 mơ tả kiến trúc tổng quan của bộ mã hóa
H.266/VVC. Tương tự với các mơ hình mã hóa video
hiện đại, VVC sử dụng kiến trúc mã hóa lai theo khối
(block-based hybrid coding), bao gồm các mơ đun chính
như phân chia hình ảnh, dự đốn nội khung/liên khung,
biến đổi, lượng tử hóa, mã hóa entropy.
Thơng tin
khác biệt
-
Biến đổi /
Lượng tử hóa
Video nguồn
Mã hóa
Entropy
Chuỗi bit đầu ra
1 0 1 0 1 00 1
Lượng tử/
Biến đổi
ngược
Dự đoán
trong khung
Khung hình
dự đốn
Dự đốn liên
khung
Bộ đệm các
khung hình
đã giải mã
Bộ lọc
vịng lặp
Hình 1: Mơ hình mã hóa video theo chuẩn H.266/VVC.
A. Phân chia khung hình:
Một khung hình video được chia thành các đơn vị
mã hóa như CTU (Coding tree unit), CU (coding unit),
PU (prediction unit). Việc quyết định kích cỡ phân chia
có thể khác nhau, tùy thuộc nội dung khung hình và đảm
bảo phù hợp chế độ dự đốn. Trong VVC, kích thước
khối hình lớn nhất được cho phép lên tới 128×128 khơng
như kích thước 64×64 của chuẩn tiền nhiệm. Thêm nữa,
từ chuẩn mã hóa HEVC, cấu trúc cây tứ phân (quad tree)
được sử dụng. Sau đó VVC chọn thêm cây tích hợp đa
kiểu phân chia đệ quy (MTT: nested recursive MultipleType Tree), tức là phân chia khối hình cho 2 (là cấu trúc
binary split) hoặc cho 3 (là cấu trúc ternary split) (Hình
2). Ngồi ra, việc lựa chọn tỉ lệ chiều dài/chiều rộng của
khối hình theo chuẩn VVC cho phép được linh hoạt, lên
tới 1/16.
chuẩn H.265/HEVC, cụ thể là từ chuẩn H.261/MPEG1. Còn từ chuẩn HEVC, phép biến đổi sin rời rạc DSTVII (Discrete Sine Transform), được bổ sung trong khối
biến đổi của kiến trúc HEVC [4-8]. Trong kiến trúc mã
hóa video hiện hành, chuẩn VVC đã bổ sung thêm phép
biến đổi DCT-VIII. Như vậy, 3 phép biến đổi cô sin rời
rạc là DCT-II, DCT-VIII, DST-VII được thực hiện linh
hoạt trong kiến trúc VVC [9], do đó chi phí biến dạng
được giảm thiểu đáng kể, đặc biệt hữu hiệu trong việc
loại bỏ hệ số biến đổi tần số cao đối với video có độ phân
giải cao, có kích thước khối lớn (lên đến 128×128).
Các thơng tin phía đầu ra của bộ biến đổi tiếp tục
được đưa vào bộ lượng tử hóa, do vậy giúp cho số đầu
ra có thể có được giảm bớt. Tuy nhiên, tác động giảm
bớt số trọng số này là phép tốn xấp xỉ nên có hiện tượng
tổn thất dữ liệu phía đầu ra của bộ lượng tử hóa.
Phép lượng tử vơ hướng mà trong đó, mỗi hệ số xấp
xỉ độc lập với các giá trị xung quanh được lựa chọn áp
dụng trong kiến trúc VVC. Hệ số lượng tử (QP) được
mở rộng, lên tới 63. Hơn nữa, để chuyển đổi QP độ xám
(luma) sang QP màu sắc (chroma), ánh xạ QP linh hoạt
hơn được áp dụng vào kiến trúc VVC [10].
C. Mã hóa dự đốn
Có hai cách thức thực hiện dự đoán là dự đoán trong
khung hay dự đoán liên khung. Phép dự đoán trong
khung tức là phép dự đốn được thực hiện trong chính
ảnh đang được mã hóa, các khối mẫu lân cận của khối
hiện tại có thể được bộ mã hóa dùng để thực hiện dự
đốn. Cịn dự đốn liên khung, bộ mã hóa tham chiếu
các ảnh đã được mã hóa xong để thực hiện dự đốn cho
ảnh hiện tại. Vì khơng có các ảnh nào khác phía trước để
tham chiếu nên ảnh đầu tiên của video chỉ áp dụng dự
đoán trong khung. Tùy theo các mục tiêu cần đạt (như
tối ưu hóa tỉ lệ méo), bộ mã hóa sẽ quyết định cách thức
dự đoán liên khung hay dự đoán trong khung khi mã hóa
các ảnh tiếp theo.
•
Dự đốn nội khung (dự đốn khơng gian)
Trong kiến trúc VVC, dự đốn nội khung có 67 chế
độ dự đoán, bao gồm chế độ Planar (0), DC (1) và 65
chế độ dự dốn theo hướng (2÷67) (Hình 3). VVC sử
dụng kích thước CTU lớn hơn và hình dạng các khối PU
khơng giới hạn là các khối vng N×N, 2N×2N. Đối với
các khối hình có dạng hình chữ nhật, một số hướng dự
đoán bị thay thế, tuy nhiên tổng số hướng vẫn là 67 và
phương pháp dự đốn khơng thay đổi [11].
Hình 2: Các dạng phân chia đệ quy trong VVC.
B. Phép biến đổi và lượng tử hóa
Với mục đích giảm sự tương đồng ở khối thơng tin
khác biệt, phép biến đổi sẽ tác động vào các hệ số, làm
cho hệ số dư thừa càng nhỏ càng tốt, do đó, làm nổi lên
các hệ số có biên độ lớn trong vùng biến đổi.
Phép biến đổi cosin rời rạc DCT-II (Discrete Cosine
Transform), được dùng nhiều trong các chuẩn trước
ISBN 978-604-80-7468-5
Hình 3: Các chế độ dự đốn nội khung trong VVC.
416
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2022)
Các góc độ được thay đổi qua các thế hệ nén video
nhằm tăng hiệu quả của phép dự đoán, ngày càng thu
được các hướng biên tùy ý của các video tự nhiên bất
kỳ.
•
Dự đốn liên khung (dự đốn thời gian)
Việc mã hóa trực tiếp các giá trị pixel thô cho mỗi
block nội tại, có thể được thay thế bằng cách tìm kiếm
một khối tương tự trên khung đã được mã hố trước đó
rồi mã hoá khối này bởi một vector chuyển động. Cách
này chính là thao tác ước lượng chuyển động và có gây
ra lỗi hay giá trị dư thừa do dự báo. Vậy cần có 2 phần
tử để khơi phục các pixel thô của khối là vector chuyển
động và lỗi dự báo (hay thơng tin khác biệt).
Bộ mã hóa HEVC sử dụng tập các vector dự đoán
nâng cao AMVP (advanced Motion Vector prediction),
cịn VVC bổ sung thêm tập vector dự đốn dựa trên lịch
sử (History-based Motion Vector Prediction - HMVP)
[12].
nhóm tác giả này cũng đề xuất một mơ hình mạng nơ
ron tích chập và hàm mất mát giúp kết thúc sớm quá
trình phân vùng hình ảnh trong VVC. Mơ hình mạng học
sâu này sử dụng thơng tin về kích thước và nội dung khối
hình để đưa ra quyết định kết thúc hoặc tiếp tục quá trình
phân chia. Kết quả kiểm thử cho thấy phương pháp này
giúp giảm từ 44.65% - 66.88% thời gian mã hóa, trong
khi hiệu năng mã hóa khơng ảnh hưởng quá nhiều với
1.322%-3.188% lượng BDBR tăng thêm.
Nhóm tác giả G. Tang [15] đề xuất phương pháp kết
hợp tính tốn gradient và mạng học sâu CNN để kết thúc
sớm quá trình phân chia CU trong VVC. Đầu tiên, bộ
mã hóa tính tốn gradient của CU hiện tại và đưa ra
quyết định dừng hoặc tiếp tục quá trình phân chia dựa
trên ngưỡng. Nếu q trình phân chia được tiếp tục, một
mơ hình mạng học sâu CNN được sử dụng để đưa ra
quyết định về chế độ phân chia của CU. Kết quả cho thấy
phương pháp này giúp giảm 33% thời gian mã hóa trong
khi chỉ tốn thêm 0.99% lượng BDBR.
Trong bài báo [16], nhóm tác giả N. Zouidi đề xuất
tái sử dụng mơ hình mạng mơ ron tích chập ETH-CNN
áp dụng cho q trình phân chia các khối hình có dạng
hình vng trong VVC Mơ hình mạng ETH-CNN này
được đề xuất bởi nhóm tác giả Mai Xu và cộng sự [17]
áp dụng cho mơ hình mã hóa video chuẩn H.265/HEVC.
Mơ hình mạng học sâu này sử dụng thông tin về nội
dung khung hình và hệ số lượng tử để đưa ra quyết định
kết thúc hoặc tiếp tục quá trình phân chia CU trong
HEVC sử dụng cấu trúc cây chia tư (quad-tree). Bên
cạnh đó, bài báo này cũng đề xuất một phương pháp lựa
chọn nhanh chế độ dự đoán nội khung sử dụng phân tích,
thống kê. Kết quả cho thấy thời gian xử lý của bộ mã
hóa VVC giảm từ 51.81% - 60.04% trong khi lượng
BDBR tăng thêm khoảng 3.59%.
Nhóm tác giả Q. Zhang và cộng sự đề xuất trong bài
báo [18] thuật tốn quyết định nhanh kích thước CU cho
VVC dựa trên đặc tính về nội dung video kết hợp với
ngưỡng động. Thuật tốn này bao gồm 2 q trình: 1)
xác định tiếp tục hoặc kết thúc quá trình phân chia CU
và 2) lựa chọn chế độ phân chia cho CU. Kết quả kiểm
thử cho thấy thời gian xử lý của bộ mã hóa giảm trung
bình 48.58% trong khi lượng BDBR tăng thêm 0.91%.
D. Bộ lọc
Các khung hình sau khi tái tạo được đưa qua bộ lọc
để nâng cao chất lượng hình ảnh, do đó nâng cao hiệu
quả trong mã hóa video.
Hai bộ lọc lặp (In-Loop) được dùng trong HEVC là
Bộ lọc nhiễu khối (DBF: Deblocking Filter) và Bù mẫu
thích ứng (SAO: Sample Adaptive Offset). Bộ lọc DBF
là bộ lọc đầu tiên, được áp dụng thực hiện lọc tín hiệu
trên một khu vực hoặc tồn bộ ảnh. Cịn bộ lọc SAO tiếp
theo áp dụng thực hiện lọc trên phạm vi không gian cục
bộ của ảnh.
Ngoài ra, bộ lọc thứ ba được bổ sung trong chuẩn
VVC là Bộ lọc vịng lặp thích ứng (ALF: Adaptive Loop
Filter), các bộ lọc hình dạng kim cương 7×7 và 5×5 được
áp dụng để cải tiến các bộ lọc In-Loop trong VVC [13].
E. Mã hóa nhị phân thích ứng
Qua khối này, để tiếp tục đạt thêm hiệu năng cao,
thông tin dư thừa hay thông tin khác biệt được mã hóa
bởi bộ mã hóa số học, nhị phân tương thích ngữ cảnh
CABAC (Context Adaptive Binary Arithmetic Coding)
[10].
III.
CÁC THUẬT TỐN CẢI THIỆN CHUẨN
MÃ HĨA VIDEO H.266/VVC
B. Cải thiện mơ hình dự đốn nội khung
Như đã đề cập, VVC sử dụng 67 chế độ dự đoán nội
khung so với 35 chế độ trong HEVC khiến cho thời gian
lựa chọn chế độ dự đoán tối ưu tăng lên đáng kể. Do đó,
các nghiên cứu liên quan đến giảm thời gian cho q
trình lựa chọn chế độ dự đốn nội khung trở nên rất quan
trọng và cấp thiết.
Nhóm tác giả H. Yang đề xuất trong bài báo [19]
thuật tốn tìm kiếm nhanh chế độ dự đoán nội khung tối
ưu cho VVC. Dựa trên giá trị sai khác sau biên đổi
Hadamard (SATD), một hướng khởi tạo cho quá trình
tìm kiếm được lựa chọn. Sau đó, bộ mã hóa tiến hành
tìm kiếm và cập nhật hướng dự đoán nội khung tối ưu
với bước nhảy lần lượt bằng 4, 2. Tập ứng viên dự đoán
A. Cải thiện mơ hình phân chia hình ảnh
H.266/VVC sử dụng cơ chế phân chia hình ảnh theo
cấu trúc QTMT. Cấu trúc phân chia này giúp việc phân
chia trở nên linh động và hiệu quả hơn. Tuy nhiên, do số
lượng kích thước và hình dạng khối hình lớn khiến cho
thời gian phân chia tăng cao so với các chuẩn mã hóa
video trước đó. Do đó, các nhóm nghiên cứu trên thế
giới đã tiến hành thử nghiệm và ứng dụng các mô hình
học sâu nhằm giảm thời gian phân chia hình ảnh trong
VVC.
Nhóm tác giả T.Li [14] đề xuất một tập dữ liệu lớn
với nội dung video đa dạng phục vụ quá trình huấn luyện
các mơ hình học sâu cho mã hóa video. Bên cạnh đó,
ISBN 978-604-80-7468-5
417
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
cuối cùng sử dụng cho quá trình RDO bao gồm chế độ
Planar, chế độ DC và hướng dự đốn có giá trị SATD
nhỏ nhất. Kết quả kiểm thử cho thấy thuật toán này giúp
giảm 25.51% thời gian xử lý trong khi lượng BDBR tăng
thêm 0.54%.
Trong bài báo [20], nhóm tác giả Y. Chen đề xuất
phương pháp giảm thời gian lựa chọn chế độ dự đoán
nội khung cho VVC. Phương pháp này bao gồm 2 quá
trình: 1) thiết lập tập ứng viên các chế độ dự đoán nội
khung dựa trên giá trị sai khác sau biến đổi Hadamard
và tập MPM; 2) sắp xếp lại tập các ứng viên và kết thúc
sớm quá trình lựa chọn chế độ dự đoán tối ưu dựa trên
ngưỡng động. Thuật toán này cho thấy khả năng giúp
giảm tới 30.59% thời gian mã hóa với lượng BDBR tăng
thêm 0.86%.
Một kiến trúc mạng nơ ron tích chập được nhóm tác
giả T. Lin đề xuất trong nghiên cứu [21]. Mơ hình mạng
tích chập này đưa ra tập các ứng viên dự đoán nội khung
cho các khối có kích thước 16×16 trong VVC dựa trên
thông tin về giá trị điểm ảnh của khối hình hiện tại và
khối hình tái tạo.
thấy phương pháp này giúp giảm 30.63% thời gian xử lý
của bộ mã hóa và tiêu tốn thêm 3.18% lượng BDBR.
Input
Thành phần Luma
S=1
C = 16
FRESI C FConcat
S=1
C = 16
S=2
C = 32
S=1
C = 32
S=1
C=2
OConfidence
FMF
IMF
Vector chuyển
động 2 chiều
Output
S=2
C = 32
IRESI
Thông tin sai khác
Hợp nhất đặc trưng
FL
IL
S=1
C = 16
S=2
C = 32
Hình 5: Kiến trúc mạng CNN sử dụng trong thuật tốn kết thúc
sớm q trình phân chia CU trong dự đốn liên khung.
Trong q trình ước lượng chuyển động, kích thước
vùng tìm kiếm có ảnh hưởng lớn tới thời gian xử lý của
bộ mã hóa. Trên cơ sở phân tích ảnh hưởng của kích
thước vùng tìm kiếm tới độ phức tạp thuật tốn, nhóm
tác giả Z. Pan [23] đề xuất phương pháp thu hẹp vùng
tìm kiếm thích ứng dựa trên việc khai thác thông tin về
chuyển động của các khối hình lân cận và khối hình ở
độ sâu phân chia trước đó. Bên cạnh đó, nhóm tác giả
cũng đề xuất một phương pháp lựa chọn khung hình
tham chiếu trong dự đốn liên khung bằng việc khai thác
thơng tin về vector dự đoán chuyển động. Thuật toán này
giúp giảm số lượng khung hình tham chiếu cần tìm kiếm,
qua đó giúp giảm thời gian xử lý chung của bộ mã hóa.
Kết quả kiểm thử cho thấy phương pháp đề xuất giúp bộ
mã hóa giảm 34.27% thời gian xử lý trong khi lượng bit
mã hóa tăng thêm 0.49%.
C. Cải thiện mơ hình dự đốn liên khung
Đối với dự đốn liên khung, vector chuyển động của
CU là một trong những thông tin quan trọng cho biết
tương quan về mặt thời gian giữa các khung hình.
Nhóm tác giả L. Zhang đề xuất phương pháp khai
thác thông tin về vector chuyển động của các khối hình
đã được mã hóa trước đó để xây dựng một tập ứng viên
dự đoán liên khung cho CU trong VVC, với tên gọi tập
các vector dự đoán dựa trên lịch sử [12]. Tập các vector
ứng viên được điều khiển và cập nhật với cơ chế nhập
trước xuất trước (first-in-first-out). Các vector ứng viên
mới được thêm lần lượt vào vị trí cuối của bảng lưu trữ.
Khi có một vector ứng viên mới giống với vector ứng
viên cũ, vector cũ bị loại bỏ, các vector phía sau được di
chuyển về phía trước với chỉ số giảm đi 1 (Hình 4).
Phương pháp này giúp bộ mã hóa VVC tiết kiệm lên tới
1.2% lượng bit mã hóa, trong khi thời gian xử lý tăng
thêm khoảng 1-7%.
D. Nâng cao chất lượng hình ảnh sau giải mã
Tác giả F. Zhang và cộng sự đề xuất trong bài báo
[24] một phương pháp nâng cao chất lượng video sau
giải mã. Phương pháp trình bày và kiểm thử một kiến
trúc mạng nơ ron tích chập bao gồm 2N+2 lớp tích chập.
Kết quả cho thấy phương pháp này giúp tiết kiệm 5.84%
lượng bitrate đối với bộ các hệ số lượng tử cao, và 5.8%
lượng bitrate khi kiểm thử với bộ các hệ số lượng tử
thấp.
Tác giả F. Nasiri và cộng sự [25] đề xuất mơ hình
mạng học sâu giúp nâng cao chất lượng các khung hình
trong video. Mơ hình mạng học sâu này sử dụng thơng
tin về hệ số lượng tử kết hợp với khung hình tái tạo
(prediction-unaware) và khung hình dự đốn
(prediction-aware). Kết quả cho thấy phương pháp này
giúp tiết kiệm từ 5.8% đến 7.4% lượng bitrate khi kiểm
thử với chuẩn mã hóa video H.266/VVC.
Tác giả Q. Xing và cộng sự đề xuất trong bài báo
[26] một mơ hình mạng học sâu kết hợp CNN và
BiLSTM, cho phép khai thác tương quan về mặt thời
gian giữa các khung hình đề nâng cao chất lượng hình
ảnh video. Ban đầu, phương pháp này được kiểm thử
cho chuẩn mã hóa H.265/HEVC, và sau đó được kiểm
thử cho chuẩn mã hóa H.266/VVC trong bài báo [27].
Hình 4: Cơ chế cập nhật bảng các ứng viên HMVP.
Nghiên cứu [22] lần đầu tiên đề xuất một phương
pháp sử dụng học sâu giúp tăng tốc quá trình phân chia
CU trong VVC. Phương pháp này đề xuất một kiến trúc
mạng nơ ron tích chập sử dụng đầu vào là thông tin về
thành phần Luma của CU, thơng tin dư thừa và vector
dự đốn chuyển động 2 chiều (Hình 5). Kiến trúc mạng
này được sử dụng cho việc dự đoán chế độ phân chia của
các CU có kích thước lớn hơn 16×16. Bên cạnh đó, tác
giả cũng đề xuất thuật toán quyết định nhanh chế độ hợp
nhất (Merge mode) trong ước lượng chuyển động, sử
dụng thông tin dư thừa sau mã hóa của CU. Kết quả cho
ISBN 978-604-80-7468-5
Trích chọn đặc trưng
418
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2022)
Bên cạnh đó, các phương pháp [28, 29] đề xuất các
mơ hình mạng học sâu giúp cải thiện bộ lọc vòng (inloop filter) trong chuẩn mã hóa video H.266/VVC.
IV.
Một số nhận xét rút ra như sau:
- Phương pháp [14] giúp giảm thời gian xử lý của bộ
mã hóa H.266/VVC nhiều nhất với 63.79% trong
khi phương pháp [20] giảm ít thời gian nhất với
30.59%.
- Phương pháp [23] có hiệu quả tốt nhất với tỉ lệ
ΔT/BDBR lên tới 69.94 trong khi phương pháp [22]
có hiệu quả kém nhất với tỉ lệ ΔT/BDBR chỉ đạt
9.63.
- Phương pháp [23] cũng là phương pháp tiêu tốn
thêm ít bit nhất với 0.49% lượng BDBR.
Hiệu quả của một số phương pháp nâng cao chất
lượng hình ảnh về mặt BDBR cho một số chuỗi video
được thống kê trong Bảng 3. Nhìn chung, phương pháp
[25] có hiệu quả cao nhất khi tiết kiệm 7.04% lượng bit
mã hóa khi so sánh ở cùng mức chất lượng.
Hình 7 cho thấy đường cong RD (Rate – Distortion)
của một số chuỗi video sử dụng thuật toán nâng cao chất
lượng MFQE [27] khi kiểm thử với cấu hình mã hóa
Low-Delay-P.
NHẬN XÉT VÀ ĐÁNH GIÁ
Các thuật tốn nêu trên được các nhóm tác giả kiểm
thử và đánh giá hiệu năng trên tập dữ liệu chuẩn gồm 8
video. Đặc tính của các video được thống kê trong Bảng
1.
Bảng 1: Đặc tính các chuỗi video kiểm thử.
Số lượng
Tốc độ
Chuỗi video
Độ phân giải
khung hình
khung hình
PeopleOnStreet
2560×1600
150
30 Hz
Kimono
1920×1080
240
24 Hz
ParkScene
1920×1080
240
24 Hz
PartyScene
832×480
500
50 Hz
RaceHorsesC
832×480
300
30 Hz
BasketballPass
416×240
500
50 Hz
BlowingBubbles
416×240
500
50 Hz
RaceHorsesD
416×240
300
30 Hz
Bảng 3: Hiệu quả của một số phương pháp nâng cao chất lượng
hình ảnh (BDBR).
Video
[24]
[25]
[26]
[27]
[28]
Bảng 2: Hiệu quả của một số thuật toán giảm thời gian xử lý cho
chuẩn mã hóa video H.266/VVC.
Phương
pháp
ΔT (%)
BDBR
(%)
ΔT/BDBR
[14]
63.79
3.19
20.00
[15]
33.41
0.99
33.75
[16]
60.04
3.59
16.72
[18]
48.58
0.91
53.38
PeopleOnStreet
N/A
N/A
-3.22
N/A
N/A
Kimono
N/A
N/A
-4.35
N/A
N/A
ParkScene
N/A
N/A
-7.10
N/A
N/A
PartyScene
-4.3
-6.1
-6.23
-1.46
-3.91
RaceHorsesC
-2.09
-4.2
-1.35
-1.68
-3.11
BasketballPass
-5.61
-8.9
-6.23
-1.73
-4.59
BlowingBubbles
-3.75
-7.0
-8.61
-0.8
-3.79
[19]
62.46
1.93
32.36
[20]
30.59
0.86
35.57
[22]
30.63
3.18
9.63
RaceHorsesD
-4.2
-9.0
-3.84
-2.19
-4.9
[23]
34.27
0.49
69.94
Trung bình
-3.99
-7.04
-5.12
-1.57
-4.06
Hiệu quả của một số thuật tốn giảm thời gian mã
hóa cho chuẩn H.266/VVC được mơ tả trong Bảng 2 và
Hình 6. Trong đó ΔT cho biết thời gian mã hóa tiết kiệm
của mỗi phương pháp, chỉ số BDBR [30] cho biết lượng
bit thay đổi khi so sánh với phương pháp tham chiếu ở
cùng mức chất lượng (BDBR > 0 tức là lượng bit cần
cho q trình mã hóa tăng thêm). Tỉ lệ ΔT/BDBR giúp
đánh giá hiệu quả của thuật toán trên cả 2 phương diện:
thời gian tiết kiệm và hiệu năng nén. Tỉ lệ này càng cao
thì thuật tốn càng hiệu quả.
Hình 7: Đường cong RD của một số chuỗi video sử dụng thuật
toán nâng cao chất lượng MFQE.
V.
Trong bài báo này, chúng tôi tiến hành khảo sát một
số nghiên cứu giúp cải thiện chuẩn mã hóa video
Hình 6: Hiệu quả của một số thuật tốn giảm thời gian xử lý cho
chuẩn mã hóa video H.266/VVC.
ISBN 978-604-80-7468-5
KẾT LUẬN
419
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
[13] M. Karczewicz et al., "VVC In-Loop Filters," in IEEE
Transactions on Circuits and Systems for Video Technology,
vol. 31, no. 10, pp. 3907-3925, 2021.
[14] T. Li, M. Xu, R. Tang, Y. Chen and Q. Xing, "DeepQTMT: A
Deep Learning Approach for Fast QTMT-Based CU Partition
of Intra-Mode VVC," in IEEE Transactions on Image
Processing, vol. 30, pp. 5377-5390, 2021.
[15] G. Tang, M. Jing, X. Zeng and Y. Fan, "Adaptive CU Split
Decision with Pooling-variable CNN for VVC Intra Encoding,"
2019 IEEE Visual Communications and Image Processing
(VCIP), 2019.
[16] N. Zouidi et al., "Complexity reduction of versatile video
coding standard: a deep learning approach," Journal of
Electronic Imaging, vol. 30, no. 2, 2021.
[17] M. Xu, T. Li, Z. Wang, X. Deng, R. Yang and Z. Guan,
"Reducing Complexity of HEVC: A Deep Learning Approach,"
in IEEE Transactions on Image Processing, vol. 27, no. 10, pp.
5044-5059, 2018.
[18] Q. Zhang, Y. Zhao, B. Jiang, L. Huang and T. Wei, "Fast CU
Partition Decision Method Based on Texture Characteristics for
H.266/VVC," in IEEE Access, vol. 8, pp. 203516-203524,
2020.
[19] H. Yang et al., "Low-Complexity CTU Partition Structure
Decision and Fast Intra Mode Decision for Versatile Video
Coding," in IEEE Transactions on Circuits and Systems for
Video Technology, vol. 30, no. 6, pp. 1668-1682, 2020.
[20] Y. Chen et al., “A novel fast intra mode decision for versatile
video coding,” in Journal of Visual Communication and Image
Representation, vol. 71, pp. 102849-102859, 2020.
[21] T. Lin et al., “Intra mode prediction for H.266/FVC video
coding based on convolutional neural network,” in Journal of
Visual Communication and Image Representation, vol. 71, pp.
102686-102690, 2020.
[22] Z. Pan, P. Zhang, B. Peng, N. Ling and J. Lei, "A CNN-Based
Fast Inter Coding Method for VVC," in IEEE Signal Processing
Letters, vol. 28, pp. 1260-1264, 2021.
[23] Z. Pan et al., “Low complexity versatile video coding for traffic
surveillance system,” in International Journal of Sensor
Networks, vol. 30, no. 2, pp. 116-125, 2019.
[24] F. Zhang, C. Feng and D. R. Bull, "Enhancing VVC Through
Cnn-Based Post-Processing" 2020 IEEE International
Conference on Multimedia and Expo (ICME), 2020.
[25] F. Nasiri, W. Hamidouche, L. Morin, N. Dhollande and G.
Cocherel, "A CNN-Based Prediction-Aware Quality
Enhancement Framework for VVC," in IEEE Open Journal of
Signal Processing, vol. 2, pp. 466-483, 2021.
[26] Z. Guan et al., "MFQE 2.0: A New Approach for Multi-Frame
Quality Enhancement on Compressed Video," in IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol.
43, no. 3, pp. 949-963, 1 March 2021.
[27] X. HoangVan and H. -H. Nguyen, "Enhancing Quality for VVC
Compressed Videos with Multi-Frame Quality Enhancement
Model," 2020 International Conference on Advanced
Technologies for Communications (ATC), 2020.
[28] Y. Wang, Z. Chen, Y. Li, L. Zhao, S. Liu, and X. Li, “Ce13:
Dense residual convolutional neural network based in-loop
filter (ce13-2.2 and ce13-2.3),” in the JVET meeting, no. JVETN0254. ITU-T, ISO/IEC, 2019.
[29] S. Wan, M.-Z. Wang, H. Gong, C.-Y. Zou, Y.-Z. Ma, J.-Y. Huo,
Y.-F. Yu, and Y. Liu, “CE10: Integrated in-loop filter based on
CNN (Tests 2.1, 2.2 and 2.3),” in the JVET meeting, no. JVETO0079. ITU-T, ISO/IEC, 2019.
[30] G. Bjontegaard, “Calculation of average PSNR differences
between RD curves,” document VCEG-M33, 13th ITU-T
VCEG Meeting, VCEG, Austin, TX, USA, Apr. 2000.
H.266/VVC. Các phương pháp được khảo sát chủ yếu
tập trung giải quyết vấn đề giảm thời gian xử lý cho bộ
mã hóa H.266/VVC, cải thiện bộ lọc và và nâng cao chất
lượng hình ảnh sau giải mã. Bên cạnh những phương
pháp sử dụng phân tích, thống kê toán học truyền thống,
các phương pháp sử dụng học sâu, học máy cũng cho
thấy hiệu quả cao khi ứng dụng trong việc giải quyết
những vấn đề của mã hóa video hiện đại. Những khảo
sát và phân tích nêu trên là tiền đề, định hướng cho
những nghiên cứu tiếp theo trong tương lai.
VI.
LỜI CẢM ƠN
Nghiên cứu này được tài trợ bởi Quỹ Phát triển khoa
học và công nghệ Quốc gia (NAFOSTED) trong đề tài
mã số 102.01-2020.15.
TÀI LIỆU THAM KHẢO
[1]
T. Wiegand, G.J. Sullivan, G. Bjontegaard, A. Luthra,
“Overview of the H.264/AVC video coding standard,” IEEE
Trans. Circuits Syst. Video Technol., vol. 13, no. 7, pp. 560–
576, 2003.
[2] G.J. Sullivan, et al., “Overview of the High Efficiency Video
Coding (HEVC) Standard”, IEEE Transactions on Circuits and
Systems for Video Technology, vol. 22, no. 12, pp. 1649-1668,
2012.
[3] B. Bross et al., "Overview of the Versatile Video Coding (VVC)
Standard and its Applications," in IEEE Transactions on
Circuits and Systems for Video Technology, vol. 31, no. 10, pp.
3736-3764, 2021.
[4] N. Ahmed, T. Natarajan, and K. Rao, “Discrete Cosine
Transform,” in IEEE Transactions on Computers, vol. C-23, no.
1, pp. 90–93, 1974.
[5] M. Budagavi, A. Fuldseth, G. Bjontegaard, V. Sze, and M.
Sadafale, “Core Transform Design in the High Efficiency Video
Coding (HEVC) Standard,” IEEE J. Sel. Topics Signal Process.,
pp. 1029– 1041, Vol. 7, No. 6, Dec. 2013.
[6] V. Britanak, P. C. Yip, and K. R. Rao, “Discrete Cosine and
Sine Transforms: General Properties, Fast Algorithms and
Integer Approximations,” Elsevier, Sep. 2006.
[7] R. K. Chivukula and Y. A. Reznik, “Fast Computing of Discrete
Cosine and Sine Transforms of Types VI and VII,” in Proc.
SPIE 8135, Applications of Digital Image Processing XXXIV,
pp. 1–10, No. 813505, Sep. 2011.
[8] Y. A. Reznik, “Relationship between DCT-II, DCT-VI, and
DST-VII transforms,” in Proc. 2013 IEEE International
Conference on Acoustics, Speech and Signal Processing, pp.
5642–5646, May. 2013.
[9] X. Zhao et al., "Transform Coding in the VVC Standard," in
IEEE Transactions on Circuits and Systems for Video
Technology, vol. 31, no. 10, pp. 3878-3890, 2021.
[10] H. Schwarz et al., "Quantization and Entropy Coding in the
Versatile Video Coding (VVC) Standard," in IEEE
Transactions on Circuits and Systems for Video Technology,
vol. 31, no. 10, pp. 3891-3906, Oct. 2021.
[11] J. Pfaff et al., "Intra Prediction and Mode Coding in VVC," in
IEEE Transactions on Circuits and Systems for Video
Technology, vol. 31, no. 10, pp. 3834-3847, 2021.
[12] L. Zhang, K. Zhang, H. Liu, H. C. Chuang, Y. Wang, J. Xu, P.
Zhao, D. Hong, “History-based Motion Vector Prediction in
Versatile Video Coding”, Data Compression Conference
(DCC), 2019.
ISBN 978-604-80-7468-5
420