Tải bản đầy đủ (.pdf) (6 trang)

Nghiên cứu và phân tích các mô hình đánh giá chất lượng ảnh Light field với chuẩn mã hóa H.266/VVC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.77 MB, 6 trang )

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

Nghiên cứu và phân tích các mơ hình đánh giá
chất lượng ảnh Light field với chuẩn mã hóa
H.266/VVC
Phí Cơng Huy1,2, PGS. TS. Trịnh Anh Vũ2, TS. Hoàng Văn Xiêm2
Khoa Đa phương tiện, Học Viện Cơng Nghệ Bưu Chính Viễn Thơng1
Khoa Điện tử Viễn thông, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội2
Email: , , ,
khai thác dữ liệu ba chiều (3-D), ước lượng chiều sâu
[5].

Tóm tắt - Light-Field (LF) là một dạng dữ liệu về hình ảnh,
với thơng tin phong phú từ nhiều chiều thơng tin. Nó cung
cấp đa dạng thơng tin về hình ảnh như nội dung 2D, chiều
sâu, vị trí góc nhìn, độ dài tiêu cự, v.v. Do đó, đánh giá
chất lượng hình ảnh LF là cơng việc đầy thách thức. Trong
bài viết này, chúng tơi trình bày một số kết quả đánh giá
về chất lượng hình ảnh LF dựa trên phương pháp đánh
giá chủ quan, đặc biệt tập trung vào những độ sâu trường
ảnh (DOF) khác nhau với trường nhìn khác nhau (FOV).
Kết quả đánh giá chất lượng chủ quan được xây dựng dựa
trên bộ dữ liệu LF bao gồm 228 hình ảnh từ nguồn EPFL
với hai mức lấy nét khác nhau (lấy nét tiền cảnh và lấy nét
hậu cảnh). Để có sự đánh giá đa dạng, các thông tin nhiễu
được bổ sung vào các ảnh LF bằng cách mã hóa hình ảnh
thơng qua bộ mã hóa video mới nhất – Versatile Video
Coding (VVC). Kết quả nghiên cứu của bài báo đã cung
cấp những lưu ý về hiệu năng của 2 phương pháp đánh giá
phổ biến đó là Pick-signal Noise Ratio (PSNR) và
Structure Similarity Index (SSIM) sử dụng cho ảnh LF.



LF có lợi thế về sự phong phú của dữ liệu cùng với
các tính năng tuyệt vời được đề cập ở trên tuy nhiên nó
cũng gặp phải một số vấn đề liên quan tới xử lý tín hiệu
và phần mềm, nguyên nhân chính nằm ở dung lượng dữ
liệu cao và cấu trúc khác với các bức ảnh 2D thơng
thường. Tuy nhiên, một hình ảnh với dữ liệu nhiều thơng
tin như LF, nó hứa hẹn sẽ có một tương lai tiềm năng.
Nó có thể áp dụng vào việc hỗ trợ tối ưu hình ảnh trong
sản xuất kỹ xảo phim, cho phép những trải nghiệm mới
trong các ứng dụng hình ảnh, hội nghị từ xa và cải thiện
nội dung thị giác trong thực tế ảo và gia tăng (VR-AR)
[6].
Gần đây, hình ảnh LF có thể được áp dụng cho nhiều
lĩnh vực như công cụ y sinh học như ống soi tai [7], kính
hiển vi [8], điều khiển robot dựa trên thị giác [9],
velocimetry [10], v.v. Tuy nhiên, dữ liệu hình ảnh LF là
một loại dữ liệu có cấu trúc phức tạp và kích thước cao
cần được phân tích và khám phá, cụ thể là trong đánh
giá và biểu diễn chất lượng. Hình ảnh LF có thể bị nhiều
loại nhiễu do các giai đoạn xử lý hình ảnh LF khác nhau
như thu thập ở giai đoạn xử lý ban đầu, tái tạo / nén ở
giai đoạn xử lý giữa và kết xuất / hiển thị ở giai đoạn xử
lý sau này. Do đó, một mơ hình đánh giá chất lượng hình
ảnh LF (LF-IQA) hiệu quả là một nhu cầu rất cần thiết
trong thời gian hiện tại, đặc biệt, mô hình này phải kiểm
sốt được đặc điểm riêng biệt của LF, ví dụ: lựa chọn
điểm nét sau khi chụp.

Từ khóa— Image quality assessment, Light Field image,

Coding, Benchmarking

I. GIỚI THIỆU
Năm 2015, nhóm những chuyên gia về chuẩn nén
ảnh JPEG đã đưa ra một khái niệm mới đó là JPEG
Plenoptic, một định dạng ảnh với dữ liệu thông tin 7-D
[1]. Plenoptic bao gồm các loại dữ liệu như light field,
point cloud, holography…Điều này mở ra những hướng
nghiên cứu rất triển vọng cho các nhà nghiên cứu về xử
lý tín hiệu và ảnh.

Trong các nghiên cứu trước đây, một số mơ hình
đánh giá chất lượng hình ảnh (IQA) đã được đề xuất,
chẳng hạn như Tỷ lệ tín hiệu trên nhiễu đỉnh (PSNR),
Lỗi bình phương trung bình (MSE) và Chỉ số tương
đồng cấu trúc (SSIM). Tuy nhiên, các mơ hình này
khơng khai thác đầy đủ các đặc điểm LF, bao gồm thông
tin màu sắc và thơng tin hình học của ảnh LF và hình
ảnh phân nhóm (EPIs). Đặc biệt, các nghiên cứu gần đây
chưa khám phá đầy đủ sự phức tạp của độ sâu trường
ảnh (DOF) từ hình ảnh LF. Các tiêu chuẩn đánh giá
khách quan không phản ánh hiết sự biểu đạt phong phú
của LF và phản ánh kết quả cảm nhận của mắt người.

Light-Field (LF) là sự thể hiện của một tập hợp của
tất cả các tia sáng được ghi lại ở mọi điểm trong khơng
gian và ở các hướng; Do đó, dữ liệu LF có thể cung cấp
dữ liệu với các thơng tin phong phú. Nó được biết đến
thơng qua hệ thống Image-Based Rendering (IBR) do
Levoy và Hanrahan đề xuất năm 1996 [2]. Trong hai

thập kỷ qua, đã có một sự cải tiến rất lớn về kỹ thuật LF,
ví dụ: cách thu thập dữ liệu, kết xuất dữ liệu và kỹ thuật
lấy mẫu. Đặc biệt, nhiều loại máy ảnh chuyên dụng được
phát triển để ghi lại dữ liệu LF, ví dụ như Lytro LF, Illum
[3], và Raytrix [4]. Các máy ảnh này cung cấp cho chúng
ta những tính năng tuyệt vời của dữ liệu LF như thay đổi
điểm nhìn và góc nhìn, lấy nét dữ liệu sau khi ghi hình,

ISBN 978-604-80-5958-3

36


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2021)

Chính vì vây, bài báo này sẽ trình bày một nghiên
cứu đánh giá chất lượng về hình ảnh LF bằng cách đánh
giá chủ quan. Sự phức tạp của DOF trong hình ảnh LF
là mục tiêu chính để tạo thành tập dữ liệu LF. Tập dữ
liệu được sử dụng tất cả từ nguồn EPFL [11], được phân
loại thành hai loại chính, đó là lớp DOF phức tạp và
lớp DOF đơn giản. Mỗi loại DOF chứa một FOV rộng
và hẹp. Các thông tin nhiễu được bổ sung vào hình ảnh
LF thơng qua bộ mã hóa VVC, hình ảnh LF được mã
hóa với ba tham số định lượng (QPs), cụ thể là QP22,
QP40, QP50.

hình đi file là .LFR (Light Field Raw) cùng kích thước
7728x5368 , dung lượng sấp xỉ 50MB.


Cấu trúc của bài báo được phân chia như sau: Phần
2 mơ tả các đặc tính của ảnh LF, Phần 3 sẽ mơ tả q
trình đánh giá chất lượng chủ quan kèm theo phương
pháp đánh giá. Kết quả và thảo luận được thể hiện trong
Phần 4 và cuối cùng là kết luận trong Phần 5.

Trong dữ liệu Light Field, có một thuật ngữ cịn được
sử dụng đó là “super-pixel”, đó là hệ thống ống kính nhỏ
(lenslet) được thể hiện trên bức ảnh light field. Vì vậy,
bức ảnh light field có rất nhiều góc nhìn khác nhau. Tuy
nhiên, như mơ tả ở phía trên về dữ liệu Light Field, đây
không phải là những pixel giống như bức ảnh 2-D thơng
thường, đó chỉ là tập hợp các mẫu thấu kính nhỏ (lenslet)
trên một khoảng khơng gian 7728 x 5368. Khi dữ liệu
light field gốc được giải mã, sẽ tạo ra được cấu trúc dữ
liệu (thể hiện ở Hình 3) với thông số 15 x 15 x 625 x 434
x 4, trong đó 15 x 15 là số lượng điểm nhìn, 625 x 434
là độ phân giải và 4 là hệ màu cơ bản đi kèm với trọng
số [12]

Hình 2. Cấu tạo cơ bản bên trong máy ảnh để thu dữ liệu
Ligh-Field

II. CÁC NGHIÊN CỨU LIÊN QUAN
A.

Đặc tính ảnh light field
Dữ liệu plenoptic-light field cung cấp rất nhiều thông
tin với 7-chiều bao gồm: không gian (x, y, z), thời gian
(t), vị trí (θ, ϕ), bước sóng của ánh sáng (λ). Nó được

tổng hợp chung trong tham số P(x, y, z, θ, ϕ, λ, t). Tuy
nhiên, 7 chiều của dữ liệu không phải là chiều không
gian và cảm xúc như các thuật ngữ hiện nay mà nó cung
cấp các loại thơng tin. Đối với hình ảnh 3-D, mơ hình 3D thể hiện dựa trên không gian 2-D và bổ sung thêm độ
sâu để có 3-D, cịn với phim 4-D, 5-D bổ sung thêm cảm
xúc và sự tương tác, như xem phim đua xe 4-D có thêm
tương tác lắc lư như đang ngồi trên xe, 5-D có thể nếm
cảm nhận sự việc đang diễn ra. Vì vậy, để tránh nhầm
lẫn và hiểu sai ý nghĩa, tác giả đưa ra cách gọi dữ liệu
plenoptic-light field, đó là dữ liệu gồm có 7 loại thông
tin được cung cấp: không gian (x, y, z), thời gian (t), vị
trí (θ, ϕ), bước sóng của ánh sáng (λ) như Hình 1. Cũng
vì dữ liệu phong phú như vậy, nên hình ảnh Light Field
sau khi được ghi lại bằng máy ảnh chuyên dụng, có thể
tự lấy chọn điểm nét, thay đổi vị trí hay kết xuất ra hình
ảnh 3D.

R

1

G

B

W

………...

2


434 pixels

………………
………………
……………...

625 pixels

15

………………
………………
………………

………...

1

2

15

Hình 3: Cấu trúc dữ liệu LF.

Từ những đặc thù của cấu trúc dữ liệu LF, những tính
năng mà dữ liệu LF có thể cung cấp như: xuất ảnh 3D,
thay đổi điểm lấy nét, hay tạo ra các video dựa trên các
ảnh nhỏ, v.v
B.


Mơ hình mã hóa video H.266/VVC
H.266/VVC là tiêu chuẩn mã hóa video mới nhất,
được ITU-T và ISO/IEC đồng xuất bản. Vào tháng 7
năm 2020, bộ mã hóa VVC được cơng bố là nén video
thế hệ tiếp theo. Tiêu chuẩn video này được thiết kế để
hiệu quả và linh hoạt để đáp ứng nhu cầu truyền thơng
hiện đại.
Hình 1. Các loại thơng tin thể hiện cho dữ liệu Light Field

Để có hiệu quả mã hóa, H.266/VVC được bổ sung
nhiều cơng cụ mã hóa mới so với H.265/HEVC tiêu
chuẩn trước đó [16] Như độ phân giải vectơ chuyển
động thích ứng (AMVR), chế độ phân vùng tam giác
(TPM), dự đoán nội bộ dựa trên ma trận (MIP), phân
vùng khối linh hoạt với cây đa loại (MTT), dự đoán hai
lần với trọng lượng CU (BCW), chuyển đổi khối phụ
(SBT) và nhiều cải tiến gia tăng của thiết kế mã hóa
video lai cổ điển [17]. Dựa trên cải tiến các công cụ mã

Dữ liệu Ligh Field được tạo ra hoặc ghi lại bằng một
máy ảnh chuyên dụng, trong đó nó có một hệ thống
những ống kính nhỏ được sắp xếp trước cảm biến của
máy ảnh, để ghi lại những hình ảnh từ các góc độ và
chiều sâu khác nhau như Hình 2. Vì vậy, dữ liệu của
light field dung lượng và kích thước khá lớn với mỗi bức

ISBN 978-604-80-5958-3

37



Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

Bảng. 1 Tổng quan về định nghĩa dữ liệu LF
Loại lấy nét LF

Mô tả

Số lượng mẫu

CWF

Lớp phức tạp với FOV rộng và lấy nét vào Tiền cảnh

10

CWB

Lớp phức tạp với FOV rộng và lấy nét vào Hậu cảnh

10

CNF

Lớp phức tạp với FOV hẹp và lấy nét vào Tiền cảnh

10

CNB


Lớp phức tạp với FOV hẹp và lấy nét vào Hậu cảnh

10

SWF

Lớp đơn giản với FOV rộng và lấy nét vào Tiền cảnh

8

SWB

Lớp đơn giản với FOV rộng và lấy nét vào Hậu cảnh

8

SNF

Lớp đơn giản với FOV hẹp và lấy nét vào Tiền cảnh

10

SNB

Lớp đơn giản với FOV hẹp và lấy nét vào Hậu cảnh

10

hóa mới, giảm tốc độ bit được báo cáo khoảng 50% so

với H.265 / HEVC, đặc biệt, H.266 / VVC có thể sử
dụng cho video độ nét cực cao, ví dụ: 4K hoặc 8K, cũng
có dải động cao và gam màu rộng [17].

sử dụng làm phương pháp kiểm tra để so sánh chất lượng
hình ảnh. Thử nghiệm này được xác định với thang điểm
xếp hạng 5 cấp và bao gồm một cặp ảnh LF tham khảo
ẩn để kiểm tra sự chính xác của người tham gia, các mức
điểm đánh giá như sau, 1 – Yếu, 2 - Kém, 3 – Bình
thường, 4 – Khá, và 5 – Tốt.

Về cấu trúc phức tạp và kích thước cao của LF, cấu
hình mã hóa được sử dụng với 3 QP s khác nhau. Cụ
thể, QP22, QP40 và QP50 được sử dụng và xác định 3
mức chất lượng di chuyển từ rất cao đến rất thấp.

Môi trường điều kiện thử nghiệm được điều chỉnh để
tuân theo Khuyến nghị ITU-R BT.500-13 [14]. Các
người dùng được mời tham gia thử nghiệm được xem
ảnh LF thông qua màn hình Dell U2419H với 24 inch,
độ phân giải full HD 1920x1080, và khoảng cách xem
1,2m (±15cm). Về trình phát video, phần mềm MPV
[15] đã được sử dụng cho phương pháp đánh giá này.

III. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ CHẤT LƯỢNG ẢNH
LIGHT FIELD SAU MÃ HÓA (NÉN)
Trong nghiên cứu này, một tập dữ liệu LF được lựa
chọn từ EPFL [11] gồm 38 thể loại nội dung khác nhau,
với các loại DOF, FOV khác nhau. Các định nghĩa về
bộ dữ liệu được mô tả trong Bảng 1. Dữ liệu này được

chia thành hai phần dựa trên độ phức tạp của LF-DOF,
tức là lớp DOF phức tạp và lớp DOF đơn giản (khái
niệm lớp phức tạp và đơn giản được định nghĩa thơng
qua số lượng đối tượng mà ảnh LF có thể lấy nét, nếu
hơn 2 đối tượng được coi là lớp phức tạp). Mỗi loại DOF
chứa 2 loại FOV, tức là FOV hẹp và FOV rộng. Các
thông số thay đổi cấu hình của các điểm lấy nét của từng
hình ảnh LF được tính tốn trong dải tham số từ -0.7 cho
tới 1. Để thay đổi điêrm lấy nét của hình ảnh LF, chúng
ta thay đổi tham số của độ dốc, gọi là “slope” của hình
ảnh LF bằng LF Toolbox v.0.4 [13]. Có hai loại lấy nét,
lấy nét tiền cảnh và lấy nét hậu cảnh. Tuy nhiên, một số
hình ảnh LF chỉ có thể lấy nét với tham số độ dốc bằng
0, trường hợp này, nội dung bức ảnh sẽ quyết định đó là
bức ảnh lấy nét tiền cảnh hay hậu cảnh.

Tất cả các video được cho chạy liên tục thông qua
phần mềm Matlab phiên bản 2019b, điểm của mỗi cá
nhân tham gia đánh giá được ghi lại tự động vào một thư
mục riêng. Tổng cộng có 236 kết quả thu được tại buổi
đánh giá. Trong mọi trường hợp, không kết quả bất
thường nào được tìm thấy. Kết quả sau đó được tổng hợp
dựa trên cách tính trung bình - Mean Opinion Scores
(MOS) và 95% Khoảng thời gian tự tin (CIs). Số lượng
người tham gia thử nghiệm là 8 nữ và 12 nam, độ tuổi
khoảng 19 – 39 với thị lực ổn định.
B.

Phương pháp đánh giá khách quan PSNR
Phương pháp đánh giá khách quan PSNR được sử

dụng phổ biến nhất để đo chất lượng của việc tái tạo lại
các tín hiệu từ các bộ nén bị dữ liệu có tổn thất (ví dụ:
để nén hình ảnh). Tín hiệu trong trường hợp này là dữ
liệu gốc và nhiễu là lỗi do nén. Khi so sánh các bộ nén
dữ liệu, PSNR được coi là một giá trị tương đối với cách
con người có thể đánh giá về chất lượng tái tạo [19].
Các giá trị điển hình cho PSNR khi nén hình ảnh và
video bị tổn hao là từ 30 đến 50 dB, với điều kiện thông
số bit là 8 bit, với thông số bit càng cao, thì càng tốt.
Chất lượng xử lý của hình ảnh 12-bit được coi là cao khi
giá trị PSNR là 60 dB hoặc cao hơn. Đối với dữ liệu 16bit, các giá trị điển hình cho PSNR là từ 60 đến 80 dB.
Cơng thức tính PSNR được mơ tả như sau

A. Phương pháp đánh giá chủ quan
Các đánh giá chất lượng chủ quan đã được tiến hành
tại Trường Đại học Công nghệ, Đại, ĐHQG Hà Nội,
Việt Nam. Đầu tiên, tất cả các loại lấy nét khác nhau của
ảnh LF được tạo ra thơng qua phần mềm MatLab, tiếp
theo đó các ảnh này được ghép với nhau theo mơ hình
xoắn ốc, nhằm tạo ra các video giả lập, với 30 Fps và 12
giây cho tổng thời lượng một video. Sau đó, các video
giả lập này được mã hóa bởi VVC codec với 3 QPs (tức
là 22, 40, 50) nhằm tạo ra các thơng tin nhiễu khác nhau.
Mơ hình đánh giá 2 hình ảnh song song DSIS [18] được

ISBN 978-604-80-5958-3

𝑃𝑆𝑁𝑅 = 10𝑙𝑜𝑔10 (

38


2552
)
𝑀𝑆𝐸

(1)


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

Với
𝑀

𝑁

𝑀𝑆𝐸(𝑥, 𝑦) = 1/𝑀𝑁 ∑ ∑(𝑥𝑖𝑗 − 𝑦𝑖𝑗 )2

(2)

𝑖=1 𝑗=1

C.

Phương pháp đánh giá khách quan SSIM
Phương pháp SSIM là một phương pháp để đo mức
độ giống nhau giữa hai hình ảnh. SSIM dự đốn chất
lượng hình ảnh dựa trên hình ảnh khơng được nén hoặc
không bị biến dạng ban đầu làm tài liệu tham khảo. Nó
cho chúng ta biết một hình ảnh cần so sánh có chất lượng
tốt ra sao so với hình ảnh tham chiếu ban đầu. Đặc biệt,

phương pháp này được coi là phù hợp với hệ thống thị
giác của con người [19].
SSIM được thiết kế để cải thiện các phương pháp
truyền thống như PSNR và sai số bình phương trung
bình MSE. Các giá trị đánh giá của phương pháp này
được dao động từ 0 đến 1. Giá trị càng tiến gần 1, đồng
nghĩa với việc hình ảnh cần so sánh có chất lượng tương
đồng với hình ảnh gốc. SSIM được tính tốn tổ hợp dựa
trên các đặc tính của hỉnh ảnh như: độ sáng, độ tương
phản, và độ tương đồng. Cơng thức SSIM được tính như
sau:
𝑆𝑆𝐼𝑀(𝑥, 𝑦) = 𝑙(𝑥,𝑦) 𝑐(𝑥,𝑦) 𝑠(𝑥,𝑦)

(4)

Hình 4. Kết quả của phương pháp đánh giá chủ quan trên
các loại LF khác nhau

Với
𝑙(𝑥,𝑦) = 2𝜇𝑥 𝜇𝑦 + 𝐶1 ⁄𝜇2𝑥 + 𝜇2𝑦 + 𝐶1
𝑐(𝑥,𝑦) = 2𝜎𝑥 𝜎𝑦 + 𝐶2 ⁄𝜎2𝑥 + 𝜎2𝑦 + 𝐶2

B. Phân tích các loại lấy nét của ảnh LF
Để phân tích 8 loại lấy nét LF khác nhau, cách phù
hợp nhất được tính tốn cho mỗi loại lấy nét, đó là hệ
số xác định sự tương quan 𝑅2 như trong Hình 2. 𝑅2 là
một thước đo thống kê về sự tương quan dữ liệu thực tế
và nó được tính tốn như sau:

(5)


𝑠(𝑥,𝑦) = 𝜎𝑥𝑦 + 𝐶3 ⁄𝜎𝑥 𝜎𝑦 + 𝐶3
IV. PHÂN TÍCH KẾT QUẢ

∑(𝑥𝑖 − 𝑥̂𝑖 )2
𝑅 =1−
∑(𝑥𝑖 − 𝑥̅𝑖 )2
2

A. Kết quả từ phương pháp đánh giá chủ quan
Trong Hình 4, MOS và CIs thuộc loại LF khác nhau
được trình bày. Có 4 nội dung đại diện cho 4 loại lấy nét
khác nhau của LF, tức là CW (Lớp phức tạp với FOV
rộng), CN (Lớp phức tạp với FOV hẹp), SW (Lớp đơn
giản với FOV rộng) và SN (Lớp đơn giản với FOV hẹp).
Kết quả cho thấy, 95% CIs được chấp nhận với trung
bình 0,3 và các CIs tối đa khoảng 0,6.

Trong đó, 𝑥𝑖 và 𝑥̂𝑖 là các giá trị tương ứng của giá trị
gốc và dự đoán của mỗi cá nhân đánh giá; trong khi 𝑥̅𝑖
là khoảng cách dữ liệu cách xa giá trị trung bình.
Dựa trên kết quả trong Hình 5, có 𝑅2 = 0.5 nghĩa là
hầu hết dữ liệu gốc khơng có sự tương quan nào. Đáng
chú ý, loại lấy nét CNB và CNF, có mối tương quan
thấp nhất 𝑅2 = 0.4, sau đó là SWF, SWB, SNF và SNB
với 𝑅2 = 0.5. Những ảnh LF có sự tương quan thấp như:
House_Lake - SW, Wall_Decoration - SN,
Stone_Pillars_Inside - CN), đều có đặc điểm tương tự,
tức là contrast thấp, dải màu thấp. Tuy nhiên, loại lấy nét
CWF và CWB cho mối tương quan tốt hơn vì sự cải

thiện của contrast và dải màu, với 𝑅2 = 0.7, ví dụ:
Bench_in_Paris, Fountain_Vincent_2, v.v. Do đó, lý do
sự tương quan thấp bị tác động bởi độ tương phản thấp
và dải tương phản động thấp, và nó ảnh hưởng đến độ
sâu của hình ảnh LF.

Đáng chú ý, tất cả các loại lấy nét tiền cảnh cho thấy
chất lượng hình ảnh tốt hơn so với lấy nét hậu cảnh bởi
vì các chủ thể trong ảnh gần hơn với tầm nhìn mắt người.
Về các ảnh có chủ thể gần, cũng lưu ý rằng FOV hẹp
nhận được điểm MOS tốt hơn so với FOV rộng.

ISBN 978-604-80-5958-3

(6)

39


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

phản. Hai yếu tố này nên được xem xét để cải thiện các
tham số tương quan khi đánh giá chất lượng của ảnh LF.
Hơn nữa, bài báo đã xác định và phân loại loại các loại
lấy nét khác nhau theo từng nội dung của ảnh LF, việc
này có thể hữu ích cho nghiên cứu phân tích chất lượng
ảnh LF trong tương lai.

C. Phân tích mơ hình đánh giá chất lượng hình ảnh
PSNR và SSIM

SSIM và PSNR là hai mơ hình đánh giá chất lượng
hình ảnh phổ biến. SSIM được coi là mơ hình đánh giá
gần với mắt người nhất, bằng cách tìm điểm giống nhau
giữa hai bức ảnh. Trong khi đó, PSNR chỉ tính tốn sự
khác biệt giữa hai bức ảnh.

LỜI CẢM ƠN
Nghiên cứu này được tài trợ bởi Quỹ Phát triển khoa
học và công nghệ Quốc gia (NAFOSTED) trong đề tài
mã số 102.01-2020.15.
NGUỒN THAM KHẢO
[1]

[2]
[3]
[4]
[5]
[6]

[7]

[8]
[9]

[10]

[11]

Hình 6. Sự tương quan của ảnh LF dựa trên PSNR và SSIM


Hình 6, trình bày kết quả so sánh các loại lấy nét phù
hợp nhất của PSNR và SSIM với ảnh LF khác nhau. Nó
cho thấy rằng sự tương quan trên cả hai mơ hình được
tính tốn đều thấp khoảng 50% của giá trị trung bình.
Thậm chí, sự tương quan trên PSNR tốt hơn một chút so
với SSIM, khoảng 60%. Nhưng, PSNR không phù hợp
để đánh giá chất lượng thị giác của con người. Do đó,
để cải thiện mơ hình SSIM, chúng ta cần xem xét các
đặc điểm LF, tức là dải màu động và độ tương phản.

[12]
[13]

[14]

[15]
[16]

V. KẾT LUẬN
Bài báo đã trình bày một nghiên cứu về cách đánh
giá chất chủ quan và khách quan với lượng dữ liệu ảnh
LF có các điểm lấy nét thay đổi. Đồng thời, bài báo cũng
mơ tả bộ mã hóa mới nhất VVC và áp dụng nó để tạo ra
những hình ảnh có thơng tin nhiễu với các cấp độ nén
khác nhau. Dựa trên kết quả so sánh giữa các phương
pháp đánh giá chủ quan và khách quan, bài báo đã đưa
ra được lý do ảnh hưởng tới khả năng đánh giá chất
lượng ảnh LF khi sử dụng các mô hình đánh giá hiện tại
như PSNR và SSIM, đó là dải màu động và độ tương


ISBN 978-604-80-5958-3

[17]

[18]

[19]

40

T. Ebrahimi, F. Pereira, P. Schelkens, “JPEG Pleno: Toward an
Efficient Representation of Visual Reality”, Industry and
Standards, IEEE Multimedia, 2016
M. Levoy and P. Hanrahan, “Light field rendering,” in Proc.
SIGGRAPH, 1996, pp. 31–42.
Lytro camera, />Raytrix, />I. Ihrke, J. Restrepo, and L. Mignard-Debise, “Principles of
Light Field Imaging”, IEEE Signal Processing Magazine, 2016
T. Ebrahimi, S. Foessel, F. Pereira, P. Schelkens, “JPEG Pleno:
Toward an Efficient Representation of Visual Reality,” IEEE
Multimedia, Oct-Dec 2016
N. Bedard, T. Shope, A. Hoberman, M. A. Haralam, N. Shaikh,
J. Kovačević, N. Balram, and I. Tošić, "Light field otoscope
design for 3D in vivo imaging of the middle ear," Biomedical
optics express, vol. 8, pp. 260-272, 2017
H. Li, C. Guo, and S. Jia, "High-resolution light-field
microscopy," Frontiers in Optics, FW6D. 3, 2017
D. Tsai, D. G. Dansereau, T. Peynot, and P. Corke, "ImageBased Visual Servoing With Light Field Cameras," IEEE
Robotics and Automation Letters 2(2), pp. 912-919, 2017
K. Lynch, T. Fahringer, and B. Thurow, “Three-dimensional
particle image velocimetry using a plenoptic camera” American

Institute of Aeronautics and Astronautics (AIAA), 2012.
M. Řeřábek and T. Ebrahimi, “New Light Field Image Dataset,”
8th International Conference on Quality of Multimedia
Experience, Lisbon, Portugal, 2016.
Ren Ng, M. Levoy, et al, “Light Field Photography with a Handheld Plenoptic Camera”, Stanford Tech Report, 2005
D.
Dansereau,
“Light
Field
Toolbox
v0.4,”
/>-light-field-toolbox-v0-4
ITU-R BT.500-13, “Methodology for the subjective assessment
of the quality of television pictures,” International
Telecommunications Union, Jan 2012
MPV video player. [Online]. Available:
G. J. Sullivan, J. R. Ohm, W. J. Han and T. Wiegand, “Overview
of the High Efficiency Video Coding (HEVC) Standard,” in
IEEE Transactions on Circuits and Systems for Video
Technology, vol. 22, no. 12, pp. 1649-1668, Dec. 2012.
B. Benjamin, C. Jianle, L. Shan, W. Ye-Kui, “Versatile Video
Coding (Draft 10)”, 19th Meeting: by teleconference, Joint
Video Experts Team (JVET) of ITU-T SG 16 WP 3 and
ISO/IEC JTC 1/SC 29/WG 11, 22 June – 1 July 2020.
I. Viola, M. Rˇ erˇábek, T. Bruylants, P. Schelkens, F. Pereira,
and T. Ebrahimi, “Objective and subjective evaluation of light
field image compression algorithms,” in Proc. 32nd Picture
Coding Symp., pp. 1–5, 2016
A. Horé and D. Ziou, "Image Quality Metrics: PSNR vs. SSIM,"
2010 20th International Conference on Pattern Recognition,

2010, pp. 2366-2369


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2021)

Hình 5. Sự tương quan của MOS so sánh với phương pháp SSIM

ISBN 978-604-80-5958-3

41



×