TRƯỜNG ĐẠI HỌC HỒNG ĐỨC
KHOA CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN
THƠNG
CHUN NGÀNH KHOA HỌC MÁY TÍNH
NGHIÊN CỨU CÁC PHƯƠNG PHÁP NÂNG
CAO ĐỘ PHÂN GIẢI CỦA ẢNH SỐ
Học viên: Đỗ Quốc Vương
Người hướng dẫn khoa học thứ nhất: PGS, TS. Phạm Thế Anh
Người hướng dẫn khoa học thứ hai: TS. Nguyễn Đình Cơng
THANH HĨA - 2021
NỘI DUNG TRÌNH BÀY
Mở đầu
1. Ảnh số, các thuật tốn được sử dụng nhằm
nâng cao độ phân giải của ảnh
2. Triển khai lại một số thuật toán nhằm nâng
cao độ phân giải của ảnh
3. Thảo luận và so sánh giữa các thuật toán
4. Một số định hướng nghiên cứu mới
1
MỞ ĐẦU
Tính cấp thiết của đề tài:
Ảnh ban đầu độ phân giải thấp
Trích chọn 1 vùng bất kỳ
Với ảnh có độ phân giải thấp ảnh hưởng tới chất lượng của các thao tác như:
Trích chọn thơng tin ở vùng xác định.
Thơng tin mất tính tồn vẹn, đơi khi bị mất.
2
MỞ ĐẦU
Tính cấp thiết của đề tài:
Khi nâng cao độ phân giải của ảnh:
Thông tin được giữ nguyên vẹn (bảo tồn thơng tin)
Giảm các hiệu ứng răng cưa xuất hiện trong ảnh có độ phân giải thấp.
Dễ dàng thao tác các tác vụ liên quan tới in ấn.
3
MỞ ĐẦU
Mục tiêu của đề tài:
1. Tìm hiểu và nghiên cứu về ảnh số, các thuật toán được sử
dụng nhằm nâng cao độ phân giải của ảnh.
2. Triển khai lại một số thuật toán nhằm nâng cao độ phân giải
của ảnh.
3. Thảo luận và so sánh giữa các thuật toán.
4. Đưa ra một số định hướng nghiên cứu mới.
4
1. Ảnh số, các thuật toán được sử dụng
nhằm nâng cao độ phân giải của ảnh.
Ảnh số (Digital image) là một tập
các điểm ảnh thành phần (pixel)
được cấu trúc thành một lưới tọa độ
về mặt không gian để mô tả hay biểu
diễn các nội dung liên quan đến sự
cảm nhận trực quan của thị giác
y
(0,0
)
N
x
y
x
M
f(x,y)
5
1. Ảnh số, các thuật toán được sử dụng
nhằm nâng cao độ phân giải của ảnh.
Độ phân giải của ảnh số (image resolution) chỉ thơng tin được
chứa trong một hình ảnh nhất định được hiển thị trên màn hình. Hay
một cách khác, độ phân giải của ảnh số chính là số lượng tất cả các
điểm ảnh chứa trên một màn hình hiển thị.
Độ phân giải thấp
Độ phân giải cao
/>
6
1. Ảnh số, các thuật toán được sử dụng
nhằm nâng cao độ phân giải của ảnh.
Các thuật toán sử dụng nhằm nâng cao độ phân giải của ảnh:
Thuật toán xử lý ảnh truyền thống:
+ Nội suy dựa trên các điểm ảnh hàng xóm;
+ Nội suy tuyến tính;
+ Nội suy song khối.
Mạng Nơron tích chập (CNN)
+ Phương pháp EDSR;
+ Phương pháp ESPCN;
+ Phương pháp LapSRN.
7
2. Triển khai lại một số thuật toán nhằm
nâng cao độ phân giải của ảnh.
Giới thiệu về thuật toán nội suy:
Nội suy là phương pháp ước lượng tính giá trị của các điểm dữ
liệu chưa biết trong phạm vi của một tập hợp rời rạc một số điểm
dữ liệu đã biết.
Các dữ liệu nội suy có quan hệ khơng gian với nhau, tức là các
điểm gần nhau thì có độ tương đồng cao hơn so với những điểm
ở xa. Hình ảnh sau khi nội suy sẽ mịn hơn so với ảnh ban đầu.
8
2. Triển khai lại một số thuật toán nhằm
nâng cao độ phân giải của ảnh.
Thuật toán nội suy láng giềng gần nhất:
Nội suy láng giềng gần nhất là phương pháp nội suy đơn giản
nhất và được sử dụng phổ biến. Điểm ảnh mới sẽ được lấy giá trị của
ảnh gốc gần nó nhất và khơng xem xét các điểm lân cận khác.
Khoảng cách giữa hai điểm thường được đo bằng khoảng cách
Euclid hay khoảng cách Minkowski.
9
2. Triển khai lại một số thuật toán nhằm
nâng cao độ phân giải của ảnh.
Thuật toán nội suy tam giác:
Chúng ta sử dụng hai tam giác trong hệ tọa độ Barycentric để mơ
tả về thuật tốn.
Trước tiên ta sẽ định nghĩa một ánh xạ H cho các đỉnh chủa tam
giác sao cho H(A) = D, H(B) = E, H(C) = F
Điểm P nằm trong tam giác, điểm Q bất kỳ là ánh xạ của điểm P
10
2. Triển khai lại một số thuật toán nhằm
nâng cao độ phân giải của ảnh.
Thuật toán nội suy song khối:
Điểm ảnh mới được tạo ra sẽ có giá trị trung bình của 16 điểm
ảnh gốc gần nhất (mặt nạ kích thước 4x4). Do việc tái tạo chi tiết
màu từ nhiều ảnh gốc nên quy trình này sẽ tốn nhiều thời gian và bộ
nhớ trong quá trình xử lý hơn.
11
2. Triển khai lại một số thuật toán nhằm
nâng cao độ phân giải của ảnh.
Giới thiệu về mạng nơron tích chập (CNN):
Về cơ bản, mơ hình của một mạng CNN sẽ gồm có bốn lớp
chính:
- Lớp tích chập (Convolution layer);
- Lớp kích hoạt (Activation layer);
- Lớp gộp (pooling layer);
- Lớp kết nối đầy đủ (fully-connected layer).
/>
12
2. Triển khai lại một số thuật toán nhằm
nâng cao độ phân giải của ảnh.
Phương pháp EDSR
Bên trái là mô hình mạng ResNet, ở giữa là mơ hình
SRResNet, bên phải là mơ hình đề xuất của EDSR về sự
Mơ hình mạng EDSR
thay đổi trong khối dư
Lim, B., Son, S., Kim, H., Nah, S., & Mu Lee, K.. Enhanced deep residual networks for single image super-resolution. CVPR (pp. 136-144), 2017
13
2. Triển khai lại một số thuật toán nhằm
nâng cao độ phân giải của ảnh.
Phương pháp tích chập từng phần ESPCN
Mơ hình SRCNN
Mạng cơ sở
Mơ hình ESPCN
Shi, Wenzhe, et al."Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network."CVPR (pp. 1874-1883),
2016.
14
2. Triển khai lại một số thuật toán nhằm
nâng cao độ phân giải của ảnh.
Phương pháp LapSRN
Quá trình nâng độ phân giải của ảnh dựa vào
phương pháp LapSRN
3 cách thiết kế lối tắt trong các
khối dư của mơ hình
L. Wei-Sheng, H. Jia-Bin and A. Narendra, "Fast and Accurate Image Super-Resolution with Deep Laplacian Pyramid Networks," arXiv:1710.01992v3, 2018
15
3. Thảo luận và so sánh giữa các thuật tốn.
Thí nghiệm
Bộ dữ liệu: Sử dụng bộ dữ liệu DIV2K với 1000 ảnh
16
3. Thảo luận và so sánh giữa các thuật tốn.
Thí nghiệm
Thang đo: Sử dụng 2 thang đo là MSE và PSNR
Sai số tồn phương trung bình - MSE (Mean Squared Error)
Tỉ số tín hiệu cực đại/nhiễu (PSNR - Peak Signal to Noise Ratio)
17
3. Thảo luận và so sánh giữa các thuật tốn.
Thí nghiệm với các phương pháp nội suy trên bộ dữ liệu DIV2K
(PSNR (dB) / SSIM )
Dataset
Tập 1
Scale
x2
x3
x4
x2
Tập 2
x3
x4
x2
Tập 3
x3
Inter_Nearest
33.66 / 0.9299
Inter_Affine
36.54 /
Inter_Bicubic
36.66 / 0.9542
30.39 / 0.8682
0.9544
32.58 /
32.75 / 0.9090
28.42 / 0.8104
0.9088
30.28 /
30.48 / 0.8628
30.24 / 0.8688
0.8603
32.28 /
32.42 / 0.9063
27.55 / 0.7742
0.9056
29.13 /
29.28 / 0.8209
26.00 / 0.7027
0.8188
27.32 /
27.49 / 0.7503
29.56 / 0.8431
0.7491
31.21 /
31.36 / 0.8879
27.21 / 0.7385
0.8863
28.29 /
28.41 / 0.7863
0.7835
18
3. Thảo luận và so sánh giữa các thuật toán.
Hình ảnh butterfly với độ phân giải thấp được nâng cao sử
dụng một số phương pháp nội suy. Inter_Bicubic thể hiện là
một thuật toán mang lại kết quả tốt nhât.
19
3. Thảo luận và so sánh giữa các thuật tốn.
Thí nghiệm với các phương pháp sử dụng mạng CNN trên bộ
dữ liệu DIV2K (PSNR (dB) / SSIM ).
Dataset
Tập 1
Tập 2
Tập 3
Tập 4
Scale
LapSRN
ESPCN
EDSR
x2
38.11 / 0.9601
38.11 / 0.9602
38.20 / 0.9606
x3
38.11 / 0.9601
34.66 / 0.9280
34.76 / 0.9290
x4
32.46 / 0.8968
32.50 / 0.8973
32.62 / 0.8984
x8
28.09/ 0.8668
27.86 / 0.8614
27.66 / 0.8611
x2
33.92 / 0.9195
33.85 / 0.9198
34.02 / 0.9204
x3
30.52 / 0.8462
30.44 / 0.8452
30.66 / 0.8481
x4
28.80 / 0.7876
28.72 / 0.7857
28.94 / 0.7901
x8
26.12 / 0.7621
25.52 / 0.7591
25.12 / 0.7461
x2
32.32 / 0.9013
32.29 / 0.9007
32.37 / 0.9018
x3
29.25 / 0.8093
29.25 / 0.8091
29.32 / 0.8104
x4
27.71 / 0.7420
27.72 / 0.7418
27.79 / 0.7437
x8
26.51 / 0.7211
24.42 / 0.7111
24.51 / 0.7011
x2
32.93 / 0.9351
32.84 / 0.9347
33.10 / 0.9363
x3
28.80 / 0.8653
28.79 / 0.8655
29.02 / 0.8685
x4
26.64 / 0.8033
26.67 / 0.8041
26.86 / 0.8080
x8
24.13 / 0.7612
23.53 / 0.7451
23.24 / 0.7312
20
3. Thảo luận và so sánh giữa các thuật tốn.
Thí nghiệm với các phương pháp sử dụng mạng CNN
Kết quả được cắt từ ảnh ban đầu sau khi nâng cao độ phân giải của ảnh gốc lên 4 lần.
21
3. Thảo luận và so sánh giữa các thuật toán.
So sánh ưu và nhược điểm
Phương
pháp /So
sánh
Ưu điểm
Nhược
điểm
Sử dụng phương pháp nội
suy
Sử dụng các mạng nơron
tích chập
- Dễ triển khai
- Các ảnh được tạo ra cùng
Độ phức tạp tính tốn
với sinh điểm dữ liệu mới
- Mô tả được đầy đủ các
thấp
- Thời gian xử lý nhanh
trạng thái của vật thể bên
trong ảnh -> ảnh trở nên tự
nhiên và mượt mà hơn
- Không tạo ra các dữ liệu - Yêu cầu độ phức tạp tính
mới.
tốn cao
- Làm giảm độ sắc nét
- Triển khai trên các thiết bị
- Làm giảm tính tự nhiên
phần cứng khó khăn hơn
(y/c thêm bộ xử lý đồ họa)
22
3. Thảo luận và so sánh giữa các thuật toán.
So sánh ưu và nhược điểm
Thời gian xử l của các phương pháp, thí nghiệm được thực hiện trên
máy tính MacOs 2.2 GHz Intel Core i7.
Phương pháp
Bicubic
EDSR
ESPCN
LapSRN
Thời gian (giây)
0.0091
30.501
0.049
0.501
EDSR là phương pháp yêu cầu thời gian xử lý lâu nhất. Ngược
lại nội suy song khối và ESPCN nằm trong nhóm có thời gian
xử lý nhanh hơn và có thể phù hợp với các dịch vụ yêu cầu triển
khai thời gian thực.
23
4. Một số định hướng nghiên cứu mới.
Sử dụng mạng nơron học sâu có khả năng sinh dữ liệu (GAN
- Generative Adversarial Networks)
Một số phương pháp gần đây phát triển dựa trên mạng GAN, ví
dụ nêu trên khi tăng kích thước ảnh lên 16 lần.
24