Tải bản đầy đủ (.pdf) (77 trang)

Xây dựng bản đồ nhiễu blocking và ringing ứng dụng trong nâng cao chất lượng ảnh nén

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (32.04 MB, 77 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN MINH HẢI

XÂY DỰNG BẢN ĐỒ NHIỄU BLOCKING VÀ
RINGING ỨNG DỤNG TRONG NÂNG CAO CHẤT
LƯỢNG ẢNH NÉN

CHUYÊN NGÀNH: KỸ THUẬT ĐIỆN TỬ
MÃ SỐ: 60.52.70

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH – 07/2014


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học: TS. Võ Trung Dũng
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 1: PGS. TS. Lê Tiến Thường
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 2: PGS. TS. Đặng Thành Tín
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày 15 tháng 7 năm 2014
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:


(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. TS. Vũ Phan Tú
2. TS. Hà Hoàng Kha
3. PGS. TS. Lê Tiến Thường
4. PGS. TS. Đặng Thành Tín
5. TS. Võ Trung Dũng
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA ĐIỆN-ĐIỆN TỬ


ĐẠI HỌC QUỐC GIA TP.HCM
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Minh Hải

MSHV: 11140013

Ngày, tháng, năm sinh: 09/01/1984

Nơi sinh: Lâm Đồng

Chuyên ngành: Kỹ Thuật Điện Tử

Mã số: 605270


I. TÊN ĐỀ TÀI: Xây dựng bản đồ nhiễu blocking và ringing ứng dụng trong nâng
cao chất lượng ảnh nén
II. NHIỆM VỤ VÀ NỘI DUNG:
 Khảo sát các dạng nhiễu (artifact) trong quá trình nén ảnh JPEG.
 Xây dựng bản đồ nhiễu gây ra bởi quá trình nén JPEG bao gồm nhiễu blocking
và nhiễu ringing.
 Trên cơ sở bản đồ nhiễu đã xây dựng, đề xuất giải thuật nâng cao chất lượng
ảnh nén JPEG.
III. NGÀY GIAO NHIỆM VỤ : 10/02/2014
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 20/6/2014
V. CÁN BỘ HƯỚNG DẪN: TS. Võ Trung Dũng

Tp. HCM, ngày . . . . tháng .. . . năm 2014
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

(Họ tên và chữ ký)

(Họ tên và chữ ký)

TRƯỞNG KHOA ĐIỆN – ĐIỆN TỬ
(Họ tên và chữ ký)

Ghi chú: Học viên phải đóng tờ nhiệm vụ này vào trang đầu tiên của tập thuyết minh LV


LỜI CẢM ƠN
Em xin gởi đến thầy Ts. Võ Trung Dũng lời cảm ơn chân thành

với sự trân trọng và lòng biết ơn sâu sắc về sự hướng dẫn đầy
chu đáo và nhiệt tình. Thầy đã dẫn dắt, tạo cho em cách tư duy
và làm việc một cách khoa học, hướng em đến các đề tài khoa
học mới mẻ, tiếp cận với các công nghệ hiện đại.
Em xin chân thành cảm ơn các thầy cô ngành Kỹ Thuật Điện Tử
đã hết lòng dạy dỗ và truyền đạt cho em những kiến thức quý
báu.
Con xin gởi đến cha mẹ lòng kính trọng và biết ơn sâu sắc nhất.
Cha mẹ đã nuôi nấng, dạy dỗ con nên người và là chỗ dựa tinh
thần vững chắc cho con trong cuộc đời.
Tôi xin cảm ơn các bạn đã cùng học tập, giúp đỡ, động viên và
cùng tôi bước trên con đường nghiên cứu này.

Tp. Hồ Chí Minh, tháng 7 năm 2014
Học viên

Nguyễn Minh Hải


TÓM TẮT LUẬN VĂN
Trong luận văn này, các dạng nhiễu gây ra bởi quá trình nén ảnh JPEG đặc biệt là khi
được nén ở các tốc độ bít thấp được xem xét. Hai dạng nhiễu ảnh hưởng lớn đến chất
lượng hiển thị của ảnh nén ở tốc độ bít thấp là nhiễu blocking và nhiễu ringing. Luận
văn sẽ nghiên cứu xây dựng các bản đồ hai loại nhiễu này này. Các đặc tính mặt nạ
của hệ thống thị giác người cũng được xem xét ở đây nhằm nâng cao tính chính xác
của giải thuật xây dựng bản đồ nhiễu. Khi các vùng nhiễu đã được định vị, bộ lọc
fuzzy thích nghi được sử dụng để làm giảm nhiễu. Đối với nhiễu blocking, bộ lọc
fuzzy một chiều được sử dụng. Còn đối với nhiễu ringing, bộ lọc hai chiều sẽ được
sử dụng. Kết quả thử nghiệm cho thấy giải thuật xây dựng bản đồ nhiễu phát hiện khá
chính xác các vùng nhiễu. Đồng thời giải thuật nâng cao chất lượng ảnh giải nén

JPEG sử dụng bộ lọc fuzzy cải thiện đáng kể chất lượng hiển thị so với các giải thuật
khác đã được đề xuất trước đây. Kết quả tính tốn PSNR và SSIM cũng chứng tỏ giải
thuật đề xuất trong nghiên cứu này hiệu quả hơn so với các giải thuật khác đã được
nghiên cứu trước đây.

ABSTRACT
In this thesis, the artifact caused by JPEG compression, especially when compressed
at low bit rates will be considered. Two compressed artifacts that greatly affect the
displayed quality of compressed images in low bit rates are blocking and ringing
artifacts. The thesis will investifate the processes to build the artifact maps for these
two artifacts. The masking properties of human visual system are considered here in
order to improve the accuracy of the algorithm. After the artifacts have been located,
adaptive fuzzy filter is used to remove the artifact. For blocking artifact, onedimensional fuzzy filter will be used. For ringing artifact, two-dimensional fuzzy
filter will be implemented. Experimental results show that the artifact map
contruction algorithms can effectively detect the artifact regions. Simultaneously, the
proposed algorithm using fuzzy filter can help improving decompressed image
quality significantly compared to other previous algorithms. Calculated results of the
PSNR and SSIM also demonstrate that the proposed algorithm is more effective than
other algorithms.


LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các kết quả
nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất
kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu
(nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng theo yêu
cầu.

Tác giả luận án


Nguyễn Minh Hải
__________________________________


MỤC LỤC
MỤC LỤC ....................................................................................................................i
DANH MỤC HÌNH VẼ .............................................................................................iv
DANH MỤC BẢNG BIỂU .......................................................................................vi
DANH MỤC TỪ VIẾT TẮT ....................................................................................vii
Chương 1

MỞ ĐẦU ................................................................................................ 1

1.1

Giới thiệu đề tài .............................................................................................1

1.2

Mục tiêu đề tài ...............................................................................................1

1.3

Cấu trúc luận văn ...........................................................................................1

Chương 2
2.1

TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU ......................................... 3


Chuẩn Nén Ảnh JPEG ...................................................................................3

2.1.1

Chuyển đổi không gian màu ...................................................................4

2.1.2

Giảm mẫu thành phần màu .....................................................................4

2.1.3

Biến đổi cosin rời rạc ..............................................................................6

2.1.4

Lượng tử hóa ...........................................................................................6

2.1.5

Quét Zig-Zag...........................................................................................7

2.1.6

Mã hóa độ sai biệt của các hệ số DC ......................................................8

2.1.7

Mã hóa độ dài chạy (RLE) các hệ số AC ...............................................8


2.1.8

Mã hóa Huffman .....................................................................................9

2.2

Các Dạng Nhiễu Làm Giảm Chất Lượng Ảnh Nén JPEG ..........................10

2.2.1

Nhiễu blocking ......................................................................................11

2.2.2

Nhiễu ringing ........................................................................................12

2.3

Kỹ thuật nâng cao chất lượng ảnh nén ........................................................12

2.3.1

Làm giảm nhiễu blocking .....................................................................12

2.3.1.1

Phương pháp sử dụng khối chồng lấn ............................................13

2.3.1.2


Giải thuật hậu xử lý làm giảm nhiễu blocking ...............................15

2.3.2

Làm giảm ringing..................................................................................19
i


2.3.2.1 Phương pháp sử dụng bản đồ phương sai và bộ lọc fuzzy đồng nhất
.......................................................................................................................20
2.3.2.2
Chương 3
3.1

Phương pháp sử dụng bộ lọc fuzzy định hướng ............................21

XÂY DỰNG BẢN ĐỒ NHIỄU BLOCKING VÀ RINGING ............. 24

Mơ hình hệ thống thị giác trong xử lý ảnh ..................................................24

3.1.1

Đặc tính hệ thống thị giác của con người .............................................24

3.1.2

Mối liên hệ giữa HVS và đặc tính không gian của ảnh nén JPEG .......25

3.2


3.1.2.1

Cạnh thuộc đường bao khối ...........................................................25

3.1.2.2

Khoảng cách giữa hai cạnh liên tiếp cùng khối .............................26

3.1.2.3

Hiệu ứng mặt nạ miền không gian của ảnh....................................29

Bản đồ nhiễu Blocking ................................................................................32

3.2.1

Xác định vùng nhiễu blocking ..............................................................33

3.2.2

Ước lượng mức độ nhiễu blocking .......................................................35

3.3

3.2.2.1

Nhiễu blocking cục bộ ...................................................................35

3.2.2.2


Ảnh hưởng của hiệu ứng mặt nạ vùng chi tiết ...............................36

3.2.2.3

Ảnh hưởng của hiệu ứng mặt nạ độ chói .......................................37

Bản đồ nhiễu ringing ...................................................................................38

3.3.1

Xác định vùng nhiễu ringing ................................................................39

3.3.2

Ước lượng mức độ nhiễu ringing .........................................................41

3.3.2.1

Cường độ nhiễu ringing cục bộ......................................................41

3.3.2.2

Ảnh hưởng của hiệu ứng mặt nạ vùng chi tiết ...............................42

3.3.2.3

Ảnh hưởng của hiệu ứng mặt nạ độ chói .......................................43

Chương 4 ỨNG DỤNG BẢN ĐỒ NHIỄU NÂNG CAO CHẤT LƯỢNG ẢNH
NÉN JPEG ................................................................................................................44

4.1

Bộ lọc fuzzy .................................................................................................44

4.2

Làm giảm blocking bằng bộ lọc fuzzy một chiều .......................................46

4.3

Làm giảm ringing bằng bộ lọc fuzzy hai chiều ...........................................47

Chương 5

KẾT QUẢ VÀ BÀN LUẬN................................................................. 49
ii


5.1

Kết quả xây dựng bản đồ nhiễu Blocking ...................................................49

5.2

Kết quả làm giảm blocking bằng bộ lọc fuzzy 1D ......................................51

5.3

Kết quả xây dựng bản đồ nhiễu ringing ......................................................57


5.4

Kết quả làm giảm nhiễu ringing ..................................................................58

Chương 6

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................ 60

6.1

Kết Luận ......................................................................................................60

6.2

Hướng Phát Triển Đề Tài ............................................................................60

TÀI LIỆU THAM KHẢO ......................................................................................... 61
LÝ LỊCH TRÍCH NGANG....................................................................................... 64

iii


DANH MỤC HÌNH VẼ
Hình 2.1 – Sơ đồ khối bộ mã hóa JPEG .....................................................................3
Hình 2.2 – Sơ đồ khối bộ giải mã JPEG .....................................................................4
Hình 2.3 – Ba định dạng màu thường được sử dụng trong nén JPEG ........................5
Hình 2.4 – Ảnh lena với các định dạng màu khác nhau .............................................5
Hình 2.5 – Qt zig-zag ..............................................................................................8
Hình 2.6 – Mã hóa các hệ số DC của các khối 8x8 liên tiếp ......................................8
Hình 2.7 – Nhiễu blocking do nén JPEG với các mức độ khác nhau .......................11

Hình 2.8 – Nhiễu ringing trong ảnh nén JPEG .........................................................12
Hình 2.9 – Giải thuật tính tốn nhanh LOT với kích thước khối là 8x8 ...................14
Hình 2.10 – Lưu đồ tính tốn nhanh LOT cho tồn bộ chuỗi dữ liệu.......................15
Hình 2.11 – Ví dụ về khối dịch chuyển bmk ,,ln (u, v) .....................................................17
Hình 2.12 – Hai ví dụ của khung deblocking B(Sf )r,c ..............................................19
Hình 2.13 – Giải thuật nâng cao chất lượng ảnh nén bằng bản đồ phương sai và bộ
lọc fuzzy đồng nhất ...................................................................................................20
Hình 2.14 – Ví dụ về suy giảm chất lượng có hướng ...............................................21
Hình 2.15 – Tham số phân bố của bộ lọc fuzzy định hướng ....................................22
Hình 2.16 – Góc  và 0 của bộ lọc fuzzy định hướng ...........................................23
Hình 2.17 – Lưu đồ bộ lọc fuzzy định hướng ...........................................................23
Hình 3.1 – Cạnh nằm trên đường bao khối 8x8 ........................................................25
Hình 3.2 – Khoảng cách giữa hai cạnh là một điểm ảnh ..........................................26
Hình 3.3 – Khoảng cách giữa hai cạnh liên tiếp là hai điểm ảnh..............................27
Hình 3.4 – Khoảng cách giữa hai cạnh liên tiếp là ba điểm ảnh ...............................27
Hình 3.5 – Khoảng cách giữa hai cạnh liên tiếp là bốn điểm ảnh ............................28
Hình 3.6 – Ảnh hưởng của hiệu ứng mặt nạ vùng chi tiết kết cấu............................29
Hình 3.7 – Độ chênh lệch mức xám hai bên cạnh bằng 15.......................................30
Hình 3.8 – Độ chênh lệch mức xám hai bên cạnh bằng 75.......................................30
Hình 3.9 – Độ chênh lệch mức xám hai bên cạnh bằng 150.....................................31
Hình 3.10 – Độ chênh lệch mức xám hai bên cạnh bằng 195...................................31
Hình 3.11 – Độ chênh lệch mức xám hai bên cạnh bằng 255...................................32
Hình 3.12 – Sơ đồ khối giải thuật xây dựng bản đồ nhiễu blocking ........................33
Hình 3.13 – Lưu đồ giải thuật phát hiện nhiễu blocking ..........................................34

iv


Hình 3.14 – Miền nền cục bộ của điểm ảnh thuộc vùng nhiễu blocking theo phương
thẳng đứng .................................................................................................................36

Hình 3.15 – Sở đồ khối giải thuật xây dựng bản đồ nhiễu ringing ...........................38
Hình 3.16 – So sánh bộ tiền lọc tăng cường cạnh Guided và Gaussian ...................40
Hình 3.17 – Miền nền cục bộ của điểm ảnh thuộc vùng nhiễu ringing ....................42
Hình 4.1 – Sơ đồ khối hệ thống nâng cao chất lượng ảnh nén thơng thường ...........44
Hình 4.2 – Sơ đồ khối hệ thống nâng cao chất lượng ảnh nén đề xuất.....................44
Hình 4.3 – Lưu đồ giải thuật làm giảm nhiễu blocking ............................................47
Hình 4.4 – Lưu đồ giải thuật làm giảm nhiễu ringing...............................................48
Hình 5.1 – Kết quả xây dựng bản đồ nhiễu blocking cho ảnh mobile ......................49
Hình 5.2 – Kết quả xây dựng bản đồ nhiễu blocking cho ảnh lena ..........................50
Hình 5.3 – Bản đồ cường độ nhiễu blocking ............................................................51
Hình 5.4 – Chất lượng hiển thị của ảnh nén lena với các giải thuật deblocking khác
nhau ...........................................................................................................................52
Hình 5.5 – Chất lượng hiển thị ảnh nén mobile với các giải thuật deblocking ........53
Hình 5.6 – Tập ảnh gốc sử dụng trong mơ phỏng.....................................................54
Hình 5.7 – PSNR theo tốc độ bit của ảnh mobile với các giải thuật xử lý khác nhau
...................................................................................................................................55
Hình 5.8 – PSNR theo hệ số chất lượng của ảnh mobile với các giải thuật xử lý khác
nhau ...........................................................................................................................55
Hình 5.9 – Bản đồ nhiễu ringing ...............................................................................57
Hình 5.10 – So sánh chất lượng hiển thị của ảnh mobile với các giải thuật khác nhau
...................................................................................................................................58

v


DANH MỤC BẢNG BIỂU
Bảng 2.1 – Bảng phân nhóm giá trị và từ mã..............................................................9
Bảng 2.2 – Bảng mã hóa Huffman các hệ số AC thành phần độ chói ......................10
Bảng 2.3 – Bảng mã Huffman hệ số DC thành phần độ chói ...................................10
Bảng 5.1 – So sánh PSNR của các giải thuật làm giảm nhiễu blocking ...................56

Bảng 5.2 – So sánh SSIM của các giải thuật làm giảm nhiễu blocking ...................56
Bảng 5.3 – So sánh PSNR đối của các giải thuật làm giảm ringing .........................59
Bảng 5.4 – So sánh SSIM đối của các giải thuật làm giảm ringing ..........................59

vi


DANH MỤC TỪ VIẾT TẮT
ASMF

Adaptive Separable Median Filter

DCT

Discrete Cosine Transform

EOB

End of Block

HSV

Human Visual System

JPEG

Joint Photographic Expert Group

LOT


Lapped Orthogonal Transform

MPEG

Moving Picture Experts Group

PSNR

Peak Signal to Noise Ratio

RCRS

Rank Conditioned Rank Selection

RLE

Run-length Encoding

SSIM

Structural SIMilarity

WSSAP

Weighted Sums of Symmetrically Aligned Pixels

vii


Chương 1 – Mở Đầu


Chương 1 MỞ ĐẦU
1.1 Giới thiệu đề tài
Cùng với sự phát triển mạnh mẽ của mạng internet với các mạng xã hội, nhu cầu chia
sẻ và lưu trữ hình ảnh, video clip của người dùng ngày càng tăng nhanh. Để đáp ứng
được nhu cầu ngày càng gia tăng mà không cần tăng băng thông cũng như dung lượng
lưu trữ, vốn là tài nguyên hữa hạn. Các chuẩn nén thường được sử dụng để làm giảm
dung lượng của ảnh như JPEG [1] và video như H.263 [2], MPEG-x nhằm giảm dung
lượng lưu trữ và nhu cầu băng thông cần thiết khi truyền qua mạng. Biến đổi cosin
rời rạc (DCT) thường được sử dụng như là công cụ chính trong những giải thuật nén
trên nhờ khả năng tập trung năng lượng cao của nó. Tuy nhiên để đạt được tỉ số nén
cao và số lượng bit cho mỗi điểm ảnh thấp các giải thuật nén phải loại bỏ nhiều thông
tin dư thừa hơn. Điều này sẽ làm giảm chất lượng hiển thị của ảnh do các dạng nhiễu
sinh ra trong quá trình nén như: nhiễu blocking, nhiễu ringing…. Các dạng giảm chất
lượng này gây khó chịu đối với thị giác đặc biệt là khi nén với tốc độ bít thấp. Trong
số các dạng nhiễu do nén thì nhiễu blocking và ringing là thường gặp nhất và cũng
có ảnh hưởng lớn đến cảm nhận hình ảnh. Do đó nâng cao chất lượng ảnh và video
nén là nhu cầu cấp thiết nhằm cải thiện chất lượng hiển thị của ảnh và video nén với
tốc độ bít thấp. Việc định vị được vùng nhiễu là bước đi đầu tiên, quan trọng ảnh
hưởng lớn đến khả năng loại bỏ nhiễu và nâng cao chất lượng hiện thị. Đó cũng chính
là lý do “xây dựng bản đồ nhiễu blocking và nhiễu ringing ứng dụng trong nâng cao
chất lượng ảnh nén” được chọn làm đề tài luận văn thạc sĩ này.
1.2 Mục tiêu đề tài
Trên cở sở những báo cáo khoa học liên quan tìm hiểu đề xuất giải thuật phát hiện,
xây dựng bản đồ nhiễu gây ra bởi quá trình nén JPEG bao gồm nhiễu blocking và
nhiễu ringing. Trên cơ sở bản đồ nhiễu đã xây dựng, đề xuất giải thuật nâng cao chất
lượng ảnh nén JPEG.
1.3 Cấu trúc luận văn
Luận văn được trình bày gồm sáu chương:
 Chương 1 – Giới thiệu tổng quan về đề tài, đối tượng và mục tiêu nghiên cứu

của đề tài.
HVTH: Nguyễn Minh Hải

1

GVHD: TS. Võ Trung Dũng


Chương 1 – Mở Đầu
 Chương 2 – Giới thiệu chuẩn nén ảnh phổ biến JPEG, các dạng nhiễu gây ra
do quá trình nén, nguyên nhân của các dạng nhiễu và khảo sát các nghiên cứu
nâng cao chất lượng giảm nhiễu do nén đã được báo cáo trong các tài liệu.
 Chương 3 – Khảo sát các đặc tính mơ hình thị giác người (HVS) ảnh hưởng
đến mức độ hiển thị của các dạng nhiễu gây ra trong qua trình nén. Trên cơ sở
đặc điểm xuất hiện của nhiễu gây ra do nén và đặc tính hệ thống HVS đối với
nhiễu đề xuất cách thức định vị các dạng nhiễu và cách thức ước lượng mức
độ nhiễu.
 Chương 4 – Đề xuất phương pháp sử dụng bản đồ nhiễu đã được xây dựng ở
chương 3 điều khiển bộ lọc nhằm nâng cao chất lượng ảnh và giảm các dạng
nhiễu do quá trình nén.
 Chương 5 – Trình bày kết quả đạt được khi thực hiện mô phỏng các giải thuật
đề xuất để xây dựng bản đồ nhiễu blocking, nhiễu ringing. Đồng thời trình bày
các kết quả khi sử dụng các bản đồ nhiễu để điều khiển các bộ lọc nhằm nâng
cao chất lượng.
 Chương 6 – Trình bày kết luận đề tài và đề xuất hướng phát triển.
.

HVTH: Nguyễn Minh Hải

2


GVHD: TS. Võ Trung Dũng


Chương 2 – Tổng Quan Tình Hình Nghiên Cứu

Chương 2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
2.1 Chuẩn Nén Ảnh JPEG
JPEG (Joint Photographic Expert Group) [1] [3] là tên của một tổ chức nghiên cứu
về các chuẩn nén ảnh được thành lập vào năm 1982. Năm 1986, JPEG chính thức
được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITV. Tiêu chuẩn này đã được
ứng dụng trong nhiều lĩnh vực như: lưu trữ ảnh, Fax màu, truyền ảnh báo chí, ảnh
cho y học, camera số…
Chuẩn nén JPEG có thể thực hiện bởi bốn phương pháp mã hóa đó là:
 Mã tuần tự (sequential DCT-based): ảnh được mã hóa theo kiểu quét từ trái
qua phải, từ trên xuống dưới dựa trên biến đổi DCT của các khối.
 Mã hóa lũy tiến (progressive DCT-based): ảnh được mã hóa bằng kiểu quét
phức hợp theo chế độ phân giải khơng gian.
 Mã hóa khơng tổn thất (lossless): ảnh được đảm bảo khơi phục chính xác cho
mỗi giá trị mẫu của nguồn. Thông tin không cần thiết mới cắt bỏ cho nên hiệu
quả nén thấp hơn so với phương pháp có tổn thất.
 Mã hóa phân cấp (hierarchical): ảnh được mã hóa ở chế độ phân giải khơng
gian phức hợp, để cho những ảnh có độ phân giải thấp có thể được truy xuất
và hiển thị mà khơng cần giải nén như những ảnh có độ phân giải trong không
gian cao hơn.
G
R

B


Chuyển sang
tọa độ màu
YVU

Ảnh

Giảm mẫu thành
phần màu
(4:2:2 hoặc 4:2:0)

Quét zigzag

Mã hóa
Huffman

Mã hóa độ sai
biệt DC

Mã hóa
Huffman

Chuỗi bit

Lượng tử
Bảng lượng tử

8X8
FDCT

Hình 2.1 – Sơ đồ khối bộ mã hóa JPEG


HVTH: Nguyễn Minh Hải

3

GVHD: TS. Võ Trung Dũng


Chương 2 – Tổng Quan Tình Hình Nghiên Cứu
Giải mã
Huffman

Quét Zigzag
ngược
Giải lượng tử

Chuỗi bit
Giải mã
Huffman

Giải mã DC
Bảng lượng tử

Chuyển đổi
sang tọa độ
màu RGB

Nâng mẫu thành
phần màu
(4:2:2 hoặc 4:2:0)


8X8
IDCT

R

G

B

Ảnh giải
nén

Hình 2.2 – Sơ đồ khối bộ giải mã JPEG
Trong số các phương pháp mã hóa JPEG thì mã hóa có tổn hao được sử dụng phổ
biến nhất. Hình 2.1 và Hình 2.2 trình bày cấu trúc bộ mã hóa và giải mã JPEG có tổn
hao. Phần tiếp theo sẽ đề cập chi tiết từng khối trong quá trình nén JPEG
2.1.1 Chuyển đổi không gian màu
Để đạt được hiệu suất nén cao, đầu tiên sự tương quan giữa các thành phần màu cần
được giảm xuống bằng các chuyển đổi từ không gian màu RGB sang không gian màu
không tương quan như YCrCb theo công thức sau:
 Y   0.299000 0.587000 0.114000   R   0 
C    0.168736 0.331264 0.500002  G   128
 b 
   
Cr   0.500000 0.418688 0.081312   B  128

(2.1)

Q trình chuyển đổi ngược từ khơng gian màu YCbCr sang không gian màu RGB

được thực hiện như sau:
0.0
1.40210   Y 
 R  1.0
G   1.0 0.34414 0.71414  C  128
  
 b

 B  1.0 1.77180
0.0  Cr  128 

(2.2)

2.1.2 Giảm mẫu thành phần màu
Mắt con người nhạy cảm với thành phần độ chói hơn thành phần màu. Do đó để nâng
cao tỷ số nén, các thành phần màu thường được giảm số lượng mẫu. Có ba định dạng
màu thường được sử dụng trong nén JPEG bao gồm:
(a) Định dạng 4:4:4: thành phần độ chói và thành phần màu có cùng độ phân giải
ở cả hai chiều.
HVTH: Nguyễn Minh Hải

4

GVHD: TS. Võ Trung Dũng


Chương 2 – Tổng Quan Tình Hình Nghiên Cứu
(b) Định dạng 4:2:2: thành phần màu có cùng độ phân giải với thành phần độ chói
ở phương thẳng đứng và bằng một nửa ở phương ngang.
(c) Định dạng 4:2:0: độ phân giải của thành phần màu ở cả hai chiều đều bằng

một nửa so với thành phần độ chói.

Hình 2.3 – Ba định dạng màu thường được sử dụng trong nén JPEG
Hình 2.4 trình bày ví dụ ảnh lena với các định dạng màu khác nhau

(a) Ảnh gốc lena

(b) Ảnh lena hệ màu YCbCr

(c) Ảnh lena YCbCr 4:2:2

(d) Ảnh lena YCbCr 4:2:0

Hình 2.4 – Ảnh lena với các định dạng màu khác nhau
HVTH: Nguyễn Minh Hải

5

GVHD: TS. Võ Trung Dũng


Chương 2 – Tổng Quan Tình Hình Nghiên Cứu
2.1.3 Biến đổi cosin rời rạc
Bước tiếp theo của quá trình nén JPEG là thực hiện biến đổi cosin rời rạc (DCT:
Discrete Cosine Transform). Để thực hiện biến đổi DCT, ảnh được chia thành các
khối 8x8. Quá trình chia ảnh thành khối được thực hiện từ trái sang phải từ trên xuống
dưới. Định nghĩa toán học của biến đổi DCT như sau:
Biến đổi DCT thuận:
F (u, v) 


7
7
1
  (2 x  1)u 
  (2 y  1)v 
C(u)C(v) f ( x, y) cos 
cos 


4
16
16




x  0 y 0

(2.3)

1 / 2 víi k  0

Với u  0,...,7 , v 0,...,7 v C(k )

1

giá trị k kh¸c

Biến đổi DCT ngược:
1 7 7

  (2 x  1)u 
  (2 y  1)v 
C(u)C(v ) F (u, v ) cos 
cos 



4 u 0 v 0
16
16




víi x  0,...,7 vμ y  0,...,7
f ( x, y) 

(2.4)

Thành phần F(u,v) được gọi là hệ số DCT và biến đổi DCT cơ bản được định nghĩa
là:
x , y (u, v) 

C (u )C (v)
  (2 x  1)u 
  (2 y  1)v 
cos 
cos 



4
16
16




(2.5)

Biến đổi DCT ngược được thực hiện theo công thức sau:
7

7

f ( x, y)   F(u, v)x , y (u, v) víi x  0,...,7 vμ y  0,...,7

(2.6)

u 0 v 0

2.1.4 Lượng tử hóa
Bước kế tiếp trong q trình nén JPEG là lượng tử hóa. Trong q trình lượng tử, các
hệ số DCT của ma trận 8x8 được chia cho giá trị lượng tử tương ứng của nó. Q
trình lượng tử được định nghĩa trong công thức (2.7) và q trình giải lượng tử được
định nghĩa trong cơng thức (2.8).
 F (u, v) 
F (u, v)Quantization  round 

 Q(u, v) 


(2.7)

F (u , v) deQ  F (u , v)Quantization  Q(u , v )

(2.8)

HVTH: Nguyễn Minh Hải

6

GVHD: TS. Võ Trung Dũng


Chương 2 – Tổng Quan Tình Hình Nghiên Cứu
Mục đích của quá trình lượng tử là làm giảm hầu hết các hệ số DCT tần số cao không
quan trọng về giá trị 0, càng nhiều hệ số DCT bằng 0 thì tỷ số nén sẽ càng cao. Để
đạt được điều này ma trận lượng tử Q thường có giá trị nhỏ ở phần góc trái phía trên
và giá trị lớn ở phần góc phải phía dưới. Trong q trình giải lượng tử, mặc dù các
thành phần tần số cao bị loại bỏ, biến đổi DCT ngược vẫn có thể xấp xỉ gần đúng ma
trận của khối ban đầu. Chuẩn JPEG giới thiệu ma trận lượng tử chuẩn hóa đạt được
hiệu quả cao gần với điều kiện tối ứu cho thành phần độ chói và thành phần màu như
cơng thức (2.9) và (2.10)
 16

 12
 14

14
QY50  
 18


 24
 49

 72

QC50

11 10 16

24

40

51

12 14 19
13 16 24

26
40

58
57

60
69

17


22 29

51

87

80

22 37 56

68

109 103

35 55 64

81

104 113

 17

 18
 24

47

 99

 99

 99

 99

64 78 87 103 121 120
92 95 98 112 100 103

61 

55 
56 

62 
77 

92 
101

99 

99 

99 
99 

99 
99 

99 
99 99 99 99 99 99 99 


99 99 99 99 99 99 99 

18
21
26
66
99
99

24
26
56
99
99
99

47
66
99
99
99
99

99
99
99
99
99
99


99
99
99
99
99
99

99
99
99
99
99
99

(2.9)

(2.10)

Tuy nhiên, Các mức độ nén khác nhau (tương ứng với các hệ số chất lượng q khác
nhau) có thể đạt được bằng cách nhân ma trận lượng tử chuẩn với một hệ số K được
xác định như sau:
100  q

 K  50 ;

 K  50 ;
q



q  50

(2.11)
q  50

2.1.5 Quét Zig-Zag
Sau khi thực hiện biến đổi DCT và lượng tử các giá trị của khối 8x8, chúng ta sẽ có
những khối 8x8 mới. Sau đó, khối 8x8 sẽ được quét zig-zag như Hình 2.5. Sau khi
thực hiện quét zig-zag, chúng ta sẽ được một véc tơ với 64 hệ số (0,1,...,63). Mục
HVTH: Nguyễn Minh Hải

7

GVHD: TS. Võ Trung Dũng


Chương 2 – Tổng Quan Tình Hình Nghiên Cứu
đích của việc quét zig-zag là nhằm sắp xếp các thành phần tần số khơng gian theo thứ
tự tăng dần.

Hình 2.5 – Quét zig-zag
2.1.6 Mã hóa độ sai biệt của các hệ số DC
Bởi vì hệ số DC chứa đựng nhiều năng lượng hơn nên nó thường có giá trị lớn hơn
nhiều so với các hệ số AC. Đồng thời hệ số DC của các khối lân cận cũng có liên hệ
mật thiết với nhau. Vì vậy chuẩn JPEG chỉ mã hóa độ sai biệt giữa hệ số DC của các
khối liên tiếp thay vì mã hóa giá trị thực của nó. Cơng thức tốn học biểu diễn độ sai
biệt của các hệ số DC liên tiếp như sau:
Diffi = DCi  DCi-1

(2.12)


Hệ số DC0 được cho bằng 0. Hệ số DCi của khối thứ i sẽ là DCi-1 + Diffi. Các hệ số
DC trong nén JPEG được biểu diễn như Hình 2.6.
DCi-1



DCi

Khốii-1

Khốii



Diffi = DCi - DCi-1

Hình 2.6 – Mã hóa các hệ số DC của các khối 8x8 liên tiếp
2.1.7 Mã hóa độ dài chạy (RLE) các hệ số AC
Vector lượng tử chứa nhiều giá trị 0 liên tiếp. Do đó, chúng ta có thể lợi dụng mã hóa
độ dài chạy (RLE: Run Length Encoding) nhằm nâng cao hiệu quả nén. Ví dụ với 63
hệ số AC như sau:
HVTH: Nguyễn Minh Hải

8

GVHD: TS. Võ Trung Dũng


Chương 2 – Tổng Quan Tình Hình Nghiên Cứu

57, 45, 0, 0, 0, 0, 23, 0, -30, -16, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,..., 0
Chúng ta thực hiện mã hóa cho các giá trị khác 0, sau đó thêm số lượng giá trị bằng
0 vào trước giá trị khác 0 đã mã hóa. Với chuỗi hệ số AC ở ví dụ trên, ta có mã hóa
độ dài chạy của nó như sau:
(0,57) ; (0,45) ; (4,23) ; (1,-30) ; (0,-16) ; (2,1) ; EOB
EOB (End of Block) là một từ mã đặc biệt. Nếu trong quá trình mã hóa độ dài chạy
chúng ta phát hiện một vị trí mà từ nó trở về sau của chuối kết thúc với tồn giá trị 0
thì từ mã EOB sẽ được sử dụng ở vị trí đó. EOB tương ứng với (0, 0).
2.1.8 Mã hóa Huffman
Thay vì lưu trữ giá trị thực, để làm giảm tối đa kích thước ảnh chuẩn JPEG thực hiện
phân loại giá trị thành từng nhóm và lưu trữ chỗi bít biểu diễn giá trị như Bảng 2.1.
Bảng 2.1 – Bảng phân nhóm giá trị và từ mã
Nhóm
1
2
3
4
5
6
7
8
9
10
11

Giá trị
Chuỗi bít mã hóa giá trị
-1,1
0,1
-3,-2,2,3

00,01,10,11
-7,-6,-5,-4,4,5,6,7
000,001,010,011,100,101,110,111
-15,...,-8,8,...,15
0000,...,0111,1000,...,1111
-31,...,-16,16,...31
00000,...,01111,10000,...,11111
-63,...,-32,32,...63
000000,...,011111,100000,...,111111
-127,...,-64,64,...,127
0000000,...,0111111,1000000,...,1111111
-255,..,-128,128,..,255
...
-511,..,-256,256,..,511
...
-1023,..,-512,512,..,1023
...
-2047,..,-1024,1024,..,2047
...

Với các hệ số AC như ví dụ ở phần 2.1.7:
(0,57) ; (0,45) ; (4,23) ; (1,-30) ; (0,-8) ; (2,1) ; (0,0)
Chúng ta chỉ mã hóa giá trị bên phải. Ví dụ giá trị 57 thuộc nhóm 6 và chỗi bít mã
hóa của nó là 111001, nên chúng ta sẽ mã hóa giá trị 57 thành 6,111001. Tướng tự
cho các giá trị khác chúng ta có thể viết lại chuỗi mã hóa các hệ số AC như sau:
(0,6,111001) ; (0,6,101101) ; (4,5,10111); (1,5,00001) ; (0,4,0111) ; (2,1,1) ; (0,0)
Hai giá trị đầu trong dấu ngoặc đơn có thể biểu diễn thành hai byte bởi vì giá trị của
nó nằm trong tầm 0, 1, 2... 15. Chuỗi bit tạo bởi 2 byte này được mã hóa Huffman
HVTH: Nguyễn Minh Hải


9

GVHD: TS. Võ Trung Dũng


Chương 2 – Tổng Quan Tình Hình Nghiên Cứu
như Bảng 2.2. Ví dụ mã Huffman của byte (0,6) là 1111000, byte (4,5) là
1111111110011000, … như vậy chuỗi bit đươc lưu trữ trong file JPEG cho 63 hệ số
AC của ví dụ trên sẽ là:
1111000 111001, 1111000 101101, 1111111110011000 10111, 11111110110
00001, 1011 0111, 11100 1, 1010
Bảng 2.2 – Bảng mã hóa Huffman các hệ số AC thành phần độ chói
run/category
Độ dài từ mã
Từ mã
0/0
4
1010
...
0/6
7
1111000
...
0/10
16
1111111110000011
1/1
4
1100
...

4/5
16
1111111110011000
...
15/10
16
1111111111111110
Đối với độ sai biệt của các hệ số DC liên tiếp, độ sai biệt được biểu diễn ở dạng phân
nhóm và giá trị bit sau đó được mã hóa Huffman như Bảng 2.3. Ví dụ độ sai biệt hệ
số DC bằng -511, nó sẽ được biểu diễn thành (9,000000000) và chuỗi bít được lưu
trữ trong file JPEG cho hệ số DC sẽ là:1111110 000000000.
Bảng 2.3 – Bảng mã Huffman hệ số DC thành phần độ chói
Nhóm
0
1
2
3
4
5
6
7
8
9
10

Đồ dài từ mã
2
3
3
3

3
3
4
5
6
7
8

Từ mã
00
010
011
100
101
110
1110
11110
111110
1111110
11111110

2.2 Các Dạng Nhiễu Làm Giảm Chất Lượng Ảnh Nén JPEG
Nhiễu do nén ảnh là kết quả tác động của các cơ chế nén ảnh có tổn hao lên dữ liệu
ảnh. Các cơ chế nén thường loại bỏ đi một số thông tin dư thừa nhằm làm giảm dung
HVTH: Nguyễn Minh Hải

10

GVHD: TS. Võ Trung Dũng



Chương 2 – Tổng Quan Tình Hình Nghiên Cứu
lượng lưu trữ. Tuy nhiên, trong q trình giải nén các thơng tin dư thừa không được
khôi phục hoặc làm sai biệt một số thơng tin dữ liệu ảnh. Do đó, Q trình nén thường
tạo ra một số dạng nhiễu. Các dạng nhiễu này gây ảnh hưởng đến cảm nhận hình ảnh
của hệ thống thị giác người. Hai dạng nhiễu phổ biến trong ảnh nén JPEG được trình
bày sau đây:
2.2.1 Nhiễu blocking
Nhiễu blocking là dạng nhiễu thường gặp và cũng gây ảnh hưởng lớn nhất đối với
các cơ chế nén dựa trên các khối và sử dụng biến đổi DCT như nén JPEG. Nhiễu
blocking là hiện tượng biến dạng xuất hiện trên bề mặt ảnh nén dưới dạng các khối
điểm ảnh lớn bất thường làm giảm chất lượng và gây khó chịu đối với cảm nhận của
mắt người. Khối ô vuông thường xuất hiện ở đường biên của các khối lân cận khi
chúng được xử lý độc lập và lượng tử các hệ số DCT một cách thô. Điều này làm cho
các thành phần tần số cao của các khối trong ảnh hay khung video bị loại bỏ và tạo
ra một số nhiễu lượng tử đối với các thành phần tần số thấp.

(a) Ảnh gốc lena

(b) Ảnh nén hệ số chất lượng q = 1

(c) Ảnh nén hệ số chất lượng q = 10

(d) Ảnh nén hệ số chất lượng q = 30

Hình 2.7 – Nhiễu blocking do nén JPEG với các mức độ khác nhau
HVTH: Nguyễn Minh Hải

11


GVHD: TS. Võ Trung Dũng


Chương 2 – Tổng Quan Tình Hình Nghiên Cứu
Hình 2.7 miêu tả một ví dụ về nhiễu blocking trong nén JPEG với ảnh gốc “lena” và
các ảnh nén với các mức độ khác nhau của nó. Chúng ta có thể nhận thấy có nhiều
khối ơ vng trong ảnh nén khi hệ số chất lượng thấp (Hình 2.7 (a) và Hình 2.7 (b))
và ít được cảm nhận hơn khi hệ số chất lượng cao (Hình 2.7 (c)).
2.2.2 Nhiễu ringing
Trong xử lý ảnh số, nhiễu ringing xuất hiện như các tín hiệu giả gần các vùng có thay
đổi lớn của tín hiệu. Về mặt tốn học nó được gọi là hiện tượng Gibbs. Nó hiển thị
dưới dạng vịng gần các cạnh của ảnh. Nguyên nhân chính gây ra nhiễu ringing là do
mất hoặc bị sai lệch các thành phần tần số cao khi lượng tử các hệ số DCT với bước
lượng tử khơng mịn.
Hình 2.8 là ví dụ về nhiễu ringing trong ảnh nén JPEG. Chúng ta có thể nhận thấy
nhiễu ringing xuất hiện dọc theo đường biên giữa hai dải màu liên tiếp.

(a) Ảnh gốc

(b) Ảnh nén bị giảm chất lượng

Hình 2.8 – Nhiễu ringing trong ảnh nén JPEG
2.3 Kỹ thuật nâng cao chất lượng ảnh nén
2.3.1 Làm giảm nhiễu blocking
Để làm giảm ảnh hưởng của nhiễu blocking, nhiều giải thuật đã được nghiên cứu đề
xuất. Chúng ta có thể chia chúng ra làm hai hướng giải pháp. Hướng thứ nhất, làm
giảm ảnh hưởng của nhiễu blocking thực hiện ở bộ mã hóa. Tuy nhiên, các phương
thức này khơng phù hợp với các chuẩn đã tồn tại như JPEG, MPEG do chúng làm
thay đổi cấu trúc bộ mã hóa và giải mã. Ở hướng thứ hai, ảnh sau khi khôi phục sẽ
được xử lý nhằm nâng cao chất lượng hiển thị mà không cần bất kỳ thay đổi nào ở

bộ mã hóa hay giải mã. Điều này làm nó phù hợp với các chuẩn mã hóa đã được đề
cập ở trên. Bởi vì ưu điểm này mà hầu hết các giải thuật được đề xuất gần đây đều đi
HVTH: Nguyễn Minh Hải

12

GVHD: TS. Võ Trung Dũng


×