Đại Học Quốc Gia Tp. Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-------------------------
NGUYỄN NGỌC HẢI
XỬ LÝ ẢNH ĐA PHÂN GIẢI
Chuyên ngành: Kỹ thuật điện tử
Mã số ngành: 02. 07. 01
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 7 năm 2005
CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học : PGS. TSKH NGUYỄN KIM SÁCH
Cán bộ chấm nhận xét 1 : PGS. TS VŨ ĐÌNH THÀNH
Cán bộ chấm nhận xét 2 : TS. PHAN HỒNG PHƯƠNG
Luận văn thạc só được bảo vệ tại
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Ngày 22 tháng 07 năm 2005
TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
PHÒNG ĐÀO TẠO SĐH
ĐỘC LẬP – TỰ DO – HẠNH PHÚC
Tp. HCM, ngày tháng năm 2005
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN NGỌC HẢI Phái: Nam
Ngày, tháng, năm sinh: 28/04/1980 Nơi sinh: Quảng Nam
Chuyên ngành: Kỹ thuật điện tử MSHV: 01403314
I. TÊN ĐỀ TÀI: Xử lý ảnh đa phân giải
II. NHIỆM VỤ VÀ NỘI DUNG:
Nghiên cứu lý thuyết về cơ sở xử lý đa phân giải, biễu diễn
Gaussian pyramid, Laplacian pyramid, wavelet và các ứng dụng.
Nghiên cứu, viết chương trình ứng dụng cụ thể của đa phân giải
trong phân đoạn ảnh màu theo trực quan.
III. NGÀY GIAO NHIỆM VỤ:
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 06/07/2005
V. HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS. TSKH NGUYỄN KIM SÁCH
CÁN BỘ HƯỚNG DẪN
CHỦ NHIỆM NGÀNH
BỘ MÔN Đ.T–V.THÔNG
PGS.TSKH NGUYỄN KIM SÁCH
PGS. TS VŨ ĐÌNH THÀNH
TS. PHẠM HỒNG LIÊN
Nội dung và đề cương luận văn thạc só đã được Hội Đồng Chuyên Ngành thông
qua.
Ngày tháng năm 2005
PHÒNG ĐÀO TẠO SĐH KHOA QUẢN LÝ NGÀNH
LỜI CẢM ƠN
Chân thành cảm ơn tất cả các thầy cô đã dạy chúng em. Được sự chỉ bảo,
truyền đạt kiến thức, kinh nghiệm của các thầy cô; chúng em đã học được nhiều
cách tiếp cận các vấn đề mới, các giải quyết các vấn đề kỹ thuật, tự tin hơn và
hiệu quả hơn trong công tác.
Trân trọng cảm ơn Thầy PGS. TSKH Nguyễn Kim Sách đã rất quan tâm,
đưa ra các đònh hướng, các yêu cầu và nhiều bài báo đăng trên tạp chí IEEE
trong quá trình em thực hiện luận văn này.
Cảm ơn gia đình (ba, mẹ và em) đã nuôi dưỡng và tạo mọi điều kiện cho
con học tập tốt.
Sẽ nhớ mãi các anh, chò và các bạn cùng lớp sau hai năm học tập, gắn bó
với nhau.
TÓM TẮT NỘI DUNG LUẬN VĂN
Phân tích đa phân giải là một cách xử lý tín hiệu hiệu quả, cho phép xem
xét thông tin ở nhiều cấp độ. Trong những năm gần đây, phân tích đa phân giải
được áp dụng rất nhiều trong các vấn đề của xử lý tín hiệu và xử lý ảnh. Tuy
nhiên, ý tưởng phân tích ảnh tại các độ phân giải khác nhau không phải là mới.
Các nghiên cứu trong nhiều lónh vực như toán học, vật lý học, xử lý tín hiệu và
phân tích dữ liệu về đòa chấn đã đặt nền móng cho sự phát triển của phân tích đa
phân giải. So với biến đổi Fourier, đa phân giải có ưu điểm vượt trội, cung cấp
một mô hình hiệu quả cho việc tách thông tin từ ảnh, cho phép hiểu rõ sự phân bố
thông tin trong ảnh tốt hơn và có thể khử nhiễu rất tốt. Hiện tại, có rất nhiều ứng
dụng của đa phân giải liên tục được đăng trên tạp chí IEEE [21], [22], [23].
Nội dung chính của luận văn là tìm hiểu, nghiên cứu cơ sở, những đặc điểm
chính và ứng dụng của các biến đổi đa phân giải. Sau đó, vận dụng viết chương
trình ứng dụng thực tế. Hướng ứng dụng được chọn là phân đoạn ảnh theo trực
quan. Phân đoạn ảnh là cơ sở phát triển cho nhiều hướng ứng dụng trong xử lý
ảnh như nhận dạng, đánh giá chuyển động, phân tích cảnh vật… Các kết quả
chương trình được xem xét, rút ra các kết luận và so sánh với kết quả của giải
thuật phân đoạn khác.
Cụ thể, nội dung của luận án bao gồm:
Cơ sở, tiên đề của một biểu diễn đa phân giải. Từ đó, có thể xây dựng các
phép biến đổi đa phân giải. Liên hệ phân tích đa phân giải với quá trình xử
lý trong hệ thống thò giác con người.
Cơ sở toán học, sơ đồ thực hiện và các ứng dụng của biễu diễn Gaussian
pyramid, Laplacian pyramid và wavelet. So sánh các biễu diễn này. Đây là
ba biễu diễn đa phân giải có vai trò quan trọng.
Như vậy, qua nội dung trình bày trên, mục tiêu nghiên cứu những đặc điểm
và những ứng dụng chính của đa phân giải đã được hoàn thành. Để tìm hiểu thêm
những chứng minh toán học phức tạp và các ứng dụng của đa phân giải, có thể
xem các tài liệu [1], [3], [4], [5].
Về ứng dụng cụ thể, nội dung của luận văn bao gồm:
Cơ sở để đánh giá một kết quả phân đoạn là tốt hay xấu. Trình bày tổng
hợp, phân loại các cách tiếp cận phân đoạn bao gồm phân đoạn theo
histogram, theo vùng lân cận và theo tính chất vật lý.
Trình bày giải thuật phân đoạn ảnh màu theo trực quan. Qua tham khảo
nhiều giải thuật phân đoạn, giải thuật này được chọn bởi phạm vi ứng dụng
rộng rãi, không hạn chế trên một số loại ảnh. Vì vậy, đây cũng là giải
thuật phân đoạn phức tạp nhất trong các kiểu phân đoạn, đối tượng phân
đoạn là ảnh tự nhiên. Cách tiếp cận của giải thuật này có nhiều điểm mới
mẻ, nổi bật, áp dụng những kết quả đạt được trong lónh vực nghiên cứu về
hệ thống thò giác con người. Đó là áp dụng bộ lọc do Zhang và Wandell [6]
đo đạc được từ thực nghiệm và cơ chế giãn nỡ theo xác suất mới do Petrou
và Mirmehdi [15] đưa ra.
Vận dụng viết chương trình ứng dụng trên MATLAB và C. Chương trình
thử nghiệm trên nhiều loại ảnh và với nhiều cấp độ phân giải, số lượng
cluster khởi tạo khác nhau. Từ các kết quả đạt được, trả lời câu hỏi “Tham
số nào có vai trò quyết đònh trong kết quả phân đoạn?” và rút ra các kết
luận.
Cuối cùng, luận văn phân tích các hạn chế của giải thuật và đề nghò giải
pháp khắc phục. Hạn chế này xuất phát từ đối tượng xử lý của giải thuật là
ảnh tự nhiên, có đặc tính ngẫu nhiên. Do đó, để có được kết quả phân đoạn
chính xác, chúng ta phải khởi tạo ngẫu nhiên một số lượng lớn các cluster
ban đầu, thậm chí lớn hơn nhiều lần so với số pixel của ảnh. Nhìn từ khía
cạnh này, chúng ta thấy điều này chưa hợp lý. Ý tưởng đề nghò là dựa vào
mối quan hệ giữa các pixel lân cận để tạo ra các cluster ban đầu. Nếu
khoảng cách giữa các pixel lân cận trong không gian màu đồng nhất LUV
nhỏ hơn mức ngưỡng cho phép thì chúng ta nhóm các pixel này thành một
cluster. Về khía cạnh tính toán, giải pháp đề nghò này sẽ cải thiện tốc độ
chạy chương trình.
Hiện nay, phân tích đa phân giải đang thu hút sự nghiên cứu phát triển về
mặt lý thuyết toán học phức tạp cũng như các ứng dụng phong phú, đa dạng của
chúng. Trong xử lý ảnh, phân tích đa phân giải là một giải pháp đem lại nhiều
triển vọng để giải quyết các bài toán đặt ra.
MỤC LỤC
Chương 1:
BIỂU DIỄN ẢNH ĐA PHÂN GIẢI............................................................. 1
1.1 Tổng quan.............................................................................................. 2
1.2 Các ký hiệu, đònh nghóa ........................................................................ 2
1.3 Các tiên đề của phân tích đa phân giải................................................ 5
1.4 Biểu diễn pyramid................................................................................. 8
1.4.1 Cơ sở toán học................................................................................. 8
1.4.2 Loại trừ và nội suy ........................................................................ 11
1.4.3 Gaussian pyramid.......................................................................... 13
1.4.4 Laplacian pyramid......................................................................... 15
1.5 Biểu diễn wavelet ............................................................................... 16
1.5.1 Cơ sở toán học............................................................................... 16
1.5.2 Các băng lọc.................................................................................. 29
1.5.3 Phân rã wavelet............................................................................. 31
1.5.4 Ma trận biến đổi wavelet rời rạc.................................................. 34
1.5.5 Liên hệ với hệ thống thò giác con người ...................................... 36
1.5.6 p dụng.......................................................................................... 37
1.6 Những đa phân giải khác .................................................................... 37
1.6.1 Biến đổi wavelet không giảm tốc độ lấy mẫu............................. 37
1.6.2 Wavelet packet.............................................................................. 37
Chương 2:
PHÂN ĐOẠN ẢNH MÀU
ĐA PHÂN GIẢI THEO TRỰC QUAN.......................................................39
2.1 Các tiêu chuẩn đánh giá kết quả của phân đoạn ảnh ....................... 40
2.2 Phân loại các cách phân đoạn ảnh màu............................................. 40
2.2.1 Phân đoạn dựa vào histogram....................................................... 41
2.2.2 Phân đoạn dựa vào vùng lân cận ................................................. 41
2.2.3 Phân đoạn theo tính chất vật lý.................................................... 42
2.3 Phân đoạn ảnh màu đa phân giải theo trực quan............................... 43
2.3.1 Các cách tiếp cận.......................................................................... 43
2.3.2 Xây dựng tower theo trực quan .................................................... 46
2.3.3 Hồi phục đa phân giải theo xác suất............................................ 49
2.3.4 Các nhóm chung............................................................................ 54
2.3.5 Prior probabilistic .......................................................................... 55
2.3.6 Histogram màu 3 chiều................................................................. 56
2.3.7 Từ điển thành phần hàm Q ........................................................... 56
Chương 3:
ĐÁNH GIÁ CÁC KẾT QUẢ ĐẠT ĐƯC
VÀ GIẢI PHÁP ĐỀ XUẤT.........................................................................58
3.1 Chương trình MATLAB....................................................................... 59
3.2 Lưu đồ thực hiện giải thuật................................................................. 60
3.3 Các kết quả.......................................................................................... 76
3.4 So sánh với kết quả của giải thuật phân đoạn Edge Flow................ 78
3.5 Nhận xét, giải pháp đề xuất ............................................................... 79
KẾT LUẬN ...................................................................................................85
HƯỚNG PHÁT TRIỂN ...............................................................................87
TÀI LIỆU THAM KHẢO............................................................................89
Trang 1
Chương 1: Biễu diễn ảnh đa phân giải
CHƯƠNG 1:
BIỄU DIỄN
ẢNH ĐA PHÂN GIẢI
Trang 2
Chương 1: Biễu diễn ảnh đa phân giải
Trong phần này, chỉ trình bày một cách tóm tắt về các biễu diễn đa phân
giải và wavelet. Nếu cần quan tâm, hiểu kỹ hơn, chúng ta có thể xem các tài liệu
tham khảo [1], [3], [4], [5].
1.1 Tổng quan
Một người đang quan sát một cảnh, cảm nhận các đối tượng trong cảnh đó
theo một độ phân giải nào đó là phụ thuộc vào khoảng cách từ người đó đến đối
tượng. Ví dụ, khi quan sát một tòa nhà từ xa, đầu tiên chúng ta thấy những đường
nét sơ khởi của tòa nhà. Cổng chính của tòa nhà sẽ được nhìn thấy khi chúng ta
tiến gần đến tòa nhà. Cuối cùng, khi tiến gần hơn nữa, chúng ta có thể thấy cái
chuông treo trên cửa chính. Trong ví dụ trên, khái niệm độ phân giải gần như
tương ứng với kích thước của các chi tiết mà người quan sát có thể thấy được. Dó
nhiên có thể công thức hóa những khái niệm trực quan trên và lý thuyết xử lý tín
hiệu đã đưa ra những khái niệm rất rõ ràng về độ phân giải.
Những khái niệm này rất có ích trong lónh vực xử lý ảnh và video. Nhiều
giải thuật xử lý ảnh số, phân rã ảnh đang phân tích thành nhiều thành phần. Mỗi
thành phần chứa những thông tin ở một độ phân giải.
Có rất nhiều các phương pháp phân rã ảnh đa phân giải, chúng ta xem xét
ba phương pháp chính là Gaussian pyramid, Laplacian pyramid và wavelet.
1.2 Các ký hiệu, đònh nghóa
Tập hợp các số nguyên, số nguyên dương, số thực và số thực dương được
ký hiệu lần lượt là Z, Z
+
, R và R
+
.
L
2
(R) là không gian của các hàm một biến có tích phân bình phương xác
đònh. Cho hai hàm f, g ∈ L
2
(R), tích trong của f(x) và g(x) được cho bởi
Trang 3
Chương 1: Biễu diễn ảnh đa phân giải
∫
+∞
∞
=
-
dx g(x) f(x) g(x) f(x),
(1.1)
Giá trò chuẩn của f(x) ∈ L
2
(R) được cho bởi
dxf(x) f , f f
-
22
∫
+∞
∞
==
(1.2)
Tích chập của hai hàm f, g
∈
L
2
(R) như sau:
ττ
)d -g(t )f(τ g(x) f
-
∫
+∞
∞
=∗
(1.3)
Biến đổi Fourier của f(x) ∈ L
2
(R), viết là F f(x) là hàm
)(f
ω
∧
:
∫
+∞
∞−
∧
= dxe f(x) ) (ωf
xjω-
(1.4)
Với f(x) ∈ L
2
(R), biến đổi Fourier của f(x) là
)(f
ω
∧
∈ L
2
(R). Sau đây là các
tính chất của biến đổi Fourier:
1) F f(ax) =
a
1
)
a
ω
(f
∧
2) F f(x-τ) = e
j
τ
ω
)( f
ω
∧
3) F f’(x) = jω
)(f
ω
∧
4) F xf(x) =
)('f
ω
∧
I
2
(Z) là không gian vector của các chuỗi có tổng bình phương xác đònh:
L
2
(R
2
) là không gian các hàm hai biến f(x,y) có tích phân bình phương xác
đònh. Một ảnh là một mảng hai chiều có kích thước xác đònh. Vì vậy, có thể xem
nó thuộc không gian L
2
(R
2
). Cho hai hàm f(x,y) ∈ L
2
(R
2
) và g(x,y) ∈ L
2
(R
2
), tích
trong của f(x,y) và g(x,y) là:
⎭
⎬
⎫
⎩
⎨
⎧
∞<=
∑
+∞
∞=
∈
- i
2
iZii
2
:)( )Z(I
αα
Trang 4
Chương 1: Biễu diễn ảnh đa phân giải
∫∫
+∞
∞
+∞
∞
=
--
dxdy y)g(x, y)f(x, y)g(x, y),f(x,
(1.5)
Giá trò chuẩn của f(x,y) ∈ L
2
(R
2
) tương tự như giá trò chuẩn trong không
gian của các hàm một chiều và được cho bởi
dxdyy)f(x, f
2
--
2
∫∫
+∞
∞
+∞
∞
=
(1.6)
Biến đổi Fourier của f(x,y) ∈ L
2
(R
2
), ký hiệu
) ,(f
y
ωω
x
∧
được cho bởi
dxdye y)f(x, ) ,(f
--
)y ω xj(ω-
yx
yx
∫∫
+∞
∞
+∞
∞
+
∧
=
ωω
(1.7)
Biến đổi Fourier của một hàm chỉ ra thông tin về tần số trong tín hiệu nhưng
thông tin này không được đònh vò trí tốt trong miền thời gian. Ví dụ, để nghiên
cứu xem xét các tính chất của một hàm trong một khoảng thời gian xác đònh thì
toàn bộ vùng tần số từ -∞ đến +∞ phải được xem xét.
Biến đổi cửa sổ Fourier
∫
+∞
∞
=
-
xj-
dx f(x) u) -g(x e u) ,Gf(
ω
ω
(1.8)
đo các biên độ của các thành phần sin của hàm f với tần số ω xung quanh điểm u
trong miền thời gian. Bằng cách dòch chuyển hàm cửa sổ g, toàn bộ không gian
thực R được bao phủ. Nói cách khác, tập hợp các hàm
R u dx f(x) u) -g(x e
-
xj-
∈
⎭
⎬
⎫
⎩
⎨
⎧
∫
+∞
∞
ω
(1.9)
có thể được sử dụng để phân tích các thành phần sin của hàm f với tần số ω tại
bất kỳ điểm nào trong miền thời gian. Khi hàm Gaussian
2
2
2
)-(x
-
e
2
1
g(x)
σ
µ
πσ
=
(1.10)
Trang 5
Chương 1: Biễu diễn ảnh đa phân giải
được chọn là hàm cửa sổ, biển đổi cửa sổ Fourier trở thành biến đổi nổi tiếng
Gabor. Vì vậy, biến đổi cửa sổ Fourier là dạng tổng quát của biến đổi Gabor [1].
Trong biễu diễn phase-space, biến đổi cửa sổ Fourier tương đương với lấy mẫu
đều trong cả miền tần số và miền thời gian. Vì vậy, tại những tần số cao, độ phân
giải của biến đổi là không hiệu quả để có thể phân biệt những biến đổi nhỏ trong
tín hiệu.
Một hàm g(x) được gọi là hàm trơn nếu nó hội tụ đều về 0 tại
±∞
và
∫
+∞
∞−
=1 g(x)
(1.11)
Một giãn nở của hàm f(x) ∈ L
2
(R) bởi hệ số tỉ lệ s được viết như sau:
)
s
x
f(
s
1
f
s
=
(1.12)
trong đó, nếu s > 1, phép toán tương đương “ mở rộng” hàm f, và nếu s <1, phép
toán tương đương “nén” hàm f. Nói chung, s ∈ R. Khi s = 2
j
, f
s
được gọi là một
giãn nở nhò phân của hàm f và ký hiệu
j
2
f
. Về khía cạnh tính toán, việc nghiên
cứu giãn nở nhò phân của các hàm là rất có ích. Hệ số tỉ lệ của hàm trơn quyết
đònh phạm vi mà tại đó các tính chất của tín hiệu được xem xét.
1.3 Các tiên đề của phân tích đa phân giải ([4], [5])
Giả sử A
2j
là phép toán xấp xỉ một tín hiệu ở độ phân giải 2
j
. Chúng ta giả
sử tín hiệu ban đầu f(x) là đo được và có năng lượng xác đònh: f(x)
∈
L
2
(R). Sau
đây là những tính chất mà chúng ta mong muốn phép toán A
2j
phải thỏa mãn:
1) A
2j
là phép toán tuyến tính. Nếu A
2j
f(x) là xấp xỉ của hàm f(x) tại độ
phân giải 2
j
thì A
2j
f(x) sẽ không thay đổi nếu ta xấp xỉ nó một lần nữa
tại độ phân giải 2
j
. Tính chất này được viết như sau: A
2j
o A
2j
= A
2j
. Vì
Trang 6
Chương 1: Biễu diễn ảnh đa phân giải
vậy, phép toán A
2j
là phép chiếu trên không gian vector V
2j
⊂ L
2
(R). Có
thể xem không gian vector V
2j
là tập hợp tất cả những xấp xỉ có thể có
của các hàm trong L
2
(R) ở độ phân giải 2
j
.
2) Trong tất cả các hàm được xấp xỉ tại độ phân giải 2
j
, A
2j
f(x) là hàm
giống với f(x) nhất.
f(x) - )x(fA f(x) - g(x) ,V g(x)
jj
22
≥∈∀
(1.13)
Vì vậy, phép toán A
2j
là phép chiếu vuông góc trong không gian vector
V
2j
.
3) Xấp xỉ của một tín hiệu tại độ phân giải 2
j+1
chứa đựng tất cả những
thông tin cần thiết để tính toán tín hiệu này tại độ phân giải nhỏ hơn 2
j
.
Đây là tính chất nhân quả. Vì A
2j
là phép chiếu trên V
2j
, tính chất này
tương đương
∀
j
∈
Z, V
2j
⊂
V
2(j+1)
(1.14)
4) Một phép toán xấp xỉ giống nhau tại tất cả các độ phân giải. Các không
gian của các hàm xấp xỉ có thể xuất phát từ không gian của các hàm
xấp xỉ khác bằng cách giãn nở các hàm xấp xỉ theo tỷ lệ độ phân giải
của chúng.
1jj
22
Vf(2x) Vf(x) Z, j
+
∈⇔∈∈∀
(1.15)
5) Xấp xỉ A
2j
f(x) của tín hiệu f(x) được mô tả bởi 2
j
mẫu trên mỗi đơn vò
chiều dài. Khi f(x) được dòch chuyển bởi một chiều dài tỷ lệ với 2
-j
, thì
A
2j
f(x) cũng được dòch chuyển một lượng như vậy và được biễu diễn bởi
cùng số mẫu như trước khi dòch chuyển. Phép toán dòch chuyển có
những tính chất sau:
Đặc điểm rời rạc:
Tồn tại một phép đẳng cấu I từ V
1
vào I
2
(Z). (1.16)
Trang 7
Chương 1: Biễu diễn ảnh đa phân giải
Dòch chuyển của xấp xỉ:
k)-f(x)x(f ),kx(fA)x(fA Z, k
klkl
=−=∈∀
(1.17)
Dòch chuyển các mẫu:
ZikiklZiil
)( (x))fI(A )( f(x))I(A
∈−∈
=⇔=
αα
(1.18)
6) Khi tính toán một xấp xỉ của f(x) tại độ phân giải 2
j
, một số thông tin về
f(x) bò mất. Tuy nhiên, khi độ phân giải tăng đến +
∞
, tín hiệu xấp xỉ sẽ
hội tụ về tín hiệu ban đầu. Ngược lại, khi độ phân giải giảm xuống đến
0, tín hiệu xấp xỉ càng lúc càng bò mất thông tin và hội tụ về 0.
Bởi vì các tín hiệu xấp xỉ tại độ phân giải 2
j
là các hình chiếu vuông góc
trên không gian V
2j
, tính chất trên có thể được viết:
jj
2
- j
2
j
V U V lim
+∞
∞=
∞+→
=
phủ đầy L
2
(R) (1.19)
và
{}
0 V V lim
jj
2
- j
2
j
==
+∞
∞=
∞+→
I
(1.20)
Ta gọi một tập hợp bất kỳ các không gian vector (V
2j
)
j
∈
Z
thõa mãn các tính
chất (1.14)-(1.20) là một xấp xỉ đa phân giải của L
2
(R). Phép toán A
2j
thõa mãn
các tính chất (1.13)-(1.18) tạo ra một xấp xỉ của một hàm bất kỳ thuộc L
2
(R) ở độ
phân giải 2
j
. Chúng ta xem xét ví dụ một xấp xỉ đa phân giải đơn giản của L
2
(R).
Ví dụ: Giả sử V
1
là không gian vector tất cả các hàm thuộc L
2
(R) bằng hằng
số trong mỗi khoảng [k, k+1], với mọi k ∈ Z. Từ phương trình (1.15), ta lấy V
2j
là
không gian vector tất cả các hàm thuộc L
2
(R) bằng hằng số trong mỗi khoảng [
k2
-j
, (k+1)2
-j
], với mọi k ∈ Z. Điều kiện (1.14) dễ dàng được thõa. Ta đònh nghóa
một phép đẳng cấu I thõa mãn các tính chất (1.16), (1.17) và (1.18) bằng cách kết
hợp mỗi hàm f(x) ∈ V
1
một chuỗi (α
k
)
k
∈
Z
sao cho α
k
bằng giá trò của f(x) trong
Trang 8
Chương 1: Biễu diễn ảnh đa phân giải
khoảng [k, k+1]. Ta có
j
2
- j
V
+∞
∞=
U
phủ đầy trên L
2
(R) và
{}
0 V
j
2
- j
=
+∞
∞=
I
. Vì vậy chuỗi
các không gian vector (V
2j
)
j
∈
Z
là một xấp xỉ đa phân giải của L
2
(R).
1.4 Biểu diễn pyramid ([1], [3], [4])
1.4.1 Cơ sở toán học
Chúng ta biết rằng phép toán xấp xỉ A
2j
là một phép chiếu vuông góc trên
không gian vector V
2j
. Để mô tả về mặt tính toán phép toán này, chúng ta phải
tìm một cơ sở trực chuẩn của V
2j
. Các đònh lý sau đã được GS Stephane G. Mallat
chứng minh trong một bài báo đăng trên tạp chí IEEE [4], cho thấy một cơ sở trực
chuẩn có thể được tạo ra bằng cách giãn nở và dòch chuyển một hàm φ(x).
Đònh lý 1 [4]:
Giả sử (V
2j
)
j
∈
Z
là một xấp xỉ đa phân giải của L
2
(R). Tồn tại
duy nhất một hàm φ(x) ∈ L
2
(R), được gọi là hàm giãn nở, sao cho nếu ta đặt
)x(2 2 (x)
jj
2
j
φφ
=
với j ∈ Z (giãn nở của hàm φ(x) bởi 2
j
) thì
Zn
-j
2
-j
))n2 - (x 2(
j
∈
φ
là một cơ sở trực chuẩn của V
2j
.
Phép chiếu trực giao trên V
2j
bây giờ có thể được tính bằng cách phân rã tín
hiệu f(x) trên cơ sở trực chuẩn trong đònh lý trên. Cụ thể là
∑
+∞
∞=
−−
−−=∈∀
- n
j
2
j
2
j-
2
2
).n2x()n2u( ),u(f 2 )x(fA ),R(L f(x)
jjj
φφ
(1.21)
Xấp xỉ của tín hiệu f(x) tại độ phân giải 2
j
,
)x(fA
j
2
, được mô tả bởi một tập
hợp các tích trong như sau:
( )
Zn
j
2
d
2
)n2u( f(u), fA
jj
∈
−
−=
φ
(1.22)
Trang 9
Chương 1: Biễu diễn ảnh đa phân giải
fA
d
2
j
được gọi là một xấp xỉ rời rạc của f(x) tại độ phân giải 2
j
. Vì máy tính
chỉ có thể xử lý với những tín hiệu rời rạc, chúng ta phải làm việc với những xấp
xỉ rời rạc. Mỗi tích trong được xem như một tích chập được tính ở điểm 2
-j
n
∫
+∞
∞−
−−
−=− du)n2u( f(u) )n2u( ),u(f
j
2
j
2
jj
φφ
)n2))(u((f(u)
j
2
j
−
−∗=
φ
Vì vậy, chúng ta có thể viết lại
fA
d
2
j
:
Zn
j
2
d
2
))n2( ))u(((f(u) fA
jj
∈
−
−∗=
φ
(1.23)
Bởi vì φ(x) là một bộ lọc thông thấp, tín hiệu rời rạc này được xem như tín
hiệu f(x) đã được lọc thông thấp sau đó được lấy mẫu đều ở tốc độ 2
j
.
Trong thực tế, một thiết bò đo đạc vật lý chỉ có thể đo một tín hiệu ở một độ
phân giải xác đònh. Ta giả sử độ phân giải này là mức 1.
fA
d
1
là xấp xỉ rời rạc tại
độ phân giải 1. Theo tính chất nhân quả, từ
fA
d
1
chúng ta có thể tính được tất cả
các xấp xỉ rời rạc
fA
d
2
j
với mọi j < 0. Phần này mô tả một giải thuật lặp đơn giản
cho việc tính toán các xấp xỉ rời rạc.
Giả sử (V
2j
)
j
∈
Z
là một xấp xỉ rời rạc và φ(x) là hàm giãn nở tương ứng. Họ
các hàm
(
)
Z
1--j
2
1
k)2 -x (2
1
∈
−−
+
k
j
j
φ
là một cơ sở trực giao của
1j
2
V
+
. Với mọi n ∈ Z,
hàm
n)2 -x (
-j
2
j
φ
là một thành phần của V
2j
và V
2j
thuộc
1j
2
V
+
. Vì vậy hàm này có
thể được mở rộng trong cơ sở trực giao
1j
2
V
+
:
∑
+∞
∞=
++
⋅=
- k
1-j-
2
1-j-
2
j-
2
1 - j-j-
2
k)2 -(x k)2 -(u n),2 -(u 2 n)2 -(x
1j1jjj
φφφφ
(1.24)
Bằng cách đổi biến bên trong tích phân tính tích trong, ta có:
2n)) -(k -(u u),( k)2 -u ( n),2 -(u 2
1-1jj
2
1 - j-
2
j-
2
1 - j-
φφφφ
=
+
(1.25)
Khi tính tích trong của f(x) với hai vế của phương trình (1.24) ta được:
Trang 10
Chương 1: Biễu diễn ảnh đa phân giải
k)2 -u ( f(u),2n)) -(k -(u (u), n)2 -(u f(u),
1 - j-
22
j-
2
1j1-j +
⋅=
∑
φφφφ
Giả sử H là bộ lọc rời rạc với đáp ứng xung được cho bởi
n)-(u u),( h(n) Z,n
1-
2
φφ
=∈∀
(1.26)
Gọi
H
~
là bộ lọc phản xạ với đáp ứng xung
h(-n) (n)h
~
=
. Thay đẳng thức này
vào biểu thức trên, ta có
k)2 - (u f(u), k)- 2n(h
~
n)2 - u( f(u),
1 - j -
2
- k
j-
2
1jj +
∑
+∞
∞=
=
φφ
(1.27)
Phương trình (1.27) cho thấy
fA
d
2
j
được tính bằng cách chập
fA
d
2
1j+
với
H
~
và
giảm tốc độ lấy mẫu đi 2 lần. Tất cả các xấp xỉ rời rạc khác
fA
d
2
j
, với j<0, có thể
tính được từ
fA
d
1
bằng cách lặp lại giải thuật này. Thuật toán này gọi là biến đổi
pyramid. Giải thuật được mô tả trong sơ đồ khối hình 1.7.
Đònh lý 1 [4] cho thấy một xấp xỉ đa phân giải
Z j
2
)(V
j
∈
hoàn toàn có thể mô
tả thông qua hàm giãn nở
φ
(x). Một hàm giãn nở được đònh nghóa là một hàm
φ
(x)
∈
L
2
(R) sao cho với mọi j
∈
Z,
(
)
Zn
j-
2
j-
n)2 - x(2
j
∈
φ
là một họ trực chuẩn và nếu V
2j
là không gian vector được tạo bởi các hàm này thì (V
2j
)
j
∈
Z
là một xấp xỉ của
L
2
(R). Hàm giãn nở
φ
(x) phải khả vi liên tục và tiệm cận của
φ
(x) và
φ
’(x) tại vô
cùng phải thõa:
)O(x )x(' ),O(x (x)
-2-2
==
φφ
Đònh lý sau đây mô tả những đặc điểm của biến đổi Fourier của một hàm
giãn nỡ.
Đònh lý 2 [4]: Giả sử
φ
(x) là một hàm giãn nở và H là một bộ lọc rời rạc với
đáp ứng xung
n) - (u (u), h(n)
1-
2
φφ
=
. H(
ω
) là biến đổi Fourier
Trang 11
Chương 1: Biễu diễn ảnh đa phân giải
∑
+∞
∞=
=
- n
n j-
e h(n) )H(
ω
ω
(1.28)
H(
ω
) thõa mãn hai tính chất sau:
|H(0)| = 1 và h(n) = O(n
-2
) tại vô cùng. (1.29a)
|H(
ω
)|
2
+ |H(
ω
+
π
)|
2
= 1. (1.29b)
Ngược lại, nếu H(
ω
) là chuỗi Fourier thõa mãn hai tính chất trên và thõa
|H(
ω
)|
≠
0 với
ω
∈
[0,
π
/2] (1.29c)
Hàm được xác đònh bởi
∏
+∞
=
=
1 p
p-
)H(2 )(
~
ωωφ
(1.30)
là biến đổi Fourier của hàm giãn nở.
Các bộ lọc thõa mãn tính chất (1.29b) được gọi là các bộ lọc liên hợp.
1.4.2 Loại trừ và nội suy
Để tạo ra một pyramid, dựa vào cơ sở toán học trên, người ta xây dựng hai
công cụ cơ bản là phép toán loại trừ và nội suy. Phép toán loại trừ thường gây
mất mát thông tin. Vì vậy người ta mong muốn tín hiệu đã được loại trừ càng giữ
được độ trung thực, chính xác so với tín hiệu ban đầu càng tốt. Các phép toán cơ
bản trong loại trừ là lọc thông thấp (sử dụng các bộ lọc số anti-aliasing) và giảm
tốc độ lấy mẫu như hình vẽ.
h(n) ↓2
x(n) y(n) z(n)
Hình 1.1. Tín hiệu được đưa qua bộ lọc thông thấp h(n)
và giảm tốc độ lấy mẫu cho 2.
Trang 12
Chương 1: Biễu diễn ảnh đa phân giải
Đáp ứng xung của bộ lọc thông thấp được ký hiệu là h(n) và biến đổi
Fourier rời rạc theo thời gian là H(e
jw
). Mối quan hệ giữa tín hiệu đầu vào x(n) và
đầu ra y(n) của bộ lọc được viết thông qua phương trình chập:
y(n) = x(n) * h(n) =
∑
−
k
knxkh
)()(
Giảm tốc độ lấy mẫu sẽ loại bỏ bớt các mẫu tại ngõ vào y(n). Ngõ ra của nó là
z(n) = y(2n)
Kết hợp cả hai phương trình trên ta có:
z(n) =
∑
−
k
knxkh
)2()(
(1.31)
Giảm tốc độ lấy mẫu thường mất mát thông tin vì tín hiệu gốc x(n) không
thể được khôi phục chính xác từ tín hiệu đã được loại trừ z(n). Giải pháp kinh
điển để giảm sự mất mát thông tin này là sử dụng các bộ lọc số anti-aliasing lý
tưởng h(n) với tần số cắt là w
c
=
π
/2. Tuy nhiên các bộ lọc như vậy có chiều dài
không xác đònh. Trong xử lý ảnh, các bộ lọc có đáp ứng xung hữu hạn (FIR)
thường được sử dụng vì những lý do tính toán như trên. Các bộ lọc FIR sử dụng
trong xử lý ảnh thường đối xứng, có chiều dài từ 3 đến 20 bước (tap). Hai ví dụ
thông dụng nhất là bộ lọc FIR ba bước h(n) = ( ¼, ½, ¼) và bộ lọc xén Gaussian
có chiều dài (2L +1), h(n) =
)2/(
22
σ
n
Ce
−
,
|
n
|≤
L, trong đó
∑
≤
−
=
Ln
n
eC
)2/(
22
/1
σ
. Tổng các hệ số của bộ lọc được cộng lại là 1:
∑
=
n
nh
1)(
, điều này có nghóa là đáp ứng DC của các bộ lọc này là đơn vò.
Một phép toán xử lý ảnh thông dụng khác là nội suy. Nội suy làm tăng tốc
độ lấy mẫu của tín hiệu. Phép nội suy có thể thực hiện bằng hai phép toán cơ bản
liên tiếp: tăng tốc độ lấy mẫu và lọc thông thấp.
Trang 13
Chương 1: Biễu diễn ảnh đa phân giải
Tăng tốc độ lấy mẫu sẽ chèn một giá trò 0 vào giữa mỗi mẫu của tín hiệu x(n):
Tín hiệu sau khi tăng tốc độ lấy mẫu sẽ được lọc bởi bộ lọc thông thấp h(n).
Tín hiệu đã nội suy là
z(n) = h(n) * y(n)
∑
−=
k
knxkhnz )2()()(
(1.32)
Các bộ lọc nội suy lý tưởng đều có chiều dài của đáp ứng xung là vô hạn.
Vì vậy, trong thực tế, các bộ lọc FIR có chiều dài ngắn được sử dụng.
1.4.3 Gaussian pyramid ([1], [3])
Việc xây dựng Gaussian pyramid có liên quan đến các phép toán lọc thông
thấp 2-D và giảm tốc độ lấy mẫu. Các bộ lọc 2-D được sử dụng trong thực tế là
có thể “tách ra được”, nghóa là chúng có thể thực hiện bằng các thực hiện liên
tiếp các phép toán lọc 1-D theo các hàng và cột của ảnh. Điều này rất thuận lợi
trong nhiều trường hợp. Cơ chế loại trừ 2-D cũng có thể “tách ra được”. Nói cụ
thể, phép loại trừ 2-D có thể thực hiện bằng cách áp dụng phép loại trừ 1-D vào
mỗi hàng của ảnh, sau đó tiếp tục áp dụng phép loại trừ 1-D vào mỗi cột của ảnh
↑ 2 h(n)
x(n) y(n) z(n)
Hình 1.2. Tín hiệu được tăng tốc độ lấy mẫu cho 2 và
đưa qua bộ lọc thông thấp h(n).
y(n) =
0 , n lẻ
x(n/2) , n chẳn
Trang 14
Chương 1: Biễu diễn ảnh đa phân giải
đã được loại trừ theo hàng. Có thể đạt được kết quả giống như vậy bằng cách xử
lý cột trước và sau đó mới đến hàng. Tương tự, phép nội suy 2-D cũng có thể thực
hiện bằng cách áp dụng phương trình (1.32) cho mỗi hàng của ảnh và sau đó áp
dụng tiếp cho mỗi cột của ảnh đã nội suy theo hàng, hoặc có thể thực hiện theo
thứ tự ngược lại.
Trong biểu diễn Gaussian pyramid của một ảnh trong hình 1.3, ảnh gốc (ở
trên cùng) được lọc thông thấp và giảm tốc độ lấy mẫu cho 2 theo cả hai chiều.
nh kết quả N/2 x M/2 là ảnh ở mức hai của pyramid. Tiến trình như vậy có thể
được lặp lại nhiều lần. Trong Gaussian pyramid hình 1.3, pyramid có ba mức độ
phân giải. Bộ lọc thông thấp thường được sử dụng là bộ lọc Gaussian, vì vậy
chúng ta thường gọi pyramid này là Gaussian pyramid. Thuật ngữ này vẫn được
sử dụng ngay cả khi bộ lọc thông thấp không phải là bộ lọc Gaussian. Một thuật
ngữ khác được sử dụng trong trường hợp này là pyramid thông thấp (low-pass
pyramid). Tổng số pixel trong một biễu diễn pyramid là NM + NM/4 + NM/16 +
...
≈
4/3 NM. Như vậy là số pixel trong biễu diễn pyramid vượt quá số pixel biễu
diễn ảnh gốc.
Gaussian pyramid được ứng dụng rất nhiều trong các vấn đề lưu trữ ảnh.
Giả sử một người sử dụng từ xa truy cập vào cơ sở dữ liệu ảnh (ví dụ Internet)
nhưng có những yêu cầu khác nhau về độ phân giải của ảnh. Việc trình bày ảnh
dưới dạng pyramid cho phép mỗi người sử dụng có thể trực tiếp lấy ra ảnh ở độ
phân giải mong muốn. Mặc dù kỹ thuật lưu trữ này có dư thừa về pixel nhưng ảnh
mong muốn được lấy ra trực tiếp và ở dạng không yêu cầu phải xử lý thêm gì
nữa. Kỹ thuật này đã được sử dụng trong Kodak CD-I, trong đó ảnh được truyền
từ CD-ROM và hiển thò trên màn hình với độ phân giải do người sử dụng lựa
chọn. Một ứng dụng khác của Gaussian pyramid là trong ước lượng chuyển động
của video: ở bước đầu tiên, các ước lượng chuyển động thô được tính toán dựa
Trang 15
Chương 1: Biễu diễn ảnh đa phân giải
vào dữ liệu ảnh độ phân giải thấp và trong các bước tiếp theo, những ước lượng
ban đầu được cải tiến dựa vào dữ liệu ảnh ở độ phân giải cao hơn. Ưu điểm của
cách tiếp cận ước lượng chuyển động theo đa phân giải này là giảm đáng kể tính
toán trong các giải thuật phức tạp (các bước chủ yếu được thực hiện ở ảnh đã
giảm kích thước). Kết quả ước lượng chuyển động cũng rất tốt bởi vì những ước
lượng ban đầu (ở mức thô) được coi là khá gần giống với kết quả ước lượng lý
tưởng.
1.4.4 Laplacian pyramid ([1], [3])
Biểu diễn Laplacian pyramid của ảnh cũng gần tương tự như biễu diễn
Gaussian pyramid, nhưng ở đây sự khác biệt giữa hai ảnh liên tiếp trong Gaussian
pyramid được tính toán và được trình bày. nh được trình bày trên Laplacian
pyramid biểu diễn cho các chi tiết có ý nghóa của ảnh tại mỗi độ phân giải. Một
cách để tạo ảnh ở độ phân giải nào đó là áp dụng sự khác biệt giữa hai bộ lọc
Gaussian vào ảnh gốc. Đây là cách tương đương với lọc ảnh bởi bộ lọc
Laplacian, một kỹ thuật phổ biến ứng dụng trong phát hiện biên. Bộ lọc
Laplacian là bộ lọc thông dải; vì vậy Laplacian pyramid còn gọi là pyramid thông
dải.
Chúng ta đònh nghóa một ảnh chi tiết (detail image) là ảnh khác biệt giữa
một ảnh và xấp xỉ của nó ở độ phân giải thô hơn kế tiếp. Gaussian pyramid tạo ra
các ảnh tại nhiều lớp nhưng các ảnh này có kích thước khác nhau. Để tính sự
khác biệt giữa một ảnh N x M và xấp xỉ của nó tại độ phân giải N/2 x M/2, ta cần
nội suy ảnh nhỏ thành ảnh có độ phân giải N x M trước khi thực hiện phép trừ.
Biễu diễn Laplacian thường là “thưa thớt” khi hầu hết giá trò của các pixel
là 0 hoặc gần bằng 0. Các pixel có ý nghóa trong ảnh chi tiết tương ứng với các
Trang 16
Chương 1: Biễu diễn ảnh đa phân giải
biên. Cũng giống như biễu diễn Gaussian pyramid, biễu diễn Laplacian cũng
“overcomplete” nghóa là tổng số pixel của Laplacian pyramid lớn hơn khoảng
33% so với biễu diễn của ảnh gốc.
Biễu diễn Laplacian pyramid có rất nhiều ứng dụng trong xử lý ảnh nói
chung và trong phân đoạn, phân tích cấu trúc ảnh nói riêng. Những ứng dụng sớm
nhất của Laplacian pyramid là trong nén ảnh, nhưng sự xuất hiện của các kỹ
thuật nén wavelet đã làm cho cách tiếp cận này trở nên kém hấp dẫn. Tuy nhiên,
kỹ thuật nén theo kiểu Laplacian đã được thực hiện trong tiêu chuẩn nén ảnh có
tổn hao JPEG.
1.5. Biểu diễn wavelet ([1], [3], [4], [5])
Mặc dù biễu diễn Laplacian pyramid rất hữu ích trong nhiều ứng dụng
nhưng tổng số pixel trong biễu diễn Laplacian pyramid lớn hơn số pixel của ảnh
gốc là một bất lợi lớn trong các ứng dụng như nén ảnh. Biến đổi wavelet đưa ra
hai thuận lợi là có thể biễu diễn ảnh theo nhiều thành phần và tổng số pixel bằng
số pixel của ảnh gốc. Việc phát triển phép biến đổi này và lý thuyết của nó có
ảnh hưởng sâu sắc đến nhiều ứng dụng. Mục này sẽ trình bày những cơ sở toán
học và các công cụ cơ bản cần thiết để xây dựng một biễu diễn wavelet của một
ảnh.
1.5.1 Cơ sở toán học
1.5.1.1 Tín hiệu chi tiết
Thông tin khác nhau giữa hai xấp xỉ của hàm f(x) tại hai độ phân giải 2
j+1
và
2
j
được gọi là tín hiệu chi tiết tại độ phân giải 2
j
. Xấp xỉ tại độ phân giải 2
j+1
và 2
j