HỌC
VIỆN
CÔNG
NGHỆ
BƯU
CHÍNH
VIỄN
THÔNG
ĐỖ
ANH
QUÍ
NGHIÊN
CỨU
CÁC
PHƯƠNG
PHÁP
PHÂN
ĐOẠN
ẢNH
ĐA
CẤP
XÁM
VÀ
ẢNH
MÀU
Chuyên
ngành:
KHOA
HỌC
MÁY
TÍNH
Mã
số:
60.48.01.01
TÓM TẮT LUẬN
VĂN
THẠC
SĨ
KỸ
THUẬT
HÀ NỘI - 2013
Luận văn được hoàn thành tại:
HỌC
VIỆN
CÔNG
NGHỆ
BƯU
CHÍNH
VIỄN
THÔNG
Người hướng dẫn khoa học: PGS.TS. Ngô Quốc Tạo
Phản biện 1: ……………………………………………………………………………
Phản biện 2: …………………………………………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công
nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
1
PHẦN
MỞ
ĐẦU
Xử lý ảnh là một môn khoa học ứng dụng , nó là một chuyên ngành được
nghiên cứu và ứng dụng rộng rãi với nhiều lĩnh vực khác nhau như vật lý, hóa
học , y học xử lý ảnh thường hướng tới các mục đích sau :
Xử lý ảnh ban đầu để có được một bức ảnh mới theo một yêu cầu
Phân tích ảnh để thu được các thông tin nhằm hỗ trợ cho việc phân loại và
nhận biết ảnh
Phân đoạn ảnh (image segmentation) để nhận diện được các thành phần
trong ảnh nhằm hiểu được kết cấu của bức ảnh ở mức độ cao hơn.
Phân đoạn ảnh là bước quan trọng nhất trong quá trình xử lý ảnh nó quyết
định độ chính xác nhận diện đối tượng trong ảnh . chính vì vậy trong những
năm gần đây phân đoạn ảnh rất được chú tâm nghiên cứu với nhiều các thuật
toán được đề xuất .
Sau khi được tiếp cận môn học Xử Lý ảnh cộng thêm sự động viên của thầy
hướng dẫn tôi quyết định lựa chọn phân đoạn ảnh làm đề tài luận văn của mình.
Tôi tập trung nghiên cứu và hệ thống lại các phương pháp phân đoạn ảnh như:
phân đoạn theo ngưỡng, phân đoạn theo miền đồng nhất và cuối cùng phân
đoạn theo đường biên
Luận văn được bố trí theo các phần như sau:
Chương 1
: Tổng quan về xử lý ảnh chương này giới thiệu chung bộ môn xử lý
ảnh và giới thiệu về phương pháp phân đoạn ảnh
Chương 2:
Phương pháp phân đoạn ảnh dựa vào ngưỡng biên độ
Chương này trình bày phương pháp phân đoạn ảnh dựa vào ngưỡng, một số kỹ
thuật chọn ngưỡng dựa trên lược đồ xám – Histogram, phương pháp sử dụng
tập mờ, độ ổn định thông tin (sử dụng entropy).
Chương 3 :
Phương pháp phân đoạn ảnh dựa theo miền đồng nhất
2
Chương này trình bày một số phương pháp phân đoạn ảnh dựa vào miền đồng
nhất. Phương pháp tách cây tứ phân, phương pháp phân vùng bởi hợp
Chương 4 :
Phương pháp phân đoạn ảnh dựa theo đường biên
Chương này trình bày các kỹ thuật tác biên cơ bản , phương pháp gradient với
các toán tử sobel, prewit, roberts. Toán tử Laplace
Chương 5 :
Kết quả và đánh giá thực nghiệm
Chương này trình bày chương trình cài đặt thử nghiệm đã hoàn thành.
3
CHƯƠNG
1:
TỔNG
QUAN
VỀ
XỬ
LÝ
ẢNH
1.1
Giới
thiệu
về
xử
lý
ảnh
Xử lý ảnh là một lĩnh vực đang được quan tâm nghiên cứu và có nhiều
ứng dụng quan trọng trong thực tế cùng với sự phát triển của công nghệ thông
tin, thúc đẩy các ngành kinh tế, xã hội khác phát triển. Mục đích chính của xử
lý ảnh có thể nêu ra như sau:
Xử lý ảnh ban đầu để có được ảnh mới theo một yêu cầu xác định (Ví dụ
như ảnh mờ, cần xử lý để được ảnh rõ hơn).
Phân tích ảnh để thu được các thông tin đặc trưng giúp cho việc phân loại,
nhận biết ảnh.
Hiểu ảnh đầu vào để có những mô tả về ảnh ở mức cao hơn, sâu hơn.
Một ảnh trong thế giới thực được xem như là một hàm hai biến thực
a(x,y), với a là độ sáng của ảnh tại vị trí toạ độ thực (x,y). Một ảnh còn có thể
chứa những ảnh con gọi là các “vùng quan tâm”. Khái niệm vùng phản ánh một
thực tế là trong ảnh thường chứa nhiều đối tượng, mỗi đối tượng tạo nên phần
cơ sở của một vùng. Đối với một hệ xử lý ảnh cao cấp, chúng ta có thể áp dụng
nhiều phép toán cho từng vùng ảnh một, ví dụ như một vùng ảnh này sẽ được
áp dụng các phép toán loại bỏ hiệu ứng mờ do chuyển động, trong khi một vùng
ảnh khác sẽ được xử lý để nâng cao chất lượng màu sắc của nó.
Các giá trị độ sáng của ảnh thường được thể hiện dưới dạng số thực hoặc
số nguyên. Thông thường, những giá trị sáng kiểu số nguyên là kết quả của một
quá trình lượng hoá chuyển một thang đo liên tục thành một số mức rời rạc.
Tuy nhiên trong nhiều quá trình hình thành ảnh, độ lớn của tín hiệu là kết quả
đếm số hạt photon ở từng thời điểm, do vậy độ lớn ấy dĩ nhiên đã được lượng
hoá sẵn. Còn trong một số quá trình tạo ảnh khác, ví dụ như tạo ảnh siêu âm
4
trong
y
khoa,
phương
pháp
đo
đạc
vật
lý
trực
tiếp
sẽ
cho
ra
các
giá
trị
phức,
mỗi
giá
trị
phức
này
gồm
một
giá
trị
độ
lớn
kết
hợp
với
một
giá
trị
pha,
và
cả
hai
đều
ở
dạng
số
thực.
1.2
Các
bước
cơ
bản
trong
xử
lý
ảnh.
Quá
trình
xử
lý
một
ảnh
số
đầu
vào
nhằm
thu
được
một
ảnh
đầu
ra
mong
muốn
thường
phải
trải
qua
nhiều
bước
khác
nhau.
Hình
1.1
giới
thiệu
những
bước
cơ
bản
của
quá
trình
đó.
Phân
đoạn
ảnh
Biểu
diễn
và
mô
tả
ảnh
Tiền
xử
lý
ảnh
Thu
nhận
ảnh
CƠ
SỞ
TRI
THỨC
Nhận
dạng
và
giải
thích
Hình
1.1:
Các
bước
cơ
bản
trong
xử
lý
ảnh
Trong
hình
1.1,
để
hoàn
thành
được
mục
tiêu
xử
lý
cụ
thể
ứng
với
mỗi
bước,
chúng
ta
sẽ
đến
phải
sử
dụng
rất
nhiều
khái
niệm,
định
nghĩa,
công
cụ,
thuật
toán,
kỹ
thuật
vốn
đã
được
phát
triển
và
cải
tiến
trong
quá
trình
hình
thành
nên
ngành
xử
lý
ảnh
như
ngày
nay.
Trong
xử
lý
ảnh,
công
việc
đầu
tiên
là
thu
nhận
ảnh
,
trong
sơ
đồ
của
hình
1.1,
nó
chính
là
bước
đầu
tiên.
Để
thực
hiện,
chúng
ta
cần
có
một
bộ
cảm
biến
lấy
ảnh
và
khả
năng
số
hoá
các
tín
hiệu
liên
tục
được
sinh
ra
bởi
bộ
cảm
5
biến đó. Bộ cảm biến ở đây có thể là một máy chụp ảnh đơn sắc/màu, hoặc một
máy chụp ảnh kiểu quét dòng cho ra một dòng ảnh ở một thời điểm cụ thể.
Sau khi đã có ảnh dưới dạng số hoá, công việc kế tiếp là
tiền
xử
lý
ảnh
đó. Ở bước này, ảnh sẽ được cải thiện về độ tương phản, khử nhiễu, khử bóng,
khử độ lệch, v.v với mục đích làm cho chất lượng ảnh trở nên tốt hơn nữa,
chuẩn bị cho các bước xử lý phức tạp hơn về sau trong quá trình xử lý ảnh.
Bước thứ ba trong quá trình xử lý ảnh thường là bước
phân
đoạn
ảnh
. Có
thể nói, phân đoạn ảnh là việc chia một ảnh đầu vào thành nhiều phần con khác
nhau hay còn gọi là các đối tượng. Việc phân đoạn tự động thành những tập đối
tượng khác nhau là nhiệm vụ phức tạp nhất trong xử lý ảnh số hoá. Nếu kết quả
phân đoạn ảnh chỉ dừng lại được ở mức độ thô thiển, thì toàn bộ những bước xử
lý tiếp theo sẽ không cho kết quả tốt, và như vậy không thể đạt được thành công
nào về mặt ứng dụng. Mặt khác, các thuật toán phân đoạn không đủ mạnh, hoạt
động không ổn định cũng sẽ là nguồn gốc dẫn đến thất bại của một giải pháp xử
lý ảnh.
Kết quả của bước phân đoạn ảnh thường được cho dưới dạng dữ liệu
điểm ảnh thô, trong đó hàm chứa biên của một vùng ảnh, hoặc tập hợp tất cả
các điểm ảnh thuộc về chính vùng ảnh đó. Trong cả hai trường hợp, sự chuyển
đổi dữ liệu thô này thành một dạng thích hợp hơn cho việc xử lý trong máy tính
là rất cần thiết.
Sự chọn lựa cách biểu diễn thích hợp cho một vùng ảnh chỉ mới là một
phần trong việc chuyển đổi dữ liệu ảnh thô sang một dạng thích hợp hơn cho
các xử lý về sau. Chúng ta còn phải đưa ra một phương pháp mô tả dữ liệu đã
được chuyển đổi đó sao cho những tính chất cần quan tâm đến sẽ được làm nổi
bật lên, thuận tiện cho việc xử lý chúng. Trong xử lý ảnh, thuật ngữ
mô
tả
hay
trích
chọn
đặc
trưng
đề cập đến sự rút trích từ ảnh những đặc trưng cần thiết
6
dẫn đến sự hình thành các thông tin định lượng liên quan đến những đặc trưng
đó.
Bước cuối cùng trong sơ đồ đã nêu ra ở hình 1.1 là
nhận
dạng
và
giải
thích
. Nhận dạng là công đoạn gán nhãn cho một đối tượng dựa trên thông tin
do bộ mô tả của đối tượng đó cung cấp. Giải thích là công việc gán nghĩa cho
một tập các đối tượng đã dược nhận biết.
Trong hình 1.1 có đề cập đến “cơ sở tri thức” và mối tương tác giữa “cơ
sở tri thức” và các bước xử lý. Tri thức về một không gian bài toán sẽ được mã
hoá vào trong một hệ xử lý ảnh dưới dạng cơ sở dữ liệu tri thức. Tri thức được
đề cập đến có thể chỉ đơn giản là sự chi tiết hoá các vùng trong ảnh, nơi được
biết trước là sẽ có những thông tin đáng quan tâm để tìm ra lời giải cho bài
toán, do vậy giúp hệ thống thu hẹp phạm vi tìm kiếm và giúp cho hệ thống tìm
ra lời giải nhanh hơn. Ngoài mục đích hướng dẫn cách thức làm việc phù hợp
cho mỗi bước xử lý ảnh, cơ sở tri thức còn có thể giúp điều khiển mối tương tác
giữa các bước xử lý với nhau. Trong hình 1.1, sự tương tác này được thể hiện
thông qua các mũi tên hai chiều thay vì các mũi tên một chiều dùng để liên kết
bước xử lý này với một bước xử lý tiếp sau. Sự mô tả như trong sơ đồ chỉ ra
rằng các bước xử lý thường liên lạc với nhau trên cơ sở tri thức biết trước về
dạng của kết quả mà chúng cần phải tạo ra.
Ngoài những bước đã nêu trên, trong các hệ thống xử lý ảnh còn có một
công việc nữa đó là hiển thị ảnh, cũng là một bài toán phức tạp. Yêu cầu hiển
thị ảnh có thể được đưa ra ở bất kỳ một bước xử lý nào trong sơ đồ ở hình 1.1.
Một vấn đề nữa là không phải ứng dụng xử lý ảnh nào cũng cần phải thực hiện
đầy đủ tất cả các bước đã nêu, ví dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật
chỉ dừng lại ở bước tiền xử lý. Một cách tổng quát thì những chức năng xử lý
bao gồm cả nhận dạng và giải thích thường chỉ có mặt trong những hệ thống
7
phân tích ảnh tự động hoặc bán tự động, được dùng để rút trích ra những thông
tin quan trọng từ ảnh, ví dụ như các ứng dụng nhận dạng ký tự.
1.3
Giới
thiệu
sơ
lược
về
phân
đoạn
ảnh
(image
segmentation)
Hình dáng của một đối tượng có thể được miêu tả hoặc bởi các tham số
của đường biên hoặc các tham số của vùng mà nó chiếm giữ. Sự miêu tả hình
dáng dựa trên thông tin đường biên yêu cầu việc phát hiện biên. Sự mô tả hình
dáng dựa vào vùng đòi hỏi việc phân đoạn ảnh thành một số vùng đồng nhất.
Như vậy, phát hiện biên và phân vùng là hai cách tiếp cận đối ngẫu trong việc
phân tích ảnh. Các vùng ảnh yêu cầu phải có các đặc tính đồng nhất giúp phân
biệt được từng vùng. Các đặc tính này tạo nên các vectơ đặc trưng để phân biệt
một vùng với các vùng khác.
8
CHƯƠNG
2
:
PHƯƠNG
PHÁP
PHÂN
ĐOẠN
ẢNH
DỰA
VÀO
NGƯỠNG
BIÊN
ĐỘ
2.1
Giới
thiệu
Một
đặc
tính
đơn
giản
nhưng
rất
hữu
ích
của
ảnh
đó
là
biên
độ
của
các
tính
chất
vật
lý
của
ảnh,
như:
độ
phản
xạ,
độ
truyền
sáng,
màu
sắc
hoặc
đáp
ứng
đa
phổ.
Do
đó,
khi
biên
độ
là
đặc
tính
đặc
trưng
cho
ảnh,
ta
có
thể
dùng
ngưỡng
biên
độ
để
phân
đoạn
ảnh.
Thí
dụ,
biên
độ
trong
bộ
cảm
biến
hồng
ngoại
có
thể
phản
ánh
vùng
có
nhiệt
độ
thấp
hay
vùng
có
nhiệt
độ
cao.
2.2
Phân
đoạn
ảnh
dựa
vào
ngưỡng
cố
định
Phương
pháp
đầu
tiên
là
chọn
một
ngưỡng
độc
lập
với
dữ
liệu
ảnh.
Nếu
chúng
ta
biết
trước
là
chương
trình
ứng
dụng
sẽ
làm
việc
với
những
ảnh
có
độ
tương
phản
rất
cao,
trong
khi
đó,
các
đối
tượng
quan
tâm
rất
tối
còn
nền
gần
như
đồng
nhất
và
rất
sáng,
thì
giá
trị
ngưỡng
không
đổi
bằng
128
trên
thang
độ
sáng
từ
0
đến
255
sẽ
là
một
giá
trị
ngưỡng
rất
tốt,
tức
là
số
điểm
ảnh
bị
phân
lớp
sai
là
cực
tiểu.
2.3
Chọn
ngưỡng
dựa
trêm
lược
đồ
(histogram)
Trong
hầu
hết
các
trường
hợp,
ngưỡng
được
chọn
từ
lược
đồ
độ
sáng
của
vùng
hay
ảnh
cần
phân
đoạn.
Có
rất
nhiều
kỹ
thuật
chọn
ngưỡng
tự
động
xuất
phát
từ
lược
đồ
xám
{h[b]
|
b
=
0,
1,
,
2
B
-1}
đã
được
đưa
ra.
Tuy
nhiên
các
thuật
toán
làm
trơn
cần
phải
cẩn
thận,
không
Kết
quả
của
bước
phân
đoạn
ảnh
thường
được
cho
dưới
dạng
dữ
liệu
điểm
được
làm
dịch
chuyển
các
vị
trí
đỉnh
của
lược
đồ.
Nhận
xét
này
dẫn
đến
thuật
toán
làm
trơn
dưới
đây:
h
smooth
[
b
]
1
W
(
W
1)
/
2
h
raw
w
(
W
1)
/
2
[
b
w
]
W
lÎ
(2.2)
9
Trong đó, W thường được chọn là 3 hoặc 5.
2.3.1
Thuật
toán
đẳng
liệu
Đây là kỹ thuật chọn ngưỡng theo kiểu lặp do Ridler và Calvard đưa ra.
Trước hết, lược đồ sẽ được phân đoạn thành hai phần bằng một giá trị ngưỡng
khởi động như 0=2
B-1
, tức là bằng phân nửa thang độ xám động của ảnh. Sau
đó, các trung bình mẫu (mf,0) của những điểm ảnh thuộc đối tượng và (mb,0) của
những điểm ảnh nền sẽ được tính toán. Một giá trị ngưỡng mới 1 sẽ được tính
kế đó bằng cách lấy giá trị trung bình của hai trung bình mẫu nói trên. Quá trình
này cứ thế sẽ được tiếp tục với ngưỡng mới cho đến khi nào giá trị ngưỡng
không thay đổi nữa thì dừng lại.
2.3.2
Thuật
toán
đối
xứng
nền
Đỉnh cực đại maxp tìm được nhờ tiến hành tìm giá trị cực đại trong lược
đồ. Sau đó thuật toán sẽ được áp dụng ở phía không phải là điểm ảnh thuộc đối
tượng ứng với giá trị cực đại đó nhằm tìm ra giá trị độ sáng a ứng với giá trị
phần trăm p% mà: P(a) = p%, trong đó P(a) là hàm phân phối xác suất về độ
sáng được định nghĩa như sau:
Định nghĩa: [Hàm phân phối xác suất về độ sáng]
Hàm phân phối xác suất P(a) thể hiện xác suất chọn được một giá trị độ
sáng từ một vùng ảnh cho trước, sao cho giá trị này không vượt quá một giá trị
sáng cho trước a. Khi a biến thiên từ -
đến +
, P(a) sẽ nhận các giá trị từ 0
đến 1. P(a) là hàm đơn điệu không giảm theo a, do vậy dP/da
0
2.3.3
Thuật
toán
tam
giác
Thuật toán này làm như sau: Nối đường thẳng từ điểm Hmax của lược đồ
(điểm có histogram lớn nhất, có mức xám bmax) đến điểm Hmin của lược đồ
10
(điểm
ứng
với
độ
sáng
nhỏ
nhất
b
min
).
Với
mỗi
độ
sáng
b
trong
khoảng
[b
max,
b
min
],
chúng
ta
đi
tính
khoảng
cách
d
từ
điểm
H
b
của
lược
đồ
(ứng
với
giá
trị
độ
sáng
b)
đến
.
Giá
trị
b
0
ứng
với
khoảng
cách
d
lớn
nhất
sẽ
được
chọn
làm
giá
trị
ngưỡng
T.
2.3.4
Chọn
ngưỡng
đối
với
Bimodal
Histogram
Ngưỡng
T
được
chọn
ở
tại
vị
trí
cực
tiểu
địa
phương
của
histogram
nằm
giữa
hai
đỉnh
của
histogram.
Điểm
cực
đại
địa
phương
của
histogram
có
thể
dễ
dàng
được
phát
hiện
bằng
cách
sử
dụng
biến
đổi
chóp
mũ
(top
hat)
do
Meyer
đưa
ra:
Phụ
thuộc
vào
tình
huống
chúng
ta
đang
phải
làm
việc
là
với
nhưng
đối
tượng
sáng
trên
nền
tối
hay
đối
tượng
tối
trên
nền
sáng
mà
phép
biến
đổi
top
hat
sẽ
có
một
trong
hai
dạng
sau:
a/
Các
đối
tượng
sáng:
TopHat
(
A
,
B
)
A
(
A
B
)
A
max(min
(
A
))
B
B
b/
Các
đối
tượng
tối:
TopHat
(
A
,
B
)
A
(
A
B
)
A
min
(max(
A
))
B
B
(2.5)
(2.6)
Việc
tính
toán
giá
trị
cực
tiểu
địa
phương
của
histogram
thì
khó
nếu
histogram
nhiễu.
Trong
một
số
ứng
dụng
nhất
định,
cường
độ
của
đối
tượng
hay
nền
thay
đổi
khá
chậm.
Trong
trường
hợp
này,
histogram
ảnh
có
thể
không
chứa
hai
thuỳ
phân
biệt
rõ
ràng,
vì
vậy
có
thể
phải
dùng
ngưỡng
thay
đổi
theo
không
gian.
Hình
ảnh
được
chia
thành
những
khối
hình
vuông,
histogram
và
ngưỡng
được
tính
cho
mỗi
khối
tương
ứng.
Nếu
histogram
cục
bộ
không
phải
là
bimodal
histogram
thì
ngưỡng
được
tính
bằng
cách
nội
suy
ngưỡng
của
các
khối
láng
giềng.
Khi
ngưỡng
cục
bộ
đã
có
thì
áp
dụng
thuật
toán
phân
ngưỡng
ở
hình
2.1
cho
khối
này.
11
2.4
Phương
pháp
sử
dụng
entropy
Entropy là một phép đo nội dung của ảnh.
2.5
Phương
pháp
sử
dụng
tập
mờ
(fuzzy
set)
Bước đầu tiên là xác định hàm thành viên hay xác suất thuộc đối tượng
hoặc xác suất thuộc nền của từng điểm ảnh ứng với một sự phân ngưỡng ban
đầu cho trước.
Sau khi có được các giá trị trên, để tối thiểu hoá tính mờ, ta thử tất cả các
giá trị ngưỡng t có thể và chọn giá trị sinh ra độ mờ nhỏ nhất làm ngưỡng cần
tìm.
trích ra những thông tin quan trọng từ ảnh, ví dụ như các ứng dụng nhận
dạng ký tự.
12
CHƯƠNG
3:
PHƯƠNG
PHÁP
PHÂN
ĐOẠN
ẢNH
THEO
MIỀN
ĐỒNG
NHẤT
3.1
Giới
thiệu
Kỹ thuật phân đoạn ảnh thành các miền đồng nhất dựa vào các thuộc tính
quan trọng nào đó của miền. Mỗi một thuộc tính khi sử dụng thì có một tiêu
chuẩn phân đoạn tương ứng. Một số thuộc tính tiêu biểu là: mức xám, màu sắc
(đối với ảnh màu), kết cấu sợi
Có ba cách tiếp cận chủ yếu trong phân vùng ảnh theo miền đồng nhất và
độc lập với tiêu chuẩn lựa chọn tính đồng nhất:
- Phương pháp phân tách – cây tứ phân (split – quad trees)
- Phương pháp hợp (merge).
- Phương pháp tách - hợp ( split – merge).
3.2
Phương
pháp
tách
cây
tứ
phân
(quad
tree)
Phương pháp này kiểm tra tính hợp thức của tiêu chuẩn đồng nhất một
cách tổng thể trên miền lớn. Nếu tiêu chuẩn được thoả việc phân đoạn coi như
kết thúc. Trong trường hợp ngược lại ta chia miền đang xét thành 4 miền nhỏ
hơn, ta lại áp dụng đệ quy bằng phương pháp trên cho mỗi miền nhỏ hơn cho
đến khi tất cả các miền đều thoả mãn.
3.3
Các
phương
pháp
tách
bởi
hợp
Ý tưởng của phương pháp này là xem xét ảnh từ các miền nhỏ nhất rồi
hợp chúng lại nếu thoả tiêu chuẩn để được một miền đồng nhất lớn hơn. Ta lại
tiếp tục với miền thu được cho đến khi không thể hợp được nữa. Số miền còn
lại cho ta kết quả phân đoạn ảnh. Miền nhỏ nhất của bước xuất phát là điểm
ảnh. Việc hợp 2 vùng được thực hiện theo nguyên tắc sau:
13
- Hai vùng phải đáp ứng tiêu chuẩn, như cùng màu hay cùng mức xám.
- Chúng phải kế cận nhau
3.4
Phương
pháp
tách
hợp
(split-merge)
Trước tiên dùng phương pháp tách để tạo nên cây tứ phân, phân đoạn
theo hướng từ gốc đến lá. Tiếp theo tiến hành duyệt cây theo chiều ngược lại và
hợp các vùng có cùng tiêu chuẩn. Với phương pháp này ta thu được miêu tả cấu
trúc của ảnh với các miền liên thông có kích thước tối đa
3.4.1
Thuật
toán
tô
màu.
Thuật toán này sử dụng khái niệm 4 liên thông. Người ta dùng một cửa sổ
di chuyển trên ảnh để so sánh với tiêu chuẩn hợp.
3.4.2
Thuật
toán
đệ
quy
cục
bộ.
Thuật toán đệ quy cục bộ sử dụng phương pháp tìm kiếm trong một cây
để làm tăng kích thước vùng. Trước tiên, người ta tìm kiếm các lân cận để tăng
kích thước tối đa của vùng rồi sau đó mới quan tâm đến các vùng khác và cũng
áp dụng thuật toán trên. Thuật toán này sử dụng một thủ tục đệ quy GiaTang để
thực hiện việc tăng kích thước một vùng một cách đệ quy.
3.5
Thuật
toán
tham
lam
dựa
trên
lý
thuyết
đồ
thị.
3.5.1
Giới
thiệu.
Phân đoạn ảnh dựa vào đồ thị là một phương pháp phân đoạn dựa trên
thuộc tính toàn cục (non-local) của ảnh đầu vào. Phương pháp này phát hiện ra
biên giữa hai vùng của ảnh bằng cách so sánh sự khác nhau giữa nội vùng
(inter-component) với sự khác nhau với các vùng khác. Thuật toán phân đoạn
dựa vào đồ thị tuân theo chiến lược tham lam, có thời gian chạy gần như tuyến
tính, nhưng vẫn đảm bảo được việc phân đoạn chính xác và hiệu quả.
14
Phương pháp phân đoạn dựa trên việc chọn các cạnh từ một đồ thị. Đồ thị
này được xây dựng bằng cách coi mỗi điểm ảnh là một đỉnh, hai điểm ảnh kề
nhau thì được nối bởi một cạnh vô hướng, trọng số trên một cạnh thể hiện sự
khác nhau giữa hai điểm ảnh.
Phương pháp phân đoạn dựa vào đồ thị sẽ tìm dấu hiệu đường biên giữa
hai vùng bằng cách so sánh hai đại lượng: một là dựa vào cường độ khác nhau
dọc theo đường biên và hai là dựa vào cường độ khác nhau giữa các điểm ảnh
với mỗi vùng.
3.5.2
Một
số
khái
niệm
lý
thuyết
đồ
thị
và
phân
đoạn
dựa
trên
lý
thuyết
đồ
thị.
3.5.2.1
Các
khái
niệm.
Đồ thị, đường đi và chu trình.
- Đơn đồ thị vô hướng G = (V,E) bao gồm V là tập các đỉnh, và E là tập
các cặp không có thứ tự gồm hai phần tử khác nhau của V gọi là các cạnh.
- Đường đi độ dài n từ đỉnh u đến đỉnh v, trong đó n là số nguyên dương,
trên đồ thị vô hướng G = (V,E) là dãy
x0, x1,…, xn-1, xn
Trong đó u = x0 , v = xn , (xi, xi+1) E, i= 0, 1, 2, …, n-1.
Đường đi nói trên còn có thể biểu diễn dưới dạng dãy các cạnh:
(x0, x1), (x1, x2), …,(xn-1, xn)
Đỉnh u gọi là đỉnh đầu, còn đỉnh v gọi là đỉnh cuối của đường đi. Đường
đi có đỉnh đầu trùng với đỉnh cuối (tức là u = v) được gọi là chu trình. Đường đi
hay chu trình được gọi là đơn nếu như không có cạnh nào bị lặp lại.[10]
b) Đồ thị liên thông.
15
Đồ thị vô hướng G = (V,E) được gọi là liên thông nếu luôn tìm được
đường đi giữa hai đỉnh bất kỳ của nó.
3.5.2.2
Phân
đoạn
dựa
vào
lý
thuyết
đồ
thị
.
Cho G = (V,E) là một đồ thị vô hướng với các đỉnh vi V, là tập hợp các
phần tử cần được phân đoạn và các cạnh (vi ,vj) E, tương ứng với các cặp
đỉnh lân cận nhau. Mỗi cạnh (vi ,vj) E có một trọng số tương ứng, trọng số là
một số không âm đo sự khác nhau giữa hai phần tử lân cận vi và vj, ký hiệu
w(vi,vj). Trong xử lý phân đoạn ảnh V là tập hợp tất cả các điểm ảnh trong bức
ảnh, E là tập hợp các cạnh nối giữa hai điểm ảnh bất kỳ và trọng số của các
cạnh đo sự khác nhau giữa hai điểm ảnh nối bởi cạnh đó.
3.5.3
Cơ
sở
lý
thuyết
của
thuật
toán.
3.5.3.1
Cơ
sở
lý
thuyết.
Thuật toán phân đoạn dựa trên đồ thị gần với thuật toán Kruskal xây dựng
cây tỏa nhánh tối thiểu (hay còn gọi là cây khung nhỏ nhất) của một đồ thị.
3.5.3.2
Tính
chất
của
so
sánh
cặp
miền.
Để có thể dễ dàng nhận biết dấu hiệu của một đường biên giữa hai vùng
trong ảnh, ta định nghĩa một tính chất D. Tính chất này dựa vào độ đo sự khác
nhau giữa các điểm ảnh dọc theo một đường biên của hai thành phần liên quan
(vùng ảnh liên quan) nhằm đo sự khác nhau giữa các điểm ảnh lân cận trong
mỗi thành phần (vùng). Kết quả là so sánh sự khác nhau giữa nội vùng (inter-
component) với sự khác nhau với các vùng khác.
Trước hết, ta định nghĩa độ-khác-nội vùng (internal difference) và độ-
khác-giữa-hai-vùng (difference between two components).
Độ-khác-nội-vùng (internal difference) của một thành phần (vùng) C V
là trọng số lớn nhất trong cây tỏa nhánh tối thiểu của thành phần (vùng) đó, kí
hiệu Int(C). Khi đó:
Dif
(
C
1
,
C
2
)
(3.14)
16
Int
(
C
)
max
w
(
e
)
e
MST
(
C
,
E
)
(3.13)
Độ-khác-giữa-hai-vùng
(difference
between
two
components)
C
1
,
C
2
V,
là
trọng
số
nhỏ
nhất
của
các
cạnh
nối
giữa
hai
điểm
ảnh
của
hai
vùng,
kí
hiệu
là
Dif(C
1
,
C
2
).
Khi
đó:
min
v
i
C
1
,
v
j
C
2
,
(
v
i
,
v
j
)
E
Nếu
không
có
cạnh
nối
nào
giữa
hai
vùng
C
1
và
C
2
thì
đặt
Dif
(
C
1
,
C
2
)
.
3.5.4
Thuật
toán
phân
đoạn
dựa
trên
lý
thuyết
đồ
thị.
Input:
Đồ
thị
G
=
(V,E),
gồm
n
đỉnh
và
m
cạnh.
Output:
Một
phân
đoạn
của
V
thành
các
thành
phần
S
=
(C
1
,
C
2
,…).
Thuật
toán:
-
Bước
0:
Sắp
xếp
các
cạnh
của
G
theo
thứ
tự
không
giảm
của
trọng
số.
(
o
1
,
o
2
, ,
o
m
)
-
Bước
1:
Bắt
đầu
với
phân
đoạn
S
0
,
lúc
này
mỗi
đỉnh
nằm
trong
một
thành
phần.
-
Bước
2:
Lặp
lại
bước
3
với
q
=
1,…,m
-
Bước
3:
Xây
dựng
S
q
từ
S
q-1
như
sau:
Cho
v
i
và
v
j
là
hai
đỉnh
nối
với
nhau
bởi
cạnh
thứ
q,
tức
là
o
q
=
(v
i
,v
j
).
Nếu
v
i
và
v
j
nằm
trong
hai
thành
phần
tách
rời
nhau
của
S
q-1
và
w(o
q
)
nhỏ
hơn
sự
khác-nhau-nội-vùng
của
cả
hai
thành
phần
thì
trộn
hai
thành
phần
này
với
nhau,
ngược
lại
không
làm
gì
cả.
Cụ
thể,
gọi
C
iq-
1
là
thành
phần
của
S
q-1
chứa
v
i
và
C
jq-1
là
thành
phần
của
S
q-1
chứa
v
j
.
Nếu
C
i
q
1
C
qj
1
và
w
(
o
q
)
MInt
(
C
i
q
1
,
C
qj
1
)
thì
S
q
thu
được
từ
S
q-1
bằng
cách
trộn
C
iq-1
với
C
jq-1
.
Ngược
lại
S
q
=
S
q-1
.
-
Bước
4:
Trả
về
kết
quả
S
=
S
m
.
17
CHƯƠNG
4:
PHƯƠNG
PHÁP
PHÂN
ĐOẠN
ẢNH
DỰA
THEO
ĐƯỜNG
BIÊN
4.1
Giới
thiệu.
Biên là một vấn đề chủ yếu trong phân tích ảnh vì các kỹ thuật phân đoạn
ảnh chủ yếu dựa vào biên. Một điểm ảnh có thể coi là biên nếu ở đó có sự thay
đổi đột ngột về mức xám so với các điểm lân cận. Tập hợp các điểm biên tạo
thành biên hay đường bao của ảnh (boundary).
Việc phân đoạn ảnh dựa theo đường biên được tiến hành qua một số
bước:
+ Phát hiện biên và làm nổi biên.
+ Làm mảnh biên.
+ Nhị phân hoá đường biên.
+ Miêu tả đường biên.
4.2
Cơ
sở
lý
thuyết
tách
biên
Tách biên là phương pháp thông dùng nhất để tách theo nghĩa gián
đoạn trong các giá trị cường độ. Sự gián đoạn được tách sử dụng đạo hàm bậc
nhất và đạo hàm bậc hai. Đạo hàm bậc nhất lựa chọn trong xử lý ảnh là gradient
Có nhiều định nghĩa về đường biên, điển hình có ba loại đường biên
chính:
+ Đường biên lý tưởng được định nghĩa là sự thay đổi giá trị cấp xám tại
một vị trí xác định. Vị trí của đường biên chính là vị trí thay đổi cấp xám.
+ Đường biên bậc thang xuất hiện khi sự thay đổi cấp xám trải rộng qua
nhiều điểm ảnh. Vị trí của đường biên được xem như vị trí chính giữa của
đường nối giữa cấp xám thấp và cấp xám cao.
g
(
i
,
j
)
A
0
g
x
(
i
,
j
)
g
y
(
i
,
j
)
18
+
Đường
biên
thực:
Đó
là
sự
thay
đổi
cấp
xám
tại
nhiều
điểm
nhưng
không
trơn.
Định
nghĩa
toán
học
của
biên
ở
trên
là
cơ
sở
cho
các
kỹ
thuật
phát
hiện
biên.
Điểm
quan
trọng
là
biến
thiên
giữa
các
điểm
ảnh
thường
là
nhỏ,
trong
khi
đó
biến
thiên
độ
sáng
của
điểm
biên
(khi
qua
biên)
lại
khá
lớn.
4.2.1
Phương
pháp
gradient
Phương
pháp
gradient
là
phương
pháp
dò
biên
cục
bộ
dựa
vào
cực
đại
của
đạo
hàm.
Gradient
là
một
véctơ
có
các
thành
phần
biểu
thị
tốc
độ
thay
đổi
giá
trị
của
điểm
ảnh
theo
hai
hướng
x
và
y.
Trong
phương
pháp
gradient,
người
ta
chia
nhỏ
thành
hai
kỹ
thuật
(tương
ứng
với
hai
toán
tử
khác
nhau):
+
Kỹ
thuật
gradient
dùng
toán
tử
gradient,
lấy
đạo
hàm
theo
một
hướng.
+
Kỹ
thuật
la
bàn
dùng
toán
tử
la
bàn,
lấy
đạo
hàm
theo
tám
hướng:
Bắc,
Nam,
Đông,
Tây,
và
Đông
Bắc,
Tây
Bắc,
Đông
Nam,
Tây
Nam.
4.2.1.1
Kỹ
thuật
gradient
Kỹ
thuật
gradient
sử
dụng
một
cặp
mặt
nạ
H
1
,
H
2
trực
giao
(theo
hai
hướng
vuông
góc).
Gọi:
+
g
x
là
gradient
theo
hướng
x
+
g
y
là
gradient
theo
hướng
y
thì:
-
Biên
độ
của
gradient
tại
điểm
(i,j)
ký
hiệu
là
g(i,j)
được
tính
theo
công
thức:
2
2
(4.5)
19
-
Góc
:
r
(
i
,
j
)
arctan(
g
x
(
i
,
j
)
g
y
(
i
,
j
)
)
(4.6)
4.2.1.1.1.
Toán
tử
biên
sobel
4.2.1.1.2
Toán
tử
biên
prewitt
4.2.1.1.3
Toán
tử
biên
Roberts
4.2.1.2Toán
tử
la
bàn
Toán
tử
la
bàn
đo
gradient
theo
tám
hướng,mỗi
hướng
cách
nhau
45
0
ngược
chiều
kim
đồng
hồ.
4.2.1.3
Toán
tử
laplace
Các
phương
pháp
đánh
giá
gradient
làm
việc
khá
tốt
khi
độ
sáng
thay
đổi
rõ
nét
khi
qua
biên.
Khi
sự
mức
xám
thay
đổi
chậm,
miền
chuyển
tiếp
trải
rộng
thì
phương
pháp
đánh
giá
gradient
tỏ
ra
bớt
hiệu
quả.
Có
một
phương
pháp
hiệu
quả
hơn
trong
trường
hợp
này,
đó
là
phương
pháp
Laplace.
Đó
là
phương
pháp
sử
dụng
đạo
hàm
bậc
hai.
4.3
Làm
mảnh
biên
Làm
mảnh
biên
là
việc
làm
nổi
biên
với
độ
rộng
chỉ
1
pixel.
Trong
phần
trên,
ta
thấy,
kỹ
thuật
Laplace
dùng
trong
việc
phát
hiện
biên
cho
kết
quả
trực
tiếp
biên
ảnh
với
độ
rộng
1
pixel.
Còn
với
các
kỹ
thuật
khác,
ví
dụ
như
kỹ
thuật
Gradient
thì
không
như
vậy,
ta
phải
có
bước
làm
mảnh
biên
để
thu
được
biên
với
độ
rộng
1
pixel.
Khi
thực
hiện
đạo
hàm
một
ảnh,
ta
thu
được
những
điểm
cực
trị
cục
bộ.
Theo
kỹ
thuật
Gradient,
những
điểm
cực
trị
cục
bộ
có
thể
coi
như
biên.
Do
vậy
cần
tách
biệt
những
điểm
cực
trị
đó
để
xác
định
chính
xác
biên
ảnh
và
để
giảm
độ
rộng
biên
ảnh.
Một
trong
những
phương
pháp
hay
dùng
đó
là
phương
pháp
“Loại
bỏ
các
điểm
không
cực
đại”.
20
4.4
Nhị
phân
hoá
đường
biên
Nhị phân hóa đường biên là giai đoạn then chốt trong quá trình trích chọn
vì nó xác định đường bao nào thực sự cần và đường bao nào có thể loại bỏ. Nói
chung, người ta thường nhị phân hóa đường biên theo cách thức làm giảm nhiễu
hoặc tránh hiện tượng kéo sợi trên ảnh. Điều này cũng giải thích tại sao phân
đoạn dựa theo biên có hiệu quả khi ảnh có độ tương phản tốt. Trong trường hợp
ngược lại, có thể sẽ bị mất một phần đường bao hay đường bao có chân, không
khép kín, v.v , do đó sẽ bất lợi cho biểu diễn sau này. Một phương pháp hay
được dùng là chọn ngưỡng thích nghi. Với cách chọn này, ngưỡng sẽ phụ thuộc
vào hướng của gradient nhằm làm giảm sự xoắn của biên. Đầu tiên, người ta
định ra một ngưỡng nào đó và sau đó sử dụng một hệ số sinh thích nghi thông
qua lời giải toán tử đạo hàm theo hướng tìm được để tinh chỉnh.
4.5
Miêu
tả
đường
biên
Khi đã có bản đồ biên ảnh, ta cần phải biểu diễn nó dưới dạng thích hợp
phục vụ cho việc phân tích và làm giảm lượng thông tin dùng để miêu tả, lưu
trữ đối tượng. Người ta thường thực hiện theo nguyên tắc: tách riêng từng biên
và gán cho mỗi biên một mã.
Có nhiều phương pháp miêu tả đường biên khác nhau, mỗi phương pháp
thích hợp với một loại ứng dụng. Việc tách các đường bao có thể phải bổ xung
thêm các điều kiện nhằm loại bỏ các đường bao không khép kín, hoặc bỏ đi các
chân rết bám theo các đường bao kín.
Có nhiều cách mã hóa đường bao, có thể biểu diễn chính xác đường bao
hay xấp xỉ nhờ nội suy. Một số cấu trúc cơ sở mã hóa đường bao thường dùng
là: điểm, đoạn thẳng, cung, đường cong. Có một số phương pháp mã hóa đường
bao hay dùng như: mã hóa theo tọa độ Đề các, mã hóa Freeman, xấp xỉ bởi
đoạn thẳng, xấp xỉ đa thức .
21
4.6
Tách
biên
ảnh
màu
Đơn
vị
tế
bào
của
ảnh
số
là
pixel.
Tùy
theo
mỗi
định
dạng
là
ảnh
màu
hay
ảnh
xám
mà
từng
pixel
có
thông
số
khác
nhau.
Đối
với
ảnh
màu
từng
pixel
sẽ
mang
thông
tin
của
ba
màu
cơ
bản
tạo
ra
bản
màu
khả
kiến
là
Đỏ
(R),
Xanh
lá
(G)
và
Xanh
biển
(B)
[Thomas
1892].
Trong
mỗi
pixel
của
ảnh
màu,
ba
màu
cơ
bản
R,
G
và
B
được
bố
trí
sát
nhau
và
có
cường
độ
sáng
khác
nhau.
Thông
thường,
mổi
màu
cơ
bản
được
biểu
diễn
bằng
tám
bit
tương
ứng
256
mức
độ
màu
khác
nhau.
Như
vậy
mỗi
pixel
chúng
ta
sẽ
có
2
8
3
=
2
24
màu
(khoảng
16.78
triệu
màu).
Đối
với
ảnh
xám,
thông
thường
mỗi
pixel
mang
thông
tin
của
256
mức
xám
(tương
ứng
với
tám
bit)
như
vậy
ảnh
xám
hoàn
toàn
có
thể
tái
hiện
đầy
đủ
cấu
trúc
của
một
ảnh
màu
tương
ứng
thông
qua
tám
mặt
phẳng
bit
theo
độ
xám.
Trong
hầu
hết
quá
trình
xử
lý
ảnh,
chúng
ta
chủ
yếu
chỉ
quan
tâm
đến
cấu
trúc
của
ảnh
và
bỏ
qua
ảnh
hưởng
của
yếu
tố
màu
sắc.
Do
đó
bước
chuyển
từ
ảnh
màu
thành
ảnh
xám
là
một
công
đoạn
phổ
biến
trong
các
quá
trình
xử
lý
ảnh
vì
nó
làm
tăng
tốc
độ
xử
lý
là
giảm
mức
độ
phức
tạp
của
các
thuật
toán
trên
ảnh.
Một
ảnh
RGB
có
thể
được
xem
như
là
sự
sắp
xếp
của
ba
ảnh
mức
xám
mà
khi
cho
vào
các
ngõ
red,
green
và
blue
của
một
màn
hình
màu
sẽ
tạo
ra
một
ảnh
màu
trên
màn
hình
Trong
hệ
RGB,
các
điểm
ảnh
màu
được
tạo
từ
ba
ảnh
xám
tương
ứng
là
đỏ
-
lục
–
lam
.
Cách
chọn
tỷ
lệ
ba
màu
tạo
ra
các
màu
khác
nhau.
Mô
hình
màu
là
mô
hình
toán
học
trừu
tượng
mô
tả
cách
biểu
diễn
màu
dưới
dạng
một
bộ
số
Mô
hình
màu
là
phương
pháp
cho
phép
định
nghĩa
màu
để
lưu
giữ
ảnh
màu
22
Các mô hình màu cơ bản:
RGB –
(
Red
–
Green
–
Blue
)
HSV
–
(
Hue
–
Saturation
–
Value
)
CMY –
(
Cyan
–
Magenta
–
Yellow
)
…
là mô hình dùng cho hiển thị ảnh màu
Mọi điểm ảnh đều được biểu diễn từ ba màu cơ bản: Đỏ
(Red
)
,
Lục
(Blue
),
Lam
(Green)
Gradient được tính theo các mặt nạ của sobel, prewitt, Roberts, laplace …
là một trong những phương pháp thường dung để tách biên ảnh xám. Phương
pháp đó có thể ứng dụng trong 2D nhưng không mở rộng được cho không gian
có chiều lớn hơn. Để sử dụng được với các ảnh RGB la tính gradient của mỗi
thành phần màu rồi sau đó kết hợp với các kết quả.
23
CHƯƠNG
5:
KẾT
QUẢ
VÀ
ĐÁNH
GIÁ
THỰC
NGHIỆM
Tôi đã tiến hành cài đặt một số thuật tón phân đoạn ảnh được trình bày
trong luận văn. Các thuật toán quen thuộc sử dụng ngưỡng cố định, phát hiện
biên, thuật toán đẳng liệu,… được cài đặt bằng ngôn ngữ C++. Ngoài ra, để
minh hoạ phương pháp sử dụng phương pháp đồ thị, tôi đã tiến hành cài đặt
theo đúng thuật toán đã trình bày, kết quả thực nghiệm cho thấy phương pháp
này hiệu quả hơn các phương pháp cổ điển . Thuật toán chạy nhanh hơn và
phân đoạn của bức ảnh tương đối chính xác.