Tải bản đầy đủ (.pdf) (90 trang)

Nghiên cứu phương pháp nhận dạng hình dạng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.64 MB, 90 trang )


B
B




g
g
i
i
á
á
o
o


d
d


c
c


v
v
à
à



đ
đ
à
à
o
o


t
t


o
o


T
T
r
r




n
n
g
g



đ
đ


i
i


h
h


c
c


b
b
á
á
c
c
h
h


k
k
h
h

o
o
a
a


H
H
à
à


n
n


i
i


-
-
-
-
-
-
-
-
-
-

-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-

-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-

-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-













L
L
u
u


n
n


v
v
ă
ă
n
n


t
t
h
h


c
c



s
s
ĩ
ĩ


k
k
h
h
o
o
a
a


h
h


c
c






N
N

g
g
h
h
i
i
ê
ê
n
n


c
c


u
u


p
p
h
h


ơ
ơ
n
n

g
g


p
p
h
h
á
á
p
p


n
n
h
h


n
n


d
d


n
n

g
g


h
h
ì
ì
n
n
h
h


d
d


n
n
g
g









N
N
g
g
à
à
n
n
h
h
:
:


x
x




l
l
ý
ý


t
t
h
h

ô
ô
n
n
g
g


t
t
i
i
n
n


v
v
à
à


t
t
r
r
u
u
y
y



n
n


t
t
h
h
ô
ô
n
n
g
g


M
M




s
s


:
:



4
4
2
2
1
1






đ
đ
i
i
n
n
h
h


t
t
h
h





k
k
i
i
m
m


p
p
h
h




n
n
g
g













N
N
g
g




i
i


h
h




n
n
g
g


d
d



n
n


k
k
h
h
o
o
a
a


h
h


c
c
:
:


T
T
.
.

S
S
.
.


N
N
g
g
u
u
y
y


n
n


k
k
i
i
m
m


a
a

n
n
h
h


















H
H
à
à


n
n



i
i


2
2
0
0
0
0
6
6


- 2 -











Lời cam đoan


Tôi xin cam đoan bản luận văn này là kết quả nghiên cứu của bản thân dới
sự hớng dẫn của TS. Nguyễn Kim Anh. Nếu có gì sai phạm, tôi xin hoàn toàn
chịu trách nhiệm.


Ngời làm cam đoan





Đinh Thị Kim Phợng






- 3 -

Mục Lục

Lời cam đoan..........................................................................................................2
Mục Lục .................................................................................................................3
Danh Mục Các từ viết tắt........................................................................................6
Danh mục hình vẽ...................................................................................................7
Lời nói đầu .............................................................................................................9
Chơng 1:Tổng quan về tìm kiếm ảnh dựa trên hình dạng .Error! Bookmark not
defined.
1.1. Giới thiệu...................................................................................................12

1.2. Trích chọn đặc trng..................................................................................13
1.2.1.Biến đổi Fourier...................................................................................12
1.2.1.1.Chuỗi Fourier....................................................................................13
1.2.1.2. Sự hội tụ của chuỗi Fourier..............................................................14
1.2.1.3. Biến đổi Fourier...............................................................................14
1.2.1.4. Biến đổi Fourier rời rạc ...................................................................15
1.2.1.5. Biến đổi Fourier hai chiều ...............................................................16
1.2.1.6. Phạm vi của biến đổi Fourier...........................................................16
1.2.2. Không gian độ chia (Scale space).......................................................17
1.2.2.1. Cơ sở ................................................................................................17
1.2.2.2. Không gian độ chia Gaussian..........................................................19
1.2.2.3. Phạm vi của sự không tạo các đặc trng mới ..................................19
1.2.2.4. Không gian độ chia mâu thuẫn với việc đa quyết định ...................20
1.2.3.Thảo luận .............................................................................................22
1.3. Phép đo tơng đơng và thực hiện phép đo...............................................22
1.3.1. Phép đo sự giống nhau........................................................................23
1.3.1.1. Không gian phép đo khoảng cách (Distance Metric Spaces) .........24
1.3.1.2. Khoảng cách dạng Minkowski ........................................................24
1.3.1.3. Khoảng cách Cosin..........................................................................24
1.3.1.4. Thông tin thống kê
2

...................................................................25
1.3.1.5. Đờng giao biểu đồ .........................................................................25
- 4 -

1.3.1.6. Khoảng cách bậc hai........................................................................26
1.3.1.7. Khoảng cách Mahalanobis ..............................................................27
1.3.2.Thực hiện phép đo ...............................................................................27
1.3.2.1. Độ nhạy và độ chính xác(RPP). ......................................................28

1.3.2.2. Tỷ lệ trọng số thành công (PWH- Percentage of Weighted Hits)...28
1.3.2.3. Phần trăm của thứ bậc giống nhau (PSR-Percentage of Similarity
Ranking ) ......................................................................................................29
1.3.2.4. Thảo luận .........................................................................................30
1.3.3. Trích chọn đặc trng hình dạng..........................................................30
1.4. Thảo luận...................................................................................................32
Chơng 2
Phơng pháp tách contrario .................................................................33
2.1. Cluster có thứ bậc và đánh giá giá trị........................................................34
2.1.1.Giá trị nhóm Contrario ........................................................................34
2.1.1.1. Cơ sở:...............................................................................................34
2.1.1.2. Nhóm có ý nghĩa. ............................................................................35
2.1.2. Tiêu chuẩn kết hợp tốt nhất. ...............................................................37
2.1.3. Vấn đề tính toán .................................................................................40
2.1.3.1. Lựa chọn vùng thử. ..........................................................................40
2.1.3.2. Riêng rẽ và cực đại. .........................................................................42
2.2.1. Nhiễu điểm .........................................................................................43
2.2.2. Phân đoạn ...........................................................................................43
2.3. Kết cấu nhóm và không gian tơng ứng....................................................46
2.3.1. Tại sao phải tách kết cấu không gian. ................................................46
2.3.2. Đối sánh nhân tố hình dạng................................................................47
2.3.3. Biến đổi mô tả.....................................................................................49
2.3.3.1. Trờng hợp tơng đồng ...................................................................49
2.3.3.2. Trờng hợp biến đổi mối quan hệ ...................................................50
2.3.4. Cluster có ý nghĩa của biến đổi ..........................................................52
2.3.4.1. Phép đo sự không tơng đơng giữa các biến đổi...........................52
2.3.4.2 Phơng thức nền ...............................................................................52
2.3.4.3. Kỹ thuật nhóm .................................................................................54
2.4. Thảo luận...................................................................................................55
Chơng 3:

Phơng pháp ra quyết định Contrario..................................................56
3.1. Một quyết định Contrario ......................................................................58
3.1.1. Phơng pháp hình dạng trái ngợc phơng pháp nền ........................58
3.1.2. Phơng thức quyết định Contrario......................................................59
3.1.3. Ước lợng xác suất cảnh báo sai........................................................61
- 5 -

3.1.4. Luật ra quyết định Contrario ..............................................................61
3.2. Tự động thiết lập ngỡng khoảng cách .................................................62
3.2.1. Số các cảnh báo sai NFA....................................................................62
3.2.2. Đối sánh có ý nghĩa............................................................................63
3.2.3. Ngỡng nhận dạng tơng ứng với ngữ cảnh.......................................64
3.2.4. Tại sao quyết định Contrario ..............................................................65
3.3. Xây dựng đặc trng độc lập thống kê....................................................66
3.4.Chuẩn hóa nhân tố hình dạng từ ảnh cho đặc trng độc lập...................68
3.4.1. Biểu diễn hình dạng bằng các mức đờng..........................................68
3.4.2.Tiêu chuẩn hóa và mã hóa bán cục bộ.................................................70
3.4.2.1. Mã hóa / Tiêu chuẩn hóa trị không đổi tơng đơng ......................71
3.4.2.2. Mã hóa / Chuẩn hóa quan hệ bất biến .............................................73
3.4.3. Từ chuẩn hóa nhân tố hình dạng đến đặc trng độc lập.....................73
3.5. Thảo luận ...............................................................................................76
Chơng 4Thử nghiệm...........................................................................................78
4.1. Thử nghiệm phơng pháp nền...................................................................78
4.2. Thử nghiệm phơng pháp Contrario..........................................................80
4.2.1. Hai ảnh không quan hệ với nhau........................................................80
4.2.2. Méo dạng quan sát xa gần ..................................................................81
4.2.3. Quan hệ với sự nghẽn cục bộ và thay đổi độ tơng phản...................83
Kết luận ................................................................................................................88
Tài liệu tham khảo................................................................................................89
Tóm tắt luận văn...................................................................................................90













- 6 -

Danh Môc C¸c tõ viÕt t¾t

STT Tõ viÕt t¾t
ý nghÜa
1 CBIR Content Based Image Retrieval
2 FD Fourie Descriptor
3 FFT Fast Fourie Transform
4 CSDL C¬ së d÷ liÖu
5 NFA Number of Fasle Alarm
6 PFA Pridicion Fasle Alarm
7 FT Fourie Transform
8 NFA
g
NFA of region
9 NFA
gg

NFA of region-region
10 Pro Proposition
11 PFA Probability of False Alarm











- 7 -

Danh mục hình vẽ

Hình 1.1: Đối tợng bị làm nhiễu bởi biến đổi phổ. ............................................13
Hình 1.2: ảnh và các biến đổi khác .....................................................................13
Hình 1.3: Điểm qua 0 tại vị trí x và độ chia t của tín hiệu ...................................20
Hình 1.4: (a) Khoảng cách Ocolit, .......................................................................25
(b) khoảng cách Cosin, (c) khoảng cách L1.........................................................25
Hình 1:a) ảnh ký tự,b) mức đờng tơng ứng, c) Đoạn mức đờng ...................31
Hình 2.2: Nhóm dữ liệu 950 điểm đồng dạng......................................................37
Hình 2.5: Vấn đề quan trọng của phân bố phơng thức nền................................43
Hình 2.6: Phân đoạn ảnh đã scan và 71 đờng mức có mức ý nghĩa cực đại. .....44
Hình 2.7: Nhóm với mối quan hệ tới hớng.........................................................45
Hình 2.8: Nhóm trong không gian(toạ độ x, hớng)............................................46
Hình 2.9: Thử nghiệm Guernica...........................................................................48

Hình 2.10: Thử nghiệm Guernica quan hệ tơng ứng ý nghĩa không đổi ......49
Hình 2.11: Hai đoạn mức đờng và khung tơng ứng .........................................50
Hình 2.12: Thử nghiệm Guernica ...................................................................51
Hình 3.1: Trích chọn mức đờng có ý nghĩa.......................................................70
Hình 3.3: Mã hoá sự không đổi tơng đơng bán cục bộ ....................................73
Hình 3.4 : Mã hóa bán cục bộ mối quan hệ không đổi. . .....................................74
Hình 3.5 : Mã hóa hình dạng bán cục bộ quan hệ bất biến..................................75
- 8 -

Hình 3.6: Mã hoá sự tơng đồng không đổi.........................................................76
Hình 4.1: ảnh và mức đờng có ý nghĩa .............................................................80
Hình 4.2: Thử nghiệm hitchcook..........................................................................82
Hình 4.3: Phơng pháp nhận dạng bán cục bộ quan hệ không đổi......................83
Hình 4.4: Phơng pháp nhận dạng quan hệ bán cục bộ không đổi......................83
Hình 4.5 Phơng pháp nhận dạng bán cục bộ .....................................................84
Hình 4.6: Tập các đoạn đờng mức đối sánh với ảnh trong CSDL......................85
Hình 4.7: Phơng pháp bán cục bộ tơng đồng không đổi..................................85
Hình 4.8: ảnh gốc và mức đờng có ý nghĩa.......................................................86
Hình 4.9: ảnh Menima và mức đờng có ý nghĩa...............................................86




















- 9 -

Lời nói đầu

Ngày nay thông tin nói chung sử dụng trong ảnh là phổ biến. Rất nhiều
lĩnh vực sử dụng ảnh nh một công cụ để thực hiện công việc.
Những năm gần đây, chứng kiến tốc độ gia tăng mạnh của ảnh số trên toàn
thế giới, bởi sự gia tăng mạnh mẽ của các trạm làm việc tại mặt đất cũng nh
trạm vệ tinh, khó khăn trong lu trữ, chi phí cao cho xử lý và internet. Sự đa dạng
các ứng dụng của ảnh góp phần ra đời thế hệ ảnh số. Các ứng dụng của ảnh bao
gồm: giải trí số, th viện số, giáo dục và World Wide Web (www). Các ứng dụng
ngày càng trở nên phụ thuộc vào việc sử dụng ảnh gốc. Lợi ích trớc mắt của ảnh
số gồm cả mặt xã hội và thơng mại. Sử dụng ảnh gốc giúp sáng tạo sản phẩm
mới, tiết kiệm thời gian và tiền bạc. Tuy nhiên, độ lớn của kho lu trữ ảnh số trên
toàn thế giới có giới hạn, sự tận dụng ảnh số từ CSDL hiện tại khó hơn. Điều này
là vì thiếu cách đánh chỉ mục và quản lý ảnh số chuẩn.
Thông thờng các ảnh đợc lu trữ trong CSDL sử dụng dới dạng các
thông tin thuộc tính. Thuận lợi của việc đánh chỉ mục thuộc tính ảnh: nó có thể
cung cấp cho ngời sử dụng từ khoá tìm kiếm lớt qua mục lục, thậm chí thông
qua giao diện truy vấn; ví dụ nh ngôn ngữ truy vấn cấu trúc (SQL). Tuy nhiên,
nhìn từ bên ngoài có hạn chế; một trong những hạn chế đó là thời gian tính toán
khi CSDL lớn, nó dờng nh không thể chú giải thủ công tất cả các ảnh. Mặt

khác các đặc trng thị giác của ảnh rất khó mô tả bằng từ ngữ một cách khách
quan, có một tiêu điểm mới trên việc phát triển công nghệ đánh chỉ mục ảnh, đó
là khả năng tìm kiếm ảnh dựa trên ngữ cảnh: nó có thể độc lập và có thể tự động
hoá. Các công nghệ hiện tại đa phần qui về tìm kiếm ảnh dựa trên ngữ nghĩa
(CBIR). CBIR đợc giới thiệu nh phần bổ xung cho việc tiến tới đánh chỉ mục
thuộc tính truyền thống, nó là cần thiết để cấu thành CSDL multimedia. Vì những
- 10 -

tiềm năng ứng dụng rộng rãi của nó, CBIR đã thu hút đợc số lợng lớn các chú
ý trong những năm gần đây (KAT 92, NIB 93, YOS 99).
Trong CBIR, ảnh trong CSDL là dữ liệu không cấu trúc, ảnh số hoàn toàn
chỉ bao gồm mảng các pixel độ chói, không có ý nghĩ vốn có. Một trong những
chìa khoá bắt nguồn CBIR là sự cần thiết để trích chọn thông tin hữu ích từ dữ
liệu thô, để phản ánh ngữ nghĩa ảnh. Vì vậy việc trích chọn hiệu quả các đặc
trng ngữ nghĩa đó là điều cốt yếu sự thành công của CBIR. Nghiên cứu trên
những yêu cầu của ngời sử dụng đối với ảnh từ bộ su tập ảnh biểu thị những
đặc trng nguyên thuỷ đó nh màu sắc, kết cấu, hình dạng hoặc hỗn hợp của
chúng là rất hữu ích đối với việc mô tả và khôi phục ảnh (EAK 99). Những đặc
trng này là khách quan và trực tiếp bắt nguồn từ tự bản thân ảnh mà không cần
tham khảo bất kỳ một kiến thức cơ bản nào từ bên ngoài. Vì vậy đặc trng
nguyên thuỷ của ảnh ở mức thấp có thể đợc bắt nguồn và khai thác để khuyến
khích việc CBIR tự động hoá.
*Đối tợng nghiên cứu
Từ các thông tin cơ bản trên đây các ảnh trong CSDL có thể đợc đánh chỉ
mục bằng cách sử dụng thông tin thuộc tính hoặc thông tin ngữ nghĩa. Ngữ nghĩa
của ảnh có thể đợc mô tả sử dụng các đặc trng nguyên thuỷ; ví dụ: màu sắc,
cấu trúc, hình dạng hoặc tổ hợp của chúng. Kết quả nghiên cứu này chấp nhận
tiến tới CBIR, đó là việc đánh chỉ mục và tìm kiếm ảnh bằng ngữ nghĩa của ảnh.
Đặc biệt, việc tìm kiếm hội tụ ở việc đánh chỉ mục và tìm kiếm ảnh dựa trên hình
dạng. Mục đích chủ yếu của cách tìm kiếm này là tìm kiếm và khai thác hình

dạng rất khả thi để tìm kiếm và nhận dạng hình dạng. Điều tra các công nghệ và
phát triển trong nghiên cứu này có thể là trực tiếp ứng dụng cho các ứng dụng
đặc thù; ví dụ tìm kiếm nhãn mác, nhận dạng đối tợng hoặc có thể hợp nhất
trong bất cứ hệ thống CBIR nào để dễ dàng nhận dạng hình dạng sử dụng các đặc
trng hỗn hợp của ảnh.
- 11 -

Nhận dạng nói chung hội tụ các vấn đề của nhận dạng trực quan dựa trên
thông tin hình dạng hình học. Phơng pháp nhận dạng hình dạng thờng bao
gồm 3 tiến trình: trích chọn đặc trng, đối sánh (cốt lõi của tiến trình này là định
nghĩa 1 khoảng cách hoặc phép đo sự tơng đồng giữa các đặc trng hình dạng
đợc mô tả) và ra quyết định. Phần này chủ yếu nghiên cứu vấn đề ra quyết định
cho đối sánh hình dạng, đặc biệt trong khung chung giữa hai hình dạng giống
nhau để đối sánh, nó có thể đi tới quyết định nh thế nào? Mục đích để định
nghĩa tiêu chuẩn thống kê dẫn tới quyết định 2 hình dạng là giống hay không.
Nghiên cứu các tiến trình thực hiệnnhận dạng hình dạng theo trình tự các
công đoạn: từ công đoạn sơ khai biểu diễn ảnh, trích chọn đặc trng, tách nhóm
nhân tố hình dạng thành 1 hình dạng và chủ yếu là phơng pháp ra quyết định
Contrario cho nhận dạng hình dạng.
*Cấu trúc luận văn
Chơng 1 : Tổng quan về tìm kiếm ảnh dựa trên hình dạng
Chơng 2: Tách nhóm
Chơng 3: Phơng pháp Contrario cho nhận dạng hình dạng
Chơng 4: Thử nghiệm

Do thời gian và khả năng có hạn nên luận văn này sẽ còn nhiều thiếu sót. Rất
mong đợc sự góp ý và thông cảm của các thầy giáo, cô giáo.

Hà nội, ngày 6 tháng 11 năm 2006
Học viên



Đinh Thị Kim Phợng
- 12 -

Chơng 1
Tổng quan tìm kiếm ảnh
dựa trên hình dạng

1.1. Giới thiệu
Vấn đề cơ bản của tìm kiếm ảnh dựa trên hình dạng là phép đo sự tơng
đồng giữa các các hình dạng đợc mô tả bởi các đặc trng của chúng. Vì vậy, hai
bớc cần thiết trong tìm kiếm và nhận dạng ảnh dựa trên hình dạng đó là trích
chọn đặc trng và phép đo tơng đơng giữa các đặc trng đã đợc trích chọn.
Hai công cụ cơ bản cần thiết đợc sử dụng trong trích chọn đặc trng hình
dạng là biến đổi Fourier và không gian độ chia. Mặc dù trích chọn đặc trng là
mấu chốt để tìm kiếm ảnh dựa trên hình dạng và nhận dạng hình dạng, phép đo
sự tơng đồng giữa các đặc trng đợc trích chọn cũng rất quan trọng. yêu cầu
hiệu quả tìm kiếm ảnh đó là nhận biết nhanh các hình dạng tơng đồng - sự
tơng đồng trong giới hạn của các đặc trng đợc trích chọn.
1.2. Công cụ trích chọn đặc trng
Biến đổi Fourie là một công cụ kinh điển. Nó đã đợc sử dụng từ nhiều
năm nay trong mọi hệ thống xử lý tín hiệu và hệ thống máy tính. Còn không gian
độ chia là một công cụ mới đang đợc chú ý gần đây.
1.2.1.Biến đổi Fourier
Biến đổi Fourie là mấu chốt trong xử lý ảnh nó đợc ứng dụng rộng rãi
trong lý thuyết cũng nh trong thực tế. Nguyên tắc cơ bản của biến đổi Fourie đó
là một đối tợng đợc coi nh một tín hiệu và nh vậy có thể biểu diễn đối tợng
thành các thành phần cơ bản của tín hiệu. Biến đổi Fourie rất hữu ích cho phân
tích các đối tợng khác nhau: có thể đối tợng bị làm nhiễu bởi biến đổi phổ

- 13 -

(Hình 1.1), trong khi các đối tợng tơng đơng khác sẽ có biến đổi phổ tơng
tự thậm chí cả khi chúng bị ảnh hởng bởi nhiễu và các biến đổi khác(hình 1.2).

Hình 1.1: Đối tợng bị làm nhiễu bởi biến đổi phổ.
Hình 1.2: ảnh và các biến đổi khác
1.2.1.1.Chuỗi Fourier
Đặt f(x) là hàm tuần hoàn chu kỳ 2 và nguyên trong một chu kỳ, theo lý
thuyết Fourie f(x) có thể khai triển thành chuỗi fourie nh sau:
(1.1)
(1.2)
- 14 -


Với chu kỳ T:

1.2.1.2. Sự hội tụ của chuỗi Fourier
Nếu một hàm f(x) là tuần hoàn và nguyên trong chu kỳ của nó thì sẽ tồn
tại chuỗi Fourie nhng không đảm bảo chắc chắn rằng chuỗi Fourie sẽ hội tụ tới
f(x). Tuy nhiên theo điều kiện Fourie Dirichcle phần lớn hoặc các lớp chung của
hàm có thể biểu diễn bằng chuỗi Fourie. Điều kiện chuỗi Fourie Dicrichcle nếu
là một đoạn hàm f(x) liên tục :
1. Giới hạn số các điểm không liên tục
2. Giới hạn các điểm cực trị.
Hàm này có thể mở rộng thành chuỗi Fourie hội tụ tại các điểm liên tục và
ý nghĩa của điểm giới hạn thực và giới hạn ảo của hàm tại điểm giới hạn:
Đối với tín hiệu số hoặc đối tợng số điều kiện Dirichcle đợc chứng minh
vì vậy nó có thể đợc biểu diễn bởi chuỗi Fourie:
1.2.1.3. Biến đổi Fourier

(1.3)
(1.4)
(1.5)
(1.6)
- 15 -

Nếu hàm f(x) có thể biểu diễn bằng chuỗi Fourie của nó. Sau đó f(x) đợc
xác định duy nhất bởi hệ số C
n
. Ngợc lại nếu hệ số C
n
của chuỗi Fourie của hàm
đã biết trớc thì f(x) có thể đợc xây dựng lại từ tập C
n
. Chuỗi Fourie thiết lập
mối quan hệ duy nhất giữa f(x) và hệ số C
n
. Biểu diễn theo công thức :
Tơng ứng công thức:

1.2.1.4. Biến đổi Fourier rời rạc
Biến đổi Fourie đặc biệt hữu ích đối với phân tích đối tợng số vì đối tợng
số tồn tại ở dạng rời rạc. Để biến đổi công thức 1.7 và 1.8 thành dạng rời rạc, f(x)
đợc lấy N mẫu trong chu kỳ [0, T]
f(x
0
); f(x
0
+x); f(x
0

+2x); f(x
0
+(N-1)x)
x gọi là bớc lấy mẫu trong phạm vi không gian xem xét
f(x) biểu diễn thành:
Bớc lấy mẫu u trong miền tần số và bớc lấy mẫu x trong miền không
gian có quan hệ theo biểu thức :

(1.7)
(1.8)
(1.9)
(1.10)
- 16 -

Mối quan hệ này dễ thay đổi chỉ rõ sự chính xác của biểu diễn đối tợng
trong miền không gian và trong miền tần số là ngợc với nhau. Chú ý, khi bố trí
một tập dữ liệu khác thì chúng không thể biến đổi độc lập với nhau. Điều này cần
lu ý khi trích chọn đặc trng trong miền không gian lấy mẫu đối tợng.
1.2.1.5. Biến đổi Fourier hai chiều
Đối với hàm hai biến f(x,y) xác định 0 x, y N. Cặp biến đổi Fourie là:
Mặc dù, số lợng F(u,v) từ biến đổi Fourie của biểu thức là rất lớn nhng
số lợng F(u,v) có ích là rất bé. Đây là lý do biểu diễn đối tợng trong miền tần
số tốt hơn (Hệ số có nghĩa ít). Điều này thực sự hữu ích trong nhiều ứng dụng đặc
biệt trong việc phân tích hình dạng vì nó có thể xấp xỉ ý nghĩa của đối tợng gốc
f(x,y) hoặc f(x) có thể xây dung từ F(u,v) nhỏ. Đây là vấn đề cơ bản của xử lý tín
hiệu Fourie và phân tích đối tợng Fourie.
1.2.1.6. Phạm vi của biến đổi Fourier
Biến đổi Fourie tuân theo phạm vi hữu ích của việc phân tích đối tợng
Sự riêng rẽ: Biến đổi Fourie rời rạc (1.11) có thể mô tả riêng rẽ nh
sau:

Lợi ích của việc riêng rẽ này đó là F(u,v) có thể thu đợc trong 2 bớc
bằng cách sử dụng liên tiếp biến đổi Fourie 1 chiều. FT 1 chiều có thể
đợc tính toán sử dụng biến đổi Fourie nhanh FFT.
Biến đổi: Biến đổi phạm vi của FT
(1.11)
(1.12)
(1.13)
(1.14)
- 17 -

Điều này chỉ ra: 1 sự thay đổi trong miền không gian sẽ dẫn đến sự thay
đổi trong miền tần số.
Phép quay: Nếu gắn vào hệ toạ độ cực

Sau đó thay thế vào biểu thức có :
Điều này có nghĩa việc quay f(x,y) trong miền không gian góc
0
cũng
tơng ứng việc quay F(u,v) một góc tơng tự trong miền tần số.
Độ chia: đối với hai hệ số a, b, phạm vi độ chia của FT đợc viết nh
sau:
Điều này chỉ ra rằng: độ chia của f(x,y) với a và b theo x,y trong miền
không gian tỷ lệ nghịch với biên độ F(U,V) trong miền tần số. Điều này cũng
giảm bớt hệ số F(u,v) bởi 1/a và 1/b theo u, v trong miền tần số. Tổng quát,
phóng to một đối tợng ảnh trong miền tần số sẽ làm nổi mức tần số thấp trong
miền không gian trong khi việc thu nhỏ đối tợng trong ảnh sẽ làm tăng vùng tần
số cao trong miền không gian.
1.2.2. Không gian độ chia (Scale space)
Đối với FT thì không gian độ chia là công cụ khá mới trong phân tích đối
tợng. Nó đã đợc phát triển trong các hệ thống tính toán. Phần này sẽ giới thiệu

không gian độ chia tuyến tính và phạm vi quan trọng của nó.
1.2.2.1. Cơ sở
Lý thuyết không gian độ chia giúp ta quan sát các đối tợng trong các độ
chia khác nhau và các đối tợng chỉ có ý nghĩa duy nhất theo độ chia chính. Một
ví dụ đơn giản nếu là ảnh một sự vật thì dù có là độ chia 1m hay 1cm thì ý nghĩa
của sự vật không thay đổi. Trong vật lý các đối tợng tồn tại trong sự sắp xếp độ
(1.15)
(1.16)
- 18 -

chia. Các dụng cụ quan sát nh camera các dụng cụ này có thể quan sát cũng là
một sự sắp xếp độ chia. Để mở rộng các độ chia tơng ứng với sự phóng to hay
thu nhỏ nhờ các dụng cụ quan sát. Độ chia của một dụng cụ luôn có hai giới hạn:
độ chia giúp phân biệt chi tiết ảnh tốt nhất và kém nhất và khi quan sát sự vật thì
độ chia nằm trong khoảng giới hạn hai phía này.
Để tính toán bất kỳ dạng biểu diễn nào từ dữ liệu ảnh, thông tin cần đợc
trích chọn bằng cách sử dụng toán tử nào đó với dữ liệu. Các toán tử tơng tự nh
ống kính máy quay sử dụng để mô tả thế giới thực. Một vài vấn đề đặt ra khi đề
cập tới các toán tử đó đợc sử dụng nh thế nào, thực hiện ở đâu và thực hiện
công việc ra sao, độ lớn nh thế nào. Nh vậy thông tin thu đợc xác định rất
phong phú thông qua mối quan hệ của các cấu trúc thực tế trong dữ liệu và kích
cỡ của toán tử.
Độ chia gần đúng khi phân tích đối tợng có thể biết trớc. Tuy nhiên
trong phần lớn các vấn đề thì điều này không quan trọng. Lý do chính để xây
dựng không gian độ chia đó là nếu có kiến thức biết trớc về không gian độ chia
thích hợp lấy từ tập CSDL có nhiều độ chia thì không gian độ chia sẽ đợc áp
dụng để thu gọn công thức tính toán thích hợp.
Việc sử dụng các hàm làm trơn nhiễu Gauss tại các độ chia khác nhau đã
đợc áp dụng trong phân tích ảnh cho thấy mối liên hệ giữa các độ chia khác
nhau với cấu trúc ảnh và không gian độ chia là có giới hạn. Tuy nhiên độ chia

kích thớc hoàn toàn có thể thêm vào trong không gian miêu tả đối tợng vì các
cấu trúc có thể đợc nghiên cứu thông qua độ chia. Đặc biệt khi gắn vào tín hiệu
f(x):
RR
N

và 1 tập liên tục
( ){ }
0/, ttxL
làm mịn dần dần (có nghĩa là việc
nhân chập tín hiệu f(x) với một hàm liên tục g(x,t))

() () ()
)17.1(,, xftxgtxL =

ở đây g(x,t) là hàm làm mịn hoặc hàm mặt nạ, l(x,t) là tín hiệu đợc làm
mịn, * là phép nhân chập. Với tín hiệu liên tục thì f(x)đợc khai triển nh sau:
(1.18)
- 19 -


1.2.2.2. Không gian độ chia Gaussian
Hàm Gausss là hàm mặt nạ hữu ích nhất cho không gian độ chia tổng quát
nhất. Mang tới một tín biệu f(x):
RR
N

là mô tả độ chia L:
RRR
t

N
ì
đợc
định nghĩa nh một mô tả tại độ chia 0 đối với tín hiệu gốc
() ()
19.10, xfxL =


Và sự miêu tả độ chia kém hơn mang lại bằng phép nhân chập với mặt nạ
Gauss khi đó kích thớc ảnh tăng lên:

1.2.2.3. Phạm vi của sự không tạo các đặc trng mới
Phạm vi quan trọng nhất trong không gian độ chia đó là sự không tạo các
đặc trng mới. Có nghĩa là sự biến đổi từ một độ chia tốt sang một độ chia xấu
hơn sẽ thiết lập một tín hiệu đơn giản hơn, vì thế đặc trng trong không gian độ
chia mất tính đơn điệu khi độ chia gia tăng. Nó là nguyên nhân làm ảnh hởng
tới tín hiệu và làm mờ ảnh hởng đối với tín hiệu hai chiều.
(1.20)
(1.21)
(1.22)
- 20 -

Hình 1.3: Điểm qua 0 tại vị trí x và độ chia t của tín hiệu
Các đặc trng hữu ích đặc biệt tại điểm qua 0 của đạo hàm bậc thứ n. Thực
tế đạo hàm bậc hai của tín hiệu đợc sử dụng trong phân tích đối tợng, bởi đạo
hàm bậc hai phản ánh điểm uốn cong của tín hiệu. Điểm cong (một đặc trng
hữu ích đối với phân tích đối tợng). Điểm qua 0 của đạo hàm bậc hai là điểm
uốn cong đó là đặc trng cho góc lồi ra của đối tợng. Với tín hiệu một chiều,
điều đó đợc áp dụng với không gian độ chia Gauss. Điểm qua 0 của tín hiệu tại
tất cả các độ chia gọi là lấy dấu hoặc cây khoảng cách. (hình 1.3 b). Bởi phạm vi

không sáng tạo của đặc trng mới, việc làm mịn cuối cùng của tín hiệu đợc bảo
đảm. Vì vậy chiều cao của cây khoảng cách là có giới hạn. Witkin(Wit 83) giải
thích cây khoảng cách này với kinh nghiệm quan sát, cành cây trong cây khoảng
cách tơng ứng với vị trí lồi ra của đối tợng. ASA 84: đầu tiên trích chọn đỉnh từ
cây khoảng cách thu đợc và giải thích chúng nh các đặc trng vật lý( nh góc,
điểm nối, điểm kết thúc, điểm đặc biệt) Mok96 cũng trích chọn đỉnh từ cây
khoảng cách thu đợc và đề nghị việc sử dụng các đặc trng đỉnh thông thờng
cho tìm kiếm hình dạng. Hoàn toàn có thể áp dụng không gian độ chia để biểu
diễn hình dạng.
1.2.2.4. Không gian độ chia mâu thuẫn với việc đa quyết định
Trong phân tích đối tợng hai phơng pháp phân tích có thứ bậc thờng
đợc sử dụng: một là phơng pháp không gian độ chia, phơng pháp khác cây
quyết định, ví dụ nh phơng pháp hình chóp và phơng pháp sóng. Hai phơng
pháp này khác nhau: điểm khác biệt chính của hai công cụ thể hiện ở 3 khía
cạnh:
+Lấy mẫu không nhất quán, chống lại việc lấy mẫu các không gian
khác. Biểu diễn không gian độ chia đợc định nghĩa bằng việc làm mịn và lu
giữ các mẫu không gian giống nhau tại tất cả các độ chia. Trong khi lấy mẫu
không gian đa quyết định tại các độ chia khác nhau là khác nhau. Đối tợng
- 21 -

chính của đa quyết định là giảm bớt lấy mẫu từ một độ chia tới các độ chia cao
hơn, vì thế quá trình xử lý tín hiệu có thể hiệu quả hơn.
+Tơng quan độ chia đối nghịch với sự phân ly độ chia, phơng
pháp đa quyết định không khai thác điểm khác biệt của cấu trúc thông qua độ
chia. Các kết quả tính toán tại mỗi một độ chia đợc sử dụng duy nhất để hớng
dẫn tính toán tại độ chia tiếp theo nhỏ hơn và đợc loại bỏ một khi điều này đợc
hoàn thành. Chỉ thực hiện thuật toán tại một độ chia và tại một thời điểm. Phơng
pháp không gian độ chia chính là việc phân tích độ chia nh một phần cần thiết
của quá trình phân tích sự quan sát và nhận dạng. Phạm vi các phép đo tại các độ

chia khác nhau có thể có cơ sở vững chắc phụ thuộc nhiệm vụ chứa trong nó.
Bằng định nghĩa, giới thiệu không gian độ chia mang đến một giải pháp cho việc
phổ biến lợng bù sai, điều đó có nghĩa các đặc trng ở các độ chia khác nhau có
thể liên quan tới những đặc trng khác một cách rõ ràng.
+Lấy mẫu độ chia liên tục chống lại việc lấy mẫu độ chia cố định.
Giữa các phơng pháp không gian độ chia và phơng pháp đa quyết định đó là sự
miêu tả đa quyết định chấp nhận một bớc lấy mẫu cố định trong độ chia hoặc
quyết định đó không bị suy giảm, trong khi phơng pháp độ chia phân tích tín
hiệu tại độ chia liên tục. Vì vậy nhiệm vụ của việc tìm đặc trng qua độ chia dễ
dàng hơn trong không gian độ chia so với việc miêu tả đa quyết định. Sự tinh xảo
của lấy mẫu độ chia có thể thực hiện khi có yêu cầu.
Sự khác biệt các đặc trng của hai loại phơng pháp xác định ở cách ứng
dụng của chúng. Phơng pháp không gian độ chia thờng đợc sử dụng cho phân
tích và tìm hiểu tín hiệu, trong khi phơng pháp đa quyết định thờng đợc sử
dụng cho mã hoá. Nó cũng cần thiết để kết hợp phơng pháp không gian độ chia
với phơng pháp đa độ chia. Phơng pháp đa độ chia đợc chú ý hơn đa quyết
định trong điều kiện phân tích hoặc miêu tả tín hiệu tại một độ chia tại một thời
điểm. Nó không khai thác khái niệm phân tích, miêu tả tín hiệu ở độ chia liên
- 22 -

tục. Mối tơng quan tác động cấu trúc tín hiệu thông qua độ chia làm mất ý
nghĩa của phơng pháp đa độ chia.
1.2.3.Thảo luận
ở phần trên, hai công cụ phân tích: Biến đổi Fourier và không gian độ chia
đã đợc mô tả và thảo luận. Phạm vi quan trọng của hai công cụ này đã đợc
phân tích và chọn lọc. Biến đổi Fourier miêu tả một đối tợng sử dụng các thành
phần cơ bản của các tính chất khác nhau. Không gian độ chia quan sát một đối
tợng với vector cơ bản có chiều khác nhau (các số chiều của vector khác nhau).
Thông tin phổ thu đợc từ biến đổi Fourier có thể đợc sử dụng trực tiếp
cho việc mô tả hoặc miêu tả đối tợng. Trong khi thông tin trong không gian đo

đạc thu đợc từ không gian độ chia cần thiết sự giải thích sâu xa hơn trớc khi sử
dụng mô tả đối tợng. Sự giải thích thông tin không gian độ chia vẫn còn là thách
thức. Điều đó rất quan trọng để làm lẫn lộn giữa giải thích đối tợng và mô tả đối
tợng tại đa độ chia với giải thích đối tợng và mô tả đối tợng trong không gian
độ chia, đây là một vấn đề rất khó.
Trong các dạng của thông tin thu đợc, biến đổi Fourier thu đợc thông tin
đối tợng với hệ số tần số thấp, trong khi miêu tả thông tin đối tợng thu đợc
với hệ số rất cao. Đối với không gian độ chia, thông tin đối tợng chung có thể
đợc giải thích từ độ chia cao hơn, trong khi thông tin mô tả đối tợng có thể
đợc giải thích từ độ chia thấp hơn.
Sức mạnh của hai công cụ cho phân tích đối tợng là rất rõ ràng. Nó đợc
biết đến đó là phân tích đối tợng hoặc trích chọn đặc trng trong miền không
gian là rất khó vì vấn đề nhiễu và các đối tợng thay đổi. Những vấn đề này có
thể dễ dàng vợt qua bởi việc phân tích đối t
ợng trong miền phổ hoặc trong
miền không gian độ chia. Cả hai phơng pháp chấp nhận việc phân tích đối tợng
tăng dần tính chi tiết. Bằng việc loại trừ hoặc bỏ qua những chi tiết tinh tế nhất
trong một đối tợng. Đối tợng có thể đợc biểu diễn và thể hiện hiệu quả hơn.
- 23 -

Từ cách nhìn nhận này, không gian độ chia xử lý tơng tự với biến đổi Fourier.
Tuy nhiên trong không gian độ chia, những chi tiết của đối tợng đợc dịch
chuyển trong miền tần số.
1.3. Phép đo tơng đồng và thực hiện các phép đo
Đối với việc tìm kiếm ảnh dựa trên hình dạng và các đặc trng ảnh đợc
trích chọn thờng là vector đặc trng N chiều, nó có thể đợc đề cập tới nh một
điểm trong không gian N chiều. Một bức ảnh đợc đánh chỉ mục trong cơ sở dữ
liệu sử dụng các vector đặc trng đợc trích chọn. Việc tìm kiếm ảnh thực chất là
việc xác định sự giống nhau giữa ảnh truy vấn và các ảnh mục tiêu trong cơ sở dữ
liệu mà thực chất là sự xác định khoảng cách giữa các vector đặc trng miêu tả

hình ảnh. Sự đo đạc khoảng cách mong muốn cần phải tham chiếu với nhận thức
của ngời. Vì vậy, đối với một đặc trng hình dạng dẫn tới sự chính xác của việc
tìm kiếm ảnh cao hơn, phép đo khoảng cách tốt hơn. Đối với việc tìm kiếm ảnh
trực tuyến thì hiệu quả cần phải đợc xem xét khi lựa chọn một phép đo khoảng
cách. Nhiều phép đo khoảng cách khác đã đợc khai thác trong việc tìm kiếm
ảnh, chúng bao gồm khoảng cách các khối trung tâm (SWA91);(STR95); khoảng
cách Ơcơlit (VOO88); khoảng cách Cosin(VOO 88), khoảng cách giao nhau của
biểu đồ histoogram, hai khoảng cách thống kê(RUB99), khoảng cách bậc hai
(NiB93, DEN99, WOL96, SEI97) và khoảng cách Mahalanobis(TRE71,
SMI97). Trong mục này, một vài phép đo khoảng cách sẽ đợc mô tả và ớc
lợng. Mục đích của việc ớc lợng này để tìm ra một phép đo tơng đồng sự
mong đợi cho các bộ mô tả ớc lợng hình dạng khác nhau. Để biết tìm kiếm ảnh
tốt nh thế nào, cần phải có một phép đo khả thi. Nói chung, thực hiện các phép
đo đo đợc sự chính xác của việc tìm kiếm ảnh. Tuy nhiên, phụ thuộc vào sự xác
định độ chính xác khác nhau, có các phép đo sự thực hiện khác nhau.
1.3.1. Phép đo sự giống nhau
- 24 -

Một phép đo tơng đồng thờng đợc định nghĩa nh một phép đo khoảng
cách. Trong phần này mô tả chi tiết các phép đo sự giống nhau khác nhau.
1.3.1.1. Không gian phép đo khoảng cách
Một không gian R
N
là một không gian phép đo nếu cho bất kỳ hai phần tử
X và Y của nó, ở đó tồn tại một số thực d(x,y) gọi là khoảng cách thoả mãn các
thuộc tính sau:
(1) d(x,y)

0 {Không phủ định}
(2) d(x,y) = 0 nếu x = y {Tính đồng nhất}

(3) d(x,y) = d(y,x) {Tính đối xứng}
(4) d(x,z)
<
d(x,y) + d(y,z) {Bất đẳng thức trong tam giác} (1.23)
1.3.1.2. Khoảng cách dạng Minkowski
Khoảng cách dạng Minkowski đợc định nghĩa dựa trên tiêu chuẩn Lp:
() ( )
)24.1(,
1
1
0
p
N
i
p
iip
TQTQd






=


=

ở đây Q = {Q
0

, Q
1
,.Q
N-1
} là vector đặc trng truy vấn
T = {T
0
, T
1
, .T
N-n
} là vector đặc tính tơng ứng
Khi p = 1; d
1
(Q,T) là khoảng cách khối trung tâm hoặc khoảng cách
Manhattan (L
1
).
() ( )
)25.1(,
1
0
1



=
N
i
ii

TQTQd

Khi p = 2; d
2
(Q,T) gọi là khoảng cách Ơcơlit (L
2
)

() ( )
)26.1(,
2
1
1
0
2
2






=



N
i
ii
TQTQd


Khi p ta có L


L

(Q,T) = max {(Q
i
- T
i
)} ; 0

i

N (1.27)
1.3.1.3. Khoảng cách Cosin
- 25 -

Khoảng cách Cosin tính toán sự khác nhau về phơng hớng mà không để
ý tới chiều dài vector. Khoảng cách này thu đợc từ việc đo góc giữa hai vector.
Bằng qui tắc tích vô hớng:

cos.... TQTQTQ
t
==


()
)28.1(
.

.
1cos1,
cos
TQ
TQ
TQd
t
==


Hình 1.4: (a) khoảng cách Ocolit,
(b) khoảng cách Cosin, (c) khoảng cách L
1


Nh có thể thấy: khoảng cách Ơcơlit có đợc tính đến cả góc lẫn chiều dài
vector để tính toán. Trong khi khoảng cách Cosin chỉ tính đến góc đó khi tính
toán. Nh kết quả: Q
1
và Q sẽ có khoảng cách giống nh đối với T.
d
cos
(Q, T) = d
cos
(Q
1
, T) .
Khoảng cách tính toán d
1
giữa mỗi kích thớc của vector đặc trng (hình 1.4)

1.3.1.4. Thông tin thống kê
2



2

(thông tin thống kê) đợc định nghĩa nh sau:

()
( )
)29.1(,
1
0
2
2


=

=
N
i
i
ii
m
mQ
TQd

;

2
ii
i
TQ
m
+
=

Chất lợng các phép đo này là việc phân bố không chắc chắn nh từ các
biểu diễn thông dụng bởi các kết quả khác (RMB 99).
1.3.1.5. Đờng giao biểu đồ

×