Tải bản đầy đủ (.pdf) (45 trang)

nghiên cứu phương pháp nhận dạng hình dạng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.65 MB, 45 trang )

-2Bộ giáo dục và đào tạo
Trờng đại học bách khoa Hà nội
---------------------------------------------

Luận văn thạc sĩ khoa học

Lời cam đoan

Nghiên cứu phơng pháp nhận
dạng hình dạng

Tôi xin cam đoan bản luận văn này là kết quả nghiên cứu của bản thân dới
sự hớng dẫn của TS. Nguyễn Kim Anh. Nếu có gì sai phạm, tôi xin hoàn toàn
chịu trách nhiệm.

Ngành: xử lý thông tin và truyền thông
M số: 421

Ngời làm cam đoan

đinh thị kim phợng

Đinh Thị Kim Phợng
Ngời hớng dẫn khoa học: T.S. Nguyễn kim anh

Hà nội 2006


-3-

Mục Lục



Lời cam đoan .......................................................................................................... 2
Mục Lục ................................................................................................................. 3
Danh Mục Các từ viết tắt........................................................................................ 6

-4-

1.3.1.6. Khoảng cách bậc hai........................................................................26
1.3.1.7. Khoảng cách Mahalanobis ..............................................................27
1.3.2.Thực hiện phép đo ...............................................................................27
1.3.2.1. Độ nhạy và độ chính xác(RPP). ......................................................28
1.3.2.2. Tỷ lệ trọng số thành công (PWH- Percentage of Weighted Hits) ...28
1.3.2.3. Phần trăm của thứ bậc giống nhau (PSR-Percentage of Similarity
Ranking ) ......................................................................................................29
1.3.2.4. Thảo luận .........................................................................................30
1.3.3. Trích chọn đặc trng hình dạng..........................................................30
1.4. Thảo luận...................................................................................................32

Danh mục hình vẽ................................................................................................... 7

Chơng 2 Phơng pháp tách contrario .................................................................33

Lời nói đầu ............................................................................................................. 9

2.1. Cluster có thứ bậc và đánh giá giá trị........................................................34
2.1.1.Giá trị nhóm Contrario ........................................................................34
2.1.1.1. Cơ sở:...............................................................................................34
2.1.1.2. Nhóm có ý nghĩa. ............................................................................35
2.1.2. Tiêu chuẩn kết hợp tốt nhất. ...............................................................37
2.1.3. Vấn đề tính toán .................................................................................40

2.1.3.1. Lựa chọn vùng thử. ..........................................................................40
2.1.3.2. Riêng rẽ và cực đại. .........................................................................42
2.2.1. Nhiễu điểm .........................................................................................43
2.2.2. Phân đoạn ...........................................................................................43
2.3. Kết cấu nhóm và không gian tơng ứng....................................................46
2.3.1. Tại sao phải tách kết cấu không gian. ................................................46
2.3.2. Đối sánh nhân tố hình dạng................................................................47
2.3.3. Biến đổi mô tả.....................................................................................49
2.3.3.1. Trờng hợp tơng đồng ...................................................................49
2.3.3.2. Trờng hợp biến đổi mối quan hệ ...................................................50
2.3.4. Cluster có ý nghĩa của biến đổi ..........................................................52
2.3.4.1. Phép đo sự không tơng đơng giữa các biến đổi. ..........................52
2.3.4.2 Phơng thức nền ...............................................................................52
2.3.4.3. Kỹ thuật nhóm .................................................................................54
2.4. Thảo luận...................................................................................................55

Chơng 1:Tổng quan về tìm kiếm ảnh dựa trên hình dạng .Error! Bookmark not
defined.
1.1. Giới thiệu...................................................................................................12
1.2. Trích chọn đặc trng..................................................................................13
1.2.1.Biến đổi Fourier...................................................................................12
1.2.1.1.Chuỗi Fourier....................................................................................13
1.2.1.2. Sự hội tụ của chuỗi Fourier..............................................................14
1.2.1.3. Biến đổi Fourier...............................................................................14
1.2.1.4. Biến đổi Fourier rời rạc ...................................................................15
1.2.1.5. Biến đổi Fourier hai chiều ...............................................................16
1.2.1.6. Phạm vi của biến đổi Fourier...........................................................16
1.2.2. Không gian độ chia (Scale space).......................................................17
1.2.2.1. Cơ sở ................................................................................................17
1.2.2.2. Không gian độ chia Gaussian..........................................................19

1.2.2.3. Phạm vi của sự không tạo các đặc trng mới ..................................19
1.2.2.4. Không gian độ chia mâu thuẫn với việc đa quyết định ...................20
1.2.3.Thảo luận .............................................................................................22
1.3. Phép đo tơng đơng và thực hiện phép đo...............................................22
1.3.1. Phép đo sự giống nhau........................................................................23
1.3.1.1. Không gian phép đo khoảng cách (Distance Metric Spaces) .........24
1.3.1.2. Khoảng cách dạng Minkowski ........................................................24
1.3.1.3. Khoảng cách Cosin..........................................................................24
1.3.1.4. Thông tin thống kê ...................................................................25
1.3.1.5. Đờng giao biểu đồ .........................................................................25
2

Chơng 3:Phơng pháp ra quyết định Contrario..................................................56
3.1. Một quyết định Contrario ......................................................................58
3.1.1. Phơng pháp hình dạng trái ngợc phơng pháp nền ........................58
3.1.2. Phơng thức quyết định Contrario......................................................59
3.1.3. Ước lợng xác suất cảnh báo sai ........................................................61


-5-

3.1.4. Luật ra quyết định Contrario ..............................................................61
3.2. Tự động thiết lập ngỡng khoảng cách .................................................62
3.2.1. Số các cảnh báo sai NFA ....................................................................62
3.2.2. Đối sánh có ý nghĩa ............................................................................63
3.2.3. Ngỡng nhận dạng tơng ứng với ngữ cảnh.......................................64
3.2.4. Tại sao quyết định Contrario ..............................................................65
3.3. Xây dựng đặc trng độc lập thống kê....................................................66
3.4.Chuẩn hóa nhân tố hình dạng từ ảnh cho đặc trng độc lập...................68
3.4.1. Biểu diễn hình dạng bằng các mức đờng..........................................68

3.4.2.Tiêu chuẩn hóa và mã hóa bán cục bộ.................................................70
3.4.2.1. Mã hóa / Tiêu chuẩn hóa trị không đổi tơng đơng ......................71
3.4.2.2. Mã hóa / Chuẩn hóa quan hệ bất biến .............................................73
3.4.3. Từ chuẩn hóa nhân tố hình dạng đến đặc trng độc lập.....................73
3.5. Thảo luận ...............................................................................................76
Chơng 4Thử nghiệm ...........................................................................................78
4.1. Thử nghiệm phơng pháp nền...................................................................78
4.2. Thử nghiệm phơng pháp Contrario..........................................................80
4.2.1. Hai ảnh không quan hệ với nhau ........................................................80
4.2.2. Méo dạng quan sát xa gần ..................................................................81
4.2.3. Quan hệ với sự nghẽn cục bộ và thay đổi độ tơng phản...................83
Kết luận ................................................................................................................88
Tài liệu tham khảo................................................................................................89
Tóm tắt luận văn...................................................................................................90

-6-

Danh Mục Các từ viết tắt

STT

Từ viết tắt

ý nghĩa

1

CBIR

Content Based Image Retrieval


2

FD

Fourie Descriptor

3

FFT

Fast Fourie Transform

4

CSDL

Cơ sở dữ liệu

5

NFA

Number of Fasle Alarm

6

PFA

Pridicion Fasle Alarm


7

FT

Fourie Transform

8

NFAg

NFA of region

9

NFAgg

NFA of region-region

10

Pro

Proposition

11

PFA

Probability of False Alarm



-7-

Danh mục hình vẽ

-8-

Hình 3.6: Mã hoá sự tơng đồng không đổi.........................................................76
Hình 4.1: ảnh và mức đờng có ý nghĩa .............................................................80

Hình 1.1: Đối tợng bị làm nhiễu bởi biến đổi phổ. ............................................13

Hình 4.2: Thử nghiệm hitchcook..........................................................................82

Hình 1.2: ảnh và các biến đổi khác .....................................................................13

Hình 4.3: Phơng pháp nhận dạng bán cục bộ quan hệ không đổi......................83

Hình 1.3: Điểm qua 0 tại vị trí x và độ chia t của tín hiệu ...................................20
Hình 1.4: (a) Khoảng cách Ocolit, .......................................................................25
(b) khoảng cách Cosin, (c) khoảng cách L1.........................................................25
Hình 1:a) ảnh ký tự,b) mức đờng tơng ứng, c) Đoạn mức đờng ...................31
Hình 2.2: Nhóm dữ liệu 950 điểm đồng dạng......................................................37
Hình 2.5: Vấn đề quan trọng của phân bố phơng thức nền................................43
Hình 2.6: Phân đoạn ảnh đã scan và 71 đờng mức có mức ý nghĩa cực đại. .....44
Hình 2.7: Nhóm với mối quan hệ tới hớng.........................................................45
Hình 2.8: Nhóm trong không gian(toạ độ x, hớng)............................................46
Hình 2.9: Thử nghiệm Guernica...........................................................................48
Hình 2.10: Thử nghiệm Guernica quan hệ tơng ứng ý nghĩa không đổi ......49

Hình 2.11: Hai đoạn mức đờng và khung tơng ứng .........................................50
Hình 2.12: Thử nghiệm Guernica ...................................................................51
Hình 3.1: Trích chọn mức đờng có ý nghĩa.......................................................70
Hình 3.3: Mã hoá sự không đổi tơng đơng bán cục bộ ....................................73
Hình 3.4 : Mã hóa bán cục bộ mối quan hệ không đổi. . .....................................74
Hình 3.5 : Mã hóa hình dạng bán cục bộ quan hệ bất biến..................................75

Hình 4.4: Phơng pháp nhận dạng quan hệ bán cục bộ không đổi......................83
Hình 4.5 Phơng pháp nhận dạng bán cục bộ .....................................................84
Hình 4.6: Tập các đoạn đờng mức đối sánh với ảnh trong CSDL......................85
Hình 4.7: Phơng pháp bán cục bộ tơng đồng không đổi ..................................85
Hình 4.8: ảnh gốc và mức đờng có ý nghĩa.......................................................86
Hình 4.9: ảnh Menima và mức đờng có ý nghĩa ...............................................86


-9-

Lời nói đầu

- 10 -

tiềm năng ứng dụng rộng rãi của nó, CBIR đã thu hút đợc số lợng lớn các chú
ý trong những năm gần đây (KAT 92, NIB 93, YOS 99).

Ngày nay thông tin nói chung sử dụng trong ảnh là phổ biến. Rất nhiều
lĩnh vực sử dụng ảnh nh một công cụ để thực hiện công việc.
Những năm gần đây, chứng kiến tốc độ gia tăng mạnh của ảnh số trên toàn
thế giới, bởi sự gia tăng mạnh mẽ của các trạm làm việc tại mặt đất cũng nh
trạm vệ tinh, khó khăn trong lu trữ, chi phí cao cho xử lý và internet. Sự đa dạng
các ứng dụng của ảnh góp phần ra đời thế hệ ảnh số. Các ứng dụng của ảnh bao

gồm: giải trí số, th viện số, giáo dục và World Wide Web (www). Các ứng dụng
ngày càng trở nên phụ thuộc vào việc sử dụng ảnh gốc. Lợi ích trớc mắt của ảnh
số gồm cả mặt xã hội và thơng mại. Sử dụng ảnh gốc giúp sáng tạo sản phẩm
mới, tiết kiệm thời gian và tiền bạc. Tuy nhiên, độ lớn của kho lu trữ ảnh số trên
toàn thế giới có giới hạn, sự tận dụng ảnh số từ CSDL hiện tại khó hơn. Điều này
là vì thiếu cách đánh chỉ mục và quản lý ảnh số chuẩn.
Thông thờng các ảnh đợc lu trữ trong CSDL sử dụng dới dạng các
thông tin thuộc tính. Thuận lợi của việc đánh chỉ mục thuộc tính ảnh: nó có thể
cung cấp cho ngời sử dụng từ khoá tìm kiếm lớt qua mục lục, thậm chí thông
qua giao diện truy vấn; ví dụ nh ngôn ngữ truy vấn cấu trúc (SQL). Tuy nhiên,
nhìn từ bên ngoài có hạn chế; một trong những hạn chế đó là thời gian tính toán
khi CSDL lớn, nó dờng nh không thể chú giải thủ công tất cả các ảnh. Mặt
khác các đặc trng thị giác của ảnh rất khó mô tả bằng từ ngữ một cách khách
quan, có một tiêu điểm mới trên việc phát triển công nghệ đánh chỉ mục ảnh, đó
là khả năng tìm kiếm ảnh dựa trên ngữ cảnh: nó có thể độc lập và có thể tự động
hoá. Các công nghệ hiện tại đa phần qui về tìm kiếm ảnh dựa trên ngữ nghĩa
(CBIR). CBIR đợc giới thiệu nh phần bổ xung cho việc tiến tới đánh chỉ mục
thuộc tính truyền thống, nó là cần thiết để cấu thành CSDL multimedia. Vì những

Trong CBIR, ảnh trong CSDL là dữ liệu không cấu trúc, ảnh số hoàn toàn
chỉ bao gồm mảng các pixel độ chói, không có ý nghĩ vốn có. Một trong những
chìa khoá bắt nguồn CBIR là sự cần thiết để trích chọn thông tin hữu ích từ dữ
liệu thô, để phản ánh ngữ nghĩa ảnh. Vì vậy việc trích chọn hiệu quả các đặc
trng ngữ nghĩa đó là điều cốt yếu sự thành công của CBIR. Nghiên cứu trên
những yêu cầu của ngời sử dụng đối với ảnh từ bộ su tập ảnh biểu thị những
đặc trng nguyên thuỷ đó nh màu sắc, kết cấu, hình dạng hoặc hỗn hợp của
chúng là rất hữu ích đối với việc mô tả và khôi phục ảnh (EAK 99). Những đặc
trng này là khách quan và trực tiếp bắt nguồn từ tự bản thân ảnh mà không cần
tham khảo bất kỳ một kiến thức cơ bản nào từ bên ngoài. Vì vậy đặc trng
nguyên thuỷ của ảnh ở mức thấp có thể đợc bắt nguồn và khai thác để khuyến

khích việc CBIR tự động hoá.
*Đối tợng nghiên cứu
Từ các thông tin cơ bản trên đây các ảnh trong CSDL có thể đợc đánh chỉ
mục bằng cách sử dụng thông tin thuộc tính hoặc thông tin ngữ nghĩa. Ngữ nghĩa
của ảnh có thể đợc mô tả sử dụng các đặc trng nguyên thuỷ; ví dụ: màu sắc,
cấu trúc, hình dạng hoặc tổ hợp của chúng. Kết quả nghiên cứu này chấp nhận
tiến tới CBIR, đó là việc đánh chỉ mục và tìm kiếm ảnh bằng ngữ nghĩa của ảnh.
Đặc biệt, việc tìm kiếm hội tụ ở việc đánh chỉ mục và tìm kiếm ảnh dựa trên hình
dạng. Mục đích chủ yếu của cách tìm kiếm này là tìm kiếm và khai thác hình
dạng rất khả thi để tìm kiếm và nhận dạng hình dạng. Điều tra các công nghệ và
phát triển trong nghiên cứu này có thể là trực tiếp ứng dụng cho các ứng dụng
đặc thù; ví dụ tìm kiếm nhãn mác, nhận dạng đối tợng hoặc có thể hợp nhất
trong bất cứ hệ thống CBIR nào để dễ dàng nhận dạng hình dạng sử dụng các đặc
trng hỗn hợp của ảnh.


- 11 -

- 12 -

Nhận dạng nói chung hội tụ các vấn đề của nhận dạng trực quan dựa trên

Chơng 1

thông tin hình dạng hình học. Phơng pháp nhận dạng hình dạng thờng bao

Tổng quan tìm kiếm ảnh

gồm 3 tiến trình: trích chọn đặc trng, đối sánh (cốt lõi của tiến trình này là định


dựa trên hình dạng

nghĩa 1 khoảng cách hoặc phép đo sự tơng đồng giữa các đặc trng hình dạng
đợc mô tả) và ra quyết định. Phần này chủ yếu nghiên cứu vấn đề ra quyết định
cho đối sánh hình dạng, đặc biệt trong khung chung giữa hai hình dạng giống
nhau để đối sánh, nó có thể đi tới quyết định nh thế nào? Mục đích để định
nghĩa tiêu chuẩn thống kê dẫn tới quyết định 2 hình dạng là giống hay không.
Nghiên cứu các tiến trình thực hiệnnhận dạng hình dạng theo trình tự các
công đoạn: từ công đoạn sơ khai biểu diễn ảnh, trích chọn đặc trng, tách nhóm
nhân tố hình dạng thành 1 hình dạng và chủ yếu là phơng pháp ra quyết định

1.1. Giới thiệu
Vấn đề cơ bản của tìm kiếm ảnh dựa trên hình dạng là phép đo sự tơng
đồng giữa các các hình dạng đợc mô tả bởi các đặc trng của chúng. Vì vậy, hai
bớc cần thiết trong tìm kiếm và nhận dạng ảnh dựa trên hình dạng đó là trích
chọn đặc trng và phép đo tơng đơng giữa các đặc trng đã đợc trích chọn.
Hai công cụ cơ bản cần thiết đợc sử dụng trong trích chọn đặc trng hình

Contrario cho nhận dạng hình dạng.

dạng là biến đổi Fourier và không gian độ chia. Mặc dù trích chọn đặc trng là

*Cấu trúc luận văn

mấu chốt để tìm kiếm ảnh dựa trên hình dạng và nhận dạng hình dạng, phép đo

Chơng 1 : Tổng quan về tìm kiếm ảnh dựa trên hình dạng
Chơng 2: Tách nhóm

sự tơng đồng giữa các đặc trng đợc trích chọn cũng rất quan trọng. yêu cầu

hiệu quả tìm kiếm ảnh đó là nhận biết nhanh các hình dạng tơng đồng - sự

Chơng 3: Phơng pháp Contrario cho nhận dạng hình dạng
Chơng 4: Thử nghiệm

tơng đồng trong giới hạn của các đặc trng đợc trích chọn.
1.2. Công cụ trích chọn đặc trng
Biến đổi Fourie là một công cụ kinh điển. Nó đã đợc sử dụng từ nhiều

Do thời gian và khả năng có hạn nên luận văn này sẽ còn nhiều thiếu sót. Rất
mong đợc sự góp ý và thông cảm của các thầy giáo, cô giáo.
Hà nội, ngày 6 tháng 11 năm 2006

năm nay trong mọi hệ thống xử lý tín hiệu và hệ thống máy tính. Còn không gian
độ chia là một công cụ mới đang đợc chú ý gần đây.
1.2.1.Biến đổi Fourier
Biến đổi Fourie là mấu chốt trong xử lý ảnh nó đợc ứng dụng rộng rãi

Học viên

trong lý thuyết cũng nh trong thực tế. Nguyên tắc cơ bản của biến đổi Fourie đó
là một đối tợng đợc coi nh một tín hiệu và nh vậy có thể biểu diễn đối tợng
thành các thành phần cơ bản của tín hiệu. Biến đổi Fourie rất hữu ích cho phân

Đinh Thị Kim Phợng

tích các đối tợng khác nhau: có thể đối tợng bị làm nhiễu bởi biến đổi phổ


- 13 -


- 14 -

(Hình 1.1), trong khi các đối tợng tơng đơng khác sẽ có biến đổi phổ tơng
tự thậm chí cả khi chúng bị ảnh hởng bởi nhiễu và các biến đổi khác(hình 1.2).
(1.3)
(1.5)
(1.6)
(1.4)

Với chu kỳ T:

Hình 1.1: Đối tợng bị làm nhiễu bởi biến đổi phổ.

1.2.1.2. Sự hội tụ của chuỗi Fourier
Nếu một hàm f(x) là tuần hoàn và nguyên trong chu kỳ của nó thì sẽ tồn
tại chuỗi Fourie nhng không đảm bảo chắc chắn rằng chuỗi Fourie sẽ hội tụ tới
f(x). Tuy nhiên theo điều kiện Fourie Dirichcle phần lớn hoặc các lớp chung của
hàm có thể biểu diễn bằng chuỗi Fourie. Điều kiện chuỗi Fourie Dicrichcle nếu
là một đoạn hàm f(x) liên tục :

Hình 1.2: ảnh và các biến đổi khác

1. Giới hạn số các điểm không liên tục

1.2.1.1.Chuỗi Fourier
Đặt f(x) là hàm tuần hoàn chu kỳ 2 và nguyên trong một chu kỳ, theo lý
thuyết Fourie f(x) có thể khai triển thành chuỗi fourie nh sau:

2. Giới hạn các điểm cực trị.

Hàm này có thể mở rộng thành chuỗi Fourie hội tụ tại các điểm liên tục và
ý nghĩa của điểm giới hạn thực và giới hạn ảo của hàm tại điểm giới hạn:

(1.1)

Đối với tín hiệu số hoặc đối tợng số điều kiện Dirichcle đợc chứng minh
vì vậy nó có thể đợc biểu diễn bởi chuỗi Fourie:

(1.2)
1.2.1.3. Biến đổi Fourier


- 15 -

- 16 -

Nếu hàm f(x) có thể biểu diễn bằng chuỗi Fourie của nó. Sau đó f(x) đợc

Mối quan hệ này dễ thay đổi chỉ rõ sự chính xác của biểu diễn đối tợng

xác định duy nhất bởi hệ số Cn. Ngợc lại nếu hệ số Cn của chuỗi Fourie của hàm

trong miền không gian và trong miền tần số là ngợc với nhau. Chú ý, khi bố trí

đã biết trớc thì f(x) có thể đợc xây dựng lại từ tập Cn. Chuỗi Fourie thiết lập

một tập dữ liệu khác thì chúng không thể biến đổi độc lập với nhau. Điều này cần

mối quan hệ duy nhất giữa f(x) và hệ số Cn. Biểu diễn theo công thức :


lu ý khi trích chọn đặc trng trong miền không gian lấy mẫu đối tợng.
1.2.1.5. Biến đổi Fourier hai chiều

(1.7)

Đối với hàm hai biến f(x,y) xác định 0 x, y N. Cặp biến đổi Fourie là:

Tơng ứng công thức:
(1.11)
(1.8)
(1.12)
1.2.1.4. Biến đổi Fourier rời rạc
Biến đổi Fourie đặc biệt hữu ích đối với phân tích đối tợng số vì đối tợng
số tồn tại ở dạng rời rạc. Để biến đổi công thức 1.7 và 1.8 thành dạng rời rạc, f(x)

Mặc dù, số lợng F(u,v) từ biến đổi Fourie của biểu thức là rất lớn nhng
số lợng F(u,v) có ích là rất bé. Đây là lý do biểu diễn đối tợng trong miền tần
số tốt hơn (Hệ số có nghĩa ít). Điều này thực sự hữu ích trong nhiều ứng dụng đặc

đợc lấy N mẫu trong chu kỳ [0, T]

biệt trong việc phân tích hình dạng vì nó có thể xấp xỉ ý nghĩa của đối tợng gốc

f(x0); f(x0+x); f(x0+2x); f(x0+(N-1)x)

f(x,y) hoặc f(x) có thể xây dung từ F(u,v) nhỏ. Đây là vấn đề cơ bản của xử lý tín

x gọi là bớc lấy mẫu trong phạm vi không gian xem xét

hiệu Fourie và phân tích đối tợng Fourie.


f(x) biểu diễn thành:

1.2.1.6. Phạm vi của biến đổi Fourier
Biến đổi Fourie tuân theo phạm vi hữu ích của việc phân tích đối tợng
Sự riêng rẽ: Biến đổi Fourie rời rạc (1.11) có thể mô tả riêng rẽ nh
(1.9)

sau:
(1.13)

(1.10)
Bớc lấy mẫu u trong miền tần số và bớc lấy mẫu x trong miền không
gian có quan hệ theo biểu thức :

Lợi ích của việc riêng rẽ này đó là F(u,v) có thể thu đợc trong 2 bớc
bằng cách sử dụng liên tiếp biến đổi Fourie 1 chiều. FT 1 chiều có thể
đợc tính toán sử dụng biến đổi Fourie nhanh FFT.
Biến đổi: Biến đổi phạm vi của FT
(1.14)


- 17 -

- 18 -

Điều này chỉ ra: 1 sự thay đổi trong miền không gian sẽ dẫn đến sự thay

chia. Các dụng cụ quan sát nh camera các dụng cụ này có thể quan sát cũng là
một sự sắp xếp độ chia. Để mở rộng các độ chia tơng ứng với sự phóng to hay


đổi trong miền tần số.
Phép quay: Nếu gắn vào hệ toạ độ cực

thu nhỏ nhờ các dụng cụ quan sát. Độ chia của một dụng cụ luôn có hai giới hạn:
độ chia giúp phân biệt chi tiết ảnh tốt nhất và kém nhất và khi quan sát sự vật thì
độ chia nằm trong khoảng giới hạn hai phía này.

Sau đó thay thế vào biểu thức có :
(1.15)
Điều này có nghĩa việc quay f(x,y) trong miền không gian góc 0 cũng
tơng ứng việc quay F(u,v) một góc tơng tự trong miền tần số.
Độ chia: đối với hai hệ số a, b, phạm vi độ chia của FT đợc viết nh
sau:

Để tính toán bất kỳ dạng biểu diễn nào từ dữ liệu ảnh, thông tin cần đợc
trích chọn bằng cách sử dụng toán tử nào đó với dữ liệu. Các toán tử tơng tự nh
ống kính máy quay sử dụng để mô tả thế giới thực. Một vài vấn đề đặt ra khi đề
cập tới các toán tử đó đợc sử dụng nh thế nào, thực hiện ở đâu và thực hiện
công việc ra sao, độ lớn nh thế nào. Nh vậy thông tin thu đợc xác định rất
phong phú thông qua mối quan hệ của các cấu trúc thực tế trong dữ liệu và kích

(1.16)

cỡ của toán tử.

Điều này chỉ ra rằng: độ chia của f(x,y) với a và b theo x,y trong miền

Độ chia gần đúng khi phân tích đối tợng có thể biết trớc. Tuy nhiên


không gian tỷ lệ nghịch với biên độ F(U,V) trong miền tần số. Điều này cũng

trong phần lớn các vấn đề thì điều này không quan trọng. Lý do chính để xây

giảm bớt hệ số F(u,v) bởi 1/a và 1/b theo u, v trong miền tần số. Tổng quát,

dựng không gian độ chia đó là nếu có kiến thức biết trớc về không gian độ chia

phóng to một đối tợng ảnh trong miền tần số sẽ làm nổi mức tần số thấp trong

thích hợp lấy từ tập CSDL có nhiều độ chia thì không gian độ chia sẽ đợc áp

miền không gian trong khi việc thu nhỏ đối tợng trong ảnh sẽ làm tăng vùng tần

dụng để thu gọn công thức tính toán thích hợp.

số cao trong miền không gian.
1.2.2. Không gian độ chia (Scale space)

Việc sử dụng các hàm làm trơn nhiễu Gauss tại các độ chia khác nhau đã
đợc áp dụng trong phân tích ảnh cho thấy mối liên hệ giữa các độ chia khác

Đối với FT thì không gian độ chia là công cụ khá mới trong phân tích đối

nhau với cấu trúc ảnh và không gian độ chia là có giới hạn. Tuy nhiên độ chia

tợng. Nó đã đợc phát triển trong các hệ thống tính toán. Phần này sẽ giới thiệu

kích thớc hoàn toàn có thể thêm vào trong không gian miêu tả đối tợng vì các


không gian độ chia tuyến tính và phạm vi quan trọng của nó.

cấu trúc có thể đợc nghiên cứu thông qua độ chia. Đặc biệt khi gắn vào tín hiệu

1.2.2.1. Cơ sở

f(x): R N R và 1 tập liên tục {L(x, t ) / t 0} làm mịn dần dần (có nghĩa là việc

Lý thuyết không gian độ chia giúp ta quan sát các đối tợng trong các độ

nhân chập tín hiệu f(x) với một hàm liên tục g(x,t))

chia khác nhau và các đối tợng chỉ có ý nghĩa duy nhất theo độ chia chính. Một

L ( x , t ) = g ( x, t ) f ( x )

ví dụ đơn giản nếu là ảnh một sự vật thì dù có là độ chia 1m hay 1cm thì ý nghĩa

ở đây g(x,t) là hàm làm mịn hoặc hàm mặt nạ, l(x,t) là tín hiệu đợc làm

của sự vật không thay đổi. Trong vật lý các đối tợng tồn tại trong sự sắp xếp độ

(1.17)

mịn, * là phép nhân chập. Với tín hiệu liên tục thì f(x)đợc khai triển nh sau:
(1.18)


- 19 -


- 20 -

Hình 1.3: Điểm qua 0 tại vị trí x và độ chia t của tín hiệu
Các đặc trng hữu ích đặc biệt tại điểm qua 0 của đạo hàm bậc thứ n. Thực

1.2.2.2. Không gian độ chia Gaussian
Hàm Gausss là hàm mặt nạ hữu ích nhất cho không gian độ chia tổng quát

tế đạo hàm bậc hai của tín hiệu đợc sử dụng trong phân tích đối tợng, bởi đạo

nhất. Mang tới một tín biệu f(x): R N R là mô tả độ chia L: R N ì Rt R đợc

hàm bậc hai phản ánh điểm uốn cong của tín hiệu. Điểm cong (một đặc trng

định nghĩa nh một mô tả tại độ chia 0 đối với tín hiệu gốc L(x,0) = f (x )

hữu ích đối với phân tích đối tợng). Điểm qua 0 của đạo hàm bậc hai là điểm

1.19

uốn cong đó là đặc trng cho góc lồi ra của đối tợng. Với tín hiệu một chiều,
(1.20)

điều đó đợc áp dụng với không gian độ chia Gauss. Điểm qua 0 của tín hiệu tại
tất cả các độ chia gọi là lấy dấu hoặc cây khoảng cách. (hình 1.3 b). Bởi phạm vi

Và sự miêu tả độ chia kém hơn mang lại bằng phép nhân chập với mặt nạ
Gauss khi đó kích thớc ảnh tăng lên:

không sáng tạo của đặc trng mới, việc làm mịn cuối cùng của tín hiệu đợc bảo

đảm. Vì vậy chiều cao của cây khoảng cách là có giới hạn. Witkin(Wit 83) giải

(1.21)

thích cây khoảng cách này với kinh nghiệm quan sát, cành cây trong cây khoảng
cách tơng ứng với vị trí lồi ra của đối tợng. ASA 84: đầu tiên trích chọn đỉnh từ
cây khoảng cách thu đợc và giải thích chúng nh các đặc trng vật lý( nh góc,

(1.22)

điểm nối, điểm kết thúc, điểm đặc biệt) Mok96 cũng trích chọn đỉnh từ cây
khoảng cách thu đợc và đề nghị việc sử dụng các đặc trng đỉnh thông thờng

1.2.2.3. Phạm vi của sự không tạo các đặc trng mới
Phạm vi quan trọng nhất trong không gian độ chia đó là sự không tạo các
đặc trng mới. Có nghĩa là sự biến đổi từ một độ chia tốt sang một độ chia xấu

cho tìm kiếm hình dạng. Hoàn toàn có thể áp dụng không gian độ chia để biểu
diễn hình dạng.
1.2.2.4. Không gian độ chia mâu thuẫn với việc đa quyết định
Trong phân tích đối tợng hai phơng pháp phân tích có thứ bậc thờng

hơn sẽ thiết lập một tín hiệu đơn giản hơn, vì thế đặc trng trong không gian độ
chia mất tính đơn điệu khi độ chia gia tăng. Nó là nguyên nhân làm ảnh hởng

đợc sử dụng: một là phơng pháp không gian độ chia, phơng pháp khác cây

tới tín hiệu và làm mờ ảnh hởng đối với tín hiệu hai chiều.

quyết định, ví dụ nh phơng pháp hình chóp và phơng pháp sóng. Hai phơng

pháp này khác nhau: điểm khác biệt chính của hai công cụ thể hiện ở 3 khía
cạnh:
+Lấy mẫu không nhất quán, chống lại việc lấy mẫu các không gian
khác. Biểu diễn không gian độ chia đợc định nghĩa bằng việc làm mịn và lu
giữ các mẫu không gian giống nhau tại tất cả các độ chia. Trong khi lấy mẫu
không gian đa quyết định tại các độ chia khác nhau là khác nhau. Đối tợng


- 21 -

chính của đa quyết định là giảm bớt lấy mẫu từ một độ chia tới các độ chia cao
hơn, vì thế quá trình xử lý tín hiệu có thể hiệu quả hơn.
+Tơng quan độ chia đối nghịch với sự phân ly độ chia, phơng

- 22 -

tục. Mối tơng quan tác động cấu trúc tín hiệu thông qua độ chia làm mất ý
nghĩa của phơng pháp đa độ chia.
1.2.3.Thảo luận

pháp đa quyết định không khai thác điểm khác biệt của cấu trúc thông qua độ

ở phần trên, hai công cụ phân tích: Biến đổi Fourier và không gian độ chia

chia. Các kết quả tính toán tại mỗi một độ chia đợc sử dụng duy nhất để hớng

đã đợc mô tả và thảo luận. Phạm vi quan trọng của hai công cụ này đã đợc

dẫn tính toán tại độ chia tiếp theo nhỏ hơn và đợc loại bỏ một khi điều này đợc


phân tích và chọn lọc. Biến đổi Fourier miêu tả một đối tợng sử dụng các thành

hoàn thành. Chỉ thực hiện thuật toán tại một độ chia và tại một thời điểm. Phơng

phần cơ bản của các tính chất khác nhau. Không gian độ chia quan sát một đối

pháp không gian độ chia chính là việc phân tích độ chia nh một phần cần thiết

tợng với vector cơ bản có chiều khác nhau (các số chiều của vector khác nhau).

của quá trình phân tích sự quan sát và nhận dạng. Phạm vi các phép đo tại các độ

Thông tin phổ thu đợc từ biến đổi Fourier có thể đợc sử dụng trực tiếp

chia khác nhau có thể có cơ sở vững chắc phụ thuộc nhiệm vụ chứa trong nó.

cho việc mô tả hoặc miêu tả đối tợng. Trong khi thông tin trong không gian đo

Bằng định nghĩa, giới thiệu không gian độ chia mang đến một giải pháp cho việc

đạc thu đợc từ không gian độ chia cần thiết sự giải thích sâu xa hơn trớc khi sử

phổ biến lợng bù sai, điều đó có nghĩa các đặc trng ở các độ chia khác nhau có

dụng mô tả đối tợng. Sự giải thích thông tin không gian độ chia vẫn còn là thách

thể liên quan tới những đặc trng khác một cách rõ ràng.

thức. Điều đó rất quan trọng để làm lẫn lộn giữa giải thích đối tợng và mô tả đối


+Lấy mẫu độ chia liên tục chống lại việc lấy mẫu độ chia cố định.
Giữa các phơng pháp không gian độ chia và phơng pháp đa quyết định đó là sự

tợng tại đa độ chia với giải thích đối tợng và mô tả đối tợng trong không gian
độ chia, đây là một vấn đề rất khó.

miêu tả đa quyết định chấp nhận một bớc lấy mẫu cố định trong độ chia hoặc

Trong các dạng của thông tin thu đợc, biến đổi Fourier thu đợc thông tin

quyết định đó không bị suy giảm, trong khi phơng pháp độ chia phân tích tín

đối tợng với hệ số tần số thấp, trong khi miêu tả thông tin đối tợng thu đợc

hiệu tại độ chia liên tục. Vì vậy nhiệm vụ của việc tìm đặc trng qua độ chia dễ

với hệ số rất cao. Đối với không gian độ chia, thông tin đối tợng chung có thể

dàng hơn trong không gian độ chia so với việc miêu tả đa quyết định. Sự tinh xảo

đợc giải thích từ độ chia cao hơn, trong khi thông tin mô tả đối tợng có thể

của lấy mẫu độ chia có thể thực hiện khi có yêu cầu.

đợc giải thích từ độ chia thấp hơn.

Sự khác biệt các đặc trng của hai loại phơng pháp xác định ở cách ứng

Sức mạnh của hai công cụ cho phân tích đối tợng là rất rõ ràng. Nó đợc


dụng của chúng. Phơng pháp không gian độ chia thờng đợc sử dụng cho phân

biết đến đó là phân tích đối tợng hoặc trích chọn đặc trng trong miền không

tích và tìm hiểu tín hiệu, trong khi phơng pháp đa quyết định thờng đợc sử

gian là rất khó vì vấn đề nhiễu và các đối tợng thay đổi. Những vấn đề này có

dụng cho mã hoá. Nó cũng cần thiết để kết hợp phơng pháp không gian độ chia

thể dễ dàng vợt qua bởi việc phân tích đối tợng trong miền phổ hoặc trong

với phơng pháp đa độ chia. Phơng pháp đa độ chia đợc chú ý hơn đa quyết

miền không gian độ chia. Cả hai phơng pháp chấp nhận việc phân tích đối tợng

định trong điều kiện phân tích hoặc miêu tả tín hiệu tại một độ chia tại một thời

tăng dần tính chi tiết. Bằng việc loại trừ hoặc bỏ qua những chi tiết tinh tế nhất

điểm. Nó không khai thác khái niệm phân tích, miêu tả tín hiệu ở độ chia liên

trong một đối tợng. Đối tợng có thể đợc biểu diễn và thể hiện hiệu quả hơn.


- 23 -

Từ cách nhìn nhận này, không gian độ chia xử lý tơng tự với biến đổi Fourier.

- 24 -


Một phép đo tơng đồng thờng đợc định nghĩa nh một phép đo khoảng

Tuy nhiên trong không gian độ chia, những chi tiết của đối tợng đợc dịch

cách. Trong phần này mô tả chi tiết các phép đo sự giống nhau khác nhau.

chuyển trong miền tần số.

1.3.1.1. Không gian phép đo khoảng cách

1.3. Phép đo tơng đồng và thực hiện các phép đo
Đối với việc tìm kiếm ảnh dựa trên hình dạng và các đặc trng ảnh đợc
trích chọn thờng là vector đặc trng N chiều, nó có thể đợc đề cập tới nh một

Một không gian RN là một không gian phép đo nếu cho bất kỳ hai phần tử
X và Y của nó, ở đó tồn tại một số thực d(x,y) gọi là khoảng cách thoả mãn các
thuộc tính sau:

điểm trong không gian N chiều. Một bức ảnh đợc đánh chỉ mục trong cơ sở dữ

(1) d(x,y) 0 {Không phủ định}

liệu sử dụng các vector đặc trng đợc trích chọn. Việc tìm kiếm ảnh thực chất là

(2) d(x,y) = 0 nếu x = y {Tính đồng nhất}

việc xác định sự giống nhau giữa ảnh truy vấn và các ảnh mục tiêu trong cơ sở dữ

(3) d(x,y) = d(y,x)


liệu mà thực chất là sự xác định khoảng cách giữa các vector đặc trng miêu tả

(4) d(x,z) < d(x,y) + d(y,z) {Bất đẳng thức trong tam giác} (1.23)

hình ảnh. Sự đo đạc khoảng cách mong muốn cần phải tham chiếu với nhận thức
của ngời. Vì vậy, đối với một đặc trng hình dạng dẫn tới sự chính xác của việc

{Tính đối xứng}

1.3.1.2. Khoảng cách dạng Minkowski
Khoảng cách dạng Minkowski đợc định nghĩa dựa trên tiêu chuẩn Lp:

tìm kiếm ảnh cao hơn, phép đo khoảng cách tốt hơn. Đối với việc tìm kiếm ảnh

1

p
N 1
p
d p (Q, T ) = (Qi Ti )

i =0

trực tuyến thì hiệu quả cần phải đợc xem xét khi lựa chọn một phép đo khoảng
cách. Nhiều phép đo khoảng cách khác đã đợc khai thác trong việc tìm kiếm

ở đây

ảnh, chúng bao gồm khoảng cách các khối trung tâm (SWA91);(STR95); khoảng

cách Ơcơlit (VOO88); khoảng cách Cosin(VOO 88), khoảng cách giao nhau của
biểu đồ histoogram, hai khoảng cách thống kê(RUB99), khoảng cách bậc hai
(NiB93, DEN99, WOL96, SEI97) và khoảng cách Mahalanobis(TRE71,
SMI97). Trong mục này, một vài phép đo khoảng cách sẽ đợc mô tả và ớc

Q = {Q0, Q1,.QN-1} là vector đặc trng truy vấn
T = {T0, T1, .TN-n} là vector đặc tính tơng ứng

Khi p = 1; d1(Q,T) là khoảng cách khối trung tâm hoặc khoảng cách
Manhattan (L1).

N 1

d1 (Q, T ) = (Qi Ti )

Khi p = 2; d2(Q,T) gọi là khoảng cách Ơcơlit (L2)
1

2
N 1
2
d 2 (Q, T ) = (Qi Ti )
i 0


mong đợi cho các bộ mô tả ớc lợng hình dạng khác nhau. Để biết tìm kiếm ảnh
đo đo đợc sự chính xác của việc tìm kiếm ảnh. Tuy nhiên, phụ thuộc vào sự xác
định độ chính xác khác nhau, có các phép đo sự thực hiện khác nhau.
1.3.1. Phép đo sự giống nhau


(1.25)

i 0

lợng. Mục đích của việc ớc lợng này để tìm ra một phép đo tơng đồng sự
tốt nh thế nào, cần phải có một phép đo khả thi. Nói chung, thực hiện các phép

(1.24)

(1.26)

Khi p ta có L
L (Q,T) = max {(Qi - Ti)}
1.3.1.3. Khoảng cách Cosin

;

0 i N (1.27)


- 25 -

- 26 -

Khoảng cách Cosin tính toán sự khác nhau về phơng hớng mà không để

Đờng giao biểu đồ đợc đề xuất bởi Swain và Ballard {Swa 91}. Tìm thấy

ý tới chiều dài vector. Khoảng cách này thu đợc từ việc đo góc giữa hai vector.


những đối tợng bên trong các bức ảnh một cách khách quan bằng việc sử dụng

Bằng qui tắc tích vô hớng: Q.T = Q .T = Q . T . cos

biểu đồ màu sắc. Nó cũng có thể vận dụng đối sánh cục bộ. Khi kích thớc đối

t

d cos (Q, T ) = 1 cos = 1

tợng( với đặc trng Q) nhỏ hơn kích thớc ảnh( với đặc trng trong T). Định

Q t .T
Q .T

(1.28)

nghĩa gốc của khoảng cách biểu đồ cho bởi công thức:
N 1

d hi (Q, T ) = 1

min(Q , T )
i

i =0

i

(1.30)


Q

Mở rộng trong khoảng cách đo đợc có công thức nh {SMI 97}:
N 1

Hình 1.4: (a) khoảng cách Ocolit,

d hi

(b) khoảng cách Cosin, (c) khoảng cách L1

min(Q , T )
(Q, T ) = 1
min ( Q , T )
i

i =0

i

(1.31)

1.3.1.6. Khoảng cách bậc hai
Nh có thể thấy: khoảng cách Ơcơlit có đợc tính đến cả góc lẫn chiều dài

Những khoảng cách đợc tính toán từ phép đo khoảng cách đợc mô tả ở

vector để tính toán. Trong khi khoảng cách Cosin chỉ tính đến góc đó khi tính


trên chỉ tính toán sự tơng ứng giữa mỗi kích thớc và không làm cho thông tin

toán. Nh kết quả: Q1 và Q sẽ có khoảng cách giống nh đối với T.

sử dụng thông qua các kích thớc. Vấn đề này nhận ra trong sự thích ứng của
biểu đồ. Khoảng cách bậc hai đợc đề xuất để tính toán đến sự giống nhau thông

dcos(Q, T) = dcos(Q1, T) .
Khoảng cách tính toán d1 giữa mỗi kích thớc của vector đặc trng (hình 1.4)
1.3.1.4. Thông tin thống kê



2

2

trng Q và T đợc tính:

[

N 1

(Qi mi )

i =0

mi

d 2 (Q, T ) =


2

(1.29)

; mi =

Qi + Ti
2

Chất lợng các phép đo này là việc phân bố không chắc chắn nh từ các
biểu diễn thông dụng bởi các kết quả khác (RMB 99).

]

1

d qad (Q, T ) = (Q T ) A(Q T ) 2

(thông tin thống kê) đợc định nghĩa nh sau:

1.3.1.5. Đờng giao biểu đồ

qua kích thớc (NIB93, SMI97). Nó cung cấp nhỉều kết quả hơn là sự đối sánh
duy nhất giữa các biểu đồ mẫu. Khoảng cách mẫu bậc hai giữa hai vector đặc

t

(1.32)


ở đây A = [aij ] ma trận N*N và aij là hệ số giống nhau giữa những chỉ số
kích thớc i và j. aij đợc tính:
aij = 1

d ij
d max

; trong đó d ij = [Qi Ti ]

Để tính toán, khoảng cách mẫu bậc hai đợc viết lại (DEN 99)


- 27 -

- 28 -

1

Để định lợng các giải thuật khác nhau cho tìm kiếm ảnh, một phép đo

N 1 N 1
N 1 N 1
N 1 N 1
2
d qad (Q, T ) = aij Qi Q j + aij Ti T j + Qi T j
0
0
0
0
0

0
i
=
j
=
i
=
j
=
i
=
j
=



(1.33)

hiệu quả thực hiện là cần thiết. Các phép đo hiệu quả thực hiện đã đợc đề xớng

[LU 98, BMI 99] , phép đo sự thực hiện thờng dựa trên việc thống kê các bớc thử

1.3.1.7. Khoảng cách Mahalanobis
Khoảng cách Mahalanobis là một trờng hợp đặc biệt của phép đo khoảng
cách dạng bậc hai. ở đó ma trận chuyển đổi có đợc nhờ ma trận hiệp phợng sai
thu đợc từ một tập học của các vector đặc trng đó là A =

- 1

. Để áp dụng


khoảng cách Mahalanobis, vector đặc trng đợc coi nh không gian biến

[ ]

X = [x 0 , x1 ,...x N 1 ] . Sau đó ma trận hiệp phơng sai lấy từ R, ở đây R = rij

với

rij = E{xi , y j }.E{y} đợc lấy từ không gian biến y. Sau đó ma trận hiệp phơng sai

là ; = [ ij2 ] và ij2 = rij E{xi }E{x j }.

chủ quan. Các phép đo sự thực hiện khác thờng sử dụng các phép thử chủ quan
khác, dẫn đến các định nghĩa khác nhau về sự chính xác trong tìm kiếm ảnh. Các
phép đo sự thực hiện khác nhau đợc thảo luận trong phần này.
1.3.2.1. Độ nhạy và độ chính xác(RPP).
RPP là phép đo sự thực hiện tìm kiếm ảnh đợc sử dụng rộng rãi nhất
trong các bài giảng. Về cơ bản nó dựa trên sự đối sánh tuyệt đối. Trong phơng
pháp này, CSDL đợc chuyển thành tập nhị phân theo sự phù hợp hoặc không
hợp với truy vấn dựa trên phép thử chủ quan. Trong các phép thử chủ quan, mỗi

Khoảng cách Mahalanobis giữa hai vector đặc trng Q và T thu đợc bằng

một đối tợng lựa chọn một tin tức tơng ứng với dạng truy vấn từ CSDL. Các
mục đích đợc lựa chọn cho mỗi truy vấn sát với các đối tợng có sẵn đợc xem

XQ = Q và XT = T.

[


]

d mah = (X Q X T ). 1 (X Q X T ) 2
1

(1.34)

xét thích hợp tới truy vấn. Ngợc lại, chúng đợc coi là không thích hợp. Độ
chính xác và độ nhạy đợc định nghĩa nh sau:

Trong trờng hợp đặc biệt khi xi độc lập thống kê nhng xác suất không
bằng nhau, là ma trân đờng chéo:

02

=



12

0


2
N 1

Trong trờng hợp này, khoảng cách Mahalanobis đợc tính lại có dạng
N 1


tơng đơng sau : d mah (Q, T ) =
i =0

(Qi Ti )2
i2

(1.35)

P=

r
n1

r : Số lợng các ảnh tìm kiếm phù hợp
n1 : Số lợng ảnh đợc tìm kiếm

R=

r
n2

(1.36)

n2 : Tổng số lợng các ảnh thích hợp trong CSDL

Độ chính xác đo bằng tìm kiếm ảnh chính xác trong khi độ nhạy đo bằng

Nó là một khoảng cách có trọng số L2 . Nó đem lại trọng số nhiều đối với


khả năng tìm kiếm mục đích thích hợp từ CSDL. Độ chính xác và độ nhạy có mối

kích thớc thay đổi ít hơn với sự thay đổi nhỏ hơn và trọng số ít hơn với kích

hệ ngợc nhau. Sự chính xác thông thờng giảm tơng ứng sự gia tăng độ nhạy

thớc biến đổi nhiều hơn.

(cái này tăng thì cái kia giảm).

1.3.2.Thực hiện phép đo

1.3.2.2. Tỷ lệ trọng số thành công (PWH- Percentage of Weighted Hits)


- 29 -

- 30 -

PWH tơng đơng nh phép đo độ nhạy ở RPP. Phép thử chủ quan giống
nh độ chính xác, đó là mỗi đối tợng lựa chọn một vài mục phù hợp với truy vấn

(1.38)

từ CSDL. Tuy nhiên thay vì việc đo độ nhạy dựa trên giá trị nhị phân phù hợp
Đồ thị của Sj(i) nh hàm của Pj(i) chỉ ra hiệu quả tìm kiếm của thuật toán

nh trong RPP, PWH gán một trọng số thích hợp wi cho mỗi Iterm wi tơng ứng.

tơng đối cao. Sj(i) cao chứng tỏ độ chính xác tìm kiếm cao.


Vì vậy PWH đợc định nghĩa nh sau:

1.3.2.4. Thảo luận
Ba phép đo sự thực hiện đợc giới thiệu, PWH chỉ ra trong tính toán số

(1.37)

lợng các chủ đề khác nhau lựa chọn cho iterm tơng ứng. Nó đáp ứng sự sắp
xếp của con ngời nhiều hơn trong recall ở RPP. Tuy nhiên PWH không đo khả
ở đây, n là số iterm trả lại và N là tổng các iterm trong CSDL. Độ nhạy là

năng loại bỏ các iterm không phù hợp trong danh sách hoàn lại. Sự bất lợi của

trờng hợp đặc biệt của PWH khi wi nhận các giá trị 0 và 1.

PWH là nó lại giả thiết một số iterm cố định đợc hoàn trả, điều này là không

1.3.2.3. Phần trăm của thứ bậc giống nhau (PSR-Percentage of Similarity

thực tế vì số iterm hoàn trả có thể khác nhau. Đối với PSR mang lại trong tính

Ranking )

toán số lợng và thoả thuận của việc con ngời sắp xếp thứ bậc. Tuy nhiên với

PSR đợc đề xuất bởi Bimbo và Pala[bim 97], trong phép đo này mỗi đối

một truy vấn PSR mang lại một iterm chi tiết tại một thứ tự chi tiết là cao khi đó


tợng gán một dãy giống nhau cho mỗi iterm trong CSDL dựa trên sự tơng đồng

mâu thuẫn đối với truy vấn là nhỏ. Điều này dẫn đến kết quả PSR thấp nếu sự sắp

của iterm với truy vấn. Điều này hơn hẳn việc gán sự thích hợp / không thích hợp

xếp của thuật toán tìm kiếm khác với sự sắp xếp của con ngời. Mặt khác nếu

nh trong RPP và PWH. Kết quả cuối cùng của phép thử là ma trận Qj(i,k)- chỉ

mâu thuẫn lớn thì PSR có thể là cao thậm chí khi sự sắp xếp bằng thuật toán khác

số thứ tự của iterm chủ đề I tại vị trí k cho câu hỏi j. Có nghĩa Pj(i) và j(i) của

hẳn sắp xếp của chủ đề. Phép đo RPP có khả năng khôi phục iterm phù hợp và cả

mỗi hàng đã đợc tính. Pj(i) và j(i) giới thiệu thứ tự trung bình của bức ảnh thứ i

khả năng loại bỏ iterm không phù hợp. Sự bất lợi duy nhất của RPP là bỏ qua sự

cho truy vấn j và phép đo đợc thoả thuận trong một thứ bậc khép kín tơng ứng

phù hợp của với truy vấn. Sự bất lợi này là không quan trọng nếu tập dữ liệu là

với Pj(i). Nếu mỗi truy vấn j, một thuật toán tìm kiếm trở thành một iterm I tại

một phân lớp. RPP là phép đo sự thực hiện u việt hơn PWH và PSR. Đặc biệt

thứ tự Pj(i) thì khi đó thoả thuận giữa thuật toán xếp hạng và sự xếp thứ bậc do


thích hợp để đo sự thực hiện khôi phục dữ liệu trên tập dữ liệu lớn và đợc phân

con ngời thực hiện đợc đo bởi PSR Sj(i):

lớp.
1.3.3. Trích chọn đặc trng hình dạng.
Trích chọn thông tin hình dạng từ dữ liệu ảnh tập trung ở đờng viền và
nhận thức về hình dạng là không thay đổi đối với thay đổi độ tơng phản( thay
đổi trong độ chia màu sắc và độ chói) . Hình dạng hình học có đợc mô hình nh


- 31 -

đờng cong khép kín. Tuy nhiên trong một vài quan sát gần đây một phần đối

- 32 -

Trong chơng này một vài công cụ cơ bản sẽ đợc sử dụng trong việc tìm

tợng khi quan sát bị ẩn bởi các đối tợng khác, mặc dù vẫn còn giới hạn trong

kiếm, nhận dạng ảnh dựa vào hình dạng và trích chọn các đặc trng đã đợc nhắc

nhận thức của con ngời khi nhận dạng hình dạng trong ảnh.Vì vậy nhân tố hình

lại. Những lý thuyết và thuộc tính quan trọng của hai công cụ trích chọn đặc

dạng thực sự không trọn vẹn các cung tơng ứng của đờng viền đối tợng, chỉ là

trng tức là biến đổi Fourier và không gian độ chia đã đợc mô tả và bàn luận.


một đoạn đối tợng. Trong luận văn này chấp nhận biểu diễn nhân tố hình dạng

Hai công cụ mà những đặc trng hình dạng có đợc từ những miền khác nhau.

với bất kỳ đoạn cung nào. Thông tin về việc trích chọn nhân tố hình dạng từ ảnh

Với biến đổi Fourier có đợc các đặc tính từ miền phổ và không gian độ chia có

nh thế nào là không cần thiết cho moment, ta sẽ tính toán tập các nhân tố hình

đợc các đặc trng từ miền không gian. Cả hai công cụ đều hữu ích cho phân tích

dạng đợc trích chọn từ một ảnh đợc giới thiệu phù hợp với biểu diễn ngữ nghĩa

hình dạng bởi chúng có khả năng thu đợc đặc trng tín hiệu của một hình dạng

hình dạng của chúng.

khi loại trừ bớt nhng chi tiết hình dạng tinh tế nhất.

Khi hình dạng là đối tợng bị ảnh hởng của méo dạng xa gần, bằng nhận

Các phép đo sự giống nhau khác và phép đo sự thực hiện cũng dợc thảo

thức của mình con ngời vẫn có thể nhận dạng dạng đúng đối tợng. Để so sánh,

luận. Phép đo sự giống nhau khác đợc ớc lợng sử dụng các đặc trng ảnh tổng

biểu diễn hình dạng là không đổi với các phép biến đổi này và không đề cập tới


quát và tập CSDL hình dạng tiêu chuẩn. Các kết quả thí nghiệm chỉ ra phép đo

các phép biến đổi trong đối sánh hình dạng, vì chúng cho phép vạch ra một lớp

khoảng cách khối trung tâm là phù hợp cho khôi phục ảnh dựa trên hình dạng.

lớn các cung thành một đờng tròn và vì thế vạch ra các cung tuỳ ý tạo thành

Tuy nhiên nó sẽ đợc sử dụng nh phép đo tơng đơng trong thí nghiệm khôi

cung tròn. Phép biến đổi trục đo có thể xấp xỉ cục bộ bằng phép biến đổi quan hệ.

phục ảnh trong suốt luận văn. Một khi những tập CSDL sử dụng cho thí nghiệm
trong luận văn đợc phân lớp thành tất cả các nhóm giống nhau và không giống
nhau, RPP sẽ đợc sử dụng cho phép đo sự thực hiện.

Hình 1:a ảnh ký tự,b) mức đờng tơng ứng, c) Đoạn mức đờng
Từ nhân tố hình dạng khá cục bộ yêu cầu biểu diễn nhân tố hình dạng dạng hình
học không thay đổi. Phần lớn các ứng dụng chỉ cần tơng đơng không đổi là
đủ. Vì vậy, Có thể biểu diễn mỗi nhân tố hình dạng S bằng danh sách của K bộ
mô tả quan hệ hoặc sự tơng đồng không đổi, gọi là Code(mã) Hình 1
1.4. Thảo luận


- 33 -

Chơng 2

Phơng pháp tách contrario


- 34 -

dạng đợc biến đổi từ ảnh đầu tiên đến ảnh thứ hai bằng cùng phép biến đổi.
Chính điều này dẫn tới việc tìm nhóm các nhân tố hình dạng có thể tính toán nh
tách nhóm thông thờng.
Vấn đề của việc tìm ra nhóm trong tập cơ sở dữ liệu là một nghiên cứu

Phơng pháp tách contrario nhằm giải quyết 3 vấn đề cơ bản trong phân

thực sự. Nó bao gồm việc nhận dạng, phân lớp đối tợng trong CSDL. Tất cả các

tích nhóm: đầu tiên là ớc lợng giá trị của nhóm, thứ hai là vấn đề nhóm có ý

phơng pháp phải đối mặt với ba vấn đề tổng quan đã nêu trên. Dubes và Miligan

nghĩa này lại thờng chứa trong các nhóm có ý nghĩa khác, cần thiết phải định rõ

và Cooper đã giới thiệu giải pháp để lựa chọn số nhóm, mỗi nhóm chú ý đến qui

nhóm có ý nghĩa nhất trong số các nhóm đó, thứ 3 là định rõ qui tắc kết hợp giữa

tắc dừng trong phơng thức thứ bậc. Phơng pháp Contrario định nghĩa một

các nhóm có ý nghĩa cho phép quyết định có sự riêng biệt giữa các nhóm hay

phơng pháp cơ sở cho các phép đo sự tập trung của các điểm. Trong phơng

chúng chỉ là một, nhằm mục đích nhận dạng hình dạng. Thuật toán đối sánh đợc


pháp này, phân lớp sắp xếp tập các đoạn đợc đề cập và nhóm có ý nghĩa đợc

tính toán tơng ứng của các nhân tố hình dạng giữa hai ảnh đem so sánh và thiết

tách. Sự thuận lợi của các thủ tục chính là tính hệ thống, và có thể tổng quát

lập mối quan hệ không gian giữa các đối sánh nhân tố hình dạng đa vào ảnh.

chung cho bất cứ chiều nào (mặc dù gánh nặng tính toán trở nên quá nặng). Tuy

Mỗi cặp đối sánh hình dạng dẫn tới 1 biến đổi xác định. Chơng này giới

nhiên không giải quyết đợc vấn đề ra quyết định, Grimson và Hutterloche giới

thiệu lý thuyết lựa chọn nhóm đúng để nhóm các nhân tố hình dạng thành một

thiệu một nghiên cứu trên Likelihood của điểm sai trong không gian tham số

hình dạng dựa vào việc tách nhóm trong không gian biến đổi.

Hough. Công việc này làm cơ sở cho phơng pháp tách đợc giới thiệu. Các

Thực hiện nhóm nhằm mục đích phát hiện ra các cấu trúc bằng cách phân

phơng pháp nhận dạng trớc đó kết hợp một ngỡng đơn với mỗi ảnh mục tiêu,

chia điểm trong tập dữ liệu điểm thành các nhóm tự nhiên. Phơng pháp này sử

độc lập với các cảnh phức tạp. Ngợc lại với các phơng pháp trên, theo phơng


dụng cho vấn đề nhận dạng, đa vào hai ảnh, trả lời câu hỏi: hai ảnh có hình

pháp này ngỡng nhóm để nhóm bị chia phải đáp ứng xác suất quan trọng.

dạng nào chung. Thay vì phải phân tích nhiều nhân tố hình dạng và định rõ

2.1. Cluster có thứ bậc và đánh giá giá trị

chúng trong mỗi cặp ảnh đợc đề cập mỗi nhân tố hình dạng đợc định nghĩa

2.1.1.Giá trị nhóm Contrario

theo nhiều cách: nhân tố hình dạng tơng ứng nh các đoạn mức đờng đã đợc
mã hóa trong mối quan hệ xác định. Bớc nhận dạng tiếp theo là đối sánh sự
tơng đồng của các nhân tố hình dạng. Khi các nhân tố hình dạng là một đoạn
của mức đờng, mỗi thủ tục đối sánh với 1 phân tích tách biên đợc mô tả chi
tiết. Kết quả của thủ tục là một tập các cặp đối sánh nhân tố hình dạng. Do đối
sánh cục bộ không tách hai nhân tố hình dạng của cùng 1 hình dạng đơn vì vậy
các nhân tố hình dạng phải nhóm cùng nhau. Các nhóm tập các nhân tố hình

Định nghĩa một phép đo định lợng giá trị nhóm các điểm. Một nhóm sẽ
đợc đề cập nh một vùng có ý nghĩa khi nó hàm chứa trong vùng có một vài
điểm mong đợi nếu nh dữ liệu đợc xác định tại một không gian. Từ đó, một
phơng thức xác suất phải đợc định nghĩa chính xác, thậm chí nó sẽ đợc yêu
cầu.
2.1.1.1. Cơ sở:


- 35 -


- 36 -

Trong tất cả các công thức sau, E lấy từ tập phụ RD, để lại với một phép đo
xác suất (nó sẽ đợc gọi là luật cơ sở). Định nghĩa (R) là xác suất tại một
không gian điểm phụ thuộc R.
Định nghĩa của là một vấn đề cụ thể tổng quan đa ra một xác suất biết
trớc hoặc có thể ớc lợng theo kinh nghiệm trên tập dữ liệu.
Định nghĩa 2.1: Một xử lý nền là một xử lý các điểm có hạn (Xi) i= 1...M
trong E từ các biến độc lập với nhau, định dạng phân bố theo luật .
Trình bày tập dữ liệu của M điểm (x1, x 2,... xM) trong EM , một tập phụ của
tập dữ liệu sẽ là nhóm có nghĩa nếu các điểm quan trọng thuộc vào một vùng rất
nhỏ, ở đó xác suất của những điểm này rất nhỏ. Vì vậy, cơ sở của phơng thức
Contrario là trái với giả thiết dới đây:
(A): mô tả M Xi (i = 1,. M) là một xử lý nền thực sự.
Giả thiết cho khoảng cách E = (0,1)2 và đồng dạng luật E. Đem M điểm
trong E = (0,1)2; nó luôn có thể tìm một kết nối tập R với xác suất nhỏ tuỳ ý (R)

Dạng luật nhị phân xử lý nền X1...X M và vùng R E với xác suất (R), 1 có
thể giải thích nh xác suất tại điểm cuối k ngoài các điểm M của việc xử lý vào
trong tập R. Mặc dù nghiên cứu dạng nhị thức và chúng sử dụng trong tách cấu trúc
hình học có thể tìm thấy.
Cho 1 j M và R' R
Chú ý:
X = (X1...XM): xử lý nền.
Xj = (X1... XM): Xj thành phần bị thiếu.
K (Xj, Xj, R'): số các điểm trong danh sách Xj phụ thuộc Xj + R'.
Định nghĩa 2.2: Đặt R là một vùng dạng R = Xj + R'
j (1,...,M) và R' R. Gọi số cách báo sai của R = Xj + R'
(2.1)
Gọi R = Xj + R là một vùng có nghĩa nếu NFAg(X, j, R ) .

'

bao hàm trong mọi tập dữ liệu điểm. Trong thực tế, định nghĩa một nhóm có
nghĩa sẽ bao hàm tổng có hạn các vùng phụ.
2.1.1.2. Nhóm có ý nghĩa.
Đề cập một vùng RE bao gồm vùng gốc, giả thiết k điểm trong số x1...xM
phụ thuộc vùng có dạng xj + R, cho 1 j M, nếu k đủ lớn, và (xj + R) đủ nhỏ,
chúng sẽ mô tả một tập hợp điểm trong vùng xj + R. Nhóm các điểm này sẽ đợc
tách trong xj + R, bằng phơng pháp trái ngợc với phơng pháp nền.
Giả thiết các điểm thay đổi, nhóm có thể đợc gộp lại quanh điểm xj bất
kỳ và có hình dạng bất kỳ. Fix cứng xác suất cho trớc, vùng R sẽ phải thuộc vào
tập vùng gốc R có giới hạn, nó sẽ đợc mô tả kỹ hơn. Giả thiết đơn giản hơn R giới

'

Chú ý NFAg(X, j, R') cũng đợc biểu thị bởi NFAg(R). Mục đích của chúng
ta là giới thiệu mở rộng số lợng vùng có ý nghĩa là nhỏ hơn .

Proposition 2.1
Nếu X1...XM là một xử lý nền, sự mở rộng số vùng có nghĩa nhỏ hơn .
Để tính toán số các cảnh báo lỗi là phép đo sự giống nhau giữa các nhóm
chứa trong vùng R nh thế nào trong một tập dữ liệu điểm này ẩn chứa trong k điểm
dữ liệu khác. Mức NFAg(R) thấp hơn, (Prop 2.1) thông số điều khiển tách là .
Mệnh đề dới đây chỉ ra ảnh hởng của tham số #R và của thông số quyết
định trong kết quả tách biên là rất ít.
Mệnh đề 2.2: Đặt R là một vùng của R

hạn các dự tuyển #R và với mọi RR, O R. k M N và 0 p 1

(2.2)



- 37 -

- 38 -

Hai vùng R R', câu hỏi này dễ dàng trả lời bằng việc so sánh NFAg(R) và
NFAg(R'). Vùng có số lợng các cách báo sai nhỏ nhất là phù hợp hơn. Một cách
hỏi khác khi 3 hoặc nhiều vùng liên kết với nhau, vì vậy phải yêu cầu một tiêu
chuẩn hỗn hợp. Đầu tiên sẽ định nghĩa số cảnh báo sai cho một cặp vùng. Giá trị
Chú ý: k () là giá trị nhỏ nhất của điểm trong nhóm có nghĩa . Bằng kết quả
*

mới này đợc so sánh với NFA của vùng hỗn hợp. Giới thiệu 3 hệ số danh nghĩa.

dự đoán, quyết định ngỡng này chỉ có loga phụ thuộc #R và .

(2.3)
Chú ý: Số này đợc diễn dịch nh sau: đặt R1 và R2 là hai vùng tách rời của E
và 1= (R1), 2 = (R2) xác suất của chúng à(M, k1 , k2, 1 , 2) là xác suất tại giá
trị nhỏ nhất k1 trong số M điểm và tại điểm thấp nhất k2 trong số M-k1 điểm, theo
thứ tự là vùng R1 và R2. Mục tiêu là định nghĩa 1 NFA mới cho mỗi thành phần.
Đặt 1giao nhau và phải thực sự với xác suất này. Chú ý: đợc mô tả bằng sự thay đổi hoàn

Hình 2.2: Nhóm dữ liệu 950 điểm đồng dạng

toàn vai trò i và j:

Hình 2.2 chỉ ra một ví dụ của nhóm dữ liệu bao gồm 950 điểm đồng dạng

phân bố trong một đơn vị vuông và 50 điểm thêm vào xung quanh (0,4;0,4) và
(0,7;0,7) xung quanh 950 điểm; phân bố đồng đều trong một đơn vị vuông. Trong ví
dụ này #R= 2500 (50 kích cỡ khác cho mỗi chiều). Chính xác hai nhóm lớn nhất
đợc tách (hình 2.2) NFA của miền trái thấp hơn 10-8 trong khi NFA bên phải 107

2.1.2. Tiêu chuẩn kết hợp tốt nhất.
Trong mục 2.2.1.2 đã giới thiệu hạn chế không gian của việc kiểm tra vùng từ
Xi+R, Xi là mô tả dữ liệu và R R , một tập hỗn hợp có giới hạn các vùng chứa

Định nghĩa 2.3: Gọi số cách báo sai của 2 cặp vùng bất kỳ (Ri, Rj) = (X i+
'

R , Xj + R'')

vùng gốc trong R . Độ d thừa cao khi mỗi vùng có nghĩa lại liên quan tới tập mô tả
D

biểu diễn các vùng có nghĩa khác.

(2.4)


- 39 -

- 40 -

Cặp vùng bất kỳ(Ri,Rj) là có ý nghĩa nếu NFAgg(X,i,j,R',R'') < , NFAgg
Bằng Lenma 2.1, với (M 1, k , p ) (M , k , p ) cho mọi M, k, p công thức

(X,i,j,R',R'') cũ sẽ đợc chứa trong NFAgg (Ri,Rj).

Mệnh đề 2.3: Số cặp vùng lý tởng nhỏ hơn

biểu diễn nh sau:

Mệnh đề này dẫn tới 2 phép đo kém ý nghĩa: NFA của vùng và NFA của cặp
vùng. Từ số lợng vùng có ý nghĩa trong phơng thức nền ở trên đề cập tới biên độ
tơng tự nhau đợc so sánh để định nghĩa một tiêu chuẩn hỗn hợp
Định nghĩa 2.4 (Vùng riêng biệt): Đặt R1 và R2 là hai vùng riêng biệt và R là

Mệnh đề 2.4 là hữu ích cho tính toán tổng quan, có thể tránh việc phải tính
toán chi tiết 3 phân bố bằng bộ lọc các cluster đó .

một vùng chứa tất cả các dữ liệu điểm của R1 và R2. Nói rằng R là riêng biệt mối

2.1.3. Vấn đề tính toán

quan hệ với R1 và R2 nếu:

2.1.3.1. Lựa chọn vùng thử.
Tập đúng của các vùng thử R nh thế nào? Một vài lý do a > 0, r > 0 và n

(2.5)
Tập R là vùng thử và R là một nhân tố của R. R là riêng biệt trong R nếu nó
độc lập quan hệ với mọi cặp vùng (R1, R2) chứa trong R; mỗi R chứa các điểm của
vùng R1, R2 công thức (2.5) giới thiệu một phép thử chủ yếu cho kết cấu một tập hợp
vùng Cluster. Nếu công thức 2.5 không xảy ra vùng thử đợc coi nh vùng không

N đề cập tới tất cả mọi vùng mà chiều dài đờng biên thuộc vào tập {a, ar, ar2,
arn}. Liên hệ với một số vùng thử có nhiều hình dạng kích cỡ khác nhau. Để đơn
giản lựa chọn vùng thử có hình chữ nhật thích hợp với xác suất phân bố p đợc định

nghĩa trên miền chữ nhật E của RD là kết quả kéo căng một chiều tơng ứng.

có giá trị, có nghĩa vùng thử có thể chia thành nhiều cặp vùng có nghĩa khác trong

Định nghĩa 2.2: thừa nhận tính toán NFA của bất cứ vùng thử nào tại dữ liệu

Cluster. Lenma tiếp theo sẽ cung cấp sự hữu ích trong việc gia tăng quyết định hỗn

điểm. Từ số lợng các độ chia là n cho mỗi chiều có MnD vùng tại dữ liệu điểm. Từ

hợp.

số lợng các điểm quan sát khả thi. MnD sẽ rất lớn khi n tăng. Điều này giải thích
Lenma 2.1: Mỗi giá trị k1 và k2 trong (0,., M). Mỗi k1, k2 M và mỗi 1 và

tại sao phép thử không thể thực hiện theo cách này. Tốt hơn nên giải quyết cây cấu
trúc của tập dữ liệu điểm mô tả bằng thuật toán tập trung thứ bậc. Tổ chức thứ bậc

2 [0,1] sao cho 1 + 2 1.

dữ liệu đợc sử dụng để giới hạn các vùng thử, bằng thủ tục nh sau:
(2.6)
Mệnh đề 2.4: Nếu R là riêng biệt với chú ý tới R1 và R2

Bớc 1: Bằng việc áp dụng phơng pháp tập trung thứ bậc, phơng pháp này
cung cấp 1 tập hợp các tập con ẩn trong tập hợp điểm. Cấu trúc cây mà trong đó mỗi
nút là một phần của tập dữ liệu và là một ứng viên Cluster. Cây này gọi là
dendgrogram.

Từ mệnh đề (2.4) và định nghĩa (2.4)


Phần lớn các thủ tục đợc thực hiện bởi việc lặp lại thủ tục nhị phân hỗn hợp.
Vì vậy trực tiếp thiết lập cây nhị phân trong mỗi phơng pháp, bớc khởi đầu: thiết
lập nút là tập dữ liệu đơn {x1}...{xN}.Tại mỗi giai đoạn xây dựng 2 nút cha của


- 41 -

chúng. Khoảng cách nhóm, Cluster phải đợc lựa chọn địa chỉ học. Trong trờng

- 42 -

2.1.3.2. Riêng rẽ và cực đại.

hợp mật độ phân bố dữ liệu ít, bớc 1có thể khoảng cách nhỏ nhất d(xi, xj) tại xi phụ

Đối mặt vấn đề có thể có nhiều nhóm có nghĩa bởi phơng pháp trớc,

thuộc cluster đầu tiên và xj ở bớc 2. Các nút của cây đợc tích hợp tất cả các phần

NFA của chúng đã biết. Có thể cùng tính toán NFA của cặp cluster và so sánh

tại tất cả các mức và lớp "cháu" của nút là 2 phần mà đã đợc tích hợp từ đó.

thô với NFA hợp nhất của chúng. Định nghĩa tiếp theo giới thiệu một cách để lựa

Tại sao mỗi một cấu trúc lại cần thiết, trờng hợp tập các đoạn trong tập dữ
liệu điểm lớn, thừa nhận một cấu trúc cây để giảm bớt việc khảo sát tỉ mỉ nhằm
nghiên cứu một cây phụ tốt nhất đối với cấu trúc cây khởi tạo. Việc giảm bớt này dễ
bị ảnh hởng nếu tập các nút của cây khởi tạo bao gồm tất cả các nhóm trong tập dữ


chọn cluster đúng, bằng việc sử dụng dendrogram cluster
Định nghĩa 2.5 ( Cực đại nhóm có nghĩa )
Một nút vùng R = R(G) trong R là ý nghĩa cực đại nếu và chỉ nếu:

liệu. Sự lựa chọn phép đo chính xác trên tập dữ liệu điểm và của khoảng cách cluster

1/ NFAg(R)

nguyên phải đợc định rõ cẩn thận.

2/ R là riêng rẽ quan hệ với mọi cặp của sự xuống dốc.

Đem đến một dendrogram của tập cơ sở dữ liệu điểm, thuật toán dới đây
chấp nhận khảo sát tỉ mỉ tất cả các vùng tại dữ liệu điểm và hàm chứa một nút của
dendrogram.

Thuật toán nhóm
Mỗi nút G trong cây cluster hoặc dendrogram.
1- Mỗi điểm x thuộc nút:

a) Tìm vùng nhỏ nhất x + R trung tâm tại điểm này, và chứa các dữ liệu
điểm khác của nút. Gọi k+1 là số điểm dữ liệu mà nó chứa trong.

3/ Mọi sự giảm độc lập R', NFAg(R') NFAg(R)
4/ Mọi sự tăng độc lập R', NFAg(R') >NFAg(R) hoặc tồn tại một sự giảm
độc lập R'' của R khi NFAg(R'') < NFAg (R'). Ta nói rằng G là vùng ý nghĩa lớn
nhất nếu là R(G).
Điều kiện 4 bao hàm R có thể bị từ bỏ cho một vùng rộng hơn nếu vùng đó
không bị áp đặt bởi một sự giảm. áp đặt điều kiện 3 và 4 chắc chắn 2 nhóm vùng

ý nghĩa cực đại khác nhau là riêng rẽ. Lu ý rằng sự riêng biệt đợc yêu cầu chỉ
với mối liên hệ của cặp giảm. Định nghĩa 2.4 đáp ứng lý thuyết nhng không đáp

b) Tính toán NFA của vùng nh M.# R.B (M-1, k, p (x+R))

ứng trong thực hành.

2- Kết hợp với nút G của vùng R(G) với mức NFA đợc tính toán thấp

2.2. Kinh nghiệm có giá trị: Nhóm đối tợng dựa trên đặc trng thành phần

nhất, nó chứa điểm của nút G nhng cũng có thể chứa dữ liệu điểm khác.

Hiện tợng nhóm là cần thiết trong nhận thức của con ngời từ đó chúng

Từ thuật toán này đợc tính toán, một vùng ứng cử đợc kết hợp với mỗi

đáp ứng cho tổ chức thông tin. Mục tiêu của những kinh nghiệm này để trích

nút bằng một chủ ý lạm dụng sự vô hại, chú ý NFAg(G) = NFAg(R(G)). Cách

chọn nhóm đối tợng trong ảnh, đó là hình dạng hình học mà một vài thành phần

tơng tự, nếu G1 và G2 là một cặp nút và R(G1) và R(G2) là vùng của chúng. Chú

sở hữu. Đờng viền đối tợng đợc trích chọn nh một vài đờng mức tơng

ý NFAgg(G1,G2) = NFAgg(R(G1), R(G2)). Bằng cách này, cây cluster đợc để lại

giảm trong ảnh, gọi là mức đờng có ý nghĩa ([5] cho mô tả đầy đủ của thủ tục


cho NFAg và cho các cặp nút. Đặt R của vùng dạng R(G) thừa hởng từ cấu trúc

trích chọn này). Từ những đối tợng đợc tách gọi là O1...OM, có thể tính toán

ấy.

cho chúng một mục D đặc trng (độ chói, hớng, độ tơng phản...) Nếu k trong


- 43 -

- 44 -

số M đối tợng có một vài đặc trng chung, liệu điều gì sẽ xảy ra khi thay đổi

Các nhóm đợc nhận thức nh 1 kết quả cộng tác giữa hai đại lợng trong

hoạc C nó có đủ để nhóm chúng. Mỗi dữ liệu điểm là một điểm trong tập đờng

khác nhau. Hình 2.6 chỉ ra 71 phân đoạn thẳng với hớng khác nhau; dờng nh

viền của RD và phơng pháp đã mô tả ở trên đợc ứng dụng (thực tế, một vài các

vị trí phân bố đồng dạng.
Không cluster có ý nghĩa nào đợc tách trong không gian sắp xếp vị trí của

ngang cấp nh góc phụ thuộc vào đơn vị tròn, từ tính chung kỳ phải đợc đặt vào
hàng đội, điều này có thể thực hiện với các cách tơng tự).


chúng. Trong tất cả các kinh nghiệm, số của kích ảnh hình chữ nhật trong mỗi

2.2.1. Nhiễu điểm

lần tách là 50. Vì vậy #R= 50D.

Mỗi cái chứa 2 nhóm 25 điểm thêm vào 950 không đồng dạng trong một
đơn vị vuông. Hai nhóm và 2 nhóm đợc chọn với NFAg tốt (<10-7) kinh nghiệm
trong hình 5 chỉ ra sự quan trọng của phân bố trớc dữ liệu điểm. Hai phân bố
khác nhau dẫn tới 2 vùng có ý nghĩa cực đại khác nhau. Nhng cả hai mối quan
hệ đều đúng nhng lại phụ thuộc vào ngữ nghĩa.
Hình 2.5: Vấn đề quan trọng của phân bố phơng thức nền.
Hình 2.6: phân đoạn ảnh đã scan và 71 đờng mức có mức ý nghĩa cực đại.
Nếu hớng đợc lựa chọn nh một đặc trng (D=1); 8 nhóm có ý nghĩa
cực đại đợc tách; tơng ứng với hớng đợc biểu diễn rõ nhất. Không một
cluster nào đợc biểu diễn mức (trung tâm) NFAg thấp. Chỉ duy nhất một trong
số các nhóm đó là riêng rẽ nhng hớng rõ ràng không phải là một nhân tố. Chú
ý, nhóm này không bao gồm tất cả các phân đoạn trung tâm. Hớng của chúng là
khác nhau, và nhóm của 11phân đoạn không phải là cực đại. Tất cả các nhóm
Dữ liệu gốc là hình bên trái. Nó vị trí của 500 điểm trong 0,12 500iid điểm
trong (0; 0,5) x (0; 1) và 25 điểm quanh (0,2; 0,3). Trong phần giữa; 1 phân bố
trớc trong phơng thức nền mang lại đồng dạng. Sau đó, một vùng có ý nghĩa

khác nhau thực sự không đợc cảm nhận bởi vì chúng bị che phủ bởi sự lộn xộn
tạo ra từ tất cả các đối tợng khác nhau. Tuy nhiên, một nhóm không thể có đối
tợng chúng có một kết cấu phức tạp.
Trong hình 2.7, có 8 nhóm có ý nghĩa cực đại. Thứ tự từ NFAg từ 10-1 đến

cực đại và độ rộng đơn đợc tách, bao gồm 793 điểm và lg (NFAg)=44,9. Hình
-5


bên phải, phân bố đợc định nghĩa nh sản phẩm của phân bố lề theo kinh
nghiệm trong tách dọc và tách ngang. Vùng có ý nghĩa cực đại đơn (log10(NFAg) = 1,6) nhng bây giờ nó không phù hợp với nhóm nhỏ nhất.
2.2.2. Phân đoạn

10 nhóm central không bao gồm tất cả các phân đoạn dọc, bởi vì hớng không
chính xác. Từ đó nhóm cực đại bao gồm phân đoạn dọc không bao gồm tất cả các
đối tợng centra. Điều có nghĩa một mình hớng không ảnh hởng tới tách nhóm


- 45 -

- 46 -

này. Nó cho phép tách nhóm tốt, nhng vị trí của chúng không đủ kết cấu để tạo

đợc mô tả trong không gian (x coordinate, y, hớng) với mức thấp hơn NFAg

thành kết cấu rõ ràng.

=10-34.

Hình 2.8: nhóm trong không gian(toạ độ x, hớng)
Trong hình 2.8, có 2 nhóm có ý nghĩa lớn nhất thời gian này nhóm trung
Hình 2.7: Nhóm với mối quan hệ tới hớng.

tâm đợc tách (NFAg = 10-1,5) nhng có một nhóm khác (nhóm một phần nhóm

Xem xét khi đề cập tới hai đặc trng (D =2; #R = 2500) trong không gian (sắp


thứ 7 trong hình 2.7). Tuy nhiên NFAg của nó = 0,3 có nghĩa nó là khó có ý

xếp, hớng). Hai cluster có ý nghĩa cực đại đợc tìm thấy nh mong đợi nhóm có

nghĩa. Nếu nhóm đợc thực hiện với mối quan hệ lắp đầy vị trí 2 chiều và hớng,

ý nghĩa nhất là nhóm G, 11 phân đoạn dọc. NFAg của nó là 10-1,5 nó không thấp.

chỉ nhóm trung tâm đợc tách NFAg = 10-3,4.

Nhóm thứ 2 là chính xác nhng ý nghĩa NFAg =0,3 là rất khó khăn. Chúng khó

2.3. Kết cấu nhóm không gian tơng ứng

tơng xứng NFAg = 0,3 trong không gian [ y...] sắp xếp va vị trí nhóm trung tâm

2.3.1. Tại sao phải tách kết cấu không gian.

G đợc chia thành 2 cluster có ý nghĩa cực đại. Chúng tơng ứng với 2 hàng của

Hình 2.9, có thể nhận dạng rõ ràng ở vùng trái phía dới của ảnh một bức

phân đoạn sắp xếp G vai trò của tiêu chuẩn hỗn hợp là quyết định ở đây. Trong

tranh chi tiết của Picasso. Tuy nhiên, bức tranh đã không hoàn thành và phía dới

không gian (y - coordinate, hớng) sự kết hợp tiêu chuẩn cực đại và tiêu chuẩn

ảnh bị che lại. Nó cũng bị biến dạng bởi điểm nhìn xa. Tuy nhiên, tốc độ nén là


hỗn hợp, điều đó có ý nghĩa hơn để mô tả tại cùng một thời điểm 2 hàng của 1

khác nhau. Nhận dạng hình dạng đợc mô tả từ các điểm nhìn khác nhau và yêu

phân đoạn hơn ở trong một nhóm. Đây là trực quan, từ đó chúng ta thực sự thấy 2

cầu ngăn chặn cảm nhận trực quan. Bộ mô tả hình dạng đủ rõ ràng, cục bộ hoặc

hàng của các phân đoạn tại đây. Trái lại không gian (trong sự sắp xếp x, hớng) k

bán cục bộ. Mô tả hình dạng gọi là nhân tố hình dạng trong phần tiếp theo. Tính

tiêu chuẩn hỗn hợp chỉ ra mô tả G có ý nghĩa hơn mô tả hỗn hợp các lớp con của

toán thí dụ của một truy vấn hình dạng đợc biểu diễn trong một cảnh, phơng

nó trong dendrogram. Quyết định này vẫn còn thích nghi với mô tả. Không một

pháp để nhận dạng nhân tố hình dạng tơng tự là có thể. Nó sẽ sẵn sàng cung cấp

nhóm thực tế nào với G có thể là đặc biệt với chú ý tới sắp xếp x. Nhóm tơng tự

một vài cặp chính xác, những cung cấp sai, từ nhân tố hình dạng chỉ cung cấp
thông tin cục bộ, hai đối tợng khác có những phần tơng tự có thể biểu diễn một


- 47 -

vài nhân tố hình dạng tơng ứng. Vì vậy nhận dạng yêu cầu tìm ra tập phù hợp


- 48 -

Từ nhân tố hình dạng đợc chuẩn hoá thực hiện nhận dạng mối quan hệ tự nhiên

các cặp, một tập các cặp trong hình dạng tự nhiên.

bất biến. Một mô tả contrario đợc giới thiệu để tơng ứng với nhân tố hình

2.3.2. Đối sánh nhân tố hình dạng

dạng. Một số lợng các cảnh báo sai của sự tơng đồng đợc định nghĩa và tơng

Lợi ích của việc hoàn thành, khái quát từng bớc chính của trích chọn đặc

ứng với số các cảnh báo đợc giữ lại.

trng hình dạng và thuật toán thích hợp đợc mô tả và mô tả thủ tục nhóm. Mô tả

Đặt I và I là hai ảnh, tham khảo từ ảnh mục tiêu và cảnh. Mỗi cái tơng

đầu tiên là đờng viền của đối tợng ở mức xám của ảnh rất hợp nhau, cuối cùng

ứng giữa một nhân tố hình dạng S trong I và một nhân tố hình dạng S trong I,

với đoạn các mức đờng (hoặc) đoạn cover không phải luôn đúng: thực vậy, mức

biến đổi hình dạng( biến đổi mối quan hệ hoặc sự tơng đồng ) đợc tính toán

đờng cung cấp một biểu diễn hoàn chỉnh của mức xám ảnh và chúng có nhiều


chấp nhận các tham số chứa trong nó nh thế nào đợc mô tả theo cách ớc

mức trong kết cấu. Vì vậy bớc đầu tiên là lựa chọn một tập nhỏ trong tất cả các

lợng đúng và cung cấp hình dạng tơng ứng với một hình dạng có thể thích hợp

mức đờng của ảnh. Phơng pháp contrario đợc giới thiệu và lựa chọn mức

mối quan hệ tốt nhất.
Phần này: cung cấp nhân tố hình dạng tơng ứng hình dạng đơn đợc

đờng gọi là đờng viền có ý nghĩa. Nó chấp nhập lựa chọn khoảng 1% mức
đờng của một bức ảnh không mất nội dung hình dạng. Mức đờng này uốn cong

nhóm cùng nhau. Nhóm NFA của chúng nhỏ nên việc tách đáng tin cậy.

và gặp đờng viền ảnh ở điểm cuối cùng.
Nhận dạng hình dạng là công cụ mạnh, vì thế đờng viền có ý nghĩa phải
chia cắt trong đoạn nhỏ hơn gọi là nhân tố hình dạng. Các hình dạng không đổi
phải yêu cầu mã hóa nhân tố hình dạng không đổi; phơng pháp mã hóa mối
quan hệ không đổi đợc giới thiệu. Chú ý trong một vài trờng hợp, phơng pháp
không đổi tơng đơng có thể đủ chính xác, phụ thuộc mức đờng có ý nghĩa,
các khung không đổi trong mối quan hệ cục bộ đợc tính toán trực tiếp dựa trên
mối quan hệ không đổi. Mỗi khung cục bộ định nghĩa một hệ thống tọa độ. Tọa

Hình 2.9: Thử nghiệm Guernica

độ của các điểm của một cung trong hệ thống, tọa độ này có thể không đổi. Hai

Trong hình 2.9, thử nghiệm Guernica . ảnh gốc và mức đờng có ý


đờng cong có độ cong khác nhau trong một biến đổi quan hệ đợc định nghĩa là

nghĩa cực đại [5]. Tất cả các mức nhân tố hình dạng không đổi đợc mã hóa và

hai khung cục bộ khác nhau. Tuy nhiên khi mô tả trong mối quan hệ của hệ

chuẩn hoá dựa trên sự phần đậm. Phía trên : ảnh mục tiêu; phía dới : ảnh và

thống tọa độ, chúng phải thiết lập cùng một vị trí. Từ đó chúng định nghĩa một

cảnh .

đoạn cong thông thờng gọi là một nhân tố hình dạng có quan hệ không đổi. Một
đờng viền có ý nghĩa thờng chứa trong một vài nhân tố hình dạng lấy từ hai
ảnh và hai tập nhân tố hình dạng, làm thế nào tìm thấy nhân tố hình dạng chung.


- 49 -

- 50 -

khung cục bộ (p,v) trên (p,v) bằng việc hoàn thành các chú ý. Sự tơng đồng
đợc tính toán :

Trong hình 2.11, hai đoạn của một mức đờng và khung tơng tự của
chúng. Biểu đồ T tơng đơng từ R1 R1; R2R2. Tính toán khung cục bộ (R1
R2) có thể biểu diễn theo:

Hình 2.10: thử nghiệm Guernica quan hệ tơng ứng ý nghĩa không đổi

Trong hình 2.10, thử nghiệm Guernica quan hệ tơng ứng ý nghĩa
không đổi. Hình này cho thấy biểu diễn nhân tố hình dạng chung cho hai bức ảnh
từ sự hạn chế tạo ra mối quan hệ bị bóp méo nhiều nhân tố hình dạng đợc chuẩn
hóa đờng cong khá giống nhau. Một biến đổi quan hệ xác định tơng ứng với sự
thích ứng giữa các nhân tố hình dạng.
2.3.3. Biến đổi mô tả
2.3.3.1. Trờng hợp tơng đồng
Đặt S và S là hai nhân tố hình dạng tơng đồng. Độ chính xác đó là một

Hình 2.11: Hai đoạn mức đờng và khung tơng ứng
2.3.3.2. Trờng hợp biến đổi mối quan hệ

nhân tố hình dạng của một đoạn mức đờng đợc chuẩn hoá hóa đã đợc mô tả

Đề cập tới trờng hợp bình thờng mối quan hệ không đổi. Các đỉêm không

trong frame cục bộ ( hình 2.11). Một khung không đổi tơng đơng hoàn toàn

thẳng hàng cần thiết để định nghĩa khung cục bộ. Mối quan hệ thông thờng của

đợc xác định bởi hai điểm hoặc một điểm và một vectơ. Biểu diễn này đợc

một đoạn cung đợc thực hiện bằng bản đồ ba điểm ở đây (R1, R2, R3) trên bộ ba

chọn lựa. Một khung cục bộ mang lại bằng một cặp ( p, v ) p là khung gốc v là

((0,0), (0,1), (1,0)). Một bộ ba khác (R1, R2, R3); đợc chú ý lại bởi T. Tồn tại

hớng và độ chia. Để tính S liên quan tới ( p, v ) và S liên quan ( p, v) từ S và


một ma trận M (2 x 2) và duy nhất (tx, ty) R2:

S tơng ứng, chú ý các bớc biến đổi sự tơng đồng, bây giờ biểu đồ tơng đồng