BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
***
TRẦN CƠNG CHIẾN
NGHIÊN CỨU MỘT SỐ KỸ THUẬT TÌM ĐIỂM BẤT ĐỘNG
TRONG ẢNH VÀ ỨNG DỤNG
Luận văn thạc sĩ công nghệ thông tin
Đồng Nai, Năm 2011
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
***
TRẦN CƠNG CHIẾN
NGHIÊN CỨU MỘT SỐ KỸ THUẬT TÌM ĐIỂM BẤT ĐỘNG
TRONG ẢNH VÀ ỨNG DỤNG
Chuyên ngành: CÔNG NGHỆ THÔNG TIN
Luận văn thạc sĩ Công nghệ thông tin
NGƢỜI HƢỚNG DẪN KHOA HỌC
PGS. TS: ĐỖ NĂNG TOÀN
Đồng Nai – Năm 2011
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của bản thân. Các số
liệu, kết quả trình bày trong luận văn này là trung thực. Những tƣ liệu đƣợc sử
dụng trong luận văn có nguồn gốc và trích dẫn rõ ràng, đầy đủ.
Học viên
Trần Cơng Chiến
LỜI CẢM ƠN
Trong quá trình làm luận văn vừa qua, dưới sự giúp đỡ và chỉ bảo
nhiệt tình của PGS. TS Đỗ Năng Tồn – Viện Cơng nghệ thơng tin – Viện
khoa học Việt Nam, luận văn của tôi đã được hồn thành. Mặc dù đã cố gắng
khơng ngừng cùng với sự tận tâm của thầy hướng dẫn nhưng do thời gian và
khả năng vẫn còn hạn chế nên luận văn khó tránh khỏi những thiếu sót.
Để hồn thành luận văn này, em xin bày tỏ lòng biết ơn sâu sắc đến
PGS. TS Đỗ Năng Toàn – người thầy đã tận tình giúp đỡ em trong suốt quá
trình làm luận văn.
Em cũng xin bày tỏ lòng biết ơn đến ban lãnh đạo và các thầy giáo, cô
giáo trong trường Đại học Lạc Hồng đã giúp đỡ, tạo điều kiện tốt nhất cho
em học tập và thực hiện luận văn này. Cuối cùng tôi xin chân thành cảm ơn
tất cả bạn bè và gia đình đã động viên, giúp đỡ tơi trong những lúc khó khăn.
Biên Hịa, ngày tháng năm 2011
Tác giả
Trần Công Chiến
CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT
2D
3D
CPU
RAM
SURF
K-D Tree
Auto-correlation matrix
Integral Image
Co-variance Matrix
CDSL
Differentiation Scale
DoG
Integration Scale
LoG
Scale
Second moment matrix
SIFT
2 Dimensions
3 Dimensions
Control Processing Unit
Random Access Memory
Speed Up Robust Feature
Cây đa chiều
Ma trận tƣơng quan tự động
Ảnh tích hợp
Ma trận đồng biến
Cở sở dữ liệu
Tỷ lệ vi phân
Difference-of-Gaussian
Tỷ lệ tích phân
Laplacian-of-Gaussian
Tỷ lệ
Ma trận moment cấp hai
Scale Invariant Feature Transform
DANH MỤC CÁC HÌNH V
Hình
Hình 1.1
Hình 1.2
Hình 1.3
Hình 2.1
Hình 2.2
Hình 2.3
Hình 2.4
Hình 2.5
Hình 2.6
Hình 2.7
Hình 2.8
Hình 2.9
Hình 2.10
Hình 2.11
Hình 2.12
Hình 2.13
Hình 2.14
Hình 2.15
Hình 2.16
Hình 2.17
Hình 2.18
Hình 2.19
Hình 2.20
Hình 2.21
Hình 2.22
Hình 2.23
Hình 2.24
Mơ tả
Sơ đồ tổng qt một hệ nhận dạng
Hai đối tượng trên mặt phẳng
Các tứ giác và hình trịn trên mặt phẳng hai chiều
Xây dựng một thể hiện không gian tỷ lệ
Các giá trị cực đại và cực tiểu của các ảnh DoG
Các giai đoạn lựa chọn các điểm khóa
Bộ mơ tả điểm khóa
Một thể hiện đa tỷ lệ của một tín hiệu
Các mức khác nhau trong một thể hiện khơng gian tỷ
lệ
Ví dụ về các tỷ lệ đặc trưng
Phát hiện điểm quan tâm bất biến tỷ lệ
Điểm quan tâm bất biến tỷ lệ trong các ảnh bị biến đổi
affine
Biểu đồ giải thích phép chuẩn hóa affine
Phát hiện lặp lại của một điểm quan tâm bất biến
affine
Phát hiện điểm quan tâm bất biến affine
Các xấp xỉ của đạo hàm bậc hai Gaussian
Thể hiện dạng hình chóp của khơng gian tỷ lệ
Biểu đồ tỷ lệ phát hiện
Những điểm quan tâm được phát hiện trên một cánh
đồng hoa hướng dương
Phép lọc Haar wavelet để tính tốn đặc trưng
Gán hướng cho các cho các điểm quan tâm
Chi tiết của ảnh Graffiti thể hiện kích thước của cửa sổ
bộ mơ tả hướng ở các tỷ lệ khác nhau
Xây dựng bộ mô tả
Các mục mô tả của miền con
So khớp giứa hai điểm quan tâm có đọ tương phản
khác nhau
Ảnh graffity
Ảnh so sánh về góc nhìn
Trang
8
8
9
20
21
24
28
32
34
37
40
42
45
52
54
57
58
59
59
61
61
62
63
63
64
65
66
Hình 2.25
Hình 2.26
Hình 3.1
Hình 3.2
Hình 3.3
Hình 3.4
Hình 3.5
Hình 3.6
Ảnh so sánh về cường độ sáng
Ảnh so sánh về tỷ lệ
Ví dụ về bài toán nhận dạng đối tượng
Sơ đồ chức năng nhận dạng đối tượng
Kết quả nhận dạng của ảnh chứa nhiều đối tượng
được huấn luyện
Kết quả nhận dạng đối tượng bị che khuất một phần
Kết quả nhận dang đối tượng trước và sau khi khoanh
vùng chọn đối tượng
Không nhận dạng được đối tượng khi bị che lấp quá
nhiều
66
67
68
70
73
74
75
76
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................. i
LỜI CẢM ƠN ................................................................................................... ii
CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT ............................................... iii
DANH MỤC CÁC HÌNH VẼ ......................................................................... iv
MỤC LỤC ......................................................................................................... v
MỞ ĐẦU .......................................................................................................... 1
Chƣơng 1: KHÁI QUÁT VỀ NHẬN DẠNG ĐỐI TƢỢNG VÀ ĐIỂM
BẤT ĐỘNG ..................................................................................................... 4
1.1 Tổng quan về nhận dạng đối tƣợng ......................................................... 4
1.1.1 Không gian biểu diễn đối tƣợng, không gian diễn dịch ................... 4
1.1.1.1 Không gian biểu diễn đối tƣợng ................................................ 5
1.1.1.2 Không gian diễn dịch ................................................................. 5
1.1.2 Mô hình và bản chất của nhận dạng đối tƣợng ................................ 6
1.1.2.1 Mơ hình ...................................................................................... 6
1.1.2.2 Bản chất của q trình nhận dạng .............................................. 7
1.1.3 Bài toán nhận dạng đối tƣợng ........................................................... 8
1.2 Điểm bất động và vai trò của điểm bất động trong nhận dạng đối tƣợng
...................................................................................................................... 10
1.2.1 Lý thuyết về điểm bất động ............................................................ 10
1.2.2 Vai trò của điểm bất động trong nhận dạng đối tƣợng ................... 11
1.2.2.1 Trích chọn các đặc trƣng bất biến từ các điểm bất động ......... 12
1.2.2.2 So khớp đặc trƣng .................................................................... 14
Chƣơng 2: MỘT SỐ KỸ THUẬT TÌM ĐIỂM BẤT ĐỘNG TRONG
ẢNH ............................................................................................................... 16
2.1 Harris ...................................................................................................... 16
2.2 SIFT (Scale Invarian Feature Tranforms) ............................................. 19
2.2.1 Phát hiện cực trị ............................................................................... 19
2.2.1.1 Tần số lấy mẫu theo tỷ lệ ......................................................... 21
2.2.1.2 Tần số lấy mẫu trong một vùng không gian ............................ 22
2.2.2 Định vị các điểm khóa .................................................................... 23
2.2.3 Gán hƣớng cho các điểm khóa ....................................................... 27
2.2.4 Xây dựng bộ mô tả cục bộ .............................................................. 28
2.3 Harris-Laplacian .................................................................................... 31
2.3.1 Khơng gian tỷ lệ .............................................................................. 31
2.3.2 Hàm Harris thích nghi tỷ lệ ............................................................ 34
2.3.3 Sự lựa chọn tỷ lệ tự động ................................................................ 36
2.3.4 Thuật toán phát hiện điểm bất động ............................................... 37
2.3.4.1 Thuật tốn ................................................................................. 38
2.3.4.2 Một vài ví dụ ............................................................................ 39
2.4 Harris-Affine ......................................................................................... 40
2.4.1 Mục tiêu .......................................................................................... 41
2.4.2 Ma trận moment cấp hai Affine ..................................................... 41
2.4.2.1 Phép biến đổi affine của ma trận moment cấp hai ................... 43
2.4.2.2 Phép đo tính đẳng hƣớng ........................................................ 45
2.4.3 Kỹ thuật phát hiện điểm bất động ................................................... 47
2.5 SURF (Speed Up Robust Feature) ........................................................ 55
2.5.1 Ảnh tích hợp (integral image) ......................................................... 55
2.5.2 Phát hiện Fast-Hessian .................................................................... 56
2.5.3 Sự biểu diễn không gian tỷ lệ .......................................................... 58
2.5.4 Định vị điểm quan tâm ................................................................... 59
2.5.5 Bộ mô tả điểm quan tâm và so khớp .............................................. 60
2.5.5.1 Gán hƣớng ................................................................................ 60
2.5.5.2 Bộ mô tả dựa trên tổng các đặc trƣng Haar wavelet ............... 62
2.5.5.3 Lập chỉ mục và so khớp ............................................................. 64
2.6 So sánh - Kết luận ................................................................................. 65
Chƣơng 3: ỨNG DỤNG ĐIỂM BẤT ĐỘNG TRONG NHẬN DẠNG ĐỐI
TƢỢNG ......................................................................................................... 68
3.1 Bài toán nhận dạng đối tƣợng ............................................................... 68
3.1.1 Mơ hình bài tốn nhận dạng đối tƣợng ........................................... 70
3.1.2 Thuật toán ....................................................................................... 70
3.2 Cài đặt thử nghiệm ................................................................................ 72
2.2.1 Cài đặt chƣơng trình ....................................................................... 72
2.2.2 Kết quả thực nghiệm ....................................................................... 72
KẾT LUẬN .................................................................................................... 77
TÀI LIỆU THAM KHẢO ............................................................................ 79
1
MỞ ĐẦU
Quá trình nhận dạng đối tƣợng bao gồm việc thu thập hình ảnh và các dữ
liệu giác quan, qua tham khảo các thành phần thiết yếu với bộ nhớ và suy diễn
nhẩm. Trong khi con ngƣời thực hiện tất cả những hành động này gần nhƣ
ngay lập tức, thì nhiệm vụ này có vẻ khó khăn hơn nhiều cho các máy tính.
Bƣớc đầu tiên là xác định các yếu tố giác quan khác nhau cần thiết cho sự
nhận thức đối tƣợng. Trong khi có rất nhiều cách, mà các thiết bị thị giác có
thể cho máy tính khả năng 'thấy' nhiều hơn. Máy tính cần phải biết các đối
tƣợng trơng nhƣ thế nào, các hình dạng khác nhau và kích thƣớc mà đối tƣợng
đó có, vv... Các đối tƣợng cũng sẽ khác nhau tùy thuộc vào góc nhìn, sự chiếu
sáng, hoặc sự che lấp gây ra bởi các đối tƣợng khác ở phía trƣớc.
Sự phát triển của phần cứng cả về phƣơng diện thu nhận, hiển thị, cùng
với tốc độ xử lý đã mở ra nhiều hƣớng mới cho sự phát triển phần mềm, đặc
biệt là Công nghệ xử lý ảnh phát triển nhanh. Nó có thể giải quyết đƣợc bài
toán phát hiện, nhận dạng tự động các loại đối tƣợng trong thực tế, chẳng hạn
có thể tạo ra hệ thống phát hiện kẻ gian đột nhập vào các cơ quan cần đƣợc
giám sát sau giờ hành chính nhƣ các Kho bạc, Ngân hàng v.v.. thay vì cần
phải có những đội bảo vệ canh gác cẩn thận. Nhận dạng mặt ngƣời trong một
bức ảnh cũng đã có rất nhiều ý nghĩa trong quân sự, an ninh v.v.. Rõ ràng bài
toán phát hiện đối tƣợng cũng nhƣ nhận dạng đối tƣợng ngày càng quan trọng
đối với sự phát triển của xã hội, đặc biệt rất quan trọng cho xã hội Việt Nam.
Bài toán nhận dạng đối tƣợng là một trong những bài tốn cơ bản có mặt
trong nhiều ứng dụng khác nhau của lĩnh vực thị giác máy tính nhƣ nhận dạng
ảnh, theo dõi đối tƣợng, tìm kiếm, vv. Nhận dạng đối tƣợng có rất nhiều cách
tiếp cận để giải quyết, tuy nhiên với mỗi loại đối tƣợng sẽ có một phƣơng
2
pháp cụ thể để thực hiện, nhƣng nó vẫn có cái chung. Một trong những
phƣơng pháp đƣợc sử dụng đó là trích chọn các đặc trƣng của ảnh. Các đặc
trƣng đƣợc trích chọn thƣờng dựa vào các đặc trƣng bất biến.
Lý thuyết về điểm bất động đã đƣợc nghiên cứu nhiều trong toán học và
vật lý. Việc nghiên cứu áp dụng lý thuyết này để trích chọn đặc điểm phục vụ
cho nhận dạng trong xử lý ảnh là hƣớng tiếp cận mới và có nhiều hứa hẹn
nhất là đối với các đối tƣợng có sự biến đổi về kích thƣớc, hình dạng, các đối
tƣợng bị che khuất một số bộ phận hoặc đối tƣợng chuyển động v.v.. Nhƣ vậy
bài toán nhận dạng đối tƣợng dựa vào các đặc trƣng bất biến mà nền tảng là
dựa vào các điểm bất động là một cách tiếp cận mới trong khoa học nhận
dạng là cơ sở để xây dựng nhiều ứng dụng quan trọng và cần thiết.
Trên đây đã điểm qua tầm quan trọng của bài toán nhận dạng đối tƣợng,
đặc biệt là các đối tƣợng đã bị biến đổi đã cho ta thấy rõ tính cần thiết cũng
nhƣ tính thời sự đồng thời là ý nghĩa khoa học và thực tiễn của vấn đề. Nhận
thức đƣợc điều này, tôi đã chọn đề tài luận văn: “Nghiên cứu các kỹ thuật tìm
điểm bất động trong ảnh và ứng dụng”.
Bố cục của luận văn bao gồm phần mở đầu, phần kết luận và ba chƣơng
nội dung đƣợc tổ chức nhƣ sau:
Chƣơng 1: Khái quái về nhận dạng đối tƣợng và điểm bất động
Chƣơng này trình bày khái quát về nhận dạng đối tƣợng, định nghĩa các
loại bất biến, lý thuyết điểm bất động và ứng dụng của điểm bất động trong
nhận dạng đối tƣợng.
Chƣơng 2: Một số phƣơng pháp tìm điểm bất động trong ảnh
3
Chƣơng này trình bày các kỹ thuật xác định các điểm bất động trong ảnh
và dựa vào đó để xây dựng các đặc trƣng bất biến của đối tƣợng và sử dụng
các đặc trƣng này cho việc so khớp nhận dạng đối tƣợng.
Chƣơng 3: Ứng dụng điểm bất động trong nhận dạng đối tƣợng.
Trong phần này luận văn trình bày ứng dụng nhận dạng đối tƣợng ảnh
dựa vào các đặc trƣng bất biến đƣợc xây dựng từ các điểm bất động, cài đặt
thử nghiệm một phƣơng pháp đã trình bày ở chƣơng 2.
4
Chƣơng 1: KHÁI QUÁT VỀ NHẬN DẠNG ĐỐI
TƢỢNG VÀ ĐIỂM BẤT ĐỘNG
Chương này trình bày tổng quan về nhận dạng đối tượng trong ảnh,
đồng thời nêu lên lý thuyết điểm bất động và ứng dụng của nó trong nhận
dạng đối tượng.
1.1 Tổng quan về nhận dạng đối tƣợng
Trong lý thuyết nhận dạng nói chung và nhận dạng ảnh nói riêng có 3
cách tiếp cận khác nhau:
- Nhận dạng dựa vào phân hoạch không gian
- Nhận dạng cấu trúc
- Nhận dạng dựa vào kỹ thuật mạng nơron
Hai cách tiếp cận đầu là các kỹ thuật kinh điển. Các đối tƣợng ảnh đƣợc
quan sát và thu nhận đƣợc phải trải qua giai đoạn tiền xử lý nhằm tăng cƣờng
chất lƣợng, làm nổi các chi tiết, tiếp theo là trích chọn và biểu diễn các đặc
trƣng và cuối cùng mới qua giai đoạn nhận dạng. Cách tiếp cận thứ ba hồn
tồn khác. Nó dựa vào cơ chế đoán nhận, lƣu trữ và phân biệt đối tƣợng mô
phỏng theo hoạt động của hệ thần kinh con ngƣời. Do cơ chế đặc biệt, các đối
tƣợng thu nhận bởi thị giác ngƣời không cần qua giai đoạn cải tiến mà chuyển
sang giai đoạn tổng hợp, đối sánh các mẫu đã lƣu trữ để nhận dạng.
Nhận dạng là quá trình phân loại các đối tƣợng đƣợc biểu diễn theo một
mơ hình nào đó và gán cho chúng một lớp (gán cho đối tƣợng một tên gọi)
dựa theo các quy luật và các mẫu chuẩn. Quá trình nhận dạng dựa vào những
mẫu học biết trƣớc gọi là nhận dạng có thầy hay học có thầy; trong trƣờng
hợp ngƣợc lại gọi là học khơng có thầy[1].
5
1.1.1 Không gian biểu diễn đối tượng, không gian diễn dịch
1.1.1.1 Không gian biểu diễn đối tượng
Các đối tƣợng khi quan sát hay thu nhận đƣợc, thƣờng đƣợc biểu diễn
bởi tập các đặc trƣng hay đặc tính. Nhƣ trong trƣờng hợp xử lý ảnh, ảnh sau
khi đƣợc tăng cƣờng để nâng cao chất lƣợng, phân vùng và trích chọn đặc
tính đƣợc biểu diễn bởi các đặc trƣng nhƣ biên, miền đồng nhất, v.v.. Ngƣời
ta thƣờng phân các đặc trƣng này theo các loại nhƣ: đặc trƣng tơpơ, đặc trƣng
hình học và đặc trƣng chức năng. Việc biểu diễn ảnh theo đặc trƣng nào là tùy
thuộc vào từng ứng dụng.
Ở đây ta đƣa ra một cách hình thức cho việc biểu diễn các đối tƣợng. Giả
sử đối tƣợng X đƣợc biểu diễn bởi n thành phần (n đặc trƣng): X={x1,
x2,…,xn}; mỗi xi biểu diễn một đặc trƣng. Không gian biểu diễn đối tƣợng
thƣờng gọi tắt là không gian đối tƣợng X đƣợc định nghĩa:
X = { X1, X2,…, Xm}
trong đó mỗi Xi biểu diễn một đối tƣợng. Khơng gian này có thể là vô hạn. Để
xem xét chúng ta chỉ xét tập X là hữu hạn.
1.1.1.2 Không gian diễn dịch
Không gian diễn dịch là tập các tên gọi của đối tƣợng. Kết thúc quá trình
nhận dạng ta xác định đƣợc tên gọi cho các đối tƣợng trong tập không gian
đối tƣợng hay nói cách khác là đã nhận dạng đƣợc đối tƣợng. Một cách hình
thức gọi là tập tên đối tƣợng:
= {w1, w2, …, wk} với wi, i = 1, 2,…, k là tên của các đối tƣợng
Quá trình nhận dạng đối tƣợng f là một ánh xạ f: X với f là tập các
quy luật để định một phần tử trong X ứng với một phần tử trong .
6
1.1.2 Mơ hình và bản chất của nhận dạng đối tượng
1.1.2.1 Mơ hình
Việc lựa chọn một q trình nhận dạng có liên quan mật thiết đến kiểu
mơ tả mà ngƣời ta sử dụng để đặc tả đối tƣợng. Trong nhận dạng, ngƣời ta
phân chia làm hai họ lớn:
- Họ mô tả theo tham số
- Họ mô tả theo cấu trúc
Cách mơ tả đƣợc lựa chọn sẽ xác định mơ hình của đối tƣợng. Nhƣ vậy,
chúng ta sẽ có hai loại mơ hình: mơ hình theo tham số và mơ hình theo cấu trúc.
* Mơ hình tham số: sử dụng một vectơ để đặc tả đối tƣợng. Mỗi phần tử
của vectơ mơ tả một đặc tính của đối tƣợng. Ví dụ trong các đặc trƣng chức
năng, ngƣời ta sử dụng các cơ sở trực giao để biểu diễn. Và nhƣ vậy, ảnh sẽ
đƣợc biểu diễn bởi một chuỗi các hàm trực giao. Giả sử C là đƣờng bao của ảnh
và C(i,j) là điểm thứ i trên đƣờng bao, i = 1, 2,…, N (đƣờng bao gồm N điểm).
Giả sử tiếp:
1 N
x0 xi
N i1
1 N
y 0 yi
N i1
là tọa độ tâm điểm. Nhƣ vậy, moment trung tâm bậc p, q của đƣờng bao là:
1 N
μ pq (x i -x 0 ) p (yi -y0 )q
N i1
Vectơ tham số trong trƣờng hợp này chính là các moment ij với i = 1, 2,…,
p và j = 1, 2,…, q. Cịn trong số các đặc trƣng hình học, ngƣời ta sử dụng chu
tuyến, đƣờng bao, diện tích và tỷ lệ T = 4S/p2, với S là diện tích, p là chu tuyến.
Việc lựa chọn phƣơng pháp biểu diễn sẽ làm đơn giản cách xây dựng.
Tuy nhiên, việc lựa chọn đặc trƣng nào là hoàn toàn phụ thuộc vào ứng dụng.
7
* Mơ hình cấu trúc: cách tiếp cận của mơ hình này dựa vào việc mơ tả
đối tƣợng nhờ một số khái niệm biểu thị các đối tƣợng cơ sở trong ngôn ngữ
tự nhiên. Để mô tả đối tƣợng, ngƣời ta dùng một số dạng nguyên thủy nhƣ
đoạn thẳng, cung, v.v… Trong mơ hình này, ngƣời ta sử dụng một bộ ký hiệu
kết thúc Vt, một bộ ký hiệu không kết thúc gọi là Vn. Ngồi ra có dùng một
tập các luật sản xuất để mô tả cách xây dựng các đối tƣợng phù hợp dựa trên
các đối tƣợng đơn giản hoặc các đối tƣợng nguyên thủy (tập Vt). Trong cách
tiếp cận này, ta chấp nhận một khẳng định là: cấu trúc một dạng là kết quả của
việc áp dụng luật sản xuất theo những nguyên tắc xác định bắt đầu từ một
dạng gốc bắt đầu. Một cách hình thức, ta có thể coi mơ hình này tƣơng đƣơng
một văn phạm G = (Vt, Vn, P, S) với:
- Vt là bộ ký hiệu kết thúc,
- Vn là bộ ký hiệu không kết thúc,
- P là luật sản xuất,
- S là dạng (ký hiệu bắt đầu).
1.1.2.2 Bản chất của quá trình nhận dạng
Q trình nhận dạng gồm 3 giai đoạn chính:
- Lựa chọn mơ hình biểu diễn đối tƣợng
- Lựa chọn luật ra quyết định (phƣơng pháp nhận dạng) và suy diễn
q trình học.
- Học nhận dạng.
Khi mơ hình biểu diễn đối tƣợng đã đƣợc xác định, có thể là định lƣợng
(mơ hình tham số) hay định tính (mơ hình cấu trúc), quá trình nhận dạng
chuyển sang giai đoạn học. Học là giai đoạn rất quan trọng. Thao tác học
nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tƣợng thành các lớp.
Việc nhận dạng chính là tìm ra quy luật và các thuật tốn để có thể gán
đối tƣợng vào một lớp hay nói cách khác gán cho đối tƣợng một tên.
8
Học có thầy: kỹ thuật phân loại nhờ biết trƣớc gọi là học có thầy. Đặc
điểm cơ bản của kỹ thuật này là ngƣời ta có một thƣ viện các mẫu chuẫn. Mẫu
cần nhận dạng sẽ đƣợc đem so sánh với mẫu chuẩn để xem nó thuộc loại nào.
Học khơng có thầy: kỹ thuật này phải tự định ra các lớp khác nhau và
xác định tham số đặc trƣng cho từng lớp. Kỹ thuật này nhằm tiến hành mọi
cách gộp nhóm có thể và chọn lựa cách tốt nhất.
Nhìn chung, dù là mơ hình nào và kỹ thuật nhận dạng ra sao, một hệ
thống nhận dạng có thể tóm tắt theo sơ đồ sau:
Trích chọn đặc trƣng
biểu diễn đối tƣợng
Phân lớp
trả lời
Đánh giá
ra quyết định
Quá trình tiền xử lý
Khối nhận dạng
Hình 1.1. Sơ đồ tổng quát một hệ nhận dạng
1.1.3 Bài toán nhận dạng đối tượng ảnh
Cho trƣớc các đối tƣợng hai chiều. Tồn tại nhiều bài toán nhận dạng
khác nhau đối với các đối tƣợng ảnh hai chiều.
Bài toán 1: Cho hai đối tƣợng ảnh hai chiều trong Hình 1.2. Hãy so
sánh xem chúng có giống nhau hay khơng?
Hình 1.2. Hai đối tƣợng trên mặt phẳng
Bài toán này con ngƣời có thể giải quyết một cách nhanh chóng (Hai đối
tƣợng này có diện tích giống nhau và chỉ khác nhau một lỗ hổng). Nhƣng đối
với máy thì việc giải bài tốn này rất khó.
Bài tốn 2: Cho hai đối tƣợng ảnh có kích thƣớc khác nhau và đặt tùy ý
trên mặt phẳng. Hãy so sánh xem chúng có "giống nhau" hay không?
9
Để giải bài toán này con ngƣời đặt chúng lại theo vị trí thích hợp sao cho
hƣớng nằm của chúng giống nhau. Sau đó dùng các độ đo khác nhau để so
sánh hai đối tƣợng này. Chẳng hạn, khi đặt các đối tƣợng theo các vị trí mới
cần sử dụng các phép biến đổi nhƣ quay, tịnh tiến. Trong các hoàn cảnh khác
nhau ngƣời ta xem rằng hai đối tƣợng đồng dạng là giống nhau. Do đó, trong
q trình giải bài tốn này con ngƣời đã tự mã hóa các thông số của các đối
tƣợng ảnh bất biến theo vị trí, hƣớng và tỷ lệ. Đây là một việc rất khó khăn.
Bài tốn 3: Cho các đối tƣợng trong Hình 1.3. Hãy phân loại chúng
thành hai lớp.
Để giải bài toán này con ngƣời có thể phân chia các đối tƣợng thành hai
lớp đó là tứ giác {b,c,e} và hình trịn {a,e}. Ngƣời ta cũng có thể chia thành
hai lớp các đối tƣợng có diện tích bằng nhau {a,b,c} và {d,e}.
b
a
d
c
e
Hình 1.3. Các tứ giác và hình trịn trên mặt phẳng hai chiều
Bài toán nhận dạng các đối tƣợng hai chiều rất phức tạp, nó liên quan
đến các ràng buộc giữa các đặc trƣng hình học. Trong hình có các biểu diễn
nhƣ cạnh, đỉnh, các góc. Hai đối tƣợng đƣợc coi là giống nhau nếu chúng thỏa
mãn ràng buộc nào đó. Các ràng buộc này rất phức tạp. Do đó trong khn
khổ luận án khơng trình bày sâu về các ràng buộc hình học.
Bài tốn 4: Cho tập hữu hạn các đối tƣợng, đƣợc gọi là mẫu. Hãy so sánh
một đối tƣợng mới xem chúng có giống các đối tƣợng mẫu hay không?
10
Rõ ràng để giải quyết bài tốn này thì các đối tƣợng cần phải đƣợc mã
hóa thành các tham số. Cần so sánh các tham số của đối tƣợng với các tham
số mẫu. Do đó xuất hiện nhu cầu cho việc mã hóa các đối tƣợng mẫu. Các đặc
trƣng đƣợc mã hóa của các đối tƣợng là các moment bất biến khơng phụ
thuộc vào vị trí, tỷ lệ, hƣớng quay của các đối tƣợng.
1.2 Điểm bất động và vai trò của điểm bất động trong nhận dạng đối tƣợng
1.2.1 Lý thuyết điểm bất động
Các định lý điểm bất động đã cung cấp nhiều điều kiện để tìm ra các giải
pháp cho các bài toán về ánh xạ (các ánh xạ đơn hoặc ánh xạ nhận đa giá trị).
Bản thân lý thuyết này là một sự pha trộn tốt đẹp của hình học tơpơ giải tích
và hình học. Năm mƣơi năm gần đây lý thuyết về các điểm bất động đã đƣợc
khám phá nhƣ một công cụ rất quan trọng và có tác động mạnh mẽ trong việc
nghiên cứu các hiện tƣợng phi tuyến tính. Trong thực tế các kỹ thuật điểm bất
động đã và đang đƣợc áp dụng trong nhiều lĩnh vực khác nhau nhƣ sinh vật
học, hóa học, kinh tế, lý thuyết game và vật lý. Gần đây, ứng dụng của lý
thuyết điểm bất động trong xử lý ảnh cũng đã đƣợc phân tích.
Một số định lý điểm bất động kinh điển đƣợc sử dụng rộng rãi đƣợc phát
biểu nhƣ sau:
* Định lý điểm bất động của Brouwer[2]:
Trong toán học, định lý điểm bất động Brouwer là một định lý quan
trọng áp dụng cho các không gian hữu hạn chiều và hình thành cơ sở cho các
định lý điểm bất động tổng quát hơn.
Phát biểu định lý: với một ánh xạ liên tục f : S S của một đơn hình nchiều vào chính nó tồn tại ít nhất một điểm x S mà f (x)=x.
11
Định lý điểm bất động của Brouwer phát biểu rằng nếu một tập không
rỗng, compact, lồi của một không gian Euclide hữu hạn chiều đƣợc ánh xạ
liên tục vào chính nó, thì có ít nhất một trong các điểm của nó vẫn khơng thay
đổi.
Định lý này có thể đƣợc minh họa bằng một ví dụ thú vị nhƣ sau: lấy hai tờ
giấy có cùng kích thƣớc và đặt lên chúng trong một hệ tọa độ, đặt tờ giấy thứ
nhất lên bàn, vò nhàu tờ giấy thứ hai và đặt tờ giấy này lên trên tờ giấy thứ nhất.
Khi đó sẽ có ít nhất một điểm của tờ giấy đã vị nhàu ở vị trí chính xác với điểm
tƣơng ứng của tờ giấy trên bàn (tức là điểm này vẫn giữa nguyên tọa độ). Đây là
một hệ quả của trƣờng hợp n = 2 đƣợc áp dụng cho một ánh xạ liên tục để gán
tọa độ của mỗi điểm của tờ giấy đã vò nhàu với tọa độ của điểm thuộc tờ giấy
phẳng ở dƣới nó.
* Định lý điểm bất động của Banach[2]:
Định lý điểm bất động của Banach (đƣợc biết nhƣ định lý ánh xạ co hoặc
nguyên lý ánh xạ co) là một công cụ quan trọng trong lý thuyết khơng gian
metric; nó bảo đảm sự tồn tại và tính duy nhất của các điểm bất động của các
ánh xạ vào chính nó của khơng gian metric, và cung cấp một phƣơng pháp
suy diễn để tìm ra các điểm cố định đó. Định lý này đƣợc đặt tên Stefan
Banach (1892-1945) và đƣợc công bố bởi tác giả vào năm 1922.
Lấy (X, d) là một không gian metric đầy đủ không rỗng. Cho T : X → X
là một ánh xạ co trên X, tức là: có một số thực khơng âm q < 1 để
d (Tx,Ty) q.d ( x, y) với mọi x, y thuộc X. Khi đó ánh xạ T nhận đƣợc một và
chỉ một điểm cố định x* trong X (điều này có nghĩa là Tx* = x*). Hơn nữa,
điểm bất động này có thể đƣợc tìm thấy nhƣ sau: bắt đầu với một phần tử bất