Tải bản đầy đủ (.pdf) (65 trang)

Nghiên cứu một số kỹ thuật phát hiện đối tượng ảnh dựa vào kết cấu và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.08 MB, 65 trang )




ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
***


Hoàng Vĩnh Thái



Nghiên cứu một số kỹ thuật phát hiện
đối tượng ảnh dựa vào kết cấu và ứng
dụng




LUẬN VĂN THẠC SĨ






Hà nội – 2006

3
MỤC LỤC


DANH SÁCH CÁC CHỮ VIẾT TẮT 4
MỞ ĐẦU 5
CHƢƠNG 1: TỔNG QUAN VỀ KẾT CẤU VÀ PHÁT HIỆN ĐỐI TƢỢNG 7
1.1 Tổng quan về kết cấu và ứng dụng 7
1.1.1 Định nghĩa kết cấu 7
1.1.2 Các ứng dụng của kết cấu 10
1.2 Phát hiện đối tƣợng dựa vào kết cấu. 15
1.2.1 Phát hiện đối tƣợng 15
1.2.2 Các thành phần của hệ thống phát hiện đối tƣợng 18
1.2.3 Vai trò của kết cấu trong phát hiện đối tƣợng 25
CHƢƠNG 2: CÁC PHƢƠNG PHÁP BIỂU DIỄN KẾT CẤU 27
2.1 Biểu diễn hình học 28
2.2 Biểu diễn thống kê 29
2.3 Biểu diễn dựa vào mô hình 38
2.4 Biểu diễn dựa trên kỹ thuật xử lý tín hiệu 43
CHƢƠNG 3: ỨNG DỤNG 50
3.1 Bài toán. 50
3.2 Phân tích bài toán. 51
3.2.1 Xây dựng phƣơng pháp biểu diễn kết cấu 53
3.2.2 Xây dựng chức năng phân loại đối tƣợng 59
3.3 Thực nghiệm minh họa. 60
KẾT LUẬN 63
TÀI LIỆU THAM KHẢO 64





4
DANH SÁCH CÁC CHỮ VIẾT TẮT

Chữ tắt
Dạng đầy đủ
Nghĩa tiếng Việt
CV
Computer Vision
Hình dung máy tính
KL
Karhumen-Loeve (transform)
Kullback-Leibler
Biến đổi Karhumen-Loeve
SAR
Simultaneous Auto-Regressive
Tự thoái lui đồng thời
DSP
Digital signal processing

Xử lý tín hiệu số
ACF
Autocorrelation Function
Hàm tự tƣơng quan
PWT
Pyramid-structured
Wavelet Transform
Biến đổi dạng sóng kiểu hình chóp
TWT
Tree-structured
wavelet transform
Biến đổi dạng sóng kiểu hình cây
MRF
Markov random field

Trƣờng ngẫu nhiên Markov
LBP
Local Binary Pattern
Kết cấu nhị phân cục bộ
SOM
Self Organization Map
Bản đồ tự tổ chức
ROR(x,i)
Circular shift to the Right
Hàm dịch phải quay vòng
RFM
Random Field Model
Mô hình trƣờng ngẫu nhiên
SGLDM
Spatial Grey Level Dependence
Method
Phƣơng pháp phụ thuộc mức xám
không gian
GLRLM
Grey Level Run Length Method
Phƣơng pháp loạt dài mức xám
GLDM
Grey Level Difference Method
Phƣơng pháp sai khác mức xám
PSM
Power Spectral Method
Phƣơng pháp phổ lũy thừa

5
MỞ ĐẦU

Phân tích kết cấu đóng một vai trò quan trọng trong lĩnh vực thị giác máy
tính. Trong các ứng dụng nhƣ vậy, việc “hiểu ảnh” chính xác là một trong những
yếu tố chính dẫn đến thành công của hệ thống. Thông thƣờng việc sử dụng dựa
vào yếu tố màu sắc của đối tƣợng để hiểu ảnh (hay giải thích ảnh) là một trong
những kỹ thuật chính để hình thành nên các hệ thống này. Tuy nhiên, trong nhiều
trƣờng hợp sử dụng thông tin màu sắc để giải thích ảnh là chƣa đủ, hoặc không
thể thực hiện đƣợc trong hệ thống.
Trong các ứng dụng giám sát giao thông, hoặc kiểm tra chất lƣợng sản
phẩm công nghiệp thì thông tin về kết cấu đã đƣợc sử dụng để tăng độ chính xác
cho việc sử dụng các thông tin màu sắc đơn thuần [1,3]. Trong một số ứng dụng
khác nhƣ điều khiển chất lƣợng sản xuất vải sợi, so sánh ảnh mây vệ tinh hay địa
chất thì việc sử dụng thông tin kết cấu gần nhƣ là bắt buộc vì các thông tin về
màu sắc, hình dạng không thể hiện đƣợc trong hệ thống [11]. Thông tin kết cấu
cũng có thể đƣợc sử dụng trong phân tích ảnh y học, xác thực cho các hệ thống
an toàn bảo mật dựa vào sinh trắc học, truy vấn ảnh dựa vào nội dung, phân tích
tài liệu, mô hình hóa môi trƣờng,…
Trong vài năm gần đây, có hàng loạt các công trình nghiên cứu, các bài
báo cụ thể liên quan đến việc làm thế nào để có một mô tả kết cấu đủ hiệu quả
cho các ứng dụng thị giác máy tính. Xét một cách trực quan, kết cấu cung cấp
một lƣợng thông tin phong phú về bề mặt tự nhiên của hình ảnh. Tuy nhiên, việc
phân tích kết cấu nói chung và biểu diễn kết cấu một cách đầy đủ, hiệu quả nói
riêng vẫn là một vấn đề khó do bởi sự đa dạng và phức tạp của vấn đề kết cấu tự nhiên.
Nội dung của bản luận văn này sẽ giới thiệu về cơ sở lý thuyết cũng nhƣ
hƣớng ứng dụng của việc biểu diễn thông tin kết cấu cho chức năng phát hiện đối
tƣợng của một hệ thống thị giác máy tính điển hình. Trên cơ sở đó tiến hành thử
nghiệm xây dựng một bộ các module chƣơng trình cho việc phát hiện, phân loại
đối tƣợng dựa vào kết cấu bề mặt của đối tƣợng. Về cơ bản nội dung của luận
văn đƣợc chia thành 3 chƣơng chính sau:

6

Chương 1: Trình bày một cách tổng quát về kết cấu và phát hiện đối
tƣợng dựa vào kết cấu trong một hệ thống thị giác máy tính. Chƣơng này cũng
trình bày về các kỹ thuật áp dụng thông tin về kết cấu cho việc giải thích ảnh.
Việc trình bày về cơ sở lý thuyết của kết cấu và cách thức áp dụng thông tin kết
cấu vào từng thành phần của hệ thống phát hiện đối tƣợng cũng là một phần
chính của chƣơng mở đầu này.
Chương 2: Trình bày các phƣơng pháp cơ bản về biểu diễn thông tin kết
cấu cho máy tính. Trên cơ sở đó nhấn mạnh về khái niệm và cách thức áp dụng
phƣơng pháp biểu diễn kết cấu dựa vào toán tử không gian LBP cho một hệ
thống phát hiện đối tƣợng. Do việc mô tả kết cấu cũng nhƣ các phƣơng pháp biểu
diễn kết cấu là phức tạp và có rất nhiều phƣơng pháp đƣợc nghiên cứu. Chƣơng
này cũng sẽ trình bày tóm lƣợc một số đánh giá, so sánh của các nghiên cứu về
hiệu quả của các phƣơng pháp biểu diễn kết cấu phổ biến đã đƣợc thực hiện trên
thực tế bằng thực nghiệm nhằm tạo cơ sở cho việc chọn lựa biểu diễn kết cấu
thích hợp với các ứng dụng khác nhau.
Chương 3: Chƣơng này giới thiệu cách thức ứng dụng của phƣơng pháp
biểu diễn kết cấu bằng toán tử không gian LBP cho một ứng dụng cụ thể trong
điều khiển chất lƣợng sản phẩm công nghiệp. Trên cơ sở đó tiến hành xây dựng
một số module chƣơng trình mục đích minh họa thí nghiệm cũng nhƣ đánh giá
các ƣu nhƣợc điểm khi sử dụng phƣơng pháp LBP cho một hệ thống điều khiển
chất lƣợng vải sợi.

7

CHƯƠNG 1: TỔNG QUAN VỀ KẾT CẤU VÀ
PHÁT HIỆN ĐỐI TƯỢNG
1.1 Tổng quan về kết cấu và ứng dụng
1.1.1 Định nghĩa kết cấu
Kết cấu (của bề mặt của vật thể) trong tự nhiên là một khái niệm chung
mà ngƣời ta có thể quy cho mọi vật. Có khá nhiều định nghĩa về kết cấu của đối

tƣợng trong tự nhiên. Theo từ điển Webster, 1986 kết cấu “Là cấu trúc hoặc một
sự sắp xếp cơ sở, một kết hợp chặt chẽ của hầu hết các phần tử riêng lẻ tạo nên
một đối tượng” Theo từ điển Oxford, 1989 “Là sự tổ chức, cấu trúc, hoặc chất
liệu của bất kỳ những gì hình thành nên một đối tượng” Nói chung, ngƣời ta có
thể hiểu một cách chung nhất kết cấu là các tính chất thể hiện ra bên ngoài có thể
nhìn thấy và tiếp xúc đƣợc của một đối tƣợng nào đó. Nhiều ví dụ minh họa về
kết cấu nhƣ kết cấu của cát, của khói, của vân tay ngƣời,… Đối với con ngƣời,
thể hiện của kết cấu liên quan đến các cấu trúc cục bộ của bề mặt đƣợc lặp đi lặp
lại về mặt không gian. Các cấu trúc này đƣợc hình thành từ một hay một vài phần
tử cơ bản (Primitives) riêng biệt. Nó chứa các thông tin quan trọng về sự sắp xếp
cấu trúc của bề mặt.





Hình 1.1 : Ví dụ về kết cấu
Kết cấu gạch
Kết cấu vân tay
Kết cấu mây
Kết cấu đất

8
Trong lĩnh vực xử lý ảnh số, tính chất kết cấu của ảnh đƣợc thể hiện thông
qua sự biến thiên về màu sắc và cƣờng độ của ảnh. Mặc dù không thể có thông
tin về nguyên nhân sự biến thiên này nhƣng thông tin về sự khác nhau của của
các pixel trong ảnh đã đƣa ra nhiều phƣơng pháp để xác định kết cấu của đối
tƣợng. Tuy nhiên từ trƣớc đến nay chƣa ai có thể đƣa ra đƣợc một định nghĩa
chính xác về mặt toán học (định nghĩa cho xử lý số) cho kết cấu của đối tƣợng
trong ảnh số. Theo [1], Haralick (1973):“Kết cấu rất khó để có được một định

nghĩa chính xác”. Mƣời năm sau, Cross & Jain (1983) đƣa ra một định nghĩa
đơn giản hơn:“ Chúng ta xem xét một kết cấu như là một ảnh hai chiều với tính
chất tương đối chu kỳ và ngẫu nhiên”. Nhƣng mƣời ba năm sau việc định nghĩa
kết cấu cũng không rõ ràng hơn: “Kết cấu mặc dù thiếu một định nghĩa chính
xác nhưng lại có rất nhiều ứng dụng trong lĩnh vực thị giác máy tính (Jain &
Karu 1996)”. Với việc thiếu những lý thuyết cơ bản và thống nhất nhƣ vậy đã
làm cho việc phân tích kết cấu kém thuyết phục và không đồng nhất ít ra là về
mặt phƣơng pháp luận theo quan điểm của các nhà toán học. Và cũng do đó
việc đánh giá chất lƣợng của các hệ thống sử dụng tính kết cấu của ảnh phần
nhiều đều mang tính kinh nghiệm. Tuy vậy cũng có rất nhiều nghiên cứu trong
việc tạo ra và sử dụng các độ đo kết cấu đƣợc áp dụng nhiều trong các hệ thống
thị giác máy tính. Trong các nghiên cứu đó, việc đƣa ra các kỹ thuật sử dụng kết
cấu phụ thuộc rất nhiều vào mô hình kết cấu đƣợc sử dụng và phân loại. Một số
tác giả đã phân loại kết cấu theo sự thể hiện của chúng. Một cách phân loại kết
cấu hay đƣợc sử dụng là phân chia chúng thành hai nhóm chính, kết cấu ngẫu
nhiên (Stochastic –hình 1.3) và kết cấu xác định đƣợc (Deterministic- hình 1.2).



9

Hình 1.2: Ví dụ về kết cấu đƣợc xác định

Hình 1.3: Ví dụ về kết cấu ngẫu nhiên
Trong [2], theo cách phân chia này Tamura (1978) đƣa ra các đặc trƣng
mà các hệ thống phân tích kết cấu thƣờng hay sử dụng, gọi tắt là các đặc trƣng
Tamura, các đặc tính quan trọng nhất của kết cấu cho hệ thống hình dung của
con ngƣời là tính giống đường (Line-likeness), tính trật tự (Regularity), tính gồ
ghề (Roughness), tính thô ráp (Coarseness), tính tương phản (Contrast), tính có
hướng (Directionality). Ngoài ra theo cách phân loại kết cấu của Rao & Lohse

(1993) dựa trên ba chiều trực giao là sự lặp lại – sự không lặp, sự vô hƣớng với
sự tƣơng phản cao - có hƣớng với sự tƣơng phản thấp, độ mịn – độ hạt của kết
cấu, kết cấu đƣợc phân chia theo sự đồng nhất về không gian của chúng thành
ba loại: kết cấu đồng nhất, kết cấu đồng nhất yếu (hình 1.4), kết cấu không đồng
nhất. Dựa trên cách phân loại này một số độ đo kết cấu (Texture Measures) đã
đƣợc nghiên cứu và áp dụng cho các hệ thống thị giác máy tính [1] .

10

Hình 1.4: Ví dụ về kết cấu đồng nhất yếu
1.1.2 Các ứng dụng của kết cấu
Trong lĩnh vực thị giác máy tính thông tin kết cấu đóng một vai trò quan
trọng. Trong hầu hết các ứng dụng, các kỹ thuật đƣợc phát triển cho việc phân
tích kết cấu tập trung vào việc tìm một mô tả kết cấu một cách hiệu quả, tổng
quát [ 1, 10, 11, 12]. Mục đích chính là để cho máy tính có thể sử dụng các thao
tác toán học cho việc thay thế, so sánh cũng nhƣ chuyển đổi kết cấu. Các giải
thuật phân tích kết cấu hầu hết liên quan đến việc chọn lọc, xác định các đặc
trƣng kết cấu và biểu diễn các đặc trƣng này dƣới một dạng mà máy tính có thể
hiểu đƣợc. Các giải thuật khác nhau có các đặc trƣng đƣợc chọn lọc và cách biểu
diễn các đặc trƣng của kết cấu khác nhau. Với các giải thuật sử dụng tiếp cận
thống kê, chúng đặc tả kết cấu qua các thông kê tín hiệu của ảnh hay các tính
chất phân bố không gian của tín hiệu ảnh. Với các giải thuật sử dụng cách tiếp
cận theo phổ của ảnh (Spectral), chúng đặc tả kết cấu theo miền phổ. Các giải
thuật tiếp cận theo mô hình kết cấu có cấu trúc, chúng đặc tả các kết cấu nhƣ là
phân cấp theo sự sắp xếp không gian của các đối tƣợng cơ bản. Cũng tƣơng tự
nhƣ mô hình xác suất cho giải thuật phân tích kết cấu. kết cấu đƣợc đặc tả dƣới
dạng hàm phân bố. Có 4 dạng ứng dụng chính của kết cấu dựa trên các kỹ thuật
phân tích kết cấu vừa nêu.

11


 Phân loại kết cấu
Phân loại kết cấu là các ứng dụng gán mỗi kết cấu đã cho tới các lớp kết
cấu khác nhau đƣợc định nghĩa trƣớc. Có hai phƣơng pháp phân loại kết cấu
chính là phân loại có giám sát (Supervised) và phân loại không giám sát
(Unsupervised). Phân loại kết cấu có giám sát là kỹ thuật có cung cấp các ví dụ
mẫu về các lớp kết cấu nhƣ là một tập huấn luyện, bộ phân loại sẽ sử dụng các
mẫu này để học về tính chất của kết cấu. Phân loại không giám sát không yêu cầu
tri thức về các mẫu huấn luyện cho trƣớc. Nó có thể tự động nhận ra các lớp khác
nhau từ các mẫu đầu vào. Một loại phân loại kết cấu khác ít khi đƣợc sử dụng là
phân loại kết cấu nửa giám sát (Semi-supervised), loại phân loại này yêu cầu một
phần nhỏ tri thức cần phải biết trƣớc cho nhận dạng.
Quá trình phân loại bao gồm hai trạng thái chính. Thứ nhất là quá tình xác
định các đặc trƣng của kết cấu, tùy vào từng ứng dụng sẽ có các cách lấy đặc
trƣng khác nhau sao cho phù hợp và chính xác với mỗi loại kết cấu. Các đặc
trƣng này sẽ đƣợc biểu diễn dƣới dạng các độ đo đặc trƣng. Việc chọn các đặc
trƣng là đặc biệt quan trọng và thƣờng phải đảm bảo các yêu cầu về sự không
thay đổi với các thao tác chuyển ảnh nhƣ dịch ảnh, quay ảnh, hay phóng to, thu
nhỏ ảnh. Lý tƣởng nhất là các độ đo định lƣợng của kết cấu đầu vào gần một
cách tối đa với độ đo của các kết cấu tƣơng tự. Tuy nhiên việc thiết kế một bộ
xác định kết cấu có khả năng ứng dụng một cách tổng thể là một vấn đề khó và
nó thƣờng yêu cầu một số tri thức trong các lĩnh vực hẹp. Trạng thái thứ hai là quá
trình phân loại, bộ phân loại sẽ dựa trên các độ đo đặc trƣng để phân các kết cấu
đầu vào vào các lớp thích hợp. Bộ phân loại đƣợc xem nhƣ một hàm với đầu vào
độ đo của các đặc trƣng của kết cấu đầu vào và đầu ra là lớp kết cấu tƣơng ứng.
Trong phân loại có giám sát ngƣời ta thƣờng sử dụng bộ phân loại K láng
giềng gần nhất (K-nearest neighbour). Đây là bộ phân loại mà kết cấu đầu vào
đƣợc xác định bằng cách tính toán khoảng cách với K trƣờng hợp huấn luyện gần
nhất. Hàm khoảng cách đƣợc tính toán dựa trên không gian đặc trƣng nhiều


12
chiều. Các khoảng cách Euclidean, Chi-square, và Kullback-Leibler là các
khoảng cách đƣợc sử dụng chính để đo độ tƣơng tự của hai vector đặc trƣng. Đây
là các phƣơng pháp phân loại không tham số.
Một số phƣơng pháp phân loại khác dựa vào giả thiết về sự phân bố xác
suất của vector đặc trƣng thƣờng đƣợc gọi với tên phân loại có tham số. Phân
loại kết cấu có thể sắp xếp các dữ liệu ảnh thành các thông tin có thể hiểu đƣợc
một cách dễ dàng. Điều này làm cho nó có nhiều ứng dụng rộng rãi trong các lĩnh
vực nhƣ truy vấn ảnh dựa vào nội dung, các ứng dụng ảnh y học, các ứng dụng
kiểm tra chất lƣợng công nghiệp hay các ứng dụng về nhận dạng vân tay, mặt
ngƣời, tròng mắt trong các ứng dụng về an ninh sinh trắc học …
 Phân đoạn kết cấu
Phân đoạn kết cấu là các loại ứng dụng phân chia một ảnh thành các vùng
riêng biệt dựa vào thuộc tính kết cấu của bề mặt của các vùng. Các vùng này là
các vùng có cùng một thuộc tính kết cấu nào đó. Kết quả của quá trình phân đoạn
dựa vào kết cấu có thể làm đầu vào cho các quá trình xử lý và phân tích ảnh về
sau (chẳng hạn nhƣ nhận dạng đối tƣợng). Cũng nhƣ quá trình phân loại kết cấu,
phân đoạn kết cấu cũng gồm hai trạng thái chính là xác định các độ đo đặc trƣng
và sử dụng các thông số để cô lập các kết cấu. Tuy nhiên việc phân đoạn các kết
cấu phải làm thêm việc dò đƣợc biên của các kết cấu đã đƣợc nhận dạng. Các kỹ
thuật phân đoạn kết cấu cũng có thể là giám sát hoặc không giám sát phụ thuộc
vào thông tin đƣợc biết trƣớc của ảnh hoặc các lớp kết cấu sẵn có.
Phân đoạn kết cấu có giám sát xác định và phân biệt một hoặc nhiều vùng
phù hợp với thuộc tính kết cấu đƣợc cung cấp trong mẫu huấn luyện. Phân đoạn
kết cấu không giám sát phải lấy các lớp kết cấu khác nhau từ một ảnh trƣớc khi
phân chúng thành các vùng. So với việc phân đoạn kết cấu có giám sát thì việc
phân đoạn không giám sát linh hoạt và phù hợp hơn với các ứng dụng thế giới
thực, tuy nhiên việc thực hiện nó sẽ phức tạp và khả năng để tính toán sẽ cao hơn.

13

Việc phân đoạn một ảnh thành các miền có kết cấu đồng nhất có nhiều
ứng dụng trong thực tế nhất là các ứng dụng nhƣ học máy và nhận dạng mẫu. Ví
dụ nhƣ trong các ứng dụng phân tích GIS, phân đoạn kết cấu có thể áp dụng để
số hóa bản đồ hay phát hiện những thay đổi của phong cảnh từ các ảnh hàng
không. Hình 1.5 cho thấy một ví dụ về phân đoạn kết cấu. Phân đoạn kết cấu có
thể phân biệt thành các vùng khác nhau cho một ảnh hàng không. Các vùng này
sẽ đƣợc quản lý dựa vào hệ thống GIS cho sử dụng.

Hình 1.5: Ví dụ về phân đoạn kết cấu
(a)Ảnh đầu vào (b)Vùng cánh đồng (c)Vùng dân cƣ (d)Vùng thực vật
 Tổng hợp kết cấu
Tổng hợp kết cấu là các ứng dụng muốn tạo đƣợc những kết cấu lớn từ
những mẫu kết cấu nhỏ, cho các ứng dụng muốn tạo bề mặt nhân tạo. Ứng dụng
cụ thể của việc tổng hợp kết cấu thể rõ ở các ứng dụng nhƣ xây dựng kỹ xảo hình
ảnh cho phim (chẳng hạn, tăng số lƣợng ngƣời tham gia vào một cảnh biểu tình,
bãi công tốn kém bằng cách tổng hợp các mẫu ảnh với số lƣợng ngƣời tham gia

14
ít, tuy thế ngƣời xem vẫn không có cảm giác cảnh bị lặp lại). Kết cấu đƣợc tổng
hợp sẽ khác với mẫu kết cấu đầu vào nhƣng vẫn phải đảm bảo tính chất đồng
nhất về kết cấu đối với quan sát của con ngƣời. Một trong những ƣu điểm chính
của các kỹ thuật tổng hợp kết cấu là việc điều khiển các điều kiện ở biên của mẫu
kết cấu để kết cấu đƣợc tổng hợp không có cảm giác bị lặp lại đơn điệu và do đó
sẽ không có cảm giác đồng nhất về mặt kết cấu cho quan sát. So với phân loại và
phân đoạn kết cấu việc tổng hợp kết cấu đƣợc xem là khó khăn hơn vì nó phải
yêu cầu các mô tả kết cấu một cách chi tiết hơn nhiều so với các biểu diễn đặc
trƣng của các ứng dụng phân loại và phân đoạn kết cấu. Hơn nữa việc tạo lại kết
cấu hiển nhiên sẽ là khó hơn nhiều so với việc hiểu và sử dụng chúng trong các
ứng dụng khác. Các ứng dụng của tổng hợp kết cấu phổ biến nhƣ các ứng dụng
về biên tập ảnh, tổng hợp video hay ảnh nhân tạo.


Hình 1.6: Ví dụ về tổng hợp kết cấu
 Tạo hình ảnh từ kết cấu
Tạo hình ảnh từ kết cấu là các ứng dụng mà phải ƣớc lƣợng hình dạng của
mặt phẳng 3 chiều dựa trên việc phân tích tính chất của kết cấu ảnh hai chiều.
Tính đồng nhất và tính đẳng hƣớng có thể cung cấp thông tin về hình dạng của bề
mặt 3 chiều. Độ nghiêng của kết cấu có thể bị ảnh hƣởng là do ảnh đƣợc xem ở
một góc nghiêng nào đó. Từ các góc nghiêng này ngƣời ta có thể suy ra các tham
số về hình dạng của bề mặt hay sử dụng các thao tác chuyển đổi. Thông qua các

15
góc nghiêng và hƣớng này chiều sâu của đối tƣợng ảnh có thể đƣợc khôi phục.
Cũng dựa vào các thông số của kết cấu này ngƣời ta có thể suy ra đƣợc bố trí của
các đối tƣợng trong ảnh.

Hình 1.7: Ứng dụng tạo lại hình ảnh trong lĩnh vực ảnh y học
1.2 Phát hiện đối tƣợng dựa vào kết cấu.
1.2.1 Phát hiện đối tƣợng
Phát hiện đối tƣợng hay phát hiện đối tƣợng trong một ảnh thực chất là
hoạt động tìm lớp các đối tƣợng nào đó đƣợc định nghĩa trƣớc trong ảnh [14]. Nó
cũng đƣợc xem nhƣ một ứng dụng của nhận dạng mẫu. Ngƣời ta thƣờng xem
phát hiện đối tƣợng ảnh nhƣ là một chức năng con trong các ứng dụng về phân
tích ảnh và thị giác máy tính. Trong một hệ thống CV điển hình các thành phần
chính đƣợc sử dụng theo tuần tự sau:
- Thu nhận ảnh.
- Xử lý nâng cao chất lƣợng ảnh đầu vào.
- Phân đoạn ảnh thành các đối tƣợng quan sát.
- Trích chọn các đặc trƣng của đối tƣợng.
- Phân loại đối tƣợng.


16
- Mô tả và giải thích kết quả đầu ra.

Hình 1.8 : Các thành phần một hệ thống CV điển hình
Nhiều ứng dụng của CV đã đƣợc áp dụng, từ nhận dạng chữ viết, phân
đoạn và số hóa bản đồ, cho đến các ứng dụng về phân tích ảnh trong y học, giám
sát hệ thống giao thông, điều khiển robot hay các lĩnh vực đảm bảo an toàn an
ninh cho quân sự. Tùy vào các ứng dụng cụ thể các thành phần chính trên sẽ có
sự thay đổi khác nhau về kỹ thuật cũng nhƣ cách thức sử dụng. Cũng tùy vào
từng ứng dụng mà chức năng phát hiện đối tƣợng đƣợc áp dụng một cách khác
nhau. Ví dụ, trong một hệ thống giám sát giao thông, các đối tƣợng trong ảnh sau
khi đã đƣợc tiền xử lý để nâng cao chất lƣợng ảnh sẽ đƣợc phân thành vùng các
đối tƣợng khác nhau dựa vào biên của chúng. Các ảnh sau khi đã đƣợc phân vùng
sẽ đƣợc xử lý bởi hệ thống hiểu ảnh hay một hệ thống phân loại. Xe hơi hay xe
tải sẽ đƣợc gán những nhãn khác nhau cho hệ thống để hệ thống có thể đƣa ra
những quyết định cuối cùng một cách chính xác nhƣ “số lượng xe tải tham gia
giao thông trong ngày” hay “có bao nhiêu phương tiện giao thông không được
phép qua lại trên tuyến đường này mỗi ngày”. Trong trƣờng hợp này hệ thống
phát hiện đối tƣợng có vai trò quan trọng trong việc phân loại các đối tƣợng
phƣơng tiện giao thông một cách chính xác. Một ví dụ khác là hệ thống cảnh báo
hỏa hoạn, hệ thống phát hiện đối tƣợng có vai trò quan trọng trong việc phân loại

17
chính xác đối tƣợng là lửa, khói hay chỉ là những vật thể cùng màu nhƣ màu áo
của ngƣời qua đƣờng, băng rôn cổ động,…để có thể đƣa ra cảnh báo chính xác
về hỏa hoạn. Xét về tổng quát chức năng cơ bản của hệ thống phát hiện đối tƣợng
ảnh là xây dựng một bộ phân loại để xác định xem lớp đối tƣợng quan sát có nằm
trong một phần của ảnh hay không.
Để thực hiện công việc này, về mặt kỹ thuật ta có thể xem công việc của
chức năng phát hiện đối tƣợng ảnh bao gồm hai thành phần chính là xác định và

biểu diễn đặc trưng từ đối tƣợng ảnh (các đối tƣợng này đƣợc phân đoạn và xác
định từ trƣớc) và phân loại đối tượng ảnh thành các đối tƣợng cho mục đích
phát hiện đối tƣợng ảnh.

Hình 1.9: Sơ đồ một hệ thống giám sát giao thông
Phát hiện đối tượng là một chức năng trong hệ thống
Có thể có nhiều các định nghĩa khác nhau cho một hệ thống phát hiện đối
tƣợng ảnh. Tuy nhiên hai thành phần trên đƣợc xem là chính yếu để hình thành
nên hệ thống. Trong khuôn khổ của luận văn này việc xác định các kỹ thuật cũng
nhƣ thiết kế, so sánh, đánh giá giữa các hệ thống phát hiện đối tƣợng sẽ đƣợc
thực hiện dựa trên hai thành phần chủ yếu trên. Có rất nhiều các kỹ thuật đƣợc
phát triển để thực hiện hai chức năng trên, ta sẽ đề cập đến các kỹ thuật này ở
phần sau.

18
1.2.2 Các thành phần của hệ thống phát hiện đối tƣợng
 Xác định và biểu diễn đặc trƣng
Sau khi thu nhận đƣợc ảnh đầu vào, để có thể xử lý bằng máy tính, các
đặc trƣng của ảnh (sau khi đã tách đƣợc thành các đối tƣợng riêng biệt) sẽ đƣợc
hệ thống phát hiện đối tƣợng xác định. Các đặc trƣng này sẽ đƣợc sử dụng để
phân loại hay phát hiện các đối tƣợng cần thiết dựa vào việc so sánh với các đặc
trƣng mẫu. Việc tìm một phƣơng pháp để biểu diễn các đặc trƣng của dữ liệu ảnh
một cách hiệu quả là một trong những nghiên cứu trọng tâm trong lĩnh vực CV
nói chung và phát hiện đối tƣợng ảnh nói riêng. Tùy vào từng ứng dụng có các kỹ
thuật biểu diễn và xác định đặc trƣng khác nhau. Các đặc trƣng này phải đồng
nhất về thể hiện nhƣ các đặc trƣng mẫu trong cơ sở dữ liệu. Từ các biểu diễn đặc
trƣng này hệ thống có thể tính toán để phân loại và phát hiện đƣợc các đối tƣợng
cần thiết bằng các công cụ toán học thông thƣờng.
Về cơ bản có một số kỹ thuật biểu diễn các đặc trƣng của ảnh thƣờng
đƣợc áp dụng dựa trên các đặc trƣng dễ nhận thấy của ảnh nhƣ: các đặc trƣng về

không gian, các đặc trƣng về màu sắc, các đặc trƣng về hình dạng và các đặc
trƣng về kết cấu. Các đặc trƣng về màu sắc thƣờng đƣợc sử dụng cho những hệ
thống mà thông tin về màu sắc là một thành phần quan trọng trong phát hiện đối
tƣợng. Một số biểu diễn đặc trƣng phổ biến là moment màu, lƣợc đồ màu, vector
gắn kết màu, sơ đồ tƣơng quan màu hay các đặc điểm bất biến màu [4,6,7,8,12].
Các đặc trƣng về hình dạng liên quan nhiều đến các phƣơng pháp phát hiện và
biểu diễn biên, các bất biên moment, góc xoay/hàm xoay, độ tròn/độ lệch
tâm/hƣớng trục chính, các mô tả Fourier [4,17]. Các đặc trƣng về kết cấu lại thƣờng
đƣợc sử dụng một cách kết hợp với các thành phần biểu diễn đặc trƣng khác hoặc
trong những trƣờng hợp đối tƣợng phát hiện chỉ mang thông tin về kết cấu.
Một số biểu diễn của đặc trƣng kết cấu nhƣ phổ năng lƣợng Fourier, ma
trận đồng khả năng, Tamura, Phân tích Wold, trƣờng ngẫu nhiên Markov, các bộ
lọc đa phân giải nhƣ biến đổi Gabor và biến đổi dạng sóng, các toán tử hình thái

19
[2,4,6,8,11,12]. Việc biểu diễn các đặc trƣng kết cấu sẽ đƣợc đề cập rõ hơn trong
chƣơng 2 của luận văn này. Các đặc trƣng này thƣờng đƣợc dùng để áp dụng cho
các đối tƣợng trong ảnh một cách tổng thể hay cục bộ hoặc các đặc trƣng kết hợp.
Với các đặc trƣng toàn cục, các tính chất của toàn bộ miền biểu diễn của
đối tƣợng đƣợc xem xét. Đó có thể là các đặc trƣng về hình dạng nhƣ diện tích,
chu vi, hay mô tả Fourier, moments hoặc các đặc trƣng về kết cấu nếu đối tƣợng
là miền đồng nhất mang tính kết cấu cao,… Tính toàn cục thể hiện ở việc xem
xét tất cả các điểm trong miền đối tƣợng hoặc toàn bộ các điểm trên biên kín biểu
diễn đối tƣợng ảnh.
Việc mô tả đặc trƣng phải xem xét đến tất cả các điểm, vị trí , tính chất về
độ sáng, và quan hệ không gian. Một mô tả đặc trƣng cũng phải đủ mạnh để mô
tả đối tƣợng khi ảnh đƣợc quay, độ sáng thay đổi, hay co giãn với các tỷ lệ khác
nhau. Với các đặc trƣng cục bộ, một số phần nhỏ riêng biệt của miền đối tƣợng
đƣợc sử dụng làm biểu diễn đặc trƣng. Độ cong và các thuộc tính liên quan, đƣợc
tính toán trên biên hoặc trên bề mặt thƣờng đƣợc sử dụng làm các đặc trƣng phổ

biến. Các góc (các điểm với độ cong cao) hay các phân đoạn của biên cũng là
một trong những thành tố để biểu diễn đặc trƣng cục bộ của đối tƣợng. Với các
đặc trƣng kết hợp, các đặc trƣng sử dụng dựa trên vị trí tƣơng đối của các đối
tƣợng cục bộ và các đặc trƣng cục bộ. Vị trí tƣơng đối này có thể là khoảng cách
và các số đo về hƣớng, chiều liên kết liên quan.
 Phân loại đối tƣợng ảnh
Sau khi xác định đƣợc các đặc trƣng thích hợp của đối tƣợng thì việc tiếp
theo của một hệ thống phát hiện đối tƣợng là phân loại kết cấu và phát hiện đối
tƣợng cần. Khi số các mẫu trong cơ sở dữ liệu lớn, và số đối tƣợng cần phải phân
loại nhiều thì phải có các kỹ thuật khác nhau để hỗ trợ cho việc phân loại chính
xác. Các kỹ thuật này có thể khác nhau từ đơn giản đến phức tạp, có thể kết hợp
nhiều bộ phân loại với nhau để tạo ra một bộ phân loại nhiều tầng để tăng độ
chính xác. Tuy nhiên, theo [14], có thể quy về hai loại kỹ thuật chính sử dụng
mạng Neural trong phân loại đối tƣợng ảnh là phân loại có giám sát và phân loại

20
không giám sát phụ thuộc vào tập ví dụ mẫu sẵn có. Phân loại có giám sát
(Supervised Classification) hay còn gọi là học có giám sát (là loại kỹ thuật yêu
cầu thông tin về tập đối tƣợng mẫu để huấn luyện, đối tƣợng mới sẽ đƣợc phân
biệt nhờ hệ thống đã đƣợc huấn luyện). Các kỹ thuật phân loại này có thể dựa
trên mô hình phụ thuộc hàm phân bố (Statistical), có thể có tham số (nhƣ phân
bố Gaussian) hoặc không tham số và mô hình không phụ thuộc hàm phân bố
(Distribution - free). Phân loại không giám sát (Nonsupervised Classification) là
loại phân loại sử dụng kỹ thuật mà không cần thông tin trƣớc về đối tƣợng mẫu,
hệ thống sẽ tự nhận ra thông tin về đối tƣợng để phân loại. Trong [16], với giả sử
các đặc trƣng cho một đối tƣợng đƣợc biểu diễn trong một không gian N chiều,
một số kỹ thuật phân loại thƣờng đƣợc dùng trong phân loại đối tƣợng đƣợc thể
hiện một cách toán học và rõ ràng hơn.
 Phân loại láng giềng gần nhất (Nearest Neighbor Classifiers):
Giả sử rằng đối tƣợng mẫu đại diện cho mỗi lớp đã biết và đặc trƣng biểu

diễn của nó cho lớp thứ i là fij, j = 1, , N. Với mỗi tính toán đặc trƣng của đối
tƣợng U chƣa biết đƣợc biểu diễn bởi uj, j = 1, , N
O
1
O
2
O
3
O
4

Hình 1.10: Đối tƣợng đƣợc phân loại dựa vào khoảng cách
Để quyết định lớp nào là lớp chứa đối tƣợng, ngƣời ta tính toán độ tƣơng tự
của biểu diễn đặc trƣng đối tƣợng với các điểm trong mỗi lớp của không gian đặc
trƣng và gán nó tới lớp có độ tƣơng tự gần nhất. Độ tƣơng tự đƣợc tính bằng cách
tính khoảng cách Euclidean hoặc tổ hợp các đặc trƣng với trọng số bất kỳ. Tổng
quát, khoảng cách d
j
của đối tƣợng đầu vào và lớp thứ j đƣợc đo bởi công thức:

21
 
1/ 2
N
1i
2
ijjj
fud













Khi đó đối tƣợng đƣợc phân vào lớp R khi và chỉ khi khoảng cách tới lớp R
là nhỏ nhất.
 
j
N
1j
R
dmind



Một vấn đề đặt ra khi sử dụng giải thuật láng giềng gần nhất này là điểm
nào trong không gian đặc trƣng sẽ là điểm đại diện cho lớp để có thể tính khoảng
cách tới điểm đặc trƣng đầu vào. Một lớp có thể chứa nhiều đối tƣợng, đƣợc thể
hiện bằng cụm các điểm trong không gian đặc trƣng nhƣ trong hình 1.10:

Hình 1.11: Một lớp đƣợc thể hiện bằng cụm các điểm
Ngƣời ta giải quyết vấn đề này bằng cách chọn điểm đại diện cho lớp là
điểm trọng tâm của cụm hoặc chọn điểm trong lớp có khoảng cách gần với điểm
đầu vào nhất.

 Phân loại Bayes (Bayesian Classifier)
Phân loại Bayes đƣợc sử dụng cho phát hiện đối tƣợng khi phân bố của các
đối tƣợng không dễ dàng nhận biết nhƣ trƣờng hợp phân loại láng giềng gần
nhất. Trong thực tế với các giá trị vector dùng để tính các biểu diễn đặc trƣng, có
nhiều vector đặc trƣng của các đối tƣợng khác nhau lại có giá trị trùng nhau. Lúc
này biểu diễn của các lớp bằng các giá trị số nhiều chiều không hẳn đã phù hợp.
Một biểu diễn bằng hàm mật độ xác suất cho các giá trị biểu diễn đặc trƣng

22
thƣờng đƣợc sử dụng. Trên cơ sở đó cách phân loại Bayes thƣờng đƣợc sử dụng
để lấy đƣợc kết quả phân loại chính xác.

Hình 1.12: Hàm mật độ xác suất có điều kiện các giá trị đặc trƣng
Trong cách phân loại này, những thông tin xác suất về các đặc trƣng đƣợc
sử dụng. Giả sử ta biết xác suất sẽ xuất hiện của một đối tƣợng thuộc lớp j là
 
j
wP
. Và xác suất xuất hiện của đối tƣợng x với điều kiện là lớp j đƣợc lý hiệu là
 
j
wxp
. Một đối tƣợng sẽ đƣợc gán tới lớp j nếu xác suất có điều kiện P(w
j
|x) là
lớn nhất. Xác suất sau đƣợc tính dựa vào công thức Bayes. Một cách hình thức ta
có thể hiểu việc phân loại đối tƣợng vào một lớp khi biết đƣợc thông tin về hàm
phân bố xác suất của đối tƣợng và xác suất xuất hiện đối tƣợng x với điều kiện j
đƣợc thực hiện bằng cách lấy xác suất cao nhất của lớp j với điều kiện đối tƣợng
là x theo công thức Bayes sau:

 
 
 
 
xp
wPwxp
xwP
jj
j


Với
 
 
 
.wPwxpxp
N
1j
jj




Trong [4,6,7,8] trình bày một số kỹ thuật phân loại để đánh giá một đối
tƣợng đầu vào có thuộc một lớp các đối tƣợng nào đó hay không, dựa vào kỹ
thuật đánh giá độ tƣơng tự. Một vài phƣơng pháp đo độ tƣơng tự thƣờng đã đƣợc
sử dụng trong các hệ thống thực tế, nhất là các ứng dụng truy vấn ảnh theo nội
dung. Khác nhau duy nhất so với các bộ phân loại đã kể trên là khác nhau của
hàm tính khoảng cách và tiêu chuẩn để phân loại. Để thuận tiện cho việc trình
bày các kỹ thuật này chúng ta đƣa ra một số ký hiệu chung đƣợc dùng trong tất


23
cả các phƣơng pháp dƣới đây: ký hiệu D(I,J) là số đo khoảng cách (về độ tƣơng
tự) giữa ảnh mẫu I (đối tƣợng đầu vào) và một ảnh J bất kỳ và f
i
(I) là số điểm ảnh
trong bin thứ i của ảnh (đối tƣợng ảnh) I.
 Khoảng cách Minkowski
Nếu mỗi kích thƣớc của vector đặc trƣng của ảnh là độc lập với nhau và
có độ quan trọng nhƣ nhau thì khoảng cách Minkowski L
p
là thích hợp để tính
toán khoảng cách giống nhau giữa hai ảnh. Khoảng cách này đƣợc tính nhƣ sau:
p
i
p
ii
JfIfJID
/1
)()(),(









trong đó p = 1, 2 và


, D(I, J) tƣơng ứng là L
1
, L
2
(còn gọi là khoảng cách
Euclide) và L

. Khoảng cách Minkowski là phép đo đƣợc sử dụng nhiều nhất
trong tra cứu ảnh. Một trƣờng hợp đặc biệt của khoảng cách L
1
là tập giao nhau
của các histrogram. Giao của hai histogram I và J đƣợc định nghĩa nhƣ sau:





N
i
i
N
i
ji
Jf
JfIf
jIS
1
1
)(

))(),(min(
),(

Nhìn vào công thức này có thể thấy giao của histogram hầu nhƣ không bị
ảnh bởi sự thay đổi độ phân giải của ảnh, kích thƣớc histogram, độ sâu, độ bị che
phủ và điểm quan sát.
 Khoảng cách toàn phƣơng
Cách đo khoảng cách Minkowski coi tất cả các bin của histogram đặc
trƣng độc lập hoàn toàn với nhau và không dựa trên một thực tế là có các cặp bin
xác định tƣơng ứng với những đặc trƣng quan trọng hơn trong việc đánh giá sự
tƣơng tự giữa hai ảnh hơn là các cặp khác.
Để khắc phục nhƣợc điểm này, ngƣời ta đƣa ra cách tính khoảng cách toàn
phƣơng nhƣ sau:
)()(),(
JI
T
JI
FFAFFJID 

trong đó A = [a
ij
] là ma trận độ tƣơng tự và mỗi phần tử a
ij
là độ tƣơng tự
giữa bin i và bin j. F
I
và F
J
là các vector liệt kê tất cả các đề mục của f
i

(I) và f
i
(J).

24
Khoảng cách toàn phƣơng đƣợc sử dụng trong nhiều hệ thống tra cứu dựa
trên histogram màu.
 Khoảng cách Mahalanobis
Phƣơng pháp đo khoảng cách Mahalanobis sử dụng thích hợp nhất khi các
chiều của vector đặc trƣng không độc lập với nhau và có độ quan trọng khác
nhau. Công thức định nghĩa khoảng cách Mahalanobis là:

)()(),(
1
JI
T
JI
FFCFFJID 



trong đó C là ma trận hiệp biến của các vector đặc trƣng.
Cách tính khoảng cách Mahalanobis có thể đƣợc đơn giản hoá nếu các
chiều của vector đặc trƣng độc lập với nhau, chỉ một phƣơng sai của mỗi thành
phần đặc trƣng c
i
là cần thiết, khi đó:




N
i
iJI
cFFjID
1
2
/)(),(

 Độ phân kỳ Kullback-Leibler và độ phân kỳ Jeffrey
Độ phân kỳ Kullback-Leibler giữa hai ảnh I và J đƣợc định nghĩa là:


i
i
i
i
Jf
If
IfJID
)(
)(
log)(),(

KL thƣờng đƣợc sử dụng để đánh giá độ tƣơng tự về kết cấu.
Độ phân kỳ Jeffrey đƣợc định nghĩa là:


i
i
i

i
i
i
i
f
Jf
Jf
f
If
IfJID
^^
)(
log)(
)(
log)(),(

Trong đó f
i
^
= [f
i
(I) + f
i
(J)]/2. Khác với độ phân kỳ KL, độ phân kỳ Jeffrey
có tính đối xứng cao.

25
1.2.3 Vai trò của kết cấu trong phát hiện đối tƣợng
Nhƣ đã nêu ở phần trƣớc, việc biểu diễn các đặc trƣng của đối tƣợng ảnh
đóng một vai trò đặc biệt trong các ứng dụng CV nói chung và phát hiện đối

tƣợng nói riêng. Thông tin về kết cấu của bề mặt đối tƣợng là một trong những
thành tố quan trọng, không thể bỏ qua và đôi khi là duy nhất có trong ảnh để có
thể lấy đƣợc các đặc trƣng của đối tƣợng. Trong các ứng dụng giám sát giao
thông, hoặc kiểm tra chất lƣợng sản phẩm công nghiệp thì thông tin về kết cấu đã
đƣợc sử dụng để tăng độ chính xác cho việc sử dụng các thông tin màu sắc đơn
thuần [1,3]. Trong một số ứng dụng khác nhƣ điều khiển chất lƣợng sản xuất vải
sợi, so sánh ảnh mây vệ tinh hay địa chất thì việc sử dụng thông tin kết cấu là gần
nhƣ là bắt buộc vì các thông tin về màu sắc, hình dạng không thể hiện đƣợc trong
hệ thống [11]. Thông tin kết cấu cũng có thể đƣợc sử dụng trong phân tích ảnh y
học, xác thực cho các hệ thống an toàn dựa vào sinh trắc học, truy vấn ảnh dựa
vào nội dung, phân tích tài liệu, hay mô hình hóa môi trƣờng,…
Khi thiết kế một hệ thống phát hiện đối tƣợng, các công cụ và kỹ thuật
thích hợp sẽ đƣợc chọn lọc để tối ƣu cho từng bƣớc của các thành phần hệ thống.
Tuy nhiên, thực tế không có một kỹ thuật nào là phù hợp một cách tổng thể cho
tất các ứng dụng trong việc phát hiện đối tƣợng. Việc sử dụng thông tin về kết
cấu để phát hiện đối tƣợng cũng không phải là ngoại lệ. Đối với từng thành phần
của hệ thống việc sử dụng thông tin kết cấu có những khó khăn riêng.
 Biểu diễn đối tƣợng hoặc mô hình
Các đối tƣợng trong mô hình và trong cơ sở dữ liệu đƣợc biểu diễn theo
kết cấu nhƣ thế nào? Biểu diễn đó có thể hiện chính xác thông tin kết cấu của bề
mặt hay không? Các kết cấu mang tính trật tự cao (thƣờng do con ngƣời tạo ra
nhƣ kết cấu về gạch, vải sợi, hoa văn gạch men – kết cấu tĩnh) sẽ có thể đƣợc thể
hiện và thực hiện rất tốt bằng các kỹ thuật biểu diễn có cấu trúc. Trong khi đó,
với các kết cấu dạng khói, lửa trong các ứng dụng cảnh báo hỏa hoạn (kết cấu
động) thì biểu diễn theo hƣớng có cấu trúc lại không thích hợp.

26
Các kỹ thuật biễu diễn kết cấu ngẫu nhiên theo cách thống kê tỏ ra rất hữu
dụng để biểu diễn theo dạng kết cấu động này. Chƣơng 2 sẽ trình bày một cách
rõ ràng hơn về các kỹ thuật biểu diễn cho các loại thông tin kết cấu khác nhau.

Tuy nhiên với nhiều mô hình biểu diễn đối tƣợng có thể rất hữu dụng vì độ
chính xác nó mang lại nhƣng lại rất nặng nề về xử lý nhất là trong các ứng dụng
yêu cầu về thời gian thực, các ứng dụng loại này yêu cầu thời gian xử lý phải tính
bằng thời gian để xử lý một khung hình của cảnh thực. Thêm nữa cách biễu diễn
này có hữu dụng (có nhận ra đƣợc đối tƣợng) khi ảnh bị co giãn hoặc các đối
tƣợng bị quay đi theo một góc nào đó. Phần 2.3 sẽ trình bày một phƣơng pháp kết
hợp cả tiếp cận có cấu trúc và tiếp cận thống kê để biểu diễn thông tin cấu trúc. Đối
với từng loại ứng dụng phát hiện đối tƣợng dựa vào kết cấu khác nhau, việc xác định
đƣợc mô hình biểu diễn thông tin kết cấu thích hợp là vô cùng quan trọng.
 Phát hiện đối tƣợng
Các đặc trƣng kết cấu của đối tƣợng phù hợp với các mô hình kết cấu
trong cơ sở dữ liệu nhƣ thế nào? Trong nhiều trƣờng hợp, với việc kết hợp nhiều
đặc trƣng và nhiều đối tƣợng khác nhau, với một phƣơng pháp phân loại để phát
hiện đối tƣợng toàn diện có thể dẫn đến việc chậm chạp trong xử lý bất kể tính
hữu dụng của nó.






×