Tải bản đầy đủ (.pdf) (64 trang)

TÌM KIẾM ẢNH dựa vào nội DUNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.61 MB, 64 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH

ĐỒ ÁN TỐT NGHIỆP
Đề tài
TÌM KIẾM ẢNH DỰA VÀO NỘI DUNG

GVHD:
ThS. MAI TIẾN DŨNG
SVTH:
LÊ ĐÌNH BẰNG
HUỲNH THIỆN KHIÊM

TP.HCM, 01/2011

MSSV: 06520022
MSSV: 06520222


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
MỤC LỤC
TÓM TẮT ĐỒ ÁN ............................................................................................................. 2
LỜI MỞ ĐẦU ..................................................................................................................... 3
PHẦN 1 CƠ SỞ LÝ THUYẾT ........................................................................................... 6
A. TỔNG QUAN ............................................................................................................ 7
1. Sự hình thành bài toán ................................................................................................ 7
2. Cách tiếp cận ............................................................................................................... 7
2.1. Màu sắc ................................................................................................................ 8
2.2. Vân ..................................................................................................................... 10
2.3. Hình dạng ........................................................................................................... 14


2.4. Độ đo.................................................................................................................. 15
B. CÁC PHƢƠNG PHÁP ............................................................................................ 16
Chƣơng 1 Tìm kiếm ảnh dựa vào màu sắc ................................................................. 17
1.Màu sắc .................................................................................................................. 18
2. Tìm kiếm ảnh dựa vào màu sắc: ........................................................................... 21
Chƣơng 2 Tìm kiếm ảnh dựa vào vân ......................................................................... 28
1. Vân ........................................................................................................................ 29
2. Tìm kiếm ảnh dựa vào vân.................................................................................... 31
Chƣơng 3 Tìm kiếm ảnh dựa vào hình dạng............................................................... 40
1. Hình dạng ............................................................................................................. 41
2. Tìm kiếm ảnh dựa vào hình dạng ......................................................................... 42
PHẦN 2 CÀI ĐẶT.......................................................................................................... 45
1. Lựa chọn đặc trƣng ................................................................................................... 45
2. Tổ chức dữ liệu ......................................................................................................... 45
3. Giới thiệu tổng quan về các mới xử lý...................................................................... 45
4. Kết quả thử nghiệm ................................................................................................... 57
PHẦN 3 KẾT LUẬN ...................................................................................................... 60
1. HẠN CHẾ ................................................................................................................. 61
2. HƢỚNG PHÁT TRIỂN ............................................................................................ 61
Tài liệu tham khảo ............................................................................................................ 62

Page 1


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT

TÓM TẮT ĐỒ ÁN
Tên đề tài: Nghiên cứu xây dựng hệ thống tìm kiếm ảnh dựa trên nội dung.
Mục đích của Đồ Án này là tìm hiểu nghệ thuật “Tìm kiếm ảnh dựa vào nội dung”
content-based image retrieval (CBIR). Đây là một công nghệ cho phép tìm kiếm

ảnh dựa trên cơ sở các đặc tính gốc của hình ảnh chẳng hạn nhƣ màu sắc, kết cấu
và hình dạng (colour, texture and shape). Phát hiện của chúng em dựa trên việc
xem xét các tài liệu liên quan và trên các cuộc thảo luận của các nhà nghiên cứu và
học viện trong lĩnh vực này.
Để tài tập trung nghiên cứu các phƣơng pháp biểu diễn đặc trƣng về ngữ nghĩa của
các thành phần trong ảnh bao gồm màu sắc, vân, hình dạng của bức ảnh. Từ đó
xây dựng hệ thống có thể tìm kiếm ảnh dựa trên nội dung.
Hƣớng tiếp cận:
Tìm kiếm ảnh dựa vào màu sắc (Colour retrieval)
Tìm kiếm ảnh dựa vào vân (Texture retrieval)
Tìm kiểm ảnh dụa vào hình dạng (Shape retrieval)

Page 2


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT

LỜI MỞ ĐẦU
Tìm kiếm hình ảnh tƣơng đồng trong cơ sở dữ liệu hình ảnh là một phƣơng pháp
còn khá mới mẻ và có khả năng áp dụng trong mọi lĩnh vực, đặt biệt là ngành công
an để nhận dạng dấu vân tay.
Việc sử dụng sớm nhất “Tìm kiếm hình ảnh dựa trên nội dung” trong các tài liệu
dƣờng nhƣ là bởi bởi Kato (1992), để mô tả thí nghiệm của ông vào Tìm kiếm ảnh
tự động từ một cơ sở dữ liệu theo tính năng màu sắc và hình dạng. Thuật ngữ này
từ đó đƣợc sử dụng rộng rãi để mô tả quá trình lấy hình ảnh mong muốn từ một bộ
sƣu tập lớn trên cơ sở các tính năng (nhƣ kết cấu, màu sắc và hình dạng) có thể
đƣợc tự động trích xuất từ những hình ảnh bản thân mình. Các tính năng đƣợc sử
dụng để tìm kiếm có thể là nguyên thủy hoặc ngữ nghĩa, nhƣng quá trình khai thác
phải đƣợc chủ yếu là tự động.
Hiện nay có rất ít trang web sử dụng phƣơng thức tìm kiếm theo hình ảnh mà chỉ

tìm kiếm theo từ khóa nên việc cung cấp hình ảnh gốc để tìm kiếm là thực sự khó
khăn. Vì vậy, chúng em đã nghĩ tới việc, một trang web lớn nhƣ Google có thể lƣu
trữ và tạo lập một cơ sở dữ liệu hình ảnh. Ngƣời dùng chỉ cần cung cấp hình ảnh
muốn tìm, trang web sẽ đƣa ra các hình ảnh tƣơng đồng cùng với địa chỉ các trang
web chứa hình ảnh đó. Việc tìm kiếm hoàn toàn dựa trên nội dung của hình ảnh
(màu sắc, hình dạng...).
Tuy nhiên, không phải lúc nào kết quả thu đƣợc cũng thỏa mãn yêu cầu mong đợi
của ngƣời dùng mà còn tùy thuộc rất nhiều vào nội dung của ảnh. Nếu hình ảnh có
quá nhiều chi tiết phụ thì kết quả cũng bị ảnh hƣởng ít nhiều.
Lĩnh vực có thể ứng dụng khả thi nhất là kiến trúc để tìm kiếm các hình ảnh tƣơng
đồng về một công trình kiến trúc cũng nhƣ giúp các nhà kiến trúc hình thành nên
ý niệm hình ảnh tổng quan cho công trình của mình. Khả năng ứng dụng thứ hai là
để xây dựng cơ sơ dữ liệu vân tay, tìm kiếm các vân tay gần giống nhau để có thể
chọn lọc. Sau đó có thể ứng dụng các phƣơng pháp tìm kiếm định dạng truyền

Page 3


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
thống trong việc xác định vân tay. Ngoài ra, còn có thể đƣợc ứng dụng trong việc
nhận dạng bản quyền với các tác phẩm nghệ thuật. Ứng dụng khác là trong quân
sự và tự động hóa.
Sự cần thiết để tìm thấy một hình ảnh mong muốn từ một bộ sƣu tập đƣợc chia sẻ
bởi nhiều nhóm chuyên nghiệp, bao gồm các nhà báo, các kỹ sư thiết kế và sử gia
nghệ thuật. Trong khi các yêu cầu của ngƣời sử dụng hình ảnh có thể thay đổi
đáng kể, nó có thể hữu ích để mô tả các truy vấn hình ảnh thành ba mức độ trừu
tƣợng: tính năng căn nguyên như màu sắc hay hình dáng, tính năng logic chẳng
hạn như danh tính của các đối tượng được hiển thị, và các thuộc tính trừu tượng
như ý nghĩa của những cảnh miêu tả. Trong khi những hệ thống CBIR đang hoạt
động hiệu quả chỉ ở mức thấp nhất thì hầu hết ngƣời dùng yêu cầu cấp độ cao hơn.

Ngƣời dùng cần để tìm hình ảnh từ một bộ sƣu tập đến từ nhiều lĩnh vực, bao gồm
cả công tác phòng chống tội phạm, y học, kiến trúc, thời trang và xuất bản. Những
cuộc thu thập nhỏ chƣa đƣợc công khai trên cách ngƣời sử dụng tìm kiếm và sử
dụng hình ảnh, mặc dù nỗ lực đang đƣợc thực hiện để phân loại hành vi của ngƣời
dùng với hy vọng rằng điều này sẽ kích hoạt nhu cầu của họ đƣợc đáp ứng tốt hơn
trong tƣơng lai.
CBIR hoạt động trên một nguyên tắc hoàn toàn khác lập chỉ mục từ khóa. Tính
năng đặc trƣng nguyên thủy của nội dung hình ảnh, chẳng hạn nhƣ màu sắc, bố
cục và hình dạng, đƣợc tính toán cho cả hai hình ảnh đƣợc lƣu trữ và truy vấn, và
đƣợc sử dụng để xác định (nói) trong 20 hình ảnh đƣợc lƣu trữ gần nhất phù hợp
với câu truy vấn.
Có 3 hệ thống CBIR thƣơng mại – IBM’s QBIC, Virage’s VIR Image Engine, và
Excalibur’s Image RetrievalWare. Ngoài ra, phiên bản demo của nhiều hệ thống
thử nghiệm có thể đƣợc xem trên web, bao gồm MIT’s Photobook, Columbia
University’s WebSEEk, và Carnegie-Mellon University’s Informedia. Hệ thống
CBIR đang bắt đầu để tìm một chỗ đứng trên thị trƣờng; lĩnh vực ứng dụng chính
bao gồm công tác phòng chống tội phạm (dấu vân tay và nhận dạng khuôn mặt),

Page 4


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
sở hữu trí tuệ (đăng ký nhãn hiệu hàng hoá), báo chí và quảng cáo (video tài sản
quản lý) và tìm kiếm web.
Hiệu quả của tất cả các hệ thống CBIR hiện tại vốn đã bị hạn chế bởi thực tế là
chúng chỉ có thể hoạt động chỉ ở mức tính năng nguyên thủy. Không hệ thống nào
trong chúng có thể tìm kiếm hiệu quả, rằng một bức ảnh của một con chó - mặc dù
một số truy vấn ngữ nghĩa có thể đƣợc xử lý bằng cách chỉ cho họ về nguyên thủy.
Một cảnh bãi biển, ví dụ, có thể đƣợc lấy bằng cách xác định khu vực rộng lớn của
màu xanh ở phía trên của hình ảnh, và màu vàng ở phía dƣới. Có bằng chứng cho

thấy việc kết hợp các tính năng hình ảnh nguyên thủy với từ khoá văn bản hoặc
siêu liên kết có thể khắc phục một số vấn đề.

Page 5


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT

PHẦN 1
CƠ SỞ LÝ THUYẾT

Page 6


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT

A. TỔNG QUAN
1. Sự hình thành bài toán
Sự quan tâm đến tiềm năng của ảnh kỹ thuật số đã tăng lên vô cùng trong vài năm qua. Ít

nhất một phần bởi sự tăng trƣởng nhanh chóng của hình ảnh trên thế giới Web.
Các vấn đề tìm kiếm hình ảnh đang dần đƣợc công nhận rộng rãi, và tìm kiếm các
giải pháp ngày càng tích cực đƣợc nghiên cứu và phát triển. Một số dấu hiệu cho
thấy tốc độ tăng có thể đƣợc thu thập từ số lƣợng bài báo xuất hiện mỗi năm về đề
tài này, tăng từ 4 năm 1991 lên 12 trong năm 1994, và 45 năm 1998.
Việc sử dụng sớm nhất “Tìm kiếm hình ảnh dựa trên nội dung” trong các tài liệu
dƣờng nhƣ là bởi bởi Kato (1992), để mô tả thí nghiệm của ông vào Tìm kiếm ảnh
tự động từ một cơ sở dữ liệu theo tính năng màu sắc và hình dạng. Thuật ngữ này
từ đó đƣợc sử dụng rộng rãi để mô tả quá trình lấy hình ảnh mong muốn từ một bộ
sƣu tập lớn trên cơ sở các tính năng (nhƣ kết cấu, màu sắc và hình dạng) có thể

đƣợc tự động trích xuất từ những hình ảnh bản thân mình. Các tính năng đƣợc sử
dụng để tìm kiếm có thể là nguyên thủy hoặc ngữ nghĩa, nhƣng quá trình khai thác
phải đƣợc chủ yếu là tự động.
Hiện nay có rất ít trang web sử dụng phƣơng thức tìm kiếm theo hình ảnh mà chỉ
tìm kiếm theo từ khóa nên việc cung cấp hình ảnh gốc để tìm kiếm là thực sự khó
khăn. Vì vậy, chúng em đã nghĩ tới việc, một trang web lớn nhƣ Google có thể lƣu
trữ và tạo lập một cơ sở dữ liệu hình ảnh. Ngƣời dùng chỉ cần cung cấp hình ảnh
muốn tìm, trang web sẽ đƣa ra các hình ảnh tƣơng đồng cùng với địa chỉ các trang
web chứa hình ảnh đó. Việc tìm kiếm hoàn toàn dựa trên nội dung của hình ảnh
(màu sắc, hình dạng...).
2. Cách tiếp cận
Đề tài tập trung nghiên cứu:
- Tìm kiếm ảnh dựa vào màu sắc (Colour retrieval)
- Tìm kiếm ảnh dựa vào vân (Texture retrieval)
- Tìm kiểm ảnh dụa vào hình dạng (Shape retrieval)

Page 7


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
2.1. Màu sắc

2.1.1. Định nghĩa
Một trong những yếu tố quan trọng nhất mà có thể nhận diện các hình ảnh của con
ngƣời đó chính là màu sắc. Màu sắc là một thuộc tính mà phụ thuộc vào sự phản
chiếu của ánh sáng vào mắt và xử lý các thông tin trong não. Chúng ta sử dụng
màu sắc mỗi ngày để biết sự khác biệt giữa các đối tƣợng, địa điểm, và thời gian
trong ngày. Thông thƣờng màu sắc đƣợc xác định trong không gian màu ba chiều.
Có thể là RGB (Red, Green, và Blue), HSV (Hue, Saturation, và Value) hoặc HSB
(Hue, Saturation, và Brightness). Hai cái cuối phụ thuộc vào nhận thức con ngƣời

về màu sắc, độ bão hòa, và độ sáng (Hue, Saturation, và Value).
Hầu hết các định dạng hình ảnh nhƣ JPEG, BMP, GIF, sử dụng không gian màu
RGB để lƣu trữ thông tin. Các không gian màu RGB đƣợc định nghĩa là một khối
lập phƣơng đơn vị với trục màu đỏ, xanh lá cây, và xanh dương. Nhƣ vậy, một
vector với ba phối hợp đại diện cho màu sắc trong không gian này. Khi cả ba tọa
độ đƣợc thiết lập thành 0 thì màu sắc cảm nhận là màu đen. Khi cả ba tọa độ đƣợc
đặt là 1 màu sắc cảm nhận là màu trắng. Các không gian màu khác tƣơng tự nhƣng
với một nhận thức khác.
Màu sắc là vấn đề cần tập chung giải quyết nhiều nhất, vì một ảnh màu thì thông
tin quan trọng nhất trong ảnh chính là màu sắc. Hơn nữa thông tin về màu sắc là
thông tin ngƣời dùng quan tâm nhất; qua đặc trƣng màu sắc, có thể lọc đƣợc rất
nhiều lớp ảnh, thông qua vị trí, không gian, định lƣợng của màu trong ảnh.
2.1.2. Các cách thức mô tả
Phƣơng pháp chính của việc mô tả các thông tin màu sắc của hình ảnh trong các
hệ thống CBIR là thông qua biểu đồ màu. Một biểu đồ màu sắc là một loại biểu đồ
bar (biểu đồ thanh), nơi mà mỗi thanh đại diện cho một màu sắc cụ thể của không
gian màu đƣợc sử dụng. Các thanh trong một biểu đồ màu đƣợc gọi là bins và
chúng đại diện cho trục x. Số lƣợng bins phụ thuộc vào số lƣợng màu có trong
ảnh. Các trục y biểu thị số lƣợng điểm ảnh có trong mỗi bins. Nói cách khác bao
nhiêu điểm ảnh trong một hình ảnh là của một màu sắc cụ thể.

Page 8


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
Một ví dụ về biểu đồ màu sắc trong không gian màu HSV có thể đƣợc nhìn thấy
với hình ảnh sau đây:

Figure: Hình ảnh mẫu biểu đồ tương ứng của nó ...
Colour Map


Number of Pixels per Bin

(x-axis)

(y-axis)

H

S

V

0.9922

0.9882

0.9961

106

0.9569

0.9569

0.9882

242

0.9725


0.9647

0.9765

273

0.9176

0.9137

0.9569

372

0.9098

0.8980

0.9176

185

0.9569

0.9255

0.9412

204


0.9020

0.8627

0.8980

135

0.9020

0.8431

0.8510

166

0.9098

0.8196

0.8078

179

0.8549

0.8510

0.8941


188

0.8235

0.8235

0.8941

241

0.8471

0.8353

0.8549

104

0.8353

0.7961

0.8392

198

.

.


.

.

.

.

.

.

Page 9


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
.

.

.

.

Table: Colour Map and Number of pixels for the Previous Image.

Mỗi hàng của Colour Map đại diện cho màu sắc của một bin. Hàng này bao gồm
ba tọa độ của không gian màu sắc. Phối hợp đầu tiên đại diện cho màu sắc, thứ 2
là độ bão hòa, và thứ 3 là giá trị, do đó đƣa ra HSV. Tỷ lệ phần trăm của từng tọa

độ là những gì tạo nên màu sắc của bin một. Ngoài ra có thể thấy số điểm ảnh
tƣơng ứng cho mỗi bin, đƣợc biểu hiện bằng các đƣờng màu xanh trong biểu đồ.
Có hai loại biểu đồ màu, biểu đồ màu sắc toàn cục (GCHs) và biểu đồ màu sắc cục
bộ (LCHs). GCH đại diện cho một toàn bộ hình ảnh với một biểu đồ màu duy
nhất. LCH chia một hình ảnh thành các khối cố định và lấy biểu đồ màu của mỗi
khối đó. LCHs chứa thông tin thêm về hình ảnh nhƣng khá tốn chi phí khi so sánh
hình ảnh. GCH là phƣơng pháp truyền thống để nhận diện ảnh dựa vào màu sắc.
Tuy nhiên, nó không bao gồm thông tin liên quan đến việc phân phối màu sắc của
các vùng của một hình ảnh. Do đó khi so sánh GCHs ngƣời ta có thể không phải
luôn luôn có đƣợc một kết quả đúng về sự giống nhau của hình ảnh.

2.2. Vân
2.2.1. Định nghĩa
Texture là thuộc tính bẩm sinh của tất cả các bề mặt các mô hình mô tả trực quan,
mỗi thuộc tính có tính đồng nhất. Nó chứa đựng thông tin quan trọng về sự sắp
xếp có cấu trúc của bề mặt, chẳng hạn nhƣ, mây, lá, gạch, vải, v.v… Nó cũng mô
tả các mối quan hệ của bề mặt đến môi trƣờng xung quanh. Nói ngắn gọn, nó là
một tính năng mô tả các thành phần khác biệt của một bề mặt.
Các thuộc tính của Texture bao gồm:


Coarseness (Thô)



Contrast (Tƣơng phản)

Page 10



ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT


Directionality (Định hƣớng)

(c) Rocks
(a) Clouds
(b) Bricks


Line-likeness



Regularity (Đều đặn)



Roughness (Độ nhám)

Figure: Examples of Textures…

Texture là một trong những thành phần quan trọng nhất định của một hình ảnh. Nó
đƣợc đặc trƣng bởi sự phân bố không gian của mức độ màu xám trong một lân
cận.
Có những lớp ảnh mà màu sắc không thể giải quyết đƣợc, đòi hỏi phải dùng đặc
trƣng vân. Ví dụ nhƣ những ảnh liên quan đến cấu trúc của điểm ảnh nhƣ: cỏ,
mây, đá, sợi.
Vân sẽ giải quyết tốt cho việc tìm kiếm đối với lớp ảnh này.
2.2.2. Cách thức mô tả

Có ba phƣơng pháp chính đƣợc sử dụng để mô tả kết cấu; thống kê, cấu trúc và
quang phổ ...
 Các kỹ thuật thống kê mô tả kết cấu bằng cách sử dụng các tính chất thống
kê của các cấp độ màu xám của các điểm / điểm ảnh bao gồm một hình ảnh
bề mặt. Thông thƣờng, những thuộc tính này đƣợc tính toán bằng cách sử
dụng: mức màu xám đồng xảy ra ma trận của bề mặt, hoặc chuyển đổi
wavelet của bề mặt.

Page 11


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
 Kết cấu đặc điểm kỹ thuật bao gồm các cấu trúc đơn giản, nguyên thủy
đƣợc gọi là "texels" (hoặc các thành phần kết cấu). Đƣợc bố trí thƣờng
xuyên trên một bề mặt theo một số quy tắc bố trí bề mặt.
 Các kỹ thuật quang phổ dựa trên đặc tính của phổ Fourier và mô tả các chu
kỳ toàn cục của các cấp độ màu xám của một bề mặt bằng cách xác định
năng lƣợng cao đỉnh điểm trong quang phổ Fourier
Đối với mục đích phân loại tối ƣu, những gì chúng ta quan tâm là các kỹ thuật
thống kê của các đặc tính ... Bởi vì nó là những kỹ thuật cho kết quả trong tính
toán kết cấu phổ biến nhất đại diện thống kê của các kết cấu là:
 Co-occurrence Matrix
 Tamura Texture
 Wavelet Transform
2.2.2.1. Co-occurrence Matrix

Ct (a, b)  card {( s, s  t )  R2 | A[ s]  a, A[ s  t ]  b}
2.2.2.2. Tamura Texture
Bằng cách quan sát các nghiên cứu tâm lý trong nhận thức thị giác của con ngƣời,
Tamura khám phá các đại diện kết cấu sử dụng xấp xỉ tính toán với ba tính năng

kết cấu chính của: thô, tƣơng phản, và định hƣớng. Mỗi tính năng này đƣợc tính
toán bằng cách sử dụng các thuật toán xấp xỉ ...
2.2.2.3. Wavelet Transform
Kết cấu có thể đƣợc mô hình nhƣ mô hình bán định kỳ với đại diện không gian tần số /.
Các biến đổi wavelet chuyển đổi hình ảnh thành một đại diện nhiều quy mô với cả hai
đặc tính không gian và tần số. Điều này cho phép phân tích hiệu quả hình ảnh theo nhiều
quy mô với chi phí thấp hơn tính toán. Theo chuyển đổi này, một chức năng, có thể đại
diện cho một hình ảnh, đƣờng cong, tín hiệu, v.v…, có thể đƣợc mô tả trong điều khoản
của một mô tả thô cấp thêm cho yếu tố khác với các chi tiết mà từ quy mô rộng để thu
hẹp.

Page 12


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
Không giống nhƣ việc sử dụng các hàm sin để biểu diễn tín hiệu trong biến đổi
Fourier, trong biến đổi wavelet, chúng ta sử dụng chức năng gọi là wavelets.
Wavelets là hữu hạn trong thời gian, nhƣng các giá trị trung bình của một wavelet
là số không. Trong ý nghĩa một wavelet là một dạng sóng, đó là bị chặn ở cả hai
tần số và thời gian. Trong khi biến đổi Fourier chuyển một tín hiệu vào một loạt
liên tục của sóng sin, mỗi trong số đó là tần số không đổi và biên độ và thời gian
vô hạn, hầu hết các tín hiệu thực tế (chẳng hạn nhƣ âm nhạc hoặc hình ảnh) có một
thời hạn và thay đổi đột ngột ở tần số. Điều này là do biến đổi wavelet chuyển đổi
một tín hiệu vào một loạt các wavelets, có thể đƣợc lƣu trữ hiệu quả hơn do thời
gian hữu hạn, và có thể đƣợc xây dựng với các cạnh thô, do đó xấp xỉ tín hiệu
trong thế giới thực tốt hơn.
Ví dụ về các wavelets là Coiflet, Morlet, Mexico Hat, Haar và Daubechies. Trong
số này, Haar là đơn giản và hầu hết sử dụng rộng rãi, trong khi Daubechies có cấu
trúc fractal và rất cần thiết cho các ứng dụng wavelet hiện nay. Hai trong số đƣợc
nêu dƣới đây:


Figure: Haar Wavelet Example…

Page 13


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT

Figure: Daubechies Wavelet Example

2.3. Hình dạng

2.3.1. Định nghĩa
Hình dạng có thể đƣợc định nghĩa là cấu hình bề mặt đặc trƣng của một đối tƣợng;
Nó cho phép một đối tƣợng đƣợc phân biệt với môi trƣờng xung quanh bởi hình
dáng của nó. Đại diện hình có thể đƣợc chia làm hai loại:


Boundary-based (Đại diện hình dạng ranh giới)



Region-based. (Đại diện khu vực)

Figure: Boundary-based & Region-based…
Đại diện hình dạng ranh giới dựa trên chỉ sử dụng các ranh giới ngoài của hình.
Điều này đƣợc thực hiện bằng cách mô tả các khu vực đƣợc coi là sử dụng các đặc
điểm bên ngoài của nó, nghĩa là, các điểm ảnh dọc theo ranh giới đối tƣợng. Đại

Page 14



ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
diện khu vực dựa trên hình sử dụng toàn bộ khu vực bằng cách mô tả hình dạng
khu vực đƣợc coi là sử dụng đặc điểm nội tại của nó, nghĩa là, các điểm ảnh chứa
trong khu vực đó
Đối với những lớp ảnh cần tìm mà liên quan đến hình dạng của đối tƣợng thì đặc
trƣng vân và màu không thể giải quyết đƣợc. Ví dụ nhƣ tìm một vật có hình dạng
ellipse hay hình tròn trong ảnh. Tìm kiếm theo hình dáng thật sự là một cái đích
của hệ thống tìm kiếm dựa vào nội dung muốn đạt tới.
2.3.2. Phương thức mô tả
Đối với đại diện đặc trƣng hình dạng, chúng tôi có:
Boundary-based:


Polygonal Models, boundary partitioning



Fourier Descriptors



Splines, higher order constructs



Curvature Models

Region-based:



Superquadrics



Fourier Descriptors



Implicit Polynomials



Blum's skeletons

Thành công nhất là Fourier Descriptor và Moment Invariants:

 Ý tƣởng chính của Fourier Descriptor là sử dụng các ranh giới biến đổi Fourier
nhƣ đặc tính hình dạng.



Ý tƣởng chính của Moment Invariants là sử dụng những khoảnh khắc theo vùng,
miền, đó là bất biến với phép biến đổi nhƣ đặc tính hình dạng.

2.4. Độ đo
Có ý nghĩa quan trọng trong tìm kiếm ảnh dựa vào nội dung. Độ đo mang ý nghĩa
quyết định kết quả tìm kiếm sẽ nhƣ thế nào, mức độ chính xác.


Page 15


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT

B. CÁC PHƯƠNG PHÁP
TÌM KIẾM ẢNH DỰA VÀO NỘI DUNG

Page 16


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
Chương 1
Tìm kiếm ảnh dựa vào màu sắc
1. Màu sắc
1.1. Một số đặc tính vật lý đặt biệt của màu sắc
1.2. Hệ thống màu chuẩn RGB
1.3. Hệ thống màu CMY
1.4. Hệ thống màu L*a*b
1.5. Hệ thống màu HSI
2. Tìm kiếm ảnh dựa vào màu sắc
2.1. Lƣợt đồ màu
2.2. Các loại độ đo màu sắc

Page 17


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT

1.Màu sắc

Sự nhận thức về màu sắc là quá trình quan trọng của con ngƣời. Sự nhận thức về
màu sắc phụ thuộc vào cả tính chất vật lý của ánh sáng và quá trình xử lý của thị
giác với sự góp phần rất quan trọng của kinh nghiệm. Con ngƣời dùng thông tin
màu sắc để phân biệt đối tƣợng, vật liệu, đồ ăn, vị trí và ngay cả thời gian của
ngày.
Với sự phát triển mạnh mẽ của các thiết bị kinh tế, máy móc xử lý màu sắc trở nên
thông dụng: Chúng ta có các thiết bị nhƣ máy quay phim màu, thiết bị chiếu màu
và những phần mềm xử lý ảnh màu. Máy móc có thể dùng màu sắc cho những
mục đích nhƣ là con ngƣời. Đặc biệt, màu sắc thuận tiện bởi vì nó cung cấp phép
đo lƣờng đa dạng tại mỗi điểm ảnh đơn, có thể phân lớp, phân loại mà không cần
đến những sự xử lý không gian phức tạp để đƣa đến quyết định.
1.1. Một số đặc tính vật lý đặc biệt về màu sắc
Con ngƣời chỉ có khả năng nhận thức đƣợc ánh sáng có bức xạ điện từ với bƣớc
sóng trong khoảng 400–700 nanomet. Cơ quan thị giác cảm nhận đƣợc ánh sáng là
do bề mặt đối tƣợng phát ra ánh sáng, là kết quả của sự tƣơng tác giữa năng lƣợng
chiếu sáng và những phân tử của bề mặt đối tƣợng.Một đối tƣợng màu xanh
dƣơng sẽ có bề mặt màu xanh dƣơng khi chiếu ánh sáng trắng vào. Nhƣng đối
tƣợng đó sẽ có màu tím khi chiếu ánh sáng đỏ vào.
1.2. Hệ thốngmàu chuẩn RGB
Mắt ngƣời có thể phân biệt hàng ngàn màu sắc khác nhau, những con số chính xác
hơn vẫn còn đang đƣợc bàn cãi nhiều. Ba màu RGB (Red-Green- Blue) mã hóa hệ
thống đồ họa sử dụng ba byte (28)3 hay khoảng chừng 16 triệu màu phân biệt. Máy
tính có thể phân biệt bất kỳ màu gì sau khi đƣợc mã hóa, nhƣng việc mã hóa có thể
không trình bày đƣợc những sự khác biệt trong thế giới thực. Mỗi điểm ảnh RGB
bao gồm một byte cho màu R, một byte cho màu G và một byte cho màu B.
Việc mã hóa một màu tùy ý trong dãy hiển thị đƣợc làm bằng cách tổ hợp ba màu
chính. Ví dụ: Red(255,0,0), Green(0,255,0), Blue(0,0,255), Black(0,0,0)
Page 18



ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
Hệ thống màu RGB là một hệ thống màu cộng vào bởi vì mỗi màu đƣợc tạo nên
bằng cách cộng thêm các phần tử vào màu đen(0,0,0)
Khuôn dạng của không gian màu RGB là định dạng phổ biến nhất của ảnh số, lý
do chính là tính tƣơng thích với màn hình hiển thị chính là màn hình vi tính. Tuy
nhiên không gian màu RGB có hạn chế lớn nhất là không phù hợp với cách con
ngƣời cảm nhận về màu sắc. Do đó không phù hợp cho việc ứng dụng vào tìm
kiếm ảnh.

1.3. Hệ thốngmàu CMY
Hệ thống màu CMY theo mô hình in trên giấy trắng và theo khuôn mẫu trừ từ màu
trắng thay vì thêm vào từ màu đen nhƣ hệ thống màu RGB. CMY là viết tắt của
Cyan-Magenta-Yellow (màu lục lam, màu đỏ tƣơi, màu vàng), đó là ba màu chính
tƣơng ứng với ba màu mực in. Cyan hấp thu sự chiếu sáng của màu đỏ, Magenta
hấp thu màu xanh lục, Yellow hấp thu màu xanh dƣơng. Do đó, tạo ra sự phản ánh
tƣơng ứng nhƣ khi in ảnh đƣợc chiếu sáng với ánh sáng trắng. Hệ thống dƣới dạng
âm tính vì mã hóa theo dạng hấp thụ màu. Có một số mã hóa nhƣ sau: trắng (0,0,0)

Page 19


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
vì không có ánh sáng trắng đƣợc hấp thụ, đen (255,255,255) vì tất cả các thành
phần của màu trắng đều đƣợc hấp thụ.
Hệ thống màu CMY dƣờng nhƣ là một sự đảo ngƣợc của hệ thống màu RGB. Đặc
tính của nó là sự đơn giản, ứng dụng nhiều trong thực tế. Tuy nhiên khuyết điểm
của nó cũng tƣơng tự nhƣ không gian màu RGB, tức là cách mã hóa khác với cách
mà con ngƣời cảm nhận về màu sắc. Không thích hợp cho bài toán tìm kiếm ảnh
dựa vào nội dung.
1.4. Hệ thốngmàu L*a*b

Mô hình L*a*b đƣợc đề cử bởi CIE cho việc lƣợng hóa sự khác biệt của màu sắc
trong vật chiếu sáng của ánh sáng ban ngày. Tuy nhiên nó có một sự chuyển đổi
đƣợc ghi vào để mà tính toán cho việc thích nghi với những nguồn sáng.
Đây là hệ thống màu có sự tách riêng ánh sáng và màu sắc ra riêng. Do đó, cũng
có khả năng lớn cho việc tìm kiếm dựa vào nội dung.
1.5. Hệ thống màu HSI: Hue-Saturation-Intensity
Hệ thống màu HSI mã hóa thông tin màu sắc bằng cách chia giá trị intensity I từ
hai giá trị đƣợc mãhóa thuộc về độ hội tụ của màu-hue H và saturation S.
Thành phần không gian màu HSI gồm có ba phần: Hue đƣợc định nghĩa có giá trị
0-2Π , mang thông tin về màu sắc. Saturation có giá trị 0-1, mang giá trị về độ
thuần khiết của thành phần Hue. Intensity(Value) mang thông tin về độ sáng của
điểm ảnh.Ta có thể hình dung không gian màu HSI nhƣ là vật hình nón. Với trục
chính biểu thị cƣờng độ sáng Intensity. Khoảng cách đến trục biểu thị độ tập
chung Saturation. Góc xung quanh trục biểu thị cho sắc màu Hue.
Đôi khi, hệ thống màu HSI đƣợc coi nhƣ là hệ thống màu HSV dùng Value thay vì
Intensity.
Hệ thống màu HSI thì thích hợp hơn với một số thiết kế đồ họa bởi vì nó cung cấp
sự điều khiển trực tiếp đến ánh sáng và hue. Hệ thống màu HIS cũng hỗ trợ tốt
hơn cho những thuật toán xử lý ảnh vì sự tiêu chuẩn hóa về ánh sáng và tập chung
vào hai tham số về độ hội tụ màu,vàcƣờng độ màu.

Page 20


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT

Hệ thống màu HSI có sự phân chia rõ rệt giữa ánh sáng và màu sắc. Do đó có khả
năng rất lớn đƣợc áp dụng cho việc tính đặc trƣng và so sánh sự giống nhau về
màu sắc của hai ảnh. Do đó nó rất thích hợp cho việc tìm kiếm ảnh dựa vào màu.
Sự giống và khác nhau giữa hai ảnh về mặt màu sắc đối với mắt ngƣời chỉ mang ý

nghĩa tƣơng đối. Do đó khi áp dụng vào bài toán này trên máy tính thì ta cũng giả
lập sự tƣơng đối này.
Phƣơng pháp chính của việc tìm kiếm theo màu sắc là dùng lƣợt đồ màu để làm
đặc trƣng cho từng ảnh. Do những đặc điểm riêng của mô hình màu HIS và đặc
trƣng của việc tìm kiếm nên tính lƣợt đồ màu cũng đƣợc dùng một mô mình rất
đặc biệt để phù hợp cho những đặc điểm riêng này.
2. Tìm kiếm ảnh dựa vào màu sắc:
Phƣơng pháp phổ biến để tìm kiếm ảnh trong một tập những ảnh hỗn tạp cho trƣớc
là dựa vào lƣợt đồ màu của chúng. Đây là cách làm khá đơn giản, tốc độ tìm kiếm
tƣơng đối nhanh nhƣng khuyết điểm là kết quả tìm kiếm lại có độ chính xác không
cao. Nhƣng đây có thể đƣợc xem nhƣ là bƣớc lọc đầu tiên cho những tìm kiếm
sau. Muốn đƣợc kết quả chính xác cao đòi hỏi sự kết hợp đồng thời với vân
(texture) và hình dáng (shape).

Page 21


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
Cho đến nay, để giải quyết vấn đề về màu sắc, cách tiếp cận chính vẫn là dựa vào
lƣợt đồ màu.
2.1. Lượt đồ màu
Lƣợt đồ màu: Nhƣ là một bảng tóm tắt thông tin về màu sắc cho một ảnh màu bất
kỳ.
Và việc tính lƣợt đồ màu này đƣợc tiến hành một cách rất nhanh chóng trong ảnh
mà chỉ qua một lần duyệt qua toàn bộ ảnh.Do đó ứng dụng vào việc tìm kiếm ảnh
sẽ có lợi rất lớn về mặt tốc độ.
Một số tính chất cần quan tâm của lƣợt đồ màu đối với vấn đề truy tìm ảnh:
- Việc tính lƣợt đồ màu của ảnh diễn ra rất nhanh chóng trong ảnh chỉ qua
một lần duyệt qua toàn bộ ảnh.
- Lƣợt đồ màu tƣơng đối bất biến đối với phép tịnh tiến, xoay ảnh, và nhất là

sự kéo nhỏ, kéo giãn, thay đổi kích thƣớc của ảnh.
- Lƣợt đồ màu của một ảnh màu có thể là một cách miêu tả rất có ý nghĩa cho
việc truy tìm ảnh hay nhận dạng đối tƣợng trong ảnh.
2.1.1. Lượt đồ màu thông thường RGB
Đối với ảnh 256 màu, lƣợt đồ màu của ảnh tƣơng đƣơng với lƣợt đồ màu của ảnh
xám.
Đối với ảnh 24 bit màu, lƣợt đồ màu miêu tả khả năng kết nối về cƣờng độ của ba
kênh màu R, G, B. Lƣợt đồ màu này đƣợc định nghĩa nhƣ sau:
hR,G,B[r, g, b]= N*Prob{R=r, G=g, B=b}
trong đó N làsố lƣợng điểm có trong ảnh.
Lƣợt đồ màu ở dạng này đƣợc tính bằng cách rời rạc hoá từng màu trong ảnh, sau
đó là đếm số điểm ảnh của mỗi màu.
Khi mà số lƣợng màu là có hạn, để thuận tiện hơn, ngƣời ta thƣờng chuyển đổi ba
kênh màu thành một biến giá trị màu duy nhất. Cho một ảnh RGB, một kiểu
chuyển đổi thƣờng đƣợcsử dụng là:

Page 22


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
m= r+Nrg+NrNgb
trong đó Nr, Ng là số lƣợng bin của màu đỏ và màu xanh lục.
Điều này mang lại một lƣợt đồ đơn duy nhất nhƣ sau:
h[m]= N*Prob{M=m}
Một cách khác để tính lƣợt đồ màu của ảnh RGB là ta phân ra thành 3 lƣợt đồ
riêng biệt hR[], hG[], hB[]. Khi đó, mỗi lƣợt đồ đƣợc tính bằng cách đếm kênh
màu tƣơng ứng trong mỗi điểm ảnh.
2.1.2. Lượt đồ màu HSI:
Mô hình màu HSI có những ƣu điểm lớn cho việc tìm kiếm hình ảnh dựa vào nội
dung và nhất là trong công việc tìm kiếm dựa vào màu sắc. Nhƣng những ảnh màu

thông thƣờng đƣợc lƣu trữ ở dạngkỹ thuật số trong máy tính thƣờng theo chuẩn
RGB, do đó để có đƣợc ảnh màu HSI ta phải qua công đoạn chuyển đổi. Chuyển
từ hệ màu RGB sang hệ màu HSI là một thuật giải có rất nhiều trong hầu hết
những sách về xử lý ảnh cổ điển.
Thuật toán chuyển đổi từ RGB sang HIS:
Gọi R,G,B là giá trị nhập của RGB với giá trị trong khoảng [0,1] hay [0,255]
I : Giá trị xuất của cƣờng độ intensity [0,1]
S : Giá trị xuất của độ bảo hòa saturation [0,1]
H : Giá trị xuất của màu sắc hue [0,2Π]
R, G, B, H, I, S: Tất cả đều là những giá trị số thực.
Procedure RGB_to_HSI(in R,G,B; out H,S,I)
{
I:=Max(R,G,B);
Min:=Min(R,G,B);
If (I>=0) then
S:=(I-Min)/I;
Else S:=0;
If (S<=0) then
{

Page 23


ĐỒ ÁN TỐT NGHIỆP – KHOA KHMT – ĐHCNTT
H:=-1;
Return;
}
Diff:= I-Min;
If (R=I) then H:=(Π/3)*(G-R) /Diff;
Else if (G=I) then H:=(2*Π/3)+Π/3*(B-R)/diff;

Else if (B=I) then H:=(4*Π/3)+Π/3*(R-G)/diff;
If (H<=0) H:=H+Π/2;
}
Theo các phƣơng pháp truyền thống, việc tạo lƣợt đồ màu chỉ đơn giản bằng cách
chia không gian màu thành những ngăn riêng biệt, sau đó đếm những pixel có màu
sắc phù hợp trong những ngăn này. Cách làm này rất đơn giản, nhƣng không phù
hợp cho việc so sánh, tìm kiếm ảnh. Vì những thay đổi nhỏ về điều kiện chiếu
sáng, sự thay đổi về cƣờng độ có thể gây nên những thay đổi lớn trong lƣợt đồ
màu. Do đó, hai ảnh rất giống nhau về màu sắc có thể có lƣợt đồ màu hoàn toàn
khác nhau.
Ví dụ : không gian màu HSI, thành phần Hue trong nhiều trƣờng hợp mang giá trị
nhƣng không thể hiện đƣợc màu sắc trong hiển thị: Khi giá trị Intensity nằm trong
khoảng 0 - 0.2, Hue mang bất kỳ giá trị nào thì màu mà mắt ngƣời nhìn thấy vẫn là
màu đen. Vì vậy đối với các cách tính lƣợt đồ màu thông thƣờng, điểm ảnh A có
Hue bằng 2π , Intensity bằng 0.1 và điểm ảnh B có Hue bằng π , Intensity bằng 0.1
sẽ nằm trong những bin khác nhau.
Nhƣng thật ra, điểm ảnh A và điểm ảnh B đều có giá trị hiển thị là màu đen.
Lượt đồ HSI cải tiến
Một phƣơng pháp đƣợc đề suất để giải quyết cho trƣờng hợp trên là ta dựa vào
Intensity để lọc trƣớc những giá trị mà Hue không thể biểu thị đƣợc.

Page 24


×