Tải bản đầy đủ (.pdf) (70 trang)

Tìm kiếm ảnh theo nội dung dựa trên LDA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.9 MB, 70 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CẦN THƠ

PHAN THỊ KIM LOAN

TÌM KIẾM ẢNH THEO NỘI DUNG DỰA TRÊN
PHÂN PHỐI DIRICHLET TIỀM ẨN

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Cần Thơ - 2012


BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CẦN THƠ

PHAN THỊ KIM LOAN

TÌM KIẾM ẢNH THEO NỘI DUNG
DỰA TRÊN PHÂN PHỐI DIRICHLET TIỀM ẨN

Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 24 10 08

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học
TS. PHẠM NGUYÊN KHANG


Cần Thơ - 2012


MỤC LỤC
DANH MỤC ĐỒ THỊ......................................................................................... III
DANH MỤC BẢNG BIỂU .................................................................................. IV
DANH MỤC HÌNH ẢNH..................................................................................... V
BẢNG TỪ VIẾT TẮT ....................................................................................... VII
TÓM TẮT

...................................................................................................VIII

ABSTRACT ......................................................................................................IX
MỞ ĐẦU

........................................................................................................ 1

1. Lý do chọn đề tài ................................................................................................. 1
2. Mục đích của đề tài:............................................................................................. 1
3. Đối tượng và phạm vi nghiên cứu ........................................................................ 1
4. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu............................................ 2
CHƯƠNG 1: TÌM KIẾM ẢNH THEO NỘI DUNG .......................................... 4
1.1 Đặt vấn đề ....................................................................................................... 4
1.2 Khái niệm về tìm kiếm ảnh theo nội dung ảnh: ................................................ 5
1.3 Một số công cụ tìm kiếm ảnh theo nội dung: ................................................... 8
Tổng kết chương 1................................................................................................. 12
CHƯƠNG 2: PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG CỤC BỘ BẤT
BIẾN (SIFT) ................................................................................ 13
2.1 Đặt vấn đề ..................................................................................................... 13
2.2 Khái niệm đặc trưng cục bộ bất biến.............................................................. 13

2.2.1 Phát hiện điểm cực trị Scale-space ...................................................... 14
2.2.2 Định vị điểm hấp dẫn: ......................................................................... 16
2.2.3 Xác định hướng cho điểm hấp dẫn: ..................................................... 17
2.2.4 Biểu diễn vector cho điểm hấp dẫn ...................................................... 18
2.3 Độ đo tương đồng cho đặc trưng cục bộ bất biến ........................................... 18
2.4 Kmeans. ........................................................................................................ 19
2.4.1 Thuật toán K-Means ............................................................................ 20
2.4.2 Ví dụ minh họa thuật toán K-Mean: ..................................................... 20
2.4.3 Nhận xét .............................................................................................. 24
2.5 Mô hình túi từ - bag of words (BOW) ........................................................... 25
Tổng kết chương 2................................................................................................. 26

i


CHƯƠNG 3: LATENT DIRICHLET ALLOCATION (LDA)......................... 27
3.1 Đặt vấn đề ..................................................................................................... 27
3.2 Chủ đề ẩn ...................................................................................................... 27
3.3 Latent Dirichlet Allocation ............................................................................ 30
3.3.1 Mô hình LDA ....................................................................................... 30
3.3.2 Suy luận và ước lượng tham số ............................................................ 32
3.3.3 Suy luận : ............................................................................................ 32
3.3.4 Suy luận biến ....................................................................................... 33
3.3.5 Ước lượng tham số .............................................................................. 35
3.3.6 Đánh giá đầu ra LDA .......................................................................... 37
3.4 Nhận xét ........................................................................................................ 37
3.5 Một số phương pháp đo sự tương tự của hình ảnh ......................................... 38
3.5.1
Cosine .............................................................................................. 38
3.5.2

Manhattan........................................................................................ 38
3.5.3
Sự khác nhau Jensen-Shannon ......................................................... 38
3.5.4
Khoảng cách Euclide : ..................................................................... 39
3.6 Áp dụng mô hình LDA cho thực nghiệm ....................................................... 39
3.6.1
Mô tả bài toán.................................................................................. 39
3.6.2
Mô hình tổng quan ........................................................................... 40
Tổng kết chương 3................................................................................................. 42
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ .............................................. 43
4.1 Môi trường và các công cụ sử dụng cho thực nghiệm .................................... 43
4.2 Xây dựng tập dữ liệu ảnh............................................................................... 44
4.3 Quy trình phương pháp thực nghiệm ............................................................. 44
4.4 Đánh giá kết quả thực nghiệm ....................................................................... 45
4.5 Kết luận và hướng phát triển ......................................................................... 55
Tổng kết chương ................................................................................................... 56
TÀI LIỆU THAM KHẢO ................................................................................... 57

ii


DANH MỤC ĐỒ THỊ
Biểu đồ 4-1: Kết quả thực nghiệm trên tập Caltech4(1000 visual words) .............. 47
Biểu đồ 4-2: Kết quả thực nghiệm trên tập Caltech4(5000 visual words) .............. 48
Biểu đồ 4-3: Kết quả thực nghiệm trên tập Caltech101(1000 visual words) .......... 49
Biểu đồ 4-4: Kết quả thực nghiệm trên tập Caltech101(5000 visual words) .......... 50
Biểu đồ 4-5: Biểu đồ so sánh các phép đo ............................................................ 55


iii


DANH MỤC BẢNG BIỂU

Table 2-1: Bảng dữ liệu về thuốc ..................................................................................... 21
Table 2-2: Bảng kết quả phân nhóm ................................................................................ 24
Table 4-1: Cấu hình phần cứng ....................................................................................... 43
Table 4-2: Công cụ phần mềm sử dụng ............................................................................ 43
Table 4-3: Kết quả thực nghiệm trên tập Caltech4 (1000 visual words) ........................... 47
Table 4-4: Kết quả thực nghiệm trên tập Caltech4 (5000 visual words) ........................... 48
Table 4-5: Kết quả thực nghiệm trên tập Caltech101(1000 visual words) ........................ 49
Table 4-6: Kết quả thực nghiệm trên tập Caltech101(5000 visual words) ........................ 50
Table 4-7: Bảng so sánh kết quả trên tập ảnh Caltech4 ................................................... 51
Table 4-8: Bảng so sánh kết quả trên tập ảnh Caltech4 ................................................... 51
Table 4-9: Bảng so sánh các phép đo .............................................................................. 54

iv


DANH MỤC HÌNH ẢNH
Hình 1-1: Tìm kiếm ảnh theo văn bản ...................................................................... 4
Hình 1-2: Tìm kiếm ảnh theo nội dung..................................................................... 5
Hình 1-3: Đặc trưng màu sắc .................................................................................. 6
Hình 1-4: Đặc trưng kết cấu .................................................................................... 7
Hình 1-5: Đặc trưng hình dạng ............................................................................... 7
Hình 1-6: Đặc trưng Sift .......................................................................................... 8
Hình 1-7: Google Image Swirl ................................................................................. 9
Hình 1-8: Tiltomo .................................................................................................. 10
Hình 1-9: Byo Image Search.................................................................................. 11

Hình 1-10: Tìm kiếm ảnh theo mẫu (example-based image search) ....................... 11
Hình 2-1: Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ........... 15
Hình 2-2: Mỗi điểm ảnh được so sánh với 26 láng giềng của nó ........................... 16
Hình 2-3: Quá trình lựa chọn các điểm hấp dẫn a. Ảnh gốc, b. Các điểm hấp dẫn
được phát hiện, c. Ảnh sau khi loại bỏ các điểm hấp dẫn có độ tương ... 17
Hình 2-4: Biểu diễn các vector đặc trưng .............................................................. 18
Hình 2-5: Lần lặp 0 ............................................................................................... 21
Hình 2-6: Lần lặp 1 ............................................................................................... 22
Hình 2-7: Lần lặp 2 ............................................................................................... 23
Hình 2-8: Minh họa mô hình bag of words ............................................................ 25
Hình 3-1: Trình bày mô hình đồ họa của LDA. Những cái hộp là tấm biển hiển thị
việc sao chép. Bên ngoài biển hiển thị các ảnh, trong khi biển hiện thị
việc chọn lựa sự lặp đi lặp lại của các chủ đề và các visual word trong
cùng 1 ảnh. ............................................................................................ 31
Hình 3-2: (Trái) trình bày mô hình đồ họa của LDA. (Phải) trình bày mô hình đồ
họa của phân phối biến phân được sử dụng để tính sấp xỉ ở sau
(posterior) LDA. ................................................................................... 32
Hình 3-3: Mô hình tổng quan hệ thống tìm kiếm ảnh theo nội dung sử dụng LDA . 43

v


Hình 4-1: Minh họa tìm kiếm ảnh trên tập Caltech4 (Airplane) ............................. 52
Hình 4-2: Minh họa tìm kiếm ảnh trên tập Caltech4 (Faces) ................................. 53
Hình 4-3: Minh họa tìm kiếm ảnh trên tập Caltech4 (Motorbike) .......................... 53
Hình 4-4: Minh họa tìm kiếm ảnh trên tập Caltech4 (Car_brad) ........................... 54

vi



BẢNG TỪ VIẾT TẮT
STT

Từ viết tắt

Từ viết đầy đủ

1

AP

Average Precision

2

BOW

Bag of words

3

CBIR

Content Based Images Retrieval

4

CIE

Commission Internationale de l’Eclairage


5

CTM

Correlated Topic Models

6

DoG

difference –of-Gaussian

7

DTM

Dynamic Topic Models

8

EM

Expectation-Maximization

9

HSV

Hue - Saturation - Value


10

IR

Information Retrieval

11

KL

Kullback-Leibler

12

LDA

latent Dirichlet Allocation

13

LSI

Latent semantic indexing

14

MAP

Mean Average Precision


15

PLSI

Probabilistic latent semantic indexing

16

QBIC

Query Based Image Content

17

RGB

Red Green Blue

18

SIFT

Scale Invariant Feature Transform

vii


TÓM TẮT


Ngày nay với sự phát triển mạnh mẽ của công nghệ ảnh số làm lượng ảnh lưu
trữ trên web tăng lên một cách nhanh chóng. Việc này gây ra nhiều khó khăn trong
việc tìm kiếm một bức ảnh giống với ảnh truy vấn.
Mặc dù các công cụ tìm kiếm ảnh theo văn bản đi kèm ảnh ra đời cho phép
người dùng tìm kiếm ảnh với thời gian đáp ứng khá nhanh, tuy nhiên, các công cụ
này vẫn còn hạn chế trong việc giải quyết nhập nhằng giữa nội dung câu truy vấn và
nội dung hiển thị của ảnh trả về. Sự ra đời của các công cụ tìm kiếm ảnh theo nội
dung ảnh đã giải quyết được những nhập nhằng trên.
Mục tiêu của luận văn là nghiên cứu và sử dụng các đặc trưng cục bộ bất biến
để biểu diễn nội dung của một ảnh. Thêm vào đó, luận văn còn áp dụng mô hình
phân phối chủ đề ẩn mà cụ thể là phân phối Dirichlet tiềm ẩn để biểu diễn ảnh ở
mức độ cấp cao hơn, làm giảm chiều vector đặc trưng, tuy nhiên vẫn giữ được
những chi tiết hữu ích cho việc so sánh và tìm kiếm.
Thực nghiệm ban đầu cho thấy từ một ảnh đầu vào hệ thống trả về 10 ảnh giống
với ảnh truy vấn nhất, với độ chính xác trên 80% và đây là một kết quả khả quan.

viii


ABSTRACT

Today, with the strong development of digital technology for storage of
images on the web increases rapidly. This creates difficulties in finding a picture
which similar to the query image.
Although the search engines as a picture accompanying text introduction
allows users to search for images with the response time is quite fast, however,
these tools are limited in dealing with ambiguity between the content query and
display content of the image returns. The advent of search engines as a picture
content has resolved these ambiguities.
The goal of the thesis is to study and use invariant local features to represent

the content of an image. In addition, the thesis also applies distribution model
hidden topics that specific is latent Dirichlet distribution for representing the image
at a higher level, reduce the dimension of feature vector, but still keep the cost
information useful for comparison and search.
Initial experiments showed that the input image from a system returned 10
images most similar to the query image, with an accuracy of 80% and this is a
positive result.

ix


MỞ ĐẦU
1. Lý do chọn đề tài
Cùng với sự bùng nổ thông tin trên web và sự phát triển của công nghệ kỹ
thuật số, lượng ảnh lưu trữ trên Web cũng tăng một cách nhanh chóng. Vì vậy, việc
xây dựng các hệ thống tìm kiếm và xếp hạng ảnh là rất cần thiết và thực tế đã có
nhiều công cụ tìm kiếm ảnh thương mại xuất hiện. Các công cụ tìm kiếm ảnh
thường dựa vào hai đặc trưng chính là văn bản đi kèm ảnh hoặc nội dung ảnh. Hiện
tại đã có một số công cụ tìm kiếm ảnh theo văn bản đi kèm ra đời như Google
Image Search, Yahoo!, MSN,...và một số công cụ tìm kiếm ảnh dựa vào nội dung
ảnh như Google Image Swirl, Bing, Tiltomo, Tineye,...
Tuy nhiên, việc tìm kiếm chỉ dựa vào văn bản đi kèm còn có nhiều nhập nhằng
giữa nội dung hiển thị ảnh và nội dung văn bản đi kèm ảnh trong quá tình tìm kiếm.
Ví dụ, với truy vấn “Apple”, máy tìm kiếm khó phân biệt được người dùng muốn
tìm hình ảnh quả táo hay logo của hãng Apple. Do đó đòi hỏi phải có một công cụ
tìm kiếm ảnh theo nội dung giúp hạn chế được những nhập nhằng trên. Tìm kiếm
ảnh theo nội dung là quá trình tìm kiếm tự động các ảnh có liên quan với ảnh truy
vấn dựa trên nội dung ảnh. Nội dung ảnh thường được biểu diễn bởi các đặc trưng
như: màu sắc, cấu trúc, bố trí không gian, đặc trưng cục bộ bất biến…
2. Mục đích của đề tài:

Luận văn “Tìm kiếm ảnh theo nội dung dựa trên phân phối Dirichlet tiềm ẩn
(content based image retrieval using latent Dirichlet allocation)” nhằm khảo sát, phân
tích phương pháp trích chọn đặc trưng cục bộ bất biến trên ảnh, sử dụng mô hình
LDA (Latent Dirichlet allocation) làm giảm chiều dữ liệu ảnh, thử nghiệm và đánh
giá độ chính xác của hệ thống tìm kiếm ảnh theo nội dung với ảnh mẫu cho trước.
3. Đối tượng và phạm vi nghiên cứu
Luận văn tập trung nghiên cứu các vấn đề sau:



Phương pháp rút trích nội dung ảnh bằng phương pháp lựa chon đặc trưng cục bộ

bất biến SIFT.


Phương pháp gom cụm K-means để phân nhóm các vector thành các visual
words.



Mô hình bag of words (BOW).



Mô hình LDA giúp thực hiện giảm chiều bảng xảy ra đồng thời của các visual
words.

1





Các phép đo sự tương đồng giữa hai ảnh, các phương pháp đánh giá độ chính
xác của hệ thống.

Ngoài phần MỞ ĐẦU này, luận văn bao gồm các chương sau:


Chương 1. Tìm kiếm ảnh theo nội dung ảnh.



Chương 2. Phương pháp lựa chon đặc trưng cục bộ bất biến SIFT



Chương 3. Mô hình LDA (Latent Dirichlet Allocation)



Chương 4. Thực nghiệm và đánh giá



Cuối cùng là phần KẾT LUẬN.

4. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu.
Tìm kiếm ảnh dựa trên nội dung (CBIR – content-based image retrieval) là
một nhu cầu thực tế trong việc lưu trữ và truy tìm ảnh đối với các thư viện ảnh số và
các cơ sở dữ liệu đa phương tiện (multimedia) khác. Về cơ bản, CBIR là quá trình

tự động tìm kiếm các ảnh liên quan với ảnh truy vấn dựa trên nội dung ảnh. Nội
dung ảnh thường được biểu diễn bằng các đặc trưng ảnh mức thấp (low-level) như
các đặc điểm về màu, texture, shape, và bố trí không gian (như điểm, edge,…). Tuy
nhiên, thực hiện công việc này không dễ vì có những sự thay đổi về màu sắc, ánh
sáng, góc chụp ảnh, vật thể bị che khuất, dữ liệu lớn, ảnh hưởng của phông nền lên
vật thể…
Gần đây, việc sử dụng các đặc trưng cục bộ SIFT (scale-invariant feature
transform) để biểu diễn nội dung ảnh, mang lại nhiều thành tựu đáng kể trong phân
tích ảnh. Để sử dụng đặc trưng cục bộ SIFT, trước hết, người ta tìm các điểm đặc
biệt (interest points) trên ảnh. Các điểm này thường là các điểm nằm trong các vùng
có kết cấu (texture) đặc biệt. Sau đó với từng điểm đặc biệt, ta sẽ mô tả bằng một
vector đặc trưng được trích lọc từ vùng xung quanh của điểm đặc biệt này. Mỗi vector
đặc trưng là một vector 128 chiều. Trung bình một ảnh sẽ có khoảng 1000 vector đặc
trưng. Để so sánh sự tương tự của 2 ảnh, ta đếm số cặp vector đặc trưng “khớp” với
nhau giữa hai ảnh. Phương pháp này cho kết quả rất tốt trong trường hợp ảnh bị thay
đổi về độ sáng, màu sắc, góc chụp và ngay cả trường hợp vật thể quan tâm bị che
khuất một phần.
Tuy nhiên, nhược điểm chính của phương pháp này là độ phức tạp về không
gian lưu trữ là rất lớn. Một ảnh có kích thước khoảng 500x500 pixels sẽ có khoảng
2000 tính năng ổn định (mặt dù con số này phụ thuộc vào cả nội dung của hình ảnh
và việc lựa chọn các thông số khác nhau). Và thời gian tìm kiếm cũng tăng lên, do
dữ liệu không được lưu trong bộ nhớ trong. Hơn nữa với mỗi ảnh, ta phải thực hiện

2


khoảng 1000 truy vấn (mỗi ảnh có khoảng 1000 vector đặc trưng).
Để biểu diễn ảnh ngắn gọn nhằm giải quyết vấn đề không gian lưu trữ và tốc
độ truy vấn, luận văn sẽ áp dụng phương pháp gom cụm K-means để gán các vector
đặc trưng vào các nhóm tương ứng. Mỗi nhóm được gọi là một visual word. Như

vậy một ảnh sẽ được biểu diễn bằng một vector duy nhất.
Như vậy thay vì biểu diển ảnh bằng một tập các vector đặc trưng SIFT (khoảng
1000 vector) thì ta có thể biểu diễn ảnh bằng một vector duy nhất. Cách biểu diễn này
tương tự như cách biểu diễn văn bản bằng mô hình “túi từ” (bag of words) trong phân
tích dữ liệu văn bản bằng cách phân đoạn. Và tập ảnh sẽ được biểu diễn bằng một
bảng tần số (contingency table) với các hàng tương ứng với ảnh và các cột tương ứng
với các visual words, với phần tử [i,j] là số visual word i có trong ảnh j. Với phương
pháp này một ảnh tương tự như một văn bản, vì vậy ta có thể áp dụng những mô hình
xử lý văn bản lên hình ảnh.
Để giảm kích thước bảng tần số, các nhà nghiên cứu tìm kiếm thông tin đã đề
xuất một số kỹ thuật giảm chiều. David M. Blei, Andrew Y. Ng và Michael I. Jordan
đề xuất LDA (Phân phối Dirichlet tiềm ẩn - Latent Dirichlet Allocation) là một mô
hình xác suất linh động cho những bộ sưu tập dữ liệu. Ý tưởng cơ bản của LDA là
các tài liệu được biểu diễn như tổ hợp ngẫu nhiên trên những chủ đề tiềm ẩn, với mỗi
chủ đề được đặc trưng bởi một phân phối trên các từ. Do đó ta có thể sử dụng mô
hình LDA để làm giảm chiều, biểu diễn lại ảnh ngắn gọn hơn và thực hiện tìm kiếm
ảnh hiệu quả hơn.

3


CHƯƠNG 1:

TÌM KIẾM ẢNH THEO NỘI DUNG

1.1 Đặt vấn đề
Với sự bùng nổ của Internet, mỗi ngày có hàng triệu bức ảnh được đăng tải
trên các trang ảnh trực tuyến như: Flickr1, Photobucket2, Facebook3,….
Cùng với nhu cầu tìm kiếm văn bản, nhu cầu tìm kiếm ảnh cũng nhận được
nhiều quan tâm của người sử dụng. Tìm kiếm ảnh là quá trình tự động tìm kiếm các

ảnh có liên quan với ảnh truy vấn trong cơ sở dữ liệu, thõa mãn một yêu cầu nào đó.
Tuy nhiên, với một số lượng ảnh quá lớn trên Internet công việc tìm kiếm trở nên vô
cùng khó khăn. Để giải quyết vấn đề này, các hệ thống tìm kiếm ảnh đã ra đời như:
Yahoo, MSN, Google Image Search, Bing,…. Các hệ thống này cho phép người sử
dụng nhập truy vấn về các ảnh cần quan tâm. Thông qua việc phân tích các văn bản
đi kèm ảnh, hệ thống gửi trả các ảnh tương ứng với truy vấn của người dùng.
Mỗi ảnh trên web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ
(tags), bình luận (comment),…để mô tả các thông tin về ảnh, đây là các siêu dữ liệu
(metadata) về ảnh. Các dữ liệu này thường do người dùng tạo ảnh gắn cho mỗi ảnh,
vì vậy chúng đều mang một ý nghĩa nhất định. Độ quan trọng của các loại siêu dữ
liệu khác nhau cũng khác nhau.

Hình 1-1: Tìm kiếm ảnh theo văn bản

Tuy nhiên, kỹ thuật tìm kiếm ảnh theo văn bản đi kèm sẽ gặp một vài hạn chế
như sau:

Vì văn bản đi kèm theo ảnh mang ngữ nghĩa về nội dung ảnh, cho nên
hai bức ảnh có nội dung giống nhau thường có tên giống nhau và các thẻ tương tự

4


nhau. Vì vậy, các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai
thác nội dung của các văn bản này để tìm kiếm và xếp hạng ảnh. Phương pháp này
cho kết quả khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng. Tuy
nhiên, với các câu truy vấn mang ý nghĩa nhập nhằng có thể các kết quả trả về sẽ
không đúng với yêu cầu đặt ra. Ví dụ khi truy vấn là “d-80”, một loại máy ảnh phổ
biến của Nikon, thì các hệ thống trả về kết quả khá tốt. Ngược lại, với truy vấn
“apple’ (Hình 1-1), nếu người dùng muốn tìm quả táo thì kết quả trả về đầu tiên

không thỏa mãn (logo của hãng Apple).

Mặt khác, các album cá nhân thường không có các thẻ, văn bản đi kèm
ảnh hoặc văn bản đi kèm thường có định dạng nhất định (SDC13614). Cùng với số
lượng ảnh số được chụp thêm mỗi ngày, định dạng này chỉ tăng thêm con số phía
sau phần chữ. Vì vậy khi người dùng tra cứu ảnh theo nội dung với định dạng như
trên (SDC12342), kết quả tìm kiếm sẽ có rất nhiều ảnh trả về với cùng tên văn bản
nhưng nội dung ảnh có thể hoàn toàn khác nhau vì chúng thuộc những album khác
nhau được tải lên web.
Một hướng nghiên cứu nhằm khắc phục vấn đề trên là tìm kiếm theo nội dung
dựa vào các đặc điểm nội dung trực quan của chính bức ảnh để tra cứu: màu sắc, kết
cấu, hình dạng, đặc trưng cục bộ…
1.2 Khái niệm về tìm kiếm ảnh theo nội dung ảnh:

Hình 1-2: Tìm kiếm ảnh theo nội dung

5


Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR) hay
truy vấn theo nội dung ảnh (Query Based Image Content QBIC) là một ứng dụng
của thị giác máy tính đối với bài toán tìm kiếm ảnh. “Dựa vào nội dung ảnh
(Content- Based) ” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực sự của các bức
ảnh. Nội dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu (texture),
các đặc trưng cục bộ (local features), … hay bất cứ thông tin nào có được từ chính
nội dung ảnh. Sau đây là một số đặc trưng của nội dung ảnh.
Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ
biến nhất trong tìm kiếm ảnh theo nội dung. Mỗi một điểm ảnh (thông tin màu sắc) có
thể được biểu diễn như một điểm trong không gian màu sắc ba chiều. Các không gian
màu sắc thường dùng là: RGB, Munsell, CIE, HSV. Tìm kiếm ảnh theo màu sắc tiến

hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh của ảnh
mà chứa các giá trị đặc biệt (màu sắc). Các nghiên cứu gần đây đang cố gắng phân
vùng ảnh theo các màu sắc khác nhau và tìm mỗi quan hệ giữa các vùng này.

Hình 1-3: Đặc trưng màu sắc

Đặc trưng kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mô
hình trực quan của ảnh và cách thức chúng được xác định trong không gian. Kết cấu
được biểu diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc vào
số kết cấu được phát hiện trong ảnh. Các tập này không chỉ xác định các kết cấu mà
còn chỉ rõ vị trí các kết cấu trong ảnh. Việc xác định các kết cấu đặc biệt trong ảnh
đạt được chủ yếu bằng cách mô hình các kết cấu như những biến thể cấp độ xám 2
chiều. Ví dụ về một số loại kết cấu

6


Hình 1-4: Đặc trưng kết cấu

Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc
trưng quan trọng trong việc xác định và phân biệt ảnh trong nhận dạng mẫu. Mục
tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học
của một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng.

Hình 1-5: Đặc trưng hình dạng

Đặc trưng cục bộ bất biến (SIFT): Đầu tiên ta tìm các điểm hấp dẫn
(interest point) trên ảnh. Các điểm này thường là các điểm nằm trong vùng có kết
cấu đặc biệt. Sau đó với mỗi điểm đặc biệt này sẽ được mô tả bằng một vector đặc
trưng được trích lọc từ vùng xung quanh của điểm đặc biệt này. Mỗi đặc trưng là

một vector 128 chiều. Phương pháp này cho kết quả rất tốt trong trường hợp ảnh bị
thay đổi về độ sáng, màu sắc, góc chụp và ngay cả trong trường hợp vật thể bị che
khuất một phần.

7


Hình 1-6: Đặc trưng Sift

Thực tế, đã có nhiều máy tìm kiếm cho phép tìm kiếm ảnh theo nội dung
ảnh, tuy nhiên, các máy tìm kiếm này thường chỉ khai thác vào một phần nội dung
của ảnh.
1.3 Một số công cụ tìm kiếm ảnh theo nội dung:
Google Image Swirl: Là một thử nghiệm tìm kiếm hình ảnh theo nội dung
của Google, trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thị
trực quan và độ tương đồng ngữ nghĩa giữa các ảnh. Google Image Swril phân cụm
tốp đầu các kết quả trả về cho trên 200000 câu truy vấn và cho phép hiển thị hình
ảnh dưới dạng các cụm và mối quan hệ giữa các ảnh.

8


Hình 1-7: Google Image Swirl

Tiltomo: Là một công cụ dựa trên Flickr và duy trì chính cơ sở dữ liệu ảnh của
Flickr. Nó cho phép tìm kiếm ảnh dựa vào độ tương đồng về chủ đề, màu sắc hay kết
cấu.

9



Hình 1-8: Tiltomo

Byo Image Search: Tìm kiếm ảnh theo độ tương đồng về màu sắc với mẫu
ảnh mà người dùng tải lên từ máy tính hoặc từ một địa chỉ URL. Công cụ tìm kiếm
này không hỗ trợ tính năng tìm kiếm ảnh dựa vào độ tương đồng về chủ đề.

10


Hình 1-9: Byo Image Search

Tìm kiếm ảnh theo mẫu (example-based image search): Tìm kiếm ảnh
theo mẫu là một dạng của tìm kiếm ảnh dựa vào nội dung. Trong hệ thống đó, đầu
vào là một ảnh, hệ thống tìm kiếm và trả lại cho người dùng những ảnh tương đồng
với ảnh mẫu.

Hình 1-10: Tìm kiếm ảnh theo mẫu (example-based image search)

Trong luận văn này, chúng tôi tập trung vào bài toán tìm kiếm ảnh giống với
ảnh truy vấn, tìm hiểu phương pháp trích chọn đặc trưng nội dung sử dụng đặc
trưng cục bộ bất biến cũng như các độ đo tương đồng để tìm kiếm tập ảnh tương
ứng gần với ảnh truy vấn nhất trong tập cơ sở dữ liệu lớn của các ảnh.

11


Tổng kết chương 1
Trong chương này, chúng tôi trình bày một số vấn đề khi tìm kiếm ảnh với đặc
trưng văn bản đi kèm, và một số đặc trưng nội dung của ảnh để áp dụng vào việc

tìm kiếm nhằm khắc phục những vấn đề trên. Giới thiệu một số công cụ tìm kiếm
dựa vào nội dung ảnh, từ đó cho thấy phương pháp tìm kiếm ảnh theo nội dung đã
khắc phục được một phần nhược điểm của phương pháp tìm kiếm ảnh theo văn bản
đi kèm ảnh và cho ra những kết quả khả quan.

12


CHƯƠNG 2:
2.1

PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG CỤC BỘ
BẤT BIẾN (SIFT)

Đặt vấn đề

Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trưng thích hợp với
từng loại truy vấn và miền ứng dụng cùng với các độ đo tương đồng tương ứng là
thành phần quan trọng và then chốt nhất [26]. Việc lựa chọn các đặc trưng và độ đo
thích hợp sẽ giúp tăng cả tốc độ và mức độ chính xác của các hệ thống. J.V.Jawahe
và cộng sự [9] đã nêu ra các yêu cầu cơ bản đối với thành phần lựa chọn đặc trưng
cho ảnh.
 Thành phần lựa chọn đặc trưng phải lựa chọn được một tập các đặc trưng cung
cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh. Nếu số lượng các đặc trưng quá
nhiều sẽ làm “che khuất” các “tín hiệu” (giảm các “tín hiệu” đối với tỉ lệ nhiễu), mặt
khác, nếu số lượng các đặc trưng quá ít sẽ khó phân biệt được ảnh trong tìm kiếm.
 Nó phải giảm bớt được độ phức tạp trong lúc tính toán tổng thể bằng giảm đa
chiều của bài toán phân lớp.
 Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy vấn, thì việc sử
dụng các đặc trưng này phải hiệu quả. Vì số lượng các đặc trưng có thể là hàng

ngàn, dó đó thời gian xử lý của module phải tuyến tính với số lượng đặc trưng.
 Vì thời gian xử lý của thành phần lựa chọn đặc trưng tuyến tính với số lượng đặc
trưng, do đó việc lựa chọn các đặc trưng cũng nên tuyến tính dựa trên phân lớp.
 Thành phần lựa chọn đặc trưng có thể xử lý được với kích thước tập mẫu nhỏ.
Có nhiều đặc trưng nội dung ảnh được miêu tả khái quát trong chương 1
như: đặc trưng màu sắc, đặc trưng kết cấu, đặc trưng hình dạng, … Tuy nhiên các
đặc trưng này không ổn định khi có sự thay đổi về màu sắc, ánh sáng, góc chụp
ảnh, ảnh hưởng của phông nền lên vật thể. Trong phần tiếp theo, chúng tôi sẽ mô
tả phương pháp trích chọn đặc trưng cục bộ bất biến, một đặc trưng không thay
đổi với điều kiện màu sắc, ánh sáng, …
2.2 Khái niệm đặc trưng cục bộ bất biến.
Đặc trưng cục bộ bất biến SIFT (Scale – Invariant Feature Transform) của
ảnh là các đặc trưng bất biến với việc thay đổi tỷ lệ ảnh, quay ảnh, điểm nhìn,
nhiễu ảnh hay thay đổi cường độ chiếu sáng của ảnh. Các đặc trưng này được rút
trích từ các điểm hấp dẫn cục bộ (Local Interest Point) trên ảnh. “Hấp dẫn” ở đây
có nghĩa là điểm đó có thể có các đặc trưng bất biến với việc quay ảnh, co giãn

13


ảnh hay thay đổi ánh sáng của ảnh.
Phương pháp trích rút các đặc trưng bất biến SIFT được tiếp cận theo phương
pháp thác lọc, theo đó phương pháp được thực hiện lần lượt theo các bước sau:
Phát hiện các điểm cực trị Scale-Space (Scale-Space extrema detection):
Bước đầu tiên này tiến hành tìm kiếm các điểm hấp dẫn trên tất cả các tỉ lệ và vị trí
của ảnh. Nó sử dụng hàm different-of-Gaussian để xác định tất cả các điểm hấp dẫn
tiềm năng mà bất biến với quy mô và hướng của ảnh.
Định vị các điểm hấp dẫn (keypoint localization): Một hàm kiểm tra sẽ được
đưa ra để quyết định xem các điểm hấp dẫn tiềm năng có được lựa chọn hay không?
Xác định hướng cho các điểm hấp dẫn (Orientation assignment): Xác định

hướng cho các điểm hấp dẫn được chọn
Mô tả các điểm hấp dẫn (Keypoint descriptor): Các điểm hấp dẫn sau khi
được xác định hướng sẽ được mô tả dưới dạng các vector đặc trưng nhiều chiều.
2.2.1 Phát hiện điểm cực trị Scale-space
Các điểm hấp dẫn với đặc trưng SIFT tương thích với các cực trị địa phương
của bộ lọc difference-of-Gaussian (DoG) ở các tỉ lệ khác nhau. Định nghĩa không
gian tỉ lệ của một hình ảnh là hàm L(x,y,k σ ) được mô tả như sau:
L(x,y, σ ) = G(x,y,k σ )* I(x,y)
Với

CT 2-1

G(x, y,k σ ) : biến tỉ lệ Gaussian (variable scale Gaussian)
I (x, y) : Ảnh đầu vào
* là phép nhân chập giữa x và y


G(x,y,σ)=

1 (x2 + y2 )/ 2σ2
e
2πσ 2

CT 2-2

Để phát hiện được các điểm hấp dẫn, ta đi tìm các cực trị của hàm DoG được
định nghĩa:
D(x, y,σ) = (G(x, y,kσ  G(x, y,σ))  I(x, y)
D(x, y,σ) = L(x, y,k )  L(x, y,σ)


CT 2-3

Giá trị hàm DoG được tính xấp xỉ dựa vào giá trị scale-normalized Laplacian
2
2
of Gaussian ( σ  G) thông qua các công thức (CT2-1), (CT2-2) và (CT2-3)

14


×