Tải bản đầy đủ (.pdf) (72 trang)

Đánh giá các phương pháp tìm kiếm ảnh dựa trên nội dung

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.74 MB, 72 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ



VŨ THỊ HỒNG NHUNG



ĐÁNH GIÁ CÁC PHƢƠNG PHÁP TÌM KIẾM ẢNH DỰA
TRÊN NỘI DUNG




LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN







Hà Nội, năm 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ


VŨ THỊ HỒNG NHUNG




ĐÁNH GIÁ CÁC PHƢƠNG PHÁP TÌM KIẾM ẢNH DỰA
TRÊN NỘI DUNG

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã ngành: 60 48 05

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN


NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. TS LƢƠNG CHI MAI




Hà Nội, năm 2013
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY



VU THI HONG NHUNG


EVALUATING SEVERAL CONTENT-BASED IMAGE
RETRIEVAL METHODS

Department: Information Technology
Major: Information System

Major code: 60 48 05

MASTER THESIS IN INFORMATION TECHNOLOGY


SUPPERVISION: ASSOC. PROF. PHD. LUONG CHI MAI




Hanoi, 2013
MỤC LỤC
MỞ ĐẦU _______________________________________________________ 1
Gii thiu bài toán ____________________________________________ 1
Mc tiêu nghiên cu __________________________________________ 1
B cc lu ______________________________________________ 2
CHƯƠNG 1. GIỚI THIỆU ________________________________________ 3
1.1. Tìm kim nh da trên ni dung ______________________________ 3
1.2. ng dng ca tìm kim nh da trên ni dung __________________ 4
ng dùng trong tìm kim nh theo ni dung ______ 6
  ____________________________________________ 12
t qu tìm kim _________________________________ 13
1.6. Kt lun _______________________________________________ 14
CHƯƠNG 2. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM DỰA TRÊN ẢNH
TRONG VÒNG MƯỜI NĂM ______________________________________ 15
 màu _________________________________ 15
2.2. Da trên túi t BOW _____________________________________ 16
2.3. Da trên không gian ______________________________________ 16
2.4. ng dng trong tng hp và hoàn thin nh ___________________ 18
2.5. ng dng trong phân tích nh ______________________________ 19

2.6. Kt lun _______________________________________________ 19
CHƯƠNG 3. TÌM KIẾM DỰA TRÊN LƯỢC ĐỒ MÀU VỚI ẢNH PHÁC
THẢO ________________________________________________________ 20
3.1. Gii thiu ______________________________________________ 20
a Swain và Ballard 1991 ______________________ 21
a chúng tôi ________________________________ 23
3.4. Th nghim ____________________________________________ 24
3.5. Kt lun _______________________________________________ 41
CHƯƠNG 4. TÌM KIẾM DỰA TRÊN LƯỢC ĐỒ KHÁI NIỆM __________ 43
4.1. Gii thiu ______________________________________________ 43
  ______________ 44
4.3. Giao din truy vn _______________________________________ 45
 ____________________________ 45
4.5. H thng tìm kim da trên khái nim ________________________ 46
4.6. Th nghim ____________________________________________ 48
4.7. Kt lun _______________________________________________ 50
CHƯƠNG 5. CHƯƠNG TRÌNH THỬ NGHIỆM _____________________ 52
5.1. Gii thi ___________________________________ 52
5.2. Cu hình h thng ________________________________________ 52
5.3 B d liu th nghim _____________________________________ 52
5.4ng dt________________________________________ 53
5.5 nghim vi pm d
màu ______________________________________________________ 54
5.6 nghim vi pm d
khái nim __________________________________________________ 56
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ____________________________ 59
Kt qu c ca lu _________________________________ 59
ng phát trin ____________________________________________ 59
TÀI LIỆU THAM KHẢO _________________________________________ 61
Tài liu ting Anh ___________________________________________ 61

Tài liu ting Vit ___________________________________________ 63

DANH MỤC CÁC THUẬT TOÁN, CÔNG THỨC
Công thức 1.1. Công thức tính độ tương tự trên lược đồ màu [1] ___________ 12
Công thức 1.2. Công thức tính độ tương tự bằng khoảng cách Euclidean trên
lược đồ màu ____________________________________________________ 13
Công thức 1.3. Khả năng nhớ lại (Recall) _____________________________ 13
Công thức 1.4. Khả năng nhớ lại trung bình (Average Recall) _____________ 13
Công thức 1.5. Độ chính xác của hệ thống (Precision) ___________________ 14
Công thức 1.6. Độ chính xác trung bình của hệ thống (Average Precision) ___ 14
Công thức 3.1: Xác định ô nhớ cho mỗi màu trong lược đồ màu ___________ 22
Thuật toán 3.1: Thuật toán tính lược đồ màu cho mỗi ảnh màu ____________ 22
Thuật toán 3.2: Thuật toán tìm kiếm dựa trên lược đồ màu _______________ 23
Công thức 3.2: Định nghĩa mặt nạ so sánh và độ đo mới dựa trên mặt nạ. Mục
đích là tập trung vào những ô nhớ có màu trên lược đồ đầu vào và bỏ qua điểm
nhiễu. _________________________________________________________ 23
Thuật toán 3.3: Thuật toán thêm cấp xám vào ảnh tổng hợp để nó có lược đồ
màu gần với lược đồ màu của ảnh tự nhiên, nhằm tăng khả năng tìm thấy (recall)
của hệ thống tìm kiếm. ____________________________________________ 24
Bảng 3.1: Chia tâ
̣
p dư
̃
liê
̣
u SIFT flow theo chu
̉
đề ______________________ 24
Bảng 3.2: Tìm kiếm ảnh tự nhiên sử dụng lược đồ màu. Chỉ số Recall khi thực
nghiệm với ảnh tự nhiên. __________________________________________ 25

Bảng 3.3: Thử nghiệm trên ảnh một màu. Chỉ số Avarage Recall với các phương
phá ___________________________________________________________ 29
Bảng 3.4: Tìm kiếm trên ảnh phác thảo nhiều màu sử dụng lược đồ màu. Chỉ số
Avarage Recall với các phương pháp ________________________________ 36
Thuật toán 4.1: Hình thành lược đồ khái niệm _________________________ 44
Thuật toán 4.2: Đánh nhãn tự động bằng cách chọn láng giềng gần nhất ____ 47
Thuật toán 4.3: Lọc ra các ảnh/nhãn gần nhất với ảnh đầu vào ____________ 48
Bảng 4.1. Chỉ số Avarage Recall khi sử dụng khoảng cách Euclidean và
Hamming ______________________________________________________ 49
Bảng 5.1. Các tham số truyền vào khi chạy tập tin querywithcolplus.exe _____ 54
Bảng 5.2. Các tham số truyền vào khi chạy tập tin querywithmask.exe ______ 57

DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Tìm kiếm hình ảnh dựa trên từ khóa. Mỗi ảnh sẽ được gắn với một số
từ khóa nhất định, cả không gian ảnh sẽ được chuyển hóa thành không gian từ.
Do đó việc tìm kiếm ảnh chính là so khớp từ khóa với từ khóa (tài liệu từ với tài
liệu từ). ________________________________________________________ 3
Hình 1.2: Tìm kiếm ảnh bằng ảnh đầu vào. Khi dùng bất kỳ một phần mềm tạo
ảnh (mspaint, photoshop) để tạo một ảnh kích thước 256x256 với màu đỏ và
dùng ảnh đó làm đầu vào của quá trình tìm kiếm, ta không được kết quả mong
muốn. Chưa kể, ta có gợi ý "black color" thay cho "red color". _____________ 4
Hình 1.3: Hoàn thiện ảnh (image completion) bằng cách tìm kiếm trên lượng
lớn các ảnh để tìm ra phần còn thiếu tương thích với phần đã có [12] _______ 5
Hình 1.4 Tổng hợp một ảnh mới bằng cách vẽ các phần tử cơ bản của ảnh (núi,
cây, nhà) và tìm kiếm các phần tử đó trong cơ sở dữ liệu rồi ghép chúng lại
thành ảnh tổng hợp [13] ___________________________________________ 5
Hình 1.5: Tổng hợp ảnh mới bằng cách vẽ phác thảo ảnh, chọn các thành phần
từ kết quả tìm kiếm, sau đó ghép lại thành tổng hợp [14] __________________ 5
Hình 1.6: Phân tích ảnh bằng cách sử dụng ánh xạ điểm đặc trưng (SIFT flow)
và các ảnh ví dụ đã được đánh nhãn [10] ______________________________ 6

Hình 1.7: Phân tích ảnh trên diện rộng bằng cách tìm kiếm các ảnh ví dụ trong
cơ sở dữ liệu và sao chép các nhãn từ ảnh ví dụ sử dụng thông tin cục bộ, thông
tin không gian [22] _______________________________________________ 6
Hình 1.8. Ví dụ về tìm kiếm dựa trên màu sắc ___________________________ 7
Hình 1.9. Ví dụ về tìm kiếm dựa trên kết cấu ___________________________ 8
Hình 1.10. Sử dụng blobworld để tìm kiếm ảnh của con hổ. Kết quả tìm kiếm
được đưa ra với hình ảnh trong dữ liệu và các vùng tương ứng của các bức ảnh
đó. Trong 50 bức ảnh đầu tiên được tìm thấy thì có 28% là hình của con hổ [21]
______________________________________________________________ 9
Hình 1.11. Hình dạng và lược đồ của hình dạng đặc trưng. Ảnh có thể bị biến
đổi nhưng hình dạng thay đổi rất ít [23] ______________________________ 10
Hình 1.12. Hệ thống có thể nhận được các ảnh từ các góc nhìn khác nhau. Nếu
ta cho đầu vào là một trong các hình bên trái, hệ thống đều có thể tìm ra được
hình bên phải [24] _______________________________________________ 11
Hình 1.13. Hệ thống có thể tìm ra ảnh gốc mặc dù ảnh đầu vào bị che lấp
(occlusion) một phần. Mặc dù một trong các đầu vào bên trái bị che khuất,
nhưng hệ thống vẫn tìm lại được con vật nguyên vẹn ở bên phía phải [24] ___ 11
Hình 1.14. Hình ảnh bên phải được tìm thấy chính xác khi sử dụng bất kì hình
bên trái để tìm kiếm. Các ảnh hình bên trái là các hình bị thay đổi tỉ lệ, bị quay,
thay đổi hình nền và hiển thị một phần so với ảnh bên trái [24] ____________ 12
Hình 2.1: Thông tin không gian không được phản ánh trong lược đồ màu. Phân
bố của các điểm ảnh trong không gian không quan trọng nhưng tần xuất của
chúng quan trọng. _______________________________________________ 15
Hình 2.2: Giới thiệu thông tin không gian vào mô hình túi từ. Chia nhỏ ảnh
thành các phần theo nhiều mức khác nhau và so khớp các thành phần tương ứng
là một phương pháp đơn giản để giới thiệu thông tin không gian [5] ________ 17
Hình 2.3: Biểu diễn hình dạng (shape) của đồ vật dựa trên kim tự tháp không
gian [7] _______________________________________________________ 17
Hình 3.1: Tìm kiếm sử dụng lược đồ màu. (a) Phương pháp của Swain và
Ballard. (b) Tập trung vào màu đầu vào để tránh nhiễu (c) Sinh thêm các điểm

màu để khớp với lược đồ tự nhiên ___________________________________ 21
Hình 3.2: Thí nghiệm trên ảnh tự nhiên. Cả hai phương pháp đều tìm được ảnh
gốc, ảnh gốc bị xoay 90, 180, 270 độ. Việc tăng cấp xám trong phương pháp
của chúng tôi không ảnh hưởng tới kết quả tìm kiếm. ____________________ 26
Hình 3.3: Phương pháp của chúng tôi hoạt động trên ảnh tự nhiên. Việc thêm
cấp xám cho ảnh tự nhiên không làm ảnh hưởng nhiều tới kết quả của tìm kiếm.
_____________________________________________________________ 27
Hình 3.4: Khi thay đổi số cấp xám được sinh ra, chúng ta có thể có các kết quả
tìm kiếm khác nhau. Số cấp xám từ 0-16 cho chúng ta kết quả gần với thuật toán
nguyên thủy. Số cấp xám từ 16-32 cho ta các dải màu phù hợp hơn. Khi tăng cả
ba kênh lên 50 tới 100 cấp xám, chúng ta sẽ gặp nhiều điểm màu đen do các cấp
xám gần 0. _____________________________________________________ 28
Hình 3.5: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu. Thử
nghiệm trên tập Coast ____________________________________________ 30
Hình 3.6: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu. Thử
nghiệm trên tập coast ____________________________________________ 31
Hình 3.7: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu. Thử
nghiệm trên tập forest ____________________________________________ 32
Hình 3.8: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu. Thử
nghiệm trên tập insidecity _________________________________________ 33
Hình 3.9: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu. Thử
nghiệm trên tập opencountry _______________________________________ 34
Hình 3.10: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu. Thử
nghiệm trên tập tallbuilding. _______________________________________ 35
Hình 3.11: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu.
Thí nghiệm trên tập coast _________________________________________ 37
Hình 3.12: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu.
Thí nghiệm trên tập forest _________________________________________ 38
Hình 3.13: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu.
Thí nghiệm trên tập opentcountry ___________________________________ 39

Hình 3.14: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu.
Thí nghiệm trên tập opentcountry ___________________________________ 40
Hình 3.15: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu.
Thí nghiệm trên tập street _________________________________________ 41
Hình 4.1: Tìm kiếm dựa trên màu sắc (color) và dựa trên khái niệm (concept).
Nếu người dùng thực sự muốn tìm cảnh núi và trời, chúng ta không thể dùng
màu sắc thuần túy (hình trái) vì chúng ta sẽ có các kết quả gồm các hình với
màu sắc tương tự. Nhưng nếu chúng ta cung cấp thêm nhãn (trời, núi, mặt trời)
cho hình vẽ, chúng ta sẽ được các hình tương tự. _______________________ 43
Hình 4.2. Phương pháp sinh ảnh dựa trên lược đồ [3] ___________________ 44
Hình 4.3: Từ ảnh phác thảo tới lược đồ khái niệm. Chúng tôi cung cấp giao diện
cho phép người dùng đánh nhãn một số điểm trên hình. Sau đó chúng tôi có
thuật toán tự động để đánh nhãn những điểm còn lại. Cuối cùng, chúng tôi
chuyển toàn bộ lược đồ của ảnh đã được đánh nhãn thành lược đồ khái niệm. 45
Hình 4.4: So sánh giữa khoảng cách Euclidean giữa hai lược đồ và khoảng cách
Hamming giữa hai lược đồ nhị phân. Khi tìm các khái niệm nhỏ có số lược ít
(thuyền trên biển, xe trên đường, chim trên trời, mặt trời) các khái niệm có số
lượng lớn (trời, nước, cây) thường lấn át và chúng ta khó có các kết quả mong
muốn (hình trái). Nhưng nếu chúng ta sử dụng lược đồ nhị phân (có/không có
mặt trời, có không có xe) và so sánh hai lược đồ nhị phân, chúng ta sẽ có được
kết quả như ý định tìm kiếm (hình phải). ______________________________ 46
Hình 4.5: Hệ thống tìm kiếm _______________________________________ 47
Hình 4.6: Kết quả trên các ảnh vẽ. (a) Sử dụng khoảng cách Euclideanan. (b)
Sử dụng khoảng cách Hamming. ____________________________________ 50
Hình 5.1. Cấu trúc thư mục dữ liệu SIFT flow _________________________ 52
Hình 5.2. Truyền tham số khi chạy chương trình theo phương pháp Swain và
Ballard _______________________________________________________ 55
Hình 5.3. Truyền tham số khi chạy chương trình theo phương pháp đề xuất của
chúng tôi ______________________________________________________ 55
Hình 5.4: Kết quả chương trình khi chạy với tập tin querywithcolor.exe _____ 56

Hình 5.5. Truyền tham số khi chạy khoảng cách Euclidean _______________ 57
Hình 5.6. Truyền tham số khi chạy khoảng cách Hamming _______________ 57
Hình 5.7. Giao diện gán nhãn cho người dùng. ________________________ 58

1
MỞ ĐẦU
Giới thiệu bài toán
Ngày nay, cùng vi s phát trin ca k thut sng  trong
 d lic các nh mong mun
trong t d liu ln là rt ln.  gii quyt v  u
m nh da trên n xut.
V  ca tìm kim thông tin (Information Retrieval), [16] là kt ni
gia tài li u vào (query document) và các tài li   (stocked
document). ng hp c th ca tìm kim nh, chúng ta cn so sánh nh
u vào (query image) vi   la chn các nh phù
hp. Nu vào là t khóa, chúng ta cn chuyn các  thành t khóa.
u vào là nh tng hp (synthetic image), chúng ta cn tìm cách x
lý  khp vi các nh t  d liu.
Thc t, có nhing hi dùng mun tìm mt bc 
h không có mt bc nh nào ng t  ng hp
 có th mô t nh cn tìm b khóa hoc v phác th
u vào cho quá trình tìm kit, nu dùng t 
tìm kim thì kt qu ng không chính xác bi t khóa không th mô t ht
c ni dung ca bc nh. Vy làm th  so khc mt nh phác
thi dùng v vi các nh t   d liu?
Chúng tôi s nghiên cu mt s m nh da trên ni
 tp trung so khp gia tài liu vào là nh phác tho vi tài li
tr là các nh t nhiên.
Mục tiêu nghiên cứu
Trong lu này, chúng tôi tìm hiu tng quan v tìm kim nh da

trên ni dung, mt s m nh theo ni dung trong nhng
n .
Chúng tôi nghiên cu, th nghii hai 
kim da tr màu và tìm kim d khái nim trong bài
toán c th . ng thi chúng tôi s  xut 
pháp này nhm nâng cao hiu qu tìm kim.
2
Bố cục luận văn
Lu c xây dng vi phn m u, kt lun và  
gm:
Gii thiu
t s m da trên nh trong vòng

m d màu vi nh phác tho
m d khái nim
 nghim
3
CHƢƠNG 1. GIỚI THIỆU
1.1. Tìm kiếm ảnh dựa trên nội dung
t quen thuc vi tìm kim nh da trên t khóa, ví d 
trong Hình 1.1, chúng ta dùng Google [27]  "Hà Ni", chúng ta s
c các hình nh liên quan ti Hà Ni.  tìm kim này ru
tiên mi c kt hp vi mt s t khóa nhn các tài
liu trong không gian nh thành các tài liu trong không gian t v
chúng ta có th so sánh tài liu vào (các t khóa trong không gian t vng)
vi các tài liu c gn vi các t khóa).

Hình 1.1: Tìm kiếm hình ảnh dựa trên từ khóa. Mỗi ảnh sẽ được gắn với một số
từ khóa nhất định, cả không gian ảnh sẽ được chuyển hóa thành không gian từ.
Do đó việc tìm kiếm ảnh chính là so khớp từ khóa với từ khóa (tài liệu từ với tài

liệu từ).
Tuy nhiên, nu chúng ta có mt u vào r n (ví d nh
u ch ), kt qu tìm kic
tn [27]. Xem Hình 1.2. Trên thc t, vic này có th
gii quyt rn b màu, chúng ta thm chí có th
phân loc u vào d màu (, nh xanh, nh có gam
màu nóng, nh có gam màu lnh).
4

Hình 1.2: Tìm kiếm ảnh bằng ảnh đầu vào. Khi dùng bất kỳ một phần mềm tạo
ảnh (mspaint, photoshop) để tạo một ảnh kích thước 256x256 với màu đỏ và
dùng ảnh đó làm đầu vào của quá trình tìm kiếm, ta không được kết quả mong
muốn. Chưa kể, ta có gợi ý "black color" thay cho "red color".
V ca tìm kim thông tin (Information Retrieval), [16] là kt ni
gia tài li u vào (query document) và các tài li   (stocked
document). ng hp c th ca tìm kim nh, chúng ta cn so sánh nh
u vào (query image) vi   la chn các nh phù
hp. Nu vào là t khóa, chúng ta cn chuyn các  thành t khóa.
u vào là nh tng hp (synthetic image), chúng ta cn tìm cách x
lý  khp vi các nh t nhiên (natural image)  d liu.
1.2. Ứng dụng của tìm kiếm ảnh dựa trên nội dung
Tìm kim nh da trên ni dung không ch dng li  mc v
i dùng cui (end user), nó còn là nn t
và tng hp nh da trên d liu ln. Ví d, xem Hình 1.3, hoàn thin nh da
trên tìm kim mng ln các  bù vào
phn n [12]. Hoc ví d [13], [14] tìm kim các thành phn
ca nh da trên phác thn li v thành
nh tht, xem Hình 1.4 và Hình 1.5.
5


Hình 1.3: Hoàn thiện ảnh (image completion) bằng cách tìm kiếm trên lượng
lớn các ảnh để tìm ra phần còn thiếu tương thích với phần đã có [12]

Hình 1.4 Tổng hợp một ảnh mới bằng cách vẽ các phần tử cơ bản của ảnh (núi,
cây, nhà) và tìm kiếm các phần tử đó trong cơ sở dữ liệu rồi ghép chúng lại
thành ảnh tổng hợp [13]

Hình 1.5: Tổng hợp ảnh mới bằng cách vẽ phác thảo ảnh, chọn các thành phần
từ kết quả tìm kiếm, sau đó ghép lại thành tổng hợp [14]
Gc s dng các   
nhãn các nh còn li. Ví d mm nh ca u vào s c gán mt
nhãn (nhà, tri, cây) bng cách s dng các  c 
[10] Tìm kim ó thit lp mt ánh x t nh truy vn vào nh
kt qu, ánh x cho phép sao chép các nhãn t nh
truy vn, xem Hình 1.6c [22] phát trin thut toán trên din
rng, bng cách tìm kim và ánh x da trên thông tin cc b và thông tin không
gian, xem Hình 1.7.
6
Qua các ng dng, chúng ta thm quan trng ca tìm kim
nh trong tng hp và phân tích nh. Nó tr n t gii quyt
các v tng hp và nhn dng c bit là hc da trên ví d.

Hình 1.6: Phân tích ảnh bằng cách sử dụng ánh xạ điểm đặc trưng (SIFT flow)
và các ảnh ví dụ đã được đánh nhãn [10]

Hình 1.7: Phân tích ảnh trên diện rộng bằng cách tìm kiếm các ảnh ví dụ trong
cơ sở dữ liệu và sao chép các nhãn từ ảnh ví dụ sử dụng thông tin cục bộ, thông
tin không gian [22]
1.3. Các đặc trƣng thƣờng dùng trong tìm kiếm ảnh theo nội dung
1.3.1. Đặc trƣng màu sắc

Màu sc là v cn tp trung gii quyt nhiu nht, vì mt nh màu
thì thông tin quan trng nht trong nh chính là màu sa thông tin v
7
màu si dùng quan tâm nhc, có th
lc rt nhiu lp nh, thông qua v ng ca màu
trong nh. Màu sc là m  i bc s dng ph bin nht
trong tìm kim nh theo ni dung.
Trong tìm kim nh da vào màu s bi tìm
kim nh trong mt tp nhng nh hn tc là da vào bi màu
(color histogram) c n, t tìm kim
m là kt qu tìm kim l chính xác
  Hình 1.8, vu vào là mt bc nh qu ,
h th . Các hình trong kt qu có th là
qu táo hoc qu cà chua (kt qu không liên quan) vì chúng có cùng màu.
Tìm kim nh da vào màu sc có th c lu
tiên cho nhng tìm kim sau. Muc kt qu i s kt
hng thi vi kt cu và hình dng.
u vào
u ra






Hình 1.8. Ví dụ về tìm kiếm dựa trên màu sắc
1.2.2. Đặc trƣng kết cấu (texture)
Kt cu (texture) nói lên mi quan h gim nh trong mt vùng
a nh, nó phn ánh s xp xp hay phân b m
màu.  c kt cng nào. Ví d

mt con ng nga vn và rõ ràng vân này khác hn vi
vân  mình con ngng.
Vic truy vn nh da trên kt cu có v là không hiu qu 
 phân bing có màu su
tri và bin c thì càng tt.
8
u vào
u ra




Hình 1.9. Ví dụ về tìm kiếm dựa trên kết cấu
[21]  xu kim nh da vào màu sc và kt cu.
Mi c biu din thành mt vùng gi là blob.
Vic so sánh hai nh s c chuyn thành so sánh hai vùng. Nu hai
vùng có màu sc và kt cu gic coi là ging nhau. Hai
nh có nhiu vùng ging nhau thì hai  c coi là ging nhau.
9

Hình 1.10. Sử dụng blobworld để tìm kiếm ảnh của con hổ. Kết quả tìm kiếm
được đưa ra với hình ảnh trong dữ liệu và các vùng tương ứng của các bức ảnh
đó. Trong 50 bức ảnh đầu tiên được tìm thấy thì có 28% là hình của con hổ [21]
1.2.3. Đặc trƣng hình dạng (shape)
i vi nhng lp nh c     n hình dng c i
ng thì kt cu và màu không th gii quyc. 
bit, mng có hình di ging
nhau. Ví d t ching ch cn qua hình d
th n ra nó mà không cn màu s hình
dng ca nó. Tìm kim theo hình dáng tht s là ma h thng tìm

kim da vào ni dung mut ti.
10
 hình dc s dng phc lp v kích
ng. Ví d  t s chu vi và ding viên và hình
dng tròn
[23]  xu dng bi  nh hình dng
i di i din.

Hình 1.11. Hình dạng và lược đồ của hình dạng đặc trưng. Ảnh có thể bị biến
đổi nhưng hình dạng thay đổi rất ít [23]
1.2.4. Các điểm đặc trƣng (feature points hay interest points)
Chúng ta không quan tâm ti tt c m n
m trên nh có th dùng
 mô t toàn b m này nh khi co dãn nh, hoc quay 
t mt phn nh. Khi so sánh hai nh ta ch m khác
biu này làm gim s ng phép so sánh,
thay vì phi xem xét toàn b m trong nh, chúng ta ch n các
m này có th  nhn dm nh.
11
[24]  dng toán t Harri và sai phân bt bi nh ic
 dii din cho hình i
vi mi hình nh trong h thng s có mt tc
m. Khi so sánh hai nh, chúng ta s so sánh hai tp hm

m khá nh khi c co dãn
nh mà ta vng trên nh. Vector mô t c
 mô t mm quan trnh da trên sai phân
bt bin.
Theo [24], h thng có th tìm c nh gc vi u vào là các nh b
quay, b i t l, t các góc nhìn khác nhau, các nh ch hin th mt phn.


Hình 1.12. Hệ thống có thể nhận được các ảnh từ các góc nhìn khác nhau. Nếu
ta cho đầu vào là một trong các hình bên trái, hệ thống đều có thể tìm ra được
hình bên phải [24]


Hình 1.13. Hệ thống có thể tìm ra ảnh gốc mặc dù ảnh đầu vào bị che lấp
(occlusion) một phần. Mặc dù một trong các đầu vào bên trái bị che khuất,
nhưng hệ thống vẫn tìm lại được con vật nguyên vẹn ở bên phía phải [24]

12

Hình 1.14. Hình ảnh bên phải được tìm thấy chính xác khi sử dụng bất kì hình
bên trái để tìm kiếm. Các ảnh hình bên trái là các hình bị thay đổi tỉ lệ, bị quay,
thay đổi hình nền và hiển thị một phần so với ảnh bên trái [24]
y,   dng tính bt
bin ca  tìm kic bc nh gc t các nh b bi quay,
i t lm nhìn hay bc nh ch hin th mt phn so vi nh
gc.
1.4. Độ tƣơng tự
Trong truy vn hình nh da trên n  có vai trò rt
quan tr  cho bit hai nh có gi bit hai
nh có ging nhau hay không, ta phi so sánh hai nh. So sánh hai nh thc cht
 v  ging nhau gia hai nh. Nu hai nh hoàn toàn ging
  là 1. Nu hai  
 gia hai nh so sánh bii t 0 ti 1.
Có nhi   m nh
  màu, s d ng cách Euclidean 
màu,     PMK,
P màu [1]  bit hai nh ging

nhau hay không ta bii hai  màu ca chúng. Nu I và M là
 màu thì công th t c 1.1.
H(I,M) =




n
j
j
n
j
jj
M
MI
1
1
),min(

Công thức 1.1. Công thức tính độ tương tự trên lược đồ màu [1]
13
  theo Công thc 1.1 l i xng. Vì phi
mu s ph thuc vào mt trong hai i M ta s chia cho
i I ta li chia cho M
     màu    th s dng khong cách
Euclidean, xem Công thc 1.2.
D(I,M) =




n
j
jj
MI
1
)(

Công thức 1.2. Công thức tính độ tương tự bằng khoảng cách Euclidean trên
lược đồ màu
1.5. Đánh giá kết quả tìm kiếm
  giá kt qu tìm kim, ngi ta thng da vào hai ch s là kh
nng nh li (Recall) và  chính xác ca h thng (Precision).
1.5.1. Khả năng nhớ lại (Recall)
Kh nng nh li c trng cho nng lc có th tìm li các nh tng t
có trong h thng. Nu a mt nh u vào, h thng s tìm c K nh tng
t, trong khi h thng có N nh tng t, thì nng lc tìm c tính theo Công
thc 1.3
Recall =
N
K

Công thức 1.3. Khả năng nhớ lại (Recall)
Ví d trong tp  có 10 qu táo, h thng ch c 6 qu,
ng lc tìm kim ch có 60% mà không phi 100%
Thông thng, ta s dùng kh nng nh li trung bình (Average Recall)
  giá h thng. Nng lc nh li trung bình bng trung bình các nng lc
nh li trong các ln chy th T, xem Công thc 1.4.
Avarage Recall =










T
T
N
K
N
K
N
K
T

2
2
1
1
1

Công thức 1.4. Khả năng nhớ lại trung bình (Average Recall)
1.5.2. Độ chính xác của hệ thống (Precision)
 chính xác ca h thng c trng cho kh nng tìm  hay tìm
chính xác ca h thng. Nu h thng tìm c F nh, nhng trong  ch có L
14
nh liên quan, các nh còn li không liên quan thì  chính xác ca h thng
c tính theo Công thc 1.5.

Precision =
F
L

Công thức 1.5. Độ chính xác của hệ thống (Precision)
Thông thng, ta cng dùng  chính xác trung bình   giá h thng. 
chính xác trung bình c tính bng trung bình ca các ln chy. Vi T ln chy,
 chính xác ca h thc tính theo Công thc 1.6.
Avarage Precision =









T
T
F
L
F
L
F
L
T

2
2

1
1
1

Công thức 1.6. Độ chính xác trung bình của hệ thống (Average Precision)
Ví d i dùng mun tìm hình nh ca các qu    khóa
 thng tìm thy 10  táo còn 4
nh còn li và v     liu rác, không liên quan). Vy 
chính xác ca kt qu là 60%
V n, h thc nhiu (recall) thì càng tt, càng tìm
nhng cái liên quan (precision) thì càng t s recall và precision
là hai ch s cn thit.
Tuy nhiên nu càng Recall nhiu thì Precision càng gi  c
nhiu, càng nhiu rác).
1.6. Kết luận
lu i thiu chung v tìm kim nh theo
ni dung, các ng dng. Lu  nêu c tm quan trng ca tìm kim nh
theo ni dung là nn thân tích và tng hp nh da
trên d liu ln thông qua các ng dng. Ngoài ra, lu c các
c s d tìm ki  c
 so sánh các t qu tìm kim.
p theo, lu s trình bày mt s m
nh trong nh có liên quan trc tip ta lun
.
15
CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP TÌM KIẾM DỰA TRÊN
ẢNH TRONG VÒNG MƢỜI NĂM
Trong phn này, chúng tôi s m qua mt s  pháp tìm kim
nh da trên ni dung có liên quan ta chúng tôi. Chúng tôi s
m qua quá trình phát trin trong lch s tìm kim nh, xut phát t tìm kim

b màu [1] cho tm gt.
2.1. Phƣơng pháp lƣợc đồ màu
  xut bi Swain và Ballard (1991) trong vic nhn
dng nh và cnh màu. Mi u chuyn thành m t
, mi ô nh mang s ng màu có trong  [1] . Ví d
mt  s có mt ô nh cha giá tr 65536. Mi u
c bin thành m c tìm kim nh tr thành
tìm ki
   so sánh hai nh bng cách so sánh
hai tp hp màu ca hai nh. Và chúng ta không th so tm ca u
vào vm ca , chúng ta bin hai nh thành hai tp hc
) và vit nhiu so vi vic so sánh trc tim.
c ph
màu. Nu chúng ta lt mt  ca nó v ca nh
gng nhau. Nu chúng ta quay mt nh vi các góc
vuông (90, 180, 270) và l ca nó so v ca nh gc, chúng ta
 ging nhau. Phân b không gian cm màu
không quan trng, tn sut xut hin ca chúng là quan tr
màu. Kt qu là chúng ta s b  tin không gian và phân b cm
màu, bàn c caro và mt nh có na trng s  màu ging
nhau.

Hình 2.1: Thông tin không gian không được phản ánh trong lược đồ màu. Phân
bố của các điểm ảnh trong không gian không quan trọng nhưng tần xuất của
chúng quan trọng.
16
Chú ý rc nh ng t màu. Khi
 m s l chum
so sánh các nh khác nhau v s  m nh. Khi chúng ta chia các s
nguyên (s m) cho tng s ng ca chúng, chúng ta s bi

c trong khong [0,1]. Các giá tr này s ít ph thuc vào kích
c ca nh. Khi không chun hóa, các nh ln s có các s m l
2.2. Dựa trên túi từ BOW
Trong khong 2004 tr i s phát trin cu din
tài liu da trên mô hình "túi t" hay Bag of Words 
trc tìm kim c ci thin vi vic s
dng visual bag of word. Mi c chia thành tng phn nh, mi phn nh
c bin thành mt khái ning minh [3] hoc khái nim tim [5], [6]và
chúng ta có th t chc các khái ni khái nim.
Có th nhìn  khái nim là dng t màu.
Thay vì b mm nh vào mt ô, ta s b mt mnh nh (patch) vào mt ô,
 t. Mm vì nó phn ánh các thông tin cc b 
Ví d khi chúng ta nhìn mm, chúng ta ch phân lo, tím vàng.
t mnh, chúng ta có th phân loi (mnh tri, mnh
mây, mt lý, và dn kt
qu tìm ki
  t không phn ánh nhiu thông tin
không gian mà nó phn ánh tn sut ca các mnh. Tuy nhiên, bn thân mi
mnh có phân b không gian ni b trong nó, nên nu chúng ta m rng kích
c mnh, chúng ta phn nào phn ánh thông tin không gian.
2.3. Dựa trên không gian
n trên rng mô hình "túi t" không cha
thông tin không gian. Có mt s    gng gii thiu thông tin
không gian vào túi t.  tháp ca tác gi ng
nghi[5] c nhn trong lch s v vic
thêm thông tin không gian vào mô hình túi t bng cách chia nh ra thành phn
nh theo nhiu mc, hay còn gi là mô hình kim t tháp.
 tháp không gian (spatial pyramid), xem Hình 2.2,
c thit lp bng cách chia nh thành các phn hai, phn tám. 
mc thô nht, hay mc 0, c chia thành m

×