ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ HỒNG NHUNG
ĐÁNH GIÁ CÁC PHƢƠNG PHÁP TÌM KIẾM ẢNH DỰA
TRÊN NỘI DUNG
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
Hà Nội, năm 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ HỒNG NHUNG
ĐÁNH GIÁ CÁC PHƢƠNG PHÁP TÌM KIẾM ẢNH DỰA
TRÊN NỘI DUNG
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã ngành: 60 48 05
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. TS LƢƠNG CHI MAI
Hà Nội, năm 2013
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
VU THI HONG NHUNG
EVALUATING SEVERAL CONTENT-BASED IMAGE
RETRIEVAL METHODS
Department: Information Technology
Major: Information System
Major code: 60 48 05
MASTER THESIS IN INFORMATION TECHNOLOGY
SUPPERVISION: ASSOC. PROF. PHD. LUONG CHI MAI
Hanoi, 2013
MỤC LỤC
MỞ ĐẦU _______________________________________________________ 1
Gii thiu bài toán ____________________________________________ 1
Mc tiêu nghiên cu __________________________________________ 1
B cc lu ______________________________________________ 2
CHƯƠNG 1. GIỚI THIỆU ________________________________________ 3
1.1. Tìm kim nh da trên ni dung ______________________________ 3
1.2. ng dng ca tìm kim nh da trên ni dung __________________ 4
ng dùng trong tìm kim nh theo ni dung ______ 6
____________________________________________ 12
t qu tìm kim _________________________________ 13
1.6. Kt lun _______________________________________________ 14
CHƯƠNG 2. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM DỰA TRÊN ẢNH
TRONG VÒNG MƯỜI NĂM ______________________________________ 15
màu _________________________________ 15
2.2. Da trên túi t BOW _____________________________________ 16
2.3. Da trên không gian ______________________________________ 16
2.4. ng dng trong tng hp và hoàn thin nh ___________________ 18
2.5. ng dng trong phân tích nh ______________________________ 19
2.6. Kt lun _______________________________________________ 19
CHƯƠNG 3. TÌM KIẾM DỰA TRÊN LƯỢC ĐỒ MÀU VỚI ẢNH PHÁC
THẢO ________________________________________________________ 20
3.1. Gii thiu ______________________________________________ 20
a Swain và Ballard 1991 ______________________ 21
a chúng tôi ________________________________ 23
3.4. Th nghim ____________________________________________ 24
3.5. Kt lun _______________________________________________ 41
CHƯƠNG 4. TÌM KIẾM DỰA TRÊN LƯỢC ĐỒ KHÁI NIỆM __________ 43
4.1. Gii thiu ______________________________________________ 43
______________ 44
4.3. Giao din truy vn _______________________________________ 45
____________________________ 45
4.5. H thng tìm kim da trên khái nim ________________________ 46
4.6. Th nghim ____________________________________________ 48
4.7. Kt lun _______________________________________________ 50
CHƯƠNG 5. CHƯƠNG TRÌNH THỬ NGHIỆM _____________________ 52
5.1. Gii thi ___________________________________ 52
5.2. Cu hình h thng ________________________________________ 52
5.3 B d liu th nghim _____________________________________ 52
5.4ng dt________________________________________ 53
5.5 nghim vi pm d
màu ______________________________________________________ 54
5.6 nghim vi pm d
khái nim __________________________________________________ 56
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ____________________________ 59
Kt qu c ca lu _________________________________ 59
ng phát trin ____________________________________________ 59
TÀI LIỆU THAM KHẢO _________________________________________ 61
Tài liu ting Anh ___________________________________________ 61
Tài liu ting Vit ___________________________________________ 63
DANH MỤC CÁC THUẬT TOÁN, CÔNG THỨC
Công thức 1.1. Công thức tính độ tương tự trên lược đồ màu [1] ___________ 12
Công thức 1.2. Công thức tính độ tương tự bằng khoảng cách Euclidean trên
lược đồ màu ____________________________________________________ 13
Công thức 1.3. Khả năng nhớ lại (Recall) _____________________________ 13
Công thức 1.4. Khả năng nhớ lại trung bình (Average Recall) _____________ 13
Công thức 1.5. Độ chính xác của hệ thống (Precision) ___________________ 14
Công thức 1.6. Độ chính xác trung bình của hệ thống (Average Precision) ___ 14
Công thức 3.1: Xác định ô nhớ cho mỗi màu trong lược đồ màu ___________ 22
Thuật toán 3.1: Thuật toán tính lược đồ màu cho mỗi ảnh màu ____________ 22
Thuật toán 3.2: Thuật toán tìm kiếm dựa trên lược đồ màu _______________ 23
Công thức 3.2: Định nghĩa mặt nạ so sánh và độ đo mới dựa trên mặt nạ. Mục
đích là tập trung vào những ô nhớ có màu trên lược đồ đầu vào và bỏ qua điểm
nhiễu. _________________________________________________________ 23
Thuật toán 3.3: Thuật toán thêm cấp xám vào ảnh tổng hợp để nó có lược đồ
màu gần với lược đồ màu của ảnh tự nhiên, nhằm tăng khả năng tìm thấy (recall)
của hệ thống tìm kiếm. ____________________________________________ 24
Bảng 3.1: Chia tâ
̣
p dư
̃
liê
̣
u SIFT flow theo chu
̉
đề ______________________ 24
Bảng 3.2: Tìm kiếm ảnh tự nhiên sử dụng lược đồ màu. Chỉ số Recall khi thực
nghiệm với ảnh tự nhiên. __________________________________________ 25
Bảng 3.3: Thử nghiệm trên ảnh một màu. Chỉ số Avarage Recall với các phương
phá ___________________________________________________________ 29
Bảng 3.4: Tìm kiếm trên ảnh phác thảo nhiều màu sử dụng lược đồ màu. Chỉ số
Avarage Recall với các phương pháp ________________________________ 36
Thuật toán 4.1: Hình thành lược đồ khái niệm _________________________ 44
Thuật toán 4.2: Đánh nhãn tự động bằng cách chọn láng giềng gần nhất ____ 47
Thuật toán 4.3: Lọc ra các ảnh/nhãn gần nhất với ảnh đầu vào ____________ 48
Bảng 4.1. Chỉ số Avarage Recall khi sử dụng khoảng cách Euclidean và
Hamming ______________________________________________________ 49
Bảng 5.1. Các tham số truyền vào khi chạy tập tin querywithcolplus.exe _____ 54
Bảng 5.2. Các tham số truyền vào khi chạy tập tin querywithmask.exe ______ 57
DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Tìm kiếm hình ảnh dựa trên từ khóa. Mỗi ảnh sẽ được gắn với một số
từ khóa nhất định, cả không gian ảnh sẽ được chuyển hóa thành không gian từ.
Do đó việc tìm kiếm ảnh chính là so khớp từ khóa với từ khóa (tài liệu từ với tài
liệu từ). ________________________________________________________ 3
Hình 1.2: Tìm kiếm ảnh bằng ảnh đầu vào. Khi dùng bất kỳ một phần mềm tạo
ảnh (mspaint, photoshop) để tạo một ảnh kích thước 256x256 với màu đỏ và
dùng ảnh đó làm đầu vào của quá trình tìm kiếm, ta không được kết quả mong
muốn. Chưa kể, ta có gợi ý "black color" thay cho "red color". _____________ 4
Hình 1.3: Hoàn thiện ảnh (image completion) bằng cách tìm kiếm trên lượng
lớn các ảnh để tìm ra phần còn thiếu tương thích với phần đã có [12] _______ 5
Hình 1.4 Tổng hợp một ảnh mới bằng cách vẽ các phần tử cơ bản của ảnh (núi,
cây, nhà) và tìm kiếm các phần tử đó trong cơ sở dữ liệu rồi ghép chúng lại
thành ảnh tổng hợp [13] ___________________________________________ 5
Hình 1.5: Tổng hợp ảnh mới bằng cách vẽ phác thảo ảnh, chọn các thành phần
từ kết quả tìm kiếm, sau đó ghép lại thành tổng hợp [14] __________________ 5
Hình 1.6: Phân tích ảnh bằng cách sử dụng ánh xạ điểm đặc trưng (SIFT flow)
và các ảnh ví dụ đã được đánh nhãn [10] ______________________________ 6
Hình 1.7: Phân tích ảnh trên diện rộng bằng cách tìm kiếm các ảnh ví dụ trong
cơ sở dữ liệu và sao chép các nhãn từ ảnh ví dụ sử dụng thông tin cục bộ, thông
tin không gian [22] _______________________________________________ 6
Hình 1.8. Ví dụ về tìm kiếm dựa trên màu sắc ___________________________ 7
Hình 1.9. Ví dụ về tìm kiếm dựa trên kết cấu ___________________________ 8
Hình 1.10. Sử dụng blobworld để tìm kiếm ảnh của con hổ. Kết quả tìm kiếm
được đưa ra với hình ảnh trong dữ liệu và các vùng tương ứng của các bức ảnh
đó. Trong 50 bức ảnh đầu tiên được tìm thấy thì có 28% là hình của con hổ [21]
______________________________________________________________ 9
Hình 1.11. Hình dạng và lược đồ của hình dạng đặc trưng. Ảnh có thể bị biến
đổi nhưng hình dạng thay đổi rất ít [23] ______________________________ 10
Hình 1.12. Hệ thống có thể nhận được các ảnh từ các góc nhìn khác nhau. Nếu
ta cho đầu vào là một trong các hình bên trái, hệ thống đều có thể tìm ra được
hình bên phải [24] _______________________________________________ 11
Hình 1.13. Hệ thống có thể tìm ra ảnh gốc mặc dù ảnh đầu vào bị che lấp
(occlusion) một phần. Mặc dù một trong các đầu vào bên trái bị che khuất,
nhưng hệ thống vẫn tìm lại được con vật nguyên vẹn ở bên phía phải [24] ___ 11
Hình 1.14. Hình ảnh bên phải được tìm thấy chính xác khi sử dụng bất kì hình
bên trái để tìm kiếm. Các ảnh hình bên trái là các hình bị thay đổi tỉ lệ, bị quay,
thay đổi hình nền và hiển thị một phần so với ảnh bên trái [24] ____________ 12
Hình 2.1: Thông tin không gian không được phản ánh trong lược đồ màu. Phân
bố của các điểm ảnh trong không gian không quan trọng nhưng tần xuất của
chúng quan trọng. _______________________________________________ 15
Hình 2.2: Giới thiệu thông tin không gian vào mô hình túi từ. Chia nhỏ ảnh
thành các phần theo nhiều mức khác nhau và so khớp các thành phần tương ứng
là một phương pháp đơn giản để giới thiệu thông tin không gian [5] ________ 17
Hình 2.3: Biểu diễn hình dạng (shape) của đồ vật dựa trên kim tự tháp không
gian [7] _______________________________________________________ 17
Hình 3.1: Tìm kiếm sử dụng lược đồ màu. (a) Phương pháp của Swain và
Ballard. (b) Tập trung vào màu đầu vào để tránh nhiễu (c) Sinh thêm các điểm
màu để khớp với lược đồ tự nhiên ___________________________________ 21
Hình 3.2: Thí nghiệm trên ảnh tự nhiên. Cả hai phương pháp đều tìm được ảnh
gốc, ảnh gốc bị xoay 90, 180, 270 độ. Việc tăng cấp xám trong phương pháp
của chúng tôi không ảnh hưởng tới kết quả tìm kiếm. ____________________ 26
Hình 3.3: Phương pháp của chúng tôi hoạt động trên ảnh tự nhiên. Việc thêm
cấp xám cho ảnh tự nhiên không làm ảnh hưởng nhiều tới kết quả của tìm kiếm.
_____________________________________________________________ 27
Hình 3.4: Khi thay đổi số cấp xám được sinh ra, chúng ta có thể có các kết quả
tìm kiếm khác nhau. Số cấp xám từ 0-16 cho chúng ta kết quả gần với thuật toán
nguyên thủy. Số cấp xám từ 16-32 cho ta các dải màu phù hợp hơn. Khi tăng cả
ba kênh lên 50 tới 100 cấp xám, chúng ta sẽ gặp nhiều điểm màu đen do các cấp
xám gần 0. _____________________________________________________ 28
Hình 3.5: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu. Thử
nghiệm trên tập Coast ____________________________________________ 30
Hình 3.6: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu. Thử
nghiệm trên tập coast ____________________________________________ 31
Hình 3.7: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu. Thử
nghiệm trên tập forest ____________________________________________ 32
Hình 3.8: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu. Thử
nghiệm trên tập insidecity _________________________________________ 33
Hình 3.9: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu. Thử
nghiệm trên tập opencountry _______________________________________ 34
Hình 3.10: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu. Thử
nghiệm trên tập tallbuilding. _______________________________________ 35
Hình 3.11: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu.
Thí nghiệm trên tập coast _________________________________________ 37
Hình 3.12: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu.
Thí nghiệm trên tập forest _________________________________________ 38
Hình 3.13: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu.
Thí nghiệm trên tập opentcountry ___________________________________ 39
Hình 3.14: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu.
Thí nghiệm trên tập opentcountry ___________________________________ 40
Hình 3.15: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu.
Thí nghiệm trên tập street _________________________________________ 41
Hình 4.1: Tìm kiếm dựa trên màu sắc (color) và dựa trên khái niệm (concept).
Nếu người dùng thực sự muốn tìm cảnh núi và trời, chúng ta không thể dùng
màu sắc thuần túy (hình trái) vì chúng ta sẽ có các kết quả gồm các hình với
màu sắc tương tự. Nhưng nếu chúng ta cung cấp thêm nhãn (trời, núi, mặt trời)
cho hình vẽ, chúng ta sẽ được các hình tương tự. _______________________ 43
Hình 4.2. Phương pháp sinh ảnh dựa trên lược đồ [3] ___________________ 44
Hình 4.3: Từ ảnh phác thảo tới lược đồ khái niệm. Chúng tôi cung cấp giao diện
cho phép người dùng đánh nhãn một số điểm trên hình. Sau đó chúng tôi có
thuật toán tự động để đánh nhãn những điểm còn lại. Cuối cùng, chúng tôi
chuyển toàn bộ lược đồ của ảnh đã được đánh nhãn thành lược đồ khái niệm. 45
Hình 4.4: So sánh giữa khoảng cách Euclidean giữa hai lược đồ và khoảng cách
Hamming giữa hai lược đồ nhị phân. Khi tìm các khái niệm nhỏ có số lược ít
(thuyền trên biển, xe trên đường, chim trên trời, mặt trời) các khái niệm có số
lượng lớn (trời, nước, cây) thường lấn át và chúng ta khó có các kết quả mong
muốn (hình trái). Nhưng nếu chúng ta sử dụng lược đồ nhị phân (có/không có
mặt trời, có không có xe) và so sánh hai lược đồ nhị phân, chúng ta sẽ có được
kết quả như ý định tìm kiếm (hình phải). ______________________________ 46
Hình 4.5: Hệ thống tìm kiếm _______________________________________ 47
Hình 4.6: Kết quả trên các ảnh vẽ. (a) Sử dụng khoảng cách Euclideanan. (b)
Sử dụng khoảng cách Hamming. ____________________________________ 50
Hình 5.1. Cấu trúc thư mục dữ liệu SIFT flow _________________________ 52
Hình 5.2. Truyền tham số khi chạy chương trình theo phương pháp Swain và
Ballard _______________________________________________________ 55
Hình 5.3. Truyền tham số khi chạy chương trình theo phương pháp đề xuất của
chúng tôi ______________________________________________________ 55
Hình 5.4: Kết quả chương trình khi chạy với tập tin querywithcolor.exe _____ 56
Hình 5.5. Truyền tham số khi chạy khoảng cách Euclidean _______________ 57
Hình 5.6. Truyền tham số khi chạy khoảng cách Hamming _______________ 57
Hình 5.7. Giao diện gán nhãn cho người dùng. ________________________ 58
1
MỞ ĐẦU
Giới thiệu bài toán
Ngày nay, cùng vi s phát trin ca k thut sng trong
d lic các nh mong mun
trong t d liu ln là rt ln. gii quyt v u
m nh da trên n xut.
V ca tìm kim thông tin (Information Retrieval), [16] là kt ni
gia tài li u vào (query document) và các tài li (stocked
document). ng hp c th ca tìm kim nh, chúng ta cn so sánh nh
u vào (query image) vi la chn các nh phù
hp. Nu vào là t khóa, chúng ta cn chuyn các thành t khóa.
u vào là nh tng hp (synthetic image), chúng ta cn tìm cách x
lý khp vi các nh t d liu.
Thc t, có nhing hi dùng mun tìm mt bc
h không có mt bc nh nào ng t ng hp
có th mô t nh cn tìm b khóa hoc v phác th
u vào cho quá trình tìm kit, nu dùng t
tìm kim thì kt qu ng không chính xác bi t khóa không th mô t ht
c ni dung ca bc nh. Vy làm th so khc mt nh phác
thi dùng v vi các nh t d liu?
Chúng tôi s nghiên cu mt s m nh da trên ni
tp trung so khp gia tài liu vào là nh phác tho vi tài li
tr là các nh t nhiên.
Mục tiêu nghiên cứu
Trong lu này, chúng tôi tìm hiu tng quan v tìm kim nh da
trên ni dung, mt s m nh theo ni dung trong nhng
n .
Chúng tôi nghiên cu, th nghii hai
kim da tr màu và tìm kim d khái nim trong bài
toán c th . ng thi chúng tôi s xut
pháp này nhm nâng cao hiu qu tìm kim.
2
Bố cục luận văn
Lu c xây dng vi phn m u, kt lun và
gm:
Gii thiu
t s m da trên nh trong vòng
m d màu vi nh phác tho
m d khái nim
nghim
3
CHƢƠNG 1. GIỚI THIỆU
1.1. Tìm kiếm ảnh dựa trên nội dung
t quen thuc vi tìm kim nh da trên t khóa, ví d
trong Hình 1.1, chúng ta dùng Google [27] "Hà Ni", chúng ta s
c các hình nh liên quan ti Hà Ni. tìm kim này ru
tiên mi c kt hp vi mt s t khóa nhn các tài
liu trong không gian nh thành các tài liu trong không gian t v
chúng ta có th so sánh tài liu vào (các t khóa trong không gian t vng)
vi các tài liu c gn vi các t khóa).
Hình 1.1: Tìm kiếm hình ảnh dựa trên từ khóa. Mỗi ảnh sẽ được gắn với một số
từ khóa nhất định, cả không gian ảnh sẽ được chuyển hóa thành không gian từ.
Do đó việc tìm kiếm ảnh chính là so khớp từ khóa với từ khóa (tài liệu từ với tài
liệu từ).
Tuy nhiên, nu chúng ta có mt u vào r n (ví d nh
u ch ), kt qu tìm kic
tn [27]. Xem Hình 1.2. Trên thc t, vic này có th
gii quyt rn b màu, chúng ta thm chí có th
phân loc u vào d màu (, nh xanh, nh có gam
màu nóng, nh có gam màu lnh).
4
Hình 1.2: Tìm kiếm ảnh bằng ảnh đầu vào. Khi dùng bất kỳ một phần mềm tạo
ảnh (mspaint, photoshop) để tạo một ảnh kích thước 256x256 với màu đỏ và
dùng ảnh đó làm đầu vào của quá trình tìm kiếm, ta không được kết quả mong
muốn. Chưa kể, ta có gợi ý "black color" thay cho "red color".
V ca tìm kim thông tin (Information Retrieval), [16] là kt ni
gia tài li u vào (query document) và các tài li (stocked
document). ng hp c th ca tìm kim nh, chúng ta cn so sánh nh
u vào (query image) vi la chn các nh phù
hp. Nu vào là t khóa, chúng ta cn chuyn các thành t khóa.
u vào là nh tng hp (synthetic image), chúng ta cn tìm cách x
lý khp vi các nh t nhiên (natural image) d liu.
1.2. Ứng dụng của tìm kiếm ảnh dựa trên nội dung
Tìm kim nh da trên ni dung không ch dng li mc v
i dùng cui (end user), nó còn là nn t
và tng hp nh da trên d liu ln. Ví d, xem Hình 1.3, hoàn thin nh da
trên tìm kim mng ln các bù vào
phn n [12]. Hoc ví d [13], [14] tìm kim các thành phn
ca nh da trên phác thn li v thành
nh tht, xem Hình 1.4 và Hình 1.5.
5
Hình 1.3: Hoàn thiện ảnh (image completion) bằng cách tìm kiếm trên lượng
lớn các ảnh để tìm ra phần còn thiếu tương thích với phần đã có [12]
Hình 1.4 Tổng hợp một ảnh mới bằng cách vẽ các phần tử cơ bản của ảnh (núi,
cây, nhà) và tìm kiếm các phần tử đó trong cơ sở dữ liệu rồi ghép chúng lại
thành ảnh tổng hợp [13]
Hình 1.5: Tổng hợp ảnh mới bằng cách vẽ phác thảo ảnh, chọn các thành phần
từ kết quả tìm kiếm, sau đó ghép lại thành tổng hợp [14]
Gc s dng các
nhãn các nh còn li. Ví d mm nh ca u vào s c gán mt
nhãn (nhà, tri, cây) bng cách s dng các c
[10] Tìm kim ó thit lp mt ánh x t nh truy vn vào nh
kt qu, ánh x cho phép sao chép các nhãn t nh
truy vn, xem Hình 1.6c [22] phát trin thut toán trên din
rng, bng cách tìm kim và ánh x da trên thông tin cc b và thông tin không
gian, xem Hình 1.7.
6
Qua các ng dng, chúng ta thm quan trng ca tìm kim
nh trong tng hp và phân tích nh. Nó tr n t gii quyt
các v tng hp và nhn dng c bit là hc da trên ví d.
Hình 1.6: Phân tích ảnh bằng cách sử dụng ánh xạ điểm đặc trưng (SIFT flow)
và các ảnh ví dụ đã được đánh nhãn [10]
Hình 1.7: Phân tích ảnh trên diện rộng bằng cách tìm kiếm các ảnh ví dụ trong
cơ sở dữ liệu và sao chép các nhãn từ ảnh ví dụ sử dụng thông tin cục bộ, thông
tin không gian [22]
1.3. Các đặc trƣng thƣờng dùng trong tìm kiếm ảnh theo nội dung
1.3.1. Đặc trƣng màu sắc
Màu sc là v cn tp trung gii quyt nhiu nht, vì mt nh màu
thì thông tin quan trng nht trong nh chính là màu sa thông tin v
7
màu si dùng quan tâm nhc, có th
lc rt nhiu lp nh, thông qua v ng ca màu
trong nh. Màu sc là m i bc s dng ph bin nht
trong tìm kim nh theo ni dung.
Trong tìm kim nh da vào màu s bi tìm
kim nh trong mt tp nhng nh hn tc là da vào bi màu
(color histogram) c n, t tìm kim
m là kt qu tìm kim l chính xác
Hình 1.8, vu vào là mt bc nh qu ,
h th . Các hình trong kt qu có th là
qu táo hoc qu cà chua (kt qu không liên quan) vì chúng có cùng màu.
Tìm kim nh da vào màu sc có th c lu
tiên cho nhng tìm kim sau. Muc kt qu i s kt
hng thi vi kt cu và hình dng.
u vào
u ra
Hình 1.8. Ví dụ về tìm kiếm dựa trên màu sắc
1.2.2. Đặc trƣng kết cấu (texture)
Kt cu (texture) nói lên mi quan h gim nh trong mt vùng
a nh, nó phn ánh s xp xp hay phân b m
màu. c kt cng nào. Ví d
mt con ng nga vn và rõ ràng vân này khác hn vi
vân mình con ngng.
Vic truy vn nh da trên kt cu có v là không hiu qu
phân bing có màu su
tri và bin c thì càng tt.
8
u vào
u ra
Hình 1.9. Ví dụ về tìm kiếm dựa trên kết cấu
[21] xu kim nh da vào màu sc và kt cu.
Mi c biu din thành mt vùng gi là blob.
Vic so sánh hai nh s c chuyn thành so sánh hai vùng. Nu hai
vùng có màu sc và kt cu gic coi là ging nhau. Hai
nh có nhiu vùng ging nhau thì hai c coi là ging nhau.
9
Hình 1.10. Sử dụng blobworld để tìm kiếm ảnh của con hổ. Kết quả tìm kiếm
được đưa ra với hình ảnh trong dữ liệu và các vùng tương ứng của các bức ảnh
đó. Trong 50 bức ảnh đầu tiên được tìm thấy thì có 28% là hình của con hổ [21]
1.2.3. Đặc trƣng hình dạng (shape)
i vi nhng lp nh c n hình dng c i
ng thì kt cu và màu không th gii quyc.
bit, mng có hình di ging
nhau. Ví d t ching ch cn qua hình d
th n ra nó mà không cn màu s hình
dng ca nó. Tìm kim theo hình dáng tht s là ma h thng tìm
kim da vào ni dung mut ti.
10
hình dc s dng phc lp v kích
ng. Ví d t s chu vi và ding viên và hình
dng tròn
[23] xu dng bi nh hình dng
i di i din.
Hình 1.11. Hình dạng và lược đồ của hình dạng đặc trưng. Ảnh có thể bị biến
đổi nhưng hình dạng thay đổi rất ít [23]
1.2.4. Các điểm đặc trƣng (feature points hay interest points)
Chúng ta không quan tâm ti tt c m n
m trên nh có th dùng
mô t toàn b m này nh khi co dãn nh, hoc quay
t mt phn nh. Khi so sánh hai nh ta ch m khác
biu này làm gim s ng phép so sánh,
thay vì phi xem xét toàn b m trong nh, chúng ta ch n các
m này có th nhn dm nh.
11
[24] dng toán t Harri và sai phân bt bi nh ic
dii din cho hình i
vi mi hình nh trong h thng s có mt tc
m. Khi so sánh hai nh, chúng ta s so sánh hai tp hm
m khá nh khi c co dãn
nh mà ta vng trên nh. Vector mô t c
mô t mm quan trnh da trên sai phân
bt bin.
Theo [24], h thng có th tìm c nh gc vi u vào là các nh b
quay, b i t l, t các góc nhìn khác nhau, các nh ch hin th mt phn.
Hình 1.12. Hệ thống có thể nhận được các ảnh từ các góc nhìn khác nhau. Nếu
ta cho đầu vào là một trong các hình bên trái, hệ thống đều có thể tìm ra được
hình bên phải [24]
Hình 1.13. Hệ thống có thể tìm ra ảnh gốc mặc dù ảnh đầu vào bị che lấp
(occlusion) một phần. Mặc dù một trong các đầu vào bên trái bị che khuất,
nhưng hệ thống vẫn tìm lại được con vật nguyên vẹn ở bên phía phải [24]
12
Hình 1.14. Hình ảnh bên phải được tìm thấy chính xác khi sử dụng bất kì hình
bên trái để tìm kiếm. Các ảnh hình bên trái là các hình bị thay đổi tỉ lệ, bị quay,
thay đổi hình nền và hiển thị một phần so với ảnh bên trái [24]
y, dng tính bt
bin ca tìm kic bc nh gc t các nh b bi quay,
i t lm nhìn hay bc nh ch hin th mt phn so vi nh
gc.
1.4. Độ tƣơng tự
Trong truy vn hình nh da trên n có vai trò rt
quan tr cho bit hai nh có gi bit hai
nh có ging nhau hay không, ta phi so sánh hai nh. So sánh hai nh thc cht
v ging nhau gia hai nh. Nu hai nh hoàn toàn ging
là 1. Nu hai
gia hai nh so sánh bii t 0 ti 1.
Có nhi m nh
màu, s d ng cách Euclidean
màu, PMK,
P màu [1] bit hai nh ging
nhau hay không ta bii hai màu ca chúng. Nu I và M là
màu thì công th t c 1.1.
H(I,M) =
n
j
j
n
j
jj
M
MI
1
1
),min(
Công thức 1.1. Công thức tính độ tương tự trên lược đồ màu [1]
13
theo Công thc 1.1 l i xng. Vì phi
mu s ph thuc vào mt trong hai i M ta s chia cho
i I ta li chia cho M
màu th s dng khong cách
Euclidean, xem Công thc 1.2.
D(I,M) =
n
j
jj
MI
1
)(
Công thức 1.2. Công thức tính độ tương tự bằng khoảng cách Euclidean trên
lược đồ màu
1.5. Đánh giá kết quả tìm kiếm
giá kt qu tìm kim, ngi ta thng da vào hai ch s là kh
nng nh li (Recall) và chính xác ca h thng (Precision).
1.5.1. Khả năng nhớ lại (Recall)
Kh nng nh li c trng cho nng lc có th tìm li các nh tng t
có trong h thng. Nu a mt nh u vào, h thng s tìm c K nh tng
t, trong khi h thng có N nh tng t, thì nng lc tìm c tính theo Công
thc 1.3
Recall =
N
K
Công thức 1.3. Khả năng nhớ lại (Recall)
Ví d trong tp có 10 qu táo, h thng ch c 6 qu,
ng lc tìm kim ch có 60% mà không phi 100%
Thông thng, ta s dùng kh nng nh li trung bình (Average Recall)
giá h thng. Nng lc nh li trung bình bng trung bình các nng lc
nh li trong các ln chy th T, xem Công thc 1.4.
Avarage Recall =
T
T
N
K
N
K
N
K
T
2
2
1
1
1
Công thức 1.4. Khả năng nhớ lại trung bình (Average Recall)
1.5.2. Độ chính xác của hệ thống (Precision)
chính xác ca h thng c trng cho kh nng tìm hay tìm
chính xác ca h thng. Nu h thng tìm c F nh, nhng trong ch có L
14
nh liên quan, các nh còn li không liên quan thì chính xác ca h thng
c tính theo Công thc 1.5.
Precision =
F
L
Công thức 1.5. Độ chính xác của hệ thống (Precision)
Thông thng, ta cng dùng chính xác trung bình giá h thng.
chính xác trung bình c tính bng trung bình ca các ln chy. Vi T ln chy,
chính xác ca h thc tính theo Công thc 1.6.
Avarage Precision =
T
T
F
L
F
L
F
L
T
2
2
1
1
1
Công thức 1.6. Độ chính xác trung bình của hệ thống (Average Precision)
Ví d i dùng mun tìm hình nh ca các qu khóa
thng tìm thy 10 táo còn 4
nh còn li và v liu rác, không liên quan). Vy
chính xác ca kt qu là 60%
V n, h thc nhiu (recall) thì càng tt, càng tìm
nhng cái liên quan (precision) thì càng t s recall và precision
là hai ch s cn thit.
Tuy nhiên nu càng Recall nhiu thì Precision càng gi c
nhiu, càng nhiu rác).
1.6. Kết luận
lu i thiu chung v tìm kim nh theo
ni dung, các ng dng. Lu nêu c tm quan trng ca tìm kim nh
theo ni dung là nn thân tích và tng hp nh da
trên d liu ln thông qua các ng dng. Ngoài ra, lu c các
c s d tìm ki c
so sánh các t qu tìm kim.
p theo, lu s trình bày mt s m
nh trong nh có liên quan trc tip ta lun
.
15
CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP TÌM KIẾM DỰA TRÊN
ẢNH TRONG VÒNG MƢỜI NĂM
Trong phn này, chúng tôi s m qua mt s pháp tìm kim
nh da trên ni dung có liên quan ta chúng tôi. Chúng tôi s
m qua quá trình phát trin trong lch s tìm kim nh, xut phát t tìm kim
b màu [1] cho tm gt.
2.1. Phƣơng pháp lƣợc đồ màu
xut bi Swain và Ballard (1991) trong vic nhn
dng nh và cnh màu. Mi u chuyn thành m t
, mi ô nh mang s ng màu có trong [1] . Ví d
mt s có mt ô nh cha giá tr 65536. Mi u
c bin thành m c tìm kim nh tr thành
tìm ki
so sánh hai nh bng cách so sánh
hai tp hp màu ca hai nh. Và chúng ta không th so tm ca u
vào vm ca , chúng ta bin hai nh thành hai tp hc
) và vit nhiu so vi vic so sánh trc tim.
c ph
màu. Nu chúng ta lt mt ca nó v ca nh
gng nhau. Nu chúng ta quay mt nh vi các góc
vuông (90, 180, 270) và l ca nó so v ca nh gc, chúng ta
ging nhau. Phân b không gian cm màu
không quan trng, tn sut xut hin ca chúng là quan tr
màu. Kt qu là chúng ta s b tin không gian và phân b cm
màu, bàn c caro và mt nh có na trng s màu ging
nhau.
Hình 2.1: Thông tin không gian không được phản ánh trong lược đồ màu. Phân
bố của các điểm ảnh trong không gian không quan trọng nhưng tần xuất của
chúng quan trọng.
16
Chú ý rc nh ng t màu. Khi
m s l chum
so sánh các nh khác nhau v s m nh. Khi chúng ta chia các s
nguyên (s m) cho tng s ng ca chúng, chúng ta s bi
c trong khong [0,1]. Các giá tr này s ít ph thuc vào kích
c ca nh. Khi không chun hóa, các nh ln s có các s m l
2.2. Dựa trên túi từ BOW
Trong khong 2004 tr i s phát trin cu din
tài liu da trên mô hình "túi t" hay Bag of Words
trc tìm kim c ci thin vi vic s
dng visual bag of word. Mi c chia thành tng phn nh, mi phn nh
c bin thành mt khái ning minh [3] hoc khái nim tim [5], [6]và
chúng ta có th t chc các khái ni khái nim.
Có th nhìn khái nim là dng t màu.
Thay vì b mm nh vào mt ô, ta s b mt mnh nh (patch) vào mt ô,
t. Mm vì nó phn ánh các thông tin cc b
Ví d khi chúng ta nhìn mm, chúng ta ch phân lo, tím vàng.
t mnh, chúng ta có th phân loi (mnh tri, mnh
mây, mt lý, và dn kt
qu tìm ki
t không phn ánh nhiu thông tin
không gian mà nó phn ánh tn sut ca các mnh. Tuy nhiên, bn thân mi
mnh có phân b không gian ni b trong nó, nên nu chúng ta m rng kích
c mnh, chúng ta phn nào phn ánh thông tin không gian.
2.3. Dựa trên không gian
n trên rng mô hình "túi t" không cha
thông tin không gian. Có mt s gng gii thiu thông tin
không gian vào túi t. tháp ca tác gi ng
nghi[5] c nhn trong lch s v vic
thêm thông tin không gian vào mô hình túi t bng cách chia nh ra thành phn
nh theo nhiu mc, hay còn gi là mô hình kim t tháp.
tháp không gian (spatial pyramid), xem Hình 2.2,
c thit lp bng cách chia nh thành các phn hai, phn tám.
mc thô nht, hay mc 0, c chia thành m