1
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Vũ Thị Quế
NGHIÊN CỨU PHƯƠNG PHÁP BIỂU DIỄN ẢNH VÀ ĐỘ ĐO TƯƠNG TỰ
HIỆU QUẢ ỨNG DỤNG TRONG TRA CỨU ẢNH QUA MẠNG
Chuyên ngành:Truyền dữ liệu và mạng máy tính
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – NĂM 2012
2
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS.NGÔ QUỐC TẠO
(Ghi rõ học hàm, học vị)
Phản biện 1: ……………………………………………………………………………
Phản biện 2: …………………………………………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện
Công nghệ Bưu chính Viễn thông
3
MỞ ĐẦU
Ngày nay, sự phát triển mạnh mẽ công nghệ thông tin và đặc biệt là sự phát
triển mạng Internet làm cho một số lượng khổng lồ các ảnh số được đưa lên mạng.
Một thực tế khác là hiện nay số lượng ảnh ngày càng lớn. Khi một người sử
dụng muốn tìm kiếm một bức tranh tương tự với một ảnh đã có là một việc khó.
Từ những thực tế đó đặt ra vấn đề phải có những phương pháp tổ chức cơ sở
dữ liệu ảnh và xây dựng những kỹ thuật tra cứu, so sánh, tìm kiếm ảnh số hiệu quả.
Một trong những phương pháp được nhiều người quan tâm nghiên cứu hiện nay là
kỹ thuật "Tra cứu ảnh dựa theo nội dung" (Content Based Image Retrieval). Kỹ
thuật này cho phép trích chọn các đặc điểm dựa vào nội dung trực quan của ảnh như
màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ sở cho việc tra
cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh. Một số hệ thống tra cứu ảnh nổi tiếng như
QBIC (IBM), Virage (Virage Inc.) Photobook (MIT) Visual SEEK (Columbia
University) đã áp dụng thành công kỹ thuật này.
Để giảm chi phí về không gian lưu trữ, thời gian so sánh các véc tơ đặc
trưng và thời gian tra cứu, cần có kỹ thuật biểu diễn, trích rút và độ đo tương tự hiệu
quả. Đề tài này nghiên cứu cơ sở lý thuyết và các ứng dụng chính của kỹ thuật tra
cứu ảnh theo nội dung và kỹ thuật biểu diễn và độ đo tương tự hiệu quả, trên cơ sở
đó thử nghiệm phương pháp cụ thể để xây dựng một phần mềm đọc vào một ảnh
mẫu và qua mạng tìm kiếm những ảnh tương tự với ảnh mẫu trong một tập hợp các
ảnh cho trước.
Nội dung luận văn gồm 3 chương:
Chương 1: Tổng quan về tra cứu ảnh dựa vào nội dung.
Chương 2: Kỹ thuật biểu diễn và độ đo tương tự hiệu quả.
Chương 3: Xây dựng hệ thống tra cứu ảnh qua mạng.
4
Chương 1. TỔNG QUAN TRA CỨU ẢNH DỰA VÀO NỘI
DUNG
1.1 Giới thiệu
Với một số lượng ảnh quá lớn trên
Internet
công việc tìm kiếm trở nên vô cùng
khó khăn. Để giải quyết vấn đề này, các hệ
thống
tìm kiếm ảnh đã ra đời như:
Yahoo, MSN, Google Image Search, Bing,….
Các kỹ thuật tra cứu ảnh được thực hiện chủ yếu theo hai hướng: kỹ thuật dựa vào
văn bản mô tả ảnh, kỹ thuật dựa vào nội dung ảnh.
Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image
Retrieval) gồm có 4 chức năng và có nhiều phương pháp truy vấn như :
Truy vấn bởi ảnh mẫu (QBE)
Truy vấn bởi đặc trưng (QBF)
Các truy vấn dựa vào thuộc tính
1.2 Trích rút đặc trưng
Trích rút đặc trưng là cơ sở của tra cứu ảnh dựa vào nội dung
1.2.1 Màu
Màu là đặc trưng trực quan quan trọng đầu tiên và đơn giản nhất cho đánh chỉ
số và tra cứu các ảnh. Nó cũng là đặc trưng được sử dụng phổ biến nhất trong lĩnh
vực tra cứu ảnh
Lược đồ màu
Lược đồ màu cung cấp một biểu diễn hiệu quả của nội dung màu của một ảnh nếu
mẫu màu là duy nhất so với phần còn lại của tập dữ liệu. Lược đồ màu là dễ dàng để
tính toán và hiệu quả trong mô tả cả phân bố màu toàn cục và cục bộ trong ảnh. Hơn
nữa, nó mạnh với quay và dịch chuyển về trục quan sát và thay đổi chậm với tỷ lệ
và góc quan sát.
Các màu trội
Ký hiệu mô tả đặc trưng lược đồ màu trội F được định nghĩa là một tập các cặp
sau:
5
)11( 1},,{ NipcF
ii
Ở đây
N
là tổng số các cụm màu trong ảnh, c
i
là một véc tơ màu ba chiều, p
i
là
phần trăm của nó, và
i
i
1p
. Lưu ý rằng
N
có thể thay đổi từ ảnh này sang ảnh
khác.
Các mômen màu
Các mômen màu là các mômen thống kê của các phân bố xác suất của các màu.
Các mômen màu bậc nhất (trung bình), bậc hai (phương sai) và bậc ba (độ lệch), đã
được chứng minh là hiệu quả trong biểu diễn các phân bố màu của các ảnh.
1.2.2 Kết cấu
Kết cấu là một đặc tính quan trọng khác của ảnh. Các biểu diễn kết cấu đa dạng đã
được nghiên cứu trong nhận dạng mẫu và thị giác máy tính. Về cơ bản, các phương
pháp biểu diễn kết cấu có thể được phân ra thành hai loại: cấu trúc và thống kê.
1.2.3 Hình dạng
So với các đặc trưng màu và kết cấu, các đặc trưng hình dạng thường được mô tả
sau khi các ảnh được phân đoạn thành các vùng hoặc các đối tượng. Một số đặc
trưng hình được sử dụng phổ biến trong các ứng dụng tra cứu ảnh như:
Các bất biến mômen
Các góc uốn
Các ký hiệu mô tả Fourier
Hình tròn, độ lệch tâm, và hướng trục chính
1.2.4 Thông tin không gian
Các vùng hoặc đối tượng với các đặc tính màu và kết cấu tương tự có thể được
phân biệt dễ dàng bằng việc tận dụng các ràng buộc không gian. Vị trí không gian
của các vùng (hoặc các đối tượng) hoặc quan hệ không gian giữa nhiều vùng (hoặc
đối tượng) trong một ảnh thì rất hữu ích cho tìm kiếm các ảnh.
1.3 Đánh chỉ số
Để thực hiện tra cứu ảnh dựa vào nội dung đối với các cơ sở dữ liệu ảnh lớn, các
kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng.
6
Các kỹ thuật đánh chỉ số nhiều chiều phổ biến đã có gồm thuật toán bucketing,
cây k-d, cây k-d ưu tiên, cây tứ phân, cây K-D-B, cây hB, cây R-tree và các biến thể
của nó cây R
+
và R
*
.
1.4 Độ tương tự giữa các ảnh
1.4.1 Độ đo về màu sắc
Một số độ đo tương đồng được sử dụng như: Độ đo khoảng cách Ơclit, độ
đo
Jensen-Shannon divergence
(JSD).
Khoảng cách
Ơclit:
Intersection (h(I),h(M)) =
2
1
( ( ) ( ))
k
j
h I h M
2
1
( ( ) ( ))
k
j
h I hM
Với h(I) và h(M) tương ứng là 2 lược đồ màu của hai ảnh I và ảnh M
Độ đo Jensen-Shannon divergence (JSD)
d
JSD
(H,H’)=
'
'
' '
1
2 2
log log
M
m m
m m
m
m m m m
H H
H H
H H H H
Trong đó: H và H’ là 2 biểu đồ màu được so
sánh,
H
m
là dải thứ m của biểu
đồ H.
1.4.2 Độ đo tương đồng cho hình dạng
Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý
ảnh.
Chúng trải rộng từ những độ đo toàn cục dạng thô với sự trợ giúp của việc
nhận
dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những hình
dạng
đặc
biệt
1.4.3 Độ đo tương đồng cho kết cấu ảnh
Kết cấu được trích xuất từ các bức ảnh sẽ được biểu diễn thành các véc tơ
nhiều
chiều và khoảng cách Ơclit được dùng để đo độ tương đồng giữa các đặc trưng
của
ảnh truy vấn với đặc trưng của ảnh trong cơ sở dữ
liệu
1.4.4 Độ đo tương đồng cho đặc trưng phân đoạn
Độ đo Cosin:
d
(x,y) =
.
.
x y
x y
.
.
x y
x y
7
Khoảng cách góc:
d
(x,y) =
1
cos ( . )
x y
1
cos ( , )
x y
Độ đo Euclide:
d
(x,y) =
2
1
m
i i
i
x y
2
1
m
i i
i
x y
1.5 Các hệ thống CBIR
1.5.1 QBIC của IBM
QBIC hỗ trợ chính các truy vấn dựa vào các ảnh mẫu, các phác thảo và các bản vẽ
được người sử dụng xây dựng, và các mẫu kết cấu và màu được lựa chọn.
1.5.2 Virage
Virage hỗ trợ các truy vấn trực quan dựa trên màu, thành phần cấu tạo (bố cục
màu), kết cấu và cấu trúc (thông tin đường bao đối tượng)
1.5.3 RetrievalWare
RetrievalWare là ứng dụng của các mạng neural để tra cứu ảnh sử dụng màu,
hình, kết cấu, độ sáng, bố cục màu, và hướng tỷ lệ của ảnh, như các đặc trưng truy
vấn.
1.5.4 VisualSeek và WebSeek
VisualSEEk là một máy tìm kiếm đặc trưng trực quan và WebSEEk là một máy
tìm kiếm văn bản/ảnh trên web. Các đặc trưng trực quan được sử dụng trong các hệ
thống của họ là các tập màu và các đặc trưng kết cấu dựa vào biến đổi sóng
1.5.5 Photobook
Photobook là một tập các công cụ tương tác để duyệt và tìm kiếm các ảnh được
phát triển tại phòng thí nghiệm MIT Media. Photobook gồm ba quyển nhỏ từ đó các
đặc trưng hình, kết cấu, và bề mặt được trích rút tương ứng
1.5.6 Netra
Netra sử dụng thông tin màu, kết cấu, hình, và vị trí không gian trong các vùng
ảnh được phân đoạn để tìm kiếm và tra cứu các vùng tương tự từ cơ sở dữ liệu
1.6 Đánh giá hiệu năng tra cứu
8
Để đánh giá hiệu năng của hệ thống tra cứu, người ta đưa ra hai số đo đó là độ
triệu hồi (recall) và độ chính xác (precision)
Độ chính xác:
)q(Q
)q(R)q(Q
precision
Độ triệu hồi :
)q(R
)q(R)q(Q
recall
Với một truy vấn q, tập hợp các ảnh trong cơ sở dữ liệu thích hợp với truy vấn q
được ký hiệu là R(q) còn kết quả tra cứu của truy vấn q được ký hiệu là Q(q).
1.7 Kết luận chương 1
Trong chương này, chúng tôi đã giới thiệu một số khái niệm và kỹ thuật cơ bản về
tra cứu ảnh dựa vào nội dung, bao gồm: trích rút đặc trưng, đánh chỉ số, độ tương tự
giữa các ảnh, các hệ thống tra cứu ảnh, đánh giá hiệu năng tra cứu và trình bày một
số hệ thống CBIR.
9
Chương 2:KỸ THUẬT BIỂU DIỄN VÀ ĐỘ ĐO TƯƠNG TỰ
HIỆU QUẢ
2.1 Giới thiệu
Động cơ chính của việc nghiên cứu phương pháp biểu diễn ảnh hiệu quả là: tra
cứu độ tương tự trong cơ sở dữ liệu ảnh lớn sử dụng màu sắc. Màu sắc trong một
vùng sẽ được chia thành nhiều cụm nhỏ các màu. Mô tả đặc trưng bao gồm biểu
diễn màu và tỉ lệ của chúng trong vùng. Phương pháp đo độ tương tự được sử dụng
trong đồ án sử dụng độ đo khoảng cách lược đồ màu chính phương, nghĩa là màu
sắc biểu diễn có thể được đánh chỉ số trong tọa độ không gian màu ba chiều (3D),
điều này có thể giúp chương trình tránh được các vấn đề có thể sảy ra như đối với
việc sử dụng lược đồ màu truyền thống. Để tra cứu độ tương tự, mỗi màu biểu diễn
trong ảnh truy vấn được kết hợp để đưa ra kết quả cuối cùng. Hiệu quả đánh chỉ số
sẽ được đưa ra nhằm tăng tốc độ tra cứu. Thực nghiệm cho thấy rằng phương pháp
miêu tả kết hợp này sẽ cho hiệu quả tra cứu cao hơn so với phương pháp lược đồ
màu truyền thống.
2.2 Một số kỹ thuật tra cứu ảnh dựa vào đặc trưng màu
2.2.1 Các không gian màu
Một không gian màu chỉ rõ các màu như các bộ số, theo các đặc tả nào đó. Các
không gian màu có thể dùng để sinh ra các biểu diễn màu, đặc biệt trong các biểu
diễn số, như in số hoặc hiển thị điện tử số. Mục đích của không gian màu là để phục
vụ đặc tả các màu theo một số cách chuẩn, được chấp nhận chung
Một số không gian màu phổ biến là : Không gian màu RGB, HSx, YUV và YIQ,
CIE XYZ và LUV
2.2.2 Phân đoạn ảnh
Phân đoạn ảnh là một thao tác ở mức thấp trong toàn bộ quá trình xử lý ảnh. Quá
trình này thực hiện việc phân vùng ảnh thành các vùng rời rạc và đồng nhất với
nhau hay nói cách khác là xác định các biên của các vùng ảnh đó. Các vùng ảnh
10
đồng nhất này thông thường sẽ tương ứng với toàn bộ hay từng phần của các đối
tượng thật sự bên trong ảnh
2.3 Phương pháp tra cứu ảnh sử dụng biểu diễn màu hiệu quả
Trích chọn đặc trưng màu cục bộ được bắt đầu đầu tiên với phân đoạn màu ảnh.
Để phân đoạn ảnh, chúng ta sử dụng thuật toán edgeflow. Phân cụm màu được thực
hiện trên mỗi vùng đã phân đoạn để thu được các màu đại diện của chúng. Sau khi
phân cụm, chỉ một số nhỏ lượng màu còn lại, và sau đó thì ta sẽ tính toán tỷ lệ phần
trăm giữa các màu này. Mỗi màu đại diện và tỷ lệ tương ứng của chúng tạo thành
một cặp các thuộc tính[19](mô tả các đặc điểm màu trong một vùng của ảnh). Mô tả
màu trội F có thể được định nghĩa theo công thức:
F = {{c
i
, p
i
}, i = 1,…, N} (2.1)
Với N là tổng số cụm màu trong vùng của ảnh, c
i
là vector màu 3D, p
i
là tỷ lệ
phần trăm, và ∑
i
P
i
= 1.
Lưu ý: N có thể thay đổi qua mỗi vùng.
2.3.1 Phân cụm màu
Trong thuật toán phân cụm giá trị màu của điểm ảnh là vector lượng hóa sử dụng
thuật toán Loyd tổng quát (GLA). Màu được biểu diễn trong không gian màu đồng
dạng CIE LUV. Sự thay đổi D trong mỗi cụm có thể được tính theo công thức:
D
i
=
||
2
)(||)(
n
i
c
nxnv
,
i
Cnx
(2.2)
Với c
i
là trọng tâm của cụm, x(n) là vector màu tại điểm ảnh n, v(n) là trọng số
cảm quan của điểm ảnh n Để tính toán ra độ cảm nhận màu sắc ta dùng công thức:
c
i
)(
)()(
nv
nxnv
,
i
Cnx
(2.3)
Phân cụm tích lũy được thực hiện dựa trên các trọng tâm cụm để gộp các cụm sao
cho khoảng cách giữa hai trọng tâm nhỏ hơn một ngưỡng được xác định T
d
. Ảnh
lượng hóa cuối cùng thu được qua việc gán mỗi điểm ảnh vào trọng tâm cụm gần
nhất của nó.
2.3.2 Độ tương tự màu
11
Các màu {c
i
} và tỷ lệ phần trăm độ tương tự của điểm ảnh p
i
có dạng các mô tả
màu được đưa ra bởi (2.1). Ta có hai mô tả đặc trưng màu như sau:
F
1
= {{c
i
, p
i
}, i = 1,…, N
1
}
Và F
2
= {{b
j
, q
j
}, j = 1,…, N
2
}
Khoảng cách giữa F
1
và F
2
được tính theo công thức:
ji
N
i
N
j
ji
N
j
j
N
i
i
qpaqpFFD
1 221
1 1
,
1
2
1
2
21
2
2,
(2.4)
Trong đó a
i,j
là hệ số tương tự giữa các màu c
i
và b
j
dji
djiji
ji
Td
Tddd
a
,
,max,
,
,0
,1
(2.5)
Với d
i,j
là khoảng cách Euclide giữa màu c
i
và b
j
d
i,j
= ||c
i
- b
j
|| (2.6)
và T
d
được định nghĩa trước, là khoảng cách cực đại của hai màu được cho là
tương tự. d
max
= αT
d
, và giá trị của hệ số α=1.2 trong các thực nghiệm.
Độ đo khoảng cách ở công thức trên có thể được thể hiện tốt nhất qua
khoảng cách lược đồ màu bình phương:
212121
2
,, HHAHHHHD
T
h
(2.7)
Ở đây H
1
và H
2
là các vector lược đồ màu truyền thống, và các hệ số của ma trận
A là a
i,j
. Mặt khác, nếu số bin của màu trong vector lược đồ N
h
là đủ lớn sao cho tất
cả các màu đại diện là các bin màu của phương pháp lược đồ màu. Khoảng cách
bình phương được viết lại như sau:
2 2 1 21 1
1 1 1 1
,,
1 1
,21
2
2,
N
j
N
l
N
i
N
j
jijiljlj
N
i
N
k
kiki
h
qpaqqappaHHd
(2.8)
Trong quá trình phân cụm, khoảng cách cực tiểu giữa hai trọng tâm cụm được đặt
là T
d
như đã thảo luận ở trên. Lưu ý rằng:
ki
ki
a
ki
,0
,1
,
và
lj
lj
a
lj
,0
,1
,
(2.9)
Ta có thể dễ dàng nhận ra: D
h
(H
1
,H
2
) = D(F
1
,F
2
).
12
2.4 Độ tương tự
2.4.1 Cấu trúc mạng D
*
3
Có hai tham số quan trọng trong việc thiết kế mạng: p bán kính tối thiểu của
một hình cầu có thể bao gồm các tế bào Voronoi, và p’ là bán kính tối đa có thể của
các tế bào Voronoi. Hình 2.4 minh họa các thông số đối với trường hợp 2-D.
Hình 2.4. Mạng tinh thể 2-D hình lục giác có p là bán kính tối thiểu, p’ là bán kính
tối đa
Đối với mạng D
*
3
cơ bản, p
’
basic
= ||(0,0,0) – (1,1,1)|| / 2 = 0.866. Tuy nhiên, việc
tính toán p thì phức tạp hơn. Trong [18], tỷ lệ giữa hai biến này được cung cấp, tức
là p’/p=0.7747. Giá trị p sẽ được cho trong quá trình thiết kế. Ta có thể tính toán các
yếu tố s theo quy mô mạng D
*
3
cơ bản bằng công thức dưới đây:
s = 0.7747 p/p’
basic
(2-10)
Với một điểm truy vấn c tùy ý trong không gian 3-D, điểm mạng gần nhất tương
ứng b
c
có thể được tính toán một cách dễ dàng như sau:
L
L
c
roundb
e
.
(2-11)
và 2.
2
0
LL
L
Lc
roundb
(2.12)
Ở đây L = 2s, và L là kích thước dọc theo trục tọa độ. Ví dụ L = 2 đối với các
mạng cơ bản. Chú ý rằng b
e
là điểm mạng chẵn gần nhất và b
0
là điểm lưới lẻ gần
nhất đối với điểm c cho trước. Cho b={b
e
, b
0
}. Sau đó:
cbb
b
c
minarg
(2.13)
2.4.2 Đánh chỉ số
Trong xây dựng cơ sở dữ liệu, mỗi vùng màu được phân bởi điểm mạng gần nhất
của nó. Bảng 2.1 cho thấy ví dụ về cấu trúc dữ liệu lập chỉ mục của một nút
13
Bảng 2.1. Cấu trúc dữ liệu lập chỉ mục của một nút
Hình 2.5 minh họa cho cả hai chiều (2-D) nơi bán kính tìm kiếm mong muốn r là
tìm kiếm trong phạm vi truy vấn và bán kính tìm kiếm R thực tế hay chính là tìm
kiếm khoảng cách tối thiểu cho các điểm mạng sao cho hình cầu mong muốn có bán
kính r được đảm bảo. p hiển thị bán kính hình cầu nhỏ nhất được bao bởi một tế bào
Voronoi, như được biểu diễn trong hình 2.5. Lưu ý rằng: R = r + p.
Hình 2.5. Cơ chế tìm kiếm trong mặt phẳng 2-D.
2.4.3 Thủ tục tìm kiếm
Thủ tục tìm kiếm hoàn chỉnh bao gồm các bước sau đây:
Bước 1: Để nhanh chóng loại bỏ kết quả sai, ngưỡng T
p
được thiết lập khác
biệt giữa phần trăm truy vấn p
i
và tỷ lệ thu hồi q
j
. Một khu vực bị loại nếu không
đạt điều kiện sau:
| p
i
– q
j
| < T
p
(2.14)
Bước 2: Các truy vấn màu sẽ được lấy nếu kết quả phù hợp và loại bỏ tất cả
các kết quả sai. Khu vực mà phù hợp hai điều kiện sau đây được coi như đã thu
được các điều kiện cuối cùng:
t
i
i
Tp
và
t
j
j
Tq
(2.15)
và ở đây i và j là chỉ số màu phù hợp. Giá trị của T
t
= 0,6 trong các thí nghiệm.
14
Bước 3: Xếp hạng tính khoảng cách giữa các tra cứu và truy vấn theo thứ tự.
Đối với việc lập chỉ mục và tìm bán kính r để đo khoảng cách T
d
phù hợp, khoảng
cách lớn nhất cho hai màu được coi là tương đương.
Bước 4: Nếu truy vấn phạm vi được thực hiện, tất cả các kết hợp với khoảng
cách nhỏ hơn so với phạm vi nhất định thì trả lại. Nếu một truy vấn N gần nhất được
thực hiện, thì các N đầu tiên được trả về.
2.5 Kết luận chương 2
Chương này đã trình bày kỹ thuật tra cứu ảnh sử dụng đặc trưng màu. Kỹ thuật
này được mô tả như sau: Một đại diện màu trội cho các khu vực hình ảnh được đề
xuất. Mô tả màu trội bao gồm các màu sắc đại diện trong khu vực và tỷ lệ phần trăm
của nó. Sự giống nhau giữa các mô tả màu sắc được đề xuất và được biểu thị là
khoảng cách bậc hai lược đồ màu. Một màu sắc hiệu quả được lập chỉ mục cho ảnh
truy vấn bằng cách sử dụng mô tả màu sắc này. Kết quả thử nghiệm cho thấy rằng
phương pháp đề xuất là nhanh chóng và hiệu quả.
15
CHƯƠNG 3: ỨNG DỤNG
3.1 Xây dựng hệ thống tra cứu ảnh qua mạng
Ngày nay với sự phát triển mạnh mẽ của công nghệ thông tin người ta đã có thể
thu thập được bộ ảnh phong cảnh theo mục đích nào đó. Tuy nhiên khi cơ sở dữ liệu
trên Internet có kích cỡ cực lớn thì việc thu thập này trở nên cực kỳ khó khăn. Để
giải quyết vấn đề này chúng ta có thể sử dụng công nghệ tra cứu ảnh dựa vào nội
dung để tìm ra những ảnh phong cảnh tương tự với ảnh truy vấn nhất
Từ những thực tế trên đặt ra một bài toán tra cứu ảnh phong cảnh như sau: tìm
trong một cơ sở dữ liệu ảnh phong cảnh những ảnh có nội dung (màu sắc, hình
dạng, kết cấu) giống với một ảnh phong cảnh mẫu nhất, sau đó phân hạng theo thứ
tự giảm dần của độ tương tự.
Với hệ thống tra cứu ảnh qua mạng bạn chỉ cần đường kết nối Internet và một
chiếc máy tính. Bạn không cần phải lo lắng về việc cài đặt phần mềm. Ngoài ra bạn
có thể tra cứu bất kỳ lúc nào và bất kỳ nơi đâu.
3.2 Phân tích bài toán
Nhiệm vụ của bài toán là xây dựng hệ thống tra cứu ảnh phong cảnh có một số các
chức năng sau:
o Khi người sử dụng cung cấp một ảnh phong cảnh mẫu cần tra cứu. Hệ thống
có nhiệm vụ tìm kiếm trong một cơ sở dữ liệu ảnh đã có và cho ra một danh
sách tất cả các ảnh tương tự như ảnh mẫu theo thứ tự ảnh nào tương tự với ảnh
mẫu hơn thì được phân hạng ở phía trên.
o Người sử dụng có thể qui định số lượng ảnh kết quả trả lại.
3.3 Thiết kế hệ thống
Hệ thống được mô tả tổng quát như sau:
Từ một cơ sở dữ liệu ảnh cho trước, ta tiến hành trích rút các đặc trưng của các
ảnh và lưu trữ trong cơ sở dữ liệu đặc trưng.
Người sử dụng đưa vào một ảnh truy vấn, các đặc trưng của ảnh truy vấn này
được tập hợp thành các véc tơ đặc trưng. Sau đó, hệ thống tiến hành so sánh các véc
tơ đặc trưng này với các đặc trưng trong cơ sở dữ liệu đặc trưng để từ đó tìm ra độ
16
tương tự. Tra cứu nào cho độ tương tự cao nhất thì chúng ta được kết quả tốt nhất.
Tức là kết quả tìm được là giống nhất với ảnh truy vấn ban đầu.
Tác nhân tra cứu
Chọn ảnh truy vấn.
Chọn tra cứu ảnh.
Hệ thống thực hiện trích rút đặc trưng màu của ảnh truy vấn, so sánh với các đặc
trưng trong CSDL và trả về kết quả là tập ảnh có độ tương tự gần nhất với ảnh truy
vấn. Tập ảnh kết quả được sắp xếp giảm dần theo độ tương tự.
Biểu đồ trình tự
Hình 3.2: Biểu đồ trình tự tra cứu ảnh
17
Hình 3.3: Biểu đồ hoạt động của tác nhân tra cứu ảnh
3.4 Thiết kế giao diện
Hệ thống được thiết kế và thực hiện trên webform với công nghệ .Net sử
dụng ngôn ngữ lập trình C# trên môi trường Visual Studio 2010, hệ quản trị cơ sở
dữ liệu MS SQL Server 2008.
Giao diện chương trình
+ Giao diện hệ thống tra cứu ảnh:
18
Hình 3.4. Giao diện hệ thống tra cứu ảnh
19
Giao diện hệ thống khi thực hiện truy vấn:
Hình 3.5. Giao diện hệ thống khi thực hiện truy vấn
20
3.5 Một số kết quả
3.5.1 Mô tả tập ảnh
Hệ thống tra cứu ảnh trên tập cơ sở dữ liệu gồm 1000 ảnh phong cảnh được
sưu tầm trên Internet với nhiều chủ đề như bầu trời, hoa, ngựa, Chúng ta sẽ xem
kết quả của hệ thống khi tra cứu với một số ảnh thuộc các chủ đề khác nhau để thấy
được sự hiệu quả của hệ thống.
3.5.2 Kết quả thử nghiệm
Từ hệ thống tra cứu ảnh qua mạng, chúng tôi tiến hành thử nghiệm với 5 truy
vấn, trong đó 3 truy vấn được lấy trong tập ảnh cơ sở dữ liệu và 2 truy vấn được lấy
ở ngoài tập ảnh cơ sở dữ liệu.
Truy vấn lấy trong tập ảnh cơ sở dữ liệu:
Thử nghiệm 1:
Ảnh truy vấn 1
Với ảnh truy vấn 1, hệ thống tra cứu trả ra 20 ảnh kết quả, trong đó có 16 ảnh kết
quả tương tự với ảnh truy vấn 1 và 4 ảnh kết quả có độ tương tự kém hơn so với ảnh
truy vấn 1.
- Các ảnh phù hợp với ảnh truy vấn:
21
- Các ảnh không phù hợp với ảnh truy vấn:
Hình 3.6. Kết quả tra cứu với mặt trời
Truy vấn lấy ngoài tập ảnh cơ sở dữ liệu:
Thử nghiệm 1:
Truy vấn 1:
Với ảnh truy vấn 1, hệ thống tra cứu trả ra 20 ảnh kết quả, trong đó có 18 ảnh kết
quả tương tự với ảnh truy vấn 1 và 2 ảnh kết quả có độ tương tự kém hơn so với ảnh
truy vấn 1.
- Các ảnh kết quả phù hợp với ảnh truy vấn:
22
- Các ảnh không phù hợp với ảnh truy vấn:
Hình 3.9. Kết quả tra cứu tòa nhà
3.6 Kết luận chương 3
Trong chương này, chúng tôi thực hiện xây dựng hệ thống tra cứu ảnh ứng
dụng kỹ thuật phân cụm ảnh vào bài toán tra cứu ảnh phong cảnh: phân tích và thiết
kế hệ thống, một số giao diện và kết quả thực nghiệm với một số chủ đề cụ thể. Kết
quả hệ thống trả về khá hiệu quả.
23
KẾT LUẬN
Bản luận văn đã trình bày phương pháp tra cứu ảnh theo nội dung và dựa vào
đặc trưng màu, phương pháp này cho kết quả nhanh chóng và hiệu quả.
Các kết quả đạt được trong luận văn:
■ Nghiên cứu tổng quan về tra cứu ảnh dựa vào nội dung.
■ Nghiên cứu kỹ thuật biểu diễn và độ đo tương tự ảnh.
■ Nghiên cứu kỹ thuật tra cứu ảnh sử dụng đặc trưng màu
■ Ứng dụng kỹ thuật phân cụm vào quá trình phân đoạn ảnh.
■ Xây dựng một phần mềm thực nghiệm qua mạng đọc vào một ảnh mẫu và
tìm kiếm những ảnh tương tự với ảnh mẫu trong một tập hợp các ảnh cho trước.
■ Chúng tôi tiến hành thực nghiệm với cơ sở dữ liệu gồm 1000 ảnh, kết quả
thực nghiệm cho thấy khá hiệu quả.
KIẾN NGHỊ VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO
- Thử nghiệm trên tập ảnh có kích cỡ lớn và đa dạng chủ đề hơn.
- Kết hợp thêm các đặc trưng khác vào quá trình tra cứu.
- Từng bước đưa vào ứng dụng thực tế.