Tải bản đầy đủ (.pdf) (21 trang)

NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG THÔNG TIN PHẢN HỒI TỪ NGƯỜI DÙNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (372.12 KB, 21 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG







Nguyễn Thị Tâm



NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG
THÔNG TIN PHẢN HỒI TỪ NGƯỜI DÙNG


Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01


TÓM TẮT LUẬN VĂN THẠC SĨ





HÀ NỘI - 2014




































Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG




Người hướng dẫn khoa học: TS. Nguyễn Hữu Quỳnh



Phản biện 1: TS Hoàng Lê Minh.

Phản biện 2: PGS.TS Đặng Văn Chuyết.





Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu
chính Viễn thông
Vào lúc: 14h15 ngày 15 tháng 02 năm 2014

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

MỞ ĐẦU
Trong thập kỷ số, hàng triệu các ảnh đã được lưu trữ trong các cơ sở dữ liệu khổng lồ
và trên Internet, để tìm các ảnh quan tâm trong các tập ảnh này đòi hỏi một cách tiếp cận
mới. Hầu hết các ảnh này không phải do chúng ta sở hữu, do đó chúng ta không có tri thức
để có thể hỗ trợ tìm kiếm các ảnh quan tâm thuận lợi. Nếu tìm kiếm các ảnh trong các cơ sở

dữ liệu này một cách thủ công, chúng ta có thể tìm kiếm được các ảnh mong muốn nhất bởi
vì khả năng nhận dạng nội dung ảnh của con người là tuyệt vời (không có đối tượng nào có
thể sánh kịp). Tuy nhiên, thách thức lớn nhất khi thực hiện tìm kiếm ảnh trong các cơ sở dữ
liệu ảnh lớn bởi con người là vấn đề tốc độ.
Nhiều hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image
Retrieval) thực hiện tra cứu dựa chính vào các đặc trưng toàn cục. Nhiều khi các người dùng
truy cập một hệ thống CBIR để tìm các đối tượng, nhưng các hệ thống này dường như thất
bại, do một dấu hiệu đơn được tính cho toàn bộ ảnh không thể thu đủ các thuộc tính quan
trọng của các đối tượng riêng biệt. Các hệ thống tra cứu ảnh dựa vào vùng (RBIR – Rigon
Based Image Retrieval) cố gắng khắc phục hạn chế của các đặc trưng toàn cục bằng việc
biểu diễn các ảnh ở mức đối tượng dẫn tới gần với nhận thức của con người.
Các phương pháp CBIR ở trên cho phép máy tính có sự hiểu biết nào đó về các ảnh,
thông qua tạo các biểu diễn của nội dung ảnh và nhóm các biểu diễn này dựa trên độ tương
tự của chúng. Các phương pháp đó rất khó để có thể trả về các kết quả thỏa mãn với người
dùng, bởi vì độ phức tạp và các biến đổi trong các ảnh trực quan làm cho việc tra cứu các
ảnh thỏa mãn yêu cầu của người dùng như mò kim đáy biển. Một trong những kỹ thuật học
tương tác là phản hồi liên quan (RF – Relevance Feedback) được phát triển ban đầu trong
tra cứu văn bản. RF được đưa vào CBIR ở giữa những năm 1990 để cải tiến hiệu năng trong
các hệ thống tra cứu ảnh. Ý tưởng chính của RF là để người dùng hướng dẫn hệ thống.
Trong quá trình tra cứu, người dùng tương tác với hệ thống và đánh giá sự liên quan của
các ảnh được tra cứu (theo ý chủ quan của người dùng). Với thông tin thêm vào này, hệ
thống học sự quan tâm của người dùng và cho ra các kết quả tốt nhất.
Mục tiêu chính của luận văn này là sử dụng thông tin mà người dùng quan tâm để
nâng cao hiệu năng của hệ thống. Để thực hiện điều này, thuật toán đánh lại trọng số vùng
dựa trên thông tin quan tâm của người dùng được đề xuất. Các trọng số vùng trùng với nhận
thức người sẽ cải tiến độ chính xác. Các trọng số vùng được
ghi nhớ lại để dùng cho các truy vấn sau.
Nội dung luận văn được tổ chức như sau:
Chương 1: Tổng quan về tra cứu ảnh sử dụng phản hồi liên quan: Chương này
nêu những nét chính của tra cứu ảnh dựa vào nội dung, phản hồi liên quan trong tra cứu

thông tin và tra cứu ảnh.
Chương 2 : Phương pháp tra cứu ảnh sử dụng thông tin phản hồi từ người dùng:
Chương này giới thiệu các kỹ thuật sử dụng trong tra cứu ảnh dựa vào nội dung sử dụng
phản hồi liên quan bao gồm kỹ thuật phân vùng ảnh, trích rút đặc trưng và đánh lại trọng số
vùng.
Chương 3: Chương trình thử nghiệm: Xây dựng mô hình, chạy thử với tập cơ sở
dữ liệu gồm 1000 ảnh và đánh giá hiệu quả của phương pháp tra cứu.
CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH SỬ DỤNG PHẢN
HỒI LIÊN QUAN
1.1 Tra cứu thông tin
Tra cứu thông tin (IR – Information Retrieval) là việc thu thập các nguồn thông tin
liên quan trong một tập các nguồn tài nguyên. Truy vấn hệ thống có thể là văn bản, hình
ảnh, audio, bản đồ tư duy hoặc video.
1.2 Phản hồi liên quan trong tra cứu thông tin
Phản hồi liên quan (RF – Relevance Feedback) trong tra cứu thông tin chứa người
dùng trong quá trình tra cứu để cải thiện tập kết quả cuối cùng. Thủ tục cơ sở là:
- Người dùng tạo một truy vấn.
- Hệ thống trả lại một tập các kết quả tra cứu ban đầu.
- Người dùng đánh dấu một số tài liệu được trả về là liên quan hoặc không liên
quan.
- Hệ thống tính toán một đại diện tốt nhất của nhu cầu thông tin dựa trên phản hồi
của người dùng.
- Hệ thống hiển thị một tập các kết quả tra cứu được hiệu chỉnh.
Véc tơ truy vấn mà chúng ta muốn tìm được biểu thị bằng
q

, mà cực đại sự tương tự
với các tài liệu liên quan trong khi cực tiểu sự tương tự với các tài liệu không liên quan
được mô tả:
Véc tơ truy vấn tối ưu:

),(),(maxarg
nrrqopt
CqsimCqsimq


(1.1)
Trong đó: C
r
là tập tài liệu liên quan, C
nr
là tập tài liệu không liên quan,
),(
r
Cqsim


độ tương tự cosin giữa
q


r
C
.
Véc tơ truy vấn tối ưu để tách tài liệu liên quan và không liên quan:
nrr
Cd
j
nr
Cd
j

r
opt
d
C
d
C
q




11
(1.2)
Thuật toán Rocchio
nrjrj
Dd
j
nr
Dd
j
r
m
d
D
d
D
qq




11
0
(1.3)



1.3 Tra cứu ảnh dựa vào nội dung
1.3.1 Vấn đề tra cứu ảnh dựa vào nội dung
Tra cứu ảnh dựa vào nội dung sử dụng những nội dung thị giác như màu sắc, hình
dạng, kết cấu, không gian để biểu diễn ảnh . Các nội dung thị giác của ảnh được trích rút và
mô tả bằng các vector đặc trưng đa chiều
1.3.2 Các chức năng của hệ thống tra cứu ảnh dựa vào nội dung tiêu biểu
Chức năng của hệ thống CBIR bao gồm: trích rút đặc trưng, phân tích truy vấn người
dùng, so sánh độ tương tự, thực hiện điều chỉnh cần thiết.
1.3.3 Trích rút đặc trưng
Trích rút đặc trưng là trích rút các thông tin có ý nghĩa của ảnh
1.3.3.1 Đặc trưng màu sắc
Mỗi ảnh có một biểu đồ màu riêng phản ánh tỷ lệ điểm ảnh của mỗi màu trong ảnh.
Các phương pháp biểu diễn đặc trưng màu như: không gian màu ( bao gồm RGB, CIE,
HSV); lược đồ màu.
1.3.3.2 Đặc trưng kết cấu
Dùng để phân lớp các ảnh kết cấu từ các ảnh không kết cấu và sau đó được kết hợp
với các thuộc tính đặc trưng khác như màu để làm cho tra cứu hiệu quả hơn
1.3.3.3 Đặc trưng hình dạng
Hình dạng được xem như là một đặc trưng quan trọng trong mô tả các đối tượng nổi
bật trong ảnh và có thể giúp phân biệt giữa hai ảnh.
1.3.4 Độ đo tương tự
Là tính toán độ tương tự trực quan giữa ảnh truy vấn và ảnh trong cơ sở dữ liệu.
Được xác định bằng khoảng cách Minkowski-Form:
p

p
ii
JfIfJID
/1
))()((),(

Trong đó D(I,J) là khoảng cách đo giữa ảnh truy vấn I và ảnh J trong cơ sở dữ
liệu; f
i
(I) là số pixel trong bin i của ảnh I.
1.3.5 Một số hệ thống CBIR tiêu biểu
1.3.5.1 Hệ thống Blobwold
Hệ thống Blobwold của khoa Khoa học máy tính, Đại học California, Berkeley. Các
đặc tính được sử dụng cho truy vấn là màu sắc, kết cấu, vị trí và hình dạng của vùng và nền
1.3.5.2 Hệ thống Query By Image Content (QBIC)
QBIC hỗ trợ chính các truy vấn dựa vào các ảnh mẫu, các phác thảo và các bản vẽ
được người sử dụng xây dựng, và các mẫu kết cấu và màu được lựa chọn.
1.3.5.3 Hệ thống VisualSeek
VisualSEEk là một máy tìm kiếm đặc trưng trực quan và WebSEEk là một máy
tìm kiếm văn bản/ảnh trên web. Các đặc trưng trực quan được sử dụng trong các hệ
thống của họ là các tập màu và các đặc trưng kết cấu dựa vào biến đổi sóng
1.4 Tra cứu ảnh sử dụng phản hồi liên quan
Phản hồi liên quan được giới thiệu trong CBIR nhằm giải quyết một số hạn chế của
CBIR: Khoảng trống giữa các đặc trưng mức thấp và các khái niệm mức cao (khoảng cách
ngữ nghĩa); Sự nhận thức chủ quan của con người mà thực tế chủ yếu góp phần làm cho
phản hồi liên quan là chủ đề nghiên cứu tích cực nhất trong CBIR là do độ chính xác của
các máy tìm kiếm CBIR nói chung rất thấp.
Phản hồi liên quan được giới thiệu trong CBIR trong đó người và máy tính tương tác
nhiều lần với nhau để cải tiến các truy vấn mức cao đối với các biểu diễn dựa trên các đặc
trưng ảnh mức thấp.

Một ngữ cảnh trong hệ thống phản hồi liên quan (Relevance Feedback - RF) là:
Bước 1: Người dùng đưa ra một ảnh mẫu truy vấn và/hoặc từ khóa mô tả đối đối với
hệ thống.
Bước 2: Hệ thống cung cấp các kết quả tra cứu khởi tạo dựa trên các độ đo tương tự
nào đó đã được xác định trước.
Bước 3: Người dùng đánh dấu các ảnh được tra cứu bằng việc đánh giá chúng có liên
quan đến truy vấn hay không.
Bước 4: Dựa trên thông tin phản hồi bởi người dùng, hệ thống điều chỉnh truy vấn và
tra cứu một danh sách mới các ảnh cho người dùng. Thuật toán lặp lại Bước 3.
1.5 Đánh giá hiệu năng
Để đánh giá hiệu suất của hệ thống tra cứu sử dụng hai phép đo là recall (độ triệu
hồi) và precision (độ chính xác):

)(
)()(
qQ
qRqQ
precision
(1.4)

)(
)()(
qR
qRqQ
recall
(1.5)

Trong đó R(q) là tập dữ liệu liên quan tới truy vấn q, Q(q) là kết quả tra cứu của truy vấn q.

1.6 Kết luận chương 1

Trong chương này, chúng tôi đã giới thiệu một số khái niệm cơ bản của phản hồi liên
quan trong tra cứu thông tin, tra cứu ảnh dựa vào nội dung, một số hệ thống tra cứu ảnh dựa
vào nội dung, phản hồi liên quan trong tra cứu ảnh đánh giá hiệu năng tra cứu. Đặc biệt tôi
muốn nhấn mạnh vào phản hồi liên quan trong tra cứu thông tin và tra cứu ảnh.
CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG THÔNG
TIN PHẢN HỒI TỪ NGƯỜI DÙNG
2.1 Giới thiệu
Tra cứu ảnh dựa vào nội dung sử dụng đặc trưng mức thấp như màu sắc, kết cấu, hình
dạng…là một lĩnh vực nghiên cứu tích cực trong một vài năm qua. Tuy nhiên, các hệ thống
này thường cho các kết quả không gần với nhận thức của con người. Phần này chúng tôi xin
trình bày phương pháp tra cứu ảnh dựa vào nội dung sử dụng thông tin mà người dùng quan
tâm để nâng cao hiệu năng của hệ thống tra cứu. Để thực hiện điều này, thuật toán đánh lại
trọng số vùng dựa trên thông tin quan tâm của người dùng được đề xuất. Các trọng số vùng
trùng với nhận thức của người dùng sẽ cải tiến độ chính xác. Các trọng số vùng được ghi
nhớ lại để dùng cho các truy vấn sau.
2.2 Phân vùng ảnh
2.2.1 Phân cụm dựa vào màu sắc (CBC – Color based Clustering)
Ý tưởng chính của kỹ thuật phân cụm dựa vào màu sắc là: mỗi ảnh được chia thành
các vùng, mỗi vùng có một véc tơ đặc trưng riêng và có kích thước lớn hơn hoặc bằng
ngưỡng cỡ s
0
, tất cả các pixel của vùng đã được xác định trước độ tương tự màu theo
ngưỡng khoảng cách màu d
0
. Ngưỡng d
0
, s
0
của vùng CBC(d
0

, s
0
) là các tham số được xác
định bởi người dùng.
2.2.2 Thuật toán phân cụm
Thuật toán phân cụm với ảnh đầu vào là I. Thuật toán trả về số vùng R của ảnh I.
Thuật toán RS (Region Segmentation)
Đầu vào: I - ảnh gồm n pixel
d
0
– ngưỡng khoảng cách
T – ngưỡng cỡ của vùng
Đầu ra: R – tập các vùng của ảnh I
1. G

ConvertGraph(I);
2. V

GetVertexSet(G);
3. E

GetEdgeSet(G);
4. For mỗi đỉnh v E do
4.1 CreateRegion(v)
5. For mỗi (u,v) E do
5.1 w
u,v


Distance(u,v)

6. E

SortIncreasingOrder(E);
7. For mỗi (u,v) E do
7.1 If (d(Find-Region(u), Find-Region(v)<d
0
)
7.1.1 If (Find-Region(u) Find-Region(v))
Merge(u,v)
7.1.2 else break;
8. For mỗi vùng R
i
R
8.1 If (Size(R
i
)<T)
8.1.1 R
j

GetNeighborRegion(R
i
)
8.1.2 Merge(R
i
, R
j
)
9. Return R
Thủ tục ConvertGraph() chuyển ảnh cần phân đoạn I thành đồ thị G, hàm
GetVertexSet() trả về tập đỉnh của đồ thị G, hàm GetEdgeSet(G) trả lại tập cạnh của đồ thị

G, thủ tục CreateRegion() tạo ra vùng gồm đỉnh được chỉ ta, hàm Distance() trả về khoảng
cách của hai đỉnh theo giá trị màu, thủ tục SortIncreasingOrder() sắp xếp các cạnh theo thứ
tự tăng dần của trọng số w, hàm Find-Region() trả về trọng tâm của vùng, thủ tục Merge()
nhập hai vùng thành một vùng, hàm Size() trả về cỡ của vùng được chỉ ra và hàm
GetNeighborRegion() trả về vùng lân cận có độ tương tự cao nhất.
2.2.3 Hàm tính khoảng cách
Sau khi phân vùng, hai ảnh được so sánh sử dụng hàm tính khoảng cách. Khoảng
cách giữa 2 ảnh A và B là d(A, B, α), là thành phần trọng số của khoảng cách giữa vùng A
i
,
B
j
tương ứng của ảnh A và B – Rd (A
i
, B
j
, α).
Hàm khoảng cách vùng Rd (A
i
, B
j
, α) được xác định như sau:
).,.()1().,.(),,(
22
centerBcenterALcolorBcolorALBARd
jijiji
(2.1)
Trong đó: A
i
, B

j
là vùng chứa ảnh A, B tương ứng, L
2
(.,.) là hàm trả về khoảng cách
L
2
giữa các đối số của nó.
Thuật toán tính khoảng cách giữa hai ảnh A và B. Hàm trả về khoảng cách giữa các
vùng tương ứng của ảnh A và B.
Hàm tính khoảng cách d(A,B,α)
1. for mỗi cặp vùng A
i
A và B
j
B
2.
0.statusA
i

3.
0.statusB
j

4.
),,(
jiBA
BARdD
ji

5. sắp xếp khoảng cách

ji
BA
D
đã tính được theo thứ tự tăng dần
6. β =0
7. for mỗi khoảng cách
ji
BA
D
theo chiều tăng dần
8. if
0 statusBstatusA
ji

9. if
sizeBsizeA
ji


10.
sizeAw
i
.

11.
sizeAsizeBsizeB
ijj


12.

1.statusA
i

13. else
14.
sizeBw
j
.

15.
sizeBsizeAsizeA
jii


16.
1.statusB
j

17. if
0.sizeA
i
then
1.statusA
i

18.
ji
BA
Dw


19. return β


2.3 Trích rút đặc trưng và so sánh vùng
2.3.1 Trích rút đặc trưng
Ở phần trước chúng ta đã phân đoạn ảnh thành các vùng. Phần này, sẽ thực hiện công
việc tiếp theo là trích rút đặc trưng của vùng
2.3.1.1 Đặc trưng màu
Đặc trưng màu được sử dụng rất hiệu quả cho tra cứu ảnh màu trong cơ sở dữ liệu
ảnh.
2.3.1.2 Đặc trưng vị trí
Vị trí không gian của mỗi vùng được biểu thị bởi trọng tâm của mỗi vùng. Các tọa độ
x và y (X(R
i
) và Y(R
i
)) của vị trí tâm được chuẩn hóa theo tọa độ ảnh.
2.3.1.3 Đặc trưng cỡ
Cỡ của vùng được tiêu chuẩn hóa theo cỡ của ảnh.
2.3.2 So sánh vùng
Khoảng cách giữa các vị trí không gian của hai vùng R
i
của ảnh A và R
j
của ảnh B,
được tính bằng khoảng cách Euclide giữa các tâm của hai vùng được chỉ ra như công thức:
22
))()((())()(()(
jijijis
RYRYRXRXRRDR

(2.2)
Ở đây, X(R
i
) và Y(R
j
) là các tọa độ x và y của các tâm của các vùng.
Khoảng cách giữa hai vùng về mặt nội dung (màu và cỡ) được tính toán theo công
thức:
n
k
n
k
jkik
n
k
jkik
RHRH
RHRH
RRDR
0 0
0
)()(
)()(
),(
(2.3)
Ở đây H(R
i
) và H(R
j
) là các lược đồ màu gồm n bin của các vùng R

i
của ảnh A và R
j

của ảnh B.
Định nghĩa 1: Sự tương tự giữa hai vùng R
i
của ảnh A và R
j
của ảnh B được xác định
như công thức:
)),(),((1),(
jisjicji
RRDRRRDRRRs
(2.4)
Ở đây DR
c
là khoảng cách giữa nội dung vùng và DR
s
là khoảng cách không gian
giữa hai vùng.
2.4 Trọng số vùng và so sánh ảnh
2.4.1 Trọng số vùng
Thuật toán được thiết kế dựa trên thông tin phản hồi của người dùng để cập nhật
trọng số vùng của ảnh tích cực, vùng nào có trọng số cao vùng đó xuất hiện nhiều lần trong
ảnh truy vấn và các ảnh tích cực.
Một số khái niệm được sử dụng để trình bày trọng số của vùng cần được giới thiệu.
Định nghĩa 2: Sự tương tự giữa một vùng R và một ảnh A được biểu diễn bởi các
vùng {R
1

, R
2
,…, R
n
} là:
n
i
k
RRsARs
1
),(),(
(2.5)
Định nghĩa 3: Sự tương tự giữa một vùng R và một tập ảnh IS gồm các ảnh {A
1
,
A
2
,…,A
n
} là:
n
k
k
ARsISRs
1
),(),(
(2.6)
Trọng số vùng được xác định như sau:
Định nghĩa 4: Trọng số của vùng R
i

sau k lần lặp là:
n
j
jj
ii
i
kISRsRP
kISRsRP
kRW
1
))(,(.
))(,(.
)(
(2.7)
Ở đây:
n
j
jj
i
i
kISRsRP
kISRs
RP
1
))(,(.
))(,(
1
(2.8)
Định nghĩa 5: Trọng số tích lũy của vùng R
i

sau m lần cập nhật là:
m
RWmCRW
mCRW
ii
i
)1(
)(
(2.9)
Thuật toán WIR (Weight of Image Region), tính trọng số của các vùng cho lần truy
vấn thứ m với bước lặp k.
Thuật toán WIR
Đầu vào: QI - ảnh truy vấn đã được phân vùng
k- bước lấy thông tin phản hồi
CRW
i
(m-1) – trọng số tích lũy
IS
+
(k) – tập ảnh tích cực ở bước k đã được phân vùng
IS
-
(k) – tập ảnh tiêu cực ở bước k được phân vùng
Đầu ra: RW(k) – danh sách trọng số các vùng của các ảnh ứng
với ảnh I tại bước k
1. Khởi tạo
1.1 sp
-



0;
1.2 sp
+


0;
2. Tính trọng số vùng
2.1 If(k=0)
2.1.1 RW
i
(k)

CRW
i
(m-1);
2.2 else
2.2.1 For mỗi ảnh A IS
+
(k) do
2.2.1.1 For i=1 to CountRegion(A) do
2.2.1.1.1 For j=1 to CountRegion(A) do
sp
-


sp
-
+ RP
j
.s(R

j
, IS
-
(k))
sp
+


sp
+
+ RP
j
.s(R
j
, IS
+
(k))
2.2.1.1.2 RP
i


1-
sp
kISRs
i
))(,(

2.2.1.1.3 RW
i
(k)



sp
kISRsRP
ii
))(,(.

3. Return RW(k)
Thuật toán cũng sử dụng hàm CountRegion() cho số vùng của một ảnh.
Thuật toán CWIR (Cumulate Weighting of Image Region), tính trọng số của
vùng với Count(QIS) lần truy vấn:
Thuật toán CWIR
Đầu vào: QIS – tập ảnh truy vấn đã được phân vùng
IS
+
(k) – tập ảnh tích cực với bước k
IS
-
(k) – tập ảnh tiêu cực với bước k
Đầu ra: RW – danh sách trọng số của các ảnh sau Count(QIS)
lần truy vấn
1. Khởi tạo
1.1 k

0;
1.2 m

0;
1.3 CRW
i

(0)

CRW
i
(0);
1.4 RW
i


RW
i
(0);
2. For mỗi ảnh QI QIS do
2.1 m

m+1;
2.2 Repeat
2.2.1
m
RWmCRW
mCRW
ii
i
)1(
)(

2.2.2 RW

WIR (QI, k, CRW
i

(m), IS
+
(k), IS
-
(k), RW(k));
2.2.3 k

k+1;
2.2.4 m

m+1
2.2.5 Readln (Answer);
2.3 Until (Answer = “No”);
2.4 RW
i


RW
i
(k);
2.5 k

0;
3. endFor
4. Return RW
Trong thuật toán cũng sử dụng thuật toán WIR() trả lại danh sách trọng số các vùng
của các ảnh sau Count(QIS) lần truy vấn.
2.4.2 So sánh ảnh
Độ đo tương tự ảnh giữa hai ảnh A và B là độ tương tự giữa hai vùng {RA
1

, RA
2
,…,
RA
n
} và {RB
1
, RB
2
,…, RB
m
} tương ứng và trọng số của đối sánh tương ứng để so sánh hai
ảnh.
Thuật toán CI (Comparing Two Images) so sánh độ tương tự giữa hai ảnh:
Thuật toán CI
Đầu vào: A- Ảnh thứ nhất được biểu diễn bởi {RA
1
, RA
2
,…,RA
n
}
B - Ảnh thứ hai được biểu diễn bởi {RB
1
, RB
2
,…, RB
m
}
RWA

i
– Trọng số của vùng RA
i

RWB
i
– Trọng số của vùng RB
i

Ε – ngưỡng tương tự giữa hai vùng
Đầu ra: SI – độ tương tự của hai ảnh A và B
1. Khởi tạo
1.1 SI

0;
2. Tính độ tương tự giữa các vùng và trọng số của các đối sánh
2.1 for i

1 to n do
2.1.1 for j

1 to m do
2.1.1.1
22
))()(())()((),(
jijijis
RBYRAYRBXRAXRBRADR

2.1.1.2 D
numerator

←0;
2.1.1.3 D
denominator1
←0;
2.1.1.4 D
denominator2
←0;
2.1.1.5 for k

0 to e do
D
numerator


D
numerator
+ abs(H
k
(RA
i
) – H
k
(RB
j
))
D
denominator1


D

denominator1
+ H
k
(RA
i
)
D
denominator2


D
denominator2
+ H
k
(RA
i
)
2.1.1.6
2min1min
),(
atordenoatordeno
numerator
jiC
DD
D
RBRADR

2.1.1.7
)),(),(1(
, jisjiCji

RBRADRRBRADRs

2.1.1.8 if (s
i,j
>ε)
W
i,j


(1-|RWA
i
- RWB
j
|)
2.1.1.9 else
W
i,j

0
3. Tính độ tương tự của hai ảnh
3.1 for I

1 to n do
3.1.1 for j

1 to m do
3.1.1.1 SI

SI + s
i,j

x w
i,j

4. Return SI
Thuật toán SI trả về độ tương tự của hai ảnh A và B.
2.5 Kết luận chương 2
Chương này trình bày phương pháp tra cứu ảnh dựa vào vùng kết hợp với thông tin
mà người dùng quan tâm để nâng cao hiệu năng của hệ thống tra cứu. Kỹ thuật được sử
dụng: phân vùng ảnh, trích rút đặc trưng và so sánh vùng, trọng số vùng và so sánh ảnh.
CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM
3.1 Giới thiệu bài toán
Hiện nay, hàng triệu các ảnh được lưu trữ trong các cơ sở dữ liệu khổng lồ và trên
Internet, để tìm các ảnh quan tâm trong các tập này là vấn đề cực kỳ khó khăn. Các phương
pháp CBIR hiện nay cho phép tra cứu ảnh thông qua tạo các biểu diễn của nội dung ảnh và
nhóm các biểu diễn này dựa trên độ tương tự của chúng. Các phương pháp đó rất khó để có thể
trả về các kết quả thỏa mãn với người dùng, bởi vì độ phức tạp và các biến đổi trong các ảnh
trực quan làm cho việc tra cứu các ảnh thỏa mãn yêu cầu người dùng như mò kim đáy biển.
Từ thực tế Để giải quyết vấn đề này, kỹ thuật học tương tác đã được giới thiệu. Trong
quá trình tra cứu, người dùng tương tác với hệ thống và đánh giá sự liên quan của các ảnh được
tra cứu.
Từ những thực tế trên đặt ra một bài toán tra cứu ảnh như sau: với một ảnh truy vấn
đầu vào ta thu được một tập ảnh đầu ra, người dùng đánh giá và gán nhãn cho ảnh liên
quan là tích cực hay tiêu cực sau đó hệ thống sẽ tính toán và cập nhật lại trọng số của ảnh
và đưa ra kết quả sau phản hồi.
3.2 Thiết kế hệ thống và xây dựng chương trình
3.2.1 Thiết kế hệ thống
Hệ thống tra cứu ảnh CBIR sử dụng RF có 4 khối chính: khối truy vấn, khối tra cứu,
khối gán nhãn và khối học. Đầu tiên, ở khối truy vấn người dùng cung cấp cho hệ thống một
ảnh truy vấn, các đặc trưng của ảnh truy vấn được trích rút. Sau đó, ở khối tra cứu hệ thống
sử dụng độ đo tương tự để so sánh các đặc trưng của ảnh truy vấn với các đặc trưng của các

ảnh cơ sở dữ liệu. Tiếp theo, tập các ảnh kết quả được trả về. Trên tập các ảnh kết quả này,
người dùng đánh giá và gán nhãn cho các ảnh là tích cực hay tiêu cực ở khối gán nhãn. Khối
học, các nhãn vừa được người dùng gán sẽ được sử dụng để cập nhật trọng số của các vùng.
Sử dụng trọng số các vùng vừa được cập nhật, hệ thống hiệu chỉnh tập các ảnh kết quả trả
về. Quá trình này dừng lại khi người dùng thỏa mãn yêu cầu.

Hình 3.1 Sơ đồ hệ thống tra cứu ảnh sử dụng phản hồi liên quan
3.2.2 Xây dựng chương trình
3.2.2.1 Biểu đồ Use case
3.2.2.2 Biểu đồ trình tự và biểu đồ hoạt động
Tác nhân tra cứu ảnh:
Mô tả công việc:
o Người sử dụng chọn ảnh truy vấn và ấn nút tra cứu ảnh.
o Hệ thống sẽ tiến hành tìm kiếm và hiển thị kết quả ra màn hình.
Tác nhân phản hồi ảnh:
Mô tả công việc:
o Người sử dụng cung cấp ảnh tích cực và ảnh tiêu cực từ kết quả hiển thị ở bước
tra cứu ảnh và ấn nút phản hồi.
o Hệ thống sẽ tiến hành tính toán và cập nhật lại các trọng số (bất lợi vùng và đặc
trưng ảnh truy vấn).
o Người sử dụng ấn nút tra cứu để đưa ra kết quả sau lần phản hồi.
Tác nhân upload ảnh:
Mô tả công việc:
o Người sử dụng chọn một file ảnh để upload:
 Hệ thống tiến hành lấy thông tin và trích rút đặc trưng của các vùng ảnh.
 Nếu không có lỗi thì cập nhật vào cơ sở dữ liệu (CSDL), ngược lại thông báo
lỗi.
o Người sử dụng chọn nhiều file ảnh để upload:
 Chọn một thư mục chứa ảnh cần đưa vào CSDL.
 Duyệt từng file ảnh trong thư mục và tiến hành ghi từng file ảnh vào CSDL

tương tự như thêm một file ảnh.
3.2.2.3 Thiết kế cơ sở dữ liệu
3.3 Thực nghiệm
3.3.1 Mô tả chương trình
Chương trình được xây dựng với mục đích tra cứu ảnh dựa trên đặc trưng màu, cỡ và
vị trí không gian. Sử dụng mỗi loại 4 ảnh có trong tập CSDL để so sánh, đánh giá hiệu quả
của hệ thống.
Không gian màu sử dụng trong chương trình là không gian màu RGB, do khuôn dạng
của không gian màu RGB là định dạng phổ biến nhất của ảnh số.
Tập ảnh thử nghiệm
CSDL gồm 1000 ảnh jpeg. CSDL ảnh này là tập con của tập ảnh của GS Wang và
chúng tôi tập hợp từ Internet được sử dụng để đánh giá hiệu năng tra cứu. Các ảnh trong
CSDL có kích cỡ là 128× 85 điểm ảnh hoặc 85×128 điểm ảnh. Các ảnh gồm 256 màu.
CSDL gồm các loại ảnh chính: ngựa, cảnh hoàng hôn, vườn hoa, rừng, phong cảnh, nhà cửa
và các loại ảnh khác.
3.3.2 Một số kết quả
Qua quá trình tìm hiểu và phân tích thiết kế hệ thống như đã trình bày ở trên, cùng
thời gian nghiên cứu tìm hiểu thuật toán em đã xây dựng một hệ thống tra cứu ảnh thử
nghiệm với một tập ảnh cơ sở dữ liệu thử nghiệm như đã trình bày phần trên. Hệ thống thử
nghiệm đã cho một số kết quả khá tốt.
3.3.3 Thực nghiệm thu hồi ảnh bằng thông tin phản hồi
Thử nghiệm hệ thống CBIR với tập ảnh CSDL gồm 1.000 ảnh đa dạng:

Một số kết quả về độ chính xác tra cứu khi hiển thị đếm top 100 ảnh tương tự với ảnh
truy vấn ở lần phản hồi thứ nhất.
Bảng 3.1: Bảng độ chính xác trong top 100 ảnh đầu tiên hiển thị.
STT
Loại ảnh
Số lượng
Độ chính xác

của LU
1
Ngựa
71
56%
2
Cảnh hoàng hôn
85
52%
3
Vườn hoa
121
63%
4
Rừng
130
60%
5
Bầu trời, phong cảnh
356
78%
6
Nhà cửa
115
50%
7
Các loại khác
122
55%


3.3.4 Kết quả đạt được
Chương này đã trình bày mô hình hệ thống tra cứu ảnh sử dụng kỹ thuật máy học. Bên
cạnh đó, phân tích thiết kế hệ thống tra cứu ảnh được mô tả. Hơn nữa, một số kết quả của hệ
thống được mô tả rõ ràng. Qua các kết quả thu được, chúng ta nhận thấy, sử dụng kỹ thuật
máy học vào quá trình tra cứu sẽ cho kết quả gần với nhận thức của con người.
3.4 Kết luận chương 3
Chúng tôi đã phát triển LU, một phương pháp tra cứu ảnh dựa vào vùng sử dụng kỹ
thuật học từ thông tin người dùng. Phương pháp LU có hai ưu điểm: giảm sự ảnh hưởng của
phân đoạn không chính xác và mạnh với các thay đổi ảnh và cho tập ảnh kết quả gần với
nhận thức của con người.

KẾT LUẬN
Bản luận văn đã trình bày phương pháp tra cứu ảnh sử dụng thông tin phản hồi từ
người dùng, phương pháp này cho kết quả gần với mong muốn của người dùng và hiệu quả.
Các kết quả đạt được trong luận văn:
Nghiên cứu tổng quan về phản hồi liên quan trong tra cứu thông tin và tra cứu ảnh.
Nghiên cứu tổng quan về tra cứu ảnh dựa vào nội dung.
Ứng dụng kỹ thuật phân cụm vào quá trình phân đoạn ảnh.
Xây dựng giao diện tra cứu ảnh có sử dụng phản hồi liên quan.
Thực nghiệm trên tập cơ sở dữ liệu gồm 1000 ảnh và cho kết quả khá hiệu quả.

KIẾN NGHỊ VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO
- Thử nghiệm trên tập ảnh có kích cỡ lớn và đa dạng chủ đề hơn.
- Cải tiến kỹ thuật học để nâng cao chất lượng của phương pháp.
- Từng bước đưa vào ứng dụng thực tế.















×