Tải bản đầy đủ (.pdf) (4 trang)

Học độ đo tương tự với ứng dụng tra cứu ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (289.63 KB, 4 trang )

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

HỌC ĐỘ ĐO TƯƠNG TỰ VỚI ỨNG DỤNG TRA CỨU ẢNH
1

Ngô Trường Giang1, Nguyễn Hữu Đức1
Khoa Công nghệ Thông tin, Trường đại học Thủy lợi, email:

này là số lượng mẫu được người dùng gán
nhãn thường rất ít, điều này ảnh hưởng độ
chính xác của bộ phân lớp. Các phương pháp
tiếp cận theo học truyền dẫn khắc phục vấn đề
này bằng cách khai thác cả dữ liệu được gán
nhãn và khơng được gán nhãn [1]. Những
cách tiếp cận đó thường dựa trên học đa tạp
để lan truyền điểm số xếp hạng hoặc định
nghĩa mơ hình lan truyền sử dụng dữ liệu
chưa được gán nhãn để đo độ liên quan giữa
ảnh truy vấn với các ảnh trong cơ sở dữ liệu.
Một phương pháp điển hình theo tiếp cận này
được đề xuất bởi Rota [5]. Tác giả đề xuất sử
dụng bước ngẫu nhiên được dùng trong ngữ
cảnh phân đoạn ảnh để áp dụng vào tra cứu
ảnh. Những ảnh liên quan và không liên quan
được gán nhãn bởi người sử dụng tại mỗi
vòng phản hồi sẽ được sử dụng như là những
"hạt giống" cho bước ngẫu nhiên. Xác suất
để bước ngẫu nhiên bắt đầu từ một ảnh đi tới
ảnh có liên quan trước khi gặp phải ảnh
không liên quan sẽ được sử dụng để xếp
hạng các ảnh chưa được gán nhãn trong cơ


sở dữ liệu. Do bước ngẫu nhiên với các ràng
buộc được sử dụng ở đây vẫn là phương
pháp chính quy, nên phương pháp này vẫn có
những hạn chế xuất phát từ chính những hạn
chế của bước ngẫu nhiên.
Bài báo này trình bày một giải pháp nhằm
thu hẹp khoảng cách ngữ nghĩa trong CBIR
bằng việc học độ đo tương tự từ thông tin
phản hồi của người dùng dựa trên kỹ thuật lan
truyền nhãn trên đồ thị. Giải pháp đề xuất gần
với ý tưởng trong [5] đó là chuyển bài tốn
phản hồi liên quan về bài tốn đồ thị, nhưng
thay vì chỉ tập trung vào sự khác biệt bên
trong các nhãn, giải pháp tiếp cận giải quyết
bài tốn theo hướng tìm mơ hình lan truyền

1. GIỚI THIỆU

Trong tra cứu ảnh dựa trên nội dung
(Content Based Image Retrieval - CBIR), trở
ngại lớn nhất đó là khoảng cách ngữ nghĩa
giữa các đặc trưng mức thấp và các khái
niệm mức cao. Những ảnh có đặc trưng
giống nhau nhưng khái niệm ngữ nghĩa rất
khác nhau và ngược lại [4]. Để hạn chế trở
ngại này, phản hồi liên quan (Relevance
Feedback - RF) được sử dụng để cải thiện
hiệu năng của hệ thống CBIR. Nói chung,
RF nhằm mục đích cải thiện hiệu năng tra
cứu thơng qua việc học những điều chỉnh của

người dùng dựa trên những kết quả tra cứu.
Theo cách này, hệ thống cần phải thực hiện
thông qua một số vòng lặp. Trong mỗi vòng
lặp, hệ thống sẽ trả lại một danh sách ngắn
các ảnh tương tự nhất với ảnh truy vấn dựa
trên khoảng cách Euclidean. Sau đó, các ảnh
này sẽ được đưa cho người sử dụng gán nhãn
liên quan hoặc không liên quan với ảnh truy
vấn. Sử dụng những ảnh đã được gán nhãn
này làm dữ liệu huấn luyện, những kỹ thuật
học máy sẽ được áp dụng để phân lớp tất cả
các ảnh trong cơ sở dữ liệu thành hai lớp liên
quan và không liên quan với ảnh truy vấn.
Hàm phân lớp sau đó được sử dụng như hàm
xếp hạng để đo độ liên quan của ảnh trong cơ
sở dữ liệu và xếp hạng chúng theo thứ tự liên
quan với ảnh truy vấn [3,4,5].
Có hai hướng tiếp cận dựa trên phản hồi
liên quan cho CBIR: Quy nạp và truyền
dẫn[4]. Các phương pháp tiếp cận quy nạp sử
dụng một bộ phân lớp được huấn luyện theo
cách có giám sát để phân biệt giữa các ảnh có
liên quan và không liên quan, và xếp hạng
các ảnh dựa trên mức độ liên quan của
chúng. Hạn chế chính của các phương pháp
87


Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8


ở đây z là hằng số chuẩn hóa. Likelihood
của mỗi ảnh được định nghĩa bởi phân bố hỗn
hợp p  xi xmy , yk  từ mỗi ảnh phản hồi xmy với

cho mỗi nhãn trên đồ thị. Mỗi ảnh trong cơ sở
dữ liệu được xem như một đỉnh của đồ thị và
trọng số cạnh là độ tương tự giữa hai ảnh. Sau
mỗi vòng lặp phản hồi, các ảnh được người
dùng gán nhãn sẽ được xem như các đỉnh
khởi động của bước ngẫu nhiên trên đồ thị.
Xác suất trạng thái ổn định của bước ngẫu
nhiên sẽ được tính tốn, sau đó sẽ được sử
dụng để ước lượng likelihood của mỗi đỉnh.
Ước lượng này sau đó được sử dụng để xếp
hạng các ảnh liên quan tới ảnh truy vấn.

k

một



theo (2) và cuối cùng thu được xác suất hậu
nghiệm p  yk xi  theo (1) của mỗi đỉnh biểu
diễn ảnh chưa được gán nhãn có liên quan
đến khái niệm truy vấn. Xác suất hậu nghiệm
sau đó được xem như là độ tương tự giữa các
ảnh chưa được gán nhãn với ảnh truy vấn.
3. KẾT QUẢ NGHIÊN CỨU


3.1. Trích chọn đặc trưng

(1)

n 1

n

Giả sử X y   x1y , x2y ,..., xMy  ( X y  X ) là
k

k

k

k

k

k

một tập M k ảnh được người dùng gán với
nhãn yk . Khi đó likelihood p  xi yk  có thể
thu được bởi:
p  xi yk  


1
z *Mk






1 Mk
 p xi xmyk , yk p xmyk yk
z i 1

 px
Mk

m 1

i

xmyk , yk



bố

Bước 3: Ước lượng likelihood p  xi yk 

hậu nghiệm có thể được tính tốn bởi:

n

Phân

k


phát biểu riêng biết theo xác suất tiên nghiệm
nhãn p  yk  và likelihood p  xi yk  . Xác suất

 px y  p y 



k

nhãn, với xi  X   x1 , x2 ..., xL U  biểu diễn
một ảnh bởi vec tơ d chiều. Bài toán phản
hồi liên quan của hệ thống CBIR có thể phát
biểu dưới dạng bài toán lan truyền nhãn trên
đồ thị, trong đó mỗi ảnh xi  X là một đỉnh
của đồ thị và được gán một nhãn
yk  Y   y1 , y2 ..., yK  . Từ quan điểm của lý
thuyết quyết định, một khi biết được xác suất
hậu nghiệm p  yk xi  , có thể dễ dàng gán cho
xi một nhãn phù hợp.
Trong tiếp cận lan truyền, mơ hình phân
bố liên hợp p  yk xi  giữa ảnh và nhãn có thể

p  xi yk  p  yk 

yk
m

k


L

K



p xmyk , yk .

ảnh xi và ảnh phản hồi xmy từ người dùng. Xác
suất trạng thái ổn định của bước ngẫu nhiên sẽ
được sử dụng để mơ hình hóa phân bố này.
Giải pháp có thể mơ tả tóm tắt như sau:
Bước 1: Xây dựng đồ thị trọng số với các
đỉnh là các ảnh trong cơ sở dữ liệu.
Bước 2: Tính tốn xác suất trạng thái ổn
định của bước ngẫu nhiên khởi động tại một
đỉnh được gán nhãn bởi người dùng xmy và
quay trở lại đỉnh xi trong đồ thị này. Xác
suất trạng thái ổn định được dùng để định
nghĩa. phân bố hỗn hợp p  xi xmy , yk  .

Kí hiệu  x1y ,..., xLy  là các ảnh đã được gán
nhãn bởi thông tin phản hồi từ người dùng,
và  xL 1 ,..., xL U  là những ảnh chưa được gán

p  yk xi  



bố


p xi x , yk cho biết độ liên quan giữa một

2. PHƯƠNG PHÁP NGHIÊN CỨU
1

phân

k


(2)
88

Nghiên cứu được thử nghiệm trên tập dữ
liệu ảnh Wang[2] bao gồm 1000 ảnh được
chia thành 10 lớp, mỗi lớp gồm 100 ảnh
liên quan. Đây là một trong số tập dữ liệu
được sử dụng rộng rãi cho đánh giá các hệ
thống tra cứu ảnh. Trong thử nghiệm, ba
kiểu đặc trưng là màu, kết cấu và hình dạng
sẽ được sử dụng. Đặc trưng màu được biểu
diễn bởi vecto 9 chiều mô tả momen màu;
Đặc trưng kết cấu được biểu diễn bởi một
vecto đặc trưng 9 chiều; Đặc trưng hình
dạng sử dụng biểu đồ hướng cạnh được
biểu diễn bởi vecto đặc trưng 18 chiều. Tất
cả các đặc trưng này được kết hợp thành
một vecto đặc trưng 36 chiều và được
chuẩn hóa về dạng phân phối chuẩn.



Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

của giải pháp là chuyển bài toán phản hồi
liên quan về bài tốn đồ thị, nhưng thay vì
chỉ tập trung vào sự khác biệt bên trong các
nhãn, giải pháp tiếp cận giải quyết bài tốn
theo hướng tìm mơ hình lan truyền cho mỗi
nhãn trên đồ thị để ước lượng khả năng được
gán nhãn cho mỗi đỉnh. Ước lượng này sẽ
được xem như là độ tương tự của các ảnh
chưa được gán nhãn so với ảnh truy vấn.
Thực nghiệm được thực hiện trên tập dữ liệu
Wang đã chỉ ra tính hiệu quả của giải pháp.

3.2. Đánh giá hiệu năng
Trong thí nghiệm, 50 ảnh truy vấn được
chọn ngẫu nhiên từ các lớp của cơ sở dữ liệu,
mỗi lớp 5 ảnh. Với mỗi truy vấn, bốn vòng
lặp phản hồi sẽ được thực hiện. Tại mỗi vòng
phản hồi, những điều chỉnh của người dùng
về sự liên quan được mô phỏng một cách tự
động. Hai mươi ảnh kết quả tra cứu đầu tiên
được tự động gán nhãn liên quan hoặc không
liên quan dựa vào thông tin lớp. Các ảnh
trong cùng một lớp được xem là liên quan và
số cịn lại được xem là khơng liên quan. Tất
cả các ảnh được gán nhãn trong vòng lặp
phản hồi sẽ được sử dụng để cập nhật

likelihood và xác suất hậu nghiệm, dùng để
làm độ đo tương tự dùng để xếp hạng ảnh.
Trong nghiên cứu này, độ đo Average
Precision được định nghĩa bởi NISTTREC
video sẽ được sử dụng để đánh giá hiệu năng
của giải pháp. Bảng 1 chỉ ra sự biến thiên của
giá trị AP theo số vòng lặp phản hồi với số
lượng ảnh trả về khác nhau 20, 40, 60, 80, và
100 của giải pháp đề xuất trong 4 vịng phản
hồi tương ứng. (Hình 1) biểu diễn kết quả
sau 4 vòng phản hồi trong phạm vi 20 ảnh trả
về giữa hai phương pháp. Ở đây, giá trị AP
thu được tại vòng lặp phản hồi RF0 cho biết
giá trị AP được tính tốn tại kết quả tra cứu
đầu tiên của mỗi truy vấn trước khi quá trình
phản hồi liên quan hoạt động. Sau vòng lặp
đầu tiên, so với những kết quả tra cứu mà
khơng có phản hồi liên quan, hiệu năng của
giải pháp đã được cải thiện đáng kể, và giải
pháp đề xuất cho kết quả tốt hơn, đặc biệt
trong các vịng phản hồi sớm.

Hình 1. So sánh kết quả trả về sau các vòng
phản hồi liên quan, giữa hai giải pháp.
5. TÀI LIỆU THAM KHẢO
[1] Belahyane I., Mammass M., Abioui H.,
Idarrou A. (2020) Graph-Based Image
Retrieval: State of the Art. In: Image and
Signal Processing. ICISP 2020.
[2] James Z. Wang, Jia Li, Gio Wiederhold.

(2001). SIMPLIcity: Semantics-sensitive
Integrated Matching for Picture Libraries.
IEEE Trans. on Pattern Analysis and
Machine Intelligence.
[3] Kundu, Malay & Chowdhury, Manish &
Rota Bulo, Samuel. (2015). A Graph-Based
Relevance Feedback Mechanism in
Content-Based
Image
Retrieval.
Knowledge-Based Systems.
[4] Li J., Allinson N.M. (2013). Relevance
Feedback
in
Content-Based
Image
Retrieval: A Survey, Handbook on Neural
Information Processing. Intelligent Systems
Reference Library. Springer.
[5] S. Rota Bu, M. Rabbi, and M. Pelillo.
(2011). Contentbased image retrieval with
relevance feedback using random walks.
Pattern Recognition.

Bảng 1. Giá trị AP cho các vịng phản hồi
RF0
RF1
RF2
RF3
RF4


20
0.52
0.75
0.80
0.85
0.88

40
0.40
0.60
0.66
0.70
0.75

60
0.30
0.35
0.50
0.55
0.61

80
0.22
0.27
0.44
0.46
0.55

100

0.19
0.23
0.38
0.43
0.51

4. KẾT LUẬN

Bài báo trình bày giải pháp áp dụng mơ
hình học lan truyền trên đồ thị để học độ đo
tương tự cho ứng dụng tra cứu ảnh. Ý tưởng
89


Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

90



×