Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoàng cách

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.13 MB, 133 trang )

BỘ

GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT
NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

ĐÀO THỊ THÚY QUỲNH

NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH
DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT
ĐIỀU CHỈNH TRỌNG SỐ HÀM KHOẢNG CÁCH

LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN

HÀ NỘI – 2019

BỘ

GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

ĐÀO THỊ THÚY QUỲNH

NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH
DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT
ĐIỀU CHỈNH TRỌNG SỐ HÀM KHOẢNG CÁCH

LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN
Chuyên ngành: Khoa học máy tính Mã số: 62 48
01 01

Ngƣời hƣớng dẫn khoa học:
1.

PGS.TS. Ngô Quốc Tạo

2.

PGS.TS. Nguyễn Hữu Quỳnh

Hà Nội – 2019

LỜI CAM ĐOAN
Tôi xin cam đoan luận án “Nâng cao độ chính xác tra cứu ảnh dựa vào nội
dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách” là công trình
nghiên cứu của riêng tôi. Các số liệu, kết quả được trình bày trong luận án hoàn
toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào
khác.
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên
quan trong nước và quốc tế. Ngoại trừ các tài liệu tham khảo này, luận án hoàn

toàn là công việc của riêng tôi.
Trong các công trình khoa học được công bố trong luận án, tôi đã thể hiện
rõ ràng và chính xác đóng góp của các đồng tác giả và những gì do tôi đã đóng
góp.
Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tại
phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin, Viện Hàn
lâm Khoa học và Công nghệ Việt Nam.

Tác giả luận án

NCS. Đào Thị Thúy Quỳnh

i

LỜI CẢM ƠN
Luận án Tiến sĩ ―Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung
sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách‖ được hoàn thiện bằng
sự cố gắng của bản thân và sự giúp đỡ của Thầy hướng dẫn khoa học, Ban lãnh đạo
Học viện Khoa học và Công nghệ Việt Nam, Ban lãnh đạo Khoa Toán-Tin, trường
Đại học Khoa học - Đại học Thái Nguyên, Ban lãnh đạo Khoa Công nghệ thông tin
1, Học viện Công nghệ Bưu chính Viễn thông, các chuyên gia và các nhà khoa học,
đồng nghiệp, bạn bè và những người thân trong gia đình.

Trước tiên, nghiên cứu sinh xin được bày tỏ lòng biết ơn chân thành đến
Thầy hướng dẫn khoa học PGS.TS. Ngô Quốc Tạo và PGS.TS. Nguyễn Hữu
Quỳnh. Nghiên cứu sinh đã nhận được những định hướng khoa học, những bài
học quý báu, sự hướng dẫn tận tình và kinh nghiệm nghiên cứu khoa học quý giá
trong nghiên cứu.
Tôi xin chân thành cảm ơn phòng Nhận dạng và Công nghệ tri thức, Viện

Công nghệ thông tin, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học
và Công nghệ Việt Nam đã tạo điều kiện thuận lợi trong suốt quá trình nghiên
cứu và thực hiện luận án.
Tôi xin chân thành cảm ơn Ban giám đốc Học viện Công nghệ Bưu chính
Viễn thông, Ban lãnh đạo Khoa, Bộ môn Khoa học máy tính và các Thầy Cô
Khoa Công nghệ thông tin 1 đã quan tâm giúp đỡ để tôi hoàn thành nhiệm vụ
học tập. Xin chân thành cảm ơn sự quan tâm, động viên và những đóng góp quý
báu của quý đồng nghiệp.
Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn tới mọi thành viên trong gia
đình, sự khuyến khích động viên của gia đình là động lực để tôi hoàn thành luận
án này.

ii

MỤC LỤC
MỞ ĐẦU.............................................................................................................ix
CHƢƠNG 1........................................................................................................ 1
TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG..........................1
1.1. Giới thiệu...................................................................................................... 1
1.1.1. Tra cứu dựa vào văn bản..........................................................................2
1.1.2. Tra cứu ảnh dựa vào nội dung.................................................................2
1.2. Trích rút đặc trƣng trong tra cứu ảnh.......................................................5
1.2.1 Đặc trƣng mầu...........................................................................................5
1.2.2. Đặc trƣng kết cấu..................................................................................... 8
1.2.3. Đặc trƣng hình........................................................................................11
1.2.4. Thông tin không gian..............................................................................13
1.3. Đo khoảng cách..........................................................................................15
1.4. Phân cụm.................................................................................................... 19
1.5. Một số nghiên cứu liên quan về giảm khoảng cách ngữ nghĩa trong tra

cứu ảnh...............................................................................................................20
1.6. Đánh giá hiệu năng.................................................................................... 24
1.7. Kết luận Chƣơng 1 và định hƣớng nghiên cứu..................................... 25
CHƢƠNG 2 PHƢƠNG PHÁP TRA CỨU ẢNH......................................... 27
LIÊN QUAN NGỮ NGHĨA.............................................................................27
2.1. Giới thiệu....................................................................................................27
2.2. Sơ đồ và ý tƣởng phƣơng pháp đề xuất..................................................32
2.3. Phản hồi liên quan với truy vấn đa điểm.................................................36
2.4. Thuật toán tra cứu ảnh đề xuất................................................................38
iii

2.4.1. Phân cụm tập ảnh phản hồi................................................................... 38
2.4.2. Thuật toán đề xuất cho phân cụm gia tăng.......................................... 42
2.4.3. Công thức đề xuất cho tính khoảng cách cải tiến................................ 47
2.4.4. Công thức đề xuất cho tính trọng số ngữ nghĩa của truy vấn............47
2.4.5. Thuật toán đề xuất cho tính độ quan trọng đặc trƣng.......................48
2.4.6. Thuật toán đề xuất cho gộp các danh sách kết quả............................. 50
2.4.7. Thuật toán đề xuất chung cho tra cứu ảnh liên quan ngữ nghĩa.......52
2.5. Đánh giá thực nghiệm................................................................................56
2.5.1. Môi trƣờng thực nghiệm....................................................................... 56
2.5.2. Chiến lƣợc mô phỏng phản hồi liên quan............................................58
2.5.3. Thực hiện truy vấn và đánh giá.............................................................58
2.6. Kết luận Chƣơng 2....................................................................................61
CHƢƠNG 3 PHƢƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG TRỌNG SỐ
THÍCH NGHI................................................................................................... 63
3.1. Giới thiệu....................................................................................................63
3.2. Thuật toán xác định điểm truy vấn tối ƣu và bộ trọng số thích nghi của
hàm khoảng cách cải tiến.................................................................................68
3.3. Đề xuất thuật toán tra cứu ảnh sử dụng bộ trọng số thích nghi............73

3.4. Thử nghiệm và đánh giá kết quả..............................................................75
3.4.1. Môi trƣờng thực nghiệm....................................................................... 75
3.4.2. Các kết quả thực nghiệm và thảo luận................................................. 76
3.5. Kết luận Chƣơng 3....................................................................................83
KẾT LUẬN........................................................................................................84

iv

DANH MỤC HÌNH VẼ
Hình 1.1. Khoảng cách ngữ nghĩa.........................................................................3
Hình 1.2. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung................................. 4
Hình 1.3: Sơ đồ phản hồi liên quan.......................................................................5
Hình 2.1. Hình dạng truy vấn. (a) Dịch chuyển điểm truy vấn. (b) Hình dạng lồi
(đa điểm). (c) Hình dạng lõm (đa điểm)..............................................................29
Hình 2.2. Ba cụm khác nhau (mầu đỏ, mầu vàng và mầu trắng) cho cùng một
chủ đề hoa hồng...................................................................................................30
Hình 2.3: Khoảng cách từ một điểm đến một truy vấn....................................... 31
Hình 2.4: Các điểm dữ liệu trên không gian hai chiều........................................32
Hình 2.5. Cấu trúc phương pháp đề xuất.............................................................33
Hình 2.6. Bốn biểu diễn của cùng một ảnh.........................................................35
Hình 2.7. Không gian đặc trưng ảnh xám........................................................... 36
Hình 2.8. Minh họa tính trọng số ngữ nghĩa từ một ảnh đến 3 truy vấn.............48
Hình 2.9. Mô hình hệ thống................................................................................ 59
Hình 2.10. So sánh độ chính xác.........................................................................61
Hình 3.1: Giao diện điển hình của hệ thống CBIR với phản hồi liên quan.........64
Hình 3.2. Minh họa vùng truy vấn tối ưu ngang bằng nhau. (a) Hình bên trái:
điểm truy vấn thứ nhất. (b) Hình bên phải: điểm truy vấn thứ hai......................64
Hình 3.3. Sơ đồ của tra cứu ảnh sử dụng các trọng số thích nghi.......................66
Hình 3.4. Một hình ellip sinh ra từ các mẫu phản hồi dương..............................71

Hình 3.5. Minh họa đưa danh sách kết quả bao gồm nhiều ảnh......................... 72
không liên quan................................................................................................... 72
Hình 3.6. Minh họa tính toán hàm khoảng cách từ một điểm trong hình ellip
tương ứng với điểm truy vấn tối ưu.....................................................................72
Hình 3.7. So sánh độ chính xác của 5 phương pháp........................................... 79
Hình 3.8. So sánh độ lệch chuẩn của 5 phương pháp..........................................79
Hình 3.9. So sánh độ chính xác trung bình của phương pháp Aweight với tập
thực sự và Aweight sử dụng nhận thức trực quan của sinh viên......................... 80
v

Hình 3.10. So sánh độ chính xác trung bình của phương pháp

Aweight,

Aweight_WLNR, Aweight_WIDF và FGSSH.................................................... 81
Hình 3.11. Thời gian thực hiện tra cứu của phương pháp đề xuất với hai trường
hợp.......................................................................................................................82
Hình B.1. Giao diện frm_Class_Images............................................................100
Hình B.2.Giao diện frm_Type_of_Features......................................................100
Hình B.3. Giao diện frm_Images_Database......................................................101
Hình B.4. Giao diện frm_Upload_Images.........................................................101
Hình B.5. Giao diện frm_Trainning.................................................................. 102
Hình B.6. Giao diện frm_Features.................................................................... 102
Hình B.7. Giao diện bước biến đổi ảnh và tra cứu đa biểu diễn....................... 103
Hình B.8. Giao diện bước gộp và phản hồi lần 1..............................................103
Hình B.9. Giao diện bước phân cụm và tra cứu trên mỗi cụm..........................104
Hình B.10. Giao diện bước gộp kết quả tra cứu phản hồi lần 1........................104
Hình B.11. Giao diện chính của hệ thống......................................................... 105
Hình B.12. Giao diện Load Dataset.................................................................. 105

Hình B.13. Giao diện đưa vào ảnh truy vấn và chọn số lượng ảnh trả về.........106
Hình B.14. Kết quả truy vấn khởi vào và người dùng phản hồi (ảnh có viền mầu
đỏ)......................................................................................................................107
Hình B.15. Thực hiện phân cụm tập ảnh người dùng chọn và hiển thị tập ảnh của
cụm 1.................................................................................................................107
Hình B.16. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ nhất.............108
Hình B.17. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ hai...............108
Hình B.18. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ ba................109

vi

DANH MỤC BẢNG BIỂU
Bảng 2.1: Kết quả phân cụm của ba phương pháp..............................................46
Bảng 2.2. Các loại đặc trưng............................................................................... 57
Bảng 2.3. Bảng kết quả của 3 phương pháp theo số truy vấn trong một lần phản
hồi........................................................................................................................60
Bảng 3.1. Các loại đặc trưng............................................................................... 75
Bảng 3.2. Bảng kết quả trung bình độ chính xác của 5 phương pháp theo số điểm
truy vấn trong ba lần phản hồi.............................................................................78
Bảng A1. Độ chính xác trung bình của 34 loại truy vấn với một lần lặp phản hồi
của phương pháp SRIR đề xuất ở chương 2........................................................94
Bảng A2. Độ chính xác trung bình của 80 loại truy vấn với 3 lần lặp phản hồi
của phương pháp đề xuất ở chương 3................................................................. 96

vii

Dạng viết tắt
ARP

AWEIGHT
CBIR

CLUE
CSDL
EM
FQM
GMM
IF
INC
Phương pháp JF
Precision
Recall
RF
RGB
SRIR
SVM

viii

MỞ ĐẦU
1. Tính cấp thiết của luận án
Cơ sở dữ liệu ảnh ngày càng trở nên phổ biến trong các lĩnh vực ứng dụng
khác nhau như viễn thám, thời trang, phòng chống tội phạm, xuất bản, y học,
kiến trúc,… Sự tiến triển của các kỹ thuật thu, truyền và lưu trữ ảnh đã cho phép
xây dựng các cơ sở dữ liệu ảnh rất lớn. Các nhân tố này đã thúc đẩy sự quan tâm
nghiên cứu các phương pháp khai thác hiệu quả cơ sở dữ liệu ảnh rất lớn này.
Tra cứu ảnh có thể được thực hiện dựa vào các mô tả ngắn của ảnh. Các

ảnh có thể được mô tả bởi một tập các thuộc tính độc lập nội dung (tên file,
khuôn dạng, loại, kích cỡ, tên tác giả, thiết bị thu nhận, ngày tạo và vị trí ổ đĩa)
mà có thể được quản lý thông qua hệ quản trị cơ sở dữ liệu truyền thống. Hạn
chế chính của cách tiếp cận này đó là các truy vấn bị giới hạn vào các thuộc tính
hiện có của tệp ảnh. Một cách tiếp cận thay thế là sử dụng các từ khóa hoặc các
chú thích ảnh. Trong cách tiếp cận này, trước tiên các ảnh được chú thích thủ
công bằng các từ khóa. Sau đó, các ảnh có thể được tra cứu bởi các chú thích
tương ứng của chúng. Cách tiếp cận này ít giới hạn hơn cách tiếp cận trước. Tuy
nhiên, có ba khó khăn chính với cách tiếp cận này, đó là yêu cầu số lượng lớn
các nhân công trong việc phát triển các chú thích, sự khác biệt trong giải thích
nội dung ảnh, và sự không nhất quán của cách gán từ khóa giữa những người
thực hiện chú thích khác nhau. Cách tiếp cận chú thích từ khóa này trở nên
không khả thi khi cỡ của các tập ảnh gia tăng nhanh chóng.
Để khắc phục các khó khăn của cách tiếp cận dựa vào chú thích, một cách
tiếp cận thay thế là tra cứu ảnh dựa vào nội dung đã được đề xuất từ đầu những
năm 1990. Bên cạnh sử dụng các từ khóa được con người gán, các hệ thống tra
cứu ảnh dựa vào nội dung sử dụng nội dung trực quan của các ảnh, như các đặc
trưng mầu sắc, kết cấu, và hình dạng, làm chỉ số ảnh. Điều này làm giảm đáng
kể những khó khăn của cách tiếp cận thuần túy dựa trên chú thích, bởi vì quá
trình trích rút đặc trưng có thể được thực hiện tự động. Kể từ khi ra đời, tra cứu
ảnh dựa vào nội dung đã thu hút sự quan tâm nghiên cứu rất lớn, phạm vi từ
ix

nghiên cứu tới thương mại. Cho đến nay, một số hệ thống nguyên mẫu thực
nghiệm và các sản phẩm thương mại đã được đề xuất và xây dựng như QBIC
[71], MARS [85].
Đến nay, đã có nhiều thuật toán phức tạp được thiết kế để mô tả các đặc
trưng mầu, hình dạng và kết cấu, các thuật toán này không thể mô hình tương
đương các ngữ nghĩa ảnh và có nhiều giới hạn khi giải quyết cơ sở dữ liệu ảnh

nội dung rộng [61]. Các thực nghiệm trên các hệ thống CBIR chỉ ra rằng các nội
dung mức thấp thường thất bại trong mô tả các khái niệm ngữ nghĩa mức cao
của ảnh [111]. Do đó, hiệu năng của tra cứu ảnh dựa vào nội dung vẫn còn xa so
với kỳ vọng của người dùng.
Để khắc phục được hạn chế ở trên, những năm gần đây các hướng nghiên
cứu tập trung đi tìm các phương pháp giảm khoảng cách ngữ nghĩa giữa đặc
trưng mức thấp và khái niệm mức cao. Giảm khoảng cách ngữ nghĩa thường
được thực hiện thông qua phản hồi liên quan. Phản hồi liên quan (RF Relevance Feedback) là một quá trình học trực tuyến mà cố gắng học mục đích
của người dùng trong quá trình tương tác; RF là một công cụ mạnh được sử
dụng trong các hệ thống tra cứu thông tin [74,78]. Mục đích của nó là mang
người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa những gì mà
truy vấn biểu diễn và những gì người dùng nghĩ. Bằng việc tiếp tục học thông
qua tương tác với người dùng, giảm khoảng cách thông qua phản hồi liên quan
đã được chỉ ra là cải tiến độ chính xác đáng kể trong các hệ thống tra cứu ảnh
dựa vào nội dung [58,59,64,80,90,118,119,126].
Tuy nhiên, hầu hết các phương pháp đề cập ở trên đều gặp phải các vấn đề
như sau: (1) yêu cầu người dùng phải cung cấp đồng thời nhiều ảnh truy vấn đa
dạng (các ảnh khác nhau nhưng cùng một chủ đề ), tức là, tăng gánh nặng cho
người dùng. (2) chưa tận dụng được thông tin phản hồi của người dùng vào việc
xác định độ quan trọng ngữ nghĩa của từng truy vấn và độ quan trọng của từng
đặc trưng. (3) sử dụng chung một véc tơ trọng số của hàm khoảng cách cho tất
cả các điểm truy vấn tối ưu mà không xét đến tính chất địa phương của các điểm
x

truy vấn khác nhau (vị trí các điểm truy vấn khác nhau, tính chất dữ liệu của các
điểm lân cận của mỗi điểm truy vấn tương ứng cũng khác nhau). (4) mỗi lần lặp
phản hồi, phương pháp phải phân cụm lại từ đầu tất cả các ảnh. Bốn vấn đề này
dẫn đến hiệu năng của hệ thống tra cứu thấp.
Do đó, việc đề xuất các giải pháp tra cứu ảnh để khắc phục các hạn chế ở

trên là một nhu cầu cấp thiết. Đó cũng là lý do mà luận án chọn đề tài ―Nâng
cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh
trọng số hàm khoảng cách‖. Các phương pháp tra cứu ảnh trong luận án được
giới hạn trong phạm vi tìm các ảnh đa dạng cùng chủ đề với ảnh truy vấn, chẳng
hạn: tìm tất cả các ảnh thuộc chủ đề hoa hồng bao gồm cả ảnh hoa hồng đỏ, hoa
hồng trắng và hoa hồng vàng.
2. Mục tiêu của luận án
Mục tiêu chung của luận án:
Đề xuất được phương pháp tra cứu ảnh nhằm nâng cao độ chính xác tra
cứu.
Mục tiêu cụ thể của luận án:
-

Đề xuất được phương pháp tra cứu các ảnh liên quan ngữ nghĩa nằm rải

rác trong không gian đặc trưng để nâng cao độ chính xác mà không tăng thời
gian thực hiện tra cứu.
-

Tận dụng thông tin phản hồi của người dùng để xác định độ quan trọng

ngữ nghĩa của mỗi truy vấn, độ quan trọng của mỗi đặc trưng nhằm đề xuất
phương pháp tra cứu ảnh hiệu quả.
-

Đề xuất phương pháp khai thác mức độ phản hồi của người dùng, tính

chất địa phương của mỗi vùng chứa điểm truy vấn điều chỉnh để nâng cao độ
chính xác tra cứu.
3. Các đóng góp của luận án

Trong luận án này, tác giả nghiên cứu đề xuất các phương pháp tra cứu
ảnh liên quan ngữ nghĩa gồm: phương pháp SRIR (Semantic–Related Image
xi

Retrieval method) [CT5], phương pháp AWEIGHT (An efficient image
retrieval method using adaptive weights) [CT6]:
-

Phương pháp SRIR giải quyết được các hạn chế: (1) Chỉ sử dụng một

truy vấn để tạo ra kết quả tra cứu khởi tạo gồm các ảnh nằm trong các vùng khác
nhau; (2) Không thực hiện phân cụm lại tập ảnh phản hồi; (3) xác định được độ
quan trọng ngữ nghĩa của từng truy vấn và (4) xác định độ quan trọng theo từng
đặc trưng. Những đóng góp này làm cho độ chính xác được cải tiến đáng kể.
-

Phương pháp AWEIGHT khai thác mức độ phản hồi để xác định các

điểm truy vấn tối ưu. Bên cạnh đó, phương pháp đề xuất cũng khai thác đầy đủ
tính chất địa phương của mỗi điểm truy vấn tối ưu. Ngoài ra, phương pháp trong
chương này tận dụng được nhiều phản hồi từ phía người dùng mà không tăng
tốc độ tính toán.
4.

Bố cục của luận án
Luận án này được bố cục thành ba chương:
Chương 1 giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung.
Chương 2 trình bày phương pháp tra cứu ảnh liên quan ngữ nghĩa được

tác giả để xuất, có tên là SRIR.
Chương 3 trình bày phương pháp tra cứu ảnh sử dụng trọng số thích nghi
được tác giả đề xuất, có tên là AWEIGHT.
Cuối cùng, luận án đưa ra một số kết luận và định hướng nghiên cứu trong
tương lai.

xii

CHƢƠNG 1
TỔNG QUAN VỀ
TRA CỨU ẢNH DỰA VÀO NỘI DUNG
Chương này trình bày tổng quan về tra cứu ảnh dựa vào nội dung bao gồm
các đặc trưng mức thấp của ảnh, cấu trúc hệ thống tra cứu ảnh dựa vào đặc trưng
mức thấp và phân tích một số phương pháp tra cứu ảnh dựa vào đặc trưng mức
thấp. Bên cạnh đó, chương này trình bày một số nghiên cứu giảm khoảng cách
ngữ nghĩa theo cách tiếp cận phản hồi liên quan. Ngoài ra, chương này cũng
phân tích một số kỹ thuật tra cứu ảnh với ngữ nghĩa mức cao. Cuối cùng,
chương này đưa ra một số kết luận và định hướng cho nghiên cứu.
1.1. Giới thiệu
Các dạng nguồn đa phương tiện khác nhau (văn bản, tiếng nói, ảnh, video)
đang tăng lên nhanh chóng, chẳng hạn dữ liệu được trực quan trong các điện
thoại thông minh, các ứng dụng 2D/3D, nội dung web,... Thế giới đang chứng
kiến một sự tiến hóa về lượng, sự sẵn có, độ phức tạp, sự đa dạng và sự quan
trọng của các ảnh trong tất cả các lĩnh vực. Do đó, nhu cầu về các dịch vụ ảnh
trở nên quan trọng hơn bao giờ hết. Các ảnh đóng một vai trò quan trọng trong
một phạm vi rộng các ứng dụng và các lĩnh vực như giáo dục, chăm sóc y tế, dự
báo thời tiết, nghiên cứu về tội phạm, quảng cáo, thiết kế nghệ thuật, web,
phương tiện xã hội và giải trí. Tuy nhiên, phương tiện trực quan yêu cầu một
lượng xử lý và lưu trữ đáng kể, cần có các phương pháp hiệu quả cao để đánh

chỉ số, lưu trữ, phân tích và tra cứu thông tin trực quan từ các cơ sở dữ liệu ảnh.
Do đó, tra cứu các ảnh nhanh, chính xác và hiệu quả cho tất cả các loại tập ảnh
trở thành một trong những nhiệm vụ thách thức nhất.

1

1.1.1. Tra cứu dựa vào văn bản
Cách tiếp cận ban đầu cho tra cứu ảnh là dựa vào văn bản, trong đó các
ảnh được đánh chỉ số bằng các từ khóa, chủ đề hoặc mã phân loại. Các từ khóa,
chủ đề hoặc mã phân loại này được sử dụng trong quá trình tra cứu [41]. Tuy
nhiên, với cơ sở dữ liệu ảnh lớn và tăng lên nhanh chóng, các khó khăn phải đối
mặt của cách tiếp cận tra cứu dựa vào văn bản ngày càng trở nên nghiêm trọng
hơn. Bên cạnh đó, quá trình này tốn nhiều nhân lực và thời gian, từ khóa lại
mang tính chủ quan và không duy nhất, những người khác nhau có các nhận
thức khác nhau về cùng một ảnh.
Để khắc phục các vấn đề này, các nội dung của ảnh (gồm mầu, kết cấu và
hình dạng) được trích rút tự động từ bản thân các ảnh đã được sử dụng cho tra
cứu ảnh. Phương pháp này được gọi là tra cứu ảnh dựa vào nội dung (CBIR content-based image retrieval) [69]. CBIR cho phép loại đi các khó khăn của tra
cứu dựa vào văn bản trong các cơ sở dữ liệu ảnh lớn và hệ thống CBIR cung cấp
các kết quả chính xác hơn.
1.1.2. Tra cứu ảnh dựa vào nội dung
Tra cứu ảnh dựa vào nội dung (CBIR) là một ứng dụng của các kỹ thuật
thị giác máy tính đối với bài toán tra cứu ảnh [70]. Mục tiêu của hệ thống CBIR
là sử dụng nội dung trực quan của các ảnh để tìm các ảnh quan tâm từ một cơ sở
dữ liệu ảnh lớn. Tra cứu ảnh dựa vào nội dung có nghĩa là tra cứu sẽ phân tích
nội dung của ảnh thay vì dựa vào các siêu dữ liệu như từ khóa, thẻ và các mô tả
văn bản đi kèm với ảnh. Thuật ngữ nội dung ở đây được hiểu là mầu, hình dạng,
kết cấu hoặc bất cứ một thông tin nào mà có thể lấy ra từ bản thân ảnh.
Trong CBIR, các ảnh có thể được tra cứu thông qua việc sử dụng các đặc

trưng mức thấp (tức là mầu sắc, hình dạng, và kết cấu) hoặc sử dụng các đặc
trưng mức cao hay các đặc trưng ngữ nghĩa. Hình 1.1 chỉ ra khoảng cách ngữ
nghĩa của hai đối tượng ảnh. Như Hình 1.1 cho thấy, véc tơ đặc trưng (hai lược
đồ) của ảnh phía trên và véc tơ đặc trưng của ảnh phía dưới là rất giống nhau.
2

Do đó, nếu chỉ dựa vào đặc trưng mức thấp (véc tơ đặc trưng) thì hệ thống sẽ kết
luận ảnh phía trên và phía dưới là giống nhau. Tuy nhiên, khi ta nhìn vào hai ảnh
này thì lại thấy chúng rất khác nhau (ảnh phía trên là cây trong rừng còn ảnh
phía dưới là một bông hồng). Tra cứu ảnh dựa vào ngữ nghĩa đối sánh một truy
vấn người dùng dựa vào các nội dung nhận thức nào đó hơn là sự tương tự giữa
các đặc trưng.

Hình 1.1. Khoảng cách ngữ nghĩa
Thành phần chính của CBIR là kỹ thuật tra cứu ảnh được sử dụng để lấy
ra các ảnh tương tự nhất đối với ảnh truy vấn mà người dùng đưa vào [101]. Một
hệ thống tra cứu dựa vào nội dung tiêu biểu được chia thành hai pha: trích rút
đặc trưng ngoại tuyến và tra cứu ảnh trực tuyến. Trong pha ngoại tuyến, hệ
thống trích rút tự động các thuộc tính trực quan ở mức thấp (mầu, kết cấu và
hình dạng) hoặc ở mức cao. Trong pha tra cứu ảnh trực tuyến, người dùng có thể
cung cấp một ảnh mẫu cho hệ thống tra cứu để tìm kiếm các ảnh mong muốn.
Hệ thống tra cứu ảnh biểu diễn ảnh mẫu này bởi véc tơ đặc trưng và khoảng
cách (hoặc độ tương tự) giữa các véc tơ đặc trưng của ảnh mẫu và của ảnh trong
cơ sở dữ liệu đặc trưng được tính toán. Cuối cùng hệ thống phân hạng các ảnh
theo thứ tự tăng dần của khoảng cách hay giảm dần của độ tương tự và trả về tập
ảnh kết quả cho người dùng. Nếu không thỏa mãn với kết quả tra cứu, người
dùng có thể cung cấp phản hồi liên quan cho hệ thống tra cứu, hệ thống sẽ học
3

nhu cầu thông tin của người dùng. Kiến trúc của hệ thống tra cứu ảnh dựa vào
nội dung được chỉ ra trên Hình 1.2.
Phản hồi liên quan

Cơ sở dữ liệu
đặc trưng

Tập ảnh

Độ tương tự
Trích rút

Ảnh truy vấn

đặc trưng

Sắp xếp

Véc tơ
đặc trưng

Hình 1.2. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung.
Phản hồi liên quan (RF - Relevance Feedback) là một quá trình trực tuyến
mà cố gắng học mục đích của người dùng trong quá trình tương tác. Phản hồi
liên quan được sử dụng rộng rãi trong các hệ thống tra cứu thông tin [74,78].
Mục đích của nó là mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ
nghĩa giữa những gì mà truy vấn biểu diễn và những gì người dùng nghĩ. Bằng
việc tiếp tục học thông qua tương tác với các người dùng cuối, phản hồi liên
quan đã được chỉ ra là cung cấp cải tiến hiệu năng đáng kể trong các hệ thống tra

cứu ảnh dựa vào nội dung [103,104,119].
Hình 1.3 chỉ ra cơ chế hoạt động của phản hồi liên quan trong tra cứu ảnh
dựa vào nội dung [2,74,104]. Khi có kết quả tra cứu khởi tạo, người dùng chọn
các ảnh liên quan trong danh sách kết quả này để làm các mẫu có nhãn (dương
hay âm). Dựa trên tập mẫu huấn luyện này, một thuật toán máy học được thực
hiện để điều chỉnh các tham số. Dựa trên các tham số vừa được học, tra cứu ảnh
sẽ tiếp tục được thực hiện. Quá trình được lặp lại cho đến khi người dùng thỏa
mãn.

4

Hình 1.3: Sơ đồ phản hồi liên quan.
Con người có thể mô tả và giải thích các nội dung ảnh một cách thích hợp,
bao gồm cấu trúc liên kết toàn bộ và các đối tượng sử dụng các khái niệm ngữ
nghĩa mức cao. Không giống như con người, máy tính xử lý các đặc trưng mức
thấp được trích rút từ các điểm ảnh, do đó nó cung cấp các mô tả của ảnh ít ngữ
nghĩa hơn so với mô tả của con người. Sự khác nhau giữa máy tính và con người
trong việc mô tả cùng một ảnh được gọi là ―khoảng cách ngữ nghĩa‖. Người
dùng tìm kiếm sự tương tự ngữ nghĩa nhưng cơ sở dữ liệu chỉ có thể cung cấp
các ảnh tương tự bởi một xử lý số. Ngoài ra, khoảng cách ngữ nghĩa giữa các
thuộc tính ảnh và các thuộc tính đối tượng giới hạn nhiều hiệu quả tra cứu.
1.2. Trích rút đặc trƣng trong tra cứu ảnh
1.2.1. Đặc trƣng mầu
Đặc trưng mầu là một trong những đặc trưng thị giác rộng nhất do quan
hệ chặt chẽ với các đối tượng ảnh, tiền cảnh và nền. Mầu cũng là một đặc trưng
trực quan mạnh do nó không phụ thuộc vào trạng thái của các nội dung ảnh như
5

hướng, cỡ và góc. Các biểu diễn mầu phổ biến là lược đồ mầu, mô men mầu
[34], tương quan mầu [43] và ma trận đồng hiện mầu [37].
Không gian mầu được phân lớp thành các không gian mầu tuyến tính (tức
RGB, XYZ, CMY, YIQ và YUV) và các không gian mầu phi tuyến [113] (tức
L*a*b, HSV, Nxyz và L*u*v). Không gian mầu RGB là một không gian mầu
cộng tính dựa vào ba mầu chính: đỏ, xanh lá cây và xanh lam. Các mầu khác có
thể được sinh ra bởi sử dụng các mầu chính, chẳng hạn, sử dụng đỏ với xanh
lam tạo ra đỏ tươi, xanh lá cây và xanh lam ta ra mầu lục và sự kết hợp của mầu
đỏ, xanh lá cây và mầu xanh lam ở cường độ tối đa tạo ra mầu trắng. Tuy nhiên,
không gian RGB không hiệu quả trong việc xử lý các ảnh trong thế giới thực, do
đó nó bị tránh trong nhiều thuật toán tra cứu ảnh vì nó thiếu khả năng đo lường
sự tương tự về nhận thức. Hơn nữa, khoảng cách trong không gian RGB có ít
thông tin ngữ nghĩa về mặt nhận thức thị giác của con người.
Theo đó, không gian mầu HSV được sử dụng thay cho không gian mầu
RGB vì các thành phần mầu sắc và độ bão hòa rất gần với nhận thức thị giác của
con người. Mô hình HSV có ba thành phần cấu thành: ―hue‖ đề cập đến mầu
sắc, ―saturation‖ đề cập đến độ sắc nét của mầu và ―value‖ là độ sáng của mầu
sắc.
Một không gian mầu khác, không gian mầu YCbCr được chia thành độ
chói (Y) và sắc độ (Cb, Cr), trong khi Cb và Cr lần lượt biểu thị sự khác biệt
mầu xanh-vàng và đỏ-lục. Không gian mầu L * a * b * cũng được lấy từ không
gian mầu XYZ để đạt được sự đồng nhất về nhận thức. Như trong YCbCr, L * a
* b bao gồm một chiều độ sáng (L) và hai chiều sắc độ (a *, b *) dựa trên quá
trình đối lập mầu.
Lược đồ mầu không có thông tin về sự phân bố không gian của mầu; do
đó, các biểu diễn khác đã được đề xuất như tương quan mầu sắc và sự tương
quan. Các phương pháp này cung cấp thông tin về tương quan không gian của

6

các cặp mầu thay đổi như thế nào đối với khoảng cách trong một ảnh, và chúng
đã cho thấy hiệu quả tra cứu tốt hơn so với lược đồ mầu [43].
Nhiều thuật toán đã được đề xuất và sử dụng trong lĩnh vực CBIR dựa
trên việc sử dụng các mô men mầu. Ý tưởng chính của các mô men mầu là sử
dụng độ lệch chuẩn và giá trị trung bình của các phân phối trong mỗi dải mầu
làm đặc trưng mầu. Điều này được xem là một đặc trưng nhỏ gọn do đó nó
thường được sử dụng như một quá trình tối ưu hóa cùng với các đặc trưng mầu
khác. Các mô men Pseudo-Zernike [10] có các thuộc tính tốt của tính bất biến
quay và trực giao. Hơn nữa, nó đã được xác nhận rằng các mô men PseudoZernike vượt trội hơn so với các mô men Zernike về mặt biểu diễn đặc trưng
[44].

Tác giả D.Xiaoyin [34] đã đề xuất một phương pháp tra cứu ảnh mầu mới

bằng cách sử dụng bất biến mô men mầu. Các mầu đại diện được tính cho từng
ảnh thay vì cố định trong một không gian mầu nhất định, do đó điều này cho
phép biểu diễn đặc trưng chính xác và gọn hơn.
Một phương pháp đã được phát triển là ma trận đồng hiện mầu (CCM)
[105] có tính đến mối quan hệ không gian giữa các kênh mầu. Một ảnh có thể
được coi là một thành phần của ―các cấu trúc cơ bản‖ phù hợp. Các phần tử của
các pixel đó mang các thuộc tính trực quan, tức mầu sắc, và các quan hệ sở hữu,
tức khoảng cách giữa chúng. Do đó, nội dung ảnh có thể được đặc trưng bởi
CCM m-chiều thích hợp trong đó các thuộc tính và mối quan hệ được biểu diễn
bằng các trục ma trận khác nhau. Jhanwar và cộng sự [79] đã sử dụng một
phương pháp, có tên là ma trận đồng hiện mầu (MCM), nó tương tự về mặt khái
niệm với CCM. Ảnh được chia thành các lưới 2 × 2 pixel và mỗi lưới được thay
thế bằng một mầu quét giúp cực tiểu gradient cục bộ trong khi duyệt qua lưới 2
×

2 và tạo thành một ảnh được biến đổi theo motif. Sau đó, ma trận MCM được

xây dựng như một ma trận 3D trong đó mục (i, j, k) chỉ ra xác suất tìm thấy một
mầu (i) ở khoảng cách (k) từ một mục (j) trong ảnh được biến đổi. Guoping [37]
đã đề xuất mã cắt khối (BTC) như một kỹ thuật mã ảnh khác mà được sử dụng
trong CBIR để nén ảnh mầu. Từ luồng nén BTC mà không cần giải mã, hai đặc
7

trưng mô tả nội dung ảnh thu được: ma trận đồng hiện mầu khối (BCCM) và
lược đồ mẫu khối (BPH). Cả BCCM và BPH đã được sử dụng để tính toán các
số đo tương tự của hình ảnh cho các ứng dụng CBIR.
Bộ mô tả mầu trội (DCD) [14] đã được áp dụng rộng rãi trong các ứng
dụng tra cứu ảnh như là một trong những bộ mô tả mầu MPEG-7, nó biểu diễn
thông tin mầu của toàn bộ ảnh bằng một số nhỏ các mầu đại diện. DCD mô tả
các đặc trưng mầu đại diện và các phân bố trong ảnh hoặc các vùng quan tâm
thông qua một khuôn dạng nén, hiệu quả và trực quan. Hong và cộng sự [72] đã
đề xuất một phương pháp dựa trên MPEG-7 DCD của số cố định. Quá trình trích
rút đặc trưng không yêu cầu một giá trị ngưỡng và sử dụng tám mầu trội cố
định. Thuật toán giao lược đồ được sử dụng để đo các đặc trưng và đơn giản hóa
độ phức tạp tính toán tương tự. Zeng và cộng sự [58] đã sử dụng véc tơ gắn kết
mầu mà dựa trên lược đồ khoảng cách. Họ cũng đề xuất một thuật toán véc tơ
gắn kết khoảng cách đa tỉ lệ phù hợp với các vấn đề mà ở đó các hình khác nhau
có cùng mô tả và hiệu năng chống nhiễu của thuật toán tra cứu ảnh thấp dựa trên
DCD.
1.2.2. Đặc trƣng kết cấu
Trong thị giác máy tính, không có định nghĩa chính xác về kết cấu ảnh,
nhưng nó có thể được xác định như tất cả những gì còn lại sau khi xem xét các
mầu và các hình, hoặc như một mô tả của cấu trúc ảnh, tính ngẫu nhiên
(randomness), hột (granulation), đường thẳng (linearity), độ nhám (roughness)
và tính đồng nhất (homogeneity). Kết cấu ảnh là một đặc trưng ảnh quan trọng

để mô tả các thuộc tính bề mặt của một đối tượng và mối quan hệ của nó với các
vùng xung quanh [80]. Do các đặc trưng kết cấu được xuất hiện trong nhiều ảnh
thực, chúng rất quan trọng và có lợi ích trong các nhiệm vụ tra cứu ảnh và nhận
dạng mẫu. Tuy nhiên, độ phức tạp tính toán và độ chính xác tra cứu là những
nhược điểm chính của các hệ thống tra cứu ảnh dựa vào kết cấu.

8

Nhiều phương pháp tra cứu ảnh dựa vào kết cấu đã được đề xuất và được
cải tiến trong ngữ cảnh CBIR. Một số thuật toán được sử dụng phổ biến như mô
tả kết cấu là lọc Gabor, biến đổi Wavelet, ma trận đồng hiện mức xám [95],
trường ngẫu nhiên Markov [38], mô tả lược đồ cạnh [35], phân rã tháp [ 31], và
các đặc trưng Tamura [45].
Lọc Gabor là tập hợp các wavelet và mỗi wavelet thu năng lượng ở một
tần số và hướng cụ thể. Các biển đổi Gabor wavelet có các thuộc tính đa hướng
và đa độ phân giải và điều này là tối ưu để đo các tần suất không gian cục bộ
[123].

Mở rộng một tín hiệu sử dụng cơ sở này cung cấp một mô tả tần suất cục

bộ và thu được các đặc trưng cục bộ/ các năng lượng của tín hiệu. Lianping và
cộng sự [67] đã thảo luận các ảnh hưởng của việc sử dụng một số tham số Gabor
(tức là số các mức/ các hướng và kích thước mặt nạ lọc) trên tra cứu ảnh dựa vào
kết cấu.
Nhiều kỹ thuật trích rút đặc trưng dựa vào biến đổi cũng được áp dụng,
bao gồm biến đổi wavelet rời rạc, biến đổi cosine rời rạc, biến đổi Walsh, biến
đổi Fourier và các mô men 2D. DWT là một trong các biến đổi phổ biến được áp
dụng vào xử lý ảnh và các ứng dụng tra cứu. Nó được sử dụng để trích rút các
đặc trưng mức thấp do ưu việt của nó trong phân tích đa phân giải và tần suất

không gian. Nhiều nghiên cứu gần đây trong CBIR sử dụng các thuật toán này
hoặc bởi sử dụng một mô tả hoặc kết hợp nhiều thuật toán để tạo ra một mô tả
mạnh cho kết cấu ảnh.
Xingyuan và Zongyu [120] đã đề xuất một mô tả thành phần cấu trúc để
trích rút và mô tả mầu và kết cấu ảnh. Các thành phần cấu trúc được xác định
bởi năm thành phần cấu trúc chỉ ra năm hướng tương ứng. Lược đồ thành phần
cấu trúc được tính toán bởi mô tả thành phần cấu trúc và ứng dụng không gian
mầu HSV mà được lượng hóa thành 72 bin. Lược đồ thành phần cấu trúc kết
hợp các ưu điểm của cả hai phương pháp mô tả kết cấu thống kê và cấu trúc, và
nó có thể biểu diễn tương quan không gian của mầu và kết cấu.

9

Liu và cộng sự [40] đã phát triển một cách tiếp cận tra cứu ảnh mới, có
tên bộ mô tả cấu trúc nhỏ. Các cấu trúc nhỏ (micro-structures) được xác định bởi
độ tương tự hướng cạnh với các mầu cơ bản mà có thể biểu diễn hiệu quả các
đặc trưng ảnh. Các mầu cơ bản là các mầu với hướng cạnh tương tự mà có thể
bắt chước nhận thức mầu của con người. Với một cầu nối của các cấu trúc nhỏ,
mô tả cấu trúc nhỏ có thể trích rút và mô tả các đặc trưng hình, mầu và kết cấu
một cách đồng thời. Bộ mô tả cấu trúc nhỏ tích hợp các ưu điểm của cả các cách
tiếp cận mô tả kết cấu thống kê và cấu trúc. Hơn nữa, thuật toán này mô phỏng
cơ chế của nhận thức trực quan của con người ở một mức độ nhất định nào đó.
Thuật toán mô tả cấu trúc nhỏ có hiệu năng đánh chỉ số và hiệu quả cao cho tra
cứu ảnh, nhưng với chiều thấp hơn của chỉ 72 bin cho các ảnh mầu đầy đủ.
Một cách tiếp cận được đề xuất bởi Chatzichristofis và cộng sự [100], có
tên lược đồ kết cấu và mầu mờ mà được tạo ra bởi tích hợp của ba hệ thống mờ.
Cỡ lược đồ kết cấu và mầu mờ được giới hạn với chỉ 72 byte trên một ảnh, vì thế
nó là phù hợp cho các cơ sở dữ liệu ảnh cỡ lớn. Đặc trưng đề xuất là thích hợp
cho tra cứu ảnh ngay cả trong các trường hợp như nhiễu, biến dạng và trơn.

Kwitt và cộng sự [96] đã giới thiệu một cách tiếp cận tra cứu kết cấu xác
suất. Nó được dựa trên biểu diễn ảnh trong miền wavelet phức tạp và một số mô
hình thống kê cho độ lớn của các hệ số biến đổi phức tạp. Ngoài ra, cách tiếp
cận này bao gồm các biểu thức dạng đóng cho phân kỳ KL giữa các mô hình
thống kê được đề xuất mà cho phép đo độ tương tự phức tạp hằng số.
Khuôn khổ của tra cứu ảnh kết cấu như một họ mới của mô hình đa biến
ngẫu nhiên được đề xuất mà dựa trên các phân rã wavelet và Gaussian copula.
Họ đã sử dụng lược đồ copula để phân tách một cấu trúc phụ thuộc từ một hành
vi

lề và đưa ra hai mô hình đa biến sử dụng mật độ Gaussian và Weibull tổng

quát. Những mô hình này thu cả các phân phối lề băng con và mối tương quan
giữa các hệ số wavelet. Ngoài ra, họ đã thu được, như một độ đo tương tự, một
biểu thức dạng đóng của phân kỳ Jeffrey giữa các mô hình đa biến dựa trên
copula Gaussian.
10

Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoàng cách

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về