Tải bản đầy đủ (.pdf) (61 trang)

Nghiên cứu phương pháp tra cứu ảnh nhanh sử dụng phân cụm phổ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.69 MB, 61 trang )

i

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN THỊ THANH THỦY

NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH NHANH
SỬ DỤNG PHÂN CỤM PHỔ

Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS. NGUYỄN HỮU QUỲNH

THÁI NGUYÊN, 2018


ii

LỜI CAM ĐOAN
Tôi Nguyễn Thị Thanh Thủy cam đoan những nội dung trình bày trong
luận văn này là kết quả tìm hiểu, nghiên cứu của bản thân dưới sự hướng dẫn
của PGS.TS Nguyễn Hữu Quỳnh và các nhà nghiên cứu đi trước. Nội dung
tham khảo, kế thừa, phát triển từ các công trình đã được công bố trích dẫn,
ghi rõ nguồn gốc. Kết quả mô phỏng, thí nghiệm được lấy từ chương trình của
bản thân.
Nếu có gì sai phạm tôi xin hoàn toàn chịu mọi trách nhiệm.
Người cam đoan



Nguyễn Thị Thanh Thủy

LỜI CẢM ƠN


iii

Trong quá trình thực hiện luận văn mặc dù gặp rất nhiều khó khăn,
nhưng tôi luôn nhận được sự quan tâm, giúp đỡ từ thầy cô, bạn bè, đồng nghiệp
và người thân. Đây là nguồn động lực giúp tôi hoàn thành luận văn này.
Tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS Nguyễn Hữu Quỳnh, đã tận
tình giúp đỡ, hướng dẫn chỉ bảo trong quá trình thực hiện luận văn.
Tôi xin chân thành cảm ơn đến quý thầy, cô trường Đại học CNTT&TT
– Đại học Thái Nguyên đã tận tình chỉ bảo, truyền đạt những kiến thức quý
báu giúp thôi hoàn thành được quá trình học tập tại trường. Quý thầy cô đã
giúp tôi có được những kiến thức quan trọng trong lĩnh vực Công nghệ thông
tin, là nền tảng vững chắc cho những nghiên cứu khoa học của bản thân trong
thời gian qua và sau này.
Tôi xin chân thành cảm ơn các anh chị em đồng nghiệp đã giúp đỡ, ủng
hộ tôi trong thời gian qua.
Tôi xin chân thành cảm ơn!
Thái Nguyên ngày 15 tháng 04 năm 2018
Học viên thực hiện

Nguyễn Thị Thanh Thủy


iv


MỤC LỤC
LỜI CAM ĐOAN .............................................................................................. i
LỜI CẢM ƠN ................................................................................................... ii
MỤC LỤC ........................................................................................................ iv
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .................................. vi
DANH MỤC BẢNG BIỂU ............................................................................ vii
DANH MỤC CÁC HÌNH .............................................................................. viii
MỞ ĐẦU ........................................................................................................... 1
1. Đối tượng và phạm vi nghiên cứu................................................................. 2
3. Những nội dung nghiên cứu chính ................................................................ 3
CHƯƠNG 1. TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG . 4
1.1. Giới thiệu.................................................................................................... 4
1.2. Không gian màu ......................................................................................... 7
1.3. Các ví dụ tìm kiếm tương tự .................................................................... 10
1.4. Đo độ tương tự và các lược đồ đánh chỉ số.............................................. 14
1.4.1. Các độ đo tương tự ......................................................................14
1.4.2. Lược đồ đánh chỉ số .....................................................................15
1.5. Các hệ thống tra cứu ảnh dựa vào nội dung hiện nay .............................. 16
1.5.1. WALRUS ...................................................................................19
1.5.2. Blobworld ..................................................................................20
1.6. Tiểu kết chương 1. ................................................................................... 21
CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH NHANH SỬ DỤNG PHÂN
CỤM PHỔ ....................................................................................................... 23
2.1. Giới thiệu.................................................................................................. 23


v

2.2. Một số thuật toán phân cụm ..................................................................... 23
2.2.1. Thuật toán phân cụm k-means: ......................................................23

2.2.2. Thuật toán k-medoids...................................................................28
2.2.3. Thuật toán phân cụm phổ .............................................................29
2.3. Phương pháp tra cứu nhanh sử dụng phân cụm phổ ................................ 30
2.3.1. Giới thiệu phương pháp ................................................................30
2.3.2. Thuật toán phân cụm cơ sở dữ liệu ảnh ..........................................31
2.3.3. Thuật toán tra cứu ảnh nhanh sử dụng phân cụm phổ .......................40
2.4. Tiểu kết chương 2..................................................................................... 41
CHƯƠNG 3. CHƯƠNG TRÌNH THỬ NGHIỆM ......................................... 42
3.1. Phân tích và xây dựng bài toán ................................................................ 42
3.2. Môi trường thực nghiệm .......................................................................... 43
3.2.1. Cơ sở dữ liệu ảnh.........................................................................44
3.2.2. Vector đặc trưng ..........................................................................45
3.2.3. Tập tin cậy nền (ground truth): ......................................................46
3.2.4. Cấu hình đề xuất thiết bị chạy thực nghiệm.....................................46
3.2.5. Kết quả đánh giá..........................................................................46
3.3. Giao diện hệ thống ................................................................................... 48
3.4. Tiểu kết chương 3..................................................................................... 50
KẾT LUẬN ..................................................................................................... 51
TÀI LIỆU THAM KHẢO ............................................................................... 51


vi

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Từ viết tắt

Diễn giải

CBIR


Tra cứu ảnh dựa vào nội dung.

FRM

Phương pháp bán kính cố định (Fixed-radius method)

NNM

Phương pháp lân cận gần nhất (Nearest-neighbors method )

SOM

Bản đồ tự tổ chức (Self-Organization Map)

KL

Biến đổi Karhunen-Loeve

PCA

Phân tích thành phần chính (Principal Component Analysis)

KMCC
IR

K-Means với ràng buộc liên thông
Inner Rectangle

EHD


Mô tả lược đồ cạnh

EM

Thuật toán cực đại kỳ vọng (Expectation-Maximization)


vii

DANH MỤC BẢNG BIỂU
Bảng 3.1. Bảng phân bố tập ảnh Corel ........................................................... 44
Bảng 3.2. Các loại đặc trưng ........................................................................... 45
Bảng 3.3. Bảng cấu hình đề xuất thiết bị chạy thực nghiệm. ......................... 46
Bảng 3.4. Bảng kết quả của các phương pháp ................................................ 47


viii

DANH MỤC CÁC HÌNH

Hình 1.1: Khối màu RGB.................................................................................. 8
Hình 1.2: Trụ màu HSV. ................................................................................... 9
Hình 1.3: Trích rút lược đồ màu sử dụng ba màu. .......................................... 11
Hình 2.1: Sơ đồ mô tả thuật toán K-Means .................................................... 24
Hình 2.2: Cấu trúc của phương pháp đề xuất.................................................. 31
Hình 2.3: Thuật toán phân cụm tập ảnh S={s1,s2,…,sn} thành k cụm SCIS ..... 35
Hình 2.4: Đồ thị biểu diễn cơ sở dữ liệu ảnh. ................................................. 35
Hình 2.5: Thuật toán tra cứu ảnh nhanh sử dụng phân cụm phổ .................... 41
Hình 3.1. Mô hình tổng quát của hệ thống...................................................... 43

Hình 3.2: So sánh độ chính xác và thời gian tra cứu ...................................... 47
Hình 3.3: Giao diện pha huấn luyện. .............................................................. 48
Hình 3.4: Giao diện pha tra cứu. ..................................................................... 48
Hình 3.5: Chọn tập dữ liệu ảnh / đặc trưng. .................................................... 49
Hình 3.6: Chọn ảnh truy vấn khởi tạo. ............................................................ 49
Hình 3.7: Kết quả tra cứu với truy vấn khởi tạo 84090 thuộc lớp 840 ........... 50


1

MỞ ĐẦU
Xử lý ảnh là lĩnh vực nghiên cứu đang phát triển không ngừng bởi tính
trực quan sinh động cũng như khả năng áp dụng vào thực tế lớn. Hiện xử lý
ảnh đang giành được nhiều sự quan tâm của các nhà nghiên cứu trong và
ngoài nước. Trong xử lý ảnh, tra cứu ảnh có thể nói là lĩnh vực đòi hỏi sự
nghiên cứu tổng hợp: nghiên cứu xử lý ảnh để rút trích các đặc trưng, áp dụng
các tính toán toán học cao cấp để xác định mức độ tương đồng giữa hai ảnh.
Hơn nữa, cùng với sự phát triển của phần mềm và phần cứng, khối lượng ảnh
phát triển không ngừng và ngày càng lớn. Một số lượng lớn các ảnh đang
được sử dụng ở trong thư viện ảnh số và trên web. Vì vậy nhu cầu tìm kiếm
ảnh là một nhu cầu tất yếu. Hiện tại, tra cứu ảnh ứng dụng trong khá nhiều
lĩnh vực như: quản lý biểu trưng (logo), truy tìm tội phạm, ứng dụng trong y
khoa, quân sự….
Tra cứu ảnh dựa trên nội dung (CBIR-Content-Based Image Retrieval)
là kỹ thuật cho phép trích chọn các đặc điểm dựa vào nội dung trực quan của
ảnh như màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ
sở cho việc tra cứu, sắp xếp, tổ chức CSDL ảnh. Nhiều phương pháp, hệ
thống tra cứu ảnh dựa vào nội đã được phát triển, tuy nhiên, cơ sở dữ liệu ảnh
tăng lên từng ngày dẫn đến chúng ta phải tra cứu trên những cơ sở dữ liệu cực
lớn. Đó cũng chính là lý do mà luận văn chọn đề tài: “Nghiên cứu phương

pháp tra cứu ảnh nhanh sử dụng phân cụm phổ”.
Trong học có giám sát, người học được cung cấp một tập dữ liệu gắn
nhãn D = {(x,y)}, trong đó y là nhãn của x, nhãn này do người giám sát
(người thầy) cung cấp, và nó là giá trị của hàm mục tiêu mà người ta quan sát
được. Trong học không có giám sát, người học chỉ được cung cấp một tập dữ
liệu không có nhãn: aj
D={xi/i=1,...,N}
Trong đó, các điểm dữ liệu xi được lấy mẫu từ không gian các đối tượng
X nào đó. Các thuật toán thuộc phương pháp học không giám sát sẽ dựa vào


2

cấu trúc của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân cụm
hoặc giảm số chiều dữ liệu để thuận tiện cho việc lưu trữ và tính toán.
Có nhiều phương pháp phân cụm khác nhau như K-Means, K-medoids,
HAC… Mỗi phương pháp có những ưu điểm, thế mạnh riêng và có yêu cầu
riêng về cách biểu diễn dữ liệu, độ đo. Đề tài này, tập trung nghiên cứu thuật
toán phân cụm phổ, đây là một thuật toán phân cụm và rút gọn chiều dữ liệu
hiệu quả. Phương pháp phân cụm phổ phân cụm các điểm sử dụng các véc tơ
riêng của ma trận sinh ra bởi dữ liệu. Phân cụm phổ thực hiện hiệu quả trên
dữ liệu có kết nối và dữ liệu không nhất thiết là phải có quan hệ chặt chẽ hoặc
tập trung trong đường viền của hình lồi. Tập trung biểu diễn dữ liệu trong một
không gian thấp chiều hơn để có thể phân cụm dễ dàng. Trong những năm
gần đây, phân cụm phổ đã trở thành thuật toàn phân cụm hiện đại phổ biến
nhất. Thuật toán thực hiện đơn giản, có thể được giải quyết hiệu quả nhờ phần
mềm đại số tuyến tính, và hoạt động tốt hơn các thuật toán phân cụm truyền
thống như Kmeans. Đề tài của này sẽ áp dụng thuật toán phân cụm phổ để
phân cụm toàn bộ cơ sở dữ liệu ảnh trước khi đưa vào tra cứu.
Nhiệm vụ chính của luận văn là nắm vững kiến thức tổng quan của lĩnh

vực xử lý ảnh, đi sâu nghiên cứu lĩnh vực tra cứu ảnh dựa vào nội dung, tìm
hiểu một số thuật toán học không giám sát, nghiên cứu thuật toán phân cụm
phổ và đưa vào hệ thống tra cứu ảnh dựa vào nội dung. Cài đặt chương trình
thử nghiệm đánh giá, so sánh hiệu quả của hệ thống tra cứu ảnh dựa vào nội
dung sử dụng phân cụm phổ với một số hệ thống tra cứu ảnh điển hình khác.
1. Đối tượng và phạm vi nghiên cứu
Luận văn này nhằm mục đích tìm hiểu tổng quan về xử lý ảnh, tra cứu
ảnh dựa vào nội dung, tìm hiểu một số thuật toán học không giám sát và đi
sâu nghiên cứu thuật toán phân cụm phổ. Trên cơ sở đó cài đặt chương trình
thử nghiệm.


3

2. Hướng nghiên cứu của đề tài
- Tìm hiểu tổng quan về xử lý ảnh, tra cứu ảnh dựa vào nội dung, một số
hệ thống tra cứu ảnh dựa vào nội dung hiện nay.
- Tìm hiểu một số thuật toán học không giám sát (unsupervised learning),
- Nghiên cứu thuật toán phân cụm phổ (spectral clustering) và áp dụng vào
hệ thống tra cứu ảnh dựa vào nội dung nhằm nâng cao hiệu quả tra cứu.
- Xây dựng hệ thống và cài đặt chương trình thử nghiệm.
3. Những nội dung nghiên cứu chính
Luận văn được chia làm 3 chương:
Chương 1: Tổng quan về tra cứu ảnh dựa vào nội dung.
Chương 2: Phương pháp tra cứu ảnh nhanh sử dụng phân cụm Phổ.
Chương 3: Chương trình thử nghiệm.


4


CHƯƠNG 1
TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG
1.1. Giới thiệu
Sự xuất hiện của thời đại đa phương tiện đặt ra một số thách thức mới
cho các nhà nghiên cứu cơ sở dữ liệu. Cụ thể, các thư viện số đòi hỏi tra cứu
tự động hiệu quả dựa vào nội dung ngữ nghĩa của các ảnh. Sự thúc đẩy của
các khả năng đồ họa trong các máy tính hiện đại và phát triển của Internet đã
thúc đẩy sự gia tăng các ảnh số nhanh chóng. Trong các hệ cơ sở dữ liệu cổ
điển, một đối tượng truy vấn được cho, trong đó các thuộc tính phổ biến nhất
hoặc là số hoặc là văn bản, hệ thống phải phát hiện đối tượng cơ sở dữ liệu
nào là “giống” với truy vấn. Các kết quả của loại tìm kiếm màu là một tập các
đối tượng cơ sở dữ liệu có các thuộc tính đối sánh với các thuộc tính được chỉ
ra trong truy vấn. Các cách tiếp cận truyền thống để mô tả nội dung của các
ảnh dựa vào các văn bản đại diện, trong đó các chuyên gia chú thích thủ công
mỗi ảnh với một mô tả văn bản, sao cho các kỹ thuật tra cứu thông tin dựa
vào văn bản có thể được áp dụng. Cách tiếp cận này có ưu điểm kế thừa công
nghệ hiệu quả được phát triển cho tra cứu văn bản, nhưng rất không khả thi
trong trường hợp của các cơ sở dữ liệu ảnh lớn. Hơn nữa, độ chính xác của nó
phụ thuộc nhiều vào các suy nghĩ chủ quan của các chuyên gia, người mà có
thể cung cấp các mô tả khác nhau cho cùng một ảnh [Virginia et al., 1995].
Ngay cả khi lược đồ tìm kiếm đối sánh đã được chứng mình là một phương
pháp hiệu quả để tra cứu dữ liệu quan tâm trong các hệ cơ sở dữ liệu cổ điển,
nó có thể không được áp dụng thành công trong ngữ cảnh của các cơ sở dữ
liệu ảnh, và tổng quát hơn, trong các cơ sở dữ liệu đa phương tiện do độ phức
tạp tính toán của các đối tượng đa phương tiện cho đối sánh là không đủ ý
nghĩa. Trích dẫn từ [Simone et al., 1996]:
“Chúng ta tin rằng các cơ sở dữ liệu ảnh trong tương lai nên bỏ qua mô
hình đối sánh, và thay vào đó là dựa vào tìm kiếm tương tự. Trong tìm kiếm



5

tương tự chúng ta không đòi hỏi sự tồn tại của một ảnh mục tiêu trong cơ sở
dữ liệu. Hơn nữa, chúng ta sắp xếp các ảnh theo độ tương tự với truy vấn, khi
được cho một điều kiện tương tự cố định.”
Dự đoán này là đúng: Ngày nay, các truy vấn tương tự gia tăng một cách
tự nhiên trong nhiều ứng dụng, như:
- Thương mại điện tử
- Các cơ sở dữ liệu y học
- Giải trí
- Dự báo thời tiết
- Điều tra tội phạm
Như được đánh giá ở câu trên, tìm kiếm tương tự có thể khắc phục các
hạn chế của các cách tiếp cận truyền thống bằng việc sử dụng các đặc trưng
số được tính toán bởi phân tích trực tiếp nội dung thông tin. Tra cứu ảnh dựa
vào nội dung (CBIR) đã được phát triển từ đầu những năm 1990. Các hệ
thống CBIR sử dụng các đặc trưng trực quan để biểu diễn nội dung ảnh. Cách
tiếp cận này là thuận lợi bởi vì các đặc trưng có thể được tính toán tự động, và
thông tin được sử dụng trong quá trình tra cứu luôn nhất quán, không phụ
thuộc vào ý hiểu của con người. Cụ thể, người dùng phác thảo ảnh truy vấn,
hoặc lựa chọn một ảnh mẫu, tìm những cái tương tự. Kết quả của loại truy vấn
này là một danh sách các ảnh được sắp xếp theo các giá trị giảm dần của độ
tương tự đối ảnh truy vấn. Do đó, ngay tức thì nhu cầu tìm kiếm tương tự để
xác định một điều kiện tương tự thích hợp, có thể đo được độ tương tự giữa
hai ảnh chỉ sử dụng các thuộc tính ảnh mức thấp (tức là, không cần các
chuyên gia cung cấp thông tin bổ sung). Hơn nữa, một cách hiệu quả để thu
các ảnh cơ sở dữ liệu tương tự nhất với ảnh truy vấn phải được xác định. Mục
đích này thường được thực hiện sử dụng các cấu trúc đánh chỉ số trên các mô
tả nội dung ảnh. Nói cách khác, mỗi mô tả nội dung ảnh này, được biểu diễn
bởi một véc tơ đặc trưng, được lưu trữ và được đánh chỉ số trong cơ sở dữ



6

liệu sao cho ở thời điểm truy vẫn véc tơ đặc trưng của ảnh truy vẫn được tính
toán và cơ sở dữ liệu tìm kiếm được các véc tơ đặc trưng tương tự nhất.
Để mô tả các ảnh cơ sở dữ liệu, các hệ thống CBIR hiện đại xác định
một tập các thuộc tính liên quan mức thấp (các đặc trưng) có thể mô tả hiệu
quả nội dung của các ảnh và sau đó sử dụng các đặc trưng như thế cho các
mục tiêu tra cứu. Các đặc trưng nên đủ đơn giản để cho phép thiết kế các
thuật toán trích rút tự động, nhưng đủ ý nghĩa để thu nội dung ảnh. Với mục
đích này, một số nghiên cứu đã nhấn mạnh thực tế rằng các đặc trưng toàn
cục như màu và kết cấu, thực sự có giá trị ngữ nghĩa phong phú, và do đó
chúng được sử dụng bởi một số hệ thống CBIR [Myron et al., 1995]. Dưới
góc nhìn này, mỗi ảnh được biểu diễn bởi một véc tơ đặc trưng nhiều chiều,
chiều của nó phụ thuộc vào số và loại đặc trưng được trích rút, và độ tương
tự giữa các ảnh được truy cập bởi xác định một hàm khoảng cách phù hợp
trên không gian đặc trưng.
Thực tế rằng các hệ thống CBIR dựa trên các đặc trưng toàn cục không
thể hỗ trợ các truy vẫn như “tìm tất cả các ảnh chứa một vùng đỏ nhỏ dưới
một vùng xanh lớn” mà cần các thuộc tính cục bộ của các ảnh. Do đó, nhu cầu
trích rút không chỉ các đặc trưng toàn cục mà còn các đặc trưng cục bộ, và
một số hệ thống tra cứu ảnh dựa vào vùng mà phân đoạn mỗi ảnh thành một
tập các “vùng không thuần nhất”, được trình bày trong [John et al., 1996].
Trong các hệ thống dựa vào vùng, đánh giá độ tương tự giữa các ảnh được
thực hiện bởi kết hợp các vùng trong ảnh truy vấn với các vùng được chứa
trong ảnh cơ sở dữ liệu và bởi đưa vào bản miêu tả độ tương tự giữa các vùng
kết hợp. Nhằm mục đích này, các đặc trưng được trích rút cho mỗi vùng và
một hàm khoảng cách được sử dụng để so sánh các mô tả của vùng. Tuy
nhiên, các hệ thống đã có, hoặc xét một kịch bản, trong đó các ràng buộc

không gian được đưa vào bản miêu tả [Stefano et al., 1999], hoặc các thuật
toán đối sánh kinh nghiệm cổ điển không đảm bảo trả lại các kết quả chính
xác. Ví dụ, giả sử rằng một người dùng tìm các ảnh chứa hai con hổ: Trong


7

trường hợp này, ảnh truy vấn sẽ chứa (tối thiểu) hai vùng, mỗi vùng biểu diễn
một con hổ. Nếu một ảnh cơ sở dữ liệu chứa một vùng “hổ” đơn, rõ ràng nó
không chính xác để kết hợp cả hai vùng truy vấn vào vùng truy vấn đơn của
ảnh cơ sở dữ liệu.
Xử lý các truy vấn k lân cận gần nhất (các đối sánh tốt nhất), trong đó
người dùng yêu cầu k ảnh trong cơ sở dữ liệu mà tương tự nhất, theo độ đo
tương tự được thực hiện bởi hệ thống CBIR, đối với ảnh truy vấn. Các truy
vấn phạm vi, trong đó người dùng phải chỉ ra một ngưỡng tương tự tối thiểu 
mà các ảnh phải vượt qua để là một phần của kết quả. Trong thực tế, do người
dùng không có một tri thức tiền nghiệm trên phân bố độ tương tự giữa các
ảnh, người dùng không có cách để đoán giá trị đúng cho . Một giá trị cao
của  có thể dễ dẫn đến một kết quả rỗng, trong khi  giảm một chút có thể
sinh ra một số lớn các ảnh trả về. Tình huống này là phức tạp trong các hệ
thống dựa vào vùng.
1.2. Không gian màu
Màu là một đặc trưng được chấp nhận rộng rãi để biểu diễn các mô tả
của một ảnh. Các nhà nghiên cứu đã khai phá nhiều kỹ thuật để phân loại màu
thành các không gian màu khác nhau. Không gian màu RGB (Red, Green,
Blue) là một không gian màu nổi tiếng nhất. Trộn ba màu chính đỏ, xanh lá,
xanh biển có thể tạo ra vô số màu. Hình 1.1 chỉ ra một khối màu RGB. Không
gian màu RGB có nhiều biến thể gồm ISO RGB, ISO RGB rộng, RGB
chuẩn, Adobe RGB (1998), Apple RGB, NTSC RGB (1953)....



8

Hình 1.1: Khối màu RGB
Tuy nhiên, không gian màu RGB không thích hợp cho xử lý ảnh màu,
bởi vì ba lý do sau:
- Các màu R, G và B có các quan hệ chặt giữa chúng.
- Nó không dễ dàng cho người dùng ít kinh nghiệm để điều chỉnh màu
mong muốn.
- Trong thị giác máy tính, các màu R, G, B của một đối tượng trong ảnh
số dựa vào các ảnh sáng phản chiếu của đối tượng, mà thực hiện phân biệt đối
tượng rất khó.
Do đó, Smith và cộng sự [Smith, 1978] đề xuất một không gian màu
HSV, ở đó H, S và V biểu diễn sắc màu, sự bão hòa, và giá trị tương ứng. Ở
đây, sắc màu chỉ ra loại màu, bão hòa chỉ ra sự tinh khiết và giá trị chỉ ra độ
sáng màu. So với không gian màu RGB, không gian màu HSV thực hiện phân
biệt đối tượng dễ hơn bởi vì thông tin trong ba kênh là tương đối độc lập với
mỗi kênh còn lại. Ngoài ra, không gian màu HSV mô hình gần với nhận thức
của con người và đã được chứng minh là hiệu quả trong nhiều nghiên cứu
CBIR. Hình 1.2 chỉ ra hình trụ màu HSV.


9

Hình 1.2: Trụ màu HSV.
Mỗi điểm trong không gian màu RGB có thể được ánh xạ sang một điểm
trong không gian màu HSV sử dụng các công thức sau:

ở đây Max và Min là giá trị cực đại và cực tiểu của các thành phần R, G
và B tại một điểm tương ứng.



10

1.3. Các ví dụ tìm kiếm tương tự
Các hệ thống CBIR cung cấp truy cập nội dung của các ảnh trích rút đặc
trưng như màu, hình và kết cấu. Sau đó, tất cả các hệ thống này sử dụng các
cách tiếp cận dựa vào đặc trưng để đánh chỉ số thông tin ảnh [Arnold et al.,
2000]. Lưu ý rằng trích rút đặc trưng là một quá trình phức tạp.
Tra cứu ảnh bởi biểu diễn màu
Phân bố các màu trong một ảnh thường được biểu diễn bởi một lược đồ.
Mỗi pixel của một ảnh O[x,y] gồm ba kênh màu O=(OR, OG, OB), biểu diễn
các thành phần đỏ, xanh lá, xanh biển. Các kênh này được biến đổi, theo cách
của ma trận biến đổi Tc, sang các thành phần tự nhiên của nhận thức màu, tức
là hue, bightness và saturation (không gian màu HSV). Cuối cùng, ba kênh
sau được lượng hóa, thông qua một ma trận lượng hóa Qc, thành một không
gian gồm một số hữu hạn M màu. Thành phần thứ m của lược đồ, hc[m] được
cho bởi:

Do đó, mỗi ảnh được biểu diễn bởi một điểm trong một không gian M
chiều. Trường hợp đơn giản nhất (như trong Hình 1.3) được biểu diễn bởi các
lược đồ màu với chỉ ba màu (ví dụ đỏ, xanh lá, xanh biển). Chi tiết, hai lược
đồ màu được tính toán bắt đầu từ hai ảnh: sau đó, so sánh độ tương tự giữa
các ảnh được thực hiện trên các véc tơ màu p1 và p2


11

Hình 1.3: Trích rút lược đồ màu sử dụng ba màu.
Tuy nhiên, các cách tiếp cận chung thường xác định một số biến màu lớn

hơn nhiều, ví dụ 64, 116 hoặc 256. Trong tất cả các trường hợp, để so sánh
các lược đồ của các ảnh khác nhau (ví dụ p và q), một hàm khoảng cách trên
một không gian được yêu cầu. Các ví dụ liên quan về các hàm khoảng cách
gồm các dạng Lp

L1 là khoảng cách Manhattan, L2 là dạng Euclidean, L là độ đo cực đại
và accs phiên bản có trọng số của chúng. Chẳng hạn, khoảng cách Euclidean
có trọng số là:

ở đây W=(w1,w2,....wD) là một véc tơ các trọng số mà phản ánh sự quan
trọng tương đối của mỗi tọa độ của không gian.


12

Các khoảng cách Quadratic cũng có thể được sử dụng để thi các tương
quan giữa các tọa độ khác nhau của các véc tơ đặc trưng [Christos et al.,
1994]. Khoảng cách Quaratic được xác định bằng:

và dẫn đến các bề mặt ellipsoid có hướng bất kỳ trong không gian đặc trưng
[Thomas et al., 1997]. Lưu ý rằng khoảng cách này là một dạng Euclidean có
trọng số “được quay”. Khoảng cách Mahalanobis được biết rộng rãi thu được
khi mỗi wi,j là một hệ số của ma trận hiệp phương sai.
Một phương pháp biểu diễn màu thay thế là các mô men màu [Markus et
al., 1995]. Để khắc phục các ảnh hưởng lượng hóa của các lược đồ màu, một
véc tơ 9 chiều, gồm trung bình, phương sai, và độ lệch của các thành phần sắc
màu (hue), bão hòa (saturation), độ sáng (brightness) cho tất cả các pixel,
được trích rút từ mỗi ảnh. Trên các véc tơ này, một hàm khoảng cách
Euclidean có trọng số hoặc một khoảng cách Manhattan được sử dụng để so
sánh các ảnh. Các trọng số này tỉ lệ nghịch với độ lệch chuẩn của giá trị dọc

theo các chiều. Độ chính xác của các mô men màu được chứng minh là tốt
hơn nhiều các lược đồ màu [Markus et al., 1995].
Tra cứu ảnh bởi biểu diễn kết cấu
Các kết cấu là các mẫu thuần nhất hoặc các sắp xếp không gian của các
pixel mà không thể được mô tả đầy đủ bởi cường độ vùng hoặc các đặc trưng
màu [Arnold et al., 2000]. Cách đơn giản nhất để biểu diễn toàn cục các thuộc
tính kết cấu dựa vào thông tin trích rút trên coarseness, contrast, và direction
[Myron et al., 1995].
Một phương pháp mạnh hơn để mô tả kết cấu ảnh theo cùng cách tiếp
cận lược đồ màu. Đầu tiên, kết cấu ảnh được phân rã thành các băng con tần
số không gian, bằng cách của một ngân hàng lọc sóng. Sau đó, một bộ sinh
kênh kết cấu được sử dụng để sinh ra một kênh cho mỗi băng tần con. Mặt


13

khác, các kênh kết cấu này có thể được biến đổi (bằng cách của một ma trận
biến đổi Tt) và được lượng hóa (theo cách của một ma trận lượng hóa Qt) để
sinh ra lược đồ cuối cùng biểu diễn ảnh. Biểu diễn kết cấu bằng một lược đồ
cho phép chúng ta sử dụng (cho độ tương tự kết cấu) cùng các độ đo cho độ
tương tự màu. Cụ thể, trong [John et al., 1997] đã chỉ ra rằng các độ đo L1 và
L2 thực hện rất tốt trong tra cứu các ảnh có độ kết cấu tương tự với kết cấu
của ảnh truy vấn.
Một phương pháp thay thế để biểu diễn các thuộc tính kết cấu dựa vào
việc sử dụng các lọc Garbor [Markus et al., 1996]. Chi tiết, một lọc Gabor đo
sự xuất hiện của các mẫu theo các hướng và các tỉ lệ khác nhau. Vì thế, với
mỗi hướng và tỉ lệ, thông tin ánh sáng được biến đổi với lọc Gabor tương ứng
và trung bình và phương sai được tính. Một cách tiếp cận lọc Gabor phổ biến
sử dụng 5 hướng và 3 tỉ lệ xác định một véc tơ đặc trưng được định nghĩa
trong một không gian 30 chiều. Trên các véc tơ này, một khoảng cách

Manhattan có trọng số được sử dụng để so sánh các ảnh.
Tra cứu ảnh bằng biểu diễn hình dạng
Các kỹ thuật biểu diễn hình dạng rơi vào hai loại chính: Cách tiếp cận
véc tơ đặc trưng, và hình dạng qua cách tiếp cận biến đổi [Alberto et al.,
1999]. Chọn một biểu diễn cụ thể được định hướng bởi các nhu cầu ứng dụng,
như các đặc điểm của các hình được phân tích, khả năng chịu nhiều dạng và
khả năng đánh chỉ số.
Cách tiếp cận véc tơ đặc trưng được sử dụng rộng rãi trong tra cứu
thông tin và cho phép đánh chỉ số hiệu quả. Chi tiết, một hình dạng được biểu
diễn bằng một véc tơ số sử dụng một phương pháp tham số trong (trong đó
vùng được bao bởi đường bao đổi tượng được biểu diễn), hoặc một phương
pháp tham số ngoài (trong đó đường bao ngoài của đối tượng được biểu diễn).
Khoảng cách Euclidean là hàm khoảng cách được sử dụng nhiều nhất để so
sánh hai hình dạng.


14

Mặt khác, các hình cũng có thể được so sánh tính toán những nỗ lực cần
thiết để biến đổi một hình thành hình khác. Trong trường hợp này, độ tương
tự được tính theo cách của một khoảng cách biến đổi. Tuy nhiên, nhược điểm
chính của cách tiếp cận này, là nó không hỗ trợ đánh chỉ số, do thực tế rằng
phương pháp được sử dụng để đánh giá độ tương tự không thỏa mãn các yêu
cầu độ đo.
1.4. Độ đo tương tự và các lược đồ đánh chỉ số.
1.4.1. Các độ đo tương tự
Thay vì đối sánh trích rút, tra cứu ảnh dựa vào nội dung tính toán các
tương tự trực quan giữa một ảnh truy vấn và các ảnh trong một cơ sở dữ liệu.
Theo đó, kết quả tra cứu không là một ảnh đơn mà là một danh sách các ảnh
được phân hạng bởi các độ tương tự của chúng với ảnh truy vấn. Nhiều độ đo

tương tự đã được phát triển cho tra cứu ảnh dựa vào các ước lượng của phân
bố các đặc trưng. Các độ đo tương tự khác nhau sẽ ảnh hưởng đến hiệu năng
tra cứu của một hệ thống tra cứu ảnh đáng kể. Trong phần này sẽ giới thiệu
một số độ đo tương tự được sử dụng phổ biến. Ký hiệu D(I,J) là độ đo khoảng
cách giữa ảnh truy vấn I và ảnh J trong cơ sở dữ liệu; và fi(I) là số các pixel
trong bin i của I.
Khoảng cách mahalanobis
Độ đo khoảng cách mahalanobis thích hợp khi mỗi chiều của véc tơ đặc
trưng ảnh phụ thuộc vào mỗi chiều khác và có độ quan trọng khác nhau. Nó
được định nghĩa:

Ở đây C là ma trận hiệp phương sai của các véc tơ đặc trưng.
Khoảng cách mahalanobis có thể được đơn giản hóa nếu các chiều đặc
trưng là độc lập. Trong trường hợp này, chỉ một phương sai của mỗi thành
phần đặc trưng, ci, là cần thiết.


15

Khoảng cách minkowski
Nếu mỗi chiều của véc tơ đặc trưng ảnh là độc lập với mỗi chiều khác và
có độ quan trọng ngang bằng, khoảng cách minkowski là thích hợp cho tính
toán khoảng cách giữa hai ảnh. Khoảng cách này được xác định như sau:

Ở đây p=1,2, và , D(I,J) là L1, L2 và L tương ứng. Khoảng cách
minkowski là độ đo được sử dụng rộng rãi nhất cho tra cứu ảnh.
Khoảng cách Quadratic
Khoảng cách minkowski coi tất cả các bin của lược đồ đặc trưng hoàn
toàn độc lập và không đưa vào bản miêu tả các cặp bin tương ứng với các đặc
trưng mà tương tự nhận thức hơn các cặp khác. Để giải quyết vấn đề này,

khoảng cách Quadratic được giới thiệu:

Ở đây A=[aij] là một ma trận tương tự, và aij biểu thị độ tương tự giữa
bin i và j. FI và FJ là các véc tơ mà liệt kê tất cả các mục trong fi(I) và fj(J).
Khoảng cách Quadratic được sử dụng trong nhiều hệ thống tra cứu cho
tra cứu ảnh dựa vào lược đồ màu. Nó được chỉ ra rằng khoảng cách Quadratic
có thể dẫn đến các kết quả mong muốn về nhận thức hơn phương pháp
khoảng cách Euclidean và phương pháp lược đồ giao do nó xét độ tương tự
chéo giữa các màu.
1.4.2. Lược đồ đánh chỉ số
Một vấn đề quan trọng khác trong tra cứu ảnh dựa vào nội dung là đánh
chỉ số hiệu quả và tìm kiếm nhanh các ảnh dựa vào các đặc trưng trực quan.
Bởi vì các véc tơ đặc trưng của các ảnh có xu hướng có chiều cao và do đó


16

không phù hợp đối với các cấu trúc đánh chỉ số truyền thống, giảm chiều
thường được sử dụng bước khi thiết lập một lược đồ đánh chỉ số hiệu quả.
Một trong những kỹ thuật được sử dụng phổ biến cho giảm chiều là phân
tích thành phần chính (PCA). Nó là một kỹ thuật tối ưu mà ánh xạ tuyến tính
dữ liệu đầu vào vào một không gian tọa độ sao cho các trục được gióng để
phản ánh các phương sai cực đại trong dữ liệu. Hệ thống QBIC sử dụng PCA
để giảm một véc tơ đặc trưng hình 20 chiều thành hai hoặc ba chiều. Ngoài
PCA, nhiều nhà nghiên cứu đã sử dụng biến đổi Karhumen-Loeve (KL) để
giảm các chiều của không gian đặc trưng. Mặc dù biến đổi KL có một số
thuộc tính hữu ích như khả năng định vị không gian con quan trọng nhất, các
thuộc tính đặc trưng là quan trọng cho nhận dạng độ tương tự mẫu có thể bị
phá hủy trong khi giảm chiều mù. Ngoài biến đổi PCA và KL, mạng nơ ron
cũng được minh chứng là công cụ hữu ích cho giảm chiều đặc trưng.

Sau khi giảm chiều, dữ liệu nhiều chiều được đánh chỉ số. Một số cách
tiếp cận đã được đề xuất cho mục tiêu này, bao gồm R-tree, linear quad-trees,
K-d-B tree và grid files. Hầu hết các phương pháp đánh chỉ số nhiều chiều
này có hiệu năng phù hợp cho một số nhỏ các chiều (lên đến 20), nhưng sử
dụng cấp mũ với sự gia tăng chiều và giảm xuống để tìm kiếm tuần tự. Hơn
nữa, các lược đồ đánh chỉ số này giả thiết so sánh đặc trưng cơ bản dựa vào
khoảng cách Euclidean, không chính xác cho nhiều ứng dụng tra cứu. Một nỗ
lực để giải quyết các vấn đề đánh chỉ số là sử dụng lược đồ đánh chỉ số phân
cấp dựa vào SOM (Self-Organization Map) được đề xuất trong. Ngoài lợi ích
đánh chỉ số, SOM cung cấp cho người dùng một công cụ hữu ích để duyệt các
ảnh đại diện của mỗi loại.
1.5. Các hệ thống tra cứu ảnh dựa vào nội dung hiện nay
Nhiều hệ thống CBIR đã được thiết kế và được phát triển những năm
qua. Những gì có thể được gọi là thế hệ đầu tiên của hệ thống CBIR sử dụng
các tính năng toàn cục để mô tả nội dung ảnh. Chẳng hạn, QBIC, được phát
triển tại trung tâm nghiên cứu IBM Almada, trích rút từ mỗi ảnh một số các


17

đặc trưng, có tên các mô tả màu, kết cấu và hình dạng. Màu được biểu diễn
bằng phương tiện các lược đồ mà được so sánh sử dụng một hàm khoảng cách
quadratic mà đưa vào bản miêu tả độ tương tự giữa các màu khác nhau. Kết
cấu được phân tích toàn cục bằng việc trích rút thông tin trên thô (coarseness),
tương phản (contrast) và hướng (direction). Đặc trưng hình chứa thông tin về
độ cong (curvature), các bất biến mô men (moment invariants), độ tròn
(circularity) và độ lệch tâm. Hệ thống tra cứu truy vấn hỗ trợ so sánh mỗi đặc
trưng tách biệt. Độ tương tự giữa hai ảnh được tính toán sử dụng một khoảng
cách Euclidean có trọng số trên toàn bộ véc tơ được trích rút.
Stricker and Orengo [Markus et al., 1995] đề xuất một cách tiếp cận

khác đối với tương tự màu, trong đó ba mô men đầu tiền của phân bố của
mỗi kênh màu được xem xét. Vì thế, mỗi ảnh được biểu diễn bởi một véc tơ
đặc trưng 9 chiều, và một khoảng cách Manhattan đơn giản được sử dụng để
so sánh các ảnh.
Hệ thống Photobook được phát triển tại phòng thí nghiệm MIT Media
[Alex et al., 1996] sử dụng một mô hình ngẫu nhiên (phân rã Wold) để đánh
giá độ tương tự giữa các ảnh dựa trên kết cấu.
Các kỹ thuật thao tác trong miền tần số thời gian, như biến đổi Wavelet,
cũng được đề xuất để thu một biểu diễn ảnh đa phân giải. Chẳng hạn, hệ
thống WBIIS [James et al., 1997] sử dụng wavelet của Daubechies để thu một
véc tơ các hệ số Wavelet 768 chiều mà giữ được thông tin ảnh. Mặc dù cách
tiếp cận này đưa ra một định vị tần số tốt hơn đối với các kỹ thuật khác, nó
dẫn đến các kết quả nghèo nàn cho các truy vẫn mà ở đó vị trí không gian và
tỉ lệ của các đối tượng không được yêu cầu [Apostol et al., 1999].
Tất cả các cách tiếp cận được mô tả ở trên sử dụng các đặc trưng toàn
cục để biểu diễn các ngữ nghĩa ảnh, do đó chúng không đủ để hỗ trợ các truy
vẫn tìm các ảnh có các đối tượng cụ thể có các màu và/hoặc kết cấu cụ thể (và
có thể bố trí không gian theo cách cụ thể) có mặt, các truy vấn “đối sánh từng
phần” (ở đó chỉ một phần của ảnh truy vấn được chỉ ra), và các truy vấn bất


×