Tải bản đầy đủ (.pdf) (61 trang)

Nghiên cứu phương pháp tra cứu ảnh sử dụng các cây dấu hiệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.43 MB, 61 trang )

i
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN
THÔNG
LÊ THỊ HÀ

LÊ THỊ HÀ

NGHIÊN CỨU PHƢƠNG PHÁP TRA CỨU ẢNH
SỬ DỤNG CÁC CÂY DẤU HIỆU

NGHIÊN CỨU PHƢƠNG PHÁP TRA CỨU ẢNH
SỬ DỤNG CÁC CÂY DẤU HIỆU

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên năm 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ii

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÊ THỊ HÀ



NGHIÊN CỨU PHƢƠNG PHÁP TRA CỨU ẢNH
SỬ DỤNG CÁC CÂY DẤU HIỆU

Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƢỜI HƢỚNG DẪN KHOA HỌC

TS. NGUYỄN HỮU QUỲNH

Thái Nguyên năm 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iii

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này do tôi thực thiện, có sự hƣớng dẫn tận
tình và chu đáo của ngƣời hƣớng dẫn là TS. Nguyễn Hữu Quỳnh. Những số
liệu trong các bảng biểu, hình ảnh phục vụ cho việc phân tích, nhận xét, đánh
giá đƣợc thu thập từ các nguồn khác nhau có ghi trong phần tài liệu tham
khảo, trong phạm vi hiểu biết của tôi.
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách
nhiệm trƣớc Hội đồng, cũng nhƣ kết quả luận văn của mình.
Thái nguyên, ngày tháng năm 2015
Học viên


Lê Thị Hà

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iv

LỜI CẢM ƠN
Trong quá trình thực hiện luận văn này, em luôn nhận đƣợc sự hƣớng
dẫn, chỉ bảo tận tình của TS Nguyễn Hữu Quỳnh, Khoa Công nghệ Thông tin
thuộc trƣờng Đại học Điện lực là cán bộ trực tiếp hƣớng dẫn khoa học cho
em. Thầy đã dành nhiều thời gian trong việc hƣớng dẫn cách nghiên cứu, đọc
tài liệu, cài đặt các thuật toán và giúp đỡ về xây dựng hệ thống thực nghiệm.
Em xin chân thành cảm ơn các Thầy, Cô giáo trong trƣờng Đại học Công
nghệ Thông tin và Truyền Thông, Đại học Thái Nguyên đã luôn nhiệt tình
giúp đỡ và tạo điều kiện tốt nhất cho em trong suốt quá trình học tập tại
trƣờng.
Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học
- Trƣờng Đại học Công nghệ Thông tin và Truyền Thông thuộc Đại học Thái
Nguyên đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh
nghiệm học tập, công tác trong suốt khoá học.
Tôi cũng xin chân thành cảm ơn các vị lãnh đạo và các bạn đồng nghiệp
tại Trƣờng Dự bị Đại học Dân tộc Sầm Sơn đã luôn tạo mọi điều kiện tốt nhất
để tôi có thể hoàn thành tốt đẹp khoá học Cao học này.
Thái nguyên, ngày tháng

năm 2015


Lê Thị Hà

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

v

DANH MỤC CÁC CHỮ VIẾT TẮT
Ký hiệu

Diễn giải

QBE

Query by Example (Truy vấn bởi ảnh mẫu)

RGB

Red Green Blue (Đỏ, Xanh lục, Xanh lơ)

HSV

Hue, Saturation, Value (Màu, sắc nét, cƣờng độ)

CCV

Color Coherence Vectors (Véc tơ gắn kết màu)

CBIR


Content Based Image Retrieval (Tra cứu ảnh dựa vào nội dung)

QBIC

Query By Image Content ( virus cổ điển trong tra cứu ảnh)

GCH

Global Color Histogram ( lƣợc đồ màu toàn cục)

S-tree

signature tree ( Cây dấu hiệu)

JPEG

Joint Photographic Experts Group (ảnh nén)

MPEG

Moving Picture Experts Group ( các tiêu chuẩn cho việc truyền

tải âm thanh và video.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vi


DANH MỤC CÁC BẢNG
Bảng 2. 1: Tín hiệu chi tiết của hình ảnh trong Hình 2.2 ................................ 22
Bảng 2. 2: Các dấu hiệu minh họa sai số của độ đo tƣơng tự ......................... 26
Bảng 3.1 : Bảng Images .................................................................................. 45
Bảng 3.2 : Bảng FeatureColor......................................................................... 45
Bảng 3.3 : Chủ đề ảnh trong tập ảnh CSDL.................................................... 48
Bảng 3.4 : Bảng đánh giá độ chính xác của hệ thống ..................................... 49

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vii

DANH MỤC CÁC HÌNH
Hình 1.1. Không gian màu RGB và HSV. ....................... 6
Hình 1.2. Hình dạng và độ đo đƣợc sử dụng để tính đặc trƣng. ........ 12
Hình 2.1. Lấy truy vấn qua một ảnh mẫu [27]. ................... 19
Hình 2.2. Tập ảnh mẫu. .................................. 21
Hình 2.3. Minh họa một S-tree và tách nút. ..................... 28
Hình 2.4 Các tệp dấu hiệu và một cây nhị phân .................. 29
Hình 2.5 Vết sinh cây dấu hiệu. ............................. 32
Hình 2.6.Chèn một nút v vào cây T. .......................... 33
Hình 2.7.Tìm kiếm cây dấu hiệu ............................ 33
Hình 2.8. Một cây dấu hiệu bị lệch. .......................... 34
Hình 2.9 Một cây dấu hiệu cân bằng. ......................... 35
Hình 2.10. Sinh các cây dấu hiệu cân bằng. ..................... 37
Hình 2.11 Minh họa tìm kiếm cây dấu hiệu. ..................... 38
Hình 3.1. Kiến trúc chung của hệ thống tra cứu ảnh dựa vào nội dung. ... 41

Hình 3.2. Biểu đồ Use Case hệ thống.......................... 42
Hình 3.3. Biểu đồ trình tự thêm 1 ảnh vào CSDL ................. 44
Hình 3.4. Biểu đồ trình tự thêm 1 tập ảnh vào CSDL ............... 44
Hình 3.6. Giao diện tra cứu ảnh. ............................ 46
Hình 3.7. Giao diện kết quả sau khi tra cứu ảnh. .................. 47
Hình 3.8. Giao diện quản lý cơ sở dữ liệu. ...................... 47

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

MỤC LỤC
Mở đầu ............................................................................................................. 2
CHƢƠNG 1 :TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG 4
1.1. Đặc trƣng ................................................................................................... 4
1.2. Trích rút và biểu diễn đặc trƣng ................................................................ 5
1.2.1.Trích rút và biểu diễn đặc trƣng màu ...................................................... 6
1.2.2. Trích rút và biểu diễn đặc trƣng kết cấu ................................................ 9
1.2.3. Trích rút và biểu diễn đặc trƣng hình dạng .......................................... 11
1.3. Yêu cầu đối với các hệ thống tra cứu ảnh dựa vào nội dung .................. 13
1.4. Một số nghiên cứu liên quan ................................................................... 14
1.5. Kết luận chƣơng 1 ................................................................................... 17
CHƢƠNG 2 : SỬ DỤNG CÂY DẤU HIỆU TRONG TRA CỨU ẢNH DỰA
VÀO MÀU ..................................................................................................... 18
2.1. Các thành phần của mô hình tra cứu ...................................................... 18
2.2.Lƣợc đồ cho các dấu hiệu ảnh .................................................................. 20
2.3. Các cây dấu hiệu S-tree ........................................................................... 27
2.3.1. Định nghĩa về các cây dấu hiệu ........................................................... 27
2.3.2. Xây dựng các cây dấu hiệu .................................................................. 30
2.3.3. Tìm kiếm trên các cây dấu hiệu ........................................................... 32

2.3.4. Các cây dấu hiệu cân bằng ................................................................... 35
2.3.5. Số trung bình các nút đƣợc kiểm tra .................................................... 38
2.4. Kết luận chƣơng 2 ................................................................................... 39


1

CHƢƠNG 3 :ỨNG DỤNG ............................................................................ 40
3.1. Bài toán tra cứu ảnh ................................................................................ 40
3.2. Thiết kế hệ thống ..................................................................................... 40
3.2.1. Biểu đồ Use Case của hệ thống ............................................................ 42
3.2.2. Biểu đồ trình tự .................................................................................... 43
3.2.3. Thiết kế CSDL ..................................................................................... 45
3.3. Mô tả chƣơng trình .................................................................................. 46
3.4. Đánh giá .................................................................................................. 47
3.5. Kết luận chƣơng 3 ................................................................................... 49

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

2

Mở đầu
Sự phát triển nhanh chóng các hồ sơ ảnh đã làm tăng đáng kể nhu cầu
cho các cố gắng nhằm mục tiêu tìm các ảnh tƣơng tự hiệu quả trong cơ sở dữ
liệu ảnh lớn. Một chiến lƣợc phổ biến tìm kiếm các ảnh trong một cơ sở dữ
liệu đƣợc gọi là truy vấn theo ví dụ (Query by Example - QBE), trong đó truy
vấn đƣợc biểu diễn nhƣ một mẫu ảnh hoặc một phác thảo của nó và thƣờng
đƣợc sử dụng để đƣa ra các truy vấn trong hầu hết các hệ thống tra cứu ảnh

dựa vào nội dung (CBIR) nhƣ QBIC của IBM, VIR của Virage, và hệ thống
tra cứu ảnh vệ tinh của IBM/NASA.
Một hệ thống CBIR trích rút các đặc trƣng trực quan từ một ảnh truy vấn
đƣợc cho, sau đó các đặc trƣng đƣợc sử dụng để so sánh với các đặc trƣng của
các ảnh khác đƣợc lƣu trữ trong cơ sở dữ liệu. Vì thế, hàm tƣơng tự dựa vào
tóm tắt nội dung ảnh hơn là bản thân ảnh. Một điều cần lƣu ý rằng một lƣợng
dữ liệu ảnh tăng nhanh theo thời gian là sẵn có, cách tiếp cận dựa vào chú
thích đƣợc hỗ trợ bởi con ngƣời nhƣ một phƣơng tiện tóm tắt ảnh là không
khả thi. Phân bố màu toàn cục của một ảnh là một đặc trƣng đƣợc ứng dụng
để tính toán tóm tắt nội dung ảnh. Các đặc trƣng mong muốn nhƣ độ phức tạp
trích rút thấp, bất biến với quay và dịch chuyển. Thực tế, lƣợc đồ màu toàn
cục (GCH) thƣờng đƣợc sử dụng để biểu diễn phân bố màu trong một ảnh.
Khi sử dụng cách tiếp cận GCH, lƣu trữ các véc tơ n chiều của một lƣợc
đồ màu cho mỗi ảnh trong cơ sở dữ liệu có thể chiếm không gian lƣu trữ đáng
kể. Để cực tiểu các yêu cầu không gian, luận văn sử dụng biểu diễn nén của
các véc tơ này (các dấu hiệu nhị phân).
Song hành với việc sử dụng dấu hiệu nhị phân ở trên, vấn đề hiệu quả
(tìm kiếm các ảnh tƣơng tự nhanh trong cơ sở dữ liệu lớn) là điểm nhấn của
luận văn. Ánh xạ các lƣợc đồ màu lên các điểm trong không gian n chiều là
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

3

một cách để giải quyết vấn đề, nhƣng có một hạn chế nghiêm trọng đó là làm
cho vấn đề tìm kiếm các ảnh tƣơng tự sử dụng cấu trúc truy cập dựa vào đĩa
khó hơn nhiều khi giá trị của n lớn lên. Thực tế, không thông thƣờng để sử
dụng các giá trị của n vƣợt quá 64. Điều này làm cho việc sử dụng các cấu
trúc truy cập không gian truyền thống nhƣ R-tree ít đƣợc sử dụng. Để giải

quyết vấn đề này, luận văn sử dụng cây dấu hiệu (S-tree) và thuật toán truy
vấn lân cận gần nhất nhanh trên cây S-tree.
Nội dung luận văn gồm 3 chƣơng:
Chƣơng 1: Giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung
Chƣơng 2: Sử dụng cây dấu hiệu trong tra cứu ảnh dựa vào màu
Chƣơng 3: Ứng dụng.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

4

CHƯƠNG 1
TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG
1.1. Đặc trƣng
Đặc trƣng đƣợc xác định nhƣ một hàm của một hoặc nhiều phép đo, mỗi
phép đo chỉ rõ một số thuộc tính của một đối tƣợng và đƣợc tính toán sao cho
nó định lƣợng một số đặc trƣng tính chính của đối tƣợng. Các đặc trƣng đƣợc
sử dụng hiện nay đƣợc phân lớp nhƣ sau:
- Các đặc trƣng chung: Các đặc trƣng độc lập ứng dụng nhƣ màu, kết
cấu và hình dạng. Theo mức trừu tƣợng, chúng có thể đƣợc chia tiếp thành:
+ Các đặc trƣng mức pixel: các đặc trƣng đƣợc tính tại mỗi pixel (màu,
vị trí)
+ Các đặc trƣng cục bộ: các đặc trƣng đƣợc tính trên các kết quả của
chia nhỏ ảnh dựa vào phát hiện biên hoặc phân đoạn ảnh.
+ Các đặc trƣng toàn cục: các đặc trƣng đƣợc tính trên toàn bộ ảnh.
- Các đặc trƣng lĩnh vực cụ thể: Các đặc trƣng phụ thuộc ứng dụng
nhƣ mặt ngƣời, vân tay và các đặc trƣng nhận thức. Các đặc trƣng này thƣờng
đƣợc tổng hợp hoặc suy diễn từ các đặc trƣng mức thấp cho một lĩnh vực cụ

thể.
Mặt khác, tất cả các đặc trƣng có thể đƣợc phân lớp thô thành các đặc
trƣng mức thấp và các đặc trƣng mức cao. Các đặc trƣng mức thấp có thể
đƣợc trích rút trực tiếp từ các ảnh gốc, trong khi trích rút các đặc trƣng mức
cao phải dựa trên các đặc trƣng mức thấp [1,2, 4].
- Đặc trƣng màu: Màu có vai trò quan trọng trong tra cứu ảnh dựa vào
đặc trƣng thị giác. Các màu có thể đƣợc biểu diễn trong các không gian màu
khác nhau nhƣ RGB, HSV,...
Màu là một trong những đặc trƣng quan trọng nhất đƣợc con ngƣời sử
dụng để nhận dạng và phân biệt các đối tƣợng trực quan. Tuy nhiên, con
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

5

ngƣời chỉ ra khả năng tự nhiên của việc sử dụng các mức đặc tả màu khác
nhau trong các ngữ cảnh khác nhau. Chẳng hạn, con ngƣời mô tả một quả táo
màu đỏ, có thể ngụ ý một số loại màu đỏ. Nhƣng trong ngữ cảnh mô tả màu
của một chiếc ô tô, một ngƣời có thể chọn cụ thể hơn thay vì sử dụng các
thuật ngữ “đỏ, đen” hoặc nâu sẫm. Trích rút màu bằng máy tính đƣợc thực
hiện không theo ngữ cảnh. Thiếu tri thức cũng tạo ra sự khó khăn để lựa chọn
thông tin màu từ sự sai lệch màu. Nhìn chung, hình thức màu của các đối
tƣợng thế giới thực bị biến đổi bởi kết cấu bề mặt, ánh sáng, hiệu ứng bóng và
các điều kiện quan sát. Các hệ thống cơ sở dữ liệu ảnh sử dụng tra cứu theo
màu phải dựa vào các vẫn đề phân tích ảnh màu tự động.
- Đặc trƣng kết cấu: Kết cấu là tập các điểm trong một vùng thỏa
mãn ràng buộc hay qui luật nào đó. Đặc trƣng này rất quan trọng cho tra
cứu ảnh.
Về cơ bản, các phƣơng pháp biểu diễn kết cấu có thể đƣợc chia thành hai

loại: Các phƣơng pháp cấu trúc và các phƣơng pháp thống kê. Các toán tử
đƣợc dùng phát hiện cấu trúc bao gồm các toán tử hình thái và đồ thị liền kề
xác định các kết cấu cơ sở và luật phân bố của chúng. Các phƣơng pháp thống
kê bao gồm: Phƣơng pháp phổ năng lƣợng Fourier, ma trận đồng hiện,
Tamura, Phân tích Wold, trƣờng ngẫu nhiên Markov, mô hình fractal, các bộ
lọc đa phân giải nhƣ biến đổi Gabor và biến đổi dạng sóng... thể hiện kết cấu
bằng sự phân bố thống kê của độ sáng của các điểm ảnh.
- Đặc trƣng hình dạng: Các đặc trƣng hình dạng có quan hệ chặt chẽ
với mô tả vùng hoặc các đối tƣợng đƣợc phân đoạn. Đặc trƣng hình dạng
đƣợc trích rút từ các đƣờng bao đối tƣợng hoặc vùng chứa đối tƣợng.
1.2. Trích rút và biểu diễn đặc trƣng
Dữ liệu ảnh thô không đƣợc sử dụng trực tiếp trong hầu hết các hệ thống
thị giác máy vì hai lý do: Thứ nhất, tốn nhiều không gian để lƣu trữ ảnh và độ
phức tạp tính toán lớn. Thứ hai, nhiều thông tin của ảnh là dƣ thừa và không
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

6

hữu ích. Thay vì sử dụng toàn bộ ảnh, chúng ta chỉ cần sử dụng một biểu diễn
quan trọng nhất. Bƣớc tìm biểu diễn đƣợc gọi là trích rút đặc trưng và kết quả
của biểu diễn là véc tơ đặc trƣng. Trích rút đặc trƣng có thể xem nhƣ việc ánh
xạ ảnh từ không gian ảnh sang không gian đặc trƣng.
1.2.1.Trích rút và biểu diễn đặc trƣng màu
Màu của một ảnh đƣợc biểu diễn thông qua một số mô hình màu. Các
mô hình màu đã có dùng để mô tả thông tin màu. Một mô hình màu đƣợc đặc
tả dƣới dạng hệ thống tọa độ ba chiều và và mỗi màu đƣợc biểu diễn bằng
một điểm (một khối con trong hệ thống đó).
Các mô hình màu đƣợc sử dụng phổ biến là RGB (Red, Green, Blue),

HSV (Hue, Saturation, Value) và Y, Cb, Cr. Vì thế nội dung màu đƣợc đặc tả
bởi 3 kênh màu từ mô hình màu nào đó. Một biểu diễn của nội dung màu của
ảnh là lƣợc đồ màu. Về mặt thống kế, nó biểu thị xác suất kết hợp của các
cƣờng độ 3 kênh màu.
Màu đƣợc con ngƣời cảm nhận bằng một sự kết hợp của ba kích thích
màu: Red, Green, Blue nó tạo ra một không gian màu (Hình 1). Các màu
RGB đƣợc gọi là các màu chính và cộng tính. Bằng việc thay đổi các kết hợp
của chúng, chúng ta có thể thu đƣợc các màu khác.

Hình 1.1. Không gian màu RGB và HSV.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

7

Biểu diễn của không gian HSV (Hình 1) đƣợc bắt nguồn từ khối không
gian lập phƣơng RGB với đƣờng chéo chính của mô hình RGB, là trục thẳng
đứng trong HSV. Sắc màu (saturation) thay đổi từ 0.0 đến 1.0, các màu thay
đổi từ không có sắc màu (xám) đến sắc màu (không có thành phần trắng).
Màu (Hue) có phạm vi từ 0 đến 360 độ, bắt đầu là đỏ đến vàng, xanh lá cây,
lục lam, xanh nƣớc biển và quay lại đỏ. Các không gian màu này tƣơng ứng
với mô hình RGB từ đó chúng có thể có nguồn gốc từ các biến đổi tuyến tính
hoặc phi tuyến.
Không gian màu YCbCr đƣợc sử dụng trong các chuẩn mã quốc tế JPEG
và MPEG. Trong MPEG-7 không gian màu YCbCr đƣợc xác định bởi:

Với một ảnh ba kênh màu, sẽ có ba lƣợc đồ màu nhƣ thế. Các lƣợc đồ
đƣợc chia thành các bin trong một nỗ lực để biểu diễn thô nội dung và giảm

chiều của pha đối sánh tiếp theo. Sau đó một véc tơ đặc trƣng đƣợc ta ra bằng
việc kết nối ba kênh màu thành một véc tơ. Với tra cứu ảnh, lƣợc đồ của ảnh
truy vấn đƣợc đối sánh với lƣợc đồ của tất cả các ảnh trong cơ sở dữ liệu sử
dụng độ đo nào đó.
Các mô tả màu của các ảnh có thể là cục bộ hoặc toàn cục và gồm một số
mô tả lƣợc đồ và các mô tả màu đƣợc biểu diễn bởi các mô men màu, các véc
tơ gắn kết màu và các tƣơng quan màu [3, 5].
Lƣợc đồ màu mô tả phân bố của các màu trong toàn bộ hoặc trong một
vùng quan tâm của ảnh. Lƣợc đồ là bất biến với quay, dịch chuyển và tỉ lệ của
một đối tƣợng nhƣng lƣợc đồ không chứa thông tin ngữ nghĩa và hai ảnh với
các lƣợc đồ màu tƣơng tự có thể có các nội dung khác nhau.
Một lƣợc đồ màu H của một ảnh đã cho đƣợc xác định bằng véc tơ
H={h[1], h[2],…h{i},…h[N]} trong đó I biểu diễn một màu trong lƣợc đồ
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

8

màu, h[i] là số các pixel có màu I trong ảnh đó và N là cố các bin trong lƣợc
đồ màu (tức số các màu trong mô hình màu đƣợc dùng).
Để so sánh các ảnh có cỡ khác nhau, các lƣợc đồ màu nên đƣợc chuẩn
hóa. Lƣợc đồ màu đƣợc chuẩn hóa H’ đƣợc xác định với h’[i]=h[i]/XY, ở đây
XY là tổng số các pixel trong một ảnh (các biến còn lại đƣợc xác định nhƣ
chƣa chuẩn hóa).
Độ đo độ tƣơng tự chuẩn đƣợc sử dụng cho các lƣợc đồ màu:
- Một lƣợc đồ H(i) đƣợc sinh ra cho mỗi ảnh h trong cơ sở dữ liệu (véc
tơ đặc trƣng).
- Lƣợc đồ đƣợc chuẩn hóa sao cho tổng của nó bằng nhau (loại đi cỡ của
ảnh)

- Sau đó lƣợc đồ đƣợc lƣu trữ trong cơ sở dữ liệu
Chúng ta có 3 loại độ đo khoảng cách lƣợc đồ cho một lƣợc đồ H(i),
i=1,2,…,N
Các mô men màu đã đƣợc sử dụng thành công trong nhiều hệ thống tra
cứu. Các mô men bậc nhất (trung bình), bậc hai (phƣơng sai) và bậc ba (độ
lệch) đã đƣợc chứng chứng minh là hiệu quả trong biểu diễn các phân bố màu
của các ảnh.
Mô men màu bậc nhất của thành phần màu thứ k (k=1,2,3) đƣợc xác
định bởi:

Trong đó fk(x,y) là giá trị màu của thành phần màu thứ k của pixel ảnh
(x,y) và XY là tổng số pixel trong ảnh.
Mô men thứ h, h=2,3,… của thành phần màu thứ k đƣợc xác định bằng:

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

9

Do chỉ 9 số (ba mô men cho mỗi ba thành phần màu) đƣợc sử dụng để
biểu diễn nội dung màu của mỗi ảnh, các mô men màu là một biểu diễn rất
nén (so với các đặc trƣng màu khác).
Hàm tƣơng tự đƣợc sử dụng cho tra cứu là tổng trọng số của các giá trị
tuyệt đối hiệu giữa các mô men thích hợp
Cho H và G biểu diễn hai lƣợc đồ màu. Giao của các lƣợc đồ đƣợc cho
bởi:

Tƣơng quan màu đặc tả các phân bố màu của các pixel và tƣơng quan
không gian của các cặp màu. Cho I là một ảnh gồm các pixel f(I,j). Mỗi pixel

có màu hoặc cấp xám nào đó. Cho [G] là một tập gồm G mức xám g 1,
g2,….gG mà có thể xuất hiện trong ảnh. Cho một pixel f, I(f) biểu thị g mức
xám của nó và Ig tƣơng ứng với một pixel f theo đó I(f)=g. Lƣợc đồ cho mức
gx đƣợc xác định bởi:

Các độ đo thống kê bậc hai là tƣơng quan và tự tƣơng quan. Cho [D]
biểu thị một tập D khoảng cách d1,d2,…dD. Thì tƣơng quan của ảnh I đƣợc
xác định cho mức cặp (gx,gy) tại khoảng cách d

Cho xác suất mà bất cứ pixel f1 của mức gx, một pixel f2 tại khoảng cách
d theo hƣớng nào đó từ pixel f1 có mức gx.
Tự tƣơng quan thu đƣợc tƣơng quan không gian của các mức đồng nhất

1.2.2. Trích rút và biểu diễn đặc trƣng kết cấu

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

10

Kết cấu là một thuộc tính quan trọng khác của các ảnh. Kết cấu là một
mô tả vùng mạnh trợ giúp quá trình tra cứu. Kết cấu, bản thân nó không có
khả năng tìm các ảnh tƣơng tự, nhƣng nó có thể đƣợc sử dụng để phân lớp các
ảnh kết cấu từ các ảnh không có kết cấu và sau đó đƣợc kết hợp với thuộc tính
trực quan khác nhiều màu để làm cho tra cứu hiệu quả hơn.
Kết cấu là một trong các đặc tả quan trọng nhất, đƣợc sử dụng để phân
lớp và nhận dạng các đối tƣợng và đƣợc sử dụng để tìm các tƣơng tự giữa các
ảnh trong các cơ sở dữ liệu đa phƣơng tiện.
Về cơ bản, các phƣơng pháp biểu diễn kết cấu có thể đƣợc phân lớp

thành hai loại: Cấu trúc và thống kê. Các phƣơng pháp thống kế, gồm phổ
năng lƣợng Fourier, các ma trận đồng hiện, phân tích thành phần chính bất
biến trƣợt (SPCA), các đặc trƣng Tamura, phân rã Wold, trƣờng ngẫu nhiên
Markov, mô hình fractal và các kỹ thuật lọc đa phân giải nhƣ Gabor và biến
đổi wavelet, đặc tả kết cấu bởi phân bố thống kê của cƣờng độ ảnh.
Ma trận đồng hiện C(I,j) mô tả sự đồng hiện của các pixel với các giá trị
mức xám I và j tại một khoảng cách d đƣợc cho. Khoảng cách d đƣợc xác
định trong các tọa độ cực (d, ), với độ dài và hƣớng rời rạc. trong thực hành,
 nhận các giá trị 00, 450, 900, 1350, 1800, 2250, 2700 và 3150. Ma trận đồng hiện
C(I,j) có thể đƣợc xác định:

ở đây Card{.} biểu thị số các thành phần trong tập.
Cho G là số các giá trị mức xám trong ảnh, thì chiều của ma trận đồng
hiện C(I,j) sẽ là NN.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

11

Vậy, độ phức tạp tính toán của ma trận đồng hiện phụ thuộc vào số các
mức xám đƣợc sử dụng cho lƣợng hóa.
Các đặc trƣng có thể đƣợc trích rút từ ma trận đồng hiện để giảm chiều
không gian đặc trƣng và các định nghĩa hình thức của các đặc trƣng từ ma
trận đồng hiện đƣợc thực hiện.

Ở đây

i đƣợc định nghĩa bằng:


j đƣợc định nghĩa bằng:

1.2.3. Trích rút và biểu diễn đặc trƣng hình dạng

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

12

Tra cứu ảnh dựa vào hình dạng là đo sự tƣơng tự giữa các hình dạng
đƣợc biểu diễn bởi các đặc trƣng của chúng. Hình dạng là một đặc trƣng trực
quan quan trọng và nó là một trong các đặc trƣng chính cho mô tả nội dung
ảnh. Mô tả nội dung hình dạng là khó. Do đó, hai bƣớc là cần thiết trong tra
cứu ảnh dựa vào hình dạng đó là: Trích rút đặc trƣng và đo độ tƣơng tự giữa
các đặc trƣng đƣợc trích rút. Các mô tả hình có thể đƣợc chia thành hai loại
chính: Các phƣơng pháp dựa vào đƣờng biên và dựa vào vùng. Các phƣơng
pháp dựa vào vùng sử dụng toàn bộ diện tích của một đối tƣợng cho mô tả
hình, trong khi các phƣơng pháp dựa vào đƣờng biên chỉ sử dụng thông tin
xuất hiện trong đƣờng biên của một đối tƣợng.
Các mô tả hình gồm:
Các đặc trƣng đƣợc tính toán từ đƣờng biên các đối tƣợng: Hình tròn, tỉ lệ
hình, góc gián đoạn bất thƣờng, chiều dài bất thƣờng, độ phức tạp, góc phải
nhất, sắc nét, hƣớng. Những điều này là các mô tả hình bất biến tỉ lệ, quay,
dịch chuyển (ngoại trừ góc). Có thể tích rút các đƣờng biên ảnh từ phát hiện
biên. Tự đƣờng biên đối tƣợng, thông tin hình đƣợc suy ra. Chúng ta trích rút
và lƣu trữ một tập các đặc trƣng hình từ biên ảnh và cho mỗi đƣờng biên riêng
lẻ. Các đặc trƣng này (Hình 2) là:


Hình 1.2. Hình dạng và độ đo được sử dụng để tính đặc trưng.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

13

- Hình tròn
- Tỉ lệ hình

- Góc gián đoạn bất thƣờng
- Một độ đo đƣợc chuẩn hóa của trung bình trị tuyệt đối của hiệu giữa
các góc gián đoạn của các đoạn đa giác với các đoạn liền kề.
1.3. Yêu cầu đối với các hệ thống tra cứu ảnh dựa vào nội dung
Một hệ thống tra cứu ảnh dựa vào nội dung CBIR tiêu biểu không chỉ xử
lý các nguồn thông tin khác nhau ở các khuôn dạng khác nhau (ví dụ, văn
bản, hình ảnh và video) mà còn giải quyết các nhu cầu của ngƣời sử dụng. Về
cơ bản, hệ thống phân tích cả các nội dung của nguồn thông tin cũng nhƣ các
truy vấn sử dụng, sau đó so sánh các nội dung này để tra cứu các mục tin liên
quan. Các chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung
thƣờng bao gồm:
- Phân tích các nội dung của nguồn thông tin và biểu diễn các nội dung
của các nguồn đƣợc phân tích theo cách thích hợp cho so sánh các truy vấn sử
dụng (không gian của nguồn thông tin đƣợc biến đổi thành không gian đặc
trƣng cho mục tiêu so sánh nhanh trong bƣớc tiếp theo). Bƣớc này thông
thƣờng cần rất nhiều thời gian do nó phải xử lý lần lƣợt tất cả thông tin nguồn
(các ảnh) trong CSDL. Tuy nhiên, bƣớc này đƣợc thực hiện chỉ một lần và có
thể đƣợc thực hiện ngoại tuyến.
- Phân tích các truy vấn ngƣời sử dụng và biểu diễn chúng ở dạng thích

hợp cho so sánh với CSDL nguồn. Bƣớc này là tƣơng tự với bƣớc trƣớc,
nhƣng chỉ đƣợc áp dụng với ảnh truy vấn, do đó nó sẽ đƣợc thực hiện trực
tuyến.
- Định nghĩa một chiến lƣợc để so sánh các truy vấn tìm kiếm với thông
tin trong CSDL đƣợc lƣu trữ. Tra cứu thông tin liên quan một cách hiệu quả.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

14

Bƣớc này đƣợc thực hiện trực tuyến và đƣợc yêu cầu rất nhanh. Các kỹ thuật
đánh chỉ số hiện đại có thể đƣợc sử dụng để tổ chức lại không gian đặc trƣng
để tăng tốc quá trình đối sánh và tra cứu.
- Thực hiện các điều chỉnh cần thiết trong hệ thống (thƣờng bằng điều
chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ ngƣời sử dụng và
các ảnh đƣợc tra cứu.
1.4. Một số nghiên cứu liên quan
QBIC [11,14] là một ví dụ cổ điển về một hệ thống tra cứu ảnh dựa vào
nội dung (CBIR), sử dụng một số đặc trƣng nhận thức nhƣ màu và các quan
hệ không gian. Hệ thống sử dụng cách tiếp cận dựa vào phân hoạch để biểu
diễn màu. Tra cứu sử dụng màu dựa vào màu trung bình Munsell và 5 màu
trội nhất cho mỗi phân hoạch, tức là cả các lƣợc đồ màu toàn cục và cục bộ
đƣợc phân tích cho tra cứu ảnh [17]. Do độ đo toàn phƣơng của các khoảng
cách màu đòi hỏi nhiều tính toán, màu trung bình Munsell đƣợc sử dụng để
tiền lọc các ảnh ứng cử viên. Hệ thống cũng xác định một độ đo tƣơng tự màu
dựa vào các bin trong lƣợc đồ màu.
Một độ đo tƣơng tự dựa vào các mô men màu đƣợc đề xuất trong [22].
Các tác giả đề xuất một biểu diễn màu đƣợc đặc tả bởi ba mô men màu bậc
nhất là trung bình màu, phƣơng sai và độ lệch, do đó sinh ra chi phí không

gian thấp. Hàm tƣơng tự đƣợc sử dụng cho tra cứu dựa vào tổng trọng số của
trị tuyệt đối của hiệu giữa các mô men tƣơng ứng của ảnh truy vấn và các ảnh
trong tập ảnh. Một cách tiếp cận tƣơng tự cũng đƣợc đề xuất bởi Appas và
cộng sự [6], khác biệt chính là ảnh đƣợc phân đoạn thành 5 khối (cell) gối lên
nhau. Sử dụng một lƣới 44 không gối lên nhau đƣợc đề xuất trong [17].
Một kỹ thuật khác tích hợp thông tin màu với tri thức không gian để thu
dấu hiệu ảnh đƣợc bàn luận trong [13]. Kỹ thuật dựa trên các bƣớc sau: Bằng
việc sử dụng một lƣới các khối tƣơng tự, các tác giả đề xuất một số kinh

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

15

nghiệm để thu các màu liên quan và phân biệt giữa các màu nền và không nền
(đối tƣợng).
Một hệ thống đánh chỉ số màu dựa trên trích rút tự động các vùng cục bộ
đƣợc trình bày trong [20]. Đầu tiên hệ thống xác định một lựa chọn định
lƣợng các màu đƣợc đánh chỉ số. Tiếp theo, một tập màu nhị phân cho một
vùng đƣợc xây dựng dựa vào việc màu có xuất hiện hay là không. Để đƣợc
lấy vào đánh chỉ số bởi tập màu, một vùng phải đáp ứng hai yêu cầu sau: Phải
có tối thiểu N các pixel tối thiểu trong một vùng (N là một tham số đƣợc xác
định bởi ngƣời dùng) và mỗi màu trong vùng phải đóng góp tối thiểu một
phần trăm nào đó vào tổng diện tích của vùng (xác định bởi ngƣời dùng). Mỗi
vùng trong ảnh đƣợc biểu diễn sử dụng một hộp bao. Thông tin đƣợc lƣu trữ
cho mỗi vùng gồm tập màu, định danh ảnh, vị trí vùng và cỡ. Do đó, anh truy
vấn không chỉ dựa vào màu mà còn dựa vào quan hệ không gian và cấu tạo
của vùng màu.
Trong [21] các tác giả cố gắng thu sự sắp xếp không gian của các màu

khác nhau trong ảnh, dựa vào việc sử dụng các khối trên ảnh và một số các
lƣợc đồ, phụ thuộc vào số các màu khác nhau có mặt. Bài báo chỉ rõ rằng với
màu trung bình, một ảnh có thể đƣợc biểu diễn bởi một số ít các màu và do đó
không gian có thể tiết kiệm khi lƣu trữ các lƣợc đồ màu. Hàm tƣơng tự đƣợc
sử dụng cho tra cứu dựa vào tổng trọng số của khoảng cách giữa các lƣợc đồ
thu đƣợc. Các kết quả thực nghiệm đã chỉ ra rằng kỹ thuật tiết kiệm 55% chi
phí không gian so với các cách tiếp cận dựa vào phân hoạch, trong khi vẫn
tăng độ hiệu quả 38% về mặt tra cứu ảnh.
Pass và cộng sự [18] mô tả một kỹ thuật dựa vào liên kết thông tin không
gian với lƣợc đồ màu sử dụng các véc tơ gắn kết màu (CCVs). Kỹ thuật phân
lớp mỗi pixel trong một thùng màu hoặc là gắn kết hoặc là không, phụ thuộc
vào pixel có lập thành một vùng màu tƣơng tự lớn hay không. So sánh các véc
tơ đặc trƣng gắn kết và không gắn kết giữa hai ảnh cho phép một phân biệt
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

16

tƣơng tự mịn hơn nhiều khi sử dụng các lƣợc đồ màu. Lƣu ý rằng sử dụng
CCVs sẽ có hai lƣợc đồ cho mỗi ảnh (một cho các màu gắn kết và một cho
các màu không gắn kết); mỗi lƣợc đồ lớn nhƣ lƣợc đồ màu toàn cục (GCH).
Các tác giả so sánh các kết quả thực nghiệm của họ với các kỹ thuật khác
nhau chỉ ra kỹ thuật của họ sinh ra một cải tiến đáng kể trong hiệu năng tra
cứu.
Các đề xuất gần đây gồm [16] và [24]. Lin đề xuất một phƣơng pháp dựa
vào sự tƣơng tự đa chính xác. Ý tƣởng là phân hoạch đệ qui ảnh thành một số
khối không gối lên nhau, với mỗi khối véc tơ trung bình đƣợc mã hóa. Điều
này đƣa vào bản miêu tả ảnh phân bố không gian của các màu cũng nhƣ cho
phép truy vấn các ảnh con. Tuy nhiên, không có bằng chứng phƣơng pháp có

cải tiến độ chính xác tra cứu hay không. Cuối cùng, SIMPLIcity của Wang sử
dụng một cách tiếp cận dựa vào wavelet để trích rút các đặc trƣng, có thể
phân đoạn các ảnh theo thời gian thực. Trong số nhiều đặc trƣng có thể sử
dụng để đo sự tƣơng tự, hệ thống sử dụng một lƣợc đồ đối sánh vùng toàn
cục, nhằm mục tiêu tăng cƣờng phân đoạn yếu.
Các ảnh đƣợc ánh xạ vào không gian đặc trƣng nhiều chiều. Không gian
này có thể đƣợc ánh xạ vào không gian Euclide và các cấu trúc truy cập
không gian [13] có thể đƣợc sử dụng. Mặc dù các cấu trúc truy cập không
gian điển hình không phù hợp cho nhiều chiều (R*-trees [7] ), các đề xuất gần
đây đã đƣợc thực hiện nhƣ X-tree [8], SS-tree [25] và SR-tree [15]. X-tree sử
dụng khái niệm về siêu nút để cực tiểu sự gối nhau giữa diện tích đƣợc phủ
bởi các cây con khác nhau; nó đƣợc chỉ ra là hiệu quả hơn R-tree. Không nhƣ
R*-tree, nó sử dụng các hộp bao tối thiểu để biểu diễn diện tích đƣợc phủ bởi
một cây con, SS-tree sử dụng các hình cầu bao tối thiểu và đƣợc chỉ ra thực
hiện tốt hơn R*-tree. Chúng ta không biết bất cứ nghiên cứu nào so sánh trực
tiếp X-tree với SS-tree. SR-tree tận dụng thực tế rằng có các hộp và hình cầu
với các nút trong để giảm gối nhau giữa diện tích đƣợc phủ bởi các cây con.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

17

Nó đƣợc báo cáo là hiệu quả hơn cả R*-tree và SS-tree và đã đƣợc quan tâm
nhƣ cấu trúc truy cập tốt nhất cho dữ liệu nhiều chiều.
Mặc dù đối với một số trƣờng hợp, nó là không tầm thƣờng để ánh xạ
không gian đặc trƣng vào không gian Euclide. Với các tình huống đó sử dụng
các không gian metric thƣờng là một giải pháp tốt. Các nghiên cứu gần đây
trên các cấu trúc truy cập cho đánh chỉ số các không gian metric là M-tree [9]
và Slim-tree [23]. Một chủ đề chính cho một cây độ đo hiệu quả là một độ đo

khoảng cách không phức tạp về tính toán và chính xác. Không may, một độ
đo chính xác thƣờng là phức tạp về tính toán.
Một nghiên cứu về hiệu quả (chi phí lƣu trữ và thời gian xử lý) sử dụng
R*-tree, SS-tree,SR-tree và M-tree đƣợc thực hiện trong [10]. Các kết luận
chính đó là: SR-tree là hiệu quả nhất trong 4 cấu trúc truy cập trong đối phó
tốt hơn với sự gia tăng chiều không gian; SR-tree cũng có thể nhận ƣu điểm
với các nút lớn.
1.5. Kết luận chƣơng 1
Chƣơng này đã trình bày khái quát về đặc trƣng ảnh, trích rút và biểu
diễn đặc trƣng, các yêu cầu đối với một hệ thống tra cứu ảnh dựa vào nội
dung và một số nghiên cứu liên quan chính đến đề tài này. Trong chƣơng, đã
nhấn mạnh đến trích rút và biểu diễn đặc trƣng gồm màu, hình dạng và kết
cấu, đặc biệt nhấn mạnh vào trích rút và biểu diễn đặc trƣng màu.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

×