Tải bản đầy đủ (.pdf) (61 trang)

Nghiên cứu phương pháp tra cứu ảnh sử dụng các cây dấu hiệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.16 MB, 61 trang )

i
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN
THÔNG
LÊ THỊ HÀ

LÊ THỊ HÀ

NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH
SỬ DỤNG CÁC CÂY DẤU HIỆU

NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH
SỬ DỤNG CÁC CÂY DẤU HIỆU

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên năm 2015


ii

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÊ THỊ HÀ

NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH


SỬ DỤNG CÁC CÂY DẤU HIỆU

Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS. NGUYỄN HỮU QUỲNH

Thái Nguyên năm 2015


iii

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này do tôi thực thiện, có sự hướng dẫn tận
tình và chu đáo của người hướng dẫn là TS. Nguyễn Hữu Quỳnh. Những số
liệu trong các bảng biểu, hình ảnh phục vụ cho việc phân tích, nhận xét, đánh
giá được thu thập từ các nguồn khác nhau có ghi trong phần tài liệu tham
khảo, trong phạm vi hiểu biết của tôi.
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách
nhiệm trước Hội đồng, cũng như kết quả luận văn của mình.
Thái nguyên, ngày tháng năm 2015
Học viên

Lê Thị Hà



iv

LỜI CẢM ƠN

Trong quá trình thực hiện luận văn này, em luôn nhận được sự hướng
dẫn, chỉ bảo tận tình của TS Nguyễn Hữu Quỳnh, Khoa Công nghệ Thông tin
thuộc trường Đại học Điện lực là cán bộ trực tiếp hướng dẫn khoa học cho
em. Thầy đã dành nhiều thời gian trong việc hướng dẫn cách nghiên cứu, đọc
tài liệu, cài đặt các thuật toán và giúp đỡ về xây dựng hệ thống thực nghiệm.
Em xin chân thành cảm ơn các Thầy, Cô giáo trong trường Đại học Công
nghệ Thông tin và Truyền Thông, Đại học Thái Nguyên đã luôn nhiệt tình
giúp đỡ và tạo điều kiện tốt nhất cho em trong suốt quá trình học tập tại
trường.
Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học
- Trường Đại học Công nghệ Thông tin và Truyền Thông thuộc Đại học Thái
Nguyên đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh
nghiệm học tập, công tác trong suốt khoá học.
Tôi cũng xin chân thành cảm ơn các vị lãnh đạo và các bạn đồng nghiệp
tại Trường Dự bị Đại học Dân tộc Sầm Sơn đã luôn tạo mọi điều kiện tốt nhất
để tôi có thể hoàn thành tốt đẹp khoá học Cao học này.
Thái nguyên, ngày tháng
Lê Thị Hà

năm 2015


v

DANH MỤC CÁC CHỮ VIẾT TẮT


Ký hiệu

Diễn giải

QBE

Query by Example (Truy vấn bởi ảnh mẫu)

RGB

Red Green Blue (Đỏ, Xanh lục, Xanh lơ)

HSV

Hue, Saturation, Value (Màu, sắc nét, cường độ)

CCV

Color Coherence Vectors (Véc tơ gắn kết màu)

CBIR

Content Based Image Retrieval (Tra cứu ảnh dựa vào nội dung)

QBIC

Query By Image Content ( virus cổ điển trong tra cứu ảnh)

GCH


Global Color Histogram ( lược đồ màu toàn cục)

S-tree

signature tree ( Cây dấu hiệu)

JPEG

Joint Photographic Experts Group (ảnh nén)

MPEG

Moving Picture Experts Group ( các tiêu chuẩn cho việc truyền

tải âm thanh và video.


vi

DANH MỤC CÁC BẢNG

Bảng 2. 1: Tín hiệu chi tiết của hình ảnh trong Hình 2.2............................... 22
Bảng 2. 2: Các dấu hiệu minh họa sai số của độ đo tương tự ........................ 26
Bảng 3.1 : Bảng Images ............................................................................... 45
Bảng 3.2 : Bảng FeatureColor ...................................................................... 45
Bảng 3.3 : Chủ đề ảnh trong tập ảnh CSDL .................................................. 48
Bảng 3.4 : Bảng đánh giá độ chính xác của hệ thống .................................... 49



vii

DANH MỤC CÁC HÌNH
Hình 1.1. Không gian màu RGB và HSV. ...................................................... 6
Hình 1.2. Hình dạng và độ đo được sử dụng để tính đặc trưng. .................... 12
Hình 2.1. Lấy truy vấn qua một ảnh mẫu [27]. ............................................. 19
Hình 2.2. Tập ảnh mẫu. ................................................................................ 21
Hình 2.3. Minh họa một S-tree và tách nút. .................................................. 28
Hình 2.4 Các tệp dấu hiệu và một cây nhị phân ............................................ 29
Hình 2.5 Vết sinh cây dấu hiệu. .................................................................... 32
Hình 2.6.Chèn một nút v vào cây T. ............................................................. 33
Hình 2.7.Tìm kiếm cây dấu hiệu................................................................... 33
Hình 2.8. Một cây dấu hiệu bị lệch. .............................................................. 34
Hình 2.9 Một cây dấu hiệu cân bằng. ........................................................... 35
Hình 2.10. Sinh các cây dấu hiệu cân bằng................................................... 37
Hình 2.11 Minh họa tìm kiếm cây dấu hiệu. ................................................. 38
Hình 3.1. Kiến trúc chung của hệ thống tra cứu ảnh dựa vào nội dung. ........ 41
Hình 3.2. Biểu đồ Use Case hệ thống. .......................................................... 42
Hình 3.3. Biểu đồ trình tự thêm 1 ảnh vào CSDL ......................................... 44
Hình 3.4. Biểu đồ trình tự thêm 1 tập ảnh vào CSDL ................................... 44
Hình 3.6. Giao diện tra cứu ảnh. ................................................................... 46
Hình 3.7. Giao diện kết quả sau khi tra cứu ảnh. .......................................... 47
Hình 3.8. Giao diện quản lý cơ sở dữ liệu..................................................... 47


MỤC LỤC
Mở đầu .......................................................................................................... 2
CHƯƠNG 1 :TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG 4
1.1. Đặc trưng................................................................................................ 4
1.2. Trích rút và biểu diễn đặc trưng .............................................................. 5

1.2.1.Trích rút và biểu diễn đặc trưng màu .................................................... 6
1.2.2. Trích rút và biểu diễn đặc trưng kết cấu ............................................... 9
1.2.3. Trích rút và biểu diễn đặc trưng hình dạng ........................................ 11
1.3. Yêu cầu đối với các hệ thống tra cứu ảnh dựa vào nội dung ................. 13
1.4. Một số nghiên cứu liên quan................................................................. 14
1.5. Kết luận chương 1 ................................................................................ 17
CHƯƠNG 2 : SỬ DỤNG CÂY DẤU HIỆU TRONG TRA CỨU ẢNH DỰA
VÀO MÀU ................................................................................................. 18
2.1. Các thành phần của mô hình tra cứu .................................................... 18
2.2.Lược đồ cho các dấu hiệu ảnh ............................................................... 20
2.3. Các cây dấu hiệu S-tree ........................................................................ 27
2.3.1. Định nghĩa về các cây dấu hiệu ......................................................... 27
2.3.2. Xây dựng các cây dấu hiệu ................................................................ 30
2.3.3. Tìm kiếm trên các cây dấu hiệu ......................................................... 32
2.3.4. Các cây dấu hiệu cân bằng................................................................. 35
2.3.5. Số trung bình các nút được kiểm tra .................................................. 38
2.4. Kết luận chương 2 ................................................................................ 39


1

CHƯƠNG 3 :ỨNG DỤNG ......................................................................... 40
3.1. Bài toán tra cứu ảnh .............................................................................. 40
3.2. Thiết kế hệ thống .................................................................................. 40
3.2.1. Biểu đồ Use Case của hệ thống.......................................................... 42
3.2.2. Biểu đồ trình tự.................................................................................. 43
3.2.3. Thiết kế CSDL .................................................................................. 45
3.3. Mô tả chương trình ............................................................................... 46
3.4. Đánh giá ............................................................................................... 47
3.5. Kết luận chương 3 ................................................................................ 49



2

Mở đầu
Sự phát triển nhanh chóng các hồ sơ ảnh đã làm tăng đáng kể nhu cầu
cho các cố gắng nhằm mục tiêu tìm các ảnh tương tự hiệu quả trong cơ sở dữ
liệu ảnh lớn. Một chiến lược phổ biến tìm kiếm các ảnh trong một cơ sở dữ
liệu được gọi là truy vấn theo ví dụ (Query by Example - QBE), trong đó truy
vấn được biểu diễn như một mẫu ảnh hoặc một phác thảo của nó và thường
được sử dụng để đưa ra các truy vấn trong hầu hết các hệ thống tra cứu ảnh
dựa vào nội dung (CBIR) như QBIC của IBM, VIR của Virage, và hệ thống
tra cứu ảnh vệ tinh của IBM/NASA.
Một hệ thống CBIR trích rút các đặc trưng trực quan từ một ảnh truy vấn
được cho, sau đó các đặc trưng được sử dụng để so sánh với các đặc trưng của
các ảnh khác được lưu trữ trong cơ sở dữ liệu. Vì thế, hàm tương tự dựa vào
tóm tắt nội dung ảnh hơn là bản thân ảnh. Một điều cần lưu ý rằng một lượng
dữ liệu ảnh tăng nhanh theo thời gian là sẵn có, cách tiếp cận dựa vào chú
thích được hỗ trợ bởi con người như một phương tiện tóm tắt ảnh là không
khả thi. Phân bố màu toàn cục của một ảnh là một đặc trưng được ứng dụng
để tính toán tóm tắt nội dung ảnh. Các đặc trưng mong muốn như độ phức tạp
trích rút thấp, bất biến với quay và dịch chuyển. Thực tế, lược đồ màu toàn
cục (GCH) thường được sử dụng để biểu diễn phân bố màu trong một ảnh.
Khi sử dụng cách tiếp cận GCH, lưu trữ các véc tơ n chiều của một lược
đồ màu cho mỗi ảnh trong cơ sở dữ liệu có thể chiếm không gian lưu trữ đáng
kể. Để cực tiểu các yêu cầu không gian, luận văn sử dụng biểu diễn nén của
các véc tơ này (các dấu hiệu nhị phân).
Song hành với việc sử dụng dấu hiệu nhị phân ở trên, vấn đề hiệu quả
(tìm kiếm các ảnh tương tự nhanh trong cơ sở dữ liệu lớn) là điểm nhấn của
luận văn. Ánh xạ các lược đồ màu lên các điểm trong không gian n chiều là



3

một cách để giải quyết vấn đề, nhưng có một hạn chế nghiêm trọng đó là làm
cho vấn đề tìm kiếm các ảnh tương tự sử dụng cấu trúc truy cập dựa vào đĩa
khó hơn nhiều khi giá trị của n lớn lên. Thực tế, không thông thường để sử
dụng các giá trị của n vượt quá 64. Điều này làm cho việc sử dụng các cấu
trúc truy cập không gian truyền thống như R-tree ít được sử dụng. Để giải
quyết vấn đề này, luận văn sử dụng cây dấu hiệu (S-tree) và thuật toán truy
vấn lân cận gần nhất nhanh trên cây S-tree.
Nội dung luận văn gồm 3 chương:
Chương 1: Giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung
Chương 2: Sử dụng cây dấu hiệu trong tra cứu ảnh dựa vào màu
Chương 3: Ứng dụng.


4

CHƯƠNG 1
TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG
1.1. Đặc trưng
Đặc trưng được xác định như một hàm của một hoặc nhiều phép đo, mỗi
phép đo chỉ rõ một số thuộc tính của một đối tượng và được tính toán sao cho
nó định lượng một số đặc trưng tính chính của đối tượng. Các đặc trưng được
sử dụng hiện nay được phân lớp như sau:
- Các đặc trưng chung: Các đặc trưng độc lập ứng dụng như màu, kết
cấu và hình dạng. Theo mức trừu tượng, chúng có thể được chia tiếp thành:
+ Các đặc trưng mức pixel: các đặc trưng được tính tại mỗi pixel (màu,
vị trí)

+ Các đặc trưng cục bộ: các đặc trưng được tính trên các kết quả của
chia nhỏ ảnh dựa vào phát hiện biên hoặc phân đoạn ảnh.
+ Các đặc trưng toàn cục: các đặc trưng được tính trên toàn bộ ảnh.
- Các đặc trưng lĩnh vực cụ thể: Các đặc trưng phụ thuộc ứng dụng
như mặt người, vân tay và các đặc trưng nhận thức. Các đặc trưng này thường
được tổng hợp hoặc suy diễn từ các đặc trưng mức thấp cho một lĩnh vực cụ
thể.
Mặt khác, tất cả các đặc trưng có thể được phân lớp thô thành các đặc
trưng mức thấp và các đặc trưng mức cao. Các đặc trưng mức thấp có thể
được trích rút trực tiếp từ các ảnh gốc, trong khi trích rút các đặc trưng mức
cao phải dựa trên các đặc trưng mức thấp [1,2, 4].
- Đặc trưng màu: Màu có vai trò quan trọng trong tra cứu ảnh dựa vào
đặc trưng thị giác. Các màu có thể được biểu diễn trong các không gian màu
khác nhau như RGB, HSV,...
Màu là một trong những đặc trưng quan trọng nhất được con người sử
dụng để nhận dạng và phân biệt các đối tượng trực quan. Tuy nhiên, con


5

người chỉ ra khả năng tự nhiên của việc sử dụng các mức đặc tả màu khác
nhau trong các ngữ cảnh khác nhau. Chẳng hạn, con người mô tả một quả táo
màu đỏ, có thể ngụ ý một số loại màu đỏ. Nhưng trong ngữ cảnh mô tả màu
của một chiếc ô tô, một người có thể chọn cụ thể hơn thay vì sử dụng các
thuật ngữ “đỏ, đen” hoặc nâu sẫm. Trích rút màu bằng máy tính được thực
hiện không theo ngữ cảnh. Thiếu tri thức cũng tạo ra sự khó khăn để lựa chọn
thông tin màu từ sự sai lệch màu. Nhìn chung, hình thức màu của các đối
tượng thế giới thực bị biến đổi bởi kết cấu bề mặt, ánh sáng, hiệu ứng bóng và
các điều kiện quan sát. Các hệ thống cơ sở dữ liệu ảnh sử dụng tra cứu theo
màu phải dựa vào các vẫn đề phân tích ảnh màu tự động.

- Đặc trưng kết cấu: Kết cấu là tập các điểm trong một vùng thỏa
mãn ràng buộc hay qui luật nào đó. Đặc trưng này rất quan trọng cho tra
cứu ảnh.
Về cơ bản, các phương pháp biểu diễn kết cấu có thể được chia thành hai
loại: Các phương pháp cấu trúc và các phương pháp thống kê. Các toán tử
được dùng phát hiện cấu trúc bao gồm các toán tử hình thái và đồ thị liền kề
xác định các kết cấu cơ sở và luật phân bố của chúng. Các phương pháp thống
kê bao gồm: Phương pháp phổ năng lượng Fourier, ma trận đồng hiện,
Tamura, Phân tích Wold, trường ngẫu nhiên Markov, mô hình fractal, các bộ
lọc đa phân giải như biến đổi Gabor và biến đổi dạng sóng... thể hiện kết cấu
bằng sự phân bố thống kê của độ sáng của các điểm ảnh.
- Đặc trưng hình dạng: Các đặc trưng hình dạng có quan hệ chặt chẽ
với mô tả vùng hoặc các đối tượng được phân đoạn. Đặc trưng hình dạng
được trích rút từ các đường bao đối tượng hoặc vùng chứa đối tượng.
1.2. Trích rút và biểu diễn đặc trưng
Dữ liệu ảnh thô không được sử dụng trực tiếp trong hầu hết các hệ thống
thị giác máy vì hai lý do: Thứ nhất, tốn nhiều không gian để lưu trữ ảnh và độ
phức tạp tính toán lớn. Thứ hai, nhiều thông tin của ảnh là dư thừa và không


6

hữu ích. Thay vì sử dụng toàn bộ ảnh, chúng ta chỉ cần sử dụng một biểu diễn
quan trọng nhất. Bước tìm biểu diễn được gọi là trích rút đặc trưng và kết quả
của biểu diễn là véc tơ đặc trưng. Trích rút đặc trưng có thể xem như việc ánh
xạ ảnh từ không gian ảnh sang không gian đặc trưng.
1.2.1.Trích rút và biểu diễn đặc trưng màu
Màu của một ảnh được biểu diễn thông qua một số mô hình màu. Các
mô hình màu đã có dùng để mô tả thông tin màu. Một mô hình màu được đặc
tả dưới dạng hệ thống tọa độ ba chiều và và mỗi màu được biểu diễn bằng

một điểm (một khối con trong hệ thống đó).
Các mô hình màu được sử dụng phổ biến là RGB (Red, Green, Blue),
HSV (Hue, Saturation, Value) và Y, Cb, Cr. Vì thế nội dung màu được đặc tả
bởi 3 kênh màu từ mô hình màu nào đó. Một biểu diễn của nội dung màu của
ảnh là lược đồ màu. Về mặt thống kế, nó biểu thị xác suất kết hợp của các
cường độ 3 kênh màu.
Màu được con người cảm nhận bằng một sự kết hợp của ba kích thích
màu: Red, Green, Blue nó tạo ra một không gian màu (Hình 1). Các màu
RGB được gọi là các màu chính và cộng tính. Bằng việc thay đổi các kết hợp
của chúng, chúng ta có thể thu được các màu khác.

Hình 1.1. Không gian màu RGB và HSV.


7

Biểu diễn của không gian HSV (Hình 1) được bắt nguồn từ khối không
gian lập phương RGB với đường chéo chính của mô hình RGB, là trục thẳng
đứng trong HSV. Sắc màu (saturation) thay đổi từ 0.0 đến 1.0, các màu thay
đổi từ không có sắc màu (xám) đến sắc màu (không có thành phần trắng).
Màu (Hue) có phạm vi từ 0 đến 360 độ, bắt đầu là đỏ đến vàng, xanh lá cây,
lục lam, xanh nước biển và quay lại đỏ. Các không gian màu này tương ứng
với mô hình RGB từ đó chúng có thể có nguồn gốc từ các biến đổi tuyến tính
hoặc phi tuyến.
Không gian màu YCbCr được sử dụng trong các chuẩn mã quốc tế JPEG
và MPEG. Trong MPEG-7 không gian màu YCbCr được xác định bởi:

Với một ảnh ba kênh màu, sẽ có ba lược đồ màu như thế. Các lược đồ
được chia thành các bin trong một nỗ lực để biểu diễn thô nội dung và giảm
chiều của pha đối sánh tiếp theo. Sau đó một véc tơ đặc trưng được ta ra bằng

việc kết nối ba kênh màu thành một véc tơ. Với tra cứu ảnh, lược đồ của ảnh
truy vấn được đối sánh với lược đồ của tất cả các ảnh trong cơ sở dữ liệu sử
dụng độ đo nào đó.
Các mô tả màu của các ảnh có thể là cục bộ hoặc toàn cục và gồm một số
mô tả lược đồ và các mô tả màu được biểu diễn bởi các mô men màu, các véc
tơ gắn kết màu và các tương quan màu [3, 5].
Lược đồ màu mô tả phân bố của các màu trong toàn bộ hoặc trong một
vùng quan tâm của ảnh. Lược đồ là bất biến với quay, dịch chuyển và tỉ lệ của
một đối tượng nhưng lược đồ không chứa thông tin ngữ nghĩa và hai ảnh với
các lược đồ màu tương tự có thể có các nội dung khác nhau.
Một lược đồ màu H của một ảnh đã cho được xác định bằng véc tơ
H={h[1], h[2],…h{i},…h[N]} trong đó I biểu diễn một màu trong lược đồ


8

màu, h[i] là số các pixel có màu I trong ảnh đó và N là cố các bin trong lược
đồ màu (tức số các màu trong mô hình màu được dùng).
Để so sánh các ảnh có cỡ khác nhau, các lược đồ màu nên được chuẩn
hóa. Lược đồ màu được chuẩn hóa H’ được xác định với h’[i]=h[i]/XY, ở đây
XY là tổng số các pixel trong một ảnh (các biến còn lại được xác định như
chưa chuẩn hóa).
Độ đo độ tương tự chuẩn được sử dụng cho các lược đồ màu:
- Một lược đồ H(i) được sinh ra cho mỗi ảnh h trong cơ sở dữ liệu (véc
tơ đặc trưng).
- Lược đồ được chuẩn hóa sao cho tổng của nó bằng nhau (loại đi cỡ của
ảnh)
- Sau đó lược đồ được lưu trữ trong cơ sở dữ liệu
Chúng ta có 3 loại độ đo khoảng cách lược đồ cho một lược đồ H(i),
i=1,2,…,N

Các mô men màu đã được sử dụng thành công trong nhiều hệ thống tra
cứu. Các mô men bậc nhất (trung bình), bậc hai (phương sai) và bậc ba (độ
lệch) đã được chứng chứng minh là hiệu quả trong biểu diễn các phân bố màu
của các ảnh.
Mô men màu bậc nhất của thành phần màu thứ k (k=1,2,3) được xác
định bởi:

Trong đó fk(x,y) là giá trị màu của thành phần màu thứ k của pixel ảnh
(x,y) và XY là tổng số pixel trong ảnh.
Mô men thứ h, h=2,3,… của thành phần màu thứ k được xác định bằng:


9

Do chỉ 9 số (ba mô men cho mỗi ba thành phần màu) được sử dụng để
biểu diễn nội dung màu của mỗi ảnh, các mô men màu là một biểu diễn rất
nén (so với các đặc trưng màu khác).
Hàm tương tự được sử dụng cho tra cứu là tổng trọng số của các giá trị
tuyệt đối hiệu giữa các mô men thích hợp
Cho H và G biểu diễn hai lược đồ màu. Giao của các lược đồ được cho
bởi:

Tương quan màu đặc tả các phân bố màu của các pixel và tương quan
không gian của các cặp màu. Cho I là một ảnh gồm các pixel f(I,j). Mỗi pixel
có màu hoặc cấp xám nào đó. Cho [G] là một tập gồm G mức xám g1,
g2,….gG mà có thể xuất hiện trong ảnh. Cho một pixel f, I(f) biểu thị g mức
xám của nó và Ig tương ứng với một pixel f theo đó I(f)=g. Lược đồ cho mức
gx được xác định bởi:

Các độ đo thống kê bậc hai là tương quan và tự tương quan. Cho [D]

biểu thị một tập D khoảng cách d1,d2,…dD. Thì tương quan của ảnh I được
xác định cho mức cặp (gx,gy) tại khoảng cách d

Cho xác suất mà bất cứ pixel f1 của mức gx, một pixel f2 tại khoảng cách
d theo hướng nào đó từ pixel f1 có mức gx.
Tự tương quan thu được tương quan không gian của các mức đồng nhất

1.2.2. Trích rút và biểu diễn đặc trưng kết cấu


10

Kết cấu là một thuộc tính quan trọng khác của các ảnh. Kết cấu là một
mô tả vùng mạnh trợ giúp quá trình tra cứu. Kết cấu, bản thân nó không có
khả năng tìm các ảnh tương tự, nhưng nó có thể được sử dụng để phân lớp các
ảnh kết cấu từ các ảnh không có kết cấu và sau đó được kết hợp với thuộc tính
trực quan khác nhiều màu để làm cho tra cứu hiệu quả hơn.
Kết cấu là một trong các đặc tả quan trọng nhất, được sử dụng để phân
lớp và nhận dạng các đối tượng và được sử dụng để tìm các tương tự giữa các
ảnh trong các cơ sở dữ liệu đa phương tiện.
Về cơ bản, các phương pháp biểu diễn kết cấu có thể được phân lớp
thành hai loại: Cấu trúc và thống kê. Các phương pháp thống kế, gồm phổ
năng lượng Fourier, các ma trận đồng hiện, phân tích thành phần chính bất
biến trượt (SPCA), các đặc trưng Tamura, phân rã Wold, trường ngẫu nhiên
Markov, mô hình fractal và các kỹ thuật lọc đa phân giải như Gabor và biến
đổi wavelet, đặc tả kết cấu bởi phân bố thống kê của cường độ ảnh.
Ma trận đồng hiện C(I,j) mô tả sự đồng hiện của các pixel với các giá trị
mức xám I và j tại một khoảng cách d được cho. Khoảng cách d được xác
định trong các tọa độ cực (d, ), với độ dài và hướng rời rạc. trong thực hành,
 nhận các giá trị 00, 450, 900, 1350, 1800, 2250, 2700 và 3150. Ma trận đồng hiện

C(I,j) có thể được xác định:

ở đây Card{.} biểu thị số các thành phần trong tập.
Cho G là số các giá trị mức xám trong ảnh, thì chiều của ma trận đồng
hiện C(I,j) sẽ là NN.


11

Vậy, độ phức tạp tính toán của ma trận đồng hiện phụ thuộc vào số các
mức xám được sử dụng cho lượng hóa.
Các đặc trưng có thể được trích rút từ ma trận đồng hiện để giảm chiều
không gian đặc trưng và các định nghĩa hình thức của các đặc trưng từ ma
trận đồng hiện được thực hiện.

Ở đây

i được định nghĩa bằng:

j được định nghĩa bằng:

1.2.3. Trích rút và biểu diễn đặc trưng hình dạng


12

Tra cứu ảnh dựa vào hình dạng là đo sự tương tự giữa các hình dạng
được biểu diễn bởi các đặc trưng của chúng. Hình dạng là một đặc trưng trực
quan quan trọng và nó là một trong các đặc trưng chính cho mô tả nội dung
ảnh. Mô tả nội dung hình dạng là khó. Do đó, hai bước là cần thiết trong tra

cứu ảnh dựa vào hình dạng đó là: Trích rút đặc trưng và đo độ tương tự giữa
các đặc trưng được trích rút. Các mô tả hình có thể được chia thành hai loại
chính: Các phương pháp dựa vào đường biên và dựa vào vùng. Các phương
pháp dựa vào vùng sử dụng toàn bộ diện tích của một đối tượng cho mô tả
hình, trong khi các phương pháp dựa vào đường biên chỉ sử dụng thông tin
xuất hiện trong đường biên của một đối tượng.
Các mô tả hình gồm:
Các đặc trưng được tính toán từ đường biên các đối tượng: Hình tròn, tỉ lệ
hình, góc gián đoạn bất thường, chiều dài bất thường, độ phức tạp, góc phải
nhất, sắc nét, hướng. Những điều này là các mô tả hình bất biến tỉ lệ, quay,
dịch chuyển (ngoại trừ góc). Có thể tích rút các đường biên ảnh từ phát hiện
biên. Tự đường biên đối tượng, thông tin hình được suy ra. Chúng ta trích rút
và lưu trữ một tập các đặc trưng hình từ biên ảnh và cho mỗi đường biên riêng
lẻ. Các đặc trưng này (Hình 2) là:

Hình 1.2. Hình dạng và độ đo được sử dụng để tính đặc trưng.


13

- Hình tròn
- Tỉ lệ hình

- Góc gián đoạn bất thường
- Một độ đo được chuẩn hóa của trung bình trị tuyệt đối của hiệu giữa
các góc gián đoạn của các đoạn đa giác với các đoạn liền kề.
1.3. Yêu cầu đối với các hệ thống tra cứu ảnh dựa vào nội dung
Một hệ thống tra cứu ảnh dựa vào nội dung CBIR tiêu biểu không chỉ xử
lý các nguồn thông tin khác nhau ở các khuôn dạng khác nhau (ví dụ, văn
bản, hình ảnh và video) mà còn giải quyết các nhu cầu của người sử dụng. Về

cơ bản, hệ thống phân tích cả các nội dung của nguồn thông tin cũng như các
truy vấn sử dụng, sau đó so sánh các nội dung này để tra cứu các mục tin liên
quan. Các chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung
thường bao gồm:
- Phân tích các nội dung của nguồn thông tin và biểu diễn các nội dung
của các nguồn được phân tích theo cách thích hợp cho so sánh các truy vấn sử
dụng (không gian của nguồn thông tin được biến đổi thành không gian đặc
trưng cho mục tiêu so sánh nhanh trong bước tiếp theo). Bước này thông
thường cần rất nhiều thời gian do nó phải xử lý lần lượt tất cả thông tin nguồn
(các ảnh) trong CSDL. Tuy nhiên, bước này được thực hiện chỉ một lần và có
thể được thực hiện ngoại tuyến.
- Phân tích các truy vấn người sử dụng và biểu diễn chúng ở dạng thích
hợp cho so sánh với CSDL nguồn. Bước này là tương tự với bước trước,
nhưng chỉ được áp dụng với ảnh truy vấn, do đó nó sẽ được thực hiện trực
tuyến.
- Định nghĩa một chiến lược để so sánh các truy vấn tìm kiếm với thông
tin trong CSDL được lưu trữ. Tra cứu thông tin liên quan một cách hiệu quả.


14

Bước này được thực hiện trực tuyến và được yêu cầu rất nhanh. Các kỹ thuật
đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại không gian đặc trưng
để tăng tốc quá trình đối sánh và tra cứu.
- Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng điều
chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ người sử dụng và
các ảnh được tra cứu.
1.4. Một số nghiên cứu liên quan
QBIC [11,14] là một ví dụ cổ điển về một hệ thống tra cứu ảnh dựa vào
nội dung (CBIR), sử dụng một số đặc trưng nhận thức như màu và các quan

hệ không gian. Hệ thống sử dụng cách tiếp cận dựa vào phân hoạch để biểu
diễn màu. Tra cứu sử dụng màu dựa vào màu trung bình Munsell và 5 màu
trội nhất cho mỗi phân hoạch, tức là cả các lược đồ màu toàn cục và cục bộ
được phân tích cho tra cứu ảnh [17]. Do độ đo toàn phương của các khoảng
cách màu đòi hỏi nhiều tính toán, màu trung bình Munsell được sử dụng để
tiền lọc các ảnh ứng cử viên. Hệ thống cũng xác định một độ đo tương tự màu
dựa vào các bin trong lược đồ màu.
Một độ đo tương tự dựa vào các mô men màu được đề xuất trong [22].
Các tác giả đề xuất một biểu diễn màu được đặc tả bởi ba mô men màu bậc
nhất là trung bình màu, phương sai và độ lệch, do đó sinh ra chi phí không
gian thấp. Hàm tương tự được sử dụng cho tra cứu dựa vào tổng trọng số của
trị tuyệt đối của hiệu giữa các mô men tương ứng của ảnh truy vấn và các ảnh
trong tập ảnh. Một cách tiếp cận tương tự cũng được đề xuất bởi Appas và
cộng sự [6], khác biệt chính là ảnh được phân đoạn thành 5 khối (cell) gối lên
nhau. Sử dụng một lưới 44 không gối lên nhau được đề xuất trong [17].
Một kỹ thuật khác tích hợp thông tin màu với tri thức không gian để thu
dấu hiệu ảnh được bàn luận trong [13]. Kỹ thuật dựa trên các bước sau: Bằng
việc sử dụng một lưới các khối tương tự, các tác giả đề xuất một số kinh


15

nghiệm để thu các màu liên quan và phân biệt giữa các màu nền và không nền
(đối tượng).
Một hệ thống đánh chỉ số màu dựa trên trích rút tự động các vùng cục bộ
được trình bày trong [20]. Đầu tiên hệ thống xác định một lựa chọn định
lượng các màu được đánh chỉ số. Tiếp theo, một tập màu nhị phân cho một
vùng được xây dựng dựa vào việc màu có xuất hiện hay là không. Để được
lấy vào đánh chỉ số bởi tập màu, một vùng phải đáp ứng hai yêu cầu sau: Phải
có tối thiểu N các pixel tối thiểu trong một vùng (N là một tham số được xác

định bởi người dùng) và mỗi màu trong vùng phải đóng góp tối thiểu một
phần trăm nào đó vào tổng diện tích của vùng (xác định bởi người dùng). Mỗi
vùng trong ảnh được biểu diễn sử dụng một hộp bao. Thông tin được lưu trữ
cho mỗi vùng gồm tập màu, định danh ảnh, vị trí vùng và cỡ. Do đó, anh truy
vấn không chỉ dựa vào màu mà còn dựa vào quan hệ không gian và cấu tạo
của vùng màu.
Trong [21] các tác giả cố gắng thu sự sắp xếp không gian của các màu
khác nhau trong ảnh, dựa vào việc sử dụng các khối trên ảnh và một số các
lược đồ, phụ thuộc vào số các màu khác nhau có mặt. Bài báo chỉ rõ rằng với
màu trung bình, một ảnh có thể được biểu diễn bởi một số ít các màu và do đó
không gian có thể tiết kiệm khi lưu trữ các lược đồ màu. Hàm tương tự được
sử dụng cho tra cứu dựa vào tổng trọng số của khoảng cách giữa các lược đồ
thu được. Các kết quả thực nghiệm đã chỉ ra rằng kỹ thuật tiết kiệm 55% chi
phí không gian so với các cách tiếp cận dựa vào phân hoạch, trong khi vẫn
tăng độ hiệu quả 38% về mặt tra cứu ảnh.
Pass và cộng sự [18] mô tả một kỹ thuật dựa vào liên kết thông tin không
gian với lược đồ màu sử dụng các véc tơ gắn kết màu (CCVs). Kỹ thuật phân
lớp mỗi pixel trong một thùng màu hoặc là gắn kết hoặc là không, phụ thuộc
vào pixel có lập thành một vùng màu tương tự lớn hay không. So sánh các véc
tơ đặc trưng gắn kết và không gắn kết giữa hai ảnh cho phép một phân biệt


16

tương tự mịn hơn nhiều khi sử dụng các lược đồ màu. Lưu ý rằng sử dụng
CCVs sẽ có hai lược đồ cho mỗi ảnh (một cho các màu gắn kết và một cho
các màu không gắn kết); mỗi lược đồ lớn như lược đồ màu toàn cục (GCH).
Các tác giả so sánh các kết quả thực nghiệm của họ với các kỹ thuật khác
nhau chỉ ra kỹ thuật của họ sinh ra một cải tiến đáng kể trong hiệu năng tra
cứu.

Các đề xuất gần đây gồm [16] và [24]. Lin đề xuất một phương pháp dựa
vào sự tương tự đa chính xác. Ý tưởng là phân hoạch đệ qui ảnh thành một số
khối không gối lên nhau, với mỗi khối véc tơ trung bình được mã hóa. Điều
này đưa vào bản miêu tả ảnh phân bố không gian của các màu cũng như cho
phép truy vấn các ảnh con. Tuy nhiên, không có bằng chứng phương pháp có
cải tiến độ chính xác tra cứu hay không. Cuối cùng, SIMPLIcity của Wang sử
dụng một cách tiếp cận dựa vào wavelet để trích rút các đặc trưng, có thể
phân đoạn các ảnh theo thời gian thực. Trong số nhiều đặc trưng có thể sử
dụng để đo sự tương tự, hệ thống sử dụng một lược đồ đối sánh vùng toàn
cục, nhằm mục tiêu tăng cường phân đoạn yếu.
Các ảnh được ánh xạ vào không gian đặc trưng nhiều chiều. Không gian
này có thể được ánh xạ vào không gian Euclide và các cấu trúc truy cập
không gian [13] có thể được sử dụng. Mặc dù các cấu trúc truy cập không
gian điển hình không phù hợp cho nhiều chiều (R*-trees [7] ), các đề xuất gần
đây đã được thực hiện như X-tree [8], SS-tree [25] và SR-tree [15]. X-tree sử
dụng khái niệm về siêu nút để cực tiểu sự gối nhau giữa diện tích được phủ
bởi các cây con khác nhau; nó được chỉ ra là hiệu quả hơn R-tree. Không như
R*-tree, nó sử dụng các hộp bao tối thiểu để biểu diễn diện tích được phủ bởi
một cây con, SS-tree sử dụng các hình cầu bao tối thiểu và được chỉ ra thực
hiện tốt hơn R*-tree. Chúng ta không biết bất cứ nghiên cứu nào so sánh trực
tiếp X-tree với SS-tree. SR-tree tận dụng thực tế rằng có các hộp và hình cầu
với các nút trong để giảm gối nhau giữa diện tích được phủ bởi các cây con.


17

Nó được báo cáo là hiệu quả hơn cả R*-tree và SS-tree và đã được quan tâm
như cấu trúc truy cập tốt nhất cho dữ liệu nhiều chiều.
Mặc dù đối với một số trường hợp, nó là không tầm thường để ánh xạ
không gian đặc trưng vào không gian Euclide. Với các tình huống đó sử dụng

các không gian metric thường là một giải pháp tốt. Các nghiên cứu gần đây
trên các cấu trúc truy cập cho đánh chỉ số các không gian metric là M-tree [9]
và Slim-tree [23]. Một chủ đề chính cho một cây độ đo hiệu quả là một độ đo
khoảng cách không phức tạp về tính toán và chính xác. Không may, một độ
đo chính xác thường là phức tạp về tính toán.
Một nghiên cứu về hiệu quả (chi phí lưu trữ và thời gian xử lý) sử dụng
R*-tree, SS-tree,SR-tree và M-tree được thực hiện trong [10]. Các kết luận
chính đó là: SR-tree là hiệu quả nhất trong 4 cấu trúc truy cập trong đối phó
tốt hơn với sự gia tăng chiều không gian; SR-tree cũng có thể nhận ưu điểm
với các nút lớn.
1.5. Kết luận chương 1
Chương này đã trình bày khái quát về đặc trưng ảnh, trích rút và biểu
diễn đặc trưng, các yêu cầu đối với một hệ thống tra cứu ảnh dựa vào nội
dung và một số nghiên cứu liên quan chính đến đề tài này. Trong chương, đã
nhấn mạnh đến trích rút và biểu diễn đặc trưng gồm màu, hình dạng và kết
cấu, đặc biệt nhấn mạnh vào trích rút và biểu diễn đặc trưng màu.


×