Tải bản đầy đủ (.pdf) (27 trang)

Tìm hiểu phương pháp tra cứu ảnh theo nội dung

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (434.41 KB, 27 trang )

Đại học Thái Nguyên
Khoa công nghệ thông tin

Lê Hồng Phong

Tìm hiểu ph-ơng pháp tra cứu ảnh
theo nội dung

Luận văn thạc sĩ công nghệ thông tin

Thái Nguyên - 2010


Đại học Thái Nguyên
Khoa công nghệ thông tin

Lê Hồng Phong

Tìm hiểu ph-ơng pháp tra cứu ảnh
theo nội dung
Chuyên ngành : Khoa học máy tính
Mã số
: 60.48.01

Luận văn thạc sĩ công nghệ thông tin

Ng-ời h-ớng dẫn khoa học
PGS.TS Ngô Quốc Tạo

Thái Nguyên - 2010



LỜI CAM ĐOAN

Tôi xin cam đoan toàn bộ nội dung bản luận văn theo đúng nội dung đề
cương cũng như nội dung mà cán bộ hướng dẫn giao cho. Nội dung luận văn này là
do tôi tự sưu tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài.
Nội dung luận văn này chưa từng được công bố hay xuất bản dưới bất kỳ
hình thức nào và cũng không được sao chép từ bất kỳ một công trình nghiên cứu
nào.
Tất cả phần mã nguồn của chương trình đều do tôi tự thiết kế và xây dựng,
trong đó có sử dụng một số thư viện chuẩn và các thuật toán được các tác giả xuất
bản công khai và miễn phí trên mạng Internet.
Nếu sai tôi xin tôi xin hoàn toàn chịu trách nhiệm.

Thái Nguyên, tháng 10 năm 2010
Người cam đoan

Lê Hồng Phong

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




DANH MỤC CÁC CHỮ VIẾT TẮT
Chữ

Dạng đầy đủ

viết tắt

PWT

TWT

Nghĩa tiếng Việt

Pyramid-structured Wavelet

Biến đổi dạng sóng kiểu hình

Transform

chóp

Tree-structure Wavelet Transform

Biến đổi dạng sóng kiểu hình
cây

SAR

Simultaneous Auto Regressive

Tự thoái lui đồng thời

MRF

Markov Random Field

Trƣờng ngẫu nhiên Markov


DC

Direct Current

Thành phần một chiều

AVR

Average Rank

Thứ hạng trung bình

MRR

Modified Retrieval Rank

Thứ hạng tra cứu sửa đổi

Average Normalized Modified

Thứ hạng tra cứu sửa đổi và

Retrieval Rank

chuẩn hoá trung bình

GCH

Global Color Histogram


Biểu đồ màu toàn cục

LCH

Local Color Histogram

Biểu đồ màu cục bộ

ANMRR

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




1

MỞ ĐẦU
Những năm gần đây, ảnh số ngày càng thu hút đƣợc sự quan tâm của nhiều
ngƣời, một phần là do các thiết bị thu nhận ảnh số ngày càng phổ biến và có giá cả
phù hợp, cho phép nhiều ngƣời có thể sở hữu và sử dụng. Mặt khác các công nghệ
chế tạo thiết bị lƣu trữ luôn đƣợc cải tiến để cho ra đời các thiết bị lƣu trữ có dung
lƣợng lớn và giá thành hạ làm cho việc lƣu trữ ảnh dƣới dạng các file trở nên phổ
biến. Thêm nữa là sự phát triển của mạng Internet làm cho số lƣợng ảnh số đƣợc
đƣa lên lƣu trữ và trao đổi qua Internet là rất lớn.
Tuy nhiên khi số lƣợng ảnh đƣợc lƣu trữ trở nên rất lớn thì vấn đề là phải có
những phƣơng pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm
kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt.
Việc tìm kiếm đƣợc một bức ảnh mong muốn trong hàng triệu bức ảnh thuộc

đủ loại chủ đề khác nhau là rất khó khăn.
Khi số lƣợng ảnh trong một bộ sƣu tập còn ít, việc nhận diện một bức ảnh
hay việc so sánh sự giống và khác nhau giữa nhiều bức ảnh có thể thực hiện đƣợc
bằng mắt thƣờng, tuy nhiên khi có số lƣợng rất lớn ảnh thì việc so sánh bằng mắt
thƣờng là rất khó khăn, đòi hỏi phải có những phƣơng pháp hiệu quả và chính xác
hơn.
Trong thực tế, bài toán tra cứu ảnh số có rất nhiều ứng dụng quan trọng. Ví
dụ nhƣ trong lĩnh vực ngân hàng việc so sánh chữ ký của khách hàng với mẫu chữ
ký đã đƣợc lƣu trữ sẵn có thể thực hiện rất nhanh và chính xác nếu có đƣợc một
phần mềm so sánh mẫu chữ ký tốt. Thực tế hiện nay tại các ngân hàng ở Việt nam
ngƣời ta vẫn phải sử dụng phƣơng pháp so sánh bằng mắt thƣờng vì việc so sánh
chữ ký bằng phần mềm vẫn chƣa thực hiện đƣợc. Một ví dụ khác là bài toán quản lý
biểu trƣng (logo) trong lĩnh vực sở hữu trí tuệ. Khi một đơn vị muốn đăng ký logo
riêng cho đơn vị của mình thì cơ quan quản lý phải tiến hành đánh giá xem mẫu
logo đó đã đƣợc sử dụng hay chƣa hoặc có tƣơng tự với mẫu logo nào đó đang đƣợc
sử dụng hay không. Trong trƣờng hợp này nếu sử dụng mắt thƣờng để duyệt thì sẽ
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




2

tốn rất nhiều thời gian, nếu có các phần mềm cho phép tìm kiếm trong cơ sở dữ liệu
ảnh có sẵn những biểu trƣng tƣơng tự với biểu trƣng mẫu thì việc đánh giá sự tƣơng
tự sẽ dễ dàng hơn nhiều.
Các ứng dụng phức tạp hơn nhƣ so sánh mẫu vân tay, tìm kiếm ảnh tội phạm
v.v... là những bài toán tra cứu ảnh đƣợc áp dụng trong ngành khoa học hình sự.
Vì vậy, việc xây dựng các hệ thống tìm kiếm và xếp hạng ảnh là rất cần
thiết và thực tế đã có nhiều công cụ tìm kiếm ảnh thƣơng mại xuất hiện. Các công

cụ tìm kiếm ảnh thƣờng dựa vào hai đặc trƣng chính là văn bản đi kèm ảnh hoặc nội
dung ảnh.
Trƣớc năm 1990, ngƣời ta thƣờng sử dụng phƣơng pháp tra cứu ảnh theo văn
bản (Text Based Image Retrieval). Theo cách này ngƣời ta sẽ gán cho mỗi bức ảnh
một lời chú thích phù hợp với nội dung hoặc một đặc điểm nào đó của ảnh, sau đó
việc tra cứu ảnh đƣợc thực hiện dựa trên những lời chú thích này. Phƣơng pháp này
khá đơn giản. Tuy nhiên, việc tìm kiếm chỉ dựa vào văn bản đi kèm còn có nhiều
nhập nhằng giữa nội dung hiển thị ảnh và nội dung văn bản đi kèm ảnh trong quá
trình tìm kiếm. Ví dụ, với truy vấn “Apple”, máy tìm kiếm khó phân biệt đƣợc
ngƣời dùng muốn tìm hình ảnh quả táo hay logo của hãng Apple. Bên cạnh đó
phƣơng pháp tra cứu ảnh dựa theo văn bản không thể áp dụng để tra cứu các cơ sở
dữ liệu ảnh có số lƣợng ảnh lớn và kết quả tra cứu thì mang tính chủ quan và cảm
ngữ cảnh. Một số công cụ tìm kiếm ảnh theo văn bản đi kèm nhƣ: google Image
Search, Yahoo!, MSN,…
Một trong những phƣơng pháp đƣợc nhiều ngƣời quan tâm nghiên cứu hiện
nay là phƣơng pháp “Tra cứu ảnh dựa theo nội dung” (Content Based Image
Retrieval). Ý tƣởng phƣơng pháp này là trích chọn các đặc điểm dựa vào nội dung
trực quan của ảnh nhƣ màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh
để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh. Một số hệ thống
tra cứu ảnh nổi tiếng nhƣ QBIC (IBM), Virage (Virage Inc.), Photobook (MIT),

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




3

VisualSEEK (Columbia University)... đã áp dụng khá thành công phƣơng pháp tra
cứu này. [7],[16],[17]

Nội dung của đề tài này giới thiệu cơ sở lý thuyết và các ứng dụng chính của
một số phƣơng pháp tra cứu ảnh, trong đó đi sâu vào giới thiệu phƣơng pháp tra cứu
ảnh theo nội dung. Trên những cơ sở đó tiến hành thử nghiệm một phƣơng pháp cụ
thể để xây dựng một chƣơng trình phần mềm tra cứu ảnh cho phép đọc vào một ảnh
mẫu và tìm kiếm những ảnh tƣơng tự với ảnh mẫu trong một tập hợp các ảnh cho
trƣớc theo hai đặc điểm là hình dạng và màu sắc của ảnh.
Nội dung luận văn ngoài phần mở đầu gồm có ba chƣơng:
Chương 1: Trình bày tổng quan vấn đề tra cứu ảnh, giới thiệu sơ lƣợc một số
phƣơng pháp tra cứu ảnh và một số hệ thống tra cứu ảnh tiêu biểu.
Chương 2: Giới thiệu chi tiết về một số phƣơng pháp trích chọn đặc trƣng
ảnh.
Chương 3: Giới thiệu một ứng dụng của phƣơng pháp tra cứu ảnh theo nội
dung; những hạn chế và khả năng mở rộng của chƣơng trình ứng dụng đó.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




4

CHƢƠNG I: TỔNG QUAN VỀ TRA CỨU ẢNH
1.1. Tra cứu ảnh
Những năm gần đây, vấn đề tra cứu ảnh số nhận đƣợc sự quan tâm ngày
càng lớn. Nguyên nhân một phần là do sự phát triển của công nghệ chế tạo thiết bị
thu nhận và lƣu trữ ảnh số cũng nhƣ sự phát triển mạnh mẽ của mạng Internet.
Ngƣời sử dụng trong nhiều lĩnh vực khác nhau có cơ hội để truy cập và sử dụng các
kho lƣu trữ ảnh thuộc đủ loại chủ đề và với nhiều kiểu định dạng ảnh khác nhau.
Tuy nhiên ngƣời ta cùng nhận thấy rằng việc tìm đƣợc một bức ảnh mong muốn
trong bộ sƣu tập ảnh đa dạng có kích thƣớc lớn là rất khó khăn.

Tra cứu ảnh là một quá trình tìm kiếm trong một cơ sở dữ liệu ảnh những
ảnh thoả mãn một yêu cầu nào đó. Ví dụ, ngƣời sử dụng có thể tìm kiếm tất cả các
ảnh về chủ đề về biển trong một cơ sở dữ liệu ảnh hoặc một ngƣời sử dụng khác lại
muốn phân loại cơ sở ảnh của mình thành các bộ sƣu tập có chủ đề khác nhau. Một
ví dụ khác về tra cứu ảnh là một ngƣời muốn tìm tất cả các ảnh tƣơng tự với một
bức ảnh mẫu nào đó trong một cơ sở dữ liệu ảnh.
Vấn đề tra cứu ảnh đã đƣợc nhìn nhận rộng rãi và việc tìm kiếm các giải
pháp cho vấn đề này trở thành một lĩnh vực rất sôi động, thu hút sự quan tâm của
nhiều nhà nghiên cứu và phát triển.
Những kỹ thuật tra cứu ảnh số đã đƣợc nghiên cứu từ cuối những năm 70 của
thế kỷ 20. Năm 1979 một cuộc hội thảo chuyên đề về "Các kỹ thuật tổ chức cơ sở
dữ liệu cho các ứng dụng đồ hoạ" đƣợc tổ chức ở thành phố Florence, Italia. Từ đó
đến nay, khả năng ứng dụng cao của các kỹ thuật quản lý cơ sở dữ liệu ảnh đã thu
hút sự quan tâm của nhiều nhà nghiên cứu [7].

1.2. Mô hình hệ thống tra cứu ảnh theo nội dung
Phƣơng pháp tra cứu ảnh theo nội dung (Content-Based Image Retrieval) sử
dụng các nội dung trực quan của ảnh nhƣ màu sắc, hình dạng, kết cấu (texture) và
phân bố không gian để thể hiện và đánh chỉ số các ảnh [7]. Trong một hệ thống tra

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




5

cứu ảnh theo nội dung điển hình (hình vẽ 1.1) các nội dung trực quan của ảnh đƣợc
trích chọn và mô tả bằng những véctơ đặc trƣng nhiều chiều. Tập hợp các véctơ đặc
trƣng của các ảnh trong một cơ sở dữ liệu ảnh tạo thành cơ sở dữ liệu đặc trƣng.

Quá trình tra cứu ảnh đƣợc tiến hành nhƣ sau: ngƣời sử dụng cung cấp cho hệ thống
tra cứu một ảnh mẫu cụ thể hoặc hình vẽ phác thảo của đối tƣợng ảnh cần tìm. Sau
đó hệ thống sẽ chuyển những mẫu này thành các véc tơ đặc trƣng và tính toán sự
giống nhau (hay độ tƣơng tự) giữa véc tơ đặc trƣng của ảnh mẫu và véc tơ đặc trƣng
của các ảnh trong cơ sở dữ liệu. Sau cùng việc tra cứu đƣợc tiến hành với sự trợ
giúp của các sơ đồ đánh chỉ số. Sử dụng sơ đồ đánh chỉ số là cách hiệu quả để tìm
kiếm trong các cơ sở dữ liệu ảnh. Một số hệ thống tra cứu ảnh mới phát triển gần
đây còn tích hợp cả chức năng xử lý phản hồi của ngƣời sử dụng để cải tiến các qui
trình tra cứu và ra những kết quả tra cứu tốt hơn.

Phản hồi thích
hợp
Người
sử
dụng
Tạo truy vấn

Cơ sở Dữ liệu
ảnh

Mô tả
Nội dung
Trực quan
Mô tả
Nội dung

Các Vector
Đặc trƣng
Đánh giá độ
tƣơng tự

Cơ sở Dữ liệu
Đặc trƣng
Tra cứu và
Đánh chỉ số

Trực quan

Đầu ra

Kết quả tra
cứu

Hình 1.1: Mô hình hệ thống Tra cứu ảnh theo nội dung

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




6

Trong mô hình này, ngƣời sử dụng sẽ tạo truy vấn bằng cách chọn một ảnh
mẫu trong một cơ sở dữ liệu ảnh cho trƣớc hoặc phác thảo một hình vẽ mô tả đối
tƣợng ảnh cần tìm bằng cách sử dụng một giao diện đồ hoạ của hệ thống.
Ảnh mẫu đó đƣợc đƣa qua khối mô tả nội dung trực quan, trong đó ngƣời ta
sử dụng một phƣơng pháp mô tả nội dung trực quan nào đó để trích chọn một đặc
điểm nội dung trực quan để xây dựng thành một véc tơ đặc trƣng.
Véc tơ đặc trƣng của ảnh mẫu sẽ đƣợc so sánh với véc tơ đặc trƣng tƣơng
ứng của các ảnh trong cơ sở dữ liệu ảnh. Kết quả của phép so sánh là một chỉ số
đánh giá độ tƣơng tự giữa ảnh mẫu và ảnh lấy ra để so sánh.

Dựa vào chỉ số độ tƣơng tự tính toán đƣợc ở trên, hệ thống sẽ sắp xếp các
ảnh tìm đƣợc trong cơ sở dữ liệu ảnh theo một sơ đồ đánh chỉ số nào đó. Danh sách
các ảnh tìm đƣợc (đã đƣợc sắp xếp) đƣợc đƣa ra đầu ra của hệ thống.

1.3. Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu
1.3.1. Hệ thống QBIC (Query By Image Content)
Hệ thống QBIC của hãng IBM là một hệ thống tra cứu ảnh thƣơng mại đầu
tiên và nổi tiếng nhất trong số các hệ thống tra cứu ảnh dựa trên nội dung. Nó cho
phép ngƣời sử dụng tra cứu ảnh dựa vào màu sắc, hình dạng và kết cấu. QBIC cung
cấp một số phƣơng pháp: Simple, Multi-feature, và Multi-pass. Trong phƣơng pháp
truy vấn Simple chỉ sử dụng một đặc điểm. Truy vấn Multi-feature bao gồm nhiều
hơn một đặc điểm và mọi đặc điểm đều có trọng số nhƣ nhau trong suốt quá trình
tìm kiếm. Truy vấn Multi-pass sử dụng đầu ra của các truy vấn trƣớc làm cơ sở cho
bƣớc tiếp theo. Ngƣời sử dụng có thể vẽ ra và chỉ định màu, kết cấu mẫu của hình
ảnh yêu cầu. Trong hệ thống QBIC màu tƣơng tự đƣợc tính toán bằng độ đo bình
phƣơng sử dụng biểu đồ màu k phần tử và màu trung bình đƣợc sử dụng nhƣ là bộ
lọc để cải tiến hiệu quả của truy vấn [4].

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




data error !!! can't not
read....


data error !!! can't not
read....



data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....



data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....



data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....



×