ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHỆ
ĐINH ĐỨC HÙNG
NGHIÊN CỨU MỘT SỐ KĨ THUẬT Hỗ TRỢ
• m m
TÌM KIẾM ẢNH THEO NỘI DUNG
Chuyên ngành: Công nghệ Thông tin
Mã số: 1.01.10
LUẬN VĂN THẠC sĩ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS TS NGÔ QUỐC TẠO
Hà n ộ i-2003
ị i)ĨW
HOC C.UÓCGiA MA
2
MỤC LỤC
LỜI CẢM ƠN
.
.
1
Chương 1 TỔNG QUAN VỀ TRA ctnu ẢNH
.
5
1.1. Giới thiệu về xử lí ảnh
.
5
ỉ . 1 .1. C á c g ia i đ o ạn tro n g x ử l í ả n h
.
.
5
L 1 .2 . M ộ t s ố k h á i n iệ m tro n g x ử l í ả n h 7
1.2.
Giới thiệu về tìm kiếm ảnh
.
8
L3. Mục tiêu của luận văn
.
10
1.4. Kết luận •••••••••••:
••••••••••••••••••••"••••••••••••• 11
Chương 2 MỘT số KĨ THUẬT CHUNG VỀ TÌM KIẾM ẢNH THEO NỘI DUNG. 12
21. Giới thiệu
_____
____
___________________
-•••••••••••••• 12
2.2. Phạm vi của tìm kiếm ảnh theo nội 12
2.2.7. P hân lo ạ i th eo ứng dụ ng 12
2.2.2. V ùng ảnh và lỗ hổng cảm g iác 13
2 .2 .3. T r i thứ c vù n g
.
14
2.3. Biểu diễn nội dung ảnh, xử lí ảnh 16
2 .3 .L Xử lí m àu s ắ c 17
2 .3.2 . Xử lí hình d ạng cục bộ
17
2 .3 .3. X ử lí cấu trú c ả n h 18
2 3 .4 . K ết lu ậ n 18
2A.
Thể hiện nội dungỉ Các đặc trư n g .""""
.
18
2 .4.1 . G ộp d ữ liệ u 19
2 .4.2 . C á c đ ặ c trư n g 19
2 .4 .3 . M ô tả cấ u tr ú c 21
2.5. Sự thể hiện và độ tương tự ••••••••••••••••••••
.
22
2 .5 .1 . T h ể h iệ n n g ữ n g h ĩa 22
2.5.2. Đ ộ tương tự 22
2 .5.3 . T hảo luận v ề s ự th ể h iện và độ tương t ự
25
2.6. Tương tác :
:
.
.
25
2.6 .1. K hông gian tru y v ấ n 25
2.6 .2. H iển th ị không gian tru y v ấ n
.
26
2 .6 .3. Tư ơng tá c vớ i không gian tru y vấ n 27
2.6.4. K ết lu ậ n 27
2.7* Hệ thống •••••••••••••••••••••••••••••• 28
2.7.7. Lưu tr ữ và đá nh ch ỉ s ố
.
28
2 .7.2 . K iến trú c h ệ thố n g 29
2 .7.3 . Đ án h g iá h ệ th ố n g 29
2 7 .4 . K ế t lu ậ n 31
2.8 Một số kết luận chung 31
3
Chlĩơng 3 HAI Kĩ THUẬT Hỗ TRỢ TÌM KIẾM ẢNH THEO NỘI DUNG
3.1. Giới thiệu
.
.
.
3.2. Kĩ thuật phân đoạn ảnh sử dụng kì vọng lớn nhất
3 .2.1. T rích chọn cá c đ ặc trư n g
3 .2 .2 . N h óm các điểm ản h thành các vù n g
3 2 3 . B iểu d iễn các v ù n g
.
3.3. Kĩ thuật so khớp theo qui hoạch động
.
.
3 .3.1 . B iểu diễn h ình d ạng trong D P
3 3 2 , C ác trường hợp cần so kh ớ p
3 .3.3 . B ảng qui ho ạch động (DP ta b le )
3 .3 .4 . Đ ánh giá so khớp bằ ng hàm kh oả ng c á c h
.
3 3 .5 . C ác yếu tố ảnh hưởng đến giá so k h ớ p
Chương 4 ÚNG DỤNG TRONG TÌM KIẾM ẢNH THEO NỘI DUNG ••••••
4丄 Giới thiệu
.
.
.
4.2. ứng dụng của k ĩ thuật phàn đoạn sử dụng kì vọng lớn nhất
4.3 . ứ n g d ụng k ĩ th u ậ t q u i ho ạch đ ộ n g
4 .3 .1 . Q u á trìn h so k h ớ p
KẾT LUẬN VÀ KIẾN NGHỊ
TÀI LIỆU THAM KHẢO
.
PHỤ LỤC
.
.
34
34
34
34
38
4 0
41
41
42
43
4 5
46
50
50
50
52
52
57
58
60
4
DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ
Bảng 1 : Ba sự phân loại theo mục đích của các hệ thống tìm kiếm ảnh
theo nội dung 13
Bảng 2: So sánh vùng rộng và vùng h ẹ p
14
Hình 1 : Các giai đoạn chính trong xử lí ảnh
.
5
Hình 2: Các thành phần của một hệ thống xử lí ảnh 6
Hình 3: Các nguồn tri thức chung theo thứ tự bằng nhau
15
Hình 4: Các module xử lí ảnh 16
Hình 5: Các cách khác nhau để nhóm dữ liệu ảnh 18
Hình
6
: Sơ đổ k ĩ thuật phân đoạn ảnh sử dụng kì vọng lớn nhất 34
Hình 7: Các cửa sổ khởi tạo thuật toán EM 37
(a)K = 2 ,(b )K = 3,(c)K = 3và(d)K = 4, (e) K= 5.
Hình 8: Ví dụ vể một bảng DP với
;
VI=5 (shape A) và A)=7 (shape B)
44
s,X và T là các ô trong phần khởi động, tính toán và kết thúc.
Hình 9: Các con số hình học cho việc định nghĩa độ quan trọng cùa đoạn 46
Hình 10: Tóm tắt thuật toán so khớp
53
Hình 11 : Các trường hợp biểu diễn đường cong 55
Aj là đường cong ban đầu, A2 là đường cong đối xứng,
A3 minh hoạ quá trình duyệt theo hướng ngược lại
và A4 là đối xúng của Aj với hướng duyệt ngược ỉại.
5
TỔNG QUAN VỂ TRA c ứ u ẢNH
1丄 Giới thiệu về xử lí ảnh
Trong những năm gần đây, cùng với sự phát triển như vũ bão của các
ngành Khoa học K ĩ thuật nói chung đặc biệt là Công nghệ Thông tin thì x ử lí
ảnh, m ột Khoa học của Công nghệ Thông tin thuộc chuyên ngành T rí tuệ nhân
tạo đã có những phát triển và ứng dụng đáng kể trong nhiều ĩĩn h vực khác
nhau. Khoâ học xử lí ảnh so với nhiều ngành khoa họe khác còn tương đối
m ới mẻ, nhất là trên quy mô công nghiệp, x ử lí ảnh cũng đã thu được nhiều
kết quả và ứng dụng lớn ở V iệ t nam cũng như rất nhiều nước trên thế giới.
Các giai đoạn trong xử lí ảnh
Chương 1
Bài toán xử lí ảnh bao gồm các giai đoạn tổng quát như sau [1]:
Hình 1: Các giai đoạn chính trong xử lí ảnh
• Thu nhận ảnh: ảnh có thể được thu nhận qua camera nó có thể là tín
hiệu tương tự cũng có thể là tín hiệu số. Ngoài ra ảnh cũng có thể được
thu nhận từ vệ tinh thông qua các bộ cảm ứng (sensor), hoặc tranh ảnh
được quét bằng scanner,
• Ảnh sau khi được thu nhận có thể được số hoá để lưu trữ hoặc sẽ được
♦ 攀 • • •
phân tích trong giai đoạn tiếp theo (phân tích ảnh. Phân tích ảnh gồm
6
nhiẻu giai đoạn nhỏ hơn: tăng cường, nâng cao chất lượng ảnh (khắc
phục những thiếu xót của quá trình thu nhận ảnh như: nhiểu, méo.v.v),
làm nổi bật những đặc trưng chính của ảnh hoặc làm cho ảnh trở về tình
trạng ban đầu.v.v.x tiếp theo là việc phát hiện các đặc trưng của ảnh
như: biên, vùng ảnh,trích chọn các đặc trưng của ảnh.
• Cuối cùng ảnh sẽ được nhận dạng, phân lớp hoặc phục vụ cho các mục
đích khác nhau.
Đé xử lí các quá trình trên đây thì m ột hệ thống xử lí ảnh bao gồm m ột
số thành phần sau đây (phần cứng) [
1
]:
Hình 2: Các thành phần của m ột hệ thống xử lí ảnh
• Camera: cũng giống như con mắt của hệ thống. Camera có hai loại: loại
CCIR ứng với chuẩn CCIR quét ảnh vớ i tần số 1/25,m ỗi ảnh gồm 625
dòng; loại CCD gồm các photo điố t tương ứng m ột cường độ sáng tại
m ột điểm ảnh ứng với m ột phần tử ảnh (pixel).
• Bộ xử lí tương tự (analog processor) thực hiện các chức năng:
- Chọn camera thích hợp nếu hệ thống có nhiều camera.
一 Chọn màn hình hiển th ị tữi hiệu*
« • • •
7
- Thu nhận tín hiệu video bởi bộ số hoá (digitalize r). Thực hiện lấy
mẫu và mã hoá.
一
Tiển xử lí ảnh khi thu nhận.
• Bộ xử lí ảnh số gồm nhiều bộ xử lí chuyên dụng: xử lí lọc, trích chọn
đường bao, nhị phân hoá ảnh.
• Máy chủ đóng vai trò điểu khiển các thành phần nêu trên.
• Bộ nhớ ngoài: lưu trữ dữ liệu ảnh cũng như các kiểu dữ liêu khác, để có
thể chuyển giao cho quá trình khác.
1.1.2. Một số khái niệm trong xử lí ảnh.
• Pixel (phần tử ảnh hay điểm ảnh): Để xử lí được ảnh bằng máy tính điện
tử cần số hoá nó hay nói cách khác là biến đổi các ảnh từ tín hiệu liên
tục sang tín hiệu rời rạc thông qua việc lấy mẫu và lượng tử hoá. Trong
quá trình này người ta sử dụng khái niệm pixel. M ỗi pixel được đặc
trưng bởi cặp toạ độ (x ,y) và màu sắc của nó.
• Ảnh là một tập hợp các pixel (điểm ảnh) ta có thể coi ảnh là một mảng
hai chiếu I(n ,p) có n dòng và p cột, với ảnh này sẽ có nxp pixel. Ta k í
hiệu I(x ,y) để chỉ m ột pixel.
• Mức xám (Gray level): đó là kết quả cua việc mã hoá ứng với một
cường độ sáng của m ỗi điểm ảnh với m ột giá trị số. Thông thường ảnh
được mã hoá dưới dạng 16,32 hay 64 mức.
• Biẻu diển ảnh: trong biểu diễn ảnh người ta ữiường đùng các phần tử
đặc trưng của ảnh là pixel. M ột hàm hai biến chứa các thông tin như
m ột biểu diẽn ảnh. M ộ t số mô hình thường dùng để biểu diẽn ảnh là:
mô hình toán (biểu diễn ảnh nhờ các hàm cơ sở ), mô hình thống kê (ảnh
8
được coi như m ột phần tử của m ột tập hợp đặc trưng bởi kì vọng toán,
hiệp biến, phương sai, moment V.V.).
• Tăng cường ảnh: đây là một bước tiền xử lí quan trọng bao gồm các k ĩ
thuật lọc độ tương phản, khử nhiễu, nổi màu.v.v.
• Biến đổi ảnh (Image Transform ) nói tới một lớp các ma trận đơn vị và
các k ĩ thuật dùng để biến đổi ảnh: Biến đổi Fourier, Sin, Cosin, tích
Kronecker, biến đổi Karhumen Loeve.v.v.
• Phân tích ảnh: liên quan đến việc xác đinh các độ đo đinh lượng của
m ột ảnh để đưa ra một mô tả đầy đủ về ảnh. Có nhiều k ĩ thuật hổ trợ
phân tích ảnh: xác định biên của ảnh, các k ĩ thuật lọc vi phân, dò theo
quy hoạch động, các k ĩ thuật phân vùng ảnh dựa trên các tiêu chuẩn
đánh giá về màu sắc,cường độ.v.v.
• Nhận dạng ảnh: quá trình này liên quan đến các mô tả đối tượng mà
người ta muốn đặc tả nó. Nhận dạng ảnh thường đi sau quá trình trích
chọn các đặc trưng chủ yếu của đối tượng.
• Tra cứu ảnh (hay tìm kiếm ảnh): để có thể tra cứu được ảnh cũng cần
mô tả được ảnh như trong quá trình nhận dạng ảnh. Tra cứu ảnh có
nhiệm vụ tìm được ảnh theo yêu cầu của người sử dụng. Nhiều hệ thống
nhận dạng và tra cứu ảnh đã được nghiên cứu rất thành công trong
những năm gần đây [13].
• Nén ảnh: nhằm giảm kích cỡ ảnh để có thể truyền tải ảnh qua mạng hay
để giảm bộ nhớ lưu trữ giữ liệu ảnh [
1
].
1.2.
Giới thiệu về tìm kiếm ảnh.
Gần đây có một sự bùng nổ mạnh mẽ về thông tin, nhiều cơ sở dữ liệu
đã được xây dựng [13]. Nó là nguồn tài sản vô cùng quý giá đối với nhiều
9
ngành kinh tế cũng như nhiều ngành khoa học k ĩ thuật. Tuy nhiên, để có thể
sứ đụng m ột cách hiệu quả những cơ sở dữ liệu ảnh này thì cần phải có những
phương pháp đồng bộ bao gồm tất cả các khâu trong quá trình xử lí ảnh.
• X ử lí các nhiẻu méo trong quá trình thu nhận ảnh để ảnh lưu trữ trung
thực nhất với hình ảnh ban đầu. Đồng thời đưa ra các thuật toán tố i ưu
để xử lí nhiễu méo. Gắn mô đun xử lí này vào hệ thống tra cứu ảnh để
nâng cao hiệu quả của hệ thống.
• Tìm cách lưu trữ ảnh một cách hiệu quả tiết kiệm nhất không gian bộ
nhớ lưu trữ, [5], [1 0 ],[11] vì dữ liệu ảnh là rất lớn so với dữ liệu dưới
dạng văn bản. Ngoài ra việc lưu trữ dữ liệu ảnh như thế nào còn giúp
cho việc xử lí thuận lợ i dữ liệu này, chẳng hạn để tra cứu ảnh đúng yêu
cầu với tốc độ nhanh, thuật toán xử lí ảnh dẻ cài đặt, để có thể đưa ảnh
lên mạng Internet và truyền đ i với tốc độ cao.
• Biểu diễn dữ liệu ảnh theo phương pháp nào để tìm kiếm ảnh đạt hiệu
quả cao nhất [5].
• Tra cứu (tìm kiếm ) m ột ảnh đúng theo yêu cầu,với tốc độ và độ chính
xác cao. M ột hệ thống tìm kiếm ảnh rất cần trong các thư viện điện tử,
ngày càng được phát triển rộng rãi. Để giải quyết bài toán tìm kiếm ảnh
cần giải quyết tốt nhiểu bài toán liên quan: lưu trữ, biểu diễn, tăng
cường ảnh (sửa chữa nhiễu, méo nhất là đối với những ảnh khảo cổ học
với chất lượng rất xấu). Ngoài ra thuật toán tra cứu ảnh phải chạy được
trên tập dữ liệu ảnh cực
1
ÓĨ
1
.
• Xây dựng hệ thống tìm kiếm tương tác trực quan với người sử dụng: cho
phép người sử dụng đặc tả yêu cầu lần thứ nhất và những lần tìm kiếm
tiếp theo m ột cách thuận lợi thoải m ái [5 ], [13].
10
• Hệ thống tra cứu ảnh có thể tra cứu ở mức cao hơn đó là tìm theo đối
tượng theo yêu cầu nằm trong các ảnh (tìm theo nội dung).
M ộ t cách tổng quát, tìm kiếm ảnh là dùng một phương pháp nào đó để
c5 tìm ra m ột ảnh thoả mãn yêu cầu củâ người sử dụng. T im kiếm ảnh theo
rù i dung là một trường hợp riêng của tìm kiếm ảnh nói chung, Tìm kiếm ảnh
theo nội dung là việc tìm kiếm ảnh theo những đặc trưng thuộc về ảnh mà ta
g?i là nội dung: theo vùng, theo đối tượng trong ảnh, theo sơ đồ mức xám.v.v.
1.3. Mục tiêu của luận văn
Trong khuôn khổ m ột luận văn cao học và m ột khoảng thời gian hạn
chế chúng tôi không đặt ra mục tiêu quá cao đối với m ột vấn đề quá lớn. Luận
vin chỉ đề cập đến m ột số vấn đế dưóiđây:
• Nghiên cứu, phân tích và đưa ra cái nhìn chung nhất vể tìm kiếm ảnh
theo nội dung và các phương pháp tìm kiếm ảnh theo nội dung trong
những năm gần đây [13] trên m ột số khía cạnh sau: các đặc trưng, kiểu
loại ảnh, chỗ hổng cảm ứng và chỗ hổng ngữ nghĩav
• Tìm hiểu các hệ thống tra cứu ảnh theo: các đặc trưng toàn cục, các
điểm nổi bật, đặc trưng hình dạng, kết hợp các đấu hiệu và cấu trúc, độ
tương tự của các ảnh và các đối tượng trong ảnh. Tương tác của người
sử dụng và hệ thống.
• Nghiên cứu đánh giá phương pháp phân đoạn ảnh Blobw orld và sử dụng
k ì vọng cực đại để truy vấh ảnh; phương pháp tìm kiếm ảnh bằng qui
hoạch động [1 3]
,[8 ],[5].
• M ột số thử nghiệm của các thuật toán đưa ra.
• Việc cải tiến, đưa ra thuật toán và ứng dụng vào thực tế trong các bài
toán Nhận dạng và tìm kiếím ảnh dành cho những nghiên cứu lớn hơn.
11
1A Kết luận
Trong chương 1 chúng tôi giới thiệu một số khái niệm về xử lí ảnh, khái
quát về một hệ xử lí ảnh. Trong chương này chúng tôi cũng giới thiệu tổng
quát vế một số vấn đề trong tra cứu ảnh và mục tiêu luận văn cần đạt được.
12
MỘT SỔ K ĩ THUẬT CHUNG VỂ TÌM KIẾM ẢNH
THEO NỘI DUNG
2
.
1
.
Giới thiệu
Các ảnh trong thực tế được quan tâm dưới nhiều khía cạnh khác nhau
như là một ảnh, là một đối tượng hay với mục đích khác. Từ những năm 90
của thế kỉ trước cho tới nay vắn đề tra cứu ảnh theo nội dung đã được nghiên
cứu và có nhiểu ứng dụng. Theo chúng tôi việc tổng kết đánh giá và đưa ra
một số khái niệm về vấn đề này là cần thiết cho việc phát triển, ứng dụng các
kĩ thuật đó ờ Việt nam. Nội dung của chương được đưa ra theo thứ tự sau:
phạm vi của tìm kiếm ảnh, các phương pháp xử lí ảnh theo màu sắc, cấu
trúc,••” phân chia dữ liệu, tính toán đặc trưng, độ tương tự giữa hai ảnh, truy
vấn ảnh.
2.2.
Phạm vi của tìm kiếm ảnh theo nội dung
2.2.1. Phân loại theo ứng dụng
Tìm kiếm ảnh theo nội dung được phân chiâ theo ứng dụng thành 3 loại
sau: tìm kiếm bằng cách duyệt một tập dữ liệu ảnh từ các cơ sở dữ liệu không
được đặc tả; tìm kiếm đích trên các ảnh được đặc tả; tìm theo hạng loại (theo
lớp tương tự) và tìm kiếm kết hợp. Sự phân loại trên có thể được tóm tắt như
bảng 1 trên các khía cạnh: mục tiêu cần đạt được, truy vấn bằng mẫu,độ
tương tự, các sự kiện trong không gian, sự phản hồi, cập nhật tương tác (ảnh,
đặc trưng, độ tương tự.)
Chương 2
13
Tìm kiếm Đích, tìm theo lạng loại và tim kiếm kết hợp trong tra cứu ảnh
Mục tiêu đ ối tượng
Đích
Phân loa i Kết hợp
1 đối tượng được
đăc tả
Một đối tượng phức tạp
từ một lớp được đặc tả
Không định nghĩa tại vị
tríbắỉđẩu
Truy vấn bằng ví dụ
1 …N đối tượng
1 N đối tượng với các
nhăn lớp
N đối tượng cộng với
sự kết hợp
Độ tương tự
Dựa trên đặc
trưng
Theo lớp
Đặc tả phiên
Các
sự kiện trong
F-
không gian.
Xáp xỉ truy vấn
Thành phẩn phân lớp
Các cụm
Phản hổi
Theo vị trí thứ tự
trên độ tương tự
Khả năng trên các lớp
thành phần
Phản hỗi thích đáng
trên các giá tri kết hợp
Cập nhật tương tác:
Của ảnh của truy vấn
Của đặc trưng truy vấn
Của độ tương tự
Lọc từng bước
Truy vấn mở rộng
Lọc tửng bước
Thích hợp YỚi nhóm
Lọc từng bước
Thay đổi từng bước
Tao lai hỉnh dang cho
đích
•
Bảng 1 : Phân loại các hệ thống tìm kiếm ảnh theo nội dung
2.2.2. Vùng ảnh và lỗ hổng cảm giác
Vùng ảnh z cần nghiên cứu được phân chia thành hai loại: vùng rộng và
hep. 1) V ù n g h ẹp là m ộ t v ùn g m à s ự b iế n th iê n c ủ a n ó đ ượ c g iớ i h ạn v à x á c
đ ịnh tro n g tấ t c ả cá c k h ía c ạn h th íc h đ á n g c ủ a s ự x u ấ t h iệ n của vù ng. 2) V ù ng
rộ n g có s ự b iế n th iê n kh ô n g g iớ i h ạ n ,kh ô ng x á c đ ịn h tro n g tấ t c ả c ác s ự x u ấ t
h iện củ a vù n g th ậm c h í c ả vớ i ỷ ng h ĩa tư ơ ng tự .
Trong một vùng hẹp, người ta tìm kiếm một tính chất thay đổi được giới
hạn cua nội dung ảnh. Trong một vùng rộng ngữ nghĩa của ảnh được diễn tả
chỉ là cục bộ.
Khi tìm kiếm ảnh theo nội dung, cần quan tâm đến một khái niệm là
“ chỗ hổng cảm giác” . C h ỗ hổ ng cả m g iá c là c h ỗ h ổ n g giữ a đ ố i tượ ng tr o ng
th ế g iớ i và th ô n g tin tr o n g m ộ t sự th ể h iện (tín h to á n ) th u đ ược từ v iệc th u ả nh
đ ó .
14
Chỗ hổng cảm giác đã đặt ra cho việc thể hiện đối tượng ảnh một vấn
đề đó ỉà sự không chắc chắn trong trạng thái của đối tượng. Chỗ hổng cảm
giác là m ột thiếu xót khi một tri thức chính xác của điều kiện thu nhận ảnh bị
mất. Hầu hết các thiếu xót của các hệ thống tìm kiếm ảnh gần đây xuất phát từ
việc không tìm ra chỗ hổng ngữ nghĩa và khắc phục những hậu quả của nó cho
hộ thống. X é t trên khía cạnh người sử dụng ta có thể coi c h ỗ hổn g cả m giá c là
sự th iếu s ự trù n g kh ớp g iữa thô ng tin m à ng ười ta có th ể trích ra từ c ơ s ỏ d ữ
liệu nhìn th ấ y và s ự b iễu diễn cá c d ữ liệu đó d o người s ử dụng đưa ra.
So sánh các vùng rộng và hẹp trong tìm kiếm ảnh
Hẹp——
Rộng
Sự biến thiên nội dung
thấp Cao
Các nguồn tri thức
đươc đăc tả Chung
Các
ngữ nghĩa
đổng nhất
không đổng nhất
Sư chính xác
có thể không thể
Thể hiên nôidung^
khách quan chù quan
Ngoại cảnh và cảm ứng
có thể đươc điốu khiển
không biết
Hướng ứng dụng
đươcđăctả Chung
Kiều ứng dụng
chuyên biệt
Phổ dụng
Các công cụ
theo mẫu, các bất biến được đặc tả cảm giác, văn hoá, các bát biến
Tương tắc
được giới hạn Rộng khắp, lặp lại
Sự ước lượng
định lượng
định lượng
Kiến trúc hệ thống
theo cơ sở dữ liốu biến đổi Theo tương tác mođun
Kích cỡ
trung bỉnh Rộng cho đến rất rộng
Muc đích
nhận dạng đối tượng
tỉm thông tin
Bảng 2: So sánh vùng rộng và vùng hẹp
Khác với văn bản luôn cần đến ngữ cảnh còn ảnh thì tự nó đã cho ta biết
nội dung. Các giá trị đặc trưng ngữ nghĩa được thêm vào cùng với các từ khoá
hoặc các chú giải là giải pháp để giảm chi phí lớn trong việc truy cập vào nội
dung ảnh trong các cơ sở dữ liệu ảnh quá lớn.
2.2,3. T ri thức vùng
Trong tìm kiếm ảnh thể hiện chính xác tri thức vùng là rất quan trọng để
làm giảm chỗ hổng cảm giác. Và sau đây là m ột số quy tắc cần tuân thủ:
15
• Các quy tắc về sự bằng nhau và sự tương tự vể cú pháp định nghĩa các
mối quan hệ liên quan giữa các điểm ảnh hoặc giữa các đặc trưng ảnh mà bỏ
qua những nguyên nhân cảm ứng hay vật lí.
• Các quy tắc biểu diễn tri giác của con người về sự bằng nhau và sự
tương tự là rất quan trọng bởi vì chúng định nghĩa độ bằng nhau trên các
nguyên tắc nẻn tảng giống nhau như độ bằng nhau về kinh nghiệm của người
sử dụng.
• Các quy tắc vật lí diễn tả sự bằng nhau và khác nhau của các ảnh dưới
sự khác nhau về tri giác và đặc tính bể mặt của đối tượng.
• Các quy tắc về cấu trúc và tính chất hình học diễn tả sự bằng nhau và
sự khác nhau của các đặc trưng trong không gian.
• Các quy tắc dựa trên các phạm trù để mã hoá các đặc điểm thông
thường vào lớp z của không gian tất cả các k í hiệu z .
• Các quy tắc bằng nhau và khác nhau dựa trên văn hoá.
N hư vậy: Điểm chủ chốt trong tìm kiếm ảnh theo nội dung là tìm ra sự
tương tự về nội dung của ảnh cần tìm trong cơ sở dữ liệu. Các ứng đụng của
tìm kiếm ảnh theo nộ i dung theo được phân chia thành: tìm kiếm đích, tìm
kiếm theo phạm trù và tìm kiếm kết hợp.
Hình 3: Các nguồn tri thức chung theo thứ tự bằng nhau
16
Chỗ hổng cảm giác giữa các tính chất trong m ột ảnh và các đặc điểm
của đối tượng ảnh hưởng lớn đến tìm kiếm ảnh theo nội dung. Các hệ thống
tìm kiếm ảnh theo nội dung phải có khả năng khắc phục chỗ hổng ngữ nghĩa
giữa các đặc trưng và làm giàu ngữ nghĩa của người sử dụng.
Việc phân tích các đặc điểm của vùng ảnh, vùng tri thức và các kiểu sử
dụng các yếu tố sẵn có để xác định chức năng của m ột hệ thống tìm kiếm ảnh
theo nội dung.
2.3. Biểu diễn nội dung ả n h,xử lí ảnh*
Đầu tiên, hãy thảo luận vể các toán tử xử lí ảnh, biến đổi dữ liệu ảnh
thành m ột mảng dữ liệu không gian khác, xem hình 4.
Hình 4: Các module xử lí ảnh
Các phương pháp được phân chia theo màu cục bộ, cấu trúc cục bộ,tính
chất hình học cục bộ. Công thức biến đổi tổng quát như sau:
f ( x ) = g o i(x ) (2.1)
Trong đó /(X) là ảnh, g là một toán tử trên các ảnh, f (jc) là ảnh kết
quả. Ở đây, có thể sử dụng bất biến như m ột công cụ để xử lí những hiện
tượng bị méo trong thông tin ảnh [3]. Hai đối tượng tị nào đó là tương đương
dưới m ột nhóm biến đổi
w
nếu chúng ở trong một lớp tương đương:
/ị (2.2)
17
M ộ t tính chất
f
của t là bất biến dưới
w
nếu và chỉ nếu
f t
không đổi dưới
w .
h
〜 ,2
^ ft\ = f t 2 (2.3)
2.3.1. Xử ií màu sác
M ỗi ảnh i(x) có m ột giá trị màu trong m ột không gian véc tơ màu. M ô
hình màu RGB là m ột các lựa chọn thích hợp để biểu diẻn xử lí màu sắc.
Trong mô hình RGB m ột ảnh được biểu diễn bởi bộ (/? (x ),G (x ),i? (x )). M ô
hình HSV thường được lựa chọn cho các tửìh chất bất biến của nó (độ Hue)
thuận lợ i hơn cho tìm kiếm đối tượng.
Sự bất biến về màu sắc là khả năng của con người có thể nhận biết được
các màu xuất hiện giống nhau trong các sự biến thiên của độ rọi sáng mà sự
thay đổi phổ vật lí của độ sáng thu được, Sự bất biến này được sử dụng để tìm
kiếm bằng cách sử dụng m ột thể hiện màu bất biến về độ chói sáng.
2.X2.
Xử lí hình dạng cục bộ
Tất cả các chi tiế t hình học tỉ m ỉ, rõ ràng trong m ột ảnh (hình dạng cục
bộ) đều cần được quan tâm. Các đặc điểm hình dạng cục bộ thu được từ đạo
hàm màu theo hướng cũng được sử dụng, ứng dụng trong các máy dò ảnh.
L í thuyết vể không gian tỉ lệ cung cấp cơ sở phát hiện các chi tiế t chuứì
xác trên bất kì tỉ lệ nào. Hình dạng cục bộ và thông tin cường độ cho điểm
nhìn và tìm kiếm đối tượng bất biến.
K ết hợp giữa hình dạng cục bộ và màu sắc trong thể hiện bất biến là
m ột sự kết hợp hữu ích; trong đó màu sắc ở trong và ngoài của độ cong lớn
nhất trong cạnh màu được lưu trong đối tượng nhận dạng.
m :r t s v i U ' r î H
18
2.3.3. Xử lí cấu trúc ảnh
Các cấu trúc ảnh được tạo bởi nhiều thành phần, số các thành phần này
thường lớn hơn rất nhiểu con số nhận được khi các đối tượng bị tách ra. Các
thành phần có thể được thay thế bởi nhiều hoặc ít hơn một cách ngẫu nhiên.
Trong khuôn khổ tìm kiếm ảnh, các nghiên cứu tập trung vào các phương pháp
sinh ra hay phân tích sự biểu th ị đặc điểm từng phần.
2.3.4. Kết luận
X ử lí ảnh nhằm mục đích nâng cao chất lượng thông tin ảnh để tìm
kiếm ảnh theo nội dung. Trong đó, xử lí màu sắc ảnh để giảm các lỗi do điéu
kiện ngẫu nhiên gây ra (ví dụ chỗ hổng cảm giác), ứ ig dụng thể hiện hình học
thu được từ lí thuyết không gian tỉ lệ cho thấy m ột góc độ và cảnh độc lập với
tập điểm nổi bật vì vậy sẽ có cách tìm tính tương tự của ảnh trén các vùng
hoặc m ột vài điểm chứa thông tin*
Thảo luân ờ trên đã phân biệt màu sắc, hình học cục bộ và cấu trúc. Các
vùng đồng nhất được biểu diễn như các tập hợp của các elipsolid của các màu
và cấu trúc đồng nhất. Trong tìm kiếm ảnh theo nội dung bước đầu tiên là tạo
nên khả năng phân biệt các tính chất bất biến.
2.4. Thể hiện nội dung: Các đặc trưng
Gộp ảnh
■ phân <ỉoạiì 0iạob
- — ■夢 Phao doạ» yếu
■— 爹 N hận ra dấũ h iệ u
►
Ftlânchia
11 ^ c ác á ổi tượng dược phân đoạn
cá c vùng n ổ i bật
V ị ưí các dấu h iệ u
Dữ liệ u đ ộc lậ p vớ i các phán ảnh
H ình 5: Các cách khác nhau để nhóm dữ liệu ảnh
19
Trong tìm kiếm ảnh theo nội dung các ảnh thường được phân chia thành
các phần trước khi các đặc trưng được tính toán trên m ỗi phần đó, xem hình 5.
Việc phân chia các ảnh thành các phần nhằm mục đích thu được các đặc trưng
được theo lựa chọn. Có các sự phân đoạn như sau:
• • • t
Ẵ •
• P h â n đo ạn m ạ nh là s ự p h â n c h ia d ữ liệ u ản h th à n h cá c vù ng , tro n g
đó vùn g T c h ỉ chứ a cá c đ iể m ả nh c ủa h ìn h c h iế u củ a đ ố i tư ợng o tro n g th ế
giới thự c, đư ợc đ ặc tả b ởi: T = ỡ .
• P hân đoạn yếu là việc nhóm d ữ liệ u ảnh tro ng m ộ t vùng T ch ính xá c
đồng nhất b ên tro ng th eo m ột s ố tiêu chuẩ n, vớ i T c O . Tiêu chuẩn được thoả
mãn nếu vùng T ở bên trong biên của đối tượng o ,nhưng không đảm bảo rằng
vùng bao phủ toàn bộ vùng đối tượng.
• K h i một đối tượng có m ột hình dạng cố định thì: kho an h vùng các d ấu
hiệu là tìm m ột đố i tượng với h ình dạng và ngữ ngh ĩa c ố đ ịnh , với T = xcenIer.
Các dấu hiệu rất hữu ích trong tìm kiếm ảnh dựa trên nội dung khi chúng biểu
diễn m ột sự thể hiện ngữ nghĩa duy nhất và trực tiếp.
• Dạng gộp yếu nhất là phân chia. S ự p h â n c h ia ở đ â y ch ín h chín h là
phân chia d ã y d ữ liệ u b ấ t chấ p d ữ liệu, đư ợc k í h iệ u là : T ^ o . Vùng T ở đây
có thể là toàn bộ ảnh, hoặc là trung tâm ảnh, bên trên, bên trá i,bên phải. M ột
cách phân chia khác là ảnh được chia thành các phần bằng nhau, m ỗi phần
được gán m ột nhãn.
2.4.2* Các đặc trưng
• Các đặc trưng toàn cục: là các đặc trưng được tính toán từ toàn bộ
ảnh. Đặc trưng tích luỹ tính theo công thức sau:
2.4.1. Gộp dữ liệu
20
F j - ỵ h o f( x ) (2.4)
h
Trong đó z là toán tử kết hợp; Fj là tập các đặc trưng tích luỹ hoặc là
tập các đặc trưng tích luỹ đánh số trong m ột biểu đồ mức xám; Tj là phần phân
chia qua giá trị Fj được tính. Toán tử/ỉ là trọng số liê n quan.
Để tính các đặc trưng tích luỹ có thể sử dụng biểu đồ mức xám. Nó
cũng tỏ rõ m ột số ưu điểm : không cần thông tin vế v ị trí đối tượng trong ảnh,
thay đổi rất chậm so vớ i các tiêu chuẩn khác. Tuy nhiên, đối với cơ sở dữ liệu
lớn dùng biểu đồ mức xám đơn giản không thể phân biệt được. Để giải quyết
vấn để này người ta đã thêm vào cấu trúc cục bộ, đặc trưng cục bộ, cạnh định
hướng, khoảng cách cục bộ, biểu đồ mức xám, các đặc trưng hình học.
• Các đặc trưng Dổi b ật: Để tránh sự các nhược điểm của phân đoạn
mạnh là sử dụng phân đoạn yếu. Đ iều này đã dẫn đến việc gộp dữ liệu thành
các vùng và việc lựa chọn phải dựa trên các đặc trưng nổi bật của vùng. Các
dặc trưng nổi bật có thể được đưa ra trong phương trình tổng quát sau:
FẢ x ) = A hof( x) (2-5)
Tj
Trong đó
, 八
là một toán tử lựa chọn cục bộ, h cho ta max của trường
ảnh được xử lí f(x). Vùng Tj được xét trên giá trị củâ Fj được tìm trên toàn ảnh.
Thông tin của ảnh chỉ được thể hiện trong m ột số giá trị đặc trưng nổi
bật. Những giá trị này được lưu trữ để tìm kiếm ảnh. N goài ra những giá trị bất
biến cũng cần được ghi lại và được coi như các điểm nổi bật.
• Các dấu h iệu: k hi m ột thể hiện của m ột ảnh có ưu thế (mang ý nghĩa
của ảnh) thì ảnh có dấu hiệu và được biểu diễn bằng xác suất p trên sự thể
hiện z như công thức sau:
(2.6)
21
với các kí hiệu như trong phương trình (2.5). Sự phân tích này dẫn đến
vấn để là tìm vị trí của dấu hiệu với xác suất nào đó. Các dấu hiệu ta thường
thấy đó là: biểu tượng, kí t ự ,n h ã n mác,v.v.
• Các đặc trư n g hình dạng và đối tượng: Phân đoạn ảnh là cách tốt
nhất để nâng cao chất lượng thông tin vế đối tượng chứa trong ảnh. Nhưng
phương pháp này dẽ đổ vỡ trong các vùng rộng. Còn trong vùng hẹp ta có:
tj( x ) = sJ o f ( x ) (2.7)
Trong
đ ó f(x)
là trường dữ liệu thu được từ quá trình xử lí
ờ
trên (là ảnh
i(x) khi g là toán tử đồng nhất), Sj là toán tử phân đoạn cho đối tượng ỹ, và tj(x)
xác định đối tượng vùng T ỳ Đối với hình dạng, F j là một tập hợp thứ j các đặc
trưng:
F j ^ h o t ^ x ) (2.8)
Trong đó z là toán tử kết hợp và h là chức năng tính toán hình dạng.
Một phương pháp khác là trích chọn ra các chu tuyến của đối tượng từ
ảnh, tăng dần độ trơn bằng cách phân chia chúng thành các vùng của các tùi
hiệu hằng của các đạo hàm bậc hai và giảm từ từ số lượng các vùng để thu
được elipsoid mà có thể được đặc trưng bởi một số đặc trưng nào đó.
2.4.3. Mô tả cấu trúc
Trong quá trình tính toán, các đặc trưng củâ các thực thể có thể được
lưu trữ với m ối liên hệ với nhau. Một tạp đặc trưng cấu trúc như vậy có thể
chứa các giá trị đặc trưng cộng với các mối liên hệ không gian, một cấu trúc
thứ tự của các giá trị đặc trưng, hoặc mối liên hệ giữa tập các điểm hoặc tập
các đối tượng.
Quá trình trên được biểu diẻn bằng phương trình sau:
2 2
Trong đó
Tjtk
là thành phần thứ
k
của đối tượng thứ ý, và
H jtk
là một mối
liên hệ không gian diễn tả đối tượng ý trong k thành phần.
2.5, Sự thể hiện và độ tương tự
2.5.1. Thể hiện ngữ nghĩa
Trong tìm kiếm ảnh theo nội dung sẽ rất hữu ích nếu đưa vào sự thể
hiện ngữ nghĩa của các đặc trưng thu được từ ảnh. Đ ặ c trư ng ng ữ nghĩa nhằm
vào mục đích mã hoá sự thể hiện của ảnh mà thích đáng với các ứng dụng.
Giả sử m ột véc tơ đặc trưng F thu được từ ảnh /• Đ ố i vớ i những sự thể hiện
ngữ nghĩa z thu được từ tập tất cả các sự thể hiện hiện z ,ta có xác suất điều
kiện:
P^P(z\ F) (2.10)
M ột đặc trưng ngữ nghĩa mạnh với sự thể hiện Zj sẽ có xác suất được
tữih bằng P (z I F) = - Zj). Nếu m ột đặc trưng không mang ngữ nghĩa thì ta
có P (z I F) = P (z) độc lập với giá trị đặc trưng.
2.5.2. Độ tương tự
• Độ tương tự giữa các đặc trưng: Để gán ý nghĩa cho một tập đặc
trưng có thể sử dụng hàm tương tự. Khi tìm ảnh /*^(x) trong số các thành phần
của cơ sở dữ liệu ảnh,
id(x),
tri thức vùng sẽ được biểu diễn bằng độ đo tương
tự
Sq d
giữa ảnh
q
trên cơ
sở
tập các đặc trưng. Đ ộ tương tự của hai véc tơ
đặc trưng F nói chung được cho bởi công thức:
sq,d
=
s(¥q,¥d)
(2-11)
U hof ⑷
(2.9)
hoặc: s(Fqy¥d) = god(Fq,Fd)
(2.12)
23
Trong đó g là hàm dương không tăng, và d là hàm khoảng cách. Công
thức này phù hợp với các truy vấn theo mẫu.
Biểu đồ mức xám có thể được xem như m ột tập các đặc trưng có thứ tự
và độ đo khoảng cách giữa chúng được cho bởi:
ổ (¥ q ,¥ d) = g od (¥q, ) (2.13)
Trong đó d có thể là khoảng cách giao: d{ (F^,Fư) = ^ n m in (F /,F /) hay
khoảng cách M inkow ski: dr( ĩ \ ĩ d) - r
;
( F 1 và F* là hai biể đồ
mức xám chứa n điểm ).
• Độ tương tự của các đặc trưng cấu trúc: kết quả của một thể hiện
cấu trúc là m ột tập thứ tự các giá trị đặc trưng H . Đ ộ tương tự của các đặc
trưng cấu tróc cho bởi:
Sqd: s (H q
,
H dl (2.14)
Cây thứ tự được so sánh với mục đích tìm kiếm bằng việc chuyển chúng
thành các xâu. M ột độ đo tương tự dựa trên khoảng cách cho ta độ đo tương tự
giữa các lá tương ứng trong cây.
K h i các ảnh được biến đổi thành các vùng đồng nhất nhằm tìm kiếm
dựa trên cấu trúc, màu sắc. Các vùng được chuyển thành m ột xâu trong từ điển
thị giác. Các xâu được biểu diễn bằng các biểu đồ mức xám liên vùng F (/j/).
Trong quá trình truy vấn
,
độ tương tự giữa q d được cho bởi
F9Frf,đó là từng thành phần tương ứng của các biểu đồ mức xám
theo thứ tự vùng.
• Đ ộ tương tự giữa các đặc trưng nổi bật: các đặc trưng nổi bật được
sử dụng thu được thông tin trong ảnh. Sau đó độ tương tự có thể được tữih theo
các véc tơ đặc trưng nổi bật:
24
Trong đó và ¥d là các véc tơ đặc trưng nổi bật và g ỉà một hàm đơn
điệu tối ưu. M ộ t độ đo tương tự giữa các giá trị đặc trưng để đo kết quả từ các
điểm màu từ sự phân đoạn yếu bao gồm m ột khoảng cách Mahalanobis giữa
các véc tơ đặc trưng của màu sắc, cấu trúc, v ị trí, diện tích, độ lệch tâm và
hướng của 2 elip. Nếu các đặc trưng của elip được thể bằng véc tơ F ,khoảng
cách giữa p q được cho bởi dq d = [(F q - F^)r (¥q - F^)]^ trong đó z là ma
trận trọng số đường chéo được đặt bởi người sử dụng. Độ tương tự giữa hai
điểm màu được định nghĩa là Sqd: exp(- tí^ /2 ).
V ới các điểm nổi bật được tính theo biểu đồ mức xám, độ tương tự giữa
các biểu đồ mức xám F^và xác đinh sự có mặt của các điểm nổi bật được
tính như sau:
Sq^ g o d ( F \ ¥ d)
(2.16)
Khoảng cách nhằm đo sự hiện diện của các tập giống nhau các
điểm nổi bật. Sự khác nhau giữa văn bản
d
trong tệp dữ liệu và truy vấn
ợ được tính là khoảng cách giao dx ( F ' ) = E u ("/. .),trên tất cả
các chiếu.
Độ tương tự của các điểm nổi bật chỉ tập trung vào các m ối liên hệ
không gian trong số tập các điểm nổi bật ¥ q và p
小
Sq,d=god(Pq>Pd) (2.17)
• Độ tương tự giữa các bóng đối tượng: sau k h i phân đoạn ảnh thành
tập các điểm í(x ),độ tương tự được tính theo công thức:
Sq,d: g od(Fq
,
Fd) (2.15)
SqÀ^ s ụ q( x ịtd(x )\
(2.18)
25
• Độ tương tự ngữ nghĩa: m ột khái niệm chung về độ tương tự là cần
phải có truyến lù i thích đáng, trong đó độ tương tự tính vớ i toàn bộ ảnh được
yêu cầu. M ối liên hệ được biểu diễn giữa độ tương tự và hàm khoảng cách
định nghĩa m ột độ đo trọng số củâ hai độ tương tự đơn giản hơn S (s
,
S ị
,
S 2) =
M^exp(-í/(iS/
,
5)) + W 2exp(-(i(5^)). Mục đích cùa độ đo này là tìm ra tất cả các
vùng mà tương tự với hai truy vấn điểm được đặc tả.
2.5.3. Thảo luận về sự thể hiện và độ tương tự
Chỉ kh i ảnh tự nó đã cho ta m ột sự thể hiện rõ, các hệ thống dựa trên
nội dung sẽ có được thông tin trong trường hợp lí tưởng. M ộ t sự thể hiện ngữ
nghĩa mạnh xuất hiện khi một dấu hiệu có thể được đồng nhất trong ảnh. Các
ngữ nghĩa yếu phụ thuộc vào sự phân loại không chính xác đã được kết luận
bởi độ đo tương tự thích hợp tương tác trực tuyến.
Đ ộ tương tự là m ột trong những sự thể hiện của ảnh dựa trên sự khác
nhau với các ảnh khác. Đ ối với m ỗi m ột kiểu đặc trưng khác nhau độ đo tương
tự là cần thiết vì ảnh hưởng độ đo này đến tìm kiếm .
2.6.
Tương tác
Trong tìm kiếm ảnh theo nội dung, tương tác là m ột sự ảnh hưởng qua
lại giữa người sử dụng, các ảnh, và sự thể hiện ngữ nghĩa của chúng.
2.6A.
Không gian truy vấn
K hông g ia n ư u y vấn Q là m ộ t m ụ c tiêu p h ụ th uộc 4 thành phầ n
{IqJq^q^Zq}. Trong đó: Iq^là sự lựa chọn ảnh từ tập I; Fq^c F là sự lựa chọn đăc
trưng từ Iq
;
ôq^là hàm tương tự; ZqJZ z là tập các nhãn,
M ột truy vấn Q = ự QyFQìSQìZQ} là m ột phần tử của không gian truy vấn.
Các truy vấn được phân thành các loại sau: