ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHỆ
ĐINH ĐỨC HÙNG
NGHIÊN CỨU MỘT
SỐ KĨ THUẬT
Hỗ TRỢm
•
m
TÌM KIẾM ẢNH THEO NỘI DUNG
Chuyên ngành: Công nghệ Thông tin
Mã số: 1.01.10
LUẬN VĂN THẠC s ĩ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS TS NGÔ QUỐC TẠ O
Hà n ộ i-2003
ị i)ĨW HOC C.UÓCGiA MA
2
MỤC LỤC
LỜI CẢM ƠN.................................. ............................................ ...........1
Chương 1 TỔNG QUAN VỀ TRA ctnu ẢNH............................................................... 5
1.1. Giới thiệu về xử lí ảnh..................................................... ............................... 5
ỉ . 1.1. C ác giai đoạn trong x ử lí ả n h ................................. ................................... . 5
L 1 .2 . M ộ t s ố khái niệm trong x ử lí ảnh .....................................................................7
1.2. Giới thiệu về tìm kiếm ảnh................................................................... ....8
L3. Mục tiêu của luận văn..................................................... ............................. 10
1.4. Kết luận •••••••••••:........................................... ••••••••••••••••••••"••••••••••••• 11
Chương 2 MỘT số KĨ THUẬT CHUNG VỀ TÌM KIẾM ẢNH THEO NỘI DUNG. 12
21. Giới thiệu.._____ ____
___________________ -•••••••••••••• 12
2.2. Phạm vi của tìm kiếm ảnh theo nội
12
2.2.7. Phân loại theo ứng dụng ......................................................................... 12
2.2.2. Vùng ảnh và lỗ hổng cảm giác ............................................................... 13
2.2.3. T ri thức vùng ...................... ..................................................................... 14
2.3. Biểu diễn nội dung ảnh, xử lí ảnh................................................................ 16
2 .3 .L Xử lí màu sắ c ............................................................................................ 17
2.3.2. Xử lí hình dạng cục bộ .. .....................................................................17
2.3.3. Xử lí cấu trúc ả n h .................................................................................... 18
2 3 .4 . K ết lu ậ n .................................................................................................... 18
2A. Thể hiện nội dungỉ Các đặc trư n g ."""".......................................... 18
2.4.1. Gộp dữ liệu .................................................................................................. 19
2.4.2. C ác đặc trưng ............................................................................................. 19
2.4.3. M ô tả cấu trú c .................................................................................................... 21
2.5. Sự thể hiện và độ tương tự ••••••••••••••••••••............... .
22
2.5.1. T h ể hiện ngữ n g h ĩa ........................................................................................... 22
2.5.2. Đ ộ tương tự .................................................................................................22
2.5.3. Thảo luận về sự th ể hiện và độ tương tự ................................................ 25
2.6. Tương tác..:.......... :.......... ................................................. ...........................25
2.6.1. Không gian truy vấn .................................................................................. 25
2.6.2. H iển thị không gian truy v ấ n ......................................................... ....... 26
2.6.3. Tương tác với không gian truy vấn .......................................................... 27
2.6.4. K ết lu ậ n ...................................................................................................... 27
2.7* Hệ thống ••••••••••••••••••••••••••••••........................................................... 28
2.7.7. Lưu trữ và đánh ch ỉ số .............................................................................. 28
2.7.2. K iến trúc hệ thống ..................................................................................... 29
2.7.3. Đ ánh giá hệ thống ..................................................................................... 29
2 7 .4 . K ết lu ậ n ...................................................................................................... 31
2.8 Một số kết luận chung................................................................................... 31
3
Chlĩơng 3 HAI Kĩ THUẬT Hỗ TRỢ TÌM KIẾM ẢNH THEO NỘI DUNG
3.1. Giới thiệu........................................ ......... ............... .......................
3.2. Kĩ thuật phân đoạn ảnh sử dụng kì vọng lớn nhất.................
3.2.1. Trích chọn các đặc trư n g .........................................................
3.2.2. N hóm các điểm ảnh thành các vùng .......................................
3 2 3 . Biểu diễn các vù n g ....................................................................
3.3. Kĩ thuật so khớp theo qui hoạch động........................... ...........
3.3.1. Biểu diễn hình dạng trong D P .................................................
3 3 2 , Các trường hợp cần so khớp ....................................................
3.3.3. Bảng qui hoạch động (DP ta b le ) ...........................................
3.3.4. Đ ánh giá so khớp bằng hàm khoảng c á c h ............................
3 3 .5 . Các yếu tố ảnh hưởng đến giá so kh ớ p ..................................
Chương 4 ÚNG DỤNG TRONG TÌM KIẾM ẢNH THEO NỘI DUNG ••••••
4 丄 Giới thiệu........................................................................................
34
34
34
34
38
40
41
41
42
43
45
46
4.2. ứng dụng của k ĩ thuật phàn đoạn sử dụng kì vọng lớn nhất
50
50
50
4.3. ứ n g dụng k ĩ th u ậ t qui hoạch độ n g .................................................
4 .3 .1 . Q uá trình so k h ớ p ...........................................................................
52
52
KẾT LUẬN VÀ KIẾN NGHỊ..........................................................
TÀI LIỆU THAM KHẢO............................................ .............
PHỤ LỤC........................................................................ ........
57
58
60
4
DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ
Bảng 1: Ba sự phân loại theo mục đích của các hệ thống tìm kiếm ảnh
theo nội dung.....................................................................................13
Bảng 2: So sánh vùng rộng và vùng h ẹ p .............................................................. 14
Hình 1: Các giai đoạn chính trong xử lí ảnh......................................... ........ 5
Hình 2: Các thành phần của một hệ thống xử lí ảnh........................................6
Hình 3: Các nguồn tri thức chung theo thứ tự bằng nhau............................... 15
Hình 4: Các module xử lí ảnh...................................................................... 16
Hình 5: Các cách khác nhau để nhóm dữ liệu ảnh.........................................18
Hình 6 : Sơ đổ k ĩ thuật phân đoạn ảnh sử dụng kì vọng lớn nhất.......................34
Hình 7: Các cửa sổ khởi tạo thuật toán EM.................................................. 37
(a)K = 2 ,(b )K = 3 ,(c)K = 3và(d)K = 4, (e) K= 5.
Hình 8: Ví dụ vể một bảng DP với ;VI=5 (shape A) và A)=7 (shape B).......... 44
s,
X và T là các ô trong phần khởi động, tính toán và kết thúc.
Hình 9: Các con số hình học cho việc định nghĩa độ quan trọng cùa đoạn.... 46
Hình 10: Tóm tắt thuật toán so khớp.................................................................... 53
Hình 11 : Các trường hợp biểu diễn đường cong..................................................55
Aj là đường cong ban đầu, A2 là đường cong đối xứng,
A 3minh hoạ quá trình duyệt theo hướng ngược lại
và A4 là đối xúng của Aj với hướng duyệt ngược ỉại.
5
Chương 1
TỔNG QUAN VỂ TRA c ứ u ẢNH
1丄 Giới thiệu về xử lí ảnh
Trong những năm gần đây, cùng với sự phát triển như vũ bão của các
ngành Khoa học K ĩ thuật nói chung đặc biệt là Công nghệ Thông tin thì x ử lí
ảnh, m ột Khoa học của Công nghệ Thông tin thuộc chuyên ngành T rí tuệ nhân
tạo đã có những phát triển và ứng dụng đáng kể trong nhiều ĩĩn h vực khác
nhau. Khoâ học xử lí ảnh so với nhiều ngành khoa họe khác còn tương đối
m ới mẻ, nhất là trên quy mô công nghiệp, x ử lí ảnh cũng đã thu được nhiều
kết quả và ứng dụng lớn ở V iệ t nam cũng như rất nhiều nước trên thế giới.
Các giai đoạn trong xử lí ảnh
Bài toán xử lí ảnh bao gồm các giai đoạn tổng quát như sau [1]:
H ình 1: Các giai đoạn chính trong xử lí ảnh
•
Thu nhận ảnh: ảnh có thể được thu nhận qua camera nó có thể là tín
hiệu tương tự cũng có thể là tín hiệu số. Ngoài ra ảnh cũng có thể được
thu nhận từ vệ tinh thông qua các bộ cảm ứng (sensor), hoặc tranh ảnh
được quét bằng scanner,
•
Ảnh sau kh i được
thu nhận
số hoá để lưu trữ hoặc
sẽ được
♦
攀 có thể được
•
•
•
phân tích trong giai đoạn tiếp theo (phân tích ảnh. Phân tích ảnh gồm
6
nhiẻu giai đoạn nhỏ hơn: tăng cường, nâng cao chất lượng ảnh (khắc
phục những thiếu xót của quá trình thu nhận ảnh như :nhiểu, m éo.v.v ),
làm nổi bật những đặc trưng chính của ảnh hoặc làm cho ảnh trở về tình
trạng ban đầu.v.v.x tiếp theo là việc phát hiện các đặc trưng của ảnh
như :
biên, vùng ảnh,trích chọn các đặc trưng của ảnh.
•
Cuối cùng ảnh sẽ được nhận dạng, phân lớp hoặc phục vụ cho các mục
đích khác nhau.
Đé xử lí các quá trìn h trên đây thì m ột hệ thống xử lí ảnh bao gồm m ột
số thành phần sau đây (phần cứng) [ 1 ]:
Hình 2: Các thành phần của m ột hệ thống xử lí ảnh
•
Camera: cũng giống như con m ắt của hệ thống. Camera có hai loại: loại
CCIR ứng với chuẩn CCIR quét ảnh v ớ i tần số 1/25,m ỗi ảnh gồm 625
dòng; loại CCD gồm các photo đ iố t tương ứng m ột cường độ sáng tại
m ột điểm ảnh ứng vớ i m ột phần tử ảnh (p ixe l).
•
Bộ xử lí tương tự (analog processor) thực hiện các chức năng:
-
Chọn camera thích hợp nếu hệ thống có nhiều camera.
一 Chọn màn hình hiển th ị tữ i hiệu*
«
•
••
7
-
Thu nhận tín hiệu video bởi bộ số hoá (digitalizer). Thực hiện lấy
mẫu và mã hoá.
一 Tiển xử lí ảnh khi thu nhận.
•
Bộ xử lí ảnh số gồm nhiều bộ xử lí chuyên dụng: xử lí lọc, trích chọn
đường bao, nhị phân hoá ảnh.
•
Máy chủ đóng vai trò điểu khiển các thành phần nêu trên.
•
Bộ nhớ ngoài: lưu trữ dữ liệu ảnh cũng như các kiểu dữ liêu khác, để có
thể chuyển giao cho quá trình khác.
1.1.2. Một số khái niệm trong xử lí ảnh.
•
Pixel (phần tử ảnh hay điểm ảnh): Để xử lí được ảnh bằng máy tính điện
tử cần số hoá nó hay nói cách khác là biến đổi các ảnh từ tín hiệu liên
tục sang tín hiệu rờ i rạc thông qua việc lấy mẫu và lượng tử hoá. Trong
quá trình này người ta sử dụng khái niệm pixel. M ỗ i pixel được đặc
trưng bởi cặp toạ độ (x ,
y) và màu sắc của nó.
•
Ảnh là m ột tập hợp các pixel (điểm ảnh) ta có thể coi ảnh là m ột mảng
hai chiếu I(n ,
p) có n dòng và p cột, với ảnh này sẽ có nxp pixel. Ta k í
hiệu I(x ,
y) để chỉ m ột pixel.
•
Mức xám (Gray level): đó là kết quả cua việc mã hoá ứng với m ột
cường độ sáng của m ỗi điểm ảnh với m ột giá trị số. Thông thường ảnh
được mã hoá dưới dạng 16,32 hay 64 mức.
•
Biẻu diển ảnh: trong biểu diễn ảnh người ta ữiường đùng các phần tử
đặc trưng của ảnh là pixel. M ộ t hàm hai biến chứa các thông tin như
m ột biểu diẽn ảnh. M ộ t số mô hình thường dùng để biểu diẽn ảnh là:
mô hình toán (biểu diễn ảnh nhờ các hàm cơ sở), mô hình thống kê (ảnh
8
được coi như m ột phần tử của m ột tập hợp đặc trưng bởi kì vọng toán,
hiệp biến, phương sai, moment V.V.).
•
Tăng cường ảnh: đây là m ột bước tiền xử lí quan trọng bao gồm các k ĩ
thuật lọc độ tương phản, khử nhiễu, nổi màu.v.v.
•
Biến đổi ảnh (Image Transform ) nói tớ i m ột lớp các ma trận đơn v ị và
các k ĩ thuật dùng để biến đổi ảnh: Biến đổi Fourier, Sin, Cosin, tích
Kronecker, biến đổi Karhum en Loeve.v.v.
•
Phân tích ảnh: liê n quan đến việc xác đinh các độ đo đinh lượng của
m ột ảnh để đưa ra m ột mô tả đầy đủ về ảnh. Có nhiều k ĩ thuật hổ trợ
phân tích ảnh: xác định biên của ảnh, các k ĩ thuật lọc v i phân, dò theo
quy hoạch động, các k ĩ thuật phân vùng ảnh dựa trên các tiêu chuẩn
đánh giá về màu sắc,cường độ.v.v.
•
Nhận dạng ảnh: quá trình này liên quan đến các mô tả đối tượng mà
người ta m uốn đặc tả nó. Nhận dạng ảnh thường đi sau quá trình trích
chọn các đặc trưng chủ yếu của đối tượng.
•
Tra cứu ảnh (hay tìm kiếm ảnh): để có thể tra cứu được ảnh cũng cần
mô tả được ảnh như trong quá trình nhận dạng ảnh. Tra cứu ảnh có
nhiệm vụ tìm được ảnh theo yêu cầu của người sử dụng. Nhiều hệ thống
nhận dạng và tra cứu ảnh đã được nghiên cứu rất thành công trong
những năm gần đây [13].
•
Nén ảnh: nhằm giảm kích cỡ ảnh để có thể truyền tải ảnh qua mạng hay
để giảm bộ nhớ lưu trữ giữ liệu ảnh [ 1 ].
1.2. Giới thiệu về tìm kiếm ảnh.
Gần đây có m ột sự bùng nổ mạnh mẽ về thông tin , nhiều cơ sở dữ liệu
đã được xây dựng [13]. Nó là nguồn tài sản vô cùng quý giá đối với nhiều
9
ngành kin h tế cũng như nhiều ngành khoa học k ĩ thuật. Tuy nhiên, để có thể
sứ đụng m ột cách hiệu quả những cơ sở dữ liệu ảnh này thì cần phải có những
phương pháp đồng bộ bao gồm tất cả các khâu trong quá trình xử lí ảnh.
•
X ử lí các nhiẻu méo trong quá trình thu nhận ảnh để ảnh lưu trữ trung
thực nhất với hình ảnh ban đầu. Đồng thời đưa ra các thuật toán tố i ưu
để xử lí nhiễu méo. Gắn mô đun xử lí này vào hệ thống tra cứu ảnh để
nâng cao hiệu quả của hệ thống.
• Tìm cách lưu trữ ảnh một cách hiệu quả tiế t kiệm nhất không gian bộ
nhớ lưu trữ, [5 ], [1 0 ] ,[11] vì dữ liệu ảnh là rất lớn so với dữ liệu dưới
dạng văn bản. Ngoài ra việc lưu trữ dữ liệu ảnh như thế nào còn giúp
cho việc xử lí thuận lợ i dữ liệu này, chẳng hạn để tra cứu ảnh đúng yêu
cầu với tốc độ nhanh, thuật toán xử lí ảnh dẻ cài đặt, để có thể đưa ảnh
lên mạng Internet và truyền đ i với tốc độ cao.
•
Biểu diễn dữ liệu ảnh theo phương pháp nào để tìm kiếm ảnh đạt hiệu
quả cao nhất [5].
•
Tra cứu (tìm kiếm ) m ột ảnh đúng theo yêu cầu,với tốc độ và độ chính
xác cao. M ộ t hệ thống tìm kiếm ảnh rất cần trong các thư viện điện tử,
ngày càng được phát triển rộng rãi. Để giải quyết bài toán tìm kiếm ảnh
cần giải quyết tố t nhiểu bài toán liên quan: lưu trữ, biểu diễn, tăng
cường ảnh (sửa chữa nhiễu, méo nhất là đối với những ảnh khảo cổ học
với chất lượng rất xấu). Ngoài ra thuật toán tra cứu ảnh phải chạy được
trên tập dữ liệu ảnh cực 1 ÓĨ1 .
•
X ây dựng hệ thống tìm kiếm tương tác trực quan với người sử dụng: cho
phép người sử dụng đặc tả yêu cầu lần thứ nhất và những lần tìm kiếm
tiếp theo m ột cách thuận lợ i thoải m ái [5 ], [13].
10
•
Hệ thống tra cứu ảnh có thể tra cứu ở mức cao hơn đó là tìm theo đối
tượng theo yêu cầu nằm trong các ảnh (tìm theo nội dung).
M ộ t cách tổng quát, tìm kiếm ảnh là dùng m ột phương pháp nào đó để
c5 tìm ra m ột ảnh thoả mãn yêu cầu củâ người sử dụng. T im kiếm ảnh theo
rùi dung là m ột trường hợp riêng của tìm kiếm ảnh nói chung, Tìm kiếm ảnh
theo nội dung là việc tìm kiếm ảnh theo những đặc trưng thuộc về ảnh mà ta
g?i là nộ i dung: theo vùng, theo đối tượng trong ảnh, theo sơ đồ mức xám.v.v.
1.3. Mục tiêu của luận văn
Trong khuôn khổ m ột luận văn cao học và m ột khoảng thời gian hạn
chế chúng tôi không đặt ra mục tiêu quá cao đối với m ột vấn đề quá lớn. Luận
vin chỉ đề cập đến m ột số vấn đế dư óiđây:
•
N ghiên cứu, phân tích và đưa ra cái nhìn chung nhất vể tìm kiếm ảnh
theo nội dung và các phương pháp tìm kiếm ảnh theo nội dung trong
những năm gần đây [13] trên m ột số khía cạnh sau: các đặc trưng, kiểu
loại ảnh, chỗ hổng cảm ứng và chỗ hổng ngữ nghĩav ..
•
T ìm hiểu các hệ thống tra cứu ảnh theo: các đặc trưng toàn cục, các
điểm nổi bật, đặc trưng hình dạng, kết hợp các đấu hiệu và cấu trúc, độ
tương tự của các ảnh và các đối tượng trong ảnh. Tương tác của người
sử dụng và hệ thống.
•
Nghiên cứu đánh giá phương pháp phân đoạn ảnh B lobw orld và sử dụng
k ì vọng cực đại để truy vấh ảnh; phương pháp tìm kiếm ảnh bằng qui
hoạch động [1 3 ] ,[8 ] ,[5].
•
M ộ t số thử nghiệm của các thuật toán đưa ra.
•
V iệc cải tiến, đưa ra thuật toán và ứng dụng vào thực tế trong các bài
toán Nhận dạng và tìm kiếím ảnh dành cho những nghiên cứu lớn hơn.
11
1 A Kết luận
Trong chương 1 chúng tôi giới thiệu một số khái niệm về xử lí ảnh, khái
quát về một hệ xử lí ảnh. Trong chương này chúng tôi cũng giới thiệu tổng
quát vế một số vấn đề trong tra cứu ảnh và mục tiêu luận văn cần đạt được.
12
Chương 2
MỘT SỔ K ĩ THUẬT CHUNG VỂ TÌM KIẾM ẢNH
THEO NỘI DUNG
2.1. Giới thiệu
Các ảnh trong thực tế được quan tâm dưới nhiều khía cạnh khác nhau
như là một ảnh, là một đối tượng hay với mục đích khác. Từ những năm 90
của thế kỉ trước cho tới nay vắn đề tra cứu ảnh theo nội dung đã được nghiên
cứu và có nhiểu ứng dụng. Theo chúng tôi việc tổng kết đánh giá và đưa ra
một số khái niệm về vấn đề này là cần thiết cho việc phát triển, ứng dụng các
kĩ thuật đó ờ Việt nam. Nội dung của chương được đưa ra theo thứ tự sau:
phạm vi của tìm kiếm ảnh, các phương pháp xử lí ảnh theo màu sắc, cấu
trúc,
••” phân chia dữ liệu, tính toán đặc trưng, độ tương tự giữa hai ảnh, truy
vấn ảnh.
2.2. Phạm vi của tìm kiếm ảnh theo nội dung
2.2.1. Phân loại theo ứng dụng
Tìm kiếm ảnh theo nội dung được phân chiâ theo ứng dụng thành 3 loại
sau: tìm kiếm bằng cách duyệt một tập dữ liệu ảnh từ các cơ sở dữ liệu không
được đặc tả; tìm kiếm đích trên các ảnh được đặc tả; tìm theo hạng loại (theo
lớp tương tự) và tìm kiếm kết hợp. Sự phân loại trên có thể được tóm tắt như
bảng 1 trên các khía cạnh: mục tiêu cần đạt được, truy vấn bằng mẫu,độ
tương tự, các sự kiện trong không gian, sự phản hồi, cập nhật tương tác (ảnh,
đặc trưng, độ tương tự.)
13
Tìm kiếm Đích, tìm theo lạng loại và tim kiếm kết hợp trong tra cứu ảnh
Đích
Mục tiêu đối tượng
Truy vấn bằng ví dụ
Độ tương tự
Phân loai
1 đối tượng được Một đối tượng phức tạp
đăc tả
từ một lớp được đặc tả
1...N đối tượng với các
1…N đối tượng
nhăn lớp
Dựa trên đặc
Theo lớp
trưng
Kết hợp
Không định nghĩa tại vị
tríbắỉđẩu
N đối tượng cộng với
sự kết hợp
Đặc tả phiên
Các sự kiện trong Fkhông gian.
Xáp xỉ truy vấn
Phản hổi
Theo vị trí thứ tự Khả năng trên các lớp Phản hỗi thích đáng
trên độ tương tự
thành phần
trên các giá tri kết hợp
Cập nhật tương tác:
Của ảnh của truy vấn
Của đặc trưng truy vấn
Lọc từng bước
Của độ tương tự
Thành phẩn phân lớp
Truy vấn mở rộng
Lọc tửng bước
Thích hợp YỚi nhóm
Các cụm
Lọc từng bước
Thay đổi từng bước
Tao lai hỉnh dang cho
đích •
Bảng 1: Phân loại các hệ thống tìm kiếm ảnh theo nội dung
2.2.2. Vùng ảnh và lỗ hổng cảm giác
Vùng ảnh z cần nghiên cứu được phân chia thành hai loại: vùng rộng và
hep. 1) V ùng hẹp là m ột vùng m à sự biến th iên của nó được giới hạn và xá c
định trong tấ t cả các kh ía cạnh thích đáng của sự xu ấ t h iện của vùng. 2) V ùng
rộng có sự biến thiên không giới h ạ n ,không xá c định trong tấ t cả các sự xu ấ t
hiện của vùng thậm c h í cả với ỷ nghĩa tương tự.
Trong một vùng hẹp, người ta tìm kiếm một tính chất thay đổi được giới
hạn cua nội dung ảnh. Trong một vùng rộng ngữ nghĩa của ảnh được diễn tả
chỉ là cục bộ.
Khi tìm kiếm ảnh theo nội dung, cần quan tâm đến một khái niệm là
“ chỗ hổng cảm giác” . C hỗ hổng cảm giác là ch ỗ hổng giữa đối tượng trong
th ế giới và thông tin trong m ột sự th ể hiện (tín h to án) thu được từ việc thu ảnh
đó.
14
Chỗ hổng cảm giác đã đặt ra cho việc thể hiện đối tượng ảnh m ột vấn
đề đó ỉà sự không chắc chắn trong trạng thái của đối tượng. Chỗ hổng cảm
giác là m ột thiếu xót k h i m ột tri thức chính xác của điều kiện thu nhận ảnh bị
mất. Hầu hết các thiếu xót của các hệ thống tìm kiếm ảnh gần đây xuất phát từ
việc không tìm ra chỗ hổng ngữ nghĩa và khắc phục những hậu quả của nó cho
hộ thống. X é t trên khía cạnh người sử dụng ta có thể c o i chỗ hổng cảm giác là
sự thiếu sự trùng khớp giữa thông tin mà người ta có th ể trích ra từ cơ sỏ dữ
liệu nhìn thấy và sự biễu diễn các dữ liệu đó do người sử dụng đưa ra.
So sánh các vùng rộng và hẹp trong tìm kiếm ảnh
Hẹp——
thấp
đươc đăc tả
Sự biến thiên nội dung
Các nguồn tri thức
Các ngữ nghĩa
Sư chính xác
Thể hiên nôidung^
Ngoại cảnh và cảm ứng
Hướng ứng dụng
Kiều ứng dụng
Các công cụ
Tương tắc
Sự ước lượng
Kiến trúc hệ thống
Kích cỡ
Muc đích
đổng nhất
có thể
khách quan
có thể đươc điốu khiển
đươcđăctả
Rộng
Cao
Chung
không đổng nhất
không thể
chù quan
không biết
Chung
chuyên biệt
Phổ dụng
theo mẫu, các bất biến được đặc tả
được giới hạn
định lượng
theo cơ sở dữ liốu biến đổi
trung bỉnh
nhận dạng đối tượng
cảm giác, văn hoá, các bát biến
Rộng khắp, lặp lại
định lượng
Theo tương tác mođun
Rộng cho đến rất rộng
tỉm thông tin
Bảng 2: So sánh vùng rộng và vùng hẹp
Khác với văn bản luôn cần đến ngữ cảnh còn ảnh thì tự nó đã cho ta biết
nội dung. Các giá trị đặc trưng ngữ nghĩa được thêm vào cùng với các từ khoá
hoặc các chú giải là g iải pháp để giảm chi phí lớn trong việc truy cập vào nội
dung ảnh trong các cơ sở dữ liệu ảnh quá lớn.
2.2,3. T ri thức vùng
Trong tìm kiếm ảnh thể hiện chính xác tri thức vùng là rất quan trọng để
làm giảm chỗ hổng cảm giác. Và sau đây là m ột số quy tắc cần tuân thủ:
15
• Các quy tắc về sự bằng nhau và sự tương tự vể cú pháp định nghĩa các
mối quan hệ liên quan giữa các điểm ảnh hoặc giữa các đặc trưng ảnh mà bỏ
qua những nguyên nhân cảm ứng hay vật lí.
• Các quy tắc biểu diễn tri giác của con người về sự bằng nhau và sự
tương tự là rất quan trọng bởi vì chúng định nghĩa độ bằng nhau trên các
nguyên tắc nẻn tảng giống nhau như độ bằng nhau về kin h nghiệm của người
sử dụng.
• Các quy tắc vật lí diễn tả sự bằng nhau và khác nhau của các ảnh dưới
sự khác nhau về tri giác và đặc tính bể m ặt của đối tượng.
• Các quy tắc về cấu trúc và tính chất hình học diễn tả sự bằng nhau và
sự khác nhau của các đặc trưng trong không gian.
• Các quy tắc dựa trên các phạm trù để mã hoá các đặc điểm thông
thường vào lớp z của không gian tất cả các k í hiệu z .
• Các quy tắc bằng nhau và khác nhau dựa trên văn hoá.
N hư vậ y: Đ iểm chủ chốt trong tìm kiếm ảnh theo nội dung là tìm ra sự
tương tự về nội dung của ảnh cần tìm trong cơ sở dữ liệu . Các ứng đụng của
tìm kiếm ảnh theo n ộ i dung theo được phân chia thành: tìm kiếm đích, tìm
kiếm theo phạm trù và tìm kiếm kết hợp.
H ình 3: Các nguồn tri thức chung theo thứ tự bằng nhau
16
Chỗ hổng cảm giác giữa các tính chất trong m ột ảnh và các đặc điểm
của đối tượng ảnh hưởng lớn đến tìm kiếm ảnh theo nội dung. Các hệ thống
tìm kiếm ảnh theo nội dung phải có khả năng khắc phục chỗ hổng ngữ nghĩa
giữa các đặc trưng và làm giàu ngữ nghĩa của người sử dụng.
Việc phân tích các đặc điểm của vùng ảnh, vùng tri thức và các kiểu sử
dụng các yếu tố sẵn có để xác định chức năng của m ột hệ thống tìm kiếm ảnh
theo nội dung.
2.3. Biểu diễn nội dung ảnh,
xử lí ảnh*
Đầu tiên, hãy thảo luận vể các toán tử xử lí ảnh, biến đổi dữ liệu ảnh
thành m ột mảng dữ liệu không gian khác, xem hình 4.
Hình 4: Các m odule xử lí ảnh
Các phương pháp được phân chia theo màu cục bộ, cấu trúc cục bộ,tính
chất hình học cục bộ. Công thức biến đổi tổng quát như sau:
f ( x ) = g o i(x )
(2.1)
Trong đó /(X ) là ảnh, g là m ột toán tử trên các ảnh, f (jc) là ảnh kết
quả. Ở đây, có thể sử dụng bất biến như m ột công cụ để xử lí những hiện
tượng bị méo trong thông tin ảnh [3]. Hai đối tượng tị nào đó là tương đương
dưới m ột nhóm biến đổi w nếu chúng ở trong m ột lớp tương đương:
/ị
(2.2)
17
M ộ t tính chất f của t là bất biến dưới w nếu và chỉ nếu f t không đổi dưới
w.
h 〜 , 2 ^ ft\ = f t 2
(2.3)
2.3.1. Xử ií màu sác
M ỗ i ảnh i(x) có m ột giá trị màu trong m ột không gian véc tơ màu. M ô
hình màu RGB là m ột các lựa chọn thích hợp để biểu diẻn xử lí màu sắc.
Trong mô hình RGB m ột ảnh được biểu diễn bở i bộ (/? (x ),G (x ),i? (x )). M ô
hình HSV thường được lựa chọn cho các tửìh chất bất biến của nó (độ Hue)
thuận lợ i hơn cho tìm kiếm đối tượng.
Sự bất biến về màu sắc là khả năng của con người có thể nhận biết được
các màu xuất hiện giống nhau trong các sự biến thiên của độ rọ i sáng mà sự
thay đổi phổ vật lí của độ sáng thu được, Sự bất biến này được sử dụng để tìm
kiếm bằng cách sử dụng m ột thể hiện màu bất biến về độ chói sáng.
2.X2. Xử lí hình dạng cục bộ
Tất cả các chi tiế t hình học tỉ m ỉ, rõ ràng trong m ột ảnh (hình dạng cục
bộ) đều cần được quan tâm. Các đặc điểm hình dạng cục bộ thu được từ đạo
hàm màu theo hướng cũng được sử dụng, ứng dụng trong các máy dò ảnh.
L í thuyết vể không gian tỉ lệ cung cấp cơ sở phát hiện các chi tiế t chuứì
xác trên bất kì tỉ lệ nào. H ình dạng cục bộ và thông tin cường độ cho điểm
nhìn và tìm kiếm đối tượng bất biến.
K ết hợp giữa hình dạng cục bộ và màu sắc trong
thể hiện bất biến là
m ột sự kết hợp hữu ích; trong đó màu sắc ở trong và ngoài
củađộ cong lớn
nhất trong cạnh màu được lưu trong đối tượng nhận dạng.
m
:r t s
v i U
' r î H
18
2.3.3. Xử lí cấu trúc ảnh
Các cấu trúc ảnh được tạo bởi nhiều thành phần, số các thành phần này
thường lớn hơn rất nhiểu con số nhận được khi các đối tượng bị tách ra. Các
thành phần có thể được thay thế bởi nhiều hoặc ít hơn m ột cách ngẫu nhiên.
Trong khuôn khổ tìm kiếm ảnh, các nghiên cứu tập trung vào các phương pháp
sinh ra hay phân tích sự biểu th ị đặc điểm từng phần.
2.3.4. Kết luận
X ử lí ảnh nhằm mục đích nâng cao chất lượng thông tin ảnh để tìm
kiếm ảnh theo nội dung. Trong đó, xử lí màu sắc ảnh để giảm các lỗ i do điéu
kiện ngẫu nhiên gây ra (ví dụ chỗ hổng cảm giác), ứ ig dụng thể hiện hình học
thu được từ lí thuyết không gian tỉ lệ cho thấy m ột góc độ và cảnh độc lập với
tập điểm nổi bật vì vậy sẽ có cách tìm tính tương tự của ảnh trén các vùng
hoặc m ột vài điểm chứa thông tin*
Thảo luân ờ trên đã phân biệt màu sắc, hình học cục bộ và cấu trúc. Các
vùng đồng nhất được biểu diễn như các tập hợp của các elipsolid của các màu
và cấu trúc đồng nhất. Trong tìm kiếm ảnh theo nội dung bước đầu tiên là tạo
nên khả năng phân biệt các tính chất bất biến.
2.4. Thể hiện nội dung: Các đặc trưng
Gộp ảnh
■
phân <ỉoạiì 0iạob
- —■
夢
Phao doạ» yếu
các vùng nổi bật
■— 爹
Nhận ra dấũ hiệu
V ị ưí các dấu hiệu
Ftlânchia
Dữ liệu độc lập với các phán ảnh
►
11 ^
các áổi tượng dược phân đoạn
H ình 5: Các cách khác nhau để nhóm dữ liệu ảnh
19
2.4.1. Gộp dữ liệu
Trong tìm kiếm ảnh theo nội dung các ảnh thường được phân chia thành
các phần trước khi các đặc trưng được tính toán trên m ỗi phần đó, xem hình 5.
Việc phân chia các ảnh thành các phần nhằm mục đích thu được các đặc trưng
được
theo lựa
chọn.
Có các sựt Ẵ
phân đoạn
•
•
•
• như sau:
• P hân đoạn m ạnh là sự phân chia d ữ liệu ảnh thành các vùng, trong
đó vùng T c h ỉ chứa các điểm ảnh của hình chiếu của đối tượng o trong th ế
giới thực, được đặc tả bởi: T = ỡ .
• Phân đoạn yếu là việc nhóm dữ liệu ảnh trong m ột vùng T chính xác
đồng nhất bên trong theo m ột s ố tiêu chuẩn, với T c O . Tiêu chuẩn được thoả
mãn nếu vùng T ở bên trong biên của đối tượng o ,nhưng không đảm bảo rằng
vùng bao phủ toàn bộ vùng đối tượng.
• K h i m ột đối tượng có m ột hình dạng cố định thì: khoanh vùng các dấu
hiệu là tìm m ột đối tượng với hình dạng và ngữ nghĩa c ố định, với T= xcenIer.
Các dấu hiệu rất hữu ích trong tìm kiếm ảnh dựa trên nội dung kh i chúng biểu
diễn m ột sự thể hiện ngữ nghĩa duy nhất và trực tiếp.
• D ạ n g gộp yếu nhất là phân chia. S ự phân ch ia ở đây chính chính là
phân chia dãy dữ liệu bất chấp dữ liệu, được k í hiệu là: T ^ o . Vùng T ở đây
có thể là toàn bộ ảnh, hoặc là trung tâm ảnh, bên trên, bên trá i,bên phải. M ộ t
cách phân chia khác là ảnh được chia thành các phần bằng nhau, m ỗi phần
được gán m ộ t nhãn.
2.4.2* Các đặc trưng
• C ác đặc trưng toàn cục: là các đặc trưng được tính toán từ toàn bộ
ảnh. Đặc trưng tích lu ỹ tính theo công thức sau:
20
F j-ỵ h o f(x )
h
(2.4)
Trong đó z là toán tử kết hợp; Fj là tập các đặc trưng tích luỹ hoặc là
tập các đặc trưng tích lu ỹ đánh số trong m ột biểu đồ mức xám; Tj là phần phân
chia qua giá trị Fj được tính. Toán tử/ỉ là trọng số liê n quan.
Để tính các đặc trưng tích lu ỹ có thể sử dụng biểu đồ mức xám. Nó
cũng tỏ rõ m ột số ưu điểm : không cần thông tin vế v ị trí đối tượng trong ảnh,
thay đổi rất chậm so vớ i các tiêu chuẩn khác. T uy nhiên, đố i vớ i cơ sở dữ liệu
lớn dùng biểu đồ mức xám đơn giản không thể phân b iệt được. Để giải quyết
vấn để này người ta đã thêm vào cấu trúc cục bộ, đặc trưng cục bộ, cạnh định
hướng, khoảng cách cục bộ, biểu đồ mức xám , các đặc trưng hình học.
• C ác đặc trưng Dổi b ậ t: Để tránh sự các nhược điểm của phân đoạn
mạnh là sử dụng phân đoạn yếu. Đ iều này đã dẫn đến việc gộp dữ liệu thành
các vùng và việc lựa chọn phải dựa trên các đặc trưng nổi bật của vùng. Các
dặc trưng nổ i bật có thể được đưa ra trong phương trìn h tổng quát sau:
FẢ x) = A h o f ( x)
Tj
(2-5)
Trong đó, 八 là một toán tử lựa chọn cục bộ, h cho ta max của trường
ảnh được xử lí f(x). Vùng Tj được xét trên giá trị củâ Fj được tìm trên toàn ảnh.
Thông tin của ảnh chỉ được thể hiện trong m ột số giá trị đặc trưng nổi
bật. Những giá tr ị này được lưu trữ để tìm kiếm ảnh. N goài ra những giá trị bất
biến cũng cần được ghi lạ i và được coi như các điểm nổ i bật.
• C ác dấu h iệ u : k h i m ột thể hiện của m ột ảnh có ưu thế (mang ý nghĩa
của ảnh) thì ảnh có dấu hiệu và được biểu diễn bằng xác suất p trên sự thể
hiện z như công thức sau:
(2 .6)
21
với các kí hiệu như trong phương trình (2.5). Sự phân tích này dẫn đến
vấn để là tìm vị trí của dấu hiệu với xác suất nào đó. Các dấu hiệu ta thường
thấy đó là: biểu tượng, kí tự,nhãn mác,v.v.
•
Các
đặc trư n g
hình dạng
và đối
tượng: Phân đoạn ảnh là cách tố t
nhất để nâng cao chất lượng thông tin vế đối tượng chứa trong ảnh. Nhưng
phương pháp này dẽ đổ vỡ trong các vùng rộng. Còn trong vùng hẹp ta có:
tj(x ) = sJ o f( x )
(2.7)
Trong đ ó f(x ) là trường dữ liệu thu được từ quá trình xử lí ờ trên (là ảnh
i(x ) khi g là toán tử đồng nhất), Sj là toán tử phân đoạn cho đối tượng ỹ, và tj(x)
xác định đối tượng vùng
Tỳ
Đối với hình dạng, F j là một tập hợp thứ j các đặc
trưng:
F j^ h o t^ x )
(2.8)
Trong đó z là toán tử kết hợp và h là chức năng tính toán hình dạng.
Một phương pháp khác là trích chọn ra các chu tuyến của đối tượng từ
ảnh, tăng dần độ trơn bằng cách phân chia chúng thành các vùng của các tùi
hiệu hằng của các đạo hàm bậc hai và giảm từ từ số lượng các vùng để thu
được elipsoid mà có thể được đặc trưng bởi một số đặc trưng nào đó.
2.4.3. Mô tả cấu trúc
Trong quá trình tính toán, các đặc trưng củâ các thực thể có thể được
lưu trữ với mối liên hệ với nhau. Một tạp đặc trưng cấu trúc như vậy có thể
chứa các giá trị đặc trưng cộng với các mối liên hệ không gian, một cấu trúc
thứ tự của các giá trị đặc trưng, hoặc mối liên hệ giữa tập các điểm hoặc tập
các đối tượng.
Quá trình trên được biểu diẻn bằng phương trình sau:
22
U
hof
⑷
( 2 .9)
Trong đó Tjtk là thành phần thứ k của đối tượng thứ ý, và H jtk là một mối
liên hệ không gian diễn tả đối tượng ý trong k thành phần.
2.5, Sựthể hiện và độ tương tự
2.5.1. Thể hiện ngữnghĩa
Trong tìm kiếm ảnh theo nội dung sẽ rất hữu ích nếu đưa vào sự thể
hiện ngữ nghĩa của các đặc trưng thu được từ ảnh. Đ ặc trưng ngữ nghĩa nhằm
vào mục đích m ã hoá sự th ể hiện của ảnh mà thích đáng với các ứng dụng.
Giả sử m ột véc tơ đặc trưng F thu được từ ảnh /• Đ ố i v ớ i những sự thể hiện
ngữ nghĩa z thu được từ tập tất cả các sự thể hiện hiện z ,ta có xác suất điều
kiện:
P ^ P ( z \ F)
(2.10)
M ột đặc trưng ngữ nghĩa mạnh với sự thể hiện Zj sẽ có xác suất được
tữih bằng P (z I F) =
- Zj). Nếu m ột đặc trưng không mang ngữ nghĩa thì ta
có P (z I F) = P (z) độc lập v ớ i giá tr ị đặc trưng.
2.5.2. Độ tương tự
•
Độ tương tự
giữa
các đặc trưng: Để gán ý nghĩa cho m ột
tập
trưng có thể sử dụng hàm tương tự. Khi tìm ảnh /*^(x) trong số các thành phần
của cơ sở dữ liệu ảnh, id(x), tri thức vùng sẽ được biểu diễn bằng độ đo tương
tự Sqd giữa ảnh q
trên cơ sở tập các đặc trưng. Độ tương tự của hai véc tơ
đặc trưng F nói chung được cho bởi công thức:
hoặc:
sq,d= s(¥q,¥d)
(2-11)
s(Fqy¥d) = god(Fq,Fd)
(2. 12)
đặc
23
Trong đó g là hàm dương không tăng, và d là hàm khoảng cách. Công
thức này phù hợp với các truy vấn theo mẫu.
Biểu đồ mức xám có thể được xem như m ột tập các đặc trưng có thứ tự
và độ đo khoảng cách giữa chúng được cho bởi:
ổ(¥q,¥ d) = g od (¥q, )
(2.13)
Trong đó d có thể là khoảng cách giao: d{ (F^,Fư) = ^ n m in (F /,F /) hay
khoảng cách M in ko w ski: dr( ĩ \ ĩ d) -
r
;
(F
1 và F* là hai biể đồ
mức xám chứa n điểm ).
•
Độ tương tự của các đặc trưng
cấu trúc: kết quả của một thể hiện
cấu trúc là m ột tập thứ tự các giá trị đặc trưng H . Đ ộ tương tự của các đặc
trưng cấu tróc cho bởi:
Sqd:s (H q,H dl
(2.14)
Cây thứ tự được so sánh với mục đích tìm kiếm bằng việc chuyển chúng
thành các xâu. M ộ t độ đo tương tự dựa trên khoảng cách cho ta độ đo tương tự
giữa các lá tương ứng trong cây.
K h i các ảnh được biến đổi thành các vùng đồng nhất nhằm tìm kiếm
dựa trên cấu trúc, màu sắc. Các vùng được chuyển thành m ột xâu trong từ điển
th ị giác. Các xâu được biểu diễn bằng các biểu đồ mức xám liên vùng F (/j/).
Trong quá trình truy vấn ,
độ tương tự giữa q
d được cho bởi
F9Frf,đó là từng thành phần tương ứng của các biểu đồ mức xám
theo thứ tự vùng.
•
Độ
tương tự giữa các
đặc
trưng nổi bật:
các đặc trưng nổi bật được
sử dụng thu được thông tin trong ảnh. Sau đó độ tương tự có thể được tữih theo
các véc tơ đặc trưng nổ i bật:
24
(2.15)
Sq,d : g od(Fq,Fd)
và ¥d là các véc tơ đặc trưng nổi bật và g ỉà m ột hàm đơn
Trong đó
điệu tố i ưu. M ộ t độ đo tương tự giữa các giá trị đặc trưng để đo kết quả từ các
điểm màu từ sự phân đoạn yếu bao gồm m ột khoảng cách M ahalanobis giữa
các véc tơ đặc trưng của màu sắc, cấu trúc, v ị trí, diện tích, độ lệch tâm và
hướng của 2 elip. Nếu các đặc trưng của e lip được thể bằng véc tơ F ,khoảng
cách giữa p
q được cho bởi dqd = [(Fq- F^)r
(¥q - F^)]^ trong đó z là ma
trận trọng số đường chéo được đặt bởi người sử dụng. Đ ộ tương tự giữa hai
điểm màu được định nghĩa là Sqd: exp( - tí^ /2 ).
V ớ i các điểm nổi bật được tính theo biểu đồ mức xám, độ tương tự giữa
các biểu đồ mức xám F^và
xác đinh sự có m ặt của các điểm nổi bật được
tính như sau:
Sq^ g o d ( F \ ¥ d)
Khoảng cách
(2.16)
nhằm đo sự hiện diện của các tập giống nhau các
điểm nổi bật. Sự khác nhau giữa văn bản d trong tệp dữ liệu và truy vấn
ợ được tính là khoảng cách giao dx( F ' ) = E u
("/. .),trên tất cả
các chiếu.
Độ tương tự của các điểm nổi bật chỉ tập trung vào các m ối liên hệ
không gian trong số tập các điểm nổi bật ¥ q và p 小
Sq,d=god(Pq>Pd)
•
Độ
(2.17)
tương tự giữa các bóng đối tượng: sau k h i phân đoạn ảnh thành
tập các điểm í(x ),độ tương tự được tính theo công thức:
SqÀ^ s ụ q( x ịt d(x )\
(2.18)
25
•
Độ tư ơng tự ngữ ng hĩa: m ột khái niệm chung về độ tương tự là cần
phải có truyến lù i thích đáng, trong đó độ tương tự tính vớ i toàn bộ ảnh được
yêu cầu. M ố i liên hệ được biểu diễn giữa độ tương tự và hàm khoảng cách
định nghĩa m ột độ đo trọng số củâ hai độ tương tự đơn giản hơn S(s ,
S ị,
S 2) =
M^exp(-í/(iS/,
5)) + W 2exp(-(i(5^)). M ục đích cùa độ đo này là tìm ra tất cả các
vùng mà tương tự với hai truy vấn điểm được đặc tả.
2.5.3. Thảo luận về sự thể hiện và độ tương tự
Chỉ kh i ảnh tự nó đã cho ta m ột sự thể hiện rõ, các hệ thống dựa trên
nội dung sẽ có được thông tin trong trường hợp lí tưởng. M ộ t sự thể hiện ngữ
nghĩa mạnh xuất hiện kh i m ột dấu hiệu có thể được đồng nhất trong ảnh. Các
ngữ nghĩa yếu phụ thuộc vào sự phân loại không chính xác đã được kết luận
bởi độ đo tương tự thích hợp tương tác trực tuyến.
Đ ộ tương tự là m ột trong những sự thể hiện của ảnh dựa trên sự khác
nhau vớ i các ảnh khác. Đ ố i với m ỗi m ột kiểu đặc trưng khác nhau độ đo tương
tự là cần thiết vì ảnh hưởng độ đo này đến tìm kiếm .
2.6. Tương tác
Trong tìm kiếm ảnh theo nội dung, tương tác là m ột sự ảnh hưởng qua
lại giữa người sử dụng, các ảnh, và sự thể hiện ngữ nghĩa của chúng.
2.6A. Không gian truy vấn
Không gian ư uy vấn Q là m ột m ục tiêu phụ thuộc 4 thành phần
{IqJq^q^Zq}. Trong đó: Iq^là sự lựa chọn ảnh từ tập I; Fq^c F là sự lựa chọn đăc
trưng từ Iq;
ôq^là hàm tương tự; ZqJZ z là tập các nhãn,
M ộ t tru y vấn Q = ự QyFQìSQìZQ} là m ột phần tử của không gian truy vấn.
Các tru y vấn được phân thành các lo ại sau: