Tải bản đầy đủ (.pdf) (83 trang)

Nghiên cứu kỹ thuật tra cứu ảnh và ứng dụng trong tra cứu cây thuốc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.24 MB, 83 trang )

.

ĐẠI HỌC THÁI NGUYÊN

TRƢỜNG ĐẠI HỌC C



Nguyễn Thị Bích Hạnh

NGHIÊN CỨU KỸ THUẬT TRA CỨU ẢNH
VÀ ỨNG DỤNG TRONG TRA CỨU CÂY THUỐC

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

Thái Nguyên – 2013

Số hóa bởi Trung tâm Học liệu

/>

ĐẠI HỌC THÁI NGUYÊN

TRƢỜNG ĐẠI HỌC



Nguyễn Thị Bích Hạnh

NGHIÊN CỨU KỸ THUẬT TRA CỨU ẢNH
VÀ ỨNG DỤNG TRONG TRA CỨU CÂY THUỐC


Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƢỜI HƢỚNG DẪN KHOA HỌC

TS. Nguyễn Văn Tảo

Thái Nguyên - 2013

Số hóa bởi Trung tâm Học liệu

/>

i

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn với tên đề tài “Nghiên cứu kỹ thuật tra cứu
cứu ảnh và ứng dụng trong tra cứu cây thuốc” là kết quả nghiên cứu của bản
thân học viên, dựa trên nghiên cứu và thu thập cơ sở dữ liệu thực tiễn dƣới sự
hƣớng dẫn khoa học của TS. Nguyễn Văn Tảo. Các số liệu, kết quả nêu trong
luận văn là hoàn toàn trung thực, chƣa từng đƣợc công bố dƣới bất cứ hình thức
nào.
Thái Nguyên, ngày 15 tháng 7 năm 2013
Ngƣời cam đoan

Nguyễn Thị Bích Hạnh



ii

LỜI CẢM ƠN
Trong suốt thời gian hoàn thành luận văn nghiên cứu, tơi ln nhận đƣợc giúp
đỡ tận tình của thầy giáo hƣớng dẫn và biết bao ngƣời thân yêu bên tôi.
Nhân dịp này, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới TS.
Nguyễn Văn Tảo về những chỉ dẫn khoa học, những góp ý q báu và tận tình
hƣớng dẫn tơi trong suốt q trình thực hiện luận văn tốt nghiệp.
Tơi xin chân thành cảm ơn tập thể các Thầy, Cô giáo trong trƣờng Đại học Công
nghệ thông tin và Truyền thông đã luôn nhiệt tình quan tâm, giúp đỡ và tạo mọi
điều kiện tốt nhất cho tơi trong suốt q trình học tập tại trƣờng.
Xin chân thành cảm ơn tới tập thể các thầy cô và các bạn đồng nghiệp Trung
tâm Nghiên cứu và Phát triển Nơng Lâm nghiệp miền núi phía Bắc - Trƣờng Đại
học Nông Lâm nơi tôi đang công tác; các bạn trƣờng Đại học Y Thái Nguyên đã
luôn cổ vũ, động viên và tạo mọi điều kiện thuận lợi để tơi hồn thành luận văn của
mình.
Cuối cùng, tơi muốn bày tỏ lịng cảm ơn vơ hạn tới bạn bè, tới những ngƣời
thân yêu luôn bên tôi. Xin bày tỏ lòng cảm ơn sâu sắc tới bố mẹ, chồng, con và
những ngƣời thân trong gia đình đã là điểm tựa tinh thần lẫn vật chất cho tơi trong
những lúc khó khăn, luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện
luận văn tốt nghiệp.
Xin trân trọng cảm ơn tất cả sự giúp đỡ quý báu đó!

Sinh viên

Nguyễn Thị Bích Hạnh


iii


MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
LỜI CẢM ƠN .............................................................................................................ii
DANH MỤC CÁC HÌNH .......................................................................................... vi
DANH MỤC CÁC BẢNG........................................................................................vii
PHẦN MỞ ĐẦU ......................................................................................................... 1
Chƣơng 1. TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG ................. 3
1.1. Tổng quan về xử lý ảnh ................................................................................... 3
1.2. Khái quát về tra cứu ảnh ........................................................................................ 5
1.2.1. Đặc trưng màu .......................................................................................... 7
1.2.2. Đặc trưng màu vân .................................................................................... 9
1.2.3. Đặc trưng về hình dạng ............................................................................. 9
1.2.4. Thơng tin không gian ................................................................................. 9
1.2.5. Phân đoạn ............................................................................................... 11
1.3. Các chức năng cơ bản của một hệ thống tra cứu ảnh dựa vào nội dung ........ 12
1.4. Những ứng dụng cơ bản của tra cứu ảnh dựa vào nội dung .......................... 15
1.5. Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu .................................... 16
1.5.1. Hệ thống QBIC ........................................................................................ 16
1.5.2. Hệ thống Photobook ................................................................................ 16
1.5.3. Hệ thống VisualSEEK và WebSEEK ....................................................... 16
1.5.4. Hệ thống RetrievalWare .......................................................................... 17
1.5.5. Hệ thống Imatch....................................................................................... 17
1.5.6. Mơ tơ tìm kiếm WWW ImageRover ......................................................... 17
Chƣơng 2. MỘT SỐ KỸ THUẬT TRA CỨU ẢNH DỰA VÀO NỘI DUNG ........ 18
2.1. Tra cứu ảnh dựa vào màu sắc ......................................................................... 18
2.1.1. Màu sắc .................................................................................................... 18
2.1.2. Một số đặc tính đặc biệt về màu sắc ........................................................ 19
2.1.3. Các không gian màu ................................................................................ 19
2.1.4. Lượng tử hóa màu và lược đồ màu ......................................................... 24



iv

2.1.5. Đo khoảng cách giữa các lược đồ màu .................................................. 29
2.2. Tra cứu ảnh dựa vào hình dạng ...................................................................... 32
2.2.1. Khái niệm về hình dạng ........................................................................... 32
2.2.2. Đặc điểm hình dạng với việc tìm kiếm ảnh.............................................. 32
2.2.3. Lược đồ hình dạng ................................................................................... 34
2.2.4. Biểu diễn hình dạng trên cơ sở vùng và thước đo đồng dạng ................. 35
2.3. Tra cứu ảnh dựa vào vân ................................................................................ 39
2.3.1. Vân là gì? ................................................................................................. 39
2.3.2. Tra cứu ảnh dựa vào vân ......................................................................... 40
2.3.3. Phân hoạch vùng nhị phân cục bộ........................................................... 41
2.3.4. Phân đoạn vân ......................................................................................... 41
2.4. Phƣơng pháp tra cứu ảnh sử dụng dấu hiệu nhị phân .................................... 41
2.4.1. Giới thiệu ................................................................................................. 41
2.4.2. Kiến trúc hệ thống ................................................................................... 43
2.4.3. Kỹ thuật tra cứu ảnh theo nội dung dựa vào dấu hiệu nhị phân ............. 44
2.4.4. Độ đo tương tự ......................................................................................... 48
Chƣơng 3. XÂY DỰNG CHƢƠNG TRÌNH TRA CỨU ẢNH CÂY THUỐC........ 52
3.1. Giới thiệu bài toán tra cứu ảnh cây thuốc ...................................................... 52
3.2. Phân tích bài tốn ........................................................................................... 53
3.3. Các biểu đồ .................................................................................................... 57
3.3.1 Biểu đồ Use Case ...................................................................................... 57
3.3.2. Biểu đồ trình tự và biểu đồ hoạt động ..................................................... 57
3.4. Thiết kế cơ sở dữ liệu ..................................................................................... 62
3.5. Xây dựng chƣơng trình.................................................................................. 63
3.5.1. Ngơn ngữ sử dụng .................................................................................... 63
3.5.2. Giao diện chương trình............................................................................ 63

3.6. Thử nghiệm và đánh giá ................................................................................. 68
PHẦN KẾT LUẬN ................................................................................................... 71
TÀI LIỆU THAM KHẢO ......................................................................................... 72


v

DANH MỤC CÁC CHỮ VIẾT TẮT
STT

Từ

Từ viết đầy đủ

Diễn giải

viết tắt
1

VIR

Visual Information Retrieval

Tra cứu thông tin

2

CBIR

Content Based Image Retrieval


Tra cứu ảnh dựa vào nội dung

3

QBE

Query by Example

Truy vấn bởi ảnh mẫu

4

QBF

Query by Feature

Truy vấn bởi đặc trƣng

5

QBIC

Query By Image Content

6

RGB

Red Green Blue


Đỏ, Xanh lục, Xanh lơ

7

HSV

Hue, Saturation, Value

Màu, độ bão hòa màu, độ sáng

8

CCV

Color Coherence Vectors

Véc tơ gắn kết màu

9

CIE

10

CMY

Cyan-Magenta-Yellow

Lục lam, đỏ tƣơi, vàng


11

CBA

Constant Bin Allocation

Phân bổ bin liên tục

12

VBA

Variable Bin Allocation

Phân bổ biến bin

13

GCH

Global Color Histogram

Lƣợc đồ màu toàn cục

14

LCH

Local Color Histogram


Lƣợc đồ màu cục bộ

15

GIS

Geographic Information System Hệ thống thông tin địa lý

16

CSDL

Cơ sở dữ liệu

Commission International d'E
clairage

Truy vấn ảnh dựa vào nội
dung

Ủy ban quốc tế về màu sắc


vi

DANH MỤC CÁC HÌNH
Hình 1.1: Các bƣớc cơ bản trong một hệ thống xử lý ảnh ........................................ 3
Hình 1.2: Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung ..................................... 13
Hình 2.1: Mơ tả khơng gian màu RGB ..................................................................... 20

Hình 2.2: Mơ tả khơng gian màu HSV ..................................................................... 21
Hình 2.3: Lƣợc đồ màu HIS cải tiến. ........................................................................ 28
Hình 2.4: Khoảng cách dạng Minkowski.................................................................. 29
Hình 2.5: Khoảng cách dạng tồn phƣơng................................................................ 30
Hình 2.6: Hình dạng sau khi đã chồng lƣới .............................................................. 35
Hình 2.7: Hình dạng trên hình 2.6 sau khi đã đƣợc chuẩn hóa ................................. 37
Hình 2.8: Đo hai hình dạng trên cơ sở chỉ mục ........................................................ 37
Hình 2.9: Một số loại vân tiêu biểu .......................................................................... 40
Hình 2.10: Kiến trúc của kỹ thuật tra cứu ảnh sử dụng dấu hiệu nhị phân. .............. 43
Hình 2.11: Mẫu thiết lập hình ảnh. ........................................................................... 45
Hình 3.1: Kiến trúc tổng quát của hệ thống tra cứu ảnh. .......................................... 54
Hình 3.2: Mơ hình chi tiết của hệ thống tra cứu ảnh ................................................ 55
Hình 3.3: Tiền xử lý ảnh dữ liệu. .............................................................................. 57
Hình 3.4: Biểu đồ Use Case. ..................................................................................... 57
Hình 3.5: Biểu đồ trình tự của tác nhân tra cứu. ....................................................... 58
Hình 3.6: Biểu đồ cộng tác của tác nhân tra cứu. ..................................................... 58
Hình 3.7: Biểu đồ hoạt động của tác nhân tra cứu ảnh. ............................................ 59
Hình 3.8: Biểu đồ trình tự của tác nhân quản lý CSDL ảnh. .................................... 60
Hình 3.9: Biểu đồ cộng tác của tác nhân quản lý CSDL ảnh.................................... 60
Hình 3.10: Biểu đồ hoạt động của chức năng quản lý cơ sở dữ liệu ảnh.................. 61
Hình 3.11: Màn hình khởi tạo của chƣơng trình. ...................................................... 63
Hình 3.12: Màn hình chọn cơ sở dữ liệu ảnh ............................................................ 64
Hình 3.13: Màn hình chọn ảnh cần truy vấn 1 .......................................................... 65
Hình 3.14: Màn hình kết quả đối với ảnh truy vấn 1 ................................................ 65
Hình 3.15: Danh sách ảnh hiển thị thông tin đƣợc sắp xếp với ảnh truy vấn 1 ........ 66
Hình 3.16: Màn hình chọn ảnh truy vấn 2 ................................................................ 67
Hình 3.17: Màn hình kết quả đối với ảnh truy vấn 2 ................................................ 67
Hình 3.18: Danh sách ảnh hiển thị thông tin đƣợc sắp xếp với ảnh truy vấn 2 ........ 68



vii

DANH MỤC CÁC BẢNG
Bảng 2.1: Dấu hiệu nhị phân của hình 2.9 sử dụng CBA ......................................... 46
Bảng 2.2: Dấu hiệu nhị phân của hình 2.9 sử dụng VBA ......................................... 47
Bảng 2.3: Chuỗi dấu hiệu nhị phân minh họa sự giống và khác nhau của ảnh ........ 47
Bảng 3.1: Bảng cơ sở dữ liệu ảnh. ............................................................................ 62
Bảng 3.2: Bảng cơ sở dữ liệu nhị phân. .................................................................... 62
Bảng 3.3: Bảng kết quả thực hiện truy vấn 1. ........................................................... 62
Bảng 3.4: Bảng kết quả thực hiện truy vấn 2. ........................................................... 70


1

PHẦN MỞ ĐẦU
Ngày nay cùng với sự phát triển của các ngành khoa học khác, ngành công nghệ
thông tin cũng có những bƣớc phát triển nhanh chóng, ngày càng có nhiều ứng dụng
vào thực tiễn cuộc sống và đem lại hiệu quả cao. Việc quản lý thông tin rất cần tới các
công cụ để thu thập, phân loại tổ chức ở các dạng dữ liệu khác nhau một cách hiệu
quả. Trong khi các hệ thống quản lý thông tin dựa vào văn bản đã rất thành công
nhƣng chúng vẫn không đáp ứng đƣợc việc quản lý, khai thác và xử lý dữ liệu với khối
lƣợng khổng lồ nhƣ hiện nay. Ảnh số ngày càng thu hút đƣợc sự quan tâm của nhiều
ngƣời, một phần là do các thiết bị thu nhận ảnh số ngày càng phổ biến và có giá cả
phù hợp, cho phép nhiều ngƣời có thể sở hữu và sử dụng. Tra cứu và quản trị cơ sở dữ
liệu ảnh thu hút sự quan tâm của nhiều nhà nghiên cứu từ những năm 1970. Với sự
tăng nhanh về tốc độ máy tính và giảm chi phí bộ nhớ, các cơ sở dữ liệu ảnh chứa
hàng nghìn thậm chí hàng triệu ảnh đƣợc sử dụng trong nhiều lĩnh vực ứng dụng khác
nhau nhƣ y học, ảnh vệ tinh, các cơ sở dữ liệu ảnh sinh học và các cơ sở dữ liệu ảnh
phong cảnh... Các ứng dụng này đòi hỏi độ chính xác tra cứu cao.
Khi có nhu cầu tra cứu một vài bức ảnh nào đó trong một cơ sở dữ liệu có

hàng trăm ngàn ảnh, điều này khó có thể thực hiện đƣợc khi ta tra cứu bằng tay theo
cách thông thƣờng, nghĩa là xem từng tấm ảnh một cho đến khi thấy ảnh có nội dung
cần tìm. Với sự tăng nhanh về số lƣợng ảnh, cách tiếp cận tra cứu ảnh dựa vào chú
thích ảnh thủ công trở nên không khả thi về cả thời gian và chi phí.
Do đó, khi số lƣợng ảnh đƣợc lƣu trữ trở nên rất lớn thì vấn đề đặt ra là phải
có những phƣơng pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tra
cứu, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt mới đáp ứng đƣợc
nhu cầu ngày càng cao của con ngƣời. Việc xây dựng các hệ thống tra cứu ảnh là rất
cần thiết. Trong thực tế, bài tốn tra cứu ảnh số có rất nhiều ứng dụng quan trọng. Ví
dụ trong lĩnh vực ngân hàng việc so sánh chữ ký của khách hàng với mẫu chữ ký đã
đƣợc lƣu trữ sẵn có thể thực hiện rất nhanh và chính xác nếu có đƣợc một phần


2

mềm so sánh mẫu chữ ký tốt. Các ứng dụng phức tạp hơn nhƣ so sánh mẫu vân tay, tra
cứu ảnh tội phạm v.v... là những bài toán tra cứu ảnh đƣợc áp dụng trong ngành khoa
học hình sự.
Vì vậy, việc xây dựng các hệ thống tra cứu và xếp hạng ảnh là rất cần thiết
và thực tế đã có nhiều công cụ tra cứu ảnh thƣơng mại xuất hiện. Các công cụ tra cứu
ảnh thƣờng dựa vào hai đặc trƣng chính là văn bản đi kèm ảnh hoặc nội dung ảnh. Tra
cứu ảnh theo nội dung đã nhận đƣợc nhiều sự quan tâm của các nhà khoa học do nhu
cầu tìm kiếm các cơ sở dữ liệu có cỡ lớn tăng nhanh.
Cây thuốc (cây dƣợc liệu) có một vai trò quan trọng đối với đời sống của mỗi
con ngƣời, đặc biệt trong chăm sóc sức khỏe. Ngày nay, cây dƣợc liệu đã đƣợc con
ngƣời khai thác, khám phá, phát hiện và nhận dạng trên cơ sở công dụng của chúng đối
với đời sống chúng ta, đặc biệt là cây dƣợc liệu đem lại giá trị kinh tế cao. Tuy nhiên
hiện nay, nguồn cây dƣợc liệu bị khai thác bừa bãi ngày càng nhiều, điều này dẫn đến
cạn kiệt dần nguồn tài nguyên dƣợc liệu.
Trên thế giới, việc nghiên cứu, phát hiện, khai thác và quản lý cây dƣợc liệu đã

nhận đƣợc sự quan tâm nghiên cứu của nhiều nhà quản lý, nhà khoa học và nhà y dƣợc. Họ khơng chỉ thu thập, khai thác, quản lý mà cịn xây dựng các cơ chế ứng dụng
tiến bộ khoa học và công nghệ vào nhận dạng, quản lý và bảo vệ cũng nhƣ bảo tồn cây
dƣợc liệu một cách hiệu quả. Ở Việt Nam việc quản lý và khai thác cây dƣợc liệu vẫn
chỉ mang tính chất tự phát nên cần có sự quản lý và khai thác đồng bộ trên cơ sở phát
hiện, nhận dạng và bảo tồn các loài cây dƣợc liệu quý là một việc làm cấp thiết.
Xuất phát từ thực tế nêu trên, luận văn đƣợc lựa chọn là: “Nghiên cứu kỹ thuật
tra cứu ảnh và ứng dụng trong tra cứu cây thuốc” .
Bố cục luận văn gồm 3 phần: Phần mở đầu, phần kết luận và 3 chƣơng nội dung.
Chương 1: Tổng quan về tra cứu ảnh dựa vào nội dung.
Chương 2: Một số kỹ thuật tra cứu ảnh dựa vào nội dung.
Chương 3: Xây dựng chƣơng trình tra cứu ảnh cây thuốc.


3

Chƣơng 1
TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG

1.1. Tổng quan về xử lý ảnh
Xử lý ảnh là một lĩnh vực mang tính khoa học và cơng nghệ. Nó là một ngành
khoa học mới mẻ so với các ngành khoa học khác nhƣng tốc độ phát triển của nó rất
nhanh, kích thích các trung tâm nghiên cứu ứng dụng, đặc biệt là máy tính chun
dụng cho nó.
Q trình xử lý ảnh đƣợc xem nhƣ là quá trình thao tác ảnh đầu vào nhằm cho
ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là một
ảnh “tốt hơn” hoặc một kết luận.
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh đƣợc xem nhƣ là
đặc trƣng cƣờng độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tƣợng
trong khơng gian và nó có thể xem nhƣ một hàm n biến P(c1, c2,..., cn). Do đó, ảnh
trong xử lý ảnh có thể xem nhƣ ảnh n chiều [1], [2].

Sơ đồ tổng quát của một hệ thống xử lý ảnh:
Thu nhận ảnh
(Scanner,
Camera,Sensor)

Tiền xử lý

Trích chọn
đặc điểm

Hệ quyết định
Đối sánh rút
ra kết luận

Hậu xử lý

Lƣu trữ

Hình 1.1: Các bƣớc cơ bản trong một hệ thống xử lý ảnh
 Phần thu nhận ảnh
Các thiết bị thu nhận ảnh bao gồm camera, scanner các thiết bị thu nhận
này có thể cho ảnh đen trắng. Các thiết bị thu nhận ảnh có 2 loại chính ứng với 2


4

loại ảnh thông dụng Raster, Vector. Các thiết bị thu nhận ảnh thông thƣờng Raster
là camera, các thiết bị thu nhận ảnh thơng thƣờng Vector là sensor hoặc bàn số
hố Digitalizer hoặc đƣợc chuyển đổi từ ảnh Raster.
Trƣớc đây ảnh thu đƣợc qua camera là ảnh tƣơng tự nhƣng gần đây với sự phát

triển của công nghệ, ảnh màu hay ảnh đen trắng lấy đƣợc từ camera sau đó đƣợc
chuyển trực tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo. Mặt khác ảnh có thể thu
đƣợc từ vệ tinh hoặc máy quét ảnh.
 Tiền xử lý
Sau bộ thu nhận ảnh có thể bị nhiễu hoặc có độ tƣơng phản thấp nên cần đƣa
vào bộ tiền xử lý để nâng cao chất lƣợng. Chức năng của bộ tiền xử lý là lọc nhiễu,
nâng cao độ tƣơng phản,…
 Trích chọn đặc điểm
Các đặc điểm của đối tƣợng đƣợc trích chọn tuỳ theo mục đích nhận dạng
trong q trình xử lý ảnh. Có thể nêu ra một số đặc điểm của ảnh sau đây:
 Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm
uốn v.v..
 Đặc điểm biến đổi: Các đặc điểm loại này đƣợc trích chọn bằng việc thực hiện
lọc vùng (zonal filtering). Các bộ vùng đƣợc gọi là “mặt nạ đặc điểm”
(feature mask) thƣờng là các khe hẹp với hình dạng khác nhau (chữ nhật, tam
giác, cung tròn v.v..)
 Đặc điểm biên và đƣờng biên: Đặc trƣng cho đƣờng biên của đối tƣợng và do
vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến đƣợc dùng khi
nhận dạng đối tƣợng. Các đặc điểm này có thể đƣợc trích chọn nhờ toán tử
gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero
crossing) v.v..
 Biểu diễn ảnh
Ảnh trên máy tính là kết quả thu nhận theo các phƣơng pháp số hoá đƣợc


5

nhúng trong các thiết bị kỹ thuật khác nhau. Quá trình lƣu trữ ảnh nhằm 2 mục
đích là: Tiết kiệm bộ nhớ và giảm thời gian xử lý.
Việc lƣu trữ thơng tin trong bộ nhớ có ảnh hƣởng rất lớn đến việc hiển thị, in

ấn và xử lý ảnh đƣợc xem nhƣ là 1 tập hợp các điểm với cùng kích thƣớc nếu sử dụng
càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi
tiết của ảnh ngƣời ta gọi đặc điểm này là độ phân giải.
 Nhận dạng và giải thích ảnh
Nhận dạng ảnh là quá trình xác định ảnh. Quá trình đƣợc thực hiện nhờ so sánh
với mẫu chuẩn đã đƣợc học hoặc lƣu từ trƣớc. Giải thích là phán đốn theo ý nghĩa trên
cơ sở nhận dạng. Ví dụ một loạt chữ số và nét gạch ngang trên bì thƣ có thể phán đốn
là mã điện thoại.
Theo lý thuyết về nhận dạng, các mơ hình tốn học về ảnh đƣợc phân loại theo
hai loại nhận dạng ảnh cơ bản: Nhận dạng theo tham số và nhận dạng theo cấu trúc.
Một số đối tƣợng nhận dạng ảnh khá phổ biến hiện nay là nhận dạng kí tự (chữ
in, chữ viết tay, chữ kí điện tử), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt
ngƣời [1].

1.2. Khái quát về tra cứu ảnh
Tra cứu ảnh là một quá trình tra cứu trong một cơ sở dữ liệu ảnh những ảnh thỏa
mãn một u cầu nào đó. Ví dụ ngƣời sử dụng có thể tra cứu tất cả các ảnh chủ đề về
“Cây thuốc thảo dƣợc” trong một cơ sở dữ liệu ảnh hoặc một ngƣời sử dụng khác lại
muốn phân loại cơ sở ảnh của mình thành các bộ sƣu tập có chủ đề khác nhau. Một ví
dụ khác là một ngƣời muốn tìm tất cả các ảnh tƣơng tự với một bức ảnh mẫu nào đó
trong một cơ sở dữ liệu ảnh.
Theo Wikipedia: Hệ thống tra cứu ảnh là một hệ thống máy tính sử dụng để
duyệt, tra cứu và tra cứu ảnh từ một cơ sở dữ liệu ảnh số lớn.
Trƣớc năm 1990, ngƣời ta thƣờng sử dụng phƣơng pháp tra cứu ảnh theo văn
bản (Text Based Image Retrieval). Theo cách này ngƣời ta sẽ gán cho mỗi bức ảnh


6

một lời chú thích phù hợp với nội dung hoặc một đặc điểm nào đó của ảnh, sau đó

việc tra cứu ảnh đƣợc thực hiện dựa trên những lời chú thích này. Phƣơng pháp này
khá đơn giản. Phƣơng pháp tra cứu ảnh nhƣ trên còn đƣợc gọi là tra cứu ảnh theo
từ khóa. Tuy nhiên, việc tra cứu chỉ dựa vào văn bản đi kèm cịn có nhiều nhập nhằng
giữa nội dung hiển thị ảnh và nội dung văn bản đi kèm ảnh trong q trình tra cứu. Ví
dụ, với truy vấn “Apple”, máy tra cứu khó phân biệt đƣợc ngƣời dùng muốn tìm hình
ảnh quả táo hay logo của hãng Apple. Bên cạnh đó phƣơng pháp tra cứu ảnh dựa
theo văn bản không thể áp dụng để tra cứu các cơ sở dữ liệu ảnh có số lƣợng ảnh lớn
và kết quả tra cứu thì mang tính chủ quan và cảm ngữ cảnh.
Một trong những phƣơng pháp đƣợc nhiều ngƣời quan tâm nghiên cứu hiện nay là
phƣơng pháp “Tra cứu ảnh dựa theo nội dung” (Content Based Images Retrieval CBIR) [16]. Phƣơng pháp tra cứu ảnh theo nội dung ra đời đã khắc phục đƣợc những
nhƣợc điểm của phƣơng pháp từ khóa. CBIR là một lĩnh vực khoa học đƣợc phát triển
dựa trên cơ sở lý thuyết và ứng dụng của xử lý ảnh. Hệ thống cho phép ngƣời dùng tra
cứu các ảnh tƣơng tự trong một cơ sở dữ liệu hình ảnh.
CBIR đƣợc thực hiện thơng qua việc tính độ tƣơng tự giữa hai bức ảnh đƣợc biểu
diễn bởi một trong số các đặc trƣng mức thấp của ảnh nhƣ: Màu sắc, hình dạng, kết
cấu… Kết quả đƣa ra là tập các bức ảnh tƣơng tự với ảnh truy vấn đƣợc sắp xếp theo
thứ tự giảm dần độ tƣơng tự. Cụm từ CBIR đƣợc T.Kato đƣa ra vào năm 1992 trong
quá trình thu thập ảnh một cách tự động từ cơ sở dữ liệu dựa trên biểu diễn màu sắc và
hình dạng của ảnh.
Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề tra cứu thơng tin
dựa trên dạng thơng tin trực quan đó là các phƣơng pháp dựa trên đặc trƣng và các
phƣơng pháp dựa trên văn bản mô tả ảnh. Các phƣơng pháp dựa trên văn bản mô tả ảnh
dựa trên các phƣơng pháp tra cứu thông tin văn bản truyền thống và hệ quản trị cơ sở
dữ liệu cũng nhƣ sự can thiệp của con ngƣời để trích rút siêu dữ liệu về một đối tƣợng
trực quan và kết hợp nó cùng với đối tƣợng trực quan nhƣ một chú thích văn bản. Tuy


7

nhiên, gán các thuộc tính văn bản một cách thủ cơng cần nhiều thời gian và chi phí.

Hơn nữa, các chú thích thủ cơng thƣờng phụ thuộc rất nhiều vào nhận thức chủ quan
của con ngƣời. Nhận thức chủ quan và chú thích thiếu chính xác là nguyên nhân tra
cứu khơng chính xác trong các q trình tra cứu.
Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩy
nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung. Với giải pháp này,
thay vì đƣợc chú thích một cách thủ cơng bởi các từ khố dựa vào văn bản, các ảnh có
thể đƣợc trích rút sử dụng một số đặc trƣng trực quan nhƣ màu, hình dạng và kết cấu
và đƣợc đánh chỉ số dựa trên các các đặc trƣng trực quan này. Cách tiếp cận này dựa
chủ yếu vào các kết quả từ thị giác máy. Tuy nhiên, khơng có đặc trƣng riêng lẻ tốt
nhất mà cho các kết quả chính xác. Thơng thƣờng một sự kết hợp các đặc trƣng một
cách tuỳ biến là cần thiết để cung cấp các kết quả tra cứu thích hợp cho ứng dụng tra
cứu ảnh dựa vào nội dung. Trong luận văn này, em sẽ tập trung vào đặc trƣng cụ thể là
đặc trƣng màu và vector đặc trƣng ứng dụng tra cứu ảnh dựa vào nội dung.
Một số đặc trƣng đã đƣợc sử dụng để biểu diễn các ảnh trong các hệ thống
CBIR.

1.2.1. Đặc trƣng màu
Đặc trƣng đƣợc sử dụng phổ biến nhất là màu. Màu sắc là vấn đề cần tập trung
giải quyết nhiều nhất, vì một ảnh màu thì thơng tin quan trọng nhất trong ảnh chính là
màu sắc. Hơn nữa thông tin về màu sắc là thông tin ngƣời dùng quan tâm nhất, qua đặc
trƣng màu sắc, có thể lọc đƣợc rất nhiều lớp ảnh, thơng qua vị trí, khơng gian, định
lƣợng của màu trong ảnh.
Lƣợc đồ màu toàn cục (GCH) là cách sử dụng đặc trƣng màu đơn giản và hiệu
quả. GCH là một véc tơ n chiều (h1, h2, ...hn), ở đây mỗi thành phần hj biểu diễn phần
trăm các pixel có màu j trong ảnh. GCH là bất biến đối với quay và tỉ lệ và tính tốn rất
đơn giản. Tuy nhiên, GCH có nhƣợc điểm cơ bản là quá tổng quát. Nói cách khác,


8


GCH chỉ đem vào bản miêu tả phân bố các màu mà bỏ qua quan hệ giữa các bin màu
[14], [15].
Để tránh một số vấn đề gặp phải đối với GCH, lƣợc đồ màu cục bộ (LCH) đã
đƣợc đề xuất. Một ảnh đƣợc chia thành các khối ảnh có cỡ nhƣ nhau và độ tƣơng tự
giữa hai ảnh đƣợc dựa trên các khoảng cách lƣợc đồ giữa các khối tƣơng ứng. Phƣơng
pháp này khơng có khả năng xử lý đối với các biến đổi hình học nhƣ quay và dịch
chuyển, bị một số vấn đề về đan chéo và biến đổi với vị trí khơng gian. Một số giải
pháp đã đƣợc đề xuất để làm cho cách tiếp cận dựa vào lƣới bất biến đối với quay và
dịch chuyển nhƣng các giải pháp này tốn nhiều thời gian.
Natsev và cộng sự thực hiện tra cứu ảnh dựa vào nội dung dựa trên thuộc tính bố
cục màu. Mỗi ảnh đƣợc chia thành một số ảnh con bằng việc dịch chuyển các cửa sổ có
cỡ khác nhau và với mỗi ảnh con, một dấu hiệu bố cục màu đƣợc trích rút. Độ tƣơng tự
giữa các ảnh đƣợc tính tốn bằng việc so sánh các dấu hiệu của các ảnh con này. Ƣu
điểm của hệ thống này là có thể giảm các nhạy cảm với tỉ lệ và trƣợt, nhƣợc điểm là độ
phức tạp tính tốn tăng và hệ thống khơng xem xét đến đặc trƣng hình.
Smith và Chang đã đề xuất các tập màu. Phƣơng pháp xấp xỉ lƣợc đồ màu để
tăng tốc quá trình tra cứu trong trƣờng hợp cơ sở dữ liệu ảnh rất lớn. Tập màu đƣợc
chọn từ không gian màu đƣợc lƣợng hoá và từ các đặc trƣng đƣợc biểu diễn nhƣ một
xâu bít, một cây nhị phân đƣợc sử dụng để tăng tốc quá trình tra cứu.
Một cách tiếp cận dựa vào màu khác đƣợc đề xuất trong, ở đây một ảnh đƣợc
biểu diễn với sự trợ giúp của ba mơ men màu trung bình, phƣơng sai và độ lệch. Kỹ
thuật có ƣu điểm là tính tốn đơn giản và chi phí khơng gian thấp. Độ tƣơng tự giữa hai
ảnh đƣợc tính nhƣ là tổng trọng số của các sai khác giữa các mô men trong ảnh truy
vấn và các mô men của tất cả các ảnh trong cơ sở dữ liệu. Thậm chí thơng qua các mơ
men màu có thể ngăn chặn các ảnh hƣởng của lƣợng hố (khơng giống nhƣ lƣợc đồ
màu). Cách tiếp cận thiếu thông tin không gian.


9


Pass và cộng sự đã đề xuất một phƣơng pháp mới sử dụng véc tơ gắn kết màu
(CCV). Họ đã đề xuất một cách tiếp cận dựa vào lƣợc đồ màu kết hợp với thông tin
không gian. Ảnh đƣợc làm mờ để loại đi các khác biệt nhỏ giữa các pixel và sau đó
khơng gian màu đƣợc lƣợng hố thành n màu. Các pixel trong phạm vi một bin màu
đƣợc phân lớp hoặc là gắn kết hoặc là không gắn kết phụ thuộc vào chúng có thuộc vào
vùng pixel tƣơng đối lớn hay khơng.

1.2.2. Đặc trƣng màu vân
Có những lớp ảnh mà màu sắc khơng thể giải quyết đƣợc, địi hỏi phải sử dụng
đặc trƣng vân, ví dụ nhƣ những ảnh liên quan đến cấu trúc của điểm ảnh nhƣ: cỏ, mây,
đá, sợi. Vân sẽ giải quyết tốt cho việc tìm kiếm đối với lớp ảnh này.

1.2.3. Đặc trƣng về hình dạng
Đối với những lớp ảnh cần tìm mà liên quan đến hình dạng của đối tƣợng thì
đặc trƣng vân và màu khơng thể giải quyết đƣợc. Tìm kiếm theo hình dáng thật sự là
một cái đích của hệ thống tìm kiếm dựa vào nội dung muốn đạt tới. Các đặc trƣng hình
dạng của các đối tƣợng hoặc các vùng đã đƣợc sử dụng trong nhiều hệ thống tra cứu
ảnh dựa vào nội dung. So với các đặc trƣng màu và vân, các đặc trƣng hình dạng
thƣờng đƣợc mơ tả sau khi các ảnh đƣợc phân đoạn thành các vùng hoặc các đối
tƣợng. Do phân đoạn ảnh mạnh và chính xác là khó đạt đƣợc, sử dụng các đặc trƣng
hình dạng cho tra cứu ảnh bị giới hạn đối với các ứng dụng chuyên biệt, ở đó các đối
tƣợng hoặc các vùng đã sẵn có.

1.2.4. Thơng tin khơng gian
Các vùng hoặc đối tƣợng với các đặc tính màu và kết cấu tƣơng tự có thể đƣợc phân
biệt dễ dàng bằng việc tận dụng các ràng buộc khơng gian. Thí dụ, các vùng bầu trời
màu xanh và biển xanh có thể có các lƣợc đồ màu tƣơng tự, nhƣng các vị trí khơng gian
của chúng trong các ảnh là khác nhau. Do đó, vị trí khơng gian của các vùng (hoặc
các đối tƣợng) hoặc quan hệ không gian giữa nhiều vùng (hoặc đối tƣợng) trong
một ảnh thì rất hữu ích cho tìm kiếm các ảnh.



10

Thu thông tin không gian của các đối tƣợng trong một ảnh là một quá trình quan
trọng đối với các hệ thống GIS. Quá trình này bao gồm việc biểu diễn vị trí khơng
gian tuyệt đối và cũng bao gồm vị trí khơng gian tƣơng đối của các đối tƣợng.
Các thao tác nhƣ giao và chồng đƣợc sử dụng. Bố cục màu kết hợp thông tin không
gian với thông tin màu xuất hiện trong ảnh và tạo ra một đặc trƣng rất quan trọng
trong quá trình tra cứu, gọi là đặc trƣng màu – không gian.
Biểu diễn quan hệ không gian đƣợc sử dụng rộng rãi nhất là các xâu 2D đƣợc đề
xuất bởi Chang và cộng sự. Nó đƣợc xây dựng bởi việc chiếu các ảnh dọc theo các
hƣớng x và y. Hai tập ký hiệu V và A đƣợc định nghĩa trên hình chiếu. Mỗi ký hiệu
trong V biểu diễn một đối tƣợng trong ảnh. Mỗi ký hiệu A biểu diễn một loại quan hệ
không gian giữa các đối tƣợng. Do sự biến đổi của nó, xâu 2DG cắt tất cả các đối tƣợng
dọc theo hình hộp tối thiểu của nó và mở rộng các quan hệ khơng gian thành lập hai
tốn tử khơng gian. Một tập định nghĩa các quan hệ khơng gian cục bộ. Tập cịn lại định
nghĩa quan hệ khơng gian tồn cục, chỉ ra rằng hình chiếu của hai đối tƣợng là tách rời,
nối tiếp hoặc định vị tại cùng vị trí. Thêm nữa, xâu 2DC đƣợc đề xuất để cực tiểu hóa số
các đối tƣợng cắt. Xâu 2D-B biểu diễn một đối tƣợng bằng hai ký hiệu, vị trí cho bắt
đầu và kết thúc đƣờng bao của đối tƣợng. Tất cả các phƣơng pháp này có thể hỗ trợ ba
loại truy vấn. Loại truy vấn 0 tìm tất cả ảnh chứa đối tƣợng O1, O2, ...,On. Loại 1 tìm tất
cả các ảnh chứa các đối tƣợng có quan hệ nào đó giữa chúng nhƣng khoảng cách giữa
chúng là không đáng kể. Loại 2 tìm tất cả các ảnh có quan hệ khoảng cách nào đó với
mỗi ảnh khác.
Thêm với xâu 2D, cây tứ phân không gian, và ảnh ký hiệu cũng đƣợc sử dụng
cho biểu diễn thơng tin khơng gian. Tuy nhiên, tìm kiếm các ảnh dựa trên các quan hệ
không gian của các vùng còn lại là một vấn đề nghiên cứu khó trong tra cứu ảnh dựa
vào nội dung, do phân đoạn tin cậy của các đối tƣợng hoặc các vùng thƣờng là không
khả thi ngoại trừ các ứng dụng rất giới hạn. Mặc dù một số hệ thống chia các ảnh thành

các khối đều, chỉ thu đƣợc sự thành công khiêm tốn với các lƣợc đồ chia không gian


11

nhƣ thế do hầu hết các ảnh tự nhiên không thể ép thành các khối con đều về không
gian. Để giải quyết vấn đề này, một phƣơng pháp dựa vào biến đổi radon, tận dụng
phân bố không gian của các đặc trƣng trực quan không cần phân đoạn phức tạp.

1.2.5. Phân đoạn
Phân đoạn là quá trình phân ảnh ra thành các vùng mà về lý tƣởng nó sẽ tƣơng
ứng với các đối tƣợng xuất hiện trong ảnh. Đây là bƣớc rất quan trọng đối với tra
cứu ảnh. Cả đặc trƣng hình và đặc trƣng bố cục phụ thuộc vào phân đoạn tốt. Trong
phần này chúng tôi sẽ mô tả một số kỹ thuật phân đoạn đã có đƣợc sử dụng trong cả thị
giác máy và tra cứu ảnh.
Trong, Lybanon và các cộng sự đã nghiên cứu một cách tiếp cận phép tốn
hình thái học (mở và đóng) trong phân đoạn ảnh. Họ đã kiểm tra cách tiếp cận của họ
với các loại ảnh khác nhau, gồm các ảnh thiên văn và các ảnh hồng ngoại. Trong khi
cách tiếp cận này là hiệu quả trong xử lý các loại ảnh khoa học ở trên, hiệu năng của nó
cần đƣợc tiếp tục đánh giá cho các ảnh tự nhiên phức tạp hơn. Li và cộng sự đã đề xuất
một cách tiếp cận phân đoạn dựa vào entropy mờ. Cách tiếp cận này dựa trên thực tế
rằng entropy cực đại địa phƣơng tƣơng ứng với sự không rõ ràng giữa các vùng khác
nhau trong ảnh. Cách tiếp cận này rất hiệu quả cho các ảnh có lƣợc đồ khơng có các
đỉnh và các rãnh rõ ràng. Các kỹ thuật phân đoạn khác dựa trên phép đo đạc tam giác
Delaunay (Delaunay triangulation), fractals, và luồng biên (edge flow).
Tất cả các thuật toán đƣợc đề cập ở trên là tự động. Một ƣu điểm chính của các
thuật tốn phân đoạn loại này là nó trích rút các đƣờng bao từ một số lƣợng lớn các
ảnh mà không chiếm thời gian và nỗ lực của con ngƣời. Tuy nhiên, trong một lĩnh vực
tự nhiên, với các ảnh khơng có điều kiện tiên quyết, phân đoạn tự động khơng ln
ln tin cậy. Một thuật tốn có thể phân đoạn trong trƣờng hợp này chỉ là các vùng,

mà không là các đối tƣợng. Để thu đƣợc các đối tƣợng mức cao, nó cần có sự trợ giúp
của con ngƣời.
Samadani và Han đã đề xuất một cách tiếp cận trích rút đƣờng bao đƣợc trợ


12

giúp bởi máy tính, nó kết hợp các đầu vào thủ công từ ngƣời sử dụng với các biên ảnh
đƣợc sinh ra bởi máy tính. Trong khi đó, Daneel và cộng sự đã phát triển một phƣơng
pháp cải tiến của các chu tuyến thiết thực. Dựa trên đầu vào của ngƣời sử dụng, đầu
tiên thuật toán sử dụng một thủ tục tham lam để cung cấp sự hội tụ ban đầu nhanh.
Thứ hai, nét ngoài đƣợc lọc bằng việc sử dụng quy hoạch động. Rui và cộng sự đã đề
xuất một thuật tốn dựa vào phân cụm và nhóm trong không gian - màu - kết cấu.
Ngƣời sử dụng định nghĩa đối tƣợng quan tâm là ở đâu, và thuật tốn nhóm các vùng
thành các đối tƣợng có ý nghĩa.

1.3. Các chức năng cơ bản của một hệ thống tra cứu ảnh dựa vào nội dung
Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image
Retrieval) tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở các khn dạng
khác nhau (văn bản, hình ảnh và video) mà còn giải quyết các nhu cầu của ngƣời sử
dụng [4], [14], [16]. Về cơ bản hệ thống phân tích cả các nội dung của nguồn thơng tin
cũng nhƣ các truy vấn sử dụng, và sau đó so sánh các nội dung này để tra cứu các mục
tin liên quan. Các chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung nhƣ
sau:
Phân tích các nội dung của nguồn thông tin và biểu diễn các nội dung của các
nguồn đƣợc phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng (không
gian của nguồn thông tin đƣợc biến đổi thành không gian đặc trƣng cho mục tiêu so
sánh nhanh trong bƣớc tiếp theo). Bƣớc này thông thƣờng cần rất nhiều thời gian do
nó phải xử lý lần lƣợc tất cả thơng tin nguồn (các ảnh) trong cơ sở dữ liệu. Tuy
nhiên, bƣớc này đƣợc thực hiện chỉ một lần và có thể đƣợc thực hiện ngoại tuyến.

Phân tích các truy vấn ngƣời sử dụng và biểu diễn chúng ở dạng thích hợp cho so
sánh với cơ sở dữ liệu nguồn. Bƣớc này là tƣơng tự với bƣớc trƣớc nhƣng chỉ đƣợc
áp dụng với ảnh truy vấn.
Định nghĩa một chiến lƣợc để so sánh các truy vấn tìm kiếm với thơng tin trong cơ
sở dữ liệu đƣợc lƣu trữ. Tra cứu thông tin liên quan theo một cách hiệu quả. Bƣớc


13

này đƣợc thực hiện trực tuyến và đƣợc yêu cầu rất nhanh. Các kỹ thuật đánh chỉ số
hiện đại có thể đƣợc sử dụng để tổ chức lại không gian đặc trƣng để tăng tốc quá
trình đối sánh.
Thực hiện các điều chỉnh cần thiết trong hệ thống (thƣờng bằng điều chỉnh các
tham số trong máy đối sánh) dựa trên phản hồi từ ngƣời sử dụng hoặc các ảnh đƣợc
tra cứu.

Hình 1.2: Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung
Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa vào nội
dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau và trên mặt kia có
các truy vấn ngƣời sử dụng. Hai mặt này đƣợc liên kết thông qua một chuỗi các tác vụ
nhƣ đƣợc minh họa trong Hình 1.2. Hai tác vụ phân tích truy vấn ngƣời sử dụng và
đánh chỉ số nhiều chiều đƣợc tóm lƣợc ở đây trong khi hai tác vụ quan trọng nhất:
“Phân tích các nội dung của thơng tin nguồn” (trích rút đặc trƣng) và “Định nghĩa một
chiến lƣợc để đối sánh các truy vấn tìm kiếm với thơng tin trong cơ sở dữ liệu đƣợc lƣu
trữ” (các độ đo tƣơng tự).


14

 Truy vấn ngƣời sử dụng

Có nhiều cách gửi một truy vấn trực quan. Một phƣơng pháp truy vấn tốt là một
phƣơng pháp tự nhiên đối với ngƣời sử dụng cũng nhƣ thu đƣợc đủ thông tin từ ngƣời
sử dụng để trích rút các kết quả có ý nghĩa.
Các phƣơng pháp truy vấn dƣới đây đƣợc sử dụng phổ biến trong nghiên cứu tra
cứu ảnh dựa vào nội dung.
 Truy vấn bởi ảnh mẫu
Trong loại truy vấn bởi ảnh mẫu (QBE), ngƣời sử dụng hệ thống chỉ rõ một ảnh
truy vấn đích, dựa trên ảnh truy vấn đó hệ thống sẽ tìm kiếm trong cơ sở dữ liệu ảnh
các ảnh tƣơng tự nhất. Ảnh truy vấn có thể là một ảnh thơng thƣờng, một bản qt của
một ảnh có độ phân giải thấp, hoặc một phác thảo của ngƣời sử dụng sử dụng các công
cụ mô tả giao diện đồ hoạ. Một ƣu điểm chính của loại hệ thống này đó là nó là một
cách tự nhiên cho những ngƣời sử dụng chung và chuyên gia để tìm kiếm một cơ sở dữ
liệu ảnh.
 Truy vấn bởi đặc trƣng
Trong hệ thống truy vấn bởi đặc trƣng (QBF) tiêu biểu, những ngƣời sử dụng
chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trƣng họ quan tâm cho tìm kiếm. Thí dụ,
một ngƣời sử dụng có thể truy vấn một cơ sở dữ liệu ảnh bằng việc đƣa ra một lệnh để
tra cứu tất cả các ảnh có góc phần tƣ trái chứa 25% pixel màu vàng. Truy vấn này đƣợc
chỉ rõ bằng việc sử dụng các công cụ giao diện đồ họa chuyên dụng. Những ngƣời sử
dụng hệ thống tra cứu ảnh chuyên biệt có thể thấy loại truy vấn này là bình thƣờng,
nhƣng những ngƣời sử dụng chung thì khơng thể. QBIC [5] là một ví dụ về một hệ
thống tra cứu ảnh dựa vào nội dung sử dụng loại phƣơng pháp truy vấn này.
 Các truy vấn dựa vào thuộc tính
Các truy vấn dựa vào thuộc tính sử dụng các chú thích văn bản, trích rút trƣớc
bởi nỗ lực của con ngƣời, nhƣ một khoá tra cứu chính. Loại biểu diễn này địi hỏi một
độ trừu tƣợng cao khó để thu đƣợc bằng các phƣơng pháp tự động hoàn toàn do một


15


ảnh chứa một số lƣợng lớn các thông tin mà khó tóm tắt khi sử dụng một số ít các từ
khố. Phƣơng pháp này nhìn chung là nhanh hơn và dễ thực hiện hơn, nhƣng có một độ
chủ quan và nhập nhằng cao xuất hiện nhƣ chúng ta đã đề cập.
Một ngƣời sử dụng tiêu biểu chắc chắn thích truy vấn các hệ thống tra cứu ảnh
dựa vào nội dung bằng việc yêu cầu các câu hỏi tự nhiên nhƣ “Đƣa cho tơi tất cả các
bức tranh có hình ảnh của cây Đinh Lăng” hoặc “Tìm tất cả các ảnh có cây thảo dƣợc”.
Ánh xạ truy vấn ngơn ngữ tự nhiên này đến một truy vấn trên cơ sở dữ liệu ảnh là vơ
cùng khó so với việc sử dụng các phƣơng pháp chú thích. Khả năng của các máy tính
để thực hiện nhận dạng đối tƣợng tự động trên các ảnh chung vẫn là một vấn đề nghiên
cứu mở. Do đó hầu hết các nỗ lực nghiên cứu và thƣơng mại tập trung vào xây dựng
các hệ thống thực hiện tốt với các phƣơng pháp QBE.

1.4. Những ứng dụng cơ bản của tra cứu ảnh dựa vào nội dung
Tra cứu ảnh dựa vào nội dung đƣợc ứng dụng thành công trong rất nhiều
lĩnh vực bao gồm:
Ngăn chặn tội phạm.
Quân sự.
Quản lý tài sản trí tuệ.
Thiết kế kiến trúc máy móc.
Thiết kế thời trang và nội thất.
Báo chí quảng cáo.
Chuẩn đốn y học.
Hệ thống thơng tin địa lý.
Di sản văn hóa.
Giáo dục và đào tạo.
Giải trí.
Tra cứu trang web.


16


1.5. Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu
1.5.1. Hệ thống QBIC
Hệ thống QBIC (Query By Image Content) của hãng IBM là một hệ thống tra
cứu ảnh thƣơng mại đầu tiên và nổi tiếng nhất trong số các hệ thống tra cứu ảnh dựa
trên nội dung. Nó cho phép ngƣời sử dụng tra cứu ảnh dựa vào màu sắc, hình dạng và
kết cấu. Các thuộc tính trực quan có đƣợc từ các ảnh tự giữa các bins màu đƣợc xem
xét khi tính tốn tính tƣơng tự. Đặc trƣng texture đƣợc biểu diễn với độ thô, tƣơng
phản. Đặc trƣng hình dạng đƣợc mơ tả bằng diện tích, hình dáng trịn, độ lệch, hƣớng
trục chính và tập các bất biến moment đại số.

1.5.2. Hệ thống Photobook
Hệ thống này đƣợc phát triển ở viện kỹ thuật Massachusetts. Nó cho phép
ngƣời sử dụng tra cứu ảnh dựa trên màu sắc, hình dạng và kết cấu. Hệ thống này
cung cấp một tập các thuật toán đối sánh gồm: Euclidean, mahalanobis, vector
space angle, histogram, Fourier peak, và wavelet tree distance nhƣ là những độ đo
khoảng cách. Hệ thống nhƣ là một công cụ bán tự động và có thể sinh ra một mẫu
truy vấn dựa vào những ảnh mẫu đƣợc cung cấp bởi ngƣời sử dụng.

1.5.3. Hệ thống VisualSEEK và WebSEEK
Cả hai hệ thống này đều đƣợc phát triển tại Trƣờng Đại học Colombia.
VisualSEEK là hệ thống cơ sở dữ liệu ảnh. Nó cho phép ngƣời sử dụng tra cứu ảnh
dựa trên màu sắc, không gian miền và đặc điểm kết cấu. Thêm vào đó VisualSEEK
cịn cho phép ngƣời sử dụng tạo truy vấn bằng việc chỉ định vùng màu và những
không gian vị trí của chúng. WebSEEK đƣợc thiết kế để tìm kiếm ảnh và video trên
internet. Trong WebSEEK, các ảnh đƣợc phân tích theo hai tiến trình riêng biệt. Tiến
trình thứ nhất trích chọn và chỉ mục các đặc trƣng trực quan nhƣ biểu dồ màu và
texture. Tiến trình thứ hai chia sẻ text kết hợp và phân lớp các ảnh theo các lớp chủ đề,
ví dụ nhƣ lớp cây cối, lớp trƣờng học…



×