Tải bản đầy đủ (.pdf) (82 trang)

Tìm kiếm ảnh trên cơ sở hoa văn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.32 MB, 82 trang )

Nguyễn Xuân Khải

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Đảm bảo tốn học cho máy tính và các hệ thơng tính tốn

NGUYỄN XN KHẢI

NHẬN DẠNG ẢNH TRÊN CƠ SỞ HOA VĂN

Luận văn thạc sĩ: Toán tin ứng dụng
Khóa 2006-2008
Hà Nội 2009


Nguyễn Xuân Khải

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN XUÂN KHẢI
Đảm bảo toán học cho máy tính và các hệ thơng tính tốn

NHẬN DẠNG ẢNH TRÊN CƠ SỞ HOA VĂN

Luận văn thạc sĩ: Toán tin ứng dụng

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Đặng Văn Đức


Khóa 2006-2008

Hà Nội 2009


1

Mục lục
Mục lục ..................................................................................................................................................... 1
LỜI NÓI ĐẦU .......................................................................................................................................... 4
CHƯƠNG 1 – KHÁI QUÁT VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN – CƠ SỞ DỮ LIỆU ẢNH ...6
1.1

Dữ liệu đa phương tiện .............................................................................................................. 6

1.2

Cơ sở dữ liệu đa phương tiện .................................................................................................... 7

1.2.1.

Khái niệm cơ bản .............................................................................................................. 7

1.2.2.

Cấu trúc của cơ sở dữ liệu đa phương tiện ...................................................................... 10

1.2.3.

Truy tìm thơng tin văn bản ............................................................................................. 13


1.2.4.

Truy xuất và chỉ số hóa dữ liệu đa phương tiện .............................................................. 13

1.2.5.

Trích rút đặc trưng và biểu diễn nội dung ....................................................................... 14

1.2.6.

Hệ thống IR và vai trị của nó trong việc truy xuất đa phương tiện ................................14

1.3

Tổng quan cơ sở dữ liệu ảnh ................................................................................................... 15

1.3.1.

Hạn chế của cơ sở dữ liệu truyền thống .......................................................................... 15

1.3.2.

Kiến trúc chung của một hệ quản cơ sở dữ liệu ảnh ....................................................... 16

1.3.3.

Các đặc trưng ảnh............................................................................................................ 17

CHƯƠNG 2 – HOA VĂN ẢNH VÀ CÁC KỸ THUẬT TÌM KIẾM DỰA TRÊN HOA VĂN ẢNH ..28

2.1.

Khái niệm hoa văn ảnh ............................................................................................................ 28

2.2.

Mô hình hóa hoa văn ............................................................................................................... 30

2.2.1.

Các phương pháp thống kê.............................................................................................. 32

2.2.2.

Các phương pháp hình học.............................................................................................. 35

2.2.3.

Các phương pháp xử lý tín hiệu ...................................................................................... 37

2.3.

Các bài tốn phân tích hoa văn ............................................................................................... 39

2.3.1.

Mục đích của phân tích hoa văn ...................................................................................... 39

2.3.2.


Phân đoạn hoa văn .......................................................................................................... 41

2.3.3.

Phân lớp hoa văn ............................................................................................................. 42

2.3.4.

Tổng hợp hoa văn ............................................................................................................ 43

2.3.5.

Hình dạng từ hoa văn ...................................................................................................... 44

2.4.

Phân tích ảnh sử dụng bộ lọc Gabor ....................................................................................... 45


2

2.4.1.

Các khái niệm.................................................................................................................. 45

2.4.2.

Bộ lọc Gabor ................................................................................................................... 47

2.4.3.


Biểu diễn đặc hoa văn ảnh .............................................................................................. 51

CHƯƠNG 3 – XÂY DỰNG ỨNG DỤNG TRUY TÌM ẢNH DỰA TRÊN NỘI DUNG SỬ DỤNG BỘ
LỌC GABOR .......................................................................................................................................... 53
3.1.

Trích chọn đặc trưng hoa văn .................................................................................................. 54

3.1.1.

Hàm Gabor ...................................................................................................................... 54

3.1.2.

Biểu diễn đặc trưng hoa văn ............................................................................................ 57

3.1.3.

Biểu diễn bất biến trong biểu diễn Gabor ....................................................................... 58

3.2.

Cài đặt ứng dụng ..................................................................................................................... 62

3.3.

Kết quả minh họa .................................................................................................................... 66

KẾT LUẬN ............................................................................................................................................. 79

TÀI LIỆU THAM KHẢO ....................................................................................................................... 80


3

BẢNG THUẬT NGỮ
Thuật ngữ

Ý nghĩa

Blob

Khối (một đơn vị thông tin)

CSDL

Cơ sở dữ liệu

DBMS

Hệ quản trị cơ sở dữ liệu

Media

Phương tiện

Multimedia

Đa phương tiện


Pixel

Điểm ảnh

Texture

Hoa văn (cũng có tài liệu gọi là vân)

Texel

Hoa văn cơ sở

IR

Truy tìm thơng tin văn bản

MIRS

Hệ thống truy xuất thông tin đa phương tiện


4

LỜI NÓI ĐẦU
Ngày nay với sự phát triển mạnh mẽ của công nghệ kỹ thuật số, các dạng
dữ liệu đa phương tiện ngày càng phổ biến, chất lượng của dữ liệu cũng ngày
càng được cải thiện. Song song với sự phát triển này là sự gia tăng về dung
lượng cũng như số lượng của dữ liệu đa phương tiện. Các dữ liệu này được lưu
trữ dưới nhiều định dạng khác nhau, chẳng hạn như: hình ảnh, âm thanh, Video,
hay dữ liệu thuần là văn bản,… Các dạng dữ liệu này được lưu trữ trong nhiều

thiết bị lưu trữ khác nhau dưới dạng offline như: Ổ cứng, băng từ, CD-ROM,
DVD, hoặc được lưu trữ trực tuyến (online) trên mạng trên mạng…
Cùng với sự gia tăng mạnh mẽ của dữ liệu media, yêu câu về lưu trữu và
tìm kiếm các dữ liệu media này trở nên ngày càng cấp thiết. Các kỹ thuật tìm
kiếm truyền thống đã khơng cịn đủ mạnh để đáp ứng khả năng tìm kiếm trên các
dữ liệu đa phương tiện. Chẳng hạn như chúng ta có cơ sở dữ liệu về vân tay,
khuôn mặt, hay đơn giản là cơ sở dữ liệu về động vật trong tự nhiên... Việc tìm
kiếm dựa trên văn bản đơn thuần khơng thể đáp ứng được yêu cầu, ví dụ như
một nhân viên cảnh sát có dấu vân tay của một tên tội phạm, và muốn tìm xem
có thơng tin gì về tên tội phạm đó khơng. Như vậy đầu vào của hệ thống là ảnh
về một dấu vân tay, trong trường hợp này khơng thể sử dụng việc tìm kiếm thuần
dựa trên văn bản được.
Những năm gần đây, các hệ thống tìm kiếm trên cơ sở dữ liệu đa phương
tiện được nghiên cứu ngày càng nhiều, các kỹ thuật tìm kiếm ngày càng tinh tế
và chính xác. Cơ sở dữ liệu ảnh cũng không phải là một ngoại lệ.


5

Có rất nhiều kỹ thuật tìm kiếm được xây dựng cho cơ sở dữ liệu ảnh. Các
kỹ thuật tìm kiếm này đều dựa trên các đặc trưng của ảnh chẳng hạn như: đặc
trưng về màu sắc của ảnh, đặc trưng về hình dạng của ảnh, đặc trưng về hoa văn
ảnh. Mỗi đặc trưng này có một kỹ thuật tìm kiếm khác nhau.
Trong giới hạn của luận văn này tập trung vào nghiên cứu về cơ sở dữ liệu
ảnh và kỹ thuật tìm kiếm ảnh dựa trên hoa văn ảnh. Nội dung chính của luận văn
bao gồm 3 chương:
Chương 1 - Khái quát vê cơ sở dữ liệu đa phương tiện và cơ sở dữ liệu
ảnh
Chương này nêu lên những khái niệm cơ bản về dữ liệu đa phương tiện, cơ
sở dữ liệu đa phương tiện, cơ sở dữ liệu ảnh, các đặc trưng ảnh thường dùng

trong trích chọn đặc trưng và tìm kiếm ảnh.
Chương 2 – Hoa văn ảnh và các kỹ thuật tìm kiếm trên hoa văn ảnh
Chương này đi sâu nghiên cứu về một đặc trưng ảnh, đặc trưng hoa văn
của ảnh. Chương này nêu lên các khái niệm về hoa văn ảnh, các mơ hình hoa văn
ảnh, các phương pháp phân tích hoa văn ảnh và nghiên cứu chi tiết một phương
pháp phân tích ảnh sẽ ứng dụng trong bài toán ứng dụng.
Chương 3 – Xây dựng ứng dụng truy tìm ảnh dựa trên nội dung sử dụng
bộ lọc Gabor
Chương này đi xây dựng cơ sở lý thuyết cho tìm bài tốn tìm kiếm ảnh
dựa trên nội dung sử dụng bộ lọc Gabor, cài đặt thử nghiệm ứng dụng và đánh
giá kết quả của phương pháp.


6

CHƯƠNG 1 – KHÁI QUÁT VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG
TIỆN – CƠ SỞ DỮ LIỆU ẢNH

1.1 Dữ liệu đa phương tiện
Dữ liệu đa phương tiện ngày nay trở lên rất phổ biến, chúng được chia
thành hai lớp là các dữ liệu liên tục và các dữ liệu không liên tục. Các dữ liệu
liên tục bao gồm các dữ liệu âm thanh, video đây là các dạng dữ liệu thay đổi
theo thời gian. Các dữ liệu không liên tục là các dữ liệu không phục thuộc vào
thời gian, các loại dữ liệu đặc trưng cho dạng này là các dữ liệu văn bản (có hoặc
khơng có định dạng), hình ảnh tĩnh và các đối tượng đồ họa.
Như vậy các kiểu dữ liệu thông thường của một CSDL đa phương tiện bao
gồm:
-

Dữ liệu văn bản (có hoặc khơng có định dạng),


-

Đồ họa: là các bản vẽ, minh họa được mã hóa như các tệp postscript,

- Hình ảnh: là các hình ảnh được mã hóa sử dụng các dạng thức chuẩn như
là JPEG, MPEG…,
- Các hoạt hình,
- Âm thanh,
- Video.
Các loại dữ liệu đa phương tiện có thể khác nhau về định dạng, hình thức
lưu trữ, dung lượng, cấu trúc,…Tuy nhiên chúng đều có các đặc tính chung như
sau:
- Thiếu cấu trúc: Các dữ liệu đa phương tiện có khuynh hướng phi cấu trúc,
vì vậy các tác nghiệp quản trị dữ liệu chuẩn như chỉ số hố, tìm kiếm nội
dung, truy vấn dữ liệu thường không áp dụng được.


7

- Tính tạm thời: Một vài kiểu dữ liệu đa phương tiện như là Video, âm
thanh và hoạt hình đều phụ thuộc vào yếu tố thời gian và là yếu tố liên
quan mật thiết đến việc lưu trữ, thao tác và mơ tả chúng.
- Có dung lượng lớn: các dữ liệu video và âm thanh thường đòi hỏi các thiết
bị lưu trữ lớn.
- Các ứng dụng hỗ trợ: các dữ liệu phi chuẩn có thể địi hỏi các quy trình xử
lý phức tạp như việc sử dụng các thuật toán nén dữ liệu đối với các ứng
dụng CSDL đa phương tiện.

1.2 Cơ sở dữ liệu đa phương tiện

1.2.1. Khái niệm cơ bản
Cơ sở dữ liệu đa phương tiện là một loại cơ sở dữ liệu giống như các cơ sở
dữ liệu khác nhưng trong đó chứa các tập hợp dữ liệu đa phương tiện. Đa
phương tiện được định nghĩa là sự kết hợp của nhiều hơn một phương tiện truyền
thông.
Thông thường có hai dạng cơ sở dữ liệu đa phương tiện: cơ sở dữ liệu đa
phương tiện liên kết và cơ sở dữ liệu đa phương tiên nhúng.
Cơ sở dữ liệu đa phương tiện liên kết : Cơ sở dữ liệu đa phương tiện có
thể được tổ chức như cơ sở dữ liệu của các siêu dữ liệu (metadata) . Các siêu dữ
liệu này liên kết tới dữ liệu thực như: đồ họa, hình ảnh, hoạt hình, âm thanh, …
Các dữ liệu này có thể được lưu trữ trên các thiết bị lưu trữ khác nhau như: ổ
cứng, CD-ROM, DVD hoặc được lưu trữ trực tuyến (online). Trong cơ sở dữ
liệu này các phần tử đa phương tiện được tổ chức là hình ảnh, âm thanh, hoặc
video …


8

Trong hệ thống cơ sở dữ liệu này các dữ liệu được lưu trữ hoặc là off-line
chẳng hạn như: ổ cứng, CD-ROM, DVD, … hoặc trực tuyến. Một ưu điểm chính
của loại cơ sở dữ liệu này là kích thước cơ sở dữ liệu sẽ giảm đi rất nhiều bởi vì
các thành phần đa phương tiện (thường có dung lượng rất lớn) không được
nhúng trực tiếp vào cơ sở dữ liệu mà cơ sở dữ liệu chỉ lưu trữ các liên kết tới
chúng.

Online

Cơ sở dữ liệu đa
phương tiện


Dữ liệu đa
phương tiện

CD-Rom,
DVD, hoặc ổ
cứng

Hình 1.1 – Cơ sở dữ liệu đa phương
tiện liên kết


9

Cơ sở dữ liệu đa phương tiện nhúng: đây là dạng cơ sở dữ liệu mà các
đối tượng dữ liệu đa phương tiện được nhúng trực tiếp vào cơ sở dữ liệu dưới
dạng nhị phân. Lợi ích chính của loại cơ sở dữ liệu này là việc lấy dữ liệu sẽ
nhanh hơn vì giảm được thời gian truy cập vào dữ liệu trên các phương tiện bên
ngoài. Tuy nhiên một nhược điểm rất lớn của nó là kích thước của cơ sở dữ liệu
sẽ rất lớn.
Tùy thuộc vào mục đích sử dụng, kích thước của dữ liệu đa phương tiện
và khả năng của hệ thống máy chủ mà người ta lựa chọn việc sử dụng cơ sở dữ
liệu nào cho thích hợp. Chẳng hạn đối với cơ sở dữ liệu ảnh thì có thể chọn cách
tổ chức cơ sở dữ liệu theo kiểu nhúng vì kích thước ảnh thơng thường không quá
lớn. Nhưng đối với cơ sở dữ liệu Video thì thường tổ chức cơ sở dữ liệu theo
kiểu cơ sở dữ liệu liên kết vì kích thước của một tệp tin video có thể lên tới hàng
ghi hoặc lớn hơn nữa.
Hệ quản trị cơ sở dữ liệu đa phương tiện là một hệ nền (framework) cho
phép quản lý các kiểu dữ liệu khác nhau, được biểu diễn trong các định dạng
khác nhau trên nhiều nguồn phương tiện khác nhau. Thông thường một hệ quản
trị cơ sở dữ liệu đa phương tiện phải có các tính chất sau:

- Có khả năng truy vấn dữ liệu một cách đồng nhất (dữ liệu dạng media, dữ
liệu dạng văn bản) cho các dữ liệu được biểu diễn trong các dạng khác
nhau.
- Có khả năng truy vấn đồng thời các nguồn phương tiện( media) khác nhau
, thực hiện các phép toán của cơ sở dữ liệu cổ điển trên dữ liệu đa phương
tiện.
- Có khả năng nhận các dữ liệu media từ một thiết bị lưu trữ cục bộ.


10

- Có khả năng nhận một kết quả trả ra từ một truy vấn và thuyết minh câu
trả lời dưới dạng phương tiện âm thanh-hình ảnh.
- Có khả năng phân phối các biểu diễn này trong một cách nào đó để thỏa
mãn các yêu cầu về chất lượng dịch vụ.

1.2.2. Cấu trúc của cơ sở dữ liệu đa phương tiện
Cấu trúc của cơ sở dữ liệu đa phương tiện bao gồm các thành phần chính
sau đây:
- Phân tích dữ liệu,
- Mơ hình hóa dữ liệu,
- Lưu trữ dữ liệu,
- Truy tìm dữ liệu,
- Ngơn ngữ truy vấn,
- Truyền thơng đa phương tiện.
Phân tích dữ liệu: Trong phân tích dữ liệu có hai vấn đề quan trọng
thường được quan tâm đó là cách thức để cấu trúc dữ liệu và cách thức để truy
cập dữ liệu. Dữ liệu được lưu trữ trong cơ sở dữ liệu dưới dạng hoặc là không
được định dạng (khơng có cấu trúc), hoặc là được định dạng (có cấu trúc). Dữ
liệu khơng cấu trúc được biểu diễn trong một đơn vị nơi mà nội dung không thể

được truy tìm bằng việc truy cập đến bất kỳ một chi tiết có tính cấu trúc nào. Dữ
liệu cấu trúc được lưu trữ trong các biến, các trường, các thuộc tính với các giá
trị tương ứng. Dữ liệu đa phương tiện có thể được lưu trữ trong cơ sở dữ liệu
dưới dạng thô , hoặc dưới dạng các kiểu dữ liệu đăng ký và mô tả. Các kiểu dữ
liệu thô được biểu diễn dưới dạng các pixel hoặc các bit.


11

Mơ hình hóa dữ liệu: mơ hình hóa dữ liệu tập trung vào thiết kế khái
niệm của cơ sở dữ liệu đa phương tiện để thực hiện các hoạt động như: lựa chọn,
trèn, truy vấn, … các đối tượng media. Các đa phương tiện dựa trên thời gian
như video, âm thanh, hoạt hình bao gồm các khái niệm về luồng dữ liệu, thời
gian, sự đồng bộ và cấu thành thời gian. Các khái niệm khác nhiều so với các dữ
liệu thông thường như luồng dữ liệu văn bản. Một trong những bài toán quan
trọng nhất của hệ thống cơ sở dữ liệu đa phương tiện là mô tả cấu trúc về thời
gian ràng buộc phương tiện để truy vấn, cập nhật, trích rút và biểu diễn.
Lưu trữ dữ liệu: các đối tượng dữ liệu đa phương tiện được lưu trữ trong
cơ sở dữ liệu. Đây là các kiểu phương tiện không liên tục chẳng hạn như các
phương tiện tĩnh như văn bản, hay hình ảnh; và các phương tiện liên tục như các
phương tiện động. Các dữ liệu phương tiện động có tính chất thời gian thực
trong khi các dữ liệu phương tiện tĩnh thì khơng. Do đó cơ chế lưu trữ dữ liệu sẽ
khác nhau đối với từng kiểu dữ liệu khác nhau. Hầu hết các dữ liệu phương tiện
liên tục được lưu trữ trên máy chủ lưu trữ riêng biệt để phù hợp với các yêu cầu
ràng buộc thời gian thực. Các dữ liệu không liên tục được lưu trữ trong cơ sở dữ
liệu là các thông tin về tệp tin của dữ liệu, cịn dữ liệu thơng thường được lưu trữ
trong các thiết bị lưu trữ chẳng hạn như ổ cứng, CD-ROM, DVD hoặc được lưu
trữ online.
Truy tìm dữ liệu: mục tiêu cuối cùng của bất cứ một cơ sở dữ liệu đa
phương tiện nào là cách thức để truy cập thông tin đa phương tiện một cách hiệu

quả. Với khía cạnh truy cập, các đối tượng đa phương tiện được phân thành 2
loại – các đối tượng chủ động và các đối tượng bị động. Các đối tượng khơng
tham gia vào q trình phục hồi thơng tin gọi là các đối tượng bị động. Thực tế


12

trong môi trường cơ sở dữ liệu đa phương tiện, tất cả các đối tượng nên là đối
tượng chủ động.
Ngôn ngữ truy vấn: Ngôn ngữ truy vấn được cung cấp để hồn thành
mục đích truy tìm dữ liệu đa phương tiện trong cơ sở dữ liệu đa phương tiện.
Trong một quy trình của hệ thống quản trị cơ sở dữ liệu, các truy vấn người dùng
được xử lý bằng việc định nghĩa ngôn ngữ truy vấn như một phần của hệ quản trị
cơ sở dữ liệu, nó là một phần không thể tách rời của hệ quản trị cơ sở dữ liệu.
Một ngôn ngữ truy vấn đa phương tiện phải có khả năng xử lý các mối quan hệ
phức tạp, hay các mối quan hệ không gian và thời gian. Một ngôn ngữ truy vấn
mạnh phải giải quyết được với từ khóa, chỉ mục đối với từ khóa và nội dung của
các đối tượng đa phương tiện. Các cơ sở dữ liệu truyền thống đã giải quyết rất tốt
các yêu cầu này. Thơng thường có hai kiểu truy vấn được sử dụng trong các cơ
sở dữ liệu đó là truy vấn xác định(truy vấn rõ - well defined) và truy vấn
mờ(fuzzy query). Trong truy vấn xác định, người dùng phải biết được những gì
họ muốn tìm kiếm. Một kiểu truy vấn thứ hai gọi là truy vấn mờ, trong kiểu truy
vấn này tính chất của các đối tượng truy vấn là nhập nhằng. Trong một cách tiếp
cận khác theo ngữ cảnh ,truy vấn dữ liệu đa phương tiện có thể được chia thành
các nhóm nhỏ như: truy vấn theo từ khóa, truy vấn theo ngữ nghĩa, và truy vấn
trực quan. Truy vấn từ khóa được sử dụng rộng rãi nhất bởi chúng rất đơn giản.
Truy vấn ngữ nghĩa là phương pháp truy vấn khó khăn nhất vì khả năng đánh chỉ
mục và đối sánh mẫu của chúng rất khó. Truy vấn trực quan được sử dụng trong
truy vấn bằng nội dung ảnh( QBIC) thơng qua một biểu tượng để tìm kiếm nội
dung trong ảnh.



13

Truyền thông đa phương tiện: truyền thông là mục tiêu nền cho bất cứ
một hệ thống thông tin nào. Các hệ thống đa phương tiện phân tán với các đặc
trưng phức tạp có thể thỏa mãn mơi trường đa người dùng cho phép nhiều người
dùng giao tiếp đồng thời với nhau.

1.2.3. Truy tìm thơng tin văn bản
Hệ thống truy tìm thơng tin tự động hố (IR) được phát triển để giúp quản
lý một khối lượng với các tài liệu khoa học đã được tạo lập từ những năm 1940.
Chức năng chính của một hệ thống IR là lưu trữ và quản lý một số rất lớn các tài
liệu văn bản theo cách sao cho các tài liệu thích hợp với việc sử dụng các truy
vấn để truy tìm nhanh. Chú ý rằng việc truy tìm thơng tin tự động của các từ cấu
tạo bằng chữ đầu của những từ khác là nhằm vào việc truy tìm các tài liệu văn
bản, mặc dù thuật ngữ đầy đủ là truy tìm thơng tin có thể hiểu là truy tìm một
loại thơng tin nào đó.

1.2.4. Truy xuất và chỉ số hóa dữ liệu đa phương tiện
Các hệ quản trị cơ sở dữ liệu truy xuất các khoản mục dựa trên số liệu có
cấu trúc khi sử dụng kết nối chính xác. IR (truy xuất thông tin) cũng được gọi là
truy xuất dựa trên văn bản. Việc truy xuất dựa vào nội dung chính là việc truy
xuất dựa trên những nét đặc trưng truyền thống như là màu sắc, hình thù thay
cho lời giải thích văn bản về khoản mục truyền thống đó. Việc truy xuất dựa trên
nội dung là chuẩn dựa trên sự đồng dạng thay vì một kết nối chính xác giữa một
truy vấn và một tập các khoản mục dữ liệu. MIRS (hệ thống truy xuất dữ liệu đa
phương tiện) đề cập đến một hệ thống cơ sở cung cấp việc truy xuất thông tin đa
phương tiện khi sử dụng một tổ hợp DBMS, IR (truy xuất thông tin) và các kỹ
thuật truy xuất dựa trên nội dung. Trong một MIRS, một vài vấn đề như phiên



14

bản và điều khiển an tồn có thể khơng thực hiện được đầy đủ. Một MIRS đủ
bản lĩnh ra đời được gọi là MDBMS.

1.2.5. Trích rút đặc trưng và biểu diễn nội dung
Trong các hệ thống truy tìm thơng tin đa phương tiện, một trong những
vấn đề quan trọng nhất là trích rút đặc trưng hoặc biểu diễn nội dung (chính là
những nét đặc trưng hoặc nội dung chính trong một khoản mục đa phương tiện).
Trích rút đặc trưng có thể là quá trình tự động hay bán tự động. Trong một vài tài
liệu truy xuất dựa vào nội dung, trích rút đặc trưng cũng được gọi là chỉ số hoá.
Sau đây, chúng ta theo quy ước chung, khi mà thuật ngữ “chỉ số” được sử dụng
như một danh từ, điều đó có nghĩa là đề cập tới cấu trúc dữ liệu hoặc việc tổ
chức những đặc trưng đã được trích rút để nghiên cứu và truy xuất có hiệu quả.

1.2.6. Hệ thống IR và vai trị của nó trong việc truy xuất đa phương
tiện
Ngồi các DBMS, có loại hệ thống quản lý thông tin khác tập trung vào
việc truy xuất tài liệu văn bản. Loại hệ thống này được gọi là hệ thống truy xuất
thông tin (IR). Kỹ nghệ IR khá quan trọng trong hệ thống quản lý thông tin đa
phương tiện vì hai lý do chính.
Một là chúng tồn tại một lượng lớn các văn bản trong nhiều dạng tổ chức,
chẳng hạn như các thư viện. Văn bản là một nguồn thông tin quan trọng trong
bất kỳ một tổ chức nào. Để sử dụng các thông tin đã được lưu trữ trong các tài
liệu này, cần có một hệ thống IR hiệu quả.
Hai là, văn bản có thể được sử dụng để chú giải các dạng dữ liệu khác như
âm thanh, hình ảnh, video. Thơng thường thì các kỹ nghệ IR có thể dược sử dụng



15

cho việc phục hồi thông tin truyền thông. Tuy nhiên, việc sử dụng văn bản gặp
phải nhiều giới hạn chẳng hạn như:
- Việc chú giải nhìn chung phải làm bằng tay và tiêu tốn thời gian,
- Văn bản chú giải chưa đầy đủ và cịn mang tính chủ quan,
- Các kỹ nghệ IR không thể điều khiển các câu hỏi từ nội dung khác (như
âm thanh và ảnh),
- Một vài đặc tính của đa phương tiện như bố cục hình ảnh và các dạng đối
tượng là khác nhau, nếu không thì cũng chỉ là cùng mơ tả một văn bản.

1.3 Tổng quan cơ sở dữ liệu ảnh
Ngày nay với sự phát triển của khoa học kỹ thuật, ảnh không chỉ là một
nghệ thuật mà nó cịn được ứng dụng trong nhiều lĩnh vực của cuộc sống, từ
những lĩnh vực đơn giản đến các lĩnh vực phức tạp như các ứng dụng nhận dạng
khuôn mặt, nhận dạng vân tay, nhận dạng mống mắt, hay đến các ứng dụng
trong y học… Đặc điểm chung của các ứng dụng này là đều liên quan đến cơ sở
dữ liệu ảnh và nhận dạng ảnh, phân tích và tổng hợp ảnh. Trong giới hạn của
phần này chỉ đề cập đến các khái niệm cơ bản của cơ sở dữ liệu ảnh và các ứng
dụng của nó trong các lĩnh vực của đời sống.

1.3.1.

Hạn chế của cơ sở dữ liệu truyền thống
Các cơ sở dữ liệu truyền thống hỗ trợ một số các kiểu dữ liệu cơ bản

chẳng hạn như kiểu số nguyên, kiểu dấu phẩy động, và các kiểu sâu ký tự. Để hỗ
trợ các ứng dụng liên quan đến ảnh, một số hệ quản trị cơ sở dữ liệu còn hỗ trợ
thêm một số chuỗi nhị phân có chiều dài bất kỳ được gọi là các BLOB. Tuy

nhiên các ứng dụng cơ sở dữ liệu truyền thống cũng chỉ bao gồm đường dẫn


16

hoặc các tham chiếu đến ảnh trong các bản ghi quan hệ, cịn các ảnh thực sự thì
được lưu trữ trên các một hệ thống lưu trữ quang nào đó. Với chiến lược lưu trữ
kiểu này dữ liệu trong cơ sở dữ liệu chỉ mang bản chất số học hoặc văn bản chứ
rõ ràng là không đủ cho các cơ sở dữ liệu ảnh.
Một chức năng khác của cơ sở dữ liệu ảnh thường mất đi trong cơ sở dữ
liệu truyền thống chẳng hạn như truy xuất nội dung ảnh (image retrieval). Trong
cơ sở dữ liệu truyền thống việc truy vấn và truy tìm nội dung đều dựa trên các
thuộc tính mơ tả văn bản của chúng (dựa trên ngữ nghĩa được định nghĩa bởi các
kiểu dữ liệu cơ bản). Điều đó chỉ thích hợp cho các cơ sở dữ liệu tài liệu mà việc
tìm kiếm thường chỉ bao gồm nội dung của văn bản trong tài liệu. Với các hệ
thống truy tìm hồn tồn trên văn bản, các truy vấn có thể bao gồm sự kết hợp
bất kỳ của các thuật ngữ và các từ chứa trong các văn bản. Nhưng khái niệm truy
tìm nội dung khơng được tổng quát hóa cho các kiểu dữ liệu khác với kiểu dữ
liệu cơ bản. Đối với việc truy tìm nội dung trong các ảnh cần thiết có sự mơ tả
nhiều hơn là các cụm từ. Việc truy tìm nội dung ảnh được thực hiện bằng việc
trích chọn các đặc trưng ảnh chẳng hạn như màu sắc, hình dạng, hoa văn sau đó
sử dụng các đặc trưng này trong các truy vấn.

1.3.2.

Kiến trúc chung của một hệ quản cơ sở dữ liệu ảnh
Các cơ sở dữ liệu ảnh thường được xây dựng trên nền hệ quản trị cơ sở dữ

liệu truyền thống sẵn có mà đã bao gồm một số đặc trưng và khả năng về xử lý
ảnh. Việc tích hợp ảnh vào cơ sở dữ liệu theo lối truyền thống có thể bao gồm

các mô đun lưu trữ phân cấp, các cơ chế truy tìm nội dung, các bộ chỉnh sửa đồ
họa và các công cụ khác. Để phù hợp với các yêu cầu về hiệu năng, một hệ quản
trị cơ sở dữ liệu ảnh phải bao gồm các thành phần chẳng hạn như: các cơ chế tìm


17

kiếm, các cấu trúc dữ liệu không gian, biểu diễn truy vấn và các module mở rộng
khác. Vì vậy một “hệ thống” hay cơ chế được sử dụng bởi một cơ sở dữ liệu ảnh
bao gồm các đối tượng hoặc các mơ đun khác nhau từ các nguồn khác nhau.
Hình sau minh họa kiến trúc chung của một hệ quản trị cơ sở dữ liệu ảnh.

DBMS

Nơi lưu trữ

Máy tìm
kiếm
Giao diện
người dùng

Hình 1.2 – Minh họa kiến trúc đơn giản của một hệ quản trị cơ sở dữ liệu ảnh

1.3.3.

Các đặc trưng ảnh
Ngày nay với sự phát triển ngày càng mạnh mẽ của các thiết bị kỹ thuật

số, kho dữ liệu ảnh ngày càng lớn, nhu cầu tìm kiếm ảnh trong cơ sở dữ liệu ảnh
cũng ngày càng tăng. Với kỹ thuật tìm kiếm dựa vào chuỗi (văn bản) như truyền

thống đã khơng cịn đáp ứng được với nhu cầu ngày càng tăng này. Do vậy cần
có một số kỹ thuật tìm kiếm khác để đáp ứng được các yêu cầu này.
Một mơ hình tìm kiếm ảnh mới được u cầu để đáp ứng nhu cầu trực
giác của con người. Hệ thống tìm kiếm ảnh phải hỗ trợ đầy đủ việc lấy thông tin
dựa vào nội dung về trị giác. Chúng cho phép phân tích đối tượng và tự động
trích rút đặc trưng.


18

Những thành phần mang đặc trưng thị giác như màu sắc, hoa văn, hình
dạng của đối tượng là những ý tưởng tốt cho việc tìm kiếm ảnh. Trong phần này
sẽ trình bày tổng quan về các kỹ thuật này trong việc tìm kiếm ảnh. Trong phần
sau của luận văn sẽ tập trung đi nghiên cứu về một kỹ thuật được sử dụng nhiều
đó là kỹ thuật tìm kiếm ảnh dựa trên hoa văn.
Trích chọn
đặc trưng

Tập hợp ảnh

Đặc trưng ảnh

Biểu diễn văn
bản

Dánh chỉ mục

Xử lý truy vấn

Giao diện truy vấn


Người dùng

Hình 1.3 – Mơ hình hóa của hệ thống trích rút đặc trưng và tìm kiếm ảnh


19

Đặc trưng màu sắc của ảnh: Màu sắc là đặc trưng được đề cập rất nhiều
trong bài tốn tìm kiếm ảnh, vì một ảnh màu thì thơng tin quan trọng nhất trong
ảnh chính là màu sắc. Hơn nữa thơng tin về màu sắc là thông tin người dùng
quan tâm nhất; qua đặc trưng màu sắc, có thể lọc được rất nhiều lớp ảnh, thơng
qua vị trí, khơng gian, định lượng của màu sắc trong ảnh.
Đặc trưng hoa văn ảnh: Có những lớp ảnh mà sử dụng đặc trưng màu sắc
không thể dùng để tìm kiếm được, với những lớp ảnh này có thể địi hỏi phải
dùng đặc trưng hoa văn. Chẳng hạn như những ảnh liên quan đến cấu trúc của
điểm ảnh như: cỏ, mây, đá, sợi. Hoa văn ảnh sẽ giúp giải quyết tốt cho việc tìm
kiếm đối với lớp ảnh này.
Đặc trưng hình dạng của ảnh: Đối với những lớp ảnh cần tìm mà liên
quan đến hình dạng của đối tượng thì đặc trưng hoa văn và màu sắc khơng thể
giải quyết được. Chẳng hạn như tìm một vật có hình dạng ellipse hay hình trịn
trong ảnh. Tìm kiếm theo hình dáng thật sự là một cái đích của hệ thống tìm
kiếm dựa vào nội dung muốn đạt tới.
Độ đo: độ đo có ý nghĩa quan trọng trong các ứng dụng tìm kiếm ảnh. Nó
có ý nghĩa quyết định đến kết quả tìm kiếm sẽ như thế nào, độ chính xác của nó
ra sao.
1.3.4.1.

Đặc trưng màu sắc của ảnh


Sự nhận thức về màu sắc là quá trình quan trọng của con người. Sự nhận
thức về màu sắc phụ thuộc vào cả tính chất vật lý của ánh sáng lẫn q trình xử
lý của thị giác với sự góp phần rất quan trọng của kinh nghiệm. Con người dùng
thông tin màu sắc để phân biệt đối tượng, vật liệu, đồ ăn, vị trí và ngay cả thời


20

gian của ngày. Với sự phát triển mạnh mẽ của các thiết bị tinh tế, máy móc xử lý
màu sắc trở nên thơng dụng: chúng ta có các thiết bị như máy quay phim màu,
thiết bị chiếu màu và những phần mềm xử lý ảnh màu. Máy móc có thể dùng
màu sắc cho những mục đích như là con người. Đặc biệt, màu sắc thuận tiện bởi
vì nó cung cấp phép đo lường đa dạng tại mỗi điểm ảnh đơn, có thể phân lớp,
phân loại mà khơng cần đến những sự xử lý không gian phức tạp để đưa đến
quyết định. Sau đây là một số hệ màu sử dụng trong ảnh số.
Hệ màu RGB:
Mắt người có thể phân biệt hàng ngàn màu sắc khác nhau, những con số
chính xác hơn vẫn còn đang được bàn cãi nhiều. Ba màu RGB (Red-Green-Blue)
mã hóa hệ thống đồ họa sử dụng ba byte

hay khoảng chừng 16 triệu màu

phân biệt. Máy tính có thể phân biệt bất kỳ màu gì sau khi được mã hóa, nhưng
việc mã hóa có thể khơng biểu diễn được những sự khác biệt trong thế giới thực.
Mỗi điểm ảnh RGB bao gồm một byte cho màu R, một byte cho màu G và một
byte cho màu B. Việc mã hóa một màu tùy ý trong dãy hiển thị được thực hiện
bằng cách tổ hợp ba màu chính. Ví dụ: Red (255,0,0), Green (0,255,0),
Blue(0,0,255), Black(0,0,0). Hệ thống màu RGB là một hệ thống màu cộng bởi
vì mỗi màu được tạo nên bằng cách cộng thêm các phần tử vào màu đen (0,0,0)
Khuôn dạng của không gian màu RGB là định dạng phổ biến nhất của ảnh số, lý

do chính là do tính tương thích với màn hình hiển thị chính là màn hình vi tính.
Tuy nhiên khơng gian màu RGB có hạn chế lớn nhất là khơng phù hợp với cách
con người cảm nhận về màu sắc. Do đó khơng phù hợp cho việc ứng dụng vào
tìm kiếm ảnh.


21

Hình 1.4 – Hệ màu RGB
Hệ màu CMY:
Hệ thống màu CMY theo mơ hình in trên giấy trắng và theo khn mẫu
trừ từ màu trắng thay vì thêm vào từ màu đen như hệ thống màu RGB. CMY là
viết tắt của Cyan-Magenta-Yellow (màu lục lam, màu đỏ tươi, màu vàng), đó là
ba màu chính tương ứng với ba màu mực in. Màu cyan hấp thu sự chiếu sáng của
màu đỏ, Magenta hấp thu màu xanh lục, Yellow hấp thu màu xanh dương. Do
đó, tạo ra sự phản ánh tương ứng như khi in ảnh được chiếu sáng với ánh sáng
trắng. Hệ thống dưới dạng âm tính vì mã hóa theo dạng hấp thụ màu. Có một số


22

mã hóa như sau: trắng (0,0,0) vì khơng có ánh sáng trắng được hấp thụ, đen
(255,255,255) vì tất cả các thành phần của màu trắng đều được hấp thụ. Hệ
thống màu CMY dường như là một sự đảo ngược của hệ thống màu RGB. Đặc
tính của nó là sự đơn giản, ứng dụng nhiều trong trong in ấn. Tuy nhiên khuyết
điểm của nó cũng tương tự như khơng gian màu RGB, tức là cách mã hóa khác
với cách mà con người cảm nhận về màu sắc. Khơng thích hợp cho bài tốn tìm
kiếm ảnh dựa vào nội dung.
Hệ màu HSI:
Hệ thống màu HSI mã hóa thơng tin màu sắc bằng cách chia giá trị cường

độ I từ hai giá trị được mã hóa thuộc về độ hội tụ của màu- độ màu (Hue) H và
độ bão hòa (saturation) S.
Thành phần khơng gian màu HSI gồm có ba phần: Độ màu (Hue) H được
định nghĩa có giá trị 0-2Π, mang thơng tin về màu sắc. Độ bão hịa (Saturation) S
có giá trị 0-1, mang giá trị về độ thuần khiết của thành phần Hue. Cường độ
(Intensity) I mang thông tin về độ sáng của điểm ảnh.Ta có thể hình dung khơng
gian màu HSI như là vật hình nón. Với trục chính biểu diễn cường độ sáng
Intensity (I). Khoảng cách đến trục biểu diễn độ tập chung Saturation. Góc xung
quanh trục biểu thị cho sắc màu Hue. Đôi khi, hệ thống màu HSI được coi như là
hệ thống màu HSV dùng Value thay vì Intensity. Hệ thống màu HSI thì thích
hợp hơn với một số thiết kế đồ họa bởi vì nó cung cấp sự điều khiển trực tiếp đến
ánh sáng và độ màu (Hue). Hệ thống màu HIS cũng hỗ trợ tốt hơn cho những
thuật tốn xử lý ảnh vì sự tiêu chuẩn hóa về ánh sáng và tập chung vào hai tham
số về độ hội tụ màu, và cường độ màu.


23

Hình sau là khối nón màu minh họa hệ thống màu HSI:

Hình 1.5 – Hệ màu HSI
Hệ thống màu HSI có sự phân chia rõ rệt giữa ánh sáng và màu sắc. Do đó
có khả năng rất lớn được áp dụng cho việc tính đặc trưng và so sánh sự giống
nhau về màu sắc của hai ảnh. Do đó nó rất thích hợp cho việc tìm kiếm ảnh dựa
vào màu. Sự giống và khác nhau giữa hai ảnh về mặt màu sắc đối với mắt người
chỉ mang ý nghĩa tương đối. Do đó khi áp dụng vào bài tốn này trên máy tính
thì ta cũng giả lập sự tương đối này. Phương pháp chính của việc tìm kiếm theo
màu sắc là dùng lược đồ màu để làm đặc trưng cho từng ảnh. Do những đặc
điểm riêng của mơ hình màu HIS và đặc trưng của việc tìm kiếm nên tính lược
đồ màu cũng được dùng một mơ mình rất đặc biệt để phù hợp cho những đặc

điểm riêng này.


×