Tải bản đầy đủ (.docx) (54 trang)

Nghiên cứu phương pháp tra cứu ảnh từ trong tài liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (785.66 KB, 54 trang )

Bộ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2

TRẦN NGỌC ĐỒNG

NGHIÊN CỨU PHƯƠNG PHÁP
TRA CỨU ẢNH TỪ TRONG ẢNH TÀI LIỆU

LUẬN VĂN THẠC sĩ MÁY TÍNH

HÀ NỘI, 2015


Trước hết, em xin bày tỏ lòng biết ơn sâu sắc đến thầy hướng dẫn
PGS.Tiến Sĩ Ngô Quốc Tạo, người đã tận tình chỉ bảo, giúp đỡ em trong quá
trình hình thành đề tài của luận văn. Thầy đã hướng dẫn phương hướng triển
khai đề tài, cách sử dụng tài liệu và tổng kết các kết quả nghiên cứu một cách
có hệ thống.
Em xin trân thành cảm ơn tới tất cả các thầy cô giáo tại Trương đại học
Sư Phạm Hà Nội 2 đã đem tri thức và tâm huyết của mình để truyền đạt vốn
kiến thức quý báu cho chúng em và luôn luôn tạo mọi điều kiện tốt nhất cho
chúng em trong suốt quá trình theo học tại trường. Em xin chân thành cảm ơn
quý Thầy, Cô giáo và Ban lãnh đạo trường!
Cảm ơn đề tài: “Hệ thống đeo tay hỗ trợ đọc sách tiếng Việt dành cho
người khiếm thị ” Mã số VAST01.07/15-16 hỗ trợ trong thực hiện luận văn.
Luận văn hoàn thành, ngoài sự cố gắng của bản thân còn có sự động
viên, giúp đỡ và kích lệ về tinh thần của bạn bè đồng nghiệp và gia đình giúp
cho em vượt qua những khó khăn trong thời gian thực hiện luận văn. Em xin
trân thành cảm ơn tới tất cả mọi người.
Hà nội, ngày 20 thảng 05 năm 2015
Học viên



Trần Ngọc Đồng
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, với sự hỗ
trợ từ người hướng dẫn khoa học PGS.TS NGÔ QUỐC TẠO
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được


ai công bố trong bất kỳ công trình nào khác. Việc sử dụng những dữ liệu có
trong luận văn được thu thập từ các nguồn thông tin khác nhau có ghi trong
phần tài liệu tham khảo.
Nếu phát hiện bất kỳ sự gian lận nào, tôi xin chịu trách nhiệm trước Hội
đồng, cũng như kết quả luận văn của mình.
Tác giả

Trần Ngọc Đồng


MỤC LỤC


RGB:

Red, Green, Blue

CM Y:

Cyan-Magenta-Y ellow

CBIR:


Content Baased Image Retrieval


CSDL:

Cơ Sở Dữ Liệu


DANH MỤC HÌNH VẼ


Hình 2.19: Mở rộng kích thước hình chữ nhật biên theo hai hướng trái và phải
32


8

MỞ ĐẦU
1. Lý do chọn đề tài
Hiện nay, các thành tựu của tin học được áp dụng ở hầu hết các lĩnh vực
hoạt động của xã hội và đem lại nhiều hiệu quả to lớn. Mối quan hệ tương tác
giữa các nhu cầu của xã hội ngày càng đa dạng, cùng với sự phát triển của các
thiết bị đa phương tiện (multimedia) như máy ảnh, máy scan, máy quay phim,
điện thoại, ipad... với khối lượng hình ảnh và phim lưu trữ ngày càng lớn, cùng
với sự phát triển của các thiết bị điện tử, tin học và viễn thông đã thu hút ngày
càng nhiều những chuyên gia đi vào nghiên cứu những công cụ cung cấp cho
việc lấy thông tin dữ liệu ảnh từ nội dung của chúng. Trong thực tế, bài toán tra
cứu ảnh có rất nhiều ứng dụng quan trọng. Các ứng dụng phức tạp như so sánh
mẫu vân tay, tìm kiếm ảnh tội phạm.... được áp dụng trong ngành khoa học
hình sự, cơ sở dữ liệu ảnh về địa lý, y học... làm cho lĩnh vực nghiên cứu này

phát triển nhanh trong công nghệ thông tin.
Với số lượng ảnh được lưu trữ trên các thiết bị nhớ trở nên lớn, thì vấn đề
là phải có những phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ
thuật tìm kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt.
Tùy vào mục đích tìm kiếm khác nhau mà có các hình thức tra cứu ảnh
khác nhau. Hệ thống tra cứu ảnh từ trong ảnh tài liệu chỉ là một dạng của hệ
thống tra cứu ảnh nói chung. Mục đích của hệ thống tìm kiếm từ trong ảnh tài
liệu là đưa ra những ảnh tài liệu liên quan với từ mà người dùng cung cấp.
Trong luận văn này sẽ trình bày một hệ thống tra cứu ảnh từ trong ảnh tài liệu
giúp người dùng có thể tìm kiếm thông tin từ ảnh tài liệu từ câu truy vấn. Hệ
thống đưa ra việc tìm kiếm trên ngôn ngữ là Tiếng anh.
Xuất phát trong hoàn cảnh đó “Nghiên cứu phương pháp tra cứu ảnh từ
trong ảnh tài liệu” được em chọn làm đề tài.
2. Mục đích nghiên cứu


9

Mục đích của hệ thống truy tìm từ trong ảnh là đưa ra những ảnh tài liệu
liên quan với từ mà người dùng cung cấp. Trong đồ án này sẽ trình bày một hệ
thống truy tìm ảnh tài liệu giúp người dùng có thể truy tìm thông tin từ ảnh tài
liệu, hoặc ảnh in từ câu truy vấn. Hệ thống đưa ra việc tìm kiếm trên ngôn ngữ
là Tiếng anh.
3. Nhiệm vụ nghiên cứu
-

Tìm hiểu những khái niệm chung, cơ bản về xử lý ảnh và phương pháp
dùng để tra cứu ảnh tài liệu.

-


Nghiên cứu kiến trúc, những khó khăn, thách thức, và lĩnh vực ứng dụng
của hệ thống truy tìm từ trong ảnh tài liệu.

-

Trình bày các thao tác dùng để nhận dạng các từ trong văn bản của hình
ảnh tài liệu và các đặc trưng chung hay dùng để đối sánh đối tượng.

-

Trình bày phần cài đặt hệ thống. Đánh giá một số từ truy vấn đối với hệ
thống.

4. Đối tuợng và phạm vi nghiên cứu
Đối tượng, phạm vi nghiên cứu: Tổng quan về ảnh và tra cứu ảnh, phương
pháp tra cứu ảnh và chọn ra phương pháp, kỹ thuật tra cứu ảnh cụ thể và các
ứng dụng thực tế để tra cứu ảnh.
5. Phuơng pháp nghiên cứu
-

Phương pháp đặt vấn đề

-

Phương pháp phân tích tống hợp.

-

Phương pháp so sánh đối chiếu.


-

Phương pháp thực nghiệm
Sử dụng các phương pháp trên để nghiên cứu và tìm hiểu: “Nghiên cứu

phương pháp tra cứu ảnh từ trong ảnh tài liệu”
6. Bố cục luận văn
Luận văn được chia thành ba phần MỞ ĐẦU NỘI DUNG


1
0

Chương 1: TỔNG QUAN VỀ TRA cứu ẢNH
Chương này sẽ đưa ra những khái niệm cơ bản về xử lý ảnh và kiến trúc
của hệ thống tra cứu ảnh dựa vào nội dung. Dựa vào kiến trúc chung đó xây
dựng hệ thống đề xuất tìm kiếm ảnh từ trong ảnh tài liệu.
Chương 2: PHƯƠNG PHÁP TRA cứu ẢNH TỪ TRONG ẢNH
TÀI LIỆU
Chương này sẽ đi sâu vào từng phần có trong hệ thống đề xuất được nêu
ra ở Chương 1. Đưa ra các thuật toán để chuyển đổi sang ảnh nhị phân, thao tác
với ảnh nhị phân để nhận dạng được các từ có trong ảnh tài liệu, đồng thời trích
chọn các đặc trưng để đem ra đối sánh.
Chương 3: XÂY DƯNG CHƯƠNG TRÌNH THỬ NGHIỆM
Chương này sẽ trình bày các chức năng của chương trình thử nghiệm ứng
với mục đích nghiên cứu của luận văn. Đánh giá một số từ truy vấn đối với hệ
thống.
KẾT LUẬN
Nhìn chung, luận văn đã đưa ra những khái niệm cơ bản về hệ thống tra

cứu ảnh từ trong tài liệu với một hệ thống tìm kiếm từ trong ảnh tài liệu cụ thể
đã được đề xuất. Các bước trong hệ thống được trình bày lần lượt ở các chương.
Tuy nhiên, do thời gian thực hiện còn hạn hẹp, kiến thức còn hạn chế nên
luận vãn không tránh khỏi thiếu sót. Rất mong nhận được sự giúp đỡ của các
thầy cô và các bạn quan tâm đến vấn đề này để em có thể hoàn thiện hơn kiến
thức của mình.
NỘI DUNG
CHƯƠNG 1: TỔNG QUAN VỀ TRA cứu ẢNH
1.1.

Một số vấn đề cơ bản trong hệ thống xử lỷ ảnh

1.1.1.

Xử lý ảnh


1
1

Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng
vai trò quan trọng nhất. Những năm trở lại đây với sự phát triển của phần cứng
máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng
dụng trong cuộc sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong
tương tác người máy.
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm
cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là
một ảnh “tốt hơn” hoặc một kết luận.

Hình 1.1. Quá trình xử lỷ ảnh

Ảnh có thể xem là tập họp các điểm ảnh và mỗi điểm ảnh được xem như
là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của
đối tượng trong không gian và nó có thể xem như một hàm n biến P(cl, c2,...,
cn). Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều.
Sơ đồ tống quát của một hệ thống xử lý ảnh:

Hình 1.2. Các bước cơ bản trong một hệ thống xử lỷ ảnh
Xử lý ảnh là một môn học liên quan đến nhiều lĩnh vực và cần nhiều kiến
thức cơ sở khác nhau. Có thể kể đến đầu tiên là xử lý tín hiệu số, môn học hết
sức cơ bản cho xử lý tín hiệu chung. Các khái niệm về tính chập, các biến đổi
Fouricer, Laplace, các bộ lọc hữu hạn... Tiếp đến là các công cụ tính toán nhu
Đại số tuyến tính, xác suất thống kê. Các kiến thức cần thiết nhu trí tuệ nhân
tạo, mạng nơ ron nhân tạo cũng đuợc đề cập trong quá trình phân tích và nhận
dạng ảnh.


1
2

Các phuơng pháp xử lý ảnh bắt đầu từ các ứng dụng chính là nâng cao
chất luợng ảnh và phân tích ảnh. ứng dụng đầu tiên đuợc biết đến là nâng cao
chất luợng ảnh báo đuợc truyền qua cáp từ London đến NewYork từ những
năm 1920. vấn đề nâng cao chất luợng ảnh có liên quan tới phân bố mức sáng
và độ phân giải ảnh. vấn đề này đã đuợc giải quyết vào những năm 1995. Năm
1964 máy tính đã có khả năng xử lý và nâng cao chất luợng ảnh từ mặt trăng và
vệ tinh Ranger 7 của Mỹ bao gồm : làm nối đuờng biên, luu ảnh. Từ năm 1964
đến nay, các phuơng tiện xử lý nâng cao chất luợng, nhận dạng ảnh không
ngừng phát triển và hoàn thiện hơn.
1.1.2.


Ảnh và điểm ảnh

Ảnh trong thực thế là một ảnh liên tục về không gian và giá trị độ sáng.
Đe có thể xử lý bằng máy tính cần thiết phải đua về dạng ảnh số. Trong quá
trình số hóa, nguời ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua
quá trình lấy mẫu (rời rạc hóa không gian) và luợng tử hóa thành phần giá trị
(rời rạc hóa biên độ giá trị) mà về nguyên tắc mắt thuờng không phân biệt đuợc
hai điểm kề nhau. Trong quá trình này nguời ta sử dụng khái niệm là Picture
Element mà ta quen gọi là pixel. Ánh thuờng có kích thuớc vuông và đuợc mô
tả là N

X

N m-bit điểm ảnh, trong đó N là số điểm và m là số các giá trị mức

sáng. Việc sử dụng m bit đua ra khoảng 2m giá trị mức sáng từ 0 đến 2 m - 1.
Trong khuôn khổ ảnh hai chiều, mỗi Pixel ứng với cặp tọa độ(x,y).
Định nghĩa : Điểm ảnh (pixel) là một phần tử của ảnh số tại tọa độ (x,y)
với tọa độ xám hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm
ảnh đó được chọn thích họp sao cho mắt người cảm nhận sự liên tục về không
gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật. Mỗi phần tử trong
ma trận được gọi là một phần tử ảnh.
* Độ phân giải ảnh
Định nghĩa: Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được


1
3

ấn định trên một ảnh số được hiển thị.

Trong quá trình xử lý ảnh việc chọn giá trị phù họp về kích thước N của
ảnh cũng khá phức tạp và quan trọng. Chúng ta chọn N đủ lớn sẽ giải quyết
những mức độ yêu cầu về độ chi tiết của bức ảnh. Nhưng N quá nhỏ , ảnh có
chất lượng xấu: những đường nét sẽ xuất hiện như những khối và nhiều chi tiết
bị mất. Những giá trị lớn hơn của N đưa ra nhiều chi tiết hơn, nhưng cần nhiều
không gian bộ nhớ hơn để lưu trữ ảnh, và ảnh sẽ được xử lý lâu hơn do có
nhiều điểm ảnh.
* Mức xám của ảnh
Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị trí (x,y) của điểm ảnh
và độ xám của nó.
Định nghĩa : Mức xám của ảnh là cường độ sáng của nó được gán bằng
giá trị tại điểm đó.
Các thang giá trị mức xám thông thường : 16,32,64,128,256 (Mức 256 là
mức phổ dụng).
Ảnh đen trắng: là ảnh có hai màu đen và trắng (không chứa màu sắc khác)
với mức xám ở các điểm ảnh có thể khác nhau.
Ảnh nhị phân : ảnh chỉ có 2 mức đen trắng phân biệt, tức là dùng 1 bit
mô tả 2^ mức khác nhau. Tức là mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0
hoặc 1.


1
4

Ảnh màu: Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo
nên thế giới màu, người ta thường dung 3 byte để mô tả mức màu, khi đó các
giá trị màu: 2^*^ = 2^ = 16,7 triệu màu.
* Histogram
Histogram là một lược đồ biểu diễn độ sáng của một bức ảnh. Lược đồ
này bao gồm trục hoảnh biểu diễn mức sáng và trục tung biểu diễn số lượng

điểm sáng tương ứng. Đối với ảnh xám thông thường, giá trị của trục hoành
nằm trong khoảng từ 0-255.


1
5

u

^

1
E
C
0
1
1
0
0
120
0
100
0

9
0
0
Õ

lw


""

^

0

5Ỡ

100

150 m

m


1
6

C
Ũ
■to
o
200

0

Hình 1.3: Hai dạng lược đồ mức xám
Hình bên tay trái là histogram cho ảnh màu xám, hỉnh bên tay phải là
histogram cho ảnh màu.

Nhìn vào biểu đồ ta có thể biết được phân bé cường độ sáng của một ảnh,
với những ảnh mà phân bố histogram lệch về bên phải thì ảnh đó là một ảnh có
độ sáng tốt. Ngược lại ảnh đố là một ảnh tối. Dựa vào các yếu tố trên ta cỏ định
nghĩa histogram của ảnh xám


Đỉnh nghĩa:
Cho ảnh mức xám I có giá trị màu nằm trong khoảng MIN và MAX
1 điểm ảnh trong ảnh I có giá trị m.
Histogram của ảnh mức xám I là số

h(m) = |{(r,c)| ỉ(r, c) = m}|

7

Trong đó :
m là tất cả giá trị mức xám của ảnh vầMỈN < m< MAX r, c
là chỉ số hàng và cột của điểm ảnh trong ảnh
Bảng 1.1: Định nghĩa histogram
1.1.3.

Khái niệm ảnh đen trắng và ảnh màu

Ảnh có thể biểu diễn duới dạng tuơng tự hoặc tín hiệu số. Trong biểu diễn
số của các ảnh đa mức xám thì một ảnh đuợc biểu diễn duới dạng một ma trận
hai chiều. Mỗi phần tử của ma trận biểu diễn cho mức xám hay cuờng độ của
ảnh tại vị trí đó. Một luới chia ô vuông đuợc đặt lên ảnh. Độ lớn mỗi ô vuông
của luới xác định kích thuớc của một điểm ảnh. Mức xám của một điểm đuợc
tính bằng cuờng độ xám trung bình tại mỗi ô vuông này. Mắt luới càng nhỏ thì
chất luợng ảnh càng cao.

Trong kỹ thuật tuong tự, một bức ảnh thuờng đuợc biểu diễn duới dạng
các dòng nằm ngang kế tiếp nhau. Mỗi dòng là một tín hiệu tuong tự mang theo
các thông tin về cuờng độ sáng dọc theo một đuờng nằm ngang trong ảnh gốc.
* Ảnh đen trắng
Ảnh đen trắng chỉ bao gồm hai màu : màu đen và màu trắng. Nguời ta
phân mức đen trắng đó thành L mức nếu sử dụng số bit B = 8 bit để mã hóa
mức đen trắng (hay mức xám) thì L đuợc xác định :
L=2B


1
8

Nếu L=2, B=l, nghĩa là chỉ có 2 mức: mức 0 và mức 1, còn gọi là ảnh nhị
phân. Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối. Nếu L lớn hơn 2 ta
có ảnh đa cấp xám.
Với ảnh nhị phân mỗi điểm ảnh đuợc mã hóa trên lbit, còn với ảnh 256
mức, mỗi điểm ảnh đuợc mã hóa trên 8 bit. Nhu vậy, với ảnh đen trắng: nếu
dùng 8 bit (1 byte) để biểu diễn mức xám thì số mức xám có thể biểu diễn sẽ là
256. Mỗi mức xám đuợc biểu diễn duới dạng số nguyên nằm trong khoảng từ 0255, với mức 0 biểu diễn cho mức cuờng độ đen nhất và mức 255 biểu diễn cho
mức cuờng độ sáng nhất.
Ảnh nhị phân khá đơn giản, các phần tử ảnh có thể coi là các phần tử
logic, ứng dụng chính của nó đuợc dùng để phân biệt đối tuợng ảnh với nền hay
để phân biệt điểm biên với các điểm khác.
* Ảnh màu
Theo lý thuyết của Thomas thì ảnh màu là ảnh tổ họp từ 3 màu cơ bản là
Red, Green, Blue và thu nhận trên các dải bang tần khác nhau. Với ảnh màu thì
cách biểu diễn cũng tuơng tự nhu ảnh đen trắng, chỉ khác là các số tại mỗi phần
tử của ma trận biểu diễn cho ba màu riêng rẽ. Đe biểu diễn cho một điểm ảnh
màu cần 24 bit. 24 bit này đuợc chia thành ba khoảng 8 bit. Mỗi màu cũng phân

thành L cấp màu khác nhau (thuờng L = 256). Mỗi khoảng này biểu diễn cho
cuờng độ sáng của một trong các màu chính. Do đó, để luu trữ ảnh màu nguời
ta có thể luu trữ từng màu riêng biệt, mỗi màu luu trữ một ảnh đa cấp xám.
Chính vì vậy không gian nhớ dành cho một ảnh màu lớn gấp 3 lần một ảnh đa
cấp xám cùng kích cỡ.
1.1.4.

Không gian màu

* Không gian màu RGB
RGB là không gian màu đuợc sử dụng phổ biến nhất để hiển thị ảnh.
Không gian RGB bao gồm 3 thành phần màu là ĐỎ(Red), Xanh lá cây(Green)


1
9

và Xanh lam (Blue). Các thành phần này gọi là màu cộng bởi vì các màu sắc
trong không gian RGB đều có thể thu được bằng cách cộng 3 thành phần màu
này lại với nhau.
* Không gian màu CMY
CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam ,màu đỏ tươi,
màu vàng),đó là ba màu chính tương ứng với ba màu mựcin.
* Không gian màu HSx
Các không gian màu HSI, HSV, HSB và HSL (quy ước gọi là HSx) là gần
với nhận thức của người hơn không gian màu RGB, nhưng vẫn không là đồng
nhất nhận thức.
Các trục từ các không gian màu HSx biểu diễn các đặc trưng màu (hue),
độ bão hòa (saturation), và độ sáng (lightness)(cũng được gọi là value,
brightness và intensity). Sự khác biệt giữa các không gian màu trong HSx là

cách chúng biến đổi từ không gian màu RGB. Chúng thường được biểu diễn
bởi các hình thức khác nhau (ví dụ như hình nón, hình trụ).
1.2.

Giói thiệu kiến trúc chung về hệ thống tra cứu ảnh

1.2.1.

Tra cứu thông tin

Tra cứu thông tin về ảnh là quá trình tìm kiếm trong một cơ sở dữ liệu ảnh
những ảnh thỏa mãn một yêu cầu nào đó. Tra cứu thông tin về ảnh thường dựa
vào hai đặc trưng chính là văn bản mô tả đi kèm ảnh hoặc nội dung ảnh. Một số
công cụ tìm kiếm ảnh theo văn bản mô tả đi kèm như Google Image Search,
Yahoo, MSN,.. .Một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như
Google Image Swirl, Bing,...
Các phương pháp tra cứu ảnh được sử dụng đầu tiên không dựa trên các
đặc điểm trực quan của ảnh mà dựa trên các chú thích bằng lời của các bức ảnh,
đầu tiên người ta gán cho mỗi ảnh một câu chú thích bằng lời (text) dựa trên
một đặc điểm nào đó của ảnh, sau đó sử dụng các kỹ thuật tìm kiếm văn bản


2
0

thông thuờng để tìm kiếm ảnh.
Phuong pháp tra cứu ảnh dựa trên văn bản nhu trên sử dụng các kỹ thuật
cơ sở dữ liệu truyền thống để quản lý ảnh. Dựa vào các lời chú thích, nguời ta
có thể tổ chức cơ sở dữ liệu ảnh bằng các phân lớp theo chủ đề hay theo ngữ
nghĩa và việc duyệt cơ sở dữ liệu ảnh chỉ dựa trên các truy vấn kiểu Bool thông

thuờng. Phuơng pháp tra cứu ảnh dựa trên chú thích nhu trên còn đuợc gọi là
phuơng pháp tra cứu ảnh theo từ khóa. Do vậy việc xây dựng các thuật toán có
khả năng tự động sinh ra các chú thích cho một cơ sở dữ liệu ảnh có nhiều chủ
đề là hết sức khó khăn nên các hệ thống tra cứu ảnh kiều này vẫn yêu cầu phải
chú thích ảnh một cách thủ công, tốn rất nhiều công sức và quan trọng hơn là
nó mang tính chủ quan, bị ảnh huởng bởi hoàn cảnh và không đầy đủ.
Phuơng pháp tra cứu ảnh dựa theo nội dung ra đời đã khắc phục đuợc
nhuợc điểm của phuơng pháp tra cứu ảnh dựa vào văn bản đi kèm. Phuơng
pháp "Tra cứu ảnh dựa theo nội dung" (Content Based Image Retrieval) cho
phép trích chọn các đặc trung dựa vào nội dung trực quan của ảnh nhu màu sẳc,
kết cẩu, hình dạng và bổ cục không gian của ảnh để làm cơ sở cho việc tra cứu,
sắp xếp, tổ chức cơ sở dữ liệu ảnh. Một số hệ thống tra cứu ảnh nổi tiếng nhu
QBIC (IBM), Virage (Virage Inc.) Photobook (MIT) Visual SEEK (Columbia
University) đã áp dụng thành công kỹ thuật này. Tra cứu ảnh dựa theo nội dung
đã nhận đuợc nhiều sự quan tâm của các nhà khoa học.
1.2.2.

Tra cứu ảnh dựa vào nội dung

Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề tra cứu thông
tin dựa trên dạng thông tin trực quan đó là các phuơng pháp dựa trên đặc trung
và các phuơng pháp dựa trên văn bản mô tả ảnh. Nhận thức chủ quan và chú
thích thiếu chính xác là nguyên nhân tra cứu không chính xác trong các quá
trình tra cứu của phuong pháp dựa trên văn bản mô tả đi ảnh.
Các vấn đề đối với việc truy cập các ảnh và Video dựa vào văn bản đã


2
1


thúc đẩy nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung.
Với giải pháp này, thay vì đuợc chú thích một cách thủ công bởi các từ khóa
dựa vào văn bản, các ảnh có thể đuợc trích rút một số đặc trung trực quan nhu
màu sắc, hình dạng, kết cấu và đuợc đánh chỉ số dựa trên các đặc trung trực
quan này. Cách tiếp cận này dựa chủ yếu vào các kết quả từ thị giác máy. Tuy
nhiên, không có đặc trung riêng lẻ tốt nhất mà cho các kết quả chính xác. Thông
thuờng một sụ kết họp các đặc trung một cách tùy biến là cần thiết để cung cấp
các kết quả tra cứu thích họp cho ứng dụng tra cứu ảnh dựa vào nội dung.
Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR-Content Baased Image
REtrieval) tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở các khuôn
dạng khác nhau (văn bản, hình ảnh , Video) mà còn giải quyết nhu cầu của
nguời sử dụng, về cơ bản hệ thống phân tích cả các nội dung của nguồn thông
tin cũng nhu các truy vấn sử dụng và sau đó so sánh các nội dung này để tra cứu
các mục tin liên quan. Các chức năng chính của hệ thống dựa vào nội dung nhu
sau :


Phân tích các nội dung của nguồn thông tin, và biểu diễn các nội dung
của các nguồn đuợc phân tích theo cách thích hợp cho so sánh các truy
vấn sử dụng.



Phân tích các truy vấn nguời sử dụng và biểu diễn chúng ở dạng thích
hợp cho so sánh với cơ sở dữ liệu nguồn. Buớc này tuơng tự buớc truớc
nhung chỉ áp dụng với ảnh truy vấn.



Định nghĩa một chiến luợc để so sánh các truy vấn tìm kiếm với thông

tin trong cơ sở dữ liệu đuợc luu trữ. Tra cứu thông tin liên quan một cách
hiệu quả. Buớc này đuợc thực hiện trực tuyến và được yêu cầu rất nhanh.
Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại
không gian đặc trưng để tăng tốc quá trình đối sánh.
• Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng


2
2

điều chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ
người sử dụng hoặc các ảnh được tra cứu.

Hình 1.4: Lược đồ mô tả các bưức liên quan trong hệ thống
tra cứu ảnh dựa vào nội dung
Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa
vào nội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau và
trên mặt kia có các truy vấn người sử dụng. Hai mặt này được liên kết thông
qua một chuỗi các tác vụ như được minh họa trong hình trên. Sau đây chứng ta
sẽ đưa ra cái nhìn khái quát về một số tác vụ chinh.
1.2.2.1.

Truy vẩn người sử dụng

Có nhiều cách gửi một truy vấn trực quan. Một phuơng pháp truy vấn tốt
là một phuơng pháp tự nhiên đối với nguời sử dụng cũng nhu thu đuợc đủ thông
tin từ nguời sử dụng để trích rút các kết quả có ý nghĩa. Các phuơng pháp truy


2

3

vấn duới đây đuợc sử dụng phổ biến trong nghiên cứu tra cứu ảnh dựa vào nội
dung.
Truy vấn ảnh mẫu (QBE): Trong loai truy vấn này, nguời sử dụng hệ
thống chỉ rõ một ảnh truy vấn đích, dựa trên ảnh đó hệ thống sẽ tìm kiếm trong
cơ sở dữ liệu ảnh các ảnh tuơng tự nhất.
Truy vấn bởi đặc trung (QBF): Trong hệ thống QBF tiêu biểu, những
nguời sử dụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trung họ quan tâm
cho tìm kiếm.
Các truy vấn dựa vào thuộc tính: Các truy vấn dựa vào thuộc tính sử dụng
các chú thích văn bản, trích rút truớc bởi nỗ lục con nguời, nhu một khóa tra
cứu chính. Phuơng pháp này nhanh và dễ thục hiện, nhung có một độ chủ quan
và nhập nhằng cao xuất hiện nhu đã đề cập
1.2.2.2.

Trích chọn đặc trưng

Trích chọn đặc trung liên quan đến việc trích chọn những thông tin hữu
ích từ ảnh. Vì vậy nó giảm yêu cầu về bộ nhớ cấn thiết và do đó làm hệ thống
trở nên nhanh hơn và truy tìm ản hiệu quả hơn. Mỗi khi một hoặc nhiều đặc
trung đuợc trích chọn, chúng là đuợc luu trong cơ sở dữ liệu để sử dụng cho
công việc sau này. số luợng thông tin hữu ích mà một máy tính lấy ra từ ảnh là
yếu tố rất quan trọng quyết định tính thông minh, cũng nhu hiệu quả của hệ
thống truy tìm ảnh.Một uu điểm lớn nhất của việc trích chọn đặc trung đó là nó
bỏ đi những thông tin không cần thiết và chỉ giữ lại những thông tin cần thiết để
có thể biểu diễnnội dung cho ảnh. Thuờng có nhiều phuơng pháp để trích chọn
đặc trung nhu là Gradient, Structural và Concavity (GSC) (đặc trưng này để đo
những đặc trưng ảnh ở mức độ cục bộ đến những mức độ lớn hon ), những đặc
trưng dựa trên sự phân bố mật độ và những đặc trưng khối quan trọng trong

ảnh, Conditional Random Field, Dynamic Time Wraping.
1.2.2.3.

Đánh chỉ sổ nhiều chiều


2
4

Để thực hiện việc tra cứu dựa vào nội dung đối với các cơ sở dữ liệu ảnh
lớn, các kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng. Có ba cộng đồng
nghiên cứu chính đóng góp vào lĩnh vực này: hình học tính toán, quản trị cơ sở
dữ liệu và nhận dạng mẫu.
1.3. Hệ thống đề xuất
Xuất phát từ kiến trúc chung về hệ thống tra cứu ảnh. Trong tài liệu này đề
xuất hệ thống tìm kiếm từ trong ảnh tài liệu và đánh dấu hoặc làm nổi bật từ cần
tìm. Những kỹ thuật đưa ra bắt gặp trong vấn đề truy tìm ảnh tài liệu là sử dụng
thủ tục đối sánh một từ. Thủ tục này thực hiện đối sánh từ trực tiếp trong ảnh tài
liệu mà không dùng phương pháp nhận dạng ký tự quang học (optical character
recognition) và sử dụng ảnh của một từ như làm câu truy vấn. Toàn bộ hệ thống
bao gồm hai thủ tục chính như hìnhbên dưới.
Trong cơ sở dữ liệu ảnh tất cả ảnh tài liệu được phân tích để tìm số lượng
từ tối đa bên trong chúng. Sau đó tập các đặc trưng có thể được lấy ra ứng với
hình dạng của từ và bỏ qua những sự khác nhau chi tiết do nhiễu hoặc font.
Những đặc trưng này sau đó được lưu vào cơ sở dữ liệu đặc trưng.

Hình 1.5: cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu
Trong thủ tục của người sử dụng nhập một từ truy vấn và sau đó hệ thống
sẽ tạo ra một bức ảnh ứng với từ đó. Tiếp theo ảnh này cũng được xử lý để lấy
ra tập các đặc trưng có thể. Sau đó, những đặc trưng này được dùng để tìm

những từ tương tự thông qua thủ tục đối sánh từ. Cuối cùng, những ảnh tài liệu
chứa những từ tương tự được hiện thị đến người dùng. Kết quả thí nghiệm chỉ


2
5

ra rằng hệ thống đề xuất đưa ra kết quả tìm kiếm có độ chính xác cao thông qua
độ đo về tỉ lệ precision và recall.
Trong các chương còn lại của tài liệu sẽ đi chi tiết vào từng bước
trong hệ thống và các kỹ thuật sử dụng trong từng bước.


×