Tải bản đầy đủ (.docx) (62 trang)

NGHIÊN cứu PHƯƠNG PHÁP TRA cứu ẢNH tài LIỆU dựa vào tìm KIẾM văn bản TRONG HÌNH ẢNH tài LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.33 MB, 62 trang )

1
1
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
----------------------------Ơ

NGUYỄN VĂN TÙNG

NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH TÀI
LIỆU DỰA VÀO TÌM KIẾM VĂN BẢN TRONG
HÌNH ẢNH TÀI LIỆU

Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGÔ QUỐC TẠO

HÀ NÔI – NĂM 2014


2

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, với sự hỗ trợ từ
người hướng dẫn khoa học PGS.TS NGÔ QUỐC TẠO
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ công trình nào khác. Việc sử dụng những dữ liệu có trong
luận văn được thu thập từ các nguồn thông tin khác nhau có ghi trong phần tài liệu
tham khảo.
Nếu phát hiện bất kỳ sự gian lận nào, tôi xin chịu trách nhiệm trước Hội
đồng, cũng như kết quả luận văn của mình.


Tác giả

NGUYỄN VĂN TÙNG


3

LỜI CẢM ƠN
Trên thực tế không có thành công nào mà không gắn liền với những sự hỗ
trợ, giúp đỡ của những người xung quanh chúng ta. Trong suốt thời gian từ khi bắt
đầu học tập tại trường đến nay, em đã nhận được rất nhiều sự quan tâm, giúp đỡ của
quý Thầy, Cô giáo tại Học viện Công nghệ Bưu chính Viễn thông đã đem tri thức
và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho chúng em và luôn
luôn tạo mọi điều kiện tốt nhất cho chúng em trong suốt quá trình theo học tại học
viện. Em xin chân thành cảm ơn quý Thầy, Cô giáo và Ban lãnh đạo học viện!
Đặc biệt em xin gửi lời biết ơn sâu sắc đến thầy hướng dẫn - PGS.Tiến Sĩ Ngô
Quốc Tạo, người đã trực tiếp hướng dẫn em hoàn thành luận văn này.
Và trên hết, con xin kính gửi lòng biết ơn đến ba mẹ và tất cả những người
thân đã luôn đồng hành và động viên để con có thể hoàn thành tốt luận văn này.
Tuy đã cố gắng hết sức mình và hoàn thành đồ án nhưng chắc chắn đồ án vẫn
còn nhiều thiếu sót. Em rất mong nhận được sự góp ý, chỉ bảo của các thầy cô và
các bạn để có thể phát triển đồ án với những ứng dụng thiết thực nhất trong tương
lai.
Hà nội, ngày 21 tháng 04 năm 2014
Học viên

Nguyễn Văn Tùng


4


MỤC LỤC


5

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
RGB

Red, Green, Blue

CMY

Cyan-Magenta-Yellow

CBIR

Content Baased Image Retrieval

CSDL Cơ Sở Dữ Liệu


6

DANH MỤC CÁC BẢNG

DANH MỤC HÌNH VẼ


7



8

LỜI MỞ ĐẦU
Cùng với sự mở rộng của multimedia, với khối lượng hình ảnh và phim lưu
trữ ngày càng lớn, cùng với sự phát triển của các thiết bị điện tử, tin học và viễn
thông đã thu hút ngày càng nhiều những chuyên gia đi vào nghiên cứu những công
cụ cung cấp cho việc lấy thông tin dữ liệu ảnh từ nội dung của chúng. Trong thực tế,
bài toán tra cứu ảnh có rất nhiều ứng dụng quan trọng. Các ứng dụng phức tạp như
so sánh mẫu vân tay, tìm kiếm ảnh tội phạm…. được áp dụng trong ngành khoa học
hình sự, cơ sở dữ liệu ảnh về địa lý, y học… làm cho lĩnh vực nghiên cứu này phát
triển nhanh trong công nghệ thông tin.
Tuy nhiên khi số lượng ảnh được lưu trữ trở nên rất lớn thì vấn đề là phải có
những phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm
kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt. Việc tìm kiếm
được một bức ảnh mong muốn trong hàng triệu bức ảnh thuộc đủ loại chủ đề khác
nhau là rất khó khăn.
Tìm kiếm theo cách thông thường dựa trên văn bản giờ đây được bổ sung bởi
truy vấn dựa theo nội dung, tìm vào khía cạnh nhận thức thông tin ảnh. Thông
thường trong hệ thống tìm kiếm ảnh, những nội dung có thể nhìn thấy như màu sắc,
hình dạng, kết cấu, bố cục không gian thường được chọn lọc, đánh chỉ số và biểu
diễn dưới dạng vector đặc trưng nhiều chiều. Những đặc trưng này sẽ được sử dụng
để đối sánh và tìm những bức ảnh khác có liên quan.
Tùy vào mục đích tìm kiếm khác nhau mà có các hình thức tra cứu ảnh khác
nhau. Hệ thống tìm từ trong ảnh tài liệu chỉ là một dạng của hệ thống tra cứu ảnh
nói chung. Mục đích của hệ thống tìm kiếm từ trong ảnh tài liệu là đưa ra những
ảnh tài liệu liên quan với từ mà người dùng cung cấp. Trong luận văn này sẽ trình
bày một hệ thống tra cứu ảnh tài liệu giúp người dùng có thể tìm kiếm thông tin từ
ảnh tài liệu từ câu truy vấn. Hệ thống đưa ra việc tìm kiếm trên ngôn ngữ là Tiếng

anh.
Tài liệu gồm có 4 chương và phần kết luận:


9

Chương 1: TỔNG QUAN VỀ TRA CỨU ẢNH
Chương này sẽ đưa ra những khái niệm chung, cơ bản về xử lý ảnh và phương
pháp dùng để tra cứu ảnh. Mục đích là đưa cho người đọc những hiểu biết chung về
lĩnh vực mà xử lý ảnh nghiên cứu.
Chương 2: KIẾN TRÚC CHUNG VỀ HỆ THỐNG TRA CỨU ẢNH TÀI
LIỆU
Chương này sẽ đưa ra một bức tranh chung về kiến trúc của hệ thống tra cứu
ảnh dựa vào nội dung. Dựa vào kiến trúc chung đó phần nào mô hình hóa từng bước
cần thực hiện trong hệ thống tra cứu ảnh tài liệu, qua đó xây dựng được hệ thống đề
xuất tìm kiếm từ trong ảnh tài liệu.
Chương 3: THỰC THI HỆ THỐNG ĐỀ XUẤT
Chương này chủ yếu trình bày các thao tác dùng để nhận dạng các từ trong
văn bản của hình ảnh tài liệu và tìm hiểu hiểu được các đặc trưng dùng để đối sánh
Véc tơ đặc trưng và CSDL đặc trưng.
Chương 4: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM
Chương này sẽ trình bày phần cài đặt hệ thống. Đánh giá một số từ truy vấn
đối với hệ thống.
Kết luận
Nhìn chung, đồ án đã đưa ra những khái niệm cơ bản về hệ thống tra cứu ảnh
tài liệu với một hệ thống tìm kiếm từ trong ảnh tài liệu cụ thể đã được đề xuất. Các
bước trong hệ thống được trình bày lần lượt ở các chương.
Tuy nhiên, do thời gian thực hiện còn hạn hẹp, kiến thức còn hạn chế nên luận
văn không tránh khỏi thiếu sót. Rất mong nhận được sự giúp đỡ của các thầy cô và
các bạn quan tâm đến vấn đề này để em có thể hoàn thiện hơn kiến thức của mình.



10

CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH
1.1.Tổng quan về xử lý ảnh
Xử lý ảnh từ lâu đã là một lĩnh vực mang tính khoa học và công nghệ. Nó là
một nghành khoa học mới mẻ so với nhiêu nghành khoa học khác nhưng tốc độ
phát triển của nó rất nhanh, điều này kích thích các trung tâm nghiêm cứu, các ứng
dụng và đặc biệt là máy tính chuyên dụng riêng cho nó.
Xử lý ảnh là một môn học liên quan đến nhiều lĩnh vực và cần nhiều kiến thức
cơ sở khác nhau. Có thể kể đến đầu tiên là xử lý tín hiệu số, môn học hết sức cơ bản
cho xử lý tín hiệu chung. Các khái niệm về tính chập, các biến đổi Fouricer,
Laplace, các bộ lọc hữu hạn… Tiếp đến là các công cụ tính toán như Đại số tuyến
tính, xác suất thống kê. Các kiến thức cần thiết như trí tuệ nhân tạo, mạng nơ ron
nhân tạo cũng được đề cập trong quá trình phân tích và nhận dạng ảnh.
Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính là nâng cao chất
lượng ảnh và phân tích ảnh. Ứng dụng đầu tiên được biết đến là nâng cao chất
lượng ảnh báo được truyền qua cáp từ London đến NewYork từ những năm 1920.
Vấn đề nâng cao chất lượng ảnh có liên quan tới phân bố mức sáng và độ phân giải
ảnh. Vấn đề này đã được giải quyết vào những năm 1995. Năm 1964 máy tính đã có
khả năng xử lý và nâng cao chất lượng ảnh từ mặt trăng và vệ tinh Ranger 7 của Mỹ
bao gồm : làm nối đường biên, lưu ảnh. Từ năm 1964 đến nay, các phương tiện xử
lý nâng cao chất lượng, nhận dạng ảnh không ngừng phát triển và hoàn thiện hơn.

1.1.1.Một số vấn đề cơ bản trong hệ thống xử lý ảnh
* Ảnh và điểm ảnh:
Ảnh trong thực thế là một ảnh liên tục về không gian và giá trị độ sáng. Để có
thể xử lý bằng máy tính cần thiết phải đưa về dạng ảnh số. Trong quá trình số hóa,
người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu

(rời rạc hóa không gian) và lượng tử hóa thành phần giá trị (rời rạc hóa biên độ giá
trị) mà về nguyên tắc mắt thường không phân biệt được hai điểm kề nhau. Trong
quá trình này người ta sử dụng khái niệm là Picture Element mà ta quen gọi là pixel.
Ảnh thường có kích thước vuông và được mô tả là N N m-bit điểm ảnh, trong đó N


11

là số điểm và m là số các giá trị mức sáng. Việc sử dụng m bit đưa ra khoảng 2m giá
trị mức sáng từ 0 đến 2m – 1. Trong khuôn khổ ảnh hai chiều, mỗi Pixel ứng với cặp
tọa độ(x,y).
Định nghĩa : Điểm ảnh (pixel) là một phần tử của ảnh số tại tọa độ (x,y) với
tọa độ xám hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó
được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức
xám (hoặc màu) của ảnh số gần như ảnh thật. Mỗi phần tử trong ma trận được gọi là
một phần tử ảnh.
* Độ phân giải ảnh
Định nghĩa: Độ phân giải(Resolution) của ảnh là mật độ điểm ảnh được ấn
định trên một ảnh số được hiển thị.
Trong quá trình xử lý ảnh việc chọn giá trị phù hợp về kích thước N của ảnh
cũng khá phức tạp và quan trọng. Chúng ta chọn N đủ lớn sẽ giải quyết những mức
độ yêu cầu về độ chi tiết của bức ảnh. Nhưng N quá nhỏ , ảnh có chất lượng xấu:
những đường nét sẽ xuất hiện như những khối và nhiều chi tiết bị mất. Những giá
trị lớn hơn của N đưa ra nhiều chi tiết hơn, nhưng cần nhiều không gian bộ nhớ hơn
để lưu trữ ảnh, và ảnh sẽ được xử lý lâu hơn do có nhiều điểm ảnh.

Hình 1.1: Hình chiếc xe đạp với các kích thước ảnh khác nhau


12


Ví dụ như với hai bức ảnh về chiếc xe đạp trong Hình 1 với các độ phân giải
khác nhau. Hình bên tay trái với độ phân giải 64 x 64 đưa ra cấu trúc rộng. Chúng ta
khó có thể quan sát bất kỳ chi tiết nào trong phần khung của xe đạp hoặc bất kỳ thứ
khác. Với hình chiêc xe đạp bên tay phải có độ phân giải 256 x 256 chúng ta vừa có
thể quan sát chi tiết vật thể và cũng có thể nhận dạng vật thể là ai. Hầu hết các bức
ảnh lựa chọn là có độ phân giải 256 x 256 hoặc 512 x 512. Hình ảnh có độ phân giải
càng cao thì càng sắc nét và màu sắc càng chính xác. Và khi đó, dung lượng file
cũng sẽ tăng theo, đòi hỏi nhiều bộ nhớ và đĩa cứng hơn.
* Mức xám của ảnh
Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị trí (x,y) của điểm ảnh và độ
xám của nó.
Định nghĩa : Mức xám của ảnh là cường độ sáng của nó được gán bằng giá trị
tại điểm đó.
Các thang giá trị mức xám thông thường : 16,32,64,128,256 (Mức 256 là mức
phổ dụng).
Ảnh đen trắng : là ảnh có hai màu đen và trắng (không chứa màu sắc khác) với
mức xám ở các điểm ảnh có thể khác nhau.
Ảnh nhị phân : ảnh chỉ có 2 mức đen trắng phân biệt, tức là dùng 1 bit mô tả
1
2 mức khác nhau. Tức là mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1.
Ảnh màu: Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế
giới màu, người ta thường dung 3 byte để mô tả mức màu, khi đó các giá trị màu:
8*3

2

24
= 2 = 16,7 triệu màu.


* Histogram
Histogram là một lược đồ biểu diễn độ sáng của một bức ảnh. Lược đồ này
bao gồm trục hoảnh biểu diễn mức sáng và trục tung biểu diễn số lượng điểm sáng
tương ứng. Đối với ảnh xám thông thường, giá trị của trục hoành nằm trong khoảng
từ 0-255.


13

Hình 1.2: Hai dạng lược đồ mức xám

Nhìn vào biểu đồ ta có thể biết được phân bố cường độ sáng của một ảnh, với
những ảnh mà phân bố histogram lệch về bên phải thì ảnh đó là một ảnh có độ sáng
tốt. Ngược lại ảnh đó là một ảnh tối. Dựa vào các yếu tố trên ta có định nghĩa
histogram của ảnh xám
Bảng 1.1: Định nghĩa histogram

Định nghĩa :
Cho ảnh mức xám I có giá trị màu nằm trong khoảng MIN và MAX
Histogram của ảnh mức xám I là số điểm ảnh trong ảnh I có giá trị m.
Trong đó :
m là tất cả giá trị mức xám của ảnh và m
r , c là chỉ số hàng và cột của điểm ảnh trong ảnh

1.1.2.Khái niệm ảnh đen trắng và ảnh màu
Ảnh có thể biểu diễn dưới dạng tương tự hoặc tín hiệu số. Trong biểu diễn số
của các ảnh đa mức xám thì một ảnh được biểu diễn dưới dạng một ma trận hai
chiều. Mỗi phần tử của ma trận biểu diễn cho mức xám hay cường độ của ảnh tại vị
trí đó. Một lưới chia ô vuông được đặt lên ảnh. Độ lớn mỗi ô vuông của lưới xác
định kích thước của một điểm ảnh. Mức xám của một điểm được tính bằng cường độ

xám trung bình tại mỗi ô vuông này. Mắt lưới càng nhỏ thì chất lượng ảnh càng cao.
Trong kỹ thuật tương tự, một bức ảnh thường được biểu diễn dưới dạng các
dòng nằm ngang kế tiếp nhau. Mỗi dòng là một tín hiệu tương tự mang theo các
thông tin về cường độ sáng dọc theo một đường nằm ngang trong ảnh gốc.


14

* Ảnh đen trắng
Ảnh đen trắng chỉ bao gồm hai màu : màu đen và màu trắng. Người ta phân
mức đen trắng đó thành L mức nếu sử dụng số bit B = 8 bit để mã hóa mức đen
trắng (hay mức xám) thì L được xác định :
L=2B
Nếu L=2, B=1, nghĩa là chỉ có 2 mức : mức 0 và mức 1, còn gọi là ảnh nhị
phân. Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối. Nếu L lớn hơn 2 ta có
ảnh đa cấp xám.
Với ảnh nhị phân mỗi điểm ảnh được mã hóa trên 1bit, còn với ảnh 256 mức,
mỗi điểm ảnh được mã hóa trên 8 bit. Như vậy, với ảnh đen trắng : nếu dùng 8 bit(1
byte) để biểu diễn mức xám thì số mức xám có thể biểu diễn sẽ là 256. Mỗi mức
xám được biểu diễn dưới dạng số nguyên nằm trong khoảng từ 0-255, với mức 0
biểu diễn cho mức cường độ đen nhất và mức 255 biểu diễn cho mức cường độ
sáng nhất.
Ảnh nhị phân khá đơn giản, các phần tử ảnh có thể coi là các phần tử logic.
Ứng dụng chính của nó được dùng để phân biệt đối tượng ảnh với nền hay để phân
biệt điểm biên với các điểm khác.
* Ảnh màu
Theo lý thuyết của Thomas thì ảnh màu là ảnh tổ hợp từ 3 màu cơ bản là Red,
Green, Blue và thu nhận trên các dải bang tần khác nhau. Với ảnh màu thì cách biểu
diễn cũng tương tự như ảnh đen trắng, chỉ khác là các số tại mỗi phần tử của ma
trận biểu diễn cho ba màu riêng rẽ. Để biểu diễn cho một điểm ảnh màu cần 24 bit.

24 bit này được chia thành ba khoảng 8 bit. Mỗi màu cũng phân thành L cấp màu
khác nhau (thường L = 256). Mỗi khoảng này biểu diễn cho cường độ sáng của một
trong các màu chính. Do đó, để lưu trữ ảnh màu người ta có thể lưu trữ từng màu
riêng biệt, mỗi màu lưu trữ một ảnh đa cấp xám. Chính vì vậy không gian nhớ dành
cho một ảnh màu lớn gấp 3 lần một ảnh đa cấp xám cùng kích cỡ.

1.1.3.Không gian màu
Không gian màu phổ biến : RGB, CMY, HSx,…..


15

* Không gian màu RGB
RGB là không gian màu được sử dụng phổ biến nhất để hiển thị ảnh.
Không gian RGB bao gồm 3 thành phần màu là Đỏ (Red), Xanh lá cây (Green) và
Xanh lam (Blue). Các thành phần này gọi là màu cộng bởi vì các màu sắc trong
không gian RGB đều có thể thu được bằng cách cộng 3 thành phần màu này lại
với nhau.

Hình 1.3: Không gian màu RGB

* Không gian màu CMY
CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam, màu đỏ tươi, màu
vàng), đó là ba màu chính tương ứng với ba màu mực in.
* Không gian màu HSx
Các không gian màu HSI, HSV, HSB và HSL (quy ước gọi là HSx) là gần với
nhận thức của người hơn không gian màu RGB, nhưng vẫn không là đồng nhất
nhận thức.
Các trục từ các không gian màu HSx biểu diễn các đặc trưng màu (hue), độ
bão hòa (saturation), và độ sáng (lightness)(cũng được gọi là value, brightness và

intensity). Sự khác biệt giữa các không gian màu trong HSx là cách chúng biến đổi
từ không gian màu RGB. Chúng thường được biểu diễn bởi các hình thức khác
nhau (ví dụ như hình nón, hình trụ). Trong hình 3 không gian màu HSV được trực
quan hóa như một hình nón


16

Hình 1.4: Không gian màu HSV được trực quan hóa như một hình nón

1.2.Tra cứu thông tin
Tra cứu thông tin về ảnh là quá trình tìm kiếm trong một cơ sở dữ liệu ảnh
những ảnh thỏa mãn một yêu cầu nào đó. Tra cứu thông tin về ảnh thường dựa vào
hai đặc trưng chính là văn bản mô tả đi kèm ảnh hoặc nội dung ảnh. Một số công
cụ tìm kiếm ảnh theo văn bản mô tả đi kèm như Google Image Search, Yahoo,
MSN,…Một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google Image
Swirl, Bing,…
Các phương pháp tra cứu ảnh được sử dụng đầu tiên không dựa trên các đặc
điểm trực quan của ảnh mà dựa trên các chú thích bằng lời của các bức ảnh, đầu tiên
người ta gán cho mỗi ảnh một câu chú thích bằng lời (text) dựa trên một đặc điểm
nào đó của ảnh, sau đó sử dụng các kỹ thuật tìm kiếm văn bản thông thường để tìm
kiếm ảnh.
Phương pháp tra cứu ảnh dựa trên văn bản như trên sử dụng các kỹ thuật cơ sở
dữ liệu truyền thống để quản lý ảnh. Dựa vào các lời chú thích, người ta có thể tổ
chức cơ sở dữ liệu ảnh bằng các phân lớp theo chủ đề hay theo ngữ nghĩa và việc
duyệt cơ sở dữ liệu ảnh chỉ dựa trên các truy vấn kiểu Bool thông thường. Phương
pháp tra cứu ảnh dựa trên chú thích như trên còn được gọi là phương pháp tra cứu
ảnh theo từ khóa. Do vậy việc xây dựng các thuật toán có khả năng tự động sinh ra



17

các chú thích cho một cơ sở dữ liệu ảnh có nhiều chủ đề là hết sức khó khăn nên các
hệ thống tra cứu ảnh kiều này vẫn yêu cầu phải chú thích ảnh một cách thủ công,
tốn rất nhiều công sức và quan trọng hơn là nó mang tính chủ quan, bị ảnh hưởng
bởi hoàn cảnh và không đầy đủ.
Phương pháp tra cứu ảnh dựa theo nội dung ra đời đã khắc phục được nhược
điểm của phương pháp tra cứu ảnh dựa vào văn bản đi kèm. Phương pháp "Tra cứu
ảnh dựa theo nội dung" (Content Based Image Retrieval) cho phép trích chọn các
đặc trưng dựa vào nội dung trực quan của ảnh như màu sắc, kết cấu, hình dạng và
bố cục không gian của ảnh để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ
liệu ảnh. Một số hệ thống tra cứu ảnh nổi tiếng như QBIC (IBM), Virage (Virage
Inc.) Photobook (MIT) Visual SEEK (Columbia University) đã áp dụng thành công
kỹ thuật này. Tra cứu ảnh dựa theo nội dung đã nhận được nhiều sự quan tâm của
các nhà khoa học.

1.3.Tra cứu ảnh dựa vào nội dung
Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề tra cứu thông tin
dựa trên dạng thông tin trực quan đó là các phương pháp dựa trên đặc trưng và các
phương pháp dựa trên văn bản mô tả ảnh. Nhận thức chủ quan và chú thích thiếu
chính xác là nguyên nhân tra cứu không chính xác trong các quá trình tra cứu của
phương pháp dựa trên văn bản mô tả đi ảnh.
Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩy
nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung. Với giải pháp
này, thay vì được chú thích một cách thủ công bởi các từ khóa dựa vào văn bản, các
ảnh có thể được trích rút một số đặc trưng trực quan như màu sắc, hình dạng, kết
cấu và được đánh chỉ số dựa trên các đặc trưng trực quan này. Cách tiếp cận này
dựa chủ yếu vào các kết quả từ thị giác máy. Tuy nhiên, không có đặc trưng riêng lẻ
tốt nhất mà cho các kết quả chính xác. Thông thường một sự kết hợp các đặc trưng
một cách tùy biến là cần thiết để cung cấp các kết quả tra cứu thích hợp cho ứng

dụng tra cứu ảnh dựa vào nội dung.


18

Một hệ thống tra cứu ảnh dựa vào nội dung(CBIR-Content Baased Image
REtrieval) tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở các khuôn
dạng khác nhau (văn bản, hình ảnh , video) mà còn giải quyết nhu cầu của người sử
dụng. Về cơ bản hệ thống phân tích cả các nội dung của nguồn thông tin cũng như
các truy vấn sử dụng và sau đó so sánh các nội dung này để tra cứu các mục tin liên
quan. Các chức năng chính của hệ thống dựa vào nội dung như sau :
• Phân tích các nội dung của nguồn thông tin, và biểu diễn các nội dung
của các nguồn được phân tích theo cách thích hợp cho so sánh các
truy vấn sử dụng.
• Phân tích các truy vấn người sử dụng và biểu diễn chúng ở dạng thích
hợp cho so sánh với cơ sở dữ liệu nguồn. Bước này tương tự bước
trước nhưng chỉ áp dụng với ảnh truy vấn.
• Định nghĩa một chiến lược để so sánh các truy vấn tìm kiếm với thông
tin trong cơ sở dữ liệu được lưu trữ. Tra cứu thông tin liên quan một
cách hiệu quả. Bước này được thực hiện trực tuyến và được yêu cầu
rất nhanh. Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ
chức lại không gian đặc trưng để tăng tốc quá trình đối sánh.
• Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng điều
chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ người sử
dụng hoặc các ảnh được tra cứu.


19

CHƯƠNG 2: KIẾN TRÚC CHUNG VỀ HỆ THỐNG TRA

CỨU ẢNH TÀI LIỆU
Những năm gần đây với sự phát triển mạnh mẽ của các thiết bị số như máy
ảnh, máy quay phim… có thể giúp chúng ta dễ dàng lưu trữ thông tin dưới dạng
ảnh. Những dữ liệu dạng này tăng nhanh do việc tạo ra chúng dễ dàng nhờ sử dụng
máy quét (scanner) và máy ảnh kỹ thuật số (digital camera). Do đó, các văn bản có
thể được chụp hoặc quét và được lưu dưới dạng ảnh tài liệu (document image).
Nhưng những thông tin này không được đánh chỉ số cho nên việc truy tìm thông tin
trở nên khó khăn.
Việc truy tìm thông tin trong ảnh tài liệu là một lĩnh vực nghiên cứu hấp dẫn
với sự phát triển ngày càng tăng nhanh. Những tài liệu dạng này đóng một vai trò
quan trọng trong cuộc sống hằng ngày của chúng ta. Những tài liệu phức tạp hơn
đưa ra những thử thách lớn hơn cho lĩnh vực nhận dạng và truy tìm ảnh tài liệu. Sự
hiện diện của các loại nhiễu, chữ viết tay, chữ ký, logo, chữ in trong cùng một tài
liệu với các loại font khác nhau cũng như việc quy định viết chữ theo dòng đã gây
nhiều hạn chế đến các thuật toán mà đơn thuần làm việc trên những bức ảnh tài liệu
đơn giản.
Công việc chính của quá trình xử lý ảnh tài liệu phức tạp là tách biệt những
nội dung khác nhau có trong ảnh tài liệu. Một khi những nội dung đã được phân
tách, thì chúng có thể được đánh chỉ số để sẵn dùng bởi hệ thống truy tìm ảnh. Sự
hiểu biết nội dung của ảnh tài liệu như là tài liệu về kiểm tra tài khoản ngân hàng,
thư trong doanh nghiệp, các mẫu điền thông tin, và các bài báo kĩ thuật đã dần trở
thành những lĩnh vực nghiên cứu hấp dẫn.
Các phần tiếp theo trong chương này sẽ đưa ra kiến trúc chung nhất về hệ
thống tra cứu ảnh. Các thách thức đặt ra với hệ thống tra cứu ảnh nói chung. Và
cuối chương sẽ là “hệ thống tìm kiếm từ trong ảnh tài liệu” được đề xuất trong bài
viết.


20


2.1.Giới thiệu kiến trúc chung về hệ thống tra cứu ảnh

Hình 2.1: Lược đồ mô tả các bước liên quan trong hệ thống tra cứu ảnh dựa
vào nội dung

Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa vào
nội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau và trên mặt
kia có các truy vấn người sử dụng. Hai mặt này được lien kết thông qua một chuỗi
các tác vụ như được minh họa trong hình trên. Sau đây chúng ta sẽ đưa ra cái nhìn
khái quát về một số tác vụ chính

2.1.1.Truy vấn người sử dụng
Có nhiều cách gửi một truy vấn trực quan. Một phương pháp truy vấn tốt là
một phương pháp tự nhiên đối với người sử dụng cũng như thu được đủ thông tin từ
người sử dụng để trích rút các kết quả có ý nghĩa. Các phương pháp truy vấn dưới
đây được sử dụng phổ biến trong nghiên cứu tra cứu ảnh dựa vào nội dung.


21

Truy vấn ảnh mẫu (QBE): Trong loai truy vấn này, người sử dụng hệ thống
chỉ rõ một ảnh truy vấn đích , dựa trên ảnh đó hệ thống sẽ tìm kiếm trong cơ sở dữ
liệu ảnh các ảnh tương tự nhất.
Truy vấn bởi đặc trưng (QBF): Trong hệ thống QBF tiêu biểu, những người sử
dụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm.
Các truy vấn dựa vào thuộc tính: Các truy vấn dựa vào thuộc tính sử dụng các
chú thích văn bản, trích rút trước bởi nỗ lực con người, như một khóa tra cứu chính.
Phương pháp này nhanh và dễ thực hiện, nhưng có một độ chủ quan và nhập nhằng
cao xuất hiện như đã đề cập


2.1.2.Trích chọn đặc trưng
Trích chọn đặc trưng liên quan đến việc trích chọn những thông tin hữu ích từ
ảnh. Vì vậy nó giảm yêu cầu về bộ nhớ cấn thiết và do đó làm hệ thống trở nên
nhanh hơn và truy tìm ản hiệu quả hơn. Mỗi khi một hoặc nhiều đặc trưng được
trích chọn, chúng là được lưu trong cơ sở dữ liệu để sử dụng cho công việc sau này.
Số lượng thông tin hữu ích mà một máy tính lấy ra từ ảnh là yếu tố rất quan trọng
quyết định tính thông minh, cũng như hiệu quả của hệ thống truy tìm ảnh. Một ưu
điểm lớn nhất của việc trích chọn đặc trưng đó là nó bỏ đi những thông tin không
cần thiết và chỉ giữ lại những thông tin cần thiết để có thể biểu diễn nội dung cho
ảnh. Thường có nhiều phương pháp để trích chọn đặc trưng như là Gradient,
Structural và Concavity (GSC) (đặc trưng này để đo những đặc trưng ảnh ở mức độ
cục bộ đến những mức độ lớn hơn ), những đặc trưng dựa trên sự phân bố mật độ và
những đặc trưng khối quan trọng trong ảnh, Conditional Random Field, Dynamic
Time Wraping.

2.1.3.Đánh chỉ số nhiều chiều
Để thực hiện việc tra cứu dựa vào nội dung đối với các cơ sở dữ liệu ảnh lớn,
các kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng. Có ba cộng đồng nghiên
cứu chính đóng góp vào lĩnh vực này: hình học tính toán, quản trị cơ sở dữ liệu và
nhận dạng mẫu.


22

2.2.Những thách thức trong thiết kế và thực thi hệ thống tra cứu ảnh tài
liệu
Những tài liệu phức tạp đưa ra nhiều thách thách lớn trong lĩnh vực nhận dạng
tài liệu và truy tìm ảnh. Việc nghiên cứu và tìm từ tập dữ liệu lớn là một vấn đề
quan trọng. Để thiết kế và thực thi thành công một cơ chế tìm kiếm trong lĩnh vực
về ảnh, chúng ta cần đề cập những vấn đề sau đây.


2.2.1.Thời gian tính toán
Thực hiện công việc tìm kiếm từ tập dữ liệu ảnh lớn thông qua nhiều bước như
xử lý ảnh sơ bộ, trích chọn đặc trưng, đối sánh và lấy tài liệu. Mỗi bước có thể mất
nhiều thời gian tính toán. Do đó cần phải sử dụng những thao tác tối ưu trong suốt
quá trình truy vấn.

2.2.2.Tài liệu không đạt tiêu chuẩn
Nguyên nhân dẫn đến chất lượng của tài liệu bị giảm thường là:





Quá nhiều nhiễu trên ảnh logo, các biểu đồ, chữ in hoặc chữ viết tay
Những vết mực lớn dính lên các chữ cái hoặc các thành phần khác
Chất lượng giấy hoặc chất lượng mực kém
Chữ chồng lên chữ ký

Thiết kế một lược đồ biểu diễn phù hợp và thuật toán đối sánh để điều chỉnh
hiệu quả đối với những tài liệu có chất lượng kém là vấn đề cần thiết.

2.2.3.Ngôn ngữ trong tài liệu
Các ngôn ngữ khác nhau có cách thức biểu diễn và quy luật viết riêng. Ngoài
ra lại có nhiều font chữ, phong cách viết khác nhau. Cho nên cần phải tìm ra những
đặc trưng nào là bất biến để đối sánh giữa các từ hoặc ký tự. Thông thường việc
thiết kế thuật toán tìm kiếm cho các ngôn ngữ châu á thường khó hơn so với các
ngôn ngữ châu âu do những đặc trưng nêu trên.

2.3.Hệ thống đề xuất

Xuất phát từ kiến trúc chung về hệ thống tra cứu ảnh. Trong tài liệu này đề
xuất hệ thống tìm kiếm từ trong ảnh tài liệu và đánh dấu hoặc làm nổi bật từ cần
tìm. Những kỹ thuật đưa ra bắt gặp trong vấn đề truy tìm ảnh tài liệu là sử dụng thủ
tục đối sánh một từ. Thủ tục này thực hiện đối sánh từ trực tiếp trong ảnh tài liệu mà


23

không dùng phương pháp nhận dạng ký tự quang học (optical character recognition)
và sử dụng ảnh của một từ như làm câu truy vấn. Toàn bộ hệ thống bao gồm hai thủ
tục chính như hình bên dưới.
Trong cơ sở dữ liệu ảnh tất cả ảnh tài liệu được phân tích để tìm số lượng từ
tối đa bên trong chúng. Sau đó tập các đặc trưng có thể được lấy ra ứng với hình
dạng của từ và bỏ qua những sự khác nhau chi tiết do nhiễu hoặc font. Những đặc
trưng này sau đó được lưu vào cơ sở dữ liệu đặc trưng.

Hình 2.2: Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu

Trong thủ tục của người sử dụng nhập một từ truy vấn và sau đó hệ thống sẽ
tạo ra một bức ảnh ứng với từ đó. Tiếp theo ảnh này cũng được xử lý để lấy ra tập
các đặc trưng có thể. Sau đó, những đặc trưng này được dùng để tìm những từ
tương tự thông qua thủ tục đối sánh từ. Cuối cùng, những ảnh tài liệu chứa những từ
tương tự được hiện thị đến người dùng. Kết quả thí nghiệm chỉ ra rằng hệ thống đề
xuất đưa ra kết quả tìm kiếm có độ chính xác cao thông qua độ đo về tỉ lệ precision
và recall.
Trong các chương còn lại của tài liệu sẽ đi chi tiết vào từng bước trong hệ
thống và các kỹ thuật sử dụng trong từng bước.


24


CHƯƠNG 3: THỰC THI HỆ THỐNG ĐỀ XUẤT
Trong chương này sẽ đưa ra các thuật toán cũng như các kĩ thuật được áp
dụng vào trong hệ thống đề xuất như là : nhận dạng các từ có trong ảnh tài liệu,
thuật toán đối sánh và trích chọn các đặc trưng của một vùng liên thông chứa trong
ảnh.
Đầu vào của ảnh tài liệu đa phần là ảnh màu, vì vậy để giảm bớt các đặc trưng
có thể tác động lên kết quả tìm kiếm thì ảnh đầu vào cần phải được chuyển đổi sang
ảnh nhị phân, quá trình chuyển đổi ảnh đầu vào sang ảnh nhị phân cần phải chuyển
gián tiếp sang ảnh xám.

3.1. Chuyển từ ảnh màu sang ảnh nhị phân
3.1.1. Chuyển từ ảnh màu sang ảnh xám
Dựa vào lược đồ màu RGB ta có công thức để chuyển ảnh màu về ảnh xám
được tính như sau:

Value = 0.3 × RED + 0.59 × GREEN + 0.11× BLUE
Section 3

(3.1.1)

13Equation


25

Hình 3.1: Ảnh màu được chuyển sang ảnh xám tính theo công thức trên

3.1.2. Chuyển từ ảnh xám sang ảnh nhị phân
Ảnh nhị phân có thể được chuyển đồi bằng phương pháp lấy ngưỡng tự động

trên ảnh xám. Thao tác chọn ngưỡng là chọn một số điểm ảnh như là những điểm
ảnh nổi (Foreground Pixel) mà tạo thành đối tượng và những điểm ảnh còn lại là
điểm ảnh nền (Background Pixel). Với một dải màu xám trong bức ảnh xám, chúng
ta phải tìm ra một giá trị ngưỡng để phân tách những điểm ảnh trong một bức ảnh
xám thành hai nhóm foreground và background như trên. Nói một cách đơn giản,
với một giá trị ngưỡng t được chọn. Tất cả những điểm ảnh có giá trị màu lớn hơn
hoặc bằng t thì đặt trong nhóm foreground và những điểm ảnh nào có giá trị ngưỡng
nhỏ hơn t thì đặt trong nhóm background.
Bảng 2.1: Định nghĩa ảnh nhị phân được tạo từ ảnh xám

Định nghĩa:
Cho ảnh xám G có giải màu từ MIN đến MAX và một ngưỡng t.
Ảnh nhị phân B được tạo ra từ G :


×