Tải bản đầy đủ (.pdf) (66 trang)

Nghiên cứu phương pháp tra cứu ảnh từ trong tài liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.49 MB, 66 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2
---------------------------

TRẦN NGỌC ĐỒNG

NGHIÊN CỨU PHƢƠNG PHÁP
TRA CỨU ẢNH TỪ TRONG ẢNH TÀI LIỆU

LUẬN VĂN THẠC SĨ MÁY TÍNH

HÀ NỘI, 2015


LỜI CẢM ƠN

Trƣớc hết, em xin bày tỏ lòng biết ơn sâu sắc đến thầy hƣớng dẫn
PGS.Tiến Sĩ Ngô Quốc Tạo, ngƣời đã tận tình chỉ bảo, giúp đỡ em trong quá
trình hình thành đề tài của luận văn. Thầy đã hƣớng dẫn phƣơng hƣớng triển
khai đề tài, cách sử dụng tài liệu và tổng kết các kết quả nghiên cứu một cách
có hệ thống.
Em xin trân thành cảm ơn tới tất cả các thầy cô giáo tại Trƣơng đại học
Sƣ Phạm Hà Nội 2 đã đem tri thức và tâm huyết của mình để truyền đạt vốn
kiến thức quý báu cho chúng em và luôn luôn tạo mọi điều kiện tốt nhất cho
chúng em trong suốt quá trình theo học tại trƣờng. Em xin chân thành cảm ơn
quý Thầy, Cô giáo và Ban lãnh đạo trƣờng!
Cảm ơn đề tài: “Hệ thống đeo tay hỗ trợ đọc sách tiếng Việt dành cho
ngƣời khiếm thị ” Mã số VAST01.07/15-16 hỗ trợ trong thực hiện luận văn.
Luận văn hoàn thành, ngoài sự cố gắng của bản thân còn có sự động viên,
giúp đỡ và kích lệ về tinh thần của bạn bè đồng nghiệp và gia đình giúp cho em
vƣợt qua những khó khăn trong thời gian thực hiện luận văn. Em xin trân thành


cảm ơn tới tất cả mọi ngƣời.
Hà nội, ngày 20 tháng 05 năm 2015
Học viên

Trần Ngọc Đồng


LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, với sự hỗ
trợ từ ngƣời hƣớng dẫn khoa học PGS.TS NGÔ QUỐC TẠO
Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc
ai công bố trong bất kỳ công trình nào khác. Việc sử dụng những dữ liệu có
trong luận văn đƣợc thu thập từ các nguồn thông tin khác nhau có ghi trong
phần tài liệu tham khảo.
Nếu phát hiện bất kỳ sự gian lận nào, tôi xin chịu trách nhiệm trƣớc
Hội đồng, cũng nhƣ kết quả luận văn của mình.
Tác giả

Trần Ngọc Đồng


MỤC LỤC
MỞ ĐẦU ......................................................................................................... 1
1. Lý do chọn đề tài ......................................................................................... 1
2. Mục đích nghiên cứu ................................................................................... 2
3. Nhiệm vụ nghiên cứu .................................................................................. 2
4. Đối tƣợng và phạm vi nghiên cứu .............................................................. 2
5. Phƣơng pháp nghiên cứu ............................................................................. 2
6. Bố cục luận văn ........................................................................................... 3

NỘI DUNG ..................................................................................................... 4
CHƢƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH ........................................ 4
1.1. Một số vấn đề cơ bản trong hệ thống xử lý ảnh ................................... 4
1.1.1. Xử lý ảnh ....................................................................................... 4
1.1.2. Ảnh và điểm ảnh ............................................................................ 5
1.1.3. Khái niệm ảnh đen trắng và ảnh màu ........................................... 8
1.1.4. Không gian màu ............................................................................ 9
1.2. Giới thiệu kiến trúc chung về hệ thống tra cứu ảnh ........................... 10
1.2.1. Tra cứu thông tin......................................................................... 10
1.2.2. Tra cứu ảnh dựa vào nội dung .................................................... 11
1.3. Hệ thống đề xuất ................................................................................ 15
CHƢƠNG 2: PHƢƠNG PHÁP TRA CỨU ẢNH TỪ TRONG ẢNH
TÀI LIỆU ...................................................................................................... 17
2.1. Chuyển từ ảnh màu sang ảnh nhị phân .............................................. 17
2.1.1 Chuyển từ ảnh màu sang ảnh xám ............................................... 17
2.1.2. Chuyển từ ảnh xám sang ảnh nhị phân....................................... 17
2.1.3. Thao tác với ảnh nhị phân .......................................................... 24
2.2. Trích chọn đặc trƣng và đối sánh từ .................................................. 33
2.2.1. Đặc trưng về vùng của đối tượng ............................................... 33


2.2.2. Những đặc trưng của hệ thống đối sánh ..................................... 41
2.3. Thuật toán dùng để đối sánh từ .......................................................... 47
CHƢƠNG 3: XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM................. 49
3.1. Môi trƣờng phát triển và CSDL ......................................................... 49
3.2. Giao diện chƣơng trình ...................................................................... 49
3.3. Đánh giá hệ thống .............................................................................. 53
KẾT LUẬN ................................................................................................... 55
DANH MỤC TÀI LIỆU THAM KHẢO ...................................................... 56



DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

RGB:

Red, Green, Blue

CMY:

Cyan-Magenta-Yellow

CBIR:

Content Baased Image Retrieval

CSDL:

Cơ Sở Dữ Liệu


DANH MỤC CÁC BẢNG
Bảng 1.1: Định nghĩa histogram ..................................................................... ..8
Bảng 2.1: Định nghĩa ảnh nhị phân đƣợc tạo từ ảnh xám .............................. 18
Bảng 2.2: Định nghĩa thành phần liên thông .................................................. 25
Bảng 3.1: Thống kê kết quả tra cứu ............................................................ …53


DANH MỤC HÌNH VẼ
Hình 1.1. Quá trình xử lý ảnh ........................................................................... 4
Hình 1.2. Các bƣớc cơ bản trong một hệ thống xử lý ảnh .............................. . 4

Hình 1.3. Hai dạng lƣợc đồ mức sáng............................................................... 7
Hình 1.4: Lƣợc đồ mô tả các bƣớc liên quan trong hệ thống tra cứu ảnh dựa
vào nội dung ................................................................................................... 13
Hình 1.5: Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu ............. 15
Hình 2.1: Ảnh màu đƣợc chuyển sang ảnh xám tính theo công thức trên ...... 17
Hình 2.2. Ví dụ về histogram và ma trận ánh sáng [3] ................................... 20
Hình 2.3: Biểu đồ histogram cho những giá trị màu nhỏ hơn ........................ 20
Hình 2.4: Biểu đồ histogram cho những giá trị màu lớn hơn ngƣỡng t=3 [3] .....21
Hình 2.5: Tính toán giá trị phƣơng sai bên trong một lớp ứng với tứng giá trị
mức xám [3] .................................................................................................. 22
Hình 2.6: Kết quả sau khi sử dụng phƣơng pháp Otsu [3] ............................. 22
Hình 2.7:Ảnh sau khi đƣợc tách ngƣỡng bằngOtsu ........................................ 23
Hình 2.8: Hai định nghĩa về các điểm láng riềng phổ biến ............................ 24
Hình 2.9: Ví dụ về ảnh nhị phân ..................................................................... 26
Hình 2.10: Ảnh nhị phân và nhãn của các thành phần.................................... 26
Hình 2.11:Cấu trúc Union - Find với hai tập nhãn [7] ................................... 27
Hình 2.12: Giả mã cho thủ tục Find ................................................................ 28
Hình 2.13: Giả mã cho thủ tục Union ............................................................. 28
Hình 2.14: Giả mã thuật toán tìm và gán nhãn cho các thành liên thông ....... 30
Hình 2.15 giải thích ứng dụng thuật toán tìm nhãn các thành phần liên thông
với cấu trúc Union-Find cho ảnh nhị phân ở hình ......................................... 31
Hình 2.16: Bức ảnh tài liệu có nhiều nhiễu ..................................................... 32
Hình 2.17: Tìm các thành phần liên thông trong ảnh ..................................... 32
Hình 2.18: Loại bỏ nhiễu ................................................................................ 32


Hình 2.19: Mở rộng kích thƣớc hình chữ nhật biên theo hai hƣớng trái và phải 32
Hình 2.20: Xác định từ .................................................................................... 33
Hình 2.21: Các vùng đã đƣợc gán nhãn trong tài liệu ................................... 36
Hình 2.22: Các đặc trƣng của 3 vùng ở hình 2.21 ........................................ 36

Hình 2.23. Tám điểm cực trị của một vùng nằm trên hình chữ nhật biên.
Cắt đƣờng chéo đứt đoạn là trục các điểm cực trị ............................ 37
Hình 2.24: Moment của một trục đƣợc tính bằng bình phƣơng khoảng cách từ
mỗi điểm đến trục đó [7] ............................................................................... 39
Hình 2.25: Xác định tỉ lệ chiều rộng và cao dựa vào hình chữ nhật biên của
vùng trong từ .................................................................................................. 41
Hình 2.26: Ảnh tính toán phép chiếu dọc ..................................................... 43
Hình 2.27: Ảnh biểu diễn thao tác với đặc trƣng ghép chiều trên và dƣới
của từ ................................................................................................. 45
Hình 2.28: Ảnh biểu diễn thao tác với đặc trung thông tin về phần bên
trên và bên trên và phần bên dƣới của từ .......................................... 46
Hình 2.29: Vector đặc trƣng dùng để đối sánh từ ........................................... 47
Hình 3.1: Giao diện chƣơng trình ................................................................... 49
Hình 3.2: Giao diện chức năng “Thêm ảnh vào CSDL” ................................ 50
Hình 3.3: Cập nhật ảnh vào CSDL thành công ............................................... 51
Hình 3.4: Kết quả tìm kiếm ............................................................................. 52
Hình 3.5: Chi tiết các từ có trong ảnh tài liệu đƣợc bôi đậm .......................... 52
Hình 3.6: Tỉ lệ precision trung bình là 79,6%................................................. 54
Hình 3.7: Tỉ lệ recall trung bình là 96,1% ...................................................... 54


1

MỞ ĐẦU
1. Lý do chọn đề tài
Hiện nay, các thành tựu của tin học đƣợc áp dụng ở hầu hết các lĩnh
vực hoạt động của xã hội và đem lại nhiều hiệu quả to lớn. Mối quan hệ tƣơng
tác giữa các nhu cầu của xã hội ngày càng đa dạng, cùng với sự phát triển của
các thiết bị đa phƣơng tiện (multimedia) nhƣ máy ảnh, máy scan, máy quay
phim, điện thoại, ipad… với khối lƣợng hình ảnh và phim lƣu trữ ngày càng

lớn, cùng với sự phát triển của các thiết bị điện tử, tin học và viễn thông đã
thu hút ngày càng nhiều những chuyên gia đi vào nghiên cứu những công cụ
cung cấp cho việc lấy thông tin dữ liệu ảnh từ nội dung của chúng. Trong
thực tế, bài toán tra cứu ảnh có rất nhiều ứng dụng quan trọng. Các ứng dụng
phức tạp nhƣ so sánh mẫu vân tay, tìm kiếm ảnh tội phạm…. đƣợc áp dụng
trong ngành khoa học hình sự, cơ sở dữ liệu ảnh về địa lý, y học… làm cho
lĩnh vực nghiên cứu này phát triển nhanh trong công nghệ thông tin.
Với số lƣợng ảnh đƣợc lƣu trữ trên các thiết bị nhớ trở nên lớn, thì vấn
đề là phải có những phƣơng pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với
những kỹ thuật tìm kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu
năng tốt.
Tùy vào mục đích tìm kiếm khác nhau mà có các hình thức tra cứu ảnh
khác nhau. Hệ thống tra cứu ảnh từ trong ảnh tài liệu chỉ là một dạng của hệ
thống tra cứu ảnh nói chung. Mục đích của hệ thống tìm kiếm từ trong ảnh tài
liệu là đƣa ra những ảnh tài liệu liên quan với từ mà ngƣời dùng cung cấp.
Trong luận văn này sẽ trình bày một hệ thống tra cứu ảnh từ trong ảnh tài liệu
giúp ngƣời dùng có thể tìm kiếm thông tin từ ảnh tài liệu từ câu truy vấn. Hệ
thống đƣa ra việc tìm kiếm trên ngôn ngữ là Tiếng anh.
Xuất phát trong hoàn cảnh đó “Nghiên cứu phƣơng pháp tra cứu ảnh từ
trong ảnh tài liệu” đƣợc em chọn làm đề tài.


2

2. Mục đích nghiên cứu
Mục đích của hệ thống truy tìm từ trong ảnh là đƣa ra những ảnh tài liệu
liên quan với từ mà ngƣời dùng cung cấp. Trong đồ án này sẽ trình bày một
hệ thống truy tìm ảnh tài liệu giúp ngƣời dùng có thể truy tìm thông tin từ ảnh
tài liệu, hoặc ảnh in từ câu truy vấn. Hệ thống đƣa ra việc tìm kiếm trên ngôn
ngữ là Tiếng anh.

3. Nhiệm vụ nghiên cứu
- Tìm hiểu những khái niệm chung, cơ bản về xử lý ảnh và phƣơng
pháp dùng để tra cứu ảnh tài liệu.
- Nghiên cứu kiến trúc, những khó khăn, thách thức, và lĩnh vực ứng
dụng của hệ thống truy tìm từ trong ảnh tài liệu.
- Trình bày các thao tác dùng để nhận dạng các từ trong văn bản của
hình ảnh tài liệu và các đặc trƣng chung hay dùng để đối sánh đối
tƣợng.
- Trình bày phần cài đặt hệ thống. Đánh giá một số từ truy vấn đối với
hệ thống.
4. Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng, phạm vi nghiên cứu: Tổng quan về ảnh và tra cứu ảnh,
phƣơng pháp tra cứu ảnh và chọn ra phƣơng pháp, kỹ thuật tra cứu ảnh cụ thể
và các ứng dụng thực tế để tra cứu ảnh.
5. Phƣơng pháp nghiên cứu
- Phƣơng pháp đặt vấn đề
- Phƣơng pháp phân tích tổng hợp.
- Phƣơng pháp so sánh đối chiếu.
- Phƣơng pháp thực nghiệm
Sử dụng các phƣơng pháp trên để nghiên cứu và tìm hiểu: “Nghiên cứu
phương pháp tra cứu ảnh từ trong ảnh tài liệu”


3

6. Bố cục luận văn
Luận văn đƣợc chia thành ba phần
MỞ ĐẦU
NỘI DUNG
Chƣơng 1: TỔNG QUAN VỀ TRA CỨU ẢNH

Chƣơng này sẽ đƣa ra những khái niệm cơ bản về xử lý ảnh và kiến trúc
của hệ thống tra cứu ảnh dựa vào nội dung. Dựa vào kiến trúc chung đó xây
dựng hệ thống đề xuất tìm kiếm ảnh từ trong ảnh tài liệu.
Chƣơng 2: PHƢƠNG PHÁP TRA CỨU ẢNH TỪ TRONG ẢNH
TÀI LIỆU
Chƣơng này sẽ đi sâu vào từng phần có trong hệ thống đề xuất đƣợc nêu
ra ở Chƣơng 1. Đƣa ra các thuật toán để chuyển đổi sang ảnh nhị phân, thao
tác với ảnh nhị phân để nhận dạng đƣợc các từ có trong ảnh tài liệu, đồng thời
trích chọn các đặc trƣng để đem ra đối sánh.
Chƣơng 3: XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM
Chƣơng này sẽ trình bày các chức năng của chƣơng trình thử nghiệm
ứng với mục đích nghiên cứu của luận văn. Đánh giá một số từ truy vấn đối
với hệ thống.
KẾT LUẬN
Nhìn chung, luận văn đã đƣa ra những khái niệm cơ bản về hệ thống tra
cứu ảnh từ trong tài liệu với một hệ thống tìm kiếm từ trong ảnh tài liệu cụ thể
đã đƣợc đề xuất. Các bƣớc trong hệ thống đƣợc trình bày lần lƣợt ở các
chƣơng.
Tuy nhiên, do thời gian thực hiện còn hạn hẹp, kiến thức còn hạn chế
nên luận văn không tránh khỏi thiếu sót. Rất mong nhận đƣợc sự giúp đỡ của
các thầy cô và các bạn quan tâm đến vấn đề này để em có thể hoàn thiện hơn
kiến thức của mình.


4

NỘI DUNG
CHƢƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH

1.1. Một số vấn đề cơ bản trong hệ thống xử lý ảnh

1.1.1. Xử lý ảnh
Con ngƣời thu nhận thông tin qua các giác quan, trong đó thị giác đóng
vai trò quan trọng nhất. Những năm trở lại đây với sự phát triển của phần
cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có
nhiều ứng dụng trong cuộc sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan
trọng trong tƣơng tác ngƣời máy.
Quá trình xử lý ảnh đƣợc xem nhƣ là quá trình thao tác ảnh đầu vào
nhằm cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh
có thể là một ảnh “tốt hơn” hoặc một kết luận.
Ảnh “Tốt hơn”
Ảnh

Xử lý Ảnh
Kết luận
Hình 1.1. Quá trình xử lý ảnh

Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh đƣợc xem nhƣ
là đặc trƣng cƣờng độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của
đối tƣợng trong không gian và nó có thể xem nhƣ một hàm n biến P(c1, c2,...,
cn). Do đó, ảnh trong xử lý ảnh có thể xem nhƣ ảnh n chiều.
Sơ đồ tổng quát của một hệ thống xử lý ảnh:

Hình 1.2. Các bƣớc cơ bản trong một hệ thống xử lý ảnh


5

Xử lý ảnh là một môn học liên quan đến nhiều lĩnh vực và cần nhiều
kiến thức cơ sở khác nhau. Có thể kể đến đầu tiên là xử lý tín hiệu số, môn
học hết sức cơ bản cho xử lý tín hiệu chung. Các khái niệm về tính chập, các

biến đổi Fouricer, Laplace, các bộ lọc hữu hạn… Tiếp đến là các công cụ tính
toán nhƣ Đại số tuyến tính, xác suất thống kê. Các kiến thức cần thiết nhƣ trí
tuệ nhân tạo, mạng nơ ron nhân tạo cũng đƣợc đề cập trong quá trình phân
tích và nhận dạng ảnh.
Các phƣơng pháp xử lý ảnh bắt đầu từ các ứng dụng chính là nâng cao
chất lƣợng ảnh và phân tích ảnh. Ứng dụng đầu tiên đƣợc biết đến là nâng cao
chất lƣợng ảnh báo đƣợc truyền qua cáp từ London đến NewYork từ những
năm 1920. Vấn đề nâng cao chất lƣợng ảnh có liên quan tới phân bố mức sáng
và độ phân giải ảnh. Vấn đề này đã đƣợc giải quyết vào những năm 1995.
Năm 1964 máy tính đã có khả năng xử lý và nâng cao chất lƣợng ảnh từ mặt
trăng và vệ tinh Ranger 7 của Mỹ bao gồm : làm nối đƣờng biên, lƣu ảnh. Từ
năm 1964 đến nay, các phƣơng tiện xử lý nâng cao chất lƣợng, nhận dạng ảnh
không ngừng phát triển và hoàn thiện hơn.
1.1.2. Ảnh và điểm ảnh
Ảnh trong thực thế là một ảnh liên tục về không gian và giá trị độ sáng.
Để có thể xử lý bằng máy tính cần thiết phải đƣa về dạng ảnh số. Trong quá
trình số hóa, ngƣời ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua
quá trình lấy mẫu (rời rạc hóa không gian) và lƣợng tử hóa thành phần giá trị
(rời rạc hóa biên độ giá trị) mà về nguyên tắc mắt thƣờng không phân biệt
đƣợc hai điểm kề nhau. Trong quá trình này ngƣời ta sử dụng khái niệm là
Picture Element mà ta quen gọi là pixel. Ảnh thƣờng có kích thƣớc vuông và
đƣợc mô tả là N

N m-bit điểm ảnh, trong đó N là số điểm và m là số các

giá trị mức sáng. Việc sử dụng m bit đƣa ra khoảng 2m giá trị mức sáng từ 0
đến 2m – 1. Trong khuôn khổ ảnh hai chiều, mỗi Pixel ứng với cặp tọa độ(x,y).


6


Định nghĩa : Điểm ảnh (pixel) là một phần tử của ảnh số tại tọa độ (x,y)
với tọa độ xám hoặc màu nhất định. Kích thƣớc và khoảng cách giữa các
điểm ảnh đó đƣợc chọn thích hợp sao cho mắt ngƣời cảm nhận sự liên tục về
không gian và mức xám (hoặc màu) của ảnh số gần nhƣ ảnh thật. Mỗi phần tử
trong ma trận đƣợc gọi là một phần tử ảnh.
* Độ phân giải ảnh
Định nghĩa: Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh
đƣợc ấn định trên một ảnh số đƣợc hiển thị.
Trong quá trình xử lý ảnh việc chọn giá trị phù hợp về kích thƣớc N
của ảnh cũng khá phức tạp và quan trọng. Chúng ta chọn N đủ lớn sẽ giải
quyết những mức độ yêu cầu về độ chi tiết của bức ảnh. Nhƣng N quá nhỏ ,
ảnh có chất lƣợng xấu: những đƣờng nét sẽ xuất hiện nhƣ những khối và
nhiều chi tiết bị mất. Những giá trị lớn hơn của N đƣa ra nhiều chi tiết hơn,
nhƣng cần nhiều không gian bộ nhớ hơn để lƣu trữ ảnh, và ảnh sẽ đƣợc xử lý
lâu hơn do có nhiều điểm ảnh.
* Mức xám của ảnh
Một điểm ảnh (pixel) có hai đặc trƣng cơ bản là vị trí (x,y) của điểm ảnh
và độ xám của nó.
Định nghĩa : Mức xám của ảnh là cƣờng độ sáng của nó đƣợc gán bằng
giá trị tại điểm đó.
Các thang giá trị mức xám thông thƣờng : 16,32,64,128,256 (Mức 256 là
mức phổ dụng).
Ảnh đen trắng : là ảnh có hai màu đen và trắng (không chứa màu sắc
khác) với mức xám ở các điểm ảnh có thể khác nhau.
Ảnh nhị phân : ảnh chỉ có 2 mức đen trắng phân biệt, tức là dùng 1 bit
mô tả 21 mức khác nhau. Tức là mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0
hoặc 1.



7

Ảnh màu: Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo
nên thế giới màu, ngƣời ta thƣờng dung 3 byte để mô tả mức màu, khi đó các
giá trị màu: 28*3 = 224 = 16,7 triệu màu.
* Histogram
Histogram là một lƣợc đồ biểu diễn độ sáng của một bức ảnh. Lƣợc đồ
này bao gồm trục hoảnh biểu diễn mức sáng và trục tung biểu diễn số lƣợng
điểm sáng tƣơng ứng. Đối với ảnh xám thông thƣờng, giá trị của trục hoành
nằm trong khoảng từ 0-255.

Hình 1.3: Hai dạng lƣợc đồ mức xám
Hình bên tay trái là histogram cho ảnh màu xám, hình bên tay phải là
histogram cho ảnh màu.
Nhìn vào biểu đồ ta có thể biết đƣợc phân bố cƣờng độ sáng của một ảnh,
với những ảnh mà phân bố histogram lệch về bên phải thì ảnh đó là một ảnh có
độ sáng tốt. Ngƣợc lại ảnh đó là một ảnh tối. Dựa vào các yếu tố trên ta có
định nghĩa histogram của ảnh xám


8

Định nghĩa :
Cho ảnh mức xám I có giá trị màu nằm trong khoảng MIN và MAX
Histogram của ảnh mức xám I là số điểm ảnh trong ảnh I có giá trị m.
Trong đó :
m là tất cả giá trị mức xám của ảnh và

m


r , c là chỉ số hàng và cột của điểm ảnh trong ảnh
Bảng 1.1: Định nghĩa histogram
1.1.3. Khái niệm ảnh đen trắng và ảnh màu
Ảnh có thể biểu diễn dƣới dạng tƣơng tự hoặc tín hiệu số. Trong biểu
diễn số của các ảnh đa mức xám thì một ảnh đƣợc biểu diễn dƣới dạng một ma
trận hai chiều. Mỗi phần tử của ma trận biểu diễn cho mức xám hay cƣờng độ
của ảnh tại vị trí đó. Một lƣới chia ô vuông đƣợc đặt lên ảnh. Độ lớn mỗi ô
vuông của lƣới xác định kích thƣớc của một điểm ảnh. Mức xám của một điểm
đƣợc tính bằng cƣờng độ xám trung bình tại mỗi ô vuông này. Mắt lƣới càng
nhỏ thì chất lƣợng ảnh càng cao.
Trong kỹ thuật tƣơng tự, một bức ảnh thƣờng đƣợc biểu diễn dƣới dạng
các dòng nằm ngang kế tiếp nhau. Mỗi dòng là một tín hiệu tƣơng tự mang
theo các thông tin về cƣờng độ sáng dọc theo một đƣờng nằm ngang trong
ảnh gốc.
* Ảnh đen trắng
Ảnh đen trắng chỉ bao gồm hai màu : màu đen và màu trắng. Ngƣời ta
phân mức đen trắng đó thành L mức nếu sử dụng số bit B = 8 bit để mã hóa
mức đen trắng (hay mức xám) thì L đƣợc xác định :
L=2B


9

Nếu L=2, B=1, nghĩa là chỉ có 2 mức: mức 0 và mức 1, còn gọi là ảnh
nhị phân. Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối. Nếu L lớn
hơn 2 ta có ảnh đa cấp xám.
Với ảnh nhị phân mỗi điểm ảnh đƣợc mã hóa trên 1bit, còn với ảnh 256
mức, mỗi điểm ảnh đƣợc mã hóa trên 8 bit. Nhƣ vậy, với ảnh đen trắng: nếu
dùng 8 bit (1 byte) để biểu diễn mức xám thì số mức xám có thể biểu diễn sẽ
là 256. Mỗi mức xám đƣợc biểu diễn dƣới dạng số nguyên nằm trong khoảng

từ 0-255, với mức 0 biểu diễn cho mức cƣờng độ đen nhất và mức 255 biểu
diễn cho mức cƣờng độ sáng nhất.
Ảnh nhị phân khá đơn giản, các phần tử ảnh có thể coi là các phần tử
logic. Ứng dụng chính của nó đƣợc dùng để phân biệt đối tƣợng ảnh với nền
hay để phân biệt điểm biên với các điểm khác.
* Ảnh màu
Theo lý thuyết của Thomas thì ảnh màu là ảnh tổ hợp từ 3 màu cơ bản là
Red, Green, Blue và thu nhận trên các dải bang tần khác nhau. Với ảnh màu
thì cách biểu diễn cũng tƣơng tự nhƣ ảnh đen trắng, chỉ khác là các số tại mỗi
phần tử của ma trận biểu diễn cho ba màu riêng rẽ. Để biểu diễn cho một
điểm ảnh màu cần 24 bit. 24 bit này đƣợc chia thành ba khoảng 8 bit. Mỗi
màu cũng phân thành L cấp màu khác nhau (thƣờng L = 256). Mỗi khoảng
này biểu diễn cho cƣờng độ sáng của một trong các màu chính. Do đó, để lƣu
trữ ảnh màu ngƣời ta có thể lƣu trữ từng màu riêng biệt, mỗi màu lƣu trữ một
ảnh đa cấp xám. Chính vì vậy không gian nhớ dành cho một ảnh màu lớn gấp
3 lần một ảnh đa cấp xám cùng kích cỡ.
1.1.4. Không gian màu
* Không gian màu RGB
RGB là không gian màu đƣợc sử dụng phổ biến nhất để hiển thị ảnh.
Không gian RGB bao gồm 3 thành phần màu là Đỏ(Red), Xanh lá cây(Green)


10

và Xanh lam (Blue). Các thành phần này gọi là màu cộng bởi vì các màu sắc
trong không gian RGB đều có thể thu đƣợc bằng cách cộng 3 thành phần màu
này lại với nhau.
* Không gian màu CMY
CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam ,màu đỏ tƣơi,
màu vàng),đó là ba màu chính tƣơng ứng với ba màu mựcin.

* Không gian màu HSx
Các không gian màu HSI, HSV, HSB và HSL (quy ƣớc gọi là HSx) là
gần với nhận thức của ngƣời hơn không gian màu RGB, nhƣng vẫn không là
đồng nhất nhận thức.
Các trục từ các không gian màu HSx biểu diễn các đặc trƣng màu (hue),
độ bão hòa (saturation), và độ sáng (lightness)(cũng đƣợc gọi là value,
brightness và intensity). Sự khác biệt giữa các không gian màu trong HSx là
cách chúng biến đổi từ không gian màu RGB. Chúng thƣờng đƣợc biểu diễn
bởi các hình thức khác nhau (ví dụ nhƣ hình nón, hình trụ).
1.2. Giới thiệu kiến trúc chung về hệ thống tra cứu ảnh
1.2.1. Tra cứu thông tin
Tra cứu thông tin về ảnh là quá trình tìm kiếm trong một cơ sở dữ liệu
ảnh những ảnh thỏa mãn một yêu cầu nào đó. Tra cứu thông tin về ảnh
thƣờng dựa vào hai đặc trƣng chính là văn bản mô tả đi kèm ảnh hoặc nội
dung ảnh. Một số công cụ tìm kiếm ảnh theo văn bản mô tả đi kèm nhƣ
Google Image Search, Yahoo, MSN,…Một số công cụ tìm kiếm ảnh dựa vào
nội dung ảnh nhƣ Google Image Swirl, Bing,…
Các phƣơng pháp tra cứu ảnh đƣợc sử dụng đầu tiên không dựa trên các
đặc điểm trực quan của ảnh mà dựa trên các chú thích bằng lời của các bức
ảnh, đầu tiên ngƣời ta gán cho mỗi ảnh một câu chú thích bằng lời (text) dựa


11

trên một đặc điểm nào đó của ảnh, sau đó sử dụng các kỹ thuật tìm kiếm văn
bản thông thƣờng để tìm kiếm ảnh.
Phƣơng pháp tra cứu ảnh dựa trên văn bản nhƣ trên sử dụng các kỹ thuật
cơ sở dữ liệu truyền thống để quản lý ảnh. Dựa vào các lời chú thích, ngƣời ta
có thể tổ chức cơ sở dữ liệu ảnh bằng các phân lớp theo chủ đề hay theo ngữ
nghĩa và việc duyệt cơ sở dữ liệu ảnh chỉ dựa trên các truy vấn kiểu Bool

thông thƣờng. Phƣơng pháp tra cứu ảnh dựa trên chú thích nhƣ trên còn đƣợc
gọi là phƣơng pháp tra cứu ảnh theo từ khóa. Do vậy việc xây dựng các thuật
toán có khả năng tự động sinh ra các chú thích cho một cơ sở dữ liệu ảnh có
nhiều chủ đề là hết sức khó khăn nên các hệ thống tra cứu ảnh kiều này vẫn
yêu cầu phải chú thích ảnh một cách thủ công, tốn rất nhiều công sức và quan
trọng hơn là nó mang tính chủ quan, bị ảnh hƣởng bởi hoàn cảnh và không
đầy đủ.
Phƣơng pháp tra cứu ảnh dựa theo nội dung ra đời đã khắc phục đƣợc
nhƣợc điểm của phƣơng pháp tra cứu ảnh dựa vào văn bản đi kèm. Phƣơng
pháp "Tra cứu ảnh dựa theo nội dung" (Content Based Image Retrieval) cho
phép trích chọn các đặc trƣng dựa vào nội dung trực quan của ảnh nhƣ màu
sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ sở cho việc
tra cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh. Một số hệ thống tra cứu ảnh nổi
tiếng nhƣ QBIC (IBM), Virage (Virage Inc.) Photobook (MIT) Visual SEEK
(Columbia University) đã áp dụng thành công kỹ thuật này. Tra cứu ảnh dựa
theo nội dung đã nhận đƣợc nhiều sự quan tâm của các nhà khoa học.
1.2.2. Tra cứu ảnh dựa vào nội dung
Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề tra cứu
thông tin dựa trên dạng thông tin trực quan đó là các phƣơng pháp dựa trên
đặc trƣng và các phƣơng pháp dựa trên văn bản mô tả ảnh. Nhận thức chủ


12

quan và chú thích thiếu chính xác là nguyên nhân tra cứu không chính xác
trong các quá trình tra cứu của phƣơng pháp dựa trên văn bản mô tả đi ảnh.
Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã
thúc đẩy nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung.
Với giải pháp này, thay vì đƣợc chú thích một cách thủ công bởi các từ khóa
dựa vào văn bản, các ảnh có thể đƣợc trích rút một số đặc trƣng trực quan nhƣ

màu sắc, hình dạng, kết cấu và đƣợc đánh chỉ số dựa trên các đặc trƣng trực
quan này. Cách tiếp cận này dựa chủ yếu vào các kết quả từ thị giác máy. Tuy
nhiên, không có đặc trƣng riêng lẻ tốt nhất mà cho các kết quả chính xác. Thông
thƣờng một sự kết hợp các đặc trƣng một cách tùy biến là cần thiết để cung cấp
các kết quả tra cứu thích hợp cho ứng dụng tra cứu ảnh dựa vào nội dung.
Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR-Content Baased
Image REtrieval) tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở
các khuôn dạng khác nhau (văn bản, hình ảnh , video) mà còn giải quyết nhu
cầu của ngƣời sử dụng. Về cơ bản hệ thống phân tích cả các nội dung của
nguồn thông tin cũng nhƣ các truy vấn sử dụng và sau đó so sánh các nội
dung này để tra cứu các mục tin liên quan. Các chức năng chính của hệ thống
dựa vào nội dung nhƣ sau :
 Phân tích các nội dung của nguồn thông tin, và biểu diễn các nội
dung của các nguồn đƣợc phân tích theo cách thích hợp cho so
sánh các truy vấn sử dụng.
 Phân tích các truy vấn ngƣời sử dụng và biểu diễn chúng ở dạng
thích hợp cho so sánh với cơ sở dữ liệu nguồn. Bƣớc này tƣơng
tự bƣớc trƣớc nhƣng chỉ áp dụng với ảnh truy vấn.
 Định nghĩa một chiến lƣợc để so sánh các truy vấn tìm kiếm với
thông tin trong cơ sở dữ liệu đƣợc lƣu trữ. Tra cứu thông tin liên
quan một cách hiệu quả. Bƣớc này đƣợc thực hiện trực tuyến và


13

đƣợc yêu cầu rất nhanh. Các kỹ thuật đánh chỉ số hiện đại có thể
đƣợc sử dụng để tổ chức lại không gian đặc trƣng để tăng tốc quá
trình đối sánh.
 Thực hiện các điều chỉnh cần thiết trong hệ thống (thƣờng bằng
điều chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ

ngƣời sử dụng hoặc các ảnh đƣợc tra cứu.

Hình 1.4: Lƣợc đồ mô tả các bƣớc liên quan trong hệ thống
tra cứu ảnh dựa vào nội dung
Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa
vào nội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau
và trên mặt kia có các truy vấn ngƣời sử dụng. Hai mặt này đƣợc liên kết
thông qua một chuỗi các tác vụ nhƣ đƣợc minh họa trong hình trên. Sau đây
chúng ta sẽ đƣa ra cái nhìn khái quát về một số tác vụ chính.


14

1.2.2.1. Truy vấn người sử dụng
Có nhiều cách gửi một truy vấn trực quan. Một phƣơng pháp truy vấn tốt
là một phƣơng pháp tự nhiên đối với ngƣời sử dụng cũng nhƣ thu đƣợc đủ
thông tin từ ngƣời sử dụng để trích rút các kết quả có ý nghĩa. Các phƣơng
pháp truy vấn dƣới đây đƣợc sử dụng phổ biến trong nghiên cứu tra cứu ảnh
dựa vào nội dung.
Truy vấn ảnh mẫu (QBE): Trong loai truy vấn này, ngƣời sử dụng hệ
thống chỉ rõ một ảnh truy vấn đích, dựa trên ảnh đó hệ thống sẽ tìm kiếm
trong cơ sở dữ liệu ảnh các ảnh tƣơng tự nhất.
Truy vấn bởi đặc trƣng (QBF): Trong hệ thống QBF tiêu biểu, những
ngƣời sử dụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trƣng họ quan tâm
cho tìm kiếm.
Các truy vấn dựa vào thuộc tính: Các truy vấn dựa vào thuộc tính sử
dụng các chú thích văn bản, trích rút trƣớc bởi nỗ lực con ngƣời, nhƣ một
khóa tra cứu chính. Phƣơng pháp này nhanh và dễ thực hiện, nhƣng có một
độ chủ quan và nhập nhằng cao xuất hiện nhƣ đã đề cập
1.2.2.2. Trích chọn đặc trưng

Trích chọn đặc trƣng liên quan đến việc trích chọn những thông tin hữu
ích từ ảnh. Vì vậy nó giảm yêu cầu về bộ nhớ cấn thiết và do đó làm hệ thống
trở nên nhanh hơn và truy tìm ản hiệu quả hơn. Mỗi khi một hoặc nhiều đặc
trƣng đƣợc trích chọn, chúng là đƣợc lƣu trong cơ sở dữ liệu để sử dụng cho
công việc sau này. Số lƣợng thông tin hữu ích mà một máy tính lấy ra từ ảnh
là yếu tố rất quan trọng quyết định tính thông minh, cũng nhƣ hiệu quả của hệ
thống truy tìm ảnh.Một ƣu điểm lớn nhất của việc trích chọn đặc trƣng đó là
nó bỏ đi những thông tin không cần thiết và chỉ giữ lại những thông tin cần
thiết để có thể biểu diễnnội dung cho ảnh. Thƣờng có nhiều phƣơng pháp để
trích chọn đặc trƣng nhƣ là Gradient, Structural và Concavity (GSC) (đặc


15

trƣng này để đo những đặc trƣng ảnh ở mức độ cục bộ đến những mức độ lớn
hơn ), những đặc trƣng dựa trên sự phân bố mật độ và những đặc trƣng khối
quan trọng trong ảnh, Conditional Random Field, Dynamic Time Wraping.
1.2.2.3. Đánh chỉ số nhiều chiều
Để thực hiện việc tra cứu dựa vào nội dung đối với các cơ sở dữ liệu ảnh
lớn, các kỹ thuật đánh chỉ số nhiều chiều cần đƣợc sử dụng. Có ba cộng đồng
nghiên cứu chính đóng góp vào lĩnh vực này: hình học tính toán, quản trị cơ
sở dữ liệu và nhận dạng mẫu.
1.3. Hệ thống đề xuất
Xuất phát từ kiến trúc chung về hệ thống tra cứu ảnh. Trong tài liệu này
đề xuất hệ thống tìm kiếm từ trong ảnh tài liệu và đánh dấu hoặc làm nổi bật
từ cần tìm. Những kỹ thuật đƣa ra bắt gặp trong vấn đề truy tìm ảnh tài liệu là
sử dụng thủ tục đối sánh một từ. Thủ tục này thực hiện đối sánh từ trực tiếp
trong ảnh tài liệu mà không dùng phƣơng pháp nhận dạng ký tự quang học
(optical character recognition) và sử dụng ảnh của một từ nhƣ làm câu truy
vấn. Toàn bộ hệ thống bao gồm hai thủ tục chính nhƣ hìnhbên dƣới.

Trong cơ sở dữ liệu ảnh tất cả ảnh tài liệu đƣợc phân tích để tìm số
lƣợng từ tối đa bên trong chúng. Sau đó tập các đặc trƣng có thể đƣợc lấy ra
ứng với hình dạng của từ và bỏ qua những sự khác nhau chi tiết do nhiễu hoặc
font. Những đặc trƣng này sau đó đƣợc lƣu vào cơ sở dữ liệu đặc trƣng.

Hình 1.5: Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu


16

Trong thủ tục của ngƣời sử dụng nhập một từ truy vấn và sau đó hệ
thống sẽ tạo ra một bức ảnh ứng với từ đó. Tiếp theo ảnh này cũng đƣợc xử lý
để lấy ra tập các đặc trƣng có thể. Sau đó, những đặc trƣng này đƣợc dùng để
tìm những từ tƣơng tự thông qua thủ tục đối sánh từ. Cuối cùng, những ảnh
tài liệu chứa những từ tƣơng tự đƣợc hiện thị đến ngƣời dùng. Kết quả thí
nghiệm chỉ ra rằng hệ thống đề xuất đƣa ra kết quả tìm kiếm có độ chính xác
cao thông qua độ đo về tỉ lệ precision và recall.
Trong các chƣơng còn lại của tài liệu sẽ đi chi tiết vào từng bƣớc trong
hệ thống và các kỹ thuật sử dụng trong từng bƣớc.


×