Tải bản đầy đủ (.doc) (60 trang)

tiểu luận Nghiên cứu các phương pháp tách văn bản nhúng trong ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.11 MB, 60 trang )

MỤC LỤC
Tài liệu tham khảo 54
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Cụm từ, ký hiệu Ý nghĩa
TIE Text information extraction : Vấn đề tách thông tin về chữ
FI Foreground Identification : Xác định tiền cảnh
BAG
Blog Adjacency Graph : Đồ thị khối liền kề
OCR
Optical Character Recognization : Hệ thống nhận dạng ký tự quang
học
DANH MỤC HÌNH VẼ
Tài liệu tham khảo 54
LỜI MỞ ĐẦU
Ảnh là phương tiện truyền tải thông tin có ý nghĩa vô cùng lớn trong cuộc
sống. Ảnh truyền tải trong môi trường World Wide Web hiện nay được sử dụng khá
nhiều, tồn tại ở nhiều dạng khác nhau và vô cùng phong phú. Một yêu cầu đặt ra là
tìm kiếm, phân loại, cũng như xác định nội dung ảnh muốn truyền tải điều gì đang
là vấn đề cấp thiết hiện nay. Ta có thể kể ra một số ứng dụng như thế như tìm kiếm
ảnh theo nội dung trong môi trường World Wide Web hay lọc spam ảnh…vv. Ảnh
thường được nhúng kèm theo text trong nó và những text này thường quyết định
đến nội dung ảnh muốn truyền tải. Tất cả các ứng dụng kể trên như lọc spam ảnh
hay tìm kiếm ảnh trên web…vv đều sử dụng đến đặc tính text kèm theo ảnh để giải
quyết. Và như thế bài toán tách chữ nhúng trong ảnh được quan tâm. Đã có rất
nhiều phương pháp được đưa ra, tuy nhiên do dữ liệu ảnh là quá phong phú và text
nhúng kèm theo nó cũng rất phức tạp như kích cỡ, màu, chiều của chữ…Nờn mỗi
phương pháp đều có sự hạn chế riêng và đây vẫn là một bài toán mở đang được
nhiều người quan tâm.
Xuất phát từ thực tế đó, mục tiêu của đồ án này là nghiên cứu phương pháp
xác định vùng chứa chữ nhúng trong ảnh có độ chính xác cao đồng thời là tiền đề
cho việc lọc spam ảnh.


Với mục tiêu đó, đồ án được thực hiện dựa trên phương pháp nghiên
cứu: trước hết là ảnh đầu vào được thực hiện giảm màu (color reduction) bao gồm
cả giảm bit (drop bit) gộp màu và phân tích ảnh có nhiều giá trị, sau đó được phân
tích thành nhiều ảnh tiền cảnh (foreground image). Những ảnh tiền cảnh được tập
hợp để nhận dạng vị trí của text trong ảnh đầu vào . Xác định vùng chứa chữ được
thể hiện giống các toạ độ hộp ranh giới của nó.
Nội dung của đồ án được chia thành 4 phần, ở đó, chương 1 và chương 2 sẽ
trình bày các kiến thức cơ bản cho cách tiếp cận ở chương 3 và chương 4.
Bố cục chi tiết của đồ án như sau :
Chương 1 : “Tổng quan về xử lý ảnh” : Chương này trình bày tổng quan về
một hệ thống xử lý ảnh,và các vấn đề liên quan.
Chương 2 : “Cỏc phương pháp xác định vùng chứa chữ trong ảnh” : Chương
này sẽ trình bày về các phương pháp xác định vùng chứa chữ trong ảnh hiện có, đưa
ra phương pháp phân loại mới và phân tích tính chính xác và hiệu năng của mỗi
phương pháp.
Chương 3 : “Xác định vùng chứa chữ trong ảnh thông thường và ảnh
video” : Đây là chương quan trọng nhất của đồ án vỡ nó sẽ nêu lên một phương
pháp Xác định vùng chứa chữ trong ảnh dựa trên các đặc trưng về thành phần của
ảnh.
Chương 4 : “Thử nghiệm và kết quả” : Chương 4 sẽ trình bày chi tiết quá
trình thực hiện, đưa ra các con số thống kê về độ chính xác của phương pháp.
Ơ
Chương 1
TỔNG QUAN VỀ XỬ LÝ ẢNH
Xử lý ảnh là một ngành khoa học cũn khỏc mới và có rất nhiều ứng dụng.
Trong chương 1 đồ án sẽ trình bày một cách tổng quan về xử lý ảnh, các vấn đề liên
quan và các khái niệm cơ bản nhất trong khoa học xử lý ảnh.
1.1 TỔNG QUAN VỀ MỘT HỆ THỐNG XỬ LÝ ẢNH
Xử lý ảnh là khoa học còn tương đối mới mẻ so với nhiều ngành khoa học
khác. nhất là trên quy mô công nghiệp, song trong xử lý ảnh đã bắt đầu xuất hiện

những máy tính chuyên dụng. Để có thể hình dung cấu hình của một hệ thống xử lý
ảnh chuyên dụng hay một hệ thống xử lý ảnh dùng trong nghiên cứu, đào tạo, trước
hết chúng ta sẽ xem xét các bước cần thiết trong xử lý ảnh.
Trước hết là quá trình thu nhận ảnh. Ảnh có thể thu được qua camera.
Thường ảnh thu được qua camera là tín hiệu tương tự(loại camera ống kiểu CCIR),
nhưng cũng có thể là tín hiệu số hoỏ(loại CCD-charge couped device).
Lưu trữ


Hình 1.1a Các giai đoạn chính trong xử lý ảnh
Ảnh cũng có thể thu nhận từ vệ tinh qua các bộ cảm ứng(sensor), hay ảnh,
tranh được quột trờn scanner. Tiếp theo là quá trình số hoá (Digitalizer) để biến đổi
tín hiệu tương tự sang tín hiệu rời rạc (lấy mẫu) và số hoá bằng lượng hoá trước khi
chuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại.
Nhận dạng ảnh
CAMERA

u
trữ
SENSOR
Thu nhận ảnh
Số hóa Phân tích ảnh
Hệ Q.định
Quá trình phân tích ảnh thực chất bao gồm nhiều công đoạn nhỏ. Trước hết
là công việc tăng cường ảnh để nâng cao chất lượng ảnh. Do những nguyên nhân
khác nhau: có thể do chất lượng các thiết bị thu nhận ảnh, do nguồn sang hay do
nhiễu ảnh có thể bị suy biến. Do vậy phải tăng cường và khôi phục lại ảnh để làm
nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống với trạng thái
gốc- trạng thái trước khi bị biến dạng. Giai đoạn tiếp theo là xác định các đặc tính
như biên, phân vùng ảnh, trích chọn các đặc tính, …vv.

Cuối cùng tuỳ vào mục đích của ứng dụng, sẽ là giai đoạn nhận dạng, phân
lớp hay các quyết định khỏc. Cỏc giai đoạn chính của quá trình xử lý ảnh có thể mô
tả như hình 1.1.a.
Với các giai đoạn trên một quá trình xử lý ảnh (cấu trúc phần cứng theo chức
năng) gồm các thành phần tối thiểu như hình 1.1.b.
Đối với một hệ thống xử lý ảnh thu nhận qua camera-camera như là con mắt
của hệ thống. Có hai loại camera : camera ống loại CCIR và camera CCD. Loại
camera ứng với chuẩn CCIR quét ảnh với tần số 1/25 và mỗi ảnh gồm 625 dòng.
Loại CCD gồm các photo diot và làm tương ứng một cường độ sang tại một điểm
ảnh ứng với một phần tử ảnh (pixel). Như vậy ảnh là tập hợp các điểm ảnh. Số pixel
tạo nên một điểm ảnh gọi là độ phân giải (resolution).
Bộ xử lý tương tự (analog processor) bộ phận này thực hiện các chức năng sau:
- Chọn camera thích hợp nếu hệ thống có nhiều camera
- Chọn màu hiển thị tín hiệu.
- Thu nhận tín hiệu video thu nhận bởi bộ số hoá (digitalizer). Thực hiện lấy
mẫu và mó hoỏ.
- Tiền xử lý ảnh khi thu nhận: dung kỹ thuật bảng tra (Look Up Table LUT)
Hình 1.1.b Các thành phần chính của hệ thống xử lý ảnh
Bộ xử lý ảnh số: gồm nhiều bộ xử lý chuyên dụng: xử lý lọc, trích chọn
đường bao, nhị phân hoá ảnh. Các bộ xử lý này làm việc với tốc độ 1/25 giây.
Máy chủ : đóng vai trò điều khiển các thành phần miêu tả ở trên.
Bộ nhớ ngoài: Dữ liệu ảnh cũng như các dữ liệu khác, để có thể chuyển giao
cho các quá trình khỏc, nó cần được lưu trữ. Để có một ước lượng, xét ví dụ sau:
một ảnh đen trắng cỡ 512 x 512 với 256 mức xám chiếm 256 k bytes. Với một ảnh
màu cùng kích thước dung lượng sẽ tăng gấp 3 lần.
1.2 CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH
Như đã đề cập trong phần giới thiệu, chúng ta đã thấy được một cách tổng
quát các vấn đề chính trong xử lý ảnh. Để hiểu chi tiết hơn, trước tiên ta xem xét hai
khái niệm (thuật ngữ) thường dung trong xử lý ảnh: đó là pixel (phần tử ảnh) và
gray level (mức xám), tiếp theo là tóm tắt các vấn đề chính.

Màn hình
đồ họa
Bộ xử lý
tương tự
Camera Bộ nhớ ảnh
Máy chủ
Bộ
nhớ ngoài
Bộ xử lý ảnh số
Màn hình
Bàn phím
Máy in
1.2.1 Một số khái niệm
Pixel (picture element) phần tử ảnh
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sang. Để
có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh. Trong quá trình
số hoá, người ta biến đổi tín hiệu liên tục dạng tín hiệu rời rạc thong qua quá trình
lấy mẫu ( rời rạc hoá về không gian) và lượng hoá thành phần giá trị mà vì thế về
nguyên tắc bằng mắt thường không phân biệt được hai điểm kề nhau. Trong quá
trình này người ta sử dụng khái niệm picture element mà ta quen gọi hay viết tắt là
pixel - phần tử ảnh. Ở đây cũng cần phân biệt khỏi niờm pixel hay đề cập đến trong
kỹ thuật đồ hoạ máy tính. Để tránh nhầm lẫn ta tạm gọi pixel này là pixel của thiết
bị. Khái niệm pixel thiết bị có thể xem xét như sau: Khi ta quan sát màn hình trong
chế độ đồ hoạ, màn hình không liên tục mà gồm nhiều điểm nhỏ gọi là pixel. Mỗi
pixel gồm một cặp toạ độ x,y và màu.
Cặp toạ độ x,y tạo nên độ phân giải ( resolution ). Như màu màn hình máy
tính có nhiều loại với độ phân giải khác nhau: như màn hình CGA với độ phân giải
là 320 x 200, màn hình VGA là 640 x 350,…
Như vậy một ảnh là tập hợp các điểm ảnh. Khi được số hoỏ nó, nó thường được
biểu diễn bởi mảng hai chiều I(n,p): n là biểu thị số dòng, p là biểu thị cột. Nói cách

khác ảnh gồm n x p pixels. Người ta thường ký hiệu I(x,y) để chỉ một pixel. Thường
một giá trị của n chọn bằng p và bằng 256. Hình 1.2 cho thấy việc biểu diễn ảnh với
độ phân giải khác nhau. Một pixel có thể lưư trữ trên 1,2,4 hay 24 bit.
Gray level: Mức xám.
Mức xám là kết quả sự mã hoá tương ứng một cường độ sáng của mỗi điểm
ảnh với một giá trị số-kết quả của quá trình lượng hoỏ. Cỏch mó hoỏ kinh điển
thường dung 16,32,64 mức. Mó hoỏ 256 mức là mức phổ dụng do lý do kỹ thuật. Vì
2
8
= 256( 0,1,2…255) nên với 256 mức mỗi pixel sẽ được mó hoỏ bởi 8 bit.
1.2.2 Biểu diễn ảnh
Trong biểu diễn ảnh người ta thường dung các phần tử đăc chưng của ảnh là
pixel. Nhìn chung có thể xem một hàm hai biến chứa cỏc thụg tin như biểu diễn của
một ảnh. Các mô hình biểu diễn ảnh cho ta một mô tả logic hay định lượng các tính
chất của hàm này. Trong biểu diễn ảnh cần chú ý đến tính trung thực của ảnh hoặc
các tiêu chuẩn thong minh để đo chất lượng ảnh hoặc tính hiệu quả của các kỹ thuật
xử lý.
Việc xử lý ảnh số yêu cầu ảnh phải được mẫu hoá và lượng tử hoá. Thí dụ
một ảnh ma trận 512 dòng gồm khoảng 512 x 512 pixel. Việc lượng tử hoá ảnh là
chuyển đổi tín hiệu tương tự sang tín hiệu số (analog digital convert) của một ảnh
đã lấy mẫu sang một số hữu hạn mức xám.
Một số mô hình thường được dung trong biểu diễn ảnh: mô hình toán học,
mô hình thống kê. Trong mô hình toán ảnh hai chiều được biểu diễn nhờ các hàm
hai biến trực giao gọi là các hàm cơ sở. Với mô hình thống kê một ảnh được coi
như một phần tử của một tập hợp đặc chưng bởi các đại lượng như: Kỳ vọng toán
học, hiệp biến, phương sai, moment…
1.2.3 Tăng cường ảnh - khôi phục ảnh
Tăng cường ảnh là bước quan trọng tạo tiền đề cho xử lý ảnh. Nó gồm một
loạt các kỹ thuật như: lọc độ tương phản, khử nhiễu, nổi màu…
h(x,y; α,β)

ảnh đầu ảnh đầu
vào f(α,β) ra g(x,y)
f(α,ò)

ò
g(x,y)
nhiễu
ò

hệ thống
thu nhận
H ình 1.3 ảnh biến dạng do nhiễu.
Khôi phục ảnh là nhằm loại bỏ các suy giảm (degradation) trong ảnh. Với
một hệ thống tuyến tính, ảnh của một đối tượng có thể biểu diễn bởi :
G(x,y) =
Trong đó:
- η(x,y) là hàm biểu diễn nhiễu cộng.
- F(α,β) là hàm biểu diễn đối tượng.
- G(x,y) là ảnh thu nhận.
- H((x,y),(α,β)) là hàm tán xạ điểm (Point Spread Function).
Một vấn đề khôi phục ảnh tiêu biểu là tìm một xấp xỉ của f(α,β) khi PSF của nó
có thể đo lường hay quan sát được, ảnh mờ và có tính chất xác xuất của quá trình nhiễu.
1.2.4 Biến đổi ảnh
Thuật ngữ biến đổi ảnh (Image Transform) thường dùng để nói tới một lớp
các ma trận đơn vị và các kỹ thuật dung để biến đổi ảnh. Cũng như các tín hiệu một
chiều được biểu diễn bởi một chuỗi các hàm cơ sở, ảnh cũng có thể được biểu diễn bởi
một chuỗi rời rạc các ma trận cơ sở gọi là ảnh cơ sở. Phương trình ảnh cơ sở có dạng:
A*
k,l
= a

k
a
l
*T
Với a
k
là cột thứ k của ma trận A, A là ma trận đơn vị. Có nghĩa là
A A
*T
= I. Các A*
k,l
định nghĩa ở trên với k,l = 0,1,2…N-1 là ảnh cơ sở. Có nhiều
loại biến đổi được dùng như :
- Biến đổi Fourier, Sin, Cosin, Hadamard,…
- Tích Kronecker (*).
- Biến đổi KL (Karhumen loeve) biến đổi này có nguồn gốc từ khai triển của
các quá trình ngẫu nhiên gọi là phương pháp trích chọn các thành phần chính.
Do phải xử lý nhiều thong tin các phép toán nhân và cộng trong khai triển là
khá lớn. Do vậy các biến đổi trên nhằm làm giảm thứ nguyên của ảnh để việc xử lý
ảnh được hiệu quả hơn. Các biến đổi này sẽ được mô tả chi tiết sau.
(*) Trong xử lý ảnh, việc phân tích có thể được đơn giản đi khá nhiều do làm
việc với ma trận khối gọi là tích Kronecker.
• Ma trận khối là ma trận mà các phần tử của nó là một ma trận
V ới A
i,j
là ma trận m x n ; i = 1,2,3,…m; v à j = 1,2,3,…n. M
1
x M
2
• Tích Kronecker

Cho A là ma trận kích thước và B là ma trận kích thước N
1
x N
2
.
Tích Kronecker của A và B ký hiệu là A

B là ma trận khối được định nghĩa
a
1,1
B a
1,2
B . . . . A
1,M2
B
A

B = . . . . . . . . . . . . . . . . . . . . .
a
M1,1
B a
M1,2
B . . . A
M1,M2
B
với a
i,j
là các phần tử của ma trận A.
Thí dụ


ma trận A ma trận B

-1 2 1 2
Thì A⊗ B = 3 4 3 4
1 2 -1 -2
3 4 -3 -4
1.2.5 Phân tích ảnh
Phõn tích ảnh liên quan đến việc xác định các độ đo định lượng của một ảnh
để đưa ra một mô tả đầy đủ về ảnh. Các kỹ thuật được sử dụng ở đây nhằm mục
đích xác định biên của ảnh. Có nhiều kỹ thuật khác nhau như lọc vi phõn hay dò
theo quy hoạch động. Vấn đề xác định biên cùng các kỹ thuật liên quan sẽ được
trình bày chi tiết.
Người ta cũng dung các kỹ thuật để phõn vùng ảnh. Từ ảnh thu được, người
ta tiến hành kỹ thuật tách ( split) hay hợp ( fusion) dựa theo các tiêu chuẩn đánh giá
như màu sắc cường độ…Các phương pháp được biết đến như Quad-tree, mảnh hoá
biên, nhị phõn hoá đường biên. Cuối cùng phải kể đến kỹ thuật phõn lớp dựa theo
cấu trúc.
1.2.6 Nhận dạng ảnh
Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta
muốn đặc tả nó. Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc
tớnh chủ yếu của đôi tượng .
Có hai kiểu mô tả đối tượng:
- Mô tả tham số ( nhận dạng theo tham số).
- Mô tả theo cấu trúc ( nhận dạng theo cấu trúc).
Trên thực tế, người ta đã áp dụng kỹ thuật nhận dạng khá thành công với
nhiều đối tượng khác nhau như: nhận dạng ảnh võn tay, nhận dạng chữ ( chữ cái,
chữ số, chữ có dấu).
Nhận dạng chữ in hoặc đánh máy phục vụ cho việc tự động hoá quá trình
đọc tài liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy tớnh.
Nhận dạng chữ viết tay ( với mức độ rang buộc khác nhau về cách viết, kiểu

chữ…) phục vụ cho nhiều lĩnh vực.
Ngoài hai kỹ thuật nhận dạng trên, hiện nay một kỹ thuật nhận dạng mới dựa
vào kỹ thuật nhận dạng mạng nơ ron đang được áp dụng và cho kỹ thuật khả quan.
1.2.7 Nén ảnh
Dữ liệu ảnh cũng như các dữ liệu khác cần phải được truyền đi hay lưu trữ
trên mạng. Như đã nói ở trên lượng thông tin để biểu diễn cho một ảnh là rất lớn.
Trong phần 1.1 chúng ta đã thấy một ảnh đen trắng cỡ 512 x 512 với 256 mức xám
chiếm 256 kbs . Do đó làm giảm lượng thong tin hay nén dữ liệu là một nhu cầu cần
thiết. Nhiều phương pháp nén dữ liệu đã được nghiên cứu và áp dụng cho loại dữ
liệu đặc biệt này.
1.3 KẾT LUẬN
Như vậy các vấn đề cơ bản nhất liên quan đến xử lý ảnh đã được trình bày
chi tiết ở chương 1. Những vấn đề cơ bản và chung đó sẽ là tiền đề cho chúng ta
thực hiện nghiên cứu sâu hơn về vấn đề tách chữ nhúng trong ảnh.
Chương 2
CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH
Chương 1 đồ án đã trình bày một cách tổng quan nhất về xử lý ảnh. Tiếp
theo trong chương này đồ án sẽ trình bày mô hình của hệ thống tách thông tin về
chữ nhúng trong ảnh TIE (Text Information Extraction) và một số phương pháp
thường sử dụng trong việc xác định vùng chứa chữ trong ảnh.
2.1 GIỚI THIỆU
Dữ liệu text được trình bày trong ảnh và video bao gồm những thông tin hữu
dụng cho việc cấu trúc chỉ mục và đánh chỉ mục cho ảnh. Việc tách thông tin này
bao gồm dũ tỡm xác định theo dõi tách làm nổi và xác nhận vùng text chứa trong
ảnh. Tuy nhiên một vài text có sự khác nhau về kích cỡ về hướng cũng như về kiểu
chữ, cũng như ảnh có độ tương phản thấp và nền phức tạp làm cho vấn đề tách text
trong ảnh trở lên rất khó khăn. Trong khi rất nhiều vấn đề liên quan như nhận dạng
mặt người, phân tích tài liệu và index của ảnh và video có thể dễ dàng được tìm
thấy thì vấn đề nhận dạng thông tin chữ nhúng trong ảnh không được nghiên cứu
nhiều. Có một số công nghệ được đề xuất để giải quyết vấn đề. Một trong số đó

được tôi thực hiện và giải quyết thành công cho bài toán này.
Nội dung ảnh có thể được chia thành hai mục chính: nội dung trực giác và
nội dung ngữ nghĩa. Nội dung trực giác bao gồm các thuộc tính như : màu cường độ
hình thù. Trong khi đó nội dung ngữ nghĩa là các đối tượng sự kiện liên quan đến
chúng. Có rất nhiều cách tiếp cận cho việc tách thông tin về text(TIE) từ ảnh và
video đã được đề xuất. Mặc dù có nhiều như vậy nhưng cũng không dễ dàng để đưa
ra một mô hình hệ thống TIE thông thường. Bởi vì có rất nhiều dữ liệu có thể thay
đổi khi tách chữ từ những ảnh phức tạp, từ những ảnh có độ tương phản thấp hoặc
từ những ảnh có sự khác nhau về kích cỡ, về kiểu, màu về hướng, và định dạng.
Những vấn đề này làm cho vấn đề tách chữ trong ảnh trở lên rất khó khăn.
Hình vẽ dưới đây đưa ra một vài ví dụ về text nhúng trong ảnh. Hình một cho ta
một ví dụ về ảnh tài liệu. Ảnh dạng này có thể thu được bằng cách scan những trang
sách, những CD, hoặc những tài liệu khỏc cú cựng đặc điểm như ảnh tài liệu. Tuy
nhiên ảnh tài liệu cũn cú một dạng khác đó là nhưng ảnh về trang vẽ kỹ thuật như
hình hai. Cũn cú một dạng khác là ảnh tài liệu có nhiều màu sắc kích cỡ chữ khác
nhau như hình ba.
Hình 2.1: ảnh tài liệu đen trắng:a, chữ trong ảnh một trang bỏo.b, chữ trong ảnh của hai
trang và c là chữ trong bản vẽ kỹ thuật.
Hình 2.2: Ảnh tài liệu nhiều vào. Mỗi dòng chữ có thể cùng màu hoặc không cùng màu
Hình 2.3: Ảnh trong video với phụ đề là text.a, phụ đề nằm trực tiếp trên nền ảnh. b,và c, phụ
đề nằm trờn nờn ảnh với độ tương phản cao hơn và c, phụ đề nằm trên nền ảnh với nhiều
màu sắc.
Hình 2.4: Ảnh phong cảnh với rất nhiều chữ tự nhiên nhúng trong nó.
Một vài cách tiếp cận nhằm tách thông tin về chữ trong ảnh và video frame
đã được đưa ra bao gồm tỏch cỏc dũng text trong ảnh tài liệu, xác định được cỏc
vựng chứa chữ trong ảnh thông thường, xác định các index trong video frame. Mặc
dự đã có rất nhiều nghiờn cứu như vậy nhưng vẫn không dễ dàng để đưa ra một hệ
thống Tách thông tin về chữ (Text Information Extraction) tổng quát và chính xác
bởi vì sự khó khăn trong việc thực hiện tách chữ từ ảnh. Những khó khăn có thể kể
ra như: ảnh có nền quá phức tạp so với chữ nhúng trong nó hay chữ nhúng trong

ảnh có sự khác nhau về kích thức, màu sắc độ tương phản cả về hướng và font chữ.
Những khó khăn kể trên làm cho hệ thống TIE rất khó thực hiện.
Có một số lượng lớn các ứng dụng có thể áp dụng hệ thống TIE bao gồm
phân tích tài liệu, phân tích các tài liệu kỹ thuật và nén dữ liệu hướng đối tượng.
Dưới đây là một số ứng dụng như thế:
Máy tính cầm tay: với tốc độ phát triển của công nghệ phần cứng, máy tính
xách tay hiện nay đang rất phát triển. Một hệ thống TIE gồm một thiết bị cầm tay và
một camera được áp dụng như là một ứng dụng cho một hệ thống có khả năng quan
sát ảnh.
Mã hóa video dựa trên nội dung và mã hóa tài liệu. Chuẩn MPEG-4 hỗ trợ
việc giải mã dựa trên đối tượng. khi mà vùng text được tách ra khỏi vựng vựng
khỏc trong ảnh. Nó có thể cung cấp một cách nén ảnh tốc độ cao hơn và chất lượng
ảnh tốt hơn.
Miền ảnh nén: dựa trên ý tưởng rằng toàn bộ ảnh số và video frame đều được
lưu trữ xử lý và chuyển đổi đều ở dạng nén. Phương thức TIE có thể xử lý trực tiếp
trên ảnh nén định dạng MPEG hoặc JPG. Những thuật toán đó chỉ yêu cầu một số
lượng nhỏ việc giải mã và cho nên kết quả thực hiện thuật toán rất nhanh.
2.2 THẾ NÀO LÀ MỘT HỆ THỐNG TIE
Vấn đề hệ thống TIE cần được định nghĩa chính xác trước khi tiến tới những
bước nghiên cứu xa hơn. Một hệ thống TIE nhận dữ liệu đầu vào là những ảnh
thông thường hoặc những ảnh video liờn tiếp nhau. Đầu vào có thể là những ảnh
đen trắng, những ảnh màu những ảnh nén hoặc ảnh khụng nộn, text trong ảnh có thể di
chuyển hoặc không di chuyển. Vấn đề TIE có thể được chia thành những vấn đề nhỏ:
i. Detection
ii. Localization
iii. Tracking và enhancement
iv. Recognition(ORC)
Text detection localization và extraction có thể được hoán đổi trong tài liệu.
Tuy nhiên trong tài liệu này tác giả sẽ cho thấy sự khác nhau giữa chúng. Thuật ngữ
được sử dụng trong tài liệu này được đưa ra bởi Antani et al [28]. Text detection là

công đoạn xác minh sự có mặt hay không của text nhúng trong ảnh. Text
localization là công đoạn xác minh vùng của text trong ảnh và đánh dấu bằng một
đường viền bao quanh vùng chứa chữ. Text tracking là công đoạn được thực hiện
nhằm làm giảm thời gian xử lý cho công đoạn text localization và bảo trì vùng chứa
chữ vừa xác minh được qua các frame liền kề nhau(thường trong video). Mặc dù
vùng chứa chữ trong ảnh được xác định chính xác bằng đường viền bao quanh nó,
Tuy nhiên text vẫn cần thiết được phân đoạn ra khỏi nền của ảnh để làm dễ dàng
cho công đoạn nhận ra nó. Điều đó có nghĩa là ảnh phải được chuyển sang ảnh
binary và làm mịn trước khi nó được cho vào cơ chế OCR. Text extraction là một
công đoạn mà ở đó các thành phần của text được phân đoạn ra khỏi nền. Việc làm
nổi lên các thành phần text được yêu cầu bởi vì cỏc vựng chứa chữ thường có độ
phân giải thấp và có nhiễu. Sau đó vùng text tách ra được sử dụng cơ chế OCR để
nhận dạng.
Hình 2.5: Kiến trúc của hệ thống TIE
[
2.3 CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH
2.3.1 Xác định vùng chứa chữ trong ảnh dựa trên đặc chưng về kết cấu.
2.3.1.1 Đặc trưng về kết cấu:
Có thể hiểu một cách đơn giản, kết cấu là phần còn lại của ảnh sau khi đã
xem xét màu sắc và cỏc hỡnh dạng trong ảnh. Không những mang thông tin về độ
sáng tối, kết cấu của ảnh còn có thể đặc trưng cho chất liệu của đối tượng trong ảnh.
Một số đối tượng như cây cối, mặt nước, túc… thỡ đặc trưng chính của nó là kết cấu.
Có rất nhiều các kỹ thuật khác nhau để phân tích và biểu diễn kết cấu của
ảnh. Theo Tuceryan và Jain [29], có 5 phương pháp chính để thể hiện cấu trúc của
ảnh là : xử lý thống kê, xử lý hình họa, xử lý cấu trúc, xử lý dựa trên mô hình và xử
lý tín hiệu. Các kỹ thuật hay được sử dụng có thể kể đến là : Ma trận mức xám đồng
thời (Gray Level Co-occurrence Matrix), Mô hình Markop ẩn và MRSAR (Mô hình
tự hồi quy đồng thời hỗ trợ nhiều độ phân giải ).
Phương pháp dựa trên kết cấu sẽ dựa vào sự khác biệt giữa text và nền ảnh
nhằm tách text. Một số phương pháp được sử dụng như dựa trên bộ lọc Gabor,

Wavelet, FFT có thể được sử dụng để tỡm ra các đăc tớnh về kết cấu của vùng text
trong ảnh
2.3.1.2 Một số phương pháp được đề xuất:
Ảnh, Video clip
Trong lĩnh vực tách chữ trong ảnh, một số phương pháp sau đây đã được dùng
để xác định đặc trưng về kết cấu của vùng text trong ảnh và cho kết quả khả quan.
Zhong [30] đã sử dụng sự biến đổi về mặt không gian trong ảnh mức xám để
dò tỡm ra vùng chứa text với độ chớnh xác khá cao. Họ đã sử dụng một của sổ
ngang kích cỡ 1 x 21 để tớnh toán sự khác nhau về mặt pixel với anh hàng xúm cục
bộ. Sau đó bờ ngang trong ảnh sẽ được xác định nhờ sử dụng bộ lọc Canny. Những
thành phần bờ nhỏ này sẽ được kết hợp lại với nhau để tạo ta những đường dài hơn.
Từ chớnh ảnh sau khi xác định bờ này, những bờ ảnh với những hướng đối diện sẽ
được ghép cặp thành vùng text. Mặc dù vậy, cách tiếp cận này chỉ dò tìm được ra
các vùng chứa text nằm ngang và có sự khác biệt tương đối rừ rang so với nền ảnh.
Trái ngược lại thì Wu [31,32] đã sử dụng phương pháp phõn chia một bức
ảnh đầu vào sử dụng một lược đồ phõn chia ảnh theo kết cấu sử dụng các giá trị
mức khác nhau. Những vùng text tiềm năng nhất sẽ được tỡm thấy dựa trên bộ lọc
Gaussian. Một phép biến đổi không tuyến tớnh sẽ được áp dụng cho mỗi bức ảnh.
Ảnh đầu ra sau đó được xử lý sử dụng thuật toán K-mean. Thao tác này được gọi là
sự phõn vùng ảnh dựa trên đặc trưng về kết cấu (texture segmentation). Bước tiếp
theo gọi là chip generation Bước này bao gồm 5 bước nhỏ hơn là:
i. stroke generation
ii. stroke filtering
iii. stroke aggregation
iv. chip filtering
v. chip extension
Kết quả được cài đặt và chạy thử trên 48 bức ảnh khác nhau bao gồm các
video frame, các trang báo, tạp chí…Chương trình thực hiện mất 10 giõy cho những
ảnh có kích cỡ 320 x 240 trên máy PC Pentium vói tốc độ 200MHz và 128 Mb bộ
nhớ. Phương pháp này có nhược điểm là để mất những vùng chữ rất nhỏ.

(a) (b) (c) (d)
(e) (f) (g) (h)
Hình. 2.6 Một ví dụ về phương pháp dựa trên kết cấu: (a) ảnh đầu vào, (b) clustering, (c)
Vùng text sau khi thực hiện toán tử morphological (Nhìn thấy trong vùng đen in đậm), (d)
stroke generation, (e) stroke filtering, (f) stroke aggregation, (g) chip filtering and extension,
và (h) Vùng text được tìm ra (Wu, Manmatha, and Riseman [31, 32]).
2.3.2 Phương pháp xác định vùng chứa chữ dựa trên đặc chưng về vùng ảnh.
2.3.2.1 Dựa trờn vùng ảnh.
Phương pháp này sử dụng cách tiếp cận bottom up bằng cách thực hiện
nhúm các vùng nhỏ lại với nhau cho đến khi tất cả các biên ảnh được xác định một
cách rừ rang trong ảnh. Một phõn tớch về mặt hình học sau đó sẽ được áp dụng sử
dụng sự sắp xếp về mặt không gian giữa các thành phần trong ảnh để lọc ra các
thành phần text và thành phần non-text.
Lienhart [33, 34] đã coi các vùng text như là các vùng có sự giống nhau về
màu và kích thước và áp dụng một phương pháp phõn tích về sự di chuyển của các
text trong video frame để tách ra text. Ảnh đầu vào được phõn đoạn dựa trên đặc
tớnh về sự cùng màu của các text sự dụng thuật toán phõn chia cũng như kết hợp.
Những vùng nào quá nhỏ hoặc quá lớn sau đó sẽ được lọc ra. Sau đó những đặc
trưng về độ tương phản, sự di chuyển của các text trong các đoạn video… sẽ được
sử dụng nhằm đạt được kết quả tách tốt nhất. Một thuật toán liên kết các khối được
áp dụng nhằm tỡm ra text trong video.
2.3.2.2 Dựa trên biên ảnh.
Trong phương pháp xác định vùng chứa chữ dựa theo đường biên, đặc trưng
của mỗi vùng sẽ là đường biên bao quanh vựng đú. Quá trình phân vùng ảnh dựa theo
đường biên thường tuân theo các bước : xác định biên, xử lý biên và mô tả biên.
a,Xác định biên
Xác định biên của ảnh là một kỹ thuật cơ bản trong phân tích ảnh. Một điểm
ảnh sẽ được coi là cạnh (điểm biên) nếu ở đó có sự thay đổi đột ngột về mức xám.
Xuất phát từ định nghĩa này người ta thường sử dụng hai phương pháp phát hiện
biên [30] là :

- Phương pháp phát hiện biên trực tiếp: Phương pháp này nhằm làm nổi biên
dựa vào sự biến thiên về giá trị độ sáng của điểm ảnh. Kỹ thuật chủ yếu
dùng phát hiện biên ở đây là kỹ thuật đạo hàm (kỹ thuật dũ biờn cục bộ),
nếu lấy đạo hàm bậc nhất của ảnh ta có phương pháp dũ biờn gradient, nếu
lấy đạo hàm bậc 2 ta có kỹ thuật Laplace.
- Phương pháp phát hiện biên gián tiếp: Phương pháp phát hiện biên kiểu này
dựa vào mối quan hệ giữa biên và cỏc vựng trong ảnh, nếu bằng cách nào đấy,
ta phân ảnh thành cỏc vựng thỡ đường ranh giới giữa cỏc vựng chớnh là biên.
b,Xử lý biên
Biên sau khi đã được xác định ở bước trên sẽ được xử lý để thu được các
thông tin chính xác nhất. Đối với một số kỹ thuật phát hiện biờn, biờn thu được có
độ rộng lớn hơn 1 pixel. Do vậy, ở bước này, người ta phải làm mảnh biên. Đồng
thời, tại bước này, biên cũng sẽ được nhị phân hóa để làm giảm nhiễu, phục vụ cho
việc mô tả biên sau này.
c,Mô tả biên.
Khi đã xác định được các điểm biờn thỡ kỹ thuật mô tả biên đơn giản nhất
chính là sử dụng chuỗi tọa độ của các điểm biên này để mô tả. Tuy nhiên cách thức
này có chi phí lớn và không cô đọng. Do vậy người ta phải nghĩ đến cỏc cỏch mã
hóa đường biên.
Các phương pháp mã hóa hay được dùng là : mã hóa theo tọa độ Đề các, mã
hóa Freeman hay xấp xỉ bởi đoạn thẳng. Biên sau khi được mô tả sẽ trở thành một
đặc trưng quan trọng của vùng mà nó bao quanh.
Dựa vào các thuộc tính của text trong ảnh, phương pháp dựa trên biờn ảnh
làm nổi bật “sự tương phản giữa các đoạn text với nền của ảnh”. Các cạnh của
đường biên vùng text sẽ được xác định và kết hợp lại với nhau, sau đó sẽ lọc ra các
miền không phải text ở trong ảnh. Các bộ lọc về bờ của vùng text (ví dụ: Canny
operator) thường được dùng để dũ tỡm bờ bao quanh vùng chứa chữ, các phương
pháp làm mịn và các toán tử hình thái được sử dụng kết hợp các tầng lại.
d,Các phương pháp
Smith và Kanade [35] áp dụng bộ lọc khác nhau chiều ngang 3x3 cho ảnh

nhập vào và bước đầu thực hiện tìm bờ dọc. Sau khi thực hiện phương pháp làm
mịn, thường dùng để loại bỏ các bờ nhỏ, các bờ ở liền kề nhau sẽ kết hợp với nhau
và một hộp ranh giới sẽ được dựng lên. Sau một vài thử nghiệm, bao gồm: aspect
ratio, lọc số, kích thước hộp ranh giới được áp dụng để lọc ra vựng khụng chưa chữ.
một biểu đồ về cường độ các cụm sẽ được kiểm tra và sau đó sẽ xác định các cụm
giống như text hoặc cách đặc điểm về các hình thù.
Sự khác nhau chính giữa phương pháp Sato et al [36] và phương pháp dựa
vào bờ miền đó là phân đoạn kí tự. Họ sử dụng kết quả nhận biết ra cỏc kớ tự để đưa ra
quyết định phân đoạn và vị trí của các chữ riêng lẻ, bằng cách ấy sẽ tăng độ chính xác
phân đoạn kí tự. Khi mà kết hợp với phương pháp phân vùng text của Smith và
Kanade, thời gian xử lí cho việc nhận biết chỉ mất 0.8s cho ảnh kích thước 352 x 242.
Hasan va Karam [37] sẽ mô phỏng một hình thái tiếp cận với lấy ra text. Các
thành phần R,G,B của ảnh mầu được kết hợp lại vói nhau để cho ra cường độ vùng
ảnh Y như sau:
Y=0.299R + 0.587G + 0.114B
Ở đây thì RGB tương ứng với các thành phần màu đỏ, xanh nhạt, xanh đậm.
mặc dù cách này đơn giản và rất nhiều nhà nghiên cứu đã đưa ra để giải quyết cho
ảnh màu, nó gặp phải khó khăn là xử lớ cỏc đối tượng mà nó tương tự với màu xám,
và các màu khác trong không gian màu. Hình 8a và 8b sẽ cho bạn xem ảnh màu và
ảnh xám. một số đoạn text mà nhô lên ở trong ảnh màu thì sẽ rất khó khăn với ảnh
xám. Sau khi chuyển đổi màu, bờ ảnh được xác định sử dụng phương pháp
morphological gradient. kết quả của việc xác định bờ ảnh là điểm bắt đầu được
chứa đựng trong bờ ảnh số. Điểm bắt đầu sẽ được xử lí cho mỗi miền ứng cử thích
hợp trong cường độ ảnh. Thành phần không phải text được lọc ra nhờ việc sử dụng
kích thức ảnh, độ giày, tỷ lệ so với bên ngoài, sự đồng nhất màu xám.
2.4 KẾT LUẬN
Vấn đề tách chữ nhúng trong ảnh quả thực là một vấn đề không hề đơn giản,
tuy nhiên lại là vấn đề có nhiều cách tiếp cận khác nhau. Mặc dù lịch sử của bài
toán cũn khá ngắn ngủi (khoảng từ năm 1997 trở đi) xong những thành tựu trong
việc nghiên cứu vấn đề này mang lại là rất hữu dụng. Chương 2 của đồ án đó trình

bày một số phương pháp để giải quyết vấn đề tách chữ nhúng trong ảnh, mặc dù
mỗi phương pháp đều có những ưu nhược điểm riêng nhưng đây đều là những
phương pháp cho độ chính xác khá cao và khá tổng quát. Đồng thời, việc nghiên
cứu và tìm hiểu các phương pháp này sẽ mang lại những kiến thức cơ bản và gợi ý
cho cách tiếp cận nhằm giải quyết bài toán tách chữ nhúng trong ảnh ở chương sau.

×