- 44 -
NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG NHẬP TÀI LIỆU TỰ
ĐỘNG BẰNG NHẬN DẠNG QUANG HỌC
Đinh Văn Phương
MSSV: 0220250
Email:
Cán bộ hướng dẫn: ThS. Đào Kiến Quốc.
1. Giới thiệu
Nhập dữ liệu tự động đang là bài toán ngày
càng thu hút nhiều sự chú ý vì khả năng áp dụng
rộng rãi vào thực tế cũng như những hiệu quả mà
nó mang lại. Trong hệ thống này, khử nhiễu, khử
nghiêng và phân vùng ảnh là một phần có vai trò
đặc biệt quan trọng. Chức năng của nó là chính
xác ảnh và tách ra các vùng được nhập thông tin
để làm đầu vào cho module nhận dạng chữ. Dựa
trên đặc tính của ảnh tài liệu được scan, chúng tôi
đã sử dụng phương pháp điều chỉnh mức xám để
tách nền ra khỏi phần thông tin cần nhận dạng; và
sử dụng phương pháp phép chiếu để khử nghiêng
ảnh do phương pháp này đạt được độ chính xác
cao đối với những ảnh có đặc trưng trên. Cũng
dựa trên đặc điểm của kiểu form văn bản là dữ
liệu được nhập vào các ô trên form (nghĩa là nằm
trong giới hạn giữa các đường thẳng), giải pháp
đề ra cho phân vùng là thông qua việc xác định
các đường thẳng kết hợp với sử dụng hệ tọa độ
tương đối để xác định các vùng nhập dữ liệu.
Chúng tôi đã tiến hành thực nghiệm trên nhiều
kiểu form văn bản khác nhau và thu được những
kết quả rất khả quan.
Khóa luận này trình bày về phần tiền x
ử lý
ảnh: khử nhiễu, tách nền và khử nghiêng.
2. Tổng quan về tiền xử lý ảnh
Giai đoạn tiền xử lý ảnh là rất quan trọng nó
ảnh hưởng lớn đến độ chính xác của quá trình
tách vùng và nhận dạng sau này. Các quá trình
tiền xử lý ảnh bao gồm: lọc nhiễu, tách nền, nhị
phân hóa và khử nghiêng.
a. khử nhiễu
Hiện nay có rất nhiều các phương pháp khử
nhiễu, có thể kể đến như: mean, median, pseudo
median, inverse, pseudo inverse, winner filter…
Nhưng với những ảnh tài liệu, do đặc phân bố
đồng đều về mật độ mức xám của nền, nên nhìn
chung các phương pháp trên tỏ ra không hiệu quả,
do vậy chúng tôi đề xuất giải pháp lọc nhiễu, tách
nền dựa trên phương pháp điều chỉnh mức xám
(Gray level scaling) [1, 3].
b. Khử nghiêng
Một văn bản có rất nhiều các đặc trưng so
với các loại hình ảnh khác như các đặ
c trưng về
hướng, về cấu trúc phân bố các đối tượng ... Từ
đó cũng có một số phương pháp xác định góc
nghiêng cho ảnh của văn bản như: các phương
pháp dựa trên biến đổi Hough, các phương pháp
dựa trên Nearest Neighbour, các phương pháp
dựa trên registered object… Do đặc điểm của ảnh
tài liệu nên chúng tôi lựa chọn phương pháp phép
chiếu cải tiến [2] cho bài toán nhập tài liệu tự
động.
3. Tiền xử lý ảnh áp dụng cho bài toán nhập tài
liệu tự động
a. Lọc nhiễu, tách nền.
Ảnh của văn bản gốc vốn dĩ là ảnh nhị phân,
tức là chỉ có hai ngưỡng đen, trắng cho chữ và
nền. Song sau khi in ra và quét lại vào máy tính,
nó trở thành ảnh đa mức xám tức là có 256
ngưỡng khác nhau. Một số vùng nền có thể xám
hơn, ngược lại một số đối tượng chữ, bảng và
dòng kẻ
có thể mờ đi. Nhiệm vụ của chúng ta ở
đây là tách các đối tượng cần xử lý ra khỏi hình
nền.
Thuật toán được xây dựng dựa trên giả thiết
mặc dù có sự biến đổi về ngưỡng tuy nhiên vẫn
có sự khác biệt giữa ngưỡng của chữ và của nền.
Thông qua việc tăng cường độ tương phản lặp lại
nhiều lần, ta hi vọng rằng có thể khuyếch đại sự
khác biệt này một cách đáng kể. Tuy nhiên với
cách lọc trực tiếp trên ảnh này thì không hiệu quả
- 45 -
khi số lần lặp là nhiều (tốc độ tỉ lệ thuận với số
lần lặp). Do vậy chúng tôi đề nghị giải pháp chỉ
lọc trên Histogram.
b. Khử nghiêng
Để khắc phục sự tính toán phức tạp của
phép chiếu chúng ta chỉ chia đường chiếu làm 2
loại đường chiếu đen (có ít nhất 1 điểm đen trên
đường chiếu) và đường chiếu trắng (không có bất
cứ điểm đen nào trên đường chiếu). Theo cách
này các đối tượng được xấp xỉ bởi hình bình
hành. Việc ước lượng góc nghiêng của ảnh dựa
trên diện tích các hình bình hành hoặc phần bù
của các hình bình hành đó [2].
Tuy nhiên với cách làm này thì kết quả
cho độ chính xác không cao, do vậy chúng ta chỉ
dùng phương pháp này để ước lượng nhanh một
góc nghiêng, sau đó áp dụng phương pháp phép
chiếu để chính xác hóa góc nghiêng ảnh.
4. Thực nghiệm
Với mục đích đánh giá độ chính xác và hiệu
năng thực hiện của các phương pháp trên, chúng
tôi đã tuyển tập rất nhiều các tài liệu dạng ảnh
trên các kiểu form khác nhau như: phiếu đăng ký,
phiếu điều tra, hóa đơn, phiếu thanh toán, bảng
điểm….Các ảnh này được tìm thấy phần lớn là
thông qua trang tìm kiếm Google.com để có thể
đảm bảo được sự đa dạng v
ề kiểu form, về chất
lượng ảnh, về kích cỡ và ngôn ngữ.
a. Thực nghiệm về lọc nhiễu, tách nền
Chúng tôi thực nghiệm với 60 ảnh khác
nhau, và thu được kết quả:
DPI Hiệu năng
(ms)
Số lần lọc
Trung bình
100
7.63 3.43
150
15.53 3.57
200
36.81 3.21
300
95.21 3.34
Từ kết quả thực nghiệm trên ta thấy rõ
việc lọc ảnh trên Histogram tỏ ra rất hiệu quả, tốc
độ thực thi không phụ thuộc vào số lần lặp mà
chúng chỉ phụ thuộc vào độ phân giải.
b. Thực nghiệm về xác định góc nghiêng của
ảnh
Thực nghiệm về xác định góc nghiêng của
ảnh được cài đặt theo phương pháp phép chiếu
trên 60 ảnh, với 300 góc nghiêng khác nhau cho
mỗi một ảnh, tổng số ảnh thử nghiệm là 18000
ảnh.
độ lệch trung bình so với góc thực tế với sai số ±0.1
0
Phương pháp phép chiếu
cải tiến (
0
)
Cat 1
0.0263
Cat 2
0.0108
Cat 3
0.0016
Cat 4 0.0049
Total 0.0109
Từ kết quả thực nghiệm trên ta thấy, độ
chính xác việc xác định góc nghiêng là đủ để tiến
hành phân vùng và nhận dạng ảnh.
5. Kết luận
Trong quá trình nghiên cứu rất nhiều dạng
Form văn bản khác nhau, bao gồm cả các văn bản
tiếng Việt và tiếng Anh và việc nghiên cứu nhiều
thuật toán khác nhau, chúng tôi đã lựa chọn, cải
tiến và đưa ra được một số các giải pháp riêng
cũng như cài đặt thành công các thuật toán về lọc
nhiễu, tách nền và xác định góc nghiêng của ảnh.
Các công việc cần được nghiên cứu tiếp:
• Tích hợp với module nhận dạng chữ
viết tiếng việt.
• Xây module quản trị tài liệu dạng
Form.
• Nâng cao hiệu năng và độ chính xác
cho module tiền xử lý ảnh và phân
vùng.
Tài liệu tham khảo
[1] Ergina Kavallieratou, “A Binarization
Algorithm specialized on Document
Images and Photos”.
[2] Fu Chang, Chien-Hsing Chou, and Shih-
Yu Chu. A New Approach to Estimation
of Document Skew Angles Based on
Piecewise Linear Approximation of Line
Objects. 2004.
[3] Myler H.R., Weeks A.R. Computer
imaging recipes in C, ©1993.