Tải bản đầy đủ (.pdf) (82 trang)

Nhận dạng các form tài liệu báo cáo tổng hợp đề tài nghiên cứu khoa học cấp đhqghn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (33.5 MB, 82 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI

NHẬN DẠNG CÁC FORM TÀI LIỆU
( Báo cáo tổng hợp đề tài nghiên cứu khoa học cấp Đ HQGHN)

M ã số:

QC.06.01

Chủ nhiệm đề tài: Đặng Việt Dũng

ÒAI HO C Q U Ộ C GIA HA NỘI
UNG TAM THÕNG TIN THỊ r ' / Ị 5fsj

í<’

i M /
Hà NỘI - 2007

m


THƠNG TIN CHUNG
Chủ trì đề tài: Đặng Việt Dũng
Các cộng sự: ThS. Đào Kiến Quốc, Đào Thanh Khiết, Nguyễn Thanh Phúc, Nguyễn Thu
Trang, Đinh Văn Phương
Nội dung: Nghiên cứu giải pháp “đọc” tự động các phiếu bằng nhận dạng ảnh. Công việc
cụ thể gồm: tách vùng nhập liệu trên form tài liệu, quản trị cẩu trúc form.


Trung tâm Nghiên cứu và Phát triến Công nghệ Phần mểm, Trường Đợi học Công nghệ. ĐHQGHN



MỤC LỤC

BẢNG CÁC THUẬT NG Ữ VÀ TỪ VIẾT T Ắ T .................................................5
DANH SÁCH NHỮNG NGƯỜI THAM GIA THỰC HIỆN ĐẺ T À I........... 5
DANH MỤC CÁC HÌNH V Ẽ ....................................................................................6
DANH MỤC CÁC BẢNG SĨ L IỆ U ........................................................................7
TĨM TẮT NHỮNG KẾT QUẢ CHÍNH CÙA ĐÊ TÀ I........................................8
CHƯƠNG 1. GIỚI TH IỆU ................................................................................... 10
11

Đặt vấn đề................................................................................................................ 10

12

Mục tiêu nghiên cứu và ý nghĩa cùa đe tài.......................................................... 11

] .3.

NỘI dung nghiên c ử u ..............................................................................................11

1 4. Cấu trúc của báo cáo...................................................................................................11
CHƯƠNG 2 TÒ CHỨC THỰC HIỆN.............................................................

13

2 1 Phương pháp nghiên cứu:.....................................................................................

13


2.2. Phân công trách nhiệm :............................................................................................. 13

CHƯƠNG 3 NỘI DƯNG NGHIÊN c ử u .................................................... 14



3.1 Hệ thống nhâp dữ liệu tư động vào máy tính băng nhận dang quans hoc

14

3.2. Tiền xử lý ảnh áp dung cho hệ thống nhận dạng form ....................................

15

3.2.1. Thuật tốn lọc nhiễu và nhi phân hồ..............................................................15
3.2.1.1 Giới thiệu....................................................................................................... 15
3.2.1.2 Mơ tả tht tốn............................................................................................... 15

3.2

1.3. Loai bị đường biên................................................................................... 17

3.2 1 4 Kết luân.......................................

3 2.2 Thuảt toán khử nghiêng....................................
3.2.2.1. Phucms pháp xác đinh sóc nahiẻng dưa trẽn phép chiêu
3.2.2 2 Tối ưu các tham số
3.3. Nhân dạng vủns nhâp dừ liêutrong form tài liêu
Báo cáo tổng hợp để lài "Nhận dạng cóc form táì liệu "


19

19
20
.22
24
2


Trung tâm Nghiên cứu và Phát triển Công nghệ Phân mềm, Trường Đại học Công nghệ, ĐHQGHN

3.3.1. Mô tả thuật toán xác định vùng nhận dạng dựa trên xác định các đường
th ẳ n g ...............................................................................................................................25
3.3.11 Thuật toán xác định đường thẳng...................................................................25
3.3.1.1. Biện pháp khấc phục việc xác định các đường thẳng mờ hoặc đứt đoạn
3.3.2. Đối chiếu các đường thẳng xác định được
3.3.2

VỚI

27

Form m ẫu........................ 28

1. Phương pháp đối chiểu các đường thẳng.....................................................28

3.3.2.2. Ước lượng về khoảng cách và kích thước : ............................................... 29
3.3

.3 .Thuật tốn tim đường tương ứng giữa ảnh mẫu và ảnh scan................ 30


3.3.4. Tách vùng nhập dừ liệu trên ảnh scan............................................................ 32
3 .4. ứ n g dụng quản trị form tài liệu vào bài toán nhận dang form .......................

34

3 .5. Xây dựng các mô đun phần mềm thừ nghiệm .................................................. 37
3.5.1. Mô đun phần mềm tách vùng trên fo rm .................................................... 37
Thực nghiệm ]: Xác đinh các đường thẳng.........................................................

39

Thực nghiệm 2: Tỉm cặp các đường thẳng giữa ảnh scan VỚI ảnh mẫu...................... 40

Thực nghiệm 3: Xác định các vùng cẩn nhận dang...............................................

40

3.5.2. Mô đun phần mềm quản trị form tài liệu ............................................ ........ 42

CHƯƠNG 4 TÓM TẢT KÉT QUÀNGHIÊN c ứ u ......................................46
a Sản phẩm khoa h ọ c ................................................................................................... 46
b. Kểt quả ứng dụng...........................................................................................................46
c. Kết quà đào t a o ................................................................. ......................................

46

d Kết quả nâns cao tiềm lưc khoa hoc.

46


CHƯƠNG 5

..........................................................

KÉT LƯ ÁN VÀ KIÊN NG H Ị...................................................... 47

5 1 Kết luân

47

5.2.

47

Một sổ kiến ngh? ............................................................................................

TÀI LIÊU THAM KHẢO

48

PHU LỰC.

50

Phụ lục 1 Các bài báo vả báo cáo khoa h o c ..........................
Bào cào tổng họp để tái "Nhận dọng cóc form tời liêu

50
3



Trung tâm Nghiên cứit vị Phát triển Cơng nghệ Phán mềm. Trường Đại học Câng nghệ. ĐHQGHN

Phụ lục 2. Bìa các luận vãn và khóa luận tổt nghiệp..................................................50
PHIẾU ĐẢNG KÝ KÉT QUÀ NGHIÊN c ử u KH - CN

Bào cào tơng hợp đê tịi Nhậti dciiỉg COc form toi lìcu

51

4


Trung tâm Nghiên cứu và Phát triển Công nghệ Phần mềm. Tnrờng Đại học Công nghệ, ĐHQGHN

BÀNG CÁC THUẬT NGỮ VÀ TỪ VIÉT TÂT

1 v iế t tắ t

Giải nghĩa

' Ị
.

ĐHQGHN Đại'học Quôc gia Hà nội
NC&PT

Nghiên cứu và Phát triển


CNPM

Công nghệ phần mềm

ThS

Thạc sĩ

GVC

Giảng viên chính

CN

Cử nhân

KS

Kỹ sư.

HCI

Human - computer interaction

CSDL

Cơ sở dữ liệu

'


1

DANH SÁCH NHỮNG NGƯỜI THAM GIA THỰC HIỆN ĐẺ TÀI
' srr

- : •- :
Nơi n g tả c , chửc đanh

Họ ten

1

Đãng Việt Dũng

KS

Trung tâm NC&PT CNPM

2;

Đào Kiến Quốc

ThS

Giám đổc Trung tâm NC&PT CNPM

Đào Thanh Khiết

CN


Trung tâm NC&PT CNPM

Nsuvễn Thanh Phúc

CN

Sinh viên K47

Nguyễn Thu Trang

CN

Sinh viên K48

Đinh Vàn Phương

CN

Srnh viên K47

•.J.vị;;

4.

6

Báo cóo rống họp đề tàì "Nhân dạng cóc form tịì liệu

1


5


Trung tăm Nghiên cửu và Phát triển Công nghệ Phởn mềm. Trưởng Đại học Cõng nghệ. ĐHQGHN

DANH MỤC CÁC HÌNH VẼ
Hình 1: Sơ đồ hệ thổng nhập dữ liệu tự động.............................................................................. 14
Hình 2: (a) Ảnh scan; (b) Anh sau lần lọc thứ nhất, (c) Ảnh sau lẩn lọc cuối cùn°, (d) Ảnh
sau khi nhị phân h ó a .......................... ...................................................................................... 17
Hình 3: (a) Anh scan có đường viền màu đen, (b) Anh sau khi được lọc nhiễu........................ 18
Hình 4: Các kiểu hình dạng khác nhau của cụm, mỗi màu tương ứng

VỚI

một c ụ m .................19

Hình 5: (a)ảnh với góc nghiêng bang không, (b) đồ thị của phép chiếu ngang trên ảnh (a) 20
Hình 6: (a) Ảnh với góc nghiêng 5°, (b) Đồ thị cùa phép chiếu ngang trên ảnh (a)................ 21
Hình 7: (a) Ảnh scan, (b) Ảnh sau khi chỉnh xác góc nghiêng....................................................23
Hình 8: (a) Ảnh sau khi tiền xử lý ,..................................................................................................26
(b) Ảnh sau khi lọc các black run ngẳn theo chiều ngang (c) Anh sau khi hợp cách black run
dài theo chiều ngang, (d) Ảnh sau khi loc các black ran ngắn theo chiêu thẳng đứng (e)
Ảnh sau khi hợp các black run dài theo chiều thẳng đứng (f) Các đường thang xác đinh
được trên ả n h ...............................................................................................................................26
Hình 9: (a) Đường thẳng mờ và bị đứt doan (b) Đường thang xác đmh đươc khi tính đến mât
đ ộ .... ........ ......................................................................................................................................27
Hình 10: Xác đinh nhầm đường thẳng do phân bố không đều trên đ ư ờ n g ................................ 27
Hừih 11 Chia đường thẳng thành các đoan ngắn rồi tinh mật đỏ Ưẽn các đoan này

28


Hình 12: (a) Ảnh mẫu, (b) Đinh nohĩa các vùng nhâp dừ liệu trên ảnh mẫu, (c) Anh scan sau
khi tiền xử lý; (d) Kết quá tách vùng trên ảnh scan............................................................... 34
Hình 13: Mầu form có cấu trú c ...........................................................................................................35
Hình 14: Giao diên chính của chương trình

38

Hình 15: (a) Ảnh mẫu, (b) Kết quả thu đươc sau khi phân vùng............................................... 41
Hình 16: Giao diện c h ín h ................................................................................................................. 43
Hình 17: Mầu dữ liêu.........................................................................................................................43
Hinh 18: Thiết kế form

45

Hình 19: Ví du thiết kế form

45

Bào cào tồng hợp đế tài "Nhân dạng các form tàì liệu

6


Trung tởm Nghiên cứu và Phát triển Cóng nghệ Phân mềm. Truừng Đại học Công nghệ. ĐHQGHN

DANH MỤC CÁC BÀNG s ổ LIỆU
Bảng 1: Độ chính xác của phương pháp xác định đường thẳng

40


Bảng 2: Độ chính xác của phuơng pháp ghép cặp các đường thẳng

40

Bào cào tông họp dế tài "Nhổn dang cóc form tịi liệu

7


Trung tâm Nghiên cứu và Phát triển Công nghệ Phân mềm, Trườỉig Đại học Cơng nghệ. ĐHQGHN

TĨM TÂT NHỮNG KÉT QUÀ CHÍNH CỦA ĐẺ TÀI
1. Tên đề tài:
“Nhận dạng các form tài liệu”
Mã số: QC.06.01
2. Chủ trì đề tài:
Họ và tên: Đặng Việt Dũng

Nam

Năm sinh: 1980
Học hàm, học v ị : KS

Chức vụ: Nghiên cứu viên Trung tâm Nghiên cứu và phát triển CônQ nshê Phẩn mềm
Đơn VỊ công tác:

Trường Đại hoc Công nghê. Đai hoc Quốc cia Hà nôi

Tel: 7549331

3. Nhũng kết quả chính:
a. Kết quá về khoa học (nhừng đóng góp của đề tài, các cơng trình khoa hoc côns bố)
( a l ).

Phương pháp tách vùng trên form tài liêu

(a2).

01 báo cáo tại hôi thảo khoa hoc quốc 212 FAIR

(a3).

Báo cáo tổng hợp đề tài

b. Kết quả phục vụ thưc tế (các sản phẩm côns nahé. khả năng áp duns thưc tế)
( b l ). Mô đun phần mềm tách vùng trên form
(b2). Mô đun phần mềm quản tri form
c Kết quà đào tạo (số lượng sinh viên, hoc viên cao hoc. nghiên cứu sinh lảm việc iron*,
đề tài)
03 khóa luân tốt nohiêp của sinh viên đươc hoan thanh
d. Kết quả nâng cao tiềm lưc khoa hoc (nâng cao trinh đô cán bô và tăns cưono trana thic;
bị cho đơn vị )

(d l)

Qua thưc hiên đẻ tai, cán bô cùa Trung tám đươc nâng cao banlĩnhnshiẽn

cứu

triển khai ứng dung Đăc biêt lá chù tri đê tai là mỏt cán bô trẻ,lẩn đâu tiên chủ

tri một đề tài nshiên cứu cẩp Đại hoc Quốc sia Hà nôi
Bào cào tỏng họp đề tài "Nhón dạng các form tàỉ liệu

8


Trung tâm Nghiên cứu và Phát triến Công nghệ Phản mểm, Trường Đại học Cơng nghệ. ĐHQGHN

(d2).


Qua thực hiện đề tài, Trung tâm Cơng nghệ Phần mềm đã tích lũy thêm đươc
một mũi nhọn ữong tiềm năng nghiên cứu triển khai ứng dụng của Trung tâm
đó là nhận dạng các form tài liệu.

e Tinh hình sử dụng kinh phí
- đã sử dụng hết kinh phí được cấp (28 triệu VND)
- đã chi các khoản như sau:
Tên mục

Muc


Số tiền
(triệu đồng)
1
oD

110


Cung ứng vãn phịng

112

HỘI nghi, hội thảo, xemina

114

Chi phí th mướn

119

Chí phí hoạt động chun mơn

5

145

Mua sắm TSCĐ
(Thiết bị tích hợp V Ớ I các hệ thống điện thoại được mua
từ một nguồn kinh phí nghiên cửu khác)

0

135

Chi khác (phơ tơ, tài liệu)

2


17

28

Tổng cộng
CHỦ NHIỆM ĐÊ TÀI

Đ ặng Việt D ũng

XÁC NHẬN CỦA ĐƠN VỊ

Đào Kiến Quốc

XÁC NH ẶN C ơ QUAN CHỦ QU Ả N

Bào cớo tỏng họp đế tài "Nhộn dọng các form tời liệu

9


Trung tâm Nghiên cửu và Phát triển Công nghệ Phản mềm, Trường Đại học Công nghệ. ĐHQGHN

CHƯƠNG 1. GIỚI THIỆU

1.1.

Đặt vấn đề
Trong những năm qua, tại Trung tâm'Nghiên cửu và Phát triển Công nghệ Phẩn mềm và

Bộ môn Công nghệ đã thực hiện nhiều đề tài theo hướng nhận dạna tài liệu Một số kết quả

đẵ thực hiện được bao gồm:
-

Xây dựng hệ nhận dang các phiếu thi trấc nahiệm và xây dưng phần mềm tồ chức thi
ứẳc nghiệm bằng nhận dạng quang học do Đào Kiến Quốc và các chủ tri. Phần mềm
đã nhận được Giải thường Sáng tao Khoa hoc và Công nghệ Việt Nam năm 2002

-

Nhận dạng chữ viết tay do TS Nguyễn Việt Hà chù tri tại Bộ môn CNPM sừ dung
mạng neuron hai lớp Sinh viên Nsuvễn Minh Ánh, Trần Trí Hồi, Lê Việt Cường đã
tham gia nghiên cứu Kcl quả đal đươc rất khả quan với việc có thể đoc chữ viết tay
tiếng Việt với độ chính xác lên tới 93%

Rất nhiều hệ thống thơng tin có vấn đề nhâp dữ liệu từ nguồn tài liêu trên giấy Chẳng
han, nhập điểm từ c á c bàng điêm của sinh, nhảp phiếu đăng ký thi vào đai hoc (hàng van

phiếu mồi năm), tờ khai ờ các trurm tâm dịch vu hành chính, nhân dans địa chì trên phong bi
để cỏ thể chia thư tư động. Nêu co một phương tiện chup ảnh tài liệu sau đó phân tích ảnh,
nhận dạng và cập nhật vào CSDL thi có thê lảm hiệu quả tăns gâp vài chuc lẩn
Tại Viên CNTT thuôc Truns tâm Khoa hoc và Công nghê Quốc sia cũng đã thực hiện
nhiều đề tài nhận dang và đã cỏ những kết quả xuât săc vê nhận dạna tài ]]ệu như đã đươc
hiện thực trong phần mềm VnDOCR. Tuy nhiên phân mêm này chi nhân dang chữ m, trong
khi đó hầu hết các phiếu đăng ký thi chi có chừ viêt tay Hơn nữa việc nhân dans môt tai liêu
dừng ờ mức sinh ra môt tài liệu (dưới dans rtf) cịn nhân dang form cịn có môt đãc điểm
khác là thông tin nhân dang đươc 0' mỗi vùn ° cản đưọc hên kêt VỚI môt trường nào đó cùa cơ

sờ dừ liệu để cập nhât dữ liệu tự đơng Vi thê nhận dang form cịn có một vấn đề đãc thu là
phân tích và/hoăc quản lý cẩu trúc form và tươrm tác VỚI cơ sở dừ liêu


Với các văn bàn thơns thườn 2 ta khỏ có thẻ đat đươc đỗ chính xác cao thỏno qua nhân
dano tuy nhiên trong các form văn bản lả những loai văn bản có câu trúc ta có thê đưa ra các

qưy tắc ràng buỏc để tăna đơ chính xác cho viẻc nhân dang Chăng han các chừ đươc viết
nêng rẽ trên các ô riêng biẻt của các vùng nháp liệu Mặt khác việc nhản dana khônu cân tiến

Bão cào tổng hợp đề ỉòi "Nhân dang các form tời liệu '

10


Trung tâm Nghiên cửu và Phát triển Công nghệ Phần mềm. Trường Đại học Cơng nghệ. ĐHQGHN

hành trên tồn bộ ảnh của tài liệu mà chỉ giới hạn ờ những vùng nhập dừ liêu Đặc điểm này
cũllg cho phép người ta tiếp cận một cách có hiệu quả hon, chẳng hạn có thể tân dụn° các
thơng tin sẵn có từ thiết kế form làm các tham sổ nhận dạng Môt khía canh khác của nhân
dạng form tài liệu là các dữ liệu nhận dạng được của mỗi vùng của form sẽ phải được tư đông
gắn vào một trường dữ liệu xác định của ứng dụng.
Trong để tài này, chúng tôi nghiên cửu phương pháp nhân dạng các form tài liệu nhầm
phục vụ cho bài toán nhập dữ liệu tự động từ vào máy tính.

1.2.

Mục tiêu nghiên cứu và ý nghĩa của đề tài
Nghiên cứu giải pháp “đọc” tự động các phiếu bằng nhân dạng ảnh
Đưa ra đuợc phương pháp quàn trị form, phương pháp nhân dang form và phương pháp

tích hợp VỚI các ứng dung dựa trên cơ sờ dữ liệu

Từ phương pháp quản trị form và nhận dạng form đã đề xuất, tiếp tục phát triển sàn

phẩm công nghê như một too] cung cấp khả năng design form, nhân dang form, khai báo
tuơ ng tác với các ú n g dung khác để có thể tích hợp VỚI các ứng dụng khác

Đảy là một đề tài triẻn khai nghiên cứu và triển khai, có khả năng ứníỉ duno cao Rất
nhiều nơi có nhu cầu nhâp dữ liệu nhanh từ các phiếu.

1.3.

Nội dung nghiên cứu
Viẻc xây dựng mơí phần mềm ở đạt mức thương mại là môt công việc lớn, địi hỏi cơng

sức cùa nhiều người, làm trong nhiều năm với mơt kmh phí khơng nhỏ Nhóm đề tài triển
khai trono nhiều pha m à trong khn khổ kinh phí của năm 2006 chỉ đặt ra thử nohiêm thành

côn° ờ mức nhân dang các form không quá phức tạp và đua ra đươc môt prototype của sản
phẩm thương mại trong tương lai. Cụ thể nội dung nghiên cửu như sau:
■ Đăc tả form tài liệu
■ Nhân dans và quàn tri cấu trúc form tài liệu
■ Xây dim s các mô đun phân mêm thử nghiêm Mô đun quản tri form, mó đun nhãn
dang form

1.4. Cấu trúc của báo cáo
NỊI duns các chưons sau m có: Chương 2 trinh bày vẻ tỏ chức thưc hiên đẽ tai
Chươno 3 trinh bày tổng quan vẽ các vân đê nghiên cửu; đẻ xuảt phuơn<4 phap nhản dan«

Báo cáo tỏng hợp đế tài "Nhận dạng các form tàì liệu

ll



Trung tăm Nghiên cửu và Phát triển Công nghệ Phần mềm. Trường Đại học Công nghệ, ĐHQGHN

form tài liệu, mô tả các mô đun phần mềm thử nghiệm. Chương 4 tổng kểt các kết quả nohiên
círtl của đề tài. Cuối cùng chưomg 5 nêu kết luận và kiến nghị.

Báo cáo (ơng hợp để (ời "Nhận dạng cóc form tài liêu

12


Trung tâm Nghiên cứu và Phát triển Công nghệ Phân mềm, Trường Đại học Cõng nghê. ĐHQGHN

CHƯƠNG 2. TỎ CHỨC THỰC HIỆN
2.1. Phương pháp nghiên cứu:
Nghiên cứu tập trung vào phẩn phân tích, nhận dạng và quản tn cấu trúc của form Riêng
phần nhận dạng chữ viết tay, chúng tôi sê phổi hợp với các nhóm nghiên cứu khác và tiếp tục
đầu tư nhằm nhận dạng hoàn toàn form tài liệu. Một sổ tác giả đã có các nghiên cứu thành
công ờ một mức độ nhất định là các tác giả Nguyễn Việt Hà, Nguyễn Minh Anh, Trần Trí
Hồi, Lê Việt Cường với phương pháp sử dụng mạng neuron hai lớp. Một số các nhà nghiên
cứu ờ Viện Công nghệ Thông tin, Viện Công nghệ và Khoa học tự nhiên cũng đã thu được
một số kết quà đáng khích lệ.
Kỹ thuât nhận dạng được kế thừa từ các kỹ thuật xù lý ảnh, nhận dạng ảnh đã có trên thế
giới, chọn lọc và đề xuất, cải tiến phương pháp nhận dạng phù hợp với các form tài liệu Để
tài cũng kế thừa kinh nghiệm đã có trong việc phát triển thuật toán nhận dạng phiếu thỉ trẳc
nghiệm đã được ứng dụng thành công trong phần mềm MrTest

2.2. Phân công trách nhiệm:
-

Quản lý dự án, tham gia phân tích và thiết kế hệ thống: Đặng Việt Dũng, Đào Kiến

Quốc (Giám đốc Trung tâm Công nghệ Phần mềm), Đảo Thanh Khiết.

-

Nghiên cứu đề xuất phượng pháp nhận dạng form và phát triển mô đun phần mềm
nhận dạng form: Nguyễn Thanh Phúc, Đinh Văn Phương

-

Nghiên cứu phương pháp đặc tả form và xây dưng mô đun phần mềm quản tri form
Nguyễn Thu Trang

-

Chuẩn bị báo cáo khoa học tại hôi thảo khoa học FAIR 2007: Nsuyễn Thanh Phúc
Đào Kiến Quốc, Nguyễn Thu Trang

-

Kiềm thử sản phẩm và xây dựng tài liệu: Đào Kiến Quổc, Đặng Viêt Dùne

Bào cáo tồng hợp đế tàĩ "Nhận dọng cóc form tàì hệu

13


Trung tăm Nghiên cứu và Phát triển Công nghệ Phỗn mếm, Trường Đại học Công nghệ, ĐHQGHN

CHƯƠNG 3. NỘI DUNG NGHIÊN cừ u


3.1. Hệ thống nhập dữ liệu tự động vào máy tính bằng nhận dạng quang
học
Hình 1 mơ tả hệ thổng nhập dữ liệu tự động bằng nhận dạng quang học. Bài toán nhập dừ
liệu tự động từ form tài liệu gồm các vấn đề sau:
-

Quản trị form bao gồm : thiết kế form nhập liệu, quản lý và lưu trữ tự động các tham
số của form để có thể cung cấp thơng tin cho q trình nhận dạng sau này thêm nhanh,
tin cậy vả có thể tích hợp được với cơ sờ dữ liệu của ứng dụng

-

Nhận dạng các vùng dữ liệu (bài toán phát hiện và phân vùng dữ liệu).

-

Nhận dạng chữ viết tay trên các vùng dữ liệu, xừ lý từ vựng và ghi nhân vào cơ sờ dữ
liệu.

-

Tiền xử lý ảnh để phuc vụ cho q trình nhận dạng, đảm bào độ tin cây

/•" * s

/
/
.

/

\

Ả nh
í can

s

_s

\

(r z

ị <


I

j ............. .....Ị

Loc
n h iễu



__ j

Ị Chinh xác Ị 1

góc

Ị Ị
1 R g h lê o g j 1

í
;

[

F h in
vùng

!

1
i


ì

............. 'Ị
N hân

darig
1
<

\
i

(


4

D ata bare 1

:

T iền xù Iv ảnh
File
T em p late ỵ

"%- " " '
‘V.

/
>

Ánh
m ẫu

y
/

Quán tri Form

Hình ì: Sơ đỏ hệ thổng nhập dừ liệu tự động
Các phần tiếp theo sẽ trình bàv nghiên cứu của chứng tôi về bước tiền xử lý ảnh, bước
nhận dan° cấu trúc form tài liêu, phương pháp quản trị form tài liêu Trono mỗi phản sẽ dê
xuẩt thuật tốn mới hoặc cải tiến tht tốn đã có nhăm đáp ứng bài toán nhản dano form


Bào cào tỏng hợp đế tài "Nhận dạng các form tài liệu

14


Trung tám Nghiên cứu vá Phát triển Công nghệ Phẩn mểm. Trường Đại học Công nghệ. ĐHQGhTN

3.2. Tiền xừ lý ành áp dụng cho hệ thổng nhận dạng form


.

.

.

Quy trình nhận dạng được tóm tắt như sau: đẩu tiên vãn bản cần nhận dạng đươc đưa qua
hệ thống tiền xử lý để lọc nhiễu, chính xác lại góc nghiêng, sau đó ảnh sẽ được phân vùn°
dựa trên việc xác định các đường thẳng có trong ảnh, CU01 cùng là tách nêng và nhận dano
trên các vùng nhập dữ liệu - Hình 1. Saii.đây chúng tơi sẽ trình bày chi tiết về phẩn loc nhiễu
và chính xác lại góc nghiêng.

3.2.1. Thuật tốn lọc nhiễu và nhị phân hố.
3.2.1.1. Giới thiệu
Thơng thường vãn bản được quét và lưu trữ dưới dạng hình ảnh đa mức xám Trong đó
hầu hết các thuật tốn về xử ]ý và phân tích văn bản dều dưa trên ảnh nhị phân Việc sử dụng
ảnh nhị phân chì VỚI hai m ức trẳng và đen giảm bớt được khối lượng tính tốn và đơn oiàn

hố các phương pháp phân tích so với ảnh xám (256 mức) Do đó việc tim ra mơt tht tốn
nhị phân hóa nhanh và hiệu quả là một điêu rấi cân thiêt

Nhiều phương pháp về nhị phân hóa ảnh đã được phát triển, trong số đó có những
phương pháp đem lại kết quả rất tốt. Có thể kể đển như các thuật tốn dựa trên sư biến thiên
về cường đô mức xám ờ các vùng khác nhau của văn bản hay các thuật toán về tính ngưỡng
nhi phân cục bộ [16]... Tuy nhiên các phương pháp này thường áp dung đối VỚI nhữn« hình
ảnh tồng qt và địi hịi tính tốn phírc tap bời vi đều phải tính đến cấu trúc cùa ảnh
Trong bài tốn này, chúns tơi chi xừ lý trên các văn bản kiểu form, vốn đĩ là các hinh ảnh
đơn giản chì gồm hai mức đen (đê thê hiên chữ) và trăng (nên của vãn bản), văn bản cữns
thường phân bố khá đồng đêu Chính vì vây việc nhị phân hóa ảnh có thể đuơc thưc hiện chì
dua trên lược đồ xám cùa ảnh mà khôns phu thuôc vào câu trúc ảnh. Trên cơ sờ này, chúng
tôi đã kết hơp các kỹ thuật thưc hiên nhiều lần tăng cường độ tưong phản bang cách điểu
chỉnh mức xám [ 16], phân ngưỡng tự đơn2 đê nhị phân hố ảnh.
3.2.1.2. Mơ tả thuật toán
Anh của vãn bản gốc vốn dĩ là ảnh nhị phân, tức là chỉ có hai ngưỡng đen, trẳns cho chừ
và nền. Song sau khi in ra và quét lai vào máy tính, nó trờ thành ảnh đa mức xám tức là có
256 ngưỡng khác nhau Một số vùng nên có thể xám hơn, ngược lai mỏt số đối tươns chữ
bảng và địng kẻ có the mờ đi Nhiêm vu cùa chúng ta ờ đây là tách các đối tưcmo cẩn xử lý ra
khỏi hình nền
Thuật tốn đươc xây dưng dưa trên giả thiẽt măc dù có sư biên đơi vẻ nsirỡng tuy nhién
vẫn có sự khác biệt giữa nsư õ n s cùa chừ và cùa nên Thông qua viêc tăn ° cươna đỏ tưcms
phản lặp lại nhiều lần, ta hi vonti rang có thẻ khuyếch đai sư khác biêt này môt cach đáns kể
Ành lá một tập các điềm ảnh, được biêu diễn bời công thức :
Báo cáo tồng hợp để tời "Nhớn dạng cóc form lịi liêu

15


Trung tâm Nghiên cứu và Phát triển Cõng nghệ Phần mềm, Trường Đại học Công nghệ. ĐHQGHN

I(x,y) = n


(n € [0,255])

Cơng thúc 0-1
Khi đó giá trị trung binh của mức xám là:
WH

Ỵ l{x ,y )

w : W idth

Y _>'=]_________

H : H eigh

W *H

Cơng thức 0-2
Ta có thể tóm tắt quy trình lọc nhiễu như sau :
Bước 1 : Tính già trị độ xâm trang bình T

HW

Y Z h (x > y )

T, =

x=ữ v=0

W*H


Bước 2 : Tăng độ rương phàn cho ánh mới

L ,
Bước 3 : Lập lại bước 1 cho tới khi giá rrỊ T giữa 2 ỉản ìoc liên riếp nhau lã gán như nhau

Với cách lọc trực tiểp trên ảnh ờ ưên, thỉ tiếp chi phí tính toán cho phương pháp lọc nảy
chủ yếu tập trung vào chi phí tính tốn ờ Tk và Ik+]. Do vậy đề-giảm chi phí tính tốn cho
phép lọc náy chúng ta chì tính T0 (tức giá trị mức xám trung bình của ảnh gốc) duy nhất một
lần và các giá trị Tk tiếp theo sẽ được tính dựa trên Tk.j Mặt khác ta nhân thấy giá trị mức
xám của ảnh nằm trong khoáng [0. 255], mà giá trị các điểm ảnh I(x,y) chỉ nẳm trong
khoảng giá trị mức xám cho phép này, do vậy chúng ta sẽ thực hiện các phép lọc ảnh nhiều
lần ch ì trên ỉư ợ c đồ m ức xám và CU01 cùng m ới thực hiện tăng độ tương phàn cho ảnh cuối

Ta có thể hình dung các bước thưc hiện chính như sau:
Bước 0 : Tính giá trị mức xám trung bình

Bào cáo tơng hợp đế tờì "Nhận dọng cóc form tài liệu'

T(J

cùa ánh góc.

16


Trung tâm Nghiên cứu và Phát triến Công nghệ Phần mềm, Trường Đại học Công nghệ. ĐHQGHN

Bước 1 : Tăng độ tircmgphàn ánh trên lược đỗ mức xám.
Bước 2 : Tính giá trị trung bình Tkí dựa trẽn Tk.j.
Bước 3 : Lặp lại bước J, cho tới khi Tk và Tk- 1 gần như nhan.

Bước 4 : Thirc hiện điều chinh độ tưorìg phán cho anh gốc cuối cùng dựa trên kết
quả của ỉược đồ mức xám ở bửớc cuối cùng.
Sau cùng, khi ảnh đã được lọc nền và làm sạch, ta tiến hành nhi phân hóa ảnh. Ngưỡng
nhị phân được chọn là:

T h r e s h o l d = -ậ T Jmai
fảnal + \ 0 N
Công thức 0-3
Trong đó T final là mức xám trung bỉnh trong bước biên đơi C1 cùne, N là số bước thực
hiện biến đổi.
Ta thu được ảnh đã lọc nhiều và nhị phân hóa như trong hình vẽ
< < < .v:Y?*x%y.

:

'
:: : : : ; jfexv •'

(a)

(c)

(b)

(d)

Hình 2: (a) Anh scan; (b) Anh sau lần ìọc thử nhắt; (c) Anh sau ìắn lọc cuối cùng; (d) Anh sau
khi nhị phân hóa

3.2.1.3. Loại bỏ đucmg biên

VỚI phương pháp trên chứns ta có thẻ được tách nên ra khỏi các thông tin cần nhân dang
với những ảnh có đường biên là màu trang. Nhung thực tể các ảnh scan vào khơng chỉ có
đường biên lả màu trắng, mà có thể có các đường biên là màu đen do vậy chúng ảnh hưcms
rất lớn giá trị trung bỉnh mức xám T, khi đó ảnh sau khi lọc có thê chỉ cịn đươns biên màu

Báo cáo lổng họp đế tài "Nhận dạng cóc form tài liệu

OA\ HỌC Q U Ố C GIA HẢ NỘI
ỈRUNG TẨM THÔNG TIN THƯ VIỄN

DT

/

'm

17


Tnơig tâm Nghiên cứu và Phát triến Công nghệ Phán mềm. Trường Đại học Cõng nghệ, ĐHQGHN

U I)

(b ì

Hình 3: (a) A nh scan cỏ đường viển màu đen, (b) Anh sau khi được ĩọc nhiễu
Đẻ khẳc phục trường hợp này, trước tiên chúng ta phải khừ các đường viền đen này
Thực tế nghiên cứu nhiều ành scan khác nhau chúns tôi nhận thấy rang các điềm đen trẽn
đường viền phân bổ m ôt cách rời rạc, không liên tục, cóxen kẽ cảc điểm trắna (hoăc củm
điểm trắng), và có các hình dạng rất khác nhau tủy thuộc vào chất lượno


m áy scan và só c

nghiêng cùa ảnh.
Do vậy để khử đường các đuờng viền đen này chúng tôi đề xuất giài pháp khử đườns
viền bằng cách dựa vào phương pháp phân cụm có tính đến mật đơ (Density-Based
Clusturing) [3] Đặc điểm của phương pháp phân cụm :


Có thể phân cụm



Chấp nhận nhiễu



Chì thực hiện duyệt mơt lân



Cần tham sổ mật độ cho điêu kiên kêt thúc

VỚI

nhiều hình dạng khác nhau, kê các các hình dans bất thườno

Báo cào tơng hợp đế tòi "Nhộn dạng các form tòi liệu '

18



Trung tõm Nghiên cứu và Phàt triển Công nghệ Phõn mềm, Trường Đại học Cơng nghệ, ĐHQGHN

Hình 4: Các kiểu hình dạng khác nhau của cụm, mỗi màu tương ứng với một cụm
Á p dụng phương pháp phân cụm , chú n g tôi đề xuất phương pháp khử đường viền đen có

thể thực hiện các bước chính sau:
Bước ỉ : Xuất phát từ điểm p ta đi tỉm một cụm, sao cho p thuộc vào cụm đơ);
Bước 2: Đặt tat cà các điêm trong cụm cúa p lờ điẽm trang
Bước 3: Lặp lại bước ì cho tới khi khơng cịn tồn tại cụm nào.
Chú ý : Thuật tốn nà)> chi áp dụng với các điểm gàn viển ỉà màu đen, không áp dụng với
các điểm đen bên trong
3.2.1.4. Kết luận
Dựa trên kết quả thực nghiệm sau khi áp dụng thuật tốn đổi VỚI 60 form văn bản thc
về 4 loại khác nhau, chúng tôi thấy rằng kết quả thu đuơc hồn tồn có thề so sánh VỚI kết
quả của các thuật tốn khác. Thời gian đề nhị phân hóa ành có độ phân giải là 300 DPI VỚI 10
lần lặp chì là 85ms. Điều này chửng minh rang thuật toản cỏ thể áp dụng rẳt hiệu quả khí ta
cần xử lý văn bản VỚI sổ luợng lớn.
3.2.2. Thuật toán khử nghỉêng
Buớc tiếp theo sau khi lọc nhiễu và nhi phân hóa đẻ tạo ra một hình ảnh chì có hai mửc
đen và trắng là chính xác lại sóc nghiêng cùa ảnh.Thơng thường các thuật tốn nhân dạng chỉ
có thể áp dụng đổi với các ảnh có góc nghiêng nhị. Do đó việc tim góc nshiêng là một cơng
v iệc hết sức quan trong và nó có ảnh h ư ờ ng rất lớn đối VỚI v iệ c nhận dạng chính xác văn bản

Hiện nay đã có rất nhiều phương pháp xác định góc nghiêng cho một tài liêu dạns ánh
thuộc nhiều kiểu khác nhau từ tông quát đến cu thê. Mồi phương pháp có mơt cách tiếp cân
khác nhau cùng những ưu điêm và nhươc điêm nhất đinh Các phương pháp xác đinh 2 ÓC
nghiêng dựa trên các đổi tượng liên kết (connected com ponent) rất hiêu quà VỚI nhữns ảnh cị
nhiều kí tự, tuy nhiên lại khá nhạy càm VỚI nhiễu Các phương pháp dưa trên phép biến đổi

Hough mặc dù có thể áp dụng trên các văn bản tồng quát lai đòi hòi khối lượno tinh toán lớn
cũng như phải biến đổi ảnh qua nhiều bước mới áp dung đươc Các phươno pháp dưa trên
phép chiểu hiệu quả với các ảnh phân bố đều và có hưcmg nhưng xừ lý vẫn con rất phức tap
Báo cáo tỏng hợp để tài "Nhận dọng các form tàì liệu

19


Trung tâm Nghiên cửu và Phát triến Công nghệ Phần mềm, Trường Đại học Công nghệ. ĐHQGHN

Qua việc nghiên cứu rất nhiều dạng Form văn bản khác nhau bao gồm cả văn bản tiểng việt
v ítiế n g anh cùng với việc nghiên cửu nhiều thuật tốn [8,9,11,14,15,18,14], chúns tơi thấy
ràng phương pháp phép chiếu là m ột phương pháp thích hợp để xác đinh góc nghiêns của các
form vãn bản trong phạm vi của bài tốn. Bời vì :
• Phương pháp phép chiểu cho kết quả với độ chính cao trên các form văn bản thuôc
phạm vi của bài tốn.
• Có thể thực hiện một số cải tiến để giảm bớt khối lượng tính tốn.
• Dễ hiểu, dễ bảo tri.
3 2 2 . Ỉ . Phuơng pháp xác định góc nghiêng dụa trên phép chiếu.
Tư tường cơ bản của phương pháp này dựa trên đặc trưng của văn bản đó là các dona
chữ hoặc các đối tượng khác như bảng hoặc các đoan thẳng thường đưoc đăt môt cách có thứ
tư Các chữ thường được đăt theo từng dịns. giữa các dịne có khống cách, các bans hỗc
hình hộp cùng thường đươc đặt theo chiêu ngang Do đặc trưns này nên khi ta chiếu các đỉêm
đen của m ột văn bàn VỚI g ó c n gh iên g bàng không theo chiêu n g a n g thi ta sẽ thu được m òi đõ

thi rất sẳc và có độ biến thiên lớn. VỚI các văn bản bị nghiêng, ta có thẻ thấv là phép chiếu sẽ
tạo ra một đồ thị trơn và thấp hơn. Dựa trên việc đánh giả các đồ thi này ta sẽ tim đươc 2 ĨC
nạhiẽng chính xác của ảnh
iHiriKiỉttlittt-.iỉ


AỉfH-
,ỉí>~1J M;V; ĩV*’
R EGISTRATION FORM
p.wuux*. .*ỉHS?í; B A ÍÍĨĨĨÌ
íỉ-:*«lí ■■M T M O K R H O S '. i? < t Kì* >.*>-.* <■»... ftr-ii ớv^xV- ?| i. -):kỡ >ôã> ;
V n * x M IỈ ĨS if.? i e .
»ồ* vi . . . wánĩ . Ĩ U

Hình 5: (a)anh với góc nghiêng bâng khơng; (h) đồ ihi của phép chiểu ngang írên anh (a

Bão cáo tổng hợp để tài "Nhộn dạng cóc form tài liệu ■

20


Trung tâm Nghiên cửu và Phát triển Công nghệ Phan mềm. Trường Đại học Cơng nghệ, ĐHQGHN

Hình 6: (a) Anh với góc nghiêng 5°; (b) Đỗ thị cua phép chiếu rĩgang trên anh (a)
Mô tả phương pháp phép chiếu [11] :
• Các điểm đen trên hình ảnh sẽ đươc chiếu theo các đưÒTig thẳns so na so n s váo

một mảng tích lũy ( A). Mỗi phẩn tử của mảnq tương úng với một đưịna chiếu vả
giá trị cùa nó là sổ điểm đen nằm ừên đường chiếu đó.
• Sử dụng phép ch iếu đối VỚI m ỗi g ó c n ghiêng giả định, ta thu đươc môt tập các

mảng tích lũy ( Atì). Dựa vào hàm đánh giá F ( Afl) với MĨNANGLE < p í
MAXANGLE, ta tim được góc nghiêne chính xác 9 của ảnh lả góc làm cho Q]á tri
của hàm đảnh giá F ( A(i) đạt cực đai.
Dựa trên các đặc trưng của văn bản ta có hai hàm đánh giá :


F , { A e ) = ỵ j ( A 0[ i } - A e [ i - \ ] ý
;=]
Công thức 1: Đánh giá độ biên ihìẽr, trên đó thị cua.phép chìếìi
(Dựa trên đặc điêm : đồ thị phép chiểu cua văn ban
độ biến thiên lớn)

VỚI

góc nghiêng chính

xác

thườn?



n

Báo cào tổng hợp đề tài "Nhân dạng cóc form tài liệu

21


Trung tăm Nghiên cửu và Phát triển Cõng nghệ Phân mềm, Trường Đại học Công nghệ, ĐHQGHN

(Dựa trên đặc điểm : đồ thì phép chiếu cùa văn bàn với góc nghiên chinh xác thường có
nhiều khống trống và có khồìĩg trổng rộng hơn)
Áp dụng phương pháp phép chiếu, ta thử VỚI từng góc 9 nằm trong khoảng (
MINANGLE, MAXANGLE). Góc 0 từn được là góc có hàm đánh giá tương ứng đạt giá tri

cực đại.
I
3 2 2 2 . Tổi ưu các tham số.
Văn bản sau khi qua máy quét thưịng tạo ra một hình ảnh bị nghiêng VỚI góc nghiêng
nẳm trong khoảng [-150, 150], Ta sẽ tìm góc nghiêng của ảnh trong khoảng này (
MINANGLE = -15, MAXANGLE = 15) Đây là một khoảng xác định phù hợp, vì nếu
khoảng tìm kiếm quá lớn sẽ làm tăng thời gian xử lý, ngược lại nếu khoảng q nhị thì có
nhiều khả năng góc nghiêng sẽ nằm ngồi khoảng Trong trường hợp góc nghiêng của hình
ảnh vượt q khoảng tim kiếm thi điều đó cũng sẽ được phát hiện trong bước xử ]ý tiếp theo (
phân vù n g ảnh), khi đó ta sẽ thực hiện tìm kiếm lại góc n gh iên g VỚI m ột khoản g tìm kiếm

rộng hơn.
Độ chênh lệch trong việc chon tùng góc 0 trong khoảng tìm kiếm cũng có ảnh hường
quan trọng đối VỚI hiêu năng và đơ chính xác Ví du như nếu mỗi góc 0 cách nhau mơt
khoảng 0.1 và khoảng tim kiếm lả ± 150 thi cân xét VỚI 300 trường hợp, đơ chính xác của góc
nghiêng thu được là ±0.10. Việc tính hàm ước lượng đối với tất cà các góc nghiêng có thề
như vậy là khơn g cần thiết, thay vào đó chúng tơi sử dụng khoản g cách 2 0 để ước lương ờ

bước đầu tiên. Sau đó dựa vào kết quà thu được, chứng tỏi thu hẹp khoảng tim kiếm và
khoảng cách giữa các góc cân ước lượng đê đạt được độ chính xác cao hơn
Cụ thể là sau bước đầu tiên, ta đã ước lưons đươc 2ĨC nghiên của ảnh là [3 VỚI đơ chính
xác ±2o, Bước tiếp theo sẽ tiếp tục tim kiếm góc nghiêng trong khoảng (P - 2o, p + 2o) VỚI
khoảng cách giữa các góc cần ước lưcm2 là 0 4o Sau bước này ta lại có‘ một uớc lượn 2 về
góc nghiêng mới là Ị3’ VỚI đơ chính xác là ±0.4o Cứ tiêp tuc như vậy cho đến khi ta đat đươc
độ chính xác cẩn thiết là ±0. ] 0 .
Thực nghiêm cho thấy trong bước đầu tiên, nếu lấy khoảng cách là 10 hoăc 20 khơng làm
thay đổi độ chính xác của thuât toán

Đe tăng cường hơn nữa hiêu quả tinh tốn, trong bước đâu tiên khi đơ chinh xác là nhị,
do đó khơng cần phài sừ dung ảnh lớn và chi tiết Chúng tôi sử dung ảnh cỡ khoảng 50DPI (

thu nhò từ ảnh ban đầu) cho các bước ước lương ban đảu: còn ư o n g các buớc tiếp theo thi sừ
duns ảnh sốc để đảm bảo đô chinh xác

Báo cào tống hợp đè tài "Nhận dạng các form lài liệu ■

22


Trung tâm Nghiên cứu và Phát triển Công nghệ Phần mềm, Trường Đại học Công nghệ, ĐHQGHN

<%: >K». M- w ) l V j < > -Va*:>><%

***ằ*ôằ,
f) S r>

ã

t

..... ,

?

T T r f - v ’n ■?yV •

•**

ữ tm X X D iìT -í-í--,
; <
í '* $ w * f

T • i / . f •%.*
*'.5.,^
• Ĩ • >•*.('; 1 J ã: J
f
ã
ããã-J-.:-.-V
V
.M

***'*


:
!?ã.

V.;.7

.y,x.;Vv '

**.v,...

1-:

......**.....

ằ1i'/ V iiwôy

...
ãifci;


kt'lftattc;?*. v*l> n>

.

V •; ...
V- 7 . . ”
f -i.•#„£.f * 7 f - " j / .

' r ' r - : : -L L .} r T v

.r
'

...
"

n ’ V^-TY*-

..

Vv

tsivv

•'Ja< >ằ>;<ằãV.
V';X.;::>:ôằô :< <:a'.yA..-AM>;v*-A w , [TT*:.T*; T j : *T*;*V7 T”t T*i • Vr*T • T •
r t l I i • ; í ‘Í*'Ị - ■?'! : r H • Ị : H f H

*


• .

••••••
: ::v - ẽ:•
• / y ~ ~ ị - . ị . Ị .J. :
• ’•**
.



jii'.vi-.......................................................... ................................

f .L ị4 X ị4 - ị- ị» ] * i3 - ị* [ ..ị.L > .l V P ^ L iJ
'•

X [1

■; • V'!" .
VVV

. . r i : L :. ! »1

.........
- •••*!*

(a)

. ....

*j"': * : "*! * * • * * ?* • . * ’t*V■;'■’


..

..

V **:**;*V*•

ao

Hình 7: (ơ) Anh scan, (b) Anh sau khỉ chính xác góc nghiêng
ư u điểm cùa p h u o ìig pháp :

• Phương pháp phép chiếu để xác định góc nghiêng của ảnh cho kếí quả rẩt chính
xác đối VỚI ảnh cùa form nhập dữ liệu do cố nhiều đường thẳng

• Tư tường cùa phép chiếu trong sáng, dễ cài đặt
• Tuy phép chiếu địi hịi tính tốn phức tạp nhưng ta có thể tăng tốc được bằng cách
sử dụng đường thẳng theo phương pháp Bresenham và kỹ thuật sử đụng bảng
lookup table
N h u ọ c điểm :

• Cho kết quả khơns chính xác lãm đối với các ảnh có kích thước nhỏ do ta sử dụng
các đường chiếu lả các đưòng thẳng trong hê toa độ nguyên nên các đường thẳng
này chỉ là xấp xì, ảnh càng lớn thì các đường thăng này càng chính xác => càng

cho kết quả chính xác hơn

Bào cáo tơng hợp để tài "Nhận dạng các form tàì liệu '

23



Trung tám Nghiên cứu và Phát triển Công nghệ Phần mềm, Trường Đại học Cơng nghệ, ĐHQGHN

• Các hàm ước lượng về biểu đồ của phép chiếu chưa thề hiện được hết bản chất của


phép chiếu. Mỗi cơng thức chi mơ tả được một khía cạch cụ thề

3.3. Nhận dạng vùng nhập dữ liệu trong form tài liệu
Sau các bước xử lý lọc nhiễu và xác,định góc quay của ảnh, công việc tiếp theo cân tiến
hành đỏ là xác định các vùng vãn bản cần xử lý, đây cũng chính là đầu vào cho phần nhân
dạng dừ liệu.
Chú ý rằng vãn bản chúng tôi xử lý ờ đây là văn bàn dạng form nhập dữ liêu dưa trên
mẫu form đã có sẵn. Sau khi form được nhập dữ liệu và qt lại vào máy tính, dựa trên mầr
có sẵn và đổi chiếu với ảnh scan, ta tim các vùng trên ảnh scan được nhập dữ liệu và xừ lý
nhận dạng trên các vùng này. Dữ liệu sau khi nhận dạng sẽ được lưu lại tưcmg ứng VỚI các
trường dữ liệu trong form mẫu Khi xử ]ý văn bản, ta không cần nhận dạng toàn bộ vãn ban
mà chi giới hạn nhận dạng trên các vùng mà thông tin được nhập vào.
Xác định các vùng cẩn nhân dạng luôn luôn là công viêc quan trọng nhấttrong nhân
dạng form nhập dữ liệu. Một số phương pháp thướng dùng hiện nay đe xác định các vừng nay
đã được nêu ờ phần tổng quan nhu : dùng hệ tọa độ tuyệt đối và hệ tọa độ tưong đối để phân
vùng.
Trong phương pháp thứ nhất, do trong q ừình scan, ảnh có thể bị biến dạng làm cho VỊ

trí các vùng thay đổi Thêm vào đó, sai số trong việc xác định góc quay và đơ dich của ảnh
cùng ảnh hường đến VỊ trí tuyệt đối của các vùng Theo phương pháp này, các vùng cànọ xa
goc tọa độ thi sai số vẻ vị trí càng lớn. Tuy nhiên phương pháp nảy đơn giải] va dễ cái đãl
Phương pháp thứ hai là pbưong pháp sừ dụng tọa độ tương đối. tiêu biểu lả phươĩìữ pháp
xác đinh các b lock, sau đó dựa vào các block này đê tính vị trí tư o n s đổi cùa các vùna cẩn


tách [10], Trong phương pháp này, các khối trong ảnh sẽ đươc đổi chiếu VỚI các khối troni:

form mẫu. Sau đó vùng nhập dữ liệu sẽ đuợc xác đinh thòng qua toa độ cục bộ Phưoma pháp
này tỏ ra rất hiêu quả đối với sai sô về vị trí do văn bản bị dịch hoăc bị nghiẻno troníì mót
giới hạn cho phép. Mặc đù vậy, việc xác định các block trong ánh khôns phải là cônụ việc
đon giàn, hon thế nừa việc đôi chiêu môt số lượng lỏn block với form mẫu địi hịi các phép
tính phức tap. Các block mang thông tin chỉ chiếm mỏt ti lê nhò và việc đối chiếu đún° phân
lớn các block khơng hẻ có ý nghĩa trong viêc nhận d ạn s vê sau, iro n s khi đó nếu đốichiếu sai
các block chứa vùng nhâp dữ liêu sẽ làm sai hoàn toàn kết quả nhận dạng
Dựa trên đặc điẻm cùa kiêu form nháp dữ liệu là dừ ]]ẻu đươc nhâp vào các ô trên form (
nghĩa lả nẳm trong giới han giừa các đường thẳng) C húns tôi đưa ra thuật tốn xác đinh vunu
nhập dữ liệu thơng qua việc xác đinh các đường thẳng

Báo cáo tồng hợp đề tài 'Nhận dạng cóc form tịi liệu'

24


×