M
......................................................................................................................1
.........................................................................................................................2
.........................................4
.................................................4
....................................................7
......................................................................................................8
-RECS ...............................................9
2.1. Gi i thi u .................................................................................................................9
2.2. Thu
n kh i t o ...........................................................................11
ng h p thu t toán nh n d ng sai c t ...................................................................12
2.2.2. C i ti
c c a thu
n kh i t o - T-Recs++.............................13
....................................................................................15
...............................................................16
c x lý kh
n .............................................................16
.......................................................................................17
.......................................................................18
...........................................................................................20
2.4. Phân tích kh i .......................................................................................................21
........................................................................21
nh c u trúc các c t, hàng ..........................................................................22
2.6. K t lu
....................................................................................................22
...................................................................................24
3.1. T-Recs++................................................................................................................24
....................................................................................................................24
.....................................................................................................24
.........................................................................................26
..................................................................................................................28
30
1
Ngày na
mà có
2
các
OCR
OCR
n
Bài toán n
ó
Lu
án
4
1
l
s
v n
.
2
lên (bottom
tên là TLu
án
-Recs++.
3
T-Recs++
.
k
nêu
lu
3
án
1
1.1.
máy
d
Hình 1
Chúng ta có th
1)
máy t
4
t
h
tính này s
2)
3)
.V
ýv nb
Nh d
quang h
V nb
ký t
- OCR
X lý
Phân tích s
trình bày
ý
k
Xác
nghiêng,
dòng v b , các kh
v b , các o v n b
Hình 1
t
ý vùng và
bi t
th ,
cong, góc
Vùng
tô
kh i c a vi c x lý tài li u
Các h phân tích tài li u s ngày càng phát tri n và hi n nhiên là chúng s có trong
các h x lý tài li u. Ch ng h
th ng OCR s
tr , tìm ki m và trích d n t các tài li
c s d ng r
trên gi y. Các k thu t phân tích cách
b trí trong m t trang tài li u giúp nh n d ng nh ng bi u m u (form) riêng bi t, hay
5
nh d ng c a m t trang tài li
có th
các b c nh hay v b ng tay và có th
i, so n th o l i chúng. S
d ng máy tính có th chuy n các tài li u vi t b ng tay thành các tài li
trong máy tính. Các tài li
thu t trong các công ty s
nt
c
n, các tài li u k
c chuy
hi u qu , thu n ti n trong vi
i sang thành tài li
n t nh m nâng cao
và d
M c dù tài li u s
c
nhà.
cx
nhi
th c t có r t nhi u các h th ng khác nhau mà tài li u gi
n làm vi c
hi u qu và ch c ch n r ng tài li u gi y v n s
n làm vi c v i chúng ta
trong m t vài th p k n a. V
p nh ng tài li u
gi y vào trong máy tính x lý.
Trang tài li
L
d li
107 i
7500 hình bao ký t , m
có kích th
15x20 i
ý i
ký t
500
k và
cong v
dài t 20
2000 i
1000 vùng
t 20x20
Phân tích
tr ng
500x5
7500x10
tr ng c ký t
th
Hình 2
kích th
tr ng c
và
10x5
tr ng vùng
Phân tích và nh
d
v nb
Phân tích và nh
d
1500x10 ký t , 10
o v b , 1 tiêu
chính và 2 tiêu ph
tô v
200x200 i
Hai s
và 1
lô gô
c công ty,.v.v..
Mô t tài li
c x lý cho m t h phân tích tài li
qu
ct t
6
là m t thí d v i các k t
c.
Hình 2 minh ho cho cá
khi d li
c x lý chung c a m t h phân tích tài li u [3]. Sau
c t o ra, tài li u nh ph i tr
cx
ng ph n nh n d
1.2.
Hình 3
7
m nh và phân tích
b n và nh riêng r .
Hình 3
Hình 4
à
4,2
trên
Hình 4
1.3.
RC).
-Recs.
8
2
-RECS
2.1. Gi i thi u
[19]
[17] và Condit [18]
Error! Reference source not found.
h
phân
Quá
trình bày.
Error! Reference source not found.
9
Error! Reference source
not found..
Error! Reference source not
found.
Error! Reference source not found.
Error!
DP matching. Còn Chandran và
Reference source not found.
(bottom - up).
-Recs,
o-
án
phâ
trình bày
[15]
lu
án
(T-
10
án
lu
án
2.2. Thu
n kh i t o
-lên
[10]
trên Hình 5
Hình 5).
Hình 5
1)
2)
x
i
11
3)
m Wx vào Bi
4)
j
Wj
x
x).
j
5)
j
6)
7)
Hình 6
Hình 6
2
ng h p thu t toán nh n d ng sai c t
B
c trong thu
n kh i phía trên v
kh i riêng r
t
Hình 7 mô ph ng m t thí d v
nh n d
n nh n d
c các
c t t c các lo i kh i phân tách.
ng h p thu t toán phân tách thành hai kh i khác
logíc hai kh i trên th c ch t là m t kh i.
Hình 7
ng h p thu t toán nh n d ng sai c t
c c a thu t toán trên ta th y có m t h n ch
Wj m
c xem xét có thêm vào kh
tt
t Bi hay không thì thu t toán ch
12
quan tâm xem Wj có n m ch ng lên t Wx
j)
mà không xem xét Wj
i
hay không.
Nhìn trên Hình 7
Thành và
là
và
là
Hình 8 T
ng h p gi a các dòng c a m t c t trong b ng có ô tr ng
Hình 88
2.2.2. C i ti
T-Recs++
c c a thu
n kh i t o -
nh
- Xmin và
- Xmax
(Xmin, Xmax
min,
13
Xmax
1)
2)
Gán Xmin= -1 và Xmax = 0.
Wx
Xmin, XXmax
x.
3)
4)
i
vào Bi. Xét:
min = -1 thì gán Xmin= XXmin.
min > XXmin thì gán Xmin= XXmin.
max < XXmax thì gán Xmax = XXmax.
x
5)
j
(Xmin , Xmax
Jmin,
Jmin
, XJmax
XJmax
j.
6)
7)
j
8)
Hình 9
Hình 7
Hình 7
Hình 9).
Hình 9
14
t
Hình 8
Hình 10.
Hình 10
Hình 8
2
Hình 11
. Do không có
Hình 11 Q
K
C
Hình
12).
15
Hình 12
2
.D
Hình 13
Hình 13
2.3.
c x lý kh
16
n
Hình 11
Hình 12
Hình 13.
2
Hình 13
Hình 14
bên trái hay
Hình 15)
17
Hình 14
2
a
b
b
.
a
.
-
Hình 15
tách sai.
Hình 15
.
18
Hình 16
).
1
n
i
Imin,
i
Imin,
YImin
YImin) và (XImax, YImax).
Jmax,
XJmin <= XImin < XImax <= XJmax
YJmin<= YImin < YImax <= YJmax
19
YJmax
Hình 16
.
2
.
Hình 17 Nh n bi t các t b phân tách d
20
m phân l
Hình 17
2.4. Phân tích kh i
Hình 15
Hình 18.
Hình 18 Tách các kh i lo i 1 thành các ô c a b ng
2
Pos và Nmb là
Hình 19
Description
Hình 19 Tách các kh i lo i 2 thành các hàng trong b ng
21
Hình 19 bên trái). Các
2.5.
nh c u trúc các c t, hàng
2
.
2.6. K t lu
-
-
22
.
-Recs là
-
23
3
3.1. T-Recs++
3.1.1.
-
2.2.2. C i ti
n
T-Recs++. Ch
d
ng trình
ComponentOne
kh i
vi
b
c c a thu t toán
t o
ngôn ng Visual C# và s d
ph
m
giao di .
ng các hình
T-
3
lu
án
1)
2)
3)
24
n T-
Hình 20:
Hình 20
-Recs++
.
25