Tải bản đầy đủ (.pdf) (31 trang)

Tìm hiểu phương pháp phân tích bảng theo cấu trúc T RECS (Đồ án tốt nghiệp)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (10.76 MB, 31 trang )

M
......................................................................................................................1
.........................................................................................................................2
.........................................4
.................................................4
....................................................7
......................................................................................................8
-RECS ...............................................9
2.1. Gi i thi u .................................................................................................................9
2.2. Thu

n kh i t o ...........................................................................11

ng h p thu t toán nh n d ng sai c t ...................................................................12
2.2.2. C i ti
c c a thu
n kh i t o - T-Recs++.............................13
....................................................................................15
...............................................................16

c x lý kh

n .............................................................16
.......................................................................................17
.......................................................................18
...........................................................................................20

2.4. Phân tích kh i .......................................................................................................21
........................................................................21

nh c u trúc các c t, hàng ..........................................................................22


2.6. K t lu

....................................................................................................22
...................................................................................24

3.1. T-Recs++................................................................................................................24
....................................................................................................................24
.....................................................................................................24
.........................................................................................26

..................................................................................................................28
30

1


Ngày na

mà có

2


các
OCR

OCR
n
Bài toán n


ó

Lu

án

4

1
l

s

v n

.
2

lên (bottom
tên là TLu

án

-Recs++.
3

T-Recs++

.
k


nêu

lu

3

án


1

1.1.

máy
d

Hình 1

Chúng ta có th

1)
máy t
4

t

h



tính này s
2)

3)

.V

ýv nb

Nh d
quang h

V nb

ký t
- OCR

X lý

Phân tích s
trình bày

ý
k

Xác
nghiêng,
dòng v b , các kh
v b , các o v n b
Hình 1


t

ý vùng và
bi t

th ,
cong, góc

Vùng



kh i c a vi c x lý tài li u

Các h phân tích tài li u s ngày càng phát tri n và hi n nhiên là chúng s có trong
các h x lý tài li u. Ch ng h

th ng OCR s

tr , tìm ki m và trích d n t các tài li

c s d ng r

trên gi y. Các k thu t phân tích cách

b trí trong m t trang tài li u giúp nh n d ng nh ng bi u m u (form) riêng bi t, hay
5



nh d ng c a m t trang tài li

có th

các b c nh hay v b ng tay và có th

i, so n th o l i chúng. S

d ng máy tính có th chuy n các tài li u vi t b ng tay thành các tài li
trong máy tính. Các tài li
thu t trong các công ty s

nt

c

n, các tài li u k

c chuy

hi u qu , thu n ti n trong vi

i sang thành tài li

n t nh m nâng cao

và d

M c dù tài li u s


c

nhà.

cx

nhi

th c t có r t nhi u các h th ng khác nhau mà tài li u gi

n làm vi c

hi u qu và ch c ch n r ng tài li u gi y v n s

n làm vi c v i chúng ta

trong m t vài th p k n a. V

p nh ng tài li u

gi y vào trong máy tính x lý.
Trang tài li
L

d li
107 i
7500 hình bao ký t , m
có kích th
15x20 i


ý i

ký t

500
k và
cong v
dài t 20
2000 i
1000 vùng
t 20x20
Phân tích

tr ng

500x5

7500x10
tr ng c ký t

th

Hình 2

kích th

tr ng c


10x5


tr ng vùng

Phân tích và nh
d
v nb

Phân tích và nh
d
1500x10 ký t , 10
o v b , 1 tiêu
chính và 2 tiêu ph

tô v
200x200 i

Hai s
và 1
lô gô
c công ty,.v.v..

Mô t tài li

c x lý cho m t h phân tích tài li
qu
ct t

6

là m t thí d v i các k t

c.


Hình 2 minh ho cho cá
khi d li

c x lý chung c a m t h phân tích tài li u [3]. Sau

c t o ra, tài li u nh ph i tr

cx

ng ph n nh n d

1.2.

Hình 3

7

m nh và phân tích

b n và nh riêng r .


Hình 3

Hình 4

à


4,2
trên

Hình 4

1.3.
RC).
-Recs.

8


2
-RECS
2.1. Gi i thi u

[19]
[17] và Condit [18]

Error! Reference source not found.

h
phân

Quá
trình bày.

Error! Reference source not found.


9


Error! Reference source
not found..

Error! Reference source not
found.
Error! Reference source not found.
Error!
DP matching. Còn Chandran và

Reference source not found.

(bottom - up).

-Recs,
o-

án

phâ

trình bày

[15]
lu

án


(T-

10


án

lu

án

2.2. Thu

n kh i t o
-lên

[10]

trên Hình 5

Hình 5).

Hình 5

1)
2)

x
i


11


3)

m Wx vào Bi

4)

j

Wj

x

x).

j

5)

j

6)

7)

Hình 6

Hình 6


2

ng h p thu t toán nh n d ng sai c t
B

c trong thu

n kh i phía trên v

kh i riêng r

t

Hình 7 mô ph ng m t thí d v

nh n d

n nh n d

c các

c t t c các lo i kh i phân tách.

ng h p thu t toán phân tách thành hai kh i khác

logíc hai kh i trên th c ch t là m t kh i.

Hình 7


ng h p thu t toán nh n d ng sai c t

c c a thu t toán trên ta th y có m t h n ch
Wj m

c xem xét có thêm vào kh

tt

t Bi hay không thì thu t toán ch

12


quan tâm xem Wj có n m ch ng lên t Wx

j)

mà không xem xét Wj

i

hay không.

Nhìn trên Hình 7
Thành và





Hình 8 T

ng h p gi a các dòng c a m t c t trong b ng có ô tr ng

Hình 88

2.2.2. C i ti
T-Recs++

c c a thu

n kh i t o -

nh

- Xmin và

- Xmax
(Xmin, Xmax

min,

13

Xmax


1)
2)


Gán Xmin= -1 và Xmax = 0.
Wx
Xmin, XXmax
x.

3)
4)

i

vào Bi. Xét:
min = -1 thì gán Xmin= XXmin.
min > XXmin thì gán Xmin= XXmin.
max < XXmax thì gán Xmax = XXmax.
x

5)

j

(Xmin , Xmax
Jmin,

Jmin

, XJmax

XJmax
j.


6)
7)

j

8)
Hình 9
Hình 7
Hình 7
Hình 9).

Hình 9

14

t


Hình 8

Hình 10.

Hình 10

Hình 8

2

Hình 11
. Do không có


Hình 11 Q

K

C

Hình
12).
15


Hình 12

2

.D

Hình 13

Hình 13

2.3.

c x lý kh

16

n



Hình 11
Hình 12

Hình 13.

2
Hình 13

Hình 14

bên trái hay

Hình 15)

17


Hình 14

2

a
b

b

.

a


.
-

Hình 15

tách sai.

Hình 15

.

18


Hình 16

).

1

n

i
Imin,

i
Imin,

YImin


YImin) và (XImax, YImax).
Jmax,

XJmin <= XImin < XImax <= XJmax
YJmin<= YImin < YImax <= YJmax

19

YJmax


Hình 16

.

2

.

Hình 17 Nh n bi t các t b phân tách d

20

m phân l


Hình 17

2.4. Phân tích kh i


Hình 15

Hình 18.

Hình 18 Tách các kh i lo i 1 thành các ô c a b ng

2

Pos và Nmb là

Hình 19
Description

Hình 19 Tách các kh i lo i 2 thành các hàng trong b ng

21


Hình 19 bên trái). Các

2.5.

nh c u trúc các c t, hàng

2

.

2.6. K t lu

-

-

22


.

-Recs là
-

23


3

3.1. T-Recs++
3.1.1.
-

2.2.2. C i ti
n

T-Recs++. Ch
d

ng trình

ComponentOne


kh i
vi

b

c c a thu t toán
t o

ngôn ng Visual C# và s d

ph

m

giao di .
ng các hình

T-

3
lu

án

1)

2)

3)

24


n T-

Hình 20:

Hình 20

-Recs++

.
25


×