Tải bản đầy đủ (.pdf) (30 trang)

TÌM HIỂU PHƯƠNG PHÁP học sâu CHO bài TOÁN PHÁT HIỆN đối TƯỢNG TRONG tài LIỆU DẠNG ẢNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.45 MB, 30 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
------------- o0o -------------

BÁO CÁO ĐỒ ÁN 1
Đề tài:

TÌM HIỂU PHƯƠNG PHÁP HỌC SÂU CHO
BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG
TRONG TÀI LIỆU DẠNG ẢNH
Giảng viên hướng dẫn: Ths.Nguyễn Thị Thanh Trúc
Lớp: SE121.L21.PMCL
Nhóm sinh viên thực hiện:
Nguyễn Kỷ Nguyên – 17520825
Nguyễn Phương Tính – 17521136

TP.HCM, 31/12/2019


i

LÕI CÉM ÃN
¶u tiên, chúng em xin chân thành c£m ẽn cụ Trỳc khoa Cụng nghê phản mm
ó tn tỡnh gi£ng d§y cÙng nh˜ truy∑n §t nh˙ng ki∏n th˘c qu˛ giỏ cho chỳng
em v tĐo iu kiên em thác hiªn Á án này.
Chúng em cÙng xin c£m Ïn các anh khúa trờn, bĐn bố, gia ỡnh ó luụn ẻng
viờn, quan tâm và giúp Ơ chúng em trong st thÌi gian qua.
M∞c dù ã cË g≠ng h∏t s˘c ∫ hoàn thành nh˜ng cÙng khơng th∫ tránh kh‰i
các sai sót, rßt mong nhn ềc sá gúp qu giỏ ca Thảy Cơ và các b§n.
Xin chân thành c£m Ïn.




ii

Mˆc lˆc
1

TÍng quan

1

1.1

GiĨi thiªu ∑ tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.1.1

TÍng quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.1.2

GiĨi thiªu bài tốn . . . . . . . . . . . . . . . . . . . . . . . .

2

1.2


MỴt sË thách th˘c

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.3

Mc tiờu, phẽng phỏp thác hiên, úng gúp . . . . . . . . . . . . .

8

1.3.1

Mˆc tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

1.3.2

óng góp . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

Cßu trúc Á án 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

1.4

2

3

CÏ s l˛ thuy∏t

10

2.1

Ph˜Ïng pháp M2Det

. . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.2

Ph˜Ïng pháp Faster RCNN . . . . . . . . . . . . . . . . . . . . . . .

12

Bẻ d liêu

15

3.1

Cỏc bẻ d liêu liờn quan . . . . . . . . . . . . . . . . . . . . . . . . .


15

3.1.1

Dataset ICDAR2019 . . . . . . . . . . . . . . . . . . . . . . .

15

3.1.2

Annotation ICDAR2019 . . . . . . . . . . . . . . . . . . . . .

16

3.1.3

Dataset TableBank . . . . . . . . . . . . . . . . . . . . . . . .

18

3.1.4

Annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

3.1.5

Th˜ mˆc "images" trong TableBank . . . . . . . . . . . . . .


21


iii
4

K∏t lu™n

22

4.1

Nh˙ng k∏t qu£ §t ˜Ịc . . . . . . . . . . . . . . . . . . . . . . . . .

22

4.2

Khó kh´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

4.3

H˜Óng phát tri∫n . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

Bibliography


24


iv

Danh sách hình v≥
1.1

Mơ t£ bài tốn POD . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

1.2

Mơ t£ tài liªu modern . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.3

Mơ t£ tài liªu historical . . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.4

MỴt sË ví dˆ v∑ tài liªu historical . . . . . . . . . . . . . . . . . . . .

4


1.5

Mẻt sậ vớ d v ti liêu historical . . . . . . . . . . . . . . . . . . . .

5

1.6

Mẻt sậ vớ d v ti liêu historical . . . . . . . . . . . . . . . . . . . .

6

1.7

MỴt sË ví dˆ v∑ tài liªu modern . . . . . . . . . . . . . . . . . . . . .

7

1.8

MỴt sË ví dˆ v∑ tài liªu modern . . . . . . . . . . . . . . . . . . . . .

7

1.9

Mẻt sậ vớ d v ti liêu modern . . . . . . . . . . . . . . . . . . . . .

8


2.1

Chi tit còu trỳc mẻt sậ module . . . . . . . . . . . . . . . . . . . . .

11

2.2

Minh hÂa SFAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

2.3

TÍng quan v∑ ph˜Ïng pháp M2Det . . . . . . . . . . . . . . . . . . .

12

2.4

TÍng quan v∑ ph˜Ïng pháp Faster RCNN . . . . . . . . . . . . . . .

14

3.1

TÍng quan v∑ bỴ d˙ liªu TableBank . . . . . . . . . . . . . . . . . . .

19



v

Danh mˆc t¯ vi∏t t≠t
MLFPN
FPN
NMS
FFM
TUM
SFAM
M2Det
RCNN

Multi-Level Feature Pyramid Network
Feature Pyramid Network
Non-Maximum Suppression
Feature Fusion Module
Thinned U-shape Module
Scale-wise Feature Aggregation Module
Multi-Level Multi-Scale Detector
Region-based Convolutional Neural Networks

Trong Á án 1 này chúng tôi t™p trung nghiên c˘u bài tốn phát hiªn Ëi t˜Ịng
trong tài liêu dĐng Ênh.
Mc tiờu ca ỏn 1 l tỡm hiu cỏc phẽng phỏp phỏt hiên ậi trềng v mẻt
sậ bẻ d liêu phc v cho bi toỏn núi trờn. T¯ ó chÂn ra hai ph˜Ïng pháp ∫
nghiên c˘u và hai bẻ d liêu liờn quan.

thác hiên ềc mc tiêu này, chúng


tơi s˚ dˆng Ëi t˜Ịng là các b£ng trong bẻ d liêu ICDAR2019 v bẻ d liêu
TableBank. Phẽng pháp chúng tơi chÂn
pháp M2Det và Faster RCNN.

∫ phát hiªn b£ng 

ây là ph˜Ïng


1

Chẽng 1

Tng quan
1.1
1.1.1

Giểi thiêu ti
Tng quan

Trong thèi Đi cụng nghê ngy mẻt phỏt trin nh hiên nay, cỏc ti liêu iên t
ang dản dản thay th ti liêu băng gißy nhÌ vào kh£ n´ng l˜u tr˙ trên các thi∏t
b‡ iªn t˚. Có khơng ít tÍ ch˘c ã sË hóa d˙ liªu bao gÁm sách, báo, hÁ sÏ, b£n
th£o cÙ,... Các tài liªu iªn t˚ có nhi∑u ˜u i∫m hÏn so vểi ti liêu giòy chẩ
chỳng ta cú th chia sƠ, sao chộp, truy vòn, tỡm kim,... nhanh hẽn và hiªu qu£
hÏn.
Document Image Understanding (DIU) là nhiªm vˆ tìm ra trỡnh by nẻi dung
mc cao ca ti liêu dĐng Ênh bao gm nhiu giai oĐn, ch yu băng page
segmentation, block classification và mỴt sË thao tác x˚ l˛ vn bÊn, hỡnh Ênh,
cụng thc, bÊng,... Hai giai oĐn ảu giúp ta tìm ra Ëi t˜Ịng "có nghỉa" trong tài

liªu dĐng Ênh. Quỏ trỡnh ny cú giỏ tr trong mẻt loĐt cỏc ng dng phõn tớch ti
liêu dĐng Ênh.

õy l lỉnh v¸c nghiên c˘u thú v‡ vĨi nhi∑u thách th˘c. Lỉnh v¸c

này càng ngày càng ˜Ịc chú ˛ khơng chø t cẻng ng phõn tớch v nhn dĐng
ti liêu dĐng £nh mà cịn t¯ các cỴng Áng cÏ s d˙ liªu và khai thác thơng tin.


Ch˜Ïng 1. TÍng quan

1.1.2

2

GiĨi thiªu bài tốn

Page Object Detection (POD) là bài tốn khơng ph£i q mĨi, ˜Ịc phát bi∫u lản
ảu trong cuẻc thi ICDAR 2017 POD. D liêu ảu vo ca bi toỏn l mẻt ti liêu
dĐng Ênh, ¶u ra cıa bài tốn là v‡ trí các Ëi t˜Ịng (n∏u có) trong £nh. Tài liªu
là các bài báo khoa hc băng ting anh, ậi tềng l formulas (cụng th˘c), tables
(b£ng), figures (hình £nh, Á th‡ và bi∫u Á).

HÌNH 1.1: Mơ t£ bài tốn POD

Ëi vĨi Á án 1 ny, chỳng tụi tỡm hiu v bẻ d liêu ICDAR2019 bao gÁm các tài
liªu modern và các tài liªu historical; bờn cĐnh ú chỳng tụi cng tỡm hiu v bẻ
d liêu TableBank bao gm cỏc ti liêu dĐng pdf v word.

Ëi t˜Ịng mà chúng


tơi h˜Ĩng ∏n  trong Á án chuyên ngành này là b£ng (table).


Ch˜Ïng 1. TÍng quan

3

HÌNH 1.2: Mơ t£ tài liªu modern

HÌNH 1.3: Mơ t£ tài liªu historical


Chẽng 1. Tng quan

1.2

4

Mẻt sậ thỏch thc

ã Bẻ d liêu ICDAR2019 l mẻt bẻ d liêu mểi.

ậi tềng cú sá a dĐng v

hỡnh dỏng v kớch thểc. Ti liêu ềc phõn ra hai loĐi: ti liêu historical v
ti liêu modern.
ã

ậi vĨi tài liªu historical, mang ∞c i∫m cıa v´n b£n vi∏t tay, các ơ th˜Ìng

chÁng chéo vĨi nhau, ranh giĨi ơ khơng rõ ràng là nh˙ng thách th˘c lĨn
nhßt.

HÌNH 1.4: Mẻt sậ vớ d v ti liêu historical

ã

ậi vểi ti liêu modern, bao úng ca nẻi dung mụ tÊ vựng ca mẻt ụ, cú
nh dĐng mẻt hoc hai cẻt. Cỏc b£ng trình bày vĨi hình d§ng phong phú,


Ch˜Ïng 1. TÍng quan

HÌNH 1.5: MỴt sË ví dˆ v∑ tài liªu historical

5


Ch˜Ïng 1. TÍng quan

HÌNH 1.6: MỴt sË ví dˆ v∑ tài liªu historical

6


Ch˜Ïng 1. TÍng quan

7

tùy theo nỴi dung mà trình bày vĨi sË dịng và sË cỴt khác nhau, có vi∑n hay

khơng vi∑n.

ây cÙng là mỴt thách th˘c trong q trình làm Á án.

HÌNH 1.7: MỴt sË ví dˆ v∑ tài liêu modern

HèNH 1.8: Mẻt sậ vớ d v ti liêu modern


Ch˜Ïng 1. TÍng quan

8

HÌNH 1.9: MỴt sË ví dˆ v∑ ti liêu modern

1.3
1.3.1

Mc tiờu, phẽng phỏp thác hiên, úng gúp
Mc tiêu

• Hi∫u ˜Ịc bài tốn Page Object Detection.
• Tìm hi∫u l§i các ki∏n th˘c v∑ deep learning trong q trình tìm hi∫u các
ph˜Ïng pháp ∫ chÂn ra ˜Ịc ph˜Ïng pháp hiên tĐi.
ã Hiu phẽng phỏp M2Det v Faster RCNN.
ã Nm ềc bẻ b liêu ICDAR2019 v TableBank.


Chẽng 1. Tng quan


1.3.2

9

úng gúp

ã Hê thậng lĐi kin thc bi toỏn POD
ã Tỡm hiu v hê thậng lĐi kin th˘c v∑ ph˜Ïng pháp M2Det và Faster RCNN
• Tìm hi∫u bẻ d liêu ICDAR2019 v TableBank.

1.4

Còu trỳc ỏn 1

ã Ch˜Ïng 1: GiĨi thiªu tÍng quan v∑ ∑ tài, bài toỏn POD, cỏc thỏch thc, mc
tiờu, phẽng phỏp thác hiên và các óng góp, tóm t≠t cßu trúc cıa Á án
chun ngành.
• Ch˜Ïng 2: Trình bày cÏ s l˛ thuy∏t cıa ph˜Ïng pháp M2Det và Faster
RCNN.
• Ch˜Ïng 3: Mơ t£ chi tit cỏc bẻ d liêu liờn quan nh ICDAR2019 v TableBank
ã Chẽng 4: Túm tt nhng kt quÊ Đt ˜Ịc và nêu ra h˜Ĩng phát tri∫n cıa
Á án 1.


10

Ch˜Ïng 2

CÏ s l˛ thuy∏t
2.1


Ph˜Ïng pháp M2Det

M2Det là vi∏t t≠t cıa Multi-Level Multi-Scale Detector. Ph˜Ïng pháp này ˜Ịc
∑ xt vào tháng 6 n´m 2019, s˚ dˆng Multi-Level Feature Pyramid Network
(MLFPN) và backbone ∫ rút trích ∞c tr˜ng t¯ £nh ¶u vo. Sau ú, tẽng tá
vểi SSD[1] xuòt bounding box và tính tốn các i∫m, sau ó k∏t qu£ ci cùng
˜Ịc ˜a ra sau khi dùng non-maximum suppression (NMS). Hình 2.3 mơ t£
tÍng quan ph˜Ïng pháp M2Det.
Ëi vĨi MLFPN ˜Ịc chia thnh ba module:
ã Feature Fusion Module (FFM):

õy l mẻt phản quan trng xõy dáng

multi-level feature pyramid. Băng cỏch dùng lÓp ch™p 1x1 ∫ nén các kênh
cıa các ∞c tr˜ng ¶u vào, dùng các thao tác nËi (concat) ∫ tÍng hỊp các
b£n Á ∞c tr˜ng (feature map). HÏn n˙a do FFMv1 lßy hai b£n Á ∞c
tr˜ng vĨi các t lê khỏc nhau trong backbone lm

ảu vo nờn phÊi ỏp

dng mỴt thao tác upsample ∫ các ∞c tr˜ng v∑ cùng mẻt t lê trểc khi
nậi. Trong khi ú, FFMv2 lòy ∞c tr˜ng cÏ b£n (base feature) và b£n Á ∞c
tr˜ng ¶u ra lĨn nhßt cıa TUM tr˜Ĩc ó. Chi ti∏t còu trỳc ca FFMv1 v
FFMv2 ềc th hiên hỡnh 2.1.


Ch˜Ïng 2. CÏ s l˛ thuy∏t

11


• Thinned U-shape Module (TUM): Áp dˆng cßu trúc Thinner U-shape nh˜
minh hÂa hình 2.1. BỴ mã hóa là mỴt chi các lĨp ch™p 3x3 vểi bểc trềt
(stride) 2. Bẻ giÊi mó lòy ảu ra cıa lÓp này làm b£n Á ∞c tr˜ng ∫ tham
chi∏u tĨi. Ngồi ra thêm các lĨp ch™p 1x1 sau khi upsample v tớnh tng cỏc
phản t (element-wise sum) tĐi nhỏnh gi£i mã ∫ t´ng c˜Ìng kh£ n´ng hÂc
h‰i và gi˙ Ỵ m˜Ịt cho các ∞c tr˜ng.

¶u ra các TUM x∏p chÁng t§o thành

các ∞c tr˜ng multi-level multi-scale vĨi các ∞c tr˜ng  m˘c nơng (shallow
level) ˜Ịc cung cßp bi TUM phía tr˜Ĩc, các ∞c tr˜ng  m˘c trung bình
(medium level) ˜Ịc cung cßp bi TUM  gi˙a và các ∞c tr˜ng  m˘c sâu
(deep level) ˜Ịc cung cßp bi các TUM phớa sau.

HèNH 2.1: Chi tit còu trỳc mẻt sậ module

• Scale-wise Feature Aggregation Module (SFAM): tÍng hỊp các ∞c trng
multi-level multi-scale ềc tĐo ra bi TUM thnh mẻt multi-level feature
pyramid. Q trình này chia thành hai giai o§n. Giai oĐn ảu tiờn l ghộp
cỏc c trng cú t lê t˜Ïng ˜Ïng dÂc theo kích th˜Ĩc kênh. Giai o§n sau


Ch˜Ïng 2. CÏ s l˛ thuy∏t

12

s˚ dˆng SE attention ∫ tÍng hỊp các ∞c tr˜ng. Chi ti∏t ˜Ịc mơ t£ trong
hình 2.2.


HÌNH 2.2: Minh hÂa SFAM

HÌNH 2.3: TÍng quan v∑ ph˜Ïng pháp M2Det

2.2

Ph˜Ïng pháp Faster RCNN

Faster R-CNN (Faster Region Based Convolutional Neural Networks) là ph˜Ïng
pháp gi£i quy∏t bài toán phát hiªn Ëi t˜Ịng trong £nh. Faster R-CNN ˜Ịc c£i
ti∏n t¯ Fast R-CNN băng cỏch b sung Region Proposal Network (RPN) vào Fast
R-CNN. Faster R-CNN ã ˜Òc s˚ dˆng ∫ phát hiên nhiu loĐi ậi tềng khỏc
nhau nh ngèi, phẽng tiên giao thơng, Ỵng v™t,... và có th∫ s˚ dˆng cho bi
toỏn phỏt hiên bÊng vểi ẻ chớnh xỏc Đt n 98% trờn bẻ d liêu TableBank vểi


Ch˜Ïng 2. CÏ s l˛ thuy∏t

13

backbone là ResNeXt101. Faster R-CNN cú ảu vo l mẻt Ênh, ảu ra l hẻp
giểi h§n cıa các Ëi t˜Ịng trong £nh và lĨp cıa ậi tềng. Ban ảu, mẻt mĐng
Convolutional Neural Network (CNN) cú nhiêm v phõn loĐi hỡnh Ênh ềc o
tĐo trểc. Bểc ¶u cıa q trình phân lĨp là ˜a £nh ã cú cỏc vựng xuòt
qua mẻt mĐng CNN thu ˜Òc Convolutional Feature Map.
Region Proposal Network t¯ conv feature map ềc tĐo ra băng cỏch thờm mẻt
Fully Convolutional Network trờn ønh cıa Convolutional Feature Map. Region
Proposal Network (RPN) có ¶u vo l mẻt Ênh cú kớch thểc bòt k v ¶u ra là
các vùng ∑ xt có ch˘a các Ëi tềng. RPN hoĐt ẻng băng cỏch s dng mẻt
ca s tr˜Ịt trên các feature map, t§i mÈi v‡ trí s≥ tĐo ra nhiu vựng xuòt khỏc

nhau. Cuậi cựng, RPN s cho ra cỏc vựng xuòt m ềc dá ốn là có ch˘a
Ëi t˜Ịng trong ó, các vùng ∑ xuòt ny s ềc s dng dá oỏn ậi t˜Ịng
ch˘a bên trong là gì.


Ch˜Ïng 2. CÏ s l˛ thuy∏t

HÌNH 2.4: TÍng quan v∑ ph˜Ïng pháp Faster RCNN

14


15

Chẽng 3

Bẻ d liêu
3.1
3.1.1

Cỏc bẻ d liêu liờn quan
Dataset ICDAR2019

Bẻ d liêu ICDAR 2019 cú tng cẻng 2639 Ênh. Mẩi Ênh cú mẻt file XML i kốm
nhăm lu tr còu trúc cıa các b£ng trong mỴt hình. Cˆ th∫ nh˜ sau:
ã Training:
TRACK A: 1200 Ênh gm 600 Ênh loĐi historical và 600 £nh lo§i modern
– TRACK B1: 600 £nh lo§i historical
– TRACK B2: 600 ground truth giËng vĨi ground truth ca 600 Ênh loĐi
historical ca TRACK B1

ã Test:
TRACK A: 439 £nh gÁm 199 £nh lo§i historical và 240 £nh lo§i modern
– TRACK B1: 150 £nh lo§i historical
– TRACK B2: 250 £nh gÁm 150 lo§i historical và 100 £nh lo§i modern


Chẽng 3. Bẻ d liêu

16

Trong bẻ d liêu ny cú TRACK A dùng ∫ phát hiªn b£ng và TRACK B dùng
∫ nh™n d§ng b£ng. Trong TRACK B chia ra TRACK B1 cung còp vựng bÊng v
TRACK B2. Cỏc mđu t bẻ d liêu moder s bt ảu vểi tin tậ cTDaR_t1 v
bẻ d liêu historical s bt ảu vểi cTDaR_t0. Hỡnh Ênh ềc lu nh dĐng
JPG, mẻt sậ ớt dĐng TIFF v PNG.
Trong nẻi dung ỏn chuyờn ngnh ny, chỳng tụi chứ s dng bẻ d liêu con
TRACK A ca bẻ d liêu ICDAR 2019. Chi tit TRACK A nh˜ sau:
• Training: Có 1200 £nh. Trong ó:
– cTDaR_t1: 600 £nh
– cTDaR_t0: 600 £nh
• Test: Có 439 £nh trong ó:
– cTDaR_t1: 240 £nh
– cTDaR_t0: 199 £nh

3.1.2

Annotation ICDAR2019

Ëi vĨi annotation, bẻ d liêu ó s dng mẻt annotation tẽng tá t nh dĐng
ca cuẻc thi bÊng ICDAR 2013 ú l tĐo mẻt têp XML duy nhòt lu tr cỏc còu

trỳc ca cỏc bÊng trong mẻt Ênh.
Trong mẩi têp XML, mẩi phản t <table> tẽng ng vểi mẻt bÊng, cha mẻt thƠ
<Coords> duy nhòt cú thuẻc tớnh chứ ra ta ẻ ca a giỏc giểi hĐn
4 ứnh. B£ng cÙng ch˘a danh sách các ph¶n t˚ <cell> cho mẩi thuẻc tớnh phản
t <cell> [start-row], [start-col], [end-row] v [end-col] bi∫u th‡ v‡ trí cıa nó trong
b£ng và sË [id] duy nhòt cho ụ ny. Phản t <Coords> cú phản t <cell> biu th
ta ẻ ca a giỏc giểi hĐn ô này và <content> là v´n b£n trong ô.


Chẽng 3. Bẻ d liêu
ã

17

ậi vểi TRACK A: Cung còp thụng tin mẻt vựng bÊng tẽng ng vểi mẻt
Ênh ảu vào
<?xml version="1.0" encoding="UTF-8"?>
<document filename="table.jpg">
<table>
<Coords points="87,117 87,220 551,220, 551,87"/>
</table>
</document>



Ëi vĨi TRACK B: Cung còp thụng tin mẻt vựng bÊng v còu trúc ơ cıa
b£ng. Tuy nhiên, vùng cıa ơ Ëi vĨi tp d liêu modern l bao úng ca nẻi
dung, cũn t™p d˙ liªu historical là ranh giĨi ơ.
<?xml version="1.0" encoding="UTF-8"?>
<document filename="table.jpg">

<table>
<Coords points="92,442 92,528 350,528 350,442"/>
<cell start-row="0" start-col="1" end-row="0" end-col="1">
<Coords points="154,442 154,453 200,453 200,442"/>
<content>IndustryA</content>
</cell>
...
<cell start-row="4" start-col="4" end-row="4" end-col="4">
<Coords points="334,517 334,528 350,528 350,517"/>
<content>660</content>


Chẽng 3. Bẻ d liêu

18

</cell>
</table>
...
<table>
<Coords points="414,442 414,528 673,528 673,442"/>
<cell start-row="0" start-col="1" end-row="0" end-col="1">
<Coords points="477,442 477,453 522,453 522,442"/>
ôcontent>IndustryB</content>
</cell>
...
</table>
...
</document>


3.1.3

Dataset TableBank

Bẻ d liêu TableBank cung cßp cơng khai vĨi mong mn nó s≥ hÈ trỊ

˜Ịc

nhi∑u ph˜Ïng pháp hÂc sâu hÏn trong nhiªm vˆ phỏt hiên v nhn dĐng bÊng.
TableBank ềc cụng bậ tĐi hẻi ngh LREC 2020. Bẻ d liêu cú th ềc tỡm thòy
a chứ https://doc- analysis.github.io/tablebank-page/index.html.
õy l bẻ d liêu mểi, ềc xõy dáng t cỏc ti liêu thuẻc cú nh dĐng Word v
Latex thuẻc nhiu lổnh vác khỏc nhau trên internet, ch˘a 417 234 b£ng ˜Ịc g≠n
nhãn chßt l˜Ịng cao. TableBank bao gÁm tÍng cỴng 278 582 £nh. Chi tit v còu
trỳc th mc v sậ Ênh mẩi phản ềc th hiên bÊng dểi:
BÊng trong bẻ d liêu khơng chø có nhi∑u ‡nh d§ng và bË cˆc, mà còu trỳc
bÊng cng a dĐng vụ cựng, iu ny tĐo ra nhi∑u thách th˘c thú v‡ cho bài


Chẽng 3. Bẻ d liêu

19

HèNH 3.1: Tng quan v bẻ d liêu TableBank

toỏn. Khúa lun s dng phản Latex ca bẻ d liêu TableBank tin hnh thác
nghiêm.

3.1.4


Annotation

Tp tin annotation ca bẻ d liêu ềc lu dểi dĐng tp tin json vĨi ‡nh d§ng
giËng vĨi ‡nh d§ng cıa t™p tin json trong bẻ d liêu COCO
nh dĐng tp tin json gÁm có 5 ph¶n chính và chi ti∏t t¯ng ph¶n nh˜ bên d˜Ói:


×