Tải bản đầy đủ (.pdf) (54 trang)

Khóa luận tốt nghiệp phát hiện bảng sử dụng phương pháp học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.99 MB, 54 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

NGUYỄN THỊ LAN PHƯƠNG
NGUYỄN TRẦN HỒNG THANH

KHĨA LUẬN TỐT NGHIỆP

PHÁT HIỆN BẢNG SỬ DỤNG PHƯƠNG PHÁP
HỌC SÂU
TABLE DETECTION USING DEEP LEARNING

KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM

TP. HỒ CHÍ MINH, 2021


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

NGUYỄN THỊ LAN PHƯƠNG – 16520972
NGUYỄN TRẦN HỒNG THANH – 16521125

KHĨA LUẬN TỐT NGHIỆP

PHÁT HIỆN BẢNG SỬ DỤNG PHƯƠNG PHÁP
HỌC SÂU


TABLE DETECTION USING DEEP LEARNING

KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM

GIẢNG VIÊN HƯỚNG DẪN
TS. NGUYỄN TẤN TRẦN MINH KHANG

TP. HỒ CHÍ MINH, 2021


DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ……………………
ngày ………………….. của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1. …………………………………………. – Chủ tịch.
2. …………………………………………. – Thư ký.
3. …………………………………………. – Ủy viên.
4. …………………………………………. – Ủy viên.


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày…..tháng…..năm……..


NHẬN XÉT KHĨA LUẬN TỐT NGHIỆP

(CỦA CÁN BỘ HƯỚNG DẪN)

Tên khóa luận:
PHÁT HIỆN BẢNG SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU
Cán bộ hướng dẫn/phản biện:

Nhóm SV thực hiện:
Nguyễn Thị Lan Phương

16520972

Nguyễn Trần Hồng Thanh

16521125

Tiến sĩ Nguyễn Tấn Trần Minh Khang

Đánh giá khoá luận:
1. Về cuốn báo cáo:
Số trang:

Số chương:

Số bảng số liệu:

Số hình vẽ:


Số tài liệu tham khảo:

Sản phẩm:

Một số nhận xét về hình thức cuốn báo cáo:
································································································
································································································
································································································
································································································
2. Về nội dung nghiên cứu:
································································································
································································································
································································································


································································································
3. Về chương trình ứng dụng:
································································································
································································································
································································································
································································································
4. Về thái độ làm việc của sinh viên:
································································································
································································································
································································································
································································································
Đánh giá chung:
································································································
································································································
································································································

································································································
Điểm từng sinh viên:
Nguyễn Thị Lan Phương:

/10

Nguyễn Trần Hoàng Thanh:

/10

Người nhận xét
(Ký tên và ghi rõ họ tên)


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày…..tháng…..năm……..

NHẬN XÉT KHĨA LUẬN TỐT NGHIỆP

(CỦA CÁN BỘ PHẢN BIỆN)

Tên khóa luận:

PHÁT HIỆN BẢNG SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU
Cán bộ hướng dẫn/phản biện:

Nhóm SV thực hiện:
Nguyễn Thị Lan Phương

16520972

Nguyễn Trần Hồng Thanh

16521125

Đánh giá khoá luận:
1. Về cuốn báo cáo:
Số trang:

Số chương:

Số bảng số liệu:

Số hình vẽ:

Số tài liệu tham khảo:

Sản phẩm:

Một số nhận xét về hình thức cuốn báo cáo:
································································································
································································································
································································································

································································································
2. Về nội dung nghiên cứu:
································································································
································································································
································································································


································································································
3. Về chương trình ứng dụng:
································································································
································································································
································································································
································································································
4. Về thái độ làm việc của sinh viên:
································································································
································································································
································································································
································································································
Đánh giá chung:
································································································
································································································
································································································
································································································
Điểm từng sinh viên:
Nguyễn Thị Lan Phương:

/10

Nguyễn Trần Hoàng Thanh:


/10

Người nhận xét
(Ký tên và ghi rõ họ tên)


LỜI CẢM ƠN
Lời đầu tiên, chúng em xin gửi lời cảm ơn đến quý Thầy Cô trong khoa
Công nghệ Phần mềm đã tận tình giảng dạy, truyền đạt những kiến thức quý báu
cho chúng em trong thời gian học đại học và tạo điều kiện cho chúng em thực
hiện khóa luận này.
Chúng em xin gửi lời biết ơn chân thành đến Tiến sĩ Nguyễn Tấn Trần
Minh Khang và Thạc sĩ Võ Duy Nguyên. Quý thầy đã hướng dẫn, tin tưởng và
động viên chúng em vượt qua khó khăn trong suốt quá trình thực hiện đồ án này.
Cảm ơn thầy trong những tháng vừa qua, các thầy đã tận tình hướng dẫn và giúp
đỡ nhóm em hồn thành đề tài khóa luận tốt nghiệp. Trong hơn 4 tháng tiến hành
thực hiện đề tài, thời gian có thể là khơng q dài nhưng cũng là đủ để nhóm em
có thể vận dụng được các kiến thức đã học ở trường áp dụng vào đề tài.
Em xin gửi lời cảm ơn đến Tiến sĩ Ngơ Đức Thành và phịng thí nghiệm
MMLab (UIT) đã tạo điều kiện, giúp đỡ và góp ý cho chúng em trong suốt thời
gian thực hiện đề tài. Hầu hết các kết quả trình bày trong đồ án được tiến hành
thực nghiệm trên hệ thống máy tính của phịng thí nghiệm MMLab.
Mặc dù chúng em đã nổ lực hết sức để hồn thành đề tài, song vẫn khơng
thể tránh khỏi những thiếu sót, rất mong nhận được những đóng góp quý báu của
quý Thầy Cô và các bạn.
Cuối cùng, xin chúc tất cả các thầy cô luôn dồi dào sức khỏe. Chúc
Trường đại học Công nghệ thông tin – Đại học quốc gia Thành phố Hồ Chí Minh
ngày càng phát triển.
Xin cảm ơn!
Thành phố Hồ Chí Minh, ngày … tháng … năm 2020

Nguyễn Thị Lan Phương
Nguyễn Trần Hoàng Thanh


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

ĐỀ CƯƠNG CHI TIẾT

TÊN ĐỀ TÀI: Phát hiện bảng sử dụng phương pháp học sâu
TÊN ĐỀ TÀI TIẾNG ANH: Table Detection Using Deep Learning
Cán bộ hướng dẫn: TS.Nguyễn Tấn Trần Minh Khang
Thời gian thực hiện: Từ ngày 07/09/2020 đến ngày 27/12/2020
Sinh viên thực hiện:
Nguyễn Trần Hoàng Thanh – 16521125
Nguyễn Thị Lan Phương – 16520972
Nội dung đề tài:
Mục tiêu

Trong những năm gần đây, bài toán phát hiện bảng
trong tài liệu dạng ảnh là một trong những chủ đề
nhận được nhiều sự quan tâm, nhiều công trình
nghiên cứu đã được cơng bố, các cuộc thi được tổ

chức nhằm tìm ra những phương pháp tốt và tối ưu
giúp giải quyết bài toán này. Nhiều bộ dữ liệu đã
được phát hành mang lại đóng góp lớn. Khóa luận
này sẽ tiến hành nghiên cứu, thực nghiệm và đánh
giá kết quả đạt được từ các phương pháp state-ofthe-art trên bộ dữ liệu TableBank để phát hiện bảng
trong tài liệu dạng ảnh. Bộ dữ liệu được xây dựng


từ ảnh chụp tài liệu Word và Latex trên internet.
Cuối cùng chúng tôi đưa ra những nhận xét, so sánh
và đánh giá độ hiệu quả của các phương pháp được
chọn dựa theo kết quả huấn luyện trên bộ dữ liệu
TableBank.
Phạm vi

Phân tích kết quả phát hiện bảng trong ảnh của bộ
dữ liệu TableBank từ các phương pháp
CascadeTabNet và DetectoRS

Đối tượng

Các ảnh chụp tài liệu có chứa hoặc khơng chứa
bảng trong bộ dữ liệu TableBank
Các ảnh chụp tài liệu có chứa ảnh khác

Phương pháp thực hiện

Tìm hiểu và phân tích bài tốn
Tìm hiểu và phân tích bộ dữ liệu TableBank
Tìm hiểu các phương pháp state-of-the-art cho bài

toán phát hiện bảng trong tài liệu dạng ảnh
Chạy thực nghiệm, cài đặt và huấn luyện các
phương pháp với bộ dữ liệu TableBank
Phân tích và đánh giá kết quả (độ chính xác, chi
phí), độ hiệu quả đạt được của mỗi phương pháp

Kết quả mong đợi

Phân tích sự giống nhau và khác nhau, ưu điểm và
nhược điểm, độ hiệu quả giữa các phương pháp đối
với bài tốn

Kế hoạch thực hiện:
Từ 15/09 đến 30/09

Tìm hiểu các phương pháp state-of-the-art cho bài
toán phát hiện bảng trong tài liệu dạng ảnh


Tìm hiểu và phân tích bộ dữ liệu TableBank
Từ 01/10 đến 15/10

Thực nghiệm phương pháp CascadeTabNet
Cài đặt môi trường và huấn luyện phương pháp
DetectoRS trên bộ dữ liệu TableBank

Từ 15/10 đến 15/12

Phân tích, so sánh các phương pháp
Đánh giá kết quả và độ hiệu quả của các phương

pháp so với bài toán phát hiện bảng trong tài tiệu
dạng ảnh

Từ 15/12 đến 27/12

Xây dựng báo cáo khóa luận tốt nghiệp

Tài liệu tham khảo:
[1] Qiao, Siyuan and Chen, Liang-Chieh and Yuille, Alan: DetectoRS:
Detecting Objects with Recursive Feature Pyramid and Switchable Atrous
Convolution. Journal 2arXiv preprint arXiv:2006.02334 (2020)
[2] Devashish Prasad and Ayan Gadpal and Kshitij Kapadni and Manish Visave
and Kavita Sultanpure: CascadeTabNet: An approach for end-to-end table
detection and structure recognition from image-based documents. Journal
arXiv preprint arXiv:2004.12629 (2020)
[3] Jingdong Wang and Ke Sun and Tianheng Cheng and Borui Jiang and
Chaorui Deng and Yang Zhao and Dong Liu and Yadong Mu and Mingkui
Tan and Xinggang Wang and Wenyu Liu and Bin Xiao: Deep HighResolution Representation Learning for Visual Recognition. Journal
2TPAMI (2020)
[4] Cai, Zhaowei and Vasconcelos, Nuno: Cascade R-CNN: high quality object
detection and instance segmentation. Journal 2IEEE Transactions on Pattern
Analysis and Machine Intelligence (2019)
[5] CascadeTabNet, Last
accessed 10 Sep 2020


[6] MMDet, Last accessed 10
Sep 2020
[7] Li, Minghao and Cui, Lei and Huang, Shaohan and Wei, Furu and Zhou,
Ming and Li, Zhoujun: Tablebank: Table benchmark for image-based table

detection and recognition. Journal 2arXiv preprint arXiv:1903.01949
(2019)
[8] Chen, Kai and Wang, Jiaqi and Pang, Jiangmiao and Cao, Yuhang and
Xiong, Yu and Li, Xiaoxiao and Sun, Shuyang and Feng, Wansen and Liu,
Ziwei and Xu, Jiarui and others: Mmdetection: Open mmlab detection
toolbox and benchmark. Journal 2arXiv preprint arXiv:1906.07155 (2019)
[9] S. Zhang, C. Chi, Y. Yao, Z. Lei, and S. Z. Li, “Bridging the gap between
anchor-based and anchor-free detection via adaptive training sample
selection,” inCVPR, 2020
[10]

Kim and H. S. Lee, “Probabilistic anchor assignment withiou prediction

for object detection,” inECCV, 2020
[11]

C. Zhu, Y. He, and M. Savvides, “Feature selective anchor-freemodule

for single-shot object detection,”2019 IEEE/CVF Con-ference on
Computer Vision and Pattern Recognition (CVPR), pp. 840–849, 2019.

Xác nhận của CBHD

TP. HCM, ngày….tháng …..năm…..

(Ký tên và ghi rõ họ tên)

Sinh viên 1
(Ký tên và ghi rõ họ tên)


Nguyễn Trần Hoàng Thanh
Nguyễn Tấn Trần Minh Khang

Sinh viên 2
(Ký tên và ghi rõ họ tên)

Nguyễn Thị Lan Phương


MỤC LỤC
TÓM TẮT KHÓA LUẬN .................................................................................. 1
Chương 1. TỔNG QUAN ĐỀ TÀI................................................................... 2
1.1. Động lực nghiên cứu ............................................................................... 2
1.2. Phát biểu bài toán và các thách thức ....................................................... 2
1.3. Các thách thức ......................................................................................... 3
1.4. Vấn đề giải quyết .................................................................................... 5
1.5. Đóng góp khóa luận ................................................................................ 5
1.6. Bố cục khóa luận ..................................................................................... 5
Chương 2. CÁC NGHIÊN CỨU LIÊN QUAN VÀ HƯỚNG TIẾP CẬN ...... 6
2.1. Các hướng tiếp cận.................................................................................. 6
2.2. Các nghiên cứu liên quan ........................................................................ 6
2.2.1.

Tìm hiểu về Deep Learning ......................................................... 6

2.2.2.

CascadeTabNet............................................................................ 8

2.2.3.


DetectoRS.................................................................................... 9

2.2.4.

Faster R-CNN ............................................................................ 10

2.2.5.

Adaptive Training Sample Selection ........................................ 11

2.2.6.

Generalized Focal Loss ............................................................. 13

2.2.7.

Feature Selective Anchor-Free .................................................. 15

2.2.8.

ResNet50 ................................................................................... 16

2.2.9.

HRNet........................................................................................ 17

Chương 3. MÔ TẢ BỘ DỮ LIỆU TABLEBANK......................................... 18
3.1. Giới thiệu bộ dữ liệu TableBank ........................................................... 18
3.2. Mô tả dữ liệu Train ............................................................................... 19

3.2.1.

Mô tả tập tin “annotation” ......................................................... 19


3.2.2.

Thư mục “images” .................................................................... 21

Chương 4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................ 22
4.1. Độ đo IoU, AP, mAP [16] .................................................................... 22
4.2. Tổ chức bộ dữ liệu huấn luyện và môi trường thực nghiệm ................. 25
4.3. Kết quả thực nghiệm ............................................................................. 26
Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.................................... 29
5.1. Các kết quả đạt được ............................................................................. 29
5.2. Hướng phát triển ................................................................................... 29
TÀI LIỆU THAM KHẢO................................................................................. 30
PHỤ LỤC A ...................................................................................................... 33
Cài đặt các thư viện, môi trường cần thiết ............................................ 33

1.
a.

Cài đặt CUDA .................................................................................. 33

b.

Cài đặt MMDetection....................................................................... 34
Cài đặt tập tin config và tiến hành huấn luyện ..................................... 35


2.
a.

Cài đặt tập tin config ........................................................................ 35

b.

Cài đặt config của CascadeTabNet .................................................. 36

36
c.

Huấn luyện và đánh giá trên một phần bộ dữ liệu TableBank......... 36


DANH MỤC HÌNH VẼ
Hình 1.1 Minh họa bài tốn Phát hiện bảng trong tài liệu dạng ảnh...........................3
Hình 1.2 Các bảng có nhiều bố cục và định dạng khác nhau .....................................4
Hình 2.1 DL Neural Network......................................................................................7
Hình 2.2 Kiến trúc mơ hình CascadeTabNet[2] .........................................................8
Hình 2.3 Cấu trúc DetectoRS [1] ................................................................................9
Hình 2.4 Switchable Atrous Convolution[1] ..............................................................9
Hình 2.5 Region Proposal Network ..........................................................................10
Hình 2.6 Faster R-CNN[4] ........................................................................................11
Hình 2.7 Thuật tốn ATSS(Adaptive Training Sample Selection)...........................12
Hình 2.8 Cải thiện bouding box với GFL[14]...........................................................13
Hình 2.9 Cách tính tốn điểm NMS thơng thường[14] ............................................13
Hình 2.10 Cách tính tốn điểm NMS của GFL.........................................................14
Hình 2.11 Tốc độ và độ chính xác của các phương pháp state-of-the-art trên bộ dữ
liệu COCO[14] ..........................................................................................................14

Hình 2.12 Lựa chọn đặc trưng giữa các cấp độ không tối ưu[12] ............................15
Hình 2.13 Nhánh Anchor-Free[12] ...........................................................................15
Hình 2.14 Cấu trúc mạng ResNet50 .........................................................................16
Hình 2.15 Cấu trúc mạng HRNetV2p[3] ..................................................................17
Hình 2.16 Đầu ra của các mạng HRNet[3] ...............................................................17
Hình 4.1 Minh họa cho cách tính IoU .......................................................................22
Hình 4.2 Mơ tả Precision và Recall ..........................................................................23
Hình 4.3 Cơng thức định nghĩa độ chính xác trung bình (AP) .................................24
Hình 4.4 Cơng thức định nghĩa mAP ........................................................................24
Hình 4.5 Kết quả thực nghiệm ..................................................................................26


DANH MỤC BẢNG
Bảng 3.1 Cấu trúc bộ dữ liệu TableBank [8] .............................................................. 18
Bảng 4.1 Giải thích chi tiết các độ đo AP, AP50, AP75 ............................................ 24


DANH MỤC TỪ VIẾT TẮT
AI

Artificial Intelligence

AP

Average Precision

ATSS

Adaptive Training Sample Selection


CUDA

Compute Unified Device Architecture

DL

Deep Learning

Faster R- CNN

Faster Region-based Convolutional Network

FPN

Feature Pyramid Network

FSAF

Feature Selective Anchor-Free

GFL

Generalized Focal Loss

GPU

Graphics Processing Unit

mAP


mean Average Precision

ML

Machine Learning

ROI

Region Of Interest

RPN

Region Proposal Network


TÓM TẮT KHÓA LUẬN
Trong những năm gần đây, phát hiện đối tượng trong tài liệu dạng ảnh là một
trong những chủ đề được quan tâm nghiên cứu, từ đó đã có nhiều cơng trình nghiên
cứu khoa học được cơng bố. Ngày càng nhiều các thuật toán Deep learning ra đời và
phát triển đã giúp cho việc phát hiện đối tượng ngày một tốt hơn.
Nhờ có sự hướng dẫn, giúp đỡ tận tình của thầy cơ, các anh chị khóa trên, cùng
với việc tìm hiểu, nghiên cứu và vận dụng các phương pháp học sâu, chúng em đã
tiến hành thực nghiệm trên bộ dữ liệu TableBank bằng các phương pháp deep learning
như CascadeTabNet, DetetcorRS, Faster R-CNN, ATSS, FSAF, GFL để phát hiện
đối tượng từ ảnh với mạng HrNet, ResNet50. Đây là một bộ dữ liệu lớn, chứa nhiều
thách thức trong bài toán phát hiện bảng, được xây dựng từ tài liệu dạng Word và
Latex.
Qua đó, chúng em đã rút ra các nhận xét, đánh giá các phương pháp đã chạy
thực nghiệm như đã nói trên một phần của bộ dữ liệu TableBank. Từ đó tìm được
phương pháp tốt nhất để phát hiện bảng trên phần dữ liệu đó của bộ dữ liệu TableBank


1


Chương 1. TỔNG QUAN ĐỀ TÀI
1.1.

Động lực nghiên cứu

Cùng với sự phát triển của công nghệ thông tin, tài liệu điện tử ngày càng trở
nên phổ biến và được lưu trữ dưới nhiều định dạng như Word(.docx), Latex (.tex), …
Thông tin ở đó được trình bày ở nhiều dạng như văn bản, cơng thức, biểu đồ, bảng,...
Trong đó, bảng là một dạng lưu trữ thơng tin có cấu trúc, giúp con người dễ dàng
quan sát, quản lý, so sánh, thống kê, ... Trong đời sống hàng ngày, chúng ta có thể bắt
gặp người ta hoặc chính chúng ta chụp màn hình lại các tài liệu có chứa bảng quan
trọng rồi lưu trong điện thoại, ipad, … Nhiều người, cơ quan hoặc cơng ty cịn có nhu
cầu xuất những bảng trong tài liệu đó sang tệp excel. Hay nhiều người hoặc công ty
dùng biểu mẫu trực tuyến để thu thập thông tin một cách dễ dàng, giúp giảm đi đáng
kể chi phí nhập liệu thủ cơng. Vậy nếu như lúc này có thể tìm được và trích xuất được
bảng trong đó cũng sẽ tiết kiệm đáng kể chi phí in ấn, lưu trữ, tổ chức dữ liệu,...
Đương nhiên để làm được điều đó nhiệm vụ đầu tiên cần làm là phát hiện được vị trí
của các bảng trong tài liệu dạng ảnh đó. Đây là một nhiệm vụ vơ cùng quan trọng
nhận được nhiều sự quan tâm.
Từ đó, chúng em có động lực để tìm hiểu, nghiên cứu các phương pháp mới
và thử nghiệm trên một bộ dữ liệu đã chọn. Sau đó đưa ra các nhận xét đánh giá để
tìm được phương pháp tối ưu nhất. Đây cũng là cơ sở để phát triển các bước sau này
cũng như các ứng dụng trích xuất thơng tin từ bảng trong tương lai.
1.2.

Phát biểu bài toán và các thách thức


Phát hiện bảng trong tài liệu dạng ảnh là một bài tốn có nhiều thách thức và
đóng vai trị quan trọng trong phân tích bố cục tài liệu cũng như trích xuất thơng tin.
Bảng là một thành phần quan trọng trong tài liệu, là cách thức biểu diễn thông tin một
cách trực quan, cơ đọng, thường xun được sử dụng. Đã có nhiều cuộc thi được tổ
chức nhằm mục đích tìm ra các phương pháp hiệu quả và tốt nhất để giải quyết bài toán

2


này. Tính đến nay đã có nhiều phương pháp học sâu được ra đời, cải tiến nhằm phát
hiện bảng một cách hiệu quả và chính xác nhất.
Trong luận văn này, chúng em tập trung vào việc tìm hiểu và sử dụng các
phương pháp học sâu Faster RCNN, DetectoRS, CascadeTabNet, ATSS, GFL, FSAF
cho bài toán phát hiện bảng trong tài liệu dạng ảnh.
Trong phạm vi khóa luận, đối tượng được xem xét của bài toán là bảng trong
tài liệu Latex dạng ảnh. Đầu vào của bài toán là một ảnh của của một tài liệu trong
lĩnh vực nào đó. Đầu ra là vị trí của bảng trong ảnh đó.

Hình 1.1 Minh họa bài toán Phát hiện bảng trong tài liệu dạng ảnh [8]
1.3.

Các thách thức

Phát hiện bảng là một bài toán phổ biến nhưng lại mang trong mình nhiều khó
khan thách thức do sự đang dạng của các kiểu biểu diễn bảng, cũng như bố cục tài liệu
và định dạng của tài liệu đó. Việc tìm được một phương pháp có thể chạy tốt trên tất

3



cả các loại bảng hay bố cục, định dạng tài liệu trong ảnh cũng khơng phải là điều dễ
dàng.

Hình 1.2 Các bảng có nhiều bố cục và định dạng khác nhau [8]

4


1.4.

Vấn đề giải quyết

− Tìm hiểu tổng quan về bài tốn phát hiện bảng trong tài liệu dạng ảnh.
− Tìm hiểu và hệ thống lại các kiến thức về Deep learning.
− Đánh giá các phương pháp dị tìm đối tượng tốt nhất hiện nay cho bài toán
phát hiện bảng trong tài liệu dạng ảnh trên một phần của bộ dữ liệu TableBank.
− Liệt kê, so sánh và tìm ra phương pháp tốt nhất để phát hiện bảng trên một
phần bộ dữ liệu TableBank đã chọn.
1.5.

Đóng góp khóa luận

Các đóng góp của khóa luận bao gồm:
1. Hệ thống lại kiến thức của bài toán phát hiện bảng trong tài liệu dạng ảnh.
2. Hệ thống lại các kiến thức về Deep learning bao gồm: Faster R-CNN,
DetectoRS, CascadeTabNet, FSAF, ATSS, GFL.
3. Đánh giá thực nghiệm bài toán phát hiện bảng trong tài liệu dạng ảnh bằng
phương pháp Faster R-CNN, DetectoRS, CascadeTabNet, FSAF, ATSS,
GFL với 2 kiến trúc mạng HRNet, ResNet50.

4. Thống kê, phân tích, đánh giá hiệu quả của các phương pháp đã chạy, từ
đó tìm ra phương pháp phát hiện bản tốt nhất trên một phần bộ dữ liệu
TableBank.
1.6.

Bố cục khóa luận

Đồ án bao gồm 6 chương, nội dung chính từng chương như sau:
Chương 1: Tổng quan đề tài
Chương 2: Các nghiên cứu liên quan và hướng tiếp cận
Chương 3: Mô tả bộ dữ liệu TableBank
Chương 4: Kết quả thực nghiệm và đánh giá
Chương 5: Kết luận và hướng phát triển

5


Chương 2. CÁC NGHIÊN CỨU LIÊN QUAN VÀ HƯỚNG TIẾP CẬN
Như đã giới thiệu ở chương 1, đề tài tập trung vào các phương pháp deep learning
cho bài toán Phát hiện bảng trong tài liệu dạng ảnh. Nội dung chương 2 giới thiệu đôi nét
về hướng nghiên cứu Phát hiện bảng trong tài liệu dạng ảnh (Table Detection in Document
Image). Đồng thời, giới thiệu các hướng tiếp cận của bài toán Phát hiện bảng, đặc biệt là
hướng tiếp cận Deep Learning.
2.1.

Các hướng tiếp cận

Trong phần này, chúng em trình bày về hai nội dung: Các phương pháp deep
learning được áp dụng trong thực nghiệm là Faster R-CNN, DetectoRS, CascadeTabNet,
ATSS, GFL, FSAF cùng hai mạng nơ-ron tích chập HRNet và Resnet50 được dùng trong

nghiên cứu của khóa luận.
2.2.

Các nghiên cứu liên quan

2.2.1. Tìm hiểu về Deep Learning
Deep Learning là một tập hợp con của Trí tuệ nhân tạo – một kỹ thuật học máy dạy
cho máy tính và các thiết bị hoạt động một cách logic, lầy cảm hứng từ não bộ con người.
Deep Learning liên quan đến việc đi sâu vào một số lớp của mạng, bao gồm cả một lớp
ẩn. Bạn càng học sâu, bạn càng trích xuất ra những thơng tin phức tạp. Các thuật tốn DL
cố gắng phân tích dữ liệu liên tục với một cấu trúc logic nhất định để đưa ra kết luận tương
tự con người.
Phương pháp Deep learning dựa vào các chương trình phức tạp khác nhau để bắt
chước trí thơng minh của con người. Phương pháp đặc biệt này dạy cho máy móc nhận biết
các họa tiết để có thể phân loại chúng thành các loại khác nhau. Nhận dạng mẫu là một
phần thiết yếu của Deep learning và nhờ Machine learning, máy tính thậm chí khơng cần
phụ thuộc vào lập trình mở rộng. Thơng qua Deep learning, máy móc có thể sử dụng các
tệp hình ảnh, văn bản hoặc âm thanh để xác định và thực hiện bất kỳ tác vụ nào theo cách
giống như con người.
6


Hình 2.1 DL Neural Network [16]
Cấu trúc của mơ hình DL thường có 3 lớp: Lớp đầu vào (Input Layer), lớp ẩn
(Hidden Layer) và lớp đầu ra (Output Layer). Trong đó, lớp đầu vào chứa các đơn vị tương
ứng với đầu vào của mạng DL, dữ liệu mà mạng nơ-ron học; lớp ẩn nằm ở giữa, có thể chứ
nhiều hơn một lớp ẩn, là nơi thực hiện các phép toán nhất định để tính toán cho đầu ra,
chứa các đơn vị thể hiện cấu trúc bên trong; lớp đầu ra chứa các đơn vị mà tương ứng với
đầu ra của mạng này. Số lượng các lớp tăng lên sẽ giúp mơ hình dễ dàng học được bởi việc
này giúp cho mơ hình có khả năng học được nhiều đặc trưng cao cấp hơn. Mặc khác, có

thể tăng số lượng các perceptron (một loại mạng nơ-ron nhân tạo) trong một lớp lại giúp
mơ hình phân biệt được nhiều biến thể của một loại đặc trưng. Tuy nhiên, cả hai điều này
làm đều làm cho mơ hình chỉ hoạt động tốt trên một bộ dữ liệu. chứ chưa chắc đã tốt trên
những bộ dữ liệu khác.

7


2.2.2. CascadeTabNet
CascadeTabNet là một Cascade mask Region-based CNN High-Resolution
Network (Cascade mask R-CNN HRNet), tiếp cận theo hướng end to end, dùng để phát
hiện ra khu vực của bảng và nhận dạng cấu trúc hay nói cách khác, nó sử dụng lại phương
pháp CascadeMask R-CNN với backbone là mạng HRNet.

Hình 2.2 Kiến trúc mơ hình CascadeTabNet[2]
Đây là mơ hình CascadeTabNet 3 giai đoạn. Kiến trúc của CascadeTabNet như hình
trên. Ảnh I sau khi được đưa vào model sẽ được backbone HRNetV2p_W32 chuyển thành
bản đồ đặc trưng. Sau đó RPN Head sẽ dự đoán các đối tượng sơ bộ. Đặc trưng ROI được
BboxHeads làm đầu vào và đưa ra các dự đoán thông minh hơn về ROI. Mỗi head sẽ đưa
ra hai dự đoán là điểm phân loại hộp giới hạn và điểm hồi quy hộp. B{x} biểuthị các hộp
giới hạn được dự đoán bởi các đầu. MaskHead dự đoán mặt nạ cho các đối tượng và đưa
ra đầu ra là S. Phát hiện đối tượng được thực hiện bởi Bbox Heads được bổ sung với các
segmentation mask do Mask Head tạo ra để phát hiện tất cả các đối tượng.

8


×