ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA CƠNG NGHỆ PHẦN MÈM
TRƯƠNG DIỆU LINH
KHĨA LUẬN TỐT NGHIỆP
PHÁT HIỆN ĐỐI TƯỢNG TRONG ẢNH TÀI LIỆU DỰA TRÊN
PHƯƠNG PHÁP HỌC SÂU
Page Object Detection Based On Deep Learning
KỸ SƯ NGÀNH CƠNG NGHỆ PHẦN MỀM
TP. HỒ CHÍ MINH, 2021
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
TRƯƠNG DIỆU LINH – 17520691
KHÓA LUẬN TỐT NGHIỆP
PHÁT HIỆN ĐỐI TƯỢNG TRONG ẢNH TÀI LIỆU DỰA TRÊN
PHƯƠNG PHÁP HỌC SÂU
Page Object Detection Based On Deep Learning
KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
TS. NGUYỄN TẤN TRẦN MINH KHANG
TP. HỒ CHÍ MINH, 2021
THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
…………………… ngày ………………….. của Hiệu trưởng Trường Đại học Công
nghệ Thông tin.
LỜI CẢM ƠN
Để hồn thành được khóa luận này, lời đầu tiên, tôi xin chân thành cảm
ơn sâu sắc đến thầy TS. Nguyễn Tấn Trần Minh Khang – giảng viên hướng dẫn
của tơi trong khóa luận. Thầy đã ln quan tâm, lo lắng, nhắc nhở cũng như hỗ
trợ tôi trong suốt q trình thực hiện khóa luận. Thầy cũng là người đã truyền
cảm hứng giúp tôi định hướng trong con đường học tập và nghiên cứu khoa học.
Đồng thời, tôi cũng xin gửi lời cảm ơn đến thầy ThS. Võ Duy Ngun đã ln
giúp đỡ, hướng dẫn tận tình, sửa chữa và đóng góp nhiều ý kiến q báu giúp
tơi hồn thành thật tốt báo cáo khóa luận.
Bên cạnh đó, tôi xin gửi lời cảm ơn chân thành đến các em, các bạn, các
anh chị trong nhóm nghiên cứu đã luôn đồng hành, giúp đỡ và động viên tôi
trong suốt q trình tơi thực hiện khóa luận này.
Tơi cũng xin chân thành cảm ơn tập thể quý thầy cô trường Đại học Cơng
nghệ Thơng tin nói chung và đặc biệt các q thầy cơ khoa Cơng nghệ Phần
mềm, phịng thí nghiệm Truyền thơng Đa phương tiện MMLab nói riêng đã
truyền đạt kiến thức, hỗ trợ cho tôi trong suốt quá trình tơi học tập tại trường.
Cuối cùng, tơi muốn gửi lời cảm ơn chân thành nhất đến bố mẹ và những
người trong thân trong gia đình tơi – những người đã luôn động viên, giúp đỡ,
tạo điều kiện và là niềm cảm hứng của tôi trong từng chặng đường.
Trong quá trình thực hiện khóa luận, dù có hồn chỉnh đến đâu thì giới
hạn kiến thức sẽ khơng tránh khỏi những sai sót, hạn chế trong đề tài. Tơi mong
nhận được sự góp ý của quý thầy và các bạn để được hồn thiện hơn.
Một lần nữa, tơi xin chân thành cảm ơn!
Sinh viên thực hiện
Trương Diệu Linh
TP.Hồ Chí Minh, ngày 20 tháng 06 năm 2021
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI TIẾNG VIỆT: Phát hiện đối tượng trong ảnh tài liệu dựa trên
phương pháp học sâu
TÊN ĐỀ TÀI TIẾNG ANH: Page Object Detection Based On Deep Learning
Cán bộ hướng dẫn: TS. Nguyễn Tấn Trần Minh Khang
Thời gian thực hiện: Từ ngày 01/03/2021 đến ngày 20/06/2021
Sinh viên thực hiện:
1. Trương Diệu Linh – 17520691
Nội dung đề tài
● Động lực nghiên cứu:
Sự phát triển mạnh mẽ của điện thoại thông minh và máy quét
khiến cho nhu cầu lưu trữ tài liệu ở định dạng PDF (Portable Document
Format) và dạng ảnh chụp trở nên rất phổ biến bởi sự tiện lợi mà nó
mang lại. Các tài liệu PDF hay các tài liệu ảnh được chụp bằng điện
thoại sẽ là công cụ hữu ích giúp lưu trữ thơng tin quan trọng để dễ trao
đổi và trích xuất. Mặc dù các tài liệu PDF, dạng ảnh sẽ giúp giữ nguyên
các yếu tố của văn bản như ký tự, đường kẻ, phơng chữ, hình ảnh, v.v
tuy nhiên đây lại không phải là định dạng mà máy móc có thể đọc được
và hiểu được. Trong khi việc trích xuất dữ liệu bằng các phương pháp
thủ công lại rất tốn kém nhân lực, thời gian, chi phí…
Đứng trước thời đại bùng nổ của Big Data, AI, việc số hóa dữ liệu
tự động là vơ cùng quan trọng, cấp thiết và đang trở thành một thách
thức lớn cho rất nhiều ngành công nghiệp trên thế giới… Trong đó, trở
ngại lớn nhất của việc đọc hiểu tài liệu bằng ảnh (Document Image
Understanding) là việc phát hiện và nhận dạng các đối tượng trang
(Page Object Detection – bao gồm bảng, hình ảnh, chú thích, cơng
thức…từ hình ảnh tài liệu). Đây cũng là một nhiệm vụ high-level cho
việc trích xuất, tóm tắt cũng như là truy vấn dữ liệu sau này.
● Mục tiêu đề tài:
o Nghiên cứu về xử lý ảnh cho bài toán phát hiện đối tượng trong ảnh
tài liệu.
o Khảo sát các bộ dữ liệu cho bài toán phát hiện đối tượng trong ảnh
tài liệu trên thế giới.
o Xây dựng bộ dữ liệu ảnh tài liệu khoa học tiếng Việt đa dạng gồm
PDF, tài liệu scan, ảnh scan bằng điện thoại.
o Nghiên cứu và cài đặt thực nghiệm phương pháp học sâu dựa trên bộ
dự liệu được xây dựng và so sánh các phương pháp đã sử dụng.
o Đề xuất một số phương pháp cải thiện kết quả thực nghiệm.
o Xây dựng demo với các phương pháp đã cài đặt.
o Tổng hợp kết quả và viết báo cáo.
● Đối tượng và phạm vi nghiên cứu:
o Ảnh PDF và scan của các bài báo khoa học tiếng Việt.
o File nhãn của ảnh gồm 4 lớp đối tượng: table, figure, caption,
formula.
o Phương pháp thực nghiệm: Nghiên cứu các phương pháp học sâu
“state-of-the-art” cho bài toán phát hiện đối tượng.
● Phương pháp thực hiện:
o Khảo sát, tìm hiểu tổng quan về bài toán Phát hiện đối tượng trên
các tài liệu dạng ảnh từ những nghiên cứu trên thế giới.
o Tiến hành thu thập gán nhãn cho bộ dữ liệu ảnh tài liệu khoa học
tiếng Việt.
o Nghiên cứu và cài đặt thực nghiệm phương pháp học sâu dựa trên bộ
dữ liệu được xây dựng và so sánh các phương pháp đã sử dụng.
o Nghiệm thu kết quả, đánh giá, phân tích kết quả và mơ hình thực
nghiệm để đề xuất cải tiến mơ hình.
o Tổng hợp và viết báo cáo.
o Xây dựng demo với phương pháp tốt nhất.
● Kết quả mong đợi:
o Xây dựng thành công bộ dữ liệu chuẩn dựa vào bộ dữ liệu
ICDAR2019, Mamot, DocBank …
o Tài liệu khảo sát, phân tích bài tốn dựa trên các nghiên cứu và bộ
dữ liệu đã có.
o Tài liệu tổng hợp bài toán, phương pháp học sâu tiên tiến.
o Tài liệu chi tiết cách cài đặt môi trường, chi tiết các thay đổi tham
số, cải tiến kết quả so với các tham số mặc định.
o Bảng báo cáo tổng hợp kết quả thực nghiệm, đánh giá nhận xét về
model đã xây dựng được.
o Báo cáo đánh giá, phân tích thực nghiệm với các phương pháp
“state-of-the-art” trên bộ dữ liệu đã xây dựng.
Kế hoạch thực hiện:
● Giai đoạn 1: Từ 03/2020 – 04/2020
o Khảo sát tình hình nghiên cứu về bài toán “Phát hiện đối tượng trong
tài liệu dạng ảnh” từ các nghiên cứu đã có.
o Khảo sát và chạy thử các phương pháp thực nghiệm được đề xuất.
o Tổng hợp kết quả khảo sát và tiến hành đánh giá, lựa chọn phương
hướng.
● Giai đoạn 2: Từ 04/2020 – 05/2020
o Tìm hiểu các bộ dữ liệu chuẩn ICDAR2017, ICDAR2019,
Marmot… để tiến hành phân tích, thu thập, gán nhãn bộ dữ liệu ảnh
tài liệu khoa học tiếng Việt.
o Nghiên cứu các phương pháp học sâu trong lĩnh vực xử lý ảnh.
o Tiến hành cài đặt, thử nghiệm các phương pháp dựa trên bộ dữ liệu
được xây dựng
o Xây dựng bản demo với mô hình đạt kết quả tốt nhất.
● Giai đoạn 3: Từ 05/2020 – 20/06/2020
o Tổng hợp kết quả thực nghiệm, nhận xét, phân tích và so sánh các
kết quả đạt được, viết báo cáo.
o Hoàn thiện sản phẩm demo.
Xác nhận của CBHD
TP.HCM, ngày 10 tháng 03 năm 2021
(Ký tên và ghi rõ họ tên)
Sinh viên
(Ký tên và ghi rõ họ tên)
TS. Nguyễn Tấn Trần Minh Khang
Trương Diệu Linh
MỤC LỤC
Chương 1. TỔNG QUAN ĐỀ TÀI ...........................................................................2
1.1. Động lực nghiên cứu......................................................................................2
1.2. Phát biểu bài toán ...........................................................................................3
1.3. Các thách thức ...............................................................................................4
1.4. Mục tiêu và phạm vi nghiên cứu ...................................................................5
1.5. Đóng góp khóa luận .......................................................................................6
1.6. Cấu trúc báo cáo đề tài...................................................................................7
Chương 2. CÁC NGHIÊN CỨU LIÊN QUAN ........................................................8
2.1. Phát hiện đối tượng ........................................................................................8
2.1.1. Giới thiệu ................................................................................................8
2.1.2. Phân loại .................................................................................................9
2.1.3. Ứng dụng ..............................................................................................10
2.2. Các phương pháp rút trích đặc trưng ảnh ....................................................10
2.2.1. Phương pháp rút trích đặc trưng truyền thống ......................................10
2.2.1.1. PCA................................................................................................10
2.2.1.2. HOG ...............................................................................................11
2.2.2. Phương pháp rút trích đặc trưng dựa trên học sâu ................................12
2.2.2.1. Mạng học sâu – DNN ....................................................................12
2.2.2.2. Convolutional Neural Network - CNN ..........................................13
2.2.2.3. LeNet-5 ..........................................................................................14
2.2.2.4. VGG ...............................................................................................15
2.2.2.5. ResNet............................................................................................16
2.2.2.6. DenseNet........................................................................................17
2.3. Các hướng tiếp cận liên quan tới bài toán ...................................................17
2.3.1. Hướng tiếp cận theo phương pháp truyền thống ..................................18
2.3.2. Hướng tiếp cận theo phương pháp học sâu ..........................................18
2.4. Phương pháp phát hiện đối tượng họ R-CNN .............................................19
2.4.1. R-CNN ..................................................................................................19
2.4.2. Fast R-CNN ..........................................................................................21
2.4.3. Faster R-CNN .......................................................................................21
2.5. Phương pháp phát hiện đối tượng họ YOLO...............................................23
2.5.1. YOLOv1 ...............................................................................................23
2.5.2. YOLOv2 ...............................................................................................24
2.5.3. YOLOv3 ...............................................................................................26
2.5.4. YOLOv4 ...............................................................................................27
2.5.5. YOLOv4x-mish ....................................................................................28
2.6. Phương pháp phát hiện đối tượng CascadeTabNet .....................................30
Chương 3. XÂY DỰNG BỘ DỮ LIỆU PHÁT HIỆN ĐỐI TƯỢNG TRONG ẢNH
TÀI LIỆU TIẾNG VIỆT ...........................................................................................32
3.1. Khảo sát bộ dữ liệu ......................................................................................32
3.1.1. Khảo sát ................................................................................................32
3.1.2. Lý do xây dựng bộ dữ liệu ....................................................................34
3.2. Thu thập và tiền xử lý ..................................................................................36
3.2.1. Thu thập dữ liệu ....................................................................................36
3.2.2. Tiền xử lý dữ liệu..................................................................................37
3.3. Quy tắc và tổ chức gán nhãn dữ liệu ...........................................................37
3.4. Quy trình thu thập và gán nhãn....................................................................39
3.5. Phân tích bộ dữ liệu .....................................................................................43
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ .......................................................44
4.1. Dữ liệu thực nghiệm ....................................................................................44
4.1.1. Mô tả cơ bản .........................................................................................44
4.1.2. Mô tả chi tiết .........................................................................................44
4.2. Mô tả thực nghiệm .......................................................................................45
4.2.1. Mơ tả quy trình thực nghiệm ................................................................45
4.2.2. Cấu hình thực nghiệm ...........................................................................46
4.3. Phương pháp đánh giá .................................................................................47
4.3.1. Intersection over Union (IoU) ..............................................................47
4.3.2. Average Precision (AP) ........................................................................48
4.3.3. Mean Average Precision (mAP) ...........................................................49
4.4. Kết quả thực nghiệm và đánh giá ................................................................49
4.4.1. Kết quả thực nghiệm .............................................................................49
4.4.2. Trực quan hóa kết quả ..........................................................................50
4.4.3. Đánh giá kết quả ...................................................................................51
Chương 5. ĐỀ XUẤT CẢI TIẾN VÀ ĐÁNH GIÁ KẾT QUẢ .............................53
5.1. Một số đề xuất cải tiến kết quả phát hiện đối tượng trên ảnh tài liệu ..........53
5.1.1. Cross Entropy Loss (CE) ......................................................................53
5.1.2. Focal Loss .............................................................................................54
5.1.3. Fused Loss ............................................................................................54
5.2. Đánh giá kết quả đề xuất .............................................................................55
5.2.1. Kết quả đề xuất .....................................................................................55
5.2.2. Trực quan hóa kết quả ..........................................................................55
5.2.3. Đánh giá kết quả ...................................................................................56
5.3. Tổng quan hệ thống ứng dụng Phát hiện đối tượng ....................................57
5.3.1. Giới thiệu ..............................................................................................57
5.3.2. Phân tích thiết kế ..................................................................................57
5.3.3. Cài đặt và kiểm thử ...............................................................................60
5.3.4. Màn hình kết quả ..................................................................................60
Chương 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................61
6.1. Kết luận ........................................................................................................61
6.2. Khó khăn ......................................................................................................62
6.3. Thuận lợi ......................................................................................................62
6.4. Hướng phát triển ..........................................................................................63
TÀI LIỆU THAM KHẢO .........................................................................................64
PHỤ LỤC A – BÀI BÁO..........................................................................................70
PHỤ LỤC B – HƯỚNG DẪN CÀI ĐẶT.................................................................89
DANH MỤC HÌNH
Hình 1-1: Bài tốn phát hiện đối tượng trong ảnh tài liệu tiếng Việt. a. Đầu vào là
ảnh tài liệu; b. Đầu ra là vị trí các cơng thức (xanh dương), caption (xanh lá), table
(hồng), figure (màu cam). ...........................................................................................3
Hình 1-2: Một số ví dụ minh họa về tính đa dạng của các đối tượng trong trang tài
liệu dạng ảnh. ..............................................................................................................5
Hình 2-1: Ví dụ phân biệt các kỹ thuật trong Computer Vision.[4] ...........................8
Hình 2-2: Hình so sánh sự khác nhau của mơ hình one-stage và two-stage.[34] .....10
Hình 2-3: Tổng quan về trích xuất đặc trưng HOG trong bài báo gốc.[7]................11
Hình 2-4: Ý tưởng mơ phỏng hoạt động của não bộ con người của mạng ANN. [8]
...................................................................................................................................12
Hình 2-5: Kiến trúc mạng nơ ron sâu.[9] ..................................................................12
Hình 2-6: Cấu trúc trong từng nốt của mạng nơ-ron nhân tạo.[9] ............................13
Hình 2-8: Kiến trúc tổng quan của mơ hình CNN.[11] ............................................14
Hình 2-9: Kiến trúc mạng LeNet-5 cho bài toán nhận diện chữ số viết tay [13]......15
Hình 2-10: Kiến trúc mạng VGG-16 [13] .................................................................15
Hình 2-11: Kiến trúc mạng ResNet-50 [13]..............................................................16
Hình 2-12: Kiến trúc mạng Dense (DenseNet) trong bài báo gốc [5] ......................17
Hình 2-13: Kiến trúc mơ hình R-CNN trong bài báo gốc.[27] .................................20
Hình 2-14: Kiến trúc mơ hình Fast R-CNN.[44] ......................................................21
Hình 2-15: Kiến trúc mơ hình Faster R-CNN.[44] ...................................................22
Hình 2-16: Hình minh họa hoạt động của các mơ hình one-stage (YOLO). [30] ....24
Hình 2-17: Kiến trúc mơ hình YOLOv3.[45] ...........................................................26
Hình 2-18: Kiến trúc mơ hình phát hiện đối tượng YOLOv4...................................27
Hình 2-19: So sánh khác biệt giữa (a) DenseNet và (b) CSPDenseNet. [47] ...........28
Hình 2-20: Kết quả so sánh đánh giá mơ hình Phát hiện đối tượng YOLOv4 với các
mơ hình state-of-the-art khác.[35].............................................................................29
Hình 2-21 a. Backbone YOLOv4; b. Backbone YOLOv4x-mish ..........................29
Hình 2-22 (a) Neck của YOLOv4; (b) Neck sau khi được CSP hóa ......................29
Hình 2-23 Kiến trúc mơ hình CascadeTabNet từ bài báo gốc [26]. ........................30
Hình 3-1 Một số thể hiện của bảng trong các tài liệu khoa học tiếng Việt. Ảnh trích
từ bộ dữ liệu UIT-DODV. .........................................................................................34
Hình 3-2 Một số thể hiện của các lớp đối tượng Formula trong tài liệu khoa học
tiếng Việt. Ảnh trích từ bộ dữ liệu UIT-DODV........................................................35
Hình 3-3: Mơ tả quy trình thu thập gán nhãn bộ dữ liệu UIT-DODV ......................39
Hình 4-1: Biểu đồ phân chia bộ dữ liệu UIT-DODV. ..............................................44
Hình 4-2: Biểu đồ thống kê phân phối giữa các lớp đối tượng trong bộ dữ liệu UITDODV. ......................................................................................................................45
Hình 4-3: Luồng xử lý quá trình cài đặt, chạy thực nghiệm với mơ hình YOLOv4 45
Hình 4-4: Cơng thức minh họa để tính IoU. [40]......................................................47
Hình 4-5: Precision and recall [1] .............................................................................48
Hình 4-6: Ảnh kết quả dự đốn tốt khi chạy thực nghiệm với thông số mặc định (a)
CascadeTabNet, (b) Faster R-CNN, (c)YOLOv4, (d) YOLOv4x-mish. ..................50
Hình 4-7: Ảnh kết quả dự đốn xấu khi chạy thực nghiệm với thơng số mặc định (a)
CascadeTabNet, (b) Faster R-CNN, (c)YOLOv4, (d) YOLOv4x-mish. ..................51
Hình 5-1: Một số ảnh so sánh giữa 2 mơ hình CascadeTabNet khi sử dụng hàm loss
mặc định và hàm loss đề xuất. Trong đó hình (1a, 2a, 3a) CascadeTabNet khi sử
dụng CE loss; Hình (1b, 2b, 3b) CascadeTabNet khi sử dụng Fused loss. ..............56
Hình 5-2: Mơ tả usecase tổng qt cho ứng dụng Page Object Detection................57
Hình 5-3: Userflow tổng quát của ứng dụng Page Object Detection........................58
Hình 5-4: Kiến trúc ứng dụng Page Object Detection. .............................................58
Hình 5-5: (a) Màn hình chụp ảnh; (b) Màn hình chọn load ảnh; (c) Màn hình chờ dự
đốn; (d) Màn hình kết quả dự đốn. ........................................................................59
Hình 5-6: (a) Màn hình lịch sử ảnh; (b) Màn hình xóa ảnh trong lịch sử. ................59
Hình 5-7: Phần giao diện của app “page object detection”. (a) Màn hình chính chụp
ảnh ; (b) Màn hình ảnh cần dự đốn; (c) Màn hình chờ dự đốn; (d) Màn hình kết
quả dự đốn; (e) Màn hình lịch sử ảnh; (f) Màn hình xem chi tiết ảnh. ...................60
DANH MỤC BẢNG
Bảng 3-1: Tóm tắt các bộ dữ liệu tài liệu dạng ảnh hiện có. Bộ dữ liệu UIT-DODV
của chúng tôi được in đậm. .......................................................................................33
Bảng 3-2: Mô tả ý nghĩa giá trị các thuộc tính trong file annotations định dạng
YOLO ( .txt) ..............................................................................................................40
Bảng 3-3: Mô tả ý nghĩa giá trị các thuộc tính trong khối “categories” ( .json) .......41
Bảng 3-4: Mơ tả ý nghĩa giá trị các thuộc tính trong khối “image” ( .json) .............41
Bảng 3-5: Mô tả ý nghĩa giá trị các thuộc tính trong khối “annotations” ( .json).....42
Bảng 4-1: Bảng kết quả thực nghiệm với thông số mặc định trên các phương pháp
phát hiện đối tượng. Kết quả tốt nhất được in đậm...................................................49
Bảng 5-1: Bảng kết quả thực nghiệm với hàm mất mát hồi quy hộp giới hạn IoU
trên bộ dữ liệu UIT-DODV trên phương pháp CascadeTabNet. Kết quả tốt nhất
được in đậm. ..............................................................................................................55
DANH MỤC TỪ VIẾT TẮT
STT
01
Từ viết tắt
AI
02
ANN/NN
03
BB/RP
04
CNN
05
06
CV
CUDA
07
DIU
08
DL
09
FPN
10
FPS
11
mAP / AP
12
OD
13
PDF
14
POD
15
RPN
16
SSD
17
SS
18
YOLO
Ý nghĩa
Trí tuệ nhân tạo – Artificial Intelligence
Mơ hình mạng nơ ron nhân tạo –
Artificial Neural Network/Neural Network
Khung khoanh các vùng có thể có vật thể ở trong.–
Bounding-box / Region Proposal
Mơ hình mạng tích chập –
Convolution Neural Network
Xử lý ảnh – Computer Vision
Compute Unified Device Architecture
Đọc hiểu đối tượng tài liệu dạng ảnh – Document
Image Understanding
Học sâu – Deep Learning
Mơ hình mạng trích xuất đặc trưng Kim tự tháp –
Feature Pyramid Network
Độ đo về tốc độ xử lý 1 khung hình trên 1 giây –
Frame per second
Độ đo trung bình AP Measure Average Precision
Phát hiện đối tượng – Object Detection
Tài liệu định dạng di động – Portable Document
Format
Phát hiện đối tượng trang – Page Object Detection
Mạng đề xuất khu vực –
Region Proposal Network
Thuật toán Phát hiện đối tượng –
Single Shot Detection
Thuật toán đề xuất khu vực có chọn lọc –
Selective Search
Thuật tốn Phát hiện đối tượng họ YOLO –
You only look once
TÓM TẮT KHÓA LUẬN
Đứng trước thời đại bùng nổ của Big Data, AI, nhu cầu khai thác thông tin dữ
liệu số hóa ngày càng quan trọng, cấp thiết, và đang trở thành một thách thức lớn
cho rất nhiều ngành công nghiệp trên thế giới. Tuy nhiên, các tài liệu này lại chủ
yếu được lưu ở dạng ảnh scan, PDF, ảnh chụp từ điện thoại… nên có bố cục đa
dạng và chứa nhiều thách thức. Trong đó, trở ngại lớn nhất của việc đọc hiểu tài liệu
bằng ảnh là việc phát hiện và nhận dạng các đối tượng trong tài liệu. Đây cũng là
một nhiệm vụ high-level cho việc trích xuất dữ liệu sau này.
Trong nghiên cứu này, chúng tôi giới thiệu bộ dữ liệu UIT-DODV – bộ dữ liệu
ảnh tài liệu khoa học tại các hội nghị trong nước. Chúng tôi thu thập 2,394 ảnh tài
liệu được chuyển đổi từ PDF, ảnh scan từ máy scan vật lý và scan bằng smartphone
chứa nhiều thách thức mới so với các bộ dữ liệu tài liệu ảnh khác đã được công bố
trên thế giới. Ngồi ra, chúng tơi tìm hiểu, nghiên cứu và tiến hành chạy thực
nghiệm các phương pháp phát hiện đối tượng dựa trên học sâu tiên tiến nhất gồm
CascadeTabNet, Faster-RCNN, YOLOv4, YOLOv4x-mish trên bộ dữ liệu xây
dựng được để giải quyết bài tốn và đánh giá tồn diện về bộ dữ liệu. Qua kết quả
thu được từ việc chạy thực nghiệm, chúng tôi đưa ra đánh giá đầy đủ, chi tiết về bộ
dữ liệu cũng như các phương pháp đã thực hiện. Từ quá trình quan sát kết quả thực
nghiệm, chúng tơi đề xuất thêm các mơ hình mở rộng với sự thay đổi hàm Loss để
cải thiện độ chính xác cho mơ hình mặc định. Các đóng góp cho nghiên cứu của
chúng tôi hiện đang phản biện tại Hội nghị Quốc tế “The 19th International
Conference on Computer Analysis of Images and Patterns” – CAIP 2021 và Hội
nghị Khoa học Quốc gia về “Nghiên cứu cơ bản và ứng dụng Công nghệ Thông tin”
lần thứ XIV (FAIR - Fundamental and Applied IT Research) – FAIR'2021.
1
Chương 1. TỔNG QUAN ĐỀ TÀI
Nội dung chương này sẽ trình bày động lực nghiên cứu, phát biểu về bài toán, các
thách thức gặp phải, mục tiêu – phạm vi và những đóng góp chính trong khóa luận.
1.1. Động lực nghiên cứu
Đại dịch Covid-19 đã và đang thay đổi cuộc sống, khiến chúng ta phải chủ động
hơn trong việc tiếp cận các cơng nghệ tương lai cho quy trình sản xuất. Trong đó,
những tài liệu giấy cũng dần chuyển dịch và được thay thế bằng tài liệu điện tử để
lưu trữ trên Cloud, giúp thuận lợi trong việc truy cập và tìm kiếm thơng tin. Các tài
liệu giấy được lưu trữ bằng tài liệu điện tử thường ở dưới dạng ảnh scan, PDF và
phổ biến gần đây nhất là ảnh chụp/scan từ điện thoại thông minh – do sự phát triển
mạnh mẽ của các ứng dụng quét ảnh tiện lợi mà điện thoại có thể mang lại. Các tài
liệu PDF hay các tài liệu ảnh được chụp bằng điện thoại sẽ là cơng cụ hữu ích giúp
lưu trữ thơng tin quan trọng để dễ trao đổi và trích xuất. Mặc dù các tài liệu dạng
ảnh sẽ giúp giữ nguyên các yếu tố của văn bản như ký tự, đường kẻ, phơng chữ,
hình ảnh, ổn định trên tất cả các hệ điều hành v.v Tuy nhiên đây lại không phải là
định dạng mà máy móc có thể đọc được và hiểu được. Trong khi việc trích xuất dữ
liệu bằng các phương pháp thủ công lại rất tốn kém nhân lực, thời gian, chi phí…
Hầu hết các kỹ thuật thơng thường giúp phân tích các đối tượng được đề xuất sẽ
dựa trên việc phân tích bố cục tài liệu. Có thể kể đến như các phương pháp phát
hiện đường ngang dọc của Cesarini và cộng sự năm 2002 [2], hay kết hợp phát hiện
các điểm giao thoa nhau của Gatos và cộng sự năm 2005 [3]. Nhưng các kỹ thuật
này không thể tổng qt hóa được vì những thách thức về nội dung, bố cục phức
tạp, dữ liệu nhiễu, và các biến thể trong cách trình bày phơng chữ, cách thức trình
bày, thể hiện riêng của từng lớp… Bên cạnh đó, các dữ liệu ảnh scan thu được từ
máy scan vật lý và camera điện thoại cũng đặt ra vô số thách thức hơn so với tài liệu
PDF như ánh sáng, góc chụp, độ phân giải, một số biến dạng khiến các đối tượng bị
méo mó… đã và đang khiến cho việc phát hiện đối tượng trong tài liệu ảnh gặp khá
nhiều khó khăn.
2
Tuy nhiên, sự phát triển của DL và CV đã mở ra rất nhiều cơ hội để giúp việc
giải quyết các vấn đề về thị giác máy tính nói chung, nhiệm vụ phát hiện đối tượng
trong ảnh tài liệu nói riêng trở nên khả thi hơn. Do đó, trong thời đại dữ liệu lớn
hiện nay, việc số hóa các tài liệu giấy, tài liệu ảnh đang dần trở thành nhu cầu lớn
trong rất nhiều ngành công nghiệp, được nhiều nhà nghiên cứu quan tâm và đóng
góp. Đó cũng là động lực giúp tơi và nhóm nghiên cứu thực hiện đề tài “Phát hiện
đối tượng trong tài liệu dạng ảnh bằng phương pháp học sâu”.
1.2. Phát biểu bài toán
Phát hiện đối tượng trong tài liệu dạng ảnh là một trong những bài toán nhận
được rất nhiều sự quan tâm. Nhằm thúc đẩy các nhà nghiên cứu tìm ra phương pháp
tốt nhất để giải quyết bài toán này, nhiều cuộc thi lớn trên thế giới đã được tạo ra
như: Robust Reading Challenge on Multi-lingual scene text detection and
recognition (ICDAR2019), Document layout recognition (ICDAR 2021), …
Hình 1-1: Bài tốn phát hiện đối tượng trong ảnh tài liệu tiếng Việt. a. Đầu vào là
ảnh tài liệu; b. Đầu ra là vị trí các cơng thức (xanh dương), caption (xanh lá), table
(hồng), figure (màu cam).
3
Dữ liệu đầu vào của bài toán là một trang tài liệu dạng ảnh, đầu ra của bài toán
là vị trí các đối tượng quan tâm trong trang tài liệu (nếu có) được xác định bằng các
hộp giới hạn và nhãn của chúng theo hình 1.1.
Bài tốn phát hiện đối tượng trong tài liệu dạng ảnh là một trong những nhiệm
vụ quan trọng, giúp xác định vị trí đối tượng quan tâm trong tài liệu. Đây cũng là
bài toán high level cho các nhiệm vụ mở rộng khác về sau như trích xuất các thơng
tin cần thiết, tóm tắt tài liệu, tra cứu thơng tin… Một số bài tốn lớn hiện đang được
nghiên cứu trong lĩnh vực có thể kể đến như Optical Character Regconition (OCR),
Visual Question Answering (VQA)… Chính vì thế, việc thực hiện nghiên cứu của
chúng tơi chính là tiền đề cho những nghiên cứu trong tương lai.
1.3. Các thách thức
Qua khảo sát về bài toán phát hiện đối tượng trong ảnh tài liệu, chúng tôi nhận
thấy thách thức của bài toán với từng loại đối tượng trong tài liệu khơng những đến
từ các yếu tố bên ngồi, mà còn đến từ yếu tố bên trong của tài liệu.
Các yếu tố từ bên ngoài xuất phát từ chất lượng ảnh chụp như ảnh bị nhòe, bị
mờ, đối tượng bị che khuất, độ phân giải thấp, đối tượng bị biến dạng... Thêm vào
đó là sự chênh lệch giữa chất lượng ảnh scan so với PDF là rất lớn.
Bên cạnh các yếu tố bên ngồi, bài tốn sẽ gặp những thách thức đến từ bên
trong như sự đa dạng về bố cục trang, phân bố đối tượng không đều, độ dãn cách
giữa các đối tượng (spacing), sự đa dạng trong hình thái của các đối tượng như bảng
loại có viền (border) và loại khơng có viền (non-border)… Khơng những thế, khác
với những bộ tài liệu tiếng Anh, phần rút trích đặc trưng của ảnh tài liệu tiếng Việt
sẽ gặp khó khăn đáng kể do những thể hiện riêng trong ngôn ngữ. Dễ thấy nhất là
các lớp đối tượng được thể hiện dưới dạng ngữ nghĩa như Caption (Chú thích).
Riêng, lớp đối tượng Formula (Cơng thức), ngồi những cơng thức tốn học thơng
thường chứa phương trình, ký hiệu tốn học, lớp đối tượng này còn được thể hiện
dưới dạng văn bản (khơng thuộc vùng tốn học) cũng là thách thức khơng nhỏ cho
bài toán.
4
Hình 1-2: Một số ví dụ minh họa về tính đa dạng của các đối tượng trong trang tài
liệu dạng ảnh.
Ngồi những thách thức về dữ liệu, bài tốn cịn gặp những khó khăn về mặt kỹ
thuật. Nhận thấy sự vượt trội của hướng tiếp cận học sâu từ khảo sát, chúng tôi
quyết định chọn các phương pháp phát hiện đối tượng SOTA gồm: CascadeTabNet,
Faster-RCNN, YOLOv4, YOLOv4x-mish để tiến hành thực nghiệm và đánh giá
trên bộ dữ liệu. Tuy nhiên mỗi phương pháp sẽ có những kiến trúc khác nhau, đặc
trưng riêng, điểm mạnh yếu riêng, thêm vào đó, sự tinh chỉnh các thơng số phù hợp
cho từng mơ hình cũng sẽ góp phần khơng nhỏ tới kết quả. Điều này địi hỏi sự
nghiên cứu sâu nhằm tìm ra phương pháp mang lại kết quả cao nhất và giải quyết
thách thức bài toán.
1.4. Mục tiêu và phạm vi nghiên cứu
Trong phạm vi nghiên cứu, mục tiêu chính của khóa luận là:
(1) Tìm hiểu tổng quan về bài tốn Phát hiện đối tượng trong tài liệu dạng ảnh dựa
trên những nghiên cứu có sẵn.
(2) Tìm hiểu tổng quan các kỹ thuật học sâu và trình bày các phương pháp phát hiện
đối tượng dựa trên phương pháp học sâu tiên tiến nhất hiện nay.
5
(3) Khảo sát các bộ dữ liệu phục vụ cho bài tốn đã được cơng bố trên thế giới, từ
đó giúp xây dựng bộ dữ liệu tài liệu ảnh chụp từ các bài báo khoa học tiếng Việt
chuẩn.
(4) Cài đặt thực nghiệm các phương pháp OD gồm CascadeTabNet, Faster RCNN,
YOLOv4, YOLOv4x-mish trên bộ dữ liệu được xây dựng.
(5) Sau khi nghiệm thu kết quả từ quá trình thực nghiệm, nghiên cứu và đề xuất các
kỹ thuật giúp nâng cao độ chính xác của kết quả phát hiện đối tượng. Từ đó
đánh giá kết quả cải tiến so với phiên bản mặc định.
(6) Lựa chọn một model cho kết quả tốt để xây dựng ứng dụng demo.
(7) Tổng hợp kết quả, phân tích đánh giá kết quả từ mơ hình và viết báo cáo.
1.5. Đóng góp khóa luận
Nội dung cuốn báo cáo bao gồm giới thiệu bài toán Phát hiện đối tượng trong
ảnh tài liệu, trình bày tình hình nghiên cứu đã có trên thế giới, phân tích xu hướng
phát triển của bài toán sử dụng các phương pháp phát hiện đối tượng dựa trên học
sâu.
Trình bày kết quả khảo sát các bộ dữ liệu đã công bố trên thế giới và các quy
trình, quy chuẩn được sử dụng trong việc xây dựng bộ dữ liệu ảnh tài liệu khoa học
tiếng Việt đầu tiên trên thế giới – UIT-DODV.
Trình bày các phương pháp phát hiện đối tượng trong ảnh dựa trên học sâu bao
gồm các phương pháp họ R-CNN, họ YOLO và CascadeTabNet. Thực hiện huấn
luyện các phương pháp trên bộ dữ liệu UIT-DODV để cung cấp đánh giá đầy đủ chi
tiết về bộ dữ liệu cũng như kết quả mô hình SOTA. Qua kết quả thực nghiệm,
chúng tơi đề xuất sử dụng kết hợp hàm Loss để cải thiện kết quả và đánh giá được
sự ảnh hưởng của hàm Loss đối với bộ dữ liệu được xây dựng.
Kết quả mô hình nghiên cứu được sử dụng và phát triển thành ứng dụng phát
hiện đối tượng trên Android.
6
Đóng góp 2 bài báo nghiên cứu khoa học:
− Linh Truong Dieu, Thuan Trong Nguyen, Nguyen D. Vo, Tam V. Nguyen and
Khang Nguyen, “Parsing Digitized Vietnamese Paper Documents”. The 19th
International Conference on Computer Analysis of Images and Patterns, 2021 –
CAIP2021. (đang phản biện)
− Linh Truong Dieu, Thuan Trong Nguyen, Nguyen D. Vo and Khang Nguyen,
“Hàm mất mát kết hợp cho bài toán phát hiện đối tượng trên ảnh tài liệu”. Hội
nghị Khoa học Quốc gia về “Nghiên cứu cơ bản và ứng dụng Công nghệ Thông
tin” lần thứ XIV – FAIR'2021. (đang phản biện)
1.6. Cấu trúc báo cáo khóa luận
Báo cáo khóa luận gồm 6 chương với các nội dung như sau:
• Chương 1: Tổng quan đề tài. Giới thiệu về nội dung đề tài bao gồm động lực
nghiên cứu, phát biểu bài toán, mục tiêu, phạm vi của nghiên cứu, và những
đóng góp chính trong khóa luận.
• Chương 2: Các nghiên cứu liên quan. Trình bày phần khảo sát các hướng
nghiên cứu trên thế giới, hướng tiếp cận cho bài tốn. Đồng thời trình bày
phương pháp phát hiện đối tượng dựa trên học sâu tiên tiến.
• Chương 3: Xây dựng bộ dữ liệu phát hiện đối tượng trong ảnh tài liệu tiếng
Việt. Trình bày về quy trình thu thập, gán nhãn dữ liệu, xây dựng các quy tắc
gán nhãn và phân tích bộ dữ liệu xây dựng được
• Chương 4: Thực nghiệm và đánh giá. Trình bày quá trình cài đặt thực nghiệm,
các thông số chi tiết, phương pháp đánh giá và phân tích kết quả.
• Chương 5: Đề xuất cải tiến và đánh giá kết quả. Trình bày các đề xuất cải
tiến sau khi quan sát kết quả, đánh giá các kết quả đề xuất và so sánh với kết quả
của các mơ hình mặc định trước đó.
• Chương 6: Kết luận và hướng phát triển. Tổng kết các kết quả quan trọng đã
đạt được trong đề tài và hướng phát triển của đề tài trong tương lai.
7
Chương 2. CÁC NGHIÊN CỨU LIÊN QUAN
Trong chương này, tôi xin phép trình bày hướng tiếp cận đối với bài toán Phát hiện
đối tượng trong ảnh tài liệu. Theo sự hiểu biết của chúng tơi, chúng tơi nhận thấy
bài tốn “Phát hiện đối tượng trong ảnh tài liệu” thuộc lớp các bài tốn về Page
Object Detection (POD) và có thể sử dụng các phương pháp Phát hiện đối tượng
trong ảnh dựa trên học sâu để thực hiện. Vì vậy trong chương 2 sẽ giới thiệu các
phương pháp phát hiện đối tượng trong ảnh dựa trên học sâu.
2.1. Phát hiện đối tượng
2.1.1.
Giới thiệu
Phát hiện đối tượng ( Object Detection) là một thuật ngữ chung để mô tả một
tập hợp các nhiệm vụ thị giác máy tính có liên quan liên quan đến việc xác định các
đối tượng trong ảnh kỹ thuật số. Phát hiện đối tượng ( Object Detection) kết hợp hai
nhiệm vụ gồm phân loại hình ảnh (Classifier) và định vị vật thể (Object
Localization). Trong đó, ta có thể phân loại các kỹ thuật trên như sau:
Hình 2-1: Ví dụ phân biệt các kỹ thuật trong Computer Vision.[4]
• Phân loại hình ảnh (Image Classification): Dự đốn nhãn của một đối tượng
trong một hình ảnh.
o Input: Một hình ảnh với một đối tượng.
o Output: Nhãn lớp (ví dụ: một hoặc nhiều số nguyên được ánh xạ tới nhãn
lớp).
8
• Định vị đối tượng (Object Localization): Xác định vị trí hiện diện của các đối
tượng trong ảnh và cho biết vị trí của chúng bằng Bounding-box.
o Input: Một hình ảnh có một hoặc nhiều đối tượng.
o Output: Một hoặc nhiều Bounding-box được xác định bởi tọa độ tâm, chiều
rộng và chiều cao.
• Phát hiện đối tượng (Object Detection): Xác định vị trí hiện diện của các đối
tượng trong Bounding-box và nhãn của các đối tượng nằm trong một hình ảnh.
o Input: Một hình ảnh có một hoặc nhiều đối tượng.
o Output: Một hoặc nhiều Bounding-box và nhãn cho mỗi Bounding-box.
• Phân đoạn thực thể (Instance Segmentation): Xác định đối tượng (nhãn) và vị
trí hiện diện của các đối tượng bằng cách làm nổi bật các pixel cụ thể của từng
đối tượng thay vì các Bounding-boxes.
2.1.2.
Phân loại
Thuật tốn Object Detection bao gồm 2 nhóm chính:
• Two-stage: bao gồm họ các mơ hình R-CNN (Region-Based Convolutional
Neural Networks), Mask R-CNN… Gọi là two-stage vì model sẽ thực hiện 2
phần gồm trích chọn (extract) các vùng trên ảnh có khả năng chứa đối tượng
dựa vào các anchor box, sau đó sẽ thực hiện tiếp phân loại đối tượng và xác
định vị trí nhờ vào việc chia làm 2 nhánh tại phần cuối của mơ hình
(Classifier và Bounding-box Regression). Các mơ hình này được dùng để
giải quyết các bài toán định vị và nhận diện vật thể tĩnh (hình ảnh) do yêu
cầu cao về độ chính xác nhưng khơng u cầu q cao về tốc độ.
• One-stage hay cịn gọi là single-stage: Bao gồm các mơ hình họ YOLO,
SSD, Restina... Gọi là one-stage vì model sẽ khơng có phần trích chọn các
vùng đặc trưng như two-stage. Các mơ hình one-stage sẽ coi việc Phát hiện
đối tượng như một bài toán regression và dựa trên pre-define box hay còn
gọi là anchor box để phát hiện đối tượng. Các mơ hình one-stage thường có
9