Tải bản đầy đủ (.pdf) (104 trang)

Đánh giá phương pháp rút trích thông tin hóa đơn tại việt nam (khóa luận tốt nghiệp)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.27 MB, 104 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

TRẦN LÊ BẢO CHÂU - 18520256
ĐỒN THỊ THANH HIẾU - 18520734

BÁO CÁO KHĨA LUẬN

RÚT TRÍCH THƠNG TIN HĨA ĐƠN TẠI VIỆT NAM
An Information Extraction Method For Vietnamese Receipts

KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM

TP. HỒ CHÍ MINH, 2022


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

TRẦN LÊ BẢO CHÂU - 18520256
ĐỒN THỊ THANH HIẾU - 18520734

BÁO CÁO KHĨA LUẬN

RÚT TRÍCH THƠNG TIN HĨA ĐƠN TẠI VIỆT NAM
An Information Extraction Method For Vietnamese Receipts


KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM

GIẢNG VIÊN HƯỚNG DẪN
NGUYỄN TẤN TRẦN MINH KHANG

TP. HỒ CHÍ MINH, 2022


LỜI CẢM ƠN
Lời cảm ơn đầu tiên, chúng tôi xin dành đến thầy TS.Nguyễn Tấn Trần Minh
Khang – giảng viên hướng dẫn của chúng tơi trong khóa luận tốt nghiệp này. Cảm ơn
thầy đã luôn quan tâm, nhắc nhở và tận tình hướng dẫn chúng tơi. Cảm ơn thầy vì sự
nhiệt huyết bất tận trong quá trình hướng dẫn, sự nhiệt huyết ấy đã cổ vũ và trở thành
động lực giúp chúng tơi thực hiện tốt khóa luận.
Lời cảm ơn thứ hai, chúng tôi xin được dành cho thầy ThS.Võ Duy Nguyên,
người đã luôn theo sát giúp đỡ và hỗ trợ hết mình cho chúng tơi trong q trình thực
hiện khóa luận.
Lời cảm ơn cuối cùng, chúng tơi xin dành cho các anh chị, các bạn, các em
trong nhóm nghiên cứu đã luôn đồng hành, giúp đỡ và cổ vũ cho chúng tơi trong suốt
q trình thực hiện khóa luận.
Trong q trình thực hiện khóa luận khó tránh khỏi những sai sót, hạn chế,
chúng tơi rất mong nhận được sự nhận xét, góp ý của q thầy cơ và các bạn để chúng
tơi có thể tiến xa hơn trong con đường học thuật.
Xin chân thành cảm ơn.
Sinh viên thực hiện
Trần Lê Bảo Châu

Đồn Thị Thanh Hiếu

TP.Hồ Chí Minh, ngày 15 tháng 06 năm 2022



ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC

Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI: ĐÁNH GIÁ PHƯƠNG PHÁP RÚT TRÍCH THƠNG TIN HÓA ĐƠN TẠI
VIỆT NAM
Cán bộ hướng dẫn: TS. Nguyễn Tấn Trần Minh Khang
Thời gian thực hiện: Từ ngày 28/02/2022 đến tháng 20/06/2022
Sinh viên thực hiện:
− Trần Lê Bảo Châu – 18520256
− Đoàn Thị Thanh Hiếu – 18520734
Nội dung đề tài:
1.

Động lực nghiên cứu:

Trong thời đại số hóa hiện nay, mọi tác vụ đều hướng đến sự chính xác, nhanh
chóng và tiện lợi, không chỉ đối với những tác vụ phức tạp, mà còn với những tác vụ tưởng
chừng đơn giản như rút trích thơng tin trong hóa đơn.
Bài tốn rút trích thơng tin từ hóa đơn sẽ được áp dụng vào các tác vụ liên quan tới
các lĩnh vực kinh tế, tài chính, kế tốn nói riêng và các tác vụ trong văn phịng nói chung,
để tự động rút trích thơng tin quan trọng từ các hóa đơn, từ đó giảm thiểu cơng việc, mang
lại hiệu quả cao trong cơng việc cho các nhân viên kế tốn, tài chính. Ngoài ra, đây cũng
là tiền đề để phát triển những bài tốn nhận dạng thơng tin có cấu trúc khác.

Đây là bài tốn được đặt ra để mục đích đẩy mạnh tự động hóa các tác vụ trong văn
phịng thơng qua việc lưu trữ tự động các thông tin quan trọng từ các hóa đơn. Thách thức


của bài tốn này là phải đạt được độ chính xác gần như tuyệt đối bởi lẽ một sai sót nhỏ
cũng có thể dẫn đến những sai lầm nghiêm trọng.
Bài tốn này có rất nhiều những thách thức bởi các vấn đề về môi trường như chất
lượng giấy, chất lượng máy in, mực in, chất lượng ánh sáng và chất lượng ảnh, … dẫn đến
ảnh khơng rõ chữ, khó đọc. Hóa đơn có nếp gấp, bị uốn cong, có nhiều góc độ chụp, ...,
dẫn đến các dịng chữ trên hóa đơn khơng thẳng, bị biến dạng, … dẫn đến khó nhận dạng,
địi hỏi cần có kỹ thuật tiền xử lý ảnh và trích đặc trưng phù hợp.

2.

Phát biểu bài tốn:

Đầu vào: Ảnh có chứa hóa đơn từ một cửa hàng, quán ăn, … tại Việt Nam.
Đầu ra: Thông tin trên hóa đơn (trong phạm vi khóa luận, nhóm chỉ thực hiện rút
trích 4 nhóm thơng tin bao gồm tên cửa hàng, địa chỉ cửa hàng, thời gian mua hàng, tổng
tiền khách phải trả).


Hình 1-1. Ảnh minh họa đầu vào và đầu ra của bài toán.

3.

Mục tiêu đề tài:

Khảo sát các bộ dữ liệu phổ biến trong việc trích xuất thơng tin hóa đơn, xây dựng
bộ dữ liệu về các hóa đơn tại Việt Nam. Sau đó, tìm hiểu và xây dựng một mơ hình rút

trích thơng tin các hóa đơn tại Việt Nam dựa trên các mơ hình học sâu từ đó phát triển một
ứng dụng minh họa rút trích thơng tin hóa đơn tại Việt Nam.

4.

Nội dung đề tài:
− Khảo sát các bộ dữ liệu hóa đơn hiện có như SROIE2019, CORD.
− Thu thập ảnh về các hóa đơn tại Việt Nam và xây dựng bộ dữ liệu hóa đơn tại
Việt Nam.


− Tìm hiểu tổng quan về các phương pháp học sâu để phát hiện đối tượng và
nhận diện ký tự quang học (OCR) cho bài tốn trích xuất thơng tin hóa đơn.
− Đề xuất phương pháp tiếp cận và các phương pháp tiền xử lý để mơ hình đạt
được kết quả cao.
− Thực nghiệm và tinh chỉnh mơ hình đã đề xuất.
− Xây dựng một ứng dụng minh họa rút trích thơng tin hóa đơn tại Việt Nam.

5.

Đối tượng và phạm vi nghiên cứu:
− Ảnh các hóa đơn có nguồn gốc từ các cửa hàng, quán ăn, khách sạn, … tại
Việt Nam.
− Nhãn của ảnh gồm 4 lớp đối tượng: SELLER (tên cửa hàng), ADDRESS (địa
chỉ cửa hàng), TIMESTAMP (thời gian bán hàng), TOTAL_COST (tổng tiền
phải trả).
− Phương pháp thực nghiệm: Nghiên cứu các phương pháp học sâu cho bài toán
phát hiện đối tượng (Faster R-CNN, YOLOv3, YOLOF) và nhận diện ký tự
quang học (TransformerOCR).


6.

Phương pháp thực hiện:
− Tìm hiểu tổng quan về các phương pháp học sâu (phát hiện đối tượng, nhận
diện ký tự quang học) cho bài toán rút trích thơng tin hóa đơn dựa trên các nghiên
cứu có sẵn.
− Thu thập và xây dựng bộ dữ liệu các hóa đơn tại Việt Nam.
− Nghiên cứu và cài đặt thực nghiệm các phương pháp học sâu dựa trên bộ dữ
liệu đã xây dựng và đánh giá, tinh chỉnh để cho ra phương pháp có độ chính xác
cao nhất.
− Xây dựng một ứng dụng minh họa rút trích thơng tin hóa đơn tại Việt Nam.
− Tổng hợp kết quả và viết báo cáo khóa luận.


Kết quả dự kiến:

7.

− Công bố bộ dữ liệu về hóa đơn tại Việt Nam với ít nhất 2 000 ảnh.
− Báo cáo tổng hợp kết quả các phương pháp phát hiện đối tượng Faster R-CNN,
YOLOv3, YOLOF và phương pháp nhận dạng ký tự quang học
TransformerOCR trên bộ dữ liệu được cơng bố.
− Báo cáo tổng hợp phân tích đánh giá ưu nhược điểm của các phương pháp thực
nghiệm và đề xuất kết hợp giúp cải thiện kết quả mô hình.
− Tổng hợp kết quả nghiên cứu nộp bài báo tại hội nghị khoa học.
− Ứng dụng minh họa rút trích thơng tin hóa đơn tại Việt Nam.

8.

Tài liệu tham khảo:


[1] Huang, Z., Chen, K., He, J., Bai, X., Karatzas, D., Lu, S., & Jawahar, C. V.
(2019, September). Icdar2019 competition on scanned receipt ocr and information
extraction. In 2019 International Conference on Document Analysis and
Recognition (ICDAR) (pp. 1516-1520). IEEE.
[2] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards realtime object detection with region proposal networks. arXiv preprint
arXiv:1506.01497.
[3] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N.,
... & Polosukhin, I. (2017). Attention is all you need. In Advances in neural
information processing systems (pp. 5998-6008).
[4] Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement.
arXiv preprint arXiv:1804.02767.
[5] Chen, Q., Wang, Y., Yang, T., Zhang, X., Cheng, J., & Sun, J. (2021). You
only look one-level feature. In Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition (pp. 13039-13048).

Kế hoạch thực hiện:


1. Giai đoạn 1: Từ 28/02/2022 đến cuối tháng 03/2022:
Nhiệm vụ

STT

Phân cơng

1

Tìm hiểu các bộ dữ liệu hóa đơn.


Cả nhóm

2

Xây dựng bộ dữ liệu các ảnh hóa đơn tại Việt Nam.

Cả nhóm

3

Tìm hiểu tổng quan về các phương pháp học sâu (phát

Cả nhóm

hiện đối tượng, nhận diện ký tự quang học) cho bài tốn
rút trích thơng tin hóa đơn.
4

Huấn luyện và đánh giá mơ hình phát hiện đối tượng và

Cả nhóm

nhận diện ký tự quang học.
5

Viết báo cáo cho các nhiệm vụ đã thực hiện.

Cả nhóm

2. Giai đoạn 2: Từ đầu tháng 04/2022 đến giữa tháng 05/2022:

STT

Nhiệm vụ

Phân công

1

Xây dựng mơ hình rút trích thơng tin hóa đơn tiếng Việt

Cả nhóm

dựa trên các mơ hình đã được huấn luyện sẵn.
2

Đánh giá và cải thiện mơ hình đã xây dựng.

Cả nhóm

3

Phát triển ứng dụng minh họa rút trích thơng tin hóa đơn

Cả nhóm

tại Việt Nam.
4

Viết báo cáo cho các nhiệm vụ đã thực hiện.


Cả nhóm

3. Giai đoạn 3: Từ giữa tháng 05/2022 đến ngày 20/06/2022:
STT

Nhiệm vụ

Phân cơng

1

Hồn thiện mơ hình Rút trích thơng tin hóa đơn tại Việt

Cả nhóm

Nam.
2

Hồn thiện ứng dụng minh họa rút trích thơng tin hóa
đơn tại Việt Nam.

Cả nhóm


3

Hồn thiện báo cáo khóa luận.

Xác nhận của CBHD
(Ký tên và ghi rõ họ tên)


Cả nhóm

TP. HCM, ngày 24 tháng 02 năm 2022
Sinh viên 1
(Ký tên và ghi rõ họ tên)

TS. Nguyễn Tấn Trần Minh Khang

Trần Lê Bảo Châu
Sinh viên 2
(Ký tên và ghi rõ họ tên)

Đoàn Thị Thanh Hiếu


MỤC LỤC
TÓM TẮT .................................................................................................................21
Chương 1.

TỔNG QUAN ...................................................................................22

1.1. Giới thiệu chung ..........................................................................................22
1.2. Động lực nghiên cứu ...................................................................................22
1.2.1

Tính khoa học .......................................................................................22

1.2.2


Tính ứng dụng .......................................................................................22

1.3. Phát biểu bài toán ........................................................................................23
1.4. Phạm vi bài tốn ..........................................................................................24
1.5. Thách thức bài tốn .....................................................................................24
1.6. Đóng góp của khóa luận ..............................................................................25
1.7. Cấu trúc khóa luận .......................................................................................25
Chương 2.

CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN .......27

2.1. Một số cơ sở lý thuyết .................................................................................27
2.1.1

Neural Network.....................................................................................27

2.1.2

Convolutional Neural Network .............................................................27

2.1.2.1. Convolutional Layer ......................................................................27
2.1.2.2. Pooling Layer.................................................................................28
2.1.2.3. Fully Connected Layer ..................................................................29
2.1.3

Fully Convolutional Network ...............................................................29

2.1.4

Recurrent Neural Networks ..................................................................30


2.2. Các cơng trình nghiên cứu liên quan ...........................................................31
2.2.1

Object detection ....................................................................................31


2.2.1.1. Faster R-CNN ................................................................................31
2.2.1.2. YOLOv3 ........................................................................................36
2.2.1.3. YOLOF ..........................................................................................40
2.2.2

Natural language processing .................................................................44

2.2.2.1. LSTM .............................................................................................44
2.2.2.2. Transformer ...................................................................................45
2.2.3

OCR ......................................................................................................48

2.2.3.1. AttentionOCR ................................................................................48
2.2.3.2. TransformerOCR ...........................................................................49
Chương 3.

XÂY DỰNG DỮ LIỆU ....................................................................50

3.1. Một số bộ dữ liệu hóa đơn hiện có ..............................................................50
3.1.1

Bộ dữ liệu Scanned Receipts OCR and Information Extraction (SROIE)

50

3.1.1.1. Tổng quan ......................................................................................50
3.1.1.2. Định dạng file annotation ..............................................................50
3.1.2

Bộ dữ liệu Consolidated Receipt Dataset (CORD) ..............................52

3.1.2.1. Tổng quan ......................................................................................52
3.1.2.2. Định dạng file annotation ..............................................................53
3.1.3

Bộ dữ liệu cuộc thi Mobile-Captured Image Document Recognition for

Vietnamese Receipts (RIVF2021 MC-OCR) ...................................................54
3.1.3.1. Tổng quan ......................................................................................54
3.1.3.2. Định dạng file annotation ..............................................................55
3.2. Thu thập dữ liệu ...........................................................................................56
3.3. Gán nhãn dữ liệu..........................................................................................56


3.3.1

Quy trình gán nhãn dữ liệu ...................................................................56

3.3.2

Định dạng nhãn của bộ dữ liệu .............................................................57

3.3.2.1. info .................................................................................................58

3.3.2.2. licenses ...........................................................................................59
3.3.2.3. images ............................................................................................59
3.3.2.4. annotations .....................................................................................60
3.3.2.5. categories .......................................................................................63
3.4. Mô tả bộ dữ liệu...........................................................................................64
Chương 4.

THỰC NGHIỆM VÀ ĐÁNH GIÁ ...................................................66

4.1. Mô tả thực nghiệm .......................................................................................66
4.2. Phương pháp đánh giá .................................................................................67
4.2.1

Giai đoạn 1: ...........................................................................................67

4.2.1.1. Confusion matrix ...........................................................................67
4.2.1.2. Precision and Recall ......................................................................68
4.2.1.3. Intersection over Union (IoU) .......................................................68
4.2.1.4. Average Precision (AP) .................................................................68
4.2.1.5. Mean Average Precision (mAP) ....................................................69
4.2.2

Giai đoạn 2: ...........................................................................................69

4.2.2.1. Khoảng cách Levenshtein ..............................................................69
4.2.2.2. Độ đo CER .....................................................................................70
4.2.2.3. Độ đo WER....................................................................................71
4.3. Quy trình thực nghiệm và đánh giá .............................................................71
4.3.1


Thu thập và tiền xử lý dữ liệu ...............................................................71

4.3.2

Cài đặt môi trường ................................................................................72


4.3.3

Huấn luyện model .................................................................................72

4.3.3.1. Giai đoạn 1 .....................................................................................72
4.3.3.2. Giai đoạn 2 .....................................................................................73
4.3.4

Đánh giá model .....................................................................................74

4.3.4.1. Giai đoạn 1 .....................................................................................74
4.3.4.2. Giai đoạn 2 .....................................................................................75
4.3.5

Kết quả ..................................................................................................75

4.3.5.1. Kết quả thực nghiệm ......................................................................75
4.3.5.2. Hình ảnh minh họa.........................................................................76
4.3.5.3. Đánh giá kết quả ............................................................................82
Chương 5.

ĐỀ XUẤT CẢI TIẾN VÀ ĐÁNH GIÁ KẾT QUẢ..........................84


5.1. Đề xuất cải tiến ............................................................................................84
5.1.1

Roi Pooling ...........................................................................................84

5.1.2

Roi Align ...............................................................................................85

5.1.3

Precise Roi Pooling ...............................................................................86

5.2. Đánh giá kết quả ..........................................................................................86
5.3. Tổng quan hệ thống ứng dụng Rút trích thơng tin hóa đơn ........................88
5.3.1

Giới thiệu ..............................................................................................88

5.3.2

Phân tích và thiết kế ..............................................................................89

5.3.2.1. Thiết kế use-case............................................................................89
5.3.2.2. Thiết kế user-flow ..........................................................................90
5.3.2.3. Thiết kế kiến trúc ...........................................................................90
5.3.2.4. Màn hình kết quả ...........................................................................91
5.3.2.5. Hướng dẫn cài đặt ..........................................................................92



Chương 6.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................94

6.1. Kết luận ........................................................................................................94
6.1.1

Kết quả đạt được ...................................................................................94

6.1.2

Hạn chế .................................................................................................94

6.2. Hướng phát triển ..........................................................................................94
TÀI LIỆU THAM KHẢO .........................................................................................96
PHỤ LỤC A – BÀI BÁO..........................................................................................99


DANH MỤC HÌNH
Hình 1-1. Ảnh minh họa đầu vào và đầu ra của bài tốn. ...........................................6
Hình 1-1: Một số ví dụ về những thách thức của bài tốn. .......................................24
Hình 2-1: Ảnh mô tả hướng di chuyển của kernel (k = 3) trên ảnh màu. .................28
Hình 2-2. Biến thể Pooling Layer. ............................................................................29
Hình 2-3: Ảnh diễn giải đơn giản cấu trúc vịng lặp của RNN. ................................30
Hình 2-4: Ảnh minh họa luồng hoạt động bên trong 1 nơ-ron của mạng RNN. ......31
Hình 2-5: Mốc thời gian cho sự ra đời các phương phát hiện đối tượng (1990 – 2019)
[25]. ...........................................................................................................................31
Hình 2-6: Kiến trúc R-CNN (Ảnh cắt từ bài báo). ....................................................32
Hình 2-7: Kiến trúc Fast R-CNN (Ảnh cắt từ bài báo). ............................................33
Hình 2-8: Kiến trúc Faster R-CNN ...........................................................................34

Hình 2-9: Kiến trúc Region Proposal Network (RPN) .............................................34
Hình 2-10: IoU (Intersection over Union). ...............................................................35
Hình 2-11: Ảnh minh họa kiến trúc mạng YOLOv3. ...............................................37
Hình 2-12: Hình minh họa đầu vào – đầu ra của thuật tốn NMS............................39
Hình 2-13: Bảng minh họa kết quả của YOLOv3 (thời gian và độ chính xác) so với
một số phương pháp khác (Ảnh cắt từ bài báo). .......................................................39
Hình 2-14: Ảnh minh họa kiến trúc của FPN. ..........................................................41
Hình 2-15: Ảnh minh họa một convolution thông thường (bên trái) và một dilated
convolution (bên phải). .............................................................................................42
Hình 2-16: Ảnh minh họa kiến trúc mạng YOLOF (Ảnh cắt từ bài báo[2]). ...........43
Hình 2-17: Bảng so sánh kết quả giữa YOLOF và RetinaNet (Ảnh cắt từ bài báo) 44
Hình 2-18: Ảnh minh họa luồng xử lý trong nơ-ron của model LSTM. ..................45
Hình 2-19: Kiến trúc mạng Transformer (Ảnh từ bài báo) .......................................46
Hình 2-20: Model AttentionOCR (Ảnh từ github của model) ..................................49
Hình 2-21: Model TransformerOCR (Ảnh từ github của model) .............................49
Hình

3-1:

Ảnh

minh

họa

cấu

trúc

một


file

txt

trong

thư

mục

0325updated.task1train(626p). ..................................................................................51


Hình

3-2:

Ảnh

minh

họa

cấu

trúc

một


file

txt

trong

thư

mục

0325updated.task2train(626p). ..................................................................................52
Hình 4-1: Ảnh minh họa bước đầu trong quá trình thực nghiệm..............................66
Hình 4-2. Ảnh minh họa bước thứ hai trong quá trình thực nghiệm. .......................66
Hình 4-3: Confusion Matrix ......................................................................................67
Hình 4-4: Đồ thị mối quan hệ của precision, recall (Precision-Recall curve). .........69
Hình 4-5: Ảnh minh họa 3 phép biến đổi thêm, sửa, xóa. ........................................70
Hình 4-6: Cấu trúc thư mục dữ liệu được yêu cầu (ảnh cắt từ trang hướng dẫn sử dụng
model)........................................................................................................................73
Hình 4-7: Định dạng file nhãn theo yêu cầu (ảnh cắt từ trang hướng dẫn sử dụng
model)........................................................................................................................73
Hình 4-8. Ảnh minh họa trường hợp dự đoán tốt khi thực nghiệm bằng phương pháp
Faster R-CNN............................................................................................................77
Hình 4-9: Ảnh minh họa trường hợp dự đốn khơng tốt bằng phương pháp Faster RCNN (1). ....................................................................................................................78
Hình 4-10: Ảnh minh họa trường hợp dự đốn khơng tốt bằng phương pháp Faster
R-CNN (2). ................................................................................................................78
Hình 4-11: Ảnh minh họa trường hợp dự đoán tốt bằng phương pháp YOLOv3. ...79
Hình 4-12: Ảnh minh họa trường hợp dự đốn khơng tốt bằng phương pháp YOLOv3
(dự đốn thiếu). .........................................................................................................80
Hình 4-13: Ảnh minh họa trường hợp dự đoán tốt bằng phương pháp YOLOF. .....81
Hình 4-14: Ảnh minh họa trường hợp dự đốn khơng tốt bằng phương pháp YOLOF

(dự đốn thiếu). .........................................................................................................81
Hình 4-15: Ảnh minh họa trường hợp dự đốn khơng tốt bằng phương pháp YOLOF
(Dự đoán nhiều bounding box trên một đối tượng thực tế). .....................................82
Hình 4-16: Ảnh minh họa trường hợp dự đốn khơng tốt bằng phương pháp YOLOF
(Dự đốn sai đối tượng, bounding box chỉ bao một phần của đối tượng). ...............82
Hình 5-2: Hình so sánh giữa RoI Pooling, RoI Align và Precise Roi Pooling (Ảnh từ
github phương pháp). ................................................................................................86


Hình 5-3: Sơ đồ tổng quan use-case của ứng dụng. ..................................................89
Hình 5-4: Sơ đồ tổng quan user-flow của ứng dụng .................................................90
Hình 5-5: Thiết kế kiến trúc của hệ thống. ...............................................................90
Hình 5-6: Ảnh giao diện của ứng dụng. (a) Màn hình chính chứa thơng tin lịch sử; (b)
Màn hình chụp ảnh; (c) Màn hình xác nhận ảnh để rút trích thơng tin; (d) Màn hình
phóng lớn ảnh; (e) Màn hình thơng tin sau khi rút trích (có thơng tin thời gian rút
trích); (f) Màn hình thơng tin hóa đơn đã rút trích (có thơng tin ngày thực hiện). ...91


DANH MỤC BẢNG
Bảng 1-1: Tổng quan về đầu vào – đầu ra của bài tốn. ...........................................23
Bảng 3-1: Bảng mơ tả ý nghĩa các thuộc tính trong annotation của bộ dữ liệu CORD
...................................................................................................................................54
Bảng 3-2: Mơ tả ý nghĩa các thuộc tính trong phần “info”. ......................................58
Bảng 3-3: Mô tả ý nghĩa các thuộc tính trong phần “licenses”. ...............................59
Bảng 3-4: Mơ tả ý nghĩa các thuộc tính trong phần “images”. .................................60
Bảng 3-5: Mơ tả ý nghĩa các thuộc tính trong phần “annotations”. ..........................63
Bảng 3-6: Mơ tả ý nghĩa các thuộc tính trong phần “categories”. ............................64
Bảng 3-7: Bảng phân bổ các nhãn của bộ dữ liệu .....................................................65
Bảng 4-1: Bảng kết quả thực nghiệm 3 phương pháp Faster R-CNN, YOLOv3 và
YOLOF cho giai đoạn đầu của bài toán (Kết quả tốt nhất được in đậm). ................75

Bảng 4-2: Bảng kết quả thực nghiệm và thời gian thực nghiệm của các phương pháp
AttentionOCR và TransformerOCR cho giai đoạn sau của bài toán (Kết quả tốt nhất
được in đậm). ............................................................................................................76
Bảng 5-1: Bảng so sánh kết quả tổng quan tất cả các lớp giữa Faster R-CNN và
Precision Faster R-CNN (%) (Kết quả tốt nhất được in đậm). .................................87
Bảng 5-2: Bảng so sánh kết quả trên từng lớp đối tượng giữa Faster R-CNN và
Precision Faster R-CNN (%) (Kết quả tốt nhất được in đậm). .................................87
Bảng 5-3: Bảng so sánh kết quả cuối cùng của bài toàn (kết quả sau giai đoạn OCR
bằng phương pháp TransformerOCR) giữa Faster R-CNN và Precision Faster R-CNN
(%) (Kết quả tốt nhất được in đậm). .........................................................................87


DANH MỤC TỪ VIẾT TẮT
AP

Average Precision

ID

Identification (Mã số định danh)

mAP

Mean Average Precision

NLP

Natural Language Processing (Xử lý ngôn ngữ tự nhiên)

OCR


Optical Character Recognition (Nhận dạng ký tự quang học)

RLE

Run Length Encoding

SOTA

State-of-the-art


TĨM TẮT
Rút trích thơng tin hóa đơn là một trong những bài toán liên quan đến hiểu tài
liệu dạng ảnh (Visual Document Understanding - VDU) và cần tận dụng cả các kỹ
thuật liên quan đến xử lý ảnh và xử lý ngôn ngữ tự nhiên để giải quyết. Đây đang là
một trong những bài toán nhận được nhiều sự quan tâm trên tồn thế giới.
Trong khóa luận này, chúng tơi thực hiện tìm hiểu, thực nghiệm và cải thiện
kết quả các phương pháp rút trích thơng tin hóa đơn tiếng Việt trên bộ dữ liệu mà
nhóm nghiên cứu xây dựng được. Bộ dữ liệu của nhóm gồm 2,147 ảnh hóa đơn, trong
đó có 1,358 ảnh train, 358 ảnh val và 789 ảnh test. Thơng tin cần rút trích gồm tên
cửa hàng, địa chỉ cửa hàng, thời gian mua hàng và số tiền khách cần trả. Thêm vào
đó, chúng tơi đề xuất thay Roi Pooling của Faster R-CNN thành Precise Roi Pooling
để cải thiện kết quả ở bước phát hiện đối tượng. Những đóng góp trên chúng tơi trình
bày trong bài báo UIT-MLReceipts: A multilingual benchmark for detecting key
information in receipts (PHỤ LỤC A) được chấp nhận đăng tại hội nghị khoa học
2022 IEEE 9th International Conference on Communications and Electronics (ICCE
2022).

21



Chương 1.

TỔNG QUAN

Trong chương này, chúng tôi giới thiệu chung về khóa luận, động lực nghiên cứu,
xác định bài tốn và phạm vi tương ứng, từ đó nêu lên các đóng góp chính của khóa
luận. Phần tóm tắt từng chương trong khóa luận được trình bày ở cuối chương này.
1.1. Giới thiệu chung
Trong thời đại số hóa hiện nay, mọi tác vụ đều hướng đến sự chính xác, nhanh
chóng và tiện lợi, không chỉ đối với những tác vụ phức tạp, mà còn với những tác vụ
tưởng chừng đơn giản như rút trích thơng tin trong hóa đơn.
Bài tốn rút trích thơng tin hóa đơn được đặt ra nhằm mục đích đẩy mạnh tự
động hóa các tác vụ trong văn phịng thơng qua việc lưu trữ tự động các thơng tin
quan trọng từ các hóa đơn. Thách thức của bài tốn này là phải đạt được độ chính xác
gần như tuyệt đối bởi lẽ một sai sót nhỏ cũng có thể dẫn đến những sai lầm nghiêm
trọng.
1.2. Động lực nghiên cứu
1.2.1 Tính khoa học
Bài tốn rút trích thơng tin đang nhận được sự quan tâm của giới nghiên cứu
khoa học, bằng chứng là nhiều cuộc thi đã được tổ chức như: Robust Reading
Challenge on Scanned Receipts OCR and Information Extraction (ICDAR 2019)[9],
MC-OCR Challenge Mobile-Captured Image Document Recognition for Vietnamese
Receipts (RIVF 2021)[21], ... đưa ra nhiều bộ dữ liệu đa dạng như: Scanned receipts
OCR and information extraction (SROIE)[9], … dẫn tới hàng loạt giải pháp như
PICK[24], LayoutLM[22], AIESI[15], … nhằm nâng cao tính chính xác, cũng như
sự nhanh chóng và tiện lợi trong bài tốn rút trích thơng tin hố đơn.
1.2.2 Tính ứng dụng
Bài tốn rút trích thơng tin từ hóa đơn sẽ được áp dụng vào các tác vụ liên

quan tới các lĩnh vực kinh tế, tài chính, kế tốn nói riêng và các tác vụ trong văn

22


phịng nói chung, nhằm tự động rút trích thơng tin quan trọng từ các hóa đơn, từ đó
giảm thiểu cơng việc, mang lại hiệu quả cao trong công việc cho các nhân viên kế
tốn, tài chính. Ngồi ra, đây cũng là tiền đề để phát triển những bài toán nhận dạng
thơng tin có cấu trúc khác.
1.3. Phát biểu bài tốn
Khóa luận trình bày phương pháp cho bài tốn rút trích thơng tin hóa đơn với
đầu vào là ảnh chụp của một hóa đơn và đầu ra là các thơng tin trong hóa đơn đó,
trong khóa luận này chúng tơi trích xuất các thông tin tên cửa hàng, địa chỉ cửa hàng,
thời gian bán và tổng tiền:
Đầu vào

Đầu ra

SASAWA SUSHI|||132/26 Nguyễn Tri
Phương TP VT|||Ngày: 24/10/2020|||Tổng
tiền: 333,000

Bảng 1-1: Tổng quan về đầu vào – đầu ra của bài toán.

23


1.4. Phạm vi bài tốn
Trong phạm vi khóa luận này, chúng tơi tập trung tìm hiểu và thực nghiệm các
phương pháp đã được công bố (Faster R-CNN, YOLOv3, YOLOF cho phát hiện

thông tin và AttentionOCR, TransformerOCR cho nhận dạng ký tự quang học) cho
việc rút trích thơng tin hóa đơn trên bộ dữ liệu MC-OCR và thu thập bộ dữ liệu bổ
sung nhằm giúp đa dạng dữ liệu và cải thiện các kết quả đạt được.
1.5. Thách thức bài toán
Về dữ liệu, các vấn đề về môi trường như chất lượng giấy, chất lượng máy in,
mực in, chất lượng ánh sáng và chất lượng ảnh, … dẫn đến ảnh không rõ chữ, khó
đọc. Hóa đơn có nếp gấp, bị uốn cong, có nhiều góc độ chụp, ..., dẫn đến các dịng
chữ trên hóa đơn khơng thẳng, bị biến dạng, … dẫn đến khó nhận dạng, địi hỏi cần
có kỹ thuật tiền xử lý ảnh và trích đặc trưng phù hợp. Ngồi ra các bộ dữ liệu hiện có
vẫn cịn nhỏ, đặc biệt là dữ liệu về các hóa đơn tiếng Việt, cần tăng cường dữ liệu để
có thể cho ra phương pháp mang lại kết quả tốt. Ngoài những yếu tố trên, sự đa dạng
về bố cục (vị trí của các thơng tin cần trích xuất), đa dạng cách thể hiện (các từ ngữ
được sử dụng), đa dạng kiểu chữ, sự biến dạng của một số hoặc tất cả ký tự trong tên
cửa hàng, … cũng là thách thức không hề nhỏ.

Hình 1-1: Một số ví dụ về những thách thức của bài toán.

24


Về phương pháp, hiện nay có rất nhiều cơng bố sử dụng các mạng dựa trên
kiến trúc mạng CNN, Attention hoặc các mạng được tùy chỉnh, tính chính xác trên
mỗi mạng là khác nhau và cần phải nghiên cứu, tùy chỉnh để đạt được kết quả cao
nhất. Điều này đòi hỏi cần nghiên cứu sâu và kỹ để tìm ra phương pháp mang lại kết
quả cao nhất.
1.6. Đóng góp của khóa luận
− Tìm hiểu tổng quan về phương pháp Faster R-CNN và các kỹ thuật Deep
Learning cho bài toán rút trích thơng tin hóa đơn tiếng Việt.
− Tìm hiểu dữ liệu hiện có để ứng dụng vào bài tốn và thực hiện tăng cường dữ
liệu.

− Xây dựng bộ dữ liệu bổ sung UIT-MLReceipts gồm ảnh các hóa đơn với đa
dạng kích cỡ, đa dạng bố cục và được chụp trong nhiều bối cảnh khác nhau.
− Đề xuất được phương pháp cải tiến cho bài tốn rút trích thơng tin hóa đơn
bằng cách sử dụng Precise Roi Pooling[6].
− Xây dựng được ứng dụng minh họa rút trích thơng tin hóa đơn từ tiếng Việt.
− Có một bài báo được chấp nhận đăng tại hội nghị 2022 IEEE 9th International
Conference on Communications and Electronics (IEEE ICCE 2022).
1.7. Cấu trúc khóa luận
Khóa luận này được trình bày trong 6 chương, nội dung chính được tóm tắt như
dưới đây:
− Chương 1: Giới thiệu chung về khóa luận, động lực nghiên cứu, xác
định bài tốn và phạm vi tương ứng, từ đó nêu lên các đóng góp chính
của khóa luận.
− Chương 2: Trình bày các cơ sở lý thuyết, nghiên cứu liên quan, xu
hướng nghiên cứu mới đối với bài tốn rút trích thơng tin được đề cập
trong khóa luận.
− Chương 3: Xây dựng dữ liệu bổ sung cho bài toán.

25


×