ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
TRẦN LÊ BẢO CHÂU - 18520256
ĐOÀN THỊ THANH HIẾU - 18520734
BÁO CÁO ĐỒ ÁN 1
TÌM HIỂU PHƯƠNG PHÁP RÚT TRÍCH THƠNG TIN
HĨA ĐƠN TIẾNG VIỆT
Research Of Information Extraction Method For Vietnamese
Receipts
KỸ SƯ NGÀNH CƠNG NGHỆ PHẦN MỀM
TP. HỒ CHÍ MINH, 2021
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
TRẦN LÊ BẢO CHÂU - 18520256
ĐOÀN THỊ THANH HIẾU - 18520734
BÁO CÁO ĐỒ ÁN 1
TÌM HIỂU PHƯƠNG PHÁP RÚT TRÍCH THƠNG TIN
HĨA ĐƠN TIẾNG VIỆT
Research Of Information Extraction Method For Vietnamese
Receipts
KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
NGUYỄN TẤN TRẦN MINH KHANG
TP. HỒ CHÍ MINH, 2021
NHẬN XÉT CỦA GIẢNG VIÊN
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
LỜI CẢM ƠN
Lời cảm ơn đầu tiên, chúng tôi xin dành đến thầy TS.Nguyễn Tấn Trần Minh
Khang – giảng viên hướng dẫn của chúng tôi trong môn Đồ án 1 này. Cảm ơn thầy
đã luôn quan tâm, nhắc nhở và tận tình hướng dẫn chúng tơi trong suốt q trình thực
hiện đồ án. Cảm ơn thầy vì sự nhiệt huyết bất tận trong quá trình hướng dẫn, sự nhiệt
huyết ấy đã cổ vũ và trở thành động lực giúp chúng tôi thực hiện tốt đồ án.
Lời cảm ơn thứ hai, chúng tôi xin được dành cho thầy ThS.Võ Duy Nguyên,
người đã luôn theo sát giúp đỡ và hỗ trợ hết mình cho chúng tơi trong q trình thực
hiện đồ án.
Lời cảm ơn cuối cùng, chúng tôi xin dành cho các anh chị, các bạn, các em
trong nhóm nghiên cứu đã luôn đồng hành, giúp đỡ và cổ vũ cho chúng tơi trong suốt
q trình thực hiện đồ án.
Trong q trình thực hiện đồ án khó tránh khỏi những sai sót, hạn chế, chúng
tôi rất mong nhận được sự nhận xét, góp ý của q thầy cơ và các bạn để chúng tơi
có thể tiến xa hơn trong con đường học thuật.
Xin chân thành cảm ơn.
Sinh viên thực hiện
Trần Lê Bảo Châu
Đồn Thị Thanh Hiếu
TP.Hồ Chí Minh, ngày 30 tháng 06 năm 2021
MỤC LỤC
DANH MỤC HÌNH ....................................................................................................8
DANH MỤC BẢNG ...................................................................................................9
DANH MỤC TỪ VIẾT TẮT ....................................................................................10
TÓM TẮT .................................................................................................................11
Chương 1.
TỔNG QUAN ...................................................................................12
1.1. Giới thiệu chung ..........................................................................................12
1.2. Động lực nghiên cứu ...................................................................................12
1.2.1
Tính khoa học .......................................................................................12
1.2.2
Tính ứng dụng .......................................................................................12
1.3. Phát biểu bài toán ........................................................................................13
1.4. Phạm vi bài tốn ..........................................................................................14
1.5. Thách thức bài tốn .....................................................................................14
1.6. Đóng góp của đồ án .....................................................................................15
1.7. Cấu trúc đồ án ..............................................................................................15
Chương 2.
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN .......16
2.1. Một số cơ sở lý thuyết .................................................................................16
2.1.1
Neural Network.....................................................................................16
2.1.2
Convolutional Neural Network .............................................................16
2.1.3
Fully Convolutional Network ...............................................................18
2.2. Các cơng trình nghiên cứu liên quan ...........................................................19
2.2.1
Faster R-CNN .......................................................................................19
2.2.2
Transformer ..........................................................................................23
2.2.3
TransformerOCR ..................................................................................31
2.3. Bộ dữ liệu cuộc thi Mobile-Captured Image Document Recognition for
Vietnamese Receipts (RIVF2021 MC-OCR) .......................................................32
2.3.1
Tổng quan .............................................................................................32
2.3.2
Minh họa ...............................................................................................33
Chương 3.
XÂY DỰNG DỮ LIỆU ....................................................................34
3.1. Xây dựng bộ dữ liệu bổ sung .......................................................................34
3.1.1
Thu thập dữ liệu ....................................................................................34
3.1.2
Gán nhãn dữ liệu ...................................................................................34
3.1.3
Định dạng file annotation .....................................................................35
3.1.4
Kết quả ..................................................................................................42
Chương 4.
THỰC NGHIỆM VÀ ĐÁNH GIÁ ...................................................43
4.1. Mô tả thực nghiệm .......................................................................................43
4.2. Phương pháp đánh giá .................................................................................44
4.2.1
Confusion matrix ..................................................................................44
4.2.2
Precison and Recall ...............................................................................44
4.2.3
Intersection ove Union (IoU) ................................................................45
4.2.4
Average Precision (AP) ........................................................................46
4.2.5
Mean Average Precision (mAP) ...........................................................46
4.3. Quy trình thực nghiệm và đánh giá .............................................................47
4.4. Demo minh họa ...........................................................................................48
Chương 5.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................49
5.1. Kết luận........................................................................................................49
5.1.1
Kết quả đạt được ...................................................................................49
5.1.2
Hạn chế .................................................................................................49
5.2. Hướng phát triển ..........................................................................................49
TÀI LIỆU THAM KHẢO .........................................................................................50
PHỤ LỤC ..................................................................................................................51
DANH MỤC HÌNH
Hình 1-1. Một số ví dụ về những thách thức của bài tốn. .......................................14
Hình 2-1. Ảnh mơ tả hướng di chuyển của kernel (k = 3) trên ảnh màu. .................17
Hình 2-2. Biến thể Pooling Layer. ............................................................................18
Hình 2-3. Mốc thời gian cho sự ra đời các phương phát hiện đối tượng (1990 – 2019)
[6] ..............................................................................................................................19
Hình 2-4. Kiến trúc R-CNN. .....................................................................................20
Hình 2-5. Kiến trúc Fast R-CNN. .............................................................................21
Hình 2-6. Kiến trúc Faster R-CNN ...........................................................................22
Hình 2-7. Kiến trúc Region Proposal Network (RPN) .............................................22
Hình 2-8. IoU (Intersection over Union). .................................................................23
Hình 2-9. Kiến trúc mạng Transformer (ảnh từ bài báo) [9] ....................................24
Hình 2-10. Trực quan hóa giá trị vector Positional Encoding của 20 từ với kích thước
512 (kích thước sử dụng trong bài báo). ...................................................................26
Hình 2-11. Ảnh minh họa bước cuối quá trình xử lý đầu vào của mơ hình .............27
Hình 2-12. Kiến trúc lớp Encoder .............................................................................27
Hình 2-13. Kiến trúc lớp self-attention. ....................................................................28
Hình 2-14. Kiến trúc lớp Add & Normalize. ............................................................29
Hình 2-15. Kiến trúc lớp decoder..............................................................................30
Hình 2-16. Minh họa thay đổi của lớp decoder so với lớp encoder ..........................31
Hình 2-17. Quy trình xử lý đầu ra của mơ hình Transformer ...................................31
Hình 2-18. Kiến trúc CNN kết hợp với Transformer (Ảnh từ github của mô hình) .32
Hình 4-1. Ảnh minh họa bước đầu trong quá trình thực nghiệm ..............................43
Hình 4-2. Ảnh minh họa bước thứ hai trong quá trình thực nghiệm ........................43
Hình 4-3. Confusion Matrix ......................................................................................44
Hình 4-4. Đồ thị mối quan hệ của precision, recall (Precision-Recall curve) ..........46
Hình 4-5. Kết quả khi chạy demo. ............................................................................48
DANH MỤC BẢNG
Bảng 1-1. Tổng quan về đầu vào – đầu ra của bài tốn. ...........................................13
Bảng 2-1. Ví dụ đơn giản từ bộ dữ liệu ....................................................................33
Bảng 3-1. Mô tả ý nghĩa các thuộc tính trong phần “info” của định dạng COCO ...36
Bảng 3-2. Mơ tả ý nghĩa các thuộc tính trong phần “licenses” của định dạng COCO
...................................................................................................................................37
Bảng 3-3. Mô tả ý nghĩa các thuộc tính trong phần “images” của định dạng COCO
...................................................................................................................................38
Bảng 3-4. Mơ tả ý nghĩa các thuộc tính trong phần “annotations” của định dạng
COCO ........................................................................................................................41
Bảng 3-5. Mô tả ý nghĩa các thuộc tính trong phần “categories” của định dạng COCO
...................................................................................................................................42
Bảng 3-6. Bản phân bổ các nhãn của bộ dữ liệu .......................................................42
DANH MỤC TỪ VIẾT TẮT
AP
Average Precision
ID
Identification (Mã số định danh)
mAP
Mean Average Precision
RLE
Run Length Encoding
TĨM TẮT
Rút trích thơng tin hóa đơn là một trong những bài toán liên quan đến đọc hiểu
tài liệu dạng ảnh (Document Image Understanding) và cần tận dụng cả các kỹ thuật
liên quan đến xử lý ảnh và xử lý ngôn ngữ tự nhiên để giải quyết. Đây đang là một
trong những bài toán nhận được nhiều sự quan tâm trên tồn thế giới.
Trong đồ án này, chúng tơi thực hiện tìm hiểu các phương pháp rút trích thơng
tin hóa đơn tiếng Việt trên bộ dữ liệu mà nhóm nhiên cứu xây dựng được. Bộ dữ liệu
của nhóm gồm 2 147 ảnh hóa đơn, trong đó có 1 358 ảnh huấn luyện (train) và 789
ảnh kiểm tra (test). Thông tin cần rút trích gồm tên cửa hàng, địa chỉ cửa hàng, thời
gian in hóa đơn và số tiền khách cần trả.
11
Chương 1.
TỔNG QUAN
Trong chương này, chúng tôi giới thiệu chung về đồ án, động lực nghiên cứu, xác
định bài toán và phạm vi tương ứng, từ đó nêu lên các đóng góp chính của đồ án.
Phần tóm tắt từng chương trong đồ án được trình bày ở cuối chương này.
1.1.
Giới thiệu chung
Trong thời đại số hóa hiện nay, mọi tác vụ đều hướng đến sự chính xác, nhanh
chóng và tiện lợi, không chỉ đối với những tác vụ phức tạp, mà còn với những tác vụ
tưởng chừng đơn giản như rút trích thơng tin trong hóa đơn.
Bài tốn rút trích thơng tin hóa đơn được đặt ra nhằm mục đích đẩy mạnh tự
động hóa các tác vụ trong văn phịng thông qua việc lưu trữ tự động các thông tin
quan trọng từ các hóa đơn. Thách thức của bài tốn này là phải đạt được độ chính xác
gần như tuyệt đối bởi lẽ một sai sót nhỏ cũng có thể dẫn đến những sai lầm nghiêm
trọng.
1.2.
Động lực nghiên cứu
1.2.1 Tính khoa học
Bài tốn rút trích thơng tin đang nhận được sự quan tâm của giới nghiên cứu
khoa học, bằng chứng là nhiều cuộc thi đã được tổ chức như: Robust Reading
Challenge on Scanned Receipts OCR and Information Extraction (ICDAR 2019) [1],
MC-OCR Challenge Mobile-Captured Image Document Recognition for Vietnamese
Receipts (RIVF 2021), ... đưa ra nhiều bộ dữ liệu đa dạng như: Scanned receipts OCR
and information extraction (SROIE), … dẫn tới hàng loạt giải pháp như PICK[3],
LayoutLM[4], AIESI[5], … nhằm nâng cao tính chính xác, cũng như sự nhanh chóng
và tiện lợi trong bài tốn rút trích thơng tin hố đơn.
1.2.2 Tính ứng dụng
Bài tốn rút trích thơng tin từ hóa đơn sẽ được áp dụng vào các tác vụ liên
quan tới các lĩnh vực kinh tế, tài chính, kế tốn nói riêng và các tác vụ trong văn
12
phịng nói chung, nhằm tự động rút trích thơng tin quan trọng từ các hóa đơn, từ đó
giảm thiểu cơng việc, mang lại hiệu quả cao trong công việc cho các nhân viên kế
tốn, tài chính. Ngồi ra, đây cũng là tiền đề để phát triển những bài toán nhận dạng
thơng tin có cấu trúc khác.
1.3.
Phát biểu bài tốn
Đồ án trình bày phương pháp cho bài tốn rút trích thơng tin hóa đơn với đầu
vào là ảnh chụp của một hóa đơn và đầu ra là các thơng tin trong hóa đơn đó, trong
đồ án này chúng tơi trích xuất các thông tin tên cửa hàng, địa chỉ cửa hàng, thời gian
bán và tổng tiền:
Đầu vào
Đầu ra
SASAWA SUSHI|||132/26 Nguyễn Tri
Phương TP VT|||Ngày: 24/10/2020|||Tổng
tiền: 333,000
Bảng 1-1. Tổng quan về đầu vào – đầu ra của bài toán.
13
1.4.
Phạm vi bài toán
Trong phạm vi đồ án này, chúng tơi tập trung tìm hiểu và thực nghiệm các
phương pháp đã được cơng bố (Faster R-CNN) cho việc rút trích thơng tin hóa đơn
trên bộ dữ liệu MC-OCR và thu thập bộ dữ liệu bổ sung nhằm giúp đa dạng dữ liệu
và cải thiện các kết quả đạt được.
1.5.
Thách thức bài tốn
Về dữ liệu, các vấn đề về mơi trường như chất lượng giấy, chất lượng máy in,
mực in, chất lượng ánh sáng và chất lượng ảnh, … dẫn đến ảnh khơng rõ chữ, khó
đọc. Hóa đơn có nếp gấp, bị uốn cong, có nhiều góc độ chụp, ..., dẫn đến các dịng
chữ trên hóa đơn khơng thẳng, bị biến dạng, … dẫn đến khó nhận dạng, địi hỏi cần
có kỹ thuật tiền xử lý ảnh và trích đặc trưng phù hợp. Ngồi ra các bộ dữ liệu hiện có
vẫn cịn nhỏ, đặc biệt là dữ liệu về các hóa đơn tiếng Việt, cần tăng cường dữ liệu để
có thể cho ra phương pháp mang lại kết quả tốt. Ngoài những yếu tố trên, sự đa dạng
về bố cục (vị trí của các thơng tin cần trích xuất), đa dạng cách thể hiện (các từ ngữ
được sử dụng), đa dạng kiểu chữ, sự biến dạng của một số hoặc tất cả ký tự trong tên
cửa hàng, … cũng là thách thức khơng hề nhỏ.
Hình 1-1. Một số ví dụ về những thách thức của bài toán.
14
Về phương pháp, hiện nay có rất nhiều cơng bố sử dụng các mạng dựa trên
kiến trúc mạng CNN, Attention hoặc các mạng được tùy chỉnh, tính chính xác trên
mỗi mạng là khác nhau và cần phải nghiên cứu, tùy chỉnh để đạt được kết quả cao
nhất. Điều này đòi hỏi cần nghiên cứu sâu và kỹ để tìm ra phương pháp mang lại kết
quả cao nhất.
1.6.
Đóng góp của đồ án
− Tìm hiểu tổng quan về phương pháp Faster R-CNN và các kỹ thuật Deep
Learning cho bài tốn rút trích thơng tin hóa đơn tiếng Việt.
− Tìm hiểu dữ liệu hiện có để ứng dụng vào bài tốn và thực hiện tăng cường dữ
liệu.
− Xây dựng bộ dữ liệu bổ sung gồm ảnh các hóa đơn với đa dạng kích cỡ, đa
dạng bố cục và được chụp trong nhiều bối cảnh, độ sáng khác nhau.
1.7.
Cấu trúc đồ án
Đồ án này được trình bày trong 5 chương, nội dung chính được tóm tắt như dưới
đây:
− Chương 1: Giới thiệu chung về đồ án, động lực nghiên cứu, xác định bài toán
và phạm vi tương ứng, từ đó nêu lên các đóng góp chính của khóa luận.
− Chương 2: Trình bày các cơ sở lý thuyết, nghiên cứu liên quan, xu hướng
nghiên cứu mới đối với bài tốn rút trích thơng tin được đề cập trong đồ án.
− Chương 3: Xây dựng dữ liệu bổ sung cho bài tốn.
− Chương 4: Trình bày kết quả thực nghiệm và đánh giá ưu điểm, hạn chế của
phương pháp được chọn để khảo sát.
− Chương 5: Nêu kết quả đạt được, kết luận, định hướng nghiên cứu trong tương
lai.
15
Chương 2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
2.1.
Một số cơ sở lý thuyết
2.1.1 Neural Network
Neural Network dùng để rút trích đặc trưng mơ hình chung của bộ dữ liệu đầu
vào, dựa vào đó các nhà nghiên cứu có thể sử dụng để phân tích thơng tin, phát triển
các giải pháp giải quyết vấn đề khác nhau. Kiến trúc của Neural Network là tổ hợp
nhiều lớp, được chia thành 3 nhóm chính: lớp đầu vào (input layer), các lớp ẩn (hidden
layers) và lớp đầu ra (output) layer. Mỗi lớp có một hay nhiều điểm nút (node), tại
đây diễn ra tác vụ chính của lớp. Các node của hai lớp liền kề được nối với nhau
thông qua các liên kết sao cho dữ liệu đầu ra của lớp này là đầu vào của lớp kia, dữ
liệu sẽ được tiếp tục xử lý để thu được kết quả mong muốn ở lớp cuối cùng.
2.1.2 Convolutional Neural Network
Mạn rơ-ron tích chập (CNN) hoạt động theo nguyên lý phản hồi và lan truyền
ngược để học được bộ trọng số và bias tốt nhất cho tiến trình huấn luyện model. Điểm
nổi bật của CNN là áp dụng phép tính convolution vào layer trong Neural Network
để giảm số lượng tham số đầu vào trong khi vẫn đảm bảo quá trình học và độ chính
xác cao cho mơ hình.
Trong kiến trúc CNN cơ bản được thiết lập bởi một số lớp được định nghĩa để
thực hiện các mục đích khác nhau như: Fully Connected Layer, Convolutional Layer,
Pooling Layer, Max Pooling Layer…
2.1.2.1.
Convolutional Layer
Convolutional layer là lớp đầu tiên để trích xuất các đặc trưng từ hình ảnh đầu
vào, thực hiện phép tính tích chập trên dữ liệu và sau đó lan truyền thơng tin cho lớp
tiếp theo mà nó liên kết.
Ở Convolutional Layer, có ba siêu tham số ảnh hưởng đến kích thước của
output cần được cài đặt trước khi quá trình huấn luyện bắt đầu:
16
− Số lượng của Filter/Kernel: ảnh hưởng đến sộ sâu (depth) của đầu ra.
− Stride: Biểu thị số bước nhảy mà bộ lọc dịch chuyển, dùng để giảm kích
thước đầu ra.
− Zero-padding: Dùng để duy trì kích thước dữ liệu tương thích với các bộ
lọc được sử dụng trong kiến trúc mạng bằng cách thêm giá trị 0 vào viền
ảnh của dữ liệu đầu vào. Có ba loại padding: Valid padding, Same paddin
và Full padding.
Hình 2-1. Ảnh mơ tả hướng di chuyển của kernel (k = 3) trên ảnh màu.
2.1.2.2.
Pooling Layer
Pooling Layer thường được dùng giữa các Convolutional Layer để giảm kích
thước dữ liệu nhưng vẫn giữ được các thuộc tính quan trọng. Kích thước của dữ liệu
giảm giúp việc giảm tính tốn trong model.
Khi dùng Pooling Layer với size = (2 × 2), stride = 2 padding = 0 thì output
with và height của dữ liệu sẽ giảm đi một nửa, depth thì được giữ nguyên.
17
Hình 2-2. Biến thể Pooling Layer.
Có nhiều biến thể của Pooling Layer, phổ biến là Max Pooling, Average
Pooling (Hình2.2) …
2.1.2.3.
Fully Connected Layer
Fully Connected Layer thường được cấu tạo ở các lớp cuối cùng của kiến trúc CNN
để tổng hợp đầu ra và đưa ra output của model, có thể dùng để phân loại các lớp đối
tượng khi kết hợp các activation function như softmax hoặc sigmoid.
2.1.3 Fully Convolutional Network
Mạng tích chập đầy đủ (Fully Convolutional Network) là kiến trúc mạng linh
động cho phép dữ liệu đầu vào có kích thước tùy ý và đầu ra có kích thước tương
ứng. Mạng tích chập đầy đủ kế thừa từ các kiến trúc mạng phân lớp hiện nay như:
VGGNet, AlexNet, GoogleLeNet, ResNet… dùng để giải quyết các vấn đề phức tạp.
Mạng này có khả năng tinh chỉnh ba thơng số h × w × d, trong đó h là chiều cao,
w là chiều rộng và d là chiều sâu của tất cả các lớp mạng.
18
2.2.
Các cơng trình nghiên cứu liên quan
2.2.1 Faster R-CNN
Hình 2-3. Mốc thời gian cho sự ra đời các phương phát hiện đối tượng (1990 –
2019) [6]
2.2.1.1.
R-CNN
Ra đời với ý tưởng khá đơn giản: Dùng thuật toán Selective Search để lấy ra
khoảng 2000 Bounding-box trong input mà có khả năng chứa đối tượng. Sau đó, với
mỗi Bounding-box ta xác định xem nó là đối tượng nào.
(a) Selective search algorithm
Input là 1 ảnh màu. Output là khoảng 2000 Bounding-box trong input mà có
khả năng chứa đối tượng.
(b) Phân loại region proposal
Sau khi thực hiện Selective search, các region proposal được resize lại về cùng
kích thước và thực hiện transfer learning với feature extractor, sau đó các extracted
feature được cho vào thuật tốn SVM để phân loại ảnh.
19
Hình 2-4. Kiến trúc R-CNN.
(c) Nhược điểm
Với mỗi ảnh cần phải phân loại class cho khoảng 2000 region proposal nên
mất khá nhiều thời gian.
2.2.1.2.
Fast R-CNN
Tương tự R-CNN thì Fast R-CNN vẫn dùng Selective search để lấy ra các
region proposal. Tuy nhiên là nó khơng tách 2000 region proposal ra khỏi ảnh và thực
hiện bài toán image classification cho mỗi ảnh. Fast R-CNN cho cả bức ảnh vào
ConvNet (một vài convolutional layer + max pooling layer) để tạo ra convolutional
feature map.
Vì kích thước của các region proposal khác nhau nên khi Flatten sẽ ra các
vector có kích thước khác nhau nên không thể áp dụng neural network được. Và
feature map không thể resize được, nên để chuyển các region proposal trong feature
map về cùng kích thước thì Region of Interest (RoI) pooling ra đời.
20
Hình 2-5. Kiến trúc Fast R-CNN.
(a) Nhược điểm
Thời gian tính region proposal vẫn còn tiêu tốn nhiều thời gian.
2.2.1.3.
Faster R-CNN
Để khắc phục hạn chế về thời gian tính region proposal của R-CNN và Fast
R-CNN, Faster R-CNN ra đời gồm 3 phần:
− Convolutional layers
− Region Proposal Network (RPN)
− Fast R-CNN
Đầu tiên ảnh được đưa qua Convolutional layers để lấy feature map. Sau đó
feature map được dùng cho Region Proposal Network để lấy được các region
proposal. Sau khi lấy được vị trí region proposal thì thực hiện tương tự Fast R-CNN.
21
Hình 2-6. Kiến trúc Faster R-CNN
(a) Region Proposal Network (RPN)
Là một mạng con dựa trên một cửa sổ trượt có kích thước 𝑛 × 𝑛 trượt trên
convolutional feature map. Với mỗi vị trí của cửa sổ, một số vùng đề xuất được tạo
ra, và các vùng đề xuất này sẽ được lọc dựa trên “objectness score”.
Input: feature map
Output: region proposals.
Hình 2-7. Kiến trúc Region Proposal Network (RPN)
Anchor
Vì region proposals là hình chữ nhật và có thể ra ngồi bức ảnh nên cần kĩ
thuật để biểu diễn region propsal => Anchor ra đời.
22
Tại mỗi vị trí cửa sổ trượt, đồng thời dự đốn nhiều vùng đề xuất, trong đó số
vùng đề xuất tối đa có thể có tại mỗi vị trí của cửa sổ là ký hiệu là 𝑘. Với 𝑘 =
scale × aspect ratio.
Tại thời điểm train, tất cả các anchor vượt q biên sẽ bị bỏ qua để khơng bị
tính vào loss.
Objectness score (IoU)
Các anchor sẽ được gán là positive hoặc negative dựa vào diện tích overlap
với ground truth box theo luật như sau:
Hình 2-8. IoU (Intersection over Union).
− Các anchor được phân loại là positive nếu:
o Là anchor có IoU (Intersection over Union) lớn nhất đối với một
ground-truth box.
o Là anchor có tỉ lệ IoU đối với ground-truth bất kỳ lớn hơn 0.7
− Các anchor được phân loại là negative nếu có IoU bé hơn 0.3 đối với groundtruth box.
− Các anchor không thuộc 2 loại trên sẽ được loại bỏ.
2.2.2 Transformer
2.2.2.1.
Tổng quan
Kiến trúc mạng Transformer dành cho xử lý ngôn ngữ tự nhiên được ra đời
vào năm 2017 qua bài báo Attention Is All You Need, đúng như tên gọi của bài báo,
23
cơ chế Attention đã trở thành một bước đột phá, làm tiền đề cho nhiều mơ hình lớn
khác trong NLP mà nổi bật nhất là mơ hình BERT (Bidirectional Encoder
Representations from Transformers) [7] một mơ hình SOTA trong giới NLP hiện nay.
Transformer thực hiện được nhiều tác vụ của NLP như dịch máy, tóm tắt văn
bản, tạo ngơn ngữ tự nhiên, … Ngoài ra, vào năm 2018, bài báo Image Transformer[8]
cũng được ra đời nhằm áp dụng kiến trúc Transformer vào bài toán xử lý ảnh.
2.2.2.2.
Kiến trúc mạng
Kiến trúc mạng Transformer gồm 2 khối chính là khối encoder và khối
decoder.
Hình 2-9. Kiến trúc mạng Transformer (ảnh từ bài báo) [9]
(a) Xử lý đầu vào
Đầu vào của mạng là thường là một câu, câu này sẽ được đưa vào khối Input
Embedding nhằm ánh xạ các từ thành những vector có kích thước 512 chiều (có thể
được hiệu chỉnh cho phù hợp với bài tốn). Khối này có tác dụng làm giảm kích thước
24
của đầu vào, và qua khối Input Embedding này, những từ có nghĩa tương đồng với
nhau sẽ được biểu diễn bằng những vector gần giống nhau. Mơ hình sử dụng trong
khối này thường là Word2Vec hoặc GloVe.
Đặc điểm của Transformer, là mơ hình sẽ đọc tất cả các từ trong câu vào mơ
hình một lúc, nhằm cải thiện điểm yếu là dễ làm giảm ngữ nghĩa ở các câu quá dài
trong các mơ hình NLP trước đó. Để thực hiện được điều này, Transformer cần một
cơ chế để có thể biết được vị trí của các từ trong câu, đó là sử dụng khối Positional
Encoding để ánh xạ vị trí của từ thành một vector có kích thước bằng với kích thước
của những vector được ánh xạ từ các từ trong câu. Khối này hoạt động với công thức
như sau:
𝑝𝑜𝑠
𝑃𝐸(𝑝𝑜𝑠,2𝑖) = 𝑠𝑖𝑛(
10000
𝑃𝐸(𝑝𝑜𝑠,2𝑖 + 1) = 𝑐𝑜𝑠(
2𝑖
𝐷
)
𝑝𝑜𝑠
10000
2𝑖
𝐷
)
Trong đó:
− pos: là vị trí của từ trong câu.
− D: kích thước cố định của vector từ đầu vào của mơ hình.
− i: vị trí trong vector vị trí.
25