Ứng Dụng Nhận Dạng Tiếng Việt Trong Trích
Xuất Thơng Tin Từ Căn Cước Công Dân
Trịnh Tấn Đạt
Nội dung
1. Giới thiệu
2. Mơ hình đề xuất
3. Thực nghiệm và kết quả
4. Sản phẩm
5. Kết luận
Giới thiệu
❖ Khó khăn và thách thức:
▪ Hệ thống nhận dạng ký tự Việt ngữ
trong hình ảnh hiệu suất chưa cao.
•
•
•
•
•
Nhiễu
Ảnh bị mờ
Ảnh bị ảnh hưởng bởi ánh sáng/bóng tối
Độ phân giải thấp
Mất mát thông tin
Mơ hình đề xuất
Input
image
Cropper
Text Detector
Text Recognizer
Results
Số: 079060
Ngày, tháng,
năm sinh:
26/04/1996
Giới tính:
Nam
Quốc tịch:
Việt Nam
…
Mơ hình đề xuất
❖Cropper:
Xác định vị trí của CCCD trong ảnh đầu vào có nền và chuẩn hóa ảnh CCCD về
góc nhìn ở phía trước (front-view hay top-down view)
▪ Mơ hình Mask R-CNN để phân đoạn ảnh CCCD và tìm biên của CCCD.
▪ Dựa vào biên của đối tượng, chúng tôi xác định 4 đỉnh của CCCD và áp dụng
Perspective Transform để chuẩn hóa CCCD về góc nhìn trực diện.
Kết quả của Mask-RCNN cho việc chuẩn hóa ảnh CCCD
Mơ hình đề xuất
❖Text Detector: trích xuất các vùng thơng tin trong ảnh CCCD
▪ Hướng tiếp cận 1: dùng các kỹ thuật xử lý ảnh
▪ Hướng tiếp cận 2: dùng EAST detector
Mơ hình đề xuất
Convert to
grayscale
image
❖Text Detector: trích xuất các
vùng thơng tin trong ảnh CCCD
Dùng các kỹ thuật xử lý ảnh
Gaussian
smoothing
Blackhata
operator
Magnitude of
gradient by xdirection
Closing
operator
Otsu
thresholdin
g
Find
connected
components
Extract
text lines
Using
heuristic
information
Mơ hình đề xuất
❖Text Detector: trích xuất các
vùng thơng tin trong ảnh CCCD
Dùng EAST detector
Kết quả của EAST detector
Kết quả khi hậu xử lý
Mơ hình đề xuất
❖ Text Recognition
▪ Mạng tích chập hồi quy (CRNN) kết hợp
CTC.
▪ Mạng CRNN kết hợp cơ chế Attention.
▪ Kết hợp giữa mạng tích chập (CNN),
mạng hồi quy (LSTM) và cơ chế
Attention
kết
hợp
CTC
(CNN+LSTM+CTC+Attention)
trong
một mơ hình đầu cuối (end-to-end).
Transcription
Layer
“Giới tính: Nam”
Predicted sequence
Per-frame predictions (joint CTC-Attention)
Recurrent
Layers
Deep bidirectional LSTM
Feature sequence
Convolutional
Layers
Convolutional feature maps
Input (text lines)
Mơ hình đề xuất
Thực nghiệm và kết quả
❖Dữ liệu
▪ 120 ảnh CCCD (ảnh thật) thu thập được chỉ được dùng trong quá trình
kiểm tra
▪ Để huấn luyện mơ hình đề xuất, chúng tơi sử dụng kỹ thuật tạo dữ liệu
giả (synthetic data và augmentation data).
▪ 1150 ảnh CCCD với nền được dùng để huấn luyện mơ hình MaskRCNN.
▪ Các dữ liệu ảnh CCCD giả chứa đựng 73090 dịng văn bản chứa đựng
các thơng tin cơ bản của CCCD như: số CCCD, họ tên, ngày tháng năm
sinh, quê quán.
o 70044 mẫu như tập huấn luyện
o 3046 mẫu được dùng như tập kiểm thử (valid data).
o 1065 dịng thơng tin (từ ảnh thật) để đánh giá mơ hình nhận dạng
Thực nghiệm và kết quả
Dữ liệu giả để huấn luyện mơ hình nhận dạng CRNN.
Kết quả
▪
Kết quả so sánh của mơ hình Cropper
The Cropper
Độ chính xác (%)
Thời gian xử lý (giây)
Mask-RCNN Resnet50
96.13%
0.50s
Mask-RCNN Resnet101
95.92%
0.52s
Mask-RCNN InceptionResnet V2
98.85%
0.59s
Kết quả
▪ Ví dụ kết quả từ Cropper
Ảnh đầu vào
Kết quả Mask-RCNN
CCCD được chuẩn hóa
Kết quả
▪
Kết quả so sánh của mơ hình Text Detector
Phương pháp
Phương pháp dùng xử lý
ảnh
EAST detector
Precision (%)
Recall (%)
F1-score (%)
Thời gian xử lý (giây)
0.886
0.890
0.888
0.027s
0.946
0.945
0.945
0.402s
Bảng 4.6: Kết quả trích xuất các vùng thơng tin trên ảnh CCCD.
Các vùng thơng tin
Độ chính xác (%)
Phương pháp dùng xử lý ảnh
EAST detector
Số ID
97.57
99.39
Họ và Tên
93.93
96.36
Ngày tháng năm sinh
96.96
96.96
Giới tính
96.36
98.18
Quốc tịch
95.57
98.18
Quê quán
80.39
96.96
Nới thường trú
84.24
87.87
Hạn sử dụng
86.67
93.93
a) Traditional approach
b) EAST detector
Kết quả
▪
Kết quả so sánh của mơ hình Text Recognizer
Phương pháp
WER (%)
CRNN+CTC
5.68
CRNN+Attention
6.77
CRNN+ joint CTC-Attention
4.28
Hiệu quả nhận dạng Việt ngữ cho từng vùng thông tin trên CCCD.
Các vùng thông tin
WER (%)
Số ID
4.66
Họ và Tên
0.79
Ngày tháng năm sinh
0.00
Giới tính
0.22
Quê quán
6.22
Nơi thường trú
12.64
Hạn sử dụng
0.04
Kết quả trích xuất và nhận dạng các vùng thơng tin trong ảnh CCCD.
Phương pháp
WER (%)
Thời gian xử lý
EAST+CRNN+CTC+Attention
5.38
0.4239s
Manual cropped +
4.28
0.0219s
CRNN+CTC+Attention
XIN CHÂN THÀNH CẢM ƠN