Tải bản đầy đủ (.pdf) (21 trang)

Bài giảng ứng dụng nhận dạng tiếng việt trong trích xuất thông tin từ căn cước công dân

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (855.8 KB, 21 trang )

Ứng Dụng Nhận Dạng Tiếng Việt Trong Trích
Xuất Thơng Tin Từ Căn Cước Công Dân
Trịnh Tấn Đạt


Nội dung
1. Giới thiệu
2. Mơ hình đề xuất
3. Thực nghiệm và kết quả

4. Sản phẩm
5. Kết luận


Giới thiệu
❖ Khó khăn và thách thức:

▪ Hệ thống nhận dạng ký tự Việt ngữ
trong hình ảnh hiệu suất chưa cao.






Nhiễu
Ảnh bị mờ
Ảnh bị ảnh hưởng bởi ánh sáng/bóng tối
Độ phân giải thấp
Mất mát thông tin



Mơ hình đề xuất
Input
image

Cropper

Text Detector

Text Recognizer

Results

Số: 079060
Ngày, tháng,
năm sinh:
26/04/1996
Giới tính:
Nam
Quốc tịch:
Việt Nam



Mơ hình đề xuất
❖Cropper:
Xác định vị trí của CCCD trong ảnh đầu vào có nền và chuẩn hóa ảnh CCCD về
góc nhìn ở phía trước (front-view hay top-down view)
▪ Mơ hình Mask R-CNN để phân đoạn ảnh CCCD và tìm biên của CCCD.
▪ Dựa vào biên của đối tượng, chúng tôi xác định 4 đỉnh của CCCD và áp dụng

Perspective Transform để chuẩn hóa CCCD về góc nhìn trực diện.

Kết quả của Mask-RCNN cho việc chuẩn hóa ảnh CCCD


Mơ hình đề xuất
❖Text Detector: trích xuất các vùng thơng tin trong ảnh CCCD
▪ Hướng tiếp cận 1: dùng các kỹ thuật xử lý ảnh
▪ Hướng tiếp cận 2: dùng EAST detector


Mơ hình đề xuất

Convert to
grayscale
image

❖Text Detector: trích xuất các
vùng thơng tin trong ảnh CCCD
Dùng các kỹ thuật xử lý ảnh

Gaussian
smoothing

Blackhata
operator

Magnitude of
gradient by xdirection


Closing
operator

Otsu
thresholdin
g

Find
connected
components
Extract
text lines

Using
heuristic
information


Mơ hình đề xuất
❖Text Detector: trích xuất các
vùng thơng tin trong ảnh CCCD
Dùng EAST detector

Kết quả của EAST detector

Kết quả khi hậu xử lý


Mơ hình đề xuất
❖ Text Recognition

▪ Mạng tích chập hồi quy (CRNN) kết hợp
CTC.
▪ Mạng CRNN kết hợp cơ chế Attention.
▪ Kết hợp giữa mạng tích chập (CNN),
mạng hồi quy (LSTM) và cơ chế
Attention
kết
hợp
CTC
(CNN+LSTM+CTC+Attention)
trong
một mơ hình đầu cuối (end-to-end).

Transcription
Layer

“Giới tính: Nam”

Predicted sequence

Per-frame predictions (joint CTC-Attention)

Recurrent
Layers

Deep bidirectional LSTM

Feature sequence

Convolutional

Layers

Convolutional feature maps

Input (text lines)


Mơ hình đề xuất


Thực nghiệm và kết quả
❖Dữ liệu
▪ 120 ảnh CCCD (ảnh thật) thu thập được chỉ được dùng trong quá trình
kiểm tra
▪ Để huấn luyện mơ hình đề xuất, chúng tơi sử dụng kỹ thuật tạo dữ liệu
giả (synthetic data và augmentation data).
▪ 1150 ảnh CCCD với nền được dùng để huấn luyện mơ hình MaskRCNN.
▪ Các dữ liệu ảnh CCCD giả chứa đựng 73090 dịng văn bản chứa đựng
các thơng tin cơ bản của CCCD như: số CCCD, họ tên, ngày tháng năm
sinh, quê quán.
o 70044 mẫu như tập huấn luyện
o 3046 mẫu được dùng như tập kiểm thử (valid data).
o 1065 dịng thơng tin (từ ảnh thật) để đánh giá mơ hình nhận dạng


Thực nghiệm và kết quả

Dữ liệu giả để huấn luyện mơ hình nhận dạng CRNN.



Kết quả


Kết quả so sánh của mơ hình Cropper

The Cropper

Độ chính xác (%)

Thời gian xử lý (giây)

Mask-RCNN Resnet50

96.13%

0.50s

Mask-RCNN Resnet101

95.92%

0.52s

Mask-RCNN InceptionResnet V2

98.85%

0.59s



Kết quả
▪ Ví dụ kết quả từ Cropper

Ảnh đầu vào

Kết quả Mask-RCNN

CCCD được chuẩn hóa


Kết quả


Kết quả so sánh của mơ hình Text Detector

Phương pháp

Phương pháp dùng xử lý
ảnh

EAST detector

Precision (%)

Recall (%)

F1-score (%)

Thời gian xử lý (giây)


0.886

0.890

0.888

0.027s

0.946

0.945

0.945

0.402s


Bảng 4.6: Kết quả trích xuất các vùng thơng tin trên ảnh CCCD.

Các vùng thơng tin

Độ chính xác (%)
Phương pháp dùng xử lý ảnh

EAST detector

Số ID

97.57


99.39

Họ và Tên

93.93

96.36

Ngày tháng năm sinh

96.96

96.96

Giới tính

96.36

98.18

Quốc tịch

95.57

98.18

Quê quán

80.39


96.96

Nới thường trú

84.24

87.87

Hạn sử dụng

86.67

93.93


a) Traditional approach

b) EAST detector


Kết quả


Kết quả so sánh của mơ hình Text Recognizer

Phương pháp

WER (%)

CRNN+CTC


5.68

CRNN+Attention

6.77

CRNN+ joint CTC-Attention

4.28


Hiệu quả nhận dạng Việt ngữ cho từng vùng thông tin trên CCCD.

Các vùng thông tin

WER (%)

Số ID

4.66

Họ và Tên

0.79

Ngày tháng năm sinh

0.00


Giới tính

0.22

Quê quán

6.22

Nơi thường trú

12.64

Hạn sử dụng

0.04


Kết quả trích xuất và nhận dạng các vùng thơng tin trong ảnh CCCD.

Phương pháp

WER (%)

Thời gian xử lý

EAST+CRNN+CTC+Attention

5.38

0.4239s


Manual cropped +

4.28

0.0219s

CRNN+CTC+Attention


XIN CHÂN THÀNH CẢM ƠN



×