Nhận diện biển số xe máy, ô tô sử dụng mạng nơ ron nhân tạo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (438.84 KB, 3 trang )

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

NHẬN DIỆN BIỂN SỐ XE MÁY, Ô TÔ
SỬ DỤNG MẠNG NƠ RON NHÂN TẠO
Nguyễn Văn Nam
Khoa Công nghệ Thông tin, Trường đại học Thủy lợi, email:

1. GIỚI THIỆU CHUNG

Nhận dạng biển số xe ô tô, xe máy tự động
là việc sử dụng các công nghệ xử lý ảnh để đọc
biển số xe từ các hình ảnh thu được bởi các
camera giao thông. Với sự phát triển mạnh mẽ
các công nghệ xử lý ảnh nhất là công nghệ
mạng nơ ron nhân tạo cho thị giác máy tính, độ
chính xác nhận diện đã được cải thiện đáng kể
có thể đáp ứng được các nhu cầu thực tế. Bài
báo giới thiệu cách áp dụng mơ hình nhận dạng
vật thể Single Shot MultiBox (SSD) để phát
hiện biển số và phát hiện ký tự, đồng thời đề
xuất một mơ hình phân loại hình ảnh để nhận
dạng ký tự. Hệ thống tổng thể cho kết quả nhận
diện biển số với độ chính xác 86,5%.

Rất nhiều mạng nơ ron tích chập
(Convolutional Neural Network) được phát
triển trên thế giới cho phép phân loại ảnh như
VGG, Resnet, EfficientNet, cũng như cho
phép nhận dạng vật thể trong ảnh như
YOLOv3 (You Look Only Once) [2],
FasterRCNN (Faste-Regional CNN) [3] hay

SSD (Single Shot Multibox Detector) [1].
Trong bài báo này, chúng tôi thực hiện phát
hiện biển số và phát hiện ký tự bằng mơ hình
SSD. Trên bộ dữ liệu PASCAL VOC,
SSD500 có độ chính xác mAP 76,8% tốt hơn
so với YOLOv3 (66,4%) và có tốc độ 22fps
cao hơn so với Faster-RCNN (7fps).

2. PHƯƠNG PHÁP NGHIÊN CỨU

Biển số xe cơ giới Việt Nam là bảng hợp
kim nhơm sắt có dạng hình chữ nhật hoặc
hình hơi vng trên đó có in các ký tự số hoặc
ký tự chữ. Biển số xe cơ giới có thể phân chia
thành 2 loại là biển xe một dòng và biển xe
hai dịng. Quy trình nhận diện biển số xe máy,
ơ tơ được mơ tả trong hình 1. Quy trình này
gồm ba bước (1) phát hiện biển số, (2) phát
hiện ký tự và (3) nhận dạng ký tự. Hai bước
đầu tiên được thực hiện với SSD. Bước còn
lại được thực hiện với mơ hình tự đề xuất.

Hình 1. Các bước nhận dạng
biển số phương tiện

Hình 2. Mơ hình nhận dạng vật thể SSD
Kiến trúc mạng nơ ron nhân tạo được sử
dụng trong SSD (hình 2) bao gồm hai phần
chính là mạng nơ ron cơ sở (baseline) như là
VGG, Resnet, EfficientNet và phần các tầng

tầng SSD hay gọi là các tầng phụ. Phần mạng
nơ ron cơ sở tạo ra 6 ánh xạ đặc trưng với
kích cỡ khác nhau. Phần các tầng SSD phụ
thực hiện việc hồi quy hình hộp bao đóng và
dự đốn xác suất xuất hiện của từng loại vật
thể trong hộp bao đóng đó.
Tương tự như YOLO, với một ánh xạ đặc
trưng 3838512, thì ảnh đầu vào sẽ được
coi như một lưới ô vuông 3838. Với mỗi ô

66

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

vng, có một số hình chữ nhật neo (defaul
boxes) được khởi tạo với tâm trùng với tâm ô
vuông nhưng có hình dạng khác nhau. Q
trình huấn luyện là q trình tinh chỉnh hình
dạng và kích cỡ các hình hộp đề xuất
(prediction) để phù hợp với các hình tham
chiếu (ground-truth) sao cho với mỗi loại vật
thể, xác suất hình hộp chứa loại đối tượng là
lớn nhất và sư sai lệnh về vị trí và kích cỡ
giữa hình dự đốn và hình thật là nhỏ nhất.
Vị trí và kích cỡ của hình hộp bao đóng
được chuẩn hóa theo vị trí và kích cỡ của từng
ơ vng. SSD sử dụng thuật tốn NMS (nonmaximal suppression) để loại đi các hình bao
đóng có cùng vị trí nhưng độ chính xác thấp.
Hàm mất mát trong SSD như sau:

L(x,c,l,g) = 1/N (Lconf (x,c) + α Lloc(x,l,g))
Trong đó: xpij = {1; 0} chỉ báo có hay
khơng sự ghép cặp giữa hộp bao đóng neo
thứ i và hình tham chiếu thứ j của loại vật thể
p; N - số hình chữ nhật neo được ghép cặp;
Lloc(x,l,g) - hàm mất mát vị trí được tính là
hàm chuẩn 1 giữa các tham số chuẩn hóa của
hộp dự đốn l và hộp tham chiếu g. Lconf (x,c)
hàm mất mát độ tin cậy chính là hàm sai số
cross-entropy trên các lớp đối tượng.

là hai tầng mạng nơ ron kết nối đầy đủ có số
lượng nơ ron tương ứng là 500 và 10 (tương
ứng với 10 ký tự số).

Mơ hình phát hiện biển số và mơ hình
phát hiện ký tự biển số

Mơ hình SSD và mơ hình phân loại ký tự
biển số đều được cài đặt trên khung làm việc
MXNET, cung cấp thư viện GluonCV rất hiệu
quả cho các mơ hình thị giác máy tính. Cả hai
mơ hình đều được huấn luyện trên máy Tesla
T4, sử dụng thuật toán tối ưu SGD (Stochastic
Gradient Descent) với batch size là 512,
learning rate là 0,001, weight decay là 0,0005
và momentum là 0,9, số lượng epoch là 200.

SSD được sử dụng để phát hiện biển số,
phát hiện ký tự trong biển số. Mơ hình phát

hiện biển số có 2 nhãn là biển 1 dịng (1-line)
và biển 2 dịng (2-lines). Mơ hình phát hiện
ký tự bao gồm 31 nhãn gồm 10 chữ số và 21
ký tự latinh được sử dụng trong biển số xe.

Hình 3. Mơ hình phân loại ký tự số
Tương tự như vậy, mơ hình phân loại ảnh ký
tự chữ có cấu trúc tương tự nhưng có 21 đầu ra
tương ứng với 21 ký tự trong biển số xe.
3. KẾT QUẢ NGHIÊN CỨU

Chuẩn bị dữ liệu
Dữ liệu gán nhãn bao gồm 1000 ảnh biển
số và 6200 ảnh ký tự biển số cho 21 ký tự
chữ và 10 ký tự số. Dữ liệu được thu nhận từ
1 camera giao thông thực hiện vào ban ngày.
Huấn luyện mơ hình

Mơ hình nhận dạng ký tự

Kết quả thử nghiệm

Mơ hình nhận dạng ký tự số được thể hiện
minh họa trong hình 3. Đây là một mơ hình
phân loại hình ảnh. Đầu vào mơ hình là ảnh
RGB kích cỡ 2828 chứa một ký tự số.
Mơ hình phân loại ký tự số bao gồm 2 tầng
tích chập (conv) với bộ lọc 55, bước nhày là
1 và số kênh lần lượt là 20 và 50; hai tầng
gộp cực đại (max pooling) kích cỡ 22 và

bước nhảy là 2. Ánh xạ đặc trưng cuối cùng
có kích cỡ 4450 được làm phẳng ra thành
một vecto 1 chiều có kích cỡ 800. Cuối cùng
67

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

dạng biển số khơng cịn là hình chữ nhật
tương ứng với hình bao đóng khi gán nhãn.
Do đó tỷ lệ nhận nhầm biển số sẽ cao hơn.
Đây là các nhược điểm của cách tiếp cận này.

Độ chính xác nhận diện biển số xe ơ tơ
Ơ tơ

Positive

Negative

True

29

0

False

5

4

4. KẾT LUẬN

Precision = TP/ (TP + FP) = 85,3%
Recall = TP/(TP + FN) = 87,9%
F1-Score = 2 * Precision * Recall/
(Precision+Recall) = 86,5%
Độ chính xác nhận diện xe máy
Xe máy

Positive

Negative

True

57

0

False

20

13

Precision = TP/ (TP + FP) = 74%
Recall = TP/(TP + FN) = 81%
F1-Score = 77,5%

Trong bài báo này, chúng tơi sử dụng mơ
hình học sâu SSD (Single Shot Multibox
Detector) để phát hiện biển số, phát hiện ký
tự của từng biển số. Sau đó chúng tôi thiết kế
một mạng phân loại để nhận diện ký tự. Việc
nhận diện biển số như trên được thử nghiệm
với 20 ảnh và cho ra độ chính xác F1-Score
là 86,5%. Kết quả này cũng rất khả quan để
ứng dụng vào thực tế. Tuy nhiên, cần phải có
thêm rất nhiều dữ liệu để tăng cường độ
chính xác của mơ hình.
5. TÀI LIỆU THAM KHẢO

Đánh giá chung
Phương pháp đề xuất có ưu điểm là tốc độ
nhận dạng cao: trung bình khoảng 30ms/ảnh;
độ chính xác nhận dạng chấp nhận được: tỷ
lệ F1-Score cho biển số xe máy, oto ban ngày
tương ứng là 77,5% và 86,5%. Tuy nhiên, độ
dài chuỗi ký tự biển số trung bình là 9 chữ số.
Ngay cả khi độ chính xác nhận diện ký tự
(character accuracy) cao đến 99% thì độ
chính xác nhận diện cả chuỗi ký tự (sequence
accuracy) cũng khơng thể đạt tới 91%.
Ngồi ra, ở các góc hình khác nhau, hình

[1] Liu, W., Anguelov, D., Erhan, D., Szegedy,
C., Reed, S., Fu, C.-Y. & Berg, A. C. (2015).
SSD: Single Shot MultiBox Detector (cite

arxiv:1512.02325Comment: ECCV 2016).
[2] Redmon, J. & Farhadi, A. (2018). YOLOv3:
An
Incremental
Improvement
(cite
arxiv:1804.02767Comment: Tech Report).
[3] Ren, S., He, K., Girshick, R. B. & Sun, J.
(2015). Faster R-CNN: Towards Real-Time
Object Detection with Region Proposal
Networks.. In C. Cortes, N. D. Lawrence, D.
D. Lee, M. Sugiyama & R.
Garnett (eds.),
NIPS (p./pp. 91-99).

68

Nhận diện biển số xe máy, ô tô sử dụng mạng nơ ron nhân tạo

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về