Tải bản đầy đủ (.pdf) (8 trang)

Phát hiện và phân loại người đi bộ sử dụng phương pháp học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (644.42 KB, 8 trang )

TẠ CHÍ

ISSN: 1859-316X

KHOA H C - CƠNG NGH

KHOA HỌC CƠNG NGHỆ HÀNG HẢI
JOURNAL OF MARINE SCIENCE AND TECHNOLOGY

PHÁT HI N VÀ PHÂN LO I NG
I I B S D NG PH
NG PHÁP
H C SÂU
PEDESTRIAN DETECTION AND CLASSIFICATION USING DEEP LEARNING
LÊ QUY T TI N1*, NGUY N V N HÙNG2,
TR N TH H
NG1, NGUY N H U TUÂN1
1
Khoa Công ngh thông tin, Tr ng i h c Hàng h i Vi t Nam
2
H c viên cao h c ngành Công ngh thơng tin - Khóa 2020.1, Tr ng i h c Hàng h i Vi t Nam
*Email liên h :
Tóm t t
Trong nghiên c u này, đóng góp chính c a nhóm
tác gi t p trung vào gi i quy t bài toán phát hi n
và phân lo i ng i đi b (ng i tr ng thành hay
tr em) trong hình nh d a trên ph ng pháp h c
sâu theo hai h ng ti p c n. h ng th nh t,
bài toán đ c chia thành hai bài toán thành ph n:
phát hi n ng i đi b và phân lo i ng i đi b .
Hình nh ng i đi b s đ c tách ra t hình nh


đ u vào và đ a qua b phân lo i đ xác đ nh
ng i đi b đó là ng i l n hay tr em. C th ,
bài toán phát hi n ng i đi b đ c nghiên c u
d a trên mơ hình phát hi n đ i t ng YOLO trong
khi bài toán phân lo i hình nh ng i đi b đ c
nghiên c u trên mơ hình VGG, Inception, ResNet
và EfficientNet. h ng ti p c n th hai, bài toán
đ c nghiên c u theo h ng phát hi n và phân
lo i ng i đi b s d ng duy nh t m t mơ hình c
th là mơ hình phát hi n đ i t ng YOLO. K t qu
thu đ c c a nghiên c u t ng đ i t t v i c hai
h ng ti p c n. H ng ti p c n th nh t cho đ
chính xác trung bình phát hi n ng i đi b đ t
0.797 và đ chính xác phân lo i ng i đi b đ t
0.955. Tuy nhiên h ng ti p c n th hai th hi n
s v t tr i khi cho đ chính xác cao h n đ t
0.851 đ ng th i có th i gian th c thi t t h n nhi u
so v i h ng ti p c n th nh t.
T khóa: Phát hi n đ i t ng, phân lo i hình nh,
ng i đi b , ng i l n, tr em, h c sâu.

Abstract
In this study, the main contribution is to solve the
task of pedestrian detection and adult / kid
classification by using two approaches. In the first
one, the task is divided into two sub-tasks:
pedestrian detection and adult / kid classification.
Pedestrian image regions are cropped from input
images and passed through a classifier to
determine if they are adult images or kid images.

Specifically, the pedestrian detection task is
studied by using an object detection model YOLO
while the classification task is studied by using
typical deep models: VGG, Inception, ResNet and
S

70 (04-2022)

EfficientNet. In the second approach, only one
object detection model, YOLO is used to detect
and classify pedestrians. The obtained results are
quite good for both approaches. The first one has
a good mean average precision of the pedestrian
detection task at 0.797 and the classification
accuracy is 0.955. However, the second approach
has much better results with a higher mean
average precision 0.851 and a much better
performing time compared to the first approach.
Keywords: Object detection, image classification,
pedestrian, adult, kid, deep learning

1. Gi i thi u
Ngày nay, tai n n giao thông đã và v n đang là m t
v n đ n i c m c a xã h i. Theo thông tin t C c
C nh sát giao thông - B Công an, 6 tháng đ u n m
2021, toàn qu c x y ra 6.278 v tai n n giao thông,
làm ch t 3.147 ng i, b th ng 4.465 ng i. Nguyên
nhân ch y u là do các l i vi ph m giao thông và th c
tr ng trên ph n ánh tính ph c t p c ng nh m c đ
nguy hi m trong vi c tham gia giao thông t i Vi t

Nam. Các bi n pháp h tr ng i tham gia giao thông
đã và đang tr thành m t nhu c u c p thi t nh m gi m
thi u r i ro tai n n. Vi c ng d ng khoa h c công ngh
đ gi i quy t v n đ này hi n đang là h ng gi i quy t
có ti m n ng l n.
Bên c nh đó, cu c cách m ng khoa h c công ngh
đang di n ra m nh m Vi t Nam c ng nh trên toàn
th gi i. Vi c tri n khai các h th ng camera hành
trình trong tham gia giao thơng và vi c ng d ng trí
tu nhân t o, th giác máy tính vào cu c s ng đang
ngày càng ph bi n h n. Các camera hành trình thơng
th ng ch có ch c n ng ghi l i hình nh mà ch a t n
d ng đ c vào vi c h tr ng i đi u khi n ph ng
ti n giao thông. Vi c phát hi n ng i đi b và phân
lo i ng i đi b là ng i tr ng thành hay tr em là
ti n đ cho nhi u gi i pháp h tr gi m thi u r i ro tai
n n (c nh báo ng i sang đ ng, c nh báo tr em
ch y phía tr c,…).

87


TẠP CHÍ

KHOA H C - CƠNG NGH
Bài tốn phát hi n ng i đi b không ph i m t bài
toán m i nh ng bài toán phân lo i ng i đi b là
ng i tr ng thành hay tr em hi n v n ch a đ c các
nghiên c u đi sâu. Trong bài báo này, m t v n đ ch a
có câu tr l i đ c đ a ra: Vi c t ng quát hóa các đ c

tr ng c a ng i đi b nói chung (bao g m c ng i
l n và tr em) hay phân bi t hóa các đ c tr ng c a tr
em và các đ c tr ng c a ng i l n riêng r hi u qu
h n trong bài toán phát hi n ng i đi b ? Nói cách
khác, vi c phân đ nh riêng bi t tr em và ng i l n có
làm ph c t p hóa bài tốn phát hi n ng i đi b và
li u có hi u qu h n khi tách bi t bài toán phát hi n
ng i đi b và bài toán phân lo i ng i đi b ? Xu t
phát t v n đ đ c nêu ra, bài toán phát hi n và phân
lo i ng i đi b đ c nghiên c u theo hai h ng ti p
c n. h ng ti p c n th nh t, bài toán đ c chia
thành bài toán phát hi n ng i đi b và bài toán phân
lo i ng i đi b (minh h a trong Hình 1). C th ,
khn hình ng i đi b s đ c xác đ nh và trích xu t
ra t hình nh đ u vào b c th nh t thông qua đ c
tr ng c a ng i đi b nói chung (bao g m c ng i
l n và tr em). b c th hai, khn hình trích xu t
đ c s đ c phân lo i là ng i l n hay tr em (thông
qua các đ c tr ng phân lo i ng i l n và tr em).

Hình 1. H

ng ti p c n s d ng b phát hi n và b phân
lo i ng

i đi b riêng bi t

Trái ng c l i, trong h ng ti p c n th hai, các
đ i t ng ng i l n đi b và tr em đi b s đ c phát
hi n và phân lo i trong m t b c th c hi n thông qua

đ c tr ng ng i l n đi b và tr em đi b nh đ c
minh h a trong Hình 2.

Hình 2. H

ng ti p c n s d ng b phát hi n và phân
lo i ng

88

i đi b tích h p

ISSN: 1859-316X

KHOA HỌC CƠNG NGHỆ HÀNG HẢI
JOURNAL OF MARINE SCIENCE AND TECHNOLOGY

Trong nghiên c u này, bài toán phát hi n và phân
lo i ng i đi b đ c t p trung nghiên c u gi i quy t.
ng th i, các u nh c đi m c a hai h ng ti p c n
bài toán trên c ng đ c nghiên c u, đánh giá và so
sánh đ tr l i câu h i đ c đ t ra ban đ u.

2. B i c nh nghiên c u
2.1. Bài toán phát hi n ng

i đi b

Bài toán phát hi n ng i đi b là m t bài toán
thu c h các bài toán phát hi n đ i t ng. Trong đó,

phát hi n đ i t ng là s k t h p c a bài toán đ nh v
đ i t ng và phân lo i đ i t ng khi xác đ nh khung
bao quanh t ng đ i t ng trong hình đ ng th i xác
đ nh l p (nhãn) c a đ i t ng.
Các h ng gi i quy t tiêu bi u tr c đây cho bài toán
phát hi n đ i t ng có th k đ n nh "các bi n th Viola
& Jones" [1], bi u đ đ nh h ng gradient (Histogram of
Oriented Gradients - HOG) [2], b phát hi n ph n bi n
d ng (Deformable Part Detectors - DPM) [3]. Ngày nay,
các h ng ti p c n m ng h c sâu s d ng mơ hình CNN
[8] đã và v n đang là h ng ti p c n hi u qu nh t cho
bài toán phát hi n đ i t ng nói chung và bài tốn phát
hi n ng i đi b nói riêng. V i h ng ti p c n này có th
k đ n hai h mơ hình tiêu bi u là các mơ hình R-CNN
(Regions with Convolutional Neural Network - m ng n
ron tích ch p vùng) [4], [6], [7] và h mơ hình YOLO
(You Only Look Once - b n ch nhìn m t l n) [9], [10],
[11], [12].
H mơ hình R-CNN đ c đ c p t i v i ba mơ
hình tiêu bi u là R-CNN [4], Fast R-CNN [6] và
Faster R-CNN [7]. Mô hình R-CNN [4] bao g m ba
thành ph n chính: B đ xu t vùng (region proposal),
b trích xu t đ c tr ng (feature extractor) và b phân
lo i và đi u ch nh h i quy (classifier and regressor).
Trong đó, b đ xu t vùng ch u trách nhi m đ xu t
các vùng có th ch a v t th , các vùng này đ c gi i
h n b i các các hình ch nh t g i là h p gi i h n
(bounding box). B trích xu t đ c tr ng làm nhi m v
tính tốn trích xu t các đ c tr ng t các vùng đ c đ
xu t thông qua các m ng n ron tích ch p. Cu i cùng

b phân lo i và đi u ch nh h i quy s phân lo i hình
nh ch a trong vùng đ xu t v đúng nhãn và đi u
ch nh l i h p gi i h n d a trên các đ c tr ng đ c
trích xu t.
Mơ hình Fast R-CNN [6] sau đó đ c phát tri n
lên t mơ hình R-CNN v i s thay đ i là b n đ đ c
tr ng (feature map) đ c tính tốn cho tồn b hình
nh t tr c sau đó b n đ đ c tr ng c c b cho t ng
vùng đ xu t s đ c trích xu t ra t b n đ đ c tr ng
tồn c c thơng qua phép g p vùng quan tâm (regions
of interest pooling).

S

70 (04-2022)


TẠP CHÍ

ISSN: 1859-316X

KHOA HỌC CƠNG NGHỆ HÀNG HẢI
JOURNAL OF MARINE SCIENCE AND TECHNOLOGY

KHOA H C - CƠNG NGH

Mơ hình Faster R-CNN [7] là s nâng c p t mơ
hình Fast R-CNN khi s d ng b n đ đ c tr ng tồn
c c (đ c trích xu t cho tồn b hình nh) đ đ xu t
vùng nh thay vì s d ng ph ng pháp tìm ki m có

ch n l c (selective search) đ đ xu t vùng nh nh
R-CNN và Fast R-CNN.

Mơ hình YOLOV3 [11] đ a ra m t s thay đ i v
ki n trúc c a m ng tích ch p so v i YOLOV2 đ ng
th i vi c phát hi n đ i t ng trong hình nh s đ c
th c hi n nhi u l n, m i l n s d ng kích th c khác
nhau nh m phát hi n đ i t ng các t l nh khác
nhau.

N u h mơ hình R-CNN th c hi n phát hi n đ i
t ng qua hai giai đo n:
xu t vùng và phân lo i
vùng thì h mơ hình YOLO ch th c hi n cơng vi c
này qua m t giai đo n duy nh t. Có th h mơ hình RCNN trong m t s tr ng h p có th có đ chính xác
cao h n nh ng xét v th i gian th c thi thì h mơ hình
YOLO đang cho th y s khác bi t đáng k khi các mơ
hình YOLO có th i gian th c thi nh h n nhi u so v i
h mơ hình R-CNN nh ng v n đ m b o s cân b ng
v i đ chính xác cao.

Mơ hình YOLOV4 [12] có nh ng s thay đ i đáng
k so v i mô hình YOLOV3. C th mơ hình YOLOV4
đ c chia thành ba thành ph n chính bao g m: X ng
s ng (backbone), c (neck) và đ u (head). Trong đó
ph n x ng s ng dùng đ trích ch n đ c tr ng, ph n c
dùng đ tr n các b n đ đ c tr ng đã h c đ c. Ph n
đ u trong YOLOV4 đ c chia thành hai ph n b d
đoán dày đ c (dense prediction) và b d đoán th a th t
(sparse prediction). Trong đó b d đốn dày đ c s

d ng các b phát hi n m t giai đo n và b d đoán th a
th t s d ng các b d đoán hai giai đo n. Ki n trúc
YOLOV4 đ c th hi n trong Hình 4.

Mơ hình YOLOV1 [9] ho t đ ng d a trên ý t ng
nh sau: nh đ u vào đ c phân chia thành m t l i
g m nhi u ô, m i ô đ m nh n vi c d đoán các t a đ
và nhãn c a h p gi i h n có tâm n m trong ơ đó. Mơ
hình s d ng m t m ng h c sâu đ tính tốn các b n
đ đ c tr ng sau đó k t n i v i các l p k t n i đ y đ
(fully connected layer) đ đ a ra nhãn, t a đ và kích
th c c a các h p gi i h n nh trong Hình 3.

Hình 4. Ki n trúc mơ hình YOLOV4

Hi n mơ hình YOLOV5 đã đ c phát hành và đ a
vào s d ng. M c dù ch a có nhi u tài li u chính th c
v chi ti t mơ hình nh ng YOLOV5 đ c đánh giá
đem l i hi u su t t t c ng nh đ m b o v t c đ .

2.2. Bài toán phân lo i ng

Hình 3. Ki n trúc mơ hình YOLOV1

Mơ hình YOLOV2 [10] đ c nâng c p t mơ hình
YOLOV1 v i s khác bi t c b n là s d ng các l p
chu n hóa (normalization layers) và vi c thay th các
l p k t n i đ y đ d đoán tr c ti p ra t a đ , kích
th c các h p gi i h n b i các l p h p neo (anchor
box layer) đi u ch nh t a đ , kích th c c a các h p

gi i h n.

S

70 (04-2022)

i đi b

Bài toán phân lo i ng i đi b thu c vào d ng bài
toán phân lo i hình nh (image classification). Trong
quá kh , các bài tốn phân lo i hình nh ch y u đ c
d a trên các đ c tr ng th cơng (handcrafted features)
và có các k t qu khơng th t s n t ng nh ng v i
s ra đ i c a ph ng pháp h c sâu, bài tốn phân lo i
hình nh đang đ c gi i quy t r t t t v i hi u qu cao
v t tr i [5]. ã có r t nhi u các mơ hình m ng h c
sâu đ c đ a ra và có th k đ n m t s mơ hình tiêu
bi u nh LeNet, AlexNet [5], VGG [13], GoogLeNet
[14], ResNet [15], EfficientNet [16].
Các mô hình LeNet, AlexNet [5] hay VGG [13] có
ki n trúc ch y u bao g m các l p tích ch p đ n thu n
ch u trách nhi m h c các đ c tr ng t hình nh. u
ra c a các l p này đ c k t n i v i các l p k t n i đ y
đ đ th c hi n các tác v (phân lo i, h i quy,…).
Ki n trúc các mơ hình này đ c đ i di n b i ki n trúc
VGG16 đ c th hi n trong Hình 5.

89



TẠP CHÍ

ISSN: 1859-316X

KHOA HỌC CƠNG NGHỆ HÀNG HẢI

KHOA H C - CÔNG NGH

JOURNAL OF MARINE SCIENCE AND TECHNOLOGY

Ki n trúc ResNet [15] đ c đ a ra k th a m t s
đi m trong ki n trúc kh i c a GoogLeNet nh ng s
d ng các k t n i t t (skip connection). K t n i t t gi
thông tin không b m t đi sau nhi u phép bi n đ i b ng
cách k t n i l p phía tr c v i l p phía sau khơng
thơng qua m t vài l p trung gian (Hình 7).
Mơ hình EfficientNet [16] đ c ti p c n theo
h ng m i so v i các mơ hình tr c đó. Mơ hình t p
trung vào vi c m r ng tham s theo c ba chi u bao
g m đ sâu, đ r ng và đ phân gi i c a m ng. Mơ
hình cho phép gi m chi phí tính tốn mà v n đ m b o
tính hi u qu . Ki n trúc EfficientNet B0 đ c th hi n
trong Hình 8.

Hình 5. Ki n trúc mơ hình VGG16

Mơ hình GoogLeNet hay Inception [14] đ c
đ a ra v i ý t ng m r ng mơ hình m ng theo chi u
r ng s d ng các l p tích ch p thơng th ng k t h p
v i các kh i inception (h p thu). Kh i inception bao

g m các nhánh song song ch a các l p tích ch p v i
kích th c khác nhau. K t qu tính tốn t các nhánh
song song đ c ghép l i thành m t đ u ra duy nh t
(Hình 6).

Hình 6. Ki n trúc kh i inception (h p thu)

Hình 8. Ki n trúc mơ hình EfficientNet B0

Bài tốn phân lo i hình nh ng i đi b là ng i
l n hay tr em ch a đ c đ a ra nhi u trong các
nghiên c u nhi u tr c đây. Trong [17], bài toán đ c
th c hi n d a trên vi c tính tốn t l kích th c c a
khung gi i h n toàn b ng i và khung gi i h n ph n
m t. Khung gi i h n c th đ c xác đ nh d a trên
bi u đ đ nh h ng gradient (HOG) [2] và khung gi i
h n ph n m t đ c xác đ nh d a trên ph ng pháp
Viola & Jones [1]. Tuy nhiên ý t ng c a mơ hình đ a
ra khơng th t s t t khi kích th c khung gi i h n c
th s thay đ i tùy theo t th ng i ch không c
đ nh nh ng i đ ng th ng. Trong bài báo này, bài
toán s đ c t p trung gi i quy t d a trên các mơ hình
h c sâu.

3. Nghiên c u bài toán phát hi n và phân lo i
ng i đi b
3.1. H

ng ti p c n bài toán


3.1.1. H ng s d ng b phát hi n ng
phân lo i ng i đi b riêng bi t

Hình 7. K t n i t t (skip connection)

90

i đi b và b

Xu t phát t câu h i li u vi c t ng quát hóa các
đ c tr ng cho ng i đi b nói chung có đ n gi n và
hi u qu h n phân bi t hóa đ c tr ng cho ng i l n đi
b và tr em đi b , h ng ti p c n th nh t (Hình 1)
s d ng mơ hình phát hi n đ i t ng YOLOV5 (m t
trong các mơ hình đi n hình nh t th i đi m hi n t i
v phát hi n đ i t ng th i gian th c) đ phát hi n
ng i đi b . Hình nh ng i đi b đ c trích xu t và

S

70 (04-2022)


TẠP CHÍ

ISSN: 1859-316X

KHOA H C - CƠNG NGH

KHOA HỌC CƠNG NGHỆ HÀNG HẢI

JOURNAL OF MARINE SCIENCE AND TECHNOLOGY

đ a qua b phân lo i nh phân đ xác đ nh đó là ng i
l n hay tr em s d ng m t b đ c tr ng khác. giai
đo n này, các mơ hình đi n hình cho tác v phân lo i
hình nh bao g m mơ hình VGG16 [13], ResNet50
[15], InceptionV3 [14] và EfficientNetB0 [16] đ c
xem xét đ th c hi n vi c phân lo i. Các mơ hình trên
đ c thay th các l p cu i cùng b i ba l p k t n i đ y
đ v i s n ron l n l t là 16, 16 và 1 đ k t h p các
đ c tr ng h c đ c và th c hi n vi c phân lo i hình
nh ng i l n và tr em. Trong đó l p cu i cùng ch
có m t đ u ra đ th c hi n bài toán nh phân trong khi
s đ u ra c a hai l p tr c đó khơng q l n đ tránh
hi n t ng overfitting.
3.1.2. H ng s d ng b phát hi n và phân lo i ng
đi b tích h p

i

Khác v i h ng ti p c n th nh t s d ng các đ c
tr ng ng i đi b nói chung đ tách vùng nh ng i
đi b ra và s d ng các đ c tr ng phân bi t ng i l n
và tr em đ phân bi t hình nh ng i đi b , cách
ti p c n th hai h c tr c ti p các đ c tr ng phát hi n
ng i l n đi b và tr em đi b (Hình 2). Do nghiên
c u h ng t i các gi i pháp ch y th i gian th c nên
mơ hình YOLOV5 đ c l a ch n đ th c hi n công
vi c này.


3.2. Cài đ t, th c nghi m và k t qu
3.2.1. Cài đ t và th c nghi m
Ch ng trình th nghi m đ c cài đ t trên môi
tr ng Google Colab v i b x lý đ h a Nvidia K80
v i b nh 12GB và t c đ 0,82GHz s d ng ngôn
ng Python.
B d li u s d ng trong thí nghi m là
Cityscapes [18] v i h n 2.700 hình nh ch p đ ng
ph (ch a các ph ng ti n giao thông, ng i đi
b ,…) c a h n 20 thành ph khác nhau k t h p v i
b d li u do nhóm tác gi thu th p bao g m kho ng
4000 hình nh ng i đi b . T t c ng i đi b trong
hình đ u đ c khoanh vùng và gán nhãn ng i l n
ho c tr em trong đó t l ng i đi b tr em và
ng i l n l n l t là 44,8% và 55,2% (trên t ng s
h n 28.000 nhãn đ c gán).
Thí nghi m th nh t đ c th c hi n đ đánh giá
h ng ti p c n s d ng b phát hi n và b phân lo i
ng i đi b riêng bi t (Hình 1), mơ hình YOLOV5
đ c hu n luy n đ phát hi n ng i đi b trên b
d li u g m 5.464 hình nh và đ c đánh giá trên
b d li u g m 1.193 hình nh (các hình nh này có
kích th c 640x640) và đ c đánh d u khoanh
vùng và gán nhãn ng i đi b . Mô hình đ c hu n
luy n trong 50 vịng (epoch) và d ng khi b hi n

S

70 (04-2022)


t ng overfitting (kh p quá m c). Trong h ng
ti p c n này, các mơ hình phân lo i đ c hu n luy n
v i 22.660 hình nh và đánh giá trên 5.660 hình nh.
Các hình nh này là hình nh tr em và ng i l n
đ c trích xu t ra t các hình nh thu c t p d li u
nêu trên và đ a v kích th c 128x128. T ng t
mơ hình đ c hu n luy n trong 100 vòng v i t l
h c (learning rate) là 0,001 và th c t đ c d ng
l i s m h n n u b overfitting. Các mơ hình phân
lo i đ c đánh giá b i đ chính xác (accuracy cơng th c (1)) đ c tính b ng t l gi a s m u
phân lo i đúng (correct prediction number) trên
t ng s m u phân lo i (sample number).
(1)
Thí nghi m th hai đ c th c hi n đ đánh giá
h ng ti p c n s d ng b phát hi n và phân lo i
ng i đi b tích h p (Hình 2), mơ hình YOLOV5
đ c hu n luy n đ phát hi n và phân lo i ng i l n
đi b và tr em đi b trên b d li u g m 5.464 hình
nh và đ c đánh giá trên b d li u g m 1.193 hình
nh (các hình nh này có kích th c 640x640) và đ c
đánh d u khoanh vùng ng i đi b đ ng th i đánh
nhãn là tr em hay ng i l n. T ng t nh thí
nghi m th nh t, mơ hình đ c hu n luy n trong 50
vòng và d ng khi b hi n t ng overfitting. Các mơ
hình phát hi n đ i t ng trong hai thí nghi m đ c
đánh giá b i b ba giá tr bao g m đ chính xác
(precision - cơng th c (2)), ch s g i nh (recall công th c (3)) và giá tr chính xác trung bình (mAP cơng th c (4)).
(2)
(3)
V i TP (True Positive) là s d đốn vùng đ i

t ng chính xác trong khi FP (False Positive) và
FN (False Negative) là s d đoán vùng đ i t ng
sai và s d đoán vùng đ i t ng b s�t.

V i m i phân l p, m t đ ng cong d a trên
ch s precision và recall đ c xác đ nh và ph n
di n tích n m d i đ ng cong đ� đ c đ i di n
b i ch s AP (Average Precision). Ch s mAP
đ c tính b ng trung bình giá tr AP c a t t c các
phân l p.
(4)

91


TẠP CHÍ

KHOA H C - CƠNG NGH

JOURNAL OF MARINE SCIENCE AND TECHNOLOGY

3.2.2. K t qu
B ng 1. K t qu th c nghi m b phát hi n và phân
lo i ng i đi b tách bi t

Mơ hình YOLOv5 phát hi n ng

0,873

Ch s g i nh (recall)


0,669

Giá tr chính xác trung bình (mAP)

0,797

Các mơ hình phân lo i ng

i đi b

chính xác (accuracy)

VGG16

0,943

ResNet50

0,955

InceptionV3

0,922

EfficientNetB0

0,728
Th i gian th c thi:


phát hi n ng

i đi b : 0,023 giây/ hình nh

phân lo i ng i đi b : (0,008 giây/ ng
(s ng i đi b / hình nh)

i đi b ) x

B ng 2. K t qu th c nghi m b phát hi n và phân
lo i ng i đi b tích h p

chính xác (precision)

0,880

Ch s g i nh (recall)

0,760

Giá tr chính xác trung bình (mAP)

0,851

Th i gian th c thi: Phát hi n và phân lo i ng
b : 0,024 giây/ hình nh

i đi

K t qu c a các thí nghi m theo h ng ti p c n

th nh t đ c th hi n trong B ng 1. Có th th y hi u
su t phát hi n ng i đi b c a mơ hình m c khá t t
v i đ chính xác 0,873, ch s g i nh 0,669 và đ
chính xác trung bình 0,797. Vi c hi u su t ch d ng
m c khá t t có th gi i thích do trong b d li u c a
bài toán bao g m c ng i l n và tr em trong khi các
bài toán phát hi n ng i đi b trong đa s các nghiên
c u tr c đây đ c th c hi n trên t p d li u g m
hình nh ng i l n. Nói cách khác b d li u này có
đ ph c t p cao h n và vi c s d ng m t b đ c tr ng
đ i di n cho c ng i l n và tr em đang cho th y s
hi u qu ch a th t s t t. Bên c nh đó, hi u su t c a
vi c phân lo i hình nh ng i đi b khá t t v i mơ
hình VGG16, ResNet50 và InceptionV3 (đ chính xác
l n l t là 0,943, 0,955 và 0,922). Mơ hình
EfficientNetB0 đang t ra khơng th t s phù h p v i
bài tốn khi đ chính xác m c th p (0,760) và tình
tr ng overfitting di n ra nhanh ch sau kho ng 20
vịng hu n luy n (đ chính xác trên t p hu n luy n
h n 0,9 trong khi đ chính xác trên t p đánh giá ch

92

h n 0,7). Ngoài ra, th i gian th c thi cho cách ti p c n
th nh t c ng khá cao v i m c th i gian x lý kho ng
0,1 giây cho m t khung hình v i 10 ng i đi b .

i đi b

chính xác (precision)


Mơ hình

ISSN: 1859-316X

KHOA HỌC CƠNG NGHỆ HÀNG HẢI

Hình 9. So sánh hi u n ng c a h ng ti p c n tách
bi t b phát hi n và và b phân lo i (h ng ti p c n 1)
và h ng ti p c n tích h p b phát hi n và phân lo i
ng i đi b (h ng ti p c n 2)

Quan sát B ng 2 và Hình 9, h ng ti p c n s
d ng b phát hi n và phân lo i ng i đi b tích h p
đem l i hi u qu v t tr i so v i h ng ti p c n th
nh t. Các giá tr bao g m đ chính xác, ch s g i nh
và giá tr chính xác trung bình c a mơ hình đ u cao
h n so v i mơ hình phát hi n ng i đi b v i các giá
tr l n l t 0,880, 0,760 và 0,851.
Có th th y vi c t ng qt hóa hình nh tr em và
ng i l n vào cùng m t l p hình nh ng i đi b đ
phát hi n không hi u qu b ng vi c phân bi t hóa hình
nh tr em và hình nh ng i l n vào hai l p khác bi t.
i u này có th lý gi i b i s khác nhau gi a các đ c
tr ng c a hình nh tr em và hình nh ng i l n. M c
dù hình nh ng i l n và tr em đ u có nh ng đ c
đi m chung c a hình nh con ng i nh ng v n t n t i
nh ng s khác bi t trong t l gi a các ph n c th .
Vi c c ép hai l p hình nh ng i l n và tr em vào
m t l p hình nh con ng i nói chung đã t o ra s m t

mát các đ c tr ng mô t riêng cho t ng l p. Nh ng
đ c tr ng m t đi này có th là nh ng đ c tr ng t t cho
vi c phát hi n hình nh ng i l n ho c hình nh tr
nh nói riêng đi u đó d n đ n vi c s d ng b phát
hi n ng i đi b nói chung có hi u su t th p h n b
phát hi n ng i l n và tr em. Nói cách khác bài tốn
phát hi n ng i đi b khơng đ n gi n h n bài toán
phát hi n ng i l n đi b và tr em đi b . Ngoài ra,
n u xét v th i gian th c thi, h ng ti p c n th hai
c ng đem l i hi u qu v t tr i khi nhanh g p h n b n
l n khi cùng xem xét m t hình nh có ch a 10 ng i
đi b so v i h ng ti p c n th nh t. S khác bi t này
xu t phát t vi c h ng ti p c n th nh t s d ng hai
mô hình (mơ hình phát hi n và mơ hình phân lo i) và
th c hi n công vi c qua hai giai đo n trong khi h ng

S

70 (04-2022)


TẠP CHÍ

ISSN: 1859-316X

KHOA HỌC CƠNG NGHỆ HÀNG HẢI
JOURNAL OF MARINE SCIENCE AND TECHNOLOGY

KHOA H C - CÔNG NGH


ti p c n th hai ch s d ng m t mô hình duy nh t và
th c hi n cơng vi c trong m t giai đo n. K t qu th c
nghi m đã ch ng minh r ng vi c s d ng mơ hình
ph c t p khơng ph i lúc nào c ng đ a ra đ c k t qu
chính xác h n. Bên c nh đó, mơ hình ph c t p cùng
s b c th c hi n l n c ng nh h ng t i th i gian
hu n luy n c ng nh t c đ th c thi. T đó có th k t
lu n h ng ti p c n s d ng b phát hi n và phân lo i
ng i đi b tích h p hi u qu v t tr i so v i h ng
ti p c n s d ng b phát hi n và phân lo i riêng bi t.

[4] Girshick, Ross, et al. Rich feature hierarchies for
accurate object detection and semantic
segmentation. CVPR, pp.580-587, 2014.

4. K t lu n

[6] Girshick, Ross. Fast r-cnn. Proceedings of the
IEEE international conference on computer vision.
2015.

V i m c tiêu xây d ng m t h th ng phát hi n và
phân lo i ng i đi b trong hình nh, nghiên c u đã
đ xu t hai h ng ti p c n cho bài toán: H ng s
d ng b phát hi n, b phân lo i riêng bi t và h ng
s d ng b phát hi n và phân lo i tích h p. Các
h ng ti p c n đ c nghiên c u và đánh giá ch t ch
trên b d li u l n đ c k t h p t b d li u
Cityscapes và b d li u xây d ng b i nhóm tác gi .
K t qu th c nghi m cho th y h ng s d ng b phát

hi n và phân lo i ng i đi b tích h p có hi u qu
v t tr i v i đ chính xác trung bình 0,851 và th i
gian th c thi 0,024 giây/ hình nh. i u đó th hi n
vi c t ng quát hóa các ng i đi b (bao g m c
ng i l n và tr em) không hi u qu b ng vi c phân
bi t hóa ng i l n và tr em trong bài toán phát hi n
ng i đi b . Ngoài ra m t bài toán ch a đ c đi sâu
là bài toán phân lo i hình nh ng i tr ng thành và
tr em c ng đ c gi i quy t trong nghiên c u này.
Các mơ hình h c sâu đ c xem xét đã cho các k t
qu phân lo i v i đ chính xác n t ng. Mơ hình
InceptionV3, VGG16 và ResNet50 l n l t có đ
chính xác: 0,922, 0,943 và 0,955.
Trong t ng lai các h th ng c nh báo r i ro khi
lái xe và các h th ng h tr lái xe t đ ng s d ng
camera hành trình là m c tiêu mà nhóm tác gi đang
h ng t i đ m r ng nghiên c u.

TÀI LI U THAM KH O
[1] Viola, Paul, and Michael Jones. Rapid object
detection using a boosted cascade of simple
features. CVPR 2001. Vol.1, 2001.
doi: 10.1109/CVPR.2001.990517.
[2] Dalal, N., Triggs, B., Histograms of oriented
gradients for human detection. CVPR (2005),
doi: 10.1109/CVPR.2005.177.
[3] Cho, Hyunggi, et al., Real-time pedestrian
detection with deformable part models. IEEE
Intelligent Vehicles Symposium, 2012.
doi: 10.1109/IVS.2012.6232264.


S

70 (04-2022)

doi: 10.1109/CVPR.2014.81
[5] A. Krizhevsky, I. Sutskever, and G. E. Hinton,
ImageNet classification with deep convolutional
neural networks, Commun. ACM, Vol.60, No.6,
pp.84-90, May 2017.
doi: 10.1145/3065386.

doi: 10.1109/ICCV.2015.169.
[7] Ren, Shaoqing, et al. Faster r-cnn: Towards realtime object detection with region proposal
networks. Advances in neural information
processing systems 28. pp.91-99, 2015.
doi: 10.1109/TPAMI.2016.2577031.
[8] K. Simonyan and A. Zisserman, Very Deep
Convolutional Networks for Large-Scale Image
Recognition, arXiv:1409.1556 [cs], Apr. 2015,
Accessed: Apr. 22, 2021.[Online]
Available: />[9]Redmon, Joseph, et al. You only look once: Unified,
real-time object detection. CVPR. 2016. doi:
10.1109/CVPR.2016.91.
[10] Redmon, Joseph, and Ali Farhadi. YOLO9000:
better, faster, stronger. CVPR. 2017.
doi: 10.1109/CVPR.2017.690
[11] Redmon, Joseph, and Ali Farhadi. Yolov3: An
incremental improvement. arXiv preprint
arXiv:1804.02767 (2018).

Available at: />[12] Bochkovskiy, Alexey, Chien-Yao Wang, and
Hong-Yuan Mark Liao. Yolov4: Optimal speed
and accuracy of object detection. arXiv preprint
arXiv:2004.10934 (2020).
Available at: />[13] Simonyan, Karen, and Andrew Zisserman. Very
deep convolutional networks for large-scale
image
recognition.
arXiv
preprint
arXiv:1409.1556 (2014).
Available at: />[14] Szegedy, Christian, et al. Rethinking the inception
architecture for computer vision. CVPR. 2016.
doi: 10.1109/CVPR.2016.308.

93


TẠP CHÍ

KHOA H C - CƠNG NGH
[15] He, Kaiming, et al. Deep residual learning for
image recognition. CVPR. 2016.
doi: 10.1109/CVPR.2016.90.
[16] M. Tan and Q. V. Le, EfficientNet: Rethinking
Model Scaling for Convolutional Neural Networks,
arXiv:1905.11946 [cs, stat], Sep. 2020, Accessed:
Apr. 22, 2021. [Online].
Available at: />[17] Ince, Omer F., et al. Child and adult classification
using ratio of head and body heights in images.

International Journal of Computer and
Communication Engineering 3.2 (2014).

ISSN: 1859-316X

KHOA HỌC CÔNG NGHỆ HÀNG HẢI
JOURNAL OF MARINE SCIENCE AND TECHNOLOGY

[18] Cordts, M., Omran, M., Ramos, S., Rehfeld, T.,
Enzweiler, M., Benenson, R., Franke, U., Roth, S.
and Schiele, B. The cityscapes dataset for
semantic urban scene understanding. Proceedings
of the IEEE conference on computer vision and
pattern recognition, pp.3213-3223, 2016.
Ngày nh n bài:
Ngày nh n b n s a:
Ngày duy t đ ng:

11/03/2022
23/03/2022
29/03/2022

doi: 10.7763/IJCCE.2014.V3.304.

94

S

70 (04-2022)




×