Nhận dạng các loại quả ứng dụng cho robot tự động thu hoạch bằng thuật toán Single Shot Multibox Detector

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.1 MB, 4 trang )

Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2020)

Nh™n d§ng các loĐi quÊ ng dng cho Robot tá
ẻng thu hoĐch băng thu™t tốn Single Shot
Multibox Detector
⇤

Nguyπn Hồi Th˜Ïng⇤ , Nguyπn Anh Quang
Viên iên t Vin thụng, Đi hc Bỏch Khoa H Nẻi

Túm tt nẻi dungDáa trờn sá phỏt trin ca cụng nghê trớ
tuê nhõn tĐo, cỏc robot tá ẻng thu hoĐch trái cây ã và ang
˜Ịc nghiên c˘u rỴng rãi và bểc ảu ng dng trong thác t
sÊn xuòt. Trong ú, bi toỏn nhn dĐng cỏc loĐi quÊ dáa trờn
cỏc mụ hình hÂc máy là b˜Ĩc quan trÂng ∫ robot có th nhn
bit ềc ỳng loĐi trỏi cõy cản thu hoĐch, t¯ ó tính tốn các
chuy∫n Ỵng v∑ cÏ khí và iu khin thác hiên viêc thu hoĐch
trỏi cõy. Ngoi ra thut toỏn ng dng trong cỏc robot tá ẻng
cản cú yờu cảu tậi u v hiêu nng tớnh toỏn trên thi∏t b‡ nhúng.
Trong các thu™t tốn nh™n d§ng cıa bài tốn hÂc máy có giám
sát, thu™t tốn Single Shot MutiBox Detector (SSD) cho thßy kh£
n´ng ˘ng dˆng lĨn vĨi tËc Ỵ tính tốn nhanh và Ỵ chính xác
cao. Bài báo này trình bày v∑ ph˜Ïng pháp nh™n d§ng các loĐi
quÊ thõn gẩ cú ẻ phc tĐp hẽn trong bi tốn nh™n d§ng và thu
ho§ch nh˜ táo, cam, xồi,... s˚ dˆng thu™t tốn SSD. Thu™t tốn
˜Ịc tri∫n khai th˚ nghiªm trên ph¶n c˘ng nhúng Rasberry Pi
3+ cho k∏t qu£ nh™n dĐng cỏc loĐi quÊ theo thèi gian thác vểi
kt quÊ Ỵ chính xác khá cao, có th∫ ˘ng dˆng cho robot tá
ẻng thu hoĐch.
Index Termsobject detection, fruits detection, SSD

I. GII THIừU
Thu hoĐch trỏi cõy hiên tĐi l cụng viêc tận nhi∑u thÌi
gian, cơng s˘c và chi phí do chı y∏u s dng nhõn lác tĐi
chẩ. Trong thèi Đi cụng nghiêp húa, hiên Đi húa hểng tểi
cuẻc cỏch mĐng cụng nghiêp 4.0 thì nơng nghiªp thơng minh
ang ˜Ịc ˜u tiên nghiên cu v phỏt trin, trong ú, robot
tá ẻng thu hoĐch trỏi cõy, gúp phản giÊm sc lao ẻng ca
con ngèi ang ngày càng ˜Ịc nghiên c˘u phát tri∫n. Có rßt
nhi∑u robot, mỏy múc ra èi giỳp cho viêc thu hoĐch tr nên
dπ dàng hÏn [1] [2] th∏ nh˜ng các lo§i mỏy múc ny ũi hi
viêc quy hoĐch nụng sÊn phÊi ỳng theo tiờu chuân nh nho
hay dõu tõy. Viêc thu ho§ch các lo§i trái cây thân gÈ khác nh˜
táo, cam, xoi thỡ lĐi phc tĐp hẽn vỡ chỳng mc khuòt sau tán
lá, khơng dπ dàng nhìn thßy giËng nho vĨi dõu tõy. Vỡ vy, cỏc
loĐi trỏi cõy ny cản mẻt thi∏t b‡ có th‡ giác máy tính m§nh
m≥, có kh£ nng nhn dĐng chớnh xỏc v trớ trỏi cõy cản thu
hoĐch, ng thèi yờu cảu tậc ẻ x l nhanh tng nng xuòt
thu hoĐch. Cựng vểi sá phỏt trin mĐnh m ca cụng nghê trớ
tuê nhõn tĐo núi chung và th‡ giác máy tính nói riêng, viªc
x˚ l˛ £nh, nhn dĐng ậi tềng dản mang lĐi hiêu quÊ cao
cho cỏc bi toỏn thác t. Cú ròt nhiu thut toỏn nghiên c˘u
tr˜Ĩc ây s˚ dˆng cho bài tốn xác ‡nh Ëi t˜Òng trong £nh
nh˜ RCNN, Faster RCNN, YOLO,... th∏ nh˜ng SSD cıa Wei
liu [3] ˜Ịc nghiên c˘u mang l§i k∏t qu£ chính xác và tËc Ỵ
x˚ l˛ nhanh và v˜Ịt trẻi hẽn. Trong bi bỏo ny chỳng tụi

ISBN: 978-604-80-5076-4

xuòt s˚ dˆng mơ hình Single Shot Detector (SSD) [3] vĨi
m§ng cẽ s MobileNet [4] tng ẻ chớnh xỏc v tiên lỊi khi

s˚ dˆng cho các máy tính nhúng trên các robot tá ẻng.
Bi bỏo ềc chia lm 2 phản chớnh. Ph¶n 1 là ki∏n trúc
thu™t tốn SSD mà chúng tơi s˚ dˆng, ph¶n 2 là k∏t qu£ ki∫m
tra cıa thu™t tốn và th£o lu™n h˜Ĩng phát tri∫n sau này.
II. THT TỐN SSD CHO BÀI TỐN NHäN DĐNG Q
Bài tốn nh™n dĐng quÊ l mẻt dĐng ca bi toỏn nhn
dĐng ậi t˜Ịng (object detection). Mˆc tiêu cıa bài tốn này
là xác ‡nh ˜Ịc v‡ trí cıa Ëi t˜Ịng có trong £nh v phõn loĐi
ềc ậi tềng ú dáa trờn quỏ trỡnh hc v o tĐo t trểc.
Dáa vo cỏch thc thác hiªn bài tốn ng˜Ìi ta chia "object
detection" ra làm hai nhóm chính là "two-step object detection"
và "one-step object detection". Cˆ th∫, "two-step" là ph˜Ïng
pháp nh™n diªn Ëi t˜Ịng thơng qua 2 b˜Ĩc, b˜Ĩc (1) là s˚
dˆng các thu™t tốn selective search [5], region proposal [7]
tìm ˜Ịc hỴp bao quanh Ëi t˜Ịng và b˜Ĩc (2) là s˚ dˆng ki∏n
th˘c hÂc máy phõn loĐi ậi tềng trong hẻp ú. Tiờu biu
cho nhóm này là các thu™t tốn: Regions with Convolutional
Neural Network (RCNN) [6], Faster-RCNN [7]. Các ph˜Ïng
pháp "two-step" có Ỵ chính xác cao khi phát hiªn Ëi t˜Ịng
nh˜ng vì ph£i qua hai b˜Ĩc nên tËc Ỵ x˚ l˛ ch™m. Chính vì
th∏ nhóm ph˜Ïng pháp "one-step" ra Ìi ∫ gi£i quy∏t vßn ∑
v∑ thÌi gian x˚ l˛. "One-step" k∏t hỊp c£ hai b˜Ĩc là xác ‡nh
v‡ trí và phân lo§i Ëi t˜Ịng, nú s tĐo ra vụ sậ cỏc hẻp cú
trong Ênh v dá oỏn tc thèi viêc cú ậi tềng trong hẻp Ênh
ú khụng v chn ra hẻp cú xỏc suòt ch˘a Ëi t˜Ịng cao nhßt.
Tiêu bi∫u cıa nhóm này là các ph˜Ïng pháp: You Only Look
Once (YOLO) [8], Single Shot MultiBox Detector (SSD) [3].
Trong bài báo này chúng tôi s˚ dˆng ph˜Ïng pháp SSD cho
bài tốn nh™n d§ng thÌi gian thác vỡ SSD cú ẻ chớnh xỏc v
thèi gian x l˛ d˙ liªu nhanh hÏn.

A. GiĨi thiªu v∑ SSD
"Single Shot Detector", l mẻt dĐng ca "one-step detector",
dựng nhn dĐng nhi∑u Ëi t˜Ịng và ph˜Ïng pháp này Ỵ
chính xác lĨn hÏn so vĨi thu™t tốn "one-step" khác nh˜ YOLO
(You Only Look Once) v cÊi thiên ỏng k v tậc ẻ so vểi
phẽng phỏp "two-step" khỏc nh Faster R-CNN. Còu tĐo ca
SSD l dá oỏn xỏc suòt cú ậi tềng v ví trí cıa hỴp bao
quanh vĨi nh˙ng hỴp m∞c ‡nh ∞t tr˜Ĩc s˚ dˆng lĨp tích ch™p
"convolutional" ∫ lßy ra b£n Á ∞c tr˜ng "feature map". T§i
mÈi v‡ trí trên "feature map", SSD ∞t các hỴp bao "default

132

Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2020)
bounding box" vĨi kích th˜Ĩc, t lª khác nhau. Trong q trình
x˚ lí, SSD s≥ ánh giá và tìm Ëi t˜Ịng trên các "bounding
box" ny nhăm tỡm ra hẻp phự hềp nhòt vểi ậi tềng cản
tỡm kim. Thờm vo ú, băng viêc tỡm ki∏m trên các "feature
map" khác nhau, SSD có th∫ tìm ki∏m các Ëi t˜Ịng vĨi kích
th˜Ĩc khác nhau mà khơng c¶n thay Íi kích th˜Ĩc cıa các
"bounding box".
ﬁ t˜ng chính ca SSD n t viêc s dng cỏc "bounding
box", băng viêc khi tĐo sặn cỏc box tĐi mẩi v trớ trên £nh,
SSD s≥ tính tốn và ánh giá thơng tin t§i mÈi v‡ trí xem v‡
trí ó có v™t th∫ hay khơng, n∏u có thì là v™t th∫ nào, và dáa
trờn kt quÊ ca cỏc v trớ gản nhau, SSD s tớnh toỏn ềc
mẻt "bounding box" phự hềp nhòt bao trn vt th. Nh mụ

láa chn hẻp tậi u nhòt. Wei Liu [3] ó giểi thiêu v SSD

vểi mụ hình ˜Ịc ào t§o tr˜Ĩc là VGG16 [9] tuy nhiên mụ
hỡnh VGG16 cú mẻt sậ hĐn ch v tậc ẻ v ẻ phc tĐp. Do
ú, trong bi bỏo ny chỳng tụi s dng n mẻt mụ hỡnh o
tĐo khỏc l MobileNet [4].
Mc dự cỏc mĐng nh VGG16, ResNet, GoogleNet,... cú
ẻ chớnh xỏc cao nhng i lĐi, ẻ phc tĐp trong tớnh toỏn
cng cao dđn n tậc ẻ x l chm, gõy khú khn trong
viêc tớch hềp lờn cỏc phản cng nhúng hay các robot t¸ hành.
MobileNet ra Ìi ˜Ịc thi∏t k tậi a húa ẻ chớnh xỏc mẻt
cỏch hiêu qu£ Áng thÌi l˜u ˛ ∏n các tài nguyên b‡ h§n ch∏
cho ˘ng dˆng trên thi∏t b‡ ho∞c ˘ng dˆng nhỳng. MobileNet
l cỏc mụ hỡnh nh, ẻ tr thòp, cụng suòt thòp ềc tham sậ
húa ỏp ng cỏc hĐn ch∏ v∑ tài ngun cıa nhi∑u tr˜Ìng
hỊp s˚ dˆng.
B£ng I [4] và b£ng II [4] d˜Ĩi ây là mỴt sË so sánh cıa 2
mơ mình VGG16 và MobileNet. MobileNet có ẻ chớnh xỏc
gản vểi VGG16 trong khi còu trỳc mĐng nh‰ hÏn 32 l¶n và sË
phép tính nh‰ hÏn 27 l¶n. Do ó, MobileNet ˜Ịc ˘ng dˆng
phÍ bi∏n cho các mơ hình nhúng trên các thi∏t b‡ ph¶n c˘ng
và phù hềp vểi yờu cảu bi toỏn ca robot tá ẻng thu ho§ch.
B£ng I: So sánh MobileNet vĨi VGG16

Hình 1: Cách hoĐt ẻng ca SSD [3]

Model

tÊ trờn Hỡnh 1, SSD tĐo ra rßt nhi∑u box có kích th˜Ĩc, khác
nhau ∫ bao quanh Ëi t˜Ịng. Hình 1a là hình £nh c¶n xác
‡nh vểi "ground truth boxes" (hẻp sá tht) bao quanh hai Ëi
t˜Ịng là con mèo và con chó. Hình 1b vĨi "feature map" 8x8

ta s≥ chÂn ra ˜Ịc hỴp phù hỊp và bao ˜Ịc con mèo nh˜ng
khơng th∫ tìm ra hỴp phù hỊp vĨi con chó. Nh˜ng  hình 1c
ta có th∫ thßy vĨi "feature map" 4x4 chúng ta s≥ có hẻp phự
hềp vểi hỡnh Ênh con chú, nh vy viêc phát hiªn Ëi t˜Ịng
tr nên Ïn gi£n hÏn. Có th∫ nhn thòy sau khi xỏc nh ềc
hẻp phự hềp vểi Ëi t˜Òng SSD s≥ tr£ v∑ k∏t qu£ là v‡ trí cıa
Ëi t˜Ịng và xác st có Ëi t˜Ịng có trong £nh.

1.0 MobileNet-224
VGG16

ImageNet
Accuracy
70.6%
71.5%

Million
Mult-Adds
569
15300

Million
Parameters
4.2
138

B£ng II: So sánh k∏t qu£ cıa bài tốn nh™n d§ng vĨi COCO
dataset s˚ dˆng thu™t tốn SSD và ki∏n trúc m§ng khác nhau
Model

mAP

MobileNet
VGG16

19.3%
21.1%

Billion MultAdds
1.2
34.9

Million
Parameters
6.8
33.1

B. Ki∏n trúc SSD

Ba cơng nghª cËt lõi ˜Ịc nh≠c ∏n cıa ki∏n trúc mĐng
SSD l: "multi-scale feature maps for prediction" (chia nhiu
t lê b£n Á ∞c tr˜ng cho d¸ ốn), "convolutional predictors
for detection" (dá oỏn tớch chp phỏt hiên) v "default
boxes and aspect ratios" (hẻp mc nh v t lê khung hỡnh).

Hỡnh 2: Ki∏n trúc cıa SSD s˚ dˆng MobileNets là mô hình
cÏ s cho bài tốn nh™n d§ng qu£

1) Multi-scale feature maps for detection: Sau khi trích
xt các ∞c tr˜ng t¯ m§ng cÏ s VGG16 ng˜Ìi ta thêm các

lĨp m§ng tích chp vểi lừi khỏc nhau. Băng viêc s dng cỏc
bẻ lÂc "filter", kích th˜Ĩc cıa các "feature map" s≥ gi£m dản
theo ẻ sõu ca mĐng, hẩ trề cho viêc phỏt hiªn v™t th∫  các
kích th˜Ĩc và tø lª khác nhau.
2) Convolutional predictors for detection: Nh˜ mơ t£ trên
hình 2, các lĨp tích ch™p sau khi ã trích xt ra mĐng lểi
tớnh nng c trng băng MobileNet s ềc tớnh tốn ∫ tìm
ra các giá tr‡ d¸ ốn cho lĨp nh™n d§ng ci cùng. SSD s˚
dˆng các nhân "kernel" có kích th˜Ĩc nh‰ trong tích ch™p tính
tốn ln s¸ d¸ oỏn cho viêc phõn loĐi ậi tềng thuẻc phõn
lểp no. ây chính là i∫m khác biªt cıa SSD so vĨi các thu™t
tốn RCNN.

Nh˜ mơ t£ trên hình 2, SSD chia làm 3 nhóm layers chính
là m§ng nÏ-ron tích ch™p "Convolutional Neural Network"
(CNN) s˚ dˆng m§ng MobileNet [4] làm base network ∫ tìm
các ∞c tr˜ng cıa £nh, t¶ng "extra feature layers" dùng ∫ phát
hiªn Ëi t˜Ịng và ci cùng là "non-maximum suppression"

ISBN: 978-604-80-5076-4

133

Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020)
3) Default boxes and aspect ratios: Nh˜ trên hình 1, t§i
mÈi £nh khi tĐo mẻt "feature map" cú kớch thểc mxn, tĐi
mẩi ụ "cell" ca "feature map" khi tĐo cỏc hẻp mc nh
"default boxes". Vì các ơ "cell" là cË ‡nh nên các hỴp m∞c
‡nh này cÙng là cË ‡nh. Khác vĨi Faster RCNN các hỴp m∞c

‡nh trong SSD ˜Ịc s˚ dˆng vĨi cỏc tứ lê khỏc nhau dđn n
cỏc hẻp ny s bao chớnh xỏc vểi ậi tềng cản tớnh hẽn. TĐi
mẩi hỴp m∞c ‡nh "default box", thu™t tốn s≥ tính tốn xỏc
suòt dá oỏn ca tng lểp ậi tềng (class) trong t™p hỊp gÁm
c Ëi t˜Ịng (classes) ˜Ịc ào t§o và 4 im ban ảu ca hẻp
mc nh. Nh vy nu có k "default boxes" s≥ có (c+4).k
outputs  mÈi cell và n∏u có mxn "feature maps" thì s≥ có
(c+4).k.m.n outputs. Vì v™y, ∫ ánh giá mơ hình SSD, chúng
tơi s˚ dˆng hàm loss ∫ ánh giá d¸a trên sai sË cıa hai Ëi
t˜Òng là localization loss (loc) và confidance loss (conf), t˘c
là hàm lÈi cıa v‡ trí và hàm lõi cıa d¸ ốn Ëi t˜Ịng. Chúng
ta có th∫ tính giá tr‡ hàm loss theo cơng th˘c (1) d˜Ĩi ây [3]:
1
Ł = (Lconf + Lloc )
(1)
N
Trong ó N là sË l˜Ịng bounding box phù hỊp  trên, n∏u
N=0 thì loss = 0.
Hm loss ca v trớ box ềc tớnh băng Smooth L1 loss gia
hẻp dá oỏn (l) v hẻp sá tht úng (g). VĨi các tham sË nh˜
i∫m chính gi˙a (cx,cy) cıa default box (d) và chi∑u dài (h)
và chi∑u rỴng (w). Hàm loss v∑ viªc xác ‡nh v‡ trí object
˜Ịc tính tốn theo cơng th˘c (2) [3]:
Łloc (x, l, g) =

N
X

X

xkij smoothL 1(lim

Hình 3: MỴt sË hình £nh cıa dataset vểi hẻp bao quanh ềc
gỏn vểi ậi tềng
2) Huòn luyên mơ hình SSD: D¸a trên mơ hình SSD ã
nêu lên trờn, chỳng tụi huòn luyên mụ hỡnh nhn dĐng cỏc
loĐi quÊ băng cỏch s dng nn tÊng GPU ca Geforce GTX
1080Ti (11GB GDDR5X, tËc Ỵ bỴ nhĨ 11Gbps vĨi NVIDIA
3584 Cores) ch§y vĨi Ubuntu 18.04.
Chúng tơi s˚ dˆng Tensorflow API ˜Òc ∞t các giá tr‡:
learning rate là 0.0001 và tng sậ vũng chĐy mụ hỡnh l 50k.
Thèi gian huòn luyªn mơ hình là hÏn 10 giÌ.

gjm ) (2)

i2P os m2cx,cy,w,h

gjcx

=

(gjcx

w
dcx
i )/di

gjw = log

gjw

dw
j

gjcy = (gjcy
gjh = log

h
dcy
i )/di

gjh
dhj

Hàm loss cıa viªc phân lĨp Ëi t˜Ịng là softmax loss vĨi
nhi∑u lĨp Ëi t˜Ịng (c) ˜Ịc tính d¸a theo cơng th˘c (3) [3]:
Łconf (x, y) =

N
X

xpij log(cpi )

i2P os

trong ó

exp cpi
cpi = P
p
p exp ci

N
X

log(c0i )

(3)

i2N eg

C. Huòn luyên thut toỏn SSD cho bi toỏn nhn dĐng quÊ
1) Chuân b d liêu: Bi toỏn nhn dĐng ậi tềng cản
mẻt lềng lển d liêu huòn luyên mụ hỡnh. Trong bi bỏo
ny chỳng tụi s dng Ênh huòn luyên t nhiu ngun khỏc
nhau nh Google, Pixabay,... v mẻt sậ d liêu lòy t¯ £nh chˆp
th¸c t∏ bên ngồi. MÈi Ëi t˜Ịng chúng tụi chuân b 200 Ênh
bao gm 3 loĐi quÊ ph bi∏n  Viªt Nam: táo, cam, xồi. MÈi
£nh trong t™p d˙ liªu ˜Ịc gán nhãn t˜Ïng ˘ng vĨi tên Ëi
t˜Ịng, và chúng tôi s˚ dˆng công cˆ ∫ gán nhãn là labelImg
[10]. Công cˆ này s≥ tr£ v∑ thông tin cıa Ëi t˜Ịng theo chu©n
PASCAL VOC cıa ImageNet [11]. Hình 3 mụ tÊ mẻt sậ d
liêu trong tp d liêu cıa chúng tơi.

ISBN: 978-604-80-5076-4

Hình 4: Thi∏t k∏ tri∫n khai hª thËng nh™n d§ng qu£
3) Tri∫n khai mơ hình lên máy tính nhúng Raspberry Pi
3B+: Chúng tơi ∑ xt s˚ dˆng mỏy tớnh nhỳng nh gn
cú giỏ thnh rƠ, tậc ẻ tính tốn nhanh ó là Raspberry
Pi 3B+. Thi∏t b‡ có chip 4 nhân 64-bit có tËc Ỵ 1.4GHz.

Phiên b£n mĨi cịn hÈ trỊ Wifi Dual-band 2.4GHz và 5GHz,
Bluetooth 4.2/Bluetooth Low Energy, cÍng Ethernet tËc Ỵ
cao (300Mbps) và Power over Ethernet (PoE) thơng qua PoE
HAT [12] có th∫ hÈ trỊ giao ti∏p t¯ xa.
D¸a trên nh˙ng ˜u i∫m nÍi b™t trên cựng vểi giỏ thnh
rƠ, chỳng tụi láa chn Raspberry trin khai mụ hỡnh nhn
dĐng cỏc loĐi quÊ ó huòn luyên trờn v dá kin ng dng
vo robot thu hoĐch nh ềc th hiên hỡnh 4
III. KũT QUẫ VÀ THÉO LN
Trong ph¶n này, chúng tơi s≥ bi∫u diπn k∏t qu£ nh™n d§ng
các lo§i qu£ s˚ dˆng thu™t tốn SSD v mĐng MobileNet nh
ó trỡnh by phản II. K∏t qu£ có ˜Ịc s˚ dˆng máy tính
nhúng Raspberry Pi 3B+ tin hnh nhn dĐng v iu khin
robot tá hành.

134

Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2020)
A. K∏t qu£
Hình 5 dểi õy l mẻt sậ kt quÊ khi chĐy mơ hình nh™n
d§ng các lo§i qu£ s˚ dˆng SSD ˜Ịc huòn luyên trờn.

Hỡnh 5: Kt quÊ nhn dĐng cỏc loĐi quÊ băng thut toỏn SSD
Khi cho Ênh cản kim tra có ch˘a Ëi t˜Ịng nh™n d§ng s≥
cho ra k∏t qu£ là hỴp bao quanh Ëi t˜Ịng, tên Ëi t˜Ịng v
xỏc suòt dá oỏn ca ậi tềng ú. Nhn thòy k∏t qu£ thu
˜Ịc là chính xác vĨi i∫m sË khá cao. K∏t qu£ này là tËt Ëi
vÓi ˘ng dˆng thu ho§ch trái cây mà chúng tơi ang h˜Ĩng tĨi.
B. Th£o lu™n

– ph¶n này, chúng tơi s≥ th£o lu™n v∑ ‡nh h˜Ĩng phát tri∫n
cıa nghiên c˘u này cho bài tốn nh™n dĐng cỏc loĐi quÊ cho
robot thu hoĐch tá ẻng. Viêc nhn dĐng cỏc loĐi quÊ băng
phẽng phỏp SSD em lĐi ˜Ịc k∏t qu£ tËt, là n∑n t£ng b˜Ĩc
¶u cho nghiên c˘u ti∏p theo sau này. Tuy nhiên ∫ có th∫
áp dˆng cho các lo§i qu£ a d§ng hÏn v∑ hình dáng và màu
s≠c thì mơ hình chúng tơi c¶n ph£i ềc cÊi thiên nhiu hẽn
na tậi u v ẻ chớnh xỏc v tậc ẻ tớnh toỏn. Cụng viêc
chuân b cẽ s d liêu phc v cho o tĐo cản ềc thác
hiên nhiu hẽn vểi khÊo sỏt thác t tĐi vèn cõy vểi iu kiên
ngoĐi cÊnh khỏc nhau, hỡnh dĐng kớch thểc, iu kiên ỏnh
sỏng khỏc nhau.
Bờn cĐnh viêc xỏc ‡nh ˜Ịc Ëi t˜Ịng trong £nh thì viªc
tính tốn v‡ trí t¯ Ëi t˜Ịng ∏n £nh và qua ó là n cỏnh
tay robot s giỳp viêc thác hiên thao tỏc thu hoĐch ềc chớnh
xỏc hẽn.
Hê thậng chỳng tụi xuòt ˜Ịc mơ t£  Hình 6. Robot thu
ho§ch ˜Ịc trang b‡ k∏t hỊp camera RGB thơng th˜Ìng vĨi k∏t
hỊp vĨi mỴt camera o kho£ng cánh (depth camera). Hai b˘c
£nh thu ˜Ịc s≥ ˜Ịc Áng thÌi x˚ l˛. Énh RGB thơng qua
thu™t tốn SSD s≥ nh™n d§ng và xác ‡nh ˜Ịc các lo§i qu£
cÙng nh˜ óng khung ˜Ịc v‡ trí cıa qu£ trên £nh. Énh Ỵ
sâu mang thơng tin v∑ kho£ng cách t¯ camera ∏n Ëi t˜Òng.
Tuy nhiên do 2 camera khác nhau nên £nh thu ˜Ịc là khác
nhau ∫ tính tốn ˜Ịc kho£ng cách t¯ qu£ ∏n robot, thu™t
tốn "calibration" ∫ k∏t hỊp hai b˘c £nh này là c¶n thi∏t. T¯
ó, vĨi thơng tin v∑ v‡ trí cÙng nh˜ kho£ng cỏch ca ậi tềng
quÊ cản thu hoĐch, cẽ ch iu khin robot cú th tá ẻng thu
hoĐch nụng sÊn mẻt cỏch chớnh xỏc hẽn.

ISBN: 978-604-80-5076-4

Hỡnh 6: Hê thậng nhn dĐng trái cây cho robot thu ho§ch k∏t
hỊp camera o kho£ng cách
TÀI LIõU
[1] Kondo, N.; Monta, M.; Noguchi, N. “Agricultural Robots: Mechanisms
and Practice“ on Trans Pacific Press: Balwyn North Victoria, Australia,
2011.
[2] Bac, C.W.; van Henten, E.J.; Hemming, J.; Edan, Y. “Harvesting Robots
for High-Value Crops: State-of-the-Art Review and Challenges Ahead.“
on J. Field Robot. 2014, 31, 888–911
[3] W.Liu, A. Anguelov, D. Erhan, C. Szegedy, S. Reed, C. Y. Fu and A.
Berg, “SSD: Single Shot MultiBox Detector.” In ECCV(2016).
[4] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand,
M. Andreetto and Ha. Adam, “ MobileNets: Efficient Convolutional
Neural Networks for Mobile Vision Applications.” In arXiv:1704.0486v1
(2017)
[5] Jasper R. R. UijlingsK. E. A. SandeT. GeversT. GeversArnold W. M.
SmeuldersArnold W. M. Smeulders, “ Selective Search for Object Recognition” in International Journal of Computer Vision, 2013
[6] R. Girshick, J. Donahue, T. Darrell and J. Malik, “Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation”. In
2014 IEEE Conference on Computer Vision and Pattern Recognition
[7] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards
Real-Time Object Detection with Region Proposal Networks”. In IEEE
Transactions on Pattern Analysis and Machine Intelligence ( Volume: 39
, Issue: 6 , June 1 2017 )
[8] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look
Once: Unified, Real-Time Object Detection”. In 2016 IEEE Conference
on Computer Vision and Pattern Recognition (CVPR)
[9] Karen Simonyan, Andrew Zisserman, “Very deep Convolutional Networks
for large-scale image recognition“ in Published as a conference paper at

ICLR 2015.
[10] labelImg, 2017, [online] Available: />(accessed on Jul 6, 2020)
[11] ImageNet, [online] Available: (accessed on
Jul 6, 2020)
[12] Raspberry, [online] Available: />
135

Nhận dạng các loại quả ứng dụng cho robot tự động thu hoạch bằng thuật toán Single Shot Multibox Detector

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về