Tải bản đầy đủ (.pdf) (45 trang)

Hệ thống nhận diện vật thể trên đường sử dụng mạng capsule

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.79 MB, 45 trang )

I H C QU C GIA TP.HCM
TR

NG

I H C BÁCH KHOA

NGUY N H U NHÂN

H TH NG NH N DI N V T TH TRÊN
S

D NG M NG CAPSULE

Chuyên ngành: K thu t đi n t
Mã s : 8520203

LU N V N TH C S

TP. H CHÍ MINH, tháng 01 n m 2022

NG


Cơng trình đ
Cán b h

c hồn thành t i: Tr

ng d n khoa h c: TS. Tr


ng

i h c Bách Khoa – HQG-HCM

ng Quang Vinh

Cán b ch m nh n xét 1: TS. Bùi Tr ng Tú

Cán b ch m nh n xét 2: TS. Hu nh Phú Minh C

Lu n v n th c s đ

c b o v t i Tr

ng

ng

i h c Bách Khoa, HQG Tp. HCM ngày 16 tháng

01 n m 2022.
Thành ph n H i đ ng đánh giá lu n v n th c s g m:
1. Ch t ch: PGS.TS Hoàng Trang
2. Th kí: TS. Nguy n Lý Thiên Tr

ng

3. Ph n bi n 1: TS. Hu nh Phú Minh C

ng


4. Ph n bi n 2: TS. Bùi Tr ng Tú
5. y viên: TS. Tr n Hoàng Linh
Xác nh n c a Ch t ch H i đ ng đánh giá LV và Tr
lu n v n đã đ

ng Khoa qu n lý chuyên ngành sau khi

c s a ch a (n u có).

CH T CH H I

PGS.TS Hồng Trang

NG

TR

NG KHOA I N I N T


I H C QU C GIA TP.HCM
TR

NG

C NG HÒA XÃ H I CH NGH A VI T NAM

I H C BÁCH KHOA
-----


c l p – T do – H nh phúc

-----

-----

-----

NHI M V LU N V N TH C S

I.

H tên h c viên: Nguy n H u Nhân

MSHV: 1970429

Ngày, tháng, n m sinh: 08/03/1997

N i sinh: Khánh Hòa

Chuyên ngành: K thu t i n t

Mã s : 8520203

TÊN

TÀI: H th ng nh n di n v t th trên đ

ng s d ng m ng Capsule


The road object detection system using Capsule Network
NHI M V VÀ N I DUNG
 Thi t k h th ng nh n di n v t th trên đ

ng.

 Nghiên c u Capsule Network và áp d ng vào h th ng nh n di n đ nh n bi t đ
ng

i đi đ

ng, các lo i ph

ng ti n l u thông trên đ

ng.

 Hi n th c và đánh giá h th ng nh n di n.
II.

NGÀY GIAO NHI M V : 01/01/2021

III.

NGÀY HOÀN THÀNH NHI M V : 15/01/2022

IV.

CÁN B


H

NG D N: TS. Tr

ng Quang Vinh
Tp.HCM, ngày 16 tháng 01 n m 2022

CÁN B

TS. Tr

H

NG D N

CH NHI M B

ng Quang Vinh
TR

NG KHOA I N I N T

MÔN ÀO T O

c


L ic m n


GVHD: TS. Tr

ng Quang Vinh

L IC M N
L i đ u tiên, chúng em xin g i l i c m n t i ti n s Tr
h

ng Quang Vinh đã quan tâm,

ng d n, cung c p thơng tin và giúp em trong q trình hồn thành lu n v n này. H n n a

em xin c m n t t c th y cô tr

ng

i h c Bách Khoa TP H Chí Minh đã giúp đ , truy n

đ t nh ng ki n th c chuyên ngành quý giá giúp em hoàn thành nh ng n i dung c n thi t
trong đ tài. Và cu i cùng, em xin chân thành c m n gia đình và b n bè đã đ ng viên khích
l em trong q trình h c t p và hoàn thành lu n v n t t nghi p.
Do th i gian th c hi n không nhi u nên lu n v n không tránh kh i nh ng sai sót. Em
r t mong nh n đ

c l i khuyên và s đóng góp ý ki n c a các th y cô giáo và các b n quan

tâm đ n đ tài này đ em có th b sung và ti p t c phát tri n đ tài trong th i gian t i.
Em xin chân thành c m n!

Tp. H Chí Minh, ngày 16 tháng 01 n m 2022.


H c viên

Nguy n H u Nhân

i


L i cam đoan

GVHD: TS. Tr

ng Quang Vinh

TÓM T T LU N V N TH C S
Lu n v n này trình bày v thi t k h th ng nh n di n v t th trên đ
m ng Capsule.

ng s d ng

tài t p trung vào th c hi n, hu n luy n m ng capsule và thi t k s b

ph n m m nh n di n v t th d a trên board NVIDIA Jetson Nano cùng camera Raspherry Pi
V1. Ph n m m nh n di n s d ng m ng capsule. M ng Capsule này đ
luy n l y ý t

c th c hi n và hu n

ng t bài báo c a Hinton.


Lu n v n đã hi n th c m ng Capsule nh n di n ph

ng ti n l u thông trên đ

ng (xe

ô tô, xe buýt) v i đ chính xác 91% đ ng th i đ a ra thi t k cho h th ng nh n di n áp d ng
m ng Capsule. Tuy nhiên, lu n v n ch a hoàn thành ph n m m cho h th ng nh n di n, và
đây là thi u sót l n c a lu n v n, h c viên s c g ng b sung trong t

ng lai.

ABSTRACT
This thesis presents the design of the object recognition system on the road using the
Capsule network. The topic focuses on implementation, training of the capsule network and
preliminary design of object recognition software based on NVIDIA Jetson Nano board and
Raspherry Pi V1 camera. The identification software uses the capsule network. This Capsule
network is implemented and trained based on Hinton's paper.
The thesis has implemented the Capsule network to identify vehicles on the road (cars,
buses) with 91% accuracy and proposed a design for the identification system applying the
Capsule network. However, the thesis has not yet completed the software for the recognition
system, and this is a major shortcoming of the thesis, I will try to supplement in the future.

ii


L i cam đoan

GVHD: TS. Tr


ng Quang Vinh

L I CAM OAN C A TÁC GI LU N V N

Tôi xin cam đoan lu n v n là cơng trình nghiên c u c a riêng cá nhân tôi, không sao
chép c a ai do tôi t nghiên c u, đ c, d ch tài li u, t ng h p và th c hi n. N i dung lý thuy t
trong lu n v n tơi có s d ng m t s tài li u tham kh o nh đã trình bày trong ph n tài li u
tham kh o. Các s li u, ch
th c và ch a đ

ng trình ph n m m và nh ng k t qu trong lu n v n là trung

c công b trong b t k m t cơng trình nào khác.

H c viên/Tác gi

Nguy n H u Nhân

iii


Lu n v n Th c s

GVHD: TS. Tr

ng Quang Vinh

M CL C
1.


2.

3.

M

U

1.1

Lý do ch n đ tài

1.2

M c đích, đ i t

1.3

Ý ngh a khoa h c và th c ti n c a đ tài

ng, ph m vi nghiên c u

T NG QUAN
2.1

Tình hình nghiên c u trong và ngoài n

2.2

Nhi m v lu n v n


c

NH NG NGHIÊN C U TH C NGHI M HO C LÝ THUY T
3.1 H n ch c a pooling layers trong CNN
3.2 Nghiên c u m ng Capsule
3.2.1 Primary Capsules
3.2.2 Higher Layer Capsules
3.2.3 Loss Calculation

4.

TRÌNH BÀY, ÁNH GIÁ, BÀN LU N CÁC K T QU
4.1

Thi t k m ng Capsule
S

4.1.2 S đ chi ti t t ng kh i
TH4.1.3 K t qu hu n luy n m ng Capsule
4.2

Thi t k h th ng nh n di n

4.2.1 Mô t h th ng ph n c ng
4.2.2 Thi t k ph n m m
4.2.3 K t qu ch
4.3

ng trình ph n m m


ánh giá k t qu đ t đ

c, nêu các h n ch trong lu n v n

DANH M C TÀI LI U THAM KH O

iv


Lu n v n Th c s

GVHD: TS. Tr

ng Quang Vinh

DANH SÁCH HÌNH MINH H A

Hình 2-1. K t qu nh n di n khuôn m t ng

i b ng CNN ........................................................ 4

Hình 2-2. So sánh ho t đ ng c a neural và capsule ................................................................... 5
Hình 3-1 Hình nh chi c thuy n, ngơi nhà ................................................................................. 8
Hình 3-2 Phân chia thành hình ch nh t và tam giác ................................................................. 8
Hình 3-3 Bi u di n v trí c a đ i t
Hình 3-4 Xác đ nh đ i t

ng trong khung hình ....................................................................... 10


Hình 3-5 Quá trình bi u di n đ i t
Hình 3-6 D đốn đ i t
Hình 3-7

ng trong khung hình ......................................................... 9

ng trong khung hình ....................................................... 11

ng .................................................................................................... 12

nh tuy n theo th a thu n ....................................................................................... 13

Hình 3-8 Thi t l p tr ng s đ nh tuy n .................................................................................... 14
Hình 3-9 Tính t ng tr ng s ..................................................................................................... 14
Hình 3-10 So sánh các d đốn ................................................................................................ 15
Hình 3-11 So sánh tr ng s gi a các d đốn .......................................................................... 16
Hình 3-12 Q trình tính tốn di n ra trong 2 vịng l p ........................................................... 17
Hình 3-13 Tham s decoder network ....................................................................................... 18
Hình 3-14 Mơ hình capsule network do Hinton đ xu t .......................................................... 19
Hình 3-15 K t n i gi a higher layer và FC layer ..................................................................... 20
Hình 4-1 S đ kh i t ng quát m ng capsule........................................................................... 20
Hình 4-2 S đ thi t k m ng capsule ...................................................................................... 21
Hình 4-3 S đ thi t k tóm t t ................................................................................................ 22
Hình 4-4 Q trình tính tốn trong primary capsule ................................................................ 22
Hình 4-5 S đ kh i primary capsule ....................................................................................... 23
v


Lu n v n Th c s


GVHD: TS. Tr

ng Quang Vinh

Hình 4-6 Mã gi thu t tốn routing .......................................................................................... 24
Hình 4-7 Q trình tính tốn trong kh i higher layer ............................................................... 25
Hình 4-8 Quá trình forward propagation và back propagation ................................................ 27
Hình 4-9 Thơng s training loss trong q trình hu n luy n .................................................... 29
Hình 4-10 Thơng s training accuracy và validation accuracy trong quá trình hu n luy n ..... 29
Hình 4-11 S đ kh i ph n c ng .............................................................................................. 30
Hình 4-12. Kit NVIDIA Jetson Nano ....................................................................................... 30
Hình 4-13 Camera Raspberry Pi V1 ......................................................................................... 32
Hình 4-14 S đ kh i ph n m m.............................................................................................. 33

vi


Lu n v n Th c s

GVHD: TS. Tr

DANH SÁCH B NG S

ng Quang Vinh

LI U

B ng 2-1. B ng so sánh cách ho t đ ng gi a Capsule và Neural truy n th ng ..............4
B ng 4-1 B ng li t kê các hàm c n thi t c a class PrimaryCap............................................... 23
B ng 4-2. B ng li t kê các hàm c n thi t c a class Mask ........................................................ 25

B ng 4-3. B ng li t kê các hàm c n thi t c a l p Length ........................................................ 26
B ng 4-4. B ng li t kê các hàm c n thi t c a l p squash......................................................... 26
B ng 4-5. B ng li t kê các hàm c a class Capsule Layers ....................................................... 26
B ng 4-6. B ng li t kê các hàm c n thi t khác cho m ng Capsule .......................................... 27

vii


Lu n v n Th c s

1. M

GVHD: TS. Tr

ng Quang Vinh

U

1.1 Lý do ch n đ tài
Ngày nay, v i s ti n b v

t b c v khoa h c công ngh , các s n ph m ng d ng

trí tu nhân t o (AI) ngày càng đ

c quan tâm phát tri n, và ng d ng r ng rãi trong nhi u

l nh v c. Cùng v i s phát tri n m nh m c a ph n c ng (đi n hình là các dòng chip
NVIDIA), các s n ph m AI đ


c tri n khai ngày r ng rãi h n. Nh nh ng y u t khách

quan đó, các h th ng nhúng đ

c tích h p thêm các tính n ng thông minh, làm cho các

s n ph m tr nên ch t l

ng h n. B n thân h c viên hi n đang làm vi c trong các d án

cho xe h i, nên r t mong mu n đ

c ti p thu ki n th c, h c h i kinh nghi m trong l nh

v c trí tu nhân t o. Chính vì lý do đó, cùng v i s g i ý c a th y h
ch n đ tài “H th ng nh n di n đ i t
l nh v c t
b

ng trên đ

ng d n, h c viên

ng s d ng m ng Capsule”. ây là m t

ng đ i m i đ i v i b n thân h c viên, đ ng th i c ng là c h i đ h c viên

c ra vùng an toàn, th s c

1.2 M c đích, đ i t


l nh v c m i.

ng, ph m vi nghiên c u

M c đích c a đ tài là thi t k h th ng nh n di n đ i t
vi c s d ng m ng Capsule.

it

ng trên đ

ng thông qua

ng nghiên c u s là m ng Capsule, thi t k h th ng

nh n di n, board Jetson Nano và camera Raspherry Pi V1. Ph m vi nghiên c u xung quanh
vi c thi t k m ng Capsule, xây d ng các layers trong m ng.

1.3 Ý ngh a khoa h c và th c ti n c a đ tài
Cu c cách m ng công nghi p l n th t đang di n ra m nh m và sâu r ng trên
nhi u l nh v c trong đ i s ng. Th tr

ng xe ô tô c ng khơng đ ng ngồi xu th đó. Các

hãng xe trên th gi i đ u đang tích c c c nh tranh nhau, phát tri n và s n xu t các dịng xe
ơ tơ địi h i ph i tích h p h th ng h tr lái xe (Advanced driver-assistance systems) bao
g m các tính n ng thông minh nh h tr gi làn đ
tr chuy n làn đ


ng (Lane Keeping Assist System), h

ng (Lane change assistance), ki m sốt hành trình thích ng (Adaptive

cruise control), đ xe t đ ng (Automatic parking), … Nh ng tính n ng này s giúp xe ô tô
đ tđ

c các m c đ t lái, và m c tiêu h

ng t i là t o ra m t chi c xe có th t lái hồn

tồn. Trên th gi i có r t nhi u hãng xe đang tham gia vào cu c đua phát tri n xe t lái, n i

1


Lu n v n Th c s

GVHD: TS. Tr

ng Quang Vinh

b t có th k đ n nh Tesla, Mercedes, Waymo,… T i Vi t Nam, VinFast là th

ng hi u

n i b t đã và đang nghiên c u, s n xu t các m u xe có tính n ng t lái k trên.
phát tri n đ

c các tính n ng t lái, địi h i các k s , các nhà phát tri n ph i


tích h p các mơ hình thu t tốn, trí tu nhân t o (Artificial Intelligence), máy h c
(Machine Learning), h c sâu (Deep Learning) vào ph n m m trên xe. Mu n xe h i t lái
trên đ
đ

ng mà không c n s can thi p c a con ng

c các v t th trên đ

ng (ng

i đi đ

i, c b n đòi h i xe ph i t nh n di n

ng, bi n báo giao thông, các ph

thông, …), t đó xe m i có th đ a ra các quy t đ nh nh chuy n làn đ

ng ti n giao

ng, gi t c đ ,

hay d ng l i, …
Thu t toán nh n di n v t th s d ng Capsule Network đang là m t xu th m i
trong th i gian g n đây. Trong lu n v n này, vi c nh n d ng v t th trên đ

ng s đ


cx

lý b i m ng Capsule.

2. T NG QUAN
2.1 Tình hình nghiên c u trong và ngồi n

c

Convolutional neural network (CNN hay ConvNet) là m t mơ hình m ng neural
nhân t o r t ph bi n là đ

c dùng r t thành công đ c bi t trong các bài toán Computer

Vision. Tuy nhiên, các nhà nghiên c u nh n th y r ng m t l

ng thông tin quan tr ng đã

b m t mát trong quá trình xây d ng CNN. Capsule Network ra đ i nh là m t s c i ti n
t CNN v i mong mu n cho k t qu t t h n.
machine learning tr

c bi t h n, n u nh các ph

c đây g n nh ch có th cho k t qu t t n u nh đ

ng pháp

c cung c p b


d li u đ u vào t t, Capsule Network v i các đ c tính riêng c a mình có th v n cho k t
qu t t ngay c khi d li u đ u vào "khơng đ p" (ví d imbalanced dataset). [1]
Capsule Network đ

c gi i thi u l n đ u tiên b i nhà khoa h c Geoffrey Hinton

cùng các c ng s t i h i ngh ICLR 2018 di n ra t i Toronto Canada. Bên c nh đó, Hinton
c ng đã cơng b thu t tốn “dynamic routing between capsules”, d a vào đó chúng ta có
th t o ra m t m ng Capsule. Hinton ch ra r ng các ho t đ ng c a neural trong capsule đ i
di n cho các thu c tính khác nhau c a m t th c th có trong hình nh. Các thu c tính này
có th bao g m nhi u ki u khác nhau đ

c kh i t o nh v trí, kích th

c, h

màu s c, k t c u, … M t thu c tính r t đ c bi t là s t n t i c a th c th đ

ng, v n t c,
c kh i t o
2


Lu n v n Th c s

GVHD: TS. Tr

ng Quang Vinh

trong hình nh. M t cách rõ ràng đ đ i di n cho s t n t i b ng cách s d ng m t đ n v

riêng bi t có đ u ra là xác su t mà th c th t n t i. Trong bài báo, Hinton đã khám phá ra
m t gi i pháp thay th thú v là s d ng chi u dài t ng th c a vector c a các tham s kh i
t o đ đ i di n cho s t n t i c a th c th và h
c a th c th .

ng c a vector đ đ i di n cho thu c tính

dài vector đ u ra c a capsule không v

tuy n (không làm m t đi h

t quá 1 b ng cách áp d ng phi

ng c a vector nh ng gi m đ l n c a nó). [2] Th c t , đ u ra

c a m t capsule là m t vector nên có th s d ng c ch đ nh tuy n đ ng đ g i đ n l p
ti p theo m t cách thích h p. Ban đ u, đ u ra c a m t capsule đ
capsule khác nh ng đ

c chuy n đ n t t c các

c thu nh theo h s ghép n i sao cho t ng đó b ng 1. M i capsule

tính tốn m t vector d đoán b ng cách nhân đ u vào v i m t ma tr n tr ng s c a nó.
N u vector d đốn này có tích vơ h

ng l n, capsule s ph n h i đ t ng h s ghép n i

và gi m h s ghép n i v i capsule khác.


i u này làm t ng s đóng góp c a capsule này

v i đ u ra c a capsule khác. Lo i đ nh tuy n theo th a thu n này s hi u qu h n nhi u so
v i đ nh tuy n ban đ u đ

c th c hi n b i “max pooling”, cái cho phép neural trong m t

l p b qua t t c , tr tính n ng l n nh t đ

c phát hi n trong m t nhóm c c b

l p tr

c

đó. Hinton ch ng minh r ng c ch đ nh tuy n đ ng là m t cách hi u qu đ th c hi n
phân lo i các đ i t

ng ch ng chéo cao. [3]

Hinton ch ra r ng m ng CNN có các gi i h n và h n ch quan tr ng nh CNN
không quan tâm đ n m i quan h đ nh h
trong nh. i u đó d n đ n hai b c nh d
m t con ng

ng và không gian t

ng đ i gi a các thành ph n

i đây, CNN đ u cho ra chung k t qu là khuôn


i.

3


Lu n v n Th c s

GVHD: TS. Tr

Hình 2-1. K t qu nh n di n khuôn m t ng

D

ng Quang Vinh

i b ng CNN

i đây là b ng so sánh cách ho t đ ng c a Capsule và Neural truy n th ng.
B ng 2-1. B ng so sánh cách ho t đ ng gi a Capsule và Neural truy n th ng

M t neural nh n d li u đ u vào là các giá tr vơ h
đó nhân chúng v i tr ng s và tính t ng vơ h

ng t nh ng neural khác, sau

ng. T ng này sau đó đ

c chuy n t i m t


4


Lu n v n Th c s

GVHD: TS. Tr

trong nhi u hàm kích ho t phi tuy n, hàm này nh n đ i l
ra m t đ i l

ng vô h

ng theo hàm.

il

ng vô h

ng vô h

ng

ng Quang Vinh

đ u vào và xu t

ng đó s là đ u ra c a neural, đ ng

th i s tr thành đ u vào cho các neural khác. Tóm t t q trình này có th trên b ng và s
đ bên d


i

phía bên ph i. V c b n, neural có th đ

-

Tích vơ h

ng tr ng s v i các đ i l

-

T ng các vơ h

-

Tính phi tuy n tính vơ h

c mơ t b ng ba b

ng vô h

c:

ng đ u vào.

ng đ u vào (đã nhân v i tr ng s ).
ng (s d ng hàm kích ho t).


Hình 2-2. So sánh ho t đ ng c a neural và capsule

M t khác, capsule có d ng vector c a 3 b

c trên cùng v i b

c m i (bi n đ i

affine đ u vào):
-

Nhân ma tr n các vector đ u vào.

-

Tích vơ h

-

T ng các vector đ u vào (đã nhân v i tr ng s ).

-

Phi tuy n tính (s d ng hàm squash).

ng tr ng s v i các vector đ u vào.

2.2 Nhi m v lu n v n



Thi t k h th ng nh n di n v t th trên đ



Nghiên c u Capsule Network và áp d ng vào h th ng nh n di n đ nh n bi t đ
ng



i đi đ

ng, các lo i ph

ng.

ng ti n l u thông trên đ

c

ng.

Hi n th c và đánh giá h th ng nh n di n.

5


Lu n v n Th c s

GVHD: TS. Tr


ng Quang Vinh

3. NH NG NGHIÊN C U TH C NGHI M HO C LÝ THUY T
3.1 H n ch c a pooling layers trong CNN
Capsule network (CapsNet) là ki n trúc m i trong m ng neural, m t cách ti p
c n nâng cao đ i v i các thi t k m ng neural tr

c đây, đ c bi t cho các tác v th

giác máy tính. Cho đ n nay, Convolution Neural Network (CNN) đã đ
cho các tác v liên quan đ n th giác máy tính. M c dù CNN đã đ
nhi u đ đ t đ

c s d ng

c c i thi n r t

c đ chính xác cao h n nh ng chúng v n cịn m t s thi u sót.

Ban đ u, CNN đ

c xây d ng đ phân lo i hình nh b ng cách s

d ng

convolution layers và pooling layers liên ti p nhau. Pooling layer trong m t
convolutional block đ

c s d ng đ gi m kích th


spatial invariance, có ngh a là b t k đ i t
xác đ nh đ

cđ it

ng đ

ng và phân lo i đ i t

c

c đ t đâu trong nh, CNN có th

ng đó. M c dù đây là m t ph

pháp nghe có v hồn h o nh ng nó có m t s nh
trong khi th c hi n pooling, CNN có xu h

c d li u và nh m đ t đ

ng

c đi m. M t trong s đó là

ng m t nhi u thông tin, nh ng thông tin

này đ c bi t h u ích trong khi th c hi n các tác v nh phân lo i hình nh và phát
hi n đ i t

ng. Khi pooling layer làm m t thông tin không gian c n thi t v vịng


quay (rotation), v trí (location), t l (scale) và các thu c tính v trí (position) khác
nhau c a đ i t

ng, do đó q trình phát hi n và phân lo i đ i t

kh n. M c dù ki n trúc CNN hi n đ i đã đ

ng tr nên r t khó

c qu n lý đ tái t o l i thơng tin v trí

b ng các k thu t tiên ti n khác nhau, nh ng chúng khơng chính xác 100% và b n
thân vi c xây d ng l i là m t quá trình khá t nh t. M t nh
pooling layer là n u v trí c a đ i t
(activation) d

c đi m khác c a

ng b thay đ i m t chút thì vi c kích ho t

ng nh khơng thay đ i theo t l c a nó.

i u đó d n đ n đ chính

xác t t v phân lo i nh nh ng kém v hi u su t n u chúng ta mu n xác đ nh chính
xác v trí c a đ i t

ng trong b c nh.


3.2 Nghiên c u m ng Capsule
kh c ph c nh ng h n ch nêu trên, Geoffrey Hinton đã đ xu t m t cách
ti p c n m i, đ

c g i là capsule network. Capsule là m t t p h p ho c m t nhóm
6


Lu n v n Th c s

GVHD: TS. Tr

các neural l u tr thông tin khác nhau v đ i t

ng Quang Vinh

ng mà nó đang c g ng xác đ nh

trong m t hình nh nh t đ nh. Thơng tin ch y u v v trí (position), vịng quay
(rotation), t l (scale) c a nó trong khơng gian vector (8 chi u ho c 16 chi u) v i
m i chi u đ i di n cho đi u gì đó đ c bi t v đ i t

ng mà không th hi u đ

c

b ng tr c giác.
Trong đ h a máy tính có m t khái ni m v rendering, có ngh a đ n gi n là
tính đ n các bi u di n bên trong khác nhau c a m t đ i t


ng nh v trí, góc quay,

t l c a nó và chuy n đ i chúng thành hình nh trên màn hình. Ng
ti p c n này, b não c a chúng ta ho t đ ng theo cách ng
graphics. Khi chúng ta nhìn vào b t kì đ i t

c l i, đ

quan h gi a các b ph n bên trong này c a toàn b đ i t
đ xem ho c h

c g i là inverse

ng nào, bên trong chúng ta c u trúc

nó thành các ph n con có th b c khác nhau và chúng ta có xu h
nh n ra các đ i t

c l i v i các

ng phát tri n m i

ng. ây là cách chúng ta

ng, đo đó vi c nh n bi t c a chúng ta không ph thu c vào ch
ng c th c a đ i t

ng. Khái ni m này là kh i xây d ng c a

capsule network.

hi u cách ho t đ ng trong capsule network, chúng ta c n xem xét thi t k
c a nó. Khi n trúc c a m t capsule network đ

c chia thành ba ph n chính và m i

ph n có các ho t đ ng ph trong đó:
 Primary capsules
o Convolution
o Reshape
o Squash
 Higher layer capsules
o Routing by agreement
 Loss calculation
o Margin loss

o Reconstruction loss

7


Lu n v n Th c s

GVHD: TS. Tr

ng Quang Vinh

3.2.1 Primary Capsules
ây là l p đ u tiên c a capsule network và đây là n i di n ra quá trình inverse
graphic. Gi s chúng ta cung c p cho m ng m t hình nh chi c thuy n ho c ngơi
nhà d


i đây:

Hình 3-1 Hình nh chi c thuy n, ngơi nhà

Nh ng hình nh này đ

c chia thành các ph n ph riêng bi t là m t hình ch

nh t và m t hình tam giác.

Hình 3-2 Phân chia thành hình ch nh t và tam giác

Trong l p này các capsule đ i di n cho hình tam giác và hình ch nh t s đ

c

d ng lên. Gi s chúng ta kh i t o l p này 100 capsules (50 capsules đ i di n cho
hình ch nh t, 50 capsules đ i di n cho hình tam giác).
đ

u ra c a các capsules này

c bi u di n v i s tr giúp c a các m i tên trong hình nh bên d

i. Các m i

tên màu đen đ i di n cho đ u ra c a hình ch nh t và các m i tên màu xanh lam đ i
di n cho hình tam giác. Các capsules này đ


cđ t

ra c a các capsules này cho bi t v t th đó có n m
bên d

i, chúng ta có th th y r ng

m i v trí c a b c nh và đ u
v trí đó hay khơng. Trong hình

v trí khơng đ t đ i t

ng, chi u dài c a m i

8


Lu n v n Th c s

GVHD: TS. Tr

tên ng n h n và

n iđ tđ it

ng Quang Vinh

ng, m i tên dài h n. Chi u dài th hi n đ i t

có hi n di n hay khơng và t th c a m i tên th hi n h


ng c a đ i t

ng

ng c th

đó (v trí, t l , xoay, …) trong hình nh đã cho.

Hình 3-3 Bi u di n v trí c a đ i t

ng trong khung hình

M t đi u thú v v cách bi u di n này là n u chúng ta xoay nh đ i t
b c nh đ u vào, thì các m i tên đ i di n cho các đ i t
theo t l v i đ i t
s

ng này c ng s xoay nh

ng đ u vào c a nó. S thay đ i nh trong đ u vào d n đ n m t

thay đ i nh trong đ u ra c a capsule t

(equivariance).

ng trong

ng


ng đ

c g i là t

i u này cho phép capsule networks xác đ nh đ i t

ng đ

ng

ng trong m t

hình nh v i s chính xác v v trí, t l , góc quay và các thu c tính khác đ

c liên

k t v i nó.

9


Lu n v n Th c s

GVHD: TS. Tr

Hình 3-4 Xác đ nh đ i t

Nh ng đi u trên đ t đ

ng Quang Vinh


ng trong khung hình

c b ng cách s d ng các b

c riêng bi t sau:

 Convolution
 Reshape function
 Squash function
Trong l p Primary Capsules, hình nh đ u vào đ
ch p (convolution).

c đ a vào m t vài l p tích

u ra g m m t s m ng (array) v các đ c tr ng (feature

maps), gi s đ u ra là m t m ng g m 18 feature maps. Bây gi , chúng ta s d ng
reshape function cho các feature maps. Gi s

chúng ta reshape l i thành hai

vector, m i vector chín chi u (18 = 2 x 9) cho m i v trí trong b c nh, t
nh hình nh
b

trên đ

ng t


c đ i di n b i hình tam giác và hình ch nh t. Bây gi ,

c cu i cùng là đ m b o r ng đ dài c a m i vector không l n h n 1, b i vì đ

dài c a m i vector là xác su t c a vi c đ i t

ng đó có n m

v trí nh t đ nh đó

trong b c nh hay khơng. Do đó, nó ph i n m trong kho ng t 0 đ n 1.

đ tđ

c

đi u này, chúng ta c n áp d ng hàm Squash. Hàm này ch đ n gi n là đ m b o đ
dài c a m i vector n m trong kho ng t 0 đ n 1 và s không phá h y đi thơng tin v
trí n m trong các chi u cao h n c a vector.

10


Lu n v n Th c s

GVHD: TS. Tr

Hình 3-5 Quá trình bi u di n đ i t

ng Quang Vinh


ng trong khung hình

Bây gi chúng ta c n tìm hi u nh ng thành ph n c u t o c a đ i t

ng. Ví d v

chi c thuy n và ngôi nhà, chúng ta c n ph i tìm ra hình tam giác và hình ch nh t
nào là m t ph n c a ngôi nhà và cái nào là m t ph n c a chi c thuy n. Hi n gi ,
chúng ta bi t v v trí c a các hình ch nh t và hình tam giác b ng cách s d ng
tích ch p (convolution) và squash function. Bây gi chúng ta c n xác đ nh đó là m t
chi c thuy n hay m t ngôi nhà n m

v trí đó, và nh ng hình tam giác và hình ch

nh t này có liên quan nh th nào đ n chi c thuy n và ngôi nhà.
3.2.2 Higher Layer Capsules
Tr

c khi chúng ta tìm hi u higher layer capsules, v n cịn m t ch c n ng chính

do l p primary capsules đ l i. Ngay sau hàm squash

l p primary capsules, m i

capsule trong l p primary s c g ng d đoán đ u ra c a m i capsule c a l p
higher capsules. Ví d chúng ta có 100 capsule (50 capsule hình ch nh t, 50
capsule hình tam giác). Gi s chúng ta có 2 lo i capsule

l p higher capsules,

11


Lu n v n Th c s

GVHD: TS. Tr

ng Quang Vinh

m t lo i dùng cho ngôi nhà và m t lo i khác dành cho thuy n. Tùy thu c vào
h

ng c a c hai capsule hình ch nh t và capsule hình tam giác, nh ng capsule

này s đ a ra các d đoán (predictions) sau đây v i các higher layer capsules.

Hình 3-6 D đốn đ i t

Nhìn vào hình trên ta th y, đ i v i h

ng

ng ban đ u c a nó, capsule hình ch nh t

và capsule hình tam giác đ u d đốn con thuy n hi n di n trong hình theo m t
trong nh ng predictions c a chúng. C hai đ u đ ng ý r ng capsule con thuy n c n
đ

c kích ho t trong higher layer capsules.


i u này có ngh a là capsule hình tam

giác và capsule hình ch nh t cho r ng vi c ch n capsule con thuy n cho l p ti p
theo s gi i thích h

ng c a chúng trong primary layer.

ây đ

c g i là đ nh tuy n

theo th a thu n (routing by agreement).

12


Lu n v n Th c s

GVHD: TS. Tr

Hình 3-7

ng Quang Vinh

nh tuy n theo th a thu n

K thu t đ nh tuy n này có m t s l i ích. Khi các capsules

primary layer đ ng


ý ch n m t capsule (a certain higher-level capsule), thì khơng c n ph i g i tín hi u
cho capsule khác

higher layer khác, và tín hi u trong capsule này (the agreed-on

capsule) có th đ

c t o ra m t cách m nh h n và có th giúp d đốn chính xác t

th c a đ i t

ng. M t l i ích khác đó là n u chúng ta theo dõi đ

ng d n kích

ho t, t capsule hình tam giác và capsule hình ch nh t đ n capsule con thuy n
higher layer, chúng ta có th d dàng s p x p th b c c a các b ph n và hi u b
ph n nào thu c đ i t
thu c đ i t

ng nào. Trong ví d này, hình ch nh t và hình tam giác

ng con thuy n.

Hi n t i chúng ta đã x lý primary layer, bây gi chúng ta xem xét cách ho t
đ ng c a higher capsule layer. M c dù primary layer đã d đoán m t s k t qu
đ u ra cho higher layer, nó v n c n tính tốn đ u ra c a riêng mình và ki m tra chéo
xem prediction nào phù h p v i tính tốn c a chính nó.
B


c đ u tiên mà higher capsule layer th c hi n đ tính tốn đ u ra c a nó là

thi t l p m t thơng s g i là tr ng s đ nh tuy n (routing weights). Chúng ta có m t
s predictions đ

c đ a ra b i primary layer.

l n l p đ u tiên, t t c tr ng s đ nh

tuy n đ u gán b ng 0. Các tr ng s đ nh tuy n ban đ u này đ
Softmax và đ u ra đ

c đ a vào m t hàm

c gán cho m i prediction.

13


Lu n v n Th c s

GVHD: TS. Tr

ng Quang Vinh

Hình 3-8 Thi t l p tr ng s đ nh tuy n

Sau khi gán đ u ra Softmax cho các predictions, nó s tính t ng tr ng s cho m i
capsule


higher layer. i u này cung c p cho chúng ta hai capsules t m t lo t các

predictions.

ây là đ u ra th c t c a higher layer cho vòng l p đ u tiên ho c l n

l p đ u tiên.

Hình 3-9 Tính t ng tr ng s

Bây gi chúng ta có th tìm th y prediction nào là chính xác nh t so v i k t qu
th c t c a layer.

14


Lu n v n Th c s

GVHD: TS. Tr

ng Quang Vinh

Hình 3-10 So sánh các d đốn

Sau khi ch n prediction chính xác, chúng ta l i tính tốn tr ng s đ nh tuy n
khác cho vòng ti p theo b ng tích vơ h

ng c a prediction và k t qu th c t c a

layer và c ng v i tr ng s đ nh tuy n hi n có. Chúng ta có ph


ng trình:

Trong đó:
là d đoán c a primary layer
là đ u ra th c t c a higher layer
Bây gi , n u prediction và đ u ra kh p nhau, tr ng s đ nh tuy n m i s l n h n,
ng

c l i tr ng s s th p. M t l n n a, tr ng s đ nh tuy n đ

Softmax và các giá tr đ

c đ a vào hàm

c gán cho các predictions. Chúng ta có th th y r ng các

predictions chính xác s có tr ng s

l n đi kèm v i chúng, trong khi nh ng

predictions khác có tr ng s th p.

15


×