Tải bản đầy đủ (.pdf) (53 trang)

(Đồ án hcmute) nhận diện phương tiện giao thông sử dụng bộ phát hiện single shot multibox

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.66 MB, 53 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

ĐỒ ÁN TỐT NGHIỆP
NGÀNH CƠNG NGHỆ KỸ THUẬT MÁY TÍNH

NHẬN DIỆN PHƯƠNG TIỆN GIAO THƠNG
SỬ DỤNG BỘ PHÁT HIỆN SINGLE SHOT
MULTIBOX DETECTOR

GVHD: PHAN VĂN CA
SVTH: LÊ PHÚC Q́C TRÌNH
MSSV: 15119054
SVTH: TRẦN HỒI HƯNG
MSSV: 15119027

S K L0 0 6 7 4 9

Tp. Hồ Chí Minh, tháng 12/2019

do an


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TP.THUẬT
Hồ Chí Minh,
ngày PHỚ
21 tháng
năm 2019
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ


THÀNH
HỒ12MINH

KHOA ĐÀO TẠO CHẤT LƯỢNG CAO
NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP

---------------------------------------Họ và tên sinh viên: Lê Phúc Quốc Trình

MSSV: 15119057

Trần Hồi Hưng

MSSV: 15119027

Ngành: Cơng nghệ kỹ thuật máy tính

Lớp: 15119CL1B

Giảng viên hướng dẫn: TS.Phan Văn Ca

ĐT:

Ngày nhận đề tài: 17/9/2019

Ngày nộp đề tài: 29/12/2019

1. Tên đề tài: NhậnĐỒ
diện
phương
giao thơng sử dụng bộ phát hiện single

ÁN
TỚTtiện
NGHIỆP
shot multibox detector
1. Các số liệu, tài liệu ban đầu: Sách “Deep learning for computer vision

NHẬN
DIỆN PHƯƠNG TIỆN GIAO THÔNG SỬ DỤNG
with python 3” của PyImageSearch.com tổng hợp. Bài báo nghiên cứu khoa học
“SSD:
Single Shot
Multibox
Detector”
của nhóm
nghiên cứu Wei Liu,
BỘ PHÁT
HIỆN
SINGLE
SHOT
MULTIBOX

Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-

DETECTOR

Yang Fu, Alexander C.Berg.

1. Nội dung thực hiện đề tài: Nghiên cứu, huấn luyện lại bộ phát hiện single
shot multibox detector. Nhận diện được các phương tiện giao thơng qua hình ảnh
từ camera và cả trong mơi trường thời gian thực.


SVTH

: LÊ PHÚC Q́C TRÌNH

15119054

SVTH

: TRẦN HOÀI HƯNG

15119027

KHĨA

: 2015 - 2019

1. Sản phẩm: Mơ hình thùng rác di động bao gồm giải pháp phần mềm xử lý
tránh vật cản, xử lý nhận diện cử chỉ bàn tay(bàn tay mở), giao tiếp qua app điều
khiển và phần cứng mơ hình thùng rác di động.

NGÀNH
: CƠNG NGHỆ KỸ THUẬT
MÁYHƯỚNG
TÍNH DẪN
TRƯỞNG
NGÀNH
GIẢNG VIÊN
GVHD


: TS.PHAN VĂN CA
BỘ GIÁO DỤC VÀ ĐÀO TẠO

HỒ SƯ
CHÍPHẠM
MINH,KỸ
THÁNG
12 NĂM
2019 PHỚ HỒ MINH
TRƯỜNG ĐẠITP.
HỌC
THUẬT
THÀNH

do an


KHOA ĐÀO TẠO CHẤT LƯỢNG CAO
----------------------------------------

ĐỒ ÁN TỐT NGHIỆP

NHẬN DIỆN PHƯƠNG TIỆN GIAO THÔNG SỬ DỤNG BỘ
PHÁT HIỆN SINGLE SHOT MULTIBOX
DETECTOR

SVTH

: LÊ PHÚC Q́C TRÌNH


15119054

SVTH

: TRẦN HOÀI HƯNG

15119027

KHĨA

: 2015 - 2019

NGÀNH : CƠNG NGHỆ KỸ THUẬT MÁY TÍNH
GVHD

: TS.PHAN VĂN CA

TP. HỒ CHÍ MINH, THÁNG 12 NĂM 2019

do an


CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc
----***----

TP. Hồ Chí Minh, ngày 20 tháng 12 năm 2019
NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
Họ và tên sinh viên: Lê Phúc Quốc Trình


MSSV: 15119054

Trần Hồi Hưng

MSSV: 15119027

Ngành: Cơng nghệ kỹ thuật máy tính

Lớp: 15119CL1B

Giảng viên hướng dẫn: TS.Phan Văn Ca

ĐT: 0902994358

Ngày nhận đề tài: 17/9/2019

Ngày nộp đề tài: 29/12/2019

1. Tên đề tài: Nhận diện phương tiện giao thông sử dụng bộ phát hiện Single
Shot Multibox Detector
2. Các số liệu, tài liệu ban đầu: Bộ dữ liệu KITTI 2D gồm: 7481 hình ảnh
huấn luyện, 7518 hình ảnh kiểm tra và 80256 đối tượng được dán nhãn. Sách “Deep
learning for computer vision 3” của nhóm tác giả Pyimagesearch.com, bài báo
nghiên cứu khoa học “SSD: Single Shot MultiBox Detector” của nhóm tác giả Wei
Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, ChengYang Fu, Alexander C.Berg.
3. Nội dung thực hiện đề tài: Huấn luyện lại bộ phát hiện single shot
multibox detector nhận diện các phương tiện giao thông. Xây dựng mơ hình nhận
diện phương tiện trong thời gian thực.
4. Sản phẩm: Mơ hình nhận diện phương tiện giao phương trong thời gian

thực.
TRƯỞNG NGÀNH

GIẢNG VIÊN HƯỚNG DẪN

i

do an


CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc
----***----

TP. Hồ Chí Minh, ngày 29 tháng 12 năm 2019
PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
Họ và tên Sinh viên: Lê Phúc Quốc Trình
Trần Hồi Hưng

MSSV: 15119054
MSSV: 15119027

Ngành: Cơng nghệ kỹ thuật máy tính
Tên đề tài: Nhận diện phương tiện giao thông sử dụng bộ phát hiện Single
Shot Multibox Detector.
Họ và tên Giáo viên hướng dẫn: TS.Phan Văn Ca
NHẬN XÉT
1. Về nội dung đề tài & khối lượng thực hiện:
.....................................................................................................................

.....................................................................................................................
2. Ưu điểm:
.....................................................................................................................
.....................................................................................................................
3. Khuyết điểm:
.....................................................................................................................
.....................................................................................................................
4. Đề nghị cho bảo vệ hay không?
.....................................................................................................................
5. Đánh giá loại:
.....................................................................................................................
6. Điểm: …………. (Bằng chữ: ............................................................... )
GIẢNG VIÊN HƯỚNG DẪN

ii

do an


CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc
----***----

TP. Hồ Chí Minh, ngày 29 tháng 12 năm 2019
PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
Họ và tên Sinh viên: Lê Phúc Quốc Trình
Trần Hồi Hưng

MSSV: 15119054

MSSV: 15119027

Ngành: Cơng nghệ kỹ thuật máy tính
Tên đề tài: Nhận diện phương tiện giao thông sử dụng bộ phát hiện Single
Shot Multibox Detector.
Họ và tên Giáo viên phản biện: ..............................................................

NHẬN XÉT
7. Về nội dung đề tài & khối lượng thực hiện:
.....................................................................................................................
.....................................................................................................................
8. Ưu điểm:
.....................................................................................................................
.....................................................................................................................
9. Khuyết điểm:
.....................................................................................................................
.....................................................................................................................
10. Đề nghị cho bảo vệ hay không?
.....................................................................................................................
11. Đánh giá loại:
.....................................................................................................................
12. Điểm: …………. (Bằng chữ: ............................................................... )
GIẢNG VIÊN PHẢN BIỆN

iii

do an


Lời cảm ơn

Trong q trình thực hiện luận văn, nhóm đã nhận được nhiều sự giúp đỡ, đóng
góp ý kiến và sự chỉ bảo nhiệt tình của thầy cơ và bạn bè cũng như các anh chị đồng
nghiệp nơi nhóm thực tập, làm việc. Đặc biệt, nhóm chúng em xin gửi lời cảm ơn chân
thành và sâu sắc nhất đến với Thầy Phan Văn Ca giảng viên Bộ môn Kỹ Tḥt Máy
Tính-Viễn Thơng đã theo sát hướng dẫn, chỉ bảo nhóm trong suốt q trình làm luận
văn tốt nghiệp.
Nhóm cũng xin chân thành gửi lời cảm ơn đến quý thầy cơ trong Trường Đại
Học Sư Phạm Kỹ Tḥt TP.HCM nói chung, và các quý thầy cô trong Bộ môn Kỹ
Thuật Máy Tính-Viễn Thơng nói riêng, đã dạy dỗ cho nhóm chúng em những kiến thức
đại cương cũng như kiến thức chuyên ngành vô cùng quý báu, đã giúp cho chúng em có
được cơ sở lý thuyết vững vàng làm hành trang cho sự nghiệp của mình. Và hơn nữa,
nhóm cũng xin gửi lời cảm ơn với nhà trường đã tạo điều kiện thuận lợi trong suốt q
trình nhóm chúng em đã nghiên cứu và học tập tại nơi đây.
Cuối cùng, nhóm xin gửi lời cảm ơn đến với gia đình và bạn bè, đã luôn tạo điều
kiện, quan tâm, động viên, giúp đỡ nhóm trong suốt q trình học tập và hồn thành đề
tài.
Trong q trình thực hiện đề tài, nhóm ln nỗ lực để có thể hồn thành đề tài
một cách tốt nhất nhưng sẽ vẫn còn những thiếu sót, nhóm rất mong nhận được những
đóng góp ý kiến từ các quý thầy cô, các bạn để đề tài được hồn thiện hơn.
Xin chân thành cảm ơn!
Tp.Hồ Chí Minh, tháng 12 năm 2019
Nhóm sinh viên thực hiện
Lê Phúc Quốc Trình – Trần Hồi Hưng

iv

do an


Tóm tắt

Trong đề tài luận văn này, nhóm tác giả sẽ thực hiện nhận diện các phương tiện
giao thông bằng cách huấn luyện lại thuật toán Single Shot MultiBox Detector. Mơ hình
thuật tốn có thể nhận diện chính xác các phương tiện giao thơng lên đến 70% về độ
chính xác trên tập kiểm thử. Để làm được đạt được điều này, nhóm tác giả sẽ trình bày
các khái niệm cơ bản về học máy và học sâu, sau đó là q trình xây dựng thuật tốn.
Q trình thu thập hình xây, video từ camera đến quá trình xử lý nhận dạng và cuối cùng
là kết quả nhận dạng. Điều kiện nhận diện các phương tiện giao thơng mà nhóm tác giả
hướng đến là nhận diện được các phương tiện ngay trong điều kiện thời gian thực.
Với ý tưởng xây dựng được ứng dụng thơng báo tình trạng giao thơng đến cho
mọi người, nhằm giảm kẹt xe, nhóm tác giả bắt đầu từ việc nghiên cứu sơ khai nhất, nền
tảng nhất đó là mơ hình nhận diện các phương tiện giao thông sử dụng bộ phát hiện
Single Shot Multibox Detector. Từ mơ hình, nhóm tác giả mong muốn đọc giả có thể
dựa trên mơ hình xử lý nhận dạng phát triển thêm những ứng dụng mang lại ích lợi cho
cộng đồng.

v

do an


Mục lục
NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP ........................................................................................... 1
NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP ............................................................................................ i
PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ............................................................ii
PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN ..............................................................iii
Lời cảm ơn .................................................................................................................................. iv
Tóm tắt......................................................................................................................................... v
Mục lục ....................................................................................................................................... vi
Danh sách hình .........................................................................................................................viii
Danh sách bảng ........................................................................................................................... ix

Chương 1: TỔNG QUAN ........................................................................................................... 1
1.1

Đặt vấn đề ......................................................................................................................... 1

1.2

Tình hình nghiên cứu hiện nay ....................................................................................... 2

1.2.1 Tình hình nghiên cứu ngoài nước ................................................................................... 2
1.2.2 Tình hình nghiên cứu trong nước ................................................................................... 3
1.3

Mục đích và nội dung của đề tài ..................................................................................... 3

1.3.1 Mục đích đề tài ................................................................................................................. 3
1.3.2 Nội dung của đề tài........................................................................................................... 4
1.4

Bố cục của luận văn ......................................................................................................... 5

Chương 2: CƠ SỞ LÝ THUYẾT ............................................................................................... 6
2.1

Phân loại hình ảnh và phát hiện đối tượng .................................................................... 6

2.1.1 Phân loại hình ảnh ........................................................................................................... 6
2.2

Huấn luyện dữ liệu và đánh giá hệ thống. ..................................................................... 7


2.3

Mạng neural tích chập ........................................................................................................ 7

2.3.1 Các lớp trong ConvNet .................................................................................................... 8
2.3.2 Một số kiến trúc mạng ConvNet ................................................................................... 12
2.4

Các bộ dữ liệu ................................................................................................................. 14

Chương 3: BỘ NHẬN DIỆN SINGLE SHOT MULTIBOX DETECTOR .............................. 16
3.1

Tìm hiểu về Single Shot Detector(SSD) ........................................................................ 16

3.2

Kiến trúc thuật toán Single Shot Detector ................................................................... 16

3.2.2 Quá trình dự đốn tích chập ......................................................................................... 18
3.2.3 Hộp mặc định và tỷ lệ hướng ........................................................................................ 19
3.3

Mục tiêu đào tạo ............................................................................................................... 19

vi

do an



3.3.1 Ánh xạ các hộp mặc định .............................................................................................. 20
3.3.2 Đào tạo tìm ra vật thể .................................................................................................... 21
3.4

Chọn kích thước và tỷ lệ cho hộp mặc định................................................................. 23

CHƯƠNG 4: XÂY DỰNG MƠ HÌNH NHẬN DIỆN PHƯƠNG TIỆN GIAO THƠNG ........ 25
4.1

Giới thiệu và tóm tắt ....................................................................................................... 25

4.1.1 Yêu cầu chung của mơ hình .......................................................................................... 25
4.1.2 Đặc tả hệ thống ............................................................................................................... 25
4.1.3 Phương án thiết kế ......................................................................................................... 25
4.2

Sơ đồ tổng quan mô hình ............................................................................................... 26

4.3

Chuẩn bị dữ liệu ............................................................................................................. 26

4.4

Tiền xử lý dữ liệu............................................................................................................ 27

4.6

Huấn luyện và xây dựng mơ hình thời gian thực ...................................................... 29


4.7

Đánh giá .......................................................................................................................... 32

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .......................................................... 35
5.1

Kết luận ........................................................................................................................... 35

5.2

Hướng phát triển ............................................................................................................ 35

Tài Liệu tham khảo .................................................................................................................... 37

vii

do an


Danh sách hình
Hình 2.1 Phân loại hình ảnh và phát hiện đối tượng [8].................................................................... 6
Hình 2.2 Tầng tích chập[11] .............................................................................................................. 8
Hình 2.3 Ví dụ minh họa các lớp của ConvNet[10] .......................................................................... 9
Hình 2.4 Ví dụ minh họa các lớp của ConvNet[10] ........................................................................ 10
Hình 2.5 Hidden layer trong neural network[13] ............................................................................ 11
Hình 2.6 Cấu trúc của mạng VGG16 .............................................................................................. 13
Hình 3.1 Sơ đồ mạng kiến trúc SSD[22] ......................................................................................... 17
Hình 3.2 Các hộp mặc định và tỷ lệ hướng của SSD ...................................................................... 19

Hình 3.3 Minh họa Jaccard overlap ................................................................................................. 20
Hình 3.4 Minh họa tính hộp dự đốn............................................................................................... 22
Hình 4.1 Tổng quan mơ hình ........................................................................................................... 26
Hình 4.2 Lưu đồ quá trình tiền xử lý dữ liệu ................................................................................... 27
Hình 4.3 Q trình dị tìm vùng bao đối tượng ............................................................................... 28
Hình 4.4 Huấn luyện đối tượng ....................................................................................................... 29
Hình 4.5 Dự đốn các xe. ................................................................................................................ 31
Hình 4.6 Huấn luyện trong thời gian thực ....................................................................................... 31
Hình 4.7 Nhận dạng đối tượng trên hình ảnh .................................................................................. 32
Hình 4.8 Nhận dạng đối tượng qua video........................................................................................ 34

viii

do an


Danh sách bảng
Bảng 0.1 chú giải ............................................................................................................................... x
Bảng 0.2 từ ngữ viết tắt ....................................................................................................................xi

ix

do an


Bảng 0.1 chú giải
Thuật ngữ

Từ viết tắt


Tiếng việt

Machine learning

Học máy

Deep leanring

Học sâu

Bounding box

Hộp giới hạn

Default bounding box

Hộp giới hạn mặc định

Ground truth box

Hộp giới hạn thật

Aspect ratio

Tỷ lệ hướng

Graphics processing unit

GPU


Vanishing gradient

Bộ xử lý đồ họa
Tên của một thuật toán tối
ưu
Tên của một phương pháp

Transfer learning

trong máy
Feature map

Các đặc trưng

Geometric filters

Bộ lọc hình học

Kernel

Nhân

Stride

Bước sải

Padding

Bước đệm


x

do an


Bảng 0.2 từ ngữ viết tắt
Thuật ngữ

Từ viết tắt

Tp.HCM

Thành phố Hồ Chí Minh

TĐ.Hà Nội

Thủ đơ Hà Nội

TS

Tiến sĩ

GDP

Gross domestic product

CNN

Convolutional Neural Network


API

Application Programming Interface

IoU

Intersection of Union

xi

do an


Chương 1: TỔNG QUAN
1.1

Đặt vấn đề
Theo TomTom một công ty cơng nghệ của Hà Lan dẫn đầu tồn cầu về bản đồ

và thiết bị định vị, đã công bố kết quả chỉ số giao thông năm 2018 về tắc nghẽn giao
thông ở 403 thành phố lớn trên 56 quốc gia. Theo đó thì sự tắc nghẽn giao thơng đã
tiếp tục tăng trong thập kỷ qua với 75% trên các thành phố so với kết quả báo cáo chỉ
số giao thông trong năm 2017 [1].
Tại Việt Nam, ùn tắc giao thông vẫn luôn diễn ra mỗi ngày tại các thành phố
lớn như TĐ.Hà Nội, TP.HCM, TP.Đà Nẵng. Việc ùn tắc giao thơng về mặt tích cực
cho thấy rằng đây là khu vực, quốc gia có nền kinh tế đang phát triển mạnh. Song với
đó, về mặt tiêu cực thì ùn tắc giao thông gây ra thiệt hại nghiêm trọng về kinh tế, sức
khỏe tại thành phố có ùn tắc giao thơng thường xuyên. Cụ thể tại TP.HCM TS.Vũ
Thành Tự Anh (19/08/2019) cho rằng: “Với 13 triệu dân, đóng góp 25% GDP toàn
quốc, là đầu tàu kinh tế và thương mại quan trọng của đất nước, nếu tốc độ chậm sẽ

ảnh hưởng khơng chỉ với TP.HCM mà cịn ảnh hưởng đến kinh tế cả nước. Trên thực
tế, một số ước toán về chi phí kinh tế của việc tắc nghẽn giao thơng của TP.HCM cho
thấy có thể chiếm tới 1-2% GDP của TP.HCM. GDP của TP.HCM hiện nay khoảng
trên 60 tỷ USD. Như vậy, một năm TP. HCM mất từ 600 triệu USD - 1 tỷ USD vì tắc
nghẽn giao thơng.”[2] Một sự thất thốt lớn từ việc ùn tắc giao thơng gây ra.
Vậy có cách nào để giải quyết vấn đề tắt nghẽn giao thông hiện nay? Các giải
pháp về hạ tầng giao thông mang lại hiệu quả nhưng tốn thời gian và chi phí rất cao
để thực hiện. Điều này đã làm ưu tiên tập trung vào các hướng kỹ thuật và cơng nghệ
để có thể giải quyết bài tốn ùn tắc giao thông hiện nay. Phần lớn việc ùn tắc giao
thông xảy ra là do số lượng phương tiện giao thông tăng lên một cách đột biến trong
một thời điểm trên một đoạn đường. Chính vì vậy mà khi quan sát được việc lưu lượng
phương tiện lưu thông tăng lên tại một thời điểm trên một đoạn đường sẽ giúp chúng
ta phần nào đó trong việc giải quyết bài tốn ùn tắc giao thơng hiện nay.

1

do an


Để quan sát được lưu lượng phương tiện giao thông tăng lên trên đường không
thể thực hiện hết bằng cách dùng người trực tiếp quan sát tại các tuyến đường, Việc
dùng người quan sát trực tiếp sẽ tốn làm rất nhiều người để quan sát các tuyến đường
và gây ra nhiều lãng phí về tiền bạc khi tuyến đường đó khơng có ùn tắc giao thơng.
Giải pháp hiện nay là lắp đặt các camera trên tuyến đường, và quan sát từ xa thơng
qua hình ảnh được gửi về từ camera. Như vậy đã có thể quan sát được phần nào lưu
lượng phương tiện giao thông trên các tuyến đường. Nhưng việc lắp đặt hệ thống
camera hiện nay trên các tuyến đường và chỉ dùng để quan sát thì chưa thể khai thác
hết tìm năng từ camera mang lại. Chính vì vậy nhóm chọn đề tài “Nhận diện phương
tiện giao thơng sử dụng bộ phát hiện Single Shot Multibox Detector” để có thể khai
thác thêm tiềm năng của hệ thống camera hiện nay. Và có thể đóng góp một phần nào

đó trong việc giải quyết bài tốn ùn tắc giao thơng hiện nay.
1.2 Tình hình nghiên cứu hiện nay
1.2.1 Tình hình nghiên cứu ngoài nước
Nhận diện phương tiện giao thông đã được áp dụng rất thành công trên thế giới,
và áp dụng trên nhiều lĩnh vực như xe tự hành, trong mơ hình giao thơng thơng minh
và trong các ứng dụng thông báo kẹt xe.
Về lĩnh vực xe tự hành, công ty Tesla[4] là một trong những công ty thành
công nhất trong lĩnh vực xe tự hành. Xe dùng các camera trên xe thu thập các hình
ảnh trên đường, dự đốn và tự lái xe trên đường mà không cần đến người lái. Ngoài
Tesla, hiện nay các hãng xe như Audi, Mercedes cũng đang nghiên cứu và phát triển
tính năng xe tự hành vào các mẫu xe của họ trong tương lai.
Không chỉ dừng lại ở lĩnh vực xe tự hành, trong lĩnh vực giao thơng thì mơ
hình giao thơng thơng minh cũng được áp dụng nhận diện phương tiện các phương
tiện giao thơng trong việc quản lý mơ hình. Điển hình như Nhật Bản là một trong các
nước đi đầu về giao thơng minh[5]. Mơ hình sử dụng hệ thống camera nhận dạng xử
lý thông tin về các tuyến đường, thơng báo tới người tham gia giao thơng khi có xảy

2

do an


ra ùn tắc giao thơng. Chính vì vậy mà giao thơng tạị đây rất thuận lợi và ít khi xảy ra
kẹt xe.
Ngồi lĩnh vực xe tự hành, giao thơng thơng minh thì hệ sinh thái ứng dụng về
giao thơng cũng được phát triển mạnh. Như ứng dụng Goolge Map có thơng báo kẹt
xe trên các tuyến đường chính, có mật độ lưu thơng cao. Ứng dụng MapQuest tự tìm
lộ trình thay thế khi có ùn tắc giao thơng xảy ra. Và cịn rất nhiều ứng dụng khác áp
dụng cơng nghệ nhận diện phương tiện giao thông qua hệ thống camera trong việc
phát hiện ùn tắc giao thơng.

Có thể thấy cơng nghệ nhận diện phương tiện giao thông đã rất thành công,
phổ biến trên thế giới và được ứng dụng trong nhiều lĩnh vực khác nhau.
1.2.2 Tình hình nghiên cứu trong nước
Tại Việt Nam, hệ thống nhận diện phương tiện giao thông hiện nay là một chủ
đề không phải mới, nhưng vẫn chưa được ứng dụng rộng rãi.
Điển hình như, tại Tp.HCM được đầu tư hệ thống camera trên các tuyến đường
tương đối nhiều, nhưng chỉ dừng lại ở việc quan sát. Minh chứng như thông qua ứng
dụng Zalo hoặc vào truy cập vào trang web của sở giao thông vận tải Tp.HCM thì mọi
người có thể xem được tình trạng giao thơng trên các tuyến đường.
Về thương mại hóa, thì hệ thống đếm và phân loại phương tiện giao thông sử
dụng công nghệ nhận dạng của Viện Hàn lâm Khoa học và Cơng nghệ Việt Nam đã
có thể phân tích và tính tốn lưu lượng giao thơng từ video. Nhưng chi phí vẫn cịn
cao nên chưa được xây dựng rộng rãi.
Chính vì vậy việc nghiên cứu và xây dựng được mơ hình nhận diện phương
tiện giao thơng có chi phí thấp là điều vơ cùng cần thiết hiện nay.
1.3

Mục đích và nội dung của đề tài

1.3.1 Mục đích đề tài
Với sự năng động về nền kinh tế, nhu cầu về việc di chuyển, đi lại ngày một
tăng lên, chính vì thế mà kẹt xe cũng ngày một tăng lên. Nếu như có một ứng dụng có

3

do an


thể thơng báo trước được tình trạng giao thơng ở các tuyến đường cho mọi người là
điều vô cùng cần thiết. Nhưng để xây dựng được ứng dụng giải quyết vấn đề trên,

trước hết cần phải có một hệ thống nhận diện, xử lý đưa ra các thơng tin chính xác về
tình trạng giao thơng trên các tuyến đường là điều hết sức cấp bách hiện nay. Vì vậy,
với ý tưởng thực hiện mơ hình “nhận diện các phương tiện giao thông sử dụng bộ
phát hiện Single Shot Multibox Detector” ra đời nhằm giải quyết phần nào vấn đề
trên.
Áp dụng kiến thức đã học vào việc nghiên cứu và xây dựng mơ hình nhận diện
các phương tiện giao thơng dựa trên máy học và học sâu. Xây dựng mơ hình nhận
dạng các phương tiện giao thơng có thể hoạt động được trên các phần cứng có cấu
hình thấp. Đếm được số lượng xe từ hình ảnh, video của camera trả về ngay cả trong
môi trường thời gian thực.
1.3.2 Nội dung của đề tài
Chủ đề nhận diện đối tượng là một trong những đề tài nhận rất nhiều sự quan
tâm từ mọi người. Chính vì vậy mà đã có rất nhiều nghiên cứu, thuật tốn nói về việc
nhận diện đối tượng nói chung và cũng như nhận diện các phương tiện giao thơng dựa
trên học máy và học sâu nói riêng. Sau khi đã sàn lọc các thuật toán hiện tại, nhóm đã
nghiên cứu và chọn thuật tốn của bộ nhận diện Single Shot Multibox Detector để
thực hiện đề tài của mình.
Nội dung thực hiện đề tài bao gồm:
• Q trình dị tìm các vùng chứa các đối tượng.
• Nhận dạng các đối tượng từ kết quả dị tìm.
• Tính tổng các đối tượng nhận dạng được trong video.

4

do an


1.4

Bố cục của luận văn

Bố cục của luận văn sẽ được chia thành các phần sau:
Chương 1: Đặt vấn đề, giới thiệu về tình hình nghiên cứu hiện nay.
Chương 2: Nền tảng cơ sở lý thuyết liên quan đến luận văn, bao gồm một số

thuật ngữ chính, các bộ dữ liệu mà chúng ta sẽ dùng, cơ bản về mạng thần kinh tích
chập, phân loại ảnh và nhận dạng đối tượng.
Chương 3: Trong chương này sẽ trình bày về bộ phát hiện “Single shot
multibox detector”.
Chương 4: Thiết kế và xây dựng mơ hình nhận diện phương tiện giao thơng
bằng bộ phát hiện Single Shot Multibox Detector.
Chương 5: Đánh giá kết quả, đưa ra các giải pháp phát triển và kết luận của
luận án cũng được đưa ra ở chương này.

5

do an


Chương 2: CƠ SỞ LÝ THUYẾT
Phần này sẽ cung cấp một cái nhìn tổng quan về các nền tảng lý thuyết có liên
quan đến đề tài.
2.1 Phân loại hình ảnh và phát hiện đối tượng
2.1.1 Phân loại hình ảnh
Phân loại hình ảnh là một trong những cơng việc phổ biến nhất trong thị giác
máy tính. Đây là một trong những vấn đề được nghiên cứu nhiều nhất trong học máy.
Đối với vấn đề này, chương trình sẽ được yêu cầu chỉ ra các nhãn hay lớp của một
điểm dữ liệu. Nhãn này, thường là một phần tử trong một tập hợp có C phần tử khác
nhau. Mỗi phần tử trong tập hợp này được gọi là một lớp và thường được đánh số từ
1 đến C phần tử. Để giải vấn đề này, ta thường phải xây dựng một hàm số f : ℝd →
{1, 2, . . . , C}. Khi y = f(x), mơ hình gán cho một điểm dữ liệu được mô tả bởi véctơ đặc trưng x với một nhãn được xác định bởi số y. [6]

2.1.2 Phát hiện đối tượng

Hình 2.1 Phân loại hình ảnh và phát hiện đối tượng
Phát hiện đối tượng là thuật ngữ chung dùng để mô tả một tập hợp các nhiệm
vụ trong thị giác máy tính có liên quan chặt chẽ đến việc xác định đối tượng và phân
loại các đối tượng trong hình ảnh. Phân loại hình liên quan đến việc dự đoán để chia

6

do an


lớp của một đối tượng trong một hình ảnh. Với phát hiện đối tượng thì tạo ra một
khung hình bao chưa đối tượng được quan tâm và gán nhãn cho chúng. (Hình 2.1)
2.2

Huấn luyện dữ liệu và đánh giá hệ thống.
Học sâu là một nhánh của máy học dựa trên một tập hợp các thuật tốn để trừu

tượng hóa mơ hình dữ liệu ở mức cao bằng cách sử dụng nhiều lớp xử lý với các cấu
trúc phức tạp, hoặc bằng các cách khác bao gồm nhiều phép biến đổi phi tuyến. Làm
việc với học sâu là một quá trình gồm 2 giai đoạn: đào tạo và suy luận. Đào tạo là giai
đoạn trong đó một mạng neural cố gắng học hỏi từ dữ liệu. Suy luận là giai đoạn mà
mạng neural sau khi được đào tạo sẽ triển khai vào mơi trường sản phẩm để ứng dụng
vào thực tế.
Có các mục đích khác nhau trong việc đào tạo và suy luận cho một hệ thống.
Thơng thường, một mơ hình có thể mất một thời gian dài để huấn luyện được được
một mơ hình tốt nhất, việc này giúp cho sự suy luận trở nên nhanh hơn và chính xác
hơn. Nhưng không phải lúc nào huấn luyện lâu nhất cũng điều chính xác nhất, kết quả
của việc suy luận cịn phụ thuộc vào những yếu tố khác nhau như: độ chính xác của

thuật tốn, tính ổn định của hệ thống, độ chính xác và phong phú của tập dữ liệu dành
cho việc huấn luyện. Việc huấn luyện có thể được xử lý nhanh bằng cách xử dụng
nhiều bộ xử lý GPU song song có cấu hình cao, sử dụng các hàm kích hoạt để tránh
các lỗi khơng thể hội tụi (vanishing gradient) hay sử dụng các kiến trúc mạng cải tiến
và các kỹ thuật học cải thiện (transfer learning).
2.3

Mạng neural tích chập
Những năm gần đây, chúng ta được chứng kiến sự phát triển mạnh mẽ trong

ngành Thị giác máy tính. Những hệ thống xử lý ảnh lớn như của Facebook, Google,
hay cả trong các hãng xe tự hành như Tesla đã đưa những công nghệ như nhận diện
mặt người, nhận diện ký tự hay nhận diện các vật thể, đối tượng vào bên trong hệ
thống của họ.
Để thực hiện được việc xử lý này, thì một mơ hình đã được ra đời với tên gọi
Convolution Neural Network(CNN hay ConvNet) - mạng neural tích chập đã được
7

do an


phát triển từ một những mơ hình của học sâu với nhiều cải tiến vượt trội so với mạng
neural thông thường. Một ConvNet được tạo thành từ nhiều lớp kết hợp lại với nhau
(Hình 2.2). Mỗi lớp có một API đơn giản: nó biến đổi một khối 3D đầu vào thành một
khối 3D đầu ra với một số chức năng khác nhau có thể có hoặc khơng có tham số[9].
2.3.1 Các lớp trong ConvNet
Tầng chập
Dựa vào nguyên lý biến đổi thơng tin, các nhà nghiên cứu đã sử dụng tích chập
trong xử lý tín hiệu số để xử lý các hình ảnh và các video số.
Để hình dung ra điều này, ta sẽ xem tích chập như một cửa sổ trượt được đặt

lên trên một ma trận (như hình 2.2). Bên trái là một ma trận hình ảnh đầu vào với mỗi
giá trị của ma trận tương đương với một điểm ảnh(pixel), trong đó 0 là giá trị đại diện
cho điểm ảnh đen và 1 đại diện cho điểm ảnh màu trắng. Trong trường hợp ảnh là ảnh
xám thì sẽ mang các gia trị từ 0 đến 255.
Của sổ trượt là quá trình nhân kernel nhân trượt với từng thành phần tương ứng
trên ma trận ảnh đầu vào. Như hình 2.2 biểu diễn q trình tích chập dùng nhân kernel
có kích thước 3*3, nhân trượt với các phần tử của ma trận bên trái và kết quả ta được
một ma trận mới như ma trận bên phải.

Hình 2.2 Tầng tích chập[11]
8

do an


Tầng chập là một khối xây dựng cốt lõi của ConvNet, thực thi hầu hết các phép
toán phức tạp của mạng. Tích chập được sử dụng phổ biến trong lĩnh vực thị giác máy
tính. Thơng qua các phép tích chập, các đặc trưng chính của ảnh sẽ được trích xuất và
truyền vào các lớp tích chập. Mỗi một lớp tích chập sẽ bao gồm nhiều đơn vị mà kết
quả của mỗi đơn vị là một phép biến đổi tích chập từ lớp trước đó thơng qua phép
nhân tích chập với bộ lọc.
Độ phức tạp của đặc trưng được phát hiện bởi bộ lọc tỉ lệ thuận với độ sâu của
lớp tích chập mà nó thuộc về. Trong mạng ConvNet, những lớp tích chập đầu tiên sử
dụng bộ lọc hình học để phát hiện những đặc trưng đơn giản như cạnh ngang, dọc,
chéo của bức ảnh. Những lớp tích chập sau đó được dùng để phát hiện đối tượng nhỏ,
bán hồn chỉnh như mắt, mũi, tóc, v.v. Những lớp tích chập sâu nhất dùng để phát
hiện đối tượng hoàn hỉnh như: chó, mèo, chim, ơ tơ, đèn giao thơng,…

Hình 2.3 Ví dụ minh họa các lớp của ConvNet[10]
Trong quá trình chuyển tiếp, mỗi bộ lọc sẽ được tích hợp các chiều dài và chiều

rộng của dung lượng đầu vào, sau đó trượt bộ lọc này theo chiều dài và chiều rộng
của chúng để tạo ra vùng các đặc trưng (Hình 2.2). Tích chập ảnh đầu vào với kernel
3x3, stride 1 và padding 1.

9

do an


Bước sải và bước đệm (Stride và padding)
Bước sải là khoảng cách giữa 2 nhân khi quét. Với stride = 1, nhân sẽ quét 2 ô
ngay cạnh nhau, nhưng với stride = 2, nhân sẽ quét ô số 1 và ô số 3. Bỏ qua ô ở giữa.
Điều này nhằm tránh việc lặp lại giá trị ở các ô bị qt.
Thơng thường, ta chọn stride và kích thước của nhân càng lớn thì kích thước
của vùng đặc trưng càng nhỏ, một phần lý do đó là bởi nhân phải nằm hồn tồn trong
đầu vào. Có một cách để giữ ngun kích cỡ của vùng đặc trưng so với ban đầu. Đấy
là bước đệm. Khi ta điều chỉnh padding = 1, tức là ta đã thêm 1 ô bọc xung quanh các
cạnh của đầu vào, muốn phần bọc này càng dày thì ta cần phải tăng bước đệm lên.
Tầng ReLU
ReLU (Rectified Linear Unit) là hàm kích hoạt (activation function) được sử
dụng rộng rãi gần đây vì tính đơn giản của nó. Hàm ReLU rất đơn giản, rất lợi về mặt
tính tốn, có cơng thức tốn học như sau:
f(z) = max(0, z)
Đạo hàm của nó bằng 0 tại các điểm âm, bằng 1 tại các điểm dương. ReLU
được chứng minh giúp cho việc huấn luyện các mạng thần kinh đa tầng (multilayer
neural network) và mạng sâu (deep network) có rất nhiều tầng ẩn(hidden layer) nhanh
hơn rất nhiều so với hàm tanh [6]. Hàm ReLU và tốc độ hội tụ khi so sánh với hàm
tanh[11]

Hình 2.4 Ví dụ minh họa các lớp của ConvNet[10]


10

do an


Tầng Pooling
Lớp Pooling được sử dụng trong ConvNet để giảm kích thước đầu vào, tăng
tốc độ tính tốn và hiệu năng trong việc phát hiện các đặc trưng. Có nhiều hướng
Pooling được sử dung, trong đó phổ biến nhất là pooling theo giá trị cực đại (max
pooling) và pooling theo giá trị trung bình (average pooling)(Hình 2.5)

Hình 2.5 Pooling Layer
Fully-connected Layer

Hình 2.5 Hidden layer trong neural network[13]

11

do an


×