BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI
KHOA ĐIỆN – ĐIỆN TỬ
ĐỒ ÁN TỐT NGHIỆP
XÂY DỰNG HỆ THỐNG TÌM KIẾM TRONG CỨU
HỘ SỬ DỤNG MÁY BAY KHÔNG NGƯỜI LÁI ỨNG
DỤNG MẠNG HỌC SÂU
Giảng viên hướng dẫn : TS NGƠ THANH BÌNH
Sinh viên thực hiện: NGUYỄN NHẬT ANH
Lớp
: KỸ THUẬT ĐIỆN TỬ VÀ TIN HỌC CƠNG NGHIỆP
Khố : KHÓA 56
Hà Nội, tháng
năm
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI
KHOA ĐIỆN – ĐIỆN TỬ
ĐỒ ÁN TỐT NGHIỆP
XÂY DỰNG HỆ THỐNG TÌM KIẾM TRONG CỨU
HỘ SỬ DỤNG MÁY BAY KHÔNG NGƯỜI LÁI ỨNG
DỤNG MẠNG HỌC SÂU
Giảng viên hướng dẫn : TS NGƠ THANH BÌNH
Sinh viên thực hiện: NGUYỄN NHẬT ANH
Lớp
: KỸ THUẬT ĐIỆN TỬ VÀ TIN HỌC CƠNG NGHIỆP
Khố : KHÓA 56
Hà Nội, tháng
năm
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thanh Bình
LỜI CẢM ƠN
Em xin chân thành gửi lời cảm ơn tới toàn thể quý Thầy Cô trong khoa Điện
–Điện tử và Trường Đại học Giao thơng vận tải Hà Nội đã tận tình truyền đạt những
kiến thức quý báu cũng như tạo mọi điều kiện thuận lợi nhất cho em trong quá trình
học tập để em có được những kiến thức như ngày hơm nay và từ những kiến thức nền
tảng đó đã giúp em rất nhiều q trình hồn thành đồ án tốt nghiệp.
Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc đến Thầy giáo TS Ngơ Thanh Bình
người đã hết lòng giúp đỡ, tạo mọi điều kiện để em học tập, nghiên cứu khoa học
cũng như hướng dẫn và tận tình chỉ bảo để giúp em có thể hồn thành đồ án tốt nghiệp
này.
Cuối cùng, tôi xin cảm ơn đến gia đình và bạn bè đặc biệt là các thành viên của
nhóm nghiên cứu: bạn Nguyễn Trọng Quý Anh, bạn Nguyễn Đình Trường, tại phịng
thí nghiệm bộ mơn kỹ thuật điện tử đã luôn động viên, ủng hộ và giúp đỡ tơi trong
suốt q trình học tập và hồn thành tốt nghiệp.
Hà Nội, ngày
tháng
năm 2019
Sinh viên
Nguyễn Nhật Anh
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thanh Bình
LỜI NĨI ĐẦU
Phương tiện bay không người lái – Unmanned Aerial Vehicles (UAVs) đặc
biệt là thiết bị bay khơng người lái, hay cịn được gọi là ‘drone’, được trang bị thiết
bị ghi hình hoặc quan sát đã dần trở nên phổ biến những năm gần đây, với việc sử
dụng rộng rãi trong nhiều ứng dụng hơn như chụp ảnh giám sát, quan sát và theo dõi
đối tượng và khảo sát địa hình từ trên cao.
Những ứng dụng thực tế này yêu cầu sử dụng kỹ thuật thị giác máy tính, đặc
biệt là phát hiện và xác định vị trí của đối tượng từ thơng tin hình ảnh của thiết bị ghi
hình trên máy bay. Cùng với sự phát triển của ngành trí tuệ nhân tạo những năm gần
đây đã phát minh ra nhiều cấu trúc học sâu mạng tích chập hiện đại nhất –
Convolutional Neural Networks (CNNs) được ứng dụng trong thị giác máy tính nhận
dạng vật thể và xác định vị trí đối tượng trong hình ảnh. Với tính ưu việt của việc ứng
dụng cơng nghệ tiên tiến như trí tuệ nhân tạo vào trong ứng dụng phát hiện đối tượng,
em thực hiện đề tài: “Thiết kế hệ thống nhận dạng người từ trên cao sử dụng thiết bị
bay không người lái trên cơ sở trí tuệ nhân tạo”. Đề tài bao gồm những nội dung sau:
- Chương 1: Giới thiệu chung về hệ thống UAV – GCS và mạng học sâu
- Chương 2: Nhận dạng người từ trên cao sử dụng mạng học sâu YOLO
- Chương 3: Hệ thống nhận dạng người sử dụng thiết bị bay không người lái
và kết quả bay thử nghiệm
- Chương 4: Kết luận và hướng phát triển
Với những kiến thức đã được học và những kiến thức từ việc tự nghiên cứu từ
các tài liệu tham khảo để hoàn thành cuốn đồ án này, nhưng khơng thể tránh khỏi
nhiều thiếu sót trong lý thuyết. Em rất mong các q thầy cơ thơng cảm.
Để hồn thành cuốn đồ án này, em đã nhận được sự giúp đỡ rất nhiều từ thầy
hướng dẫn cùng với các bạn trong nhóm nghiên cứu tại phịng thí nghiệm bộ mơn kỹ
thuật điện tử. Em xin cảm ơn thầy giáo hướng dẫn TS. Ngơ Thanh Bình vì đã hướng
dẫn em trong quá trình nghiên cứu và đã tạo điều kiện cho em được tiếp cận với
những công nghệ mới.
Em xin chân thành cảm ơn!
Sinh viên thực hiện
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thanh Bình
MỤC LỤC
LỜI CẢM ƠN
LỜI NÓI ĐẦU
Trang
CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ HỆ THỐNG UAV-GCS
VÀ MẠNG HỌC SÂU ........................................................................................... 1
1.1. THIẾT BỊ BAY KHÔNG NGƯỜI LÁI .......................................................... 1
1.1.1. Ứng dụng của thiết bị bay VTOL UAV ...................................................... 2
1.1.2. Ứng dụng xử lý ảnh của UAV nhiều cánh quạt (Multicopter UAV) ........... 4
1.2. TRẠM ĐIỀU KHIỂN MẶT ĐẤT................................................................... 5
1.2.1. Phần cứng GCS .......................................................................................... 5
1.2.2. Phần mềm GCS .......................................................................................... 6
1.3. HỌC SÂU: DEEP LEARNING ...................................................................... 7
1.3.1. Mạng nơ-ron nhân tạo ................................................................................ 8
1.3.2. Mạng lưới thần kinh tích chập: Convolutional Neural Network ................ 11
1.4. MẠNG PHÁT HIỆN ĐỐI TƯỢNG: OBJECT DETECTION .................... 13
1.4.1. Mạng phát hiện đối tượng theo khu vực (Mạng phát hiện hai bước) ......... 14
1.4.2. Mạng phát nhận dạng tượng một bước ..................................................... 16
CHƯƠNG 2: NHẬN DẠNG NGƯỜI TỪ TRÊN CAO SỬ DỤNG MẠNG
HỌC SÂU YOLO ................................................................................................ 21
2.1. CẤU TRÚC VÀ PHƯƠNG THỨC HOẠT ĐỘNG CỦA MẠNG NHẬN
DẠNG VẬT THỂ YOLOV3 ................................................................................ 21
2.1.1. Cấu trúc mạng YOLOv3 .......................................................................... 21
2.1.2. Phương thức hoạt động ............................................................................ 22
2.2. TRIỂN KHAI MẠNG YOLOV3 SỬ DỤNG THƯ VIỆN HỌC SÂU
PYTORCH ........................................................................................................... 28
2.3. THU THẬP DỮ LIỆU HUẤN LUYỆN VÀ DÁN NHÃN ............................ 38
2.4. CẢI THIỆN ĐỘ CHÍNH XÁC CỦA YOLOV3 ............................................ 39
2.5. HỌC CHUYỂN GIAO VÀ KẾT QUẢ ......................................................... 41
CHƯƠNG 3: HỆ THỐNG TÌM KIẾM NGƯỜI SỬ DỤNG THIẾT BỊ BAY
KHÔNG NGƯỜI LÁI VÀ KẾT QUẢ BAY THỬ NGHIỆM ........................... 46
3.1. THIẾT KẾ THIẾT BỊ BAY UAV ................................................................. 46
3.1.1. Cấu hình phần cứng của UAV .................................................................. 46
3.1.2. Sơ đồ kết nối phần cứng thiết bị UAV...................................................... 56
3.2. HỆ THỐNG NHẬN DẠNG NGƯỜI TỪ GCS ............................................. 58
3.2.1. Tổng quan về hệ thống ............................................................................. 58
3.2.2. Phương thức truyền hình ảnh trực tuyến sử dụng Gstreamer .................... 59
3.3. HIỆU CHUẨN MÁY ẢNH ........................................................................... 63
3.4. ĐIỀU KHIỂN BAY TỪ TRẠM GCS ........................................................... 65
3.4.1. Phương thức điều khiển tự động............................................................... 65
3.4.2. Lưu đồ thuật toán điều khiển UAV .......................................................... 66
3.4.3. Điều khiển thiết bị bay UAV .................................................................... 68
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thanh Bình
3.5. KẾT QUẢ THỬ NGHIỆM ........................................................................... 70
3.5.1. Kết quả ứng dụng mạng học sâu để phát hiện người từ trên cao ............... 70
3.5.2. Kết quả chế độ bay tìm kiếm .................................................................... 71
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................... 75
4.1. KẾT LUẬN ................................................................................................... 75
4.2. VẤN ĐỀ CÒN TỒN TẠI............................................................................... 75
4.3. HƯỚNG PHÁT TRIỂN ................................................................................ 75
PHỤ LỤC ............................................................................................................. 76
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................ 81
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thanh Bình
DANH MỤC CÁC BẢNG BIỂU
BẢNG 3.1. Số liệu hoạt động của động cơ Racestar . ........................................... 47
BẢNG 3.2. Thông số của Pin LiPO Tattu 3S. ....................................................... 48
BẢNG 3.3.Thông số của thiết bị bay Quad X. ...................................................... 57
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thanh Bình
DANH MỤC CÁC HÌNH VẼ
HÌNH 1.1. Thiết bị bay cánh bằng và trực thăng nhiều động cơ. ............................. 1
HÌNH 1.2. Máy bay flycam sử dụng trong quay phim. ........................................... 1
HÌNH 1.3. Máy bay không người lái trong ứng quân sự và dân sự. ......................... 2
HÌNH 1.4. Ứng dụng thiết bị bay khơng người lá trong nơng nghiệp. ..................... 3
HÌNH 1.5. Flycam Skydio 2 sử dụng trí tuệ nhân tạo. ............................................. 4
HÌNH 1.6. Trụ sở trạm điều khiển mặt đất trong quân sự. ....................................... 5
HÌNH 1.7. Trạm điều khiển mặt đất di động. .......................................................... 6
HÌNH 1.8. Phần mềm sử dụng trên GCS. ............................................................... 6
HÌNH 1.9. Lĩnh vực Học sâu trong Trí tuệ nhân tạo. .............................................. 7
HÌNH 1.10. Hình ảnh tương quan giữa cấu trúc nơ-ron tự nhiên và nhân tạo. ......... 8
HÌNH 1.11. Sơ đồ mạng nơ-ron lan truyền thẳng. ................................................... 9
HÌNH 1.12. Sơ đồ thể hiện giá trị mất mát sau khi huấn luyện qua các gói dữ liệu.
.............................................................................................................................. 11
HÌNH 1.13. Cấu trúc của FCN và CNN. ............................................................... 11
HÌNH 1.14. Ví dụ về bài tốn phân loại ảnh sử dụng CNN. .................................. 12
HÌNH 1.15. Ví dụ tích chập ảnh với bộ lọc. .......................................................... 12
HÌNH 1.16. Cấu trúc mạng Fast R-CNN. ............................................................. 14
HÌNH 1.17. Cấu trúc mạng FPN. .......................................................................... 16
HÌNH 1.18. Cấu trúc mạng SSD sử dụng mạng cơ sở VGG-16. ........................... 17
HÌNH 1.19. Cấu trúc mạng YOLO phiên bản 1. ................................................... 17
HÌNH 1.20. Cách thức nhận dạng của YOLO. ...................................................... 18
HÌNH 1.21. Quá trình nhận dạng của YOLO. ....................................................... 19
HÌNH 1.22. Cấu trúc mạng RetinaNet. ................................................................. 20
HÌNH 2.1. Biếu đồ so sánh thời gian xử lý và độ chính xác trung bình của các
mạng nhận dạng. ................................................................................................... 21
HÌNH 2.2. Cấu trúc mạng YOLO phiên bản 3. ..................................................... 22
HÌNH 2.3. Ví dụ ảnh dữ liệu đầu vào. .................................................................. 24
HÌNH 2.4. Các thuộc tính của hộp giới hạn dự đốn của YOLO v3. ..................... 24
HÌNH 2.5. Vị trí của hộp dán nhãn và hộp anchor. ............................................... 25
HÌNH 2.6. Kết quả hộp anchor được biến đổi thành kết quả dự đốn cuối cùng. .. 26
HÌNH 2.7. Mạng YOLOv3 thực hiện nhận dạng dữ liệu hình ảnh trên các tỷ lệ kích
thước ảnh khác nhau. ............................................................................................. 27
HÌNH 2.8. Cách xác định độ chính xanh theo vùng chồng chéo IoU và điểm số tự
tin của YOLOv3. ................................................................................................... 27
HÌNH 2.9. Biến đổi định dạng kết quả đầu ra. ...................................................... 34
HÌNH 2.10. Máy bay Flycam của nhóm nghiên cứu. ............................................ 38
HÌNH 2.11. Một số dữ liệu hình ảnh trích xuất từ Flycam Mavic Mini. ................ 39
HÌNH 2.12. Phần mềm dán nhãn LabelImg. ......................................................... 39
HÌNH 2.13. Cấu trúc mạng YOLOv3-SPP............................................................ 40
HÌNH 2.14. Cấu trúc lớp SPP. .............................................................................. 41
HÌNH 2.15. Máy chủ linux của VastAI. ................................................................ 43
HÌNH 2.16. Hình ảnh q trình huấn luyện mạng yolo. ........................................ 43
HÌNH 2.17. Kết quả học chuyển giao. .................................................................. 44
HÌNH 2.18. Kết quả chạy nhận diện người trên tập huấn luyện. ........................... 44
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thanh Bình
HÌNH 2.19. Thơng số Recall học chuyển giao. ..................................................... 45
HÌNH 2.20. Thơng số độ chính xác trung bình học chuyển giao. .......................... 45
HÌNH 2.21. Thơng số độ chính xác tuyệt đối. ....................................................... 45
HÌNH 3.1. Hình ảnh thực tế và bản vẽ của động cơ. ............................................. 47
HÌNH 3.2. Cánh quạt nhựa 1045. ......................................................................... 47
HÌNH 3.3. Pin LiPO Tattu 3S 1300mAh. ............................................................. 48
HÌNH 3.4. Điều tốc ESC BLHeli-S RacerStar. ..................................................... 49
HÌNH 3.5. Mạch điều khiển bay mã nguồn mở Pixhawk. ..................................... 49
HÌNH 3.6. Mơ-đun định vị tồn cầu GPS M8n ..................................................... 51
HÌNH 3.7. Dữ liệu điện sóng mơ-đun chia nguồn. ................................................ 52
HÌNH 3.8. Mơ-đun chia nguồn. ............................................................................ 53
HÌNH 3.9.Webcam C170 sử dụng để truyền hình ảnh. ......................................... 54
HÌNH 3.10. Hình ảnh mặt trước và sau của máy tính nhúng Raspberry Pi. ........... 55
HÌNH 3.11. Sơ đồ kết nối phần cứng. ................................................................... 56
HÌNH 3.12. Sơ đồ kết nối nguồn cho máy tính nhúng. .......................................... 56
HÌNH 3.13. Hình ảnh thiết bị bay chụp từ trên xuống. .......................................... 57
HÌNH 3.14. Một số hình ảnh của thiết bị bay UAV sau khi lắp ráp. ...................... 57
HÌNH 3.15.Sơ đồ khối hệ thống nhận dạng. ......................................................... 58
HÌNH 3.16. Wifi kết nối chung ubiquityrobotE95B. ............................................. 59
HÌNH 3.17. Máy tính cá nhân được sử dụng làm trạm điều khiển mặt đất. ........... 59
HÌNH 3.18. Qui trình truyền dữ liệu của GStreamer. ............................................ 60
HÌNH 3.19.Qui trình truyền dữ liệu hình ảnh về trạm. .......................................... 61
HÌNH 3.20. Truyền hình ảnh từ UAV (trái) và nhận dữ liệu ở GCS (phải) sử dụng
Gstreamer. ............................................................................................................. 62
HÌNH 3.21. Qui trình nhận dữ liệu hình ảnh từ thiết bị bay. ................................. 62
HÌNH 3.22. Các ứng dụng của việc hiệu chuẩn hình ảnh máy ảnh. ....................... 63
HÌNH 3.23. Q trình hiệu chuẩn máy ảnh. .......................................................... 63
HÌNH 3.24. Phương thức điều khiển thiết bị bay từ trạm mặt đất. ......................... 65
HÌNH 3.25. Lưu đồ thuật tốn điều khiển UAV.................................................... 66
HÌNH 3.26. Lưu đồ thuật tốn điều khiển tìm kiếm người. ................................... 67
HÌNH 3.27. Cách thức tìm sai lệch điểm ảnh trung tâm. ....................................... 68
HÌNH 3.28. Tính góc sai lệch phương ngang bằng fov. ........................................ 69
HÌNH 3.29. Độ chính xác và thời gian chạy của các mạng học sâu. ...................... 70
HÌNH 3.30. Một số kết quả phát hiện người của mạng YOLOv3-spp-uav. ........... 71
HÌNH 3.31. Tọa độ bay của chế độ tìm kiếm cứu nạn. .......................................... 72
HÌNH 3.32. UAV cất cánh tự động. ...................................................................... 72
HÌNH 3.33. UAV hạ cánh tự động sau khi hồn thành nhiệm vụ. ......................... 72
HÌNH 3.34. Một số hình ảnh phát hiện người từ hình ảnh trực tiếp hiển thị tại GCS.
.............................................................................................................................. 73
HÌNH 3.35. Hình ảnh vị trí vệ tinh (a) và vị trí thực tế (b). ................................... 73
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thanh Bình
KÍ HIỆU CÁC CỤM TỪ VIẾT TẮT
STT
Từ viết tắt
Nghĩa tiếng Việt
Từ tiếng Anh
1.
AI
Artificial Intelligent
Trí tuệ nhân tạo
2.
CNN
Convolution Neural
Network
Mạng nơ-ron tích chập
3.
CUDA
Kiến trúc tính tốn thiết bị hợp
Computed Unified Device nhất. Cơng nghệ kiến trúc tính
Architecture
tốn song song do NVIDIA phát
triển
4.
DL
Deep Learning
Học sâu
5.
GCS
Ground Control Station
Trạm điều khiển mặt đất
6.
GPU
Graphics Processing Unit
Bộ xử lý hình ảnh
7.
IoU
Intersection over Union
Vùng chồng lấn
8.
MMF
Multimedia Framework
Thư viện đa phương tiện
9.
NMS
Non-Maximum
Suppression
Ức chế giá trị không cực đại
10. ROI
Region of Interest
Vùng chú ý
11. UAV
Unmanned Aerial Vehicle
Phương tiện bay không người lái
12. SSD
Single Shot Multibox
Detection
Mạng học sâu SSD
13. VTOL
Vertical Take Off and
Landing
Cất và hạ cánh thẳng đứng
14. YOLO
You only look once
Mạng học sâu YOLO
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
1
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ HỆ THỐNG UAVGCS VÀ MẠNG HỌC SÂU
1.1.
THIẾT BỊ BAY KHƠNG NGƯỜI LÁI
Thiết bị bay khơng người lái (UAV) hay cịn được gọi là Máy bay khơng người
lái, là tên gọi chung cho các loại máy bay mà khơng có người điều khiển trong
buồng lái, có khả năng bay tự động hoặc bán tự động dưới sự giám sát từ trạm
trung tâm hoặc trạm điều khiển mặt đất. UAV được thiết kế dưới hai dạng UAV
cánh bằng và UAV trực thăng nhiều động cơ, thậm chí là lai cả hai loại.
HÌNH 1.1. Thiết bị bay cánh bằng và trực thăng nhiều động cơ.
Ngày nay các thiết bị bay khơng người lái cịn được sử dụng như một giải pháp
bổ sung cho các thiết bị vệ tinh hoặc thiết bị trên khơng, đặc biệt là cho các khu
vực có phạm vi phủ sóng yếu hoặc khơng thể tiếp cận. Nhờ vào khả năng thu
thập dữ liệu hình ảnh EHR (Extremely high image spatial resolution - độ phân
giải không gian hình ảnh cực cao) nhanh và chi tiết mà UAVs cũng được biết
đến như một cơng cụ có khả năng hoạt động đa chức năng đa ứng dụng nhiệm
vụ với chi phí thấp.
HÌNH 1.2. Máy bay flycam sử dụng trong quay phim.
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
2
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
Thiết bị bay UAV đã và đang được quan tâm và nghiên cứu rất nhiều về mơ
hình động học phức tạp và cũng như các giải pháp để điều khiển như điều khiển
PID. Về các ứng dụng của trí tuệ nhân tạo lên thiết bị bay với mục đích sản các
thiết bị rẻ hơn, hoạt động và có thể đáp ứng các ứng dụng mở rộng tốt hơn. Như
các ứng dụng với mục đích quân sự hay dân sự, từ theo dõi, trinh sát cho đến tìm
kiếm và giải cứu.
1.1.1. Ứng dụng của thiết bị bay VTOL UAV
Trong những năm gần đây, UAVs đã được phát triển cho những mục đích
quân sự nhưng nhờ tiềm năng phát triển to lớn nên thiết bị UAV dần được đưa
vào sử dụng trong các ứng dụng dân sự.
Ngày nay, UAVs được tìm thấy trong nhiều lĩnh vực và phạm vi ứng dụng từ
kiểm sốt mơi trường đến giám sát khu công nghiệp lớn. Hơn nữa kể từ khi thiết
bị UAVs đã chứng mình được khả năng bay vượt trội và chính xác trong việc thu
thập thơng tin, ưu điểm của cơng nghệ này đã có được sự quan tâm và trở thành
mục tiêu nghiên cứu của rất nhiều trung tâm nghiên cứu, doanh nghiệp cơng nghệ
cao.
HÌNH 1.3. Máy bay không người lái trong ứng quân sự và dân sự.
Với sự linh hoạt và các ưu điểm vượt trội mà UAV có được đã giúp nó trở
thành một công cụ đắc lực cho nhiều ứng dụng, đặc biệt là trong những nhiệm
vụ khó khăn mà con người khó có thể thực hiện. Có thể kể đến những thành tựu
đáng kể của thiết bị bay trong các ứng dụng thuộc lĩnh vực nông nghiệp. Bằng
việc sử dụng rất nhiều cảm biến ngoại vi, như cảm biến nhiệt và cảm biến đa
chức năng, kết hợp với hình ảnh độ phân giải cao của UAV cho phép cung cấp
giải pháp trồng trọt.
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
3
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
HÌNH 1.4. Ứng dụng thiết bị bay không người lá trong nông nghiệp.
Người nơng dân giờ đây họ có khả năng kiểm sốt các thông tin cụ thể hơn
như độ ẩm của đất hoặc bệnh cây trồng, trong tài liệu [1] Zhang và cộng sự đã
trình bày tổng quan đầy đủ về việc khai thác UAV cho ứng dụng nông nghiệp
công nghệ cao. Trong tài liệu [2], thiết bị UAV được sử dụng với mạng cảm biến
không dây cho ứng dụng phun thuốc trừ sâu được miêu tả như sau: Quĩ đạo bay
của UAV được điều khiển bởi mạng điều khiển mặt đất, quĩ đạo được quyết định
nhờ vào dữ liệu nồng độ thuốc trừ sâu trong khơng khí mà mạng cảm biến đo
được. Thiết bị UAVs còn được sử dụng như một thiết bị viễn thám môi trường,
dung để đo chất lượng khơng khí, nước và mặt đất. Ví dụ trong một ứng dụng rất
hay được nêu trong tài liệu [3], tác giả đã sử dụng hình ảnh của máy ảnh tầm
nhiệt để phát hiện ếch trong cánh đồng nhờ đó để tránh giết hại loài ếch khi sử
dụng máy cắt cỏ.
Trong xây dựng dân dụng và giao thông vận tải, các máy bay khơng người lái
có thể sử dụng để khảo sát khu vực giúp các kỹ sư có thể nắm bắt được tình hình
tổng qt khu vực quy hoạch. Ngồi ra hệ thống này có thể để sử dụng để khảo
sát hay quản lý các cơng trình dân dụng, các cơng trình giao thơng vận tải từ xa.
Ví dụ như khảo sát đập thủy điện giúp các kỹ sư có thể quan sát những nơi khó
chạm đến nhất, nó có thể quét và phát hiện vết nứt và có thể cứu khỏi thảm họa
vỡ đập. Hiện nay, trên thế giới đang có rất nhiều hãng lớn đã và đang phát triển
ứng dụng của UAV và thương mại hóa như Riegl, DJI, Yellow Scan, Phoenix,
ScanSolution. Nhưng tại Việt Nam do chính sách, qui định quản lý về UAVs còn
thắt chặt nên việc phát triển cơng nghệ này vẫn cịn là một hạn chế.
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
4
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
1.1.2. Ứng dụng xử lý ảnh của UAV nhiều cánh quạt (Multicopter UAV)
Một trong những đặc điểm ưu việt của thiết bị bay UAVs đó chính là khả năng
thu thập thơng tin ngay lập tức mà không gây ảnh hưởng đến sự an tồn của
người dân bởi nó được kiểm sốt từ trạm điều khiển mặt đất. Ưu điểm này làm
cho UAV trở nên chuyên biệt trong cho các ứng dụng giám sát và giải cứu khẩn
cấp. Ví dụ, trong tài liệu [4], các tác giả mơ tả thuật tốn để lập ra quĩ đạo bay để
khai thác hình ảnh hồng ngoại, qua đó theo dõi chu vi cháy rừng để có được
thơng tin về sự lan rộng của đám cháy.
HÌNH 1.5. Flycam Skydio 2 sử dụng trí tuệ nhân tạo.
Trong một ứng dụng khác sử dụng để giám sát, trong tài liệu [5] nhóm tác giả
đã nghiên cứu phương pháp tự động phát hiện người nằm trên mặt đất bằng hình
ảnh truyền từ UAV sử dụng trí tuệ nhân tạo. Ở một nghiên cứu về vấn đề giám
sát khác được trình bày trong [6] trong đó tác giả đề xuất phương pháp tiếp cận
với vấn đề bằng cách sử dụng phân loại Haar Cascade để phát hiện người treo
thời gian thực.
Mới đây, cả thiết bị bay quay phim chụp ảnh thương mại Skydio 2 của hãng
skydio họ cũng đã sử dụng trí tuệ nhân tạo trong việc bắt chước hành vi quay
phim chun nghiệp, skydio 2 thậm chí cịn có thể tự động tránh vật cản trong
khi bay theo đối tượng người để quay phim và chụp ảnh.
Qua các nghiên cứu đó, ta có thể thấy rằng với việc sử dụng mơ hình mạng
nơ-ron học sâu của cơng nghệ trí tuệ nhân tạo vào thơng tin hình ảnh từ thiết bị
bay UAVs có thể giúp giải quyết rất nhiều vấn đề trong nhiều lĩnh vực khác nhau
từ an ninh, giải cứu, y tế, giao thông vận tải.
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
5
Đồ án tốt nghiệp
1.2.
GVHD: TS. Ngơ Thành Bình
TRẠM ĐIỀU KHIỂN MẶT ĐẤT
Trạm điều khiển mặt đất, (Ground Control Station - GCS) là trung tâm điều
hành tại mặt đất hoặc trên biển, mà nó cung cấp cở sở vật chất cho người điều
khiển thiết bị bay không người lái VTOL UAV (hoặc Drone) [7]. GCS được phát
triển cho mục đích điều khiển và giám sát, cũng như thu nhận hình ảnh theo thời
gian thực trong khi vận hành thiết bị UAV. Trạm điều khiển GCS bao gồm hai
thành phần: phần cứng và phần mềm.
HÌNH 1.6. Trụ sở trạm điều khiển mặt đất trong quân sự.
1.2.1. Phần cứng GCS
Phần cứng của trạm điều khiển mặt đất thường bao gồm hệ thống phần cứng
của trạm điều khiển dùng để điều khiển thiết bị bay không người lái UAV. Hệ
thống này thường bao gồm phần giao tiếp giữa người và máy, máy tính có bộ xử
lý đồ họa GPU, thiết bị đo từ xa Telemetry truyền bằng song RF, thiết bị truyền
song không dây Wifi, ăng-ten song RF định hướng, thiết bị nhận và lưu trữ hình
ảnh, cần điều khiển khiển đa hướng để điều khiển yaw, pitch, roll của thiết bị bay
UAV, màn hình hiển thị. Đối với những thiết bị bay khơng người lái UAV cỡ nhỏ,
người ta thường sử dụng máy tính laptop xách tay đựng vào trong vali để làm trạm
GCS xách tay, nên có thể chủ động di chuyển tới các địa điểm khác nhau để triển
khai hoạt động trạm điều khiển trên mặt đất.
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
6
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
HÌNH 1.7. Trạm điều khiển mặt đất di động.
Tuy nhỏ gọn đựng trong vali nhưng trạm điều khiển GCS xách tay có thể đi
kèm với máy tính cấu hình cao chạy phần mềm GCS, cùng với video và dữ liệu
trạng thái của thiết bị bay UAV được hiển thị với hai màn hình chống lóa và phủ
lớp chống chói giúp hiển thị tốt hơn dưới trời nắng.
1.2.2. Phần mềm GCS
Phần mềm GCS thường được chạy trên trạm máy tính của trạm điều khiển
GCS và được sử dụng để hiển thị dữ liệu trạng thái như góc nghiêng, độ cao, tốc
độ bay của thiết bị bay UAV như buồng lái ảo. Ngoài ra, phần mềm GCS hiển thị
dữ liệu định vị và quĩ đạo bay của thiết bị bay UAV trên bản đồ, người dùng có
thể thể khai báo các điểm đặt cho nhiệm vụ bay
HÌNH 1.8. Phần mềm sử dụng trên GCS.
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
7
Đồ án tốt nghiệp
1.3.
GVHD: TS. Ngơ Thành Bình
HỌC SÂU: DEEP LEARNING
Học sâu (có tên viết tắt tiếng anh là DL – Deep Learning) là một nhánh của
học máy (Machine Learning – ML), còn học máy là thuật ngữ để chỉ một phương
pháp huấn luyện máy tính trở nên thơng minh hơn, tạo nên trí tuệ nhân tạo
(Artificial Intelligence – AI).
HÌNH 1.9. Lĩnh vực Học sâu trong Trí tuệ nhân tạo.
Kỹ thuật học sâu được ứng dụng vào rất nhiều ngành công nghiệp bao gồm xe
hơi tự hành, phát hiện các bệnh lý trong ứng dụng y học, công nghệ điện tốn
đám mây, nhận diện giọng nói và các ứng dụng trí tuệ. Cũng như các thuật tốn
học máy, học sâu cũng dựa trên các thuật toán phức tạp và kỹ thuật xác suất thống
kê. Một số loại mạng nơ-ron nhân tạo phổ biến như mạng tích chập
Convolutional Neural Networks (CNN) và mạng nơ-ron hồi qui Recurrent
Neutral Netwrok (RNN) là những ứng dụng của kỹ thuật học sâu hiện đại – mạng
lưới này mô phỏng tương tự như mạng lưới thần kinh của con người. Mỗi một
loại mạng nơ-ron được sử dụng vào ứng dụng phức tạp khác nhau như: bài tốn
phân loại, hay bài tốn dự đốn. Ví dụ, nhận diện hình ảnh và nhận diện khn
mặt người ta sẽ sử dụng mạng tích chập CNN, trong khi xử lý ngơn ngữ tự nhiên
– Natural Language Processing (NLP) thì người ta lại sử dụng mạng hồi qui
RNN.
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
8
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
1.3.1. Mạng nơ-ron nhân tạo
1.3.1.1. Mạng nơ-ron nhân tạo
Mạng lưới thần kinh nhân tạo là các mơ hình tính tốn tuy được ra đời cách
đây hơn 60 năm về trước nhưng sự khởi đầu mạnh mẽ của nó mới chỉ diễn ra vào
những năm của đầu thế kỷ 20. Và mạng nơ-ron nhân tạo đã trở thành một trong
những trụ cột căn bản nhất của ngành điện toán hiện đại chỉ với một số chứng
minh của mơ hình đơn giản ban đầu. Nơ-ron học máy tuy là một hàm nhưng nó
lại có cấu tạo dựa trên mơ hình cấu trúc như của nơ-ron sinh học.
HÌNH 1.10. Hình ảnh tương quan giữa cấu trúc nơ-ron tự nhiên và nhân tạo.
Tương tự như trong mô hình sinh học, các xung thần kinh được truyền qua sợi
trục thần kinh với một tỷ lệ nào đó, thì ở mơ hình học máy khi mơ phỏng lại cũng
có một hàm phi tuyến được sử dụng để điều chỉnh tỉ lệ đầu ra sao cho càng giống
dữ liệu đầu vào. Hàm đó được gọi là hàm kích hoạt (activation function), có rất
nhiều loại hàm kích hoạt có thể kể đến như Sigmoid, ReLU, Tanh. Trong đó hàm
Leaky ReLU là một trong các hàm kích hoạt được sử dụng phổ biến trong nhiều
nghiên cứu những năm gần đây do hàm này khắc phục được hạn chế được “vùng
chết” của hàm ReLU.
𝐿𝑒𝑎𝑘𝑦 𝑅𝑒𝐿𝑈(𝑥 ) = max(0.01𝑥, 𝑥 )
(1)
Đầu ra của một “đơn vị” nơ-ron được tính qua cơng thức (2) hàm tuyến tính
𝑦 = 𝜎(𝑤𝑖 𝑥𝑖 + 𝑏)
SVTH: Nguyễn Nhật Anh
(2)
Lớp: KTDT & THCN K56
9
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
Trong đó 𝑥𝑖 là dữ liệu đầu vào thứ 𝑖 𝑡ℎ , 𝑤𝑖 là trọng số của nơ-ron, 𝑏 là nhiễu
bias, 𝜎 là hàm kích hoạt.
Mạng truyền thẳng nhiều lớp là mơ hình mạng lưới nơ-ron nhân tạo được tạo
bởi một tập hợp của các nơ-ron. Mỗi nơ-ron sẽ chứa một hàm kích hoạt, tùy thuộc
vào dữ liệu đầu vào mà mạng lưới sẽ tính tốn ra một đầu ra bằng cách áp dụng
hàm kết hợp (3). Kiến trúc của mạng nơ-ron bao gồm 3 loại lớp nơ-ron: lớp đầu
vào (input layer), lớp ẩn (hidden layer) và lớp đầu ra (output layer). Lớp đầu vào
là nơi dữ liệu được đưa vào hệ thống, phần lớp ẩn là nơi dữ liệu được tính tốn
và được kết nối với nhau thông qua các lớp ẩn. Mỗi mạng nơ-ron có thể chứa
nhiều lớp ẩn, và trong mỗi lớp ẩn 𝑙 đó sẽ bao gồm một tập các node nơ-ron 𝑁 (𝑙) .
HÌNH 1.11. Sơ đồ mạng nơ-ron lan truyền thẳng.
𝑙
Gọi lớp 𝑙 = 0 là lớp đầu vào, và lớp đầu ra là 𝑙 = 𝐿 − 1, gọi 𝑤𝑗𝑘
là trọng số
kết nối từ node thứ i của lớp 𝑙 − 1 đến node thứ j của lớp 𝑙. Tương tự ta có hệ số
bias của node thứ j trong lớp 𝑙 là 𝑏𝑗𝑙 , và ta có ma trận hệ số 𝑊 𝑙 giữa hai lớp 𝑙 − 1
và lớp 𝑙, ma trận này có kích thước l(k−1) ∗ lk . Ta tính được tổng hàm tuyến tính
của lớp l qua cơng thức (3) sau:
(l−1)
(l−1)
l
zil = ∑j=1
aj
(l)
(l)
∗ wji + bi
(3)
(l)
Rồi áp dụng hàm kích hoạt: ai = σ(zil )
(4)
Cuối cùng ta sẽ có hàm kích hoạt cho lớp l: al = σ(W l al−1 + bl )
(5)
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
10
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
1.3.1.2. Hàm mất mát và Gradient
Mục tiêu của bài toán khi huấn luyện mạng học sâu là tìm được tham số 𝜃 =
(𝑊, 𝑏) dựa trên tập dữ liệu huấn luyện mà ta đưa vào mơ hình và dữ liệu đầu ra
(𝑥𝑛 , 𝑡𝑛 ), sao cho giảm sai lệch giữa đầu ra của mạng huấn luyến và dữ liệu thực
(dữ liệu đã được dán nhãn). Nói cách khác là ta phải làm giảm giá trị của hàm
mất mát 𝐶(𝜃). Ví dụ như trong mạng phát hiện vật thể YOLO có sử dụng hàm
mất mát sai số tồn phương trung bình (Mean Squared Error Loss Function) để
tính giá trị sai lệch tọa độ đầu ra của mạng huấn luyện và giá trị thực của hộp
giới hạn (bounding box). Hàm mất mát MSE được viết theo công thức sau:
𝐶𝑀𝑆𝐸 (𝜃) =
1
2𝑁
2
∑𝑁
𝑛=0|| 𝑦 (𝑥𝑛 , 𝜃 ) − 𝑡𝑛 ||
(6)
Khi ta đã xác định hàm mất mát với hàm MSE, mơ hình mạng học sâu sẽ được
huấn luyện bằng cách cập nhật hệ số trọng số thơng qua thuật tốn tối ưu dựa
trên gradient: Giảm độ dốc (Gradient Descent). Thuật toán giảm độ dốc là một
thuật toán tối ưu lặp được sử dụng trong các bài tốn học máy và học sâu với
mục tiêu tìm một tập các tham số nội tạo cho việc tối ưu mơ hình mạng nơ-ron.
Để giảm dần giá trị hàm mất mát và tìm hệ số trọng số 𝑊 tối ưu, theo thuật tốn
giảm độ dốc ta sẽ tính độ dốc gradient của hàm mất mát theo hệ số 𝑊 bằng đạo
hàm
𝜕𝐶𝑀𝑆𝐸
(7)
𝜕𝑊
Sau đó hệ số được cập nhật theo phương pháp làn truyền ngược (Backpropagation) [8] theo công thức (8)
𝜃 ← 𝜃 − 𝜂∇𝜃 𝑓 (𝜃)
(8)
Trong đó 𝜃 là tập các tham số 𝑊cần cập nhật, 𝜂 là tham số tốc độ học (learning
rate), ∇𝜃 𝑓(𝜃) là đạo hàm Gradient của hàm mất mát ∇𝜃 𝑓(𝜃) theo tập 𝜃.
Việc lựa chọn tham số tốc độ học 𝜂 cũng quan trọng khơng kém, nếu hệ số
q nhỏ thì mỗi lần tính gradient cập nhật hệ số giảm rất ít, nên sẽ mất rất nhiều
thời gian để cập nhật. Còn nếu hệ số học quán lớn nó sẽ gây ra hiện tượng quá
độ và rất khó cập nhật được giá trị tối ưu giúp giá trị của hàm là nhỏ nhất.
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
11
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
HÌNH 1.12. Sơ đồ thể hiện giá trị mất mát sau khi huấn luyện qua các gói dữ liệu.
Giá trị học hợp lý sẽ làm cho giá trị mất mát giảm dần theo thời gian huấn
luyện qua các Epoch như trong hình 1.12. Epoch là một tham số để chỉ việc hoàn
thành huấn luyện toàn bộ dữ liệu huấn luyện, khi đã hoàn thành bước lan truyền
tiến và lan truyền ngược để cập nhật hệ số.
1.3.2. Mạng lưới thần kinh tích chập: Convolutional Neural Network
Mạng lưới thần kinh tích chập được tạo ra để giải quyết vấn đề về số lượng
tham số rất lớn giữa các nốt của các lớp ẩn trong mạng lưới thần kinh kết nối đầy
đủ. Trong mạng lưới thần kinh chuyển đổi, các lớp ẩn được thay đổi bằng các
lớp tích chập, tại các lớp ẩn sẽ sử dụng ô tích chập để thực hiện phép tính tích
chập lên tồn bộ dữ liệu bức ảnh đầu vào, hay nói cách khác là các pixel chia sẻ
hệ số với nhau.
HÌNH 1.13. Cấu trúc của FCN và CNN.
Nếu như trong mạng kết nối đầy đủ ta có lớp đầu vào, các lớp ẩn và lớp đầu
ra. Ở trong mạng tích chập các nơ-ron được sắp xếp thành 3 chiều: chiều rộng,
chiều cao, độ sâu. Đây là một thiết kế rất phù hợp cho bài toán phân loại dữ liệu
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
12
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
đầu vào là dữ liệu ảnh có kích thước chiều cao x chiều rộng x 3 kênh màu (ĐỏLục-Lam). Các nơ-ron trong mạng tích chập khơng kết nối đầy đủ từng nốt mà
chỉ kết nối một vùng nhỏ của lớp tích chập trước đó, liên kết này được gọi là
vùng lĩnh hội.
Cấu trúc của mạng tích chập bao gồm đầu vào,→ lớp tích chập → hàm kích
hoạt ReLU → Lớp đầu ra, được mơ tả trong hình ví dụ dưới đây:
HÌNH 1.14. Ví dụ về bài tốn phân loại ảnh sử dụng CNN.
Ơ tích chập có kích thước n x n sẽ được áp dụng lên tồn bộ dữ liệu ảnh, nó sẽ
lần lượt dịch cửa sổ bộ lọc qua từng pixel lần lượt từ trái qua phải, từ trên xuống
dưới với bước nhảy (stride) thường là 1, do kết quả của tích chập sẽ cho ra kích
thước nhỏ hơn nên nhờ việc thêm padding = 1 sẽ thêm vào các cột và hàng xung
quanh dữ liệu ảnh các giá trị bằng không để giúp đầu ra bảo tồn được kích cỡ.
Sau mỗi lớp tích chập, ta sẽ thu được bản đồ đặc tính trừu tượng (feature map),
bản đồ đặc tính trừu tượng sẽ cho ta biết thông tin đặc trưng của ảnh như viền
của vật thể nếu như ta cho tích chập ảnh với cửa sổ bộ lọc viền, khi trượt qua ảnh
đầu vào những pixel trung tâm sẽ có giá trị lớn nhất, và những pixel xung quanh
sẽ tối đi khi đó nó sẽ để lại những pixel trung tâm, đó chính là viền của vật thể
như trong ảnh 1.15 dưới đây.
tích chập
HÌNH 1.15. Ví dụ tích chập ảnh với bộ lọc.
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
13
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
Sau khi có được bản đồ đặc tính trừu tượng, áp dụng hàm kích hoạt (như Leaky
ReLU, ReLU, Sigmoid) để có được các thông tin trừu tượng rõ ràng hơn cho các
lớp tiếp theo. Tiếp theo, để giảm khối lượng tính tốn và giúp cải thiện thời gian
học, ta sử dụng lớp tổng hợp Max Pooling, ngồi ra nó cịn giúp tránh vấn đề
thừa ăn khớp (overfitting). Và cuối cùng lớp đầu ra sẽ sử dụng lớp kết nối đầy
đủ, để biến đổi các đặc trưng trừu tượng 3 chiều thành một véc-tơ một chiều để
đưa ra kết quả xác xuất tương ứng với mỗi đặc trưng của từng đối tượng cần phân
loại.
1.4.
MẠNG PHÁT HIỆN ĐỐI TƯỢNG: OBJECT DETECTION
Phát hiện đối tượng là làm nhiệm vụ xác định một hoặc nhiều đối tượng hiện
diện trong cùng một hình ảnh. Việc phát hiện đối tượng bao gồm hai phần cụ thể
là phân loại và xác định vị trí. Đây là một thách thức trong bài tốn này vì phải
phân loại đối tượng mà cịn phải xác định chính xác vị trí tất cả các đối tượng có
trong hình ảnh cùng với việc phát hiện sự hiện diện của chúng. Phát hiện đối
tượng là một trong số ứng dụng quan trọng, bởi nhiều nhiệm vụ cần sự giám sát
của con người có thể tự động hóa bằng cách phát hiện các đối tượng trong hình
ảnh. Phát hiện đối tượng về cơ bản là phân loại và định vị các đối tượng, gắn
nhãn cho chúng bằng các hộp hình chữ nhật để thể hiện điểm tin cậy của dự đoán.
Mạng phát hiện vật thể đầu tiên được gọi là “Mạng Overleaf” [9], sử dụng Mạng
thần kinh chuyển đổi (CNN) kết hợp với sliding windows cửa sổ trược để phân
loại từng hình ảnh này có đối tượng hoặc khơng đối tượng, sau đó kết hợp các
kết quả lại với nhau để thực hiện dự đoán. Nhờ thành tựu của Overleaf khi sử
dụng CNN để giải quyết bài tốn phát hiện vật thể mà nó đã giúp thúc đẩy sự
phát triển của nhiều mơ hình mạng khác tốt hơn ra đời.
Trong những năm gần đây, rất nhiều mạng state-of-the-art phát hiện đối tượng
đã được đề xuất bởi cộng đồng học sâu DL, như Faster R-CNN [10], YOLO [11],
R-FCN [12], SSD [13] và RetinaNet [14]. Mục tiêu chính của các thiết kế này là
cải thiện độ chính xác phát hiện theo mAP và độ phức tạp trong tính tốn của các
mơ hình giúp cải thiện thời gian xử lý, để có thể đạt được hiệu suất thời gian thực
cho các nền tảng nhúng và di động. Các mơ hình mạng phát hiện vật thể này có
thể được chia thành hai loại dựa trên kiến trúc của chúng: 1) phương pháp tiếp
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
14
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
cận một bước và 2) phương pháp hai bước (dựa trên khu vực – region based).
Cách tiếp cận một bước có tốc độ chạy nhanh hơn và cho thấy hiệu quả bộ nhớ
cao hơn trong khi cách tiếp cận hai bước tuy đạt được độ chính xác mAP tốt hơn
nhưng lại tốn bộ nhớ hơn để chạy.
1.4.1. Mạng phát hiện đối tượng theo khu vực (Mạng phát hiện hai bước)
Mạng phát hiện đối tượng theo khu vực được chia làm hai bước. Bước thứ
nhất là tạo các phân vùng trong ảnh mà khả năng đối tượng cần phát hiện sẽ nằm
trong đó. Bước thứ hai sẽ thực hiện việc phát hiện đối tượng và phân loại đối
tượng đó là vật gì dựa theo đầu vào phân vùng được tạo ở bước thứ nhất. Có thể
kể đến một số nghiên cứu như R-CNN, Fast R-CNN, FPN và R-FCN
1.4.1.1. Mạng R-CNN nhanh
Mạng Fast R-CNN [10] là mạng cải thiện từ R-CNN, cấu trúc của mạng bao
gồm mạng CNN và hai phần SVM dùng cho phân loại và hồi quy. Mạng Fast RCNN đã cải thiện nhược điểm sử dụng quá nhiều tài nguyên bộ nhớ của R-CNN
bằng cách chỉ chạy CNN chỉ một lần trên tồn bộ ảnh để tạo ra đặc tính trừu
tượng. Sau đó họ cắt vùng đặc trưng tạo nên vùng ROI đặc trưng, tọa độ của
vùng ROI đặc trưng thu được thơng qua “Tìm kiếm chọn lọc”, chính vì điều này
giúp cho mạng fast R-CNN giảm được cả thời gian chạy và khối lượng tính tốn.
Ngồi ra Fast R-CNN cịn đưa ra phương pháp cho phép các đầu ra phân loại và
hồi quy được huấn luyện đồng thời như trong hình 1.16.
HÌNH 1.16. Cấu trúc mạng Fast R-CNN.
Mạng Fast-RCNN tối ưu tốc độ và tài nguyên hơn R-CNN. Thời gian huấn
luyện giảm từ 84 giờ xuống 9 giờ và thời gian chạy từ 47 giây xuống 0,32 giây.
Hàm mất mát dễ huấn luyện hơn và tránh được vấn đề “Nổ” Gradient (Exploding
Gradient). Nổ gradient là hiện tượng khi sai số gradient dần bị tích lũy và ngày
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56
15
Đồ án tốt nghiệp
GVHD: TS. Ngơ Thành Bình
càng tăng dâng lên giá trị rất lớn khiến cho mạng học sâu trở nên bất ổn định.
Không những thế giá trị của trọng số trở nên lớn hơn bất thường còn làm gia tang
các tham số tính tốn, khiến cho tài ngun bộ nhớ bị tràn dữ liệu.
1.4.1.2. Mạng trích xuất đặc tính trừu tượng hình kim tự tháp
Một loại mạng nữa rất hiệu quả trong việc nhận dạng vật thể, lấy cảm hứng từ
kim tự tháp mạng nhận dạng vật thể hai bước Feature Pyramid Network (FPN).
Tính bất biến tỷ lệ là một trong những vấn đề mà các mạng R-CNN, Fast R-CNN,
Faster R-CNN không giải quyết được.
Một mạng nhận diện vật thể tốt có thể kích thước vật thể trên ảnh tùy biến,
như vật ở xa thì kích thước của vật trên ảnh sẽ nhỏ, vật ở gần thì kích thước của
vật trên ảnh sẽ to hơn. Mạng FPN [15] đã xử lý được vấn đề này bằng cách tạo
ra các đặc tính trừu tượng trích xuất dữ liệu đặc trưng từ dữ liệu ảnh với các tỷ
lệ kích thước khác nhau, do đó các khung giới hạn mẫu khơng cần đảm nhiệm
phần tỉ lệ kích thước của vật thay đổi trên dữ liệu ảnh nữa.
Lớp mạng sử dụng tích chập sẽ lấy các đầu vào thơng qua các kích thước ảnh
để tạo các đặc tính trừu tượng tại các kích thước tương ứng đó. Các đặc tính trừu
tượng đó sẽ được lấy ra ở lớp cuối của mỗi lớp tỉ lệ kích thước, vậy nên đặc tính
trừu tượng ở lớp sâu nhất là đặc tính trừu tượng chứa nhiều dữ liệu đặc trưng nổi
bật nhất của vật thể trong ảnh. Mỗi đặc tính trừu tượng được đưa qua tích chập
có kích thước cửa sổ 1x1 để tạo độ sâu kênh đến C = 256. Sau đó các bản đồ này
sẽ bổ sung các chi tiết vào bản dữ liệu gần kề có tỷ lệ kích thước lớn hơn của tỷ
lệ hiện tại, như trong hình 1.17.
Quá trình này được gọi là liên kết kế bên, sau khi quá trình được thực hiện ở
các mức tỷ lệ, đặc tính trừu tượng cuối cùng sẽ được tạo ra bằng việc đưa bản đồ
đặc trưng đã được cập nhật qua tích chập có kích thước cửa sổ 3x3. Sau khi hồn
thành bước một tạo ra các đặc tính trừu tượng, bước hai tác giả cho chạy mạng
nhận diện vật thể Faster R-CNN lên từng mức tỷ lệ kích thước.
SVTH: Nguyễn Nhật Anh
Lớp: KTDT & THCN K56