Tải bản đầy đủ (.pdf) (6 trang)

Thử nghiệm hệ thống nhận diện khuôn mặt trên video được stream từ drone

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (450.42 KB, 6 trang )

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021
DOI: 10.15625/vap.2021.00105

THỬ NGHIỆM HỆ THỐNG NHẬN DIỆN KHUÔN MẶT TRÊN
VIDEO ĐƯỢC STREAM TỪ DRONE
Lương Văn Song, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang
Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh
{songlv, nguyenvd, khangnttm}@uit.edu.vn
TĨM TẮT: Xây dựng hệ thống gợi ý người điều khiển Drone/Flycam tìm kiếm đối tượng mong muốn trong đám đông trực
tiếp rất thách thức. Trong nghiên cứu này, chúng tôi xây dựng hệ thống thử nghiệm cho bài toán phát hiện và nhận diện khuôn mặt
trong video được stream trực tiếp từ Drone. Hệ thống sử dụng mơ hình client - server, client và server giao tiếp với nhau thông qua
REST API. Riêng hệ thống streaming sử dụng giao thức RTMP-RTSP, đây là giao thức được sử dụng rộng rãi trong các hệ thống
dành cho dịch vụ livestreaming (phát trực tiếp). Pretrained model yolov4Tiny trên bộ dữ liệu WiderFace được sử dụng cho phát
hiện khuôn mặt, phương pháp Mobilefacenet được sử dụng cải thiện thời gian nhân diện khuôn mặt. Hệ thống đánh giá mở rộng
trên 16video tự thu thập từ Drone để đánh giá mức độ khả thi về mặt thời gian.
Từ khóa: face object detection, face recognition, drone, stream.

I. GIỚI THIỆU
Các thiết bị bay không người lái ngày càng trở nên phổ biến nhờ vào sự phát triển nhanh về phần cứng giúp
giảm chi phí sản xuất. Các thiết bị này được ứng dụng rộng rãi bởi sự cơ động và tiện dụng, có thể hoạt động ở nhiều
địa hình, thời tiết khác nhau và dễ dàng vận chuyển. Đa số các thiết bị bay không người lái hiện nay đã có tích hợp
chức năng gửi hình ảnh trực tuyến (livestream) đến các máy chủ từ xa, tuy nhiên rất ít các thiết bị được áp dụng các
công nghệ xử lý hình ảnh phát hiện đối tượng vì hạn chế về phần cứng và khả năng vận tải. Vì máy bay khơng người
lái có thể được điều khiển từ xa, chúng thường được sử dụng để truy cập các khu vực khó điều hướng qua hoặc khơng
thể tiếp cận thơng qua con người. Điều này làm cho công nghệ bay không người lái trở thành ứng cử viên lý tưởng để
giám sát các vị trí từ xa và những nơi cực kỳ đông đúc mà không gây ra bất kỳ gián đoạn nào. Việc sử dụng máy bay
khơng người lái có thể giảm một cách đáng kể thời gian chi phí và cho phép các cơ quan thực thi pháp luật tìm kiếm
những người mất tích hoặc xác định tội phạm hoặc cá nhân bị truy nã. Tự động hóa quá trình nhận dang khn mặt
hoặc theo dõi bằng cách sử dụng máy bay khơng người lái có thể có lợi rất nhiều cho các kịch bản giám sát và giám sát
từ xa [1]. Nó giúp cải thiện hiệu quả của các hệ thống an ninh, đặc biệt là trong các tình huống đơng đúc như sân vận
động hoặc lễ hội và trong các trường hợp khí tiếp cận trực tiếp do thiên lai, địa hình [2].



Hình 1. Tìm kiếm người trong khu vực đơng đúc (trái), khu vực khó tiếp cận do thiên tại, địa hình (phải).

Đa số các thiết bị bay khơng người lái hiện nay đã có tích hợp chức năng gửi hình ảnh trực tuyến (livestream)
đến các máy chủ từ xa, tuy nhiên rất ít các thiết bị được áp dụng các cơng nghệ xử lý hình ảnh phát hiện đối tượng vì
hạn chế về phần cứng và khả năng vận tải. Trong khi đó, các thuật tốn trong lĩnh vực thị giác máy tính ngày càng
mạnh mẽ nhờ vào sự phát triển của dữ liệu, phần cứng và máy học. Trong đó, các thuật tốn học sâu cho phép phát
hiện đối tượng với độ chính xác cao Faster RCNN [3], DetectoRS [4], EfficientDet [5]. Một số thuật tốn có thể xử lý
với tốc độ nhanh thời gian thực, thích hợp cho các bài tốn u cầu tốc độ xử lý nhanh SSD [6], YOLOv4 [7].
Nhiều nghiên cứu công bố về bộ dữ liệu nhận diện mặt người, trơng đó có WiderFace [8] là một bộ dữ liệu nhận
diện khuôn mặt quy mô lớn. WiderFace gồm 32.203 hình ảnh với 393,703 khn mặt được gán nhãn, nhiều nghiên cứu
cho kết quả cao trên bộ dữ liệu này. Gần đây, nghiên cứu về nhận diện mặt người từ khơng ảnh có bộ dữ liệu Bộ dữ
liệu DroneSURF [9] ra đời năm 2019, giám sát khuôn mặt bằng máy bay không người lái, để tạo điều kiện nghiên cứu
về nhận dạng khuôn mặt. Tập dữ liệu chứa 200 video trong số 58 đối tượng, được chụp trên 411 khung hình, có hơn
786 K chú thích khn mặt. Mặc dù, bộ dữ liệu lớn, nhưng mỗi ảnh chỉ 2,3 người.


576

THỬ NGHIỆM HỆ THỐNG NHẬN DIỆN KHUÔN MẶT TRÊN VIDEO ĐƯỢC STREAM TỪ DRONE

Trong nghiên cứu này, chúng tôi triển khai thực nghiệm hệ thống pháp hiện và nhận dạng người trong video
đám đông được stream về Drone. Nghiên cứu tập trung vào phương pháp phát hiện đối tượng YOLOv4-Tiny [10] và
nhận dạng khuôn mặt Mobilefacenet [11]. Chúng tôi sử dụng môđun YOLOv4-Tiny đã được xây dựng dựa trên Wider
Face để tận dụng lợi thế mơ hình đã được huấn luyện trên bộ dữ liệu đa dạng ngữ cảnh, mật độ dày đặc cũng như ưu
điểm về thời gian dự đốn. Với phần nhận diện khn mặt thì Mobilefacenet mang lợi thế của nhỏ nhẹ trên mobile
đồng thời có sử dụng thêm ArcFace [12] và chúng tôi tiến hành đánh giá thời gian dự đốn trên hệ thống thơng qua 16
video thu thập từ Drone để đưa ra các ưu điểm và hạn chế khi triển khi trên network.
Phần còn lại của bài báo được tổ chức như sau: Phần II trình bày chi tiết phương pháp phát hiện đối tượng
YOLOv4-Tiny và Mobilefacenet; Phần III giới thiệu kiến trúc hệ thống thực nghiệm, thời gian thực nghiệm, đánh giá

và thảo luận kết quả thực nghiệm; Phần IV trình bày kết luận bài báo.
II. CÁC NGHIÊN CỨU LIÊN QUAN
A. Phương pháp phương pháp YOLOv4-Tiny
Phương pháp YOLOv4-Tiny sử dụng mạng CSPDarknet53-tiny làm mạng xương sống thay vì mạng
CSPDarknet53 được sử dụng trong phương pháp YOLOv4. Mạng CSPDarknet53-tiny sử dụng module CSPBlock
trong CSP thay vì module ResBlock trong mạng cịn lại.
Module CSPBlock chia feature map thành hai phần và kết hợp hai phần bằng cạnh dư của giai đoạn chéo. Điều
này làm cho dịng gradient có thể lan truyền theo hai đường mạng khác nhau để tăng sự khác biệt tương quan của thơng
tin gradient. Module CSPBlock có thể nâng cao khả năng học tập của mạng chập so với Module ResBlock. Mặc dù
điều này làm tăng tính tốn 10-20%, nó cải thiện độ chính xác. Để giảm số lượng tính tốn, nó loại bỏ các nút thắt cổ
chai tính tốn có lượng tính tốn cao hơn trong module CSPBlock. Nó cải thiện độ chính xác của phương pháp
YOLOv4-tiny trong trường hợp tính tốn khơng đổi, thậm chí là giảm.

Hình 2. Kiến trúc YOLOv4-Tiny [10]

Để tiếp tục quy trình tính tốn đơn giản hơn, YOLOv4-Tiny sử dụng hàm LeakyReLU làm hàm kích hoạt trong
CSPDarknet-tiny mà khơng cần sử dụng Mish là hàm kích hoạt như YOLOv4. Hàm LeakyReLU là:

trong đó: ai ∈ (1, +∞), có giá trị tham số khơng đổi.

Trong phần kết hợp đặc trưng, YOLOv4-tiny sử dụng mạng kim tự tháp đặc trưng để trích xuất feature map với
các tỉ lệ khác nhau để tặng tốc độ phát hiện đối tượng, mà không sử dụng SPP và PANet như phương pháp YOLOv4.
Đồng thời YOLOv4-tiny sử dụng hai feature map tỉ lệ khác nhau là 13×13 và 26×26 để dự đốn kết quả phát hiện.
B. Phương pháp Mobilefacenet
Trong những năm gần đây, các mơ hình xác mình khn mặt dựa trên các mạng nơron tích chấp (CNN) được
giám sát bởi các hàm mất mát mới trong giai đoạn đào tạo được sử dụng nhiều có độ chính xác cao. Có một lớp tổng
hợp trung bình tồn cầu trong mạng di động hiện đại đề xuất cho các tác vụ nhận dạng hình ảnh phổ biến, ví dụ:
MobileNetV1, ShuffleNet và MobileNetV2. Để xác minh và nhận dạng khuôn mặt, một số nhà nghiên cứu đã quan sát
thấy rằng CNN có các lớp tổng hợp trung bình tồn cầu kém chính xác hơn so với các kênh khơng có global average
pooling layer.



Lương Văn Song, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang

577

Quy trình xác minh khn mặt bao gồm xử lý trước hình ảnh khn mặt, trích xuất các đặc điểm khn mặt
bằng mơ hình sâu được đào tạo và kết hợp hai khuôn mặt theo độ giống hoặc khoản các của các đặc điểm. Theo
phương pháp tiền xử lý, chúng tôi sử dụng MTCNN để phát hiện khuôn mặt và năm mốc khn mặt trong ảnh. Sau đó
chúng tơi sắp xếp các mặt bằng phép biến đổi tương tự theo năm điểm mốc. Hình ảnh khn mặt được căn chỉnh có
kích thước 112×112 và mỗi pixel trong ảnh RGB được chuẩn hóa bằng cách trừ 17,5 rồi chia cho 128. Cuối cùng tính
năng khn mặt nhúng CNN ánh xạ từng khuôn mặt được căn chỉnh với một véctơ đặc trưng, như được hiển thị trong
Hình 3.

Hình 3. Mơ hình xác minh khn mặt dựa trên các mạng nơron tích chập [11].

Về cơ bản, MobileFaceNet vẫn dựa trên mơ hình MobileNetV2. Cấu trúc chi tiết được hiển thị trong bảng. Đặc
biệt, trong MobileFaceNet sử dụng PreLu là phi tuyến tính thay vì sử dụng ReLU. Ngồi ra, MobileFaceNet sử dụng
chiến lược lấy mẫu nahnh ở đầu mạng, sử dụng chiến lược dimension-reduction strategy ở một số lớp chập cuối cùng,
và lớp tích chập 1×1 tuyến tính theo sau lớp tích chập depthwise convolution layer như đầu ra.
Mạng MobileFaceNet có chi phí tính tốn là 221 triệu MAdds và sử dụng 0,99 triệu tham số. Để giảm chi phí
tính tốn, độ phân giải đầu vào được thay đổi từ 112×112 thành 112×96 hoặc 96×96. Để giảm số lượng tham số, mơ
hình loại bỏ lớp tích chập 1×1 tuyến tính sau lớp GDConv khỏi MobileFacenet, mạng kết quả được gọi là
MobileFaceNet-M. Từ MobileFaceNet-M, loại bỏ lớp tích chập 1×1 trước lớp GDConv tuyến tính sẽ tạo ra mạng nhỏ
nhất được gọi là MobileFaceNet-S.
III. PHƯƠNG PHÁP THỰC NGHIỆM
A. Triển khai thử nghiệm

Hình 4. Mơ hình hệ thống phát hiện và nhận dạng người dựa vào khuôn mặt thời gian thực. Hệ thống sử dụng mơ hình client server, client và server giao tiếp với nhau thông qua REST API. Riêng hệ thống streaming sử dụng giao thức RTMP-RTSP, đây
là giao thức được sử dụng rộng rãi trong các hệ thống dành cho dịch vụ livestreaming (phát trực tiếp)


Chúng tôi sử dụng các nền tảng được cung cấp sẵn WOWZA, VNGCloud xem như là server streaming. Ở phía
server (backend), để đơn giản hơn cho quá trình sử dụng các mơ hình máy học, chúng tơi sử dụng ngôn ngữ Python 3.8
với thư viện FastAPI để tạo ra các API cung cấp cho client, ở đây là web frontend. Kết quả trả về là các hình ảnh bao
gồm đối tượng được đóng hộp giới hạn. Ở phía client (frontend), chúng tơi sử dụng cơng nghệ ReactJS để tạo ra giao
diện thân thiện với người dùng, đồng thời tương thích với nhiều kích cỡ màn hình và nhiều thiết bị khác nhau. Hệ
thống gồm 3 giai đoạn:
- Giai đoạn 1: Phát hiện khuôn mặt bằng phương pháp YOLOv4 tiny face và crop các khuôn mặt.


578

THỬ NGHIỆM HỆ THỐNG NHẬN DIỆN KHUÔN MẶT TRÊN VIDEO ĐƯỢC STREAM TỪ DRONE

- Giai đoạn 2: Tiền xử lý các khuôn mặt nhận được từ bước 1. Chọn 20 khn mặt có kích thước lớn nhất đưa
vào giai đoạn 3.
- Giai đoạn 3: Dùng thuật toán MobileFaceNet để kiểm tra 1 trong 20 khuôn mặt nhận được từ giai đoạn 2 có
phải là đối tượng cần tìm của bài tốn.

Hình 5. Minh họa các bước nhận dạng khn mặt từ video

B. Mơi trường thực nghiệm
Để thực nghiệm mơ hình bài tốn, học viên đã sử dụng các máy tính có cấu hình sau:
- 01 server của học viên: Intel Core i3 - 10th, Ram 8 Gb, GPU GTX 1660 6 Gb
- 01 server sử dụng cho việc đánh giá kết quả phát hiện khuôn mặt: Intel core I7 - 9850H 2.6 Ghz, Ram 32 Gb,
GPU GTX 1080ti
Về phần mềm, hệ thống sử dụng các phần mềm sau: CMake = 3.12, CUDA = 10.2, OpenCV 3, cuDNN = 8,
GPU with CC = 6.1, Linux GCC.
C. Kết quả thực nghiệm
Chúng tôi sử dụng model pretrained từ bộ dữ liệu WiderFace vì bộ dữ liệu này phù hợp với giả thuyết về số

lượng người nhiều, mật độ dày. Tuy nhiên, hình ảnh trong bộ dữ liệu DroneSURF số người ít, từ 1 đến 3 người trong
một khung hình và cách đánh nhãn vùng chứa gương mặt cũng khác so với WiderFace. DroneSURF vùng nhãn chứa
gương mặt bao gồm cả đầu và phần cổ, cịn WiderFace vùng nhãn chỉ có đúng phần gương mặt. Nên vùng phát hiện do
pretrained model dự đốn có sự sai lệch khi đánh giá IoU, chúng tôi thử nghiệm IoU với 2 tỉ lệ là 0,05 và 0,1. Kết quả
trình bày trong Bảng 1 cho thấy IoU càng tăng thì mAP càng giảm.

Hình 6. Một số mẫu dữ liệu WiderFace bên trái, DroneSURF bên phải
Bảng 1. Kết quả đánh giá mAP phát hiện khuôn mặt

Phương pháp
YOLOv4 Tiny

IoU0.05
92,82%

IoU0.1
63,09%

Một số thử nghiệm mở rộng trên các video tự thu thập từ Drone với mật độ đa dạng, cho thấy tính khả thi của hệ
thống, tuy nhiên thời gian trễ khi triển khai qua mạng là hạn chế còn tồn tại. Tổng thời gian xử lý một video của hệ
thống phụ thuộc rất nhiều vào pha phát hiện và nhận diện. Ở pha phát hiện, kích thước ảnh lớn 3840×2160 là một thách
thức lớn về độ phân giải mà đa phần các Drone/Flycam hiện tại đều hỗ trợ. Việc đánh đổi giữa chất lượng dữ liệu và
thời gian xử lý là yếu tố cần cân nhắc khi triển khai, do ảnh hưởng đến tốc độ cũng như độ chính xác. Bảng 2 thống kê
thời gian phát hiện và nhận diện khuôn mặt từ 16 video quay từ Drone có độ phân giải 4K (3840×2160), gần 30FPS.


Lương Văn Song, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang

579


Bảng 2. Bảng thống kê thời gian phát hiện, nhận dạng khn mặt trên 16 video thu thập

Video
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Thời gian
(s)
17
5
12
20
11
14
15
15

52
43
38
24
144
134
33
147

FPS
29,97
29,97
29,97
29,97
29,97
29,97
29,97
29,97
29,97
29,97
29,97
29,97
29,97
29,97
29,97
29,97

Độ phân
giải
3840×2160

3840×2160
3840×2160
3840×2160
3840×2160
3840×2160
3840×2160
3840×2160
3840×2160
3840×2160
3840×2160
3840×2160
3840×2160
3840×2160
3840×2160
3840×2160

Số lượng
khung hình
53
15
38
62
34
44
48
47
156
131
116
75

434
405
100
443

Thời gian (s)
Phát hiện
Nhận diện
4,147
5,271
1,116
1,527
3,020
3,750
4,423
6,160
1,982
3,354
8,380
4,369
8,983
4,836
9,817
4,761
22,903
15,542
18,466
13,145
10,762
11,385

5,407
7,264
35,726
42,465
16,165
38,605
2,933
9,404
17,477
42,334

Tổng
9,596
2,686
6,896
10,778
5,409
13,036
14,144
14,941
39,254
32,421
22,678
12,888
79,630
55,338
12,450
60,385

D. So sánh với các phương pháp khác

Để so sánh với các phương pháp chúng tơi thử nghiệm đo đạt với một máy tính CPU core I7, ram 16Gb, GPU
1660 6Gb được kết quả như bảng 3.
Bảng 3: Kết quả FPS và mAP với các phương pháp khác cho bài tốn phát hiện khn mặt.

Phương pháp
MTCNN
Cascade-opencv
YOLOv4 tiny

FPS
3 (CPU I7)
2 (CPU I7)
25 (CPU I7)

mAP
12,9%
9,12%
61,13%

Trong một số nghiên cứu khác, cũng nhận thấy Yolov4 cho tốc độ tốt hơn các phương pháp khác phù hợp với
yêu cầu của bài tốn.

Hình 7. Kết quả so sánh về tốc độ phát hiện khn mặt của một số thuật tốn [13]

IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trong nghiên cứu này, chúng tôi xây dựng hệ thống thử nghiệm phát hiện và nhận diện khuôn mặt theo thời
gian thực trên video được stream từ Drone. Hệ thống đánh giá trên 16 video tự thu thập từ Drone để đánh giá mức độ
khả thi về mặt thời gian. Nghiên cứu là cơ sở đưa ra các tiêu chí về số lượng khung hình xử lý trong mỗi video, số
lượng khn mặt được chọn ở pha phát hiện trước khi đưa sang pha nhận diện để đảm bảo tính thời gian thực và độ
chính xác nhận diện. Trong tương lai, nhóm nghiên cứu sẽ xây dựng mơ hình phát hiện trên thiết bị phần cứng nhỏ gắn

vào cổng HDMI nối trực tiếp với tay cầm điều khiển Drone để giảm độ trễ đường truyền khi sử dụng các kết nối mạng.
V. LỜI CẢM ƠN
Nghiên cứu được tài trợ bởi Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) trong khn khổ Đề tài
mã số DS2021-26-01. Chúng tôi xin chân thành cảm ơn Phịng thí nghiệm Truyền thơng Đa phương tiện (MMLab),
Trường Đại học Công nghệ Thông tin, ĐHQG-HCM đã hỗ trợ chúng tơi trong q trình nghiên cứu và thực nghiệm.


580

THỬ NGHIỆM HỆ THỐNG NHẬN DIỆN KHUÔN MẶT TRÊN VIDEO ĐƯỢC STREAM TỪ DRONE

TÀI LIỆU THAM KHẢO
[1] [1] N. H. Motlagh, M. Bagaa, and T. Taleb. UAV-Based IoT Platform: A Crowd Surveillance Use Case. IEEE COMML, 55(2),
2017.
[2] [2] Chen, W., Huang, H., Peng, S. et al. YOLO-face: a real-time face detector. Vis Comput, 2020.
/>[3] Ren, S., He, K., Girshick, R., & Sun, J., Faster R-CNN: towards real-time object detection with region proposal networks. IEEE
transactions on pattern analysis and machine intelligence, 39(6), 1137-1149, 2016.
[4] Qiao, Siyuan, Liang-Chieh Chen, and Alan Yuille. "Detectors: Detecting objects with recursive feature pyramid and switchable
atrous convolution", arXiv preprint arXiv:2006.02334, 2020.
[5] Tan, Mingxing, Ruoming Pang, and Quoc V. Le. "Efficientdet: Scalable and efficient object detection", Proceedings of the
IEEE/CVF conference on computer vision and pattern recognition, 2020.
[6] Liu, Wei, et al. "Ssd: Single shot multibox detector", European conference on computer vision. Springer, Cham, 2016.
[7] Bochkovskiy, Alexey, Chien-Yao Wang, and Hong-Yuan Mark Liao. "Yolov4: Optimal speed and accuracy of object
detection", arXiv preprint arXiv:2004.10934, 2020.
[8] Yang, Shuo, et al. "Wider face: A face detection benchmark", Proceedings of the IEEE conference on computer vision and
pattern recognition, 2016.
[9] I. Kalra, M. Singh, S. Nagpal, R. Singh, M. Vatsa and P. B. Sujit, "DroneSURF: Benchmark Dataset for Drone-based Face
Recognition," 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), Lille, France, 2019,
pp. 1-7, doi: 10.1109/FG.2019.8756593.
[10] Alexey

Bochkovskiy.
Darknet:
Open
Source
Neural
Networks
in
Python.
Available
online:
(accessed on 2 November 2020).
[11] Sheng Chen, Yang Liu, Xiang Gao, and Zhen Han1, MobileFaceNets: Efficient CNNs for Accurate RealTime Face
Verification on Mobile Devices, CCBR 2018: Biometric Recognition pp 428-438.
[12] Deng, Jiankang, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. "Arcface: Additive angular margin loss for deep face
recognition", In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 4690-4699, 2019.
[13] Chen, Weijun, et al. "YOLO-face: a real-time face detector", The Visual Computer 37.4: 805-813, 2021.

EVALUATING VIDEO FACE RECOGNITION SYSTEM STREAM FROM DRONE
Song Luong, Nguyen Vo, Khang Nguyen
ABSTRACT: Building a suggestion system for Drone/Flycam operators to find the desired object in a live crowd is very
challenging. In this study, we build a test system for the problem of detecting and identifying faces directly in videos streamed
from Drones. The system uses a client-server model, and the client and server communicate with each other through the REST
API. Particularly, the streaming system uses the RTMP-RTSP protocol, which is widely used in systems for live streaming
services. Pretrained model yolov4Tiny on WiderFace dataset is used for face detection, Mobilefacenet method is used to improve
face detection time. An additional open evaluation system over 16 self-collected videos from Drones to assess the possibility in
terms of time.




×