Tải bản đầy đủ (.pdf) (6 trang)

Hệ thống phát hiện và nhận diện mặt người sử dụng mô hình Squeezenet và SSD

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (839.63 KB, 6 trang )

Hệ Thống Phát Hiện Và Nhận Diện Mặt Người Sử Dụng
Mô Hình SQUEEZENET Và SSD
Lê Hà Nguyên(1*), Lê Đức Hùng (1**)
(1)

Phòng thí nghiệm DESLAB, Khoa Điện tử - Viễn thông,
Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia TP.HCM
Email: (*), (**)

Abstract — Trong bài báo này, chúng tôi đề xuất hệ thống phát
hiện và nhận diện khuôn mặt sử dụng mạng nhân chập sâu. Các
phương pháp gần đây chú trọng vào việc nâng cao độ chính xác,
trong khi có rất nhiều mô hình mạng nhân chập sâu có thể đạt
được độ chính xác có thể chấp nhận được. Hệ thống đề xuất sử
dụng các phương pháp, mô hình mạng nhân chập nhỏ, tập trung
vào tốc độ trong khi vẫn giữ được độ chính xác cần thiết. Cụ thể
chúng tôi sử dụng mô hình SqueezeNet và Single Shot Multibox
Detector (SSD). Việc sử dụng các mạng nhỏ giúp dễ huấn luyện,
triển khai và ứng dụng. Mô hình phát hiện khuôn mặt sử dụng
TinySSD, kết hợp giữa SSD và SqueezeNet, có AP 85% và đạt tốc
độ 110 fps, gấp đôi so với mô hình SSD gốc sử dụng mạng VGG16
trong khi yêu cầu 2.5% số lượng tham số. Mô hình nhận diện
khuôn mặt sử dụng SqueezeNet độ chính xác 98% trên tập dữ liệu
FDDB, ngang ngửa với con người, trong khi chỉ sử dụng 1% số
lượng tham số so với các mô hình như VGGFace, Facenet.
Keywords – Mạng nhân chập sâu, SSD, SqueezeNet.

1. GIỚI THIỆU
Phát hiện và nhận diện khuôn mặt là một trong những công
nghệ thiết yếu trong thời đại hiện nay.
Nhận diện khuôn mặt là một kỹ thuật nhận diện sinh học được


sử dụng rộng rãi, và luôn là một trong những vấn đề được nghiên
cứu kĩ lâu dài vào kĩ lưỡng nhất. Về cơ bản, các phương pháp
truyền thống thường dựa vào một hoặc hai tầng biểu diễn ví dụ
như đáp ứng của bộ lọc, biểu đồ thống kê tần số của các đặc
trưng,… Các phương pháp này thường tập trung vào việc tối ưu
từng thành phần như tiền xử lý, biến đổi đặc trưng,… dẫn đến
việc không có đột phá trong độ chính xác. Hơn nữa, các phương
pháp truyền thống chỉ tập trung vào một thay đổi với hình ảnh
như độ sáng, hướng nghiêng khuôn mặt, biểu cảm,… Kết quả
dẫn đến độ chính xác của các phương pháp “nông” truyền thống
không vượt qua con người và không phù hợp với các ứng dụng
thực tế. AlexNet [1] với phương pháp học sâu đã mở ra một cách
tiếp cận mới trong việc nhận diện vật thể nói chung và khuôn
mặt nói riêng.
Học sâu, cụ thể là mạng nhân chập sâu (Deep Convolutional
Neural Network – Deep CNN), sử dụng một tập hợp nhiều lớp
xử lý để trích xuất cũng như biến đổi đặc trưng. Các lớp đặc
trưng được học tương ứng với các mức độ trừu tượng khác nhau,
cho độ chính xác bất kể các hướng khuôn mặt, điều kiện ngoại

cảnh,… Các đặc trưng được học ở các lớp đầu tương ứng với
các đặc trưng được con người thiết kế (như đường thẳng,
góc,…), và các lớp phía sau mang tính trừu tượng cao mang lại
độ chính xác tương đương hoặc tốt hơn con người.
Phát hiện khuôn mặt là tiền đề cho những ứng dụng liên quan
đến khuôn mặt. Các phương pháp truyền thống sử dụng các thuật
toán đề xuất khu vực kết hợp với mô hình để nhận diện khuôn
mặt. Về mô hình nhận diện, với sự đa dạng của hình dáng khuôn
mặt, kèm theo các vật cản, điều kiện ánh sáng,… khiến cho việc
phát hiện khuôn mặt trong thực tế gặp nhiều khó khăn. Có nhiều

thuật toán phát hiện khuôn mặt, điển hình là Viola – Jones [2],
sử dụng các đặc trưng Haar và huấn luyện bằng AdaBoost, đã
đạt được hiệu năng tốt, đáp ứng được thời gian thực. Tuy nhiên,
khả năng phát hiện của Viola – Jones bị hạn chế với biến đổi
tương đối của khuôn mặt mặc dù có tăng số lượng lẫn độ phức
tạp của bộ phân loại. Một số thuật toán sử dụng mô hình với
thành phần có thể biến đổi (Deformable Part Model [3] – DPM)
đạt độ chính xác cao, tuy nhiên lại yêu cầu nhiều sức mạnh tính
toán, cùng với dữ liệu và quá trình huấn luyện đặc biệt. Các mô
hình mạng nhân chập sâu đạt khả năng cao trong việc nhận diện,
khiến cho việc xác định khuôn mặt trở nên chính xác hơn nhiều,
trong khi dữ liệu huấn luyện lại đơn giản. Hơn nữa, đã có một
số cách tiếp cận gộp chung thuật toán đề xuất khu vực và mô
hình nhận diện, điển hình như Faster RCNN [4], YOLO [5] và
SSD [6]. Các cách tiếp cận này giúp tăng tốc độ của các mô hình
phát hiện khuôn mặt dựa trên mạng nhân chập sâu lên mức có
thể đáp ứng trong thời gian thực.
Các mạng nhân chập sâu đã giúp cho vấn đề phát hiện và nhận
diện khuôn mặt có được độ chính xác cực kỳ cao. Tuy nhiên
điểm hạn chế của mạng nhân chập sâu chính là số phép tính toán
và số lượng tham số lớn, tương ứng với độ sâu của mạng. Điều
này làm giảm khả năng ứng dụng của các mạng nhân chập sâu.
Đa số các ứng dụng về phát hiện và nhận diện khuôn mặt
không thể sử dụng trực tiếp các mạng nhân chập mà phải sử dụng
các phương pháp với độ chính xác thấp hoặc sử dụng các máy
chủ thông qua mạng, dẫn đến độ trễ cao. Vì vậy, chúng ta cần
một hệ thống với độ chính xác cao, trong khi vẫn duy trì số lượng

138



phép tính toán cũng như số lượng tham số thấp cho các ứng dụng
với bộ nhớ và khả năng tính toán thấp.
Trong bài báo này, chúng tôi đề xuất một hệ thống sử dụng
SqueezeNet [7], một mô hình mạng nhân chập sâu với độ chính
xác tương đương AlexNet với số lượng tham số thấp, điều này
cũng đồng nghĩa với số lượng phép tính toán giảm và tốc độ
được cải thiện tương đối. Với vấn đề nhận diện khuôn mặt,
chúng tôi sử dụng SqueezeNet để trích xuất dữ liệu, cho ra một
vector nhúng 128 chiều để phân loại hai khuôn mặt, lấy ý tưởng
từ FaceNet [8] và VGGFace [9].
Sau đó, chúng tôi sử dụng thuật toán k-lân cận gần nhất để
phân loại nhiều khuôn mặt. Đối với vấn đề phát hiện khuôn mặt
(face detection), chúng tôi sử dụng TinySSD, bản chất là
SqueezeNet làm mạng cơ sở cho SSD (Single Shot Multibox
Detector), với việc tối ưu số lượng bộ lọc ở từng lớp, cùng với
đó là việc giảm số lượng bộ phân loại với tỷ lệ khung hình không
phù hợp với khuôn mặt.
Phần còn lại của bài báo được tổ chức như sau: Phần 2 mô tả
cụ thể mô hình của hệ thống nhận diện khuôn mặt và hệ thống
phát hiện khuôn mặt, ý tưởng của từng mô hình. Phần 3 sẽ mô
tả hàm mất mát và quá trình huấn luyện các mô hình này. Phần
4 sẽ là kết quả thực nghiệm của hệ thống. Cuối cùng, chúng tôi
kết luận bài báo ở Phần 5.

Hình 1. Mô hình hệ thống nhận diện khuôn mặt.

Hình 2. Mô hình SqueezeNet 1.1 dùng trong hệ thống nhận diện
khuôn mặt.
Bảng 1. Số lượng thông số của hệ thống nhận diện khuôn mặt

dựa trên SqueezeNet.
Tên lớp/
loại
Ảnh đầu
vào
Conv1
Max
pooling 1
Fire2
Fire3
Max
pooling 3
Fire4
Fire5
Max
pooling 8
Fire6
Fire7
Fire8
Fire9
Conv10
GAP
Dense_l2
Các lớp
BN

2. MÔ HÌNH HỆ THỐNG
2.1. Hệ thống nhận diện khuôn mặt
Chúng tôi sử dụng mô hình SqueezeNet 1.1 để trích xuất đặc
trưng. Để đầu ra của mạng là một vector nhúng, lớp fullyconnected (Dense_l2) được thêm vào sau lớp Global Average

Pooling (GAP). Chúng tôi không giảm số lượng bộ lọc lớp
Conv10 thành 128 (để lớp GAP ra được vector nhúng trực tiếp)
vì điều này có thể làm giảm số lượng đặc trưng cần thiết, và lớp
Dense_l2 có thể kết hợp các đặc trưng này lại. Ngoài ra, để dễ
huấn luyện, các lớp BatchNorm được thêm vào sau các lớp nhân
chập và fully-connected trước các hàm phi tuyến, trừ lớp
Conv10 vì đầu ra sẽ được lấy trung bình bởi lớp GAP. Chúng tôi
còn sử dụng thêm lớp Dropout sau lớp Conv10 với tỷ lệ giữ lại
80% để giúp mạng không bị quá khớp.
Chúng tôi sử dụng ảnh 160×160 để giảm số phép tính toán.
Ảnh đầu vào được chuẩn hóa bằng cách trừ 127.5 và chia cho
128. Vector nhúng có độ dài 128 là cân bằng giữa độ chính xác
và tốc độ tính toán cho bộ phân loại sau này. Tuy VGGFace [9]
sử dụng vector nhúng dài 4096 nhưng độ chính xác chỉ tương
đương FaceNet [8] sử dụng vector nhúng với độ dài 128.
Lớp L2 chia các phần tử của vector đầu vào cho L2 Norm của
vector đó. Việc này để chuẩn hóa các số trong vector nhúng để
các khoảng cách giữa các vector nằm trong khoảng [0,4] giúp
việc chọn khoảng cách phân biệt những cặp khuôn mặt khác
nhau dễ hơn.

Tổng cộng

Kích
thước bộ
lọc/bước

Độ
sâu


79 × 79 × 64

3×3/2

1

39 × 39 × 64

3×3/2

0

Kích thước
đầu ra

×

×

×

#thông
số

160 × 160 × 3

39 × 39 × 128
39 × 39 × 128
19 × 19 × 128


2
2
3×3/2

19 × 19 × 256
19 × 19 × 256
9 × 9 × 256
9 × 9 × 384
9 × 9 × 384
9 × 9 × 512
9 × 9 × 512
9 × 9 × 1000
1 × 1 × 1000
128

1×1/1
9 ×9/1

1,792

16
16

64
64

64
64

11,408

12,432

32
32

128
128

128
128

45.344
49,440

48
48
64
64

192
192
256
256

192
192
256
256

104,880

111,024
188,992
198,184
513,000

0
2
2

3 ×3/2

64

0
2
2
2
2
1
0
1

1000

128,128
12,288
1,375,
912

Bảng 2. So sánh số lượng tham số của mô hình đề xuất sử dụng

SqueezeNet và các mô hình khác.
Mô hình
Số tham số
Tỷ lệ
SqueezeNet 1.1
1,375,912
FaceNet
1,600,000,000
0.086%
VGGFace
138,000,000
0.997%

2.2. Hệ thống phát hiện khuôn mặt
Sử dụng TinySSD [10] là mô hình dựa trên SSD, sử dụng
SqueezeNet 1.1 làm mạng cơ sở và tinh chỉnh số lượng bộ lọc
cho các lớp nhân chập. Với nhận diện khuôn mặt, việc chúng tôi
sử dụng ít tỷ lệ khung hình hơn (1:1, 1:2 và 2:1), cùng với số
lượng loại vật thể chỉ có 1 (khuôn mặt), dẫn đến số lượng bộ lọc
trong bộ dự đoán giảm. Chúng tôi sử dụng Batch Norm cho các
Fire Module và nhân chập (không có trong bộ dự đoán) từ lớp
giãn nở của Fire9.

139


softmax, giúp giữ các đặc trưng của các loại khác nhau tách biệt.
Hàm mất mát trung tâm được cho bởi:
=


Hình 4. Mô hình mạng cơ sở SqueezeNet 1.1 cho TinySSD.

=

Bảng 3. Kiến trúc mạng và số lượng thông số của hệ thống
phát hiện khuôn mặt dựa trên TinySSD.
Kích
thước bộ
lọc/bước

Độ
sâu

300 × 300 × 3
149 × 149 × 57

3×3/2

1

74 × 74 × 57

3×3/2

0

Kích thước
đầu ra

Đầu vào

Conv1
Max
pooling 1
Fire2
Fire3
Max
pooling 3
Fire4
Fire5
Max
pooling 5
Fire6
Fire7
Fire8
Fire9
Max
pooling 9
Fire10
Max
pooling 10
Fire11
Conv12_1
Conv12_2
Conv13_1
Conv13_2
Bộ dự
đoán
Các lớp
BN
Tổng cộng


74 × 74 × 102
74 × 74 × 106
37 × 37 × 106

2
2
3×3/2

37 × 37 × 186
37 × 37 × 173
18 × 18 × 173

3 ×3/2

9 × 9 × 83

3×3/2

×

57

1,596

15
15

49
54


53
52

8,862
9,481

29
29

92
90

94
83

30,491
29,869

44
45
49
25

166
155
163
29

161

146
171
54

79,043
81,166
98,530
21,333

37

45

56

23,522

38

41
51
46
55
85

44

20,567
4,335
21,114

2,530
42,075

0
2
2
2
2

9 × 9 × 101

×

=−

#thông
số

0
2
2

18 × 18 × 327
18 × 18 × 301
18 × 18 × 334
18 × 18 × 83

×

0

2

4 × 4 × 101

3×3/2

0

4 × 4 × 85
4 × 4 × 51
2 × 2 × 46
2 × 2 × 55
1 × 1 × 85

3×3/1
3×3/2
3×3/1
3×3/2

2
1
1
1
1

3 ×3/1

(1)




Với
∈ ℝ là trung tâm của các đặc trưng của loại thứ
với ví dụ đầu vào . Thay vì sử dụng toàn bộ tập dữ liệu huấn
luyện để cập nhập các trung tâm, chúng tôi cập nhập dựa trên
từng mini-batch: tại mỗi lần lặp, các trung tâm sẽ được tính bằng
cách lấy trung bình các đặc trưng của từng loại tương ứng (một
vài trọng tâm sẽ không được cập nhập). Và để tránh các nhiễu từ
các ví dụ sai, chúng tôi sử dụng một biến để kiểm soát tốc độ
học của các trung tâm
= − Δ .
Kết hợp với hàm mất mát softmax, hàm mất mát tổng cộng là
(chúng tôi huấn luyện với bằng 0.03):

Hình 3. Mô hình hệ thống phát hiện khuôn mặt sử dụng TinySSD.

Tên lớp/
loại

1
2

+
+



(2)




2

Chúng tôi sử dụng tập dữ liệu VGGFace2 [12] với 3.31 triệu
khuôn mặt của 9,131 người. Chất lượng của bộ dữ liệu này rất
tốt, dẫn đến kết quả tốt và thời gian huấn luyện thấp (dưới 30
giờ, so với khoảng 1000-2000 giờ để huấn luyện FaceNet [8]).
Các bức ảnh được cắt sát khuôn mặt và không sử dụng các
phép biến đổi quang học nào, chỉ sử dụng các phép biến đổi kích
thước, vị trí và lật theo chiều dọc. Chúng tôi sử dụng Adam để
tối ưu với tốc độ học giảm 10 lần mỗi 3 lần đi qua hết bộ dữ liệu
(epoch), bắt đầu từ 0.001.
3.2. Hệ thống phát hiện khuôn mặt
Chúng tôi sử dụng hàm mất mát tương tự như của SSD [6].
Hàm mất mát này là tổng có hệ số của hàm mất mát khi xác định
vị trí và hàm mất mát của xác suất của loại vật thể có trong viền
bao.
( , , , )=

1

( , )+

( , , )

(3)



(4)


Trong đó:
( , , )=

123,912




3,016

=

601,442



∈{

,

/

=

Bảng 4. So sánh số lượng tham số của mô hình đề xuất sử dụng
TinySSD và SSD truyền thống (SSD300).
Mô hình
Số thông số
Tỷ lệ

TinySSD
601,442
SSD
23,745,908
2.533%

, , )

,

=

,

=



/

(5)
(6)

Và:
( , )=−
̂


3. HÀM MẤT MÁT VÀ HUẤN LUYỆN


̂ =

3.1. Hệ thống nhận diện khuôn mặt
Hàm mất mát trung tâm [11] là hàm mất mát giúp tăng cường
tính tách biệt giữa các đặc trưng đã được học, bằng cách tối thiểu
hóa sự khác nhau trong cùng một loại, kết hợp với hàm mất mát

̂



(7)





(8)

Chúng tôi sử dụng bộ dữ liệu WIDER Face Training [12] để
huấn luyện. Với mô hình (tương đối nhỏ) này việc sử dụng tăng
cường dữ liệu (Data Augmentation) tương tự như SSD không

140


đem lại khả năng phát hiện tốt hơn, thậm chí có trường hợp cho
độ chính xác thấp hơn, trong khi làm cho quá trình huấn luyện
lâu hội tụ hơn rất nhiều. Chúng tôi chỉ sử dụng ảnh nguyên gốc
hoặc một phần ảnh có IoU > 0.5 so với khuôn mặt, hoặc phần

ảnh không có khuôn mặt để huấn luyện.
Chúng tôi sử dụng Adam để tối ưu với thông số tương tự như
hệ thống nhận diện khuôn mặt.
4. KẾT QUẢ
Các kết quả được đo trên máy tính với CPU i5-3470 4 lõi ở
tốc độ 3.2 GHz, GPU Nvidia GTX 1070, 8GB RAM, Kubuntu
18.04, Nvidia driver 390.116, CUDA 9.0, cuDNN 7.5.0.
4.1. Hệ thống nhận diện khuôn mặt
Chúng tôi sử dụng bộ dữ liệu LFW [13] (Labeled Face in the
Wild) để đánh giá. LFW gồm hơn 13,000 ảnh khuôn mặt. Các
bức ảnh này khá rõ nét và các khuôn mặt được chụp chính diện.
Độ chính xác và đường ROC của mô hình trong hệ thống so với
các mô hình khác được mô tả ở Bảng 5 và Hình 5.
Về mặt tốc độ, chúng tôi đo đạc bằng cách cho mô hình cho
ra vector nhúng của một khuôn mặt 100 lần sau khi chạy 100 lần
khởi động. Thời gian mô hình yêu cầu là 6.08 ms và 12.72 ms
cho mỗi khuôn mặt, tương ứng khi chạy trên GPU và CPU.
4.2. Hệ thống phát hiện khuôn mặt
Chúng tôi sử dụng tập dữ liệu FDDB [14] với 5171 khuôn mặt
trong 2845 bức ảnh để đánh giá. Tập dữ liệu FDDB đo theo
precision và số lượng FP. Vì một số lý do, chúng tôi không sử
dụng được công cụ đo đạc của FDDB. Thay vào đó, chúng tôi
sử dụng cách đo sử dụng do việc phát hiện vật thể nói chung
bằng AP theo Recall và Precision. Hệ thống đạt 84.1% Average
Precision (AP). Để so sánh, AP của TinySSD [10] trên tập dữ
liệu nhận diện vật thể PASCAL VOC 2007 là 61.3%. Cũng lưu
ý rằng tập dữ liệu này chứa khá nhiều ảnh với tỷ lệ khung hình
không tối ưu với đầu vào của hệ thống (1:1), vì vậy, kết quả có
thể thấp hơn khả năng thật sự.
Về mặt tốc độ, mô hình đề xuất sử dụng TinySSD đạt tốc độ

gấp đôi SSD truyền thống. Chúng tôi đo đạc bằng cách cho mô
hình nhận và trả kết quả 100 lần ảnh liên tục sau khi đã chạy
trước 100 lần khởi động.
Chi tiết về đường ROC và tốc độ của mô hình TinySSD sử
dụng trong hệ thống được mô tả ở Bảng 6 và Hình 6.
Bảng 5. So sánh độ chính xác của các mô hình nhận diện khuôn mặt
trên bộ dữ liệu LFW
Độ chính xác với bộ dữ
Mô hình
liệu LFW
SqueezeNet 1.1
98.05 ± 0.568%
FaceNet
99.55 ± 0.342%
EigenFace
60.02 ± 0.79%
Con người (với ảnh sát khuôn mặt)
97.53%

141

Hình 5. Đường ROC của các mô hình nhận diện khuôn mặt trên
bộ dữ liệu LFW.

Hình 6. Đường ROC của TinySSD trên bộ dữ liệu FDDB.

Bảng 6. So sánh tốc độ của TinySSD và các mô hình khác.
Tốc độ trên CPU
Tốc độ trên GPU
Mô hình

(fps)
(fps)
TinySSD
37.91
110.04
SSD300
1.96
53.15
Viola – Jones*
8.7 /17.3
*Sử dụng ảnh 960×720 để có độ chính xác cao, với ảnh 640×480 đạt 17.3 fps.


4.3. Hệ thống phát hiện và nhận diện khuôn mặt
Hệ thống này là sự kết hợp giữa hệ thống phát hiện khuôn mặt
và hệ thống nhận diện khuôn mặt: sau khi có được các vị trí
khuôn mặt từ hệ thống phát hiện khuôn mặt với ảnh 300×300,
hệ thống lấy mẫu lại từng vùng ảnh có khuôn mặt với độ phân
giải 160×160, sau đó cho qua hệ thống nhận diện khuôn mặt.
Việc sử dụng riêng hai hệ thống là để tận dụng tốc độ của việc
phát hiện khuôn mặt với ảnh độ phân giải thấp và độ chính xác
của việc nhận diện khuôn mặt với ảnh có độ phân giải cao.
Chúng tôi chạy hệ thống với một bức ảnh (có 3 khuôn mặt)
100 lần, sau khi chạy 100 lần để khởi động. Tốc độ của hệ thống
khi chạy với GPU là 35.51 fps và với CPU là 10.15 fps.
5. KẾT LUẬN
5.1. Nhận xét
Hệ thống nhận diện khuôn mặt tuy chỉ sử dụng chưa đến 1%
số lượng tham số của FaceNet [8] và VGGFace [9] nhưng đã đạt
được độ chính xác là 98% ngang ngửa độ chính xác của con

người (97.5%). Tuy nhiên, các hình ảnh được sử dụng có chất
lượng khá tốt, ít bị nhiễu, sáng và khuôn mặt thường được chụp
trực diện. Đối với các ảnh thường thấy trong thực tế (bị nhiễu
hoặc tối), độ chính xác sẽ không được như vậy.
Việc sử dụng SqueezeNet có thể được thay thế bởi các mạng
như MobileNet hoặc ShuffleNet với số phép tính toán thấp hơn,
tuy nhiên SqueezeNet có số lượng tham số và độ trễ thấp hơn
trong thực tế [15].
Đối với các hệ thống ưu tiên bảo mật, việc nhận diện khuôn
mặt phải đạt độ chính xác cao hơn nữa. Chính vì vậy, các mô
hình phức tạp thường được ưu tiên, mặc dù số lượng tham số và
phép tính toán cần thiết là rất lớn.
Hệ thống phát hiện khuôn mặt sử dụng TinySSD [10] giảm
đáng kể số lượng tham số và tăng gấp đôi tốc độ so với SSD [6]
nguyên gốc. Điều này phù hợp với số lượng loại vật thể ít như
việc nhận diện khuôn mặt. Tốc độ của hệ thống đã đạt ngưỡng
có thể sử dụng thời gian thực, trong khi độ chính xác cao hơn
mô hình Viola – Jones truyền thống.
TinySSD dựa trên mô hình SSD nên sẽ bị một số khuyết điểm
từ mô hình này:
- Mô hình SSD tuy sử dụng nhiều lớp nhân chập để phát hiện
nhiều tỷ lệ kích thước khác nhau nhưng kết quả nhận diện giữa

các lớp giữa mạng và cuối mạng sẽ khác nhau. Mặc dù các lớp
nhân chập ở phía đầu mạng có trường tiếp nhận nhỏ giúp cho
việc nhận diện các vật thể nhỏ, nhưng điều này tương đương
với việc các giá trị ở các lớp nhân chập này sẽ mang ít ý nghĩa
biểu diễn vật thể. Trong khi đó các lớp nhân chập phía sau sẽ
kết hợp các thông tin từ các lớp phía trước giúp phát hiện các
vật thể phức tạp hơn như khuôn mặt. Tóm lại, các vật thể phức

tạp nhỏ hoặc ở xa sẽ không được phát hiện bởi các lớp nhân
chập trong các bộ phát hiện ở phía đầu mạng.
- SSD sử dụng ảnh kích thước đầu vào nhỏ để tăng tốc độ, tuy
nhiên, với các vật thể nhỏ như khuôn mặt khi ở xa, ảnh sau khi
thu nhỏ lại sẽ khó phát hiện được khuôn mặt. Tuy nhiên nếu
tăng kích thước ảnh đầu vào từ 300×300 lên 512×512, tốc độ
mạng sẽ giảm khoảng 3 lần.
- Số lượng khuôn mặt bị giới hạn bởi số viền mặc định. Tuy
nhiên, số lượng viền mặc định hiện tại cũng khá đủ với kích
thước ảnh đầu vào của mạng.
- Hệ thống sử dụng ảnh đầu vào vuông, làm cho các hình ảnh từ
camera góc rộng sẽ không sử dụng được.
Chúng tôi huấn luyện sử dụng tập dữ liệu WIDER FACE [12]
với nhiều khuôn mặt nhỏ, không phù hợp với các mô hình dựa
trên SSD, làm mô hình phát hiện khuôn mặt hội tụ chậm.
So với YOLO [5], SSD [6] tận dụng kết quả từ các lớp nhân
chập ở giữa mạng thay vì chỉ một lớp cuối cùng để phát hiện các
vật thể có kích thước tương đối. Tuy YOLOv3 đã cải thiện điều
này, TinyYOLO với tốc độ cao hơn chỉ sử dụng lớp cuối cùng.
RetinaNet [16] sử dụng một thêm một mạng để kết hợp kết
quả từ các lớp phía sau vào các lớp phía trước để tăng độ chính
xác với các vật thể nhỏ. Tuy nhiên, các khuôn mặt quá nhỏ lại
có độ chính xác thấp khi nhận diện khuôn mặt. Chính vì vậy,
việc giảm tốc độ để thêm vào một mạng nhận chập không phù
hợp với mục tiêu của bài báo này.
5.2. Kết luận
Bài báo này đã trình bày hệ thống phát hiện khuôn mặt và hệ
thống nhận diện khuôn mặt dựa trên nền tảng của mạng nhân
chập sâu giúp cải thiện độ chính xác so với các cách tiếp cận
truyền thống. Hai hệ thống trên dựa vào mạng SqueezeNet 1.1

và mô hình SSD (TinySSD) làm nền tảng cho việc cải thiện tốc
độ, đáp ứng được thời gian thực.

TÀI LIỆU THAM KHẢO
[1]

[2]

[3]

Krizhevsky, A., Sutskever, I., and Hinton, G. E. “ImageNet classification
with deep convolutional neural net-works.” In NIPS, pp. 1106–1114,
2012.
Viola, P., Jones, M. “Rapid object detec-tion using a boosted cascade of
simple features.” In Proceedings, IEEE Conference on ComputerVision
and Pattern Recognition, 2001.
P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ra-manan. “Object
detection with discriminatively trained partbased models” .TPAMI, 2010.

[4]
[5]
[6]

142

Ren, S., He, K., Girshick, R., Sun, J.: Faster R-CNN: Towards real-time
object detectionwith region proposal networks. In: NIPS, 2015.
Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: “You only look once:
Unified, real-timeobject detection”. In: CVPR, 2016.
W. Liu et al., “SSD: Single Shot MultiBox Detector,” arXiv:1512.02325

[cs], vol. 9905, pp. 21–37, 2016.


[7]

F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally, and K.
Keutzer, “SqueezeNet: AlexNet-level accuracy with 50x fewer
parameters and <0.5MB model size,” arXiv:1602.07360 [cs], Feb. 2016.
[8] F. Schroff, D. Kalenichenko, and J. Philbin, “FaceNet: A Unified
Embedding for Face Recognition and Clustering,” 2015 IEEE Conference
on Computer Vision and Pattern Recognition (CVPR), pp. 815–823, Jun.
2015.
[9] Omkar M. Parkhi, Andrea Vedaldi, Andrew Zisserman, “Deep Face
Recognition,” 2015.
[10] Wong, M. J. Shafiee, F. Li, and B. Chwyl, “Tiny SSD: A Tiny Single-shot
Detection Deep Convolutional Neural Network for Real-time Embedded
Object Detection,” arXiv:1802.06488 [cs], Feb. 2018.
[11] Yandong Wen, Kaipeng Zhang, Zhifeng Li, and Yu Qiao, “A
Discriminative Feature Learning Approachfor Deep Face Recognition,”
CCV 2016, Part VII, LNCS 9911, pp. 499–515, 2016.

[12] Yang, Shuo and Luo, Ping and Loy, Chen Change and Tang, Xiaoou,
“WIDER FACE: A Face Detection Benchmark”, IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), 2016.
[13] Huang, G., Ramesh, M., Berg, T., Learned-Miller, E.: “Labeled facesin
the wild: A database for studying face recognition in unconstrained
environments”. In: University of Massachusetts, Amherst, Technical
Report 07-49, 2007.
[14] V. Jain and E. Learned-Miller, “FDDB: a benchmark for facedetection in
unconstrained settings”. Technical Report UM-CS-2010-009, University

of Massachusetts, Amherst, 2010.
[15] Simone Bianco, Remi Cadene and Luigi Celona and Paolo Napoletano,
“Benchmark Analysis of Representative Deep Neural Network
Architectures”, CoRR, 2018.
[16] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Doll ́ar. “Focalloss for
dense object detection”. InICCV, 2017.

Hình 7. Một số ảnh ví dụ kết quả của hệ thống phát hiện và nhận diện khuôn mặt đề xuất. Các khuôn mặt được đánh tên là các
khuôn mặt đã được đưa vào bộ khuôn mặt có sẵn để nhận diện.

143



×