Tải bản đầy đủ (.pdf) (178 trang)

Phương pháp nhận dạng khuôn mặt trong điều kiện đơn mẫu dựa trên độ đo lt mhd

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (15.15 MB, 178 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐẶNG NGUYÊN CHÂU

PHƯƠNG PHÁP NHẬN DẠNG KHUÔN
MẶT TRONG ĐIỀU KIỆN ĐƠN MẪU
DỰA TRÊN ĐỘ ĐO LT-MHD

LUẬN ÁN TIẾN SĨ

TP. HỒ CHÍ MINH - NĂM 2022


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐẶNG NGUYÊN CHÂU

PHƯƠNG PHÁP NHẬN DẠNG KHUÔN
MẶT TRONG ĐIỀU KIỆN ĐƠN MẪU
DỰA TRÊN ĐỘ ĐO LT-MHD

Chuyên ngành: Kỹ thuật Viễn Thông
Mã số chuyên ngành: 62520208
Phản biện độc lập: PGS. TS. Phan Văn Ca
Phản biện độc lập: PGS. TS. Trần Công Hùng
Phản biện: PGS. TS. Phạm Hồng Liên
Phản biện: TS. Lê Xuân Vinh
Phản biện: TS. Trần Trung Duy
NGƯỜI HƯỚNG DẪN: PGS. TS. ĐỖ HỒNG TUẤN




LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các
kết quả nghiên cứu và các kết luận trong luận án này là trung thực, và không
sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham
khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham
khảo đúng quy định.

Tác giả luận án

ĐẶNG NGUYÊN CHÂU

i


ABSTRACT
Face recognition with only one image or single sample for each person (SSPP)
in database is an important problem in face recognition field because the
recognition rates of all face recognition methods seriously drop in the case
of SSPP problem. In recent decades, various face recognition methods have
been proposed for solving the SSPP problem. In comparing with other face
recognition methods, the local feature based face recognition methods are
simple and easy to deploy in real face recognition applications. Edge pixel is
a local feature widely used in face recognition methods because edge pixel is
the reflecting of the face structure. Edge pixel is also a variant feature with
non-ideal conditions of face image, especially with different lighting conditions
of face image.
The Modified Hausdorff Distance (MHD) is an efficient and widely used distance in face recognition field. A lot of SSPP face recognition methods, that
use edge pixel as local feature of face image, use the MHD for measuring

the dissimilarity between two sets of feature of face images. In this study, a
novel Hausdorff distance-based distance is proposed, the Least Trimmed Modified Hausdorff Distance (LT-MHD). Based on the proposed distance, two face
recognition in SSPP condition methods are proposed, the Least Trimmed Line
Hausdorff Distance (LT-LHD) method and the Least Trimmed New Modified
Hausdorff Distance (LT-NMHD) method. The experimental results of recognition rates of the LT-NMHD method and the LT-LHD method prove the efficiency of using the LT-MHD for measuring the distance between two sets of
face image feature. By using the LT-MHD, the recognition rate of face recognition methods increase 2-10% in comparing with the case using the MHD
for measuring the distance between two sets of face image feature. Moreover,
the recognition rates of the LT-LHD method and the LT-NMHD method are
compared with various face recognition methods, which are proposed in recent
years, in SSPP situation. In the same condition of experiment, both proposed
face recognition methods give very high recognition rate in comparing with
other face recognition methods. Especially, the recognition rate of the LT-LHD
method is 2-11% higher than the recognition rates of state-of-art SSPP face
recognition methods over the past five years.
The computational complexity is a disadvantage of the LT-MHD. This makes
ii


the computational complexities of the face recognition methods that use LTMHD, i.e. the LT-LHD method and the LT-NMHD method, become very
high. In CAD/CAM/CAE field, a lot of methods were proposed with the
purposed reducing the computational complexity of Hausdorff computing, in
recent decade. The EARLYBREAK method and the Local Start Search (LSS)
method are two state-of-art methods for reducing the complexity of Hausdorff distance computing. In this study, the EARLYBREAK method is used
for reducing the computational complexity the LT-LHD method and the LSS
method is used for reducing the computational complexity of the LT-NMHD
method. The experimental results show that computational complexities of the
LT-LHD method and the LT-NMHD method decrease 67% and 17%, respectively. These results demonstrate the efficiency of using the EARLYBREAK
method and the LSS method for reducing the face recognition methods using
the LT-MHD.
Moreover, in this research, a model, that is a combination of a convolutional

neural network (CNN) model with the LT-MHD distance, for face image feature extraction is proposed. The LT-MHD distance is used as the loss function
of the CNN model instead of the cross-entropy loss function. The experimental
result shows that by using the LT-MHD distance as the loss function makes
an improvement of recognition rate of the model up to 43%.

iii


TĨM TẮT LUẬN ÁN
Nhận dạng khn mặt trong điều kiện chỉ có một ảnh cho mỗi người trong cơ
sở dữ liệu, single sample per person (SSPP), là một bài toán cực kì quan trọng
trong lĩnh vực nhận dạng khn mặt vì tỷ lệ nhận dạng của các phương pháp
đều bị ảnh hưởng nghiêm trọng trong điều kiện SSPP. Trong những năm qua,
đã có rất nhiều các phương pháp nhận dạng khn mặt được đề xuất nhằm
giải quyết bài tốn SSPP. Trong đó, so sánh với các phương pháp nhận dạng
khn mặt khác, nhóm phương pháp nhận dạng khn mặt dựa trên các đặc
trưng cục bộ được đánh giá là đơn giản hơn và dễ dàng triển khai trong các
ứng dụng thực tế. Các pixel cạnh là một đặc trưng cục bộ được sử dụng rộng
rãi trong lĩnh vực nhận dạng khn mặt vì đặc trưng này phản ánh rất tốt
cấu trúc của khn mặt. Bên cạnh đó, các đặc trưng này bền vững với các
điều kiện không lý tưởng của ảnh đầu vào, nhất là các điều kiện chiếu sáng
khác nhau của ảnh đầu vào.
Khoảng cách Hausdorff trung bình, là một phép đo hiệu quả được sử dụng rộng
rãi trong lĩnh vực nhận dạng khuôn mặt. Các phương pháp nhận dạng khuôn
mặt trong điều kiện SSPP sử dụng đặc trưng cục bộ là các pixel cạnh thường
sử dụng khoảng cách Hausdorff trung bình để đo sự giống nhau giữa hai tập
hợp các đặc trưng của ảnh khuôn mặt. Trong nghiên cứu này, chúng tôi sẽ đề
xuất một phép đo mới dựa trên khoảng cách Hausdorff, khoảng cách Hausdorff
trung bình các giá trị lớn nhất, Least Trimmed Modified Hausdorff Distance
(LT-MHD). Dựa trên khoảng cách mới được đề xuất, chúng tôi đề xuất hai

phương pháp nhận dạng khuôn mặt trong điều kiện SSPP, phương pháp Least
Trimmed Line Hausdorff Distance (LT-LHD) và phương pháp Least Trimmed
New Modified Hausdorff Distance (LT-NMHD). Các kết quả mô phỏng về
tỷ nhận dạng khuôn mặt của hai phương pháp LT-NMHD và LT-LHD đã
chứng minh sự hiệu quả của việc dùng khoảng cách LT-MHD thay vì khoảng
cách Hausdorff trung bình. Việc sử dụng khoảng cách LT-MHD giúp làm tăng
tỷ lệ nhận dạng khuôn mặt khoảng 2-10% so với việc sử dụng khoảng cách
Hausdorff trung bình tùy vào điều kiện khác nhau của ảnh đầu vào. Bên cạnh
đó, tỷ lệ nhận dạng của hai phương pháp LT-NMHD và LT-LHD cũng được
so sánh với một số phương pháp nhận dạng khuôn mặt trong điều kiện SSPP
khác được đề xuất trong những năm gần đây. Các kết quả nhận dạng trong
cùng một điều kiện mô phỏng cũng cho thấy rằng hai phương pháp LT-LHD
iv


và LT-NMHD cho kết quả nhận dạng khá tốt. Đặc biệt, phương pháp LT-LHD
cho tỷ lệ nhận dạng khuôn mặt cao hơn khoảng 2-11% so với các phương pháp
nhận dạng khuôn mặt trong được đề xuất trong 5 năm gần đây.
Độ phức tạp tính tốn rất cao là một nhược điểm của các khoảng cách Hausdorff trung bình và LT-MHD. Điều này làm cho các phương pháp nhận dạng
khuôn mặt như LT-LHD và LT-NMHD có độ phức tạp tính tốn cũng rất
cao. Các nhà nghiên cứu trong các lĩnh vực CAD/CAM/CAE đã đưa ra rất
nhiều các phương pháp khác nhau nhằm làm giảm độ phức tạp của phép tính
khoảng cách Hausdorff và nổi tiếng nhất là hai phương pháp EARLYBREAK
và Local Start Search (LSS). Trong nghiên cứu này, chúng tôi sẽ áp dụng
phương pháp EARLYBREAK để làm giảm độ phức tạp tính tốn cho phương
pháp LT-LHD. Đồng thời, chúng tơi cũng áp dụng phương pháp LSS để làm
giảm độ phức tạp tính tốn cho phương pháp LT-NMHD. Các kết quả mơ
phỏng cũng cho thấy độ phức tạp tính tốn của các phương pháp LT-LHD và
phương pháp LT-NMHD giảm lần lượt là 67% và 17%. Điều này cho thấy sự
hiệu quả khi áp dụng các phương pháp như EARLYBREAK hay LSS để làm

giảm độ phức tạp tính tốn cho các phương pháp nhận dạng khuôn mặt dựa
trên khoảng cách Hausdorff trung bình.
Trong nghiên cứu này, một mơ hình trích đặc trưng ảnh khuôn mặt bằng cách
kết hợp giữa một mạng CNN cùng khoảng cách LT-MHD cũng được đề xuất.
Khoảng cách LT-MHD được sử dụng như hàm mất mát ngõ ra của mạng CNN
thay vì hàm cross-entropy. Các kết quả mơ phỏng cho thấy việc thay đổi này
giúp làm tăng tỷ lệ nhận dạng của mơ hình lên đến 43%.

v


LỜI CÁM ƠN
"Khơng ai có thể thành cơng một mình" là câu nói mà tơi ln tâm đắc và
ghi nhớ. Hồn thành Luận án Tiến sĩ có thể được xem như một thành công
của riêng cá nhân tôi. Bên cạnh sự nỗ lực khơng ngừng nghỉ của bản thân thì
thành công này cũng sẽ không thể đến với tôi nếu thiếu đi sự giúp đỡ, động
viên và chia sẻ của những người thầy, người bạn, đồng nghiệp và người thân
trong gia đình của tơi.
Đầu tiên, tơi xin gửi lời cảm ơn sâu sắc đến người thầy của tôi, PGS. TS. Đỗ
Hồng Tuấn. Thầy Tuấn là người thầy đã dẫn dắt tơi trên con đường học thuật
từ khi tơi cịn là một sinh viên năm cuối tại trường Đại học Bách Khoa cho
đến khi tơi hồn thành luận án này. Trong suốt q trình làm luận án, tơi đã
nhận được rất nhiều những nhận xét, góp ý từ thầy để từ đó tơi có thể làm
tốt hơn các nghiên cứu của mình.
Tiếp theo tơi xin gửi lời cảm ơn đến thầy GS. TS. Lê Tiến Thường, thầy PGS.
TS. Đặng Thành Tín, TS. Trương Quang Vinh và PGS. TS. Hà Hoàng Kha,
những người đã có rất nhiều các ý kiến đóng góp cho luận án của tôi thông
qua các chuyên đề Tiến sĩ mà tôi thực hiện. Tôi cũng xin gửi lời cảm ơn chân
thành đến một người bạn, người anh của tôi, TS. Chế Viết Nhật Anh, người
đã động viên và giúp đỡ tơi rất nhiều trong suốt q trình làm nghiên cứu để

tôi cảm thấy tự tin hơn về bản thân.
Bên cạnh đó, tơi cũng xin gửi lời cảm ơn đến Ban chủ nhiệm khoa Điện - Điện
tử, các quý thầy cô tại Bộ môn Viễn Thông, những người đã chia sẻ, giúp đỡ
tôi rất nhiều trong công tác để tơi có thể hồn thành tốt nhiệm vụ của một
giảng viên cũng như nhiệm vụ của một nghiên cứu sinh.
Và cuối cùng, nhưng quan trọng nhất, tôi muốn được gửi lời cảm ơn sâu sắc
đến ba mẹ tôi, vợ và hai con nhỏ của tôi cũng những người thân trong gia đình
vì đã ở bên cạnh tơi hỗ trợ và động viên tôi về mặt tinh thần cũng như sự
chia sẻ về cơng việc gia đình để tơi có thêm thời gian hồn thành các nghiên
cứu của mình.
Tơi xin chân thành cảm ơn.

Tp. Hồ Chí Minh, tháng 12 năm 2020
ĐẶNG NGUYÊN CHÂU

vi


MỤC LỤC
DANH MỤC HÌNH VẼ

xii

DANH MỤC BẢNG BIỂU

xiii

DANH MỤC TỪ VIẾT TẮT

xv


1 GIỚI THIỆU
1.1 Giới thiệu về nhận dạng khuôn mặt và bài tốn SSPP trong nhận
khn mặt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Lý do chọn đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Mục tiêu đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Các đóng góp chính của nghiên cứu . . . . . . . . . . . . . . . . . .
1.5 Bố cục luận án . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1
dạng
. . .
. . .
. . .
. . .
. . .

2 CƠ SỞ LÝ THUYẾT
2.1 Các phương pháp nhận dạng khuôn mặt trong điều kiện SSPP . . . . . .
2.1.1 Các phương pháp nhận dạng khn mặt sử dụng các đặc trưng tồn
cục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Các phương pháp nhận dạng khuôn mặt sử dụng các đặc trưng cục
bộ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.3 Các phương pháp nhận dạng khuôn mặt dựa trên việc tạo thêm ảnh
ảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.4 Các phương pháp nhận dạng khuôn mặt dựa trên việc sử dụng thêm
tập dữ liệu chung . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.5 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Các phương pháp giảm độ phức tạp phép tính khoảng cách Hausdorff . .
2.2.1 Khoảng cách Hausdorff . . . . . . . . . . . . . . . . . . . . . . . .

2.2.2 Các phương pháp dựa trên cấu trúc R-Tree . . . . . . . . . . . .
2.2.3 Phương pháp EARLYBREAK . . . . . . . . . . . . . . . . . . . .
2.2.4 Phương pháp Local Start Search - LSS . . . . . . . . . . . . . . .
2.2.5 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii

.
.
.
.
.

1
3
4
6
7

.

9
9

.

9

. 12
. 17
.

.
.
.
.
.
.
.

21
24
25
25
26
35
38
42


3 KHOẢNG CÁCH LT-MHD VÀ PHƯƠNG PHÁP LT-NMHD CHO
NHẬN DẠNG KHUÔN MẶT
3.1 Khoảng cách mới được đề xuất - Least trimmed Modified Hausdorff distance (LT-MHD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Phương pháp NMHD cho nhận dạng khuôn mặt . . . . . . . . . . . . . . .
3.2.1 Phương pháp trích đặc trưng ảnh khn mặt . . . . . . . . . . . . .
3.2.2 Phương pháp NMHD . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Phương pháp LT-NMHD cho nhận dạng khuôn mặt . . . . . . . . . . . . .
3.4 Giảm độ phức tạp cho phương pháp LT-NMHD . . . . . . . . . . . . . . .
3.4.1 Áp dụng phương pháp Local Start Search để giảm độ phức tạp cho
phép tính khoảng cách trực tiếp LT-NMHD . . . . . . . . . . . . .
3.4.2 Tính tốn độ phức tạp của phương pháp LT-NMHD . . . . . . . .
3.5 Ảnh hưởng của tỷ số f đến phương pháp LT-NMHD . . . . . . . . . . . .

3.6 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 PHƯƠNG PHÁP LT-LHD CHO NHẬN DẠNG KHN MẶT
4.1 Phương pháp LHD cho nhận khn mặt . . . . . . . . . . . . . . . . . .
4.2 Các cải tiến cho phương pháp LHD . . . . . . . . . . . . . . . . . . . . .
4.2.1 Phương pháp đề xuất MLHD . . . . . . . . . . . . . . . . . . . .
4.2.2 Phương pháp đề xuất RLHD . . . . . . . . . . . . . . . . . . . . .
4.3 Phương pháp LT-LHD cho nhận dạng khuôn mặt . . . . . . . . . . . . .
4.4 Giảm độ phức tạp tính tốn cho phương pháp LT-LHD . . . . . . . . . .
4.4.1 Áp dụng phương pháp EARLYBREAK để giảm độ phức tạp cho
phép tính khoảng cách trực tiếp LT-LHD . . . . . . . . . . . . . .
4.4.2 Tính tốn độ phức tạp của phương pháp LT-LHD . . . . . . . . .
4.5 Ảnh hưởng của tỷ số f đến phương pháp LT-LHD . . . . . . . . . . . . .
4.6 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 KẾT QUẢ MÔ PHỎNG
5.1 Mô tả cơ sở dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Khảo sát ảnh hưởng của hệ số k lên chất lượng của phương pháp RLHD
và phương pháp LT-LHD . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Khảo sát ảnh hưởng của tỷ số f lên chất lượng của phương pháp LT-LHD
và LT-NMHD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Chứng minh giảm độ phức tạp tính tốn của phương pháp LT-NMHD và
phương pháp LT-LHD . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Nhận dạng khuôn mặt trong điều kiện bình thường . . . . . . . . . . . .
5.6 Nhận dạng khuôn mặt trong các điều kiện khác nhau của ảnh đầu vào .
5.6.1 Nhận dạng khuôn mặt trong các điều kiện ánh sáng khác nhau . .

viii

44
44
46

46
46
47
49
49
51
55
56

.
.
.
.
.
.

58
58
62
63
64
67
70

.
.
.
.

70

72
73
74

76
. 76
. 78
. 80
.
.
.
.

85
87
90
90


5.7
5.8

5.6.2 Nhận dạng khn mặt với các góc chụp khác nhau . . . . . . . .
5.6.3 Nhận dạng khuôn mặt với các cảm xúc khác nhau của khn mặt
So sánh tỷ lệ nhận dạng chính xác của phương pháp LT-NMHD và LT-LHD
với các phương pháp khác trong điều kiện bài toán SSPP . . . . . . . . .
Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6 KẾT HỢP PHÉP ĐO LT-MHD VỚI CÁC MƠ HÌNH HỌC SÂU
6.1 Các phương pháp nhận dạng khuôn mặt trong điều kiện SSPP dựa trên

học sâu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Kết hợp khoảng cách LT-MHD cùng mơ hình học sâu để trích đặc trưng
ảnh khn mặt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. 96
. 101
. 106
. 108
111
. 111
. 114
. 116

7 KẾT LUẬN
117
7.1 Các kết quả đạt được trong nghiên cứu . . . . . . . . . . . . . . . . . . . . 117
7.2 Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ

119

TÀI LIỆU THAM KHẢO

120

ix


DANH MỤC HÌNH VẼ

1.1

Cấu trúc hệ thống nhận dạng khn mặt . . . . . . . . . . . . . . . . . . .

2.1

Ảnh khuôn mặt cùng các ảnh phục hồi từ các thành phần cơ bản sau phân
tích SVD [29] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Phương pháp AWOGBP để trích đặc trưng ảnh khn mặt [33] . . . . .
So sánh ảnh gốc và ảnh phục hồi từ từ điển trong phương pháp [34] . . .
Một ví dụ về việc tách tập mẫu thành các tập ảnh nhỏ [43] . . . . . . . .
Một ví dụ về việc chia ảnh khn mặt thành nhiều ảnh nhỏ hình bình hành
[44] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Một ví dụ về việc trích đặc trưng bằng phương pháp LBP [48] . . . . . .
Một ví dụ về chia ảnh khuôn mặt thành 15 phần bằng nhau [45] . . . . .
Các cấu trúc khác nhau của Grid tree [46] . . . . . . . . . . . . . . . . .
Trích đặc trưng cục bộ bằng phương pháp GLCM [48] . . . . . . . . . . .
Phương pháp ERLDA mô tả việc kết hợp nhiều bộ phân loại yếu thành
một bộ phân loại mạnh [49] . . . . . . . . . . . . . . . . . . . . . . . . .
Biểu diễn ảnh khuôn mặt trong không gian với nhãn của các ảnh là các
chiều [52] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bộ lọc Gabor để tạo thêm ảnh ảo kết hợp cùng phương pháp 2DPCA để
trích đặc trưng ảnh khn mặt [60] . . . . . . . . . . . . . . . . . . . . .
Phương pháp tạo ảnh ảo giảm sự chênh lệch độ sáng ở hai nửa ảnh khuôn
mặt [65] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Phương pháp tạo ảnh ảo bằng cách lấy trung bình cộng về độ sáng của hai
nửa ảnh khuôn mặt [68] . . . . . . . . . . . . . . . . . . . . . . . . . . .
Phương pháp trích đặc trưng khn mặt dựa trên tập dữ liệu chung [69]
Các ví dụ về đặc trưng độ sáng khác nhau trong từ điểm độ sáng [70] . .
Phương pháp xây dựng bộ từ điển về các đặc trưng không lý tưởng của

ảnh khuôn mặt [73] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Điểm x và tập hợp điểm Y để tính RecurAN N (x, RY ) . . . . . . . . . .
Cấu trúc R-Tree RY của tập hợp điểm Y . . . . . . . . . . . . . . . . . .
Giới hạn dưới của khoảng cách Hausdorff trực tiếp từ A đến B . . . . . .

2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
2.17
2.18
2.19
2.20

x

2

.

.
.
.

10
10
11
13

.
.
.
.
.

13
14
14
14
15

. 15
. 16
. 18
. 19
. 20
. 21
. 22
.
.

.
.

23
28
28
29


2.21
2.22
2.23
2.24

Giới hạn trên của khoảng cách Hausdorff trực tiếp từ A đến B
Khoảng cách Hausdorff trực tiếp giữa hai tập hợp M và T . .
Các điểm lân cận trái và lân cận phải của một điểm đang xét
Morton code cho tập hợp có 64 điểm . . . . . . . . . . . . . .

3.1
3.2
3.3

Khoảng cách Hausdorff giữa hai tập hợp M và T . . . . . . . . . . . . .
Bản đồ cạnh của khuôn mặt . . . . . . . . . . . . . . . . . . . . . . . . .
Lưu đồ giải thuật tính nhanh khoảng cách Hausdorff trực tiếp trong phương
pháp LT-NMHD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hàm phân bố xác xuất của biến ngẫu nhiên R . . . . . . . . . . . . . . .
Hàm phân bố xác suất của khoảng cách giữa 2 đường cạnh và mối quan
hệ giữa xác suất p và giá trị cmax. . . . . . . . . . . . . . . . . . . . . .


3.4
3.5

4.1
4.2

4.3
4.4
4.5
4.6

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.

.

.
.
.
.

.
.
.
.

.
.
.
.

. 45
. 47
. 50
. 52
. 54

Khoảng cách giữa hai đường thẳng song song . . . . . . . . . . . . . . . .
Cách xoay hai đường thẳng thành song song với nhau. (a): Hai đường thẳng
cần tính khoảng cách; (b): Xoay đường thẳng ngắn hơn; (c): Xoay đường
thẳng dài hơn; (d) Xoay cả hai đường thẳng một nửa góc giao nhau. Đường
nét liền thể hiện vị trí sau khi xoay; đường nét đứt thể hiện vị trí ban đầu.
Các trường hợp khoảng cách song song d = 0 . . . . . . . . . . . . . . . .
Ảnh hưởng của thông số Kcg đến việc nhận dạng . . . . . . . . . . . . . .

Cấu trúc dữ liệu mới của bản đồ cạnh . . . . . . . . . . . . . . . . . . . .
Lưu đồ giải thuật tính nhanh khoảng cách Hausdorff trực tiếp trong phương
pháp LT-LHD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8

Các hình ảnh của một người trong BERN University face database . . .
Các hình ảnh của một người trong AR face database . . . . . . . . . . .
Các hình ảnh của một người trong ORL face database . . . . . . . . . .
Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp RLHD . .
Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD .
Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-NMHD
Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD .
Số vòng lặp trong trung bình khi tính khoảng cách Hausdorff giữa các cặp
ảnh trong tập dữ liệu AR và BERN của phương pháp LT-NMHD tại các
giá trị khác nhau của tỷ số f . . . . . . . . . . . . . . . . . . . . . . . . .
5.9 Số vòng lặp trong trung bình khi tính khoảng cách Hausdorff giữa các cặp
ảnh trong tập dữ liệu AR và BERN của phương pháp LT-LHD tại các giá
trị khác nhau của tỷ số f . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.10 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-NMHD
trong các điều kiện chiếu sáng khác nhau . . . . . . . . . . . . . . . . . .

xi


30
37
39
41

.
.
.
.
.
.
.

59

60
60
64
65
71
77
78
79
80
81
82
84

. 86


. 87
. 92


5.11 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp RLHD trong
các điều kiện chiếu sáng khác nhau . . . . . . . . . . . . . . . . . . . . .
5.12 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD
trong các điều kiện chiếu sáng khác nhau . . . . . . . . . . . . . . . . . .
5.13 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD
trong các điều kiện chiếu sáng khác nhau . . . . . . . . . . . . . . . . . .
5.14 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-NMHD
trong các điều kiện góc nhìn khác nhau của khuôn mặt . . . . . . . . . .
5.15 Một số ví dụ về các cặp ảnh có góc chụp với biểu cảm khác nhau . . . .
5.16 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD
trong các điều kiện góc nhìn khác nhau của khn mặt . . . . . . . . . .
5.17 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp RLHD trong
các điều kiện góc nhìn khác nhau của khuôn mặt . . . . . . . . . . . . .
5.18 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD
trong các điều kiện góc nhìn khác nhau của khn mặt . . . . . . . . . .
5.19 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-NMHD
trong các điều kiện cảm xúc khác nhau của khuôn mặt . . . . . . . . . .
5.20 Ví dụ về các biểu cảm khác nhau của khuôn mặt . . . . . . . . . . . . .
5.21 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp RLHD trong
các điều kiện cảm xúc khác nhau của khuôn mặt . . . . . . . . . . . . . .
5.22 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD
trong các điều kiện cảm xúc khác nhau của khuôn mặt . . . . . . . . . .
5.23 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD
trong các điều kiện cảm xúc khác nhau của khuôn mặt . . . . . . . . . .
6.1

6.2
6.3

. 93
. 94
. 95
. 98
. 99
. 100
. 101
. 102
. 103
. 104
. 105
. 106
. 107

Mối quan hệ giữa các nghiên cứu về học sâu . . . . . . . . . . . . . . . . . 112
Cấu trúc mạng InceptionV3 . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Hàm mất mát khi thực hiện việc huấn luyện lại mạng InceptionV3 . . . . . 116

xii


DANH MỤC BẢNG BIỂU
1.1

2.1

So sánh giữa việc nhận dạng khuôn mặt trong điều kiện có một ảnh cho

một người với có nhiều ảnh cho một người trong cơ sở dữ liệu . . . . . . .

2

Minh họa về dùng Morton code để sắp xếp các điểm trong tập hợp . . . . 42

5.1

Số vòng lặp trong trung bình và thời gian tính khoảng cách giữa hai ảnh
của các phương pháp NMHD và LT-NMHD . . . . . . . . . . . . . . . .
5.2 Số vịng lặp trong trung bình và thời gian tính khoảng cách giữa hai ảnh
của các phương pháp LHD và LT-LHD . . . . . . . . . . . . . . . . . . .
5.3 Tỷ lệ nhận dạng khuôn mặt của các phương pháp NMHD và LT-NMHD
trong điều kiện bình thường . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Tỷ lệ nhận dạng khuôn mặt của các phương pháp LHD, MLHD, RLHD và
LT-LHD trong điều kiện bình thường . . . . . . . . . . . . . . . . . . . .
5.5 Tỷ lệ nhận dạng đúng của các phương pháp NMHD và LT-NMHD trong
các điều kiện ánh sáng khác nhau . . . . . . . . . . . . . . . . . . . . . .
5.6 Tỷ lệ nhận dạng đúng của các phương pháp LHD, MLHD, RLHD, LT-LHD
trong các điều kiện ánh sáng khác nhau . . . . . . . . . . . . . . . . . . .
5.7 Tỷ lệ nhận dạng đúng của các phương pháp NMHD và LT-NMHD với các
góc chụp khác nhau của khuôn mặt . . . . . . . . . . . . . . . . . . . . .
5.8 Tỷ lệ nhận dạng đúng của các phương pháp LHD, MLHD, RLHD và LTLHD với các góc chụp khác nhau của khn mặt . . . . . . . . . . . . . .
5.9 Tỷ lệ nhận dạng đúng của các phương pháp NMHD và LT-NMHD với các
cảm xúc khác nhau của khuôn mặt . . . . . . . . . . . . . . . . . . . . .
5.10 Tỷ lệ nhận dạng đúng của các phương pháp LHD, MLHD, RLHD và LTLHD với các cảm xúc khác nhau của khuôn mặt . . . . . . . . . . . . . .
5.11 So sánh tỷ lệ nhận dạng của các phương pháp đề xuất với các phương pháp
khác trong điều kiện bài toán SSPP với tập dữ liệu ORL . . . . . . . . .
6.1


. 86
. 87
. 88
. 89
. 91
. 93
. 97
. 98
. 102
. 103
. 109

So sánh tỷ lệ nhận dạng của mạng InceptionV3 khi sử dụng các hàm mất
mát khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

xiii


DANH MỤC TỪ VIẾT TẮT

2D-PCA

Two-Dimensional Principal Component Analysis

AE

Auto Encoder

ANN


Aggregate Nearest Neighbor

BF-HD

Best-First Hausdorff distance

CAD

Computer-Aided Design

CAE

Computer-Aided Engineering

CAM

Computer-Aided Manufacturing

CCRC

Collaborative-Competitive Representation based Classifier

CNNs

Convolutional Neural Networks

CRC

Collaborative Representation Classifier


DF-HD

Depth-Fist Hausdorff distance

DPC

Decision Pyramid Classifier

DT-CWT

Dual-tree Complex Wavelet Transform

Dyn2S

Dynamic Two Strip

ERLDA

Ensemble of Randomized Linear Discriminant Analysis

FLDA

Fisher Linear Discriminant Analysis

GAN

Generative Adversarial Networks

GLCM


Gray Level Co-Occurrence Matrix

I-HD

Incremental Hausdorff distance
xiv


LEM

Line Edge Map

LHD

Line Hausdorff Distance

LPB

Local Binary Pattern

LRC

Linear Regression Classification

LSS

Local Start Search

LT-LHD


Least Trimmed Line Hausdorff Distance

LT-MHD

Least Trimmed Modified Hausdorff Distance

LT-NMHD

Least Trimmed New Modified Hausdorff Distance

MBR

Minimum Bounding Rectangular

MLHD

Modified Line Hausdorff Distance

MSD

Maximum Scatter Difference

NMHD

New Modified Hausdorff Distance

NN

Nearest Neighbor


NRC

Nonnegative Representation Classification

ORL

Olivetti Research Laboratory

pLHD

primary Line Hausdorff Distance

pLT-LHD

primary Least trimmed - Line Hausdorff Distance

pLT-NMHD

primary Least trimmed - New Modified Hausdorff Distance

RLHD

Robust Line Hausdorff Distance

SCCRC

Sparse and Collaborative-Competitive Representation based Classification

SRC


Sparse Representation Classifier

SSPP

Single Sample Per Person

SVD

Singular Value Decomposition

xv


Chương 1
GIỚI THIỆU
1.1

Giới thiệu về nhận dạng khuôn mặt và bài tốn
SSPP trong nhận dạng khn mặt

Với sự phát triển ngày càng nhanh của khoa học và công nghệ, các ứng dụng về sinh trắc
học để phục vụ cho việc bảo mật, an ninh đang rất phát triển và ngày càng trở nên quan
trọng. Các hệ thống sinh trắc học dựa trên các đặc điểm về sinh học của con người để
định danh người đó. Các phương pháp nhận dạng sinh trắc học đang được ứng dụng cho
các hệ thống xác thực có thể kể đến như phương pháp nhận dạng khuôn mặt [1], nhận
dạng vân tay [2], nhận dạng giọng nói [3] hay nhận dạng mống mắt [4]. Các phương pháp
xác thực này đang dần thay thế cho các phương pháp xác thực truyền thống như sử dụng
mật khẩu hoặc các câu hỏi bảo mật. Trong đó, việc xác thực dựa trên nhận dạng khuôn
mặt được xem như một phương pháp rất thân thiện với người dùng nhưng vẫn có độ
chính xác đáng tin cậy. Các hệ thống sử dụng nhận dạng khuôn mặt phục vụ trong cuộc

sống rất nhiều, từ mục đích cá nhân như xác thực điện thoại, xác thực ngân hàng; cho
đến phục vụ trong các hệ thống công cộng như các hệ thống giám sát, các hệ thống an
ninh, các hệ thống xác minh hộ chiếu, nhập cảnh ... Một hệ thống nhận dạng khuôn mặt,
như hình 1.1, sẽ bao gồm ba bước chính là: phát hiện khn mặt, trích đặc trưng và nhận
dạng khn mặt [5]. Bước phát hiện khuôn mặt sẽ được sử dụng để phát hiện và xác định
vị trí của khn mặt người trong một bức ảnh thu nhận vào từ hệ thống. Bước trích đặc
trưng sẽ được dùng để biểu diễn khn mặt người có được thành các vector đặc trưng.
Bước cuối cùng của hệ thống là nhận dạng khuôn mặt sẽ dùng các vector đặc trưng được
trích để so sánh với các ảnh khác trong cơ sở dữ liệu.
Trong khoảng 30 năm qua, đã có rất nhiều các nghiên cứu về nhận dạng khuôn mặt
được đề xuất với các kết quả đáng khích lệ. Tuy nhiên lĩnh vực nhận dạng khn mặt
vẫn cịn rất nhiều bài tốn cần giải quyết [6, 7] khi tỷ lệ nhận dạng của các phương pháp
vẫn còn bị ảnh hưởng bởi những điều kiện khác nhau của ảnh đầu vào. Bài toán lớn nhất

1


Hình 1.1: Cấu trúc hệ thống nhận dạng khn mặt
Bảng 1.1: So sánh giữa việc nhận dạng khuôn mặt trong điều kiện có một ảnh cho một
người với có nhiều ảnh cho một người trong cơ sở dữ liệu
Một ảnh trong một lớp
Nhiều ảnh trong một lớp
Các ứng dụng Các hệ thống an ninh, nhận dạng Các hệ thống giải trí, tương tác
thẻ ngân hàng, bằng lái xe, hộ người - máy ...
chiếu.
Ưu điểm
Việc thu thập, lưu trữ ảnh tốn ít Tỷ lệ nhận dạng chính xác cao,
chi phí.
bền vững trong nhiều điều kiện.
Nhược điểm

Tỷ lệ nhận dạng chính xác thấp, Việc thu thập, lưu trữ ảnh địi hỏi
ít bền vững trong các điều kiện chi phí cao. Một số trường hợp
khác nhau của thực tế.
pháp luật không cho phép
mà các phương pháp nhận dạng khuôn mặt cần giải quyết đó là việc tỷ lệ nhận dạng của
các phương pháp bị suy giảm nghiêm trọng trong điều kiện chỉ có một ảnh cho mỗi cá
nhân trong cơ sở dữ liệu [8, 9] hay điều kiện đơn mẫu. Việc nhận dạng khuôn mặt trong
điều kiện đơn mẫu, hay được gọi là bài tốn nhận dạng khn mặt trong điều kiện Single
Sample Per Person (SSPP) [9, 10], là một yêu cầu được rất nhiều các ứng dụng trong
thực tế đòi hỏi: hệ thống về xác thực hộ chiếu, các hệ thống về an ninh, xác thực thẻ
ngân hàng ... Việc thu thập nhiều ảnh của một người để lưu trong cơ sở dữ liệu là rất
khó khăn hay thậm chí khơng được pháp luật cho phép. Bảng 1.1 trình bày các so sánh
về ưu nhược điểm của các hệ thống nhận dạng khuôn mặt trong điều kiện đơn mẫu và đa
mẫu. Bài tốn SSPP này có thể được mơ tả như sau: Cho một hệ thống có cơ sở dữ liệu
chỉ chứa một ảnh của mỗi người cần nhận dạng, mục tiêu của hệ thống là cần xác định
danh tính một người dựa vào ảnh chụp người đó trong những thời gian khác nhau, trong
các điều kiện khác nhau về ánh sáng, góc chụp ...
Các phương pháp nhận dạng khn mặt trong điều kiện có nhiều ảnh cho mỗi cá nhân
trong cơ sở dữ liệu sẽ không thể áp dụng để giải quyết bài tốn SSPP vì tỷ lệ nhận dạng
của các phương pháp này bị suy giảm rất nhiều trong điều kiện đơn mẫu [11, 12]. Trong
những năm qua, cũng đã có khá nhiều các nghiên cứu được đề xuất nhằm giải quyết bài
tốn SSPP. Các phương pháp này có thể được chia thành 4 nhóm chính như sau [9, 10]:
❼ Các phương pháp nhận dạng khuôn mặt dựa trên các đặc trưng toàn cục của bức

ảnh (Global feature based methods): Các vector đặc trưng của ảnh khuôn mặt được

2


trích ra từ tồn bộ của bức ảnh và việc nhận dạng sẽ dựa trên vector đặc trưng này.

❼ Các phương pháp nhận dạng khuôn mặt dựa trên các đặc trưng cục bộ của bức ảnh

(Local feature based methods): Các vector đặc trưng của ảnh khn mặt được trích
ra từ các phần nhỏ của bức ảnh hoặc trích ra tại các pixel trong ảnh dựa trên mối
quan hệ với các pixel xung quanh. Sau đó, các phương pháp khác nhau được dùng
để phân loại ảnh đầu vào dựa trên vector đặc trưng này.
❼ Với các phương pháp tạo ra các mẫu ảo để huấn luyện (Virtual sample generation

based methods): các tập mẫu sẽ được tăng số lượng bằng cách tạo ra thêm nhiều
mẫu ảo dựa trên tập mẫu gốc. Điều này giúp làm tăng số lượng mẫu trong một lớp.
Các phương pháp nhận dạng khuôn mặt trong điều kiện đa mẫu sẽ được áp dụng
để giải quyết bài toán SSPP.
❼ Với các phương pháp sử dụng thêm một tập chung để huấn luyện (Generic datasets

based methods): các phương pháp sẽ học cách trích đặc trưng từ các tập mẫu chung
có số lượng lớn các lớp cũng như số lượng lớn các mẫu trong cùng một lớp. Sau đó
cách trích đặc trưng này sẽ được áp dụng để trích đặc trưng các ảnh trong tập mẫu
và tập kiểm tra.
Các nghiên cứu [5, 9, 10] đều chỉ ra rằng mỗi nhóm phương pháp đều có ưu và nhược
điểm riêng và khơng có nhóm phương pháp nào được xem là thực sự là nổi trội hơn so với
các phương pháp còn lại. Hầu hết, việc so sánh các phương pháp hoặc các nhóm phương
pháp lại với nhau thường tập trung vào việc so sánh tỷ lệ nhận dạng của các phương
pháp. Tuy nhiên trong thực tế, việc so sánh các phương pháp với nhau thì cần đặt trong
một hồn cảnh rộng hơn nhiều việc so sánh tỷ lệ nhận dạng chính xác [13]. Bên cạnh
tỷ lệ chính xác, tính dễ dàng cho người sử dụng, tính linh động trong việc mở rộng hệ
thống, sự phức tạp của hệ thống, khả năng lưu trữ và khả năng tính tốn của phần cứng
... Trong thực tế, tùy theo từng ứng dụng cụ thể thì sẽ có các yêu cầu cụ thể được đặt
ra, và từ đó mới có thể kết luận việc phương pháp nào là thích hợp cho hệ thống đó.

1.2


Lý do chọn đề tài

Theo nhiều nghiên cứu của nhiều tác giả [5, 9, 10], các phương pháp nhận dạng khuôn
mặt dựa trên đặc trưng cục bộ có các ưu điểm nổi bật là việc dễ dàng triển khai trong
các ứng dụng thực tế, bền vững với các điều kiện không lý tưởng của ảnh đầu vào cũng
như không đặt các điều kiện ràng buộc biết trước cho ảnh đầu vào. Tuy nhiên, nhược
điểm của nhóm phương pháp này là việc phải chọn được đặc trưng cục bộ phù hợp vì tỷ
lệ nhận dạng của các phương pháp phụ thuộc rất nhiều vào đặc trưng cục bộ được chọn.
Trong chuyên ngành xử lý ảnh, cạnh của một bức ảnh là tập hợp các pixel có sự thay
3


đổi mức xám đột ngột. Với các ảnh vật thể nói chung hay khn mặt nói riêng, các pixel
cạnh thể hiện các cấu trúc hình học của vật thể hay khuôn mặt. Các phương pháp nhận
dạng khuôn mặt cũng thường sử dụng các pixel cạnh như là đặc trưng cục bộ của ảnh
khn mặt vì đặc trưng cục bộ này có ưu điểm là bền vững với các điều kiện chiếu sáng
khác nhau của bức ảnh [14].
Một nhóm các phương pháp nhận dạng khuôn mặt sử dụng các pixel cạnh của ảnh
khuôn mặt [15–22] hoặc các điểm trội trong số các pixel cạnh của ảnh khuôn mặt [23, 24]
như là các đặc trưng cục bộ của ảnh khuôn mặt. Các phương pháp này có điểm chung
là sử dụng khoảng cách Hausdorff trung bình, Modified Hausdorff Distance (MHD), để
đo sự giống nhau giữa hai tập hợp các đặc trưng. Ưu điểm của các phương pháp này là
đơn giản và dễ triển khai trong thực tế. Tuy nhiên nhược điểm của các phương pháp này
là có độ phức tạp tính tốn rất cao do sử dụng khoảng cách Hausdorff trung bình vốn
có độ phức tạp tính tốn rất cao. Ngồi ra, tỷ lệ nhận dạng của nhóm phương pháp này
cũng khơng thật sự cao. Các nhược điểm này đã hạn chế việc áp dụng các phương pháp
này vào các ứng dụng thực tế. Như vậy một nghiên cứu nhằm nâng cao tỷ lệ nhận dạng
đồng thời làm giảm độ phức tạp tính toán cho các phương pháp này là một nghiên cứu
cần thiết.

So với nhóm phương pháp sử dụng đặc trưng là các pixel cạnh, nhóm phương pháp
sử dụng đặc trưng là các điểm trội [23, 24] có ưu điểm vượt trội hơn là tiết kiệm được
chi phí lưu trữ rất lớn, thấp hơn khoảng 85% [23] so với nhóm phương pháp sử dụng đặc
trưng là các pixel cạnh. Nhóm phương pháp sử dụng đặc trưng là các điểm trội trên cạnh
cũng được đánh giá là phù hợp với việc triển khai trong các ứng dụng thực tế [25]. Việc
nghiên cứu giúp cải thiện tỷ lệ nhận dạng và giảm độ phức tạp tính tốn cho các phương
pháp [23, 24] góp phần giúp các phương pháp này đến gần hơn trong việc áp dụng vào
các ứng dụng nhận dạng khuôn mặt trong thực tế. Đồng thời các kết quả này cũng có
thể được mở rộng để áp dụng cho các phương pháp nhận dạng khuôn mặt khác [15–22].

1.3

Mục tiêu đề tài

Trong nghiên cứu này, một khoảng cách/độ đo mới dựa trên khoảng cách Hausdorff,
khoảng cách Hausdorff trung bình các giá trị lớn nhất và đặt tên là Least Trimmed
Modified Hausdorff Distance (LT-MHD) sẽ được đề xuất. Khoảng cách mới này sẽ được
sử dụng để đo sự giống/khác nhau giữa hai tập hợp các đặc trưng của ảnh khuôn mặt.
Dựa trên khoảng cách mới được đề xuất, nghiên cứu sẽ đề xuất hai phương pháp
nhận dạng khuôn mặt dựa trên đặc trưng cục bộ để giải quyết bài toán SSPP, phương
pháp Least Trimmed-Line Hausdorff Distance (LT-LHD) và phương pháp Least TrimmedNew Modified Hausdorff Distance (LT-NMHD), lần lượt là hai phương pháp cải tiến của
hai phương pháp Line Hausdorff Distance (LHD) [24] và phương pháp New Modified

4


Hausdorff Distance (NMHD) [23]. Hai phương pháp LT-LHD và phương pháp LT-NMHD
cũng sử dụng các tập đặc trưng của ảnh khuôn mặt như phương pháp LHD và phương
pháp NMHD. Việc này sẽ giúp chứng minh khoảng cách LT-MHD có thể áp dụng cho các
phương pháp nhận dạng sử dụng các loại đặc trưng khác nhau. Thông qua các mô phỏng

về tỷ lệ nhận dạng khuôn mặt của hai phương pháp LT-LHD và LT-NMHD và so sánh
với hai phương pháp LHD và NMHD, nghiên cứu sẽ chứng minh độ đo mới LT-MHD sẽ
mang đến sự cải thiện về tỷ lệ nhận dạng cho các phương pháp nhận dạng khuôn mặt
so với việc sử dụng khoảng cách Hausdorff trung bình. Bên cạnh đó, tỷ lệ nhận dạng
của khn mặt của hai phương pháp LT-LHD và LT-NMHD sẽ được so sánh với một số
phương pháp nhận dạng khuôn mặt trong điều kiện đơn mẫu trong những năm gần đây
để chứng minh sự hiệu quả của hai phương pháp LT-LHD và LT-NMHD. Các phương
pháp này sẽ được tiến hành theo cùng một cách thức mô phỏng để so sánh công bằng tỷ
lệ nhận dạng với nhau.
Bên cạnh việc cải thiện về tỷ lệ nhận dạng, nghiên cứu này cũng đồng thời hướng đến
mục tiêu cải thiện về độ phức tạp tính tốn cho các phương pháp. Nghiên cứu này sẽ chỉ
ra cách thức để áp dụng các phương pháp như phương pháp EARLYBREAK [26] hay
phương pháp Local Start Search (LSS) [27] để làm giảm độ phức tạp tính tốn cho các
phương pháp LT-LHD và LT-NMHD. Hai phương pháp LSS và EARLYBREAK là hai
phương pháp nổi tiếng trong lĩnh vực Computer-Aided Design (CAD), Computer-Aided
Manufacturing (CAM), Computer-Aided Engineering (CAE) nhằm làm giảm độ phức tạp
tính tốn của phép tính khoảng cách Hausdorff. Thơng qua các kết quả mơ phỏng cũng
như phép chứng minh về tốn học, nghiên cứu sẽ chứng minh rằng hai phương pháp
LT-LHD và phương pháp LT-NMHD khi áp dụng các phương pháp EARLYBREAK hay
LSS sẽ có độ phức tạp tính tốn thấp hơn so với các phương pháp LHD và phương pháp
NMHD.
Trong những năm gần đây, sử dụng các phương pháp học sâu (Deep Learning) để giải
quyết các bài tốn nhận dạng khn mặt đang nhận được sự quan tâm lớn từ các nhà
nghiên cứu [28]. Việc sử dụng các phương pháp học sâu để giải quyết các bài tốn nhận
dạng nói chung và nhận dạng khn mặt nói riêng là một xu hướng đang rất phát triển.
Tuy không phải là mục tiêu ban đầu của nghiên cứu nhưng chúng tôi vẫn mong muốn
áp dụng các kết quả có được vào hướng nghiên cứu đang rât phát triển này. Trong phần
cuối của nghiên cứu này, một mơ hình trích đặc trưng ảnh khn mặt dựa trên học sâu
sẽ được đề xuất, trong đó một mạng CNN sẽ được kết hợp cùng khoảng cách LT-MHD.
Khoảng cách LT-MHD sẽ được sử dụng như hàm mất mát ngõ ra của mạng CNN này.

Thông qua mô phỏng, nghiên cứu này sẽ chứng minh sự hiệu quả của việc sử dụng khoảng
cách LT-MHD làm hàm mất mát thay vì sử dụng hàm cross-entropy.

5


1.4

Các đóng góp chính của nghiên cứu

Nghiên cứu này đã đạt được một số kết quả chính như sau:
❼ Trong nghiên cứu này, một độ đo mới dựa trên khoảng cách Hausdorff đã được

đề xuất và được đặt tên là khoảng cách Hausdorff trung bình các giá trị lớn nhất,
Least Trimmed Modified Hausdorff Distance (LT-MHD) . Dựa trên khoảng cách
LT-MHD, nghiên cứu đã đề xuất hai phương pháp nhận dạng khuôn mặt trong điều
kiện đơn mẫu là LT-NMHD và LT-LHD.
❼ Các kết quả mô phỏng về tỷ lệ nhận dạng của hai phương pháp LT-NMHD và LT-

LHD đã cho thấy việc sử dụng khoảng cách LT-MHD để đo khoảng cách giữa hai
tập đặc trưng thay vì dùng khoảng cách Hausdorff trung bình đã giúp cải thiện tỷ
lệ nhận dạng khoảng 2-10% tùy từng điều kiện khác nhau của ảnh đầu vào. Ngoài
ra, việc dùng khoảng cách LT-MHD để đo khoảng cách giữa các loại đặc trưng khác
nhau của ảnh khuôn mặt trong hai phương pháp LT-NMHD và LT-LHD cũng cho
thấy khoảng cách LT-MHD có thể được sử dụng phù hợp cho nhiều loại đặc trưng
khác nhau của ảnh khuôn mặt. Các kết quả này có thể được mở rộng để đưa ra
một giải pháp cải tiến về tỷ lệ nhận dạng cho các phương pháp nhận dạng khuôn
mặt tương tự sử dụng đặc trưng cục bộ là các pixel cạnh khác như [15–22], đó là
việc thay thế khoảng cách Hausdorff trung bình bằng khoảng cách LT-MHD được
đề xuất trong nghiên cứu này.

❼ Tỷ lệ nhận dạng của hai phương pháp LT-NMHD và LT-LHD cũng được so sánh

với một số phương pháp nhận dạng khuôn mặt trong điều kiện SSPP trong những
năm gần đây với cùng một điều kiện mô phỏng. Các kết quả cho thấy hai phương
pháp LT-NMHD và LT-LHD cho kết quả nhận dạng khá tốt khi so sánh với các
phương pháp khác. Đặc biệt, phương pháp LT-LHD cho kết quả nhận dạng cao hơn
khoảng 2-11% so với một số các phương pháp nhận dạng khác được đề xuất trong
khoảng 5 năm gần đây.
❼ Cùng với cải thiện về tỷ lệ nhận dạng, nghiên cứu này cũng đề xuất một cách thức

để giúp làm giảm độ phức tạp tính tốn cho hai phương pháp nhận dạng khn
mặt được đề xuất. Hai phương pháp EARLYBREAK và phương pháp Local Start
Search (LSS) là hai phương pháp mới nhất trong lĩnh vực CAD/CAM/CAE nhằm
làm giảm độ phức tạp của phép tính khoảng cách Hausdorff. Trong nghiên cứu này,
phương pháp LSS được áp dụng để giảm độ phức tạp tính tốn cho phương pháp
LT-NMHD và phương pháp EARLYBREAK được áp dụng để giảm độ phức tạp
tính tốn cho phương pháp LT-LHD. Các kết quả mơ phỏng cho thấy rằng phương
pháp LT-NMHD có độ phức tạp tính tốn giảm khoảng 17% và thời gian tính tốn

6


giảm 16% so với phương pháp NMHD. Đặc biệt hơn, phương pháp LT-LHD có độ
phức tạp tính tốn thấp hơn đến 67% và thời gian tính tốn giảm 63% - 65% so với
phương pháp LHD. Điều này cho thấy sự hiệu quả khi áp dụng các phương pháp
như EARLYBREAK hay LSS để làm giảm độ phức tạp tính tốn cho các phương
pháp nhận dạng khuôn mặt sử dụng khoảng cách Hausdorff. Các kết quả này cũng
có thể được mở rộng để áp dụng để làm giảm độ phức tạp tính tốn cho các phương
pháp nhận dạng khn mặt khác dựa trên khoảng cách Hausdorff trung bình như
các phương pháp [15–22].

❼ Ngồi ra, nghiên cứu này cũng đề xuất một mơ hình trích đặc trưng ảnh khn mặt

dựa trên học sâu bằng cách kết hợp khoảng cách LT-MHD cùng một mạng CNN.
Trong đó khoảng cách LT-MHD được sử dụng như hàm mất mát của mạng CNN
này. Các kết quả mô phỏng cho thấy rằng việc sử dụng khoảng cách LT-MHD làm
hàm mất mát cho mạng CNN thay vì hàm mất mát cross-entropy đã giúp làm tăng
tỷ lệ nhận dạng của mô hình đến 43%.
❼ Các kết quả trong nghiên cứu này đã được công bố trong 2 bài báo đăng trên tạp

chí quốc tế uy tín (thuộc danh mục Scopus), 3 bài báo đăng trên các tạp chí trong
nước uy tín (thuộc danh mục các tạp chí tính điểm của hội đồng chức danh giáo sư
nhà nước) và 1 bài báo trong hội nghị quốc tế (có ISBN).

1.5

Bố cục luận án

Luận án bao gồm 7 chương và được trình bày như sau:
❼ Chương 1 trình bày các giới thiệu về luận án, mục tiêu cũng như các đóng góp chính

của luận án này.
❼ Chương 2 sẽ trình bày khái quát về một số phương pháp nhận dạng khuôn mặt

trong điều kiện SSPP truyền thống và phân tích ưu nhược điểm của các phương
pháp này. Bên cạnh đó, chương 2 cũng trình bày các khảo sát và phân tích sâu về
các phương pháp trong lĩnh vực CAD/CAM/CAE nhằm làm giảm độ phức tạp của
phép tính khoảng cách Hausdorff.
❼ Chương 3 sẽ trình bày về độ đo mới được đề xuất, LT-MHD. Đồng thời trong chương

này, phương pháp nhận dạng khuôn mặt mà được đề xuất, LT-NMHD, cũng được

trình bày. Phương pháp này là sự kết hợp của khoảng cách LT-MHD với phương
pháp NMHD. Bên cạnh đó, chương 3 cũng trình bày cách thức áp dụng phương
pháp LSS để làm giảm độ phức tạp tính tốn của phương pháp LT-NMHD.

7


❼ Chương 4 sẽ trình bày về phương pháp nhận dạng khuôn mặt LT-LHD được đề

xuất. Phương pháp LT-LHD là sự kết hợp giữa phương pháp LHD và khoảng cách
LT-MHD. Thêm vào đó, chương 4 cũng sẽ trình bày cách để áp dụng phương pháp
EARLYBREAK để làm giảm độ phức tạp tính tốn của phương pháp LT-LHD.
❼ Chương 5 sẽ trình bày về các kết quả mơ phỏng về khả năng nhận dạng khuôn mặt

của hai phương pháp được đề xuất trong nghiên cứu này, LT-LHD và LT-NMHD.
Các kết quả này cũng sẽ được so sánh với hai phương pháp LHD và NMHD để cho
thấy sự hiệu quả khi thay đổi từ việc sử dụng khoảng cách Hausdorff trung bình
sang khoảng cách LT-MHD. Bên cạnh đó, tỷ lệ nhận dạng của hai phương pháp
LT-LHD và LT-NMHD cũng sẽ được so sánh với một số phương pháp nhận dạng
khuôn mặt được đề cập trong chương 2 trong cùng một cách thức mơ phỏng.
❼ Chương 6 sẽ trình bày về mơ hình trích đặc trưng ảnh khn mặt dựa trên học sâu

bằng cách kết hợp giữa một mạng CNN và khoảng cách LT-MHD, trong đó khoảng
cách LT-MHD được sử dụng như một hàm mất mát của mạng CNN này.
❼ Chương 7 sẽ trình bày về các kết luận mà nghiên cứu này đạt được.

8



×