Tải bản đầy đủ (.pdf) (85 trang)

Phát hiện hình ảnh chân dung giả mạo dựa vào các đặc trưng sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.91 MB, 85 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------

PHẠM VĂN NGOAN

PHÁT HIỆN HÌNH ẢNH CHÂN DUNG GIẢ MẠO
DỰA VÀO CÁC ĐẶC TRƯNG SÂU
Chuyên ngành: Khoa Học Máy Tính
Mã số: 8480101

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 7 năm 2022


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học: PGS. TS. Lê Hồng Trang
Cán bộ chấm nhận xét 1 : TS. Trần Tuấn Anh
Cán bộ chấm nhận xét 2 : PGS. TS. Nguyễn Tuấn Đăng
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG
Tp. HCM ngày 21 tháng 7 năm 2022
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch:
2. Thư ký:
3. Phản biện 1:
4. Phản biện 2:
5. Uỷ viên:

TS. Phạm Hoàng Anh


TS. Nguyễn Tiến Thịnh
TS. Trần Tuấn Anh
PGS.TS. Nguyễn Tuấn Đăng
TS. Trần Thanh Tùng

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA
KHOA HỌC
VÀ KỸ THUẬT MÁY TÍNH


i

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: PHẠM VĂN NGOAN

MSHV: 1870468

Ngày, tháng, năm sinh: 09/11/1996

Nơi sinh: Vĩnh Long


Chuyên ngành: Khoa Học Máy Tính

Mã số : 8480101

I. TÊN ĐỀ TÀI: Phát hiện hình ảnh chân dung giả mạo dựa vào các đặc
trưng sâu - Detecting fake images based on deep features
II. NHIỆM VỤ VÀ NỘI DUNG: Nhiệm vụ chính của Luận văn là nghiên cứu
và đề xuất một phương pháp sử dụng các đặc trưng sâu (deep features) nhằm
cải thiện việc giải bài tốn phát hiện hình ảnh giả mạo. Các nội dung chính
bao gồm :
-

Nghiên cứu tổng quan về bài toán phát hiện ảnh giả mạo.

-

Tổng hợp và phân tích các tiếp cận phổ biến hiện nay cho bài toán, tập
trung vào tiếp cận sử dụng các mơ hình học sâu.

-

Nghiên cứu và đề xuất một mơ hình giải bài tốn dựa trên các đặc
trưng sâu.

-

Viết một bài báo cho các kết quả đạt được và gửi tham dự báo cáo ở
một hội nghị khoa học quốc tế phù hợp với chủ đề nghiên cứu.


III. NGÀY GIAO NHIỆM VỤ : 06/09/2021
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 22/05/2022
V. CÁN BỘ HƯỚNG DẪN PGS. TS. Lê Hồng Trang

Tp. HCM, ngày . . . . tháng .. . . năm 20....
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)

PGS. TS. Lê Hồng Trang
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)


ii

LỜI CẢM ƠN
Luận văn đề tài “PHÁT HIỆN HÌNH ẢNH CHÂN DUNG GIẢ MẠO DỰA
VÀO CÁC ĐẶC TRƯNG SÂU” là kết quả của q trình cố gắng khơng ngừng
nghỉ của bản thân và được sự giúp đỡ tận tình, động viên khích lệ của thầy cơ,
bạn bè và người thân. Qua đây, em xin gửi lời cảm ơn chân thành đến những
người giúp đỡ em trong thời gian học tập – nghiên cứu khoa học vừa qua.
Em xin trân trọng gửi đến thầy Lê Hồng Trang - Người đã trực tiếp tận tình
hướng dẫn cũng như cung cấp tài liệu, thông tin khoa học cần thiết cho luận văn
này lời cảm ơn chân thành và sâu sắc nhất.
Xin cảm ơn ban giám hiệu vùng tồn thể thầy cơ trường đại học Bách Khoa
TPHCM, khoa Khoa học máy tính đã tạo điều kiện cho em hoàn thành tốt việc
học và nghiên cứu khoa học của mình.

Xin cảm ơn cha mẹ, anh chị, bạn bè, người thân đã luôn bên cạnh, ủng hộ, động
viên.
Em xin chân thành cảm ơn!


iii

TÓM TẮT LUẬN VĂN THẠC SĨ
Ngày nay, hệ thống nhận diện gương mặt phát triển vơ cùng nhanh chóng kéo
theo các hình thức tấn cơng ngày càng tinh vi, do đó vấn đề chống giả mạo gương
mặt đóng vai trị vơ cùng quan trọng trong hệ thống này. Có hai cách tiếp cận
chính cho bài tốn chống giả maọ gương mặt: 1) Sử dụng thuộc tính rút trích thủ
cơng và 2) sử dụng các thuộc tính sâu rút trích từ các mạng học sâu. Trong luận
văn này, chúng tôi sẽ cùng tìm hiểu kỹ các phương pháp chống giả mạo và đề
xuất một phương pháp toàn diện kết hợp cả thuộc tính rút trích thủ cơng và thuộc
tính sâu vào một mạng học sâu để phát hiện ảnh người thật hay tấn công. Chúng
tôi cũng đánh giá độ hiệu quả của phương pháp chúng tôi đề xuất trên các tập dữ
liệu về chống giả mạo gương mặt như CASIA-FASD, MSU-MFSD và ROSEYOUTU.

ABSTRACT
Recently, the face recognition system is rapid development, and face antispoofing (FAS) also plays a significant role in that system. There are two
approaches to FAS methods 1) use handcrafted features and 2) use deep features
extracted from deep learning networks. In this thesis, we propose an end-to-end
framework that combines wide and deep features to detect real and spoof images
in the FAS problem. We also evaluated the effectiveness of our methods on
different FAS datasets such as CASIA-FASD, MSU-MFSD, and ROSEYOUTU.


iv


LỜI CAM ĐOAN
Tác giả xin được cam đoan các số liệu và kết quả của luận văn thạc sĩ đề tài “Phát
hiện ảnh chân dung giả mạo dựa vào các đặc trưng sâu” là trung thực và khơng
có bất kỳ sự sao chép hay sử dụng để bảo bảo vệ một học vị nào. Tất cả những
sự giúp đỡ cho việc xây dựng cơ sở lý luận cho luận văn này đều được trích dẫn
đầy đủ và ghi rõ nguồn gốc. Nếu phát hiện có sự sao chép kết quả nghiên cứu
của đề tài khác, tơi xin hồn tồn chịu trách nhiệm.
Tp. HCM, ngày 10 tháng 6 năm 2022
Học viên
Phạm Văn Ngoan


Mục lục
Nhiệm vụ luận văn

i

Lời cảm ơn

ii

Tóm tắt luận văn thạc sĩ

iii

Lời cam đoan

iv

Mục lục


v

Danh sách hình vẽ

vii

Danh sách bảng

x

1 MỞ ĐẦU

1

2 GIỚI THIỆU

5

2.1 Tổng quan về bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

2.2 Các nền tảng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2.3 Các tiếp cận đã đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Một số hệ thống đã phát triển và ứng dụng trong thực tế . . . . . . . . . 26
2.5 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3 Các mơ hình phổ biến cho bài tốn phát hiện hình ảnh giả mạo

33

3.1 Mơ hình sử dụng thuộc tính thủ cơng trên các khơng gian màu khác nhau 33
3.2 Mơ hình kết hợp giữa thuộc tính thủ cơng và thuộc tính sâu . . . . . . . 36
v


MỤC LỤC

vi

3.3 Mơ hình dùng các phương pháp học sâu truyền thống . . . . . . . . . . 38
3.4 Mơ hình học sâu có tính tổng quát . . . . . . . . . . . . . . . . . . . . 45
4 Các đặc trưng sâu và rộng đề xuất

48

4.1 Các mẫu nhị phân cục bộ . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2 Trích xuất các đặc trưng sâu dùng học chuyển tiếp . . . . . . . . . . . . 50
4.3 Kết hợp đặc trưng sâu và rộng . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Thực nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5 KẾT LUẬN

57

DANH SÁCH CÁC CƠNG TRÌNH KHOA HỌC

58


Deep and Wide Features for Face Anti-Spoofing Paper . . . . . . . . . . . . 58
Tài liệu tham khảo

68


vii

Danh sách hình vẽ
1.1 Một số dạng tấn cơng từ tập dữ liệu ROSE-YOUTU [1] . . . . . . . . . . .

2

1.2 Số lượng bài báo khoa học cơng bố được tìm theo keyword "face antispoofing", "face liveness detection" và "face presentation attack detection"
trên Google Scholar [2] . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

2.1 Hệ thống chống giả mạo gương mặt trong hệ thống nhận diện gương mặt .

5

2.2 Phân loại các dạng tấn công giả mạo . . . . . . . . . . . . . . . . . . . . .

7

2.3 Ví dụ các dạng tấn cơng giả mạo . . . . . . . . . . . . . . . . . . . . . . .

8


2.4 Mô tả các tỉ lệ lỗi FAR, FRR, EER . . . . . . . . . . . . . . . . . . . . . .

9

2.5 Kiến trúc mạng cơ bản . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 Kiến trúc mạng nơ-ron cơ bản . . . . . . . . . . . . . . . . . . . . . . . . 14
2.7 Các lớp của một mạng CNNs . . . . . . . . . . . . . . . . . . . . . . . . 16
2.8 Q trình tính tốn của lớp tích chập . . . . . . . . . . . . . . . . . . . . . 17
2.9 Ví dụ về max pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.10Ví dụ về tầng kết nối đầy đủ . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.11Một khối trong mạng resnet . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.12Các biến thể của mạng ResNet . . . . . . . . . . . . . . . . . . . . . . . . 20
2.13Kiến trúc mạng Resnet-50 . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.14Kiến trúc đề xuất bởi Zinelabidine và cộng sự [3] . . . . . . . . . . . . . . 22
2.15Trực quan hố thuộc tính HOG [4] . . . . . . . . . . . . . . . . . . . . . . 22
2.16Mơ hình đề xuất của [4] . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.17Mơ hình LBP-TOP được Pereira và cộng sự đề xuất [5] . . . . . . . . . . . 23


viii

2.18Mơ hình được Lei Li và cộng sự đề xuất [6] . . . . . . . . . . . . . . . . . 24
2.19Mơ hình được Atoum và cộng sự đề xuất [7] . . . . . . . . . . . . . . . . . 25
2.20Ước lượng ảnh chiều sâu, hai cột đầu tiên chỉ trường hợp người thật, các
cột cịn lại là các hình thức tấn cơng [7] . . . . . . . . . . . . . . . . . . . 25
2.21Mơ hình được Zitong và cộng sự và cộng sự đề xuất [8] . . . . . . . . . . . 26
2.22Giải pháp chống giả mạo gương mặt của FaceTec . . . . . . . . . . . . . . 27
2.23Các tổ chức sử dụng ứng dụng chống giả mạo gương mặt Zoom . . . . . . 28
2.24Ảnh ví dụ được lấy từ tập dữ liệu Replay-Attack . . . . . . . . . . . . . . . 29

2.25Ảnh ví dụ được lấy từ tập dữ liệu OULU-NPU . . . . . . . . . . . . . . . 30
2.26Ảnh ví dụ được lấy từ tập dữ liệu SiW . . . . . . . . . . . . . . . . . . . . 30
2.27Ví dụ trong tập dữ liệu CASIA-FASD, từ trái qua phải tương ứng với trường
hợp người thật, giấy in bẻ cong, giấy in cắt mắt, qua màn hình . . . . . . . 31
2.28MSU-MFSD (từ trái qua phải): người thật,hiển thị qua video trên iPad,
iPhone, và tấn công qua giấy in . . . . . . . . . . . . . . . . . . . . . . . 32
2.29Ví dụ trong tập dữ liệu ROSE-YOUTU . . . . . . . . . . . . . . . . . . . 32
3.1 Biểu diễn các không gian màu khác nhau . . . . . . . . . . . . . . . . . . 34
3.2 Các dạng chính của phương pháp kết hợp thuộc tính thủ cơng và học sâu [9] 37
3.3 Kiến trúc phương pháp trộn thuộc tính HOG với thuộc tính sâu [10] . . . . 38
3.4 Biểu diễn trực quan các thuộc tính có sử dụng HOG (dịng cuối) và khơng
sử dụng HOG (dịng thứ 2) . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Các dạng tiếp cận dựa trên học sâu truyền thống [2] . . . . . . . . . . . . . 39
3.6 Xác định vị trí gương mặt thơng qua các điểm landmark [11] . . . . . . . . 40
3.7 Phương pháp tạo nhiều dữ liệu hơn bằng cách thay đổi tỉ lệ chứa gương mặt
[11] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.8 Kiến trúc ngắn gọn sử dụng mơ hình CNN trong phân loại ảnh [11] . . . . 41
3.9 Cột bên trái thể hiện điểm số của từng vùng rút trích đặc trưng, cột bên
phải là ước lượng chiều sâu của ảnh, ảnh bên trên là người thật, bên dưới
là dạng tấn công [7] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42


ix

3.10Ước lượng ảnh chiều sâu dựa trên mơ hình CNN. Hàng trên biểu diễn
trường hợp người thật hàng dưới biểu diễn trường hợp tấn công [7] . . . . . 43
3.11Trực quan biểu thức tích chập với sự sai khác trung tâm [8] . . . . . . . . . 45
3.12Khơng gian tìm kiếm của mơ hình CDCN . . . . . . . . . . . . . . . . . . 46
3.13So sánh giữa domain adaption với domain generalization [2] . . . . . . . . 47
4.1 Một ví dụ về tính giá trị LBP [9] . . . . . . . . . . . . . . . . . . . . . . . 49

4.2 LBP từ ba mặt phẳng trực giao [5] . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Kiến trúc mơ hình đề xuất là sự kết hợp giữa thuộc tính sâu rút trích từ
mạng ResNet với thuộc tính rộng từ LBP . . . . . . . . . . . . . . . . . . 52
4.4 Ma trận nhầm lẫn trên ba tập dữ liệu với thiết lập LBP(8,1) . . . . . . . . . 53
4.5 Ma trận nhầm lẫn trên ba tập dữ liệu với thiết lập LBP(8,3) . . . . . . . . . 54
4.6 Ma trận nhầm lẫn trên ba tập dữ liệu với thiết lập LBP(8,5) . . . . . . . . . 54


x

Danh sách bảng
3.1 Kết quả trên tập CASIA-FASD của phương pháp [3] . . . . . . . . . . . . 35
3.2 Kết quả trên tập Replay-Attack của phương pháp [3] . . . . . . . . . . . . 35
3.3 Kết quả trên tập Replay-Attack, CASIA-FASD của phương pháp [3] . . . . 35
3.4 Kết quả trên tập OULU-NPU của phương pháp [10] . . . . . . . . . . . . . 37
3.5 Kiến trúc mơ hình đề xuất mạng CNN cho rút trích đặc trưng theo vùng
(trái) và ước lượng chiều sâu ảnh (phải) . . . . . . . . . . . . . . . . . . . 44
3.6 Kết quả trên tập dữ liệu CASIA-FASD trên các không gian màu khác nhau
của [7] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.7 Kết quả của mơ hình CDCN trên các tập dữ liệu CASIA-FASD, ReplayAttack, MSU-MFSD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.1 Các biến thể của mạng ResNet . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2 Kết quả thực nghiệm ACER (%) trên ba tập dữ liệu với thiết lập mơ hình
Resnet50 và LBP với các giá trị bán kính lần lượt là 1, 3 và 5 . . . . . . . . 53
4.3 Kết quả trên tập dữ liệu CASIA-FASD . . . . . . . . . . . . . . . . . . . . 54
4.4 Kết quả trên tập dữ liệu MSU MFSD . . . . . . . . . . . . . . . . . . . . 55
4.5 Kết quả trên tập ROSE-YOUTU . . . . . . . . . . . . . . . . . . . . . . . 55
4.6 Kết quả thực nghiệm ACER (%) trên ba tập dữ liệu với thiết lập mơ hình
Resnet101 và LBP(8,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56



1

Chương 1

MỞ ĐẦU
Ngày nay với sự phát triển của công nghệ đặc biệt trong lĩnh vực học sâu, những sản
phẩm liên quan đến nhận diện gương mặt ngày càng được ứng dụng rộng rãi. Chúng
ta thấy ứng dụng rất nhiều trong hệ thống giám sát an ninh, quản lý ra vào toà nhà, các
hệ thống xác thực người dùng trong các giao dịch thanh toán hay mở các tài khoản
ngân hàng, v.v.. Công nghệ nhận dạng gương mặt dần thay thế các phương pháp xác
thực truyền thống và phù hợp với sự chuyển dịch số ngày nay. Bên cạnh sự phát triển
nhanh chóng cũng đi kèm những rủi ro về mặt an ninh bằng các phương pháp tấn công
hệ thống để mạo danh người dùng. Các hành vi này ngày càng tinh vi, từ việc sử dụng
giấy in gương mặt với các chất liệu và màu sắc khác nhau đến sử dụng ảnh chụp qua
màn hình với độ phân giải từ thấp đến cao. Tinh vi hơn, người tấn công còn sử dụng
các loại mặt nạ từ 2D đến 3D nhằm qua mặt hệ thống. Bên cạnh các vật liệu tấn cơng,
người ta cịn biết cách tận dụng các điều kiện bên ngồi như ánh sáng, góc chụp, v.v.
để tăng độ chân thật nhằm qua mặt hệ thống nhận diện gương mặt. Hình 1.1 dưới đây
mơ tả một số cách thức tấn công được ghi nhận như dùng mặt nạ (Hình 1.1a), giấy in
(Hình 1.1d), qua màn hình (Hình 1.1b, 1.1c, 1.1e).
Chính những rủi ro ngày càng lớn như vậy, việc phát triển một kỹ thuật nhằm chống
lại các hình thức tấn công là điều hết sức cần thiết. Thuật ngữ chuyên ngành đề cập
đến phương pháp này là chống giả mạo gương mặt (face anti-spoofing - FAS) hay cịn
có cách gọi khác là phát hiện độ chân thực của ảnh người dùng (liveness detection).


2

Hình 1.1: Một số dạng tấn cơng từ tập dữ liệu ROSE-YOUTU [1]
Lĩnh vực này ngày càng được quan tâm nhiều hơn trong những năm gần đây chính bởi

sự cấp thiết nhằm ngăn chặn những hình thức tấn cơng ngày càng tinh vi. Hình 1.2
thể hiện thống kê số lượng cơng trình nghiên cứu ngày càng tăng đặc biệt trong 3 năm
gần đây khi tìm các từ khố liên quan trên Google Scholar gồm "face anti-spoofing",
"face liveness detection" và "face presentation attack detection".
Có hai cách tiếp cận chính cho vấn đề chống giả mạo gương mặt. Cách đầu tiên dựa
trên đặc tính tường minh về sự chân thật đó là dựa trên chuyển động. Bằng cách yêu
cầu người dùng thực hiện các hành vi như chớp mắt, quay đầu, mỉm cười để phát hiện
người thật. Cách tiếp cận này gọi là phát hiện ảnh gương mặt giả mạo dựa trên chuyển
động (active liveness). Phương pháp này có hiệu quả đối với các dạng tấn công cơ bản
như ảnh chụp nhưng không hiệu quả đối với các dạng tấn công phát lại các cử chỉ qua
video hay sử dụng các loại mặt nạ.
Cách tiếp cận thứ hai cố gắng phát hiện các đặc trưng về mặt hình ảnh để phân
biệt đâu là ảnh chụp người thật và không yêu cầu bất kì hành động nào từ người
dùng. Phương pháp này gọi là phát hiện giả mạo thụ động (passive liveness). Passive
liveness giúp trải nghiệm người dùng trở nên tốt hơn khi sử dụng các ứng dụng liên
quan. Tuy vậy, phương pháp này cần địi hỏi cơng nghệ phức tạp để có thể phân biệt
ảnh chụp người thật chỉ dựa trên các ảnh tĩnh. Đây cũng là xu thế của cách tiếp cận


3

Hình 1.2: Số lượng bài báo khoa học cơng bố được tìm theo keyword "face antispoofing", "face liveness detection" và "face presentation attack detection" trên
Google Scholar [2]
ngày nay. Vì vậy, ở luận văn này trình bày phương pháp chống giả mạo gương mặt
theo hướng passive liveness với việc rút trích các đặc trưng một cách có chọn lọc dựa
trên các mạng học sâu và các thuộc tính bổ trợ. Việc kết hợp các thuộc tính kể trên
nhằm cho kết quả cao và tổng quát đối với hầu hết các trường hợp tấn cơng. Bên cạnh
đó việc lựa chọn hướng tiếp cận chỉ dựa trên một tấm ảnh chụp gương mặt sẽ có ứng
dụng thực tiễn cao, tích hợp dễ dàng vào các sản phẩm nhận diện gương mặt hiện có
và tăng trải nghiệm của người sử dụng vì khơng phải yêu cầu người dùng thao tác bất

kì hành động nào.
Tổng kết lại, luận văn này có các đóng góp chính như sau:
• Đề xuất phương pháp chống giả mạo gương mặt chỉ dựa trên một tấm ảnh chụp
gương mặt, có ý nghĩa cả về mặt nghiên cứu và ứng dụng thực tiễn.
• Kết hợp các thuộc tính từ mạng học sâu và các thuộc tính thủ cơng bổ trợ theo
một mơ hình học sâu được thiết kế riêng.
• So sánh với các phương pháp hiện tại, phương pháp đề xuất cho kết quả tốt trên


4

các tập dữ liệu công khai.
Các kết quả của luận văn được kiểm chứng trên các tập dữ liệu công khai về lĩnh
vực này như CASIA-FASD [12], MSU-MFSD [13] và ROSE-YOUTU [1].


5

Chương 2

GIỚI THIỆU
2.1

Tổng quan về bài toán

Với sự phát triển của công nghệ nhận diện gương mặt và được ứng dụng nhiều trong
cuộc sống, việc xác định người đứng trước máy ảnh có phải là người thật chính chủ
hay khơng là một vấn đề vô cùng quan trọng. Một số phương pháp qua mặt hệ thống
như đưa tấm ảnh của người cần xác thực ra trước máy ảnh, phát lại qua một video có
mặt người đó hay dùng các loại mặt nạ để qua mặt được hệ thống nhận dạng gương

mặt. Chính vì vậy, thành phần phát hiện giả mạo gương mặt đóng vai trị quan trọng
trong bất kỳ một hệ thống nhận dạng gương mặt nào.

Hình 2.1: Hệ thống chống giả mạo gương mặt trong hệ thống nhận diện gương mặt


6

Các phương pháp tấn công giả mạo
Các phương pháp tấn công ngày càng tinh vi và đa dạng, về cơ bản có thể chia thành
hai dạng của biểu diễn tấn công là tấn công mạo danh và tấn công làm rối hệ thống.
Thứ nhất, với sự phát triển của hệ thống internet đặc biệt là mạng xã hội nơi mà người
ta chia sẻ ảnh hay video của gương mặt rất nhiều, những kẻ tấn công sẽ tận dụng để
dùng các loại ảnh/video này để qua mặt các hệ thống xác thực gương mặt. Đây gọi là
tấn công mạo danh. Dạng thứ hai gọi là tấn công làm rối hệ thống, nơi kẻ tấn công
cố gắng dùng những thủ thuật để qua mặt hệ thống nhưng khơng nhằm mục đích mạo
danh bất kỳ ai. Hai dạng tấn công này được đã được ghi nhận theo tiêu chuẩn ISO
về các dạng tấn công sinh trắc học [14]. Trong phạm vi luận văn này sẽ tìm hiểu các
dạng tấn cơng và các phương pháp liên quan đến tấn công giả mạo.
Các dạng biểu diễn tấn công của tấn công mạo danh bao gồm tấn công thông qua
ảnh, qua video hay mặt nạ 3D. Trong khi đó, tấn cơng gây rối hệ thống dựa trên các
mẹo để qua mặt hệ thống như sử dụng yếu tố trang điểm, phẫu thuật thẩm mỹ hay che
đi một phần của gương mặt. Hình 2.2 sơ đồ hố lại các loại hình tấn cơng và hình 2.3
đưa ra một vài ví dụ từ các tập dữ liệu cơng khai.
Dạng tấn công qua ảnh, và qua phát lại video là hai dạng tấn cơng tiêu biểu nhất
vì chi phí rẻ để tái tạo và quá trình thu thập ảnh dễ dàng từ mạng xã hội hay trên môi
trường internet. Nhiều cách đã được sử dụng bởi người tấn công để đánh lừa hệ thống
là một người dùng hợp lệ. Hình 2.3(a) thể hiện tấn cơng qua giấy in ảnh (có thể với
nhiều kích thước như A3/A4, chất liệu giấy như giấy thông thường hay giấy chuyên
dụng cho ảnh kỹ thuật số). Bên cạnh ảnh được in ra, người tấn cơng có thể phát lại

ảnh này trên các thiết bị điện tử như màn hình điện thoại, laptop. Hình 2.3(b) cịn cho
thấy dạng tấn cơng dùng ảnh, tuy nhiên có sử dụng yếu tố bẻ cong để tạo chiều sâu
cho ảnh gương mặt. Bên cạnh đó, Hình 2.3(c) cho thấy ảnh được cắt ra ở mắt, ngồi
ra cịn có thể cắt ảnh ở các bộ phận khác để thực hiện một số hành vi từ hệ thống như
chớp mắt hay cười. Bên cạnh sử dụng ảnh tĩnh thì dạng tấn cơng qua video sẽ tinh
vi hơn (Hình 2.3(d)), ở dạng này dễ dàng tạo ra các chuyển động mượt mà như chớp


7

Hình 2.2: Phân loại các dạng tấn cơng giả mạo
mắt, thay đổi biểu cảm,... để qua mặt hệ thống.
Trái với các dạng tấn công qua ảnh hay qua video (bản chất đều là không gian 2D),
dạng tấn công bằng mặt nạ cố gắng tái tạo những đặc điểm 3D của gương mặt. Các
dạng mặt nạ 3D thường thấy như mặt nạ chất lượng thấp (hình 2.3(e)) đến các loại
mặt nạ chất lượng cao (hình 2.3(f)). Các loại mặt nạ 3D chất lượng cao là một thách
thức đối với các hệ thống chống giả mạo gương mặt. Ngày nay việc tạo ra mặt nạ 3D
thường chi phí sẽ cao và địi hỏi phải có sự hợp tác của người trên mặt nạ thì việc tái
tạo mới đảm bảo chính xác. Chính những yếu tố này mà dạng tấn cơng này ít phổ biến
hơn dạng tấn công qua ảnh hay video.


8

Hình 2.3: Ví dụ các dạng tấn cơng giả mạo

Cách thức đánh giá
Về phương pháp đánh giá, có thể sử dụng các độ đo phổ biến như tỉ lệ từ chối sai False Rejection Rate (FRR) hay tỉ lệ chấp nhận sai - False Acceptance Rate (FAR).
EER là giá trị khi hai chỉ số trên bằng nhau. Các chỉ số này thường dùng trong các hệ
thống sinh trắc học, do đó có thể dùng trong hệ thống chống giả mạo gương mặt. Xét

trường hợp tấn công là trường hợp positive, với định nghĩa dưới đây.
• TN: Số trường hợp xác định đúng trường hợp tấn cơng.
• TP: Số trường hợp xác định đúng trường hợp người thật.
• FP: Số trường hợp xác định sai trường hợp người thật.
• FN: Số trường hợp xác định sai trường hợp tấn cơng.
Ta có các công thức liên quan: FRR =

FP
T N+FP ,

FAR =

FN
T P+FN

Khi hai tỉ lệ lỗi này

bằng nhau ta có giá trị EER được mơ tả như hình 2.4
Bên cạnh đó, hiện nay các cơng trình dựa trên tiêu chuẩn ISO/IEC 30107-3 gồm
các độ đo: Attack Presentation Classification Error Rate (APCER) - tỉ lệ lỗi phân loại


9

Hình 2.4: Mơ tả các tỉ lệ lỗi FAR, FRR, EER
tấn công, Bona Fide Presentation Classification Error Rate (BPCER) - tỉ lệ lỗi phân
loại người thật, and Average Classification Error Rate (ACER) - tỉ lệ lỗi phân loại
trung bình. Cơng thức cụ thể như dưới đây:
FN
FN+T P

FP
BPCER = FP+T
N
APCER+BPCER
ACER =
2

APCER =

Mục tiêu của các hệ thống chống giả mạo là giảm thiểu các tỉ lệ lỗi trên. Tuy nhiên
tuỳ vào yêu cầu của từng hệ thống mà người ta quan tâm đến một chỉ số hơn các chỉ
số còn lại. Ví dụ nếu thiết kế hệ thống đảm bảo khơng cho phép bất kỳ trường hợp tấn
cơng nào thì các tỉ lệ lỗi liên quan đến tấn công cần được tối thiểu, tất nhiên vẫn đảm
bảo các tỉ lệ lỗi của người thật vẫn ở mức chấp nhận được.

2.2

Các nền tảng

Các khái niệm
Một vài khái niệm tiêu biểu cho hệ thống chống giả mạo gương mặt:


10

• FAS - Face Anti-Spoofing (Chống giả mạo gương mặt): là việc phát hiện các
hình thức tấn cơng dựa trên gương mặt thường được tích hợp trong hệ thống
nhận diện gương mặt hay một hệ thống độc lập để kiểm tra độ chân thật của ảnh
gương mặt.
• PA - Presentation Attacks (Các dạng tấn cơng phát lại): Có nhiều hình thức tấn

công giả mạo gương mặt đã được liệt kê như tấn công sử dụng giấy in, phát lại
qua các loại màn hình hay tinh vi hơn là sử dụng các dạng mặt nạ,...

Các hướng giải quyết cho vấn đề phát hiện giả mạo
Có hai hướng chính cho vấn đề phát hiện giả mạo: sử dụng chuyển động của người
dùng (active liveness) và không sử dụng chuyển động (passive liveness). Đối với active liveness, hệ thống sẽ yêu cầu người dùng thực hiện các thao tác như cười, nháy
mắt, xoay đầu để bắt được các hành động này. Hệ thống này sẽ làm việc tốt với các
dạng tấn công in qua giấy, nhưng sẽ gặp khó khăn với các dạng tấn công phát lại qua
video hay dùng mặt nạ. Dạng chống tấn công thứ hai được gọi là passive liveness, ở
dạng này không yêu cầu bất kỳ chuyển động nào, chỉ cần dùng một tấm ảnh là có thể
phát hiện được các trường hợp giả mạo.
Xét về phương pháp kỹ thuật, có thể chia ra thành 5 nhóm chính:
• Dựa trên những đặc điểm của sự sống (liveness cue): Mục đích chính là xác
định chuyển động của biểu diễn gương mặt. Các phương pháp chính là sử dụng
chuyển động của đầu, biểu cảm gương mặt hay các thay đổi tinh vi hơn như tín
hiệu chuyển động của máu. Vì vậy những phương pháp này có thể chia thành hai
nhóm:
– Phương pháp dựa trên chuyển động thông thường yêu cầu đầu vào là một
video để phân biệt gương mặt thường với những bức ảnh tĩnh. Phương pháp
này hữu hiệu với các dạng tấn cơng dùng ảnh tĩnh nhưng khơng có tác dụng
với tấn công phát lại các chuyển động qua videop hay sử dụng mặt nạ 3D.


11

– Remote PhotoPlethysmoGraphy (rPPG): Đây là phương pháp được sử dụng
rộng rãi nhất trong việc đánh giá sự thay đổi tin vi của nhịp máu. Phương
pháp này có thể phát hiện các dạng tấn công qua ảnh hay mặt nạ 3D vì các
dạng này khơng thể hiện chuyển động tinh vi trên gương mặt. Chúng cũng
phát hiện tốt đối với các dạng tấn công qua video độ phân giải thấp. Tuy

nhiên video phát lại với độ phân giải cao, phương pháp này sẽ khơng hữu
hiệu.
• Dựa trên những đặc điểm bề mặt của ảnh (texture cue): Ở phần này có thể chia
thành hai thuộc tính tĩnh và động. Ở thuộc tính tĩnh có thể dùng các phương pháp
sử dụng những thuộc tính thủ cơng hay thuộc tính của mạng deep learning để
rút trích thơng tin từ một ảnh. Ở thuộc tính động phải kết hợp việc xử lý nhiều
khung ảnh để có được các thuộc tính về thời gian. Phương pháp này hiệu quả với
hầu hết các dạng tấn công, tuy nhiên với trường hợp mặt nạ 3D vô cùng tinh vi
phương pháp này sẽ khơng hữu hiệu vì mặt nạ 3D có các đặc điểm bề mặt tương
tự như mặt thật.
• Dựa trên những đặc điểm của khơng gian 3D (3D geometric cue): Phương pháp
này dùng thêm những thành phần từ ảnh như hình dạng 3D hay ước lượng chiều
sâu của ảnh dựa trên thuật toán. Phương pháp này hiệu quả với dạng tấn công
qua ảnh và video, không hiệu quả cao đối với trường hợp sử dụng mặt nạ 3D.
• Dựa trên việc kết hợp nhiều đặc điểm (Multiple cue): Phương pháp này kết hợp
các phương pháp trước đó lại với nhau nhằm tối ưu kết quả. Ví dụ như kết hợp cả
những thuộc tính về sự sống và thuộc tính liên quan đến đặc điểm bề mặt.
• Dựa trên những xu hướng mới (new trends): Các xu hướng như tự động tìm kiếm
kiến trúc của mạng học sâu, các phương pháp học một nhóm,...

Mạng nơ-ron nhân tạo
Mạng nơ-ron (neural network) là một kiến trúc được lấy cảm hứng từ mạng nơ-ron
thần kinh của con người. Với các tiến bộ của khoa học cũng như việc ứng dụng


12

Hình 2.5: Kiến trúc mạng cơ bản
các cơng nghệ học sâu (Deep learning), Neural Network đã trở thành một công cụ
mạnh mẽ giúp giải quyết rất nhiều bài tốn khó như xử lý, nhận dạng ảnh (Computer

Vision), giọng nói (Speech processing), xử lý ngôn ngữ tự nhiên (Natural language
processing).
Nơron và hàm kích hoạt
Mạng nơ-ron là mạng được lấy cảm hứng từ mơ hình não người. Với cấu tạo từ nơron
và kết nối não người có thể thực hiện được rất nhiều các tác vụ phức tạp. Tương tự
như vậy thì các mạng nơron máy tính cũng được cấu tạo bởi các nơron ( node mạng)
cùng với đó là kết nối giữa các node đó với nhau. Hình 2.5 mơ phỏng một node mạng
ở dạng đơn giản. Một node sẽ nhận một hoặc nhiều đầu vào và cho ra một kết quả duy
nhất. Các đầu vào được điều phối tầm ảnh hưởng bởi các trọng số (weights) tương
ứng của nó, cịn kết quả đầu ra được quyết định dựa vào một ngưỡng (bias) quyết định
thông qua một Step Function (Sigmoid, Tanh, Relu, ...) hay gọi là các hàm kích hoạt.
Các hàm kích hoạt ln là các hàm phi tuyến (non-linear). Lý do xuất phát chính từ
cấu trúc của các mạng nơron, giả sử chỉ sử dụng các hàm tuyến tính để làm hàm kích
hoạt thì tương tự với việc dùng thêm một tầng ẩn nữa vì các phép biến đổi cũng chỉ


13

đơn thuần là nhân thêm với một trọng số nào đó. Các phép biến đổi đơn giản như vậy
thì mơ hình mạng sẽ khơng có khả năng học được những mối quan hệ phức tạp giữa
các dữ liệu, cũng không có khả năng giải quyết được những bài tốn phức tạp như xử
lý ảnh hay xử lý ngôn ngữ tự nhiên.
Các hàm kích hoạt thường dùng
• Hàm ReLU: Đơn vị tuyến tính chỉnh lưu (ReLU) là sự lựa chọn phổ biến nhất do
tính đơn giản khi lập trình và hiệu quả trong nhiều tác vụ dự đoán. ReLU là một
phép biến đổi phi tuyến đơn giản. Cho trước một phần tử z , ta định nghĩa hàm
ReLU là giá trị lớn nhất giữa chính phần tử đó và 0.
ReLU(x) = max(x, 0)
Hàm ReLU chỉ giữ lại các phần tử có giá trị dương và loại bỏ tất cả các phần tử
có giá trị âm (đặt kích hoạt tương ứng là 0). Có một vài biến thể của ReLU, tiêu

biểu là hàm ReLU được tham số hố (pReLU), mục đích thêm một phần tuyến
tính vào ReLU, do đó một số thơng tin vẫn được giữ lại ngay cả khi đối số là âm.
ReLU(x) = max(x, 0) + αmin(x, 0)
• Hàm Sigmoid: Hàm sigmoid biến đổi các giá trị đầu vào có miền giá trị thuộc
R thành các giá trị đầu ra nằm trong khoảng (0, 1). Vì vậy, hàm sigmoid thường
được gọi là hàm ép: nó ép một giá trị đầu vào bất kỳ nằm trong khoảng ( - ∞ , ∞)
thành một giá trị đầu ra nằm trong khoảng (0, 1).
sigmoid(x) =

1
1 + exp(−x)

Khi phương pháp học dựa trên gradient trở nên phổ biến, hàm sigmoid là một
lựa chọn tất yếu của đơn vị ngưỡng bởi tính liên tục và khả vi của nó. Tuy nhiên,
trong các tầng ẩn, hàm sigmoid hầu hết bị thay thế bằng hàm ReLU vì nó đơn
giản hơn và giúp cho việc huấn luyện trở nên dễ dàng hơn


×