Tải bản đầy đủ (.pdf) (88 trang)

Ứng dụng công nghệ nhận diện khuôn mặt để xây dựng hệ thống kiểm soát vào ra tại trung tâm hành chính thành phố đà nẵng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (10.55 MB, 88 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC SƢ PHẠM ĐÀ NẴNG

NGUYỄN HỮU NHĨ

ỨNG DỤNG CÔNG NGHỆ NHẬN DIỆN KHUÔN MẶT
ĐỂ XÂY DỰNG HỆ THỐNG KIỂM SOÁT VÀO RA TẠI
TRUNG TÂM HÀNH CHÍNH THÀNH PHỐ ĐÀ NẴNG

LUẬN VĂN THẠC SĨ
HỆ THỐNG THƠNG TIN

Đà Nẵng, Năm 2023


ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC SƢ PHẠM ĐÀ NẴNG

NGUYỄN HỮU NHĨ

ỨNG DỤNG CÔNG NGHỆ NHẬN DIỆN KHUÔN MẶT
ĐỂ XÂY DỰNG HỆ THỐNG KIỂM SOÁT VÀO RA TẠI
TRUNG TÂM HÀNH CHÍNH THÀNH PHỐ ĐÀ NẴNG

Chun ngành: Hệ thống thơng tin
Mã số: 848.01.04

LUẬN VĂN THẠC SĨ

NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. NGUYỄN TRẦN QUỐC VINH



Đà Nẵng, Năm 2023


i

LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành gửi lời cảm ơn Quý Thầy Cô Trường Đại học Sư
phạm Đà Nẵng, nơi em theo học Cao học. Em xin trân trọng cảm ơn Quý Thầy Cô
Trường Đại học Bách Khoa Đà Nẵng, Đại học Quốc gia Hà Nội, Đại học Khoa học
Huế, đặc biệt Quý Thầy Cô trong Khoa Tin học đã tận tình dạy dỗ và tạo điều kiện tốt
nhất cho lớp em và bản thân em trong suốt quá trình theo học tại Trường.
Em xin cảm ơn và tỏ lòng biết ơn sâu sắc đến với Thầy giáo Tiến sĩ Nguyễn Trần
Quốc Vinh đã tận tình dạy dỗ, hướng dẫn khoa học và giúp đỡ em trong suốt q trình
nghiên cứu và hồn thành luận văn này.
Tơi xin cảm ơn gia đình, đồng nghiệp và đặc biệt các bạn học viên Cao học khóa
39, 40, 41 Trường Đại học Sư phạm Đà Nẵng đã hỗ trợ tôi thực hiện đề tài này.





v

MỤC LỤC
LỜI CẢM ƠN ...................................................................................................................i
LỜI CAM ĐOAN ........................................................................................................... ii
TÓM TẮT...................................................................................................................... iii
MỤC LỤC .......................................................................................................................v
DANH MỤC VIẾT TẮT.............................................................................................. vii

DANH MỤC C C BẢNG BI U................................................................................ viii
DANH MỤC HÌNH VẼ, ĐỒ THỊ ..................................................................................ix
MỞ ĐẦU .........................................................................................................................1
1. Lý do chọn đề tài ................................................................................................1
2. Mục tiêu và nhiệm vụ đề tài ...............................................................................2
3. Đối tượng và phạm vi nghiên cứu ......................................................................3
4. Phương pháp nghiên cứu ....................................................................................3
5. Ý nghĩa thực tiễn của đề tài ................................................................................3
6. Kết quả dự kiến ...................................................................................................4
7. Cấu trúc của luận văn..........................................................................................4
CHƢƠNG 1. TỔNG QUAN VỀ PHÁT HIỆN VÀ NHẬN DẠNG KHUÔN MẶT 5
1.1. Lịch sử hình thành và phát triển cơng nghệ nhận dạng khuôn mặt .................5
1.2. Hệ thống nhận dạng khuôn mặt ............................................................................6
1.2.1. Các bước chính trong hệ thống nhận dạng khn mặt .................................6
1.2.2. Bài tốn nhận dạng khn mặt .....................................................................7
1.3. Tổng quan các phƣơng pháp nhận dạng khuôn mặt ..........................................8
1.3.1. Phương pháp tồn diện .................................................................................9
1.3.2. Phương pháp tiếp cận hình học ...................................................................10
1.4. Kết chƣơng 1 .........................................................................................................12
CHƢƠNG 2. ỨNG DỤNG CÔNG NGHỆ NHẬN DIỆN KHN MẶT ĐỂ XÂY
DỰNG HỆ THỐNG KIỂM SỐT RA VÀO TẠI TRUNG TÂM HÀNH CHÍNH
.......................................................................................................................................13
2.1. Các đặc trƣng Histograms of oriented gradients (HOG) .................................13
2.1.1. Tính tốn gradient .......................................................................................13
2.1.2. Các bước tính HOG ...................................................................................14
2.2. Bộ phân lớp tuyến tính SVM (Support Vector Machines) ...............................17
2.2.1. Giới thiệu về SVM ......................................................................................17
2.2.2. Siêu phẩm tối ưu .........................................................................................17



vi
2.3. Mạng nơron tích chập Convolutional Neural Network ....................................19
2.3.1. Khái niệm ....................................................................................................19
2.3.2. Cấu trúc mạng nơ ron tích chập .................................................................19
2.3.3 Thuật toán FaceNet ......................................................................................24
2.4. Giải pháp tổng thể nhận dạng khn mặt ngƣời tại Trung tâm hành chính
thành phố Đà Nẵng ......................................................................................................27
2.4.1. Phát hiện khuôn mặt sử dụng các đặc trưng Histograms of Oriented
Gradients (HOG) và bộ phân lớp tuyến tính SVM .......................................................29
2.4.2. Nhận dạng khn mặt người bằng phương pháp trích chọn đặc trưng sử
dụng các lớp mạng neural học sâu Face Net và phân lớp khuôn mặt sử dụng hàm chi
phí bộ ba (Tripletbased Loss Function) .........................................................................32
2.5. Xây dựng cơ sở dữ liệu khuôn mặt của cán bộ, cơng chức và viên chức tại
Trung tâm Hành chính ...............................................................................................35
2.6. Kết chƣơng 2 .........................................................................................................36
CHƢƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ ......................................................38
3.1. Môi trƣờng thực nghiệm ......................................................................................38
3.1.1. Thư viện mã nguồn mở NumPy [9] dùng trong việc xây dựng, biểu diễn,
lưu trữ và thao tác dữ liệu ..............................................................................................38
3.1.2. Thư viện OpenCV [10] để thực hiện các thao tác xử lý ảnh cơ bản ..........38
3.2. Triển khai hệ thống nhận dạng khuôn mặt .......................................................45
3.2.1. Xây dựng Module phát hiện khuôn mặt sử dụng các đặc trưng Histograms
of Oriented Gradients (HOG) và bộ phân lớp tuyến tính SVM ....................................46
3.2.2. Xây dựng Module nhận dạng khn mặt người bằng phương pháp trích
chọn đặc trưng sử dụng các lớp mạng neural học sâu Face Net và phân lớp khn mặt
sử dụng hàm chi phí bộ ba (Tripletbased Loss Function) .............................................52
3.2.3. Triển khai xây dựng phần mềm nhận dạng khuôn mặt bằng Python,
Pycharm .........................................................................................................................55
3.3. Kết chƣơng 3 .........................................................................................................58
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .................................................................59

DANH MỤC TÀI LIỆU THAM KHẢO ...................................................................60


vii

DANH MỤC VIẾT TẮT
Từ viết tắt

Ý nghĩa

AI

Artificial Intelligence – Trí tuệ nhân tạo

IoT

Internet of things - Kết nối Internet vạn vật

CNN

Convolutional Neural Network - Mạng nơ ron tích chập

ML

Machine Learning - Học máy

DL

Deep Learning - Học sâu


PCA

Principal Component Analysis – Phân tích thành phàn chính

SVM

Support Vector Machine – Bộ phân lớp tuyến tính

HOG

Histograms of Oriented Gradients – Bộ mơ tả đặc trưng

ICA

Independent Component Analysis – Phân tích thành phần độc lập

LDA

Linear Discriminant Analysis (LDA) – Phân tích biệt thức tuyến tính

ReLU

Rectified Linear Unit – Điều chỉnh đơn vị tuyến tính.

YOLO

You Only Look Once – Một hệ thống mang nơ ron nhân tạo phát hiện
đối tượng thời gian thực

DNN


Deep Neural Network - Mơ hình mạng nơ ron học sâu

SIFT

Scale-Invariant Feature Transform - Phép biến đổi đối tượng địa lý
bất biến theo tỷ lệ

GPU

Graphics Proccessing Unit - Bộ xử lý đồ họa


viii

DANH MỤC CÁC BẢNG BIỂU

Số hiệu

Tên bảng

Trang

Bảng 2.1.

Những biến thể của ReLU

21

Bảng 2.2.


Phân loại nhận diện vật thể

21

Bảng 2.3.

Phát hiện vật thể

22

Bảng 2.4.

Mơ hình xác nhận khn mặt và nhận diện khuôn mặt

23


ix
DANH MỤC HÌNH VẼ, ĐỒ THỊ

Số hiệu

Tên hình

Trang

Hình 1.1.

Các giai đoạn chính trong lịch sử nhận dạng khn mặt


5

Hình 1.2.

Thiết kế tiêu chuẩn của hệ thống nhận dạng khuôn mặt tự
động

6

Hình 1.3.

Phân loại các giao thức đánh giá khác nhau trong nhận dạng

7

khn mặt
Hình 1.4

Ví dụ về khai thác các điểm mốc bằng cách sử dụng thuật

11

toán đối sánh đồ thị bó đàn hồi (EBGM)
Hình 2.1.

Kết quả sau khi tính tốn véc tơ đặc trưng cho từng ơ

15


Hình 2.2.

Biểu diễn các véc tơ chỉ hướng theo HOG thu được sau khi
tính tốn

16

Hình 2.3.

Bộ phân lớp tuyến tính SVM

17

Hình 2.4.

Phân tích theo siêu phẳng (w, b) trong không gian 2 chiều
của tập mẫu

18

Hình 2.5

Siêu phẩm tối ưu

18

Hình 2.6.

Các tầng (Layer) trong CNN là 3 chiều


19

Hình 2.7.

Hình ảnh minh họa tầng tích chập trong CNN

20

Hình 2.8.

Hình ảnh một mạng Nơron kết nối đầy đủ.

20

Hình 2.9.

Kiến trúc FaceNet

24

Hình 2.10

Minh họa bộ ba sai số

25

Hình 2.11.

Minh họa về quá trình sau huấn luyện [3]


26

Hình 2.12

Mơ hình nhận dạng khn mặt người từ hệ thống camera
quan sát tại Trung tâm hành chính thành phố Đà Nẵng

28

Hình 2.13

Sơ đồ phát hiện khn mặt trên khung hình

29

Hình 2.14

Kết quả phát hiện khn mặt người qua Camera

31

Hình 2.15

Kết quả phát hiện khn mặt người qua hình ảnh

32


x
Hình 2.16


Sơ đồ nhận dạng khn mặt người

34

Hình 2.17

Kết quả nhận diện khn mặt người qua Camera

35

Hình 2.18

Ảnh khn mặt của 1 người trong tập dữ liệu khn mặt.

36

Hình 2.19

Thư mục chứa tập ảnh khn mặt của CBCCVC

36

Hình 3.1

Tổng quan về đường ống nhận dạng khn mặt OpenCV

42

Hình 3.2


Cấu trúc dự án OpenCV

43

Hình 3.3

Sơ đồ khối kiểm tra và xác nhận CBCCVC vào ra tại Trung
tâm hành chính thành phố Đà Nẵng

46

Hình 3.4

Kết quả phát hiện khn mặt HOG + Linear SVM của

52

DLIB
Hình 3.5

Kết quả nhận diện khn mặt FaceNet

55

Hình 3.6

Xây dựng cơ sở dữ liệu bằng MySQL

55


Hình 3.7

Giao diện chính của chương trình

56

Hình 3.8

Giao diện đăng ký tài khoản hệ thống

56

Hình 3.9

Giao diện đăng nhập tài khoản vào hệ thống

56

Hình 3.10

Giao diện phát hiện khn mặt

57

Hình 3.11

Giao diện xây dựng tập huấn luyện

57


Hình 3.12

Hình ảnh minh họa xây dựng tập huấn luyện

56

Hình 3.13

Giao diện Nhận dạng khn mặt

58

Hình 3.14

Giao diện nhân viên check-in Hệ thống

58


1
MỞ ĐẦU
1. Lý do chọn đề tài
Cuộc Cách mạng công nghiệp lần thứ tư mở ra nhiều cơ hội đã và đang tác
động ngày càng mạnh mẽ đến tất cả các lĩnh vực của đời sống kinh tế, xã hội. Thời
gian qua, Đảng và Nhà nước ta đã lãnh đạo, chỉ đạo các cấp, các ngành đẩy mạnh ứng
dụng, phát triển khoa học, công nghệ và đổi mới sáng tạo, nghiên cứu nắm bắt, nâng
cao năng lực tiếp cận và chủ động tham gia cuộc Cách mạng công nghiệp lần thứ tư để
nâng cao năng suất lao động, hiệu quả, sức cạnh tranh của nền kinh tế, hiệu lực, hiệu
quả quản lý xã hội để làm động lực cho phát triển kinh tế-xã hội.

Sự bùng nổ công nghệ trong thời đại cách mạng công nghiệp 4.0 bao gồm mạng
lưới kết nối Internet vạn vật (IoT), sự phát triển vượt bật của trí tuệ nhân tạo (Artificial
Intelligence: AI) và ứng dụng xử lý dữ liệu lớn (Big Data), trí tuệ nhân tạo (AI) đang
góp phần thay đổi sâu sắc nhiều khía cạnh của cuộc sống, dần trở thành một yếu tố
quan trọng trong hoạt động muôn màu muôn vẻ của nhân loại. Nhiều bức tranh về
tương lai tươi sáng do AI mang đến cho loài người đã được khắc họa. Riêng về mặt
kinh tế, một nghiên cứu của PwC cho thấy AI trở thành cơ hội thương mại lớn nhất
ngày nay trong nền kinh tế toàn cầu đang thay đổi nhanh chóng với phần đóng góp của
AI lên tới 15.700 tỷ USD vào năm 2030. Chính vì lý do đó, AI đã trở thành cuộc đua
toàn cầu của hai siêu cường kinh tế là Mỹ và Trung Quốc, đồng thời, nhiều nước trên
thế giới đã và đang tiến hành xây dựng chiến lược phát triển AI quốc gia.
Thị giác máy tính (tiếng Anh: Computer Vision) là một lĩnh vực trí tuệ nhân tạo
(AI) cho phép máy tính và hệ thống lấy thơng tin có ý nghĩa từ hình ảnh kỹ thuật số,
video và các đầu vào trực quan khác và thực hiện hành động hoặc đưa ra đề xuất dựa
trên thông tin đó. Nếu AI cho phép máy tính suy nghĩ, thì thị giác máy tính cho phép
chúng nhìn, quan sát và hiểu. Thị giác máy tính nhằm giúp máy tính có khả năng nhìn
và hiểu giống như con người. Người tiên phong trong lĩnh vực AI là Marvin Minsky,
vào năm 1966 đã hướng dẫn sinh viên của mình ―kết nối camera với máy tính để mơ tả
những gì nó nhìn thấy được‖. Hai công nghệ thiết yếu được sử dụng để thực hiện điều
này: một loại học máy được gọi là học sâu và mạng nơ-ron tích hợp (Convolutional
Neural Network – CNN). Học máy (Machine learning) sử dụng các mô hình thuật tốn
cho phép máy tính tự dạy về ngữ cảnh của dữ liệu trực quan. CNN giúp mơ hình học
máy hoặc học sâu ―nhìn thấy‖ bằng cách chia nhỏ hình ảnh thành các pixel được gắn
thẻ hoặc nhãn. Nó sử dụng các nhãn để thực hiện tích chập và đưa ra dự đốn về
những gì nó đang ―nhìn thấy‖.


2
Nhận dạng khuôn mặt (Face recognition) là một lĩnh vực nghiên cứu của ngành
Computer Vision, và cũng được xem là một lĩnh vực nghiên cứu của ngành Biometrics

(tương tự như nhận dạng vân tay – Fingerprint recognition, hay nhận dạng mống mắt –
Iris recognition).
Trung tâm Hành chính thành phố Đà Nẵng tọa lạc tại số 24 Trần Phú, thành phố
Đà Nẵng là nơi làm việc của cán bộ, công chức, viên chức và người lao động thuộc
các sở, ban, ngành thành phố với gần 1.500 người và là nơi giao dịch với công dân, tổ
chức, doanh nghiệp đến làm việc với thành phố.
Trung tâm Hành chính hiện đang ứng dụng Hệ thống kiểm sốt ra vào bằng thẻ
từ tích hợp với thẻ công chức song song với việc dùng Hệ thống camera quan sát
riêng. Hệ thống này chỉ áp dụng cho cán bộ, cơng chức, viên chức, cịn người dân đến
liên hệ cơng tác thì đăng ký qua Lễ tân tịa nhà bằng thủ cơng.
Giải pháp hiện tại kiểm sốt cán bộ, công chức, viên chức vào, ra Trung tâm
Hành chính tích hợp thẻ cán bộ, cơng chức, viên chức bằng cách quét thẻ từ từ các cửa
kiemẻ soát vào ra có nhiều thuận tiện tuy nhiên bên cạnh đó có rất nhiều hạn chế nhất
là tính bảo mật khơng cao vì một người có thể dùng thẻ của người khác để vào, ra; cán
bộ, công chức và viên chức quên đem theo thẻ thì phải đăng ký Lễ tân khi đó mới vào
Trung tâm Hành chính được; Hệ thống đó chưa tích hợp với Hệ thống camera quan sát
chung trong tịa nhà hơn nữa ngày nay, cơng nghệ nhận dạng khn mặt có tính bảo
mật rất cao, khơng cần có sự tương tác với con người và ứng dụng rất nhiều lĩnh vực
trong thực tế, chính vì vậy tơi chọn đề tài ―Ứng dụng công nghệ nhận diện khuôn mặt
xây dựng hệ thống kiểm soát vào ra tại Trung tâm Hành chính thành phố Đà Nẵng‖
làm đề tài nghiên cứu với mục tiêu tìm hiểu và ứng dụng các thuật toán cũng như
phương pháp phát hiện và nhận dạng khn mặt để xây dựng chương trình kiểm sốt
người vào ra tại Trung tâm Hành chính.
2. Mục tiêu và nhiệm vụ đề tài
2.1. Mục tiêu
- Nghiên cứu các giải pháp phát hiện và nhận diện khuôn mặt phù hợp và có
hiệu quả nhất để áp dụng giải quyết bài tốn kiểm sốt người vào ra tại Trung tâm
Hành chính thành phố Đà Nẵng.
- Xây dựng cơ sở dữ liệu khuôn mặt của cán bộ, công chức, viên chức và người
lao động tại Trung tâm Hành chính thành phố Đà Nẵng.

- Triển khai áp dụng Xây dựng hệ thống kiểm soát vào ra tại Trung tâm Hành
chính thành phố Đà Nẵng.


3
2.2. Nhiệm vụ
- Tìm hiểu về Trí tuệ nhân tạo (Artificial Intelligence - viết tắt là AI).
- Tìm hiểu về Học máy (Machine Learning - viết tắt là ML).
- Tìm hiểu về Học sâu (Deep Learning - viết tắt là DL).
- Tìm hiểu về Thị giác máy tính (Computer Vision).
- Tìm hiểu các phương pháp pháp hiện khn mặt
- Tìm hiểu các phương pháp nhận diện khuôn mặt.
- Xây dựng hệ thống kiểm soát ra vào tại Trung tâm Hành chính thành phố Đà
Nẵng.
3. Đối tƣợng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
- Phương pháp phát hiện khuôn mặt.
- Phương pháp nhận diện khuôn mặt.
3.2. Phạm vi nghiên cứu
- Tìm hiểu các phát hiện khn mặt, phương pháp nhận diện khuôn mặt.
- Ứng dụng phương pháp phát hiện và nhận diện khn mặt xây dựng hệ thống
kiểm sốt vào ra tại Trung tâm Hành chính thành phố Đà Nẵng.
4. Phƣơng pháp nghiên cứu
4.1. Nghiên cứu lý thuyết
- Tìm hiểu và thu thập các tài liệu về phát hiện khn mặt và nhận diện khn
mặt.
- Tìm hiểu các phương pháp phát hiện khuôn mặt và nhận diện khuôn mặt.
- Tìm hiểu các cơng cụ Xây dựng hệ thống kiểm sốt ra vào tại Trung tâm Hành
chính thành phố Đà Nẵng.
4.2. Nghiên cứu thực nghiệm

- Thu thập dữ liệu tại Trung tâm Hành chính thành phố Đà Nẵng.
- Xây dựng dữ liệu thử nghiệm và đánh giá chương trình Xây dựng hệ thống
kiểm soát vào ra tại Trung tâm Hành chính thành phố Đà Nẵng.
5. Ý nghĩa thực tiễn của đề tài
Kết quả nghiên cứu của đề tài sẽ đóng góp về mặt thực nghiệm với dữ liệu thực
tế để làm sáng tỏ phương pháp phát hiện và nhận diện khn mặt trong việc xây dựng
hệ thống kiểm sốt vào ra tại các cơ quan, đơn vị.


4
6. Kết quả dự kiến
6.1. Lý thuyết
- Nắm vững các phương pháp phát hiện và nhận diện khuôn mặt.
- Hiểu rõ các cơng cụ xây dựng hệ thống kiểm sốt vào ra tại Trung tâm Hành
chính thành phố Đà Nẵng.
6.2. Thực tiễn
- Ứng dụng lý thuyết để xây dựng hệ thống kiểm sốt vào ra tại Trung tâm Hành
chính thành phố Đà Nẵng.
- Thu thập dữ liệu cán bộ, công chức, viên chức; người dân, doanh nghiệp và tổ
chức đến liên hệ cơng tác tại Trung tâm Hành chính thành phố Đà Nẵng.
7. Cấu trúc của luận văn
Sau phần mở đầu, nội dung chính của luận văn được chia thành 3 chương:
- Chương 1. Tổng quan về phát hiện và nhận diện khn mặt như lịch sử hình
thành và phát triển cơng nghệ nhận diện khn mặt, sau đó trình bày hệ thống nhận
dạng khn mặt và cuối cùng trình bày các phương pháp nhận dạng khuôn mặt.
- Chương 2: Ứng dụng công nghệ nhận diện khuôn mặt để Xây dựng hệ thống
kiểm soát ra vào tại Trung tâm Hành chính thành phố Đà Nẵng.
- Chương 3: Thực nghiệm và đánh giá. Ở chương này, tác giả cũng báo cáo về
kết quả đạt được Xây dựng hệ thống kiểm soát ra vào tại Trung tâm Hành chính thành
phố Đà Nẵng.

Và cuối cùng là phần kết luận tóm tắt kết quả đã đạt được và những điều chưa
giải quyết được từ đó đưa ra những định hướng phát triển trong tương lai.


5
CHƢƠNG 1
TỔNG QUAN VỀ PHÁT HIỆN VÀ NHẬN DẠNG KHUÔN MẶT
1.1. Lịch sử hình thành và phát triển cơng nghệ nhận dạng khuôn mặt
Phần này điểm lại các giai đoạn lịch sử quan trọng nhất đã góp phần vào sự phát
triển của cơng nghệ nhận dạng khn mặt (Hình 1.1):
Năm 1964: Các nhà nghiên cứu người Mỹ Bledsoe Et Al. đã nghiên cứu lập
trình máy tính nhận dạng khn mặt.
Năm 1977: Hệ thống được cải tiến bằng cách bổ sung thêm 21 điểm đánh dấu
(ví dụ: chiều rộng mơi, màu tóc).
Năm 1988: Trí tuệ nhân tạo được giới thiệu để phát triển các công cụ lý thuyết
đã sử dụng trước đây, vốn đã bộc lộ nhiều điểm yếu. Toán học (―đại số tuyến tính‖)
được sử dụng để giải thích hình ảnh khác nhau và tìm cách đơn giản hóa và thao tác
chúng độc lập với các điểm đánh dấu của con người.
Năm 1991: Alex Pentland và Matthew Turk của Viện Cơng nghệ Massachusetts
(MIT) đã trình bày ví dụ thành cơng đầu tiên về công nghệ nhận dạng khuôn mặt,
Eigenfaces, sử dụng phương pháp phân tích thành phần chính thống kê (PCA).
Năm 1998: Cơ quan dự án nghiên cứu (DARPA) đã phát triển cơng nghệ nhận
dạng khn mặt (FERET), chương trình cung cấp cho thế giới một cơ sở dữ liệu lớn,
đầy thách thức bao gồm 2400 hình ảnh cho 850 người.
Năm 2005: Cuộc thi The Face Recognition Grand Challenge (FRGC) được phát
động để khuyến khích và phát triển cơng nghệ nhận dạng khuôn mặt được thiết kế để
hỗ trợ các sáng kiến nhận dạng khn mặt hiện có.
Năm 2011: Phương pháp học máy dựa trên mạng nơron nhân tạo. Máy tính
chọn các điểm để so sánh: nó học tốt hơn khi cung cấp nhiều hình ảnh hơn.
Năm 2014: Facebook biết cách nhận diện khn mặt nhờ thuật tốn bên trong

Deepface.

Hình 1.1. Các giai đoạn chính trong lịch sử nhận dạng khuôn mặt


6
1.2. Hệ thống nhận dạng khn mặt
1.2.1. Các bước chính trong hệ thống nhận dạng khuôn mặt
Trong kỹ thuật, vấn đề nhận dạng khuôn mặt bao gồm ba bước quan trọng (như
được trình bày trong Hình 1.2.): (1) phát hiện và chuẩn hóa khn mặt gần đúng, (2)
trích xuất các tính năng và chuẩn hóa khn mặt chính xác, và (3) phân loại (xác minh
hoặc nhận dạng).

Hình 1.2. Thiết kế tiêu chuẩn của hệ thống nhận dạng khuôn mặt tự động
Nhận diện khuôn mặt là bước đầu tiên trong hệ thống nhận dạng khn mặt. Nó
thường xác định hình ảnh có khn mặt hay khơng. Nếu có, chức năng của nó là theo
dõi một hoặc một số khn mặt ở các vị trí trong hình 1.2.
Bước trích xuất đối tượng bao gồm trích xuất từ khn mặt được phát hiện một
vectơ đặc điểm có tên là chữ ký, phải đủ để đại diện cho một khn mặt. Tính cá nhân
của khuôn mặt và tài sản việc phân biệt giữa hai người riêng biệt phải được kiểm tra.
Cần lưu ý rằng giai đoạn phát hiện có thể thực hiện trong quá trình này.
Phân loại liên quan đến xác minh và xác định. Q trình xác minh u cầu phải
khớp một khn mặt khác để cho phép truy cập vào danh tính được yêu cầu. Tuy
nhiên, nhận dạng so sánh một khuôn mặt với một số những khuôn mặt khác được cung
cấp với một số khả năng để tìm ra danh tính của khuôn mặt.


7
Đơi khi, một số bước khơng được tách biệt. Ví dụ: các đặc điểm trên khuôn mặt
(mắt, miệng và mũi) được sử dụng để trích xuất đối tượng địa lý thường được sử dụng

trong q trình nhận diện khn mặt. Việc phát hiện và trích xuất các tính năng có thể
được thực hiện đồng thời, như thể hiện trong Hình 1.2.
Tùy thuộc vào độ phức tạp của môi trường ứng dụng và một số yếu tố bên
ngồi có thể gây ra việc nhận dạng nội bộ khuôn mặt cao (hoặc việc nhận dạng giữa
các khuôn mặt thấp) và làm giảm độ chính xác của nhận dạng. Trong số các yếu tố
này có thể trích dẫn kích thước cơ sở dữ liệu, ánh sáng thấp hoặc cao, sự hiện diện
của nhiễu hoặc mờ, ngụy trang, tắt một phần và các yếu tố phụ nhất định, khơng thể
tránh khỏi và rất khó khăn. Trong môi trường phức tạp, việc xử lý trước hình ảnh là
rất cần thiết.
Mặc dù các hệ thống nhận dạng khuôn mặt tự động phải thực hiện ba bước nêu
trên, nhưng mỗi bước được coi là một vấn đề nghiên cứu quan trọng, khơng chỉ vì các
kỹ thuật được sử dụng cho mỗi bước cần được cải thiện và vì chúng rất cần thiết trong
một số ứng dụng, như thể hiện trong hình 1.2. Ví dụ, nhận diện khn mặt là cần thiết
để kích hoạt tính năng theo dõi khn mặt và việc trích xuất các đặc điểm trên khuôn
mặt là rất quan trọng để xác định trạng thái cảm xúc của một người, đến lượt nó, rất
cần thiết trong hệ thống tương tác giữa người và máy. Sự tách biệt của từng bước tạo
điều kiện thuận lợi cho việc đánh giá và phân loại chính xác.
1.2.2. Bài tốn nhận dạng khuôn mặt
Như đã nêu trong phần trước, hệ thống nhận dạng khn mặt tự động có thể
hoạt động ở chế độ xác minh hoặc nhận dạng, tùy thuộc vào từng ứng dụng (như trong
Hình 1-3).

Hình 1.3. Phân loại các giao thức đánh giá khác nhau trong nhận dạng khuôn mặt


8
Trong chế độ xác minh, hệ thống đánh giá danh tính của một người bằng cách so
sánh (các) mơ hình trong cơ sở dữ liệu với khuôn mặt được chụp. So sánh 1-1 được
thực hiện bởi hệ thống để quyết định xem danh tính được cơng bố là đúng hay sai.
Thông thường, xác minh được sử dụng để được công nhận tích cực để tránh các cá

nhân khác nhau sử dụng cùng một danh tính. Xác minh khn mặt hệ thống được đánh
giá cổ điển bằng đặc tính hoạt động của máy thu (ROC) và giá trị trung bình ước tính
độ chính xác (ACC).
Trong chế độ nhận dạng, hệ thống xác định một cá nhân bằng cách tìm kiếm mơ
hình đại diện cho sự phù hợp nhất giữa tất cả các mơ hình khn mặt được lưu trữ
trong cơ sở dữ liệu. Vì vậy, hệ thống thực hiện so sánh một đối với tất cả để xác định
cá nhân này (hoặc khơng thành cơng nếu điều đó cá nhân khơng tồn tại trong cơ sở dữ
liệu), mà không cung cấp một khai báo trước về danh tính.
Nhận dạng là một nhiệm vụ thiết yếu đối với các ứng dụng nhận dạng có hại;
mục đích của loại hình này nhận dạng là để ngăn chặn nhiều danh tính của một cá
nhân duy nhất. Đối với hai trường hợp khác nhau, hai giao thức thử nghiệm có thể
được sử dụng, đó là: tập mở và tập đóng (như trong Hình 1.3).
Đối với trước đây, tập huấn luyện không thể bao gồm các nhận dạng thử nghiệm.
Các chỉ số khác nhau được thiết lập trong kịch bản nhận dạng khuôn mặt được thiết
lập mở để đo độ chính xác của mơ hình, chẳng hạn như âm tính giả tỷ lệ nhận dạng
(FNIR) và tỷ lệ nhận dạng dương tính giả (FPIR). FNIR đo lường tỷ lệ của các trường
hợp bị phân loại sai là sai, mặc dù đó là các trường hợp đúng, trong khi FPIR đo lường
tỷ lệ các trường hợp phân loại sai thành đúng mặc dù là sai.
Trong khi cái thứ hai lấy các hình ảnh từ các danh tính giống nhau để đào tạo và
kiểm tra. Xếp hạng-N là chỉ số hiệu suất cơ bản được sử dụng trong nhận dạng khn
mặt tập hợp kín để đo lường độ chính xác, trong đó giá trị nhận dạng người dùng hợp
lệ được trả về trong các đối sánh N-Top. Phép đo chính hiệu suất được ghi lại bằng
cách sử dụng tỷ lệ nhận dạng chính xác trên một đặc điểm khớp tích lũy (CMC) đường
cong.
1.3. Tổng quan các phƣơng pháp nhận dạng khuôn mặt
Hệ thống nhận dạng khuôn mặt 2D cổ điển hoạt động dựa trên hình ảnh hoặc
video thu được từ hệ thống giám sát, camera quan sát. Trong cấu hình hồn tồn tự
động, trước tiên hệ thống phải phát hiện khn mặt trong hình ảnh/video đầu vào và
phân đoạn khn mặt đó khỏi khu vực được phát hiện. Tiếp theo, thiết bị phải được
căn chỉnh theo một số cấu trúc chuẩn xác định trước và được xử lý để tính đến những

thay đổi về ánh sáng có thể xảy ra. Các tính năng được trích xuất từ hình ảnh được căn


9
chỉnh/xử lý và nhận dạng danh tính cuối cùng được thực hiện bằng cách sử dụng
phương pháp phân loại phù hợp dựa trên các tính năng được tính tốn.
Tùy thuộc vào bản chất của các phương pháp trích xuất và phân loại được sử
dụng, chia các phương pháp nhận dạng khn mặt 2D thành bốn lớp con khác nhau,
đó là: phương pháp tổng thể, phương pháp cục bộ (hình học), phương pháp dựa trên bộ
mô tả kết cấu cục bộ, và các phương pháp dựa trên học tập sâu.
1.3.1. Phương pháp tồn diện
Các thuật tốn tồn diện hoặc dựa trên không gian con giả định rằng bất kỳ bộ
sưu tập M hình ảnh khn mặt nào đều chứa các phần dư thừa có thể được loại bỏ
bằng cách áp dụng phân rã tensor. Các phương pháp này tạo ra một tập hợp các vectơ
cơ sở đại diện cho một kích thước không gian nhỏ hơn (tức là không gian con) và bảo
tồn tập hợp các hình ảnh ban đầu. Trong tập các vectơ cơ sở, mỗi mặt trong không
gian con có thể được tái tạo.
Để tạo điều kiện thuận lợi cho thao tác, mỗi ảnh khn mặt N×N được biểu diễn
bằng một vectơ đạt được bằng cách căn chỉnh các hàng ảnh. Để tìm các vectơ cơ sở
khơng kỳ dị, ma trận hệ quả (N × N) × M được phân rã. Việc phân loại thường được
thực hiện bằng cách chiếu một hình ảnh khn mặt mới chụp và tính toán số đo của
khoảng cách với tất cả các lớp được mơ tả trong khơng gian con đó. Bên cạnh đó, các
phương pháp của cách tiếp cận này có thể được chia thành hai nhóm, đó là các chiến
lược tuyến tính và phi tuyến tính, tùy thuộc vào việc đại diện cho khơng gian con.
Phân tích thành phần chính (PCA), được gọi là eigenfaces, phân tích biệt thức
tuyến tính (LDA), được gọi là fishfaces và phân tích thành phần độc lập (ICA) là các
kỹ thuật tuyến tính phổ biến nhất được sử dụng cho các hệ thống nhận dạng khuôn
mặt.
Trong cách tiếp cận này, eigenface được coi là phương pháp tiên phong và mang
tính cách mạng. Nó cịn được gọi là mở rộng Karhunen-Lo ève, thành phần chính,

hoặc eigenvector. Họ đã chỉ ra rằng một vài trọng số cho mỗi hình ảnh khn mặt và
một hình ảnh khn mặt tiêu chuẩn (eigenpicture) có thể tạo lại gần như bất kỳ hình
ảnh khn mặt nào. Bằng cách chiếu hình ảnh khn mặt vào eigenpicture, sẽ đạt
được trọng lượng mơ hình bất kỳ khuôn mặt nào.
Turk và Pentland đã sử dụng các eigenfaces, chịu ảnh hưởng của nghiên cứu của
Kirby và Sirovich, để phát hiện và nhận dạng khuôn mặt. Về mặt tốn học, các
eigenfaces đại diện cho các thành phần chính của sự phân bố trên khuôn mặt hoặc các
eigenvector của ma trận hiệp phương sai tập hợp hình ảnh trên khuôn mặt.


10
Để khắc phục vấn đề suy giảm hiệu suất do sự thay đổi ánh sáng, Zhao và Yang
đã trình bày một phương pháp tính tốn ma trận hiệp phương sai sử dụng ba hình ảnh,
thu được trong các điều kiện chiếu sáng khác nhau để tính đến các hiệu ứng ánh sáng
ngẫu nhiên khi đối tượng là Lambertian.
Pentland và cộng sự đã mở rộng công việc ban đầu của họ từ EigenFace sang
EigenFeatures liên quan đến các yếu tố trên khuôn mặt, chẳng hạn như mũi, mắt và
miệng. Họ đã sử dụng một EigenSpace mơ-đun bao gồm các Tính năng Eigen ban đầu
(tức là, EigenNose, EigenEyes và EigenMouth). So với phương pháp EigenFace ban
đầu, phương pháp mở rộng này ít nhạy cảm hơn với các biến thể ngoại hình. Trên tập
dữ liệu FERET bao gồm 7562 hình ảnh từ khoảng 3000 cá thể, các tác giả đã đạt được
CRR là 95%. EigenFace, so với EigenFeatures, là một phương pháp đơn giản, nhanh
chóng và thiết thực. Tuy nhiên, nó khơng thể hiện sự ổn định trước những thay đổi về
điều kiện chiếu sáng và quy mô.
Barlett và cộng sự lưu ý rằng hình ảnh cơ sở của PCA chỉ phụ thuộc vào mối
quan hệ theo cặp giữa các pixel trong tập dữ liệu hình ảnh. Họ đã sử dụng phân tích
thành phần độc lập (ICA), là một sự tổng quát hóa PCA. Bên cạnh đó, họ đã triển khai
hai kiến trúc khác nhau với cơ sở dữ liệu FERET để kiểm tra hiệu suất của ICA; quy
trình đầu tiên xử lý hình ảnh dưới dạng các biến ngẫu nhiên và pixel là kết quả, trong
khi xử lý thứ hai pixel dưới dạng biến ngẫu nhiên và hình ảnh là kết quả. Phiên bản

đầu tiên được xác định cho các hình ảnh cơ sở cục bộ của khuôn mặt và phiên bản thứ
hai thiết lập mã khuôn mặt phân số. Kết quả của cả hai cấu trúc ICA dưới biểu hiện
khuôn mặt và lão hóa đều tốt hơn PCA. Bên cạnh đó, hiệu suất tốt nhất đạt được bằng
cách kết hợp cả hai kiến trúc ICA.
Tóm lại, tất cả các phương pháp tổng thể đều phổ biến trong việc triển khai các
hệ thống nhận dạng khn mặt.
1.3.2. Phương pháp tiếp cận hình học
Chú ý và cố định đóng một chức năng quan trọng trong nhận dạng khn mặt
con người. Các quy trình chú ý thường được hướng dẫn bởi các đặc điểm mốc được
bản địa hóa trong khơng gian được xem xét bằng cách tính tốn một bản đồ khả năng
phục hồi. Các mốc tương tự có thể cung cấp thơng tin hữu ích khi đối mặt với các
thuật tốn để nhận dạng.
Các vùng trên khn mặt trong hình ảnh khơng cung cấp cùng một lượng thơng
tin. Ví dụ, trán và má có cấu trúc thẳng và ít hoa văn đặc biệt hơn so với mũi hoặc mắt.
Các điểm mốc trên khuôn mặt được sử dụng để đăng ký các đặc điểm trên khn mặt,
chuẩn hóa các biểu cảm và nhận dạng các vị trí xác định dựa trên phân bố hình học và


11
mẫu mức xám. Mặc dù các nghiên cứu chuyên sâu được tóm tắt trong craniology thể
hiện chính xác một tập hợp phong phú các mốc trên khuôn mặt để nhận dạng khn
mặt, nhưng khơng có tập hợp các mốc được thừa nhận chung.
Bookstein đã mô tả các điểm mốc là: ―các điểm ở dạng mà các đối tác sinh học
xuất hiện trong một tập hợp dữ liệu, có ý nghĩa khách quan và có thể tái tạo, ở tất cả các
dạng khác.‖ Các điểm thường được sử dụng trên khuôn mặt là đầu mũi, đi mắt, khóe
miệng, lơng mày, nhân trung, đỉnh tai, lỗ mũi và mũi. Cần lưu ý rằng các vùng phân biệt
trên khuôn mặt, chẳng hạn như mắt hoặc miệng, cũng được gọi là "các đặc điểm trên
khn mặt" trong y văn. Đơi khi thuật ngữ đó dẫn đến sự mơ hồ. Thật vậy, trong nhận
dạng mẫu, thuật ngữ ―đặc trưng‖ thường được sử dụng để chỉ định một biểu diễn cụ thể
được trích xuất từ một mẫu ở mức xám. Ví dụ, các vectơ EigenFace cịn được gọi là

―các đối tượng địa lý‖. Hơn nữa, các biểu diễn số được thu thập bởi đa kênh Gabor được
triển khai cho một bức tranh cấp độ xám được đặt tên là ―các đối tượng địa lý‖. Đối với
mục đích này, các mẫu bắt nguồn từ các vị trí cụ thể và phân biệt ở đây được gọi là
―điểm mốc‖ chứ không phải là ―đặc điểm‖. Sự phân bố các điểm mốc được sử dụng
trong các phương pháp dựa trên hình học trong cấu trúc của các quy tắc heuristic liên
quan đến khoảng cách, góc và vùng. Hình học được tổ chức thành một mơ hình xây
dựng đầy đủ theo phương pháp dựa trên cấu trúc. Ví dụ: trong thuật toán đối sánh đồ thị
chùm đàn hồi (EBGM), một biểu đồ mơ hình hóa các vị trí liên quan đến các điểm mốc,
ở bất kỳ nơi nào mỗi nút biểu thị một điểm trên mặt và các cung có trọng số phù hợp với
khoảng cách có thể dự đốn được của điểm đó, như được hiển thị trong Hình 1.5. Một
loạt các mơ hình được sử dụng để xác định sự giống nhau của đặc tính cục bộ cho mỗi
nút. Mặc dù các biến dạng có thể xảy ra thường phụ thuộc vào các điểm mốc (ví dụ, các
góc miệng biến dạng nhiều hơn so với đầu mũi), thông tin về mốc cụ thể có thể được kết
hợp với mơ hình cấu trúc. Với việc mở rộng tập hợp các ràng buộc được tối ưu hóa
chung, hệ thống hoạt động thường xuyên hơn với các vấn đề về hội tụ và tối ưu cục bộ,
do đó yêu cầu khởi tạo thành cơng và đơi khi thủ cơng.

Hình 1.4 Ví dụ về khai thác các điểm mốc bằng cách sử dụng thuật tốn đối sánh đồ
thị bó đàn hồi (EBGM)


12
1.4. Kết chƣơng 1
Trong chương 1 tác giả đã trình bày tổng quan về phát hiện và nhận diện khuôn
mặt như lịch sử hình thành và phát triển cơng nghệ nhận diện khn mặt và sau đó
trình bày hệ thống nhận dạng khn mặt. Cuối cùng trình bày các phương pháp nhận
dạng khuôn mặt. Chương tiếp theo sẽ ứng dụng công nghệ nhận diện khuôn mặt để
xây dựng hệ thống kiểm sốt ra vào tại Trung tâm Hành chính thành phố Đà Nẵng.



13
CHƢƠNG 2
ỨNG DỤNG CÔNG NGHỆ NHẬN DIỆN KHUÔN MẶT ĐỂ XÂY DỰNG HỆ
THỐNG KIỂM SOÁT RA VÀO TẠI TRUNG TÂM HÀNH CHÍNH
2.1. Các đặc trƣng Histograms of oriented gradients (HOG)[14]
2.1.1. Tính tốn gradient
Trong hầu hết các thuật tốn xử lý ảnh, bước đầu tiên là tiền xử lý dữ liệu ảnh
(pre-processing image). Chúng ta sẽ cần chuẩn hóa màu sắc và giá trị gamma. Tuy
nhiên, bước này có thể được bỏ qua trong phần tính tốn bộ mơ tả HOG, vì việc chuẩn
hóa bộ mơ tả ở bước tiếp theo đã đạt được kết quả tương tự. Thay vào đó, tại bước đầu
tiên của tính tốn bộ mơ tả chúng ta sẽ tính các giá trị gradient. Phương pháp phổ biến
nhất là áp dụng một mặt nạ đạo hàm rời rạc (discrete derivative mask) theo một hoặc
cả hai chiều ngang và dọc. Cụ thể, phương pháp sẽ lọc ma trận cường độ ảnh với các
bộ lọc như Sobel mask hoặc Scharr.
Để tính bộ lọc sobel, phép tích chập của kernel kích thước 3x3 được thực hiện
với hình ảnh ban đầu. Nếu chúng ta kí hiệu I là ma trận ảnh gốc và Gx, Gy là 2 ma trận
ảnh mà mỗi điểm trên nó lần lượt là đạo hàm theo trục x trục y. Chúng ta có thể tính
tốn được kernel như sau:
- Đạo hàm theo chiều ngang:

- Đạo hàm theo chiều dọc:

Kí hiệu * tương tự như phép tích chập giữa bộ lọc bên trái và ảnh đầu vào bên
phải.
Gía trị độ lớn gradient (gradient magnitude) và phương gradient (gradient
direction) có thể được tạo ra từ 2 đạo hàm Gx và Gy theo công thức bên dưới:
- Độ lớn gradient:



×