Tải bản đầy đủ (.pdf) (116 trang)

Nhận dạng mặt người dùng giải thuật whitening lda

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.22 MB, 116 trang )

Đại học Quốc gia Tp. Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-------------------------

HUỲNH THIỆN KHIÊM

NHẬN DẠNG MẶT NGƯỜI DÙNG GIẢI THUẬT
WHITENING LDA
Chuyên ngành: KỸ THUẬT ĐIỆN TỬ
Mã ngành: 2.07.01

LUẬN VĂN THẠC SĨ

TP.HỒ CHÍ MINH, tháng12 năm 2007


CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học: PGS. TSKH. Nguyễn Kim Sách

Cán bộ chấm nhận xét 1: PGS.TS. Vũ Đình Thành

Cán bộ chấm nhận xét 2: ThS. Hồ Trung Mỹ

Luận văn thạc só được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ
LUẬNVĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 03 tháng 01 năm 2008



TRƯỜNG ĐẠI HỌC BÁCH KHOA
PHÒNG ĐÀO TẠO SĐH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
ĐỘC LẬP – TỰ DO – HẠNH PHÚC

Tp. HCM, ngày 17 tháng 12 năm 2007
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: HUỲNH THIỆN KHIÊM

Phái: Nam

Ngày, tháng, năm sinh: 10/02/1981

Nơi sinh: Phú Yên

Chuyên ngành: Kỹ thuật điện tử

MSHV: 01405311

I-

TÊN ĐỀ TÀI:
NHẬN DẠNG MẶT NGƯỜI DÙNG GIẢI THUẬT WHITENING LDA

II-

NHIỆM VỤ VÀ NỘI DUNG
-


Tìm hiểu các phương pháp nhận dạng mặt người tiêu biểu

-

Đánh giá ưu khuyết điểm của một số phương pháp nhận dạng chính

-

Trình bày phương pháp Whitening LDA trong phân tích dữ liệu

-

Xây dựng giải thuật nhận dạng mặt người dựa trên Whitening LDA

-

Viết chương trình nhận dạng mặt người bằng ngôn ngữ Matlab

III-

NGÀY GIAO NHIỆM VỤ:

IV-

NGÀY HOÀN THÀNH NHIỆM VỤ: 17/12/2007

V-

HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN:
PGS. TSKH. NGUYỄN KIM SÁCH


CÁN BỘ HƯỚNG DẪN
(Học hàm, học vị, họ tên và chữ ký)

CN BỘ MÔN
QL CHUYÊN NGÀNH

Nội dung và đề cương luận văn thạc só đã được Hội đồng chuyên ngành thông qua.
Ngày……tháng 12 năm 2007
TRƯỞNG PHÒNG ĐT-SĐH

TRƯỞNG KHOA QL CHUYÊN NGÀNH


LỜI CẢM ƠN

Tôi trân trọng gởi đến Phó Giáo sư, Tiến sỹ Khoa học Nguyễn Kim Sách lời cảm
ơn chân thành và lòng biết ơn sâu sắc nhất vì những động viên và đóng góp ý
kiến của Giáo sư trong suốt thời gian qua.

Xin chân thành cảm ơn các thầy cô trong khoa Điện –Điện Tử, đặc biệt là các
thầy cô trong bộ môn Viễn Thông, Trường Đại học Bách Khoa TP. HCM đã tận
tình giảng dạy, hướng dẫn và giúp đỡ tôi trong quá trình học tập và hoàn thành
Luận văn này.

Sau cùng, tôi xin được bày tỏ tình cảm đến các đồng nghiệp và những người bạn
thân thiết của tôi. Họ luôn luôn bên cạnh để ủng hộ, động viên và giúp đỡ tôi
trong suốt quãng thời gian học Cao học.

TP. Hồ Chí Minh, tháng 12 năm 2007

Kỹ sư
HUỲNH THIỆN KHIÊM


MỤC LỤC
DANH SÁCH CÁC HÌNH
DANH SÁCH CÁC BẢNG
ABSTRACT
TỪ VIẾT TẮT
GIỚI THIỆU
CHƯƠNG 1: TỔNG QUAN NHẬN DẠNG MẶT NGƯỜI ...................................1
1.1.

NHẬN DẠNG MẶT NGƯỜI TỰ ĐỘNG LÀ GÌ? ..................................1

1.2.

TẠI SAO PHẢI NHẬN DẠNG MẶT NGƯỜI TỰ ĐỘNG? ...................2

1.3.

LỊCH SỬ KỸ THUẬT NHẬN DẠNG MẶT NGƯỜI .............................3

1.3.1.

Các phương pháp nhận dạng thời kỳ trước khi xuất hiện máy tính..3

1.3.2.

Các phương pháp nhận dạng mặt người thời đại máy tính...............4


1.4.

Giới thiệu chung về hệ thống nhận dạng mặt người ...............................8

1.4.1.

Thu ảnh chứa đối tượng cần nhận dạng............................................8

1.4.2.

Dò tìm ảnh mặt (face localization) ...................................................9

1.4.3.

Tiền xử lý..........................................................................................9

1.4.4.

Khối trích xuất đặc trưng (biểu diễn mặt) ......................................14

1.4.5.

Nhận dạng (so khớp).......................................................................16

1.4.6.

Cơ sở dữ liệu ảnh mặt ....................................................................19

CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG MẶT NGƯỜI TIÊU

BIỂU.....................................................................................................................20
2.1.

Phương pháp Eigenfaces........................................................................20

2.1.1.

Giới thieäu ........................................................................................20


2.1.2.

Cơ sở lý thuyết và thuật toán..........................................................20

2.1.3.

Nhận dạng.......................................................................................23

2.1.4.

Thí nghiệm và kết quả ....................................................................24

2.1.5.

Các kỹ thuật nhận dạng dựa trên phân tích PCA khác ..................26

2.2.

Phương pháp Fisherfaces .......................................................................27


2.2.1.

Giới thiệu ........................................................................................27

2.2.2.

Cơ sở lý thuyết và thuật toán nhận dạng........................................27

2.2.3.

Nhận dạng.......................................................................................28

2.2.4.

Thí nghiệm và kết quả ....................................................................29

2.2.5.

Một số phương pháp nhận dạng dựa trên phép phân tích biệt số

khác

........................................................................................................30

2.3.

Phương pháp nhận dạng mặt người dùng phép phân tích các thành phần

độc lập (ICA) ....................................................................................................31
2.3.1.


Giới thiệu phương pháp ICA trong nhận dạng mặt người ..............31

2.3.2.

Cơ sở lý thuyết và thuật toán..........................................................31

2.3.3.

Nhận dạng.......................................................................................36

2.3.4.

Thí nghiệm và kết quả ....................................................................37

2.4.

Phương pháp nhận dạng dựa trên đặc trưng – Nhận dạng dùng biến đổi

Gabor Wavelets ................................................................................................38
2.4.1.

Biến đổi Gabor Wavelets ...............................................................38

2.4.2.

Biểu diễn ảnh mặt bằng biến đổi Gabor Wavelets ........................39

2.4.3.


Trích xuất đặc trưng........................................................................41

2.4.4.

So khớp (nhận dạng).......................................................................42

2.4.5.

Kết quả nhận dạng trên tập ORL ...................................................44

2.5.

Đánh giá khả năng nhận dạng của các giải thuật nhận dạng mặt người45

2.5.1. Eigenfaces và các giải thuật kế thừa của nó ......................................45


2.5.2. Fisherfaces và các giải thuật kế thừa của nó......................................45
2.5.3. Eigenfaces vaø Fisherfaces ..................................................................46
2.5.4. ICA vaø PCA.........................................................................................46
2.5.5. Gabor Wavelets vaø các thuật toán dựa trên kỹ thuật thống kê ..........47
CHƯƠNG 3 NHẬN DẠNG MẶT NGƯỜI DÙNG GIẢI THUẬT WLDA .........48
3.1.

Phương pháp subspace trong nhận dạng mặt người ...............................48

3.1.1.

Giới thiệu ........................................................................................48


3.1.2.

Cơ sở kỹ thuật phương pháp subspace trong nhận dạng đối tượng 48

3.1.3.

Không gian đặc trưng của phép phân tích PCA và LDA................49

3.1.4.

Ý nghóa nhận dạng mặt người của hai phương pháp PCA và LDA 51

3.1.5.

Vấn đề 3S trong giải thuật LDA và cách giải quyết ......................51

3.2.

Data Whitening và Whitening LDA ......................................................52

3.2.1.

Biến đổi Whitening.........................................................................52

3.2.2.

Whitening LDA...............................................................................54

3.3.


Nhận dạng mặt người dùng giải thuật WLDA.......................................58

3.3.1.

Các bước tiền xử lý .........................................................................58

3.3.2.

Tìm ma trận ánh xạ tối ưu và huấn luyện WLDA..........................58

3.3.3.

Biến đổi WLDA cho ảnh mặt kiểm tra ..........................................61

3.3.4.

Phân lớp bằng khoảng cách Euclidean...........................................61

CHƯƠNG 4: CHƯƠNG TRÌNH MÔ PHỎNG - KẾT QUẢ VÀ ĐÁNH GIÁ .....62
4.1.

Chương trình mô phỏng..........................................................................62

4.1.1.

Mục đích thiết kế chương trình .......................................................62

4.1.2.

Thuyết minh chương trình...............................................................64


4.1.3.

Các lưu đồ mô tả hệ thống nhận dạng và giải thuật ......................65

4.2.

Cơ sở dữ liệu ảnh ...................................................................................70

4.2.1.

Tập aûnh NEW1 ...............................................................................70


4.2.2.

Tập ảnh NEW2 ...............................................................................71

4.2.3.

Tập ảnh huấn luyện và tập ảnh kiểm tra .......................................72

4.3.

Kết quả nhận dạng và đánh giá .............................................................73

4.3.1.

Không gian đặc trưng WLDA .........................................................73


4.3.2.

Kết quả nhận dạng trên tập ORL ...................................................74

4.3.3.

Kết quả nhận dạng trên tập Yale ...................................................77

4.3.4.

Kết quả trên tập dữ liệu NEW1 và NEW2.....................................82

4.3.5.

Đánh giá chung hệ thống nhận dạng mặt người dùng giải thuật

WLDA ........................................................................................................91
4.3.6.

WLDA và ICA ................................................................................92

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................... 96
5.1.

Kết luận .................................................................................................96

5.1.1.

Về giải thuật ...................................................................................96


5.1.2.

Về chương trình nhận dạng.............................................................96

5.1.3.

Về kết quả đạt được .......................................................................96

5.2.

Hướng phát triển ....................................................................................97

TÀI LIỆU THAM KHẢO ....................................................................................98
LÝ LỊCH TRÍCH NGANG.................................................................................100


DANH SÁCH CÁC HÌNH

Hình 1.1. Sơ đồ đơn giản của hệ thống nhận dạng mặt người tự động
Hình 1.2. Minh họa phần xử lý bên trong Module nhận dạng
Hình 1.3. Các khối chức năng trong một hệ thống nhận dạng mặt người
Hình 1.4: Quá trình dò tìm ảnh mặt và loại bỏ phần pixel thừa
Hình 1.5: Mô hình quay ảnh mặt dựa vào đường thẳng nối hai mắt
Hình 1.7: Đồ thị histogram của một ảnh gốc (a) và sau khi cân bằng histogram (b)
Hình 1.8: Một mặt nạ chuẩn hóa với phần thông tin ở các góc ảnh bị che lại
Hình 1.9: Đồ thị hàm số 2D DoG (ảnh trích từ tài liệu tham khảo [5])
Hình 1.10: (a) Ảnh gốc; (b) ảnh đã hiệu chỉnh gamma; (c) ảnh qua bộ lọc DoG
Hình 2.1: (a) Một số cá nhận từ tập ảnh ORL; (b) ảnh trung bình tập ảnh ORL
Hình 2.2: Các eigenfaces đầu tiên tương ứng với 4 giá trị riêng lớn nhất
Hình 2.3: Phổ trị riêng qua phép phân tích PCA trên tập ảnh ORL

Hình 2.4. Tập ảnh mặt của hai cá nhân trong cơ sở dữ liệu ORL
Hình 2.5: Các ảnh mặt khác nhau của cùng một người trong tập Yale
Hình 2.6: Mô hình tổng hợp ảnh dùng ICA cấu trúc 1
Hình 2.7: Ảnh mặt được phân tích thành các ảnh cơ sở độc lập với các hệ số b
Hình 2.8: Các ảnh khác nhau của một cá nhân trong cơ sở dữ liệu
Hình 2.9: Đồ thị phần trăm kết quả nhận dạng dùng phân tích ICA sử dụng 200
ICs, PCA sử dụng 200 PCs và PCA sử dụng 20 PCs
Hình 2.10: Bộ lọc Gabor tương ứng với 5 tần số và 8 hướng
Hình 2.11: (a) ảnh mặt gốc; (b) đáp ứng của ảnh mặt qua bộ lọc Gabor
Hình 2.12: Các điểm đặc trưng được định vị trên ảnh mặt qua đáp ứng Gabor
Hình 3.1: Các hướng tán xạ lớn nhất của PCA và LDA trong không gian dữ liệu


Hình 4.1: Giao diện màn hình đăng nhập vào hệ thống
Hình 4.2: Giao diện chính của chương trình nhận dạng
Hình 4.3: Sơ đồ tổng quát của hệ thống nhận dạng WLDA
Hình 4.4: Quy trình huấn luyện và đánh giá thuật toán trên tập ảnh ORL
Hình 4.5: Giải thuật đánh giá thuật toán nhận dạng WLDA
Hình 4.6: Giải thuật nhận dạng một ảnh mới theo phương pháp WLDA
Hình 4.7: Một ảnh mặt kích thước 120x100 điển hình trong tập dữ liệu NEW1
Hình 4.8: Một số ảnh khác nhau của cùng một cá nhân trong tập dữ liệu NEW1
Hình 4.9: Toàn bộ 120 ảnh mặt của 10 người khác nhau trong tập ảnh NEW1
Hình 4.10: Toàn bộ 120 ảnh mặt của 10 người khác nhau trong tập ảnh NEW2
Hình 4.11: Ảnh mặt gốc và các thành phần đầu tiên của không gian WLDA
Hình 4.12: Kết quả nhận dạng trung bình sau 5 lần lặp ứng với các giá trị của K
Hình 4.13: Biểu đồ phần trăm nhận dạng đúng trung bình sau 10 lần lặp (ORL)
Hình 4.14: Đồ thị các trường hợp nhận dạng sai trên tập ORL (Random = 3)
Hình 4.15(1)(2)(3)(4): Các biểu đồ kết quả nhận dạng trên tập Yale (random =3)
Hình 4.16: Biểu đồ các trường hợp bị nhận dạng sai trên tập Yale
Hình 4.17: Đồ thị phần trăm nhận dạng đúng trên tập NEW1 (Random = 1)

Hình 4.18: Đồ thị phần trăm nhận dạng đúng trên tập NEW1 (Random = 5)
Hình 4.19: Đồ thị phần trăm nhận dạng đúng trên tập NEW1 (Random = 10)
Hình 4.20: Biểu đồ minh họa số trường hợp bị nhận dạng sai trên tập NEW1
Hình 4.21: Đồ thị phần trăm nhận dạng đúng trên tập NEW2 (Random = 1)
Hình 4.22: Đồ thị phần trăm nhận dạng đúng trên tập NEW2 (Random = 5)
Hình 4.23: Đồ thị phần trăm nhận dạng đúng trên tập NEW2 (Random = 10)
Hình 4.24: Biểu đồ minh họa số trường hợp bị nhận dạng sai trên tập NEW2
Hình 4.25: Sơ đồ thuật toán huấn luyện ICA
Hình 4.26: Phần trăm kết quả nhận dạng của hai thuật toán ICA và WLDA


DANH SÁCH CÁC BẢNG
Bảng 2.1: Bảng kết quả nhận dạng đúng trên các ảnh mặt đã biết theo phương
pháp Eigenface
Bảng 2.2: Kết quả nhận dạng trên tập ORL của các giải thuật dựa trên PCA khác
Bảng 2.3: Kết quả nhận dạng của phương pháp Fisherfaces trên tập ảnh Yale
Bảng 2.4: Kết quả nhận dạng của một số thuật toán nhận dạng khác dựa trên
phép phân tích LDA
Bảng 2.5: Các tập ảnh huấn luyện và kiểm tra thuật toán nhận dạng ICA
Bảng 4.1: Bảng kết quả nhận dạng đúng trung bình trên tập ORL
Bảng 4.2: Kết quả nhận dạng đúng trung bình trên tập ORL sau 10 lần lặp tương
ứng với số vector đặc trưng giữ lại
Bảng 4.3: Kết quả nhận dạng trung bình tốt nhất của một số lần chạy chương
trình với 3 lần lặp ngẫu nhiên trên tập dữ liệu Yale
Bảng 4.4: Bảng phần trăm kết quả nhận dạng đúng trung bình trên tập NEW1
Bảng 4.5: Bảng phần trăm kết quả nhận dạng đúng trung bình trên tập NEW2


TÓM TẮT LUẬN VĂN THẠC SĨ
Toàn bộ luận văn được chia làm 5 chương:

CHƯƠNG 1: TỔNG QUAN NHẬN DẠNG MẶT NGƯỜI
Chương 1 tập trung giới thiệu một số vấn đề như: nhận dạng mặt người là gì; tại
sao phải cần hệ thống nhận dạng mặt người tự động; lịch sử nhận dạng mặt
người; các khối chức năng trong một hệ thống nhận dạng mặt người
CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG MẶT NGƯỜI TIÊU
BIỂU
Chương 2 giới thiệu tóm tắt các phương pháp nhận dạng dựa trên kỹ thuật làm
giảm chiều dữ liệu rất phổ biến là Eigenfaces, Fisherface, ICA, một phương pháp
nhận dạng dựa trên đặc trưng dùng biến đổi Gabor Wavelets. Chương 2 cũng đề
cập đến những cải tiến của các phương pháp này trong thời gian gần đây và
thành tựu đạt được. Cuối cùng, những nhận xét về ưu điểm và những tồn tại của
mỗi phương pháp được thảo luận và đánh giá.
CHƯƠNG 3: NHẬN DẠNG MẶT NGƯỜI DÙNG GIẢI THUẬT WHITENING
LDA
Chương 3 đặt vấn đề cho việc lựa chọn biến đổi LDA trong nhận dạng mặt người,
giới thiệu giải thuật Whitening LDA và ứng dụng giải thuật WLDA trong nhận
dạng mặt người
CHƯƠNG 4: CHƯƠNG TRÌNH MÔ PHỎNG – KẾT QUẢ VÀ ĐÁNH GIÁ
Chương 4 trình bày yêu cầu thiết kế hệ thống nhận dạng, các thí nghiệm trên tập
dữ liệu ORL, Yale và tập dữ liệu mới tự xây dựng. Nhận xét và đánh giá kết quả
đạt được, so sánh với kết quả nhận dạng dùng thuật toán ICA
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Các ưu điểm và tồn tại của chương trình, đề xuất hướng phát triển tiếp theo.


ABSTRACT
Over the last ten years, face recognition has become a specialized application
area within the field of computer vision. Sophisticated commercial systems have
been developed that achieve high recognition rates. Although elaborate, many of
these systems include a subspace projection step and a nearest neighbor

classifier. The favorite subspace methods for face recognition are based on
Linear Discriminant Analysis (LDA) and Principal Component Analysis (PCA).
LDA has been shown to be superior to PCA in the face recognition systems which
have a large number of training samples per class. Standard LDA defined an
optimization problem involving covariance matrices that represent the scatter
within and between cluster. The requirement that one of these matrices be
nonsingular restricts its application to datasets in which the dimension of the data
does not exceed the sample size. For face recogniton, however, the dimension
typically exceeds the number of images in the database resulting in what is
referred to as the small sample size problem (3S problem). In recent years, there
were many researchs for 3S problem. In this thesis, the best 3S solution is applied
in the face recognition system and named WLDA face recognition. The
experiments are done on the ORL database, Yale database and NEW database.


TỪ VIẾT TẮT
LDA

Linear Discriminant Analysis

PCA

Principal Components Analysis

WLDA

Whitening LDA

DLA


Dynamic Link Architecture

EBGM

Elastic Bunch Graph Matching

ICA

Independent Component Analysis

LFA

Local Feature Analysis

KPCA

Kernel-based PCA

2DPCA

2-dimension PCA

B2DPCA

Bilateral 2DPCA

K2DPCA

Kernel-based 2DPCA


2DLDA

2-Dimension LDA

DLDA

Direct LDA

NLDA

Null-space LDA

NKFDA

Null Kernel-based Fisher Discriminant Analysis


GIỚI THIỆU
Hệ thống nhận dạng mặt người là một ứng dụng dựa trên máy tính để tự động
xác định một người từ một ảnh số. Để làm được điều này, chương trình nhận
dạng sẽ so sánh các đặc trưng được lựa chọn trên ảnh đầu vào với ảnh trong cơ
sở dữ liệu. Trong những năm qua, nhu cầu áp dụng các hệ thống nhận dạng tự
động ngày càng tăng đặc biệt là trong lónh vực nhận dạng mặt người, các nghiên
cứu về nhận dạng mặt người rất được quan tâm trong đó có những cải tiến các
phương pháp nhận dạng dựa trên kỹ thuật thống kê vốân đã rất nổi tiếng và được
sử dụng rộng rãi trong lónh vực thương mại. Các phương pháp nhận dạng dựa trên
kỹ thuật thống kê biểu diễn dữ liệu dưới dạng các vector n chiều trước khi áp
dụng các kỹ thuật xử lý dữ liệu khác. Tuy nhiên, trong nhiều ứng dụng thực tế,
kích thước của dữ liệu 1D chứa trong các vector là rất lớn so với số mẫu dữ liệu.
Đây chính là trở ngại chính trong các ứng dụng nhận dạng đối tượng nói chung.

Trong lónh vực nhận dạng mặt người, phép phân tích các thành phần chủ yếu
PCA và phép phân tích biệt số tuyến tính LDA là các kỹ thuật phân tích không
gian con phổ biến nhất. PCA là kỹ thuật ánh xạ trên không gian con được sử
dụng rộng rãi trong lónh vực nhận dạng mặt người. PCA tìm tập hợp các vector
để các mẫu sau khi chiếu lên các vector đó sẽ được giữ lại những thông tin chủ
yếu nhất về các mẫu ban đầu. Các vector nói trên gọi là các vector riêng tương
ứng với các trị riêng lớn nhất của ma trận. Khác với PCA, LDA đi tìm một tập
vector làm cực đại tiêu chuẩn biệt số Fisher, phép phân tích LDA làm cực đại sự
tán xạ giữa các lớp và làm cực tiểu sự tán xạ bên trong lớp. Phương pháp nhận
dạng dựa trên phân tích LDA là kỹ thuật nhận dạng học có giám sát vì nó cần
được biết thông tin lớp cho mỗi ảnh trong tập huấn luyện. Phương pháp nhận


dạng dùng phân tích LDA khắc phục những hạn chế của phương pháp Eigenfaces
bằng cách áp dụng tiêu chuẩn biệt số Fisher. Tiêu chuẩn biệt số Fisher là phép
phân tích làm cực đại tỉ số sau:
wT Sb w
wT S w w

(*)

Trong đó, Sb là ma trận tán xạ giữa các lớp, Sw là ma trận tán xạ bên trong lớp.
Giải phương trình (*) đồng nghóa với việc tìm ra các hướng chiếu làm cực đại
khoảng cách Euclidean giữa các ảnh mặt của các lớp khác nhau, đồng thời làm
tối thiểu khoảng cách giữa các ảnh mặt trong cùng một lớp ảnh. Tỉ số trong (*)
cực đại khi các vector cột của ma trận ánh xạ W là các vector riêng của ma trận
Sw-1Sb. Trong các ứng dụng nhận dạng mặt, phương pháp này không thể áp dụng
trực tiếp vì kích thước của không gian mẫu thông thường lớn hơn nhiều so với số
lượng mẫu có trong tập huấn luyện. Kết quả Sw bị đơn trị hay không khả đảo.
Đây là vấn để 3S “small sample size problem”. Những năm gần đây, nhiều

phương pháp đã được đưa ra để giải quyết vấn đề này như: Fisherfaces, DirectLDA, Null-LDA, Orthogonal LDA, 2D-LDA…Tuy nhiên, các phương pháp trên
chưa giải quyết một cách tối ưu vấn đề 3S, một số phương pháp làm mất đi các
thông tin biệt số quan trọng, một số thuật toán lại có chi phí tính toán cao. Luận
văn này thiết kế hệ thống nhận dạng dựa theo phương pháp Whitening LDA,
trong đó vấn đề 3S được giải quyết một cách tối ưu nhờ áp dụng phép biến đổi
whitening cho dữ liệu trước khi thực hiện thuật toán LDA cổ điển. Dữ liệu sau
phép biến đổi Whitening sẽ được giữ lại toàn bộ thông tin biệt số với chi phí tính
toán rất thấp. Hệ thống nhận dạng dùng kỹ thuật phân lớp lân cận gần nhất vì
tính đơn giản và hiệu quả nhận dạng trong các phương pháp phân tích dữ liệu dựa
trên kỹ thuật thống kê.


-1-

CHƯƠNG 1:

TỔNG QUAN NHẬN DẠNG MẶT NGƯỜI

1.1.

NHẬN DẠNG MẶT NGƯỜI TỰ ĐỘNG LÀ GÌ?

Bằng thị giác và hệ thần kinh trung ương, con người có thể dễ dàng nhận dạng
được các đối tượng đã gặp trong tự nhiên trong đó có khuôn mặt của người quen.
Có được điều này là nhờ những phép xử lý rất phức tạp trong bộ não con người.
Nhận dạng mặt người tự động là một quá trình tự động nhận dạng hoặc xác minh
một cá nhân bằng các thuật toán nào đó. Hệ thống phải có khả năng phân biệt
và gán nhãn cho đối tượng tự động dựa trên những đặc trưng riêng của đối tượng
đó.
Hệ thống nhận dạng mặt người tự động được mô tả sơ bộ như sau:


Image
Video

Detection Module

Recognition Module

Input
Unknown

Output
Labeled

Hình 1.1. Sơ đồ đơn giản của hệ thống nhận dạng mặt người tự động
-

Phần đầu tiên của hệ thống (Detection Module) được gọi là phần dò tìm
và định vị khuôn mặt người (face detection and localization) từ ảnh của
một cá nhân, ảnh của một nhóm người hoặc một đoạn video. Ngõ ra của
của module này là các ảnh mặt trích ra được từ ngõ vào.


-2-

-

Module nhận dạng là phần quan trọng nhất của hệ thống, chứa thuật toán
xử lý chính. Module này gồm hai bước xử lý chính: trích xuất đặc trưng
(feature extraction) và so khớp (matching). Trong đó phần quan trọng

nhất là trích xuất đặc trưng hay còn gọi là mô tả mặt. Có thể nói khả năng
nhận dạng của một hệ thống phụ thuộc chủ yếu vào thuật toán trích xuất
đặc trưng. Sự phân loại các phương pháp nhận dạng mặt người chủ yếu
dựa trên loại thuật toán nào được sử dụng ở giai đoạn này. Phần so khớp
(matching) sẽ tính toán sự tương đồng (similarity) giữa ảnh cần nhận dạng
với một ảnh mặt đã biết trong cơ sở dữ liệu để gán nhãn cho đối tượng.

Feature Extraction

Matching

Hình 1.2. Minh họa phần xử lý bên trong Module nhận dạng
1.2.

TẠI SAO PHẢI NHẬN DẠNG MẶT NGƯỜI TỰ ĐỘNG?

Một người bình thường có thể nhận diện mặt người một cách dễ dàng và chính
xác, trong khi hệ thống nhận dạng bằng máy đòi hỏi phải thực hiện việc dò tìm
và định vị ảnh mặt sau đó mới nhận diện được. Nếu môi trường chứa ảnh mặt
phức tạp không đồng nhất, hoặc ảnh mặt thay đổi do tuổi tác, khuyết tật…thì việc
nhận dạng có thể phân lớp sai. Có được như vậy là vì hệ thống nhận dạng của
con người sử dụng thông tin từ tất cả các giác quan trong khi hệ thống nhận dạng
bằng máy chỉ đơn giản xử lý trên dữ liệu 2D. Tuy nhiên, bộ nhớ của con người
có giới hạn nên không thể nhớ một số lượng mặt lớn, đây lại là ưu điểm của hệ
thống nhận dạng mặt người bằng máy, đặc biệt, khi mà các bộ vi xử lý ngày nay
đã đạt đến tốc độ nano và các bộ nhớ lên đến hàng trăm GB. Khả năng tự động
xử lý trên tập dữ liệu lớn với độ tin cậy ngày càng cao của các hệ thống nhận


-3-


dạng mặt tự động được ứng dụng rộng rãi trong các hệ thống giám sát, theo dõi
và điều tra trong lónh vực an ninh cũng thương mại.
1.3.

LỊCH SỬ KỸ THUẬT NHẬN DẠNG MẶT NGƯỜI

1.3.1. Các phương pháp nhận dạng thời kỳ trước khi xuất hiện máy tính
Cùng với phát minh ra máy chụp hình giữa thế kỷ 19, ngành cảnh sát đã bắt đầu
xây dựng những bộ sưu tập ảnh của các đối tượng tình nghi. Lúc đầu, việc điều
tra các tên tội phạm bị truy nã dựa vào ảnh trên thẻ căn cước cùng với các thông
tin liên quan, ngày nay gọi là sinh trắc mềm. Việc truy lùng tội phạm được thực
hiện bởi cảnh sát địa phương hoặc dịch vụ thám tử tư như Cơ quan thám tử Quốc
gia Pinkerton (Hoa Kỳ).
Alphonse Bertillon (1853 – 1914) được xem là người tiên phong trong lónh vực
sinh trắc học, người đã khẳng định các đặc tính nhân trắc học con người như
những thông số về cơ thể là duy nhất và chúng có thể đo lường được. Mối liên
quan đặc biệt giữa nhân trắc học và tội phạm học cũng được giải thích thông qua
não tướng học (môn khoa học chuyên nghiên cứu sự liên quan giữa kích thước
hộp sọ, các bướu tự nhiên trên đầu với khả năng và tính cách của người đó).
Bertillon đã đo những đặc trưng khác nhau như chiều cao, chiều dài cánh tay,
chiều dài và bề rộng của hộp sọ. Ngoài các số đo trên, hệ thống của Bertillon
cũng bao gồm những mô tả hình thái học của các bộâ phận trên cơ thể như tai,
các dấu vết để lại do bệnh, tai nạn hoặc những dấu hiệu riêng của từng người
như vết xăm…Với hệ thống gồm 7336 thông số, Bertillon có thể nhận dạng 49 tội
phạm vào năm 1883 và 241 tội phạm vào năm sau đó. Hệ thống này được áp
dụng trong nhiều nhà tù và cơ quan điều tra ở thời kỳ đó. Các nguyên tắc phân
loại cũng được đưa ra, Bertillon đề xuất phương pháp fiche signaletique mà nội
dung cơ bản của nó tương tự với các hệ thống nhận dạng ngày nay: trước tiên
phân tích ảnh mặt thành các đặc trưng của nó, sau đó tái chế lại để nhận dạng.



-4-

Tuy cũng có những thành công nhất định nhưng phương pháp của Bertillon là
cách tiếp cận phụ thuộc nền văn hóa, nhận thức quyết định hơn tri thức, do đó
đôi khi có những quyết định mang tính cảm tính.
Năm 1898, Sir Francis Galton, người đã phát minh ra phương pháp nhận dạng
người dựa vào dấu vân tay, dưới sự ủng hộ của Uỷ ban Hoàng gia đã cho rằng
cách lý giải thống kê của Bertillon là một sai lầm và “ sự sai lầm ở chỗ xem các
thông số khác nhau của cùng một người là các biến độc lập, thực sự không phải
vậy. Ví dụ, một người cao thì có sẽ có cánh tay, bàn chân và ngón tay dài hơn
người thấp”.
Đầu năm 1888, Galton đề xuất phương pháp phân loại mặt bằng cách liệt kê các
ảnh mặt khác nhau, tìm ra các quy luật, các giới hạn của khuôn mặt và phân loại
những ảnh mặt mới dựa trên các chỉ tiêu này, 5 điểm quan trọng nhất được sử
dụng để so khớp. Các điểm được sử dụng là: khoảng giữa chân mày và mũi,
chóp mũi, khoảng giữa mũi và môi trên, khoảng giữa môi và đỉnh cằm.
Nhận dạng mặt người hiện đại bắt đầu bằng nghiên cứu của Bledsoe (1964) với
phương pháp trích xuất đặc trưng cục bộ. Bằng trực quan, Bledsoe nhìn vào
những đặc trưng chính của mặt và so sánh chúng với các ảnh mặt có sẵn. Các
đặc trưng chính là những mốc chuẩn trên ảnh mặt được định vị và chú thích bằng
tay, ví dụ như là các góc mắt, tai, mũi, miệng…Khoảng cách và tỉ lệ chuẩn hóa
được tính toán từ những mốc chuẩn này đến các điểm tham chiếu, sau đó được
so sánh với dữ liệu có sẵn của các ảnh đã biết. Các phương pháp nhận dạng
khác tiếp tục được nghiên cứu và đề xuất bởi Preston (1965), Ilya Prokopoff vào
những năm của thập niên 1960, Kaya và Kobayashi (1972).
1.3.2. Các phương pháp nhận dạng mặt người thời đại máy tính
Năm 1969, Sakai et al. là người đầu tiên lập trình trên máy tính để định vị ảnh
mặt trong một bức ảnh. Năm 1970, Kelly bảo vệ luận án tiến só với phương pháp



-5-

trích xuất tự động ảnh người và ảnh mặt, định vị tự động các điểm đặc trưng
chính như những thông số về độ rộng vai, bề rộng đầu, khoảng cách giữa hai mắt
được sử dụng để nhận dạng 10 người. Tiếp theo Leon Harmon nghiên cứu các
ảnh hưởng về độ phân giải, ảnh hưởng của tần số lên khả năng nhận dạng mặt
bằng máy tính. Các nghiên cứu của Harmon đã đi đến kết luận: việc phân tích
tần số đóng một vai trò quan trọng trong nhận dạng mặt người. Harmon cũng
xây dựng một tập hợp các đặc trưng và các giá trị dùng để mô tả và nhận dạng
mặt. Các đặc trưng của Harmon cũng dựa trên các điểm chuẩn đã được Galton
xây dựng gần 100 năm trước đó và gần hơn là của Bledsoe. Các đặc trưng bao
gồm: tóc (chiều dài, hình dáng..), trán, lông mày, mắt tai, gò má, mũi, miệng,
môi và cằm. Các giá trị của đặc trưng bao gồm: độ thẳng, độ gợn sóng, độ xoắn
của tóc, độ đầy đặn của gò má. Sự khớp nhau giữa hai ảnh mặt chính là sự tương
đồng giữa hai vector đặc trưng và được xác định thông qua khoảng cách
Euclidean.
Năm 1973, Kanade là người đầu tiên lập trình nhận dạng mặt người tự động trên
máy tính sử dụng phương pháp dựa trên đặc trưng. Kanade dùng các thủ tục
riêng cho từng phần của ảnh mặt và có thể nhận dạng 15 trong tổng số 20 người.
Phương pháp nhận dạng tiếp theo được Baron nghiên cứu năm 1981 là kỹ thuật
nhận dạng dựa trên khuôn mẫu (template) và phương pháp kết hợp cả hai kỹ
thuật trên (hybrid). Trong kỹ thuật nhận dạng dựa trên khuôn mẫu, ảnh mặt được
mã hóa toàn bộ (global) và sau đó được nhận dạng bằng cách so khớp mẫu hoặc
tính tương quan. Theo Baron việc đi tìm những đặc trưng để tối ưu việc nhận
dạng là một công việc quá khó khăn, có nhiều đặc trưng rất khó xác định trên
những ảnh chất lượng kém do nhiễu hoặc bị che khuất. Nhược điểm của phương
pháp dựa trên khuôn mẫu là việc khó mở rộng tập huấn luyện và khó thêm vào
các ảnh tương tự.



-6-

Lónh vực nhận dạng mặt người đạt được bước phát triển mới với các nghiên cứu
của Kirby và Sirovich năm 1990. Kirby và Sirovich đã đề xuất phương pháp
phân tích các thành phần chủ yếu (PCA) cho kỹ thuật nhận dang dựa trên khuôn
mẫu. Phép phân tích PCA tương tự như phép biến đổi Karhunen Loeve (KL), đó
là mô hình biến đổi tuyến tính (không giám sát) dưới giả thiết dữ liệu phân bố
kiểu Gaussian. PCA rút ra các đặc trưng toàn cục và trực giao, các đặc trưng mà
sau này được gọi là các eigenfaces. PCA thiếu thông tin về pha và chỉ xem xét
các đặc trưng toàn bộ trên ảnh mặt. Mỗi eigenface đại diện cho một thành phần
hay một chiều dọc theo ảnh mặt được mã hóa. Eigenface là một trong những kỹ
thuật đầu tiên đề xuất khái niệm không gian mặt và nén dữ liệu ảnh mặt vào
trong một hệ tọa độ đặc trưng mới nhỏ gọn hơn phục vụ như những khuôn mẫu
để nhận dạng. nh mặt được khôi phục nhờ sự kết hợp có trọng số của các
eigenface, các trọng số có được bằng cách chiếu ảnh mặt lên không gian mặt.
Phương pháp nhận dạng dựa trên phân tích PCA chỉ sử dụng một số ít các
eigenface để nhận dạng nên nó giảm lượng dữ liệu cần lưu trữ để nhận dạng.
Kirby và Sirovich đã mã hóa 115 ảnh mặt và chỉ sử dụng 40 eigenfaces.
Năm 1992, Turk và Pentland đã cải tiến phương pháp của Kirby và Sirovich.
Các không gian riêng (eigenspaces) như mắt, miệng, mũi cũng được định nghóa
như là các đặc trưng riêng. Chính vì vậy, các eigenspaces và các đặc trưng riêng
chứa đựng các đặc điểm chung và cục bộ của ảnh mặt.
Tiếp theo, hàng loạt các phương pháp nhận dạng khác ra đời như phép phân tích
biệt số tuyến tính LDA (Linear Discriminant Analysis) do Etemad và Chellappa
đề xuất năm 1997, Fisherface (một sự kết hợp giữa phép biến đổi PCA và LDA)
của Belhumeuer et al. năm 1997, phép phân tích các thành phân độc lập ICA
(Independent Component Analysis), giải thuật tiến hóa của Liu và Weshler năm
2000 (Evolutionary Pursuit), một phương pháp nhận dạng sử dụng thuật toán



-7-

Genetic (GA). Phương pháp nhận dạng dụng mạng tế bào thần kinh (Neural
Networks) và lý thuyết học thống kê (Statistical Learning Theory) cũng là các
kỹ thuật nhận dạng dựa trên khuôn mẫu.
Một cách tiếp cận khác là phương pháp nhận dạng dựa trên cấu trúc còn gọi
là phương pháp nhận dạng từng phần. Đó là cấu trúc liên kết động DLA
(Dynamic Link Architecture) của Lades et al. năm 1993, giãn đồ bó đàn hồi
EBGM (Elastic Bunch Graph Matching) của Wiskott năm 1997 sử dụng biến đổi
Gabor Wavelets để tìm các đặc trưng cục bộ. Các đặc trưng cục bộ kết nối với
nhau trong một giản đồ với những liên kết co giãn hình thành kiến trúc ảnh mặt.
Việc so khớp sẽ tiến hành đối chiếu giữa hai giản đồ của ảnh mặt mẫu và ảnh
mặt kiểm tra. Theo báo cáo của Yuille năm 1989, EBGM nhóm các đặc trưng
thành những bó với những hình dáng khác nhau. Sự tương tự của hai ảnh mặt
tương ứng với chi phí phân tích lưới đàn hồi. Một cấu trúc khác liên kết các đặc
trưng 2D để nhận dạng ảnh mặt là mô hình Markov (Hidden Markov Model) do
Samaria và Young đề xuất năm 1994.
Ngoài ra, có một số phương pháp kết hợp cả hai kỹ thuật nhận dạng trên còn gọi
là các phương pháp nhận dạng hybrid như ICA, LFA…Phương pháp phân tích các
thành phần độc lập ICA (Independent Component Analysis) do Draper đề xuất
năm 2003 là phương pháp phân tích đặc trưng phù thuộc vào cấu trúc, thực hiện
trên các mô hình chung và cả trích xuất các đặc trưng không gian cục bộ. Trước
đó, năm 1996, Penev và Atick đã phát triển một phương pháp mới gọi là phép
phân tích đặc trưng cục bộ LFA (Local Feature Analysis) dựa trên phép biến đổi
PCA truyền thống và một số cấu trúc cơ sở. LFA trích xuất các đặc trưng riêng
của mặt từ không gian PCA, giản đồ lưới liệt kê nhân LFA cũng tương tự như
giản đồ được sử dụng bởi DLA vaø EBGM.



-8-

Ngày nay, phạm vi nhận dạng đối tượng nói chung và nhận dạng mặt người nói
riêng trở nên rộng hơn nhiều vì việc huấn luyện và/ hoặc kiểm tra có thể được
tiến hành trên các đối tượng không hoàn chỉnh, bị che đậy một phần hoặc từ một
ảnh đơn, hoặc từ nhiều tập ảnh, nhận dạng 3D, nhận ra người di chuyển và ảnh
mặt qua Video (Video tracking).
1.4.

Giới thiệu chung về hệ thống nhận dạng mặt người

Thu ảnh
(Camera)

Dò tìm
mặt

Tiền
xử lý

Trích xuất
đặc trưng

Phần mềm
nhận dạng

CSDL

Hình 1.3. Các khối chức năng trong một hệ thống nhận dạng mặt người

1.4.1. Thu ảnh chứa đối tượng cần nhận dạng
Một hệ thống nhận dạng mặt người đầy đủ được bắt đầu từ bước thu ảnh có chứa
mặt người. Đối tượng bên ngoài sẽ được ghi lại và lưu trữ bằng các thiết bị kỹ
thuật số, ngõ ra là ảnh tónh hoặc video. Tuỳ vào thiết bị ghi hình kỹ thuật số mà
ảnh hoặc video thu được có các kiểu định dạng và mức chất lượng khác nhau.
Các yếu tố tác động đến từ thiết bị là:
-

Độ phân giải quang: số lượng pixel/inch

-

Kích thước ảnh

-

Hàm mã hóa cường độ sử dụng mức thang xám/màu

-

Chất lượng thiết bị quét ảnh

-

Tiêu chuẩn nén

-

Độ tương phản


-

Khả năng tự cân bằng trắng


-9-

Ngoài ra, chất lượng một bức ảnh kỹ thuật số còn phụ thuốc vào các yếu tố
khách quan bên ngoài như cường độ chiếu sáng, góc chụp, ….Tất cả các yếu tố
trên làm cho ảnh thu được rất đa dạng cần phải tiền xử lý như chuẩn hoá ảnh
mặt, triệt nhiễu, tăng độ tương phản… trước khi thực hiện các bước kế tiếp.
1.4.2. Dò tìm ảnh mặt (face localization)
Việc dò tìm mặt là quét cửa sổ kích thước cho trước từng pixel một lên ảnh đầu
vào, sử dụng các thuật toán đánh giá khác nhau để phân biệt ảnh mặt với ảnh
vật thể. Nếu cửa sổ chứa ảnh mặt chuẩn để nhận dạng thì sẽ được giữ lại.
Ví dụ: Tiêu chuẩn đáp ứng đơn trong dò tìm ảnh mặt sẽ dịch chuyển cửa sổ kích
thước cho trước lên ảnh đầu vào theo hướng từ trên xuống dưới, từ trái qua phải.
Sử dụng pixel trên cùng phía bên trái đại diện cho một ảnh con thu được.
Hình 1.4 (a) minh hoạ trường hợp dò tìm ảnh mặt bằng tiêu chuẩn đáp ứng đơn
với kích thước cửa sổ 16x16. Giả sử ảnh mặt được phát hiện tại p, thuật toán dò
tìm mặt sẽ kiểm tra trên tất cả 7x7 pixel lân cận để xác định một ảnh mặt nằm
gần không gian mặt nhất. Nhờ các lần dịch trước nên tả chỉ việc kiểm tra trên 24
pixel trong vùng A, giả sử tại pixel q ta tìm được ảnh mặt phù hợp nhất, lúc đó ta
không cần đi kiểm tra cho 542 pixel trong vùng B, vì bất kỳ sự phát hiện nào
trong vùng này đều trùng với ảnh mặt đã phát hiện ở q. Ở hình b, nếu ảnh mặt
được phát hiện với tỉ lệ a x a, khi dò tìm ảnh mặt ở tỉ lệ b x b, vùng pixel R sẽ
không được kiểm tra nữa.
1.4.3. Tiền xử lý
Mục đích của bước tiền xử lý là biểu diễn ảnh mặt một cách cô đọng nhất, làm
giảm tối đa sự khác biệt giữa các ảnh do điều kiện chiếu sáng, hướng chụp,

nhiễu…Có nhiều phương pháp tiền xử lý khác nhau như hiệu chỉnh kích thước,
xoay, cắt khung hình, cân bằng histogram, dùng mặt nạ, lọc nhiễu, … Tuy nhiên,


×