Tải bản đầy đủ (.pdf) (60 trang)

Phương pháp biểu diễn đặc trưng mặt người dựa vào bộ lọc gabor cong và (2D) 2LDA cho nhận dạng cá nhân trong ứng dụng điểm danh lớp học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.88 MB, 60 trang )

ĐỒN THANH NIÊN CỘNG SẢN HỒ CHÍ MINH
BAN CHẤP HÀNH TP. HỒ CHÍ MINH
----------------------

CƠNG TRÌNH DỰ THI
GIẢI THƯỞNG SINH VIÊN NGHIÊN CỨU KHOA HỌC EURÉKA
LẦN THỨ XIX NĂM 2017

TÊN CÔNG TRÌNH :
PHƯƠNG PHÁP BIỂU DIỄN ĐẶC TRƯNG MẶT NGƯỜI
DỰA VÀO BỘ LỌC GABOR CONG VÀ (2D)2LDA CHO NHẬN DẠNG CÁ NHÂN
TRONG ỨNG DỤNG ĐIỂM DANH LỚP HỌC

LĨNH VỰC NGHIÊN CỨU: Công nghệ Thông tin
CHUYÊN NGÀNH : Công nghệ phần mềm

Mã số cơng trình : …………………………….


TÓM TẮT
Mục tiêu của đề tài là xây dựng thuật tốn rút trích đặc trưng mặt người hiệu
quả cho việc nhận dạng cá nhân trong ứng dụng điểm danh lớp học với ảnh mặt
người nhìn thẳng được thu nhận từ thiết bị di động. Để thực hiện mục tiêu này, đề
tài đã giải quyết các vấn đề chính là: (1) Đề xuất phương pháp kết hợp hàm lọc
Gabor cong thích nghi với (2D)2LDA để rút trích đặc trưng có tính phân biệt cao và
bền vững với nhiễu; (2) Phát triển ứng dụng điểm danh lớp học dựa vào định danh
cá nhân sử dụng ảnh mặt người được thu nhận từ thiết bị di động. Các kết quả thực
nghiệm minh chứng thuật toán đề xuất cho hiệu năng thực hiện cao, cả về độ chính
xác và thời gian xử lý, đồng thời áp dụng được cho phần mềm điểm danh lớp học
dựa vào định danh mặt người.



i

MỤC LỤC
DANH MỤC CÁC BẢNG........................................................................................ iii
DANH MỤC HÌNH VẼ ........................................................................................... iv
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT .................................................... vi
Chương 1.

MỞ ĐẦU ........................................................................................ - 1 -

1.1 Đặt vấn đề .................................................................................................... - 1 1.1.1

Yêu cầu thực tế .................................................................................. - 1 -

1.1.2

Đặc trưng mặt người và các thách thức ............................................. - 2 -

1.1.3

Hệ thống nhận dạng mặt người.......................................................... - 3 -

1.2 Mục tiêu và phạm vi nghiên cứu.................................................................. - 5 1.3 Cấu trúc đề tài .............................................................................................. - 5 Chương 2.

CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN ..................... - 6 -

2.1 Hướng tiếp cận biểu diễn đặc trưng không gian .......................................... - 6 2.1.1

Đặc trưng hình dạng .......................................................................... - 6 -


2.1.2

Đặc trưng biểu đồ mật độ mức độ thấp ............................................. - 7 -

2.1.3

Biểu diễn đặc trưng bằng bộ lọc Gabor ............................................. - 8 -

2.1.4

Biểu diễn đặc trưng túi từ BoW ......................................................... - 9 -

2.1.5

Biểu diễn cấp cao dẫn xuất từ dữ liệu .............................................. - 10 -

2.1.6

Các biểu diễn đặc trưng phân cấp .................................................... - 11 -

2.1.7

Biểu diễn dựa vào các bộ phận ........................................................ - 12 -

2.2 Biểu diễn đặc trưng dựa vào không gian-thời Gian ................................... - 12 2.2.1

Đặc trưng hình học từ các điể m trên khuôn mă ̣t ............................. - 13 -

2.2.2


Đặc trưng cấ p thấ p từ mă ̣t phẳ ng trực giao ..................................... - 14 -

2.2.3

Đặc trưng dựa vào tích chập với bộ lọc làm trơn ............................ - 15 -

2.2.4

Đặc trưng Haar theo không gian-thời gian ...................................... - 15 -


ii

2.2.5

Biểu diễn đặc trưng biến dạng dạng tự do ....................................... - 17 -

2.2.6

Biểu diễn đặc trưng túi từ BoW theo thời gian................................ - 18 -

2.3 Hướng tiếp cận rút trích đặc trưng dựa vào giảm chiề u ............................ - 19 2.3.1

Phương pháp tổng hợp đặc trưng ..................................................... - 19 -

2.3.2

Phương pháp lựa chọn đặc trưng ..................................................... - 19 -


2.3.3

Phương pháp rút trích đặc trưng ...................................................... - 20 -

2.4 Bàn luận ..................................................................................................... - 20 Chương 3.

PHƯƠNG PHÁP ĐỀ XUẤT ....................................................... - 22 -

3.1 Ý tưởng thuật toán ..................................................................................... - 22 3.2 Bộ lọc Gabor .............................................................................................. - 23 3.2.1

Bộ lọc Gabor truyền thống .............................................................. - 23 -

3.2.2

Bộ lọc Gabor cong ........................................................................... - 24 -

3.3 Kỹ thuật phân tích tách lớp tuyến tính (2D)2LDA ..................................... - 28 3.4 Các bước thực hiện của thuật toán đề xuất ................................................ - 30 3.5 Kết luận ...................................................................................................... - 32 Chương 4.

KẾT QUẢ THỰC NGHIỆM ....................................................... - 33 -

4.1 Kết quả trên cơ sở dữ liệu ORL ................................................................. - 33 4.2 Kết quả trên cơ sở dữ liệu Yale ................................................................. - 35 4.3 Minh họa sử dụng ứng dụng ...................................................................... - 37 4.3.1

Mô tả ứng dụng ................................................................................ - 37 -

4.3.2

Kết quả sử dụng ............................................................................... - 38 -

Chương 5.


KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................... - 42 -

5.1 Kết luận ...................................................................................................... - 42 5.2 Hướng phát triển ........................................................................................ - 42 CÁC TÀI LIỆU THAM KHẢO .......................................................................... - 43 -


iii

DANH MỤC CÁC BẢNG
Bảng 4-1 So sánh năm phương pháp trên cơ sở dữ liệu ORL. .......................... - 34 Bảng 4-2 So sánh các phương pháp tiếp cận khác nhau về độ chính xác cơng nhận
trên cơ sở dữ liệu ORL ................................................................................. - 34 Bảng 4-3: So sánh năm phương pháp trên cơ sở dữ liệu YALE......................... - 36 Bảng 4-4: So sánh các phương pháp tiếp cận khác nhau về độ chính xác cơng nhận
trên cơ sở dữ liệu YALE .............................................................................. - 36 -


iv

DANH MỤC HÌNH VẼ
Hình 1-1 Hình ảnh gương mặt bị nhiễu [1]........................................................... - 2 Hình 1-2 So sánh bài tốn định danh (a) và xác thực (b) khuôn mặt ................... - 4 Hình 1-3 Các giai đoạn xử lý nhận dạng mặt người ............................................. - 5 Hình 2-1 Đặc trưng hình học (tập các điểm mặt) [8]. ........................................... - 6 Hình 2-2 Biểu đồ đặc trưng mật độ cấp thấp ((a) LBP, (b) LPQ, (c) HoG) [8]. .. - 7 Hình 2-3 Biểu diễn dựa vào bộ lọc Gabor [8]....................................................... - 9 Hình 2-4 Đặc trưng túi từ BoW [8]. .................................................................... - 10 Hình 2-5 Đặc trưng GP-NMF [8]........................................................................ - 10 Hình 2-6 Đặc trưng mã hóa phân rã [8]. ............................................................. - 11 Hình 2-7 Đặc trưng thành phần dựa vào (a) SIFT và dựa vào (b) NMF [8]...... - 12 Hình 2-8 Đặc trưng khơng gian thời gian sử dụng đặc trưng hình học từ các điểm
mặt [8]. ......................................................................................................... - 13 Hình 2-9 Đặc trưng khơng gian thời-gian (a) LBP-TOP và (b) LBQ-TOP [8]. . - 14 Hình 2-10 Bộ lọc làm trơn IC [8]........................................................................ - 15 Hình 2-11 Đặc trưng Haar động (a), và đặc trưng tương tự (b) [8]. ................... - 16 Hình 2-12 Biểu diễn biến đổi tự do[8]. ............................................................... - 17 Hình 2-13 Đặc trưng BoW theo thời gian [8]. .................................................... - 18 Hình 3-1 Sơ đồ thuật tốn đề xuất ...................................................................... - 22 Hình 3-2 Bộ lọc Gabor với kích thước 11 × 11 (a) và 7 × 7 (b). ........................ - 24 Hình 3-3 Minh họa kết quả áp lọc Gabor............................................................ - 24 Hình 3-4 Ví dụ Gabor cong kernels được thể hiện với thông số: σ = л và c = 0.1
[67]. .............................................................................................................. - 25 Hình 3-5: Ví dụ thực tế của 12 Gabor cong được đề xuất hiển thị [67]. ............ - 25 Hình 3-6 Hàm lọc gabor cong với c=0.1............................................................. - 26 Hình 3-7 Hàm lọc Gabor cong với c=0.0001. ..................................................... - 27 Hình 3-8. Minh họa kết quả lọc Gabor cong....................................................... - 27 -


v

Hình 3-9 Minh họa giảm số chiều của (2D)2LDA: (a) Ảnh gốc với kích thước là
100×100, (b)-(h) các ảnh tái tạo với d bằng q lần lượt là 1, 5, 10, 20, 40, 80,
90, (i) d=40, q=100, và (j) d=100, q=40. ..................................................... - 30 Hình 3-10 Minh họa giảm số chiều của phương pháp đề xuất CGabor-(2D)2LDA:
(a) Ảnh gốc với kích thước là 100×100, (b) là ảnh kết quả lọc Gabor cong
thích nghi, (c)-(h) các ảnh tái tạo với d bằng q lần lượt là 5, 10, 20, 40, 80, 90,
(i) d=40, q=100, và (j) d=100, q=40. ........................................................... - 32 Hình 4-1 Minh họa các ảnh tư thế của một người trong cơ sở dữ liệu ORL ...... - 33 Hình 4-2 Một số hình ảnh cơ sở dữ liệu Yale ..................................................... - 35 -



vi

DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT
STT Từ viết tắt
1

2DLDA

2

2DPCA

3

AU

4

5

BDOC

BHOG

Tiếng Anh

Ý nghĩa tiếng Việt

Two-dimensional Linear


Kỹ thuật phân tích tách

Discriminant Analysis

lớp tuyến tính hai chiều

Two-dimensional Principle

Kỹ thuật phân tích thành

Component Analysis

phần chính hai chiều

Action Units

Đơn vị hành động

Block Dominant Orientation

Mã hướng thống trị của

Code

khối

Block-based Histogram of
Oriented Gradient


Biểu đồ mật độ độ lệch
mức xám theo hướng
của khối

Bag of Words

Đặc trưng túi từ

Back-Propagation Neural

Mạng nơron lan truyền

Networks

ngược

6

BoW

7

BPNN

8

DPI

Dots Per Inche


9

EER

Equal Error Rate

10

FAR

false accept ratio

Tỷ lệ chấp nhận sai

11

FRR

false reject radio

Tỷ lệ từ chối sai

12

HOG

13

HOG


Histogram of Oriented Gradient

14

HOL

Histogram of Oriented Line

15

ICA

Independent Component

Histogram of
OrientendGradients

Số điểm ảnh trên một
Inche
Tỉ lệ sai số tại đó
FRR=FAR

Biểu đồ mật độ hướng
Biểu đồ mật độ độ lệch
mức xám theo hướng
Mật độ của đường theo
hướng
Kỹ thuật phân tích thành



vii

Analysis

phần độc lập
Phân tích phân biệt dựa

16

KDA

Kernel Discriminant Analysis

17

k-NN

k Nearest Neighbors

K láng giềng gần

18

LBP

Local Binary Pattern

Mẫu nhị phân cục bộ

19


LBP

Local Binary Patterns

Mẫu nhị phân cục bộ

20

LBQ

Local Phase Quantisation

21

LDA

Linear Discriminant Analysis

22

LPQ

Local Phase Quantization

23

NMF

24


ORL

Olivetti Research Laboratory

25

PCA

Principal Components Analysis

Nonnegative Matrix
Factorization

vào nhân

Đặc trưng lượng tử hóa
cục bộ
Phân tích tách lớp tuyến
tính
Định lượng đoạn cục bộ
Hệ số ma trận khơng âm
Phịng nghiên cứu
Olivetti
Phân tích thành phần
chính
Đường cong nhận được

26


ROC

Receiver Operating

từ cặp giá trị GAR và

Characteristic

FAR với các ngưỡng
khác nhau

27

ROI

Region of Interest

28

SIFT

29

SVM

Support Vector Machine

30

W-2DLDA


Weighted-Two-dimensional

Vùng được quan tâm
cho việc nhận dạng

Scale Invariant Feature

Phép biến đổi đặc trưng

Transform

bất biến về tỉ lệ.
Bộ phân lớp máy hỗ trợ
vector
Kỹ thuật phân tích tách


viii

Linear Discriminant Analysis

lớp tuyến tính hai chiều
có trọng số

31

ZeroFRR

32


NMF

Zero False Rejection Rate
Nonnegative Matrix
Factorization

Giá trị nhỏ nhất của
FAR tại đó FRR=0
Hệ số ma trận không âm


-1-

Chương 1. MỞ ĐẦU
Đặt vấn đề

1.1

1.1.1 Yêu cầu thực tế
Ngày nay, các thiết bị di động có tích hợp sẵn camera rất phổ biến. Điều này
đã mở ra nhiều hướng nghiên cứu về thị giác máy tính, đồng thời sẽ có nhiều ứng
dụng trong giao tiếp giữa người với máy tính mà trong đó hệ thống nhận dạng mặt
người đóng một vai trị khơng nhỏ. Dưới đây là một số ứng dụng trong công nghệ
nhận dạng mặt người:
-

Các ứng dụng chuyên biệt cho ngành hàng không: Đảm bảo sự truy cập và
tính hợp lệ trong cơng việc cho từng nhânviên. Kiểm soát an ninh tại các khu
vực ra vào


-

Bảo vệ trẻ em ở nhà trẻ từ bọn bắt cóc: Quy định rằng, chỉ có những nhân
viên của nhà trẻ mới được phép dẫn trẻ em ra ngoài và trao tận tay cho bố mẹ
đón về. Nhờ cơng nghệ nhận dạng mặt người có thể kiểm sốt được việc này.

-

Nhận dạng khuôn mặt được sử dụng kèm với thẻ truy cập.

-

Ngăn chặn việc xuất/nhập cảnh bất hợp pháp: Một số người khơng được
xuất/nhập cảnh vào nước, song họ cố tình khai gian giấy tờ để xuất/nhập
cảnh bất hợp pháp. Ứng dụng nhận dạng mặt người giúp để ngăn chặn được
sự gian lận này.

-

Lần dấu vết đi tìm kẻ khủng bố: Từ những bức ảnh số hay những đoạn video
số đã được ghi lại tự động về hiện trường trước khi vụ khủng bố xảy ra. Cần
nhận dạng những đối tượng khả nghi của vụ khủng bố này.

-

Hệ thống giám sát công nhân và chấm công tự động: Ở các công ty sản xuất
lớn có hàng ngàn cơng nhân vào ra mỗi ngày nên việc giám sát kẻ gian vào
công ty cũng như công việc chấm công rất phức tạp. Dựa vào công nghệ
nhận dạng để nhận ra từng nhân viên của công ty.



-2-

-

Hệ thống điểm danh lớp học: Nhằm đảm bảo nền nếp trong học tập, việc
điểm danh sinh viên, học sinh đi học là cần thiết. Một trường học có rất
nhiều lớp, việc điểm danh tự động sinh viên, học sinh dựa vào nhận dạng
mặt người sẽ vừa an ninh, khách quan vừa thuận tiện cho giáo viên phụ
trách.
Tóm lại, nhu cầu phát triển các thuật toán nhận dạng mặt người là cần thiết

cho các ứng dụng hiện hiện nay và trong tương lai.
1.1.2 Đặc trưng mặt người và các thách thức
Có nhiều lĩnh vực khác nhau như sinh học, tâm lý học, khoa học thần kinh,
xã hội học và khoa học máy tính đã phân tích đặc trưng biểu hiện khn mặt người.
Mặc dù đã có nhiều nghiên cứu để biểu diễn khn mặt người, nhưng bài tốn rút
trích đặc trưng khn mặt người vẫn là bài tốn mở. Nhìn chung có ba kiểu biểu
diễn đặc trưng khn mặt người: đặc trưng tổng thể, đặc trưng thành phần và đặc
trưng cấu trúc mối quan hệ giữa các thành phần. Đặc trưng tổng thể là xem khuôn
mặt là một thực thể duy nhất để phân biệt. Đặc trưng thành phần là xem xét các
thành phần (mắt, mũi, miệng) riêng lẻ. Đặc trưng cấu trúc mối quan hệ giữa các
thành phần là xem xét mối quan hệ khơng gian hình học giữa các thành phần khuôn
mặt. Khi xem xét đặc trưng tổng thể hay đặc trưng từng thành phần thì đặc trưng kết
cấu mẫu vẫn thường được sử dụng [1], [2], [3].

Hình 1-1 Hình ảnh gương mặt bị nhiễu [1].



-3-

Khuôn mặt người là nơi biễn diễn sắc thái và tình cảm của con người rõ ràng
nhất, vì vậy bài tốn nhận dạng mặt người gặp khơng ít những thách thức về biểu
hiện cảm xúc cũng như các yếu tố tác nhân bên ngồi như:
-

Có nhiều hướng của khn mặt cùng một người như: nhìn thẳng, nhìn
nghiêng trái hoặc nhìn nghiêng phải, cuối xuống, ngước lên.

-

Xét dữ liệu video: thông tin mặt người trong dữ liệu video là vô cùng nhiều,
tuy vậy các phương pháp nhận dạng vẫn làm việc với ảnh tĩnh là ảnh được
trích xuất từ video, nhưng các phương pháp nhận dạng không thể tận dụng
hết ưu thế của ảnh với dữ liệu là video.

-

Có những chi tiết không phải là đặc trưng riêng của khuôn mặt như người có
râu quai nón, người đeo kính cận hay khuôn mặt của đối tượng được xét bị
che khuất bởi đối tượng khác.

-

Tại các thời điểm khác nhau thì biểu hiện cảm xúc khuôn mặt cũng khác
nhau như: vui, buồn, ngạc nhiên, ngơ ngác... ảnh hưởng rất nhiều trong việc
nhận dạng.

-


Chịu sự tác động điều kiện về độ sáng tối cũng cho ta có kết quả khác nhau
của khn mặt cũng như màu sắc môi trường ở nhiều nơi là khác nhau hay
màu sắc của quần áo cũng ảnh hướng đến q trình nhận dạng mặt người.

-

Kích thước khác nhau của khuôn mặt cũng là yếu tố tác động đến quá trình
nhận dạng mặt người.

1.1.3 Hệ thống nhận dạng mặt người
Một hệ thống sinh trắc học là hệ nhận dạng dựa trên hành vi, thuộc tính vật
lý của người được nhận dạng. Hệ sinh trắc học được phân thành hai loại chính: hệ
xác thực và hệ định danh.
Hệ xác thực: đầu vào gồm có ảnh truy vấn và định danh. Hệ thống đối sánh
1-1 giữa mẫu mặt người đã thu nhận được với mẫu mặt người trong hệ thống ứng
với định danh đầu vào. Hệ thống xác thực trả lời kết quả phải hay không phải mặt
người ứng với định danh đó (Xem hình 1-2b).


-4-

Hệ định danh: đầu vào chỉ có mẫu truy vấn. Hệ thống so sánh mẫu truy vấn
với các mẫu huấn luyện (1-n). Hệ thống sẽ cho biết định danh ứng với mẫu truy vấn
đó nếu có, ngồi ra thì trả lời là khơng biết (Xem hình 1-2a).

Hình 1-2 So sánh bài tốn định danh (a) và xác thực (b) khn mặt
Nhận dạng mặt người gồm các giai đoạn xử lý sau:
-


Phát hiện mặt người: nhận dạng đâu là vùng mặt có trong ảnh đầu vào và
phân đoạn vùng ảnh mặt để nhận dạng.

-

Canh chỉnh ảnh: chuẩn hóa mẫu ảnh về tư thế chuẩn như chuẩn hóa kích cỡ
ảnh, vị trí và tư thế ảnh để so khớp hiệu quả hơn.

-

Trích chọn đặc trưng: giai đoạn này sẽ trích chọn ra nhưng đặc trưng có
tính phân biệt cao giữa các đối tượng, ít chịu sự tác động của nhiễu.

-

So khớp: thực hiện so sánh giữa vectơ đặc trưng để chọn ra độ tương tự của
mẫu ảnh cần tìm và mẫu ảnh chứa trong cơ sở dữ liệu.


-5-

Hình 1-3 Các giai đoạn xử lý nhận dạng mặt người
1.2

Mục tiêu và phạm vi nghiên cứu
Mục tiêu và phạm vi nghiên cứu của đề tài là phát triển thuật tốn rút trích

đặc trưng mặt người nhìn thẳng dựa vào bộ lọc Gabor cong và phương pháp phân
tích tách lớp tuyến tính (2D)2LDA, từ đó, áp dụng cho nhận dạng cá nhân trong ứng
dụng điểm danh lớp học sử dụng thiết bị di động.

1.3

Cấu trúc đề tài
Luận án được trình bày gồm có: 5 chương, và tài liệu tham khảo.
 Chương 1 trình bày tổng quan về bài tốn nhận dạng mặt người, động cơ,
mục tiêu, phạm vi nghiên cứu, và cấu trúc trình bày luận án.
 Chương 2 trình bày một số khảo sát về các cơng trình trong nước và quốc tế,
cũng như phương pháp nghiên cứu định hướng của đề tài.
 Chương 3 trình bày phương pháp đề xuất cho việc rút trích đặc trưng mặt
người và ứng dụng minh họa.
 Chương 4 trình bày các kết quả thực nghiệm minh chứng hiệu quả thuật toán
và minh họa kết quả ứng dụng điểm danh lớp học.
 Chương 5 trình bày tổng kết các nội dung đã làm được của đề tài và kiến
nghị hướng phát triển.


-6-

Chương 2. CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Chương này trình bày tổng quan các hướng tiếp cận rút trích đặc trưng mặt người
và hướng tiếp cận của đề tài.
2.1

Hướng tiếp cận biểu diễn đặc trưng không gian
Hướng tiếp cận này có nhiều phương pháp khác nhau khai thác đặc trưng cấp

thấp lẫn cấp cao của khuôn mặt như: (1) Đặc trưng hình dạng, (2) Đặc trưng mật độ
mức thấp, (3) Đặc trưng dựa vào bộ lọc Gabor, (4) Đặc trưng túi từ, (5) đặc trưng
cấp cao, (6) Đặc trưng phân cấp, và (7) đặc trưng bộ phận.
2.1.1


Đặc trưng hình dạng
Đặc trưng hình dạng được sử dụng thường xuyên nhất tập các điểm mặt. Các

điểm này biểu diễn hình dạng chính của khn mặt như đường biên khn mặt,
chân mày, sống mũi, miệng và mắt. Đặt trưng được biễu diễn thông qua việc kết nối
các tọa độ này với nhau [5] (Hình 2-1).

Hình 2-1 Đặc trưng hình học (tập các điểm mặt) [8].

Đặc trưng này không bị ảnh hưởng bởi ánh sáng vì cường độ ánh sáng của
các điểm ảnh bị bỏ qua. Tuy nhiên, sự biến đổi của ánh sáng có thể làm giảm độ
chính xác trong việc xác định các điểm mặt. Người ta có thể sử dụng khoảng cách
giữa mốc trên khuôn mặt chứ không sử dụng khoảng cách giữa các điểm mặt
[6]. Khi đó, bộ miêu tả có thể là khoảng cách giữa các thành phần trên khn mặt
như khoảng cách và góc độ mơ tả việc đóng/mở mắt và miệng, và các nhóm điểm


-7-

mô tả trạng thái của má. Cách làm này sử dụng nhiều hơn để nhận biết sự thay đổi
về trạng thái của khuôn mặt (Nhận dạng cảm xúc) [7].

2.1.2 Đặc trưng biểu đồ mật độ mức độ thấp
Phương pháp này sẽ tính tốn đặc trưng cục bộ và mã hóa thành ảnh mới.
Sau đó, phân ảnh thành từng khối. Mỗi khối sẽ tính mật độ của từng đoạn giá trị mã.
Đặc trưng kết quả là nối tất cả các vector mật độ của tất cả các khối.

Hình 2-2 Biểu đồ đặc trưng mật độ cấp thấp ((a) LBP, (b) LPQ, (c) HoG) [8].


Đặc trưng cấp thấp là bền vững với sự biến đổi của ánh sáng bởi vì nó tính
dựa vào độ lệch mức xám trong vùng nhỏ. Thêm vào đó, biểu đồ mật độ được
chuẩn hóa [9] nên bền vững với nhiều trường hợp thay đổi độ sáng khác nhau. Cách
biểu diễn này bền vững với việc huấn luyện ảnh lỗi vì biểu đồ mật độ có thể phủ
nhiều trường hợp ảnh được thu nhận với tư thế dịch chuyển, xoay và tỉ lệ. Biểu đồ
mật độ ở mức độ thấp không đánh giá được thay đổi biểu hiện trạng thái khuôn mặt
bởi sự thiên lệch về nhận dạng, vì phương pháp biểu diễn này kiểm tra các tín hiệu
liên quan đến nhận dạng hơn là biểu hiện trên khn mặt [10], [11]. Cách biểu diễn
này mã hóa thơng tin mỗi thành phần bằng biểu đồ mật độ từng vùng độc lập với


-8-

các vùng khác của khuôn mặt. Đặc trưng biểu đồ mật độ ở mức thấp tính tốn đơn
giản và cho phép hoạt động thời gian thực [12], [13].
Hướng tiếp cận biểu diễn biểu đồ mật độ mức độ thấp có 2 phương pháp sử
dụng phổ biến và được đánh giá cao là: (1) Mơ hình mẫu nhị phân cục bộ (LBP) và
(2) Mơ hình lượng tử hóa cục bộ (LPQ).
Đặc trưng LBP biểu diễn sự biến đổi mức xám trong một vùng tròn bằng một
số nguyên. Biểu đồ mật độ LBP đơn giản là đếm số lượng từng loại số nguyên nên
kích thước đặc trưng phụ thuộc vào phạm vi các số nguyên. Phạm vi phổ biến của
LBP là [0; 255]. Ahonen et al [10] cho thấy rằng có thể sử dụng kích thước 59 để
biểu diễn các mẫu, nó hoạt như bộ phát hiện cạnh [14].
Bộ mô tả LPQ đã được đề xuất để làm mờ các điểm ảnh nhạy cảm thông qua
sự chuyển đổi Fourier cục bộ [15]. Tương tự như LBP, LPQ mơ tả một nhóm biểu
đồ mật độ cục bộ với một số nguyên dao động trong [0; 255]. Biểu đồ cục bộ chỉ
đơn giản đếm các mẫu LPQ, và kích thước của mỗi biểu đồ là 256 [15].
LBP và LPQ được so sánh về hiệu quả nhận dạng trong một số nghiên cứu,
và LPQ thường tốt hơn LBP [16], [17]. Điều này có thể do kích thước của mơ tả cục
bộ, vì LBP thường được chiết xuất từ các vùng nhỏ hơn có đường kính 3 pixel,

trong khi LPQ được trích xuất từ các vùng lớn hơn 7*7 pixel [16], [17]. LBP gây
mất thông tin khi trích xuất từ các vùng lớn hơn khi chúng bỏ qua những điểm ảnh
nằm trong vùng tròn. Ngược lại, các số nguyên LPQ mô tả các vùng một cách tổng
thể.
2.1.3

Biểu diễn đặc trưng bằng bộ lọc Gabor
Một biểu diễn khác dựa trên các đặc trưng cấp thấp là biểu diễn Gabor. Đặc

trưng Gabor thu được bằng cách tích chập ảnh đầu vào với các bộ lọc Gabor có tỉ lệ
và hướng khác nhau (Hình 2-3) [18]. Bộ lọc Gabor mã hóa thơng tin kết cấu mẫu
vân cục bộ trong từng vùng ảnh. Kích thước của đầu ra là lớn, do vậy bước giảm số
chiều là cần thiết. Vì các điểm ảnh được lọc bằng Gabor chứa thông tin liên quan
đến các điểm ảnh gần nó nên kỹ thuật giảm thiểu kích thước đơn giản là sử dụng giá
trị tối thiểu, tối đa và tổng hợp giữa các kết quả của các bộ lọc. Bộ lọc Gabor tính


-9-

toán sự khác biệt mức xám trong một vùng cục bộ nên nó bền vững với nhiễu ánh
sáng [18], [19].

Hình 2-3 Biểu diễn dựa vào bộ lọc Gabor [8].

Tương tự như biểu đồ mật độ mức thấp, đặc trưng Gabor chứa thông tin phục
vụ cho việc nhận dạng phân biệt cá nhân hơn là phân biệt biểu hiện trạng thái khuôn
mặt [18]. Đặc trưng này bền vững với lỗi mẫu đăng ký bởi vì bộ lọc làm trơn và giá
trị kết quả lọc bền vững với dịch chuyển và xoay trong một vùng nhỏ [20]. Bền
vững với lỗi đăng ký ít mẫu có thể được tăng thêm bằng cách kết hợp với hướng
tiếp cận chiếu không gian con. Bộ lọc Gabor có nhược điểm là độ phức tạp tính tốn

cao vì áp dụng bộ lọc nhiều lần, theo nhiều hướng và tỉ lệ khác nhau [18].
2.1.4

Biểu diễn đặc trưng túi từ BoW
Đặc trưng BoW miêu tả các vùng cục bộ bằng các rút trích đặc trưng cục bộ

(ví dụ SIFT) tại các vị trí cố định, sau đó so sánh các đặc trưng này với các mẫu đặc
trưng có sẵn trong cơ sở dữ liệu (túi từ) để nhận biết các từ tưng ứng [21]. Biểu diễn
đặc trưng này kế thừa ưu điểm của đặc trưng SIFT là bền vững với sự biến đổi ánh
sáng và lỗi đăng ký nhỏ. Đặc trưng này sử dụng phép so khớp theo hình tháp [22],
một kỹ thuật thực hiện kết hợp biểu đồ mật độ và tăng khả năng chịu lỗi huấn luyện
ảnh. Lược đồ so khớp này mã hóa thơng tin với nhiều tỉ lệ và nhiều lớp khác nhau.
Đặc trưng này có kích thước rất cao và do đó khái qt hóa các đặc trưng cần thiết
để giảm kích thước. Mặc dù tính tốn đặc trưng SIFT đơn giản, nhưng chi phí tính
tốn các từ dựa vào việc tìm kiếm nên phụ thuộc vào kích thước cơ sở dữ liệu từ và
thuật tốn tìm.


- 10 -

Hình 2-4 Đặc trưng túi từ BoW [8].
2.1.5

Biểu diễn cấp cao dẫn xuất từ dữ liệu
Tất cả các biểu diễn đặc trưng nêu trên đều mô tả kết cấu cục bộ (xem hình

2-1, -2, -3 và -4). Nói một cách khác, các đặc trưng này mã hóa thơng tin các
cạnh. Mục đích hướng tiếp cận này là nhận được đặc trưng cấp cao hơn từ thông tin
ngữ nghĩa của các đặc trưng mã hóa. Hai phương pháp tạo ra các biểu diễn như vậy
là NMF [23], [24] và mã hóa phân rã [25], [26].


Hình 2-5 Đặc trưng GP-NMF [8].

Phương pháp NMF phân rã một ma trận thành hai ma trận không âm. Sự
phân rã không phải là duy nhất và nó có thể được thiết kế để có các ngữ nghĩa khác
nhau. Một kỹ thuật dựa trên NMF là kỹ thuật bảo tồn đồ thị GP-NMF [25], nó
phân chia các mặt thành các thành phần không gian độc lập thông qua ràng buộc
phân rã không gian [27]. Sự phân chia thành các thành phần độc lập để mã hóa
thơng tin cấu thành, và có thể là thơng tin cấu hình (Hình 2-5). NMF tạo ra một số
hình ảnh cơ sở và đặc trưng chính là các hệ số ứng với mỗi hình ảnh cơ bản (Hình
2-5). Phương pháp này thực hiện tối thiểu hóa để tính tốn các hệ số, do đó độ phức
tạp tính tốn của nó thay đổi dựa trên thuật toán tối ưu, số lượng và kích thước của
các hình ảnh cơ bản. Vì NMF dựa vào tập dữ liệu huấn luyện nên phương pháp này
có thể chống lại nhiễu chiếu sáng và lỗi đăng ký.


- 11 -

Lý thuyết về mã hoá phân rã được dựa trên ý tưởng rằng bất kỳ hình ảnh nào
cũng có thể phân rã trong một số miền nào đó [28]. Sự chuyển đổi có thể là chuyển
đổi thích nghi (ví dụ dẫn ra từ dữ liệu) hoặc chuyển đổi khơng thích nghi (ví dụ như
biến đổi Fourier) và dựa vào từ điển [28]. Tính linh hoạt của định nghĩa từ điển cho
phép các nhà nghiên cứu tự do định nghĩa từ điển. Các phần tử trong từ điển có thể
diễn giải theo ngữ nghĩa. Biểu diễn được hình thành bằng cách nối các hệ số của các
phần tử từ điển (Hình 2-6). Độ phức tạp của thuật tốn phụ thuộc vào thuật tốn tối
ưu và kích cỡ từ điển.

Hình 2-6 Đặc trưng mã hóa phân rã [8].

2.1.6 Các biểu diễn đặc trưng phân cấp

Biểu diễn cấp thấp rất tốt để tránh ảnh hưởng bởi ánh sáng và lỗi đăng ký.
Mặt khác, các biểu diễn cấp cao có thể tạo ra các đặc trưng có khả năng diễn giải
theo ngữ nghĩa. Các biểu diễn phân cấp mã hóa thơng tin một cách từ thấp đến cao.
Mơ hình được xây dựng tốt nhất cho các mơ hình phân cấp là học sâu [29], [30].
Các mơ hình phân cấp có thể được thiết kế một cách đơn giản bởi các biểu diễn cấp
thấp và cấp cao được thiết lập tốt như các bộ lọc Gabor và biểu diễn mã hóa phân rã
[31]. Học sâu là một mơ hình học phân tầng đa lớp đặc trưng từ dữ liệu [29]. Nói
chung tổng thể chứa ít nhất hai lớp cấp thấp. Lớp đầu tiên thu hẹp hình ảnh đầu vào
với một số bộ lọc cục bộ đã đọc từ dữ liệu và lớp thứ hai tập hợp đầu ra thông qua
các hoạt động chung. Các lớp ở cấp cao có thể được thiết kế cho các mục đích khác
nhau như giải quyết ảnh có vật che khuất. Các bộ lọc ở mức thấp thường là các bộ
lọc làm trơn để tính tốn sự khác biệt cục bộ, do đó chúng bền vũng những biến đổi


- 12 -

ánh sáng và lỗi đăng kí tốt hơn. Sử dụng nhiều ảnh huấn luyện cải thiện các lỗi
đăng kí.
2.1.7 Biểu diễn dựa vào các bộ phận

Hình 2-7 Đặc trưng thành phần dựa vào (a) SIFT và dựa vào (b) NMF [8].

Hướng tiếp cận này phân tích khn mặt thành các thành phần độc lập rồi
mã hóa thơng tin từng thành phần. Đặc trưng này loại bỏ thông tin mối quan hệ giữa
các bộ phận (Hình 2-7). Bỏ qua các mối quan hệ không gian giữa các bộ phận làm
giảm ảnh hưởng đối với sự thay đổi tư thế của đầu. Phương pháp này đã được
chứng minh đạt hiệu quả nhận dạng khi sự biến đổi thư thế đầu xuất hiện nhiều
[32], [33].
Hai phương pháp tiêu biểu cho hướng tiếp cận này là: (1) Biểu diễn thành
phần dựa vào đặc trưng SIFT [191] (Hình 2-7a) và Biểu diễn đặc trưng thành phần

dựa vào NMF [32] (Hình 2-7b).
2.2

Biểu diễn đặc trưng dựa vào không gian-thời Gian
Đă ̣c trưng không gian – thời gian quan tâm đế n mô ̣t loa ̣t khung hình trong

mô ̣t cửa sổ thời gian như mô ̣t thực thể duy nhấ t, và cho phép mơ hình hóa sự thay
đổi theo thời gian để biểu thức đặc trưng chi tiế t, hiệu quả hơn. Đặc trưng này có


- 13 -

thể phân biệt các biểu hiện trông giống nhau trong không gian (ví du ̣ như nhắ m mắ t
so với nhấ p nháy mắ t [34] [35]), và thuận tiện cho kết hợp kiến thức về tâm lý học.
Kiế n thức miề n này liên quan đế n việc cấ p cao hơn, chẳ ng ha ̣n như phân biê ̣t giữa
phản xa ̣ tiǹ h cảm có điề u kiê ̣n hoă ̣c không điề u kiê ̣n hoă ̣c nhâ ̣n biế t hành vi [36].
2.2.1 Đặc trưng hình học từ các điểm trên khn mă ̣t

Hình 2-8 Đặc trưng khơng gian thời gian
sử dụng đặc trưng hình học từ các điểm mặt [8].
Mục đích của đặc trưng này là kết hợp các kiến thức từ khoa học nhận thức
để phân tić h sự biế n đổ i theo thời gian và các hoa ̣t đô ̣ng của cơ tương ứng. Nó đươ ̣c
sử du ̣ng để nhận dạng nu ̣ cười và sự thay đổ i trên trán [37]. Đặc trưng này mô tả
hình da ̣ng khuôn mă ̣t và hoa ̣t đô ̣ng của các điểm mặt [38]. Các đặc điểm như: vi ̣ trí
ban đầ u (thô) của mỗi điể m, chiề u dài và góc của các đường là đặc trưng để nhận
dạng. Các đặc trưng này được thu thập theo thời gian. Cửa sổ thời gian được điều
chỉnh theo tỉ lệ khung hình và những phát hiện của khoa học nhận thức về hoạt
động của cơ mặt [38]. Đặc trưng này nhạy cảm với lỗi đăng ký bời vì nó được rút
trích từ tọa độ các điểm thơ. Mă ̣c dù, đặc trưng này miêu tả sự thay đổ i theo thời
gian, nhưng nó khơng nắm bắt được biểu hiện chi tiết vì nó chỉ sử dụng các điểm

mặt.


- 14 -

2.2.2 Đặc trưng cấ p thấ p từ mă ̣t phẳ ng trực giao
Rút trích đặc trưng từ 3 mă ̣t phẳ ng trực quan (TOP) là mô ̣t cách tiế p câ ̣n phổ
biế n để mở rô ̣ng các đă ̣c trưng không gian cấ p thấ p vào miề n khơng gian - thời gian
(Hình 2-9).

Hình 2-9 Đặc trưng khơng gian thời-gian (a) LBP-TOP và (b) LBQ-TOP [8].

Phương pháp này là mở rô ̣ng từ LBP sang LBP-TOP [185]. LBP-TOP đươ ̣c
áp du ̣ng cho nhâ ̣n diê ̣n cảm xúc cơ bản [39] (Hình 2-9a). Sau phương pháp này,
LPQ đươ ̣c mở rô ̣ng đế n LPQ-TOP đươ ̣c sử du ̣ng cho nhâ ̣n da ̣ng hành động khuôn
mặt và phân đoa ̣n thời gian [40] (Hình 2-9b).
Như minh ho ̣a trong Hình 2-9, mô hình TOP chiế t xuấ t đă ̣c trưng từ các
điể m lân câ ̣n trong 3 mă ̣t phẳ ng sau: mă ̣t phẳ ng không gian (x,y) tương tự như LBP
thường, mă ̣t phẳ ng do ̣c theo không gian và thời gian (y,t) và mă ̣t phẳ ng ngang theo
không gian và thời gian (x,t). Tương tự như đặc trưng hình học, phương pháp này sẽ
rút trích đặc trưng dạng vector cho từng vùng nhỏ của khuôn mặt (theo không gian
– thời gian).
LBP-TOP và LPQ-TOP kế thừa tin
́ h bền vững của chúng đố i với các biế n
đổi chiế u sáng, tuy nhiên, chúng nha ̣y cảm hơn đố i với các lỗi đăng ký. Sự thay đổ i
kế t cấ u của chúng gây ra chỉ bởi chuyể n đô ̣ng trên khuôn mă ̣t. Do đó, có thể giải


- 15 -


thić h các lỗi đăng ký ta ̣m thời như hoa ̣t đô ̣ng trên khuôn mă ̣t. Chiề u của đă ̣c trưng
biể u diễn này cao hơn so với đă ̣c trưng tiñ h của chúng. Cả hai đă ̣c trưng đươ ̣c tâ ̣p
trung vào viê ̣c nhâ ̣n da ̣ng hành động của khuôn mặt.
2.2.3 Đặc trưng dựa vào tích chập với bộ lọc làm trơn
Mô ̣t phương pháp để biể u diễn sự biế n thiên theo thời gian trong kế t cấ u của
đặc trưng cấp thấp là tích chập với bộ lọc làm trơn theo khơng gian và thời gian
(Hình 2-10)

Hình 2-10 Bộ lọc làm trơn IC [8].
Hai cách tiế p câ ̣n như vâ ̣y là sử du ̣ng bô ̣ lo ̣c Gabor theo không gian - thời
gian [41] và bộ lọc thành phần độc lập theo không gian – thời gian (IC) [79]. Sự
khác biê ̣t chiń h giữa bô ̣ lo ̣c Gabor và IC là các tham số của bô ̣ lo ̣c Gabor đươ ̣c điề u
chỉnh bằ ng tay [41], trong khi bô ̣ lo ̣c IC thu đươ ̣c tự đô ̣ng trong quá trình phân tích
thành phần đô ̣c lâ ̣p có giám sát [42]. Cả hai phương pháp đều bao gồ m các bô ̣ lo ̣c
với các cửa sổ thời gian khác nhau. Hướng tiếp cận này không nhạy cảm với sự
thay đổi chiếu sáng. Tuy nhiên bô ̣ lo ̣c Gabor và IC theo không gian và thời gian
nha ̣y cảm hơn với các lỗi đăng ký. Các chi phí tính tốn của hai phương pháp rất
cao vì chúng thực hiện tích chập trên ba chiều với nhiều bộ lọc khác nhau (ví dụ
240 bộ lọc [42], [41]). Đă ̣c trưng Gabor và IC được sử dụng để nhận biết cảm xúc
cơ bản. Bô ̣ lo ̣c Gabor không gian-thời gian làm tốt hơn so với các phương pháp
cùng hướng tiếp cận khác [41].
2.2.4 Đặc trưng Haar theo không gian-thời gian
Hai biểu diễn mà sử dụng tốt đặc trưng Haar cho biểu diễn không gian-thời
gian là đặc trưng Haar động [43] và đặc trưng tương tự [44], [45].


×