Tải bản đầy đủ (.pdf) (6 trang)

Đánh giá hiệu năng máy vector hỗ trợ sử dụng hàm nhân radial basic trong hệ thống nhận dạng khuôn mặt sử dụng khối trích xuất PCA-LDA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (353.31 KB, 6 trang )

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Đánh Giá Hiệu Năng Máy Vector Hỗ Trợ Sử
Dụng Hàm Nhân Radial Basic trong Hệ Thống
Nhận Dạng Khuôn Mặt Sử Dụng Khối Trích
Xuất PCA-LDA
Phạm Văn Tuấn∗ , Hà Xuân Cường∗ , Hồ Đức Trung∗


Trung tâm Xuất Sắc
Đại học Bách Khoa Đà Nẵng
Đà Nẵng, Việt Nam
Email: , ,
Tóm tắt—Trong bài báo này, một phương pháp hiệu quả
để nhận dạng khn mặt được trình bày để giải quyết tốt
sự biến đổi về biểu cảm khuôn mặt, tư thế mặt, và điều kiện
chiếu sáng. Phương pháp này được dựa trên sự kết hợp giữa
Phân tích thành phần chính (PCA), Phân tích sự khác biệt
tuyến tính (LDA) và máy vector hỗ trợ (SVM) sử dụng hàm
Radial Basic (RBF). Các thử nghiệm đã được tiến hành trên
tập cơ sở dữ liệu hình ảnh: Grimace, Sheffield, và Yale B
mở rộng (Extended Yale B). Hiệu năng của phương pháp
được đề xuất cũng được so sánh với ba phương pháp khác,
đó là: PCA và RBF SVM, PCA và Linear SVM, PCA-LDA
và Linear SVM. Kết quả đã chỉ ra rằng, phương pháp sử
dụng PCA-LDA và RBF SVM cho kết quả nhận dạng cao
và đáng tin cậy đối với sự thay đổi về biểu cảm khuôn mặt,
tư thế mặt, và điều kiện chiếu sáng.
Từ khóa—Phân tích thành phần chính, Phân tích sự khác


biệt tuyến tính, Máy vector hỗ trợ, Hàm Radial Basic, Máy
vector hỗ trợ tuyến tính.

I. ĐẶT VẤN ĐỀ
Nhận dạng khuôn mặt là một trong lĩnh vực nghiên cứu
tiên phong có nhiều ứng dụng trong thực tiễn, thí dụ: hệ
thống tương tác giữa người và máy, cỗ máy tìm kiếm, hệ
thống theo dõi, hệ thống đăng nhập,... Một hệ thống nhận
dạng khuôn mặt tốt phải đạt được các yêu cầu sau: độ
chính xác cao, đáp ứng thời gian thực, ít bị ảnh hưởng bởi
các điều kiện bên ngồi (biểu cảm khn mặt, tư thế mặt,
điều kiện chiếu sáng,...).
Trong những năm gần đây, SVM nổi lên như một
phương pháp đầy hứa hẹn cho việc phân loại khuôn
mặt [1], [2]. Trong số các thuật tốn trích xuất thuộc tính,
wavelet Gabor đã được thừa nhận là một phương pháp rất
mạnh khi phải đối mặt với sự thay đổi độ sáng, tư thế mặt
và biểu cảm khuôn mặt, theo nguồn từ [3]. Nghiên cứu
ở [4] chỉ ra rằng sự kết hợp giữa Linear SVM và bộ lọc
Gabor đáp ứng tốt khi cần giải quyết nhiều mặt của việc
nhận dạng khuôn mặt. Tuy vậy, wavelet Gabor u cầu
một lượng tính tốn cực lớn. Do đó, các hệ thống nhận
dạng khn mặt sử dụng wavelet Gabor thường rất chậm.

ISBN: 978-604-67-0635-9

330

Mặt khác, PCA và LDA là các phương pháp trích xuất
thuộc tính cơ bản. Hai hướng tiếp cận này có thể giúp giảm

bớt đáng kể khối lượng tính tốn cho hệ thống nhận dạng,
từ đó rút ngắn thời gian hoạt động. Chỉ riêng PCA hoặc
LDA cũng tạo ra hiệu năng tốt khi kết hợp với SVM [5],
[6], [7].

Hình 1. Sơ đồ khối của hệ thống nhận dạng

Trong bài báo này, một nghiên cứu đối sánh được thực
hiện để đánh giá hiệu năng của hệ thống nhận dạng sử
dụng các phương pháp trích xuất thuộc tính cơ bản (PCA,
LDA) cùng với SVM. Sau khi tiến hành việc so sánh, hệ
thống tốt nhất được đề xuất. Hệ thống này phải có hiệu
năng cao và đáng tin cậy khi phải đối mặt với sự thay đổi
về biểu cảm khuôn mặt, tư thế mặt, và điều kiện chiếu
sáng. Sơ đồ khối tổng quát của quy trình nhận dạng được
mơ tả ở hình 1. PCA và sự kết hợp PCA-LDA được sử
dụng làm phương pháp trích xuất thuộc tính. Trong khối
phân loại, có hai tùy chọn đó là Linear SVM và RBF
SVM.
Cấu trúc của bài báo như sau: Phần II trình bày các
bước tiền xử lí ảnh, tiếp đó, Phần III mơ tả các thuật tốn
trích xuất thuộc tính (PCA, và PCA-LDA). Phần IV trình
bày kiến thức về SVM cũng như cách xây dựng một SVM
nhiều lớp. Kết quả thí nghiệm và phân tích được trình bày
ở Phần V. Cuối cùng, kết luận và hướng phát triển được
thảo luận ở Phần VI.
II. TIỀN XỬ LÍ
Các bước tiền xử lí ảnh được áp dụng trong nghiên cứu
này được trình bày như sau:
• Cắt từ ảnh chụp gốc để lấy ảnh khuôn mặt


330


Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)







Thay đổi kích thước ảnh thành 64x64
Đổi ảnh màu sang ảnh xám
Đổi ảnh xám sang vector ảnh
Thường hóa các vector ảnh sao cho chúng có trung
bình 0 và độ lệch chuẩn 1
Giãn cường độ sáng

trong đó xji là mẫu thứ i trong lớp thứ j, µj là trung bình
của lớp j, c là số các lớp, và Nj là số các mẫu trong lớp
j.
Định nghĩa 2. Ma trận phân tán liên-lớp, kí hiệu là Sb ,
được định nghĩa bởi:
c

Sb =


III. TRÍCH XUẤT THUỘC TÍNH
Phần này mơ tả cách thức hoạt động của các phương
pháp trích xuất thuộc tính (PCA và LDA).
A. Không gian PCA
Cho trước một ma trận dữ liệu X trong khơng gian
N -chiều trong đó mỗi vector cột xi , i = 1, 2, . . . , M biểu
diễn một ảnh (nói cách khác, cơ sở dữ liệu ảnh có M ảnh,
mỗi ảnh có N điểm ảnh), Phân Tích Thành Phần Chính
(PCA) có thể được sử dụng để tìm một khơng gian con
mà các vector cơ bản của nó tương ứng với các hướng
phương sai tối đa trong không gian ban đầu. Để giai đoạn
nhận dạng theo sau giai đoạn trích xuất thuộc tính mạnh
hơn, chúng tơi đã thực hiện một số thay đổi sau:




Thứ nhất, vector ảnh xi được chuẩn hoá sao cho
||xi || = 1 để đảm bảo hệ thống không bị ảnh hưởng
bởi cường độ ánh sáng chiếu vào.
Thứ hai, các ảnh đã được chuẩn hố sẽ bị trừ đi trung
bình của tất cả các vector được chuẩn hoá để đảm
bảo rằng các eigenvectors ứng với các eigenvalues
lớn nhất biểu diễn các hướng trong eigenspace cùng
với phương sai của tất cả vector là tối đa về phương
x, trong đó ¯
x là vector
diện tương quan, xi := xi − ¯
ảnh trung bình.


Khi triển khai thuật tốn PCA, chúng tơi rút ra một vài
nhận xét sau:




Tập trung vào việc biểu diễn thơng tin hơn là phân
loại, do đó nó tối ưu hơn cho việc biểu diễn.
Nhạy với các thay đổi về tư thế của đầu, vị trí, và
biểu cảm của mặt.
Kết quả nhận dạng khuôn mặt được tối ưu khi ba
eigenvector đầu tiên không được sử dụng (dường
như chúng được dùng để biểu diễn sự thay đổi độ
sáng) [9], nhưng nếu xoá chúng đi, kết quả nhìn chung
là giảm.

B. Khơng gian PCA-LDA
LDA tìm các vector trong không gian mà phân chia rõ
nhất các lớp (chứ không phải là mô tả dữ liệu tốt nhất
giống như của PCA).
Định nghĩa 1. Với một dữ liệu X cho trước, ma trận phân
tán cùng-lớp, kí hiệu là Sw , được định nghĩa như sau:
c

Nj

Sw =
j=1 i=1

j=1


(µj − µ)(µj − µ)T

trong đó µ biểu diễn trung bình của tất cả các lớp.
Mục tiêu của LDA là tìm các hướng mà tối đa giá trị
phân tán liên-lớp đồng thời tối thiểu giá trị phân tán cùng||W Sb W T ||
. Cần lưu
lớp. Tức là, tìm W mà tối thiểu được ||W
Sw W T ||
ý rằng:
• Cần ít nhất N + c mẫu để đảm bảo rằng ma trận Sw
không là ma trận đơn. Tuy nhiên vì N rất lớn (với cỡ
ảnh 64×64 trong hệ thống của chúng tơi, N = 4096)
nên điều này trở nên không khả thi đối với các ứng
dụng thời gian thực.
• Một hệ thống LDA thuần thường thể hiện không tốt
lắm khi thử các mẫu thử khơng có trong cơ sở huấn
luyện.
Một vài kĩ thuật đã được đề xuất để giải quyết vấn đề
này. Trong [10], PCA được dùng làm không gian trung
gian. Không gian N -chiều ban đầu trước tiên được chiếu
xuống không gian I-chiều của PCA. Kĩ thuật này do đó
được gọi là Phân Tích Khác Biệt của Thành Phần Cơ Bản
trong nhận diện khuôn mặt. Ý tưởng kết hợp PCA và LDA
là để tận dụng tính chất lưu giữ đặc trưng dữ liệu của PCA
và tính chất phân biệt dữ liệu của LDA.
IV. NHẬN DẠNG SỬ DỤNG SVM
Trong đề tài này, SVM dựa trên hàm nhân Linear và
hàm nhân RBF được xây dựng và được tiến hành thực
nghiệm dựa trên bộ công cụ LIBSVM [11]. Trước tiên,

khái lược lý thuyết cơ bản về SVM trong bài tốn phân
loại nhị phân được trình bày [12]. Sau đó, kỹ thuật này
được mở rộng để giải quyết bài toán phân loại nhiều lớp
và áp dụng vào nhận diện khn mặt.
A. SVM trong bài tốn phân loại nhị phân
SVM là một giải thuật máy học dựa trên lý thuyết học
thống kê do Vapnik và Chervonenkis xây dựng. Bài toán
cơ bản của SVM là bài toán phân loại nhị phân. Cho tập
mẫu xi , yi , i = 1, 2, . . . , N trong đó xi ∈ RD và yi ∈
{1, −1}N , mục tiêu của thuật tốn SVM là tìm một siêu
phẳng phân cách sao cho khoảng cách lề giữa hai lớp đạt
cực đại. Tức là chúng ta cần tìm siêu phẳng H : w·x+b =
0 và hai siêu phẳng hỗ trợ H1 , H2 song song với H và có
cùng khoảng cách đến H. Với điều kiện khơng có phần
tử nào của tập mẫu nằm giữa H1 và H2 , khi đó:
w · xi + b ≥ +1 với yi = +1
w · xi + b ≤ −1 với yi = −1

(xji − µj )(xji − µj )T

331

331


Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

C. Tối ưu hóa tham số của SVM

Trong phạm vi của bài báo này, tham số cần cho hàm
nhân Linear là C. Đối với hàm nhân RBF, hai tham số
cần được tối ưu là C và γ. Quy trình cross-validation
được sử dụng để tìm các thơng số tối ưu bởi vì nó có
thể ngăn cản vấn đề overfitting. Trong quy trình k-fold
cross-validation, tập huấn luyện sẽ được chia thành k
tập con có cùng kích thước. Lần lượt, từng tập con sẽ
được thử với máy phân loại đã được huấn luyện dựa trên
k − 1 tập con còn lại. Do đó, mỗi mẫu trong tập huấn
luyện đều sẽ được kiểm tra một lần nên độ chính xác
của cross-validation chính là phần trăm của dữ liệu được
phân loại đúng. Trong thực tế, k được chọn là 5, còn
C và γ được chọn bằng thuật tốn đơn giản tìm lưới
(grid search), cụ thể là log2 C ∈ {−5, −4, . . . , 15} và
log2 γ ∈ {−15, −14, . . . , 3} [16], [17], [18].

Hình 2. Minh hoạ thuật toán SVM
2
Khoảng cách lề giữa hai lớp là ||w||
. Ta cần tìm siêu
phẳng H với lề lớn nhất, tức là giải bài tốn tối ưu tìm
minw,b ||w|| với điều kiện yi (w · xi + b) ≥ 1. Tuy nhiên
cách làm như trên (được gọi là tìm lề cứng) chỉ thực hiện
được khi tập mẫu hoàn toàn phân tách tuyến tính được.
Đối với những tập dữ liệu nhiễu, sẽ trường hợp có một
vài mẫu khơng phân lớp được nếu vẫn sử dụng lề cứng.
Trong trường hợp này, lề mềm nên được tìm thay lề cứng.
Sử dụng tốn tử Lagrange cùng với một vài phép biến đổi,
vector pháp tuyến w được biểu diễn như sau:


V. ĐÁNH GIÁ
Trong bài báo này, hệ thống nhận diện khuôn mặt được
đánh giá dựa trên ba tập cơ sở dữ liệu, với hai mơ hình
huấn luyện và ba kịch bản kiểm tra. Cuối cùng hiệu suất
nhân dạng và độ tin cậy của hệ thống được so sánh theo
các trường hợp sau:
• Sự kết hợp giữa PCA và Linear SVM
• Sự kết hợp giữa PCA và RBF SVM
• Sự kết hợp giữa PCA-LDA và Linear SVM
• Sự kết hợp giữa PCA-LDA và RBF SVM

N

yi αi xi

w=
i=1

A. Cơ sở dữ liệu

Thuật tốn SVM có thể được mở rộng cho trường hợp
tập mẫu khơng thể phân tách tuyến tính bằng cách ánh
xạ tập mẫu lên một khơng gian có số chiều lớn hơn bằng
cách sử dụng một hàm nhân K. Một số hàm nhân hay
được sử dụng đó là:
Linear
K(xi , xj ) = xTi xj
Polynomial
K(xi , xj ) = (γxTi xj + r)d , γ > 0
Radial Basic Function (RBF)

K(xi , xj ) = exp(−γ||xi − xj ||2 ), γ > 0
Sigmoid
K(xi , xj ) = tanh(γxTi xj + r)







B. SVM trong bài tốn phân loại nhiều lớp

Grimace [19]: từ 18 người, mỗi người gồm 20 ảnh
với góc chụp cố định là nhìn thẳng. Các bức ảnh mơ
tả mức độ tăng dần về cảm xúc và biểu cảm khuôn
mặt. Các sự thay đổi khác là không đáng kể.
Sheffield [20]: có tổng cộng 573 ảnh được chụp từ 20
người (đa dạng về chủng tộc/giới tính/vẻ bề ngồi).
Tập ảnh của mỗi người có sự thay đổi chủ yếu về
góc lệch giữa khuôn mặt và máy chụp theo phương
ngang.
Extended YaleB (YaleB+) [21]: bài báo này chỉ sử
dụng 1538/5760 ảnh của 10 đối tượng với sự khác
biệt đáng kể về điều kiện chiếu sáng, tư thế mặt thay
đổi rất ít.

B. Mơ hình huấn luyện và kịch bản kiểm tra

Có vài phương pháp giúp mở rộng SVM cho bài toán
phân loại nhiều lớp. Hai trong số đó là One-Against-One

(OAO) và One-Against-All (OAA). Đối với OAA, để giải
quyết một bài toán phân loại q-lớp với SVM, q SVM sẽ
được huấn luyện. Mỗi SVM sẽ phân chia một lớp với tất
SVM
cả các lớp còn lại [12], [13]. Đối với OAO, q(q−1)
2
sẽ được huấn luyện khi ta cần phân loại q lớp. Mỗi SVM
sẽ lần lượt phân chia một cặp hai lớp.
Trong cơng trình nghiên cứu này, OAO SVM được chọn
để phân loại khn mặt người vì phương pháp OAO dường
như tốn nhiều thời gian hơn phương pháp OAA nhưng lại
cho độ chính xác cao hơn [14], [15].

Hệ thống được huấn luyện dưới hai mơ hình được gọi là
Clean model (CM) và Noisy model (NM). CM bao gồm
các ảnh khn mặt nhìn thẳng và khn mặt khơng có
biểu cảm. NM bao gồm các ảnh khn mặt có sự thay đổi
về góc nhìn so với máy chụp và các khn mặt có sự biểu
cảm. Với mỗi mơ hình huấn luyện, hệ thống được kiểm tra
dưới ba kịch bản: Well-Matched (WM), Medium-Matched
(MM) and Highly-Mismatched (HM). Dữ liệu kiểm tra
WM là một tập các ảnh tương tự với các ảnh huấn luyện.
Dữ liệu kiểm tra MM bao gồm các ảnh có sự khác biệt
một phần về biểu cảm và tư thế khuôn mặt so với các ảnh

332

332



Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

MA

Bảng I

Bảng II
KẾT QUẢ RECALL (%)

TRẬN PHÂN LOẠI CHO HAI LOẠI ĐỐI TƯỢNG

Trạng thái

Loại đối tượng

Cho phép

Từ chối

Không thẩm quyền (N)

False (F)

True (T)

Có thẩm quyền (P)

True (T)


False (F)


sở
dữ
liệu

huấn luyện. Với trường hợp HM, tập ảnh kiểm tra bao gồm
các ảnh về biểu cảm và tư thế có sự khác biệt rất lớn so
với tập ảnh huấn luyện.
C. Tiêu chí đánh giá

Kịch
bản
kiểm
tra

PCA kết
hợp RBF
SVM

PCA
kết
hợp
Linear
SVM

PCA-LDA
kết

hợp
RBF
SVM

PCA-LDA
kết
hợp
Linear
SVM

CM

NM

CM

NM

CM

NM

CM

NM

Grimace

WM
MM


96
97

40
82

100
97

100
100

100
97

100
100

100
97

100
100

Sheffield

MM
HM


86
64

100
100

83
64

100
100

79
31

100
90

95
74

100
100

100
99

18
27


100
99

18
27

100
92

93
89

100
92

100
97

31

25

27

25

6

84


5

96

WM
YaleBMM
ext
HM

Để đánh giá sự hiệu quả của hệ thống, ba đại lượng
được sử dụng đó là : Recall, Equal Error Rate (EER) và
Accuracy (ACC).
1) Recall: đại lượng này được sử dụng khi một phần
của cơ sở dữ liệu được dùng cho việc huấn luyện, phần
còn lại được dùng cho việc kiểm tra. Tập ảnh kiểm tra sẽ
khơng có sự hiện diện của các bức ảnh chứa khuôn mặt
lần nhận diện đúng
của những người lạ. Recall = Số
Tổng số lần nhận diện
2) EER: : Với sự xuất hiện của người lạ, hệ thống sẽ
sử dụng một chỉ số gọi là ngưỡng (threshold) để quyết
định người đó có được chấp nhận hay không. Bảng I là
ma trận phân loại cho hai loại đối tượng với P đại diện
cho người khơng có thẩm quyền và N đại diện cho người
có thẩm quyền. Dựa vào bảng I, số lần người khơng có
thẩm quyền được hệ thống cho qua là FN. Tương tự, ta
rút ra định nghĩa của TN, TP, và FP. Tỉ lệ chấp nhận sai
(FAR - False Acceptance Rate) là tỉ lệ một người khơng
có thẩm quyền bị chấp nhận sai bởi hệ thống. Tỉ lệ từ
chối sai (FRR - False Rejection Rate) là tỉ lệ một người

có thẩm quyền bị từ chối bởi hệ thống. FAR và FRR được
tính theo cơng thức:

a) Sự phụ thuộc vào thuật tốn trích xuất thuộc tính:
Đối với tập cơ sở dữ liệu đơn giản nhất là Grimace, PCA
và PCA-LDA cho hiệu quả cao và gần như tương đương.
Đối với tập dữ liệu có sự thay đổi đáng kể về góc khn
mặt (Sheffield), PCA vẫn cho kết quả cao nhưng PCALDA cho kết quả tốt hơn. Đối với tập cơ sở dữ liệu phức
tạp nhất (Extended Yale B), khi có sự thay đổi khắc nghiệt
về điều kiện chiếu sáng, PCA-LDA cho thấy sự vượt trội
hoàn toàn so với PCA. Kết quả kiểm tra của PCA-LDA
với NM là rất cao trong khi kết quả của PCA là rất thấp.
b) Sự phụ thuộc vào hàm nhân: Dựa vào các kết
quả thể hiện trên bảng II, rõ ràng rằng Linear SVM cho
độ chính xác cao hơn so với RBF SVM trong hầu hết các
trường hợp. Đặc biệt, sự kết hợp giữa PCA-LDA và Linear
SVM tạo ra hệ thống tốt nhất bởi vì nó cho kết cả cao
nhất gần như trong tất cả các trường hợp.
PCA, linear, grimace, Noisy Model, WM, 1, 0, 0.98095, 0.016667

1

FN
FP
, F AR =
F RR =
TP + FP
TN + FN

FAR

FRR

0.9
0.8

Với các ngưỡng khác nhau, FAR và FRR sẽ cho các giá
trị tương ứng. EER được định nghĩa là giao điểm của hai
đường FAR và FRR.
3) ACC: ACC là tỉ lệ mà hệ thống nhận diện đúng các
đối tượng. Nó được tính theo cơng thức:
ACC =

Hệ thống

0.7

Error

0.6
0.5
0.4
0.3

TP + TN
TP + FP + TN + FN

0.2
0.1

D. Kết quả và phân tích


0

1) Với mục đích nhận dạng: Đầu tiên, mức độ hiệu quả
của bốn hệ thống được xem xét khi nhu cầu của người
dùng là để xác định đúng danh tính của những đối tượng
có trong cơ sở dữ liệu (khơng có sự tấn cơng của người
lạ). Bảng II trình bày tỉ lệ nhận dạng đúng khi hệ thống
được thử trên ba tập cơ sở dữ liệu với độ khó tăng dần.

0

0.1

0.2

0.3

0.4

0.5
Threshold

0.6

0.7

0.8

0.9


1

Hình 3. EER của PCA-Linear SVM được kiểm tra với Grimace-NM-WM
(số cuối cùng, EER = 0.016)

c) Sự phụ thuộc vào mơ hình huấn luyện: Trong bài
báo này, sự hiệu quả của bốn hệ thống được nghiên cứu

333

333


Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Bảng III
KẾT QUẢ EER

PCA−LDA, linear, grimace, Noisy Model, WM, 1, 0.11667, 1, 0

1

FAR
FRR

0.9



sở
dữ
liệu

0.8
0.7

Error

0.6

Kịch
bản
kiểm
tra

Hệ thống
PCA kết
hợp RBF
SVM

PCA
kết
hợp
Linear
SVM

PCA-LDA
kết
hợp

RBF
SVM

PCA-LDA
kết
hợp
Linear
SVM

CM

CM

CM

CM

0.5
0.4
0.3
0.2
0.1
0

0

0.1

0.2


0.3

0.4

0.5
Threshold

0.6

0.7

0.8

0.9

1

Hình 4. EER của PCA-LDA-Linear SVM được kiểm tra với GrimaceNM-WM (số cuối cùng, EER = 0)

dựa trên hai mơ hình huấn luyện là CM và NM. Các kết
quả thu được cho thấy rằng tỉ lệ nhận dạng của NM tốt
hơn so với tỉ lệ nhận dạng của CM. Điều này là hợp lý
bởi vì với NM, hệ thống được học với các ảnh huấn luyện
có sự thay đổi đa dạng. Tuy nhiên, cần lưu ý rằng PCA
dường như hoạt động rất tốt với CM. Khi được kiểm tra
với tập cơ sở dữ liệu khó nhất là Extended Yale B, PCA
ln mang lại hiệu suất nhận dạng cao hơn đối với trường
hợp sử dụng CM. Trong một vài trường hợp, cụ thể là khi
các ảnh kiểm tra thuộc tập WM và MM được sử dụng
để kiểm tra CM của tập cơ sở dữ liệu Extended Yale B,

PCA thậm chí vượt trội so với PCA-LDA. Sau khi xem
xét các phân tích trên, một đề xuất được nêu ra đó là PCA
thích hợp cho các tập cơ sở dữ liệu đơn giản: khơng có
sự thay đổi khắc nghiệt về điều kiện chiếu sáng và có số
lượng ít các ảnh của mỗi đối tượng. Cơng trình nghiên
cứu trong [22] có thể phần nào chứng minh được đề xuất
này.
2) Với mục đích bảo mật: Mức độ hiệu quả mà hệ
thống có thể mang lại được xem xét khi có sự hiện diện
của những đối tượng lạ khơng có trong cơ sở dữ liệu.
EER và ACC được dùng để đánh giá độ tin cậy của các
hệ thống.
a) Sự phụ thuộc vào thuật tốn trích xuất thuộc tính:
Các hệ thống sử dụng PCA hoạt động khá tốt với tập
Grimace và Sheffield. Chúng cho kết quả EER thấp và
hiệu suất nhận dạng cao khi được thử với NM. Với cơ sở
dữ liệu lớn có sự thay đổi khắc nghiệt về điều kiện chiếu
sáng (Extended YaleB), PCA tỏ ra không đáng tin cậy.
Các hệ thống sử dụng PCA chỉ cho kết quả EER thấp và
hiệu suất nhận dạng cao khi tập ảnh kiểm tra WM và MM
được thử với CM. Kết quả trong bảng III và bảng IV một
lần nữa củng cố đề xuất rằng PCA chỉ nên được sử dụng
cho các tập dữ liệu khơng có những sự thay đổi lớn và
những tập dữ liệu có số lượng ảnh nhỏ. Ngược lại, các
hệ thống sử dụng PCA-LDA thì ổn định và đáng tin cậy.
Chúng hoạt động tốt với cả ba tập cơ sở dữ liệu. Trong

334

NM


NM

NM

NM

Grimace

WM
MM

0.13 0.51
0.10 0.26

0.02 0.02
0.05 0.03

0.00 0.00
0.04 0.00

0.05 0.00
0.17 0.01

Sheffield

MM
HM

0.27 0.16

0.36 0.16

0.25 0.11
0.40 0.16

0.28 0.00
0.50 0.08

0.25 0.22
0.55 0.25

WM
YaleBMM
ext
HM

0.02 0.57
0.12 0.66

0.00 0.55
0.13 0.66

0.00 0.09
0.33 0.12

0.02 0.05
0.23 0.16

0.58 0.60


0.59 0.60

0.55 0.18

0.33 0.18

Bảng IV
KẾT QUẢ ACC (%)

sở
dữ
liệu

Kịch
bản
kiểm
tra

Hệ thống
PCA kết
hợp RBF
SVM

PCA
kết
hợp
Linear
SVM

PCA-LDA

kết
hợp
RBF
SVM

PCA-LDA
kết
hợp
Linear
SVM

CM

NM

CM

NM

CM

NM

CM

NM

Grimace

WM

MM

88
91

37
82

98
95

98
95

100
97

100
100

96
83

100
99

Sheffield

MM
HM


74
63

85
84

74
59

88
86

83
53

100
95

77
42

80
76

WM
YaleBMM
ext
HM


98
88

42
34

100
87

46
32

100
73

94
88

98
78

95
84

42

41

42


40

37

82

71

82

hầu hết các trường hợp, PCA-LDA cho kết quả EER và
độ chính xác tốt hơn so với PCA. Hình 3 và hình 4 minh
họa cho các kết quả này.
b) Sự phụ thuộc vào hàm nhân: Linear SVM cho
thấy hiệu quả tốt hơn so với RBF SVM khi chúng được
kết hợp với PCA. Tuy nhiên, RBF SVM lại cho kết quả
EER và độ chính xác tốt hơn so với Linear SVM khi chúng
kết hợp với PCA-LDA. Hệ thống sử dụng PCA-LDA và
RBF SVM cũng là hệ thống đáng tin cậy nhất trong tất cả
bốn hệ thống. Với yêu cầu về tính bảo mật, PCA-LDA và
RBF SVM vượt trội hơn so với hệ thống sử dụng PCALDA và Linear SVM.
c) Sự phụ thuộc vào mơ hình huấn luyện: Tương tự,
các kết quả trong bảng III và bảng IV một lần nữa cho
thấy NM nổi trội hơn so với CM khi độ tin cậy của các
hệ thống được xét đến.

334


Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)


Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

VI. KẾT LUẬN

[4]

Một vài hệ thống nhận dạng khuôn mặt đã được xây
dựng bằng việc kết hợp các phương pháp trích xuất thuộc
tính và các hàm nhân trong khối nhận dạng. Các hệ thống
này được kiểm tra với nhiều cơ sở dữ liệu ảnh dưới nhiều
mức độ khác nhau của yêu cầu an ninh. Khi hiệu suất nhận
dạng được ưu tiên, sự kết hợp PCA-LDA và Linear SVM
là hệ thống tốt nhất, theo sau là PCA-LDA và RBF SVM.
Tuy nhiên, khi sự tin cậy của hệ thống được ưu tiên, hệ
thống sử dụng PCA-LDA và RBF SVM vượt trội hệ thống
sử dụng PCA-LDA và Linear SVM. Trong ứng dụng thời
gian thực, mục đích và mơi trường sử dụng của hệ thống
nhận dạng khuôn mặt cần được xem xét kĩ lưỡng. Tuy
nhiên, trong thí nghiệm này, hệ thống sử dụng PCA-LDA
và RBF SVM được đề xuất, với những điều kiện về cơ sở
dữ liệu và yêu cầu cho trước. Về mặt tính chất của hình
ảnh, hệ thống đã nêu có thể xử lí được những thay đổi về
điều kiện chiếu sáng, tư thế mặt, và biểu cảm khuôn mặt.
Thời gian kiểm tra là rất ngắn trên máy tính cá nhân, do
đó hệ thống có thể đáp ứng được yêu cầu của một ứng
dụng thời gian thực.
Mục tiêu cuối cùng của bài báo này là xây dựng được
một hệ thống nhận dạng khuôn mặt hiệu quả và đáng tin
cậy với thành phần cốt lõi là SVM. Một vài khó khăn cần

phải vượt qua là: a) nghiên cứu thêm về các phương pháp
trích xuất thuộc tính khác: PCA-LDA hoạt động có hiệu
quả, nhưng nó là phương pháp cơ bản. b) nghiên cứu bản
chất của SVM: trong bài báo này, SVM được dùng như
một công cụ với các tham số. Trong tương lai, cần xem
xét việc sử dụng các hàm nhân mới.
TÀI LIỆU

[5]

[6]

[7]

[8]
[9]
[10]

[11]
[12]
[13]

[14]
[15]

[16]

THAM KHẢO

[1] Juneja, Komal, An improvement on face recognition rate using local

tetra patterns with support vector machine under varying illumination conditions, IEEE Computing, 2015 International Conference
on Communication & Automation (ICCCA), India, pp. 1079 –
1084, May 2015.
[2] Jia Jun Zhang, Yu Ting Shi, Face recognition systems based on
independent component analysis and support vector machine,
IEEE 2014 International Conference on Audio, Language and
Image Processing (ICALIP), Shanghai, pp. 296 – 300, July 2014.
[3] F.Ahmad Bhat, M. Arif Wani, Gabor wavelet based face recognition
under varying lighting, pose and expression conditions, IEEE
2015 2nd International Conference on Computing for Sustainable
Global Development (INDIACom), New Delhi, pp. 1314 – 1318,
March 2015.

335

[17]
[18]

[19]
[20]
[21]
[22]

335

G. Majumder, M. K. Bhowmik, Gabor-Fast ICA Feature Extraction
for Thermal Face Recognition Using Linear Kernel Support Vector
Machine, IEEE 2015 International Conference on Computational
Intelligence and Networks (CINE), Bhubaneshwar, pp. 21 – 25,
Jan. 2015.

Chengliang Wang, Libin Lan, Yuwei Zhang, and Minjie Gu, Face
Recognition Based on Principal Component Analysis and Support Vector Machine, IEEE 2011 3rd International Workshop on
Intelligent Systems and Applications (ISA), Wuhan, pp. 1 – 4,
May 2011.
S. L. Happy, A. Routray, Robust facial expression classification
using shape and appearance features, IEEE 2015 Eighth International Conference on Advances in Pattern Recognition (ICAPR),
Kolkata, pp. 1 – 5, Jan. 2015.
Abdulrahman, Muzammil, Eleyan, and Alaa, Facial expression recognition using Support Vector Machines, IEEE Signal Processing
and Communications Applications Conference (SIU), 2015 23th,
Malatya, Turkey, pp. 276 – 279, May 2015.
M. Turk and A. Pentland, Eigenface for Recognition, Journal of
Cognitive Neuroscience, vol. 3, no. 1, pp. 71-86, 1991.
A. Pentland, T. Starner, N. Etcoff, N. Masoiu, O. Oliyide, and M. Turk,
Experiments with Eigenfaces, Proc. Looking at People Workshop
Int’l Joint Conf. Artificial Intelligence, Aug. 1993.
P. N. Belhumeror, J.P. Hespanha, and D.J. Kriegman, Eigenfaces vs.
Fisherfaces: Recognition Using Class Specific Linear Projection,
IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 19,
no. 7, pp. 711-720, 1997.
LIBSVM – A Library for Support Vector Machines, [online]. Available: />C. Cortes and V. Vapnik, “Support vector networks,” Machine
Learning, 1995
B. Scholkopf, C. Burges, and V. Vapnik. Extracting support data for a
given task in U. Fayyad and R. Uthurusamy, editors, Proceedings
of the First International Conference on Knowledge Discovery and
Data Mining, Menlo Park, CA, 1995. AAAI Press.
Ben Aisen, A Comparison of Multiclass SVM Methods, December 15,
2006.
R. Kyle Eichelberger, Victor S. Sheng, Does One-Against-All or OneAgainst-One Improve the Performance of Multiclass Classifications?, Proceedings of the Twenty-Seventh AAAI Conference on
Artificial Intelligence.
Carl Staelin, Parameter selection for support vector machines, HP

Laboratories Israel, November 2003.
Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin, A practical
guide to support vector classification, April 2010.
Zhigang Yan, Yuanxuan Yang and Yunjing Ding, An experimental
study of the hyper-parameters distribution region and its optimization method for support vector machine with Gaussian Kernel,
International Journal of Signal Processing, Image Processing and
Pattern Recognition, Vol.6, No.5 (2013), pp.437-446, 2013.
Essex Grimace Database, [Online]. Available: .
uk/mv/allfaces/grimace.html
Sheffield Face Database, [Online]. Available:.
uk/eee/research/iel/research/face
Extended Yale B Database, [Online]. Available: ion.
ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html
Aleix M. MartoAnez and Avinash C. Kak, PCA versus LDA, IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol.
23, no. 2, pp. 228-233, February 2001.



×