Tải bản đầy đủ (.pdf) (30 trang)

Nghiên cứu công nghệ nhận diện khuôn mặt dựa trên kỹ thuật phân tích mống mắt (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.01 MB, 30 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------

TÔN LONG TRIỂN

NGHIÊN CỨU CÔNG NGHỆ NHẬN DIỆN KHUÔN
MẶT DỰA TRÊN KỸ THUẬT PHÂN TÍCH
MỐNG MẮT
Chuyên ngành: KỸ THUẬT VIỄN THÔNG
Mã số: 60.52.02.08
TÓM TẮT LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2016


Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS. NGUYỄN THANH BÌNH
Phản biện 1:
…………………………………………………………………
Phản biện 2:
…………………………………………………………………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ
tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng....... .. năm 2016
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

LỜI CAM ĐOAN




1
MỞ ĐẦU

Công nghệ sinh trắc học là công nghệ sử dụng những
thuộc tính vật lý, đặc điểm sinh học riêng của mỗi cá thể như
vân tay, mống mắt, khuôn mặt... để nhận diện. Trong đề tài này
sẽ tập trung nghiên cứu công nghệ sinh trắc học và phương
pháp nhận dạng các cá thể dựa vào đặc điểm riêng biệt của
mống mắt, đề tài có xử nhiều thuật toán để xử lý ảnh và trích
xuất những đặc trưng từ hình ảnh mống mắt và từ đó xây dựng
các mô hình cụ thể để thực hiện quá trình huấn luyện các mẫu
mống mắt có sẵn và lưu trữ vào cơ sở dữ liệu. Trong luận văn
tác giả thực hiện mô phỏng hai phương pháp nhận dạng và qua
đó kiếm tra độ chính xác của kết quả và tính tối ưu của từng
thuật toán.

Chương 1 - TỔNG QUAN

1.1. Giới thiệu chung đặc điểm sinh trắc học của mắt
1.1.1 Hệ xác thực
1.1.2 Nhận dạng
1.1.3 Các thành phần chức năng chủ yếu


2
1.1.4 Đánh giá hiệu năng và chất lượng hoạt động của hệ
sinh trắc học
1.2 Các phương pháp tiền xử lý trích đặc trưng của mống

mắt
1.2.1 Phân đoạn ảnh
1.2.1.1 Biến đổi Daugman
Biến đổi Daugman sử dụng một toán tử vi tích phân với
mục đích định vị vòng tròn của mống mắt và vòng tròn của con
ngươi cũng như vòng cung của mí mắt trên và dưới. Các toán
tử vi tích phân được định nghĩa là:

max(r,x

0 ,y0 )

G (r)*


r



x0 , y0

I (x,y)
ds
2 r

(1.1)

1.2.2 Chuẩn hóa ảnh
1.2.2.1 Mô hình Daugman’s Rubber Sheet
Mô hình đồng nhất được phát minh bởi Daugman [1] để

thực hiện ánh xạ mỗi điểm trong mống mắt từ không gian tọa
độ Đề cát sang không gian tọa độ cực. Mỗi điểm ảnh sẽ được
đặc trưng bởi cặp tọa độ (r, θ) trong đó r nằm trong khoảng [0,
1] và góc θ nằm trong khoảng [0,2π] (hình 1.2).


3

Hình 1.2: Mô hình Daugman’s Rubber Sheet

Thực hiện ánh xạ các vùng của mống mắt từ tọa độ Đề
cát sang hệ tọa độ cực chuẩn để biễu diễn ảnh mống mắt theo
như mô hình:
I (x(r, ), y(r, ))  I (r, )

(1.2)

Ở đây (x, y) là tọa độ hình ảnh của mống mắt, (x, y) là
tọa độ Đề cát, (r, θ) là tọa độ cực tương ứng. Tọa độ của con
ngươi và mống mắt được ranh giới theo hướng θ. Các vùng ảnh
trong mô hình Daugman’s Rubber Sheet sẽ chứa thông tin về
các vùng cong của con ngươi với kích thước không đồng nhất
để cung cấp một các mẫu chuẩn với kích thước không đổi.
Bằng cách này, các vùng mống mắt được mô hình hóa như một
tấm "cao su" linh hoạt tại ranh giới với trung tâm con ngươi là
điểm tham chiếu.
1.2.3 Quá trình mã hóa đặc trưng
Để quá trình nhận dạng các cá thể được thực hiện chính
xác, cần thực hiện trích trọn các đặc trưng quan trọng nhất từ



4
các mẫu mống mắt. Các đặc trưng quan trọng của mống mắt
được mã hóa sao cho việc so sánh giữa các mẫu có thể thực
hiện nhanh chóng và chính xác.
1.2.3.1 Mã hóa Wavelet
Wavelet có thể sử dụng để phân tích những dữ liệu trong mống
mắt thành 2 phần với các mức độ phân giải khác nhau.
1.2.3.2 Bộ lọc Gabor
Bộ lọc Gabor được dùng để cung cấp tối ưu các đại diện
của tín hiệu trong không gian và tần số phân tập. Một bộ lọc
Gabor được xây dựng bằng các điều chế sóng sin với một hàm
Gaussian. Kết quả có thể cung cấp tối ưu định vị kết hợp trong
cả không gian và thời gian. Daugman sử dụng phiên bản 2D
của bộ lọc gabor theo thứ tự để mã hóa các mẫu mống mắt và
bộ lọc Gabor 2D được biểu diễn như sau [1]:

G( x , y )  e

2
  x  x0  / a2 ( y  y0 )2 /  2  2 i u  x  x   v ( y  y )
0
0
0 


 0

e


(1.3)

1.2.3.3 Bộ lọc Log-Gabor
Một nhược điểm của bộ lọc Gabor là những điểm đối
xứng chẵn của bộ lọc sẽ có thành phần DC khi băng thông lớn
hơn một octave. Tuy nhiên thành phần DC sẽ có giá trị bằng 0
khi sử dụng bộ lọc Gabor với hàm Gaussian trên không gian


5
Logarithmic, đây chính là bộ lọc Log-Garbor. Đặc tuyến tần số
tương ứng của bộ lọc Log-Gabor được đưa ra bởi công thức
sau:
 (log(f/ f0 ))2 
G( f )  exp 
 2(log( / f ))2 

0


(1.6)

f0 đại diện cho tần số trung tâm, và σ là băng thông của bộ lọc.
1.3 Các nghiên cứu liên quan
Một số đề tài, bài báo được liệt kê dưới đây để đánh giá về
thực trạng nghiên cứu thực tại:
[1] Cơ sở dữ liệu ảnh đen trắng, để xác thực và đo hiệu
năng của thuật toán nhận dạng
[2] Tài liệu đánh giá về phương pháp phân loại dựa vào
based (kernel-based classifer)

[3] [4] Tài liệu nghiên cứu đánh giá về phương pháp
nhận dạng mống mắt kết hợp với kỹ thuật máy vector
(SVM) hỗ trợ và kỹ thuật chuỗi Markov ẩn.


6
1.4 Lý do chọn đề tài
Hiện nay các hệ thống sinh trắc học đã cung cấp việc nhận
dạng cá thể một cách tự động dựa trên một số đặc tính đặc biệt
sở hữu bởi cá thể đó. Các hệ thống sinh trắc học đã được
nghiên cứu và phát triển dựa trên vân tay, khuôn mặt, giọng
nói, chữ viết tay, võng mạc, và một trong những trình bày trong
đề tài này là nhận dạng mống mắt.

Chương 2 - NGHIÊN CỨU GIẢI THUẬT PHÂN
LOẠI VÀ NHẬN DẠNG MỐNG MẮT
2.1 Kỹ thuật phân loại dựa vào khoảng cách Hamming
Khoảng cách Hamming là một thước đo sự giống nhau
giữa hai mẫu tín hiệu số. Sử dụng khoảng cách Hamming của
hai mẫu bit, so sánh với ngưỡng có thể đưa ra quyết định về
mức độ giống nhau giữa hai hình ảnh (mống mắt) vì thế khoảng
cách Hamming có thể được sử dụng trong các hệ thống nhận
dạng.
Khoảng cách Hamming giữa các mẫu bit X và Y là HD,
được định nghĩa như là tổng bit không hợp lệ (tổng của các
XOR giữa X và Y) chia cho N (tổng số bit trong mẫu bit):


7


HD 

1 N
 X (XOR) Yj
N j 1 j

(2.1)

Khoảng cách Hamming là thước đo phù hợp để kết hợp
với thuật toán Daugman, và tính toán khoảng cách Hamming
được thực hiện chỉ với các bit được tạo ra từ vùng mắt đã được
phân biệt [1].
2.2 Kỹ thuật phân loại dựa vào mạng nơron
Mô hình mạng thần kinh nhân tạo nơ-ron trong não đã
được chứng minh hiệu quả của nó trong một số ứng dụng như
phân loại và phân loại, dự đoán, nhận dạng mẫu và kiểm soát.
Một mạng lưới thần kinh nhân tạo bao gồm một nhóm kết nối
của các tế bào thần kinh nhân tạo.
2.3 Đặc điểm của phương pháp phân loại dựa vào kernel
Kỹ thuật SVM ban đầu chỉ giải quyết được các bài toán
với dữ liệu phân tách tuyến tính. Nhưng trong thực tế, dữ
liệu thường không phân tách tuyến tính. Bằng việc sử dụng
hàm kernel, dữ liệu đầu vào sẽ được ánh xạ vào một không
gian đặc trưng có số chiều cao hơn mà ở đó dữ liệu có thể phân
tách tuyến tính và sau đó kỹ thuật SVM được áp dụng [18].


8
2.3.1 Đặc điểm không gian ánh xạ
Chúng ta xem xét hàm ánh xạ không tuyến tính Φ : I =

R2 → F = R3 từ không gian đầu vào I 2 chiều và trờ thành
không gian đặc trưng F với số chiều là 3.
Giả sử chúng ta xem xét một kernel đa thức bậc 2 được định
nghĩa như sau

k( x, y)  (xT y)2

(2.2)

Ở đây x,y thuộc tính R2
Giả sử x = ( x1 , x 2 ) và y = ( y1 , y 2 ) . Vậy hàm kernel được viết
lại như sau:

k ( x , y )  (x1y1  x 2 y 2 )2
 x 21y 21  2 x1y1x 2 y 2  x 2 2 y 2 2

(2.3)

Giải pháp ánh xạ các đặc trưng như vậy các hàm kernel có thể
được viết như sau

k( x, y)  ( x)T ( y)

(2.4)

Chúng có định nghĩa tổng quát hàm ánh xạ đặc trưng như sau:

( x )  (x12 , 2 x1x 2 ,x 22 )

(2.5)


Biến đổi (2.5) chúng ta có được một hàm tuyến tính trong
R3 với dữ liệu được ánh xạ từ không gian 2 chiều R2 :


9
 T ( x )  (1 x12  2 2 x1x2  3 x22 )  0

(2.6)

Hình 2.1: Hình ảnh về không gian ánh xạ
2.3.2 Kernel và những loại kernel khác nhau
Một hàm kernel có thể được suy diễn như phương pháp
đo mức độ giống nhau giữa các đối tượng đầu vào. Trong thực
tế các cặp biến đổi nêu trong bảng 2.1 có thể thích hợp cho hầu
hết các trường hợp chung.
Bảng 2.1: Các Loại hàm kernel khác nhau [18]

Loại Kernel

Kernel nội suy

Ghi chú

K ( x , x i ), i  1,2,..., N

Polynomial
kerel

T


K ( x , x i )  ( x x i   )d

Giá trị mũ d và



được

lựa

chọn bởi người
sử dụng


10
(Gaussian)
radial basis

K ( x,xi )  e



1
2 2

x  xi

2




2

được lựa

chọn bởi người

function kernel

sử dụng
Sigmoid Kernel
Kernels for Set

T

K ( x, xi )  tanh( x x i   )
N N'

K (  ,  )   K ( xi , x )
'

'
j

i 1 j 1

K ( xi , x 'j ) là
hàm kernel của
phần tử trong

không
gian  ,  '

2.4 Kỹ thuật phân loại dựa vào kernel của SVM
Việc phân loại của SVM có thể được sử dụng các hàm
kernel và tùy thuộc vào mục đích.
2.4.1 Optimal Hyperplane (tối ưu siêu phẳng) cho các phân
chia tuyến tính
Cho

Txy  {( xi , yi )},i  1,..., k; xi 

n

; yi  {1, 1}

(2.7)

là tập huấn luyện được chia ra một các tuyến tính. Và giả sử nó
T

tồn tại một siêu phẳng có dạng như sau  xi  b  0

(2.8)


11
Chúng ta có thể chia chúng ra thành những thành phần dương
và âm như sau:
T


voi y  1

T

voi y  1

 xi  b  0
 xi  b  0

(2.9)

T

Hàm quyết định: g ( x)   xi  b (2.10)
Đối với trường hợp g ( x)  0 sẽ được phân loại là âm vì
nó nằm bên dưới bề mặt quyết định và nó sẽ được phân loại
dương nếu g ( x)  0 vì nó nằm trên hoặc phía trên bề mặt quyết
định.
Tuy nhiên, như hình 2.4 minh họa, vẫn còn tồn tại nhiều
cách để tách siêu phẳng. Nó cũng bắt nguồn từ thực tế là một
tập huấn luyện mà ở đó phương trình (2.8) có nhiều hơn 1
nghiệm.


12

Hình 2.4: Hình ảnh về các siêu phẳng có thể có của dữ liệu

Thuật toán biên độ tối đa chỉ đơn giản là tìm kiếm các

siêu phẳng với lề phân cách lớn nhất. Điều này có thể được xây
dựng bởi các ràng buộc sau cho tất cả xi  T
T

 xi  b  0

voi y  1

T

 xi  b  0

voi y  1

(2.11)

Cả hai ràng buộc trên có thể được kết hợp thành một tập
hợp các bất đẳng thức sau :
T

yi ( xi  b)  1  0

(2.12)


13
2.4.2 Tối ưu hóa siêu phằng bằng phương pháp toàn phương
Để giải quyết vấn đề tối đa hóa nguồn gốc trong phần
trước chúng tôi biến nó thành một vấn đề giảm thiểu các hàm
giá trị bậc 2 sau đây

 ( ) 

1 T
 
2

(2.13)

Thay vì tối đa hóa lề, chúng ta giảm thiểu khoảng cách
Ơclit của vector trọng lượng w
Lagrangian được hình thành bằng cách nhân các ràng
buộc bằng số nhân Lagrange tích cực và trừ chúng từ hàm giá
trị. Điều này tạo cho Lagrange sau đây:

Lp (w, b,  ) 

l
T
1 T
   i  yi ( xi  b)  1


2
i 1

(2.14)

Lưu ý, rằng có tồn tại một số nhân Lagrange αi, cho
mỗi xi điểm đào tạo. Trong giải pháp, các điểm đào tạo mà αi>
0 được gọi là "hỗ trợ vector" và nằm trên siêu phẳng H1 hoặc

siêu phẳng H2. Tất cả các điểm dữ liệu khác có αi = 0 và nằm
trên mặt đó của H1 hoặc H2 như vậy không đáp ứng được điều
kiện của phương trình (2.12). Sử dụng số nhân Lagrange tối ưu


14
αi, o chúng ta có thể tính toán các vector trọng lượng tối ưu 0
sử dụng phương trình (2.15) và như vậy ta có:
l

0  i ,0 yi xi

(2.21)

i 1

Bây giờ chúng ta có thể xây dựng siêu phẳng tối ưu như sau:


T

l



l



i 1


 0 x  b0     i ,0 yi xi  x  b0    i ,0 yi xT i x  b0  0 (2.22)
T

 i 1

Tương tự như vậy, hàm quyết định:





 l

g ( x)  sgn  x  b0  sgn  i ,0 yi xT i x  b0 
 i 1

T
0

(2.23)

Để tính được khoảng cách trực giao chuẩn tối ưu từ siêu phẳng
tối ưu đến nguồn, hãy xem xét một vector hỗ trợ tích cực x

(s)

.

Sử dụng vế trái của phương trình (2.22):

T

0 x

(s)

T

 b0  1 Hay b0  1   0 x

(s)

khi

y ( s )  1

2.4.2 Mô hình nhiều lớp SVM
SVM phân loại nhị phân chỉ có thể tách dữ liệu giữa hai
lớp. Để thực hiện tách đa lớp, chúng ta phải đưa các phương
pháp đa lớp cho phân lớp nhị phân.


15

Txy  {( x1 , y1 ), ( x2 y2 ),..., ( xn , yn )}, yi {1,..., k} (2.15)
Hai phương pháp này sẽ được trình bày dưới đây [4]
2.4.2.1 Phương pháp One-Against-All (Một-chống-Tất cả)
(OAA)
Phương pháp OAA biến đổi k vấn đề đa lớp thành vấn
đề lớp nhị phân k. Trong mỗi lớp phân loại nhị phân, nếu chúng

ta chọn dữ liệu thuộc về lớp thứ i là một lớp (+1), dữ liệu các
lớp còn lại được tách ra thành một lớp (-1), đây là cách hàm
phân biệt fi  x  . được thực hiện như. Đối với một mẫu mới x,
chúng ta sử dụng k hàm phân biệt để ước tính [4]:


x ∈{ i } nếu đầu vào là lớp i và đầu ra là giá trị 1



x ∈{loại bỏ} nếu đầu vào các lớp còn lại

2.4.2.2 Phương pháp Một-chống-một (OAA)
Phương pháp OAA biến đổi k đa lớp thành k (k - 1) / 2
lớp nhị phân, mỗi lớp phân loại nhị phân chỉ tách từ lớp thứ i
và từ lớp thứ j (i, j ∈ 1, L k).


16
Chương 3 - KẾT QUẢ MÔ PHỎNG
3.1 Mô phỏng và đánh giá kết quả
3.1.1 Mô phỏng phương pháp phân loại dựa vào khoảng
cánh Hamming
Trong chương này, chúng ta sẽ sử dụng chương trình
mô phỏng để khảo sát hiệu năng của của hệ thống nhận dạng
mống mắt dựa trên cơ sở dữ liệu được tạo ra từ trước. Những
phương pháp kiểm thử được tiến hành để tìm những thông số
tốt nhất, vì vậy tỷ lệ so sánh sai FMR và tỷ lệ chấp nhận sai
FAR phải đạt thấp nhất.
3.1.1.1 Tổng quan về tập dữ liệu và các đặc tính để thực

nghiệm
Tập dữ liệu CASIA Iris (Casia-IrisV1) bao gồm 756 mống
mắt hình ảnh từ 108 mắt.


17
Mô hình nghiên cứu tổng quan: được miêu tả trong Hình 3.1

Hình 3.1: Mô hình nghiên cứu tổng quan

3.1.1.2 Quá trình Tiền xử lý ảnh
Thuật toán Daugman

Hình 3.2: Xác định các đường cong bằng thuật toán daugman


18

Hình 3.3: Hình ảnh của mắt sau khi xác định các thành phần
nhiễu

Chuẩn hóa và Mã hóa các đặc Trưng:
Đề tài sử dụng các bộ lọc 1D Log-Gabor để chuyển đổi
và chuẩn hóa các dữ liệu. Sau đó thực hiện tiếp quá trình mã
hóa các dữ liệu đã được chuẩn hóa và lưu thành các mẫu bít
gồm 9600 bit mã nhị phân, những mẫu bít này lưu những đặc
tính sinh trắc học của mắt được minh họa như trong hình 3.4.
Ngoài ra quá trình chuẩn hóa ảnh và mã hóa ảnh cũng thực hiện
lưu các mẫu bít mặt nạ gồm 9600 bit nhị phân đại diện cho
những mẫu mống mắt sau khi xác định và loại ra những thành

phần nhiễu trong ảnh như hình 3.5.

Hình 3.4: Hình ảnh của mẫu mắt sau khi chuẩn hóa sang tọa độ
cực


19

Hình 3. 5: Hình ảnh sau khi loại bỏ thành phần nhiễu và chuẩn
hóa sang tọa đô cực

3.1.1.3 Quá trình so sánh dựa vào khoảng cách Hamming
Cơ sở dữ liệu hình ảnh CASIA. Tổng cộng 756 * 755/2
= 285390 cặp so sánh cho thuật toán và chỉa ra 2268 cặp để so
sánh các nội lớp hay các mẫu cùng đối tượng, 283122 cặp để so
sánh giữa các ngoại lớp hay các mẫu không cùng một đối
tượng.
3.1.1.4 Mô phỏng và đánh giá kết quả
Mô tả quá trình mô phỏng đánh giá dựa vào phương
pháp khoảng cách Hamming


20

Hình 3.7: Lưu đồ giải thuật của quá trình nhận dạng dựa vào
khoảng cách hamming

Kết quả: quá trình nhận dạng bằng phương pháp Hamming dựa
vào vùng giá trị của FAR và FRR được mô tả bên dưới (hình
3.8).



21

Hình 3. 8 So sánh tỷ lệ FMR và FAR
Bảng 3.1: Đánh giá kết quả của quá trình nhận dạng

Độ chính xác
Kiểm thử lần 1:

98,42 %

Kiểm thử lần 2

98,41 %

Bảng 3.2: Thời gian thực hiện nhận dạng

Các Giai đoạn xử lý ảnh

Ước lượng thời gian thực hiện

Giai đoạn tiền xử lý

3120 giây

Giai đoạn chuẩn hóa và trích 3200 giây
đặc trưng
Giai đoạn tính các khoảng 5400 giây
cách Hamming

Giai đoạn tính toán các xác 100 giây


22
xuất lỗi

Hình 3.9: Mật độ phân bộ của Khoảng các Hamming

Các khoảng cách Hamming đại diện cho hai cấp độ so
sánh giữa các mẫu mắt thuộc cùng đối tượng và giữa các mẫu
không thuộc cùng một đối tượng được thể hiện trong hình 3.9.
3.1.2 Mô phỏng phương pháp phân loại dựa vào SVM
Trong đề tài nay, chúng ta sử dụng Matlab để mô phỏng
và đánh giá các kết quả theo hình vẽ 3.10 bên dưới.


23

Hình 3.10: Sơ Đồ Khối của quá trình phân loại dựa vào SVM

3.1.2.1 Quá Trình tiền xử lý
Mục đích chính của quá trình tiền xử lý là nâng cao chất
lượng ảnh đầu vào, quá trình cũng bao gồm các bước sử dụng
thuật toán Daugman, chuẩn hóa và mã hóa ảnh tương tự như
phương pháp dựa vào khoảng cách Hamming ở mục 3.1.1 trên.
3. 1.2.2 Lựa chọn mô hình
Trong đề tài này, mô hình để mô phỏng là sử dụng RBF
kernel.
3.1.2.3 Thuật toán kiểm thử các giá trị hợp lệ chéo
Cho mỗi kernel chúng ta có 1 hoặc 2 thông số chưa biết,

theo thứ tự chúng ta cần phải tìm ra được thông số tốt nhất


×