Đồ án tốt nghiệp đại học “nghiên cứu xây dựng phần mềm nhận dạng ảnh theo thuật toán PCA, FLD”

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.53 MB, 67 trang )

“Nghiên cứu xây dựng phần mềm nhận dạng ảnh theo thuật tốn PCA,
FLD” cho đồ án tốt nghiệp của mình...........................................................2
LỜI NÓI ĐẦU
Thế giới ngày nay với sự phát triển mạnh mẽ của kỹ thuật số và mạng
toàn cầu, vấn đề đảm bảo an tồn về thơng tin cũng như vật chất trở nên ngày
càng quan trọng và khó khăn. Thỉnh thoảng chúng ta lại nghe nói đến những
vụ đánh cắp thẻ tín dụng, đột nhập trái phép vào các hệ thống máy tính hay
tồ nhà của cơ quan nhà nước, chính phủ. Hơn 100 triệu đơ la là con số đã bị
thất thoát ở Mỹ vào năm 1998 do các vụ gian lận và xâm nhập nói trên (theo
Reuters, 1999). Trong đa số các vụ phạm pháp này, tội phạm đã lợi dụng
những khe hở cơ bản trong quá trình truy cập vào các hệ thống thơng tin và
kiểm sốt. Phần lớn những hệ thống này không thực hiện quyền truy cập của
người sử dụng dựa vào thông tin “chúng ta là ai” mà chỉ dựa vào “chúng ta có
gì”. Nói cách khác, thơng tin mà người sử dụng cung cấp cho hệ thống không
đặc trưng được cho bản thân họ, mà chỉ là những gì họ hiện đang sở hữu như
số chứng minh nhân dân, chìa khố, mật mã, số thẻ tín dụng hoặc họ tên. Rõ
ràng những thơng tin hay vật dụng này khơng mang tính đặc trưng mà chỉ
mang tính xác thực đối với người sử dụng, và nếu chúng bị đánh cắp hay sao
chép thì kẻ trộm hồn tồn có quyền truy nhập, sử dụng dữ liệu hay phương
tiện của chúng ta bất cứ lúc nào họ muốn.
Nhận dạng khn mặt là một trong số ít các phương pháp nhận dạng dựa
vào đặc trưng sinh lý cho kết quả chính xác cao đồng thời rất thuận tiện khi sử
dụng. Hơn nữa, trong số các đặc trưng sinh lý học, khuôn mặt của mỗi người
là yếu tố đầu tiên và quan trọng nhất cho việc nhận biết lẫn nhau cũng như
biểu đạt cảm xúc. Khả năng nhận dạng nói chung và khả năng nhận biết
khn mặt người nói riêng của con người thật đáng kinh ngạc. Chúng ta có
khả năng nhận ra hàng ngàn khn mặt của những người mình đã gặp, đã
giao tiếp trong cuộc sống chỉ bằng một cái nhìn thống qua, thậm chí sau

1

nhiều năm không gặp cũng như những sự thay đổi trên khuôn mặt do tuổi tác,
cảm xúc, trang phục, mầu tóc,…Do đó, việc nghiên cứu các đặc tính của
khn mặt người đã thu hút rất nhiều nhà triết học, nhà khoa học qua nhiều
thế kỷ, trong đó có cả Aristotle và Darwin Chính vì những lý do trên, từ
những năm 1970, nhận dạng mặt người đã thu hút sự quan tâm của nhiều nhà
nghiên cứu trong các lĩnh vực như bảo mật, tâm lý học, xử lý ảnh và thị giác
máy tính.
Nhằm nâng cao hiểu biết của mình về lĩnh vực nhận dạng mặt người nói
riêng và kỹ thuật xử lý ảnh nói chung em nhận đề tài:
“Nghiên cứu xây dựng phần mềm nhận dạng ảnh theo thuật toán
PCA, FLD” cho đồ án tốt nghiệp của mình.
Đề tài đặt ra với mục tiêu:
Nghiên cứu hai phương pháp Principal Component Analysis – PCA,
Fisher’s Linear Discriment – FLD áp dụng cho bài tốn nhận dạng ảnh khn
mặt người và xây dựng ứng dụng nhận dạng ảnh mặt người theo hai phương
pháp này.
Nội dung đồ án tốt nghiệp chia thành 4 chương, 2 phụ lục:
Chương 1: Một số vấn đề cơ bản về xử lý ảnh
Giới thiệu những khái niệm cơ bản về ảnh số, điểm ảnh, biểu diễn ảnh,
ảnh xám, ảnh mầu, cách biến đổi ảnh xám.
Chương 2: Lý thuyết về PCA, FLD
Giới thiệu những nội dung cơ bản của hai phương pháp PCA và FLD và
đưa ra những kết luận chung về hai phương pháp này. Trong phần này Em
cũng giới thiệu những kiến thức toán học liên quan như phương pháp thống
kê trong bài toán nhận dạng mẫu, phép biến đổi tuyến tính, ma trận hiệp sai
và đặc trưng của nó...
Chương 3: Bài tốn nhận dạng ảnh mặt người

2

Giới thiệu về bài toán nhận dạng ảnh mặt người. Nhận dạng ảnh là gì, các
bước của quá trình nhận dạng, các nghiên cứu trước đây về bài toán nhận
dạng ảnh mặt người, đưa ra những khó khăn trong bài toán nhận dạng ảnh mặt
người. Áp dụng thuật toán PCA và FLD cho bài toán nhận dạng ảnh mặt
người.
Chương 4: Cài đặt chương trình nhận dạng ảnh mặt người
Cài đặt chương trình đồng thời thể hiện các bước của quá trình nhận dạng
và giới thiệu ứng dụng đã xây dựng, cách sử dụng.
Kết luận
Những kết luận chung về đồ án, hướng phát triển và đề nghị.
Phụ lục 1,2:
Các công thức toán học dùng trong báo cáo, kết quả và chứng minh tốn
học cho các kết luận.
Trong q trình nhận và thực hiện đồ án của mình Em xin chân thành cám
ơn thầy giáo PGS.TS cùng các thầy cô trong khoa Cơng Nghệ Thơng Tin đã tận tình giúp đỡ để Em hồn thành đồ án tốt nghiệp của mình.

CHƯƠNG 1 : MỘT SỐ VẤN ĐỀ CƠ BẢN VỀ SỬ LÝ ẢNH SỐ
1.1 Một số khái niệm cơ bản

3

 Pixel (picture element - điểm ảnh )
Ảnh trong thực tế là một ảnh liên tục về không gian và giá trị độ sáng.
Quá trình thu nhận ảnh số là q trình số hố ảnh. Đó là quả trình biến đổi
tín hiệu liên tục thành tín hiệu rời rạc. Một ảnh khi được số hoá là tập hợp
các điểm ảnh, nó được biểu diễn bởi mảng 2 chiều I(n,p) trong đó n- số
dịng, p- số cột. Ta nói ảnh gồm nxp điểm ảnh, ký hiệu I(x, y) là giá trị

điểm ảnh tại vị trí dịng y cột x.
 Ảnh đen trắng, ảnh đa mức xám, ảnh màu
 Ảnh đen trắng, ảnh đa cấp xám: gồm 2 màu (đen, trắng), người ta
phân các mức độ (L) đen trắng như sau:
+L=2: ảnh gồm 2 mức, mức 0 ứng với màu tối, mức 1 ứng với màu
sáng. Ảnh này gọi là ảnh nhị phân. Mỗi điểm ảnh được mã hoá trên
1 bit.
+L>2: Ảnh đa mức xám, việc xác định số mức phụ thuộc vào tiêu
chuẩn lượng hoá, L thường được chọn là 32, 64, 126, 256. Thường
sử dụng mức 256, mỗi điểm ảnh được mã hoá bằng 8 bit (28= 256).
 Ảnh màu là ảnh được tổ hợp từ 3 màu cơ bản: Red (đỏ), Green
(xanh lục), Blue (xanh lơ). Mỗi điểm ảnh gồm 3 thành phần màu cơ
bản:R, G, B. Mỗi màu phân thành L cấp khác nhau (L thường là
256). Như vậy để lưu trữ một ảnh màu ta phải lưu trữ 3 lớp màu cơ
bản của ảnh, mỗi lớp màu tương đương với một ảnh đa cấp xám.
Do đó khơng gian lưu trữ ảnh màu lớn gấp 3 lần so với khơng gian
lưu trữ ảnh xám cùng kích thước.

1.2 Biểu diễn ảnh

4

Ảnh số đa mức xám được biểu diễn bằng ma trận 2 chiều f(x,y) trong
đó các phần tử là giá trị điểm màu của ảnh.
f(0,1)
... f(0, N - 1) 
f (0,0)
f(1,0)
f(1,1) ... f(1, N - 1) 



f ( x, y ) =
........



f(M - 1, 0) f(M - 1,1) ... f(M - 1, N - 1)
Như vậy nếu ta có một ảnh kích thước 800x600 thì khi biểu diễn thành
ma trận 2 chiều có số hàng là 600, số cột là 800, mỗi phần tử của ma trận có
giá trị từ 0-255.
Đối với ảnh màu, mỗi phần tử của mảng 2 chiều là một bộ giá trị RGB.
Phần tử f(i,j) của ma trận có dạng
f(i, j)=(B(i, j), G(i, j), R(i, j)).
Giá trị điểm ảnh tại điểm (i, j) được tính:
f(i,j) = h (B(i, j), G(i, j), R(i, j))= B(i,j)*2562 + G(i, j)*256 + R(i, j).
Mơ hình RGB:
Hệ này mơ tả màu sắc thông qua 3 thành phần màu cơ bản là Red, Green và
Blue. Có thể mơ xem xét mơ hình RGB trong khơng gian 3 chiều như hình
1.2.1.
Mọi điểm nằm trong khối hộp chữ nhật có toạ độ (r,g,b) thể hiện một màu.
Màu nằm trên đường chéo (0,0,0) - (1,1,1) (3 thành phần R, G, B bằng nhau)
->thể hiện mức xám.
Blue=(0,0,1)

Cyan=(0,1,1)

Magenta=(1,0,1)

White=(1,1,1)

Green=(0,1,0)

Black=(0,0,0)
Red=(1,0,0)

Yellow=(1,1,0)

5

Hinh 1.2.1 - Mơ hình màu RGB
Ví dụ ma trận biểu diễn ảnh màu kích thước 3x3 như sau
(128, 0, 0)
(0, 255,255)
(255, 0, 0)

(200, 0, 255) (255, 255, 255) (100, 100, 100)
f ( x, y ) =


(128, 128, 255) (0, 0, 0)
(255, 0, 255) 


1.3 Biến đổi ảnh xám
Thông thường các ảnh chúng ta gặp trong thực tế là các ảnh mầu gồm 3
thành phần (R,G,B) như vậy trong quá trình nhận dạng mà ta dung cả 3 thành
phần mầu này thì kích thước ảnh nhận dạng q lớn như vậy một điều đặt ra
là ta tìm một phép biến đổi sao cho có thể đưa ảnh về biểu diễn ở dạng tốn
học thuận tiện cho q trình nhận dạng.

Phép biến đổi xám đưa mỗi điểm ảnh mầu 3 thành phần về một thành
phần theo công thức:
Gray(i,j) = (byte)(114 * B(i,j) + 587 * G*(i,j) + 299 * R(i,j) / 1000;
Giá trị này được tính thong qua tỷ lệ đặc trưng của các mầu mà vẫn giữ
được những đặc trưng cơ bản của ảnh.
Ta nhận thấy kích thức của mẫu cần nhận dạng bằng 1/3 đơí với ảnh mầu.
Như vậy một ảnh mầu MxN sẽ được đưa về một ma trận(MxN) mức xám
Gray(i,j) với 0<=i<=M,0<=j<=N.

Hình 1.3.1 Biến đổi xám từ ảnh mầu

6

Với Gray(i,j) được tính theo phương trình ở trên.
Với biến đổi nhị phân thì Gray(i,j) = 0 nếu Gray(i,j)<= Threshold, Gray(i,j) =
1 nếu ngược lại với 0<=Threshold <=255.

CHƯƠNG 2 : LÝ THUYẾT VỀ PCA VÀ FLD
2.1 Phương pháp thống kê đối với bài tốn nhận dạng mẫu
2.1.1 Trung bình, độ lệch chuẩn, phương sai
Cho tập mẫu :

X = [ x1 , x2 ,...xn ]

(2.1)

 Trung bình:

7

Mean của tập X kí hiệu là X là giá trị trung bình của mẫu hay kỳ
vọng mẫu
Tính theo cơng thức :

1 n
X = ∑ xi
n i =1

(2.2)

“Tổng tất cả các phần tử của tập chia cho số phần tử của tập”.
Ví dụ
>> X=[12 23 34 44 59 70 98];
>> mean(X)
ans = 48.5714.
Xem đồ thị sự phân bố trong không gian 2 chiều.

Hình 2.1.1.1 Phân bố Mean quanh giá trị trung bình

Ta nhận thấy Mean có xu hướng ở trung tâm của tập mẫu đã cho.
Ví dụ (tiếp)
Xét hai tập
X 1 = [0 8 12 20];
X 2 = [8 9 11 12];

8

Hai tập này đều có Mean = 10 nhưng ta nhận thấy chúng khá khác
nhau! Khái niệm độ lệch chuẩn dưới đây cho ta hiểu hơn về sự thống
kê.
 Độ lệch chuẩn của tập X(Standard Deviation - SD):
Kí hiệu s
Tính theo cơng thức:
n

s=

∑( x − X )
i =1

2

(2.3)

i

n −1

“Trung bình khoảng cách từ giá trị trung bình đến mỗi phần tử trong
tập hợp”.
Độ lệch chuẩn cho biết sự phân bố của các phần tử so với giá trị trung
bình. Nếu giá trị này càng lớn thì các phần tử phân bố xa giá trị trung
bình(Độ phân tán dữ liệu cao) cịn giá trị này nhỏ thì ngược lại chúng
gần giá trị trung bình(Độ phân tán dữ liệu thấp).
Ví dụ:
>> X1=[0 8 12 20];
>> X2=[8 9 11 12];

>> std(X1)
ans = 8.326
>> std(X2)
ans = 1.8257

9

Hình 2.1.1.2 Độ lệch chuẩn của tập
Như vậy các phần tử của X2(Xanh) gần giá trị Mean hơn X1(Đỏ).
Khi s = 0 thì tất cả các phần tử của tập bằng giá trị Mean.
 Phương sai:
(Variance)Kí hiệu s 2 có độ lớn là bình phương của độ lệch chuẩn, có
ý nghĩa như độ lệch chuẩn.
n

s2 =

∑( X
i =1

i − X)

2

(2.4)

n −1

2.1.2 Hiệp sai, ma trận hiệp sai

 Hiệp sai:
Hai đại lượng Mean và SD (Variance) chỉ làm việc với dữ liệu một
chiều nhưng trong thực tế ta thường gặp với dữ liệu nhiều chiều như
vậy khái niệm Hiệp sai Covariance được đưa ra trong phân tích thống
kê cho ta biết mối quan hệ giữa các chiều.
Xét dữ liệu 2 chiều :
X = [ x1 , x2 ,..., xn ] , Y = [ y1 , y2 ,..., yn ] .

10

Covariance ln được tính cho 2 chiều, nếu ta tính Covariance cho
một chiều và chính nó ta được Variance.
Cơng thức tính Covariance gần giống cơng thức tính Variance.
Cơng thức tính Variance:
n

Var ( X ) =

∑( X
i =1

i − X)

n

2

=

n −1

∑( X
i =1

i

− X ) ( Xi − X )

(2.5)

n −1

Thì cơng thức tính hiệp sai
n

Cov ( X , Y ) =

∑( X
i =1

i

− X ) ( Yi − Y )

(2.6)

n −1

“Tích sự sai lệch các phần tử của X với giá trị trung bình và sự sai

lệch của Y với trung bình chia cho (n-1)”.
Ví dụ: Xét mối quan hệ của kết quả học tập và thời gian học tập(số
liệu cho dưới bảng) với 2 chiều Hours(H)- Giờ học tập và Mark(M) –
kết quả thu được.

11

Qua ví dụ ta nhận thấy:
Giá trị của Cov khơng quan trọng bằng dấu của chúng. Khi có giá
trị dương thì cho ta biết 2 chiều này tăng cùng nhau và khi giá trị âm
thì một chiều tăng chiều kia giảm. Qua thí dụ trên ta thấy một điều khi
giờ học cao lên thì kết quả học tập cũng tơt lên.
Khi Cov = 0 thì hai chiều độc lập nhau nghĩa là sao? Kết quả học
tập không phụ thuộc vào giờ học.
 Ma trận hiệp sai:
Cho N mẫu X 1 , X 2 ,..., X N với X i = [ xi1 , xi 2 ,..., xiM ]

[

là các vector M-chiều, xét tập mẫu X = X 1 , X 2 ,..., X N

1
Kỳ vọng mẫu : X = E { X } =
N
Ma trận hiệp sai: C =

( i = 1..N )

T

]

N

∑X
i =1

i

là một vector.

T
1 N
∑ ( X i − X ) ( X i − X ) là một ma trận đối
N − 1 i =1

xứng.

12

Nhận xét 1 :
Ma trận hiệp sai đặc trưng cho sự phân bố các mẫu xung quang
kỳ vọng mẫu.
T
 1 N
Trace ( C ) = ∑ Cii = Trace 
( Xi − X ) ( Xi − X ) 
∑

÷
i =1
 N − 1 i =1

2
2
1 N M
1 N
=
∑∑ ( X ij − X j ) = N − 1 ∑ X i − X
N − 1 i =1 j =1
i =1
N

(2.7)
Chính là tổng bình phương khoảng cách các mẫu đến trung bình
mẫu chia cho (N-1).
Nhận xét 2:
Với ma trận đối xứng C(ma trận hiệp sai đối xứng) thì Vết của nó
bất biến với phép biến đổi trực giao.
Nghía là

Trace ( C ) = Trace ( ΦT C Φ )

với các cột của

Φ là

các vector trực giao, độ lớn bằng 1.
Ta nhận thấy với Anxm và Bmxn thì

Trace(AnxmBmxn)=Trace(BmxnAnxm). thật vậy do
n

m

m

n

∑∑ a b =∑∑ a
i =1 j =1

ij

ji

j =1 i =1

b với aij và bji là các phần tử của Anxm và

ji ij

Bmxn.
Vậy ta có
vì

Trace ( ΦT C Φ ) = Trace ( C ΦΦT ) = Trace(C )

ΦΦT = Ι .

13

 Between Scatter và Within Scatter:
Giả sử tập dữ liệu được mơ hình như hình vẽ(Minh hoạ Với hai lớp dữ
liệu)

Between-scatter Matrix - Ma trận hiệp sai giữa các lớp
C

S B = ∑ χ i ( µi − µ ) ( µ i − µ )

T

(2.8)

i =1

Within-scatter Matrix - Ma trận hiệp sai trong các lớp
C

SW = ∑

n

∑(X
χ

i =1 xk ∈

k

− µi ) ( X k − µ i )

T

(2.9)

i

Ma trận hiệp sai trong cả lớp
C

ST = ∑

∑ ( Xk − µ) ( Xk − µ)

i =1 xk ∈χi

T

= S B + SW

Với các tham số:
 C là số lớp
 µi là Mean của lớp χi

14

(2.10)



µ là trung bình của cả tập mẫu.

 | χi | là số mẫu của lớp χi.
Nhận xét:
 Ma trận SB đặc trưng cho sự phân bố trung bình của các mầu xung
quanh trung bình của cả lớp.
 Ma trận SW đặc trưng cho sự phân bố các phần tử của lớp xung quanh
trung bình của lớp.
2.2 Nhận dạng ảnh và phép biến đổi tuyến tính.
2.2.1 Nhận dạng ảnh:
Biểu diễn ảnh trong khơng gian

Hình 2.2.1.1 Biến đổi ảnh thành vector.

Hình 2.2.1.2 Thể hiện ảnh trong không gian.

15

Mỗi ảnh được chuyển về 1 vector, thông thường các ảnh cịn giữ được
những đặc trưng cơ bản của khn mặt có kích thước(100*100),(200*180)
như vậy mỗi một ảnh được biểu diễn là một điểm trong không gian 36.000
chiều. Ta nhận thấy có các đặc điểm sau:
 Các ảnh khn mặt người nằm trong một vùng nhỏ nhất định của hệ
không gian gọi là không gian mặt.
 Các ảnh giống nhau thì gần nhau trong khơng gian mặt.

 Các ảnh khác nhau thì xa nhau trong khơng gian mặt.
 Nhận dạng một ảnh là tìm một khn mặt gần nó nhất trong khơng gian
mặt, theo một độ đo nào đó(i.e Euclide…)
Nhược điểm:
 Khi có sự thay đổi nhỏ về ánh sang, cảm xúc, hướng đầu thì các giá trị
ảnh thay đổi rất nhiều và dẫn đến vị trí của chúng trong khơng gian mặt
thay đổi rất nhanh như vậy q trình nhận dạng sẽ kém chính xác.
 Dung lượng để lưu các đặc trưng lớn.
Giải pháp:

Giảm số chiều dữ liệu – thơng qua phép biến đổi tuyến tính.
2.2.2 Phép biến đổi tuyến tính:

Y = AT X
với Y ∈ ¡

(2.11)
K

, X ∈¡

N

( K ≤ N ) và các vector cột của

AT trực giao.

Ý nghĩa của phép biến đổi này cho phép ta giảm số chiều của dữ liệu (N
->K).

16

 a1 
b1 
a 
b 
2 
x=
→ Re duceDimensionality → y =  2  ( K = N ) (2.12)
... 
... 
 
 
aN 
bK 

Làm sao để có các phép biến đổi tuyến tính hiệu quả? Nghĩa là ta phải tìm
A như thế nào? Sau đây ta nghiên cứu hai phương pháp Principal Component
Analysis – PCA và Fisher’s Linear Discriment – FLD. Dùng để xác định A.
Hai phương pháp này thực hiện giảm số chiều dữ liệu dựa trên phương
pháp thống kê để thực hiện trích chọn mẫu nhưng vẫn giữ được những đặc
trưng cơ bản của các mẫu ban đầu (Sự phân bố các mẫu). Sau đây ta đi vào
nghiên cứu từng phương pháp.
2.3 Lý thuyết về PCA - Principal Component Analysis[5. Trang 331-340].
Phương pháp PCA:
 Thực hiện giảm số chiều và đảm bảo tối đa sự phân tán dữ liệu.
 Ý nghĩa của sự phân tán dữ liệu là đảm bảo các đặc trưng trong không
gian mới phân bố rộng (tính khác nhau) như vậy các mẫu khác nhau thì
đảm bảo xa nhau do vậy việc nhận dạng sẽ chính xác hơn.

 Nghiên cưú phương pháp
Có nhiều tên cho Principal Components Analysis-PCA và nó được
dung nhiều trong nghiên cứu và ứng dụng. PCA cùng nghĩa với
Karhunen-Loeve (KL) transform, Hoteling transform, Egenvalue
Aalysis, Eigenvector Dcomposion và Spectral Decomposion. Trong
phân tích ảnh nó được dung để giảm số chiều và tìm khơng gian con
(subspace) mà trong đó việc nhận dạng tốt hơn trong khônng gian với
số chiều đầy đủ. Khơng những thế nó cịn có thuận tiện khi lưu trữ,
chuyển đổi và xử lý thuận tiện.

17

Xem tập quan sát gồm K-vectors.

f = { f1 , f 2 ,..., f k ,..., f K }

(2.13)

Trong không gian M-chiều.
Khơng gian của tập quan sát có thể được thể hiện qua một số cơ sở giả
sử.

BM = { ψ 1 ,ψ 2 ,...,ψ M }

(2.14)

Thì :
 f1 ( 1) 
 f 2 ( 1) 

 f k ( 1) 
 f K ( 1) 

÷

÷

÷

÷
 f1 ( 2 ) ÷
 f2 ( 2) ÷
 fk ( 2) ÷
 fK ( 2) ÷

÷

÷

÷

÷
f1 =  f1 ( 3) ÷, f 2 =  f 2 ( 3) ÷,..., f k =  f k ( 3) ÷,..., f K =  f K ( 3) ÷
 .....
÷
 .....
÷
 .....
÷
 .....

÷

÷

÷

÷

÷
 f1 ( M ) ÷
 f2 ( M ) ÷
 fk ( M ) ÷
 fK ( M ) ÷









(2.15)

Ở đây f k ( m ) là thành phần thứ m của vector f k . Mỗi vector f k có thể
viết dưới dạng
M

fk = ∑ fm ( m) ψ m

(2.16)

m =1

Hay

f k = f k (1)Ψ1 + f k (2) Ψ 2 + ... + f k ( M )Ψ M . Như vậy mỗi

quan sát bây giờ như là một toạ độ trong hệ cơ sở BM .
Bằng cách sử dụng M vectors cơ sở ta có thể thể hiện mỗi quan sát.
Điều này cũng đúng khi ta chọn cơ sở gồm M-vectors trực giao được
thể hiện trong e.q 2.16.
Việc chọn cơ sở có vấn đề gi? Có. bởi vì trong ứng dụng chúng ta
khơng đử tất cả các cơ sở M-chiều do nhiều lý do khác nhau như M
quá lớn. Ta có thể biểu diễn mỗi quan sát Β N thơng qua ít vector hơn.

18

N

f = ∑ fm ( m ) ψ m
~
k

với N p M

(2.17)

m =1

Nhận thấy điều khác nhau duy nhất giữa E.q 2.17 và 2.16 là số lấy
tổng N và M. theo thứ tự mỗi phương trình của 2.17 được thể hiện qua
2.17 ta được các vector .

f1~ , f 2~ ,..., f k~ ,..., f K~

(2.18)

Như vậy sai số của xấp xỉ mỗi quan sát là :

f k − f k~

(2.19)

Ở đây chúng ta quan tâm đế việc tìm một cơ sở trực giao OrthNormal
(ON) Β N :
BN = { ψ 1 ,ψ 2 ,...,ψ N } với ψ i ,ψ j = δ ij

Với

(2.20)

δ ij = 0 nếu i ≠ j .

Β N được gọi là cắt (truncated) của g = Ψ m khi nó nhận ít vector cơ sở

hơn. Vậy ta thể hiện Ο trong cơ sơ nhỏ hơn vói sai số :

1

K

K

∑
k =1

f k − f k~

2

(2.21)

Chúng ta quan tâm là làm sao tổng này – Minimizing.
K

∑

fk − f

k =1

K

=∑
k =1
K

(

(

K

= ∑ f k − f k~ , f k − f k~
k =1

f k , f k + f k~ , f k~ − 2 f k , f k~

= ∑ fk
k =1

~ 2
k

2

2

+ f k~ − 2 f k , f k~

Sử dụng 2.16 và 2.17 ta có
19

)

)

(2.22)

K

∑
k =1

f k − f k~

2

K

= ∑  fk
k =1 

2

= T + ∑  f k~ − 2
k =1 
K

N

∑

m =1

2

2

+ f k~ − 2

fk ( m) ψ m +

K
2

= T + ∑  f k~ − 2 f k~ , f k~ − 2
k =1 

M

∑

m =1

N

fk ( m ) ψ m , ∑ fk ( m ) ψ m ÷
m =1



f k ( m ) ψ m , ∑ f k ( m ) ψ m ÷(2.23)
∑
m = N +1
m =1

M

N

N

fk ( m ) ψ m , ∑ fk ( m ) ψ m ÷
∑+1
m= N
m =1

M

Ở đây thì
K

T = ∑ fk

2

- Là hằng số

(2.24)

k =1

Trong phương trình 2.23 thì đại lượng

f k~ , f k~ = f k~

2

còn thành

phần thứ hai triệt tiêu do cơ sở trực giao, vậy ta có.

1
K

K

∑
k =1

fk − f

~ 2
k

T 1
= −
K K

K

∑
k =1

f k~

2

(2.25)

Do T là hằng số lên Minimizing biểu thức tương đương Maximizing
K

∑
k =1

K

f

~ 2
k

K

=∑ f , f
~
k

k =1

N

= ∑∑ ψ m , f k
k =1 m =0

2

~
k
K

K

N

= ∑∑ f k ( m )

2

k =1 m =1

N

= ∑∑ ψ m , f k
k =1 m =0

Ta có ψ m , f k = ψ m f k vậy
T

20

f k ,ψ m

(15.26)

K

∑

f

k =1

~ 2
k

K

=∑ f , f
~
k

k =1

K

N

= ∑∑ ψ m , f k

~
k

k =1 m =0

 K

= ∑∑ψ f k f ψ m = ∑ψ  ∑ f k f kT ÷ m
ψ
k =1 m =1
m =1
 k =1

K

N

T
m

N

N

T
k

T
m

f k ,ψ m
(2.27)

N

= K ∑ψ Sψ m ≤ K ∑ λ( m )
T
m

m =1

m =1

Trong nghiên cứu

1
S=
K

K

∑f
k =1

k

ψ m , λm

là M vectors riêng có ý nghĩa nhất của

f kT

(2.28)

Thoả mãn λ1 ≥ λ2 ... ≥ λN ≥ 0 là các trị riêng của S(Do S đối xứng lên

có các trị riêng thực ≥ 0 [Bổ đề 3]).
Đây là ma trận phân bố các quan sát

Ο Theo cách xây dựng thì S là

ma trận nửa xác định riêng nghĩa là 0 ≤ g T Sg với ∀g ∈ EM . thay
g = Ψ m Từ phương trình 2.25 và 2.27 ta có

1
K

K

∑
k =1

fk − f

~ 2
k

T 1
= −
K K

K

∑
k =1

f k~

N
M
T
≥ − ∑ λ( m ) = ∑ λ( m )
K m=1
m = N +1

2

(2.29)

Như vậy để sai số xấp xỉ bé nhất thì ta phải chọn Β M là N vectors
riêng có ý nghĩa nhất của S.

T
1
=
K K

K

∑
k =1

fk

2

= λ(1) + λ(2) + ... + λ( M )

21

(2.30)

Ta nhận thấy xấp xỉ không lồi khi mà f k = f k nghĩa là ta dung
~

tất cả các vector cơ sở (i.e N=M Phương trình 2.24 và 2.27).
Biểu diễn 2.29 thể hiện khi ta chọn N-vectors riêng và sai số xấp
xỉ là nhỏ nhất và bằng tổng M-N trị riêng bé nhất của S. (2.28) thành.

1
S=
K

K

∑
k =1

 f1 
f 
1
1
T
f k f k = [ f1 , f 2 ,..., f K ]  2  = ΟΟT
...  K

K
 
 fK 

(2.31)

Do S là đối xứng nửa xác định riêng lên những vector riêng là trực
giao điều này đảm bảo cơ sở tối ưu là trực giao.
Như vậy cơ sở mới được xây dựng dữ liệu quan sát ban đầu được
chiếu lên cơ sở mới theo phương trình:

(Ο )

~ T

= ΟT Β N

(2.32)

Với
Ο~ =  f1~ , f 2~ ,..., f K~  , Ο = [ f1 , f 2 ,..., f N ] , Β N = [ψ 1 ,ψ 2 ,...,ψ K ]



(2.33)

với [ ψ 1 ,ψ 2 ,...,ψ K ] là K-vectors riêng tương ứng với K-trị riêng lớn
nhất của S(2.28)- ma trận hiệp sai của tập quan sát ban đầu.
Như ta biết phép biến đổi trực giao không làm thay đổi Trace-Vết của
ma trận mà phép biến đổi cơ sở này giứ lại K-vectors riêng ứng với K-trị

riêng lớn nhất. Nghĩa là ta sự phân bố các mẫu trong tập dữ liệu mới thu
được luôn là lớn nhất.
Theo các kết quả nghiên cứu thong thường ta chọn K sao cho.

22

K

∑λ

i

i =1
N

∑λ

f Threshold (e.g .., 0.90or 0.95)
≥

(2.34)

i

i =1

λi là các trị riêng của ma trận hiệp sai và. λ1 ≥ λ2 ≥ ... ≥ λN

với

2.4 Lý thuyết về FLD – Fisher’s Linear Discriminant[4, Trang 436-472]
Có hai kiểu tiêu chuẩn thường được sử dụng trong nghiên cứu. Một là dựa
trên họ các hàm về ma trận phân bố chúng được tính toán đơn giản và cho ta
một hệ thống các thuật tốn trích chọn đặc trưng. Tiêu chuẩn để đo sự phân
bố của L-classcs. thứ hai là họ các tiêu chuẩn cho ta biên trên của các lỗi
Bayes.
Ma trận phân bố và tiêu chuẩn phân bố:
Trong phân tích phân biệt của thống kê, Ma trận phân bố trong lớp, ngoài
lớp và của tất cả được sử dụng để tính các tiêu chuẩn phân lớp.
Ma trận phân bố trong một lớp cho ta biết sự phân bố các mẫu tương ứng
với kỳ vọng của lớp và cho bởi công thức.
L

SW = ∑ PE
i
i =1

{( X −M ) ( X −M )
i

i

T

}

L

| ωi = ∑ Pi Σi

(2.35)

i =1

Trên vấn đề khác, một ma trận đặc trưng cho sự phân bố giữa các lớp
quanh kỳ vọng của cả tập là
L

S B = ∑ Pi ( X − M 0 ) ( X − M 0 )

T

(2.36)

i =1

Ở đây M 0 là kỳ vọng của cả tập cho bởi công thức
L

M 0 = E { X } = ∑ PM i
i

(3.3)

i =1

23

Ma trận phân bố của cả tập là ma trận hiệp sai của tất cả các mẫu và được
xác định theo công thức

SM = E

{ ( X − M0 ) ( X − M0 )

T

} =S

W

+ SB

(2.37)

Tất cả các ma trận được xây dựng ở trên bất biến đối với phép dịch
chuyển toạ độ.
Trong yêu cầu của các tiêu chuẩn phân lớp, ta cần chuyển ma trận thành
số để rễ đánh giá. Giá trị này lớn khi sự phân bố giữa các lớp lớn hoặc sự
phân bố trong các lớp nhỏ. dưới đây là một số cơng thức điển hình.
(1)

−
J1 = tr ( S2 1S1 )

(2.38)

(2)

−
J 2 = ln ( S 2 1S1 ) = ln( S1 ) − ln( S 2 )

(2.39)

(

(3) J 3 = tr ( S1 ) − µ tr ( S 2 ) − C
(4) J 3 =
Ở đây

)

(2.40)

tr ( S1 )

(3.41)

tr ( S 2 )

S1 , S 2

là

S B , S W orS M .

Xét (3.5): Và ta thực hiện tối ưu tuyến tính dùng công thức này, đây là
công thức dạng Fisher do vậy phép biến đổi tuyến tính với tiêu chuẩn đánh

giá theo công thức (2.38) gọi là Fisher’s Linear Discriminant - FLD.
Xét trong biến đổi tuyến tính. Một phép biến đổi tuyến tính N-chiều X
vào M-chiều Y (M
Y = AT X

(2.42)

24

với A[NxM] và các cột của A độc lập tuyến tính. Da các ma trận

S B , S W orS M là các ma trận hiệp sai S1 , S 2 trong khơng gian Y-space có

S1 , S 2

thể được tính thong qua

trong khơng gian X-space theo cơng thức.

SiY = AT SiX A(i = 1, 2)

(2.43)

Vấn đề trích chọn đặc trưng là ta tìm A sao cho tối ưu J’s trong Y-Space.
Tối ưu J1 : Giả sử J1(m) là giá trị của J1 trong không gian m-chiều Y-space.
vậy

(

J1 ( m ) = tr S S

−1
2Y 1Y

) = tr ( ( A S
T

2X

A

) ( A S A) )
−1

T

1X

(2.44)

Tính đạo hàm (2.44) theo A, bằng cách sử dụng (A.16) ta được

∂J1 ( m )
∂A

−1
1
−1

= −2S2 X AS2Y S1Y S2−Y + 2S1 X AS 2Y

(2.45)

tối ưu A thoả mãn phương trình (2.45) bằng 0

(S

−1
2X

)

(

−1
S1 X A = A S 2Y S1Y

Hai ma trận s1Y ands2Y
biến đổi tuyến tính

)

(2.46)

có thể được chéo hố thành

Z = BT Y

µm và I m qua phép

như sau:

BT S1Y B = µm , B T S 2Y B = Ι m

(2.47)

Ở đây B là ma trận không suy biến và tồn tại

B −1

Ta nhận thấy giá trị điều kiện bất biến với phép biến đổi không suy biến từ
Y -> Z.

25

Trích đoạn

Kết quả thực nghiệm so sánh PCA và FLD với số người trong tập huấn luyện khác nhau

Đồ án tốt nghiệp đại học “nghiên cứu xây dựng phần mềm nhận dạng ảnh theo thuật toán PCA, FLD”

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về