NGHIÊN CỨU THUẬT TOÁN ICA VÀ ỨNG DỤNG ƯỚC LƯỢNG ĐỘ SÂU ẢNH MẶT NGƯỜI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.13 MB, 37 trang )

BỘ MÔN LÝ THUYẾT MẠCH ĐO LƯỜNG
MÔN HỌC KỸ THUẬT XỬ LÝ ẢNH

ĐỀ BÀI:

BÀI TẬP LỚN

NGHIÊN CỨU THUẬT TOÁN ICA VÀ ỨNG DỤNG ƯỚC
LƯỢNG ĐỘ SÂU ẢNH MẶT NGƯỜI

Giáo viên hướng dẫn

: Trung tá, PGS.TS Phạm Minh Nghĩa

Học viên thực hiện

: Đại úy Ngô Trường Sơn

Lớp

: Kỹ thuật Điện tử K33

Hà Nội, tháng 11 năm 2022

MỤC LỤC
I. NGHIÊN CỨU THUẬT TOÁN ICA (INDEPENDENT COMPONENT
ANALYSIS).........................................................................................................1
1.1. Giới thiệu về ICA.......................................................................................1
1.2. Phân tích thành phần độc lập (ICA)...........................................................3

1.3. Sự độc lập thống kê....................................................................................4
1.4. Ước lượng ICA...........................................................................................5
1.5. Tiền xử lý ICA...........................................................................................9
II. ỨNG DỤNG CỦA ICA VÀO ƯỚC LƯỢNG ĐỘ SÂU ẢNH MẶT
NGƯỜI...............................................................................................................12
2.1. Xây dựng mơ hình cICA..........................................................................12
2.2. Xây dựng mơ hình và khởi tạo ma trận hủy trộn.....................................15
2.3. Tích hợp mơ hình cho nhiều hình ảnh khn mặt khơng nhìn trực diện.......18
2.4. Kết quả thực hiện.....................................................................................19

DANH MỤC HÌNH VẼ
Hình 1. 1. Tín hiệu gốc..........................................................................................1
Hình 1. 2. Tín hiệu sau trộn...................................................................................2
Hình 1. 3. Tín hiệu phục hồi.................................................................................2
Hình 1. 4. Phân bố siêu Gauss...............................................................................6
Hình 2. 1. Mơ hình CANDIDE-3 với 113 đỉnh và 168 bề mặt tam giác............12
Hình 2. 2. Vị trí của 22 điểm đặc trưng được đánh dấu trong cơ sở dữ liệu.......17
Hình 2. 3. So sánh các tín hiệu tham chiếu dựa trên mơ hình CANDIDE và giá
trị độ sâu thực cho 4 khn mặt riêng biệt..........................................................17
Hình 2. 4. Lưu đồ của phương pháp tích hợp mơ hình......................................18
Hình 2. 5. Hình ảnh khn mặt của một đối tượng dưới các tư thế khác nhau
trong cơ sở dữ liệu Bosphorus.............................................................................20
Hình 2. 6. So sánh kết quả hoạt động của FastICA và cICA về mối tương quan.
Các điểm đánh dấu đại diện cho các mối tương quan trung bình và đường thẳng
đứng đi qua một điểm đánh dấu thể hiện phạm vi của hệ số tương quan tương ứng
.............................................................................................................................21
Hình 2. 7. So sánh các hoạt động của FastICA có và khơng sử dụng ma trận
khơng trộn ban đầu..............................................................................................22
Hình 2. 8. So sánh hiệu suất của gICA và cICA đối với các đối tượng khn mặt

khác nhau.............................................................................................................22
Hình 2. 9. So sánh các hoạt động của gICA khi sử dụng và khơng sử dụng thao
tác làm trắng........................................................................................................23
Hình 2. 10. So sánh hiệu suất của thuật toán SM và cICA.................................23
Hình 2. 11. Các đường cong lặp lại của các Đối tượng 1, 6, 11, 16, 21 và 26
bằng cách sử dụng mơ hình phương pháp tích hợp.............................................24
Hình 2. 12. So sánh hiệu suất của thuật tốn cICA và cICA_MI........................25
Hình 2. 13. Giá trị độ sâu thực và giá trị độ sâu ước lượng của đặc điểm khn
mặt có cơ sở dữ liệu Bosphorus..........................................................................25
Hình 2. 14. So sánh các hoạt động của thuật tốn cICA dựa trên mơ hình ICA
q mức và bình thường......................................................................................27
Hình 2. 15. So sánh các hệ số tương quan c (MZb, Mzc) và c (Mxfn Mz) cho 30
đối tượng.............................................................................................................27
Hình 2. 16. So sánh các hệ số tương quan thu được bằng cách sử dụng 4 thống
kê bậc nhất khác nhau với phương pháp tích hợp mơ hình cho 30 đối tượng.. . .28
Hình 2. 17. Hệ số tương quan của Đối tượng 1,6, 11,16,21 và 26 thu được bằng
cách sử dụng phương pháp tích hợp mơ hình với số lượng mẫu khác nhau.......29

DANH MỤC BẢNG BIỂU
Bảng 2. 1. Hệ số tương quan của gia trị độ sâu thực và giá trị ước lượng thu được
với hình ảnh khn mặt người khác nhau cho FastICA, gICA, SM, và cICA........24
Bảng 2. 2. Gía trị trung bình μ và độ lệch chuẩn σ thu được bằng 5 phương pháp
và hệ số lương quan cMzb , Mzc của 105 đối tượng..............................................30

1
I. NGHIÊN CỨU THUẬT TOÁN ICA (INDEPENDENT COMPONENT
ANALYSIS)

1.1. Giới thiệu về ICA
Independent Component Analysis (phân tích thành phần độc lập) là
một phương pháp thống kê được xây dựng để tách rời tín hiệu nhiều chiều thành
các thành phần tín hiệu độc lập ẩn sâu bên dưới dữ liệu. Kỹ thuật này đòi hỏi
phải đặt ra giả thuyết tồn tại các nguồn tín hiệu bên dưới nongaussianity và độc
lập thống kê từng đơi một. Thuật tốn ICA có nhiều ứng dụng rộng rãi trong
nhiều bài tốn khác nhau như xử lý tín hiệu, kinh tế học, sinh tin học,…
Ví dụ trong phịng mà trong đó có 3 người đang nói chuyện với nhau. Bạn
dùng 3 micro, đặt tại 3 vị trí khác nhau. Các microphone sẽ thu được 3 tín hiệu
đồng thời. Ta phải xác định được x1(t), x2(t) và x3(t) với x1 ,x2, x3 là cường độ
âm thanh, t là thời gian. Chúng ta có thể biểu diễn nó bằng hệ phương trình
tuyến tính.
x 1 ( t )=a 11 s 1 +a12 s 2+ a13 s3
x 2 ( t )=a21 s1 +a22 s 2+ a23 s 3
x 3 ( t )=a31 s1 +a32 s 2+ a33 s3

Trong đó a 11 , a12 ,a 13 , a21 , a22 , a 23 , a31 , a32 , a33 là các chỉ số phụ thuộc vào
khoảng cách từ microphone đến người nói. Điều này rất tiện lợi trong việc xấp
xỉ 3 nguồn tín hiệu gốc (tiếng nói của 3 người trong phịng ) s1 ( t ) , s 2 ( t ) s3 ( t ) từ các
tín hiệu thu được x 1 ( t ) , x 2 (t ) , x 3 ( t ) . Ví dụ này được gọi là bài tốn cocktail-party.
Theo thời gian ta có thể bỏ qua thời gian trễ và nhiễu thêm vào từ mơ hình trộn
đơn giản.

Hình 1. 1. Tín hiệu gốc

2

Hình 1. 2. Tín hiệu sau trộn
Vấn đề ở đây là chúng ta cần khơi phục lại tín hiệu gốc như như hình 1.1

từ tín hiệu trộn như hình 1.2.
Nếu như chúng ta biết các hệ số a ij, chúng ta có thể giải hệ phương trình
tuyến tính trên theo phương pháp thơng thường và tìm đươc các tín hiệu ban
đầu. Tuy nhiên ở đây ta không biết các hệ số a ij do đó bài tốn trở nên phức tạp.
Kỹ thuật phân tích thành phần độc lập ICA có thể xấp xỉ a ij dựa trên các
thông tin độc lập của chính tín hiệu đó. Điều này cho phép chúng ta chia các tín
hiệu gốc từ tín hiệu đã trộn x 1 ( t ) , x 2 (t ) , x 3 ( t )

Hình 1. 3. Tín hiệu phục hồi

3
1.2. Phân tích thành phần độc lập (ICA)
Để định nghĩa ICA ta có thể dùng mơ hình thống kê “làm chậm biến số””latent varialbe”. Giả sử, ta quan sát n tổ hợp tuyến tính x 1 , x 2 , x 3 ,… x n của n
thành phần độc lập.
x j=a j1 s 1 +a j 2 s2 +a j 3 s3 + …+a jn s n (1.1)

Chúng ta bỏ qua chỉ số thời gian t (trong mơ hình ICA), ta giả sử mỗi tổ

hợp x j ứng với mỗi thành phần độc lập sk là biến ngẫu nhiên, thay cho tín hiệu
theo thời gian thích hợp. Giá trị quan x j (t ), những tín hiệu thu được từ

microphone trong bài toán cocktail-party, là mẫu của biến số ngẫu nhiên. Khơng
mất tính tổng qt, ta giả sử cả biến trộn lẫn và thành phần độc lập có giá trị kỳ
vọng bằng 0. Nếu thực tế khơng đúng, có thể đưa các biến số quan sát x j về gía
trị trung tâm bằng cách trừ với kỳ vọng.
Điều đó rất thuận tiện khi dùng ký hiệu ma trận vector thay cho dạng tổng
như các công thức trước đây. Điều này cho thấy với vector ngẫu nhiên x , các
thành phần của nó là tổ hợp x 1 , x 2 , x 3 ,… x n tương tự như vector ngẫu nhiên s với
các thành phần s , s 2 , s3 , … s n . Chúng ta quan sát ma trận A với các phần tử a ij. Tất

cả các vector được được hiểu như vector cột; do đó x τ là chuyển vị của x ,là
vector hàng, sử dụng ký hiệu ma trận vector, mơ hình hỗn hợp ở trên sẽ được
viết lại là:
x= A s(1.2)
Điều đó có nghĩa là mơ hình a j có thể được viết lại như sau
n

X =∑ ai si (1.3)
i=1

Mơ hình thống kê (1.2) được gọi là phân tích các thành phần độc lập, hay
mơ hình ICA. Mơ hình ICA mơ tả cách thức tạo ra dữ liệu quan sát bằng quá
trình trộn các đối tượng si . Các đối tượng độc lập là các biến số ẩn, có nghĩa là ta
khơng thể quan sát chúng một cách trực tiếp. Vì vậy ma trận trộn cũng được
xem như là không biết. Tất cả những gì ta quan sát được chỉ là vector ngẫu
nhiên x , và chúng ta phải dùng x để xấp xỉ cả A và s. Điểm khởi đầu của ICA là
sự thừa nhận rất đơn giản rằng các thành phần si là độc lập thống kê. Tiếp theo
chúng ta phải thừa nhận các thành phần độc lập phải có phân bố khơng Gauss.
Tuy nhiên, ở mơ hình cơ bản chúng ta không cần biết sự phân bố này. Một cách
đơn giản, chúng ta chỉ cần giả thiết ma trận trộn chưa biết là ma trận vng. Sau
đó ta xấp xỉ ma trận A , chúng ta có thể tính ma trận ngược (là W ), các thành
phần độc lập có thể được tính bằng cơng thức:
S=W x (1.4 ) ICA cũng tương tự phương pháp “phân chia nguồn mù” (BBS)
hoặc phân chia tín hiệu chưa biết.”Nguồn” có nghĩa là các tín hiệu gốc, là các
thành phần độc lập, tương tự như trong bài tốn cocktail-party.”Mù” có nghĩa là
biết rất ít. ICA là một phương pháp có thể được ứng dụng rất rộng rãi trong việc
trình bày quá trình phân chia nguồn mù.

4

Trong nhiều ứng dụng, chúng ta giả thiết có thêm nhiễu trong q trình đo
đạc, có nghĩa là phải thêm thành phần nhiễu vào mơ hình tính tốn. Để đơn giản
đơi khi ta có thể bỏ qua thành phần nhiễu.
*Các điểm khơng xác định trong ICA:
Trong mơ hình ICA (1.2), chúng ta có thể thấy các điểm khơng xác định
như sau:
- Chúng ta không thể xác định được thành phần biến (số cột ma trận
tương quan) của các thành phần độc lập. Lý do là cả S và A đều khơng được
biết, phép nhân vơ hướng của nguồn si có thể khử bằng cách chia cho cột tương
ứng a i của A với cùng hướng (1.3). Hệ quả, chúng ta phải hiệu chỉnh biên độ của
thành phần độc lập; như ta biết, các ICA đều là các biến ngẫu nhiên, cách đơn
giản ta giả sử mỗi nguồn đều có thành phần biến số đơn vị. Sau đó ma trận A sẽ
đáp ứng với phương pháp giải ICA để khắc phục các hạn chế này. Ta có thể loại
bỏ những dấu hiệu bất định này: ta có thể nhân thành phần độc lập với -1 mà
không làm ảnh hưởng đến mô hình tính. Trong hầu hết các ứng dụng yếu tố dấu
khơng có nghĩa.
Chúng ta khơng thể xác định được thứ tự của các thành phần độc lập. Lý
do là cả S và A đều khơng được biết, chúng ta có thể thay đổi tùy ý trật tự của
phép tính trong cơng thức (1.3), và có thể gọi bất cứ thành phần độc lập nào là
thành phần đầu tiên. Ma trận hốn vị P và phép biến đổi ngược của nó có thể
được thay thế trong cơng thức x= A P−1 PS . Các phần tử của PS là các thành phần
biến độc lập gốc s j, nhưng theo thứ tự khác. Ma trận A P−1 được biết như là một
ma trận trộn mới chưa biết được dùng để giải bài toán ICA.
1.3. Sự độc lập thống kê
1.3.1. Bất tương quan
Các phân bố xác suất đều giả sử có kỳ vọng bằng 0. Nếu khơng phải như
vậy thì ta trừ phân bố với kỳ vọng của nó, đây là sự qui tâm (centering). Để ý là
hiệp phương sai (covariance) chính là tương quan (correlation) khi kỳ vọng bằng
0. Đối với một vector ngẫu nhiên x ma trận hiệp phương sai là:
τ

C x x =E {( x−m x ) ( x−mx ) } (1.5)
Trong đó E {.} là tốn tử lấy kỳ vọng, mx là
vector trung bình. Hiệp phương sai của hai vector ngẫu nhiên x 1, x 2 (có kỳ vọng
bằng không) là:
C x x =E { x 1 x 2 } (1.6)
1

2

Khi C x x =0 hai vector bất tương quan (uncorrelated). Đối với vector ngẫu
nhiên x khi các thành phần x i của nó bất tương quan thì:
C x x =D (1.7)
1

2

Trong đó D là ma trận chéo n×n, với các phương sai của các thành phần
nằm trên đường chéo chính.
1.3.2. Độc lập thống kê

5
Tính bất tương quan nêu trên chưa đủ để ước lượng các thành phần độc
lập ICA. Ta cần một đặc tính mạnh hơn, đó là sự độc lập thống kê, nghĩa là khi
biết một thành phần nào đó ta khơng thể suy ra các thành phần còn lại. Xem hai
vector ngẫu nhiên x 1 , x 2 với hàm mật độ xác suất riêng biệt p ( x 1) , p ( x 2 ) và hàm
mật độ xác suất liên kết p ( x 1 x 2 ) là độc lập thống kê nếu và chỉ nếu khi thỏa mãn:
p ( x 1 x 2 )= p ( x 1 ) p ( x 2 )
Khi có nhiều vector thì sự thừa số hóa cũng tương tự.
Định nghĩa ở trên dẫn đến một đặc tính sau của các biến ngẫu nhiên. Xem

f ( x 1 )và f ( x 2 )là biến đổi phi tuyến nào đó trên hai vector ngẫu nhiên x 1 và x 2 có
hàm phân bố đã nói ở trên, thì có thể chứng minh được:
E { f ( x 1) f ( x2 ) }=E { f ( x 1 ) } E { f ( x 2 ) }
Như vậy sự độc lập là có thể thừa số hóa tương quan phi tuyến. Đây là
đặc tính quan trọng vì nó giải thích và nhấn mạnh vai trò các phi tuyến trong
ICA. Khi đặt f ( x 1 ) =x1 và f ( x 2 ) =x 2 ta thấy là sự độc lập bao gồm luôn sự bất
tương quan (nhưng bất tương quan không đương nhiên là độc lập). Cụ thể là ta
giả sử s ở phương trình (1.2) là độc lập thống kê nên các tín hiệu nguồn si là các
thành phần độc lập. Chính nhờ sự độc lập thống kê mà ta có thể phân ly ra s từ
(1.2).
1.3.3. Phi Gauss là độc lập
Mơ hình ICA đặt ra một hạn chế là các thành phần độc lập phải có tính
phi
Gauss (non-gaussianity), tức khơng có phân bố (hàm mật độ xác suất) là Gauss.
Lý do tính phi Gauss nằm ở chổ là các biến ngẫu nhiên Gauss được xác
định hoàn toàn bởi các thống kê bậc một (trị trung bình) và bậc hai (phương sai),
các thống kê bậc cao hơn bằng 0. Như sẽ thấy ở sau, mơ hình ICA cần các thống
kê bậc cao hơn của các thành phần độc lập để thực hiện sự phân ly (ước lượng
các thành phần độc lập). Như vậy, sự phi tuyến, tính phi Gauss dẫn đến sự độc
lập thống kê.
1.3.4. Các giả sử trong mơ hình ICA
Mơ hình ICA tuyến tính cơ bản đặt ra đòi hỏi các giả thiết sau cho việc
phân ly (ước lượng) các thành phần độc lập: Các nguồn s độc lập thống kê nhau,
nghĩa là biết được một nguồn khơng thể suy ra các nguồn cịn lại.Các hàm phân
bố xác suất của các nguồn có kỳ vọng bằng 0. Khơng có nguồn (thành phần độc
lập) nào có phân bố Gauss (thật ra mơ hình cho phép có tối đa một thành phần
có phân bố Gauss)
Ma trận trộn A là ma trận vuông tức số lượng nguồn và số lượng trộn
bằng nhau. Nếu khơng phải vậy, bài tốn sẽ khó hơn.
1.4. Ước lượng ICA

Ước lượng ICA là một công việc khá chi li. Người ta đã phát triển nhiều
cách để giải quyết bài tốn ở phần 1:
- Cực đại hóa tính phi Gauss (nongaussianity)

6
- Ước lượng khả năng cực đại (maximum likelihood)
- Cực tiểu hố thơng tin hỗ tương (mutual information)…
Trong các phương pháp, trước tiên định ra một hàm đối tượng (objective
function), còn gọi hàm trị giá (cost function), rồi dùng một thuật tốn tối ưu hóa
để cực đại hóa hoặc cực tiểu hóa (nói chung là cực đại hóa trị tuyệt đối) hàm đối
tượng này để ước lượng các thành phần độc lập.
Theo định lý giới hạn trung tâm (central limit theorem), tổng của nhiều
biến ngẫu nhiên có phân bố gần Gauss hơn bất cứ biến ngẫu nhiên gốc nào. Ở
mô hình ICA (1.2) vector ngẫu nhiên x gồm các biến ngẫu nhiên là trộn tuyến
tính của các vector biến ngẫu nhiên nguồn s. Các nguồn được giả sử độc lập
nhau nhưng khi trộn lại (cộng nhau) thì các trộn trở nên gần Gauss hơn. Nếu
việc trộn được đảo ngược lại theo cách nào đó thì các tín hiệu nhận được sẽ ít
Gauss hơn. Do đó ước lượng ICA nhắm đến cực tiểu hóa tính Gauss tức cực đại
hóa tính phi Gauss bởi vì điều này sẽ cho ta các thành phần độc lập.
1.4.1. Đo tính phi Gauss bằng kurtosis
Đầu tiên là phép đo dựa trên kurtosis của một biến ngẫu nhiên y có kỳ
vọng bằng 0 là cumulant bậc bốn:
kurt ( y )=E { y 4 }−3 E {( y 2 ) }(1.10)
2

Thật ra vì ta giả sử y có phương sai đơn vị, nên kurtosis là:
kurt ( y )=E { y }−3
4

Tức là kurtosis là phiên bản chuẩn hóa của momen thứ tư E { y 4 }. Khi y có
2
phân bố Gauss momen thứ tư bằng 3 E {( y 2 ) } nên kurtosis bằng 0 đối với các biến
ngẫu nhiên Gauss. Hầu hết các biến ngẫu nhiên không phải Gauss kurtosis khác
0. Nếu kurtosis là dương biến ngẫu nhiên có phân bố siêu Gauss
(supergaussian), cịn nếu kurotsis là âm thì biến ngẫu nhiên có phân bố dưới
Gauss (subgaussian). Phân bố siêu Gauss khơng cịn dạng hình chuông như
Gauss mà tăng nhanh ở trung tâm tương tự như phân bố Laplace, cịn phân bố
dưới Gauss khơng nhơ lên ở phần giữa như Gauss mà tiến đến phân bố đều với
biên độ rất nhỏ ở xa trung tâm. Hình dưới đây thể hiện rõ điều đó.

Hình 1. 4. Phân bố siêu Gauss

7
Việc đo tính phi Gauss bằng kurtosis có vài bất lợi khi các giá trị của nó
được tính từ các mẫu quan sát được, vì kurtosis rất bị ảnh hưởng bởi các trị biên
(outlier) quan sát được ở hai đuôi của phân bố.
1.4.2. Đo tính phi Gauss bằng Negentropy
Một số đo tính phi Gauss quan trọng hơn là negentropy. Negentropy là đại
lượng dựa trên lý thuyết thông tin gọi là entropy vi sai. Entropy của một biến
ngẫu nhiên là số đo lượng thơng tin trung bình của nó. Càng ngẫu nhiên, các
biến càng khơng có cấu trúc thì entropy càng lớn. Các biến chặt chẽ entropy
càng gần chiều dài mã hóa của biến ngẫu nhiên.
Entropy (vi sai) H của vector ngẫu nhiên y có hàm phân bố f ( y ) định
nghĩa như sau:
H ( y )=−∑ P ( y =ai ) logP ( y=a i)
Trong đó a i là giá trị có thể có của y . Đây là định nghĩa nổi tiếng dùng để
tổng hợp cho các biến hay các vector ngẫu nhiên có giá trị liên tục, trong trường
hợp đó thường gọi là entropy vi phân. Entropy vi phân của vector ngẫu nhiên y

với mật độ f ( y ):
H ( y )=−∫ f ( y )log f ( y )d y

Đặc tính quan trọng của entropy là biến ngẫu nhiên Gauss có entropy lớn
nhất trong các biến ngẫu nhiên có cùng phương sai. Như vậy entropy, và
negentropy định nghĩa theo entropy, có thể dùng để đo tính phi Gauss của một
biến ngẫu nhiên. Thực tế, điều đó chỉ ra rằng phân bố Gauss là “ngẫu nhiên
nhất” hay ít cấu trúc nhất trong tất cả phân bố.
Entropy là nhỏ, trong đó các phân bố hầu như chỉ tập trung trong một số
giá trị nhất định, biến số hội tụ, hay hàm mật độ phân bố có dạng nhọn.
Để có được một số đo tính phi Gauss sao cho bằng không đối với biến
Gauss và luôn không âm, người ta định nghĩa negentropy của vector ngẫu nhiên
y:
J y =H ( y Gauss )−H ( y ) Trong đó y Gauss là một vector ngẫu nhiên Gauss cùng ma trận
hiệp phương sai (hay ma trận tương quan vì các dữ liệu được giả sử có trung
bình là khơng).
Do đặc tính đề cập ở trên, negentropy sẽ khơng bao giờ âm, nó chỉ bằng 0
nếu và chỉ nếu y có phân bố dạng Gauss. Negentropy có đặc tính rất hay, chính
là đại lượng bất biến trong phép biến đổi tuyến tính ngược.
Ưu điểm của negentropy, hay tương đương entropy vi phân, như một đại
lượng đo đạc tính phi Gauss thỏa mãn lý thuyết thống kê. Trong thực tế,
negentropy là số chiều trong xấp xỉ tối ưu hóa phi Gauss. Khó khăn trong việc
ứng dụng negentropy là việc tính tốn rất phức tạp. Việc xấp xỉ negentropy bằng
định nghĩa cần phải xấp xỉ hàm mật độ xác xuất. Cho nên, việc đơn giản hóa
việc xấp xỉ negentropy là rất cần thiết. Tuy nhiên tính tốn negentropy lại khó
khăn. Một số tính toán xấp xỉ đã được phát triển, mà một là:
J ( y ) ≈ [ E { G( y) }−E { G( y Gauss )} ]

2

8

Hàm phi tuyến G(.) có thể chọn theo một hai biểu thức sau:
G1 ( y )=

1
log cosh a1 y
a1

G2 ( y )=−exp

( )

G 2 ( y )= y

−y
2

2

3

Với 1 ≪a i ≪ 2 và thường chọn a 1=1
Trong mơ hình ICA, ta muốn tìm các hàng của ma trận W . Khi dùng
negentropy người ta xây dựng thuật toán FastICA dựa trên thuật toán điểm cố
định (fixed-pointalgorithm).
- FastICA cho một đối tượng:
Chúng ta sẽ xem xét loại một đơn vị của FastICA. Chúng ta quy việc tính
tốn về mức đơn vị, như mạng neural nhân tạo, có vector trọng số mà các neural

có thể cập nhật theo luật học. Đối với fastICA luật học là tìm ra hướng vector
đơn vị w sao cho hình chiếu w τ x cực đại tính phi Gauss. Tính phi Gauss ở đây đo
đạc theo xấp xỉ negentropy J ( wτ x) . Các phương sai của w τ x phải đưa về dạng
đơn vị. Tương tự q trình làm trắng hóa cũng đưa w về dạng chuẩn đơn vị.
FastICA dựa trên mơ hình điểm cố định được lập đi lập lại nhiều lần
nhằm tìm ra giá trị cực đại của w τ x . Nó cũng bắt nguồn từ phép lặp Newton.
+ Bước 1: Chọn một vector ngẫu nhiên w
+ Bước 2:
w=E { z g ( w τ z ) }−E {g ' ( wτ z ) w }
w ← w /‖w‖

Nếu không hội tụ thì quay lại bước 2
Hội tụ có nghĩa là giá trị mới và cũ của điểm w phải có cùng hướng , tích
vơ hướng của chúng là 1. Tuy nhiên thực tế ta chọn ngưỡng hội tụ Sig cho trước
sao cho:
Sig ≥‖w new −wold‖

Trong đó glà đạo hàm của các hàm G1, G2, G3
- Fast ICA cho nhiều đối tượng
Tuy nhiên thường ta khơng có một thành phần độc lập đơn (chỉ một mà
thơi), do đó phải tính nhiều hơn một hàng của W . Lúc bấy giờ các hàng w khác
nhau của ma trận W có thể hội tụ đến cùng các cực đại của hàm đối tượng. Để
khắc phục vấn đề này, các vector w 1, w 2, … w n phải được trực giao hóa sau mỗi
lần lặp.
Để tránh trường hợp các vector cùng hội tụ về một hướng duy nhất chúng
ta phải giải tương quan ngõ ra w τ1 x ,w τ2 x …, w τn x sau mỗi lần lặp lại. Chúng ta sẽ đề
cập đến các phương pháp giải quyết vấn đề này. Một cách giải tương quan đơn
giản là mơ hình hạ cấp ma trận dựa trên lý thuyết giải tương quan của Gram

9
Schmidth. Điều đó có nghĩa là ta xấp xỉ các đối tượng tương quan từng cái một.
khi chúng ta xấp xỉ p đối tượng độc lập, hay p vector w 1, w 2, … w p chúng ta sẽ
chạy thuật toán fixed-point một đơn vị cho vector w p+1 và sau mỗi bước lập lại
w p+1 từ hình chiếu (w¿¿ p +1τ w j)w j ¿; j=1…p của p vector trước đó, sau đó chuẩn
hóa w p+1.
Các bước thực hiện
+ Bước 1: Chọn số đối tượng độc lập cần xấp xỉ là m , chọn p=1.
+ Bước 2: Chọn ngẫu nhiên w p
+ Bước 3:
w p=E { z g ( wτp z ) }−E { g' ( w τp z ) w p }

+ Bước 4:
p−1

w p=w p−∑ (w τp w j )w j
j=1

+ Bước 5:

w p ← w p /‖w p‖

+ Bước 6: nếu w p không hội tụ thì quay lại bước 3.
+ Bước 7: Đặt p p1 và cứ tăng p thêm 1 đến khi p = m
Khi chọn xong w p ta lưu lại trong ma trận W (w p ứng với một cột của W )
- Các tính chất của FastICA :
Sự hội tụ có dạng lập phương; điều này chống lại các thuật toán ICA
thơng thường dựa theo phương pháp gradient descent (trong đó nói rằng sự hội
tụ là tuyến tính). Điều đó có nghĩa là sự hội tụ diễn ra rất nhanh, được kiểm
chứng bằng các thí nghiệm dựa trên dữ liệu thực.

Chống lại lý thuyết dựa trên gradient, khơng có bước lựa chọn thơng số
tham số kích thước. Điều đó có nghĩa là thuật tốn dễ sử dụng.
+ Thuật tốn tìm trực tiếp các đối tượng độc lập của phân bố phi Gauss
dùng hàm khơng tuyến tính .
+ Các đối tượng độc lập xấp xỉ từng cái một. Do đó rất hữu hiệu trong
phân tích dữ liệu thăm dị, và cắt giảm sự tính tốn trong trường hợp chỉ cần xấp
xỉ một số đối tượng độc lập.
+ Phương pháp Fast ICA hầu như có tất cả sự tiện lợi của thuật tốn
neural. Nó có tính song song, phân bố, dễ tính tốn, cần ít khơng gian bộ nhớ
hơn.
1.5. Tiền xử lý ICA
Thường trước khi ước lượng ICA cho dữ liệu quan sát được người ta áp
dụng một hai tiền xử lý để việc ước lượng ICA được thuận lợi hơn.
1.5.1 Qui tâm
Như đã nêu ở trước, các tín hiệu trộn quan sát được phải có kỳ vọng
m=E [ x ] =0 điều này cũng có nghĩa là các tín hiệu nguồn s cũng có kỳ vọng bằng

10
0. Nếu các tín hiệu chưa có kỳ vọng bằng 0 ta thực hiện phép qui tâm tức là trừ
phân bố của các biến ngẫu nhiên với các kỳ vọng của chúng:
'
'
x ¿ x −E {x }trong đó x 'là vector ngẫu nhiên chưa có kỳ vọng bằng 0. Sau khi đã
ước lượng ma trận A và các thành phần s ta có thể thêm trở lại các kỳ vọng của
chúng. Khi vector ngẫu nhiên x (hoặc s) có kỳ vọng bằng 0 thì hiệp phương sai
và tương quan của nó giống nhau.
1.5.2 Trắng hóa
Sau khi đã qui tâm các biến ngẫu nhiên x, ta áp dụng một biến đổi tuyến tính
trên x để được vector mới là trắng. Sự làm trắng hay trắng hóa whitening), cịn

gọi cầu hóa (sphering), có mục đích làm cho dữ liệu bất tương quan. Giả sử ta
có vector ngẫu nhiên x bất tương quan, tức là xuyên phương sai của các phần tử
bằng 0, dẫn đến ma trận hiệp phương sai là ma trận chéo có các số hạng chéo
tương ứng với các phương sai của các phần tử của x . Nếu các phương sai này
được cho bằng 1, nghĩa là ma trận hiệp phương sai được cho bằng với ma trận
đơn vị I thì vector ngẫu nhiên x là trắng:
E [ x x τ ] ( x làtrắng)

Việc làm trắng là một biến đổi tuyến tính
z=V x

Trong đó x là dữ liệu cần làm trắng, V là ma trận làm trắng, z là dữ liệu đã
trắng hóa. Cách thường dùng nhất để tìm ma trận làm trắng là thực hiện sự phân
ly trị riêng (Eigenvalue Decomposition - EVD) trên ma trận hiệp phương sai:
E [ x x ] =E D E
τ

τ

Trong đó E là ma trận trực giao của các vector riêng của E [ x x τ ] và D là ma
trận chéo của các trị riêng của chúng,

[

d1 0 0 0
0 d2 0 0
D=
0 0 ⋮ 0
0 0 0 dn

]

n là số lượng nguồn quan sát được x . Matrận làm trắng là:
V =E D

Trong đó
D

−1 /2

=

[

−1 /2

d1

0

−1/ 2

0

d
0 0
0 0

−1/ 2
2

E

τ

0 0
0 0
⋮
0
−1/ 2
0 dn

]

Ma trận làm trắng trên cũng có thể biểu diễn như sau:
−1 /2

V =E [ x x τ ]

/2
=C−1
xx

Trong đó C x x =E [ x x τ ] là ma trận hiệp phương sai.

11
~

Vậy z=V x=V A s= A s

~
Trong đó A=V A là ma trận trộn đã làm trắng. Mặt khác z là dữ liệu đã
làm trắng nên
E [ x x ] =I
~ τ ~
τ ~τ
Suy ra: E [ x x τ ]=E {~
A s ⌈ A s ⌉ } = A E {s s } A
τ

Ta cần chú ý rằng các thành phần độc lập si đều giả sử có phương sai đơn
vị. Vậy ma trận đã làm trắng là trực giao (ở ma trận trực giao nghịch đảo bằng
τ ~−1
chuyển vị:~
A = A ).
Ta biết ma trận n x n nếu khơng trực giao chứa n2 độ tự do, cịn nếu trực
giao chỉ chứa n(n-1)/2 độ tự do. Với dữ liệu hai chiều điều này có nghĩa là độ tự
do chỉ là một cho một biến đổi trực giao. Khi số chiều lớn, độ tự do của một ma
trận trực giao chỉ là phân nửa độ tự do của ma trận khơng trực giao. Do đó người
ta nói làm trắng là đã giải quyết phân nửa bài toán ICA. Bởi vì trắng hóa là một
thủ tục đơn giản hơn bất cứ thuật toán ICA nào nên là một tiền xử lý thơng
dụng.
Sau khi đã ước lượng ma trận trắng hóa, thì việc ước lượng các thành
phần độc lập s trở thành:
s=W z trong đó W là khả đảo.
Với các ma trận vuông việc lấy nghịch đảo rất thuận lợi. Sau khi có được
W , việc ước lượng ma trận gốc A cho bởi
~
−1 /2 τ
A=V A=D

E A

Suy ra A=E D−1/ 2 ~
A=E D−1 /2 W −1=E D−1/2 W τ
Do W trực giao nên W −1=W τ

12
II. ỨNG DỤNG CỦA ICA VÀO ƯỚC LƯỢNG ĐỘ SÂU ẢNH MẶT
NGƯỜI
Trong nhiều năm qua, các mẫu mặt CANDIDE 3-D đã được sử dụng rộng
rãi để biểu diễn và nhận dạng khn mặt 3-D, chủ yếu là vì tính đơn giản và tính
khả dụng của nó. Mơ hình là một mặt nạ được tham số hóa được phát triển đặc
biệt để mã hóa khn mặt người dựa trên mơ hình.
Phiên bản thứ ba của mơ hình CANDIDE, được gọi là CANDIDE-3, bao
gồm 113 đỉnh và 168 bề mặt tam giác, như thể hiện trong Hình 1. Mỗi đỉnh
được biểu diễn bằng tọa độ 3-D của nó. Xem xét các giá trị độ sâu (tọa độ z) của
mơ hình CANDIDE như một đầu vào của cICA (constrained ICA – ICA có điều
kiện), bài tốn ICA khơng đầy đủ có thể được chuyển đổi thành bài tốn cICA
thơng thường. Điều này có thể tăng độ chính xác ước lượng độ sâu đáng kể. Một
cách được sử dụng thêm trong đó sử dụng mơ hình CANDIDE để tạo tín hiệu
tham chiếu. Tín hiệu tham chiếu này không chỉ được sử dụng trong việc khởi tạo
cấu trúc mặt 3-D để ước lượng, nó cịn được sử dụng trong hàm tương quan của
mơ hình cICA. Hơn nữa, một phương pháp tích hợp mơ hình được đề xuất để
cải thiện độ chính xác của ước tính độ sâu khi có nhiều hơn một khn mặt
khơng nhìn trực diện hình ảnh có sẵn.
So với một phương pháp hiện có dựa trên thước đo khoảng cách tương tự,
một ưu điểm quan trọng của thuật toán được đề xuất là khơng cần hình ảnh
khn mặt nhìn chính diện để ước tính giá trị độ sâu của các đỉnh của mơ hình
mặt 3-D.

Hình 2. 1. Mơ hình CANDIDE-3 với 113 đỉnh và 168 bề mặt tam giác
2.1. Xây dựng mô hình cICA

13
Các đặc điểm hình ảnh được biểu thị bằng tọa độ (x, y) của các điểm đặc
trưng trên khuôn mặt, được sử dụng trong thuật tốn để ước tính các giá trị độ
sâu tương ứng z, tức là tọa độ z. Giả sử rằng n điểm đặc trưng được đánh dấu
trên các hình ảnh khn mặt.( M xi , M yi , M zi ) đại diện cho điểm đặc trưng thứ i
của một
mơ hình mặt 3-D xem trực diện M và ¿) là điểm đặc trưng thứ i của mặt 2-D
khơng nhìn trực diện q. Ma trận quay R đối với q được cho như sau:

[

][

][

][

]

r 11 r 12 r 13
cosϕ sinϕ 0
cosψ 0 −sinψ
1
0
0

R= −sinϕ cosϕ 0 × 0
1
0 × 0 cosθ sinθ = r 21 r 22 r 23 (2.1)
0
0
1
sinψ 0 cosψ
0 −sinθ cosθ
r 31 r 32 r 33

trong đó các tham số tư thế ϕ , ψ và θ lần lượt là góc quay xung quanh các
trục x, y và z. Sau đó, q trình xoay và dịch để ánh xạ hình ảnh khn mặt nhìn
chính diện sang hình ảnh khn mặt khơng nhìn chính diện có thể được đưa ra
bởi:

( )( )

Mx
qx
r 11 r 12 r 13
t
=k
M y + x (2.2)
r 21 r 22 r 23
ty
qy
Mz

( ) (

)

i

i

i

i

i

Với i=1,2 , … . , p
trong đó k là hệ số tỷ lệ và (t x , t y ) là các phép tịnh tiến dọc theo trục x và y.
Dạng ma trận của (2.2) có thể được viết như sau:
q=k R2 × 3 M +t (2.3)
τ

Trong đó q là ma trận 2 × p sao cho mỗi cột ( q x q y ) đại diện cho tọa độ (x,
τ
y) của một điểm đặc trưng, M là ma trận sao cho mỗi cột ( M x M y M Z ) đại diện
cho tọa độ (x, y, z) của một điểm đặc trưng, và t là ma trận 2 × p sao cho tất cả
τ
các cột là ( t x t y ) .
Về phương pháp tiếp cận căn chỉnh hình dạng, thuật ngữ dịch t có thể bị
loại bỏ nếu cả q và M đều có tâm tại điểm gốc, tức là
i

i

i

i

i

q ← q−~
q (2.4)
~
M ← M − M (2.5)

q=k R2 × 3 M (2.6)
p

trong đó ~q là ma trận 2 × p sao cho mỗi cột là (1/ p) ∑ ( q x q y ) τ và M là ma trận 3 × p
i=1

p

sao cho mỗi cột là (1/ p) ∑ ( M x M y M Z ) τ.Chứng tỏ:
i=1

i

i

i

A=k R2 ×3 (2.7)

Phương trình (2.6) sau đó có thể được viết lại thành:

i

i

14
q= A M (2.8)

Từ (2.8) có thể thấy rằng A có thể được xem như một ma trận trộn và q là
hỗn hợp của M . Giả sử rằng phân phối của các biến M x , M y và M z khơng phải là
Gaussian, bài tốn ước lượng cấu trúc 3-D có thể được xây dựng như một bài
tốn BSS, như được mô tả trong (2.8). Như chúng ta đã biết, BSS tương đương
với ICA trong quá trình hỗn hợp tuyến tính và các tín hiệu nguồn có thể được
khơi phục bằng cách sử dụng thuật tốn ICA, tức là, độ sâu M z có thể được khơi
phục thơng qua các thuật tốn ICA bằng cách tối đa hóa phân phối khơng Gauss.
Lưu ý rằng số tín hiệu nguồn trong M là 3, trong khi số tín hiệu hỗn hợp
trong q là hai. Có nghĩa là, một số thơng tin bị mất trong quá trình trộn, và quá
trình trộn này là khơng thể đảo ngược. Khơi phục 3 tín hiệu nguồn từ 2 tín hiệu
quan sát là một bài tốn ICA q đầy đủ điển hình, đây vẫn là một bài tốn khó
khăn hiện nay.
Cho n tín hiệu hỗn hợp x=( x 1 , x 2 , … ., x n ) đối với bài toán ICA quá đầy đủ,
một cách tiếp cận để giải bài toán là ước lượng ma trận trộn A và m tín hiệu
nguồn s= ( s 1 , s2 , … . , sm ) hoặc thông qua ước lượng khả năng tối đa xảy ra (ML).
Cho trước x và một ma trận trộn ban đầu A , ước lượng ML của các tín hiệu
nguồn s có thể được đưa ra bởi
^s=arg min ∑ |si|( 2.9)
x= A s i

được xây dựng dưới dạng một hàm tuyến tính và có thể được giải bằng
cách sử dụng các phương pháp cổ điển để lập trình tuyến tính. Hơn nữa, ước
lượng ML của A cho một s đã cho có thể được tính như
−1

τ
τ
( ∑ x (t ) x(t) ) ∑ x(t ) s(t) (2.10)

A=

t

t

trong đó x(t ) biểu thị vectơ mẫu của x tại thời điểm t, và s(t ) là vectơ mẫu
của s tại thời điểm t. Thay vì sử dụng ước lượng ML, một thuật tốn hình học đã
được đề xuất để khơi phục ma trận trộn hiệu quả hơn. Thông tin trước là một
nguồn quan trọng để giảm bớt tác động tiêu cực do thơng tin bị thiếu. Tín hiệu
tham chiếu đã được chứng minh là thông tin hiệu quả trước đây trong các
phương pháp ICA và BSS.
cICA cung cấp một quy tắc chung để kết hợp các thơng tin trước đó. Từ
(2.8) có thể thấy rằng chỉ có một tín hiệu nguồn không xác định trong M , tức là
thông tin độ sâu M z . Do đó, chúng ta chỉ cần trích xuất M z bằng tín hiệu tham
chiếu tương ứng. Dựa trên những xem xét ở trên, cICA là một cách tiếp cận phù
hợp để ước lượng cấu trúc 3-D. Ký hiệu y là tín hiệu ước tính của M z , tức là:
y=w q (2.11)

trong đó w là ma trận khơng trộn. Trong thuật tốn cICA, entropy âm J ( y )
được sử dụng như một hàm tương phản và cICA được xây dựng như một bài

toán tối ưu hóa có điều kiện như sau:
min J ( y ¿)¿

15
s . t . g ( y , w ) ≤ 0 và h ( y , w ) =0(2.12)

Ở đây, các hàm g ( y , w ) vàh ( y , w ) lần lượt thể hiện các điều kiện bất đẳng
thức và đẳng thức. Các điều kiện bất đẳng thức là các phép đo xấp xỉ của ước
lượng các đầu ra và các tham chiếu tương ứng của chúng, và các điều kiện xảy
ra đẳng thức được thông qua để loại bỏ mối quan hệ tương quan giữa bất kỳ
thành phần đầu ra nào trong số hai thành phần đầu ra khác nhau. Chúng ta có thể
thu được tín hiệu nguồn y bằng cách tối ưu hóa hàm mục tiêu. Vấn đề tối ưu hóa
trong (2.12) có thể được giải quyết bằng cách sử dụng hệ số nhân Lagrange như
sau:
L ( w , μ , λ )=J ( y ) + g ( y , w , μ )+ h ( y , w , λ ) (2.13)

trong đó μ và λ biểu thị các hằng số nhân Lagrange và g ( y , w , μ ) và h ( y , w , λ ) lần
lượt là các số hạng tương ứng với các điều kiện bất đẳng thức và đẳng thức.
Trong mỗi lần lặp, sự thay đổi của hệ số nhân μ và λ được cho bởi:
Δ μ=max {−μ , η g ( y , w ) } (2.14)
Và
Δ λ=γh ( y , w ) (2.15)

trong đó η và γ là tốc độ học tập (Sử dụng trong học máy). Gradient của L đối
với w được cho như sau:
Δ w L=E {J ' ( y )x τ }+ μ Δw g ( y )+ 4 λ ( E { y 2 }−1 ) E { y x τ } (2.16)

trong đó g ( y )=E {( y −r )2 }, và Δ w g ( y ) là đạo hàm của g ( y ) đối với w . Quy tắc
học tập giống Newton của w có thể được đưa ra bởi:

−1

Δ w=−η ( Δ w L ) Δw L=
2

−η

2 μ+ 8 λ−E { ρ f ( y ) }
''

[

'

τ

τ

2

2
trong đó ρ là hằng số dương, Δ w L=∂ ( Δ w L ) / ∂ w, σ −1
x x biểu thị ma trận hiệp
2
phương sai ngược của x , f ( y ) =log ⁡(cosh ⁡(ay ))/a−a y /2 là đối với tín hiệu siêu
Gaussian và f ( y ) =b y 4 cho tín hiệu Gaussian phụ.
2.2. Xây dựng mơ hình và khởi tạo ma trận hủy trộn
Có hai vấn đề quan trọng cần giải quyết để xây dựng mơ hình. Một là
cách xây dựng một mơ hình cICA hiệu quả, và hai là cách khởi tạo ma trận
không trộn. Mặc dù một số tín hiệu có thể được trích xuất bằng cách sử dụng

thuật tốn cICA bằng cách tối thiểu hóa hàm mục tiêu (2.12), nhưng ước lượng
độ sâu không đủ chính xác vì hỗn hợp q có thể khơng chứa đủ thơng tin về độ
sâu. Ngồi ra, vẫn cịn khó khăn để ước lượng ma trận không trộn và các tín hiệu
nguồn cho bài tốn q đầy đủ. Ở đây, chúng ta sử dụng các giá trị độ sâu
z c =( z c 1 , z c 2 , … . , z cp ) của các điểm đặc trưng trong mơ hình CANDIDE như một
hỗn hợp. Sau đó, z c và q được kết hợp để tạo thành đầu vào của thuật tốn cICA.
Cơng thức:

Q=

]

× E { J ( y ) x }+ 2 μE {( y −r ) x }+ 4 λ ( E { y } −1 ) E { y x } σ x x (2

( zq )(2.18)

Cơng thức 2.11 có thể viết lại như sau:

c

τ

−1

16
y=w Q(2.19)

Theo giả thiết này, số lượng tín hiệu nguồn bằng số lượng tín hiệu hỗn
hợp. Do đó, mơ hình cICA đã xây dựng trở thành một bài toán ICA bình thường

chứ khơng phải là một bài tốn q đầy đủ.
Bài tốn ICA thơng thường này cũng có thể được giải quyết bằng cách sử
dụng một số thuật toán ICA điển hình, chẳng hạn như thuật tốn điểm cố định
nổi tiếng, được gọi là FastICA, là một thuật toán ICA rất hiệu quả và đáng tin
cậy đã trình bày ở phần 1. FastICA dựa trên sơ đồ lặp điểm cố định để xác định
mức tối đa không phải Gauss của y , được thể hiện bằng:
J ( y ) ∝ [ E { G ( y ) }−E { G ( ν ) } ] (2.20)
2

trong đó ν biểu thị một biến Gaussian, và G là một hàm không phải hàm bậc 2,
chẳng hạn như:
1
G ( y )= log cosh ( a y ) với 1 ≤ a ≤2(2.21)
a

Hoặc
G ( y )=−exp

( )
2

−y
(2.22)
2

Tuy nhiên, thông tin trước trong các tham chiếu không chỉ được sử dụng
trong hàm tương phản mà cịn trong việc khởi tạo thuật tốn cICA. Do đó, có thể
đạt được mức độ chính xác ước tính độ sâu cao hơn.
Do các tín hiệu tham chiếu thu được từ các dấu hiệu của các tín hiệu
nguồn. Vì độ sâu thực sự của cấu trúc mặt 3-D sẽ được tái tạo là không xác định,

nên không thể xác định được tín hiệu tham chiếu. Tuy nhiên, nhìn chung, tất cả
các khn mặt đều có cấu trúc 3-D tương tự nhau. Vì mơ hình CANDIDE là mơ
hình mặt 3-D chung, các giá trị độ sâu của nó phù hợp để lấy làm tín hiệu tham
chiếu. Trước tiên, chúng tơi trừ giá trị trung bình của z c, ~z c từ z c, tức là:
z c =z c −~z c (2.23)

p

trong đó ~z c là vectơ 1 x p sao cho tất cả các phần tử đều là (1/ p)∑ z ci . Sau đó,
i=1

các dấu hiệu của z c được sử dụng làm tín hiệu tham chiếu r , tức là

{

−1, z ci <0
r i =sign ( z c ) = 0 , z ci=0 (2.24 )
1, z ci >0

trong đó sign (.) là hàm dấu hiệu (hàm lẻ)
Để đánh giá hiệu suất của các thuật toán, cơ sở dữ liệu Bosphorus được sử
dụng. Mỗi hình ảnh khn mặt ở chế độ xem chính diện trong cơ sở dữ liệu này
có 24 điểm đặc trưng trên khn mặt được đánh dấu. Vì khơng có điểm tương
ứng trong mơ hình CANDIDE cho các điểm đặc trưng 23 và 24, chỉ có các điểm
1-22 được chọn ở đây để tạo thành tín hiệu tham chiếu, như trong Hình 2.2.

17

Hình 2. 2. Vị trí của 22 điểm đặc trưng được đánh dấu trong cơ sở dữ liệu

Hình 2.3 cho thấy các tín hiệu tham chiếu của bốn điểm đầu tiên đối
tượng (bs000-bs003) thu được bằng cách sử dụng mô hình CANDIDE và các
giá trị độ sâu thực. Có thể thấy rằng các tín hiệu tham chiếu thu được từ mơ hình
CANDIDE trùng với các tín hiệu thu được bởi các giá trị độ sâu thực cho hầu
hết các điểm đặc trưng trên khn mặt. Do đó, điều này cho thấy rằng việc sử
dụng mơ hình CANDIDE để xây dựng tín hiệu tham chiếu là khả thi.

Hình 2. 3. So sánh các tín hiệu tham chiếu dựa trên mơ hình CANDIDE và giá
trị độ sâu thực cho 4 khuôn mặt riêng biệt.

18
Cần chỉ ra rằng các tín hiệu nhị phân của các giá trị độ sâu thực thể hiện
trong Hình 2.3 chỉ được sử dụng để thể hiện hiệu quả của phương pháp xây
dựng tín hiệu tham chiếu. Chúng khơng được sử dụng trong ước lượng giá trị độ
sâu hoặc tính tốn chỉ số hiệu suất. Với tín hiệu tham chiếu r được dẫn xuất như
đã giải thích trước đây, ma trận khơng trộn ban đầu có thể được tính như sau:
ξ

w 0=q r ( 2.25)

trong đó q ξ là nghịch đảo tổng qt Moore-Penrose của q
2.3. Tích hợp mơ hình cho nhiều hình ảnh khn mặt khơng nhìn trực
diện
Một hình ảnh khn mặt khơng nhìn trực diện là đủ để đánh lừa cấu trúc
mơ hình cICA. Khi có nhiều hơn một hình ảnh khn mặt khơng nhìn trực diện,
phương pháp tích hợp mơ hình được sử dụng để cải thiện hơn nữa độ chính xác
của ước lượng độ sâu.

Hình 2. 4. Lưu đồ của phương pháp tích hợp mơ hình

Hình 2.4 cho thấy sơ đồ của phương pháp tích hợp mơ hình. Đối với hình
ảnh khn mặt khơng trực diện, đặc điểm hình dạng q i được kết hợp với z c để
tạo thành đầu vào Q của thuật toán cICA. Sau đó, tín hiệu độ sâu z i có thể được
xác định bằng thuật toán cICA. Giá trị trung bình của z i được tính như sau:
ˇz =

N

1
∑ z i (2.26)
N i=1

được sử dụng làm tín hiệu hỗn hợp để thay thế z c . Việc lặp lại được thực
hiện cho đến khi đạt đến số lần lặp tối đa được xác định trước. Các bước cụ thể
của phương pháp được đưa ra như sau:
- Bước 1: Đặt số lần lặp tối đa ( N iter ).

19
- Bước 2: Khởi tạo các giá trị độ sâu z c và thu được tín hiệu tham chiếu
bằng cách sử dụng các giá trị độ sâu của 22 điểm đặc trưng được cung cấp bởi
mơ hình CANDIDE (các điểm đặc trưng này có cùng vị trí với 22 điểm đặc
trưng được thể hiện trong Hình 2.2).
- Bước 3: Đối với mỗi hình ảnh khn mặt đào tạo, đặc điểm hình dạng
của các điểm đặc trưng và z c được kết hợp để tạo thành đầu vào của mơ hình
cICA.
- Bước 4: Tính tốn ma trận khơng trộn ban đầu theo (2.25), cập nhật ma
trận không trộn theo (2.17) và tính tốn các giá trị độ sâu ước tính y bằng cách
sử dụng (2.11).
- Bước 5: Tính tốn các giá trị trung bình tương ứng của độ sâu của các điểm

đặc trưng như được ước lượng cho tất cả các hình ảnh đào tạo, sau đó thay thế z c.
Các bước 3-5 được lặp lại cho đến khi số lần lặp đạt đến giá trị lớn nhất
được xác định trước N iter .
2.4. Kết quả thực hiện
2.4.1. Dữ liệu thử nghiệm và các phương pháp liên quan được so sánh
Thực hiện đánh giá phương pháp được trên cơ sở dữ liệu Bosphorus, đây
là một cơ sở dữ liệu khuôn mặt 3-D bao gồm một bộ biểu cảm phong phú, các
biến thể có hệ thống của các tư thế và các kiểu ăn khớp khác nhau. Một ưu điểm
nổi bật khi sử dụng cơ sở dữ liệu này là có sẵn các tọa độ 3-D của một tập hợp
các điểm đặc trưng trên khn mặt được xác định trước. Nói cách khác, các giá
trị ước lượng độ sâu của cấu trúc mặt 3-D được tái tạo có thể được so sánh với
các giá trị thực trên mặt của nó. Do đó, hiệu suất của các thuật tốn tái tạo 3-D
có thể được đánh giá và so sánh chính xác hơn. Tọa độ 2-D tương ứng của các
điểm đặc trưng cho tất cả các tư thế trong cơ sở dữ liệu cũng được cung cấp. Nói
chung, các điểm đặc trưng tương ứng cho chế độ xem 2-D của tư thế tùy ý được
hình thành khi thu được các điểm đặc trưng này thông qua việc sử dụng các
điểm đánh dấu trong quá trình thu nhận hình ảnh hoặc bằng cách sử dụng bất kỳ
thuật tốn phát hiện điểm đặc điểm khn mặt nào. Trong mơ hình cICA, tín
hiệu nguồn được giả định là các giá trị độ sâu của hình ảnh mặt nhìn chính diện.
Do đó, để hình thành tín hiệu tham chiếu, chúng ta chỉ cần xác định vị trí của 22
điểm đặc trưng trong mơ hình CANDIDE (như trong Hình 2.2), tương ứng với
22 điểm đặc trưng được đánh dấu trong cơ sở dữ liệu Bosphorus (như trong
Hình 2.3). Đối với cơ sở dữ liệu này, chủ yếu xử lý những hình ảnh có sự thay
đổi tư thế. Làm thế nào để đáp ứng với sự thay đổi biểu hiện, sự thay đổi độ
chiếu sáng và sự ăn khớp. Tất cả các mô phỏng được thực hiện trong môi trường
MATLAB.
Để đánh giá hiệu quả, phương pháp đề xuất được so sánh với FastICA,
glCA, và phương pháp tái tạo khuôn mặt 3-D dựa trên sự biến đổi tương đồng
(SM). Để làm cho biểu thức thuận tiện hơn, phương pháp tích hợp mơ hình được
sử dụng trong cICA được ký hiệu là cICA_MI.

2.4.2. Kết quả thử nghiệm trên Cơ sở dữ liệu Bosphorus

NGHIÊN CỨU THUẬT TOÁN ICA VÀ ỨNG DỤNG ƯỚC LƯỢNG ĐỘ SÂU ẢNH MẶT NGƯỜI

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về