Tải bản đầy đủ (.pdf) (7 trang)

Proceedings VCM 2012 71 xây dựng giải thuật xác định hướng nhìn từ ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (460.76 KB, 7 trang )

522 Huỳnh Thái Hoàng
VCM2012
Xây dựng giải thuật xác định hướng nhìn từ ảnh
có độ phân giải thấp sử dụng đặc trưng PCA và mạng thần kinh
Development of an eye gaze detection algorithm from
low resolution images using PCA feature and neural networks
Huỳnh Thái Hoàng
Trường Đại học Bách Khoa TPHCM
e-Mail:
Tóm tắt
Bài báo trình bày một giải thuật mới xác định hướng nhìn từ ảnh mắt có độ phân giải thấp sử dụng phương
pháp phân tích thành phần chính (Principal Component Analysis - PCA) và mạng thần kinh. Trước tiên, ảnh
mắt được tách ra từ ảnh mặt người thu nhận từ camera sử dụng bộ lọc thích nghi tăng cường Adaboost và đặc
trưng Haar. Một tập hợp các ảnh mắt mẫu thu nhận trong các điều kiện chiếu sáng khác nhau được sử dụng để
xây dựng không gian mắt riêng (Eigeneyes) dựa trên phương pháp phân tích thành phần chính. Tọa độ của các
ảnh mẫu trong không gian mắt riêng được sử dụng để huấn luyện một mạng thần kinh hồi qui ba lớp. Kết quả
thực nghiệm cho thấy mạng thần kinh sau khi đã được huấn luyện có thể xác định được hướng nhìn của mắt với
độ chính xác cao và bền vững với điều kiện ánh sáng môi trường làm việc.
Abstract:
The paper presents a new algorithm for eye-gaze detection from low resolution images using Pricipal
Component Analysis (PCA) and neural networks (NN). First, eye images are extracted from human face
images using Adaboost filter and Haar-like features. A set of sample eyes collected under different lighting
conditions is used to build an eigeneye space based on PCA. The coordinates of the sampled eye images in the
Eigen-eye space are employed to train a three-layer recurrent neural networks. Experimental results show that
the trained neural networks can determine eye gaze direction with high accuracy and robustness to lighting
conditions of the working enviroment.

1. Giới thiệu
Những năm gần đây, các kỹ thuật xác định hướng
nhìn (eye gaze detection) được nhiều nhà khoa học
quan tâm nghiên cứu do có nhiều ứng dụng hữu


ích trong các thiết bị y tế, thiết bị giao tiếp người
máy phục vụ giải trí và đặc biệt là các ứng dụng hỗ
trợ người khuyết tật, người già trong giao tiếp và
điều khiển các thiết bị phục vụ. Kỹ thuật xác định
hướng nhìn dùng để đo điểm nhìn của mắt hay
chuyển động tương đối của mắt so với đầu. Tùy
theo thiết bị sử dụng mà các kỹ thuật xác định
hướng nhìn có thể phân chia làm 3 nhóm chính: kỹ
thuật đo điện mắt, kỹ thuật dùng kính áp tròng và
kỹ thuật xử lý ảnh mắt Error! Reference source
not found So với kỹ thuật sử dụng điện mắt hay
kỹ thuật dùng kính áp tròng, kỹ thuật xử lý ảnh có
ưu điểm là người dùng không cảm thấy khó chịu
vì phải mang nhiều thiết bị trên người khi sử dụng.
Do vậy, đa số các thiết bị xác định hướng nhìn hỗ
trợ giao tiếp người máy hoặc phục vụ giải trí hiện
nay đều dựa trên công nghệ xử lý hình ảnh mắt.
Có hai cách lắp đặt camera để thu nhận ảnh mắt là
gắn camera vào nón đội đầu hoặc gắn camera cố
định trước mặt người dùng. Các giải thuật xác định
hướng nhìn từ ảnh mắt có thể phân làm hai nhóm:
i) xác định hướng nhìn dựa vào các đặc trưng hình
học của mắt như mí mắt, góc mắt, tròng đen, con
ngươi [2-3]; ii) hoặc xác định hướng nhìn dựa vào
mô hình hộp đen của mắt thu được thông qua quá
trình huấn luyện với tập dữ liệu mẫu là ảnh mắt
đang nhìn các hướng khác nhau [4-5]. Bài báo [3]
xác định hướng nhìn bằng cách dựa vào các đặc
trưng hình học của mắt. Trước tiên, ảnh mắt được
tách biên và phương pháp bình phương tối thiểu

được sử dụng để xấp xỉ tròng đen bằng đường
tròn, hai mí mắt được xấp xỉ bằng hai parabol. Từ
đó xác định được tâm tròng đen là tâm đường tròn
và hai góc mắt là giao điểm của hai đường parabol.
Sau đó, dựa vào vị trí tương đối giữa tâm tròng
đen và hai góc mắt để xác định hướng nhìn. Để có
thể xác định chính xác các đặc trưng hình học của
mắt đòi hỏi phải thu được ảnh mắt có độ phân giải
cao. Do đó, phương pháp này thích hợp với các hệ
thống xác định hướng nhìn sử dụng camera đội
đầu. Thay vì sử dụng các đặc trưng hình học, công
trình [4] đề xuất phương pháp xác định hướng
nhìn dựa vào dáng vẻ của mắt. Mức xám của ảnh
mắt được biểu diễn thành một vector không gian
nhiều chiều. Một tập mẫu gồm các vector trong
không gian nhiều chiều tương ứng với các hướng
Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 523
Mã bài: 124
nhìn khác nhau được thu thập và lưu vào cơ sở dữ
liệu. Hướng nhìn được xác định dựa trên khoảng
cách giữa vector biểu diễn ảnh mắt đang xét và các
vector lưu trong cơ sở dữ liệu. Để rút bớt số chiều
vector đặc trưng, thay vì sử dụng vector mức xám
của các điểm ảnh, nghiên cứu [5] sử dụng phương
pháp phân tích thành phần chính (Principal
Component Analysis - PCA) để trích các đặc trưng
cơ bản của ảnh mắt trong các tình huống nhìn trái,
nhìn phải, nhìn lên, nhìn xuống, nhìn thẳng và lưu
vào cơ sở dữ liệu. Trên cơ sở so sánh khoảng cách
giữa các đặc trưng PCA của ảnh mắt thu nhận với

các đặc trưng của ảnh mẫu lưu trong cơ sở dữ liệu
sẽ xác định được hướng nhìn. Phương pháp này
xác định hướng nhìn dựa vào dáng vẻ tổng thể của
mắt khi nhìn các hướng khác nhau chứ không cần
xác định chính xác các đặc trưng hình học của
mắt, do đó có thể áp dụng được trong các trường
hợp ảnh thu nhận có độ phân giải thấp như sử
dụng camera gắn cố định trước mặt người dùng.
Gần đây đã có một số nghiên cứu ứng dụng thành
công mạng thần kinh để xác định hướng nhìn.
Nghiên cứu [7] sử dụng mạng thần kinh để ước
lượng vị trí tâm con ngươi, sau đó hướng nhìn
được xác định dựa vào khoảng cách giữa vị trí ước
lượng tâm con ngươi và vị trí các góc mắt. Bài báo
[8] sử dụng mạng thần kinh truyền thẳng để xác
định hướng nhìn theo thời gian thực. Đặc trưng
huấn luyện mạng thần kinh bao gồm vị trí hai góc
của dải băng sọc gắn phía trên kính đeo mắt, vị trí
tròng đen và khoảng cách theo trục đứng từ tâm
tròng đen đến các mí mắt. Các đặc trưng trên cho
phép giảm số ngõ vào của mạng thần kinh, nhờ đó
giảm thời gian tính toán. Phương pháp đề xuất
trong bài báo có khuyết điểm khó xác định chính
xác khoảng cách từ tâm tròng đen đến các mí mắt
trong trường hợp ánh sáng chiếu vào mặt.
Độ chính xác của các giải thuật xác định hướng
nhìn dựa vào hình ảnh phụ thuộc rất nhiều vào
chất lượng nhìn ảnh thu được từ camera. Chất
lượng ảnh mắt thường không tốt khi mắt chuyển
trạng thái (chuyển hướng, chớp mắt) hoặc khi ánh

sáng môi trường thay đổi. Mục tiêu của nghiên
cứu này là đề xuất một giải thuật mới, xác định
hướng nhìn trên cơ sở sử dụng phân tích PCA kết
hợp với mạng thần kinh hồi qui, để nâng cao chất
lượng xác định hướng nhìn khi mắt chuyển trạng
thái, đồng thời tăng tính bền vững của giải thuật
với sự thay đổi điều kiện ánh sáng môi trường làm
việc.
Các phần tiếp theo của bài báo như sau: mục 2 xây
dựng giải thuật tổng quát xác định hướng nhìn.
Mục 3 trình bày phương pháp trích đặc trưng ảnh
mắt dùng phân tích PCA. Mục 4 đề xuất cấu trúc
mạng thần kinh xác định hướng nhìn dựa vào đặc
trưng PCA. Mục 5 là kết quả thực nghiệm. Kết
luận và hướng phát triển được trình bày ở mục 6.
2. Xây dựng giải thuật
Lưu đồ giải thuật xác định hướng nhìn từ ảnh mắt
thu nhận bởi camera đặt cố định trước mặt người
dùng được trình bày ở hình 1. Giải thuật gồm các
bước sau:
Bước 1: Thu ảnh và tiền xử lý. Chức năng của
khối tiền xử lý là chuyển ảnh thu được từ camera
thành ảnh xám và tăng cường chất lượng ảnh dùng
phương pháp cân bằng Histogram để giảm thiểu
ảnh hưởng của nhiễu và ánh sáng môi trường, nhờ
đó các bước xử lý tiếp theo đạt kết quả tốt hơn.
Bước 2: Dò tìm mặt người trong ảnh dùng thuật
toán Adaboost và đặc trưng Haar [9], hệ thống có
thể xác định vị trí khuôn mặt trong ảnh với tỉ lệ
nhận dạng đúng cao. Đối với những ảnh nguồn có

nhiều khuôn mặt xuất hiện trong ảnh, giải thuật sẽ
chọn khuôn mặt gần với vị trí của camera nhất
(khuôn mặt có diện tích

H. 1 Lưu đồ giải thuật xác định hướng nhìn của
mắt
Thu
ảnh từ Webcam


Bắt đầu

Yes


No


Ti
ền xử lý ảnh


Phát hi
ện mặt d
ùng

Adaboost và đặc trưng Haar

Tìm
th

ấy mặt ?


Ư
ớc l
ư
ợng vị trí hai mắt


Phát hi
ện mắt d
ùng

Adaboost và đặc trưng Haar

Tìm
th
ấy
m
ắt

?


Tính đ
ặc tr
ưng PCA

của từng mắt


Xác đ
ịnh h
ư
ớng nh
ìn c
ủa từng
mắt dùng mạng thần kinh

Kết thúc

K
ết luận h
ư
ớng nh
ìn

chung của hai mắt

Yes


No


524 Huỳnh Thái Hoàng
VCM2012


H. 2 Phát hiện vùng ảnh chứa mặt người
lớn nhất) để xác định hướng nhìn. Kết thúc bước

2, nếu không tìm thấy mặt người thì trở lại bước 1
thu nhận ảnh kế tiếp. Nếu tìm thấy mặt người thì
thực hiện tiếp bước 3.
Bước 3: Dò tìm hai mắt người trong ảnh mặt. Vì
mắt là bộ phận khá nhỏ so với toàn bộ khuôn mặt
nên dễ bị nhận dạng nhầm sang các bộ phận khác
như lông mày, mũi hay miệng. Để tránh việc
nhận dạng nhầm này, đồng thời để tăng tốc độ tính
toán ở bước phát hiện mắt, ta ước lượng hai cửa sổ
chứa hai mắt. Giả sử ảnh khuôn mặt có chiều rộng
là W và chiều cao là H thì hai cửa sổ hình chữ nhật
chứa ảnh mắt được ước lượng tại vị trí và có kích
thước như minh họa ở hình 3, trong đó vị trí của
điểm A và điểm B lần lượt là (x
A
=0, y
A
=H/5.5) và
(x
B
= W/2, y
B
=H/5.5). Chiều rộng và chiều cao của
hai cửa sổ chứa ảnh mắt là w=W/2 và h=H/3. Sau
đó, thuật toán Adaboost và đặc trưng Haar được sử
dụng để dò tìm hai mắt trong phạm vi hai cửa sổ
vừa ước lượng. Nếu phát hiện được ít nhất một
mắt, thực hiện tiếp bước 4 để xác định hướng nhìn.
Ngược lại, nếu không phát hiện được mắt nào thì
trở về bước 1 thực hiện lại việc thu ảnh từ

Webcam.

H. 3 Ước lượng cửa sổ chứa ảnh hai mắt
Bước 4: Phân tích đặc trưng PCA, xác định hướng
nhìn dùng mạng thần kinh và cuối cùng tổng hợp
kết quả rút ra kết luận về hướng nhìn chung của
hai mắt. Các mục tiếp theo sẽ trình bày chi tiết vấn
đề này.
3. Phương pháp phân tích thành phần
chính (PCA)
Mục này tóm lược phương pháp phân tích thành
phần chính [6] để trích đặc trưng PCA của ảnh
mắt. Xét tập mẫu gồm K ảnh mắt nhìn theo các
hướng khác nhau (nhìn thẳng, nhìn lên, nhìn trái,
nhìn phải, nhắm mắt) được thu nhận trong các điều
kiện chiếu sáng khác nhau. Hình 4 minh họa một
số ảnh mắt tiêu biểu trong tập mẫu.


H. 4 Các ảnh mắt tiêu biểu trong tập mẫu
Các ảnh mắt mẫu có cùng kích thước n hàng và m
cột. Ảnh thứ k trong tập mẫu được biểu diễn bởi
ma trận I
k
, trong đó I
k
(x,y) là giá trị mức xám của
điểm ảnh tại vị trí (x,y). Biến đổi I
k
thành vector

cột P
k
gồm có N=nm hàng:














)(:,
)2(:,
)1(:,
mI
I
I
P
k
k
k
k

(1)

trong đó I
k
(:,j) là cột thứ j của I
k
.
Định nghĩa ảnh trung bình của tập mẫu là:




K
k
k
P
K
P
1
;
1
(2)
Lấy ảnh mẫu thứ k trừ giá trị ảnh trung bình, ta
được:
PPP
kk

~
(3)
Tập hợp các ảnh mẫu sau khi trừ giá trị trung bình
được biểu diễn bằng ma trận Q kích thước NK:




K
PPPQ
~
~
~
21

 (4)
Ma trận hiệp phương sai của tập ảnh mắt mẫu là:

T
QQC  (5)
Không gian riêng của tập ảnh mắt mẫu có thể được
xác định bằng cách tính các vector riêng v
i
của ma
trận hiệp phương sai C. Vì ma trận C có kích
thước lớn (NN) nên tính toán trực tiếp các vector
riêng của C không hiệu quả. Thay vào đó, có thể
tính gián tiếp các vector riêng u
i
của ma trận Q
T
Q
(ma trận này có kích thước KK, nhỏ hơn nhiều so
với ma trận C). Đặt

i

là các giá trị riêng tương
ứng với các vector riêng u
i
, theo định nghĩa trị
riêng và vector riêng ta có:

iii
T
uQuQ

 (6)
Nhân Q vào hai vế của (6), ta được:

iii
T
QuQuQQ

 (7)
Phương trình (7) chứng tỏ

i
cũng là các trị riêng
của ma trận C= QQ
T
và các vector riêng v
i
của C
có thể tính từ các vector riêng ui của ma trận Q
T
Q

như sau:

ii
Quv  (8)
X

Y

W

H

h

w

A

B

Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 525
Mã bài: 124
Các vector riêng v
i
của C còn được gọi là các mắt
riêng (Eigeneye), nếu biến đổi vector vi (kích
thước N1) về dạng ma trận kích thước nm (cùng
kích thước với ảnh mắt mẫu ban đầu) ta được hình
ảnh biểu diễn các mắt riêng của tập mẫu ở hình 5.





H. 5 Các mắt riêng (Eigeneyes)
Để tập trung vào các đặc trưng chính của ảnh mắt,
không cần thiết phải giữ lại và sử dụng tất cả các
mắt riêng. Những mắt riêng tương ứng với giá trị
riêng bé mang ít thông tin đặc trưng và do đó nên
được loại bỏ. Ví dụ ở hình 5, những mắt riêng từ
thứ 10 trở đi gần như giống nhau, không có điểm
nhấn nổi bật và do đó những mắt riêng này mang ít
thông tin. Thông thường, ta chỉ giữ lại những mắt
riêng vượt trội tương ứng với giá trị riêng lớn hơn
một ngưỡng định trước.
Giả sử số mắt riêng vượt trội được lưu giữ để sử
dụng là d (dK). Tập hợp các mắt riêng vượt trội
của tập ảnh mẫu được biểu diễn thành ma trận V,
các cột của V chính là các vector mắt riêng v
i

(i=1 d)



d
vvvV

21
 (9)
Các vector mắt riêng trong V tạo nên một không

gian riêng. Tọa độ c
k
của các ảnh trong tập mẫu
sau khi trừ ảnh trung bình
k
P
~
trong không gian
riêng V chính là hình chiếu của
k
P
~
trên V:

k
T
k
PVc
~
 (10)
Vector tọa độ c
k
gọi là đặc trưng PCA của các ảnh
mẫu trong không gian mắt riêng.
Phương pháp đơn giản nhất để xác định hướng
nhìn từ đặc trưng PCA là phương pháp khoảng
cách ngắn nhất (Nearest Distance). Cho ảnh mắt
I
test
cần xác định hướng nhìn, biểu diễn ảnh mắt

dưới dạng vector cột P
test
theo cách đã trình bày
trên, tính sai lệch giữa ảnh mắt cần xác định hướng
nhìn và ảnh trung bình của tập mẫu :
PPP
testtest

~
(11)
Sau đó, chiếu
test
P
~
lên không gian mắt riêng:

test
T
test
PVc
~
 (12)
Hướng nhìn của ảnh mắt I
test
được xác định là cùng
hướng với ảnh mắt I
s
trong tập mẫu sao cho
khoảng cách giữa c
test


và c
s

là tối thiểu:

ktest
k
ccs  minarg
(13)
Phương pháp khoảng cách ngắn nhất ưu điểm là
tính toán nhanh, kết quả xác định hướng nhìn
chính xác nếu ảnh mắt thu được rõ ràng. Tuy
nhiên, trong trường hợp mắt chuyển hướng hoặc
chớp mắt, ảnh mắt thu được không rõ, kết quả xác
định hướng nhìn theo khoảng cách ngắn nhất có độ
chính xác không cao. Để khắc phục điểm hạn chế
nêu trên, bài báo này đề xuất dùng mạng thần kinh
hồi qui kết hợp với đặc trưng PCA để xác định
hướng nhìn.

4. Mạng thần kinh xác định hướng nhìn
Trong nghiên cứu này, hai cấu hình mạng thần
kinh được đề xuất để xác định hướng nhìn, đó là
mạng thần kinh truyền thẳng và mạng thần kinh
hồi qui [10].

4.1 Mạng truyền thẳng xác định hướng nhìn

H. 6 Mạng thần kinh truyền thẳng xác định

hướng nhìn
Cấu trúc mạng truyền thẳng xác định hướng nhìn
được trình bày ở hình 7. Cấu trúc của mạng như
sau: Mạng có các ngõ vào x
1
, , x
d
là các đặc trưng
PCA ảnh mắt trong không gian mắt riêng, với d là
số mắt riêng vượt trội được sử dụng như đã trình
bày ở mục 3. Cụ thể, trong nghiên cứu này d được
chọn bằng 10.
Mạng có 5 ngõ ra tương ứng với 5 trạng thái của
mắt (nhìn thẳng, nhìn lên, nhìn trái, nhìn phải,
nhắm mắt) cần phải xác định. Lớp ẩn gồm 50 tế
bào thần kinh với hàm kích hoạt dạng S lưỡng cực
(sigmoid), lớp ra gồm 5 tế bào thần kinh có hàm
kích hoạt tuyến tính.
Lưu đồ giải thuật huấn luyện mạng thần kinh được
trình bày ở hình 8. Phương pháp phân tích PCA và
tính tọa độ ảnh mắt mẫu trong không gian mắt riêng
đã được trình bày ở phần 3. Khối tạo dữ liệu huấn
luyện
Bảng 1: Quan hệ giữa hướng nhìn và ngõ ra của
mạng
Hướng nhìn
của ảnh mắt
mẫu
Ngõ ra của mạng thần kinh
y

1
y
2
y
3
y
4
y
5

Nhìn thẳng 1 0 0 0 0
y
1

y
2


y
5





x
1

x
2


x
3


x
d

526 Huỳnh Thái Hoàng
VCM2012
Nhìn lên 0 1 0 0 0
Nhìn trái 0 0 1 0 0
Nhìn phải 0 0 0 1 0
Nhắm mắt 0 0 0 0 1


H. 7 Lưu đồ huấn luyện mạng thần kinh


H. 8 Lưu đồ xác định hướng nhìn dùng mạng
thần kinh

mạng thần kinh có chức năng gán giá trị ngõ ra
của mạng thần kinh tương ứng với hướng nhìn của
ảnh mắt mẫu theo bảng 1. Giải thuật huấn luyện
mạng thần kinh là giải thuật lan truyền ngược [10].
Hình 8 là giải thuật xác định hướng nhìn dùng
mạng thần kinh. Các đặc trưng PCA của ảnh mắt
cần xác định hướng nhìn được đưa vào ngõ vào
của mạng thần kinh để tính ngõ ra. Hướng nhìn

của mắt được xác định là hướng tương ứng với
ngõ ra có giá trị lớn nhất trong 5 ngõ ra của mạng.

4.2 Mạng hồi qui xác định hướng nhìn
Mạng thần kinh truyền thẳng sau khi được huấn
luyện dựa vào đặc trưng PCA của mắt có thể xác
định hướng nhìn với độ chính xác cao khi mắt
đang ở trạng thái xác lập. Tuy nhiên, khi mắt đang
trong giai đoạn chuyển hướng hoặc khi chớp mắt,
hình ảnh mắt thu được không rõ (xem hình 9), dẫn
đến kết quả xác định hướng nhìn thường bị sai. Để
khắc phục khuyết điểm này, ta sử dụng mạng thần
kinh hồi qui như hình 10. Với cấu hình này, có thể
huấn luyện mạng thần kinh để ngõ ra của mạng
giữ nguyên trạng thái hướng nhìn ở thời điểm
trước nếu các đặc trưng ảnh mắt thu được ở thời
điểm hiện tại không rõ ràng.

H. 9 Ảnh mắt lúc chuyển trạng thái

H. 10 Mạng thần kinh hồi qui xác định hướng
nhìn

Bảng 2: Quan hệ giữa hướng nhìn và
ngõ ra của mạng thần kinh hồi qui
Hướng nhìn

của mắt
Ngõ ra của mạng thần kinh hồi qui
y

1
(k) y
2
(k) y
3
(k) y
4
(k) y
5
(k)
Nhìn thẳng 1 0 0 0 0
Nhìn lên 0 1 0 0 0
Nhìn trái 0 0 1 0 0
Nhìn phải 0 0 0 1 0
Nhắm mắt 0 0 0 0 1
Không rõ
y
1
(k1) y
2
(k1)

y
3
(k1)

y
4
(k1)
y

5
(k1)

Vì mạng thần kinh hồi qui ở hình 10 là mạng động
nên để huấn luyện mạng phải thu thập một chuỗi
ảnh mắt mẫu theo thời gian. Dữ liệu ngõ vào huấn
luyện mạng ở thời điểm lấy mẫu k gồm các đặc
y
1

y
2


y
5





x
1

x
2





x
d

z

1

z

1

z

1

Đ
ọc ảnh mắt cần xác định h
ư
ớng


Bắt đầu

Kết thúc

Tính t
ọa độ ảnh mắt

trong không gian mắt riêng


Tính ngõ ra c
ủa mạng


K
ết luận về h
ư
ớng nh
ìn


Đ
ọc các mắt ri
êng và tr
ọng số
mạng thần kinh đã lưu trữ

Đ
ọc tập ảnh mắt mẫu


Bắt đầu

Phân tích PCA


Xác đ
ịnh v
à lưu tr



tập hợp các mắt riêng

Kết thúc

Tính t
ọa độ các ảnh mắt mẫu

trong không gian mắt riêng

T
ạo tập dữ liệu huấn luyện
mạng thần kinh

Hu
ấn luyện mạng


Lưu tr
ọng số mạng


Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 527
Mã bài: 124
trưng PCA của ảnh mắt ở thời điểm đó và giá trị
các ngõ ra của mạng ở thời điểm k1. Dữ liệu ngõ
ra huấn luyện mạng ở thời điểm k được gán theo
bảng 2. Nếu ảnh mắt ở thời điểm k rõ ràng thì gán
dữ liệu ngõ ra tương tự như bảng 1. Ngược lại, nếu
ảnh mắt ở thời điểm k không rõ ràng thì gán dữ

liệu ngõ ra để huấn luyện bằng giá trị ngõ ra của
mạng ở thời điểm k1. Lưu đồ huấn luyện mạng
hồi qui và lưu đồ xác định hướng nhìn sử dụng
mạng hồi qui tương tự như lưu đồ ở hình 7 và 8 đã
trình bày ở trên.

5. Kết quả thực nghiệm
Giải thuật huấn luyện và xác định hướng nhìn
dùng mạng thần kinh được lập trình dùng Visual
Studio 2008. Các tác vụ thu nhận ảnh từ Webcam,
xử lý ảnh, được thực hiện bằng các hàm của thư
viện mở OpenCV. Webcam C920 (Logitech) được
sử dụng để thu nhận ảnh mắt, chức năng tự chỉnh
độ nét (auto focus) của webcam giúp thu được rõ
ảnh mặt người khi khoảng cách từ mặt người đến
webcam thay đổi, điều này giúp hệ thống xác định
hướng nhìn vẫn hoạt động tốt người sử dụng thoải
mái di chuyển đầu trong vùng không gian phía
trước webcam.
Số ảnh mẫu mỗi mắt được sử dụng để xây dựng
không gian mắt riêng là 124, trong đó gồm 12 ảnh
nhìn lên, 12 ảnh nhìn phải, 12 ảnh nhìn trái, 50 ảnh
nhìn thẳng và 38 ảnh nhắm mắt. Số lượng mắt
riêng được sử dụng để trích đặc trung PCA của
ảnh mắt cần xác định hướng nhìn là 10.

Trong nhà Ngoài trời
1) Đủ sáng 5) Bình thường



2) Hơi tối 6) Hơi chói


3) Đèn huỳnh quang 7) Ngược sáng


4) Đèn chiếu xiên 8) Ánh sáng chiếu
xiên


H. 11 Các tình huống thí nghiệm đánh giá giải
thuật

Để đánh giá chất lượng của giải thuật xác định
hướng nhìn đã đề xuất, 8 tình huống thí nghiệm
trong nhà và ngoài trời với các điều kiện chiếu
sáng khác nhau đã được thực hiện. Hình 11 minh
họa ảnh mặt người thu nhận được trong các thí
nghiệm, tùy thuộc vào độ sáng và hướng chiếu
sáng mà ảnh thu được có thể rất rõ (thí nghiệm 1,
trong nhà đủ sáng) hoặc rất tối (thí nghiệm 7,
ngoài trời ngược sáng).
Giải thuật xác định hướng nhìn đề xuất dùng mạng
thần kinh hồi qui được so sánh với giải thuật
khoảng cách ngắn nhất trong hai trường hợp: mắt
đang ở trạng thái xác lập và mắt đang ở trạng thái
quá độ.
Kiểm tra ở trạng thái xác lập: mắt nhìn liên tục vào
một hướng xác định. Bảng 3 trình bày kết quả xác
định đúng hướng nhìn trong 8 thí nghiệm. Có thể

thấy rằng chất lượng xác định hướng nhìn của giải
thuật dùng mạng thần kinh hồi qui và giải thuật
khoảng cách ngắn nhất là tương đương nhau khi
mắt ở trạng thái xác lập.
Kiểm tra ở trạng thái quá độ: bốn ảnh mắt liên tiếp
được thu nhận khi mắt đang chuyển trạng thái. Thí
nghiệm được thực hiện sao cho ảnh 1 và ảnh 4
trong chuổi ảnh rõ nét, trong khi ảnh 2 và ảnh 3 bị
mờ. Hình 12 minh họa một số chuổi ảnh mắt được
thu nhận trong chế độ này. Giải thuật xác định
hướng nhìn dùng mạng thần kinh lại được so sánh
với giải thuật khoảng cách ngắn nhất và chỉ kết
quả xác định hướng nhìn của ảnh 2 và ảnh 3 được
ghi nhận. Bảng 4 trình bày kết quả xác định đúng
hướng nhìn trong 8 thí nghiệm mắt ở trạng thái quá
độ với các điều kiện chiếu sáng khác nhau. Kết quả
thực nghiệm cho thấy chất lượng xác định hướng
nhìn của giải thuật dùng mạng thần kinh đề xuất
tốt hơn hẳn giải thuật khoảng cách ngắn nhất
thông thường khi mắt ở trạng thái quá độ.



H. 12 Các chuổi ảnh mắt ở trạng thái quá độ

528 Huỳnh Thái Hoàng
VCM2012
Bảng 3: Thống kê kết quả xác định hướng nhìn khi
mắt nhìn cố định một hướng (mắt ở trạng thái xác
lập)

PP

Tỉ lệ phát hiện đúng hướng nhìn (%)

trong các thí nghiệm
Tỉ
lệ
TB
1 2 3 4 5 6 7 8
ND

100

98.4

96.7

99.0

98.7

99.4

99.5

99.0

98.8

NN


100

98.1

97.4

98.1

99.0

99.7

98.7

99.0

98.8


Bảng 4: Thống kê kết quả xác định hướng nhìn khi
mắt chuyển hướng (mắt ở giai đoạn quá độ)
PP

Tỉ lệ phát hiện đúng hướng nhìn (%)

trong các thí nghiệm
Tỉ
lệ
TB

1 2 3 4 5 6 7 8
ND

84.1

83.2

82.8

85.3

83.9

83.3

81.1

82.2

83.2

NN

98.8

97.5

97.0

97.2


98.3

98.0

97.8

98.2

97.8


6. Kết luận
Bài báo đã trình bày một giải thuật mới xác định
hướng nhìn dựa vào phân tích thành phần chính
PCA và mạng thần kinh hồi qui. Phương pháp đề
xuất xác định hướng nhìn dựa vào dáng vẻ của mắt
thay vì dựa vào các đặc trưng hình học, do đó có
thể áp dụng trong các trường hợp ảnh thu nhận có
độ phân giải thấp. Việc sử dụng đặc trưng PCA
cho phép giảm số lượng ngõ vào của mạng thần
kinh, nhờ đó giảm được thời gian tính toán. Mạng
thần kinh hồi qui được huấn luyện để ngõ ra của
mạng giữ nguyên trạng thái hướng nhìn ở thời
điểm trước nếu các đặc trưng ảnh mắt thu được ở
thời điểm hiện tại không rõ ràng, nhờ đó giúp giảm
xác suất xác định hướng nhìn sai khi mắt đang
chuyển hướng hoặc chớp mắt. Ngoài ra, việc sử
dụng các đặc trưng PCA vượt trội giúp chống
nhiễu, nhờ vậy kết quả xác định hướng nhìn của

mắt bền vững với sự thay đổi ánh sáng môi
trường.

Lời cám ơn
Nghiên cứu này được tài trợ bởi Đại học Quốc gia
Thành phố Hồ Chí Minh (VNU-HCM) trong đề tài
mã số B2012-20-08. Tác giả xin gởi lời cảm ơn
ThS Trần Đức Anh Minh đã giúp lập trình kiểm
chứng giải thuật xác định hướng nhìn dùng Visual
C và OpenCV.

Tài liệu tham khảo
[1] Duchowski, A.T. (2007), "Eye Tracking
Methodology: Theory and Practice", Springer.
[2] Jian-Gang Wang and Eric Sung (2002), "Study
on Eye Gaze Estimation," IEEE Transaction on
Systems, Man, and Cybernetics - Part B:
Cybernetics, Vol. 32, N0. 3, pp.332-350.
[3] Nguyen, H. C.; Huynh, T. H. (2010): Eye-gaze
detection with a single WebCAM based on
geometry features extraction, 11th Int. Conf. on
Control Automation Robotics & Vision.
[4] Tan, K. H; Kriegman, D. J.; Ahuja, N. (2002),
"Appearance-based eye gaze estimation,"
Proceeding of the Sixth IEEE Workshop on
Application of Computer Vision.
[5] Bebis, G.; Fujimura, K (2000), "An Eigenspace
Approach to Eye-Gaze Estimation," ISCA 13th
Int. Conf. on Parallel & Distributed Computing
Systems (Special Session on Digital Video and

Digital Audio), pp. 604-609, Las Vegas, 2000.
[6] Jolliffe, I.T. Principal Component Analysis,
Springer Series in Statistics, 2nd ed., Springer.
[7] Kim, S.; Hwang, B.; and Lee, M. (2011), "Gaze
Tracking Based On Pupil Estimation Using
Multilayer," Proc. of Int. Joint Conf. on Neural
Networks, San Jose, USA, pp. 2683-2689.
[8] Piratla, N.M.; and Jayasumana, A.P. (2002): A
neural network based real-time gaze tracker,
Journal of Network and Computer
Applications, Vol. 25, pp. 179-196.
[9] Gopi Krishna, M; Srinivasulu, A. (2012), "Face
Detection System On AdaBoost Algorithm
Using Haar Classifiers," Int. Journal of Modern
Engineering Research, 2(5), pp-3556-3560.
[10] Haykin, S.; (1994) Neural Networks: A
Comprehensive Foundation, 2nd edition,
Prentice Hall.


Huỳnh Thái Hoàng sinh năm 1974
tại Việt Nam. Ông tốt nghiệp Thạc
Sĩ và Tiến Sĩ chuyên ngành Điều
khiển Tự Động tại Đại học Bách
Khoa TPHCM năm 1999 và 2005.
Ông đã nghiên cứu Sau Tiến Sĩ năm
2007 tại Đại học Haute Alsace (Pháp). Từ năm
1996, ông làm việc tại Bộ môn Điều Khiển Tự
Động, Khoa Điện-Điện Tử, Đại học Bách Khoa
TPHCM. Hướng nghiên cứu chính của ông bao

gồm điều khiển thông minh, nhận dạng hệ thống
và thị giác máy tính.

×