Tải bản đầy đủ (.pdf) (72 trang)

Nghiên cứu nhận dạng và theo dõi chuyển động của mắt người

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.12 MB, 72 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC

ĐỖ VĂN TẤN

Nghiªn cøu nhËn d¹ng vµ theo dâi
chuyÓn ®éng cña m¾t ng-êi
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Huế, 2015


MỤC LỤC
Lời cam đoan
Lời cảm ơn
Danh mục các thuật ngữ
Danh mục các từ viết tắt
Danh mục các bảng
Danh mục các hình vẽ và đồ thị
MỞ ĐẦU .......................................................................................................... 1
1. Lý do chọn đề tài ........................................................................................... 1
2. Tổng quan tài liệu .......................................................................................... 1
3. Mục đích nghiên cứu ..................................................................................... 3
4. Đối tượng nghiên cứu .................................................................................... 3
5. Phương pháp nghiên cứu ............................................................................... 4
6. Phạm vi nghiên cứu ....................................................................................... 4
7. Bố cục của luận văn ...................................................................................... 4


Chương 1. TỔNG QUAN VỀ LÝ THUYẾT NHẬN DẠNG ..................... 5
1.1 Tổng quan về lý thuyết nhận dạng .............................................................. 5
1.2 Tổng quan về nhận dạng và theo dõi chuyển động của mắt người ........... 10
1.3 Tiểu kết chương 1...................................................................................... 14
Chương 2. MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG
VÀ THEO DÕI CHUYỂN ĐỘNG CỦA MẮT NGƯỜI ................... 15
2.1 Giới thiệu ................................................................................................... 15
2.2 Hệ thống nhận dạng và theo dõi vết di chuyển của mắt ........................... 16
2.3 Phương pháp phát hiện khuôn mặt ............................................................ 22
2.4 Phương pháp phát hiện vùng mắt trong ảnh chứa khuôn mặt con người . 36
2.5 Tạo vết chuyển động của mắt khi di chuyển liên tiếp............................... 42
2.5 Tiểu kết chương 2...................................................................................... 43


Chương 3. XÂY DỰNG MÔ PHỎNG NHẬN DẠNG
VÀ THEO DÕI CHUYỂN ĐỘNG CỦA MẮT NGƯỜI. .................. 44
3.1 Sơ lược về OpenCv ................................................................................... 45
3.2 Phân tích, thiết kế và cài đặt chương trình ................................................ 45
3.3 Mô phỏng kỹ thuật nhận dạng theo dõi mắt.............................................. 55
3.4 Tiểu kết chương 3...................................................................................... 58
TÀI LIỆU THAM KHẢO ............................................................................ 61


DANH MỤC CÁC THUẬT NGỮ

Thuật ngữ

Giải thích

False alarm


Tỉ lệ nhận dạng sai của các bộ phân loại

Hit rate

Là tỉ lệ nhận dạng đúng của các bộ phân loại

Learning algorithm

Thuật toán học máy.

Knowledge base

Cơ sở tri thức

Integral Image

Ảnh tích phân

Hyperplane

Siêu phẳng

MMH (Maximum marginal Siêu phẳng với khoảng các lề cực đại
hyperplane)
Margin

Khoảng cách lề

Learning machine


Học máy

Point detectors

Các bộ phát hiện dựa trên điểm

Segmentation

Phân vùng

Background Modeling

Mô hình nền

Mean – Shift

Dịch chuyển trung bình

CamShift

Dịch chuyển trung bình thích nghi


DANH MỤC CÁC TỪ VIẾT TẮT
Chữ viết tắt

Từ nguyên gốc

2D


Two Dimensional

IR

Infrared

OPENCV

Open Source Computer Vision Library

ASL

American Sign Language

CSDL

Cơ Sở Dữ Liệu

DTW

Dynamic Time Warping

HCI

Human Computer Interaction

PDA

Personal Digital Assistant


OpenCV

Opend source Computer Vision


DANH MỤC CÁC BẢNG
Số hiệu

Tên bảng

3.1

Kết quả phát hiện và theo dõi chuyển động
của mắt người

Trang
57


DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
Số hiệu

Tên hình vẽ và đồ thị

Trang

1.1

Sơ đồ tổng quát của hệ thống nhận dạng


5

1.2

10

1.3

Ống kính liên hệ với gương
Ống kính liên hệ với cuộn dây tìm kiếm từ

1.4

Mắt phân cực

1.5

Vị trí điện cực

11
11

1.6

Theo dõi mắt từ xa

12

1.7


Đầu gắn theo dõi mắt

12

1.8

Bộ theo dõi mắt từ xa với camera nổi

13

1.9

Bộ theo dõi mắt từ xa với góc rộng máy ảnh và zoom
máy ảnh

13

2.1

Hệ thống phát hiện và theo dõi vết di chuyển của mắt

16

2.2

Mẫu mắt

19


2.3

Các đặt trưng Haar-like cơ bản

24

2.4

Các miền hình học đặc trưng Haar-like

24

2.5

Ý nghĩa hình học của đạo hàm ảnh

25

2.6

Cách tính giá trị ô đặc trưng

26

2.7

31

2.8


Ví dụ minh họa cho thuật toán AdaBoost
Sơ đồ giải thuật dịch chuyển trung bình thíc nghi liên
tục theo vết chuyển động

2.9

Cửa sổ tìm kiếm của Camshift

34

2.10

Phát hiện mắt dựa vào đối sánh mẫu

36

2.11

Các mô hình khuôn mặt được sử dụng trong phát
hiện mắt

39

2.12

Sơ đồ khối phát hiện mắt sử dụng EigenEyes

40

2.13


Khu vực tìm kiếm cho mắt bên trái và phải.

41

3.1

Cấu trúc cơ bản của OpenCV

45

3.2

Cấu trúc hoàn chỉnh của hệ thống

47

3.3

Sơ đồ hệ thống theo dõi mắt

48

11

32


49


3.5

Ví dụ phân phối tính toán xác suất HUE
Biểu đồ các thành phần màu sắc

3.6

Đầu ra của bộ theo dõi mặt

50

3.7

51

3.8

CSDL mẫu sử dụng trong phát hiện mắt
Vùng mắt người

3.9

Các đặc trưng của mắt (vùng 1)

53

3.10

Giao diện của chương trình mô phỏng


54

3.11

Giao diện chương trình.

55

3.12

Các đặc trưng vùng 2 của mắt.

56

3.13

Cài đặt bộ theo dõi

56

3.14

Phát hiện và theo dõi chuyển động của mắt

57

3.4

50


52


1

MỞ ĐẦU
1. Lý do chọn đề tài
Khi công nghệ cảm ứng đang làm mưa làm gió trên thế giới bằng những
ứng dụng trên điện thoại, máy tính thì công nghệ điều khiển bằng mắt và theo
dõi mắt lại phát triển theo hướng ít ồn ào hơn, nhưng cũng không kém phần hiệu
quả và thiết thực đối với cuộc sống của hàng triệu người trên thế giới.
Trong những năm gần đây, các ứng dụng về nhận dạng đối tượng ngày
càng phát triển và được đánh giá cao. Một lĩnh vực đang được quan tâm của
nhận dạng đối tượng nhằm tạo ra các ứng dụng thông minh, nâng cao chất lượng
cuộc sống đó là nhận dạng theo dõi mắt. Đối tượng cho việc nghiên cứu nhận
dạng cũng rất phong phú và đa dạng.
Trong luận văn này tôi chọn đối tượng là theo dõi chuyển động của mắt.
Mắt đóng vai trò quan trọng trong quá trình giao tiếp giữa người với người, và
cũng mang một lượng thông tin giàu có, có thể nói lên trạng thái cảm xúc của
người nào đó, ... hơn nữa khảo sát chuyển động của mắt có thể biết được người
đó muốn nói gì. Do đó, theo dõi chuyển động của mắt là điều quan trọng và cần
thiết trong xã hội loài người.
Đó là lý do tôi chọn đề tài : “Nghiên cứu nhận dạng và theo dõi chuyển động
của mắt người”.
2. Tổng quan tài liệu
Hiện nay đã có rất nhiều nghiên cứu về theo dõi chuyển động của mắt
người.Tuy nhiên, với sự phát triển mạnh mẽ của khoa học công nghệ, đòi hỏi
phải có những nghiên cứu mới đáp ứng các yêu cầu của thực tiễn. Cụ thể là các
tác giả đã nghiên cứu thành công về nhận dạng theo dõi chuyển động của mắt.
Theo dõi mắt là một kỹ thuật trong đó vị trí của mắt được sử dụng để xác

định hướng ánh mắt của một người tại một thời điểm nhất định và trình tự.
Emile Java (bác sĩ nhãn khoa người Pháp, 1839-1907) là một trong những
người đầu tiên mô tả vào năm 1879 các chuyển động của mắt khi đọc văn bản.


2
Sau đó, Edmund Huey xây dựng một thiết bị theo dõi mắt sử dụng kính áp
tròng nhỏ được cung cấp với một lỗ cho con ngươi.
Năm 1930, Miles Tinker thực hiện một loạt các nghiên cứu sử dụng công
nghệ theo dõi mắt về chuyển động của mắt trong việc đọc sách.
Năm 1947, Paul Fitts người sau này đã trở thành nổi tiếng với pháp luật
Fitts của mình, sử dụng máy quay hình ảnh chuyển động để ghi lại các cử động
mắt của các phi công không quân khi hạ cánh máy bay của họ. Quan tâm của
ông là làm thế nào các phi công sử dụng điều khiển buồng lái của họ. Đây là
nghiên cứu sớm nhất sử dụng theo dõi mắt.
Trong những năm 1970, đã có rất nhiều cải tiến trong công nghệ mắt theo
dõi. Các bộ theo dõi mắt đã xuất hiện, cung cấp độ chính xác tốt hơn, và có thể
phân tách ra mắt từ phong trào đầu của nhiều phản xạ từ mắt. Tâm lý học bắt
đầu nghiên cứu nhận thức và nhận thức.
Trong những năm 1980, máy tính mini trở nên đủ mạnh để làm mắt theo
dõi thời gian thực và điều này đã làm cho khả năng sử dụng máy theo dõi mắt
dựa trên video cho máy tính tương tác của con người.
Từ những năm 1990, đã có một sự gia tăng ổn định trong việc sử dụng
máy theo dõi mắt. Cuối những năm 1990, tổ chức bao gồm một mạng lưới công
ty quảng cáo và tiếp thị lớn nhất thế giới Euro RSCG bắt đầu sử dụng công nghệ
theo dõi mắt để đo lượng và nghiên cứu phản ứng với thông tin trên World Wide
Web.
Trong năm 2006, công ty nghiên cứu tư vấn hành vi Anh Bunnyfoot
nghiên cứu quảng cáo trong trò chơi bằng cách sử dụng mắt theo dõi và dữ liệu
sinh lý.

Năm 2012, hãng Fujitsu Laboratories Ltd. đã thông báo về quá trình phát
triển công nghệ Eye Tracking (theo dõi sự di chuyển của mắt người dùng), nhằm
khai thác những ưu điểm của các loại camera nhỏ gọn, giá cả hợp lý và các điốt
phát sáng (LED) được nhúng trong PC. Hiện nay, trước sự phát triển không


3
ngừng của khoa học, đòi hỏi phải có những nghiên cứu mới đáp ứng các yêu cầu
của thực tiễn. Đã có nhiều nghiên cứu thành công về nhận dạng theo dõi chuyển
động của mắt người. Và đang được ứng dụng rộng rãi trong cuộc sống.
3. Mục đích nghiên cứu
Đề tài nhằm nghiên cứu những vấn đề sau:
- Mục tiêu chung: nghiên cứu về nhận dạng phát hiện vị trí các vùng
của đôi mắt trên mặt của con người và theo dõi hướng di chuyển của
mắt khi di chuyển quan sát.
- Các mục tiêu cụ thể:
o Tổng quan về lý thuyết nhận dạng, và tổng quan về nhận dạng
và theo dõi mắt của con người từ hình ảnh thu nhận được bởi
webcam/video, các hướng nghiên cứu tiếp cận đối với bài toán
gần đây.
o Nghiên cứu phương pháp nhận dạng và theo dõi khuôn mặt từ
ảnh với các tỉ lệ và góc quay khác nhau. Phát hiện và trích chọn
các vùng mắt xuất hiện trong vùng khuôn mặt. Nghiên cứu các
đặc trưng của mắt: mống mắt, con ngươi, võng mạc, thủy tinh
thể, …
o Theo dõi quá trình chuyển động của mắt trước hệ thống cảm
biến quan sát, tìm hướng quan sát của mắt. Điều khiển từ xa
bằng cử động mắt
o Đề xuất khung hệ thống và phương pháp phù hợp cho bài toán
nhận dạng theo dõi chuyển động của mắt

4. Đối tượng nghiên cứu
- Khuôn mặt và các đặc trưng của mắt
- Cơ sở khoa học lý thuyết, các thuật toán và các kỹ thuật liên quan đến
bài toán của đề tài.


4
5. Phương pháp nghiên cứu
- Lý thuyết: tìm hiểu, tổng hợp, phân tích và lựa chọn các phương pháp,
thuật toán & kỹ thuật thích hợp.
- Thực nghiệm: cài đặt, đánh giá kết quả.
6. Phạm vi nghiên cứu
Nghiên cứu nhận dạng và theo dõi chuyển động của mắt người theo thời
gian thực sử dụng webcam.
7. Bố cục của luận văn
Luận văn bao gồm bao gổm: Phần mở đầu, nội dung và phần kết luận.
Phần nội dung bao gồm ba chương:
Chương 1: Tổng Tổng quan về lý thuyết nhận dạng nó chung và tổng
quan về nhận dạng theo dõi chuyển động của mắt. Cung cấp cái nhìn tổng quát
về các vấn đề cơ bản, hệ thống nhận dạng mắt người, vài trò ý nghĩa của mỗi
giai đoạn của hệ thống nhận dạng, các thành phần và kiến trúc của hệ thống
nhận dạng quan về lý thuyết nhận dạng.
Chương 2: Trình bày các nội dung chính của luận văn: Cơ sở lý thuyết, hệ
thống các giai đoạn nhận dạng và theo dõi chuyển động của mắt. Các phương
pháp, thuật toán đi kèm của mỗi giai đoạn của hệ thống.
Chương 3: Mô phỏng nhận dạng và theo dõi chuyển động của mắt. Đề
xuất mô hình cài đặt và triển khai thực nghiệm, đánh giá kết quả của thực
nghiệm.
Cuối cùng là phần kết luận và hướng phát triển của luận văn.



5

Chương 1
TỔNG QUAN VỀ LÝ THUYẾT NHẬN DẠNG

Trong chương này chúng tôi trình bày một cách tổng quan về lý thuyết
nhận dạng nói chung và tổng quan về nhận dạng theo dõi chuyển động của mắt.
Cung cấp cái nhìn tổng quát về các vấn đề cơ bản, hệ thống nhận dạng theo dõi
của mắt người, vài trò ý nghĩa mỗi giai đoạn của hệ thống nhận dạng, các thành
phần và kiến trúc của hệ thống nhận dạng.
1.1. Tổng quan về lý thuyết nhận dạng
1.1.1. Giới thiệu chung
Nhận dạng là một môn khoa học trong lĩnh vực khoa học máy tính nghiên
cứu về các phương pháp luận để mô phỏng nhận thức, trang bị cho máy tính khả
năng nhận biết được các đối tượng quan sát được trong thế giới thực.
Trong lý thuyết nhận dạng nói chung có ba cách tiếp cận khác nhau:
- Nhận dạng dựa vào phân hoạch không gian.
- Nhận dạng cấu trúc.
- Nhận dạng dựa vào khoảng cách
Đối tượng thực
(thực thể)
Đầu vào

Quan sát và thu thập
thông tin (số liệu,
đặc tính miêu tả)

(Khối cảm nhận của máy tính,
thiết bị cảm biến)

Hiển thị
kết quả

Đánh giá
kết quả

Trả lời kết qủa

Trích lọc đặc tính

Giải thuật
Quá trình học và
ra quyết định

Đầu ra
Hình 1.1 Sơ đồ tổng quát của hệ thống nhận dạng


6
1.1.2. Một số khái niệm cơ sở
1.1.2.1. Không gian biễu diễn đối tượng
Các đối tượng khi quan sát hay thu thập được, thường được biểu diễn bởi
tập các đặc trưng hay đặc tính. Như trong trường hợp xử lý ảnh, ảnh sau khi
được tăng cường để nâng cao chất lượng, phân vùng và trích chọn đặc tính được
biểu diễn bởi các đặc trưng như biên, miền đồng nhất,v.v. Người ta thường phân
các đặc trưng này theo các loại như: đặc trưng tôpô, đặc trưng hình học và đặc
trưng chức năng. Việc biểu diễn ảnh theo đặc trưng nào phụ thuộc vào ứng dụng
tiếp theo.
Ở đây ta đưa ra một cách hình thức việc biểu diễn các đối tượng. Giả sử
đối tượng X (ảnh, chữ viết, dấu vân tay,v.v.); được biểu diễn bởi n thành phần (n

đặc trưng): X={x1,x2,...,xn}; mỗi xi biểu diễn một đặc tính. Không gian biểu
diễn đối tượng thường gọi tắt là không gian đối tượng X và được ký hiệu là:
X ={X1,X2,...,Xn}

(1.1)

trong đó mỗi Xi biểu diễn một đối tượng. Không gian này có thể là vô
hạn. Để tiện xem xét chúng ta chỉ xét tập X là hữu hạn.
1.1.2.2. Không gian diễn dịch
Không gian diễn dịch là tập các tên gọi của đối tượng. Kết thúc quá trình
nhận dạng ta xác định được tên gọi cho các đối tượng trong tập không gian đối
tượng hay nói là đã nhận dạng được đối tượng. Một cách hình thức gọi Ω là tập
tên đối tượng:
Ω ={w1,w2,...,wk}

(1.2)

với wi, i =1,2,...,k là tên các đối tượng:
Quá trình nhận dạng đối tượng là một ánh xạ f: X →Ω với f là tập các quy
luật để định một phần tử trong X ứng với một phần tử Ω . Nếu tập các quy luật
và tập tên các đối tượng là biết trước như trong nhận dạng chữ viết (có 26 lớp từ
A đến Z), người ta gọi là nhận dạng có giám sát. Trường hợp thứ hai là nhận


7
dạng không có giám sát. Đương nhiên trong trường hợp này việc nhận dạng có
khó khăn hơn.
1.1.2.3. Quá trình nhận dạng đối tượng
Nhận dạng đối tượng là một quá trình cảm nhận quan sát đến biểu diễn,
tiền xử lý, mô hình hóa phân loại ra quyết định trả lời tên gọi của đối tượng.

1.1.3. Mô hình hóa bài toán nhận dạng
- Gọi X= { Xi}, Xi = {xi}, xi,jϵ Rn hoặc vectơ số liệu nhiều thành phần,
hoặc là tập các kí tự kí hiệu.
𝓧i = {xi,j} cấu trúc miêu tả đối tượng.
- Gọi Ω là không gian diễn dịch
Ω = {wi}, wi là tên gọi đối tượng
- Quá trình nhận dạng là tìm một ánh xạ ε từ X vào Ω
Sao cho: ε: 𝓧 → Ω, ∀Xi → Wi
Trong đó: Cho biết không gian biễu diễn (quan sát),
Chưa biết ε và Ω
- Cần một quá trình học để hình thành Ω, quá trình ra quyết định Ɛ.
1.1.4. Phương pháp học và huấn luyện
1.1.4.1. Học có giám sát
- Học có giám sát là học với tập dữ liệu huấn luyện ban đầu hoàn toàn
được gán nhãn từ trước.
- Học có giám sát là phương pháp học sử dụng cho lớp bài toán phân lớp,
phân loại.
- Để thực hiện phân lớp, trước tiên phải chuẩn bị một tập dữ liệu huấn
luyện, để có tập dữ liệu huấn luyện phải thực hiện gán nhãn cho dữ liệu ban đầu,
đây được gọi là quá trình thu thập tập huấn luyện.
- Lựa chọn một thuật toán phân lớp xây dựng bộ phân lớp để học tập dữ

liệu huấn luyện. Hay nói cách khác, dùng tập dữ liệu huấn luyện để huấn luyện


8
bộ phân lớp. Thuật ngữ học có giám sát được hiểu là học tập dữ liệu đã được gán
nhãn trước (các dữ liệu kèm theo nhãn tương ứng này coi như đã được giám sát
bởi người thực hiện gán nhãn).
- Sử dụng một tập dữ liệu kiểm tra đã được gán nhãn trước, để kiểm tra


tính đúng đắn của bộ phân lớp. Sau đó, có thể dùng bộ phân lớp để phân lớp cho
các dữ liệu mới.
1.1.4.1.1. Phát biểu bài toán
Cho:{(X1, Y1), (X2, Y2),..,( Xn,Yn)}
Trong đó: Xi là mô tả một đối tượng, một hiện tượng
Yi là một số tính chất của Xi.
Tìm: một hàm f(Xi) = Yi.
Nghĩa là: Học có giám sát là học với tập dữ liệu huấn luyện ban đầu hoàn
toàn được gán nhãn từ trước
1.1.4.1.2. Một số phương pháp học có giám sát
- Máy vector hỗ trợ (Support Vector Machine – SVM); k láng giềng gần
nhất (K Nearest Neighbours – KNN); tiếp cận xác suất thống kê (Naïve Bayes –
NB); Cây quyết định (Decision Tree – DT); sử dụng mạng nơron (Neural
Network – Nnet); dựa trên vector trọng tâm (Centroid–base vector); hay tuyến
tính bình phương nhỏ nhất (Linear Least Square Fit – LLSF).
1.1.4.2. Học không có giám sát
Học không giám sát là học với tập dữ liệu huấn luyện ban đầu hoàn toàn
chưa được gán nhãn.
- Để thực hiện phân cụm, trước tiên cần một tập dữ liệu huấn luyện – là
một tập các ví dụ học. Trong đó, mỗi ví dụ học chỉ chứa thông tin biểu diễn, mà
không có bất kỳ thông tin gì về nhãn lớp hoặc giá trị đầu ra mong muốn.
- Áp dụng một thuật toán học không có giám sát để học hàm/mô hình mục
tiêu (trong trường hợp này là hàm phân cụm ứng với thuật toán được chọn).


9
- Sử dụng một phương pháp thử nghiệm (có thể kết hợp với một tập dữ
liệu có gán nhãn) để đánh giá hiệu năng của hàm mục tiêu học được.
1.1.4.2.1. Phát biểu bài toán

Cho: {(X1), (X2)…,( Xn)}
Trong đó: Xi là mô tả một đối tượng, một hiện tượng….
Tìm: một hàm f(Xi) = Yi
Nghĩa là: Học không giám sát là học với tập dữ liệu huấn luyện ban đầu
hoàn toàn chưa được gán nhãn.
1.1.4.2.2. Một số phương pháp học không giám sát
K-means, HAC (Hierarchical Agglomerative Clustering), DBSCAN,
SOM (Self-Organizing Map), FCM,...
1.1.4.3. Học bán giám sát
- Học bán giám sát là học với tập dữ liệu huấn luyện gồm cả dữ liệu đã
được gán nhãn và dữ liệu chưa được gán nhãn.
- Nội dung chính của học bán giám sát là hệ thống sử dụng một tập học

gồm 2 phần: các ví dụ học có nhãn, thường với số lượng ít, và các ví dụ học
không có nhãn, thường với số lượng nhiều. Thực tế cho thấy khi sử dụng kết
hợp dữ liệu không có nhãn với một lượng nhất định dữ liệu có nhãn có thể tăng
độ chính xác đáng kể.
- Một thuật toán học bán giám sát được sử dụng sẽ học các ví dụ có nhãn,

sau đó tiến hành gán nhãn cho một số (có lựa chọn) các ví dụ không có nhãn một cách hợp lý, có đánh giá chất lượng công việc hay độ chính xác. Tiếp theo,
chọn các ví dụ vừa được gán nhãn có độ tin cậy cao (vượt trên một ngưỡng chọn
trước) đưa vào kết hợp với tập dữ liệu có nhãn, tạo thành một tập dữ liệu huấn
luyện mới.
- Áp dụng một phương pháp kiểm thử (có thể kết hợp với một tập dữ liệu

đã biết trước nhãn) để đánh giá hiệu năng/độ chính xác của mô hình.


10
1.2. Tổng quan về nhận dạng và theo dõi chuyển động của mắt người

1.2.1. Giới thiệu
Theo dõi mắt là để theo dõi các chuyển động của mắt và xác định hướng
ánh mắt. Đó là hữu ích cho các nhà khoa học người cố gắng để hiểu chuyển
động của mắt trong khi một người tham gia hoạt động khác nhau. Kỹ thuật khác
nhau mà phát triển trong những năm qua theo công nghệ sẵn có tại thời điểm đó.
1.2.2. Các hướng tiếp cận theo dõi chuyển động mắt
Nói chung, các thiết bị theo dõi mắt xác định vị trí mống mắt trong một số
cách mà có thể được phân thành ba loại. Các thể loại đầu tiên bao gồm bộ theo
dõi mắt xâm nhập có thể sử dụng kính áp tròng với gương hoặc từ cuộn dây tìm
kiếm. Các bộ theo dõi mắt sử dụng kính áp tròng với gương ngụ ý một quá trình
toàn bộ gắn các ống kính để bóng mắt và thí nghiệm chỉ có thể kéo dài một thời
gian ngắn (tính bằng phút).
Bộ theo dõi mắt với cuộn dây tìm kiếm từ yêu cầu hai kính áp tròng mềm
và giữa một cuộn dây có đường kính 13 mm. Các cặp xoắn của dây từ cuộn dây
tìm kiếm đã được kết nối với một hệ thống cuộn dây từ tính để đo cường độ của
sự biến đổi từ trường. Những bộ theo dõi mắt đã được sử dụng đặc biệt được sử
dụng bởi các nhà khoa học cho nghiên cứu sinh lý học và động lực của chuyển
động của mắt. Mặc dù những cải tiến lớn và độ chính xác thu được, các hệ thống
không phổ biến vì quá trình xâm lấn gắn ống kính và bởi vì người đứng đầu phải
được giữ vẫn để không ảnh hưởng đến các phép đo.

Hình 1.2. Ống kính liên hệ với gương. (Yarbus, 1967)


11

Hình 1.3. Ống kính liên hệ với cuộn dây tìm kiếm từ
Các bộ theo dõi mắt từ thể loại thứ hai đo bóng mắt sinh học tiềm năng sử
dụng điện cực đặt gần mắt. Bởi vì các dây thần kinh mật độ rất cao của võng
mạc, bóng mắt bị phân cực (Hình 1.4). Sự chuyển động của mắt gây ra điện

trường xung quanh để di chuyển là tốt. Các điện áp có thể được đo bằng cách
đặt điện cực gần mắt (Hình 1.5). Biên độ của tín hiệu thu thập phụ thuộc vào vị
trí của mắt. Như vậy có thể xác định các vị trí mắt và được sử dụng trong máy
tính tương tác của con người. Những nhược điểm là chi phí của tín hiệu khuếch
đại và sự hiện diện của các điện cực trên khuôn mặt của đối tượng.

Hình 1.4. Mắt phân cực

Hình 1.5. Vị trí điện cực

Các bộ theo dõi từ loại thứ ba sử dụng camera để theo dõi vị trí của mắt.
Điều này có thể được thực hiện từ xa, có nghĩa là máy quay video được đặt một
số thiết bị ở phía trước của chủ đề, (Hình 1.6) hoặc người đứng đầu gắn kết, mà
có nghĩa là máy ảnh được đặt bên dưới trục thị giác của mắt, thường là trên kính
khung (Hình 1.7).


12

Hình 1.6. Theo dõi mắt từ xa

Hình 1.7. Đầu gắn theo dõi mắt

Hai loại hình ảnh được sử dụng trong đoạn video theo dõi mắt: hình ảnh
trong quang phổ nhìn thấy và hình ảnh trong quang phổ hồng ngoại [1].
Xử lý hình ảnh trong quang phổ nhìn thấy được là một cách tiếp cận thụ
động và phụ thuộc vào ánh sáng xung quanh phản ánh của mắt. Các tính năng
truy là iris đường viền. Kết quả của phương pháp này là phụ thuộc vào ánh sáng
môi trường xung quanh. Đối với điều kiện ánh sáng kém nó là rất khó để phát
hiện các tính năng của mắt để theo dõi. Sử dụng một nguồn ánh sáng hồng ngoại

loại bỏ điều này vấn đề. Mắt được chiếu sáng một cách nhất quán và thống nhất,
không thể nhận thấy người sử dụng [2]. Một ưu điểm khác của ánh sáng hồng
ngoại là nó tăng cường một tính năng của mắt mà là dễ dàng để phát hiện và
theo dõi: các học sinh. Vì vậy, nếu ánh sáng nguồn là thẳng hàng với trục thị
giác mắt, học sinh trông trắng vì phản chiếu ánh sáng trên võng mạc nếu không
đen. Trong cả hai tình huống phản xạ giác mạc có thể được quan sát thấy như
chỗ làm sáng nhất trong hình ảnh.
Cả hai loại bộ theo dõi mắt, từ xa hoặc đầu gắn có một lớn. Nhược điểm
là nếu được sử dụng trong các hệ thống HCI: liên tục thay đổi vị trí đứng đầu.
Điều này có thể được giải quyết cho bộ theo dõi từ xa bằng cách sử dụng hai
camera nổi (Hình 1.6) hoặc một camera góc rộng (Hình 1.7) để tìm kiếm người
ở phía trước của nó và một điểm trên khuôn mặt người và phóng to.


13
Các tính năng như mặt định hướng 3D của khuôn mặt chủ thể và khoảng
cách là cần thiết trong đặt hàng để bù đắp các phong trào đầu. Nói chung, trong
trường hợp của hệ thống theo dõi mắt từ xa, nguồn sáng và camera được gắn
vĩnh viễn vào một giám sát và sự hiện diện của bệnh nhân ở phía trước của màn
hình và hiệu chuẩn thủ tục cho bất kỳ phiên thoại mới được yêu cầu.

Nguồn sáng

Hình 1.8. Bộ theo dõi mắt từ xa với camera nổi (Model 2012)

Hình 1.9. Bộ theo dõi mắt từ xa với góc rộng máy ảnh và zoom máy ảnh
(Hennessey, 2012)


14

Đối với đầu gắn bộ theo dõi mắt không phải là hữu ích để sử dụng máy
ảnh để phát hiện các định hướng khuôn mặt 3D. Những hệ thống này cung cấp
một tính di động cao hơn đến chủ đề, được dựa trên hệ thống nhúng, là chi phí
thấp, họ không bao hàm việc sử dụng các thuật toán phức tạp để xử lý hình ảnh
biểu diễn do đó tốt trong hoạt động thời gian thực thu được. Một giải pháp thực
tế là việc sử dụng kính video [3]. Vì vậy, người có thể di chuyển đầu của mình
một cách tự do mà không ảnh hưởng đến kết quả theo dõi mắt trong hệ thống
HCI sau khi nó đã được hiệu chỉnh.
1.3. Tiểu kết chương 1
Trong chương 1 đã giới thiệu một cách tổng quan về lý thuyết nhận dạng
nói chung và tổng quan về nhận dạng theo dõi chuyển động của mắt, đã nêu ra
một số khái niệm cơ bản, phương pháp. Cung cấp cái nhìn tổng quát về các vấn
đề cơ bản, hệ thống nhận dạng theo dõi của mắt người, vài trò ý nghĩa mỗi giai
đoạn của hệ thống nhận dạng. Các thành phần và kiến trúc của hệ thống nhận
dạng sẽ được trình bày chi tiết hơn trong chương 2.


15

Chương 2
MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG
VÀ THEO DÕI CHUYỂN ĐỘNG CỦA MẮT NGƯỜI
Trong chương này, luận văn sẽ trình bày cơ sở lý thuyết, hệ thống các
giai đoạn nhận dạng và theo dõi chuyển động của mắt. Các phương pháp, thuật
toán đi kèm của mỗi giai đoạn của hệ thống.
2.1. Giới thiệu
Nghiên cứu nhận dạng và theo dõi chuyển động của mắt từ ảnh hay từ
video gồm 3 giai đoạn quan trọng. Thứ nhất là từ dữ liệu đầu vào hệ thống tiến
hành phát hiện vị trí xuất hiện khuôn mặt của con người. Thứ hai là trên cơ sở
vùng ảnh khuôn mặt được xác định hệ thống tiến hành xác định vùng của mắt

người và xác định các vị trí của mống mắt, con ngươi. Bước cuối là tạo ra vết
chuyển động giữa các vị trí xác định của mắt người trong từng khung hình ảnh
liên tiếp nhau.
Để trình bày các bước này trước tiên, trong Mục 2.2 chúng tôi giới thiệu
các bước cơ bản của hệ thống nhận dạng và theo dõi mắt người. Tiếp theo Mục
2.3 chúng tôi xin trình bày một số phương pháp phát hiện và nhận dạng khuôn
mặt đó là phương pháp phát hiện khuôn mặt dựa vào cách tiếp cận dịch chuyển
trung bình thích nghi liên tục giữa các khung hình ảnh liên tiếp; và phát hiện
khuôn mặt theo phương pháp Boosting đó là thuật toán Adaboost với đặc trưng
Haar-like. Trong Mục 2.4 chúng tôi trình bày một số phương pháp phát hiện
nhận dạng các vùng mắt người xuất hiện trong khuôn mặt sử dụng phương pháp
đối sánh mẫu; và phương pháp EigenEyes. Bước tiếp theo là tạo ra sự liên kết
các vị trí xuất hiện mắt người trong các khung hình liên tiếp để theo dõi vết
chuyển động của mắt người. Cuối cùng là tiểu kết chương 2.


16
2.2. Hệ thống nhận dạng và theo dõi vết di chuyển của mắt
Tín hiệu
ảnh
Đầu vào

Thu nhận
ảnh

Trích chọn
đặc trưng

Camshift


Phát hiện
mặt

Đối sánh
mẫu

Đầu ra
Hiển thị
kết quả

Haar-like

Theo dõi vết chuyển
động của mắt

EigenEyes

Phát hiện
mắt

Hình 2.1. Hệ thống phát hiện và theo dõi vết di chuyển của mắt
2.2.1. Thu nhận hình ảnh từ Camera
Hình ảnh có thể nhận qua camera màu hoặc đen trắng. Thường ảnh nhận
qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi
ảnh 25 dòng), cũng có loại camera đã số hoá (như loại CCD – Change Coupled
Device) là loại photodiot tạo cường độ sáng tại mỗi điểm ảnh.
Camera thường dùng là loại quét dòng; ảnh tạo ra có dạng hai chiều. Chất
lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh
sáng, phong cảnh).
2.2.2. Tiền xử lý dữ liệu từ hình ảnh

Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào bộ
tiền xử lý để nâng cao chất lượng. Chức năng này để chuẩn hóa ảnh cần tìm giúp
cho việc tìm kiếm được hiệu quả hơn. Các công việc trong bước tiền xử lý có
thể là: Chuẩn hóa kích cỡ giữa ảnh trong CSDL và ảnh cần tìm, hiệu chỉnh độ
sáng, tối của ảnh; lọc nhiễu, chuẩn hóa về vị trí, tư thế ảnh mặt. Việc chuẩn hóa
này khiến độ lệch giữa 2 điểm ảnh được giảm xuống làm quá trình trích chọn
đặc trưng thêm chính xác.


17
2.3.3. Trích chọn đặc trưng
Trích chọn đặc trưng là kỹ thuật sử dụng các thuật toán để lấy ra những
thông tin mang những đặc điểm riêng biệt của một người. Tìm ra các đặc trưng
chính của ảnh mặt, từ các đặc trưng này hình thành các vector đặc trưng, các
vector này sẽ được sử dụng để đối sánh sự giống nhau giữa ảnh mặt cần tìm và
ảnh mặt trong CSDL.
2.3.4. Phát hiện khuôn mặt từ hình ảnh đầu vào
Phát hiện mặt người trong ảnh là phần đầu tiên của một hệ thống nhận
dạng mặt người. Việc xác định khuôn mặt người có những khó khăn nhất định
như:
- Hướng của khuôn mặt đối với máy ảnh, như: nhìn thẳng, nhìn nghiêng
hay nhìn từ trên xuống. Cùng trong một ảnh có thể có nhiều khuôn mặt ở những
tư thế khác nhau.
- Sự có mặt của các chi tiết không phải là đặc trưng riêng của khuôn mặt
người, như: râu quai nón, mắt kính, ….
- Các nét mặt khác nhau trên khuôn mặt, như: vui, buồn, ngạc nhiên,…
- Mặt người bị che khuất bởi các đối tượng khác có trong ảnh. Sự biểu
cảm của khuôn mặt: sự biểu cảm có thể làm thay đổi đáng kể các đặc trưng và
thông số khuôn mặt, ví dụ như khuôn mặt của cùng một người sẽ rất khác khi
người đấy cười, tức giận hay sợ hãi…

Xác định mặt người thường là một phần của hệ thống. Nó thường được
dùng trong giám sát video, giao tiếp người máy và quản lý cơ sở dữ liệu ảnh….
2.3.5. Phát hiện các vùng mắt, trích chọn các đặc trưng của mắt
Đã có rất nhiều công trình trong việc phát hiện và theo dõi mắt. Đầu tiên
của tất cả các nghiên cứu về mắt có thể được phân loại thành hai loại chính:
Phát hiện đôi mắt và trích chọn các đặc trưng của mắt.


×