Tải bản đầy đủ (.pdf) (77 trang)

Ứng dụng xử lý ảnh trong việc xác định chuyển động của tròng mắt người

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.39 MB, 77 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
…………

ĐINH QUANG TRÍ

ỨNG DỤNG XỬ LÝ ẢNH TRONG VIỆC XÁC ĐỊNH
CHUYỂN ĐỘNG CỦA TRÒNG MẮT NGƯỜI

Chuyên ngành: Kỹ thuật Cơ điện tử
Mã số: 605268

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 12 năm 2013


Trang xii

Cơng trình được hồn thành tại: Trường Đại học Bách Khoa - ĐHQG - HCM
Cán bộ hướng dẫn khoa học: TS. ĐỒN THẾ THẢO
...............................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
Ký tên

TS. Đồn Thế Thảo

Cán bộ chấm nhận xét 1:
...............................................................................................................................


....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
Ký tên

Cán bộ chấm nhận xét 2:
...............................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
Ký tên


Trang xiii

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày . . . . . tháng . . . . năm 2013.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. .........................................................................................
2. .........................................................................................
3. .........................................................................................
4. .........................................................................................
5. .........................................................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA CƠ KHÍ


PGS.TS. Nguyễn Hữu Lộc


Trang xiv

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Đinh Quang Trí

MSHV: 11390719

Ngày, tháng, năm sinh: 08/03/1988

Nơi sinh: TP.Tuy Hòa

Chuyên ngành: Kỹ thuật Cơ Điện Tử

Mã số: 605268

I.

TÊN ĐỀ TÀI:
ỨNG DỤNG XỬ LÝ ẢNH TRONG VIỆC XÁC ĐỊNH CHUYỂN ĐỘNG
CỦA TRÒNG MẮT NGƯỜI


II.

NHIỆM VỤ VÀ NỘI DUNG:

 Nghiên cứu một số thuật toán sử dụng camera để theo vết, xác định hướng





nhìn của mắt.
Nghiên cứu phương pháp xác định các điểm đặc trưng trên khuôn mặt và
tâm trịng mắt.
Hiện thực hệ thống xác định vị trí khn mặt, các điểm đặc trưng trên mặt,
tâm tròng mắt và hướng nhìn của mắt.
Hiện thực hệ thống nhúng lên board ARM Mini210s với nhân Linux.
Làm thực nghiệm kiểm nghiệm kết quả thực tế.

III. NGÀY GIAO NHIỆM VỤ :

Ngày 02 tháng 07 năm 2012

IV. NGÀY HOÀN THÀNH NHIỆM VỤ:

Ngày 22 tháng 11 năm 2013

V.

TS. Đoàn Thế Thảo


CÁN BỘ HƯỚNG DẪN :

Tp. HCM, ngày . . . . tháng . . . . năm 2013
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

TS. Đồn Thế Thảo

TS. Phạm Cơng Bằng
TRƯỞNG KHOA CƠ KHÍ

PGS.TS. Nguyễn Hữu Lộc


Trang xv

LỜI CẢM ƠN

Để hoàn thành được luận văn này, tơi xin chân thành cảm ơn sự hướng dẫn tận
tình của Thầy TS. Đồn Thế Thảo đã góp ý, hỗ trợ tơi trong suốt q trình thực
hiện.
Xin cảm ơn gia đình và những người bạn ln động viên, ủng hộ tơi.
Xin chân thành cảm ơn!
Đinh Quang Trí


Trang xvi

TĨM TẮT LUẬN VĂN


Tóm tắt:
Hướng nhìn chứa đựng nhiều thơng tin hữu ích về ý định và sự chú ý của con
người. Các nghiên cứu về ước lượng hướng nhìn đã có một lịch sử lâu dài và nhiều
hệ thống đã được đề xuất. Tuy nhiên những hệ thống này vẫn cịn hạn chế bởi vì
hầu hết các hệ thống này được phát triển trên máy tính cá nhân. Hạn chế này ngăn
cản các hệ thống được sử dụng trong đời sống hằng ngày. Trong luận văn này,
khuôn mặt trong ảnh được chụp từ camera sẽ được phát hiện sử dụng các đặc trưng
Haar-like. Với khuôn mặt được phát hiện, phương pháp sử dụng đường Isophote
được áp dụng để tính vị trí tâm trịng mắt. Sau đó sử dụng thư viện flandmark để
phát hiện các điểm đặc trưng của khn mặt và áp dụng thuật tốn được đề xuất bởi
J. Chen và các cộng sự [8] để ước lượng hướng nhìn. Để làm cho hệ thống trở nên
linh động và dễ cài đặt trong thực tế, hệ thống được phát triển và nhúng lên board
ARM với nhân Linux.
Abstract:
Human gaze contains useful information regarding attention and intention. Gaze
estimation research has a long history and many systems have been proposed.
However these systems are still limited because almost these applications are based
on PC-desktop system. These limitations prevent applications of the system that
capture and utilize useful human gaze information in daily situations. In this thesis,
faces in images from camera were detected by using Haar-like feature, from the
images of faces the Isophote Curvature method was employed to calculate the
location of the irises center, the facial feature points were detected by using
flandmark library and algorithm proposed by J. Chen et al. [8] was applied to
estimate the gaze direction. To make the system becomes more portable and easier
when setup in real environments, an embedded system for gaze estimation was
developed based on an ARM board Linux operating system.


Trang xvii


Luận văn này gồm 5 phần chính với nội dung như sau:
 Phần 1: Mở đầu
Phần mở đầu trình bày lý do chọn đề tài, mục đích, đối tượng và phạm vi nghiên
cứu, ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu.
 Phần 2: Tổng quan
Phân tích, đánh giá các cơng trình nghiên cứu đã có của các tác giả trong và
ngoài nước liên quan đến đề tài; nêu những vấn đề còn tồn tại; chỉ ra những vấn đề
mà đề tài cần tập trung nghiên cứu, giải quyết.
 Phần 3: Cơ sở lý thuyết và phương pháp thực hiện
Trình bày các cơ sở lý thuyết, lý luận, giả thuyết khoa học và phương pháp
nghiên cứu đã được sử dụng trong luận văn.
 Phần 4: Thực nghiệm và kết quả đạt được
Mô tả ngắn gọn công việc nghiên cứu khoa học đã tiến hành, các số liệu thực
nghiệm của luận văn.
 Phần 5: Kết luận và kiến nghị những nghiên cứu tiếp theo
Trình bày những kết quả đạt được của luận văn và đưa ra kiến nghị hướng
nghiên cứu tiếp theo dựa trên kết quả đạt được.


Trang xviii

LỜI CAM ĐOAN

Tôi cam đoan rằng, nội dung của luận văn này là kết quả làm việc của tôi dưới
sự hướng dẫn của Thầy TS. Đoàn Thế Thảo, ngoại trừ các phần tham khảo từ các
tài liệu khác được ghi rõ trong luận văn.
Tp. HCM, Ngày 02 tháng 12 năm 2013.

Đinh Quang Trí



Trang xix

MỤC LỤC
LỜI CẢM ƠN .................................................................................................................... xv
TÓM TẮT LUẬN VĂN ...................................................................................................xvi
LỜI CAM ĐOAN .......................................................................................................... xviii
MỤC LỤC .........................................................................................................................xix
DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU ................................................... xxii
DANH MỤC HÌNH ....................................................................................................... xxiii
DANH MỤC BẢNG ........................................................................................................ xxv
Phần 1.

MỞ ĐẦU ............................................................................................................ 1

Phần 2.

TỔNG QUAN .................................................................................................... 4

2.1. Tổng quan về khuôn mặt và mắt người ....................................................................... 4
2.1.1. Đặc tính sinh học của khn mặt .............................................................................. 4
2.1.2. Đặc tính sinh học của mắt người ............................................................................... 4
2.1.2.1.

Cấu tạo .................................................................................................................. 4

2.1.2.2.

Chức năng ............................................................................................................. 6


2.2. Tổng quan về một số cơng trình nghiên cứu của các tác giả trong và ngồi nước có
liên quan đến đề tài................................................................................................................ 6
2.3. Phân tích ...................................................................................................................... 6
2.4. Các vấn đề cịn tồn tại .................................................................................................. 8
2.5. Các vấn đề cần tập trung giải quyết của đề tài............................................................. 8
Phần 3.

CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP THỰC HIỆN .............................. 9

3.1. Xử lý ảnh số ................................................................................................................. 9
3.1.1.1.

Giới thiệu về xử lý ảnh số ................................................................................... 11

3.1.1.2.

Các ứng dụng cơ bản của công nghệ xử lý ảnh số .............................................. 19

3.2. Camera calibration ..................................................................................................... 19
3.2.1. Mơ hình pinhole ...................................................................................................... 19
3.2.2. Lý thuyết camera calibration sử dụng mơ hình pinhole .......................................... 20
3.3. Hai thuật tốn phát hiện tâm trịng mắt...................................................................... 23
3.3.1. Thuật toán dựa trên đường isophote [19] ................................................................ 23


Trang xx

3.3.1.1.


Giới thiệu đường isophote .................................................................................. 23

3.3.1.2.

Tâm của các đường isophote .............................................................................. 24

3.3.1.3.

Xác định tâm đường isophote ............................................................................. 25

3.3.1.4.

Xác định tâm trịng mắt ...................................................................................... 26

3.3.2. Thuật tốn dựa trên giá trị gradient [21].................................................................. 26
3.3.2.1.

Giới thiệu phương pháp ...................................................................................... 26

3.3.2.2.

Hậu xử lý kết quả tính được ............................................................................... 27

3.4. Đặc tính Haar-like của khn mặt và thuật tốn Adaboost ....................................... 27
3.4.1. Đặc trưng Haar-like ................................................................................................. 27
3.4.2. Thuật toán Adaboost................................................................................................ 29
3.5. Hệ điều hành nhân Linux ........................................................................................... 30
3.5.1. Linux là gì................................................................................................................ 30
3.5.2. Các ưu điểm nổi bật của Linux ................................................................................ 31
3.5.3. Hệ thống nhúng ....................................................................................................... 31

Phần 4.

THỰC NGHIỆM VÀ KẾT QUẢ ĐẠT ĐƯỢC ............................................ 33

4.1. Calib thông số camera................................................................................................ 33
4.2. Tiền xử lý ảnh ............................................................................................................ 36
4.3. Phát hiện tâm tròng mắt ............................................................................................. 39
4.3.1. Phương pháp sử dụng đường Isophote .................................................................... 39
4.3.2. Phương pháp sử dụng giá trị gradient...................................................................... 41
4.3.3. Đánh giá và chọn lựa giữa hai phương pháp ........................................................... 41
4.4. Ước lượng góc nhìn ................................................................................................... 41
4.4.1. Ước lượng hướng của đầu ....................................................................................... 41
4.4.2. Ước lượng hướng nhìn của mắt ............................................................................... 44
4.5. Nhúng chương trình ứng dụng lên board ARM ......................................................... 46
4.5.1. Cài đặt host và các toolchain: .................................................................................. 49
4.5.2. Cài đặt thư viện OpenCV cho ARM ....................................................................... 51
4.5.2.1.

Cài đặt các thư viện cần thiết cho OpenCV ........................................................ 51

4.5.2.2.

Cài đặt thư viện OpenCV cho ARM ................................................................... 53

4.5.3. Kết quả nhúng chương trình lên board .................................................................... 55
Phần 5.

KẾT LUẬN VÀ KIẾN NGHỊ NHỮNG NGHIÊN CỨU TIẾP THEO ...... 57

5.1. Kết luận về kết quả của đề tài .................................................................................... 57



Trang xxi

5.2. Những vấn đề còn tồn tại và hướng phát triển của đề tài .......................................... 57
DANH MỤC TÀI LIỆU THAM KHẢO ......................................................................... 59
PHẦN LÝ LỊCH TRÍCH NGANG .................................................................................. 62


Trang xxii

DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU

Chữ viết tắt

Giải thích

bpp

Bit per pixel

CCD

Charge-Coupled Device

CMOS

Complimentary Metal-Oxide Semiconductor

DIP


Digital Image Proccessing

HSV

Hue – Saturation – Value

RGB

Red – Green – Blue

ASM

Active Shape Model

AAM

Active Appearance Model

POSIT

Pose from Orthography and Scaling with Iterations

fps

Frames per second

( , )

Giá trị cường độ điểm ảnh tại vị trí x, y




Gradient của ảnh

‖∇ ‖

Độ lớn gradient của ảnh
Hướng của gradient
Mặt nạ trượt

( , )

Hàm gaussian tại vị trí x, y
Hệ số trị trung bình hàm gaussian
Phương sai


Trang xxiii

DANH MỤC HÌNH
Hình 1-1: Khn mặt của con người. [26] ............................................................................ 4
Hình 1-2: Cấu tạo mắt người. [26] ........................................................................................ 6
Hình 3-1: Biểu diễn cấu trúc ảnh số 2 chiều. ........................................................................ 9
Hình 3-2: Mơ tả ảnh nhị phân. ............................................................................................ 10
Hình 3-3: Thang màu mức xám ảnh 8 bit. .......................................................................... 10
Hình 3-4: Biểu diễn ảnh xám [16] ....................................................................................... 10
Hình 3-5: Sơ đồ xử lý ảnh số [17]. ...................................................................................... 11
Hình 3-6: Biểu đồ Gauss. .................................................................................................... 14
Hình 3-7: Mặt nạ cuộn gaussian 1 chiều. ............................................................................ 14

Hình 3-8: Chuyển từ ảnh màu sang ảnh xám [18]. ............................................................. 15
Hình 3-9: Chuyển từ ảnh xám 8 bit sang ảnh nhị phân. ...................................................... 15
Hình 3-10: Giản đồ histogram ảnh xám. ............................................................................. 16
Hình 3-11: Tăng độ sáng và giản đồ histogram. ................................................................. 16
Hình 3-12: Giảm độ sáng và giản đồ histogram................................................................. 17
Hình 3-13: Tăng độ tương phản và giản đồ histogram. ...................................................... 17
Hình 3-14: Giảm độ tương phản và giản đồ histogram. ...................................................... 17
Hình 3-15: Tách biên bằng phương pháp Sobel và Canny. ................................................ 18
Hình 3-16: Mơ hình Pinhole................................................................................................ 19
Hình 3-17: Hình biểu diễn một mặt phẳng khác mặt phẳng ảnh ...................................... 20
Hình 3-18: Phép quay vectơ ................................................................................................ 21
Hình 3-19: Tương quan của ảnh lý tưởng và thực tế .......................................................... 22
Hình 3-20: Ảnh gốc (a), các đường isophote của ảnh (b) ................................................... 23
Hình 3-21: Hướng của gradient (a), các vector thay thế chỉ vào tâm của đường cong (b),
tâm được đánh giá bởi các vector (c) .................................................................................. 24
Hình 3-22: Các đường isophote của một hình cầu (a), đường cong curvedness của ảnh hình
cầu (b) .................................................................................................................................. 25
Hình 3-23: Minh họa cho mối quan hệ giữa các vector và tâm .......................................... 26
Hình 3-24: Ảnh với tâm của mắt đã được xác định (trái), biểu đồ 2D thể hiện giá trị tính
được đối với mỗi tâm giả định (giữa), biểu đồ 3D tương ứng (phải) .................................. 27
Hình 3-25: Các đặc trưng cạnh............................................................................................ 28
Hình 3-26: Các đặc trưng đường. ........................................................................................ 28


Trang xxiv

Hình 3-27: Các đặc trưng góc (a) và các đặc trưng trung tâm (b) ...................................... 28
Hình 3-28: Cách tính tổng giá trị pixel bằng ảnh tích phân ................................................ 28
Hình 3-29: Mơ hình cascade kết hợp các bộ phân loại yếu ................................................ 29
Hình 3-30: Cấu trúc tổng quát của một hệ thống Linux. [26] ............................................. 30

Hình 3-31: Giao diện hệ điều hành Ubuntu Desktop 10.04 nhân Linux ............................. 30
Hình 3-32: Một số thiết bị sử dụng hệ thống nhúng. [26] ................................................... 32
Hình 4-1: Bảng caro 10x7 với hệ trục tọa độ thực [22] ...................................................... 33
Hình 4-2: Tấm caro với các hướng khác nhau .................................................................... 33
Hình 4-3: Phát hiện các điểm giao nhau trên tấm caro ....................................................... 34
Hình 4-4: Tấm caro ở vị trí xoay quanh trục z 30 độ .......................................................... 35
Hình 4-5: Tấm caro ở vị trí xoay quanh trục y 30 độ .......................................................... 35
Hình 4-6: Sơ đồ các bước thực hiện thu thập mẫu .............................................................. 36
Hình 4-7: Vị trí tương đối của vùng ảnh chứa mắt ............................................................. 37
Hình 4-8: Sơ đồ giải thuật phát hiện tâm tròng mắt dùng đường Isophote ......................... 39
Hình 4-9: Ảnh gốc của mắt ................................................................................................. 40
Hình 4-10: Đường curvedness của mắt ............................................................................... 40
Hình 4-11: Bản đồ phân bố tâm .......................................................................................... 40
Hình 4-12: Kết quả đạt được khi áp dụng thuật tốn .......................................................... 40
Hình 4-13: 6 điểm đặc trưng trên khn mặt được trích xuất ra. ........................................ 42
Hình 4-14: Giao diện MeshLab với mơ hình của khn mặt. ............................................. 42
Hình 4-15: Hướng của đầu tính được ở vị trí thẳng ............................................................ 43
Hình 4-16: Hướng của đầu tính được ở vị trí nghiêng ........................................................ 44
Hình 4-17: Minh họa mơ hình mắt và góc nhìn [8] ............................................................ 45
Hình 4-18: Hướng nhìn của mắt được ước lượng. .............................................................. 46
Hình 4-19: Board Mini210s. ............................................................................................... 47
Hình 4-20: Tổng thể về host và toolchain ........................................................................... 49
Hình 4-21: Giao diện của chương trình Qt-creator ............................................................. 50
Hình 4-22: Giao diện của chương trình C-make ................................................................. 53
Hình 4-23: Lựa chọn cross-compiling................................................................................. 54
Hình 4-24: Cấu hình cơng cụ .............................................................................................. 54
Hình 4-25: Ứng dụng được nhúng lên board Mini210s ...................................................... 55


Trang xxv


DANH MỤC BẢNG

Bảng 4-1: Cấu hình chi tiết của board Mini210s ................................................................ 47


Trang 1

Phần 1. MỞ ĐẦU
Lý do chọn đề tài.
Trong nhiều ứng dụng về giao tiếp giữa con người với thiết bị, khn mặt đóng
một vai trị quan trọng. Đó là một nguồn thơng tin hữu ích, chẳng hạn dùng để xác
định trạng thái hoặc dự đoán nhận thức của người sử dụng. Để xây dựng các hệ
thống thông minh, hệ thống đó phải nhận biết được ý định của người dùng, và
những điểm mà người dùng đang chú ý đến. Với hướng nhìn của mắt thể hiện ý
định và sự chú ý của một người về một đối tường nào đó, thì việc xây dựng các hệ
thống thơng minh như thế là điều hoàn toàn làm được.
Theo thống kê, Việt Nam có khoảng 6.1 triệu người khuyết tật, tương đương
7.8% dân số (02/2011) [1], việc ứng dụng này sẽ hỗ trợ được nhiều cho những
người bị khuyết tật. Người khuyết tật với hạn chế về cử động của tay chân, đi lại
khó khăn sẽ có thể điều khiển thiết bị trong nhà bằng chuyển động của mắt. Hoặc
với chiếc xe lăn được gắn thiết bị di động cùng với một chiếc camera, những người
tàn tật ngồi xe lăn có thể dễ dàng điều khiển xe mà không phải dùng đến tay. Những
người già không cần ghi nhớ chức năng của các nút điều khiển có thể bật tắt thiết bị
bằng cách nhìn về phía thiết bị…
Thêm vào đó, trong lĩnh vực quảng cáo và tiếp thị, hướng nhìn của mắt là một
kênh thông tin quan trọng giúp nhận biết sự chú ý của khách hàng về một sản phẩm
nào đó. Bằng cách xác định hướng chú ý của khách hàng, có thể nhanh chóng hiển
thị những lời giới thiệu và thông tin về sản phẩm.
Khoa học công nghệ đang ngày càng một phát triển hơn. Việc ứng dụng công

nghệ vào cuộc sống nhằm mục đích hỗ trợ cho sinh hoạt của con người được thoải
mái, dễ dàng hơn đang là xu hướng hiện nay. Trong thời gian không xa, những tiến
bộ công nghệ sẽ thay đổi cuộc sống của con người theo chiều hướng tốt đẹp hơn.


Trang 2

Mục đích, đối tượng và phạm vi nghiên cứu của đề tài.
 Đề tài này sẽ tìm hiểu một số phương pháp hiện có trong việc phát hiện tâm
trịng mắt, làm cơ sở áp dụng cho việc phát hiện hướng nhìn của mắt.
 Tìm hiểu cơ bản về xử lý ảnh số.
 Tìm hiểu phương pháp calib các thơng số của camera.
 Tìm hiểu các phương pháp hiện có dùng để phát hiện hướng nhìn.
 Tìm hiểu hệ điều hành Linux và và hệ điều hành nhúng Linux.
 Tiến hành áp dụng trên ảnh thu được từ webcam độ phân giải thấp.
 Áp dụng trong thực tế với webcam được đặt cách mắt khoảng cách 0.5 mét.
Phương pháp nghiên cứu.
 Tiến hành tìm hiểu, phân tích một số cơng trình nghiên cứu của các tác giả trong
và ngồi nước có liên quan đến đề tài.
 Tìm hiểu cách lập trình với thư viện OpenCV.
 Tìm hiểu phương pháp xác định các thông số của camera sử dụng phương pháp
của ZhengYou Zhang [2].
 Tìm hiểu đặc tính sinh học của tròng mắt người trong việc phát hiện tâm của
tròng mắt, và đặc tinh sinh học của khuôn mặt (bao gồm cầu mắt) trong việc xác
định hướng của khuôn mặt, được dùng để thử nghiệm ứng dụng xác định hướng
nhìn.
 Tìm hiểu phương pháp phát hiện tâm: Isophote Curvature và mean of gradients.
 Tìm hiểu đặc tính Haar-like và thuật tốn Adaboost.
 Tìm hiểu phương pháp nhúng hệ điều hành nhúng Linux.
 Tìm hiểu các phương pháp lọc nhiễu.

 Tìm hiểu cách nhúng chương trình lên hệ thống Linux trên board ARM.
 Tiến hành thực nghiệm trên ảnh thu được từ webcam.
Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài.
 Kết quả của đề tài này sẽ góp một phần kiến thức vào việc ứng dụng công nghệ
thị giác máy tính trong đời sống nhằm mục đích hỗ trợ cho sinh hoạt của con
người được thoải mái, dễ dàng hơn.


Trang 3

 Việc phát hiện hướng nhìn dựa trên kết quả phát hiện tâm tròng mắt người sẽ là
cơ sở cho bài tốn giao tiếp với máy tính bằng thị giác sau này.


Trang 4

Phần 2. TỔNG QUAN
2.1. Tổng quan về khuôn mặt và mắt người
2.1.1.

Đặc tính sinh học của khn mặt

Như chúng ta đã biết, khn mặt bao gồm các phần chính:
 Vùng trán, bên dưới là lông mày.
 Hai mắt, bảo vệ bởi mi mắt và lông mi.
 Hai lỗ mũi và sống mũi.
 Vùng má.
 Miệng gồm môi trên và mơi dưới.
 Cằm nằm bên dưới miệng.


Hình 1-1: Khn mặt của con người. [26]
2.1.2.

Đặc tính sinh học của mắt người

2.1.2.1. Cấu tạo
Mắt là cơ quan thị giác, gồm 2 con mắt có kích thước nhỏ. Mỗi con mắt là một
khối cầu dai có đường kính chừng 2,5 cm. Các mơ quan trọng của mắt :
 Giác mạc: Giác mạc được xem như một tấm cửa trong suốt nằm phía trước
mắt, nó là một bức tường dày và dai có nhiệm vụ lọc và cho phép hình ảnh đi


Trang 5

vào bên trong mắt. Giác mạc cũng hoạt động như một thấu kính có tác dụng
khúc xạ hoặc hội tụ ánh sáng từ một đối tượng nhìn.
 Mống mắt: Mống mắt hoạt động như một màng chắn hoặc một cửa sập trịn
có tác dụng điều chỉnh lượng ánh sáng đi vào bên trong mắt. Đây là bộ phận
tạo ra các màu khác nhau của mắt.
 Thủy tinh thể: Thủy tinh thể là một cấu trúc protein trong suốt, giúp tập
trung hình ảnh và điều tiết mắt tùy thuộc vào khoảng cách xa hay gần của đối
tượng nhìn.
 Thủy tinh dịch: Đây là một khối dịch đặc như lòng trắng trứng và trong suốt,
giúp định hình mắt và hỗ trợ các cấu trúc bên trong của mắt.
 Thể mi: Đây là bó cơ giúp thay đổi hình dạng của thủy tinh thể nhằm tạo ra
sự điều tiết phù hợp. Đây cũng chính là tuyến tiết ra một loại dịch lỏng, được
gọi là thủy dịch. Sự cân bằng giữa việc sản sinh và dẫn lưu của thủy dịch tạo
áp lực làm mắt lồi ra.
 Võng mạc: Võng mạc là mô thần kinh lót mặt trong của mắt. Nó bao gồm
các mơ thần kinh cực mỏng được chia thành từng lớp rất tinh vi. Phần trung

tâm của võng mạc là nơi chúng ta sử dụng để nhìn các vật thể. Vị trí này
được gọi là hoàng điểm. Đây là nơi tập trung nhiều nhất các tế bào nhạy cảm
ánh sáng, hay còn gọi là những tế bào thụ quang (thụ thể ánh sáng).
 Dây thần kinh thị giác: Cấu trúc của bộ phận này được tạo thành bởi các sợi
thần kinh nhỏ từ toàn bộ các vùng của võng mạc. Chúng hội tụ lại thành một
bó, xuyên qua một mạng lưới các lỗ nhỏ trên vỏ nhãn cầu, đi ra phía sau,
mang các xung điện đến não bộ như một dây cáp tinh tế.
Tất cả các mơ này có cấu trúc rất tinh vi. Ngoại trừ thành ngoài của mắt khá dai,
các mô khác đều rất mảnh và cần được bảo vệ. Vì vậy, nhãn cầu nằm trong ổ mắt,
một hốc xương được bảo vệ tốt trên khuôn mặt với những phần vững chắc và những
phần khác có thể bị vỡ. Mắt được bảo vệ nhờ vào những cơ chế phản xạ tự nhiên
cùng với một hệ thống rửa (bằng nước mắt) và lau sạch bề mặt (thông qua động tác
nháy mi mắt).


Trang 6

Hình 1-2: Cấu tạo mắt người. [26]
2.1.2.2. Chức năng
Chức năng của mắt là để xác định các đối tượng nhìn, tập hợp và hội tụ tia sáng
từ đối tượng, sau đó truyền hình ảnh rõ nét đến các tế bào nhạy cảm ánh sáng nằm ở
đáy mắt, nơi hình ảnh được thu nhận và bước đầu được xử lý. Hình ảnh sau đó được
chuyển tải bởi xung điện dọc theo dây thần kinh thị giác (là dây thần kinh đi từ đáy
mắt lên não). Các dây thần kinh thị giác liên kết với nhau trong não bộ cho phép
chúng ta nhìn thấy được những hình ảnh kết hợp từ cả hai mắt. Phần não bộ ghi
nhận các tín hiệu thị giác này được gọi là vỏ não thị giác, nằm ở phía sau cùng của
não bộ. Từ vỏ thị giác, tín hiệu được truyền đến nhiều phần khác của não. Các xung
điện ban đầu phải trải qua một quá trình xử lý phức tạp để tạo ra những hình ảnh mà
chúng ta nhìn thấy.
2.2. Tổng quan về một số cơng trình nghiên cứu của các tác giả trong và ngồi

nước có liên quan đến đề tài
2.3. Phân tích
Trong thời gian gần đây, có nhiều tài liệu của các tác giả nghiên cứu về vấn đề
ứng dụng thị giác máy tính để xác định hướng nhìn của mắt [3-14]. Trong các bài
[3,4] việc xác định hướng nhìn dựa vào sự phản chiếu ánh sáng của giác mạc. Một
nguồn sáng hồng ngoại được dùng để chiếu vào mắt và tạo nên 1 điểm sáng trên


Trang 7

giác mạc. Khi đó, bằng việc phát hiện vị trí tâm của trịng mắt và điểm sáng phản
chiếu, tác giả ước lượng hướng nhìn qua vị trí tương đối giữa 2 điểm.
J.-G. Wang và E. Sung [5] tính tốn hướng nhìn bằng cách ước lượng hình dạng
của đồng tử hoặc trịng mắt được phát hiện thơng qua việc khớp hình elip, và sử
dụng đồng tử được ước lượng hoặc hình elip của trịng mắt để suy ra hướng nhìn.
Sự chính xác của phương pháp này khơng cao vì bị ảnh hưởng của mi mắt và hướng
của khuôn mặt. Hơn nữa thuật tốn địi hỏi phải sử dụng hình ảnh từ camera độ
phân giải cao.
Để giải quyết các vấn đề này, các phương pháp phát hiện mới đã được nghiên
cứu dựa trên đặc tính của khn mặt [6,7]. Vị trí của trịng mắt và các góc của mắt
được xác định trong ảnh và được sử dụng để ước lượng hướng nhìn. Năm 2008, tác
giả Hirotake Yamazoe và các cộng sự [7] đã áp dụng xử lý ảnh để xác định hướng
nhìn của mắt, chỉ sử dụng 1 camera mà khơng dùng thêm nguồn sáng và các thiết bị
hỗ trợ khác. Tác giả đã tiến hành mơ hình hóa đầu và mắt của chủ thể dựa vào chuỗi
ảnh từ camera, sau đó sử dụng mơ hình này để ước lượng hướng nhìn của mắt. Độ
chính xác đạt được của phương pháp là 6o với ảnh độ phân giải thấp 320x240.
Cùng năm đó, các tác giả Jixu Chen và Qiang Ji [8] đã sử dụng các điểm trên
khuôn mặt để ước lượng hướng của đầu. Kết hợp với việc mơ hình hóa mắt dựa trên
đặc tính sinh học của đầu người đã tính tốn được hướng nhìn với độ chính xác nhỏ
hơn 3o.

Tác giả Matsumoto và các cộng sự [9] đã sử dụng hệ thống 2 camera để ước
lượng vị trí 3D của mắt và từ đó tính tốn hướng nhìn trong khơng gian.
Về các đề tài nghiên cứu trong nước có các tác giả Nguyễn Hữu Cường, giảng
viên đại học Cần Thơ đã chế tạo xe lăn điều khiển bằng mắt, với một webcam được
đeo vào đầu để theo dõi chuyển động của mắt. Tác giả Huỳnh Thái Hoàng Trường
Đại học Bách Khoa TP. HCM cũng đã chế tạo xe lăn điều khiển bằng mắt [15]
nhưng với phương pháp khác: Camera được lắp đặt phía trước ghế ngồi của xe lăn
để thu ảnh mặt người sử dụng, sau đó sử dụng kỹ thuật xử lý ảnh để tách ra vùng
chứa ảnh mắt người, và tiếp đó sử dụng mạng thần kinh với ngõ vào là các đặc
trưng đặc trưng PCA của ảnh mắt để xác định hướng nhìn của mắt.


Trang 8

2.4. Các vấn đề còn tồn tại
Tất cả các hệ thống trên đều được xây dựng trên máy tính. Sẽ rất bất tiện nếu
như đem ứng dụng vào cuộc sống. Vì vậy, nhóm nghiêm cứu muốn tìm hiểu và xây
dựng một hệ thống phát hiện hướng nhìn được nhúng trên một thiết bị nhỏ gọn.
2.5. Các vấn đề cần tập trung giải quyết của đề tài
Đề tài tập trung vào việc phát hiện vị trí tâm của trịng mắt để làm điều kiện cho
việc ước lượng hướng nhìn.
Tiến hành calib các thơng số cho camera, sau đó xác định các điểm đặc trưng
trên khn mặt và tính tốn hướng của khn mặt. Từ đó kết hợp với tâm của trịng
mắt để suy ra hướng nhìn.
Thực hiện việc nhúng tồn bộ hệ thống vào board Mini210s ARM Cortex A8
nhân Linux.


Trang 9


Phần 3. CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP THỰC HIỆN
3.1. Xử lý ảnh số
Giới thiệu về ảnh số:
Một ảnh số có thể được biểu diễn bởi một hàm 2 chiều, ( , ), với , là hệ
tọa độ không gian và độ lớn của

tại mỗi điểm tọa độ ( , ) được gọi là cường độ

hoặc là mức xám của ảnh tại vị trí đó. Khi , và giá trị độ lớn của

là những đại

lượng rời rạc hữu hạn, chúng ta gọi ảnh đó là ảnh số.
Mỗi điểm ảnh tại tọa độ ( , )
trong một ảnh số với độ xám hoặc
độ màu nhất định được gọi là một
pixel. Đặc tính của hàm ( , ) cho
mỗi pixel phụ thuộc vào loại ảnh
(ảnh nhị phân, ảnh xám, ảnh
màu…). Một ảnh số gồm các pixel
được sắp xếp trong một mảng hình
chữ nhật (hoặc gọi là bitmap). Mức

Hình 3-1: Biểu diễn cấu trúc ảnh số 2 chiều.

xám của ảnh L = 2n.
Bit trên mỗi pixel: Giá trị các màu sắc được đại diện bởi số lượng bit trên mỗi
pixel (bpp). Mỗi 1 bpp ảnh sử dụng 1 bit cho mỗi pixel, vì vậy mỗi pixel có thể
được bật và tắt (ảnh nhị phân). Mỗi một bit được bổ sung thêm sẽ làm tăng gấp đơi
số lượng màu, ví dụ ảnh 2bpp có thể có 4 màu, ảnh 3bpp có thể có 8 màu…

1bpp

= 21= 2 màu (đen hoặc trắng).

2bpp

= 22= 4 màu.

8bpp

= 28 = 256 màu.

16bpp = 216 = 65.536 màu (Highcolor).
24bpp = 224 = 16,8 triệu màu (Truecolor).


Trang 10

Một số kiểu ảnh số thường gặp:
Ảnh nhị phân (binary image): Ảnh nhị phân là một kiểu ảnh số mà tại mỗi pixel
chỉ có thể nhận một trong hai giá trị là 0 hoặc 1 đặc trưng cho màu trắng (mức 1)
hoặc đen (mức 0). Ảnh nhị phân có ưu điểm là đơn giản, kích thước nhỏ gọn, thuận
tiện cho việc lưu trữ, xử lý, phân tích ảnh.

Hình 3-2: Mô tả ảnh nhị phân.
Ảnh xám (grayscaledigital image): Ảnh xám là kiểu ảnh 8bit (256 màu), giá trị
mỗi pixel được lưu trữ trong 1 byte. Ảnh xám là một dạng của ảnh đen trắng với giá
trị độ lớn tại mỗi pixel thay đổi từ 0 đến 255 (với ảnh 8bit) tương ứng với mức thay
đổi từ màu đen đến màu trắng.


Hình 3-3: Thang màu mức xám ảnh 8 bit.

Hình 3-4: Biểu diễn ảnh xám [16]
Ảnh màu (color image): Để thể hiện hình ảnh một cách trực quan, mỗi pixel
phải thể hiện được 3 kênh màu trong không gian màu. Các không gian màu thường


×