Tải bản đầy đủ (.pdf) (55 trang)

Xác định mặt người sử dụng các đặc trưng hình học 3d

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.2 MB, 55 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ THỊ TUYẾT

XÁC ĐỊNH MẶT NGƢỜI SỬ DỤNG
CÁC ĐẶC TRƢNG HÌNH HỌC 3D

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ THỊ TUYẾT

XÁC ĐỊNH MẶT NGƢỜI SỬ DỤNG
CÁC ĐẶC TRƢNG HÌNH HỌC 3D
Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS ĐỖ NĂNG TOÀN

Hà Nội - 2015



1

LỜI CẢM ƠN
Lời đầu tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo PGS.TS Đỗ
Năng Toàn, Phó viện trƣởng Viện Công nghệ thông tin - Đại học Quốc gia Hà
Nội. Trong thời gian làm luận văn tốt nghiệp Thầy đã dành nhiều thời gian quý
báu tận tình chỉ bảo, hƣớng dẫn tôi nghiên cứu, thực hiện luận văn.
Tôi xin đƣợc cảm ơn các thầy giáo, cô giáo đã giảng dạy tôi trong quá
trình học tập và làm luận văn. Các thầy cô đã giúp tôi có những hiểu biết sâu sắc
hơn về lĩnh vực mà mình đang nghiên cứu để có thể vận dụng kiến thức đó vào
trong công tác của mình hiệu quả hơn.
Xin cảm ơn gia đình, bạn bè, đồng nghiệp đã tạo mọi điều kiện tốt nhất,
động viên, cổ vũ tôi trong suốt quá trình học tập và nghiên cứu để tôi hoàn thành
bản luận văn tốt nghiệp này.
Hà Nội, tháng 10 năm 2015
Học viên thực hiện


2

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu độc lập của bản thân trong
đó có sự giúp đỡ rất lớn của thầy hƣớng dẫn. Những số liệu, kết quả đƣợc đƣa ra
trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình
nghiên cứu nào khác.
Trong luận văn tôi có tham khảo một số tài liệu của một số tác giả đã
đƣợc liệt kê tại phần tài liệu tham khảo ở cuối luận văn.
Hà Nội, tháng 10 năm 2015
Học viên thực hiện



3

MỤC LỤC
LỜI CẢM ƠN ....................................................................................................... 1
LỜI CAM ĐOAN.................................................................................................. 2
MỤC LỤC ............................................................................................................. 3
DANH MỤC HÌNH VẼ ........................................................................................ 5
DANH MỤC BẢNG ............................................................................................. 5
MỞ ĐẦU ............................................................................................................... 6
Chƣơng 1. KHÁI QUÁT VỀ NHẬN DẠNG MẶT NGƢỜI ............................... 8
1.1. Bài toán nhận dạng mặt ngƣời.................................................................... 8
1.1.1. Giới thiệu ............................................................................................. 8
1.1.2. Tầm quan trọng của nhận dạng mặt ngƣời .......................................... 9
1.1.3. Ứng dụng của bài toán nhận dạng mặt ngƣời .................................... 10
1.1.4. Các hƣớng tiếp cận trong nhận dạng mặt ngƣời................................ 11
1.1.4.1. Hƣớng tiếp cận dựa trên tri thức ................................................. 12
1.1.4.2. Hƣớng tiếp cận dựa trên đặc trƣng không thay đổi .................... 14
1.1.4.3. Hƣớng tiếp cận dựa trên so sánh khớp mẫu................................ 15
1.1.4.4. Hƣớng tiếp cận dựa trên diện mạo .............................................. 17
1.1.5. Những khó khăn của bài toán nhận dạng mặt ngƣời ......................... 21
1.2. Nhận dạng mặt ngƣời dựa trên đặc trƣng 3D ........................................... 22
Chƣơng 2. PHÁT HIỆN MẶT NGƢỜI SỬ DỤNG ĐẶC TRƢNG 3D ............ 24
2.1. Đặc trƣng 3D ............................................................................................ 24
2.2. Rút trích các đặc trƣng lồi và lõm ............................................................ 25
2.2.1. Điểm lồi và điểm lõm ........................................................................ 25
2.2.2. Dò tìm và lấy vùng lồi, lõm ............................................................... 25
2.2.3. Dò tìm và phát hiện vùng lồi, lõm ở nhiều mức khác nhau .............. 27
2.2.4. Tối ƣu tốc độ việc dò tìm ................................................................... 28
2.3. Xây dựng cấu trúc cây lồi lõm ................................................................. 29

2.4. Xây dựng hàm tính độ tƣơng đồng giữa hai cây ...................................... 33
2.4.1. Độ tƣơng đồng giữa hai nút trên cây ................................................. 33
2.4.2. Độ tƣơng đồng giữa hai cây .............................................................. 34
2.4.3. Không gian cây và khoảng cách giữa hai cây ................................... 34
2.5. Nhận dạng ................................................................................................. 35


4

2.5.1. Cơ sở lý thuyết ................................................................................... 35
2.5.2. Canh biên các đặc trƣng khuôn mặt .................................................. 36
2.5.2.1. Kỹ thuật dò biên .......................................................................... 36
2.5.2.2. Canh biên .................................................................................... 38
2.5.3. Xử lý độ sáng trên tập ảnh mẫu ......................................................... 40
2.5.4. Gán nhãn ............................................................................................ 41
2.5.5. Thống kê ............................................................................................ 41
2.5.6. Các đánh giá dùng trong phát hiện khuôn mặt .................................. 42
2.5.7. Hậu xử lý ........................................................................................... 43
Chƣơng 3. CÀI ĐẶT VÀ THỬ NGHIỆM ......................................................... 45
3.1. Môi trƣờng thử nghiệm ............................................................................ 45
3.2. Tập ảnh thử nghiệm .................................................................................. 45
3.3. Kết quả thử nghiệm .................................................................................. 47
3.4. Nhận xét .................................................................................................... 48
3.5. Một số ảnh kết quả tiêu biểu..................................................................... 49
KẾT LUẬN ......................................................................................................... 51
TÀI LIỆU THAM KHẢO ................................................................................... 52


5


DANH MỤC HÌNH VẼ
Hình 1.1: Hệ thống nhận dạng mặt ngƣời ............................................................. 9
Hình 1.2: Hệ thống đa độ phân giải .................................................................... 13
Hình 1.3: Phƣơng pháp chiếu .............................................................................. 14
Hình 1.4: Mô hình mạng Nơ ron của H. Rowley ................................................ 18
Hình 1.5: Mô hình Markov xác định khuôn mặt................................................. 20
Hình 1.6: Các trạng thái ẩn của mô hình Markov ............................................... 21
Hình 1.7: Vector quan sát để huấn luyện trong mô hình Markov ẩn .................. 21
Hình 2.1 Dò tìm thông tin lồi lõm ....................................................................... 24
Hình 2.2: Dò tìm vùng lồi lõm trên ảnh .............................................................. 25
Hình 2.3: Tập các bộ lọc ..................................................................................... 26
Hình 2.4: Dò tìm các vùng lồi lõm ở nhiều mức khác nhau ............................... 28
Hình 2.5: Ảnh tích phân ...................................................................................... 29
Hình 2.6: Tính tổng độ sáng hình chữ nhật R(l,r,t,b) .......................................... 29
Hình 2.7: Cây cấp bậc ......................................................................................... 30
Hình 2.8: Cây cấp bậc đƣợc rút trích từ khuôn mặt ............................................ 30
Hình 2.9: Vị trí vùng tƣơng đối của nút con ....................................................... 31
Hình 2.10: Cách tính vector đại diện độ sáng của nút ........................................ 31
Hình 2.11: Các thông tin trên một nút của cây rút trích đƣợc ............................ 32
Hình 2.12: Biểu diễn các cây khuôn mặt trong không gian ................................ 35
Hình 2.13: Chọn k cây chuẩn .............................................................................. 35
Hình 2.14: Đánh giá điểm có thuộc lớp khuôn mặt hay không .......................... 36
Hình 2.15: Canh biên các vị trí trên khuôn mặt .................................................. 39
Hình 2.16: Hiệu chỉnh độ sáng và cân bằng lƣợc đồ .......................................... 40
Hình 2.17: Gán nhãn cho tập ảnh học ................................................................. 41
Hình 2.18: Mô hình phát hiện mặt ngƣời ............................................................ 42
Hình 3.1: Một số ảnh khuôn mặt trong tập ảnh của Markus Weber ................... 46
Hình 3.2. Một số ảnh không phải khuôn mặt trong tập ảnh của Markus Weber .... 47
Hình 3.2: Một số trƣờng hợp phát hiện đúng ...................................................... 50
Hình 3.3: Trƣờng hợp phát hiện chƣa đúng ........................................................ 50

DANH MỤC BẢNG
Bảng 1: Kết quả thử nghiệm rút trích đặc trƣng ở 2 mức ................................... 47
Bảng 2: Kết quả thử nghiệm rút trích đặc trƣng ở 3 mức ................................... 47
Bảng 3: Kết quả thử nghiệm trên tập ảnh không chứa khuôn mặt ..................... 47
Bảng 4: Kết quả thử nghiệm tiếp cận diện mạo trên các tập ảnh........................ 48


6

MỞ ĐẦU
1. Lý do chọn đề tài
Hiện nay cùng với sự phát triển vƣợt bậc của kỹ thuật số và mạng toàn
cầu, vấn đề an ninh, bảo mật về thông tin ngày càng trở nên quan trọng và khó
khăn. Những vụ đánh cắp tài khoản trong thẻ tín dụng hay đột nhập trái phép
vào các hệ thống máy tính, các tòa nhà của cơ quan nhà nƣớc, chính phủ xảy ra
ngày càng nhiều. Hơn 200 triệu đô la là số tiền bị thất thoát ở Mỹ vào năm 2012
do các vụ gian lận và xâm nhập trái phép nói trên [21]. Hầu hết các vụ phạm
pháp này, bọn tội phạm đã lợi dụng những khe hở trong quá trình truy cập vào
các hệ thống thông tin và kiểm soát vì đa số những hệ thống này thực hiện
quyền truy cập của ngƣời sử dụng không dựa vào thông tin “chúng ta là ai” mà
chủ yếu dựa vào “chúng ta có gì”. Hay nói cách khác, thông tin mà ngƣời sử
dụng cung cấp cho hệ thống không dựa vào các đặc trƣng của họ nhƣ mặt, mũi,
vân tay... mà chỉ là những gì họ đang sở hữu nhƣ họ tên, ngày tháng năm sinh,
số chứng minh thƣ nhân dân, mật mã, số thẻ tín dụng... Những thông tin này
không mang tính đặc trƣng mà chỉ mang tính xác thực đối với ngƣời sử dụng vì
vậy mà nếu chúng bị sao chép hoặc đánh cắp thì kẻ trộm hoàn toàn có thể truy
cập vào hệ thống và sử dụng dữ liệu của chúng ta bất cứ khi nào họ muốn. Từ
những yêu cầu đó, công nghệ mới hiện nay đã cho phép việc xác thực dựa vào
bản chất của từng cá nhân. Công nghệ này đƣợc phát triển theo hƣớng sinh trắc
học, đó là phƣơng pháp tự động cho phép xác thực hay nhận dạng cá nhân dựa

vào các đặc trƣng sinh học của ngƣời đó nhƣ đặc điểm khuôn mặt, vân tay…
hoặc những đặc điểm liên quan đến hành vi nhƣ giọng nói, chữ viết... nên có độ
chính xác cao và rất khó bị giả mạo.
Các đặc trƣng sinh học ở mỗi con ngƣời là duy nhất và rất khó thay đổi,
trong khi đặc trƣng hành vi có thể thay đổi do các yếu tố tâm lý nhƣ khi chúng ta
mệt mỏi, căng thẳng hay bệnh tật. Chính vì lý do này mà các hệ thống nhận
dạng dựa trên đặc trƣng sinh học thƣờng hiệu quả hơn so với hệ thống nhận
dạng dựa vào đặc trƣng hành vi. Nhận dạng mặt ngƣời là một trong số ít các
phƣơng pháp nhận dạng dựa vào đặc trƣng sinh học cho kết quả chính xác cao.
Hơn nữa, trong số các đặc trƣng sinh học của con ngƣời thì khuôn mặt đóng vai
trò quan trọng trong quá trình giao tiếp giữa ngƣời với ngƣời và mang một
lƣợng thông tin giàu có, chẳng hạn nhƣ dựa vào khuôn mặt chúng ta có thể xác
định giới tính, độ tuổi, cảm xúc... Nhận dạng khuôn mặt không phải là bài toán
mới nhƣng nó vẫn là một thách thức lớn vì độ phức tạp của nó. Do đó đến nay
bài toán này vẫn đang thu hút đƣợc sự quan tâm của rất nhiều nhà khoa học.


7

Từ những lý do trên tôi đã chọn đề tài: “Xác định mặt ngƣời sử dụng
các đặc trƣng hình học 3D” làm đề tài luận văn tốt nghiệp.
2. Mục tiêu, nhiệm vụ nghiên cứu
Tìm hiểu mô hình bài toán nhận dạng và các bƣớc thực hiện để xây dựng
một hệ thống nhận dạng mặt ngƣời;
Tìm hiểu, nắm đƣợc các công nghệ đã và đang đƣợc áp dụng trong từng
bƣớc của hệ thống;
Hiểu rõ lý thuyết toán học và các tính chất đặc trựng của những kỹ thuật
đƣợc sử dụng để giải quyết bài toán trong khuôn khổ của luận văn;
Tìm hiểu và sử dụng các công cụ hữu ích nhằm phục vụ cho bài toán nhận
dạng mặt ngƣời.

3. Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu: Các phƣơng pháp, thuật toán phục vụ cho việc
phát hiện và nhận dạng mặt ngƣời trên ảnh; bộ cơ sở dữ liệu chuẩn.
Phạm vi nghiên cứu: Luận văn tập trung vào nghiên cứu phát hiện mặt
ngƣời dựa vào các đặc trƣng hình học của khuôn mặt.
4. Phƣơng pháp nghiên cứu
Các phƣơng pháp nghiên cứu lý thuyết nhƣ: Phƣơng pháp phân tích và
tổng hợp lý thuyết, phƣơng pháp mô hình hóa.
Phƣơng pháp nghiên cứu thực tiễn nhƣ: Phƣơng pháp phân tích tổng kết
kinh nghiệm, phƣơng pháp quan sát khoa học.
5. Kết cấu luận văn
Ngoài phần mở đầu, mục lục, kết luận, tài liệu tham khảo, đề tài gồm 3
chƣơng nhƣ sau:
Chƣơng 1: Khái quát về nhận dạng mặt ngƣời. Tìm hiểu chung về bài
toán nhận dạng mặt ngƣời, ứng dụng của bài toán và một số phƣơng pháp nhận
dạng mặt ngƣời.
Chƣơng 2: Phát hiện mặt ngƣời sử dụng đặc trƣng 3D. Trình bày các đặc
trƣng lồi lõm của khuôn mặt và phát hiện mặt ngƣời dựa vào đặc trƣng lồi lõm.
Chƣơng 3: Cài đặt và thử nghiệm. Xây dựng chƣơng trình ứng dụng và
một số kết quả thu đƣợc.


8

Chƣơng 1. KHÁI QUÁT VỀ NHẬN DẠNG MẶT NGƢỜI
1.1. Bài toán nhận dạng mặt ngƣời
1.1.1. Giới thiệu
Nhận dạng khuôn mặt là một khái niệm còn khá mới mẻ, nó chỉ mới đƣợc
phát triển vào những năm 60 của thế kỷ trƣớc. Khi đó, ngƣời ta phải dùng tới
những phƣơng pháp tính toán thủ công để xác định vị trí, khoảng cách và các bộ

phận trên khuôn mặt. Về sau, vào cuối thập niên 80, kỹ thuật nhận diện khuôn
mặt dần đƣợc cải thiện khi M. Kirby và L. Sirovich [11] phát triển phƣơng pháp
tìm mặt riêng (eigenface) sử dụng phƣơng pháp phân tích thành phần chính
(Principal component analysis - PCA), đánh dấu một bƣớc ngoặt mới trong
ngành công nghệ nhận diện khuôn mặt. Ngày nay, chúng ta có thể dễ dàng nhìn
thấy ứng dụng của công nghệ nhận diện khuôn mặt trong việc điều tra tội phạm,
kiểm tra hành khách ở sân bay hay việc xác thực truy cập vào hệ thống.
Thuật toán nhận diện khuôn mặt đƣợc chia làm hai loại chính là hình học
(geometric) và trắc quang (photometric). Hình học là nhận diện khuôn mặt dựa
vào các đặc trƣng trên khuôn mặt nhƣ mắt, mũi, miệng, gò má; còn trắc quang là
phƣơng pháp biến hình ảnh thành các giá trị và so sánh với giá trị mẫu để nhận
diện. Ngày nay các nhà nghiên cứu đã phát triển những kỹ thuật nhận diện
khuôn mặt riêng, nhƣng phổ biến nhất có ba loại chính là phân tích thành phần
chính (Principal component analysis - PCA), phân tích phân lớp tuyến tính
(Linear discriminant analysis - LDA) và phƣơng pháp đồ thị đàn hồi (Elastic
Bunch Graph Matching - EBGM).
Cách nhận diện khuôn mặt sử dụng phƣơng pháp phân tích thành phần
chính phụ thuộc rất nhiều vào cơ sở dữ liệu ban đầu chứa các ảnh mẫu và góc
quay camera cũng nhƣ ánh sáng. Phƣơng pháp này sử dụng các thuật toán đại số
để tìm giá trị mặt riêng và vector riêng rồi so sánh với giá trị mẫu, ta thu đƣợc
khuôn mặt cần nhận diện. Ƣu điểm của phƣơng pháp này là giảm thiểu đƣợc dữ
liệu cần sử dụng làm mẫu. Còn phƣơng pháp phân lớp tuyến tính lại phân loại
các lớp chƣa biết thành các lớp đã biết, mà ở đó các khuôn mặt tạo thành một
lớp và sự khác biệt giữa các khuôn mặt trong một lớp là rất nhỏ. Cả phân tích
thành phần chính và phân lớp tuyến tính đều chọn cách thống kê lấy mẫu, chọn
lọc để nhận diện khuôn mặt. Phƣơng pháp còn lại là đồ thị đàn hồi chia mặt
thành mạng lƣới gồm các nút với mỗi khuôn mặt có khoảng 80 điểm nút. Vị trí
của các nút giúp xác định khoảng cách giữa hai mắt, độ dài của sống mũi, độ sâu
của hốc mắt, hình dạng của gò má… Điểm khó của phƣơng pháp này là cần tính
toán chính xác khoảng cách giữa các điểm nút, và do đó đôi khi nó phải dùng



9

kết hợp với các phƣơng pháp nhƣ phân tích thành phần chính hay phân lớp
tuyến tính.
Với những hạn chế khi sử dụng công nghệ nhận diện khuôn mặt truyền
thống, phƣơng pháp nhận diện 3D đã trở thành hƣớng đi mới trong việc ứng
dụng công nghệ nhận diện khuôn mặt. Phƣơng pháp này lƣu lại hình ảnh 3D của
khuôn mặt với các điểm đặc trƣng nhƣ độ cong của cằm, mũi, hốc mắt… Ƣu
điểm của nó là có thể nhận diện khuôn mặt ở nhiều góc độ khác nhau và không
phụ thuộc vào ánh sáng. Cũng nhƣ những phƣơng pháp truyền thống, phƣơng
pháp nhận diện khuôn mặt 3D cũng dựa trên các thuật toán. Nó tính toán các
đƣờng cong, những điểm đặc trƣng trên khuôn mặt để tạo thành những dòng
lệnh duy nhất và so sánh với cơ sở dữ liệu. Với cơ sở dữ liệu đầu vào là một ảnh
hoặc một đoạn video (một chuỗi các ảnh), qua xử lý tính toán hệ thống xác định
đƣợc vị trí mặt ngƣời trong ảnh (nếu có) và xác định là ngƣời nào trong số
những ngƣời hệ thống đã đƣợc biết hoặc là ngƣời lạ.
Ảnh tĩnh

Rút trích đặc trƣng

Nhận dạng khuôn mặt
Hình 1.1: Hệ thống nhận dạng mặt người
1.1.2. Tầm quan trọng của nhận dạng mặt người
Nếu nhƣ công nghệ nhận dạng giọng nói phù hợp với các ứng dụng trong
call-center thì nhƣợc điểm của nó là bị ảnh hƣởng tiếng ồn nên không phù hợp
với những nơi công cộng. Còn công nghệ nhận dạng chữ ký cũng gây không ít
phiền phức cho ngƣời sử dụng bởi vì việc duy trì chữ ký giống nhau trong
những thời điểm khác nhau. Bên cạnh đó công nghệ nhận dạng vân tay cũng

đƣợc sử dụng khá phổ biến nhƣng cũng có nhƣợc điểm đó là bị ảnh hƣởng bởi


10

độ ẩm của da và đặc biệt độ chính xác sẽ giảm đối với ngƣời thƣờng xuyên tiếp
xúc với hóa chất, không những thế nhận dạng bằng vân tay có thể giả mạo, kẻ
gian có thể sử dụng tay của ngƣời khác để xác thực. Còn công nghệ nhận dạng
mống mắt là một công nghệ có nhiều ƣu điểm về độ chính xác và khả năng
chống giả mạo. Công nghệ này đƣợc dựa trên nhận dạng sơ đồ mạch máu trong
võng mạc mắt. Sơ đồ này rất ít khi thay đổi kể từ khi sinh ra cho đến khi già đi
và đặc biệt khi chết thì hệ thống sơ đồ mạch máu này sẽ biến mất vì thế không
thể dùng ngƣời chết để xác thực cho việc truy cập trái phép. Tuy nhiên công
nghệ này có điểm hạn chế đó là chịu sự tác động của nhiều yếu tố nhƣ độ rộng
của mặt, lông mi, kính đeo và khó thực hiện trên diện rộng do độ phức tạp của
các thiết bị.
Trong khi đó nhận dạng mặt ngƣời không phải là phƣơng pháp tối ƣu
song đây là công nghệ nhận dạng không cần đến sự tiếp xúc trực tiếp giữa các
đối tƣợng và thiết bị thu nhận. Thay vào đó, công nghệ này mang tính theo dõi,
giám sát và rất thuận tiện cho các ứng dụng bảo vệ, chống khủng bố tại những
nơi công cộng. Đây là một trong những ƣu điểm nổi trội của nhận dạng mặt
ngƣời mà công nghệ khác khó có đƣợc.
1.1.3. Ứng dụng của bài toán nhận dạng mặt người
Bài toán nhận dạng mặt ngƣời đƣợc áp dụng rộng rãi trong nhiều ứng
dụng thực tế khác nhau. Đây cũng chính là lý do hấp dẫn nhiều nhà nghiên cứu
trong thời gian dài. Các ứng dụng liên quan đến nhận dạng mặt ngƣời có thể kể
đến là:
- Hệ thống theo dõi nhân sự trong các cơ quan, công ty: Trong các khu
công nghiệp hay những công ty có quy mô lớn thì số lƣợng công nhân ra vào
hàng ngày lên đến hàng ngàn ngƣời nên việc phát hiện kẻ gian cũng nhƣ việc

theo dõi chấm công rất phức tạp. Do vậy cần có hệ thống nhận dạng để nhận
diện từng nhân viên trong công ty.
- Xác định tội phạm: Ngày nay hệ thống nhận diện khuôn mặt đƣợc triển
khai khá rộng rãi ở Mỹ. Chính phủ Mỹ hiện đang ứng dụng công nghệ này để
đảm bảo an ninh quốc gia thông qua việc nhận diện khuôn mặt tội phạm ngay
khi chúng xuống sân bay và loại bỏ những lá phiếu gian lận thông qua việc xác
định khuôn mặt ngƣời đi bầu cử.
- Camera chống trộm: Các hệ thống camera sẽ xác định đâu là con ngƣời
và theo dõi ngƣời đó xem họ có vi phạm gì không.
- Lưu trữ: Một ứng dụng khác rất tiềm năng đó là bảo đảm an ninh cho
việc rút tiền tại các máy ATM. Hệ thống có thể nhận diện đƣợc khuôn mặt của


11

một khách hàng. Sau khi đƣợc sự đồng ý của khách hàng, máy ATM sẽ ghi lại
hình ảnh số của khách hàng đó, rồi thiết lập dấu mặt trên ảnh để bảo vệ khách
hàng khỏi nạn ăn cắp nhận dạng và trộm tiền. Bằng cách sử dụng phần mềm
nhận dạng khuôn mặt, sẽ không cần dùng đến giấy chứng minh thƣ hay mã số
nhận diện cá nhân (PIN) để xác định danh tính của khách hàng, nhờ đó các công
ty có thể ngăn chặn nạn lừa đảo.
- Lần tìm dấu vết kẻ khủng bố: Từ những bức ảnh hay những đoạn video
đƣợc ghi lại tự động trên hiện trƣờng trƣớc khi vụ khủng bố xảy ra có thể nhận
dạng đƣợc những đối tƣợng khả nghi.
- Bảo vệ trẻ em ở nhà trẻ khỏi bọn bắt cóc: Quy định rằng chỉ có nhân
viên của nhà trẻ mới đƣợc phép dẫn trẻ em ra ngoài và trao tận tay cho bố mẹ
đón về. Nhƣng trong xã hội có một số trƣờng hợp giả danh nhân viên để bắt cóc
trẻ em. Nhờ có công nghệ nhận dạng mà những hành vi xấu này đã đƣợc ngăn
chặn.
- Hệ thống giao tiếp người máy: Nếu trƣớc kia việc tƣơng tác giữa ngƣời

và máy đƣợc thực hiện thông qua các phƣơng tiện truyền thống nhƣ: bàn phím,
chuột... thì hiện nay việc giao tiếp đƣợc thực hiện thông qua biểu cảm của khuôn
mặt, dấu hiệu, cử chỉ bằng tay...
- Giải trí: Trong hầu hết các máy ảnh hiện đại đều có chức năng nhận diện
mặt ngƣời để có thể lấy độ nét, tự động điều chỉnh ánh sáng cho phù hợp với
khung cảnh xung quanh.
1.1.4. Các hướng tiếp cận trong nhận dạng mặt người
Đến nay có khá nhiều hƣớng tiếp cận đã đƣợc thực hiện liên quan đến
nhận dạng mặt ngƣời. Nhƣng theo Ming-Hsuan Yang [13] có thể chia làm bốn
hƣớng tiếp cận chính:
- Dựa trên tri thức (knowledge-based): Phƣơng pháp này dựa trên những
luật đƣợc định nghĩa trƣớc về khuôn mặt. Những luật này thƣờng là mối quan hệ
giữa các thành phần cấu tạo nên khuôn mặt.
- Dựa trên đặc trƣng bất biến (feature invariant): Các thuật toán này nhằm
mục đích tìm các đặc điểm cấu trúc của khuôn mặt mà các đặc điểm này tồn tại
ngay cả khi điều kiện tƣ thế hoặc ánh sáng thay đổi. Các đặc trƣng nhƣ thế đƣợc
gọi là bất biến và đƣợc sử dụng để phát hiện khuôn mặt.
- Đối sánh mẫu (template matching): Hƣớng tiếp cận này dùng một số mô
hình tiêu chuẩn của một khuôn mặt đƣợc định nghĩa bằng tay trƣớc hoặc đƣợc
tham số hóa bằng một hàm số. Mô hình mẫu này đƣợc sử dụng để phát hiện
khuôn mặt bằng cách quét nó qua ảnh và tính toán giá trị tƣơng đồng cho mỗi vị


12

trí. Việc xuất hiện khuôn mặt tại một vị trí nào đó trong ảnh phụ thuộc vào giá
trị tƣơng đồng của điểm đó so với mẫu chuẩn.
- Dựa vào diện mạo (appearance-based): Hƣớng tiếp cận này dùng một
tập ảnh cho trƣớc sau đó hệ thống sẽ xác định khuôn mặt ngƣời. Phƣơng pháp
dựa vào diện mạo thƣờng dùng một mô hình máy học nên còn đƣợc gọi là

phƣơng pháp dựa trên máy học (machine learning-based). Nói cách khác thuật
toán dựa trên máy học dùng các kỹ thuật phân tích thống kê và máy học để xấp
xỉ một hàm phân lớp tuyến tính.
1.1.4.1. Hướng tiếp cận dựa trên tri thức
Trong hƣớng tiếp cận này, phƣơng pháp phát hiện khuôn mặt đƣợc dựa
trên những quy tắc của tác giả nghiên cứu bài toán. Đây là hƣớng tiếp cận theo
dạng top-down. Các luật cơ bản đƣợc xây dựng để mô tả các đặc trƣng của một
khuôn mặt và mối quan hệ giữa chúng. Ví dụ một khuôn mặt thƣờng có hai mắt
đối xứng với nhau, một mũi và miệng. Mối quan hệ giữa các đặc trƣng có thể
đƣợc mô tả bởi khoảng cách và vị trí. Đặc điểm khuôn mặt đƣợc rút trích đầu
tiên, sau đó các ứng viên đƣợc xác định dựa trên quy tắc mã hóa và thƣờng áp
dụng quá trình xác minh để giảm những phát hiện sai sót. Tuy nhiên một vấn đề
khó khăn trong cách tiếp cận này đó là làm sao chuyển từ tri thức của con ngƣời
thành các luật. Nếu các luật quá chi tiết thì có thể không phát hiện đƣợc khuôn
mặt do các khuôn mặt này không thể thỏa mãn tất cả các luật đƣa ra. Ngƣợc lại
nếu các luật quá tổng quát thì có thể chúng ta sẽ xác định nhầm một vùng nào đó
không phải là khuôn mặt mà lại xác định là khuôn mặt. Hơn nữa cũng khó khăn
cho việc mở rộng phƣơng pháp này để phát hiện khuôn mặt ở những tƣ thế khác
nhau.
Tác giả Yang và Huang đã sử dụng một phƣơng pháp dựa trên tri thức thứ
bậc để phát hiện khuôn mặt [7]. Hệ thống này bao gồm 3 mức luật. Ở mức cao
nhất, dùng một cửa sổ quét lên hình ảnh đầu vào và thông qua một tập luật để
tìm các ứng viên. Ở mức kế tiếp hai tác giả dùng một tập luật để mô tả tổng quát
hình dáng của khuôn mặt. Còn ở mức cuối cùng thì lại dùng một tập luật khác để
xem xét các đặc trƣng khuôn mặt ở mức chi tiết, từ đó lọc ra ứng viên chính xác
nhất. Một hệ thống đa độ phân giải có thứ tự đƣợc sử dụng để xác định (Hình
1.2). Độ phân giải thấp nhất (mức 1) của ảnh đƣợc dùng để tìm các ứng viên
khuôn mặt mà chúng tiếp tục đƣợc xử lý ở độ phân giải cao hơn. Ở mức 2 xem
xét biểu đồ histogram của các ứng viên để loại bớt ứng viên nào không phải là
khuôn mặt, đồng thời cũng dò ra cạnh bao xung quanh ứng viên. Ở mức cuối

cùng những ứng viên còn lại sẽ đƣợc xem xét các đặc trƣng của khuôn mặt nhƣ
mắt, mũi, miệng. Có thể nói đây là cách làm mịn dần để làm giảm các tính toán


13

cần thiết, mặc dù tỉ lệ chính xác chƣa cao nhƣng đó là tiền đề cho nhiều nghiên
cứu sau này.

a) Ảnh có độ
phân giải n = 1

b) Ảnh có độ phân c) Ảnh có độ phân d) Ảnh có độ phân
giải n = 4
giải n = 8
giải n = 16
Hình 1.2: Hệ thống đa độ phân giải

Kotropoulos và Pitas [3] cũng đƣa ra một phƣơng pháp gần tƣơng tự với
Yang và Huang. Đầu tiên đặc trƣng của khuôn mặt đƣợc định vị bởi phƣơng
pháp chiếu (đã đƣợc Kanade sử dụng thành công) để xác định biên của khuôn
mặt. Với I(x,y) là giá trị xám của một điểm trong ảnh có kích thƣớng mxn ở tại
vị trí (x,y). Các hàm chiếu ảnh theo phƣơng ngang và phƣơng thẳng đứng đƣợc
định nghĩa nhƣ sau:
𝑛

𝐻𝐼 𝑥 =

𝐼(𝑥, 𝑦)
𝑦=1

𝑚

𝑉𝐼 𝑦 =

(1.1)

𝐼(𝑥, 𝑦)
𝑥=1

Dựa vào biểu đồ hình chiếu ngang, khi xét biểu đồ biến thiên của HI hai
ông tìm đƣợc hai cực tiểu địa phƣơng ứng với hai đỉnh đầu bên trái và bên phải
của khuôn mặt. Còn theo hình chiếu dọc, xét biểu đồ biến thiên của VI, các cực
tiểu địa phƣơng cũng cho ta vị trí của hai mắt, miệng và đỉnh mũi. Những đặc
trƣng này đủ để xác định khuôn mặt. Hình 1.3 là một ví dụ về cách xác định
khuôn mặt sử dụng phƣơng pháp chiếu. Với cách xác định này tỉ lệ chính xác
đạt khoảng 86.5% đối với trƣờng hợp chỉ có một khuôn mặt trong ảnh và nền
ảnh không phức tạp. Nếu nền ảnh phức tạp nhƣ hình 1.3b thì rất khó tìm. Còn
nếu ảnh có nhiều khuôn mặt nhƣ hình 1.3c thì sẽ không xác định đƣợc.


14

a) Ảnh có một khuôn mặt
và nền đơn giản

b) Ảnh có một khuôn mặt
và nền phức tạp

c) Ảnh có nhiều khuôn
mặt


Hình 1.3: Phương pháp chiếu
1.1.4.2. Hướng tiếp cận dựa trên đặc trưng không thay đổi
Tiếp cận dựa trên đặc trƣng không thay đổi là hƣớng tiếp cận theo kiểu
bottom-up. Các nhà nghiên cứu đã cố gắng tìm ra các đặc trƣng không thay đổi
của khuôn mặt khi ở các tƣ thế khác nhau và điều kiện môi trƣờng ánh sáng
khác nhau để phát hiện. Các đặc trƣng không thay đổi có thể kể đến nhƣ lông
mày, mắt, mũi, miệng hay các đƣờng viền trên tóc... Dựa vào những đặc trƣng
này các nhà nghiên cứu đã xây dựng lên một mô hình thống kê để mô tả mối
quan hệ giữa các đặc trƣng, từ đó xác định sự xuất hiện của khuôn mặt trong
ảnh. Tuy nhiên một vấn đề đặt ra đối với hƣớng tiếp cận này là các đặc trƣng
không thay đổi và mối quan hệ giữa chúng cần phải đƣợc điều chỉnh phù hợp
với điều kiện ánh sáng, độ nhiễu hay bị che khuất.
a. Các đặc trưng khuôn mặt
Có nhiều nghiên cứu về các đặc trƣng khuôn mặt, Sirohey [17] đã đƣa
một phƣơng pháp xác định khuôn mặt từ một ảnh có hình nền phức tạp. Phƣơng
pháp này dựa trên cạnh (tức là dùng phƣơng pháp Candy và heuristic để chẩn
đoán và loại bỏ các cạnh, còn lại duy nhất một đƣờng bao xung quanh khuôn
mặt. Dùng một hình elip để bao khuôn mặt, tách biệt vùng đầu và hình nền. Độ
chính xác của thuật toán này là 80%).
Leung đƣa ra một mô hình xác suất để xác định khuôn mặt có hình nền
phức tạp dựa trên việc tìm kiếm các đặc trƣng không thay đổi của khuôn mặt,
sau đó dùng một đồ thị ngẫu nhiên để xác định khuôn mặt. Leung dùng năm đặc
trƣng là hai mắt, hai lỗ mũi, phần nối giữa mũi và miệng để mô tả khuôn mặt,
sau đó tính quan hệ khoảng cách cho tất cả các cặp đặc trƣng (nhƣ mắt trái, mắt
phải) rồi dùng phân bố Gauss để mô hình hóa. Một mẫu khuôn mặt đƣợc đƣa ra
thông qua trung bình tƣơng ứng cho một tập đa hƣớng, đa tỉ lệ của bộ lọc đạo


15


hàm Gauss. Từ một ảnh, các đặc trƣng của ứng viên đƣợc xác định bằng cách so
khớp từng điểm ảnh khi lọc tƣơng ứng với vector mẫu, chọn ra hai ứng viên có
đặc trƣng đứng đầu để tìm kiếm cho các đặc trƣng khác của khuôn mặt. Từ
những đặc trƣng không thay đổi, những đặc trƣng khác sẽ đƣợc xác định thông
qua đánh giá xác suất khoảng cách giữa các đặc trƣng. Tỷ lệ chính xác của thuật toán
này là 86%.
b. Kết cấu khuôn mặt
Mỗi khuôn mặt có những kết cấu riêng mà có thể dùng để phân loại và so
sánh với các đối tƣợng khác. Augusteijin và Skufca đã suy luận rằng hình dạng
của khuôn mặt dùng làm kết cấu phân loại gọi là kết cấu giống khuôn mặt (face
like textures). Các kết cấu đƣợc tính bằng cách sử dụng đặc trƣng thống kê thứ
tự thứ hai (SGLD) trên cùng có kích thƣớc 16x16 điểm ảnh. Có 3 loại đặc trƣng
đƣợc xét đến là: da, tóc và những ngƣời khác. Hai ông đã sử dụng một mạng
lƣới thần kinh để phân loại có giám sát của kết cấu và ánh xạ đặc trƣng tự tổ
chức Kohonen để gom nhóm các lớp kết cấu khác nhau. Hai tác giả cũng đề
nghị phƣơng pháp xác định khuôn mặt dựa vào kết cấu của tóc và da.
c. Sắc màu da
Màu da đã đƣợc sử dụng và chứng minh là một đặc trƣng hiệu quả trong
nhiều ứng dụng về nhận dạng khuôn mặt. Mặc dù mỗi ngƣời khác nhau có màu
da khác nhau, nhƣng có một số nghiên cứu đã chỉ ra rằng sự khác biệt giữa màu
da nằm ở cƣờng độ nhiều hơn sắc độ. Dựa vào tính chất màu sắc da để chọn ra
các ứng viên có thể là khuôn mặt ngƣời để xác định khuôn mặt ngƣời.
d. Đa đặc trưng
Gần đây có nhiều phƣơng pháp sử dụng kết hợp các đặc trƣng toàn cục
nhƣ: màu da, kích thƣớc và hình dạng để tìm các ứng viên khuôn mặt, sau đó sẽ
xác minh ứng viên nào là khuôn mặt thông qua các đặc trƣng chi tiết nhƣ: mắt,
mũi, miệng và tóc. Tùy theo các tác giả khác nhau có thể sử dụng các tập đặc
trƣng khác nhau.
1.1.4.3. Hướng tiếp cận dựa trên so sánh khớp mẫu

Trong hƣớng tiếp cận này các mẫu chuẩn của khuôn mặt (thƣờng là khuôn
mặt đƣợc chụp thẳng) sẽ đƣợc xác định trƣớc hoặc đƣợc biểu diễn thành một
hàm với các tham số cụ thể. Từ một ảnh đƣa vào tính các giá trị tƣơng quan so
với mẫu chuẩn đó về đƣờng viền khuôn mặt, mắt, mũi và miệng. Thông qua các
giá trị tƣơng quan này, hệ thống sẽ xác định đƣợc có tồn tại hay không khuôn
mặt trong ảnh. Ƣu điểm của phƣơng pháp này là dễ thực hiện nhƣng khi tỷ lệ, tƣ
thế và hình dáng thay đổi thì hiệu quả không cao.


16

a. Xác định mẫu
Một nỗ lực ban đầu để xác định khuôn mặt ngƣời chụp thẳng trong ảnh đó
là báo cáo của Sakai [18]. Ông đã sử dụng vài mẫu con (sub template) về mắt,
mũi, miệng và đƣờng viền khuôn mặt để mô hình hóa một khuôn mặt. Mỗi mẫu
con đƣợc xác định trong giới hạn của các đoạn thẳng. Các đƣờng thẳng trong
ảnh đƣợc trích bằng cách xem xét sự thay đổi của hệ số góc và so khớp với mẫu
con. Đầu tiên tính toán mối tƣơng quan giữa các mẫu con và mẫu đƣờng viền để
xác định vị trí các ứng viên khuôn mặt, sau đó so khớp với các mẫu con khác.
Nói một cách đơn giản thì giai đoạn đầu là giai đoạn sơ chế để tìm ứng viên, giai
đoạn thứ hai là giai đoạn tinh chế để xác định ứng viên có phải là khuôn mặt hay
không. Đây cũng là ý tƣởng đƣợc duy trì cho các nghiên cứu sau này.
b. Các mẫu biến dạng
Yuille đã dùng các mẫu biến dạng để mô hình hóa các đặc trƣng của
khuôn mặt [2]. Trong phƣơng pháp này, các đặc trƣng của khuôn mặt đƣợc mô
tả bằng các mẫu đã đƣợc tham số hóa. Một hàm năng lƣợng (giá trị) đƣợc sử
dụng để liên kết các cạnh, đỉnh núi và thung lũng trong ảnh đầu vào với các
thông số tƣơng ứng trong mẫu. Mô hình này là tốt nhất khi tối thiểu hàm năng
lƣợng qua các tham số. Ƣu điểm của phƣơng pháp là linh hoạt, kết quả tốt
nhƣng bên cạnh đó vẫn còn một số hạn chế là các mẫu biến dạng phải đƣợc khởi

tạo trong phạm vi gần với các đối tƣợng mà nó xác định.
Cũng có nhiều hƣớng tiếp cận dựa trên đƣờng gấp khúc và các mẫu để
xác định khuôn mặt. Đầu tiên ảnh sẽ đƣợc làm xoắn lại bởi một bộ lọc làm mờ
rồi dùng phép toán morphology để làm nổi bật các cạnh lên. Sau đó dùng một
đƣờng gấp khúc có n điểm ảnh để tìm và ƣớc lƣợng các đoạn cong nhỏ. Mỗi
khuôn mặt đƣợc xấp xỉ bằng một hình elip và biến đổi Hough, rồi tìm một elip
nổi trội nhất. Các ứng viên sẽ có bốn tham số mô tả một elip. Mỗi ứng viên một
phƣơng thức tƣơng tự nhƣ phƣơng thức mẫu biến dạng đƣợc dùng để xác định
các đặc trƣng ở mức chi tiết. Nếu tìm đƣợc một số lƣợng đáng kể các đặc trƣng
khuôn mặt và thỏa mãn tỷ lệ cân đối thì coi nhƣ đã xác định đƣợc một khuôn
mặt.
Thay vì dùng đƣờng gấp khúc thì hai tác giả Huang và Su [6] dùng lý
thuyết dòng chảy để xác định đƣờng viền khuôn mặt dựa vào đặc tính hình học.
Tức là dùng lý thuyết tập hợp đồng mức để loang từ các khởi động ban đầy để
có đƣợc khuôn mặt.


17

Lanitis thì mô tả phƣơng pháp biểu diễn khuôn mặt bằng cả hai thông tin
hình dáng và cƣờng độ [11]. Bắt đầu với tập ảnh đƣợc huấn luyện, đƣờng viền
mẫu là các đƣờng bao mắt, mũi, cằm, má đƣợc gán nhãn. Phƣơng pháp này dùng
một vector các điểm mẫu để mô tả hình dáng, sau đó dùng một mô hình phân bố
điểm (Point Distribution Model - PDM) để mô tả vector hình dáng qua toàn bộ
các cá thể. Dùng cách tiếp cận của Kirby và Sirovich [14] để mô tả cƣờng độ bề
ngoài của hình dáng đã đƣợc chuẩn hóa. Để tìm kiếm và ƣớc lƣợng vị trí khuôn
mặt cũng nhƣ các tham số về hình dáng ông sử dụng một mô hình phân bố điểm
có hình dáng nhƣ khuôn mặt. Các ứng viên khuôn mặt đƣợc làm biến dạng về
hình dáng trung bình rồi trích lấy các tham số cƣờng độ. Sau đó các tham số
hình dáng và cƣờng độ đƣợc dùng để gán nhãn và xác định khuôn mặt.

1.1.4.4. Hướng tiếp cận dựa trên diện mạo
a. Tư tưởng của hướng tiếp cận
Không giống với phƣơng pháp so khớp mẫu với các mẫu đƣợc định nghĩa
trƣớc bởi những chuyên gia, các mẫu trong hƣớng tiếp cận này đƣợc học từ các
ảnh mẫu. Nói chung phƣơng pháp này áp dụng các kỹ thuật theo hƣớng xác suất
thống kê và máy học để tìm ra những đặc tính liên quan của khuôn mặt và không
phải là khuôn mặt. Những đặc tính này đã đƣợc học trong hình thái các mô hình
phân phối hay các hàm biệt số nên có thể dùng các đặc tính này để xác định
khuôn mặt. Đối với bài toán này để nâng cao hiệu quả tính toán cũng nhƣ hiệu quả
xác định thì việc giảm số chiều thƣờng đƣợc quan tâm.
Trong hƣớng tiếp cận này, phƣơng pháp xác suất tiếp tục đƣợc các nhà
nghiên cứu sử dụng. Một bức ảnh hay một vector đặc trƣng cho ảnh đƣợc xem
nhƣ là một biến ngẫu nhiên. Trong đó biến ngẫu nhiên này đƣợc xác định là có
mô tả các đặc trƣng của khuôn mặt hay không thông qua các xác suất có điều
kiện p(x/khuôn mặt) và p(x/không phải khuôn mặt). Có thể dùng bộ phân loại
Bayes để phân loại các ứng viên có phải là khuôn mặt không. Tuy nhiên việc cài
đặt bộ phân loại Bayes với số chiều x lớn là một việc khá khó khăn, do đó có rất
nhiều nhà nghiên cứu theo hƣớng tiếp cận này quan tâm tới việc tham số hóa
hay không tham số các xác suất p(x/khuôn mặt) và p(x/không phải khuôn mặt).
Một tiếp cận khác trong hƣớng tiếp cận dựa trên diện mạo đó là tìm một
hàm biệt số chẳng hạn nhƣ các hàm mô tả mặt phẳng hay siêu phẳng để phân
biệt hai lớp khuôn mặt và không phải là khuôn mặt. Thông thƣờng một bức ảnh
sẽ đƣợc chiếu vào không gian có số chiều ít hơn, sau đó dùng một hàm biệt số
dựa trên các độ đo khoảng cách để phân loại hoặc xây dựng một mặt phẳng
quyết định phi tuyến bằng mạng neural đa tầng.


18

b. Một số phương pháp cụ thể

Có khá nhiều phƣơng pháp đƣợc sử dụng trong hƣớng tiếp cận này. Sau
đây là một số phƣơng pháp cụ thể:
b1. Mạng Nơ ron (Neural Netwwork)
Là kỹ thuật tái tạo mạng nơ ron thần kinh của con ngƣời bằng máy tính.
Bao gồm các phần tử đơn giản (gọi là nơ ron) hoạt động song song đƣợc nối với
nhau bằng các liên kết có trọng số để kích thích hoặc ức chế giữa các nơ ron.
Mạng Neural thƣờng đƣợc sử dụng trong các bài toán nhận dạng nhƣ
nhận dạng mặt ngƣời, nhận dạng ký tự, nhận dạng đối tƣợng…có thể kể đến đó
là mô hình mạng nơ ron của Rowley [9].
Ảnh đầu vào

Tách cửa
sổ 20x20

Hiệu chỉnh
ánh sáng

Điều chỉnh
histogram

Nút ẩn

nhập

mẫu
con

Xuất

Tiền xử lý


Mạng nơ ron

Hình 1.4: Mô hình mạng Nơ ron của H. Rowley
Propp và Samal đã phát triển mạng nơ ron để xác định khuôn mặt sớm
nhất. Mạng nơ ron của hai tác giả gồm bốn tầng với 1024 đầu vào và 256 đầu kế
tiếp trong tầng ẩn thứ nhất, tám đầu kế tiếp trong tầng ẩn thứ hai và hai đầu ra.
Còn Vaillant dùng mạng nơ ron xoắn để xác định khuôn mặt ngƣời. Đầu tiên
ông sẽ tạo ra ảnh mẫu khuôn mặt và không phải khuôn mặt có kích thƣớc 20x20.
Sau đó dùng một mạng nơ ron, mạng này đã đƣợc huấn luyện để tìm các vị trí
tƣơng đối của các khuôn mặt ở các vị trí khác nhau rồi dùng một mạng khác để
xác định vị trí chính xác của khuôn mặt. Mạng đầu tiên đƣợc dùng để tìm ứng
viên khuôn mặt, còn mạng thứ hai để xác định ứng viên nào là khuôn mặt thật
sự.
Tuy nhiên theo đánh giá các phƣơng pháp dùng mạng nơ ron thì phƣơng
pháp dùng mạng nơ ron của Rowlley đƣợc xem là tối ƣu nhất đối với ảnh xám.
Phƣơng pháp này sử dụng mạng đa tầng để học các mẫu khuôn mặt và không


19

khuôn mặt từ các ảnh tƣơng ứng dựa trên quan hệ về cƣờng độ sáng, vị trí trong
không gian của các điểm ảnh.
b2. Adaboost
Đây là phƣơng pháp đƣợc đánh giá là tiếp cận nhanh nhất trong các thuật
toán máy học, thƣờng đƣợc kết hợp với các mô hình cascade of classifiers để
tăng tốc độc phát hiện khuôn mặt. Tƣ tƣởng của thuật toán này là kết hợp các bộ
phân loại yếu thành một bộ phân loại mạnh. Trong quá trình xây dựng, những bộ
phân loại yếu tiếp theo sẽ đƣợc xây dựng dựa trên các đánh giá về bộ phân loại
yếu trƣớc đó, cuối cùng các bộ phân loại yếu sẽ đƣợc kết hợp thành bộ phân loại

mạnh.
P. Viola và M. Jones [28] đã dùng Adaboost kết hợp với cascade để xác
định khuôn mặt với các đặc trƣng Haar-like. Tốc độ xử lý khá nhanh và độ
chính xác khoảng hơn 80%. Ngoài ra H. Schneiderman và T. Kanade [8] dùng
wavelet để rút trích đặc trƣng sau đó xây dựng hệ thống học với Adaboost dựa
trên xác suất để xác định khuôn mặt. Tỷ lệ chính xác của phƣơng pháp này lên
đến 90%.
b3. Support Vector Machine (SVM)
Support Vector Machine là một kỹ thuật máy học đƣợc Vladimir Vapnik
đƣa ra vào năm 1995. Đây là phƣơng pháp đƣợc ứng dụng nhiều trong lĩnh vực
phân loại văn bản cho đến khi Osuna [5] áp dụng đầu tiên để xác định khuôn
mặt ngƣời. Ƣu điểm của phƣơng pháp này là hiệu quả đối với dữ liệu lớn, nhƣng
gặp khó khăn khi phải mô tả chính xác các khuôn mặt. Support Vector Machine
đƣợc xem là một kiểu mới dùng huấn luyện để phân loại theo hàm đa thức.
Trong khi hầu hết các phƣơng pháp khác đều dùng tiêu chí tối thiểu lỗi huấn
luyện thì Support Vector Machine dùng quy nạp và mục tiêu là làm tối đa lỗi
tổng quát. Phân loại Support Vector Machine là một phân loại tuyến tính dùng
một mặt phẳng để tách dữ liệu, dựa trên một kết hợp có các trọng số của một tập
con các vector này đƣợc gọi là support vector.
b4. Mô hình Markov ẩn (Hidden Markow Model – HMM)
Mô hình Markov ẩn là một mô hình thống kê đƣợc mô hình hóa, quá trình
mô hình hóa gọi là quá trình Markov với các tham số không biết trƣớc và nhiệm
vụ là phải xác định các tham số đó từ các tham số quan sát đƣợc. Các tham số
của mô hình đƣợc rút ra sau đó có thể sử dụng để thực hiện các phân tích kế
tiếp, chẳng hạn cho các ứng dụng nhận dạng mẫu.
Young đã dùng mô hình Markov ẩn 2 chiều (Hình 1.5) để rút trích đặc
trƣng khuôn mặt trong nhận dạng mặt ngƣời. Mô hình Markov ẩn khai thác cấu


20


trúc khuôn mặt theo các chuyển tiếp trạng thái. Các vùng đặc trƣng quan trọng
nhƣ trán, mắt, mũi, miệng… đƣợc tác giả phân tích theo tự nhiên từ trên xuống
dƣới, trong đó mỗi vùng đƣợc thiết kế thành trạng thái một chiều. Mỗi ảnh đƣợc
phân thành năm vùng theo thứ tự từ trên xuống dƣới tạo thành năm trạng thái.
Giả thuyết quan trọng của mô hình Markov ẩn là các mẫu có thể đƣợc đặc tính
hóa nhƣ các tiến trình ngẫu nhiên có tham số và các tham số này đƣợc ƣớc
lƣợng một cách chính xác. Đối với bài toán nhận dạng mẫu thì phải xác định rõ
có bao nhiêu trạng thái ẩn đầu tiên cho hình thái mô hình. Sau đó huấn luyện mô
hình Markov ẩn học xác suất chuyển tiếp giữa các trạng thái từ các mẫu, mỗi
mẫu này đƣợc mô tả nhƣ một chuỗi các quan sát. Mục tiêu của mô hình Markov
ẩn là cực đại hóa xác suất quan sát đƣợc từ dữ liệu huấn luyện bằng cách điều
chỉnh các tham số trong mô hình thông qua phƣơng pháp phân đoạn Viterbi
chuẩn và các thuật toán Baum-Welch. Tức là ta chia khuôn mặt thành các vùng
khác nhau nhƣ trán, mắt, mũi, miệng, cằm… sau đó có thể nhận dạng một mẫu
khuôn mặt bằng cách thực hiện tiến trình xem xét các vùng quan sát đƣợc theo
một thứ tự thích hợp (từ trên xuống dƣới hoặc từ trái qua phải). Mục tiêu của
phƣơng pháp này là kết hợp các vùng đặc trƣng khuôn mặt với các trạng thái của
mô hình (Hình 1.6).

trán
mắt
mũi
miệng
cằm
Hình 1.5: Mô hình Markov xác định khuôn mặt


21


Hình 1.6: Các trạng thái ẩn của mô hình Markov
Thông thƣờng phƣơng pháp dựa vào mô hình Markov ẩn sẽ xem xét một
mẫu khuôn mặt nhƣ một chuỗi các vector quan sát (Hình 1.7) với mỗi vector là
một dãy điểm ảnh. Sau đó áp dụng một định hƣớng theo xác suất để chuyển từ
trạng thái này sang trạng thái khác. Dữ liệu ảnh đƣợc chuyển sang mô hình hóa
bằng phân bổ Gauss nhiều biến. Kết quả là xác định đƣợc quan sát thuộc lớp
nào.

Hình 1.7: Vector quan sát để huấn luyện trong mô hình Markov ẩn
1.1.5. Những khó khăn của bài toán nhận dạng mặt người
Bài toán nhận dạng mặt ngƣời đƣợc nghiên cứu từ những năm 70 tuy
nhiên đây vẫn là một bài toán khó nên những nhà nghiên cứu hiện tại vẫn chƣa
đạt đƣợc kết quả mong muốn. Chính vì vậy mà vấn đề này vẫn đang đƣợc nhiều
nhóm nghiên cứu quan tâm. Một số khó khăn của bài toán nhận dạng mặt ngƣời
có thể kể đến là:
- Tư thế góc chụp: Ảnh chụp khuôn mặt có thể thay đổi nhiều bởi vì góc
chụp giữa camera và khuôn mặt. Chẳng hạn nhƣ: chụp thẳng, chụp nghiêng bên
trái 450, chụp nghiêng bên phải 450, chụp từ trên xuống, chụp từ dƣới lên... Với


22

các tƣ thế khác nhau, các thành phần trên khuôn mặt nhƣ mắt, mũi, miệng có thể
bị khuất một phần hoặc thậm chí là khuất hết.
- Sự xuất hiện hoặc che khuất một số thành phần của khuôn mặt: Các đặc
trƣng của khuôn mặt nhƣ: râu mép, râu hàm, mắt kính... có thể đƣợc xuất hiện
hoặc không. Điều này làm cho bài toán càng trở nên khó khăn hơn nhiều.
- Cảm xúc thể hiện trên khuôn mặt: Sự biểu cảm của khuôn mặt cũng có
thể ảnh hƣởng đến các thông số của khuôn mặt. Ví dụ nhƣ, cùng một khuôn mặt
của một ngƣời nhƣng khi họ cƣời hay sợ hãi thì hình thái khuôn mặt có thể khác

nhau.
- Sự che khuất: Khuôn mặt có thể bị che khuất bởi các đối tƣợng khác
hoặc các khuôn mặt khác.
- Hướng của ảnh: Các ảnh của khuôn mặt có thể biến đổi rất nhiều với các
góc quay khác nhau của trục camera. Ví dụ nhƣ khi chụp ảnh mà máy ảnh
nghiêng có thể làm cho khuôn mặt bị nghiêng so với trục của ảnh.
- Điều kiện ánh sáng: Ảnh đƣợc chụp trong các điều kiện khác nhau về độ
sáng, về tính chất camera... ảnh hƣởng rất nhiều đến chất lƣợng khuôn mặt.
- Nền ảnh: Nền ảnh phức tạp cũng là một trong những khó khăn của bài
toán nhận dạng. Khuôn mặt ngƣời có thể dễ bị nhầm với nhiều khung cảnh phức
tạp xung quanh và ảnh hƣởng rất nhiều đến quá trình phân tích và rút trích đặc
trƣng khuôn mặt ngƣời trong ảnh, có thể dẫn đến việc không nhận ra khuôn mặt
hoặc là nhận nhầm với các khung cảnh xung quanh thành khuôn mặt.
- Màu sắc da: Nếu màu sắc da mặt quá tối hoặc gần với màu sắc khung
cảnh của môi trƣờng xung quanh cũng có thể gây khó khăn cho nhận dạng thậm
chí là có thể không tìm ra đƣợc khuôn mặt ngƣời.
1.2. Nhận dạng mặt ngƣời dựa trên đặc trƣng 3D
Vào năm 1983 James L. Crowley đã đƣa ra khái niệm ridge và peak [10].
Với ridge là các điểm lồi trên ảnh, tập các điểm rige trên ảnh tạo thành những
đƣờng xƣơng sống và các đƣờng này tạo thành các chùm tia gọi là peak (chùm).
Jame L. Crowley đã sử dụng phép hiệu của lọc Low Pass để rút ra các điểm
ridge (điểm lồi) trên ảnh và sau đó dùng một thuật toán duyệt để kết chúng lại
với nhau thành các đặc trƣng ridge và peak. Tiếp sau đó cũng có một số phƣơng
pháp đƣợc đề xuất để rút trích thông tin về ridge (lồi) và valley (lõm), tuy nhiên
hầu hết các phƣơng pháp này dùng một bộ lọc để tăng cƣờng thông tin về cạnh
trên ảnh sau đó dò tìm quỹ tích các điểm cực trị. Quỹ tích các điểm cực trị này
đƣợc xem nhƣ là các đặc trƣng lồi và lõm, sau đó các đặc trƣng lồi lõm đƣợc dò
tìm ở nhiều độ phân giải khác nhau. Tuy nhiên chất lƣợng của các đặc trƣng lồi



23

lõm này còn phụ thuộc nhiều vào điều kiện ánh sáng cũng nhƣ mức độ phân giải
đƣợc lựa chọn trƣớc. Để giải quyết sự phụ thuộc này thì Lindeberg [19] đã đề
xuất một phƣơng pháp tự động chọn độ phân giải tốt nhất. Gần đây Trần Thị
Thanh Hải [20] đã đƣa ra một cách tiếp cận sử dụng Laplacian để tăng cƣờng
thông tin cạnh sau đó dò tìm ridge và peak dƣới nhiều mức khác nhau. Trong
cách tiếp cận này thì các đặc trƣng ridge và peak đƣợc biểu diễn dƣới dạng đồ
thị quan hệ hoặc các cây cấp bậc với các tầng là các ridge và peak đƣợc dò tại các
mức khác nhau.
Áp dụng đặc trƣng tƣơng tự với bài toán nhận dạng mặt ngƣời, Quan Yan
[16] đã đƣa ra một khái niệm mới gọi là đặc trƣng tựa thung lũng hay có dạng
lõm (valley - like feature). Đặc trƣng này dựa trên hiệu mức sáng của các điểm
xung quanh và điểm đang xét ở trung tâm để xác định xem điểm này có dạng
lõm hay không. Các điểm xung quanh đƣợc thiết kế hình dạng khá đặc biệt để
phát hiện hai mắt và miệng của khuôn mặt. Mặc dù hƣớng tiếp cận này khá hấp
dẫn nhƣng đặc trƣng này quá đặc biệt đối với một số điều kiện thu hoặc chụp
ảnh cụ thể.
Các hƣớng tiếp cận đã trình bày ở trên khá tổng quát và ổn định, tuy nhiên
vẫn còn một vài hạn chế nhất định đó là hầu hết các hƣớng tiếp cận trên đều sử
dụng các đặc trƣng chủ yếu dựa trên độ sáng của điểm ảnh. Vì vậy các mối quan
hệ giữa các đặc trƣng rút trích cần đƣợc bổ sung vào các luật heristic để phân
tích hiệu quả hơn. Mặt khác, nếu không có các tri thức bổ sung đƣợc định nghĩa
trƣớc thì các mô hình này khó có thể đạt độ chính xác cao trong nhận dạng mặt
ngƣời. Vì vậy để đạt độ chính xác cao hơn, chúng ta cần hƣớng đến một loại đặc
trƣng dựa trên mô hình ý niệm cao hơn nhƣ là cấu trúc của khuôn mặt.
Để giải quyết vấn đề nêu trên, trong luận văn này tôi đề xuất một mô hình
ý niệm cao hơn là lồi và lõm ở nhiều mức. Theo cách tiếp cận này thì cấu trúc
khuôn mặt sẽ đƣợc biểu diễn bằng một cây cấp bậc của các lổi (chỏm) và lõm
(thung lũng). Dựa vào những đặc trƣng này, tôi sẽ áp dụng một mô hình thống

kê để xác định và phát hiện khuôn mặt. Trong luận văn này tôi tập trung chính
vào nhận dạng mặt ngƣời.


×