Tải bản đầy đủ (.pdf) (73 trang)

Tìm kiếm và nhận dạng khuôn mặt người trong ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.56 MB, 73 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
------------o0o------------

PHẠM TRUNG KIÊN

TÌM KIẾM VÀ NHẬN DẠNG
KHN MẶT NGƯỜI TRONG ẢNH

LUẬN VĂN CAO HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGÔ QUỐC TẠO

Hà Nội - 2007


MỤC LỤC
MỞ ĐẦU ............................................................................................... 7
1 Chương 1 PHÁT BIỂU BÀI TOÁN .................................................... 9
1.1
Tổng quan và các khái niệm liên quan đến nhận dạng khuôn mặt ................................................ 9
1.1.1
Hệ thống sinh trắc học ....................................................................................................... 9
1.1.2
Hệ thống nhận dạng khuôn mặt .......................................................................................... 9
1.1.3
Hệ thống xác minh hay xác thực khn mặt là gì? ............................................................... 9
1.1.4
Hệ thống nhận dạng tĩnh - tĩnh, tĩnh - động, động - động.................................................. 10
1.1.4.1
1.1.4.2


1.1.4.3

Hệ thống nhận dạng tĩnh - tĩnh ................................................................................................... 10
Hệ thông nhận dạng tĩnh - động ................................................................................................. 10
Hệ thống nhận dạng động - động ................................................................................................ 10

1.1.5
Những thách thức trong bài tốn nhận dạng khn mặt .................................................... 10
1.1.6
Sai số trong hệ nhận dạng [20]......................................................................................... 10
1.2
Các ứng dụng tương tác người máy (Human computer interactive) liên quan đến khuôn mặt ..... 11
1.3
Các hướng tiếp cận chính trong lĩnh vực nhận dạng khn mặt ................................................. 13
1.3.1
Các cơng trình nghiên cứu về phương pháp nhận dạng và kiểm chứng chất lượng cho một hệ
thống nhận dạng khuôn mặt ............................................................................................................. 13
1.3.2
Hướng tiếp cận được thử nghiệm trong luận văn............................................................... 15

2 Chương 2 DỊ TÌM KHN MẶT TRONG ẢNH MÀU................ 16
2.1
Giới thiệu ................................................................................................................................ 16
2.1.1
Các thách thức trong việc dị tìm khn mặt...................................................................... 16
2.1.2
Một số hướng tiếp cận thường được dùng trong dị tìm khn mặt nhanh .......................... 17
2.2
Tìm kiếm khn mặt người trong ảnh dựa trên màu da ............................................................. 18
2.2.1

Giới thiệu [16] ................................................................................................................. 18
2.2.2
Dị tìm da trên ảnh màu .................................................................................................... 19
2.2.2.1

2.2.3
2.2.3.1

2.2.4
2.2.4.1
2.2.4.2

2.2.5
2.2.5.1
2.2.5.2
2.2.5.3

2.2.6

Mơ hình hóa da.......................................................................................................................... 20

Khơng gian màu cho mơ hình da....................................................................................... 23
Phân tách vùng da trong không gian màu rg................................................................................ 25

Xác định vùng da sử dụng entropy .................................................................................... 28
Khái niệm về entropy................................................................................................................. 28
Phát hiện màu da bằng mơ hình Entropy cực đại. ........................................................................ 29

Định vị khuôn mặt bên trong các vùng da ......................................................................... 35
Giới thiệu .................................................................................................................................. 35

Định vị vùng khả năng mặt ........................................................................................................ 36
Ra quyết định sử dụng đối sánh mẫu .......................................................................................... 39

Kết luận về tìm kiếm khn mặt dựa trên màu da .............................................................. 41

3 Chương 3 RÚT TRÍCH ĐẶC TRƯNG TỪ KHN MẶT ............ 42
Tiếp cận theo phương pháp phân tích thành phần chính (Principal Component Analysis hay PCA)
42
3.1.1
Vector riêng, Trị riêng và sự chéo hố của ma trận ........................................................... 42
3.1.2
Kì vọng và phương sai trong thống kê đa chiều ................................................................. 43
3.2
Phương pháp phân tích thành phần chính (Principal Component Anlysis hay PCA)................... 43
3.2.1
Yêu cầu ............................................................................................................................ 43
3.2.2
Trích đặc trưng bằng phương pháp PCA .......................................................................... 44
3.2.3
Kỹ thuật tính đặc trưng bằng PCA .................................................................................... 46
3.3
Phương pháp PCA toàn cục và cục bộ ...................................................................................... 48
3.3.1
Phương pháp PCA toàn cục.............................................................................................. 48
3.3.2
Phương pháp PCA cục bộ................................................................................................. 48
3.4
Đánh giá .................................................................................................................................. 49
3.4.1
Mộ số đánh giá quan trọng về rút trích đặc trưng bằng phương pháp PCA ........................ 49

3.4.2
So sánh phương pháp PCA toàn cục và PCA cục bộ.......................................................... 49
3.1

4
Chương 4 MƠ HÌNH MAKOV ẨN VÀ ỨNG DỤNG NHẬN DẠNG
KHN MẶT .......................................................................................... 50
3


4.1
Giới thiệu mơ hình Makov ẩn ................................................................................................... 50
4.1.1
Mơ hình Markov ............................................................................................................... 50
4.1.2
Mơ hình Markov ẩn [19] .................................................................................................. 51
4.1.2.1
4.1.2.2
4.1.2.3
4.1.2.4

Mơ hình Markov ẩn và nhận dạng mặt người .................................................................... 58

4.1.3
4.1.3.1
4.1.3.2
4.1.3.3
4.1.3.4
4.1.3.5
4.1.3.6

4.1.3.7

4.2

Xác suất của chuỗi quan sát ....................................................................................................... 52
Dãy trạng thái tối ưu .................................................................................................................. 54
Hiệu chỉnh các tham số của mơ hình .......................................................................................... 55
Khoảng cách giữa các mơ hình Markov ẩn ................................................................................. 55
Ý tưởng..................................................................................................................................... 58
Mơ hình Markov ẩn biểu diễn ảnh mặt ....................................................................................... 59
Trích chọn đặc trưng.................................................................................................................. 60
Luyện mơ hình mặt.................................................................................................................... 64
Nhận dạng khn mặt người trong ảnh ....................................................................................... 66
Tìm kiếm khn mặt người trong ảnh......................................................................................... 67
Các dạng của mơ hình Markov ẩn trong mô tả khuôn mặt ........................................................... 69

Kết chương .............................................................................................................................. 70

5 KẾT LUẬN ......................................................................................... 71
6 TÀI LIỆU THAM KHẢO .................................................................. 72

4


DANH MỤC CÁC HÌNH
Hình 1-1. So sánh hai tác vụ nhận dạng khuôn mặt và xác nhận khuôn mặt ....................... 9
Hình 1-2. Hình biểu diễn hàm FRR và FAR ..................................................................... 11
Hình 2-1. Ảnh màu với da và kết quả của sự dị tìm da ................................................... 18
Hình 2-2. Mẫu da của mỗi người rất khác nhau............................................................... 19
Hình 2-3. Mẫu da bị ảnh hưởng bởi các loại nhiễu và biến dạng ..................................... 19

Hình 2-4. Những mạng SOM với những hệ thống khu lân cận ........................................ 21
Hình 2-5. Phân phối màu cho các màu da khác nhau ...................................................... 27
Hình 2-6. Biểu diễn mơ hình màu da bằng phân phối Gauss ............................................ 27
Hình 2-7. Đường cong entropy của biểu diễn biến ngẫu nhiên......................................... 29
Hình 2-8. 4 điểm lân cận và 8 điểm lân cận ..................................................................... 30
Hình 2-9. Một ảnh mẫu từ tập phân phối thỏa mãn D, có năng lượng cực tiểu ................ 33
Hình 2-10. Hình (a): ảnh gốc, hình (b): Baseline, hình (c): HMM, .................................. 35
Hình 2-11. Khn mặt mẫu của Chang và Robles ............................................................ 39
Hình 2-12. Khn mặt mẫu tổng hợp ............................................................................... 39
Hình 2-13. Khn mặt mẫu được điều chỉnh kích thước................................................... 40
Hình 2-14. Khn mặt mẫu được xoay và điều chỉnh lại kích thước ................................. 40
Hình 4-5. Tính hội tụ của khoảng cách HMM khi độ dài chuỗi quan sát tăng .................. 58
Hình 4-6.(a) Mơ hình ergodic 4 trạng thái (b) Mơ hình trái - phải 4 trạng thái................ 59
Hình 4-7. Mơ hình mặt 6 trạng thái ................................................................................. 60
Hình 4-8. Ảnh mặt và phương pháp trích chọn khối quan sát. .......................................... 61
Hình 4-9. Chiến lược huấn luyện mơ hình Markov ẩn cho biểu diễn khn mặt ............... 66
Hình 4-10. Nhận dạng mặt sử dụng mơ hình Marov ẩn .................................................... 67
Hình 4-11. Tìm kiếm khn mặt sử dụng mơ hình Markov ............................................... 68
Hình 4-12. Mơ hình Markov ẩn nhúng với 3 siêu trạng thái ............................................. 70

5


BẢNG CÁC TỪ VIẾT TẮT
Kí hiệu

Từ Tiếng Anh

Civil


Giải thích

Aviation Tổ chức Hàng không Dân dụng
Quốc tế

ICAO

International
Organization

FAR

False Acceptance Rate

FMR

False Match Rate

FRR

False Reject Rate

FNMR

False Non Match Rate

TAR

True Accpetance Rate


Độ chính xác

PCA

Principal Component Analysis

Phân tích thành phần chính

HMM

Hidden Markov Model

Mơ hình Markov ẩn

LDA

Linear discriminant analysis

Phân tích độc lập tuyến tính

KLT

Karhunen-Loève transform

Phép biến đổi Karhuen-loeve

DCT

Discrete cosine transform


Phép biến đổi Cosin rời rạc

ORL

Olivetti Research Laboratory

PDF

probability density function

Sai số bắt nhầm

Sai số bỏ sót

hàm mật độ xác suất

6


0

MỞ ĐẦU


Ngày nay, cùng với những tiến bộ vượt bậc của khoa học kỹ thuật nói chung,
bộ mơn khoa học xử lý ảnh đã và đang thu được những thành tựu lớn lao và chứng
tỏ vài trị khơng thể thiếu với những ứng dụng sâu rộng trong khoa học kỹ thuật
cũng như đời sống xã hội. Một bộ phận của khoa học xử lý ảnh là lĩnh vực thị giác
máy tính hiện đang thu hút rất nhiều sự quan tâm của các nhà nghiên cứu xử lý ảnh
với mục tiêu xây dựng nên một thế giới trong đó hệ thống thị giác kỳ diệu của con

người có thể được mơ phỏng bởi các hệ thống máy tính, đem lại khả năng cảm nhận
bằng thị giác cho các hệ thống về môi trường xung quanh. Mơ ước về một hệ thống
máy tính có thể hồ nhập vào thế giới con người với đầy đủ các giác quan trong đó
thị giác đóng vai trò quan trọng đang dần dần được hiện thực hố với những đóng
góp nghiên cứu của các nhà khoa học trên phạm vi toàn thế giới.
Đồng thời việc phát triển của các thiết bị phần cứng cả về phương diện thu
nhận, hiển thị, tốc độ xử lý đã mở ra nhiều hướng mới cho công nghệ xử lý ảnh. Nó
có thể giải quyết các bài tốn như giám sát tự động phục vụ trong cơ quan, ngân
hàng, kho bạc, ... hoặc trong việc giám sát giao thông tự động, phục vụ tại bãi đỗ xe,
trạm thu phí tự động hoặc việc phát hiện và nhận dạng mặt người phục vụ trong
công tác quân sự, an ninh v.v... Đặc biệt trong lĩnh vực nhận dạng bằng sinh trắc
học, sau sự kiện 11/9/2001, việc nghiên cứu và đưa vào ứng dụng thực tế lĩnh vực
nhận dạng bằng sinh trắc đã được các nhà khoa học và chính phủ nhiều nước chú
trọng. Đơn cử có thể kể tới hệ thống kiểm sốt (tự động) tại các cửa khẩu vào /ra ở
Mỹ, Úc, khối EU và ở một số nước châu Á (Singapore, Thái Lan, ...) đã xử dụng
thông tin sinh trắc vào trong q trình kiểm sốt xác định thật giả về giấy tờ và con
người. Cho đến nay, theo Tổ chức hàng không dân dụng thế giới - ICAO cho biết đã
có khoảng 34 quốc gia áp dụng việc đưa các thông tin sinh trắc vào hộ chiếu để
chống làm giả và dùng trong các của kiểm soát tự động tại biên giới. Trong đó,
thơng tin ảnh mặt là một thơng tin bắt buộc dùng để đối sánh và nhận dạng bởi tuy
các phương pháp nhận dạng bằng ảnh mặt thường cho chất lượng chưa cao bằng các
phương pháp sử dụng các đặc điểm sinh trắc khác như vân tay hoặc tròng mắt do
ảnh mặt thu nhận được thường bị ảnh hướng lớn của nhiễu, đặc biệt là môi trường
và chất lượng của các thiết bị thu nhận hình ảnh song ảnh mặt là một đặc điểm sinh
trắc mà ta có thể thu nhận một cách nhanh chóng và dễ dàng nhất (sử dụng các
camera quan sát tự động).
Tại Việt Nam, việc ứng dụng thông tin sinh trắc vào trong các giấy tờ (hộ
chiếu, chứng minh thư, ...) cũng đang được tích cực nghiên cứu để đưa vào ứng
dụng (hộ chiếu điện tử dự kiến sẽ được thử nghiệm trong năm 2008).
Từ những lý do trên, tôi đã chọn đề tài luận văn: “Tìm kiếm và nhận dạng

khn mặt người trong ảnh”.
7


Bố cục của luận văn gồm:
Chương 1: Phát biểu bài toán
Nêu lên một số khái niệm liên quan đến nhận dạng khuôn mặt; các ứng dụng
tương tác người máy liên quan đến nhận dạng khuôn mặt; điểm qua một số phương
pháp nhận dạng khuôn mặt được nghiên cứu và cải tiến trong thời gian gần đây.
Chương 2: Dị tìm khn mặt người trong ảnh màu
Giới thiệu một số phương pháp dị tìm khn mặt người dựa trên màu da.
Chương 3: Rút trích đặc trưng từ khn mặt người
Trình bày phương pháp phân tích các thành phần chính PCA (Principal
Component Analysis) rút trích đặc trưng từ ảnh bản đầu.
Chương 4: Mơ hình Markov ẩn và ứng dụng nhận dạng khn mặt
Giới thiệu mơ hình Markov ẩn, một số bài tốn cơ bản của mơ hình Markov
và ứng dụng mơ hình trong nhận dạng khuôn mặt người.
Chương 5: Kết luận

8


1

Chương 1 PHÁT BIỂU BÀI TOÁN

1.1 Tổng quan và các khái niệm liên quan đến nhận dạng khuôn
mặt
1.1.1 Hệ thống sinh trắc học
Hệ thống sinh trắc học là một hệ thống được thiết kế để xác minh và nhận

dạng một người dựa vào những đặc trưng sinh học duy nhất của người đó.
1.1.2 Hệ thống nhận dạng khn mặt
Hệ thống nhận dạng khuôn mặt là một hệ thống được thiết kế để tìm thơng
tin của một người. Kĩ thuật nhận dạng là kiểm tra sự phù hợp dựa trên phép so sánh
một-nhiều cụ thể là tìm ra một người là ai trong số những người đã được lưu trữ
trong hệ thống dựa vào thông tin khuôn mặt.
1.1.3 Hệ thống xác minh hay xác thực khn mặt là gì?
Hệ thống xác minh/xác thực khuôn mặt là một hệ thống được thiết kế để xác
minh thông tin của một người. Kĩ thuật xác minh là kiểm tra sự phù hợp trên phép
so sánh một-một cụ thể là đối chiếu thông tin mới nhận về một người với thông tin
đã lưu trữ về người này có khớp hay khơng dựa trên thơng tin khn mặt.
Hồn tồn khơng biết thơng tin

Đã biết trước thơng tin

ngưịi này là ai ?

Đây là Hùng phải khơng?

Hùng

Kết quả

Xác minh người
(verification)

Kết quả

Nhận dạng người
(identification)


Đúng / sai

Hình 1-1. So sánh hai tác vụ nhận dạng khuôn mặt và xác nhận khuôn mặt

9


1.1.4 Hệ thống nhận dạng tĩnh - tĩnh, tĩnh - động, động - động
1.1.4.1 Hệ thống nhận dạng tĩnh - tĩnh
Hệ thống nhận dạng tĩnh - tĩnh là hệ thống được thiết kế bằng cách sử dụng
một số ảnh tĩnh làm mẫu để nhận dạng khuôn mặt người trong ảnh tĩnh. Kỹ thuật
nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống
nhận dạng nói chung ở trên.
1.1.4.2 Hệ thơng nhận dạng tĩnh - động
Hệ thống nhận dạng tĩnh - động là hệ thống được thiết kế bằng cách sử dụng
một số ảnh tĩnh làm mẫu để nhận dạng khuôn mặt người trong ảnh động. Kỹ thuật
nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống
nhận dạng nói chung ở trên, song ảnh cần kiểm tra là các khung ảnh động trong các
đoạn phim từ các máy camera. Kỹ thuật này dĩ nhiên khơng thể chính xác vì chuyển
động của mặt người trong đoạn phim khá phức tạp song thể hiện trong ảnh tĩnh để
huấn luyện lại ít.
1.1.4.3 Hệ thống nhận dạng động - động
Hệ thống nhận dạng động - động là hệ thống được thiết kế bằng cách sử
dụng các ảnh động làm mẫu để nhận dạng khuôn mặt người trong ảnh động. Kỹ
thuật nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ
thống nhận dạng nói chung ở trên. Tuy nhiên, kỹ thuật này chính xác hơn kỹ thuật
sử dụng trong hệ thống nhận dạng tĩnh - động do sự chuyển động phức tạp của
khuôn mặt người cũng được huấn luyện bằng các khung ảnh động.
1.1.5 Những thách thức trong bài toán nhận dạng khuôn mặt

Những biến đổi quá lớn giữa các ảnh khuôn mặt khác nhau từ một người cần
nhận dạng gồm trạng thái cảm xúc trên khuôn mặt, ánh sáng, và các thay đổi vị trí
của khn mặt..vv.
Giới hạn về số ảnh cần thiết cho việc nhận dạng, tập học không thể bao quát
được tất cả các biến đổi có thể có trên khn mặt của một người cần nhận dạng
trong thế giới thực.
1.1.6 Sai số trong hệ nhận dạng [20]
Hệ nhận dạng bằng sinh trắc ln có sai số nói cách khác khơng thể chính
xác tuyệt đối.
Độ chính xác của (đối sánh 1:1, và 1:N) phụ thuộc nhiều yếu tố, ví dụ thơng
tin sinh trắc (Sample data), bản thân thuật tốn trích chọn đặc điểm (enrollment) và
thuật tốn đối sánh (matcher), kích cỡ CSDL - miền đối sánh.
Có 2 đại lượng chính dùng để đo lường sai số của một hệ nhận dạng bằng
sinh trắc:

10


 Sai số bắt nhầm – FAR (False Acceptance Rate) có tài liệu gọi là FMR
(False Match Rate)
 Sai số bỏ sót – FRR (False Reject Rate) có tài liệu gọi là FNMR (False
Non Match Rate)
Độ chính xác – TAR (True Accpetance Rate) là dẫn xuất của FRR
 TAR = 1 - FRR
FAR và FRR là hàm số của t – ngưỡng xét trùng
 FAR(t)
 FRR(t)
 ERR là điểm mà FRR = FAR

Hình 1-2. Hình biểu diễn hàm FRR và FAR

Để đánh giá chất lượng một hệ thống nhận dạng mặt người một cách khách
quan cần:
 Số cá nhân đối sánh đủ lớn.
 Đo với CSDL đủ lớn.

1.2 Các ứng dụng tương tác người máy (Human computer
interactive) liên quan đến khuôn mặt
Từ những năm 1990 trở lại đây, chúng ta đã chứng kiến sự phát triển như vũ
bão của các ngành công nghiệp, đặc biệt là ngành công nghiệp chế tạo điện tử. Tuy
nhiên hiện nay các thiết bị điện tử cao cấp như máy ảnh số, camera kĩ thuật số, và
nhiều sản phẩm khác dường như chỉ phù hợp cho các phịng thí nghiệm, các cơng ty
11


sản xuất kinh doanh, thương mại, tài chính, ngân hàng, ... Trong thời gian khơng xa,
chi phí cho các thiết bị này sẽ giảm đáng kể. Khi đó sẽ mở ra nhiều hướng nghiên
cứu về thị giác máy tính, đồng thời sẽ có nhiều ứng dụng trong giao tiếp giữa người
với máy tính mà trong đó hệ thống nhận dạng mặt người đóng một vai trị khơng
nhỏ. Dưới đây là một số ứng dụng.
 Các ứng dụng chuyên biệt cho ngành hàng khơng
 Đảm bảo sự truy cập và tính hợp lệ trong công việc cho từng nhân viên:
Mỗi nhân viên làm việc tại cảng hàng không cũng như nhân viên phi hành
đoàn được cung cấp quyền truy cập để đến vị trí làm việc. Làm thế nào để
xác minh nhân viên này vào đúng khu vực làm việc hay không?
 Làm sao để đảm bảo trong số những hành khách khơng có sự trà trộn của
một số kẻ khủng bố/tội phạm quốc gia/ quốc tế?
 Bảo vệ trẻ em ở nhà trẻ từ bọn bắt cóc
 Quy định rằng, chỉ có những nhân viên của nhà trẻ mới được phép dẫn trẻ
em ra ngoài và trao tận tay cho bố mẹ đón về. Nhưng trong xã hơi cũng có
một số trường hợp giả danh nhân viên để bắt cóc trẻ em với mục đích xấu.

Làm thể nào để ngăn chặn hành vi xấu này?
 Nhận dạng khuôn mặt được sử dụng kèm với thẻ quy cập
 Trong các nước phát triển, hầu như mọi người dân đều dùng thẻ tín dụng
để mua bán, rút tiền, trao đổi hàng hóa. Điều này rất nguy hiểm khi thẻ truy
cập này bị người khác nhặt được hay biết được mật khẩu của sở hữu thẻ này?
Làm cách nào có thể bảo đảm an tồn nhất?
Có thể dùng song mật khẩu: Có nghĩa sử dụng khuôn mặt như là một
mật khẩu thứ hai để truy cập vào hệ thống cùng với thông tin từ card truy
cập. Để rút được tiền
• Đưa thẻ vào hệ thống
• Đưa khn mặt vào để nhận dạng
• Xác minh người này có phải là chủ sở hữu của thẻ hay khơng?
Nếu khớp thì hệ thống cho rút tiền
Nếu khơng thì hệ thống khơng cho rút tiền.
 Kinh doanh thương mại điện tử
 Với sự tiến bộ của khoa học cơng nghệ, nhiều hình thức kinh doanh
thương mại xuất hiện, đặc biệt là thương mại điện tử. Việc buôn bán và trao
đổi giữa hai bên đối tác không cần diễn ra trực tiếp (mặt đối mặt), mà chỉ cần
qua mạng với hình ảnh của người đại diện. Tuy nhiên bên cạnh đó sẽ có
nhiều mặt tiêu cực trên hình thức kinh doanh này, đó là các vụ lừa đảo, giả
mạo, giả danh.v..v... Làm sao để biết được đối tác của mình là thật hay giả?
12


 Ngăn chặn việc xuất/nhập cảnh bất hợp pháp
 Một số người không được xuất/nhập cảnh vào nước, song họ cố tình khai
gian giấy tờ để xuất/nhập cảnh bất hợp pháp. Làm sao để ngăn chặn được sự
gian lận này?
 Lần dấu vết đi tìm kẻ khủng bố
 Từ những bức ảnh số hay những đoạn video số đã được ghi lại tự động về

hiện trường trước khi vụ khủng bố xảy ra. Cần nhận dạng những đối tượng
khả nghi của vụ khủng bố này?
 Hệ thống giám sát công nhân và chấm công tự động
 Hiện nay trong các khu công nghiệp hay những công ty sản xuất lớn có
hàng ngàn cơng nhân vào ra mỗi ngày nên việc giám sát kẻ gian vào công ty
cũng như công việc chấm công rất phức tạp. Vậy làm thế nào để nhận ra
từng nhân viên của cơng ty.
Tóm lại: Nhu cầu sử dụng các hệ thống xử lý dùng trí tuệ nhân tạo ngày càng phát
triển, mà trong đó nhận dạng khn mặt để mã hóa mật khẩu cá nhân là một nhu
cầu thiết yếu hiện nay và trong tương lai. Đặc biệt vụ khủng bố ngày 11-9-2001 tại
Mỹ đã đánh dấu một bước ngoặc mới trong xu hướng nghiên cứu và giá trị thương
mại của các hệ thống sinh trắc học ứng dụng trong quân sự và an ninh.

1.3 Các hướng tiếp cận chính trong lĩnh vực nhận dạng khn mặt
1.3.1 Các cơng trình nghiên cứu về phương pháp nhận dạng và kiểm chứng
chất lượng cho một hệ thống nhận dạng khn mặt
Bài tốn nhận dạng khn mặt cần xác định hai vấn đề chính: dùng thơng tin
nào để nhận dạng: chân mày, cặp mắt, mũi, môi, tai, hay kết hợp các thông tin trên.
Và dùng phương pháp nào để huấn luyện cho máy nhận dạng dùng nguồn thơng tin
đó. Nhận dạng khn mặt trên máy tính đã trải qua nhiều bước thăng trầm, chúng ta
có thể liệt kê một số kết quả như sau:
Wenyi Zhao, Arvindh Krishnaswamy, Rama Chellappa, Danie L.Swets, John
Weng (1998)[4] sử dụng phương pháp PCA (phân tích thành phần chính) kết hợp
LDA (phân tích độc lập tuyến tính). Bước 1, chiếu ảnh khn mặt từ khơng gian
ảnh thô sang không gian các không gian khuôn mặt (Mỗi lớp khn mặt được nhận
dạng sẽ được mơ hình hóa bằng một khơng gian khn mặt) dùng PCA. Bước 2, sử
dụng phương pháp LDA để tạo bộ phân loại tuyến tính có khả năng phân lớp các
lớp khn mặt.
John Daugnman (1998), đưa ra phương pháp dùng đặc trưng về tròng của
mắt để phân biệt cặp (trai/gái) song sinh.

Emmanuel Viennet và Francoise Fogelman Soulie (1998), sử dụng phương
pháp mạng neural nhân tạo để xử lý và nhận dạng khuôn mặt.

13


Antonio J.Colmenarez và Thomas S.Huang (1998),[5] sử dụng kỹ thuật học
thị giác và phù hợp mẫu 2-D. Ông quan niệm bài tốn dị tìm khn mặt là thao tác
phân loại khn mặt trong đó khn mặt thuộc về một lớp và các đối tượng khác
thuộc về lớp còn lại bằng cách ước lượng mơ hình xác suất cho mỗi lớp, và việc dị
tìm sử dụng luật quyết định Maximum-likelihood.
Kazunori Okada, Johannes Steffens, Thomas Maurer, Hai Hong, Egor
Elagin, Hartmut Neven, and Christoph (1998),[6] nhận dạng khn mặt dựa vào
sóng Gabor và phương pháp phù hợp đồ thị bó. Với ý tưởng dùng đồ thị để biểu
diễn khuôn mặt, ảnh khuôn mặt được đánh dấu tại các vị trí đã được xác định trước
trên khn mặt, gọi các vị trí này chính là các vị trí chuẩn. Khi thực hiện thao tác so
khớp đồ thị với một ảnh, các điểm chuẩn (Jets) sẽ trích ra từ ảnh và so sánh các
điểm chuẩn này với tất cả các điểm chuẩn tương ứng trong các đồ thị khác nhau, và
đồ thị nào phù hợp nhất với ảnh sẽ được chọn.
Baback Moghaddam và Alex Pentland (1998) [7], đưa ra phương pháp phù
hợp thị giác trực tiếp từ các ảnh cần sử dụng cho mục đích nhận dạng khuôn mặt và
dùng độ đo xác suất để tính độ tương tự.
Massimo Tistaelli và Enrico Grosso (1998) [8], đưa ra kỹ thuật thị giác động.
Vì khả năng quan sát các chuyển động của khuôn mặt và xử lý các tình huống theo
dự định là thơng tin rất quan trọng, từ đó nhận được mơ tả đầy đủ hơn về khn mặt
cho mục đích thu thập mẫu và nhận dạng.
Jeffrey Huang, Chengjun Liu, và Harry Wechsler (1998)[9], đề xuất thuật
tốn căn cứ trên tính tiến hóa (Evolutionary computation) và di truyền (Genetic) cho
các tác vụ nhận dạng khuôn mặt. Đối với cách tiếp cận này, hai mắt sẽ được dị tìm
trước tiên và thơng tin này được xem là vết để quan sát khn mặt, trình xử lý dị

tiếp mắt bằng cách sử dụng một thuật toán lai để kết hợp thao tác học và tiến hóa
trong q trình học.
Daniel Bgraham và Nigel M Allinson (1998)[10], sử dụng phương pháp
được gọi là tạo bản sao không gian đặc trưng để biểu diễn và nhận dạng hướng di
chuyển của khuôn mặt.
Oi Bin Sun, Chian Prong Lam và Jian Kang Wu (1998)[11], sử dụng phương
pháp tìm vùng hai chân mày, hai mắt, mũi, miệng và cằm. Ảnh khuôn mặt thẳng
ban đầu được chiếu theo chiều ngang để tìm các giá trị điểm ảnh thỏa ngưỡng cho
trước, đồ thị biểu diễn theo trục ngang sẽ định vị trí biên trên và biên dưới của hình
chữ nhật bao các đặc trưng cục bộ khn mặt. Tương tự với chiều đứng để tìm ra
đường biên bên trái và phải cho các vùng đặc trưng.
Ara V.Nefian và Monson H.Hayes III (1998) trình bày hướng tiếp cận theo
mơ hình Markov ẩn (HMM) trong đó ảnh mẫu khn mặt được lượng hóa thành
chuỗi quan sát trên khn mặt theo quan niệm dựa trên thứ tự xuất hiện các đặc
trưng khuôn mặt {hai chân mày, hai lông mi, mũi, miệng, cằm}. Trong chuỗi quan
sát đó, mỗi quan sát lại là một vector nhiều chiều và mỗi vector quan sát này được
14


sử dụng để đặc trưng cho mỗi trạng thái trong chuỗi trạng trạng thái của HMM. Mỗi
người được ước lượng bằng một mơ hình của HMM.
Guodong Guo, Stan Z.Li, Kap Luk Chan (2001), dùng phương pháp SVM để
nhận dạng khuôn mặt. Sử dụng chiến lược kết hợp nhiều bộ phân loại nhị phân để
xây dựng bộ phân loại SVM đa lớp.
1.3.2 Hướng tiếp cận được thử nghiệm trong luận văn
Trong đề tài đi vào tìm hiểu phương pháp nhận dạng dùng HMM; tìm hiểu
phương pháp PCA (phân tích thành phần chính) để trích chọn đặc trưng từ ảnh.
Việc cơ lập khuôn mặt trong ảnh đầu vào (ảnh chứa khuôn mặt) được thực
hiện với phương pháp dị tìm dựa trên màu da kết hợp với mơ hình Markov ẩn.


15


2

Chương 2 DỊ TÌM KHN MẶT TRONG ẢNH MÀU

2.1 Giới thiệu
Dị tìm đối tượng là bài tốn cơ bản và quan trọng trong lĩnh vực thị giác
máy tính. Các kỹ thuật đã được áp dụng có thể chia thành một trong hai tiếp cận: so
khớp các mơ hình hình học hai, ba chiều vào ảnh [Seutens at al., 1992, Chin và
Dyer, 1986, Besl và Jain, 1985], hay phương pháp so khớp các mơ hình khung vào
ảnh có chứa khn mặt cần dị tìm. Các nghiên cứu trước đây cho thấy rằng các
phương pháp dựa trên khung nhìn có thể dị tìm các khn mặt thẳng trong nền
phức tạp một cách hiệu quả.
Việc phát triển bộ dị tìm đối tượng dựa trên khung nhìn dùng máy học có ba
vấn đề chính. Thứ nhất, ảnh của các đối tượng (chẳng hạn khuôn mặt) biến đổi
nhiều, tuỳ thuộc vào độ sáng, tình trạng che lấp, tư thế, biểu hiện khn mặt và tính
giống nhau. Thuật tốn dị tìm giải quyết với càng nhiều biến đổi càng tốt. Thứ hai,
một hay nhiều mạng neural được huấn luyện để giải quyết với mọi biến đổi cịn lại
trong việc phân biệt đối tượng (object) với khơng phải đối tượng (non-object). Thứ
ba, đầu ra từ các bộ dị tìm phải được kết hợp lại thành một quyết định có biểu diễn
đối tượng hay khơng.
Hai bài tốn dị tìm và nhận dạng đối tượng có liên quan mật thiết. Hệ thống
nhận dạng đối tượng có thể xây dựng mà khơng có tập bộ dị tìm đối tượng, mỗi bộ
dị tìm dị một đối tượng quan tâm. Tương tự, bộ dị tìm đối tượng có thể được xây
dựng mà khơng có hệ thống nhận dạng đối tượng; bộ nhận dạng đối tượng này cần
phân biệt đối tượng mong muốn với mọi đối tương khác có thể xuất hiện hay là lớp
đối tượng chưa biết. Do đó hai bài tốn là như nhau, dù trong thực hành hầu hết các
hệ thống nhận dạng đối tượng ít khi giải quyết nền tuỳ ý, và các hệ thống dị tìm đối

tượng ít khi được huấn luyện trên đủ loại đối tượng để xây dựng hệ thống nhận
dạng. Điểm chú trọng khác nhau của các bài tốn này dẫn đến các trình bày và thuật
tốn khác nhau.
Thơng thường, các hệ thống nhận dạng khuôn mặt làm việc bằng cách trước
hết áp dụng bộ dị tìm khn mặt để định vị khn mặt, sau đó áp dụng thuật tốn
nhận dạng để nhận diện khn mặt.
Bài tốn dị tìm khn mặt nhanh trên ảnh là bài tốn quan trọng vì là q
trình nhận dạng đối tượng sẽ thiếu chính xác nếu như thiếu bước dị tìm và định vị
được đối tượng. Bài tốn dị tìm khn mặt nhanh có ý nghĩa rất quan trọng trong
việc nhận dạng, theo vết các đối tượng chuyển động trong các đoạn video hay
camera.
2.1.1 Các thách thức trong việc dò tìm khn mặt
Việc dị tìm đối tượng là bài tốn xác định cửa sổ con của ảnh có thuộc về
tập các ảnh của đối tượng quan tâm hay không. Do đó, đường biên quyết định của

16


tập ảnh đối tượng phức tạp sẽ làm tăng độ khó của bài tốn và có thể tăng số lỗi dị
tìm.
Giả sử ta muốn dị khn mặt nghiêng trong mặt phẳng ảnh, ngồi các khn
mặt thẳng. Việc thêm các khn mặt nghiêng vào tập các ảnh ta muốn dị tìm làm
tăng độ biến thiên của tập, và có thể làm tăng độ phức tạp của đường biên quyết
định của tập ảnh. Độ phức tạp này làm bài tốn dị tìm khó hơn. Việc thêm ảnh mới
vào tập ảnh đối tượng có thể làm đường biên quyết định đơn giản hơn và dễ học
hơn. Có thể tưởng tượng điều này là đường biên quyết định được làm trơn bằng
việc thêm các ảnh vào tập.
Có nhiều nguồn biến đổi trong bài tốn dị tìm đối tượng, và cụ thể trong bài
tốn dị tìm khn mặt. Có các nguồn biến đổi sau.
 Biến đổi trong mặt phẳng ảnh: loại biến đổi ảnh khuôn mặt đơn giản nhất có

thể được biểu diễn độc lập với khuôn mặt, bằng cách quay, dịch chuyển, biến
đổi tỷ lệ và soi gương ảnh.
 Biến đổi độ sáng và ngữ cảnh: biến đổi do đối tượng và môi trường gây ra,
cụ thể các thuộc tính bề mặt của đối tượng và các nguồn sáng. Các thay đổi
về nguồn sáng nói riêng có thể biến đổi hồn tồn vẻ bề ngồi của khn
mặt.
 Biến đổi nền: Trong luận văn của mình, Sung cho rằng với kỹ thuật nhận
dạng mẫu hiện nay, tiếp cận dựa trên khung nhìn để dị tìm đối tượng chỉ
thích hợp cho các đối tượng có “đường biên ảnh có thể dự đốn được”. Khi
đối tượng có hình dáng dự đốn được, ta có thể trích ra window chỉ chứa các
pixel bên trong đối tượng, và bỏ qua nền.
 Biến đổi hình dáng: với khn mặt, loại biến đổi này bao gồm biểu lộ tình
cảm khn mặt, miệng và mắt mở hay đóng, và hình dáng khn mặt của
từng người.
Tuy nhiên, nếu việc dị tìm được tiến hành trên các đoạn video hay camera ta
có thể áp dụng các phương pháp xử lý các khung hình liên tục cùng một lúc như
theo vết đối tượng, trừ ảnh v..v…
2.1.2 Một số hướng tiếp cận thường được dùng trong dị tìm khn mặt
nhanh
 Hướng dị tìm khn mặt trên ảnh màu dựa trên sự phân tích màu sắc của
vùng da. Mặc dù việc xử lý khá nhanh nhưng hướng này có giới hạn chỉ xử
lý trên ảnh màu và thường nhạy cảm với ánh sáng, thường chỉ sử dụng làm
các bước tiền xử lý cho các hướng khác.
 Hướng dị tìm khn mặt dựa trên đặc trưng chủ yếu dựa vào các đặc trưng
của khuôn mặt người được quy định trước. Thành cơng nhất trong dị tìm

17


khuôn mặt người trong thời gian thực là phương pháp ASM (Active shape

Models).
 Hướng dị tìm khn mặt dựa trên thơng tin hình ảnh gồm mạng nơron, các
hướng thơng kê (SVM, AdaBoost, …). Phương pháp SVM và mạng nơ ron
cũng đạt được kết quả cao trong thời gian khá nhanh song cũng chỉ vài ảnh
trong một giây nên khó có thể áp dụng trong việc nhận dạng thời gian thực.
Riêng phương pháp AdaBoost cho kết quả khả quan vì có thể xử lý đến
khoảng 15-20 khung hình trong một giây.

2.2 Tìm kiếm khn mặt người trong ảnh dựa trên màu da
2.2.1 Giới thiệu [16]
Sự dị tìm da chính là phát hiện những điểm da con người từ một hình ảnh
màu. Đầu ra hệ thống là một hình ảnh dưới dạng nhị phân trên cùng lưới điểm như
hình ảnh đầu vào với 1 biểu thị cho da và 0 biểu thị cho nền. Hình 2.1 cho thấy một
hình ảnh màu đầu vào và một ảnh đầu ra kết quả của sự dị tìm da.

Hình 2-1. Ảnh màu với da và kết quả của sự dị tìm da
Sự dị tìm da đóng một vai trò quan trọng trong nhiều ứng dụng như sự dị
tìm mặt, sự tìm kiếm và lọc nội dung ảnh trên mạng, sự phân đoạn vi đi ô và giám
sát tự động, ...
Tuy nhiên sự dị tìm da khơng phải là một nhiệm vụ dễ. Trước hết, màu da
của mỗi người có thể rất khác nhau. Trong hình 2.2, có người da trắng, người Châu
Phi và người Chấu Á, … Hơn nữa, một khi những hình ảnh được thu nhận với
những thiết bị có đặc điểm kỹ thuật khác nhau dưới nhiều điều kiện, chúng tùy
thuộc vào tất cả các loại nhiễu và sự biến dạng. Hình 2.3 cho thấy vài ví dụ.

18


Hình 2-2. Mầu da của một số chủng tộc người khác nhau


Hình 2-3. Mẫu da bị ảnh hưởng bởi các loại nhiễu và biến dạng
Một hệ thống dị tìm da thì khơng bao giờ hồn hảo và những người dùng
khác nhau sử dụng tiêu chuẩn khác nhau cho sự đánh giá.
2.2.2 Dị tìm da trên ảnh màu
Nghiên cứu đã được thực hiện trên sự dị tìm của những điểm da con người
trong những hình ảnh màu trên sự phân biệt giữa những điểm da và không da bằng
việc sử dụng nhiều mơ hình màu. Có hai vấn đề chủ yếu mà chúng ta phải thực hiện
ở đây là làm sao để chúng ta có thể phân biệt những điểm da từ những điểm không
phải da; và không gian màu nào sẽ được lựa chọn để tốt nhất cho việc thực hiện
phân tích.
19


2.2.2.1 Mơ hình hóa da
Mục đích của việc mơ hình hóa da là xây dựng cho một quy tắc quyết định
những điểm da từ những điểm không phải da. Công việc này có thể chia thành hai
vùng chính: mơ hình khơng tham số và mơ hình tham số.
 Mơ hình da không tham số
Kết quả của những phương pháp này đôi khi được viện dẫn như xây dựng
bản đồ xác suất da, một xác suất đánh giá từng điểm trong mơ tả khơng gian màu.
Những mơ hình Bayesian dựa vào histograms
Trong [17] [3] các tác giả mơ hình những màu da và không da thông qua
histograms. Họ chia không gian mầu C thành số các bin c  C và đếm số điểm ảnh
mầu trong mỗi bin Nskin(c) đại diện cho lớp da và N skin đại diện cho lớp khơng phải
da. Cuối cùng, họ bình thường hóa mỗi bin để có phân phối p(c|skin)/p(c|skin). Để
cho Nskin biểu thị số những điểm da và Nskin biểu thị số những điểm khơng da trong
tập huấn luyện, chúng ta có:

p(c | skin) 


N skin (c)
N skin

(2.1)

N skin (c)
N skin

(2.2)

N skin
N skin  N skin

(2.3)

p(c | skin) 
cũng như

p( skin) 

p(skin) 

N skin
 1  p( skin)
N skin  N skin

(2.4)

Công thức Bayesian đánh giá xác suất da/không da theo màu của điểm đã cho:


p( skin | c) 

p(c | skin) p( skin)
p(c | skin) p( skin)  p(c | skin) p(skin)

p(skin)  1  p(skin | c)

(2.5)
(2.6)

Việc đưa ra quyết định được dựa trên một ngưỡng , 0 <  < 1. Điểm được gọi
là điểm da nếu p(skin|c) >  và ngược lại điểm không phải là da nếu p(skin|c) ≤ .
Mạng tự tổ chức (SOM)
Được đưa ra bởi Kohonen ở những năm đầu thập kỷ 80, ngày nay SOM đã
trở thành phổ biến và được sử dụng rộng rãi trong những kiểu mạng nơron nhân tạo
không giám sát. SOM cơ bản gồm có một mạng hai chiều L nơron. Mỗi nơron n i 
L có liên hệ với một vectơ vi  Rm mà được khởi tạo ngẫu nhiên khi bắt đầu. Ở đây
20


sử dụng không gian màu hai chiều nên m = 2. Mạng có thể là hình chữ nhật hoặc
lục giác. Hình 2.4 cho thấy những ví dụ của cả hai dạng cũng như khu lân cận của
những nút trung tâm.

Hình 2-4. Những mạng SOM với những hệ thống khu lân cận [2]
Trong thứ tự để huấn luyện SOM, chúng ta giới thiệu những vectơ huấn
luyện tuần tự tới tất cả các nơron trong mạng. Mỗi lúc vectơ đầu vào v được gửi vào
trong SOM, một nơron vw thắng cuộc được xác định bởi

|| vw  v ||  || vi  v ||, i  I


(1.7)

trong đó, I là tất cả các chỉ số của các nơron trong mạng. Những nơron trong
khu vực lân cận thì điều chỉnh các vector v của chúng theo một hàm học. Trong khi
sự huấn luyện tiến triển, nhịp độ học và kích thước khu lân cận bị tác động làm cả
hai giảm bớt. Mạng dần dần hình thành một ánh xạ có trật tự tơpơ (hoặc có đặc tính
bản đồ) của dữ liệu huấn luyện. Nếu cần thiết, một pha định kích cỡ rồi đánh dấu,
nơi được gắn nhãn dữ liệu huấn luyện thì tuần tự được giới thiệu tới SOM. Nhãn dữ
liệu và chỉ số của nơron thắng cuộc được ghi mỗi thời gian. Mỗi nơron rồi được gán
một nhãn nào đó. Cho sự phân loại, mỗi nơron đầu vào chỉ cần nắm lấy nhãn của
nơron thắng cuộc. Brown chọn mạng lục giác và kích thước của mạng là khoảng 16
- 256. Họ chỉ ra rằng sự thực hiện của SOM ở lề tốt hơn sự pha trộn Gaussian,
trong khi thấp hơn những phương pháp trên histogram.
Điểm tốt là nó tiêu thụ ít tài nguyên hơn những phương pháp dựa trên
histogram và có thể được thực hiện trong phần cứng SOM nhanh và rẻ.
 Những lợi thế của những phương pháp không tham số:
 Chúng nói chung nhanh trong cả sự huấn luyện và kiểm tra;

21


 Phương pháp khơng quan tâm hình dạng những phân phối nằm bên dưới
của dữ liệu huấn luyện, như vậy chúng ít ràng buộc hơn trong việc lựa chọn
khơng gian màu.
Tuy nhiên những mơ hình này nói chung cần số lượng lớn của không gian
lưu trữ và thiếu khả năng chèn thêm hoặc khái quát hóa dữ liệu huấn luyện.
Để giảm số bin dùng để lưu trữ mỗi biểu đồ da/không da, người ta đã đề xuất
giảm bớt số của những bin bằng cách đơn giản hóa khơng gian màu. Ví dụ, nếu ta
chọn khơng gian mầu RBG (C = {0,...,255}3), chúng ta cần 224 bin để cất giữ mỗi

biểu đồ da / không da. Người tra đã chỉ ra rằng chỉ cần dùng 323 bin là đủ để thể
hiện các biểu đồ da/không da trong không gian màu RGB.
 Mơ hình da tham số
Những mơ hình tham số thì cần ít khơng gian lưu trữ hơn nhiều so với các
mơ hình khơng tham số. Chúng thể hiện tính đều đặn của những phân phối và cho
phép phân tích về sau. Chúng có khả năng chèn thêm dữ liệu huấn luyện khi nó thưa
thướt. Những hàm khác nhau có thể được áp dụng theo những vấn đề đặc biệt.
Gaussian đơn
Phân phối màu da những mơ hình Gaussian đơn với một hàm mật độ xác
suất Gaussian (pdf) :

p(c | skin) 

1
2  skin

1/ 2

1
 1

exp   (c   skin )T skin (c  skin )  (1.8)
 2


với skin là sự chờ đợi và skin là ma trận hiệp phương sai của các vector màu
da.
Chúng có thể được đánh giá từ những mẫu huấn luyện sau:

 skin 




skin



1
N skin

1
 N skin (c)c
N skin cC

(1.9)

N
1

(1.10)

cC

skin

(c)(c  skin )(c  skin )T

P(c|skin) có thể được sử dụng như xác suất c thuộc về da. Hoặc chúng ta chỉ
cần phát sinh mô hình khác cho lớp khơng da và sử dụng cơng thức Bayesian để có
p(skin|c).

Gaussians kết hợp
Mơ hình Gaussian kết hợp là một mở rộng của Gaussian đơn, nó có khả năng
đại diện nhiều phân phối phức tạp hơn. Pdf dưới sự pha trộn của Gaussians được
tính như sau:

22


k

p(c | skin)   i pi (c | skin)
i 1

(1.11)

trong đó, pi là những nhân của Gaussian được định nghĩa trong (1.8), từng
cái của chính nó là một phân phối Gaussian, k là số nhân của Gaussian,  i trọng
lượng tương ứng là nhân mà cộng lên tới 1. Chúng ta có thể xây dựng mơ hình pha
trộn cho lớp khơng da tương tự.
Mơ hình ranh giới hình bầu dục
Mơ hình ranh giới hình bầu dục là mức trên của mơ hình Gaussian đơn và sự
pha trộn của Gaussians. Động lực của mơ hình này là mặt nghiêng của phân phối
da. Để tính tốn cho hình dạng thật của phân phối da, mà xấp xỉ là một hình ê-líp từ
sự quan sát của những mẫu huấn luyện, Lee và Yoo đề xướng để phân ra những
vùng màu da và khơng da bởi một ranh giới hình bầu dục. Mơ hình được định nghĩa
như sau:

(c)  (c   )T skin (c   )
1


(1.12)

trong đó,  và skin sẽ được đánh giá từ tập hợp điểm da huấn luyện. Trước
ước lượng tham số, những người ngoài được loại bỏ từ tập huấn luyện trước hết, mà
là 0 - 5% của sự huấn luyện các mẫu màu da với tần số thấp và được giả thiết là
nhiễu và dữ liệu không đáng kể. Những tham số được đánh giá bởi:





skin



1
Cskin

c

cCskin

1
N skin (c)(c  skin )(c  skin )T
N skin

(1.13)

(1.14)


trong đó, |Cskin| là số phần tử trong tập hợp màu da Cskin, Cskin  C. skin là sự
chờ đợi của những vector màu da huấn luyện được định nghĩa trong (1.9). Quy tắc
quyết định đơn giản là so sánh (c) với một ngưỡng được chọn : c là da nếu C là
da nếu (c) <  và không phải da nếu ngược lại. Các tác giả đã thử mơ hình này
trên 6 khơng gian màu và qua nhiều thí nghiệm cho thấy mơ hình này tốt hơn
Gaussian và Gaussian kết hợp.
Một hạn chế nhỏ của mơ hình này là nó có thể chỉ đưa cho quyết định nhị
phân, có nghĩa rằng nó thiếu thơng tin liên tục do xác suất cung cấp hàm mật độ.
2.2.3 Khơng gian màu cho mơ hình da
Màu sắc là một phương tiện rất hiệu quả để phân biệt sự xuất hiện các đối
tượng trong khi mức xám chỉ cung cấp được các thông tin về đặc trưng của ảnh.
Các nghiên cứu đã chỉ ra rằng các màu da người khác nhau gây ra rất ít sự phân
nhóm trong khơng gian màu ngay cả khi xem xét các khuôn mặt thuộc các chủng

23


tộc người khác nhau. Điều này chứng tỏ rằng cấu trúc màu sắc của da người khác
nhau rất ít giữa những người khác nhau.
RGB
Một trong những mơ hình màu được sử dụng nhiều nhất để mơ hình màu sắc
da người là biểu diễn RGB trong đó những màu khác nhau được xác định bằng sự
kết hợp của ba thành phần màu cơ bản là đỏ, xanh lục và xanh lơ. Khi sự thay đổi
chính của thể hiện màu da là do biến đổi độ chói gây nên, biểu diễn màu chuẩn hố
được sử dụng do đó có thể xác định được các thay đổi về độ chói. Hệ màu được
chuẩn hố này có thể xác định được từ các thành phần RGB ban đầu:
r

R
RG B


g

G
RG B

b

B
RG B

Từ các công thức tính trên, ta nhận ra r  g  b  1 . Hệ màu chuẩn hố do đó
có thể được biểu diễn hiệu quả thông qua hai thành phần r và g trong khi thành phần
b có thể đạt được thông qua công thức b  1  r  g .
Trong phân tích màu da người, biểu đồ phân bố dựa trên hai thành phần r và
g chỉ ra rằng màu khuôn mặt chỉ chiếm một vùng nhỏ trên biểu đồ. Bằng cách so
sánh các thông tin màu của một điểm ảnh lần lượt với các giá trị r và g trong vùng
đó, ta có thể tính tốn được khả năng điểm ảnh đó thuộc về vùng da người.
Bên cạnh mơ hình màu RGB, có một số mơ hình màu khác hiện đang được
sử dụng trong nghiên cứu tìm kiếm khn mặt người. Biểu diễn mơ hình màu HIS
đã chứng minh tính ưu điểm so với các mơ hình khác khi chỉ ra sự khác biệt lớn
giữa các nhóm đặc tính màu da. Vì vậy, mơ hình màu này được sử dụng để trích
chọn các đặc tính mặt như mắt, môi và lông mày. Khi sự biểu diễn hình ảnh liên
quan ngày càng chặt chẽ đến sự cảm thụ màu sắc của con người thì mơ hình màu
này ngày càng được sử dụng rộng rãi trong các chiến lược phân vùng mặt.
Mơ hình màu YIQ cũng được sử dụng trong tìm kiếm khn mặt người. Khi
chuyển các màu trong mơ hình RGB sang biểu diễn YIQ, có thể nhận thấy thành
phần màu I, bao gồm dải màu từ màu vàng cam đến màu lục lam làm nổi bật vùng
da của người châu á. Sự chuyển đổi hệ màu này xoá đi hiệu quả các vùng màu nền
và cho phép xác định các vùng mặt nhỏ trong môi trường tự nhiên.

Các mơ hình khác cũng được sử dụng trong tìm kiếm khn mặt người có
thể kể đến HSV, YES, YCbCr, YUV, CIE-xyz, L*a*b*, L*u*v*,CSN…
Terrilon gần đây đã đưa ra một phương pháp nghiên cứu so sánh cách sử
dụng một vài khơng gian màu được sử dụng nhiều trong tìm kiếm khuôn mặt. Họ đã
so sánh các không gian màu TSL, rg, CIE-xyz và CIE-DSH, HSV,YIQ, CIE24


L*u*v* và CIE L*a*b* bằng cách mơ hình hố phân phối màu da hoặc với mơ hình
phân phối Gaussian đơn giản hoặc với mơ hình phân phối Gaussian kết hợp trong
từng không gian màu. Phương pháp mô men của Hu được sử dụng như là đặc trưng
và một mạng perceptron đa lớp được luyện để phân lớp các vùng có thể là mặt. Nói
chung, người ta đã chỉ ra rằng màu da người trong khơng gian độ sáng được chuẩn
hố có thể được mơ hình với phân phối Gaussian đơn giản và hoạt động khá hiệu
quả trong khi mơ hình với phân phối Gaussian kết hợp có thể được áp dụng trong
một số khơng gian khơng chuẩn hố. Trong các kiểm nghiệm tìm kiếm khn mặt
người, mơ hình màu TSL đem lại kết quả tốt nhất, nhưng một kết luận tổng quát có
thể được rút ra là tiêu chuẩn quan trọng nhất trong tìm kiếm khn mặt người là
mức độ gối nhau giữa phân phối màu da và không phải màu da trong các không
gian màu (điều này phụ thuộc nhiều vào số lượng mẫu da và không phải da màu sử
dụng trong quá trình học).
Phân vùng màu một cách cơ bản có thể được thực hiện thơng qua sử dụng
một ngưỡng màu da phù hợp trong đó màu da được mơ hình thơng qua biểu đồ hoặc
đồ thị màu. Một số phương pháp phức tạp hơn sử dụng các tiêu chuẩn thống kê mà
mơ hình mặt biến đổi bên trong một dải hình ảnh rộng. Ví dụ, Oliver, Yang và
Waibel đã sử dụng phân phối Gaussian để biểu diễn một nhóm các màu da của hàng
nghìn mẫu màu da được lấy mẫu từ rất nhiều các màu da của các chủng tộc người
khác nhau. Phân phối Gaussian được biểu trưng bởi trung bình  và mà trận hiệp
biến  . Màu của các điểm ảnh từ ảnh đầu vào có thể được so sánh với mơ hình da
màu thơng qua khoảng cách Mahalanobis. Khoảng cách này sẽ đem lại ý niệm về sự
tương đồng giữa màu sắc điểm ảnh với mơ hình màu da. Một ưu điểm của phương

pháp mơ hình màu thống kê là biến đổi về màu của một người khác có thể được
thich nghi bởi mơ hình tổng qt thơng qua phương pháp học. Sử dụng phương
pháp thích nghi này, phương pháp dị tìm qua màu có thể rất hiệu quả khi thay đổi
các nhân tố của môi trường như điều kiện chiếu sáng hoặc các đặc tính của thiết bị
thu.
2.2.3.1 Phân tách vùng da trong khơng gian màu rg
 Mơ hình màu da
Để có thể phân tách vùng da người khỏi các vùng không phải là da, ta cần có
một mơ hình màu tin cậy để có thể thích ứng được với sự đa dạng về chủng tộc
người và các điều kiện chiếu sáng khác nhau. Trong phần này, mơ hình màu được
lựa chọn là mơ hình màu da trong khơng gian sắc độ màu.
Trên thực tế mơ hình màu được sử dụng nhiều nhất là mơ hình RGB sử dụng
trong biểu diễn ảnh màu. Tuy nhiên, mơ hình màu RGB khơng phù hợp để biểu
diễn mơ hình màu da. Chính từ ngun nhân này mà bài tốn tìm mơ hình màu biểu
diễn màu da nảy sinh và nhiều mơ hình màu được đề cập đến như đã chỉ ra trong
phần tổng quan. Trong không gian màu RGB, bộ ba (R,G,B) không chỉ biểu diễn
màu mà cịn biểu diễn độ chói của các mầu. Độ chói có thể thay đổi tuỳ theo mặt
25


người dựa trên điều kiện chiếu sáng xung quanh và khơng phải là đơn vị đo tin cậy
để có thể phân tách được các vùng da và vùng không phải là da. Độ chói do đó có
thể loại bỏ khỏi biểu diễn màu trong không gian sắc độ màu. Các màu sắc độ hay
còn gọi là màu nguyên bản do khơng có thành phần độ chói được định nghĩa thơng
qua q trình chuẩn hố sau:
r

R
R
, b 

RGB
RGB

Chú ý là thành phần xanh lục (g) là thừa sau khi chuẩn hoá vì r+g+b=1.
Các màu sắc độ được sử dụng hiệu quả trong nhiều ứng dụng để phân đoạn
các ảnh màu và tất nhiên là phù hợp cho phân đoạn các vùng da, tách vùng da khỏi
các vùng khác. Phân phối màu trong các màu da của nhiều người khác nhau được
phát hiện ra là chỉ tập trung trong một vùng nhỏ trong không gian màu sắc độ.
Nguyên nhân của điều này là do mặc dù màu da của những người khác nhau biến
đổi trong một phạm vi rất rộng nhưng chúng thay đổi về độ sáng nhiều hơn rất
nhiều so với thay đổi về màu sắc. Nói cách khác, màu da của những người khác
nhau nói chung là tương đồng với nhau và chỉ khác nhau chủ yếu về cường độ. Với
nhận xét này, ta tiếp tục tìm hiểu về các bước tiếp theo xây dựng mơ hình màu da
trong khơng gian sắc độ màu.
Như đã trình bày trong phần tổng quan, các mơ hình màu biểu diễn da người
đã được nghiên cứu rất nhiều. Một kết luận rút ra từ các nghiên cứu đó đã khẳng
định rằng phân phối màu da của những người khác nhau tụ lại thành vùng trong
không gian sắc độ màu và một phân phối màu da có thể được biểu diễn bằng mơ
hình Gaussian N(m,C) trong đó:
Trung bình: m = E {x} với x = (r,b)T
Phương sai: C = E {(x-m)(x-m)T }
Có thể dẫn ra đây một nghiên cứu của Henry Chang và Ulises Robles để
minh hoạ kết quả trên. Hai ông đã lấy 32500 mẫu da của rất nhiều người chụp trong
17 tấm ảnh màu để xác định phân phối màu da trong không gian sắc độ màu. Các
mẫu được lấy từ những người thuộc các chủng tộc khác nhau: người châu Á, người
da trắng, người châu Phi. Các mẫu da sau đó được lọc nhiễu thơng qua bộ lọc trung
bình để giảm tác động của nhiễu. Phân phối màu da trong không gian sắc độ được
minh hoạ trong hình dưới đây.

26



×