ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
o0o
PHẠM TRUNG KIÊN
TÌM KIẾM VÀ NHẬN DẠNG
KHUÔN MẶT NGƯỜI TRONG ẢNH
LUẬN VĂN CAO HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGÔ QUỐC TẠO
Hà Nội - 2007
3
MỤC LỤC
MỞ ĐẦU 7
1 Chương 1 PHÁT BIỂU BÀI TOÁN 9
1.1 Tổng quan và các khái niệm liên quan đến nhận dạng khuôn mặt 9
1.1.1 Hệ thống sinh trắc học 9
1.1.2 Hệ thống nhận dạng khuôn mặt 9
1.1.3 Hệ thống xác minh hay xác thực khuôn mặt là gì? 9
1.1.4 Hệ thống nhận dạng tĩnh - tĩnh, tĩnh - động, động - động 10
1.1.4.1 Hệ thống nhận dạng tĩnh - tĩnh 10
1.1.4.2 Hệ thông nhận dạng tĩnh - động 10
1.1.4.3 Hệ thống nhận dạng động - động 10
1.1.5 Những thách thức trong bài toán nhận dạng khuôn mặt 10
1.1.6 Sai số trong hệ nhận dạng [20] 10
1.2 Các ứng dụng tương tác người máy (Human computer interactive) liên quan đến khuôn mặt 11
1.3 Các hướng tiếp cận chính trong lĩnh vực nhận dạng khuôn mặt 13
1.3.1 Các công trình nghiên cứu về phương pháp nhận dạng và kiểm chứng chất lượng cho một hệ
thống nhận dạng khuôn mặt 13
1.3.2 Hướng tiếp cận được thử nghiệm trong luận văn 15
2 Chương 2 DÒ TÌM KHUÔN MẶT TRONG ẢNH MÀU 16
2.1 Giới thiệu 16
2.1.1 Các thách thức trong việc dò tìm khuôn mặt 16
2.1.2 Một số hướng tiếp cận thường được dùng trong dò tìm khuôn mặt nhanh 17
2.2 Tìm kiếm khuôn mặt người trong ảnh dựa trên màu da 18
2.2.1 Giới thiệu [16] 18
2.2.2 Dò tìm da trên ảnh màu 19
2.2.2.1 Mô hình hóa da 20
2.2.3 Không gian màu cho mô hình da 23
2.2.3.1 Phân tách vùng da trong không gian màu rg 25
2.2.4 Xác định vùng da sử dụng entropy 28
2.2.4.1 Khái niệm về entropy 28
2.2.4.2 Phát hiện màu da bằng mô hình Entropy cực đại. 29
2.2.5 Định vị khuôn mặt bên trong các vùng da 35
2.2.5.1 Giới thiệu 35
2.2.5.2 Định vị vùng khả năng mặt 36
2.2.5.3 Ra quyết định sử dụng đối sánh mẫu 39
2.2.6 Kết luận về tìm kiếm khuôn mặt dựa trên màu da 41
3 Chương 3 RÚT TRÍCH ĐẶC TRƯNG TỪ KHUÔN MẶT 42
3.1 Tiếp cận theo phương pháp phân tích thành phần chính (Principal Component Analysis hay PCA)
42
3.1.1 Vector riêng, Trị riêng và sự chéo hoá của ma trận 42
3.1.2 Kì vọng và phương sai trong thống kê đa chiều 43
3.2 Phương pháp phân tích thành phần chính (Principal Component Anlysis hay PCA) 43
3.2.1 Yêu cầu 43
3.2.2 Trích đặc trưng bằng phương pháp PCA 44
3.2.3 Kỹ thuật tính đặc trưng bằng PCA 46
3.3 Phương pháp PCA toàn cục và cục bộ 48
3.3.1 Phương pháp PCA toàn cục 48
3.3.2 Phương pháp PCA cục bộ 48
3.4 Đánh giá 49
3.4.1 Mộ số đánh giá quan trọng về rút trích đặc trưng bằng phương pháp PCA 49
3.4.2 So sánh phương pháp PCA toàn cục và PCA cục bộ 49
4 Chương 4 MÔ HÌNH MAKOV ẨN VÀ ỨNG DỤNG NHẬN DẠNG
KHUÔN MẶT 50
4
4.1 Giới thiệu mô hình Makov ẩn 50
4.1.1 Mô hình Markov 50
4.1.2 Mô hình Markov ẩn [19] 51
4.1.2.1 Xác suất của chuỗi quan sát 52
4.1.2.2 Dãy trạng thái tối ưu 54
4.1.2.3 Hiệu chỉnh các tham số của mô hình 55
4.1.2.4 Khoảng cách giữa các mô hình Markov ẩn 55
4.1.3 Mô hình Markov ẩn và nhận dạng mặt người 58
4.1.3.1 Ý tưởng 58
4.1.3.2 Mô hình Markov ẩn biểu diễn ảnh mặt 59
4.1.3.3 Trích chọn đặc trưng 60
4.1.3.4 Luyện mô hình mặt 64
4.1.3.5 Nhận dạng khuôn mặt người trong ảnh 66
4.1.3.6 Tìm kiếm khuôn mặt người trong ảnh 67
4.1.3.7 Các dạng của mô hình Markov ẩn trong mô tả khuôn mặt 69
4.2 Kết chương 70
5 KẾT LUẬN 71
6 TÀI LIỆU THAM KHẢO 72
5
DANH MỤC CÁC HÌNH
Hình 1-1. So sánh hai tác vụ nhận dạng khuôn mặt và xác nhận khuôn mặt 9
Hình 1-2. Hình biểu diễn hàm FRR và FAR 11
Hình 2-1. Ảnh màu với da và kết quả của sự dò tìm da 18
Hình 2-2. Mẫu da của mỗi người rất khác nhau 19
Hình 2-3. Mẫu da bị ảnh hưởng bởi các loại nhiễu và biến dạng 19
Hình 2-4. Những mạng SOM với những hệ thống khu lân cận 21
Hình 2-5. Phân phối màu cho các màu da khác nhau 27
Hình 2-6. Biểu diễn mô hình màu da bằng phân phối Gauss 27
Hình 2-7. Đường cong entropy của biểu diễn biến ngẫu nhiên 29
Hình 2-8. 4 điểm lân cận và 8 điểm lân cận 30
Hình 2-9. Một ảnh mẫu từ tập phân phối thỏa mãn D, có năng lượng cực tiểu 33
Hình 2-10. Hình (a): ảnh gốc, hình (b): Baseline, hình (c): HMM, 35
Hình 2-11. Khuôn mặt mẫu của Chang và Robles 39
Hình 2-12. Khuôn mặt mẫu tổng hợp 39
Hình 2-13. Khuôn mặt mẫu được điều chỉnh kích thước 40
Hình 2-14. Khuôn mặt mẫu được xoay và điều chỉnh lại kích thước 40
Hình 4-5. Tính hội tụ của khoảng cách HMM khi độ dài chuỗi quan sát tăng 58
Hình 4-6.(a) Mô hình ergodic 4 trạng thái (b) Mô hình trái - phải 4 trạng thái 59
Hình 4-7. Mô hình mặt 6 trạng thái 60
Hình 4-8. Ảnh mặt và phương pháp trích chọn khối quan sát. 61
Hình 4-9. Chiến lược huấn luyện mô hình Markov ẩn cho biểu diễn khuôn mặt 66
Hình 4-10. Nhận dạng mặt sử dụng mô hình Marov ẩn 67
Hình 4-11. Tìm kiếm khuôn mặt sử dụng mô hình Markov 68
Hình 4-12. Mô hình Markov ẩn nhúng với 3 siêu trạng thái 70
6
BẢNG CÁC TỪ VIẾT TẮT
Kí hiệu
Từ Tiếng Anh
Giải thích
ICAO
International Civil Aviation
Organization
Tổ chức Hàng không Dân dụng
Quốc tế
FAR
False Acceptance Rate
Sai số bắt nhầm
FMR
False Match Rate
FRR
False Reject Rate
Sai số bỏ sót
FNMR
False Non Match Rate
TAR
True Accpetance Rate
Độ chính xác
PCA
Principal Component Analysis
Phân tích thành phần chính
HMM
Hidden Markov Model
Mô hình Markov ẩn
LDA
Linear discriminant analysis
Phân tích độc lập tuyến tính
KLT
Karhunen-Loève transform
Phép biến đổi Karhuen-loeve
DCT
Discrete cosine transform
Phép biến đổi Cosin rời rạc
ORL
Olivetti Research Laboratory
PDF
probability density function
hàm mật độ xác suất
7
0 MỞ ĐẦU
Ngày nay, cùng với những tiến bộ vượt bậc của khoa học kỹ thuật nói chung,
bộ môn khoa học xử lý ảnh đã và đang thu được những thành tựu lớn lao và chứng
tỏ vài trò không thể thiếu với những ứng dụng sâu rộng trong khoa học kỹ thuật
cũng như đời sống xã hội. Một bộ phận của khoa học xử lý ảnh là lĩnh vực thị giác
máy tính hiện đang thu hút rất nhiều sự quan tâm của các nhà nghiên cứu xử lý ảnh
với mục tiêu xây dựng nên một thế giới trong đó hệ thống thị giác kỳ diệu của con
người có thể được mô phỏng bởi các hệ thống máy tính, đem lại khả năng cảm nhận
bằng thị giác cho các hệ thống về môi trường xung quanh. Mơ ước về một hệ thống
máy tính có thể hoà nhập vào thế giới con người với đầy đủ các giác quan trong đó
thị giác đóng vai trò quan trọng đang dần dần được hiện thực hoá với những đóng
góp nghiên cứu của các nhà khoa học trên phạm vi toàn thế giới.
Đồng thời việc phát triển của các thiết bị phần cứng cả về phương diện thu
nhận, hiển thị, tốc độ xử lý đã mở ra nhiều hướng mới cho công nghệ xử lý ảnh. Nó
có thể giải quyết các bài toán như giám sát tự động phục vụ trong cơ quan, ngân
hàng, kho bạc, hoặc trong việc giám sát giao thông tự động, phục vụ tại bãi đỗ xe,
trạm thu phí tự động hoặc việc phát hiện và nhận dạng mặt người phục vụ trong
công tác quân sự, an ninh v.v Đặc biệt trong lĩnh vực nhận dạng bằng sinh trắc
học, sau sự kiện 11/9/2001, việc nghiên cứu và đưa vào ứng dụng thực tế lĩnh vực
nhận dạng bằng sinh trắc đã được các nhà khoa học và chính phủ nhiều nước chú
trọng. Đơn cử có thể kể tới hệ thống kiểm soát (tự động) tại các cửa khẩu vào /ra ở
Mỹ, Úc, khối EU và ở một số nước châu Á (Singapore, Thái Lan, ) đã xử dụng
thông tin sinh trắc vào trong quá trình kiểm soát xác định thật giả về giấy tờ và con
người. Cho đến nay, theo Tổ chức hàng không dân dụng thế giới - ICAO cho biết đã
có khoảng 34 quốc gia áp dụng việc đưa các thông tin sinh trắc vào hộ chiếu để
chống làm giả và dùng trong các của kiểm soát tự động tại biên giới. Trong đó,
thông tin ảnh mặt là một thông tin bắt buộc dùng để đối sánh và nhận dạng bởi tuy
các phương pháp nhận dạng bằng ảnh mặt thường cho chất lượng chưa cao bằng các
phương pháp sử dụng các đặc điểm sinh trắc khác như vân tay hoặc tròng mắt do
ảnh mặt thu nhận được thường bị ảnh hướng lớn của nhiễu, đặc biệt là môi trường
và chất lượng của các thiết bị thu nhận hình ảnh song ảnh mặt là một đặc điểm sinh
trắc mà ta có thể thu nhận một cách nhanh chóng và dễ dàng nhất (sử dụng các
camera quan sát tự động).
Tại Việt Nam, việc ứng dụng thông tin sinh trắc vào trong các giấy tờ (hộ
chiếu, chứng minh thư, ) cũng đang được tích cực nghiên cứu để đưa vào ứng
dụng (hộ chiếu điện tử dự kiến sẽ được thử nghiệm trong năm 2008).
Từ những lý do trên, tôi đã chọn đề tài luận văn: “Tìm kiếm và nhận dạng
khuôn mặt người trong ảnh”.
8
Bố cục của luận văn gồm:
Chương 1: Phát biểu bài toán
Nêu lên một số khái niệm liên quan đến nhận dạng khuôn mặt; các ứng dụng
tương tác người máy liên quan đến nhận dạng khuôn mặt; điểm qua một số phương
pháp nhận dạng khuôn mặt được nghiên cứu và cải tiến trong thời gian gần đây.
Chương 2: Dò tìm khuôn mặt người trong ảnh màu
Giới thiệu một số phương pháp dò tìm khuôn mặt người dựa trên màu da.
Chương 3: Rút trích đặc trưng từ khuôn mặt người
Trình bày phương pháp phân tích các thành phần chính PCA (Principal
Component Analysis) rút trích đặc trưng từ ảnh bản đầu.
Chương 4: Mô hình Markov ẩn và ứng dụng nhận dạng khuôn mặt
Giới thiệu mô hình Markov ẩn, một số bài toán cơ bản của mô hình Markov
và ứng dụng mô hình trong nhận dạng khuôn mặt người.
Chương 5: Kết luận
9
1 Chương 1 PHÁT BIỂU BÀI TOÁN
1.1 Tổng quan và các khái niệm liên quan đến nhận dạng khuôn
mặt
1.1.1 Hệ thống sinh trắc học
Hệ thống sinh trắc học là một hệ thống được thiết kế để xác minh và nhận
dạng một người dựa vào những đặc trưng sinh học duy nhất của người đó.
1.1.2 Hệ thống nhận dạng khuôn mặt
Hệ thống nhận dạng khuôn mặt là một hệ thống được thiết kế để tìm thông
tin của một người. Kĩ thuật nhận dạng là kiểm tra sự phù hợp dựa trên phép so sánh
một-nhiều cụ thể là tìm ra một người là ai trong số những người đã được lưu trữ
trong hệ thống dựa vào thông tin khuôn mặt.
1.1.3 Hệ thống xác minh hay xác thực khuôn mặt là gì?
Hệ thống xác minh/xác thực khuôn mặt là một hệ thống được thiết kế để xác
minh thông tin của một người. Kĩ thuật xác minh là kiểm tra sự phù hợp trên phép
so sánh một-một cụ thể là đối chiếu thông tin mới nhận về một người với thông tin
đã lưu trữ về người này có khớp hay không dựa trên thông tin khuôn mặt.
Hình 1-1. So sánh hai tác vụ nhận dạng khuôn mặt và xác nhận khuôn mặt
Hoàn toàn không biết thông tin Đã biết trước thông tin
Nhận dạng người
(identification)
ngưòi này là ai ?
Xác minh người
(verification)
Đây là Hùng phải không?
Kết quả
Kết quả
Đúng / sai
Hùng
10
1.1.4 Hệ thống nhận dạng tĩnh - tĩnh, tĩnh - động, động - động
1.1.4.1 Hệ thống nhận dạng tĩnh - tĩnh
Hệ thống nhận dạng tĩnh - tĩnh là hệ thống được thiết kế bằng cách sử dụng
một số ảnh tĩnh làm mẫu để nhận dạng khuôn mặt người trong ảnh tĩnh. Kỹ thuật
nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống
nhận dạng nói chung ở trên.
1.1.4.2 Hệ thông nhận dạng tĩnh - động
Hệ thống nhận dạng tĩnh - động là hệ thống được thiết kế bằng cách sử dụng
một số ảnh tĩnh làm mẫu để nhận dạng khuôn mặt người trong ảnh động. Kỹ thuật
nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống
nhận dạng nói chung ở trên, song ảnh cần kiểm tra là các khung ảnh động trong các
đoạn phim từ các máy camera. Kỹ thuật này dĩ nhiên không thể chính xác vì chuyển
động của mặt người trong đoạn phim khá phức tạp song thể hiện trong ảnh tĩnh để
huấn luyện lại ít.
1.1.4.3 Hệ thống nhận dạng động - động
Hệ thống nhận dạng động - động là hệ thống được thiết kế bằng cách sử
dụng các ảnh động làm mẫu để nhận dạng khuôn mặt người trong ảnh động. Kỹ
thuật nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ
thống nhận dạng nói chung ở trên. Tuy nhiên, kỹ thuật này chính xác hơn kỹ thuật
sử dụng trong hệ thống nhận dạng tĩnh - động do sự chuyển động phức tạp của
khuôn mặt người cũng được huấn luyện bằng các khung ảnh động.
1.1.5 Những thách thức trong bài toán nhận dạng khuôn mặt
Những biến đổi quá lớn giữa các ảnh khuôn mặt khác nhau từ một người cần
nhận dạng gồm trạng thái cảm xúc trên khuôn mặt, ánh sáng, và các thay đổi vị trí
của khuôn mặt vv.
Giới hạn về số ảnh cần thiết cho việc nhận dạng, tập học không thể bao quát
được tất cả các biến đổi có thể có trên khuôn mặt của một người cần nhận dạng
trong thế giới thực.
1.1.6 Sai số trong hệ nhận dạng [20]
Hệ nhận dạng bằng sinh trắc luôn có sai số nói cách khác không thể chính
xác tuyệt đối.
Độ chính xác của (đối sánh 1:1, và 1:N) phụ thuộc nhiều yếu tố, ví dụ thông
tin sinh trắc (Sample data), bản thân thuật toán trích chọn đặc điểm (enrollment) và
thuật toán đối sánh (matcher), kích cỡ CSDL - miền đối sánh.
Có 2 đại lượng chính dùng để đo lường sai số của một hệ nhận dạng bằng
sinh trắc:
11
Sai số bắt nhầm – FAR (False Acceptance Rate) có tài liệu gọi là FMR
(False Match Rate)
Sai số bỏ sót – FRR (False Reject Rate) có tài liệu gọi là FNMR (False
Non Match Rate)
Độ chính xác – TAR (True Accpetance Rate) là dẫn xuất của FRR
TAR = 1 - FRR
FAR và FRR là hàm số của t – ngưỡng xét trùng
FAR(t)
FRR(t)
ERR là điểm mà FRR = FAR
Hình 1-2. Hình biểu diễn hàm FRR và FAR
Để đánh giá chất lượng một hệ thống nhận dạng mặt người một cách khách
quan cần:
Số cá nhân đối sánh đủ lớn.
Đo với CSDL đủ lớn.
1.2 Các ứng dụng tương tác người máy (Human computer
interactive) liên quan đến khuôn mặt
Từ những năm 1990 trở lại đây, chúng ta đã chứng kiến sự phát triển như vũ
bão của các ngành công nghiệp, đặc biệt là ngành công nghiệp chế tạo điện tử. Tuy
nhiên hiện nay các thiết bị điện tử cao cấp như máy ảnh số, camera kĩ thuật số, và
nhiều sản phẩm khác dường như chỉ phù hợp cho các phòng thí nghiệm, các công ty
12
sản xuất kinh doanh, thương mại, tài chính, ngân hàng, Trong thời gian không xa,
chi phí cho các thiết bị này sẽ giảm đáng kể. Khi đó sẽ mở ra nhiều hướng nghiên
cứu về thị giác máy tính, đồng thời sẽ có nhiều ứng dụng trong giao tiếp giữa người
với máy tính mà trong đó hệ thống nhận dạng mặt người đóng một vai trò không
nhỏ. Dưới đây là một số ứng dụng.
Các ứng dụng chuyên biệt cho ngành hàng không
Đảm bảo sự truy cập và tính hợp lệ trong công việc cho từng nhân viên:
Mỗi nhân viên làm việc tại cảng hàng không cũng như nhân viên phi hành
đoàn được cung cấp quyền truy cập để đến vị trí làm việc. Làm thế nào để
xác minh nhân viên này vào đúng khu vực làm việc hay không?
Làm sao để đảm bảo trong số những hành khách không có sự trà trộn của
một số kẻ khủng bố/tội phạm quốc gia/ quốc tế?
Bảo vệ trẻ em ở nhà trẻ từ bọn bắt cóc
Quy định rằng, chỉ có những nhân viên của nhà trẻ mới được phép dẫn trẻ
em ra ngoài và trao tận tay cho bố mẹ đón về. Nhưng trong xã hôi cũng có
một số trường hợp giả danh nhân viên để bắt cóc trẻ em với mục đích xấu.
Làm thể nào để ngăn chặn hành vi xấu này?
Nhận dạng khuôn mặt được sử dụng kèm với thẻ quy cập
Trong các nước phát triển, hầu như mọi người dân đều dùng thẻ tín dụng
để mua bán, rút tiền, trao đổi hàng hóa. Điều này rất nguy hiểm khi thẻ truy
cập này bị người khác nhặt được hay biết được mật khẩu của sở hữu thẻ này?
Làm cách nào có thể bảo đảm an toàn nhất?
Có thể dùng song mật khẩu: Có nghĩa sử dụng khuôn mặt như là một
mật khẩu thứ hai để truy cập vào hệ thống cùng với thông tin từ card truy
cập. Để rút được tiền
• Đưa thẻ vào hệ thống
• Đưa khuôn mặt vào để nhận dạng
• Xác minh người này có phải là chủ sở hữu của thẻ hay không?
Nếu khớp thì hệ thống cho rút tiền
Nếu không thì hệ thống không cho rút tiền.
Kinh doanh thương mại điện tử
Với sự tiến bộ của khoa học công nghệ, nhiều hình thức kinh doanh
thương mại xuất hiện, đặc biệt là thương mại điện tử. Việc buôn bán và trao
đổi giữa hai bên đối tác không cần diễn ra trực tiếp (mặt đối mặt), mà chỉ cần
qua mạng với hình ảnh của người đại diện. Tuy nhiên bên cạnh đó sẽ có
nhiều mặt tiêu cực trên hình thức kinh doanh này, đó là các vụ lừa đảo, giả
mạo, giả danh.v v Làm sao để biết được đối tác của mình là thật hay giả?
13
Ngăn chặn việc xuất/nhập cảnh bất hợp pháp
Một số người không được xuất/nhập cảnh vào nước, song họ cố tình khai
gian giấy tờ để xuất/nhập cảnh bất hợp pháp. Làm sao để ngăn chặn được sự
gian lận này?
Lần dấu vết đi tìm kẻ khủng bố
Từ những bức ảnh số hay những đoạn video số đã được ghi lại tự động về
hiện trường trước khi vụ khủng bố xảy ra. Cần nhận dạng những đối tượng
khả nghi của vụ khủng bố này?
Hệ thống giám sát công nhân và chấm công tự động
Hiện nay trong các khu công nghiệp hay những công ty sản xuất lớn có
hàng ngàn công nhân vào ra mỗi ngày nên việc giám sát kẻ gian vào công ty
cũng như công việc chấm công rất phức tạp. Vậy làm thế nào để nhận ra
từng nhân viên của công ty.
Tóm lại: Nhu cầu sử dụng các hệ thống xử lý dùng trí tuệ nhân tạo ngày càng phát
triển, mà trong đó nhận dạng khuôn mặt để mã hóa mật khẩu cá nhân là một nhu
cầu thiết yếu hiện nay và trong tương lai. Đặc biệt vụ khủng bố ngày 11-9-2001 tại
Mỹ đã đánh dấu một bước ngoặc mới trong xu hướng nghiên cứu và giá trị thương
mại của các hệ thống sinh trắc học ứng dụng trong quân sự và an ninh.
1.3 Các hướng tiếp cận chính trong lĩnh vực nhận dạng khuôn mặt
1.3.1 Các công trình nghiên cứu về phương pháp nhận dạng và kiểm chứng
chất lượng cho một hệ thống nhận dạng khuôn mặt
Bài toán nhận dạng khuôn mặt cần xác định hai vấn đề chính: dùng thông tin
nào để nhận dạng: chân mày, cặp mắt, mũi, môi, tai, hay kết hợp các thông tin trên.
Và dùng phương pháp nào để huấn luyện cho máy nhận dạng dùng nguồn thông tin
đó. Nhận dạng khuôn mặt trên máy tính đã trải qua nhiều bước thăng trầm, chúng ta
có thể liệt kê một số kết quả như sau:
Wenyi Zhao, Arvindh Krishnaswamy, Rama Chellappa, Danie L.Swets, John
Weng (1998)[4] sử dụng phương pháp PCA (phân tích thành phần chính) kết hợp
LDA (phân tích độc lập tuyến tính). Bước 1, chiếu ảnh khuôn mặt từ không gian
ảnh thô sang không gian các không gian khuôn mặt (Mỗi lớp khuôn mặt được nhận
dạng sẽ được mô hình hóa bằng một không gian khuôn mặt) dùng PCA. Bước 2, sử
dụng phương pháp LDA để tạo bộ phân loại tuyến tính có khả năng phân lớp các
lớp khuôn mặt.
John Daugnman (1998), đưa ra phương pháp dùng đặc trưng về tròng của
mắt để phân biệt cặp (trai/gái) song sinh.
Emmanuel Viennet và Francoise Fogelman Soulie (1998), sử dụng phương
pháp mạng neural nhân tạo để xử lý và nhận dạng khuôn mặt.
14
Antonio J.Colmenarez và Thomas S.Huang (1998),[5] sử dụng kỹ thuật học
thị giác và phù hợp mẫu 2-D. Ông quan niệm bài toán dò tìm khuôn mặt là thao tác
phân loại khuôn mặt trong đó khuôn mặt thuộc về một lớp và các đối tượng khác
thuộc về lớp còn lại bằng cách ước lượng mô hình xác suất cho mỗi lớp, và việc dò
tìm sử dụng luật quyết định Maximum-likelihood.
Kazunori Okada, Johannes Steffens, Thomas Maurer, Hai Hong, Egor
Elagin, Hartmut Neven, and Christoph (1998),[6] nhận dạng khuôn mặt dựa vào
sóng Gabor và phương pháp phù hợp đồ thị bó. Với ý tưởng dùng đồ thị để biểu
diễn khuôn mặt, ảnh khuôn mặt được đánh dấu tại các vị trí đã được xác định trước
trên khuôn mặt, gọi các vị trí này chính là các vị trí chuẩn. Khi thực hiện thao tác so
khớp đồ thị với một ảnh, các điểm chuẩn (Jets) sẽ trích ra từ ảnh và so sánh các
điểm chuẩn này với tất cả các điểm chuẩn tương ứng trong các đồ thị khác nhau, và
đồ thị nào phù hợp nhất với ảnh sẽ được chọn.
Baback Moghaddam và Alex Pentland (1998) [7], đưa ra phương pháp phù
hợp thị giác trực tiếp từ các ảnh cần sử dụng cho mục đích nhận dạng khuôn mặt và
dùng độ đo xác suất để tính độ tương tự.
Massimo Tistaelli và Enrico Grosso (1998) [8], đưa ra kỹ thuật thị giác động.
Vì khả năng quan sát các chuyển động của khuôn mặt và xử lý các tình huống theo
dự định là thông tin rất quan trọng, từ đó nhận được mô tả đầy đủ hơn về khuôn mặt
cho mục đích thu thập mẫu và nhận dạng.
Jeffrey Huang, Chengjun Liu, và Harry Wechsler (1998)[9], đề xuất thuật
toán căn cứ trên tính tiến hóa (Evolutionary computation) và di truyền (Genetic) cho
các tác vụ nhận dạng khuôn mặt. Đối với cách tiếp cận này, hai mắt sẽ được dò tìm
trước tiên và thông tin này được xem là vết để quan sát khuôn mặt, trình xử lý dò
tiếp mắt bằng cách sử dụng một thuật toán lai để kết hợp thao tác học và tiến hóa
trong quá trình học.
Daniel Bgraham và Nigel M Allinson (1998)[10], sử dụng phương pháp
được gọi là tạo bản sao không gian đặc trưng để biểu diễn và nhận dạng hướng di
chuyển của khuôn mặt.
Oi Bin Sun, Chian Prong Lam và Jian Kang Wu (1998)[11], sử dụng phương
pháp tìm vùng hai chân mày, hai mắt, mũi, miệng và cằm. Ảnh khuôn mặt thẳng
ban đầu được chiếu theo chiều ngang để tìm các giá trị điểm ảnh thỏa ngưỡng cho
trước, đồ thị biểu diễn theo trục ngang sẽ định vị trí biên trên và biên dưới của hình
chữ nhật bao các đặc trưng cục bộ khuôn mặt. Tương tự với chiều đứng để tìm ra
đường biên bên trái và phải cho các vùng đặc trưng.
Ara V.Nefian và Monson H.Hayes III (1998) trình bày hướng tiếp cận theo
mô hình Markov ẩn (HMM) trong đó ảnh mẫu khuôn mặt được lượng hóa thành
chuỗi quan sát trên khuôn mặt theo quan niệm dựa trên thứ tự xuất hiện các đặc
trưng khuôn mặt {hai chân mày, hai lông mi, mũi, miệng, cằm}. Trong chuỗi quan
sát đó, mỗi quan sát lại là một vector nhiều chiều và mỗi vector quan sát này được
15
sử dụng để đặc trưng cho mỗi trạng thái trong chuỗi trạng trạng thái của HMM. Mỗi
người được ước lượng bằng một mô hình của HMM.
Guodong Guo, Stan Z.Li, Kap Luk Chan (2001), dùng phương pháp SVM để
nhận dạng khuôn mặt. Sử dụng chiến lược kết hợp nhiều bộ phân loại nhị phân để
xây dựng bộ phân loại SVM đa lớp.
1.3.2 Hướng tiếp cận được thử nghiệm trong luận văn
Trong đề tài đi vào tìm hiểu phương pháp nhận dạng dùng HMM; tìm hiểu
phương pháp PCA (phân tích thành phần chính) để trích chọn đặc trưng từ ảnh.
Việc cô lập khuôn mặt trong ảnh đầu vào (ảnh chứa khuôn mặt) được thực
hiện với phương pháp dò tìm dựa trên màu da kết hợp với mô hình Markov ẩn.
16
2 Chương 2 DÒ TÌM KHUÔN MẶT TRONG ẢNH MÀU
2.1 Giới thiệu
Dò tìm đối tượng là bài toán cơ bản và quan trọng trong lĩnh vực thị giác
máy tính. Các kỹ thuật đã được áp dụng có thể chia thành một trong hai tiếp cận: so
khớp các mô hình hình học hai, ba chiều vào ảnh [Seutens at al., 1992, Chin và
Dyer, 1986, Besl và Jain, 1985], hay phương pháp so khớp các mô hình khung vào
ảnh có chứa khuôn mặt cần dò tìm. Các nghiên cứu trước đây cho thấy rằng các
phương pháp dựa trên khung nhìn có thể dò tìm các khuôn mặt thẳng trong nền
phức tạp một cách hiệu quả.
Việc phát triển bộ dò tìm đối tượng dựa trên khung nhìn dùng máy học có ba
vấn đề chính. Thứ nhất, ảnh của các đối tượng (chẳng hạn khuôn mặt) biến đổi
nhiều, tuỳ thuộc vào độ sáng, tình trạng che lấp, tư thế, biểu hiện khuôn mặt và tính
giống nhau. Thuật toán dò tìm giải quyết với càng nhiều biến đổi càng tốt. Thứ hai,
một hay nhiều mạng neural được huấn luyện để giải quyết với mọi biến đổi còn lại
trong việc phân biệt đối tượng (object) với không phải đối tượng (non-object). Thứ
ba, đầu ra từ các bộ dò tìm phải được kết hợp lại thành một quyết định có biểu diễn
đối tượng hay không.
Hai bài toán dò tìm và nhận dạng đối tượng có liên quan mật thiết. Hệ thống
nhận dạng đối tượng có thể xây dựng mà không có tập bộ dò tìm đối tượng, mỗi bộ
dò tìm dò một đối tượng quan tâm. Tương tự, bộ dò tìm đối tượng có thể được xây
dựng mà không có hệ thống nhận dạng đối tượng; bộ nhận dạng đối tượng này cần
phân biệt đối tượng mong muốn với mọi đối tương khác có thể xuất hiện hay là lớp
đối tượng chưa biết. Do đó hai bài toán là như nhau, dù trong thực hành hầu hết các
hệ thống nhận dạng đối tượng ít khi giải quyết nền tuỳ ý, và các hệ thống dò tìm đối
tượng ít khi được huấn luyện trên đủ loại đối tượng để xây dựng hệ thống nhận
dạng. Điểm chú trọng khác nhau của các bài toán này dẫn đến các trình bày và thuật
toán khác nhau.
Thông thường, các hệ thống nhận dạng khuôn mặt làm việc bằng cách trước
hết áp dụng bộ dò tìm khuôn mặt để định vị khuôn mặt, sau đó áp dụng thuật toán
nhận dạng để nhận diện khuôn mặt.
Bài toán dò tìm khuôn mặt nhanh trên ảnh là bài toán quan trọng vì là quá
trình nhận dạng đối tượng sẽ thiếu chính xác nếu như thiếu bước dò tìm và định vị
được đối tượng. Bài toán dò tìm khuôn mặt nhanh có ý nghĩa rất quan trọng trong
việc nhận dạng, theo vết các đối tượng chuyển động trong các đoạn video hay
camera.
2.1.1 Các thách thức trong việc dò tìm khuôn mặt
Việc dò tìm đối tượng là bài toán xác định cửa sổ con của ảnh có thuộc về
tập các ảnh của đối tượng quan tâm hay không. Do đó, đường biên quyết định của
17
tập ảnh đối tượng phức tạp sẽ làm tăng độ khó của bài toán và có thể tăng số lỗi dò
tìm.
Giả sử ta muốn dò khuôn mặt nghiêng trong mặt phẳng ảnh, ngoài các khuôn
mặt thẳng. Việc thêm các khuôn mặt nghiêng vào tập các ảnh ta muốn dò tìm làm
tăng độ biến thiên của tập, và có thể làm tăng độ phức tạp của đường biên quyết
định của tập ảnh. Độ phức tạp này làm bài toán dò tìm khó hơn. Việc thêm ảnh mới
vào tập ảnh đối tượng có thể làm đường biên quyết định đơn giản hơn và dễ học
hơn. Có thể tưởng tượng điều này là đường biên quyết định được làm trơn bằng
việc thêm các ảnh vào tập.
Có nhiều nguồn biến đổi trong bài toán dò tìm đối tượng, và cụ thể trong bài
toán dò tìm khuôn mặt. Có các nguồn biến đổi sau.
Biến đổi trong mặt phẳng ảnh: loại biến đổi ảnh khuôn mặt đơn giản nhất có
thể được biểu diễn độc lập với khuôn mặt, bằng cách quay, dịch chuyển, biến
đổi tỷ lệ và soi gương ảnh.
Biến đổi độ sáng và ngữ cảnh: biến đổi do đối tượng và môi trường gây ra,
cụ thể các thuộc tính bề mặt của đối tượng và các nguồn sáng. Các thay đổi
về nguồn sáng nói riêng có thể biến đổi hoàn toàn vẻ bề ngoài của khuôn
mặt.
Biến đổi nền: Trong luận văn của mình, Sung cho rằng với kỹ thuật nhận
dạng mẫu hiện nay, tiếp cận dựa trên khung nhìn để dò tìm đối tượng chỉ
thích hợp cho các đối tượng có “đường biên ảnh có thể dự đoán được”. Khi
đối tượng có hình dáng dự đoán được, ta có thể trích ra window chỉ chứa các
pixel bên trong đối tượng, và bỏ qua nền.
Biến đổi hình dáng: với khuôn mặt, loại biến đổi này bao gồm biểu lộ tình
cảm khuôn mặt, miệng và mắt mở hay đóng, và hình dáng khuôn mặt của
từng người.
Tuy nhiên, nếu việc dò tìm được tiến hành trên các đoạn video hay camera ta
có thể áp dụng các phương pháp xử lý các khung hình liên tục cùng một lúc như
theo vết đối tượng, trừ ảnh v v…
2.1.2 Một số hướng tiếp cận thường được dùng trong dò tìm khuôn mặt
nhanh
Hướng dò tìm khuôn mặt trên ảnh màu dựa trên sự phân tích màu sắc của
vùng da. Mặc dù việc xử lý khá nhanh nhưng hướng này có giới hạn chỉ xử
lý trên ảnh màu và thường nhạy cảm với ánh sáng, thường chỉ sử dụng làm
các bước tiền xử lý cho các hướng khác.
Hướng dò tìm khuôn mặt dựa trên đặc trưng chủ yếu dựa vào các đặc trưng
của khuôn mặt người được quy định trước. Thành công nhất trong dò tìm
18
khuôn mặt người trong thời gian thực là phương pháp ASM (Active shape
Models).
Hướng dò tìm khuôn mặt dựa trên thông tin hình ảnh gồm mạng nơron, các
hướng thông kê (SVM, AdaBoost, …). Phương pháp SVM và mạng nơ ron
cũng đạt được kết quả cao trong thời gian khá nhanh song cũng chỉ vài ảnh
trong một giây nên khó có thể áp dụng trong việc nhận dạng thời gian thực.
Riêng phương pháp AdaBoost cho kết quả khả quan vì có thể xử lý đến
khoảng 15-20 khung hình trong một giây.
2.2 Tìm kiếm khuôn mặt người trong ảnh dựa trên màu da
2.2.1 Giới thiệu [16]
Sự dò tìm da chính là phát hiện những điểm da con người từ một hình ảnh
màu. Đầu ra hệ thống là một hình ảnh dưới dạng nhị phân trên cùng lưới điểm như
hình ảnh đầu vào với 1 biểu thị cho da và 0 biểu thị cho nền. Hình 2.1 cho thấy một
hình ảnh màu đầu vào và một ảnh đầu ra kết quả của sự dò tìm da.
Hình 2-1. Ảnh màu với da và kết quả của sự dò tìm da
Sự dò tìm da đóng một vai trò quan trọng trong nhiều ứng dụng như sự dò
tìm mặt, sự tìm kiếm và lọc nội dung ảnh trên mạng, sự phân đoạn vi đi ô và giám
sát tự động,
Tuy nhiên sự dò tìm da không phải là một nhiệm vụ dễ. Trước hết, màu da
của mỗi người có thể rất khác nhau. Trong hình 2.2, có người da trắng, người Châu
Phi và người Chấu Á, … Hơn nữa, một khi những hình ảnh được thu nhận với
những thiết bị có đặc điểm kỹ thuật khác nhau dưới nhiều điều kiện, chúng tùy
thuộc vào tất cả các loại nhiễu và sự biến dạng. Hình 2.3 cho thấy vài ví dụ.
19
Hình 2-2. Mầu da của một số chủng tộc người khác nhau
Hình 2-3. Mẫu da bị ảnh hưởng bởi các loại nhiễu và biến dạng
Một hệ thống dò tìm da thì không bao giờ hoàn hảo và những người dùng
khác nhau sử dụng tiêu chuẩn khác nhau cho sự đánh giá.
2.2.2 Dò tìm da trên ảnh màu
Nghiên cứu đã được thực hiện trên sự dò tìm của những điểm da con người
trong những hình ảnh màu trên sự phân biệt giữa những điểm da và không da bằng
việc sử dụng nhiều mô hình màu. Có hai vấn đề chủ yếu mà chúng ta phải thực hiện
ở đây là làm sao để chúng ta có thể phân biệt những điểm da từ những điểm không
phải da; và không gian màu nào sẽ được lựa chọn để tốt nhất cho việc thực hiện
phân tích.
20
2.2.2.1 Mô hình hóa da
Mục đích của việc mô hình hóa da là xây dựng cho một quy tắc quyết định
những điểm da từ những điểm không phải da. Công việc này có thể chia thành hai
vùng chính: mô hình không tham số và mô hình tham số.
Mô hình da không tham số
Kết quả của những phương pháp này đôi khi được viện dẫn như xây dựng
bản đồ xác suất da, một xác suất đánh giá từng điểm trong mô tả không gian màu.
Những mô hình Bayesian dựa vào histograms
Trong [17] [3] các tác giả mô hình những màu da và không da thông qua
histograms. Họ chia không gian mầu C thành số các bin c C và đếm số điểm ảnh
mầu trong mỗi bin N
skin
(c) đại diện cho lớp da và N
skin
đại diện cho lớp không phải
da. Cuối cùng, họ bình thường hóa mỗi bin để có phân phối p(c|skin)/p(c|skin). Để
cho N
skin
biểu thị số những điểm da và N
skin
biểu thị số những điểm không da trong
tập huấn luyện, chúng ta có:
skin
skin
N
cN
skincp
)(
)|(
(2.1)
skin
skin
N
cN
skincp
)(
)|(
(2.2)
cũng như
skinskin
skin
NN
N
skinp
)(
(2.3)
)(1)( skinp
NN
N
skinp
skinskin
skin
(2.4)
Công thức Bayesian đánh giá xác suất da/không da theo màu của điểm đã cho:
)()|()()|(
)()|(
)|(
skinpskincpskinpskincp
skinpskincp
cskinp
(2.5)
)|(1)( cskinpskinp
(2.6)
Việc đưa ra quyết định được dựa trên một ngưỡng , 0 < < 1. Điểm được gọi
là điểm da nếu p(skin|c) > và ngược lại điểm không phải là da nếu p(skin|c) ≤ .
Mạng tự tổ chức (SOM)
Được đưa ra bởi Kohonen ở những năm đầu thập kỷ 80, ngày nay SOM đã
trở thành phổ biến và được sử dụng rộng rãi trong những kiểu mạng nơron nhân tạo
không giám sát. SOM cơ bản gồm có một mạng hai chiều L nơron. Mỗi nơron n
i
L có liên hệ với một vectơ v
i
R
m
mà được khởi tạo ngẫu nhiên khi bắt đầu. Ở đây
21
sử dụng không gian màu hai chiều nên m = 2. Mạng có thể là hình chữ nhật hoặc
lục giác. Hình 2.4 cho thấy những ví dụ của cả hai dạng cũng như khu lân cận của
những nút trung tâm.
Hình 2-4. Những mạng SOM với những hệ thống khu lân cận [2]
Trong thứ tự để huấn luyện SOM, chúng ta giới thiệu những vectơ huấn
luyện tuần tự tới tất cả các nơron trong mạng. Mỗi lúc vectơ đầu vào v được gửi vào
trong SOM, một nơron vw thắng cuộc được xác định bởi
Iivvvv
iw
||,||||||
(1.7)
trong đó, I là tất cả các chỉ số của các nơron trong mạng. Những nơron trong
khu vực lân cận thì điều chỉnh các vector v của chúng theo một hàm học. Trong khi
sự huấn luyện tiến triển, nhịp độ học và kích thước khu lân cận bị tác động làm cả
hai giảm bớt. Mạng dần dần hình thành một ánh xạ có trật tự tôpô (hoặc có đặc tính
bản đồ) của dữ liệu huấn luyện. Nếu cần thiết, một pha định kích cỡ rồi đánh dấu,
nơi được gắn nhãn dữ liệu huấn luyện thì tuần tự được giới thiệu tới SOM. Nhãn dữ
liệu và chỉ số của nơron thắng cuộc được ghi mỗi thời gian. Mỗi nơron rồi được gán
một nhãn nào đó. Cho sự phân loại, mỗi nơron đầu vào chỉ cần nắm lấy nhãn của
nơron thắng cuộc. Brown chọn mạng lục giác và kích thước của mạng là khoảng 16
- 256. Họ chỉ ra rằng sự thực hiện của SOM ở lề tốt hơn sự pha trộn Gaussian,
trong khi thấp hơn những phương pháp trên histogram.
Điểm tốt là nó tiêu thụ ít tài nguyên hơn những phương pháp dựa trên
histogram và có thể được thực hiện trong phần cứng SOM nhanh và rẻ.
Những lợi thế của những phương pháp không tham số:
Chúng nói chung nhanh trong cả sự huấn luyện và kiểm tra;
22
Phương pháp không quan tâm hình dạng những phân phối nằm bên dưới
của dữ liệu huấn luyện, như vậy chúng ít ràng buộc hơn trong việc lựa chọn
không gian màu.
Tuy nhiên những mô hình này nói chung cần số lượng lớn của không gian
lưu trữ và thiếu khả năng chèn thêm hoặc khái quát hóa dữ liệu huấn luyện.
Để giảm số bin dùng để lưu trữ mỗi biểu đồ da/không da, người ta đã đề xuất
giảm bớt số của những bin bằng cách đơn giản hóa không gian màu. Ví dụ, nếu ta
chọn không gian mầu RBG (C = {0, ,255}
3
), chúng ta cần 2
24
bin để cất giữ mỗi
biểu đồ da / không da. Người tra đã chỉ ra rằng chỉ cần dùng 32
3
bin là đủ để thể
hiện các biểu đồ da/không da trong không gian màu RGB.
Mô hình da tham số
Những mô hình tham số thì cần ít không gian lưu trữ hơn nhiều so với các
mô hình không tham số. Chúng thể hiện tính đều đặn của những phân phối và cho
phép phân tích về sau. Chúng có khả năng chèn thêm dữ liệu huấn luyện khi nó thưa
thướt. Những hàm khác nhau có thể được áp dụng theo những vấn đề đặc biệt.
Gaussian đơn
Phân phối màu da những mô hình Gaussian đơn với một hàm mật độ xác
suất Gaussian (pdf) :
)()(
2
1
exp
2
1
)|(
1
2/1
skin
skin
T
skin
skin
ccskincp
(1.8)
với
skin
là sự chờ đợi và
skin
là ma trận hiệp phương sai của các vector màu
da.
Chúng có thể được đánh giá từ những mẫu huấn luyện sau:
Cc
skin
skin
skin
ccN
N
)(
1
(1.9)
T
skinskin
Cc
skin
skin
skin
cccN
N
))()((
1
1
(1.10)
P(c|skin) có thể được sử dụng như xác suất c thuộc về da. Hoặc chúng ta chỉ
cần phát sinh mô hình khác cho lớp không da và sử dụng công thức Bayesian để có
p(skin|c).
Gaussians kết hợp
Mô hình Gaussian kết hợp là một mở rộng của Gaussian đơn, nó có khả năng
đại diện nhiều phân phối phức tạp hơn. Pdf dưới sự pha trộn của Gaussians được
tính như sau:
23
k
i
ii
skincpskincp
1
)|()|(
(1.11)
trong đó, p
i
là những nhân của Gaussian được định nghĩa trong (1.8), từng
cái của chính nó là một phân phối Gaussian, k là số nhân của Gaussian,
i
trọng
lượng tương ứng là nhân mà cộng lên tới 1. Chúng ta có thể xây dựng mô hình pha
trộn cho lớp không da tương tự.
Mô hình ranh giới hình bầu dục
Mô hình ranh giới hình bầu dục là mức trên của mô hình Gaussian đơn và sự
pha trộn của Gaussians. Động lực của mô hình này là mặt nghiêng của phân phối
da. Để tính toán cho hình dạng thật của phân phối da, mà xấp xỉ là một hình ê-líp từ
sự quan sát của những mẫu huấn luyện, Lee và Yoo đề xướng để phân ra những
vùng màu da và không da bởi một ranh giới hình bầu dục. Mô hình được định nghĩa
như sau:
1
)()()(
skin
cTcc
(1.12)
trong đó, và
skin
sẽ được đánh giá từ tập hợp điểm da huấn luyện. Trước
ước lượng tham số, những người ngoài được loại bỏ từ tập huấn luyện trước hết, mà
là 0 - 5% của sự huấn luyện các mẫu màu da với tần số thấp và được giả thiết là
nhiễu và dữ liệu không đáng kể. Những tham số được đánh giá bởi:
skin
Cc
skin
c
C
1
(1.13)
T
skinskinskin
skin
skin
cccN
N
))()((
1
(1.14)
trong đó, |C
skin
| là số phần tử trong tập hợp màu da C
skin
, C
skin
C.
skin
là sự
chờ đợi của những vector màu da huấn luyện được định nghĩa trong (1.9). Quy tắc
quyết định đơn giản là so sánh (c) với một ngưỡng được chọn : c là da nếu C là
da nếu (c) < và không phải da nếu ngược lại. Các tác giả đã thử mô hình này
trên 6 không gian màu và qua nhiều thí nghiệm cho thấy mô hình này tốt hơn
Gaussian và Gaussian kết hợp.
Một hạn chế nhỏ của mô hình này là nó có thể chỉ đưa cho quyết định nhị
phân, có nghĩa rằng nó thiếu thông tin liên tục do xác suất cung cấp hàm mật độ.
2.2.3 Không gian màu cho mô hình da
Màu sắc là một phương tiện rất hiệu quả để phân biệt sự xuất hiện các đối
tượng trong khi mức xám chỉ cung cấp được các thông tin về đặc trưng của ảnh.
Các nghiên cứu đã chỉ ra rằng các màu da người khác nhau gây ra rất ít sự phân
nhóm trong không gian màu ngay cả khi xem xét các khuôn mặt thuộc các chủng
24
tộc người khác nhau. Điều này chứng tỏ rằng cấu trúc màu sắc của da người khác
nhau rất ít giữa những người khác nhau.
RGB
Một trong những mô hình màu được sử dụng nhiều nhất để mô hình màu sắc
da người là biểu diễn RGB trong đó những màu khác nhau được xác định bằng sự
kết hợp của ba thành phần màu cơ bản là đỏ, xanh lục và xanh lơ. Khi sự thay đổi
chính của thể hiện màu da là do biến đổi độ chói gây nên, biểu diễn màu chuẩn hoá
được sử dụng do đó có thể xác định được các thay đổi về độ chói. Hệ màu được
chuẩn hoá này có thể xác định được từ các thành phần RGB ban đầu:
BGR
R
r
BGR
G
g
BGR
B
b
Từ các công thức tính trên, ta nhận ra
1 bgr
. Hệ màu chuẩn hoá do đó
có thể được biểu diễn hiệu quả thông qua hai thành phần r và g trong khi thành phần
b có thể đạt được thông qua công thức
grb 1
.
Trong phân tích màu da người, biểu đồ phân bố dựa trên hai thành phần r và
g chỉ ra rằng màu khuôn mặt chỉ chiếm một vùng nhỏ trên biểu đồ. Bằng cách so
sánh các thông tin màu của một điểm ảnh lần lượt với các giá trị r và g trong vùng
đó, ta có thể tính toán được khả năng điểm ảnh đó thuộc về vùng da người.
Bên cạnh mô hình màu RGB, có một số mô hình màu khác hiện đang được
sử dụng trong nghiên cứu tìm kiếm khuôn mặt người. Biểu diễn mô hình màu HIS
đã chứng minh tính ưu điểm so với các mô hình khác khi chỉ ra sự khác biệt lớn
giữa các nhóm đặc tính màu da. Vì vậy, mô hình màu này được sử dụng để trích
chọn các đặc tính mặt như mắt, môi và lông mày. Khi sự biểu diễn hình ảnh liên
quan ngày càng chặt chẽ đến sự cảm thụ màu sắc của con người thì mô hình màu
này ngày càng được sử dụng rộng rãi trong các chiến lược phân vùng mặt.
Mô hình màu YIQ cũng được sử dụng trong tìm kiếm khuôn mặt người. Khi
chuyển các màu trong mô hình RGB sang biểu diễn YIQ, có thể nhận thấy thành
phần màu I, bao gồm dải màu từ màu vàng cam đến màu lục lam làm nổi bật vùng
da của người châu á. Sự chuyển đổi hệ màu này xoá đi hiệu quả các vùng màu nền
và cho phép xác định các vùng mặt nhỏ trong môi trường tự nhiên.
Các mô hình khác cũng được sử dụng trong tìm kiếm khuôn mặt người có
thể kể đến HSV, YES, YCbCr, YUV, CIE-xyz, L*a*b*, L*u*v*,CSN…
Terrilon gần đây đã đưa ra một phương pháp nghiên cứu so sánh cách sử
dụng một vài không gian màu được sử dụng nhiều trong tìm kiếm khuôn mặt. Họ đã
so sánh các không gian màu TSL, rg, CIE-xyz và CIE-DSH, HSV,YIQ, CIE-
25
L*u*v* và CIE L*a*b* bằng cách mô hình hoá phân phối màu da hoặc với mô hình
phân phối Gaussian đơn giản hoặc với mô hình phân phối Gaussian kết hợp trong
từng không gian màu. Phương pháp mô men của Hu được sử dụng như là đặc trưng
và một mạng perceptron đa lớp được luyện để phân lớp các vùng có thể là mặt. Nói
chung, người ta đã chỉ ra rằng màu da người trong không gian độ sáng được chuẩn
hoá có thể được mô hình với phân phối Gaussian đơn giản và hoạt động khá hiệu
quả trong khi mô hình với phân phối Gaussian kết hợp có thể được áp dụng trong
một số không gian không chuẩn hoá. Trong các kiểm nghiệm tìm kiếm khuôn mặt
người, mô hình màu TSL đem lại kết quả tốt nhất, nhưng một kết luận tổng quát có
thể được rút ra là tiêu chuẩn quan trọng nhất trong tìm kiếm khuôn mặt người là
mức độ gối nhau giữa phân phối màu da và không phải màu da trong các không
gian màu (điều này phụ thuộc nhiều vào số lượng mẫu da và không phải da màu sử
dụng trong quá trình học).
Phân vùng màu một cách cơ bản có thể được thực hiện thông qua sử dụng
một ngưỡng màu da phù hợp trong đó màu da được mô hình thông qua biểu đồ hoặc
đồ thị màu. Một số phương pháp phức tạp hơn sử dụng các tiêu chuẩn thống kê mà
mô hình mặt biến đổi bên trong một dải hình ảnh rộng. Ví dụ, Oliver, Yang và
Waibel đã sử dụng phân phối Gaussian để biểu diễn một nhóm các màu da của hàng
nghìn mẫu màu da được lấy mẫu từ rất nhiều các màu da của các chủng tộc người
khác nhau. Phân phối Gaussian được biểu trưng bởi trung bình
và mà trận hiệp
biến
. Màu của các điểm ảnh từ ảnh đầu vào có thể được so sánh với mô hình da
màu thông qua khoảng cách Mahalanobis. Khoảng cách này sẽ đem lại ý niệm về sự
tương đồng giữa màu sắc điểm ảnh với mô hình màu da. Một ưu điểm của phương
pháp mô hình màu thống kê là biến đổi về màu của một người khác có thể được
thich nghi bởi mô hình tổng quát thông qua phương pháp học. Sử dụng phương
pháp thích nghi này, phương pháp dò tìm qua màu có thể rất hiệu quả khi thay đổi
các nhân tố của môi trường như điều kiện chiếu sáng hoặc các đặc tính của thiết bị
thu.
2.2.3.1 Phân tách vùng da trong không gian màu rg
Mô hình màu da
Để có thể phân tách vùng da người khỏi các vùng không phải là da, ta cần có
một mô hình màu tin cậy để có thể thích ứng được với sự đa dạng về chủng tộc
người và các điều kiện chiếu sáng khác nhau. Trong phần này, mô hình màu được
lựa chọn là mô hình màu da trong không gian sắc độ màu.
Trên thực tế mô hình màu được sử dụng nhiều nhất là mô hình RGB sử dụng
trong biểu diễn ảnh màu. Tuy nhiên, mô hình màu RGB không phù hợp để biểu
diễn mô hình màu da. Chính từ nguyên nhân này mà bài toán tìm mô hình màu biểu
diễn màu da nảy sinh và nhiều mô hình màu được đề cập đến như đã chỉ ra trong
phần tổng quan. Trong không gian màu RGB, bộ ba (R,G,B) không chỉ biểu diễn
màu mà còn biểu diễn độ chói của các mầu. Độ chói có thể thay đổi tuỳ theo mặt
26
người dựa trên điều kiện chiếu sáng xung quanh và không phải là đơn vị đo tin cậy
để có thể phân tách được các vùng da và vùng không phải là da. Độ chói do đó có
thể loại bỏ khỏi biểu diễn màu trong không gian sắc độ màu. Các màu sắc độ hay
còn gọi là màu nguyên bản do không có thành phần độ chói được định nghĩa thông
qua quá trình chuẩn hoá sau:
BGR
R
b ,
BGR
R
r
Chú ý là thành phần xanh lục (g) là thừa sau khi chuẩn hoá vì r+g+b=1.
Các màu sắc độ được sử dụng hiệu quả trong nhiều ứng dụng để phân đoạn
các ảnh màu và tất nhiên là phù hợp cho phân đoạn các vùng da, tách vùng da khỏi
các vùng khác. Phân phối màu trong các màu da của nhiều người khác nhau được
phát hiện ra là chỉ tập trung trong một vùng nhỏ trong không gian màu sắc độ.
Nguyên nhân của điều này là do mặc dù màu da của những người khác nhau biến
đổi trong một phạm vi rất rộng nhưng chúng thay đổi về độ sáng nhiều hơn rất
nhiều so với thay đổi về màu sắc. Nói cách khác, màu da của những người khác
nhau nói chung là tương đồng với nhau và chỉ khác nhau chủ yếu về cường độ. Với
nhận xét này, ta tiếp tục tìm hiểu về các bước tiếp theo xây dựng mô hình màu da
trong không gian sắc độ màu.
Như đã trình bày trong phần tổng quan, các mô hình màu biểu diễn da người
đã được nghiên cứu rất nhiều. Một kết luận rút ra từ các nghiên cứu đó đã khẳng
định rằng phân phối màu da của những người khác nhau tụ lại thành vùng trong
không gian sắc độ màu và một phân phối màu da có thể được biểu diễn bằng mô
hình Gaussian N(m,C) trong đó:
Trung bình: m = E {x} với x = (r,b)
T
Phương sai: C = E {(x-m)(x-m)
T
}
Có thể dẫn ra đây một nghiên cứu của Henry Chang và Ulises Robles để
minh hoạ kết quả trên. Hai ông đã lấy 32500 mẫu da của rất nhiều người chụp trong
17 tấm ảnh màu để xác định phân phối màu da trong không gian sắc độ màu. Các
mẫu được lấy từ những người thuộc các chủng tộc khác nhau: người châu Á, người
da trắng, người châu Phi. Các mẫu da sau đó được lọc nhiễu thông qua bộ lọc trung
bình để giảm tác động của nhiễu. Phân phối màu da trong không gian sắc độ được
minh hoạ trong hình dưới đây.