ĐẠI
HỌC
QUỐC
GIA
THÀNH
PHỐ
HỒ
CHÍ
MINH
TRƯỜNG
ĐẠI
HỌC
KHOA
HỌC
TỰ
NHIÊN
PHẠM
THẾ
BẢO
XÁC
ĐỊNH
KHUÔN
MẶT
NGƯỜI
TRONG
ẢNH
MÀU
BẰNG
LOGIC
MỜØ
Chuyên
ngành:
Khoa
học
máy
tính
Mã
số:
62
48
01
01
LUẬN
ÁN
TIẾN
SĨ
KHOA
HỌC
MÁY
TÍN
H
NGƯỜI
HƯỚNG
DẪN
KHOA
HỌC:
PGS.
TS.
TRAÀN
THÒ
LEÄ
TS.
TRAÀN
NAM
DUÕNG
TP.
HOÀ
CHÍ
MINH
-
2009
LỜI
CAM
ĐOAN
Tôi
xin
cam
đoan
công
trình
này,
ngoài
trích
dẫn
đã
được
nêu
rõ
trong luận văn, kết quả hoàn toàn là của chúng tôi, không trùng lắp
với các công trình khác.
Tôi xin hoàn toàn chòu trách nhiệm về lời cam đoan của mình.
Người thực hiện
Phạm Thế Bảo
LỜI
CẢM
ƠN
Để
hoàn
thành
luận
án
này
chúng
tôi
đã
nhận
được
rất
nhiều
sự
giúp
đỡ
của
gia
đình,
thầy
cô,
bạn
bè,
đồng
nghiệp
và
cả
các
bạn
sinh
viên
của
chúng
tôi.
Gia
đình
đã
giúp
đỡ
động
viên
tôi
những
lúc
khó
khăn,
tạo
điều
kiện
cho
tôi
nghiên
cứu,
hỗ
trợ
cho
tôi
yên
tâm
làm
việc
và
đăng
bài
báo,
và
hai
cô
bé
nhỏ
của
tôi
đã
cho
tôi
nhiều
niềm
vui,
vợ
tôi
đã
cùng
tôi
vượt
qua
nhiều
khó
khăn.
Q
thầy
cô
trong
trường
Đại
học
Khoa
học
Tự
nhiên
và
trường
ngoài
đã
có
rất
nhiều
hướng dẫn, truyền đạt kiến thức cho tôi.
Tôi chân thành cảm ơn PGS.TS Trần Thò Lệ, giáo viên hướng dẫn trực
tiếp
cho
tôi,
cô
đã
giúp
đỡ
tôi
rất
nhiều
về
kiến
thức,
phong
cách
làm
việc,
tinh
thần
làm
việc.
Và
đặc
biệt,
khi
tôi
gặp
bất
cứ
khó
khăn
nào
đều có được sự giúp đỡ tận tình của cô.
TS.
Trần
Nam
Dũng,
vừa
là
người
thầy
vừa
là
người
bạn
hỗ
trợ
nhiều
về mặt tinh thần.
PGS.TS.
Dương
Anh
Đức,
người
thầy
của
tôi
từ
khi
học
đại
học
cho
đến
nay.
Thầy
đã
sửa
từng
lỗi
trong
những
ngày
đầu
tiên
viết
đề
cương
nghiên
cứu,
cho
chúng
tôi
nhiều
ý
kiến
quý
báu
trong
nghiên
cứu và hoàn thiện luận án này.
PGS.TS. Lê Hoài Bắc, người thầy đã hỗ trợ giúp đỡ chúng tôi những ý
kiến
chuyên
môn
cùng
những
lời
khuyên
hữu
ích
cho
nghiên
cứu
của
chúng tôi để hoàn chỉnh luận án này.
PGS.TS.
Trần
Đan Thư,
TS.
Nguyễn
Đình
Thúc,
TS.
Vũ
Thanh
Nguyên
đã đóng góp rất nhiều ý kiến để chúng tôi hoàn thiện luận văn này.
TS.
Hoàng
Lê
Minh,
người
dẫn
dắt
tôi
những
bước
chập
chững
đầu
tiên trong nghiên cứu khoa học.
GS.
Jin
Young
Kim
đại
học
quốc
gia
Chonnam,
Hàn
Quốc,
người
đã
có một thời gian giúp tôi giải quyết một số ý tưởng của mình.
Các
bạn
đồng
nghiệp
trong
bộ
môn
như
Nguyễn
Hiền
Lương,
Võ
Đức
Cẩm
Hải,
Nguyễn
Thò
Thanh
Nhàn,
…,
giúp
đỡ
tôi
khi
cần
thiết.
Bạn
bè của tôi như
Đào Minh Sơn, Lê Đình Duy, Nguyễn Thanh Sơn, Trần
Đan
Thu,
Huỳnh
Trung
Hiếu,
…,
cho
tôi
nhiều
ý
kiến
quý
báu
cũng
như
giúp
tôi
có
được
những
tài
liệu
cần
thiết
trong
quá
trình
nghiên
cứu
của
mình.
Các
bạn
sinh
viên
đã
giúp
tôi
tìm
kiếm,
đóng
góp,
chọn
lọc,
và
xây
dựng
cơ
sở
dữ
liệu
ảnh
của
tôi,
mà
nhiều
nhất
là
khóa 2000 và 2001. Đặc biệt tôi cảm ơn các bạn Nguyễn Thành Nhựt,
Cao
Minh
Thònh,
Trần
Anh
Tuấn
và
Phan
Phúc
Doãn
hỗ
trợ
nhiều
cho
tôi khi cài đặt và chuyển thể một số ý tưởng ban đầu của tôi.
Mặc
dù
chúng
tôi
đã
cố
gắng
hoàn
thành
luận
văn
trong
phạm
vi
và
khả
năng
cho
phép,
nhưng
chắc
chắn
sẽ
không
tránh
khỏi
những
thiếu
sót,
rất
mong
sự
thông
cảm
và
tận
tình
đóng
góp
của
quý
Thầy
Cô và bạn bè đồng nghiệp.
Người thực hiện
Phạm Thế Bảo
LỜI
NÓI
ĐẦU
Ngày nay, ngành Khoa học máy tính đã và đang đóng góp rất nhiều cho
xã
hội
loài
người,
từ
ứng
dụng
trong
thường
ngày
cho
đến
các
ứng
dụng
chuyên sâu trong xã hội, an ninh, quân sự, … Đây chính là một trong những
động lực chính để số lượng đề tài, công trình khoa học ngày càng được đầu
tư nghiên cứu.
Bài toán xác đònh khuôn mặt người trong ảnh là một bài toán được rất
nhiều người quan tâm và nghiên cứu, bởi vì tầm ảnh hưởng của bài toán này
khá rộng, từ hệ thống giao tiếp người và máy, camera quan sát, theo dõi, lưu
trữ ảnh, biểu lộ cảm xúc, nhận dạng con người, …, cho đến công nghệ robot.
Bài toán này đem lại nhiều ứng dụng tiện ích cho loài người.
Việc nghiên cứu một phương pháp xác đònh khuôn mặt người trong ảnh
mới là mục tiêu của đề tài này.
Luận văn này gồm các phần sau:
Chương
1.
Chúng tôi sẽ trình bày một số phương pháp chính xác đònh
khuôn mặt người và mô hình màu da người trên thế giới. Chúng tôi
đã cố gắng phân loại, để những người đi sau sẽ có một cái nhìn tổng
quan, nắm được các phương pháp và từ đây sẽ có hướng đi mới cho
mình, cũng như các khó khăn, thách thức để giải quyết bài toán, và
mục tiêu cần phải đạt được của đề tài.
Chương
2.
Chương này trình bày một cách tổng quan cơ sở toán học
của
logic
mờ,
để
làm
nền
tảng
xây
dựng
hệ
thống
xác
đònh
khuôn
mặt người trong chương 3.
Chương
3.
Chúng tôi xây dựng một điều kiện để tìm ứng viên khuôn
mặt. Đồng thời xây dựng hai loại quyết đònh mờ dựa trên những tính
chất về hình dáng bên ngoài và tính chất quan hệ bên trong của các
thành
phần
khuôn
mặt
để
xem
xét
ứng
viên
có
phải
là
khuôn
mặt
người thật sự hay không.
Chương
4.
Đây là phần trình bày kết quả nghiên cứu của đề tài và
các đánh giá phương pháp xác đònh.
Phụ
lục
A.
Không gian màu: phần này trình bày một số không gian
màu thông dụïng và nguyên lý xây dựng không gian màu.
Phụ
lục
B.
Phương pháp Fast Marching: phần này giới thiệu sơ lược
phương pháp Fast Marching. Chúng tôi trình bày từ phương trình toán
cho đến cài đặt cụ thể, cũng như cấu trúc dữ liệu thích hợp.
Mục
lục
Chương 1. Bài toán xác đònh khuôn mặt người 1
1. Giới thiệu
1
2. Khó khăn và thách thức của bài toán
3
3. Mô hình màu da người
4
4. Phương pháp xác đònh khuôn mặt người
9
5. Mục tiêu của đề tài
27
5.1 Xây dựng ngưỡng phân đoạn
27
5.2 Dùng logic mờ để xác đònh khuôn mặt
28
5.3 Điều kiện của bài toán
29
Chương 2. Logic mờ và cơ sở toán học 30
1. Khái niệm về logic mờ
30
2. Tập mờ
31
3. Luật mờ Nếu-thì
37
4. Suy diễn mờ
38
5. Giải mờ
40
6. Logic mờ và lý thuyết xác suất
42
Chương 3. Xây dựng mô hình xác đònh khuôn mặt người bằng logic mờ 53
1. Xây dựng và phân tích mô hình da người
54
1.1. Xác đònh vùng ảnh ứng viên dựa trên mô hình màu da
54
1.2. Phân tích quan các hệ của giá trò trung bình
58
1.3. Nhiễu
62
2. Tiền xử lý
66
2.1. Phân đoạn
66
2.2. Lọc nhiễu
67
2.3. Tìm biên
69
3. Xây dựng logic mờ
dựa trên quan hệ bên ngoài
71
3.1. Kích thước của vùng da
72
3.2. Khi các khuôn mặt bò dính nhiễu
72
3.3. Thông số chu vi
73
3.4. Thông số diện tích
74
3.5. Độ tròn của khuôn mặt
75
3.6. Xây dựng luật mờ
75
4. Xây dựng logic mờ dựa trên quan hệ giữa mắt và miệng
77
4.1. Tiêu chuẩn một điểm là các thành phần mắt miệng trong một
vùng da
77
4.2. Xác đònh thành phần mắt-miệng
78
4.3. Xây dựng luật mờ
89
5. Tách các khuôn mặt dính
89
5.1. Xác đònh bán kính loang
90
5.2. Thuật toán xác đònh số nhóm và tách dính
90
5.3. Xác đònh mức độ loang
90
Chương 4. Cài đặt, kết quả, và kết luận 95
1. Cài đặt
95
2. Kết quả
99
3. Kết luận và hướng phát triển 107
TÀI LIỆU THAM KHẢO i
DANH SÁCH CÁC CÔNG TRÌNH
x
Phụ lục A.
Không gian màu xii
Phụ lục B.
Phương pháp Fast Marching xviii
CÁC
KÝ
TỰ
VIẾT
TẮT
SPM Skin Probability Map
HMM Hidden Markov Model
OM Self-Organizing Map
pdf probability density function
GMM Gaussian Mixture Model
EM Expectation Maximization
SVM Support Vector Machine
M-L Maximum-Likelihood
PCA Principal Component Analysis
LLE Locally Linear Embedding
LE Lipschitz Embedding
DoG a Difference of Gauss
PDM Point Distribution Model
ASM Active Shape Model
MLP Multilayer Perceptron Network
FA Factor Analysis
MFA Mixture of Factor Analyzer
FLD Fisher’s Linear Discriminant
SOM Kohonen’s Self Organizing Map
PDBNN Probabilistic Decision-based Neural Network
SNoW Sparse Network of Winnows
KLT Karhunen Lòeve Tranform
HOS Higher Order Statistic
MRF Markov Random Field
MIP Most Informative Pixel
1
Chương
1.
Bài
toán
xác
đònh
khuôn
mặt
người
1.
Giới
thiệu
Hơn một thập kỷ qua có nhiều công trình nghiên cứu về bài toán xác đònh
khuôn mặt người từ ảnh đen trắng, xám đến ảnh màu như ngày hôm nay. Từ bài
toán đơn giản, mỗi ảnh chỉ có một khuôn mặt người nhìn thẳng vào thiết bò thu
hình và tư thế đầu thẳng đứng trong ảnh đen trắng. Đến bài toán cho ảnh màu,
có nhiều khuôn mặt trong cùng một ảnh, có nhiều tư thế thay đổi trong ảnh ngày
nay. Không những vậy, còn mở rộng cả phạm vi từ môi trường xung quanh khá
đơn giản (trong phòng thí nghiệm) cho đến môi trường xung quanh rất phức tạp
(như trong tự nhiên) nhằm đáp ứng nhu cầu thật sự và nhiều của con người.
Bài toán xác đònh khuôn mặt người hay bài toán phát hiện khuôn mặt người
(Face Detection) là bài toán dùng kỹ thuật máy tính để xác đònh các vò trí và các
kích thước của các khuôn mặt người trong ảnh kỹ thuật số [69], đầu vào là một
ảnh có thể có hay không có khuôn mặt người, đầu ra là những vò trí nào được
xác đònh có khuôn mặt người sẽ được đóng khung hình chữ nhật trong ảnh.
Bài toán xác đònh khuôn mặt người được quy về hai bài toán cơ bản: Bài toán
xác
đònh
vùng
chứa
khuôn
mặt
và
Bài
toán
phân
lớp
vùng
ảnh.
Bài
toán
xác
đònh vùng chứa khuôn mặt lại được quy về bài toán xác đònh điểm thuộc vùng
DFFS Distance From Face Space
KFD Kernel Fisher Discriminant
LDA Linear Discriminant Analysis
BDF Block Difference Feature
MRC Maximal Rejection Classifier
EBM Edge-like Blob Map
NEFCAR Neuro-Fuzzy Classifier
KSVC Kernel Support Vector Classifier
DS Dempster-Shafer
chứa khuôn mặt và cơ chế loang vùng và bài toán tìm chu tuyến của vùng.
Đây là bài toán được các nhà khoa học nghiên cứu nhiều từ nửa cuối thế kỷ
hai mươi vì bài toán này có nhiều ứng thực tế như:
•
Hệ thống tương tác giữa người và máy: giúp những người khiếm khuyết có
thể trao đổi. Những người bò bại liệt thông qua một số ký hiệu nháy mắt có
thể biểu lộ những gì họ muốn, …. Phân tích cảm xúc trên khuôn mặt.
2
•
Hệ thống quan sát, theo dõi và bảo vệ. Các hệ thống camera sẽ xác đònh
đâu là con người và theo dõi con người đó xem họ có vi phạm gì không, ví
dụ xâm phạm khu vực không được vào, ….
•
Hiện nay có tình trạng người dùng bò mất thẻ ATM hay mất mã số PIN và
mất tiền trong tài khoản, hoặc chủ thẻ rút tiền nhưng lại báo cho ngân hàng
là mất thẻ và mất tiền. Các ngân hàng có nhu cầu khi có giao dòch sẽ kiểm
tra và lưu trữ khuôn mặt người rút tiền để sau đó đối chứng và xử lý.
•
Tìm kiếm và tổ chức dữ liệu liên quan đến con người thông qua khuôn mặt
người trên dữ liệu lưu trữ thật lớn như: internet, dữ liệu truyền hình, …. Ví
dụ: tìm các đoạn video có tổng thống Bush phát biểu, tìm các phim có diễn
viên Lý Liên Kiệt đóng, tìm các trận bóng đá có Ronaldo thi đấu, …. Ứng
dụng trong video phone. Phân loại và lưu trữ hình ảnh trong điện thoại di
động dựa trên khuôn mặt của từng cá thể, giúp người sử dụng dễ dàng truy
tìm khi cần thiết.
•
Kiểm tra trạng thái người lái xe có ngủ gật, mất tập trung hay không và hỗ
trợ thông báo khi cần thiết. Trong lãnh vực thiết kế điều khiển robot.
•
Các hãng máy chụp hình ứng dụng bài toán xác đònh khuôn mặt người vào
máy chụp hình để cho kết quả hình ảnh đẹp hơn, nhất là khuôn mặt người.
•
Nhận
dạng
người
tội
phạm
giúp
cơ
quan
an
ninh
quản
lý
tốt
con
người.
Nhận dạng trong môi trường bình thường cũng như trong bóng tối (sử dụng
camera
hồng
ngoại).
Thẻ
căn
cước,
chứng
minh
nhân
dân
(Face
Identification).
An
ninh
sân
bay,
xuất
nhập
cảnh
(hiện
nay
cơ
quan
xuất
nhập cảnh Mỹ đã áp dụng).
•
Cho phép nhân viên được ra vào nơi cần thiết, hay đăng nhập máy tính cá
nhân của mình mà không cần nhớ tên đăng nhập cũng như mật khẩu mà chỉ
cần xác thực thông qua khuôn mặt.
3
•
Tương lai sẽ phát triển thẻ thông minh có tích hợp sẵn đặc trưng của người
dùng trên đó, khi sử dụng sẽ được yêu cầu xác thực dựa trên khuôn mặt.
Mặc
dù đã
có nhiều kết quả khả
quan
nhưng
đây
là bài
toán phức
tạp nên
vẫn còn khó khăn và là thách thức cho những người nghiên cứu kế tiếp.
2.
Khó
khăn
và
thách
thức
của
bài
toán
Việc xác đònh khuôn mặt người có những khó khăn và thách thức, hình 1.1,
nhất đònh như sau:
•
Hướng của khuôn mặt đối với máy ảnh: nhìn thẳng, nhìn nghiêng hay nhìn
từ trên xuống. Cùng trong một ảnh có thể có nhiều khuôn mặt ở những tư
thế khác nhau. Trục toạ độ của máy ảnh so với ảnh.
•
Xuất hiện chi tiết không phải là đặc trưng
riêng của khuôn mặt: râu quai
nón, mắt kính, …. Mặt người bò che khuất bởi các đối tượng khác trong ảnh.
Các
nét
mặt
khác
nhau
trên
khuôn
mặt,
như:
vui,
buồn,
ngạc
nhiên,
….
Không xuất hiện thành phần khuôn mặt.
•
Điều kiện ảnh, đặc biệt là về độ sáng và chất lượng ảnh, chất lượng thiết bò
thu
hình.
Kích
thước
khác
nhau
của
các
khuôn
mặt
người
và
đặc
biệt
là
trong cùng một ảnh. Nhiều khuôn mặt có vùng da dính lẫn nhau.
•
Màu sắc của môi trường xung quanh, hay màu sắc quần áo của người được
chụp lấy ảnh cũng tác động đến màu sắc của ảnh.
Các khó khăn trên chứng tỏ rằng bất cứ phương pháp giải quyết (thuật toán)
bài toán xác đònh khuôn mặt người sẽ không thể tránh khỏi một số khiếm khuyết
nhất đònh. Để đánh giá và so sánh các phương pháp xác đònh mặt người, người ta
thường dựa trên các tiêu chí sau:
4
•
Tỷ lệ xác đònh chính xác là tỷ lệ số lượng các khuôn mặt người được xác
đònh đúng từ hệ thống khi sử dụng một phương pháp để xây dựng so với số
lượng khuôn mặt người thật sự có trong các ảnh.
•
Số lượng xác đònh nhầm là số lượng vùng trong ảnh không phải là khuôn
mặt người mà hệ thống xác đònh nhầm là khuôn mặt người.
Với những khó khăn đã nêu ra, ta thấy rằng việc giải quyết bài toán xác đònh
khuôn mặt người không đơn giản. Hiện nay có nhiều phương pháp giải quyết bài
toán trên. Tất cả các nghiên cứu bài toán xác đònh khuôn mặt người đều sử dụng
ảnh xám hay ảnh màu làm dữ liệu đầu vào. nh xám cho phép giảm thiểu tác
động của ánh sáng đến đối tượng, nhưng không gian tìm kiếm lớn – trên tòan bộ
ảnh – làm thời gian xử lý cao và sẽ gặp vấn đề chọn lựa kích thước cửa sổ để dò
tìm các khuôn mặt người. Với ảnh màu, các phương pháp nghiên cứu hiện nay
dựa
trên
các
đặc
trưng
màu
da
người
để
tìm
ứng
viên
vì
thế
không
giam
tìm
kiếm sẽ thu hẹp đáng kể, điều này dẫn đến thời gian xử lý sẽ giảm rất nhiều và
kích thước các ứng viên có sẵn nên không gặp vấn đề chọn lựa kích thước cửa sổ,
nhưng nếu chọn ảnh màu để xử lý thì sẽ gặp tác động của ánh sáng hoặc môi
trường xung quanh tác động đến màu sắc của các đối tượng. Vì vậy, trước khi
trình bày tổng quan về các phương pháp xác đònh
khuôn mặt người và các kết
quả nghiên cứu của các nhà khoa học trên lãnh vực này, chúng tôi trình bày một
số khái niệm cơ bản về các mô hình phân bố màu da người.
3.
Mô
hình
màu
da
người
Mục
đích
chính
của
bài
toán
xác
đònh
màu
da
người
là
xây
dựng
luật
để
quyết đònh điểm ảnh nào có màu là da người và ngược lại. Thông thường để giải
quyết được vấn đề trên, chúng ta phải xây dựng một độ đo để quyết định xem
một điểm ảnh có màu phù hợp với mơ hình màu da người hay khơng.
5
(a) (b) (c)
(d) (e)
(f) (g)
Hình
1.1.
Các
khó
khăn
của
việc
xác
đònh
mặt
người:
(a)
hướng
mặt
nghiêng;
(b)
mắt
kính
đen
và
nón;
(c)
ảnh
bò
chói
bởi
ánh
đèn;
(d)
máy
ảnh
đặt
phía
trên
và
sau
lưng
người
bò
chụp;
(e)
vùng
da
các
khuôn
mặt
dính
nhau;
(f)
màu
ở
môi
trường
xung
quanh
gần
với
màu
da
người;
(g)
chất
lượng
ảnh
kém.
6
Độ
đo
đơn
giản
chính
là
điều
kiện
biên
để
kiểm
tra
một
điểm
ảnh
có
có
thể
là
da
người
hay
không
[27],
[49],
[68]
như
công
thức
1.1.
Với
R,
G,
B
là
ba
kênh
màu
trong
không
gian
màu
RGB
(xem
phụ
lục
A).
Có
nhiều
nghiên
cứu
theo
hướng
này,
cho
nhiều
kết
quả
khả
quan
như
công
thức
1.2
hay
1.3;
v
ới Y, Cb, Cr
là ba giá trị trong khơng gian màu YcbCr
(xem
phụ
lục
A).
Gần
đây
Filipe
Tomaz
[18]
và
các
cộng
sự
nghiên
cứu
cho
điều
kiện
tốt
hơn
công
thức
1.1,
công
thức
1.2.
Tuy
nhiên,
điều
kiện
biên
không
hoàn
toàn
chính
xác,
mà
còn
phụ
thuộc
rất
nhiều
vào
thiết
bò,
điều
kiện
môi
trường
như:
ánh
sáng,
khung
cảnh
xung
quanh,
người
được
lấy
mẫu
thuộc
chủng
tộc
gì,
quần
áo
đang
mặc,
….
Nếu
muốn
độ
chính
xác
cao
thì
phải
càng
nhiều
điều
kiện,
nếu
càng
nhiều
điều
kiện
thì
càng
phức
tạp
khi
tính
toán,
cũng
như
dữ
liệu
để
tìm
điều
kiện
phải
càng
nhiều
càng
tốt
nên
không
gian
lưu
trữ
sẽ
tăng
nhiều.
R
>
95
và
G
>
40
và
B>20
và
max{R,G,B}-min{R,G,B}>15
và
R-G
>
15
và
R>G
và
R>B
(B>160
và
R<180
và
G<180)
hay
(G>160
và
R<180
và
B<180)
hay
(B<100
và
R<100
và
G<100)
hay
(G>200)
hay
(R+G>400)
hay
(G>150
và
B<90)
hay
(B/(R+G+B)>.40)
hay
(G/(R+G+B)>.40)
hay
(R<102
và
G>100
và
B>110
và
G<140
và
B<160)
Y
>
4
5
&
&Y<
2
5
2
C
b
>
-
6
0
&&
C
b
<
1
0
.
3
C
r>
1
0
&&
C
r<
6
0
(1.1)
(1.2)
(1.3)
Trong
nghiên
cứu
các
mô
hình
màu
da
người,
các
chuyên
gia
đưa
ra
ba
loại
mô
hình
cơ
bản:
mô
hình
phân
bố
màu
da
không
tham
số,
mô
hình
phân
bố
màu
da
có
tham
số
và
mô
hình
hỗn
hợp.
Đối
với
mô
hình
phân
bố
màu
da
không
tham
số,
ý
tưởng
chính
là
ước
lượng
phân
bố
màu
da
từ
dữ
liệu
thu
thập
được.
Kết
quả
đôi
khi
xem
như
xây
dựng
ánh
�
�
����
�
����
+
�
�
¬
����
�
(¬
����
)
(1.5)
����
[
�
]
�
¬
����
�
=
�
�
¬
����
�
(¬
����
)
(1.6)
�
�
¬
����
>
�
�
=
�
1
−�
(
����
)
7
xạ
xác
suất
màu
da
(Skin
Probability
Map
-
SPM)
[35],
[36],
[68].
Với
mô
hình
này,
có
thể
sử
dụng
dạng
bảng
tra
cứu
đã
được
chuẩn
hóa
[37]
như
công
thức
1.4,
�
����
�
=
����
(1.4)
với
skin[c]
là
biểu
đồ
của
từng
kênh
màu
của
không
gian
màu
cần
xem
xét,
tương
ứng
vector
màu
c
và
Norm
là
các
giá
trò
được
chuẩn
hóa
[41];
phân
loại
Bayes
[47]
dựa
trên
xác
suất
điều
kiện
P(skin|c)
theo
luật
Bayes
(công
thức
1.5)
từ
giá
trò
P
skin
(c)
đã
có
trước
[14],
[37],
[41].
Hay
còn
ở
dạng
khác
như
công
thức
1.6,
hoặc
công
thức
1.7.
�
����
�
=
�
�
����
�
(
����
)
�
����
�
�
�
����
�
(
����
)
�
�
����
�
(
����
)
(1.7)
K
sẽ
được
chọn
để
phù
hợp
với
θ
;
mô
hình
ẩn
(Hidden
Markov
Model
–
HMM)
được
Leonid
[37]
sử
dụng
để
điều
chỉnh
các
tham
số
qua
quá
trình
học;
hay
ánh
xạ
tự
tổ
chức
(Self-Organizing
Map
-
SOM)
do
Kohonen
đề
xuất
vào
thập
niên
80,
phương
pháp
SOM
dùng
ít
dữ
liệu
nhưng
vẫn
rất
hiệu
quả
[68].
Mô
hình
phân
bố
màu
da
có
tham
số
được
xây
dựng
để
khắc
phục
nhược
điểm
về
không
gian
lưu
trữ
lớn
và
hình
thái
của
dữ
liệu
của
mô
hình
phân
bố
màu
da
không
có
tham
số
[18],
[26].
Mô
hình
Gauss
với
hàm
mật
độ
xác
suất
(probability
density
function
–
pdf)
được
dùng
để
mô
hình
hóa
phân
bố
màu
da
người
dựa
trên
giả
thiết
phân
bố
màu
da
người
gần
giống
phân
bố
Gauss,
công
thức
1.8
[11],
[35],
[47],
[68].
Với
c
là
vector
màu,
µ
s
và
∑
s
là
tham
số
phân
bố.
Các
tham
số
được
ước
lượng
từ
dữ
liệu
huấn
luyện
bằng
công
thức
1.9,
để
xác
đònh
màu
c
có
phải
là
màu
da
người
hay
không
dựa
trên
ma
trận
hiệp
phương
sai,
�
=1
�
�
�
�
����
=
1
2
�
∑
�
1/2
�
−
2
�
�
�
=
1
�
=1
�
�
∑
�
=
�
�
−1
�
(1.10)
�
−
�
�
�
�
=1
�
�
�
�
8
công
thức
1.10.
Để
tăng
độ
chính
xác,
mô
hình
Gauss
hỗn
hợp
(Gaussian
Mixture
Model
-
GMM)
được
dùng,
mô
hình
này
được
tổng
quát
hóa
từ
mô
hình
Gauss
như
công
thức
1.11,
trong
đó
k
là
số
lượng
các
thành
phần
hỗn
hợp,
π
i
là
các
tham
số
hỗn
hợp
được
chuẩn
hóa
�
= 1
và
P
i
(c|skin)
là
các
pdf,
với
mỗi
mô
hình
Gauss
có
một
giá
trò
trung
bình
và
ma
trận
hiệp
phương
sai
của
chính
nó,
thông
thường
k
có
giá
trò
từ
2
cho
đến
16
[68],
như
Phung
[52],
[63]
và
Qiang
Zhu
[53].
1
�
−�
�
�
−1
�
−�
�
(1.8)
�
1
�
�
=1
�
�
−
�
�
�
�
−
�
�
�
(1.9)
λ
�
�
=
�
−
�
�
−1
�
�
����
=
�
�
����
(1.11)
Từ
nhận
xét
hình
dáng
điểm
ảnh
màu
da
người
có
hình
dạng
gần
như
một
hình
ellipse
và
thật
sự
không
thể
dùng
duy
nhất
một
mô
hình
Gauss
để
xấp
xỉ
mô
hình
màu
da
người,
Lee
và
Yoo
đã
đề
xuất
mô
hình
bao
dạng
ellipse
(Elliptic
Boundary
Model),
mô
hình
này
nhanh
và
đơn
giản
như
mô
hình
Gauss
đơn
giản
∅ =
1
�
=
1
�
=1
�
�
�
=1
�
�
.
�
�
Λ
=
�
�
=1
�
�
.
�
=1
�
�
và
GMM,
đồng
thời
lại
cho
kết
quả
xác
đònh
cao
hơn
trên
cùng
cơ
sở
dữ
liệu
của
Compaq
[68].
Mô
hình
bao
dạng
ellipse
được
đònh
nghóa
như
công
thức
1.12.
Φ
�
=
�
− ∅
�
Λ
−1
�
− ∅
(1.12)
Tiến
trình
huấn
luyện
cho
hệ
thống
gồm
hai
bước:
đầu
tiên,
loại
bỏ
các
mẫu
huấn
luyện
có
tần
số
thấp
để
loại
bỏ
bớt
nhiễu
và
dữ
liệu
không
phù
hợp.
Sau
đó
các
tham
số
của
mô
hình
(
φ
và
Λ
)
được
tính
theo
công
thức
1.13.
�
�
�
�
�
=
1
�
�
�
�
−
�
�
�
−
�
�
(1.13)
9
Với
n
là
tổng
số
các
vector
màu
riêng
biệt
ci
của
tập
điểm
ảnh
có
màu
da
người dùng để huấn luyện và fi là số lượng các mẫu có màu da người dùng huấn
luyện cùng màu với vector màu ci, N chính là tổng số mẫu dùng để huấn luyện.
Đối
với
mô
hình
hỗn
hợp,
các
chuyên
gia
kết
hợp
nhiều
phương
pháp
hay
công cụ khác nhau để giải quyết. Theo [68], Kakumanu kết hợp hai mạng nơron
có hai lớp ẩn, Mohamed Hammami dùng phương pháp khai khoáng dữ liệu tìm
luật rồi xây dựng cây quyết đònh để phân loại, Huicheng Zheng sử dụng mô hình
entropy cực đại dựa trên phân bố ở biên
kết hợp HMM. Moon Hwan Kim, Jin
Bae Park và Young Hoon Joo xây dựng bộ gom nhóm mờ và điều khiển mờ xác
đònh vùng màu da người dựa trên logic mờ [44]. M. Ben Hmid [38] sử dụng bộ
phân
loại
mờ
để
phân
loại
điểm
ảnh
nào
là
da
người
và
không
phải
da
người
nhằm hoàn chỉnh các ứng sau giai đoạn phân đoạn thô ban đầu. Nhóm tác giả
Chia-Feng Juang [30] xây dựng mạng nơron mờ có sáu tầng để phân đoạn màu
da người. Wong [62] dùng cây tứ phân để phân tích màu da và xây dựng mô hình
màu da.
Trong thực tế, phân bố màu da người có thể thay đổi do tác động điều kiện
ánh sáng, camera, môi trường, …. Nhiều tác giả đã xây dựng mô hình màu da có
thể
điều
chỉnh
tự
động
bằng
cách
cập
nhật
liên
tục
không
chỉ
trong
quá
trình
huấn luyện mà cả trong quá trình thực hiện – học tăng cường. Do phải cập nhật
liên
tục
nên
các
mô
hình
màu
da
phải
có
tham
số
đơn
giản,
xử
lý
nhanh
và
không gian lưu trữ ít.
4.
Phương
pháp
xác
đònh
khuôn
mặt
người
Có nhiều phương pháp xác đònh khuôn mặt người, từ ảnh xám đến ảnh màu.
Cũng có nhiều cách phân loại các phương pháp ([42]), song vẫn chưa có một sự
phân
loại
nào
thật
chính
xác,
vì
các
phương
pháp
không
hoàn
toàn
riêng
biệt.
10
Chúng tôi sẽ trình bày một cách tổng quát nhất những hướng giải quyết
chính,
không trình bày những phương pháp kết hợp gần đây.
Dựa vào đặc điểm của mỗi phương pháp, chúng tôi sẽ trình bày các phương
pháp theo hai hướng tiếp cận: hướng tiếp cận dựa trên tri thức dưới dạng luật và
hướng tiếp cận dựa trên học dữ liệu mẫu.
•
Hướng
tiếp
cận
dựa
trên
tri
thức
dưới
dạng
luật
: trong hướng tiếp cận này
các
chuyên
gia
sẽ
mã
hóa
những
hiểu
biết
của
con
người
về
khuôn
mặt
thành
luật.
Các
luật
sẽ
phụ
thuộc
rất
lớn
vào
tri
thức
của
những
tác
giả
nghiên cứu về bài toán xác đònh khuôn mặt người. Đây là hướng tiếp cận
dạng
top-down.
Trong
hướng
này,
có
những
đặc
trưng
về
khuôn
mặt
mà
chúng ta có sẵn từ nghiên cứu y khoa hay nhận xét trực quan của con người,
như một khuôn mặt thường có hai mắt đối xứng nhau qua trục thẳng đứng ở
giữa khuôn mặt, có một mũi, một miệng, chúng tôi gọi là những tri thức có
sẵn.
Và
một
loại
đặc
trưng
khác
đó
là
những
đặc
trưng
do
các
tác
giả
nghiên cứu đề ra dựa trên các phân tích ảnh.
•
Hướng
tiếp
cận
dựa
trên
học
dữ
liệu
mẫu
:
có
những
hiểu
biết
của
con
người không thể mã hóa thành luật rõ ràng hay có thể mã hóa nhưng không
chính xác vì thế các chuyên gia xây dựng tập mẫu để huấn luyện hệ thống
biết chỗ nào có khuôn mặt người trong ảnh như cách một con người có thể
nhận biết thế giới xung quanh.
Khi tiếp cận theo hướng thứ nhất chúng ta sẽ gặp một vấn đề khá phức tạp là
làm
sao chuyển
từ
tri thức
con người sang luật hiệu quả.
Nếu
luật quá
chi
tiết
(chặt
chẽ)
dẫn
đến
có
thể
xác
đònh
thiếu
các
khuôn
mặt
trong
ảnh,
vì
những
khuôn mặt này không thể thỏa mãn tất cả luật đưa ra. Nhưng nếu luật tổng quát
quá thì có thể chúng ta sẽ xác đònh sai một vùng không phải là khuôn mặt mà lại
xác
đònh
là
khuôn
mặt.
Và
cũng
khó
khăn
khi
mở
rộng
từ
bài
toán
xác
đònh