Tải bản đầy đủ (.doc) (65 trang)

dò tìm, phát hiện khuôn mặt trong ảnh số

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.15 MB, 65 trang )

TÓM TẮT KHÓA LUẬN
Trong những năm gần đây, công nghệ thông tin - đặc biệt là công nghệ phần
cứng phát triển vượt bậc mở đường cho việc hiện thực hoá mong muốn đưa những bài
toán trong lĩnh vực trí tuệ nhân tạo đi vào ứng dụng trong thực tiễn.
Dũ tìm khuôn mặt trong ảnh và video số là một bài toán như vậy. Giai đoạn trước
những năm 90 của thế kỷ trước bài toán này đã được nghiên cứu và phát triển nhưng
phần lớn dưới dạng học thuật mà chưa có nhiều ứng dụng thực tiễn do hạn chế về mặt
công nghệ. Từ giữa những năm 90 đến nay những hạn chế đó dần được khắc phục,
nhiều phương pháp dũ tỡm đối tượng đã được tiến hành thực nghiệm và thu được
những kết quả khả quan.
Đề tài “Dề TèM, PHÁT HIỆN KHUÔN MẶT TRONG ẢNH SỐ” lựa chọn
tìm hiểu về vấn đề dũ tỡm khuôn mặt trong ảnh số vì đây là bài toán ngày càng có
nhiều ứng dụng thiết thực trong cuộc sống. Hiện nay có khoảng hơn 150 phương pháp
khác nhau để giải quyết bài toán này dựa trên hai hướng căn bản là dũ tỡm dựa trên
ảnh và dũ tỡm dựa trên đặc trưng hình học. Đa số những phương pháp đã có gặp hạn
chế trong việc ứng dụng để xây dựng một hệ thống dũ tỡm thời gian thực.
Phương pháp dũ tỡm dựa trên thuật toán AdaBoost và các đặc trưng Haar có
những ưu thế nổi bật để có thể xây dựng các hệ thống dũ tỡm trong thời gian thực với
hiệu quả dũ tỡm khá tốt. Do vậy đề tài sẽ chú trọng tìm hiểu phương pháp này và bước
đầu tiến hành xây dựng thử nghiệm chương trình demo.
Đề tài gồm 3 phần chính. Chương 1 trình bày tổng quan về bài toán dũ tỡm
khuôn mặt trong ảnh số và những hướng giải quyết đã được phát triển. Chương 2 tìm
hiểu phương pháp dũ tỡm khuôn mặt nhanh trong ảnh số. Chương 3 bước đầu xây
dựng chương trình dũ tỡm khuôn mặt sử dụng AdaBoost và tổng kết một số kết quả
đạt được.
1
Mục lục
TÓM TẮT KHÓA LUẬN 1
Mục lục 2
Danh sỏch cỏc hỡnh 5
Danh sách các bảng 6


Các từ viết tắt và thuật ngữ 6
Chương 1: TỔNG QUAN VỀ Dề TèM KHUÔN MẶT TRONG ẢNH SỐ 7
1GIỚI THIỆU VỀ XỬ LÝ ẢNH 7
1.1.1 Biểu diễn ảnh số 7
1.1.2Một số khái niệm cơ sở trong xử lý ảnh Một số khái niệm cơ sở trong
xử lý ảnh 8
1.1.3 Các giai đoạn trong xử lý ảnh 9
2BÀI TOÁN Dề TèM KHUÔN MẶT 11
1.2.1Tóm tắt lịch sử 11
1.2.2Những thách thức trong bài toán dũ tỡm khuôn mặt Những thách thức
trong bài toán dò tìm khuôn mặt 12
1.2.3Một số khái niệm cơ sở cần thiết 15
3Dề TèM KHUÔN MẶT DỰA TRÊN ẢNH 16
1.3.1Giới thiệu Giới thiệu 16
1.3.2Eigenface 16
1.3.3Mạng Nơron 18
1.3.4SVM 19
1.3.5Mô hình Markov ẩn 19
4Dề TèM KHUÔN MẶT DỰA TRÊN ĐẶC TRƯNG HÌNH HỌC 19
1.4.1Giới thiệu 19
1.4.2Các phương pháp Top – down 20
1.4.3Các phương pháp Bottom – up 21
5HƯỚNG TIẾP CẬN CỦA KHOÁ LUẬN 21
1.5.1Ý tưởng chung 21
1.5.2Hướng tiếp cận 22
Chương 2:Dề TèM KHUÔN MẶT NHANH BẰNG PHƯƠNG PHÁP
ADABOOST 24
2.1GIỚI THIỆU GIỚI THIỆU 24
2
2.1.1Lựa chọn phương pháp Lựa chọn phương pháp 24

2.1.2Phạm vi của dũ tỡm khuôn mặt thẳng Phạm vi của dò tìm khuôn mặt
thẳng 24
2.1.3Những bước chính để dũ tỡm khuôn mặt 25
2.2CÁC ĐẶC TRƯNG VÀ ẢNH TÍCH PHÂN CÁC ĐẶC TRƯNG VÀ
ẢNH TÍCH PHÂN 26
2.2.1Mô hình dựa trên điểm ảnh Mô hình dựa trên điểm ảnh 26
2.2.2Các đặc trưng Haar-like Các đặc trưng Haar-like 27
2.2.3Ảnh tích phân Ảnh tích phân 31
2.3HỌC VỚI ADABOOST HỌC VỚI ADABOOST 34
2.3.1 Tổng quan về AdaBoost Tổng quan về AdaBoost 34
2.3.2Bộ phân lớp yếu 36
2.3.3Ngưỡng tối ưu 37
2.3.4Thuật toán AdaBoost Thuật toán AdaBoost 38
2.3.4Hoạt động của bộ phân lớp yếu 44
2.3.6 AdaBoost với vấn đề dũ tỡm khuôn mặt 46
2.4SỰ PHÂN LOẠI VÀO CÁC TẦNG 47
2.4.1Hiệu quả của việc phân tầng 47
2.4.2Cải tiến bộ phân lớp 50
2.4.3Huấn luyện các tầng cho bộ phân lớp 50
Chương 3: XÂY DỰNG CHƯƠNG TRÌNH VÀ MỘT SỐ KẾT QUẢ 55
3.1CƠ SỞ DỮ LIỆU CƠ SỞ DỮ LIỆU 55
3.2KẾT QUẢ KẾT QUẢ 56
3.2.1Kết quả học Kết quả học 56
3.2.2Kết quả kiểm tra Kết quả kiểm tra 57
3.3 THỬ NGHIỆM BỘ Dề TèM KHUÔN MẶT 57
3.3.1 Dữ liệu 57
3.3.2Kết quả Kết quả thực nghiệm 58
3.3.3Nhận xét 59
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 60
PHỤ LỤC 1: Cấu trúc chương trình demo 62

PHỤ LỤC 2: Một số mẫu test chương trình demo 63
TÀI LIỆU THAM KHẢO 65
3



4
Danh sỏch cỏc hỡnh
Hình 1.1: Biểu diễn ảnh bằng hàm 7
Hình 1.2: Các bước cơ bản trong xử lý ảnh số 9
Hình 1.3: Các thành phần cơ bản của một hệ xử lý ảnh 11
Hình 1.4: Một số trạng thái biểu cảm của khuôn mặt 13
Hình 3.5: Ảnh trong những điều kiện ánh sáng khác nhau 14
Hình 1.6: Một số dạng khuôn mặt đặc trưng 14
Hình 1.7: Mẫu khuôn mặt với nền ảnh phức tạp 14
Hình 2.1: Mô hình khuôn mặt trước khi biến đổi 26
Hình 2.2: Mô hình ảnh sau khi trích chọn cỏc vựng quan trọng 26
Hình 2.3: Mẫu các đặc trưng hình chữ nhật nằm trong cửa sổ dũ tỡm 28
Hình 2.4: Các dạng đặc trưng Haar-like cơ bản 28
Hình 2.5: Các dạng đặc trưng Haar-like mở rộng 29
Hình 2.6: Hình chữ nhật ở phía trên bên phải cửa sổ 30
Hình 2.7: Minh họa các đặc trưng đường và đặc trưng cạnh được lựa chọn 30
Hình 2.8: Biểu diễn “ảnh tớch phõn” 31
Hình 2.9: Cỏch tính tổng các pixel trong hình chữ nhật D 33
Hình 2.10: Mô hình thuật toán AdaBoost 35
Hình 2.11: Phân phối mẫu cho mỗi đặc trưng và xấp xỉ Gauss tương ứng 38
Hình 2.12: Ngưỡng tối ưu với tỷ lệ phân lớp sai tối thiểu 38
Hình 2.13: Thuật toán AdaBoost 42
Hình 2.14: Minh hoạ thuật toán AdaBoost 44
Hình 2.15: Lược đồ mô tả quá trình dũ tỡm phân tầng 49

Hình 2.16: Cấu trúc phân tầng chi tiết 49
Hình 2.17: Thuật toán huấn luyện bộ dũ tỡm phân tầng 53
5
Từ khóa: AdaBoost, Haar, đặc trưng, khuôn mặt.
Danh sách các bảng
Bảng 1: Các kiểu đặc trưng và số lượng tương ứng 30
Bảng 2: Kết quả trên tập dữ liệu CBCL 58
Bảng 3: Kết quả trên tập dữ liệu CMU 58
Bảng 4: Kết quả trên tập dữ liệu ORL 58
Bảng 5: Kết quả trên tập dữ liệu thu thập từ internet 58
Các từ viết tắt và thuật ngữ
Từ viết tắt Từ (cụm từ) viết đầy đủ
AdaBoost Adaptive Boosting
SVM Support Vector Machine
PCA Principal Components Analysis
6
Chương 1: TỔNG QUAN VỀ Dề TèM KHUÔN MẶT TRONG ẢNH SỐ
1 GIỚI THIỆU VỀ XỬ LÝ ẢNH
1.1.1 Biểu diễn ảnh số
Đối với ảnh đơn giản (ảnh đen trắng) thì ảnh được biểu diễn bằng một hàm
cường độ sáng hai chiều
,
( )
X Y
f
, trong đó
,X Y
là các giá trị toạ độ không gian và hàm
giá trị của
f

tại một điểm
( , )X Y
bất kỳ sẽ tỷ lệ với độ sáng hay mức xám của điểm
ảnh tại điểm này. [2,4]
Hình 1.1: Biểu diễn ảnh bằng hàm
,
( )
X Y
f
Trong mộ số trường hợp hàm ảnh còn được biểu diễn với một trục thứ 3 gọi là
hàm cường độ sáng (với hình 1.1, trục thứ 3 bằng 0).
Một ảnh số là một ảnh
,
( )
X Y
f
được gián đoạn theo không gian và cường độ
sáng. Một ảnh số được xem như một ma trận với hàng và cột biểu diễn một điểm trong
ảnh và giá trị điểm ma trận tương ứng với mức xám tại điểm đú. Cỏc phần tử của một
dãy số như thế được gọi là các điểm ảnh.
Ánh sáng có dạng năng lượng
,
( )
X Y
f
phải khác 0 và hữu hạn:
,
0 ( ) (1.1)
X Y
f

< < ∞
Con người có khả năng nhận các hình ảnh từ ánh sáng phản xạ qua các vật thể.
Cơ sở của
,
( )
X Y
f
được đặc trưng qua hai thành phần:
 Số lượng ánh sáng nguồn rơi trên cảnh vật được nhìn thấy.
 Số lượng ánh sáng nguồn phản xạ từ vật thể ( trong cảnh vật).
Chúng được gọi gần đúng là sự phát sáng và các thành phần phản xạ, và được
biểu diễn tương ứng là
,( )X Yi

,
( )
X Y
r
. Bản chất của
,( )X Yi
được xác định bằng
nguồn sáng và của
,
( )
X Y
r
được xác định bằng các đặc trưng của vật thể. Hàm
,( )X Yi



,
( )
X Y
r
kết hợp với nhau để cho hàm
,
( )
X Y
f

7
* P(X,Y)
Với:
, , ,
,
,
( ) ( ) ( ) (1.2)
( 0 ( ) (1.3)
0 ( ) 1) (1.4)
X Y X Y X Y
X Y
X Y
f i r
i
r
=
< < ∞
< <
Ở đây ta gọi cường độ sáng của một ảnh đen trắng tại tọa độ
,

( )
X Y
là mức xám
( )l
của ảnh tại điểm đó. Từ
(1.2), (1.3), (1.4)
,
l
nằm trong khoảng:
min max
(1.5)L l L≤ ≤
Trong lý thuyết, chỉ cần
min
0L
>

max
L
hữu hạn. Trong thực tế:
min min min
max max max
(1.6)L i r
L i r
=
=
Sử dụng các giá trị chiếu sáng và phản xạ đã được tổng kết qua thực nghiệm hoặc
xem là các giá trị cơ bản
min max
0.005, 100L L≈ ≈
cho xử lý ảnh.

Khoảng
[ ]
min max
,L L
được gọi là thang xám. Ta có thể dịch khoảng này đến
[ ]
0, L
, trong đó
0l =
là đen và
l L=
là trắng trong thang xám. Giá trị tức thời là các
dạng mức xám thay đổi liên tục từ đen đến trắng.
1.1.2Một số khái niệm cơ sở trong xử lý ảnh Một số khái niệm cơ sở trong xử
lý ảnh
 Để có thể xử lý bằng máy tính điện tử thì ảnh cần phải được số hóa. Đó là quá
trình biến đổi ảnh từ tín hiệu liên tục sang tín hiệu rời rạc thông qua việc lấy
mẫu và lượng tử hóa. Trong quá trình này người ta sử dụng khái niệm “pixel”.
Mỗi pixel được đặc trưng bởi một cặp tọa độ
,( )X Y
và màu sắc của nó.[4]
 Ảnh: Là một tập hợp các pixel có cấu trúc, ta có thể coi ảnh là một mảng hai
chiều
( , )n p
I

n
dòng và
p
cột, ảnh sẽ có

n p
×
(pixel). Ta ký hiệu
( , )X Y
I
để
chỉ điểm ảnh có toạ độ
,( )X Y
.
 Mức xám (Gray level): Đó là kết quả của việc mã hóa, cho tương ứng một
cường độ sáng của mỗi điểm ảnh với một giá trị số, có thể là 16, 32, 64 mức.
 Biểu diễn ảnh: Trong biểu diễn ảnh người ta thường sử dụng các phần tử đặc
trưng của ảnh là pixel. Một hàm hai biến chứa các thông tin như một biểu diễn
ảnh. Một số mô hình thường dùng để biểu diễn ảnh là mô hình toán ( biểu diễn
8
ảnh nhờ các hàm cơ sở), mô hình thống kê ( ảnh coi như một phần tử của một
tập hợp đặc trưng bởi kỳ vọng toán, hiệp biến, phướng sai, moment…).[4]
 Tăng cường ảnh: Đây là một bước quan trọng bao gồm các kỹ thuật lọc độ
tương phản, khử nhiễu, nổi màu….
 Biến đổi ảnh: Thao tác chủ yếu trên một tập các ma trận và sử dụng các kỹ
thuật để biến đổi ảnh qua ma trận: Biến đổi Furie, Sin, Cosin, tích Kronecker.
 Phân tích ảnh: Liên quan tới việc xác định các độ đo định lượng của một ảnh để
đưa ra một mô tả đầy đủ về ảnh. Có những kỹ thuật cơ bản để hỗ trợ phân tích
ảnh: Dũ biờn, lọc vi phân, dò theo quy hoạch động, phân vùng ảnh [4]
 Nhận dạng ảnh: Quá trình này liên quan đến các mô tả đối tượng mà người ta
muốn đặc tả nó. Nhận dạng ảnh thường đi sau các quá trình trích chọn các đặc
trưng chủ yếu của đối tượng.[1,4]
1.1.3 Các giai đoạn trong xử lý ảnh
Bài toán xử lý ảnh bao gồm các giai đoạn tổng quát như sau [1,2,4]
Hình 1.2: Các bước cơ bản trong xử lý ảnh số

Bước đầu tiên là thu nhận ảnh, thu ảnh số bằng bộ cảm biến ảnh với khả năng số
hóa tín hiệu của bộ cảm biến. Bộ cảm biến có thể là một Camera truyền hình màu hoặc
đen trắng, nó tạo ra một ảnh đầy đủ trong khoảng từ
1
25
đến
1
30
giây. Ngoài ra ảnh
còn có thể được thu nhận từ vệ tinh hoặc tranh ảnh được quét bằng Scanner, máy ảnh
số.
9
Scanner,
Camera
Cơ sở tri thức
Nhận dạng
và nội suy
Phân đoạn
Tiền xử lý
Biểu diễn
Thu nhận
ảnh
Kết quả
Sau khi nhận được một ảnh số, bước tiếp theo là tiền xử lý ảnh. Mục đích chủ yếu
của giai đoạn tiền xử lý ảnh là nâng cao khả năng để các quá trình tiếp theo đạt kết quả
tốt, như các quá trình khử nhiễu, tăng độ tương phản….
Bước tiếp theo là phân đoạn: Phân đoạn ảnh là tách một ảnh đầu vào thành các
phần hoặc các vật thể. Đây là một trong những giai đoạn khó khăn của xử lý ảnh. Một
mặt thuật toán phân đoạn ảnh thô là quỏ trình nâng cao độ phân giải ảnh. Mặt khác,
các thuật toán yếu hoặc gián đoạn sẽ gây ra sự mất mát.

Đầu ra của quá trình phân đoạn ảnh thường là số liệu pixel chưa lọc, bao gồm cả
các liên kết của vùng hoặc tất cả các điểm ảnh trong vùng đó. Trong cả hai trường hợp
ta cần biến đổi số liệu thành dạng thích hợp cho xử lý bằng máy tính. Số liệu cần được
biểu diễn như một liên kết hoặc là một vùng tổng hợp. Biểu diễn liên kết là một xấp xỉ,
nếu tập trung vào các hình dạng bên ngoài, như là cỏc gúc hoặc đường cong. Còn biểu
diễn vùng là xấp xỉ, nếu chú ý đến các đặc tính bên trong như các đặc trưng hoặc các
dạng chủ yếu.
Cuối cùng, ảnh sẽ được phân lớp, nhận dạng cho các mục đích khác nhau.
Tri thức về phạm vi vật thể được mã hóa thành một hệ thống xử lý trong ảnh dưới
dạng cơ sở dữ liệu kiến thức. Kiến thức này có thể là về cỏc vựng càng chi tiết thì càng
đơn giản của một ảnh (cô lập các thông tin quan trọng). Cơ sở tri thức có thể rất phức
tạp như một danh sách có liên quan với nhau về tất cả các hư hỏng chính có thể. Ngoài
ra cơ sở tri thức còn hướng dẫn hoạt động của từng module xử lý bằng cách kiểm tra
tương tác giữa các module.
Để xử lý các quá trình trên thi cần một hệ thống xử lý ảnh bao gồm một số thành
phần cơ bản sau đây:[4]
10
Hình 1.3: Các thành phần cơ bản của một hệ xử lý ảnh
 Bộ xử lý tương tự thực hiện các chức năng:
- Chọn Camera thích hợp nếu có nhiều Camera
- Chọn màn hình hiển thị tín hiệu
- Thu nhận tín hiệu video bởi bộ số hóa. Thực hiện lấy mẫu và mã hóa
- Tiền xử lý ảnh khi thu nhận
 Bộ xử lý ảnh số bao gồm nhiều bộ xử lý chuyên dụng: Xử lý lọc, trích chọn đặc
trưng, nhị phân hóa ảnh.
 Máy chủ đóng vai trò điều khiển các thành phần khác.
 Bộ nhớ ngoài: Lưu trữ dữ liệu ảnh cũng như các kiểu dữ liệu khác để có thể
chuyển giao cho các quá trình có nhu cầu.
2 BÀI TOÁN Dề TèM KHUÔN MẶT
1.2.1 Tóm tắt lịch sử

Song song với sự phát triển của việc dũ tỡm khuôn mặt, những ứng dụng phân
tích khuôn mặt đã có những ứng dụng hết sức hữu ích và số lượng những ứng dụng
ngày càng tăng trong các hệ thống tự động được sử dụng trong cuộc sống: Nhận dạng
khuôn mặt, Định vị khuôn mặt, Theo vết khuôn mặt,… là những hướng nghiên cứu
chính.[8,10]
11
Máy in
Bộ xử lý ảnh số
Bộ nhớ ảnh
Màn hình Bàn phím
Máy chủ
Bộ xử lý tương tự
Màn hình đồ họa
Camera
Bộ nhớ ngoài
• Nhận dạng khuôn mặt bao gồm chỉ ra những người xuất hiện trong ảnh, theo cách
hiểu khác, chúng ta muốn gán một định danh cho mỗi ảnh dũ tìm được. Chúng
được sử dụng trong các hệ thống an ninh, …
• Định vị khuôn mặt là vấn đề tìm kiếm chính xác vị trí của một khuôn mặt mà đã
biết trong một ảnh mẫu khác.
• Theo dấu khuôn mặt với mục đích cho phép dũ tỡm khuôn mặt trong một dãy các
ảnh hay một đoạn video trong thực tế.
• Nhận dạng cảm xúc khuôn mặt sẽ đỏnh giá trạng thái cảm xúc của khuôn mặt
được tìm thấy ( vui, buồn, đau khổ…)
Nhưng để tiến hành được những nhiệm vụ trờn thỡ trước tiên chúng ta phải tiến
hành dũ tỡm khuôn mặt trong các ảnh. Hệ thống dũ tỡm khuôn mặt được phát triển
đầu tiên vào những năm 1970 nhưng những giới hạn của máy tính thời bấy giờ đã hạn
chế việc tiếp cận các kỹ thuật nhân trắc học. Đến năm 90 của thế kỷ trước, nhiều
phòng thí nghiệm kỹ thuật đã được xây dựng cùng với sự tiến bộ của kỹ thuật video và
sự cần thiết của việc nhận dạng khuôn mặt. Trong những năm gần đõy nhiều thuật

khác nhau đã được phát triển, đến nay đã có tới không dưới 150 phương pháp khác
nhau.
1.2.2Những thách thức trong bài toán dũ tỡm khuôn mặt Những thách thức
trong bài toán dò tìm khuôn mặt
Nếu như dò tìm khuôn mặt tự động trước đõy không được phát triển đó là bởi vì
những khó khăn trong việc xây dựng những bộ phân lớp mạnh, có khả năng dũ tỡm
khuôn mặt trong các tình huống ảnh khác nhau và các trạng thái của khuôn mặt thậm
chí trong cả những trường hợp rất đơn giản đối với con người. Trên thực tế, đối tượng
“Khuôn mặt” rất khó để định nghĩa chính xác, bởi những tính chất đa dạng và có thể
thay đổi, phụ thuộc vào đặc tính của khuôn mặt, điều kiện ánh sáng, trạng thái tâm lý
của con người,….
Thách thức chính của bài toán dũ tỡm khuôn mặt là tìm kiếm bộ phân lớp có thế
phân biệt các khuôn mặt từ tất cả các đối tượng có thể là khuôn mặt. Vấn đề đầu tiên là
tìm ra mô hình có khả năng bao quát tất cả các trạng thái có thể của khuôn mặt. Một số
biến đổi chính của khuôn mặt:[13]
• Các thuộc tính chung của khuôn mặt
12
Chúng ta có thể chỉ ra một số thuộc tính phổ biến của hầu hết khuôn mặt. Khuôn
mặt theo cách nhìn tổng quát có thể được đỏnh giá bởi những loại ellipse nhưng
có những khuôn mặt thon dài, có những khuôn mặt tròn hơn…Màu da giữa người
này với người kia cũng khác nhau.
• Tư thế của khuôn mặt
Vị trí của người đối diện với máy ảnh là tốt nhất để ghi nhận toàn diện khung
nhìn của khuôn mặt: khung nhìn trực diện, khung nhỡn nghiờng và tất cả các vị
trí trung gian, từ dưới lên….
• Trạng thái biểu cảm của khuôn mặt
Diện mạo của khuôn mặt phụ thuộc nhiều vào trạng thái cảm xúc của con người.
Các đặc trưng của khuôn mặt đang cười có thể khác xa so với một khuôn mặt
lạnh lùng hay một khuôn mặt buồn bã. Khuôn mặt là một đối tượng động và điều
đó sẽ hạn chế đáng kể hiệu quả của các phương phỏp dũ tỡm.[13]

Hình 1.4: Một số trạng thái biểu cảm của khuôn mặt
• Sự hiện diện của các đối tượng khác
Chúng ta thường thấy các đối tượng khác xuất hiện trên ảnh khuôn mặt: cặp kính
có thể làm thay đổi đặc tớnh riờng của khuôn mặt, chúng có thể làm cho mắt
không còn được thể hiện rõ ràng. Những đặc trựng tự nhiên của mặt người như là
râu, ria mép hay tóc có thể chiếm một phần của khuôn mặt.
• Điều kiện của ảnh
Khuôn mặt được biểu diễn với các điều kiện ánh sáng khác nhau, loại ánh sáng,
cường độ sỏng, các đặc trưng mà hệ thống thu được cần thiết cho việc tính toán.
[13]
13
Hình 3.5: Ảnh trong những điều kiện ánh sáng khác nhau
Hình vẽ dưới đõy mô tả một vài khuôn mặt khác nhau được lấy từ cơ sở dữ liệu CMU.
Hình 1.6: Một số dạng khuôn mặt đặc trưng
Sự hỗn hợp của nền ảnh cũng là một khó khăn cho vấn đề dũ tỡm khuôn mặt.
Thậm chí là khá dễ để xây dựng một hệ thống dũ tỡm khuôn mặt trờn cỏc nền đồng bộ
và đơn giản, nhưng hầu hết các ứng dụng cần dũ tỡm khuôn mặt trong nhiều điều kiện
nền ảnh khác nhau, nghĩa là nền ảnh có thể rất đa dạng và phức tạp. Nhiệm vụ của việc
phân loại ra 2 lớp là gán cho một đối tượng ảnh là mặt hay không phải khuôn mặt.

Hình 1.7: Mẫu khuôn mặt với nền ảnh phức tạp
Trong phạm vi vấn đề này, có nhiều hướng tiếp cận đã được phát triển để dũ tỡm
khuôn mặt trong ảnh. Nhưng dũ tỡm khuôn mặt là một nhiệm vụ khá phức tạp, mỗi
14
phương pháp được xây dựng cho một mục đích rõ ràng và sẽ rất khó khăn để có thể
xây dựng được một hệ thống đa năng .
1.2.3 Một số khái niệm cơ sở cần thiết
Trước hết, chúng ta định nghĩa một số tiêu chuẩn cơ bản để xác định sự thực thi của
bộ dũ tìm. [9, 10]
Tỷ lệ dò tỡm [10,11]

Tỷ lệ dũ tỡm d là tỷ lệ phần trăm số khuôn mặt trong ảnh được bộ dò phát hiện một
cách chính xác trên tổng số khuôn mặt thực tế cú trụng tập ảnh dũ tỡm.
Tỷ lệ lỗi mẫu âm [10, 11]
Tỷ lệ lỗi mẫu âm là tỷ lệ phần trăm số khuôn mặt đã bị bộ dũ tỡm bỏ qua trên tổng số
khuôn mặt thực tế có trong tập ảnh dũ tỡm.
Công thức:
1 (1.7)
n
f d
= −
Tỷ lệ lỗi mẫu dương [10,11]
Tỷ lệ lỗi mẫu dương
p
f
là tỷ lệ phần trăm những cửa số thực tế không phải khuôn
mặt được bộ dũ tỡm xác định là khuôn mặt trên tổng số cửa sổ được bộ dũ tìm đỏnh
giá là khuôn mặt.
Trong nhiều ứng dụng, chúng ta muốn có tỷ lệ dũ tỡm là cao nhất. Nhờ có lượng cửa
sổ lớn trượt trên ảnh thông thường nên tỷ lệ lỗi mẫu dương này thường trong khoảng
5
10

đến
6
10

nhưng giá trị nhỏ bé này thường không mang nhiều ý nghĩa.
Mục tiêu của bài toán dũ tỡm khuôn mặt là tối đa tỷ lệ dũ tìm
d
trong khi tối

thiểu hoá tỷ lệ lỗi dương
p
f
. Tuy nhiên, trong nhiều ứng dụng thực tiễn, rất khó để
đạt được cả hai mục đích này, và đó là lý do tại sao chúng ta tìm cách điều hoà hai
tham số này. Tất cả những phương pháp được trình bày dưới đõy sẽ thử nghiệm với
nhiều hướng tiếp cận khác nhau để tìm kiếm sự thoả hiệp giữa tỷ lệ lỗi dương và tỷ lệ
dũ tỡm. Cuối cùng, chúng ta sẽ nhận thấy rằng sẽ rất khó khăn để so sánh các phương
pháp với nhau bởi vì vấn đề ước lượng hiệu quả và hoàn cảnh khác nhau.
15
3 Dề TèM KHUÔN MẶT DỰA TRÊN ẢNH
1.3.1Giới thiệu Giới thiệu
Các phương pháp dựa trên ảnh còn được sử dụng nhiều cho đến ngày nay. Chúng
ta gọi chúng là “dựa trên ảnh” bởi vì chúng được xây dựng từ việc sử dụng các mẫu
ảnh đối lập với một vài phương pháp khuôn mẫu mà cần có tiền đề tri thức về đối
tượng khuôn mặt. Các mẫu học hay dữ liệu đầu vào được xem xét như là các biến
ngẫu nhiên
x
và hai lớp “khuụn mặt” và “khụng phải khuôn mặt” được mô tả đặc
điểm bởi các hàm mật độ có điều kiện:
( | )p x face

( | )p x non face

. Điều đó có
nghĩa là hàm mật độ không biết trước và mục tiờu chính của chúng ta là xấp xỉ chúng
theo sự phân biệt là khuôn mặt hay không phải khuôn mặt. Sau đó là một loạt các
phương pháp để tỡm cỏc hàm phân tách với việc đưa các mẫu vào lớp khuôn mặt hay
lớp không phải khuôn mặt.
Khó khăn chính của cách tiếp cận này là cỡ mẫu, thường cỡ mẫu x thường lớn và

một bước quan trọng là giảm không gian mẫu này để tìm kiếm một hàm biệt thức có
thể phân tách các mẫu dương và các mẫu âm.
1.3.2 Eigenface
1.3.2.1Khái niệm Khái niệm
Phương pháp dũ tỡm dựa trên ảnh đầu tiên mà chúng ta sẽ trình bày trong phần
này là EigenFace. Điểm mấu chốt của dũ tỡm khuôn mặt sử dụng Eigenface là trớch
rỳt đặc trưng của chúng từ tập ảnh bởi PCA (Phân tích thành phần chính) và ước lượng
nếu Eigenface được trớch rỳt phù hợp với các mẫu khuôn mặt đặc trưng. Thực tế, tất
cả các ảnh vào có thể được thay thế bởi vectơ trọng số trong không gian riêng.
1.3.2.2 Phân tích thành phần chính (PCA) [2, 7]
Bước đầu tiên của việc phân loại Eigenface là sử dụng PCA để trớch rỳt
Eigenface từ ảnh ban đầu. PCA có thể hiểu là phương pháp cắt giảm số chiều của
không gian đầu vào thông qua việc sử dụng phép chiếu tuyến tính làm mở rộng tối da
sự phân bố của tất cả các mẫu học đuợc chiếu.
Đặt
{ }
1
, ,
N
x xK
là tập N ảnh cú cỏc giá trị trong không gian đặc trưng n
chiều. Ma trận W sử dụng biến đổi tuyến tính từ không gian n-chiều sang không gian
16
đặc trưng m-chiều với m < n (giảm số chiều). Khi đó ta có
n m
W R
×

, các vectơ
đặc trưng mới

m
k
y R∈
được xác định bởi biến đổi tuyến tính.

1, 2, , .
T
(1.8)
W
k N
k k
y x
=
=
Sau đó, ma trận tổng phân bố
T
S
được xác định bởi:
(1.9)
1
T
N
S x x
T
k k
k
µ µ
  
 ÷ ÷
  

= − −

=
Với
µ
là giá trị trung bình của tất cả các mẫu:
1
(1.10)
N
k
k
x
N
µ
=
=

Áp dụng biến đổi tuyến tính ta có ma trận phân bố mới trong không gian con m-
chiều được cho bởi
T
W S W
. Lý thuyết PCA chỉ ra rằng phép chiếu tuyến tính
opt
W

tối ưu khi tối thiểu hóa được định thức của ma trận phân bố được chiếu ( cho các mẫu
{ }
1
, ,
n

y yK
), nghĩa là:
1
(1.11)
argmax , ,
T T
m
opt
T
w
W W S W w w
 
 
 
= =
K
Tập
{ }
1, ,
i
w i m
=
K
là những vectơ riêng n-chiều của
T
S
, tương ứng với
các giá trị riêng
{ }
1, ,

i
i m
λ
=
đã được giảm bậc.
Phép chiếu trong không gian đặc trưng sử dụng
T
opt
W
cho phép phân ly khoảng
cách giữa các mẫu và không gian khuôn mặt vào 2 phần: khoảng cách trong trong
không gian đặc trưng DIFS (chiếu trong không gian m-chiều) và khoảng cách từ
không gian đặc trưng DIFS. Biến đổi tuyến tính tối ưu
opt
W
cho bởi PCA gặp trở ngại
trong quá trình làm nổi bật các thành phần tiêu biểu khi thay đổi mức độ chiếu sáng.
Một phương pháp khắc phục để xây dựng Egenface đầu tiên là mặc định rằng chúng
chứa đựng hầu hết các biến đổi ánh sáng, điều đó tạo cho chúng khả năng thích nghi
với những sự biến đổi ánh sáng tốt hơn.
1.3.2.3 Các phương pháp khác trong không gian Eigen
17
Những phương pháp khác dựa trên cơ sở cắt giảm số chiều trong không gian ảnh
đã được phát triển. Hiệu quả nhất trong số đó là sự phân loại dựa trên mô hình được
Sung và Poggio xây dựng. Phương pháp này chú trọng đến việc mô hình hóa cả sự
phân loại của các mẫu khuôn mặt và các mẫu không phải khuôn mặt. Phân loại khuôn
mặt là mô hình sử dụng 6 mẫu khuôn mặt nguyên mẫu được phân cụm bởi phiên bản
cải tiến của thuật toán phân cụm k-mean. Các perceptron đa tầng sẽ được sử dụng để
phân tách các mẫu dương và mẫu âm. Hướng phát triển này khá mạnh nhưng cũng có
hạn chế vì để lựa chọn tất cả các tham số là điều không dễ dàng với những câu hỏi: Số

cụm tối ưu là bao nhiêu? Bao nhiêu mẫu nên được sử dụng để huấn luyện bộ phân
lớp? Yêu cầu về chất lượng cơ sở dữ liệu huấn luyện như thế nào?
1.3.3 Mạng Nơron
Một trong những hệ thống dũ tỡm khuôn mặt tốt nhất đánh giá trên theo tỷ lệ lỗi
dương và tỷ lệ dũ tỡm là hệ thống dũ tỡm dựa trên mạng Nơron được xây dựng bởi
Rowley. Hệ thống sử dụng mạng Nơron được kết nối dạng lưới để đánh giá một cửa sổ
con có là khuôn mặt hay không. Hệ thống dũ tỡm khuôn mặt hoạt động theo 2 giai
đoạn: trước hết áp dụng tập hợp các bộ dũ tỡm dựa trên mạng nơron vào ảnh, và sau
đó dùng bộ phân xử để kết hợp các đầu ra. Các bộ dũ tỡm riêng lẻ khảo sát ở mỗi vị trí
trong ảnh ở một tỷ lệ nhất định, tìm vị trí có thể chứa khuôn mặt. Sau đó bộ phân xử
kết hợp các kết quả dũ tỡm từ các mạng riêng lẻ và loại trừ cỏc dũ tỡm chồng lấp.
Thành phần đầu tiên của hệ thống là mạng nơron nhận đầu vào là cửa sổ ảnh
20 20×
pixel và cho đầu ra là một giá trị thực nằm trong khoảng
1, 1
 
 

, biểu thị có
là khuôn mặt hay không. Để dũ tỡm khuôn mặt trong ảnh, mạng làm việc trên mọi vị
trí trong ảnh. Để có thể dũ tỡm những khuôn mặt lớn hơn kích thước cửa sổ , ảnh đầu
vào được giảm kích thước đi nhiều lần, sau đó áp dụng bộ dũ tỡm ở mỗi kích thước.
Mạng có một hằng số với vị trí và kích thước, nhiệm vụ là xác định tỷ lệ và vị trí nó
được sử dụng. Với hệ thống này cần sử dụng bộ lọc ở mọi vị trí ảnh, giảm tỷ lệ xuống
1.2 ở mỗi bước phân tích ảnh tứ phân.
Sau khi cửa sổ ảnh
20 20
×
pixel được trớch rỳt từ một vị trí và tỷ lệ nào đó
trong ảnh nhập, nó được tiền xử lý qua các bước hiệu chỉnh độ sáng và cân bằng lược

đồ. Cửa sổ sau khi được tiền xử lý sẽ được truyền qua mạng nơron. Mạng cú cỏc liên
kết tương tự như kiểu liên kết của võng mạng đến các tầng nhập. Cửa sổ đầu vào được
chia thành các mảnh nhỏ, 4 vùng
10 10×
pixel, 16 vùng
5 5×
pixel và 6 vùng chồng
lấp
20 5×
pixel. Mỗi vựng cú liên kết đầy đủ với một đơn vị ẩn. Dường như một đơn
vị ẩn được dùng cho mỗi vùng con đầu vào nhưng thực ra các đơn vị này có thể được
18
tái tạo. Chúng ta có thể sử dụng mạng với hai hay ba tập các đơn vị ẩn này. Hình dáng
của cỏc vựng con này được chọn để cho phộp cỏc vựng ẩn dũ tỡm cỏc đặc trưng có ích
cho việc dũ tỡm khuôn mặt. Cụ thể, các sọc ngang cho phép các đơn vị ẩn dũ tỡm cỏc
đặc trưng như miệng, cặp mắt, trong khi các đơn vị ẩn với vùng tiếp thu hình vuông có
thể dũ tỡm cỏc đặct trưng như từng mắt, mũi, hai gúc miệng….Hỡnh dạng chính xác
của cỏc vựng này không thực sự quan trọng, điều quan trọng là đầu vào được chia
thành cỏc vựng nhỏ thay vì dựng cỏc kết nối hoàn toàn với toàn bộ đầu vào. Tương tự
các mẫu liên kết đầu vào thường được dùng trong việc nhận dạng tiếng nói và chữ viết
[Waibel (1989), Le Cun (1989)]. Mạng sẽ cho một đầu ra mang giá trị thực, chỉ ra cửa
sổ đầu vào có là khuôn mặt hay có chứa khuôn mặt hay không. [2]
1.3.4 SVM
SVM là kỹ thuật học được giới thiệu bởi Vapnik. Phương pháp này tỏ ra hiệu quả
với những cơ sở dữ liệu học lớn, lên tới hàng ngàn mẫu học. Trong bài toán dũ tỡm
khuôn mặt chúng ta cần mô tả tất cả các mẫu khuôn mặt đặc trưng với một số lượng
lớn vì đối tượng khuôn mặt được thể hiện rất đa dạng.
Nguyên tắc căn bản là mở rộng tối đa lề giữa lớp khuôn mặt và lớp không phải
khuôn mặt. Một loại lề đơn giản được sử dụng là khoảng cách giữa những điểm gần
nhất của 2 lớp. Chúng được gọi là những vectơ hỗ trợ phân loại, chúng đóng vai trò rất

quan trọng vỡ chỳng định nghĩa ranh giới giữa hai lớp. Trên thực tế, Osuna đã xây
dựng hệ thống dũ tỡm khuôn mặt dựa trên SVM. [2]
1.3.5 Mô hình Markov ẩn
Mô hình Markov ẩn đã được Samaria và Young sử dụng để định vị và nhận dạng
khuôn mặt. Nguyên tắc là phân tách các mẫu khuôn mặt thành nhiều vùng con như
trán, mắt, mũi, miệng và cằm….Cỏc mẫu khuôn mặt sẽ được nhận dạng nếu những
đặc trưng này được nhận dạng theo thứ tự phù hợp. Theo cách khác, mẫu khuôn mặt là
một chuỗi vectơ quan sát với mỗi vectơ là một tập các pixel liền kề nhau. Ảnh được
lấy vào theo một thứ tự rõ ràng và việc quan sát được thực hiện trờn cỏc khuối pixel.
Ranh giới giữa cỏc vựng điểm ảnh được mô tả bởi xác suất biến đổi giữa các trạng thái
và ảnh dữ liệu trong vùng được mô hình hóa bởi thuộc tính Gauss. [2, 6]
4 Dề TèM KHUÔN MẶT DỰA TRÊN ĐẶC TRƯNG HÌNH HỌC
1.4.1 Giới thiệu
Các phương pháp đã liệt kê ở trên dựa trên việc học để thu được mô hình khuôn
mặt từ tập mẫu dữ liệu dương và õm. Chỳng không có liên quan trực tiếp đến các đặc
19
trưng hình học của khuôn mặt. Một số phương phỏp khỏc lại dựa trên những đặc trưng
hình học của khuôn mặt. Chúng được gọi là cơ sở hình học hay đặc trưng. Nhiều
hướng tiếp cận vấn đề nhưng chúng ta có thể chia ra:
• Hướng tiếp cận top – down: Một mô hình được tính toán cho một mức tỷ lệ
• Hướng tiếp cận bottom – up: Các khuôn mặt được tìm kiếm bởi sự có mặt của
các đặc trưng của khuôn mặt.
Ưu điểm chính của hướng tiếp cận theo các đặc trưng hình học là không bị giới
hạn bởi những điều kiện ngoại cảnh. Trên thực tế, các đặc trưng của khuôn mặt (mắt,
mũi, màu da) được biễu diễn một cách độc lập với tư thế hay các điều kiện ánh sáng.
1.4.2 Các phương pháp Top – down
Ý tưởng chính của những phương pháp này là sử dụng màu da để tìm kiếm khuôn
mặt trong ảnh. Những hệ thống dũ tỡm đa được phát triển sử dụng một chuỗi các thuật
toán phân đoạn để trớch rỳt khuôn mặt trong ảnh. Màu da là một đặc trưng nổi bật
được quan tâm nhiều trong các hệ thống dũ tỡm và nhận dạng tự động. Nhiều phương

pháp được lựa chọn sử dụng tùy theo những không gian màu khác nhau. Ưu điểm
chính của hướng phát triển này là tốc độ dũ tỡm rất nhanh. Tuy nhiên, sẽ xảy ra vấn đề
khó khăn nếu như nền ảnh dũ tỡm cú phổ màu tương tự màu da. Yang và Ahuaja đã
xây dựng những hệ thống theo hướng này. Mặc dù với mỗi mẫu ảnh khác nhau thì
màu da thường khác nhau nhưng chúng vẫn có thể được nhận dạng. Thuộc tính này
được mô hình hóa bởi các thuộc tính Gauss. Tất cả các điểm ảnh sẽ được kiểm tra và
chúng ta coi một điểm ảnh là màu da nếu đáp ứng của chúng lớn hơn một ngưỡng xác
định. Cuối cùng, vùng ảnh sẽ được hệ thống đánh giá là khuôn mặt nếu hơn 70% điểm
ảnh trong vùng đó thỏa mãn điều kiện có thể coi là biểu diễn màu da. Vấn đề đặt ra là
có những phần khỏc trờn cơ thể người cũng có thể được thể hiện trong ảnh và những
đặc trưng vùng da trên những phần đó hầu như không có sự khác biệt với vùng da mặt.
Những phương pháp dũ tỡm dựa trên màu da chủ yếu được sử dụng làm tiền đề cho
những quá trình xử lý khác để đi đến kết luận vùng ảnh có biểu diễn không mặt hay
không.
Saber và Tekalp thì theo phương pháp khác, họ sử dụng thuật toán để phân đoạn
ảnh. Sau khi ảnh được phân đoạn, mỗi vùng sẽ được xấp xỉ bằng một Elip. Tiếp theo
sẽ tiến hành tính toán độ lệch của những vùng Elip này với cơ sở dữ liệu ảnh chuẩn
theo phương pháp đo lường độ lệch Hausdorff. Nếu độ đo cuối cùng lớn hơn một
ngưỡng cho trước thỡ vựng đú sẽ bị loại bỏ. Sau đó, các thủ tục tìm kiếm đặc trưng
20
khuôn mặt sẽ được tiến hành trờn cỏc mẫu Elip còn lại để có thể đi đến kết luận đánh
giá mỗi Elip là khuôn mặt hay không.[5]
1.4.3 Các phương pháp Bottom – up
Nguyên tắc chung là tìm kiếm các đặc trưng bất biến của đối tượng khuôn mặt.
Sự bất biến này được thể hiện độc lập với mọi tỷ lệ, tư thế, điều kiện ánh sáng và các
điều kiện biến đổi khỏc. Cỏc đặc trưng thông thường và tự nhiên thường được trớch
rỳt từ khuôn mặt là mắt, mũi, miệng, chân mày. Các kỹ thuật dũ tỡm biờn được sử
dụng để trớch rỳt những đặc trưng này. Phương pháp bottom-up tìm kiếm những đặc
trưng này từ ảnh đầu vào và sau đó nhúm chỳng theo những mối quan hệ hình học.
Sự khác nhau của những phương pháp được phát triển theo hướng bottom-up là ở

cách thức lựa chọn các đặc trưng và thiết lập liên kết giữa chúng.
Theo hướng này, một phương pháp đã được Govindaraju phát triển khá sớm.
Trong phương pháp này các đặc trưng khuôn mặt được mô tả đặc điểm bởi những
đường cong và các mối quan hệ mang tính cấu trúc liên kết chúng lại. Hai trạng thái
liên tục được áp dụng, đầu tiên các đường cong khuôn mặt được trớch rỳt từ ảnh đầu
vào để tìm kiếm những đối tượng có khả năng là khuôn mặt. Sau đó, các đặc trưng
khuôn mặt được nhóm lại bằng cách sử dụng các xử lý phù hợp (với hàm giá trị và
một ngưỡng).
Một phương pháp khác được sử dụng bởi Yow và Cipolla, tập hợp các bộ lọc đạo
hàm được sử dụng để lựa chọn các đặc trưng cạnh như là góc của cặp mắt, sống mũi,
…Sau đó chỉ các điểm có những thuộc tính riêng biệt mới được giữ lại. Các điểm có
liên quan sẽ được liên kết lại với nhau và chúng được sử dụng để xây dựng mô hình
khuôn mặt. [5]
5 HƯỚNG TIẾP CẬN CỦA KHOÁ LUẬN
1.5.1 Ý tưởng chung
Dũ tìm khuôn mặt tự động là một vấn đề phức tạp với việc dũ tỡm một hay nhiều
khuôn mặt trong ảnh số hoặc trong một đoạn video. Khó khăn nội tại trên thực tế là
khuôn mặt không phải là những đối tượng bất biến. Khuôn mặt trên hai bức ảnh có thể
là của hai người khác nhau nhưng cũng có thể là của cùng một người, phụ thuộc vào
điều kiện ánh sáng, trạng thái cảm xúc hay tư thế của chủ thể. Điều đó lý giải tại sao
có rất nhiều phương pháp đã được phát triển để giải quyết bài toán này. Mỗi phương
pháp được phát triển theo một hướng riêng và chúng ta có thể sắp xếp những phương
pháp đó theo hai hướng chớnh: Cỏc phương pháp dựa trên hình ảnh và các phương
21
pháp dựa trên đặc trưng. Hướng thứ nhất sử dụng tập huấn luyện là các ảnh mẫu để
huấn luyện cho bộ phân loại, sau đó bộ phân loại sẽ duyệt qua các ảnh kiểm tra để thực
hiện phân loại và nhận dạng. Hướng còn lại dựa trên việc dũ tỡm các đặc trưng của
khuôn mặt như mắt, miệng…
Dũ tìm khuôn mặt nhanh là một vấn đề đang ngày càng được quan tâm phát triển
vì những ứng dụng thực tiễn của chúng. Cho đến nay đã có nhiều phương pháp được

sử dụng để dũ tỡm khuôn mặt nhanh được xây dựng và có thể tóm lại trong ba nhóm
giải pháp chính:
• Dũ tìm khuôn mặt dựa trên sự phân tích màu sắc của vùng da: Mặc dù việc sử
lý khá nhanh xong nhóm này có giới hạn chỉ xử lý trên ảnh màu và thường
nhạy cảm với điều kiện ánh sáng, thường chỉ sử dụng làm bước tiền xử lý cho
các hướng khác
• Dũ tìm khuôn mặt dựa trên các đăc trưng: Nhóm này dựa vào các đặc trưng gần
bất biến và xuất hiện trên hầu hết các khuôn mặt. Thành công nhất trong dũ tỡm
khuôn mặt người trong thời gian thực là phương pháp ASM (Active Shape
Model)
• Hướng dũ tỡm khuôn mặt dựa trên thông tin hình ảnh gồm mạng nơron, các
hướng thống kê (SVM, AdaBoost…) Phương pháp SVM và mạng nơron cũng
đạt được những kết quả cao trong thời gian khá nhanh xong cũng chỉ khoảng
vài ảnh trong 1 giõy nờn khú áp dụng để xây dựng các hệ thống nhận dạng thời
gian thực. Riêng phương pháp AdaBoost cho kết quả khả quan vì một hệ thống
hoàn thiện có thể xử lý khoảng 15-20 khung hình trong một giây.
Nếu có thể kết hợp phương pháp dựa trên đặc trưng hình học và ảnh truyền
thống để xây dựng hệ thống dũ tỡm thỡ sẽ phát huy được ưu điểm của mỗi phương
pháp và giảm thiểu những hạn chế. AdaBoost là phương pháp có thể đáp ứng được yêu
cầu. Những đặc trưng hình học là những đặc trưng rất chung của khuôn mặt như vị trí
của các đặc trưng riờng cú: mắt, mũi, miệng… Những đặc trưng dựa trên cơ sở ảnh
cũng được sử dụng vì chúng ta sử dụng hình thức học thống kê với một tập dữ liệu đủ
lớn để xây dựng mô hình và hình thành khái niệm về đối tượng “khuôn mặt” một cách
tương đối đầy đủ.
1.5.2 Hướng tiếp cận
Chúng ta lựa chọn làm việc trong ngữ cảnh phổ biến. Mục tiêu của đề tài này là
dũ tỡm khuôn mặt có độ phân giải thấp một cách nhanh chóng trên nền phức tạp. Tình
22
huống này có thể tìm thấy trong rất nhiều ứng dụng như việc giám sát ở nơi công
cộng. Phương pháp được sử dụng trong cả hai hướng dũ tỡm, dựa trên ảnh và trờn các

đặc trưng. Ở hướng thứ nhất sử dụng thuật toán học để huấn luyện bộ phân lớp với các
mẫu học đúng và các mẫu sai. Ở hướng thứ hai, các đặc trưng được chọn lựa bởi các
thuật toán học liên quan tới các đặc trưng của khuôn mặt (vị trí mắt, sự khác biệt của
sống mũi). Kỹ thuật học tăng cường cải tiến bộ phân lớp bằng việc cập nhật trọng số
cho các mẫu học. Việc học sử dụng thuật toán tăng cường là đúng gúp chớnh của
phương phỏp dũ tỡm khuôn mặt này.
Theo một cách khác, những bộ phân lớp đơn giản được ứng dụng trong học tăng
cường là các đặc trưng tương tự Haar, chúng cho phép tính toán nhanh trong khi vẫn
đảm bảo tốc độ dũ tỡm tốt.
Mục tiêu của chúng ta là dũ tỡm khuôn mặt trong những nền ảnh đa dạng và độ
phân giải thấp. Ưu điểm chính của các phương pháp dựa trên đặc trưng hình học là
những đặc trưng hình học gần như bất biến. Nhưng sẽ khó khăn nếu chúng ta chỉ sử
dụng những phương pháp này.
Tóm lại, đề tài này lựa chọn xây dựng hệ thống dũ tỡm khuôn mặt dựa trên thuật
toán AdaBoost vì những lý do căn bản:
• Mục tiêu của đề tài là tìm hiểu và bước đầu xây dựng một hệ thống dũ tỡm
khuôn mặt nhanh mà vẫn đảm bảo tỷ lệ dũ tỡm, có thể ứng dụng để dũ tỡm trong
thời gian thực.
• Phương pháp AdaBoost dựa trên sự kết hợp của hướng dũ tỡm dựa trên đặc
trưng hình học và hướng dũ tỡm dựa trên ảnh. í tưởng chính là xây dựng các bộ
dũ tỡm yếu với độ chính xác không cao nhưng lại có thời gian xử lý rất nhanh.
Tuy nhiên, khi kết hợp các bộ dò tìm lại thì có thể cho kết quả chính xác cao
• Phương pháp AdaBoost sử dụng các đặc trưng hình học đơn giản vốn được tính
toán rất nhanh, thích hợp sử dụng để xây dựng hệ thống dũ tỡm thời gian thực.
• Các bộ phân loại AdaBoost có thể xây dựng phân tầng với độ phức tạp xử lý từ
thấp đến cao nhằm nhanh chóng loại bỏ phần lớn các ứng viên xấu ( không phải
mặt người) vốn chiếm đại đa số trong các cửa sổ cần phân loại. Sau đó sẽ tiến đến
bộ phân loại phức tạp hơn, sử dụng nhiều đặc trưng hơn nhưng chỉ phải làm việc
trên một số ít đối tượng. AdaBoost là mụt giải pháp điều hoà tốt giữa hai yếu tố
hiệu quả và tốc độ dũ tỡm. Tốc độ dũ tỡm tốt là do việc lựa chọn những đặc trưng

23
đơn giản, tỷ lệ dũ tỡm tốt nhờ thuật toán học tăng cường AdaBoost có khả năng
lựa chọn những đặc trưng tiêu biểu nhất trong tập dữ liệu lớn.
Chương 2:Dề TèM KHUÔN MẶT NHANH BẰNG PHƯƠNG PHÁP
ADABOOST
2.1GIỚI THIỆU GIỚI THIỆU
2.1.1Lựa chọn phương pháp Lựa chọn phương pháp
Trong chương này chúng ta sẽ trình bày về phương phỏp dũ tỡm khuụn mặt bằng
thuật toán tăng cường với tốc độ dũ tỡm nhanh. Bộ dũ tỡm này xuất phát từ ý tưởng dũ
tìm đối tượng trong thời gian thực của Viola và Jone. Chúng ta có sự lựa chọn để xây
dựng một mô hình sử dụng cách học thống kê các mẫu dương và mẫu âm. Huấn luyện
bộ phân lớp bằng các đặc trưng trực quan, vì vậy chúng ta sẽ lý giải tại sao thuật toán
này lại thích hợp với dũ tỡm khuôn mặt và mô tả cách làm việc của chúng. Chúng ta
cũng sẽ nhấn mạnh những đúng góp chủ yếu như là cách biểu diễn ảnh mới, sự lựa
chọn các đặc trưng trực quan.
2.1.2Phạm vi của dũ tỡm khuôn mặt thẳng Phạm vi của dò tìm khuôn mặt thẳng
Trước khi đi vào chi tiết, chúng ta hãy để ý rằng những phương phỏp dũ tỡm
khuôn mặt được thiết kế trong những phạm vi riêng và cho những mục đích khác
nhau, điều đó lý giải tại sao không phải khi nào cũng dễ dàng để so sánh hiệu quả của
chúng. Một vài bộ dũ tỡm chỉ hướng tới mục tiêu là dũ tỡm với tỷ lệ chính xác càng
cao càng tốt, nhưng đề tài của chúng ta có khác biệt một chút trong một phạm vi khác:
24
Ngoài việc muốn có một tỷ lệ dũ tỡm tốt, chúng ta muốn xây dựng một hệ dũ tỡm
hướng thời gian thực. Và vì vậy mục đích là muốn dũ tỡm hầu hết các khuôn mặt,
thậm chí chúng ta chấp nhận tỷ lệ lỗi dương cao hơn (không phải khuôn mặt nhưng
cũng được bộ dũ tỡm cho là khuôn mặt).
Trong trường hợp khác, camera được đặt ở sảnh sân bay, các khuôn mặt thường
có độ phân giải thấp, có kích cỡ khác nhau và nền ảnh khác phức tạp.
Trong những trường hợp này chúng ta phải xây dựng bộ dũ tỡm thích hợp với
nhiều điều kiện ánh sáng, sự biến đổi hình dạng và kích thước của khuôn mặt. Dũ tỡm

khuôn mặt là công đoạn phục vụ cho nhận dạng khuôn mặt, khi mà chỉ những khuôn
mặt nhìn trực diện mới có ích. Điều đó lý giải cho việc lựa chọn tập huấn luyện được
sử dụng để huấn luyện các bộ phân lớp. Tóm lại, dù lựa chọn phương pháp nào thì
cũng phải đảm bảo có thể ứng dụng được trong thực tiễn và AdaBoost đáp ứng được
yêu cầu này. [9,10]
2.1.3 Những bước chính để dũ tỡm khuôn mặt
Ban đầu, ảnh được quét bởi những cửa sổ với tỷ lệ khác nhau. Mỗi cửa sổ con
được kiểm tra bởi bộ phân lớp đa tầng. Nếu cửa sổ con không phải là khuôn mặt thì sẽ
bị loại bỏ ngay từ những tầng đầu tiên. Nhiệm vụ quan trọng là phải lựa chọn ra những
đặc trưng có khả năng mô tả đối tượng khuôn mặt. Nguyên tắc của việc dũ tỡm là áp
dụng thành công các bộ phân lớp đơn giản để kết hợp chúng vào bộ phân lớp mạnh.
Sự lựa chọn đặc trưng này sẽ quyết định hiệu quả của việc dũ tỡm. Khó khăn đặt ra là
cần lựa chọn các đặc trưng đủ đơn giản để có thể phân biệt đối tượng là khuôn mặt hay
không. Trong trường hợp này hàm cơ bản Haar là một trong những lựa chọn thích hợp
nhất. Thực tế, các đặc trưng đáp ứng không nhiều hơn sự khác biệt của 2, 3 hay 4 vùng
chữ nhật ở những tỷ lệ và hình dạng khác nhau. Để cải thiện tốc độ tính toán những
đặc trưng này chúng ta sẽ mô tả ảnh theo một cách mới gọi là “Ảnh tích phân” cho
phép tính toán vùng chữ nhật chỉ với những phép
±
đơn giản.
Sau quá trình này, chúng ta thu được một tập lớn các đặc trưng, AdaBoost được
sử dụng để lựa chọn một tập nhỏ trong số chúng để xây dựng lên một bộ phân lớp
mạnh. Chúng ta chỉ muốn giữ lại những đặc trưng có thể giúp phân loại tốt nhấtcỏc
mẫu dương và mẫu âm. Tại mỗi bước chọn lựa có một đăc trưng được chọn bởi bộ
phân lớp yếu vì vậy AdaBoost cung cõp thuật toán học hiệu quả và mạnh mẽ. Cỏc
vựng không phải khuôn mặt sẽ bị loại trừ một cách nhanh chóng và do càng đến các
tầng sau việc dũ tỡm càng diễn ra hiệu quả dẫn tới hầu hết những khuôn mặt đều được
dò tìm thấy.[9,10, 12]
25

×