Tải bản đầy đủ (.pdf) (58 trang)

Nghiên cứu và xây dựng hệ thống xác định khuôn mặt chung nhất trong tập ảnh số

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.62 MB, 58 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

CÙ VIỆT DŨNG

NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG XÁC ĐỊNH
KHUÔN MẶT CHUNG NHẤT TRONG TẬP ẢNH SỐ

LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM

Hà Nội – 2014


1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

CÙ VIỆT DŨNG

NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG XÁC ĐỊNH
KHUÔN MẶT CHUNG NHẤT TRONG TẬP ẢNH SỐ

Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103

LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Bùi Thế Duy


Hà Nội – 2014


2

LỜI CẢM ƠN
Trƣớc tiên, em xin gửi lời cảm ơn chân thành và sự biết ơn sâu sắc tới thầy
giáo hƣớng dẫn, PGS.TS Bùi Thế Duy đã tận tình hƣớng dẫn em trong suốt quá
trình thực hiện khoá luận tốt nghiệp, cách đặt ra các câu hỏi nghiên cứu, hiểu các
vấn đề, và viết báo cáo một cách khoa học.
Em xin chân thành cảm ơn sâu sắc tới các anh chị, thầy cô trong phòng
tƣơng tác ngƣời máy đã luôn tận tình chỉ bảo, giải quyết những vấn đề vƣớng
mắc.
Em xin bày tỏ lời cảm ơn sâu sắc tới các thầy cô giáo trong trƣờng Đại học
Công Nghệ, những ngƣời thầy, cô đã tận tình giảng dạy và truyền đạt cho em
những kiến thức, những kinh nghiệm quý báu trong suốt quá trình học tập và rèn
luyện ở Trƣờng.
Con xin bày tỏ lòng chân thành và biết ơn tới cha mẹ, anh chị, những ngƣời
trong gia đình và bạn bè đã luôn ở bên cạnh con những lúc khó khăn nhất, giúp
con vƣợt qua khó khăn trong học tập cũng nhƣ trong cuộc sống.

Hà nội, ngày 2 tháng 09 năm 2014
Học viên

Cù Việt Dũng


3

Lời cam đoan


Tôi xin cam đoan:
Những kết quả nghiên cứu đƣợc trình bày trong luận văn là hoàn toàn trung
thực, của tôi, không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và pháp luật Việt
Nam. Nếu sai, tôi xin chịu hoàn toàn trách nhiệm trƣớc pháp luật.

TÁC GIẢ LUẬN VĂN

Cù Việt Dũng


4

MỤC LỤC
Trang
Lời cam đoan ................................................................................................................... 3
MỤC LỤC ....................................................................................................................... 4
Danh mục các ký hiệu và chữ viết tắt ............................................................................. 6
Danh mục các bảng ......................................................................................................... 7
Danh mục các hình vẽ, đồ thị .......................................................................................... 8
LỜI MỞ ĐẦU ................................................................................................................. 9
CHƢƠNG 1: TỔNG QUAN ......................................................................................... 10
1.1

Giới thiệu .........................................................................................................10

1.2

Phát biểu bài toán .............................................................................................11


1.2.1

Quy trình xử lý ..........................................................................................11

1.2.2

Những khó khăn, thách thức .....................................................................12

1.3

Một số phƣơng pháp xác định khuôn mặt........................................................12

1.3.1

Hƣớng tiếp cận dựa trên tri thức ...............................................................13

1.3.2

Hƣớng tiếp cận dựa trên đặc trƣng không thay đổi...................................14

1.3.3

Hƣớng tiếp cận dựa trên so khớp mẫu ......................................................16

1.3.4

Hƣớng tiếp cận dựa trên diện mạo ............................................................17

1.4


Kết luận chƣơng 1 ............................................................................................17

CHƢƠNG 2: CƠ SỞ LÝ THUYẾT ............................................................................. 18
2.1

Phát hiện khuôn mặt.........................................................................................18

2.1.1

Các đặc trƣng giống Haar..........................................................................18

2.1.2

Phƣơng pháp Adaboost .............................................................................20

2.2

Tổng quan về các phƣơng pháp trích rút đặc trƣng .........................................22

2.2.1

Phƣơng pháp trích chọn đặc trƣng hình học .............................................23

2.2.2

Phƣơng pháp trích chọn đặc trƣng diện mạo ............................................23

2.3

Phƣơng pháp phân tích thành phần chính ........................................................24


2.3.1

Sơ lƣợc đại số tuyến tính ...........................................................................24

2.3.2

Phân tích thành phần chính - PCA ............................................................25

2.4

Mô hình diện mạo tích cực ..............................................................................28


5

2.4.1

Hình dáng và các điểm mốc ......................................................................28

2.4.2

Căn chỉnh hình dạng của tập huấn luyện ..................................................30

2.4.3

Huấn luyện mô hình ..................................................................................30

2.4.3.1


Huấn luyện mô hình hình dáng .............................................................31

2.4.3.2

Huấn luyện hình ảnh ..............................................................................31

2.4.3.3 So khớp......................................................................................................32
2.5

Giới thiệu về phân cụm ....................................................................................33

2.5.1

Khái niệm ..................................................................................................33

2.5.2

Một số vấn đề trong phân cụm ..................................................................35

2.5.3

Phân cụm phân cấp ....................................................................................36

2.6

Kết luận chƣơng 2 ............................................................................................37

CHƢƠNG 3: XÂY DỰNG HỆ THỐNG ...................................................................... 38
3.1


Tổng quan hệ thống .........................................................................................38

3.2

Phát hiện khuôn mặt.........................................................................................40

3.3

Trích rút đặc trƣng ...........................................................................................41

3.3.1

Phân tích thành phần chính .......................................................................42

3.3.2

Mô hình diện mạo tích cực........................................................................44

3.4

Xác định khuôn mặt chung nhất ......................................................................45

3.5

Kết luận chƣơng 3 ............................................................................................46

CHƢƠNG 4: THỬ NGHIỆM VÀ KẾT QUẢ ĐẠT ĐƢỢC ........................................ 47
4.1

Cơ sở dữ liệu khuôn mặt thử nghiệm...............................................................47


4.2

Một số thực nghiệm .........................................................................................48

4.3

Kết luận chƣơng 4 ............................................................................................54

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .................................................................... 55
TÀI LIỆU THAM KHẢO ............................................................................................. 56


6

Danh mục các ký hiệu và chữ viết tắt
CSDL Cơ sở dữ liệu
ASM Active Shape Model
PCA Principal Component Analysis
HAC

Hierarchical

Agglomerative

Clustering


7


Danh mục các bảng
Bảng 2.1: Tham số dữ liệu thuộc tính nhị phân ............................................................35


8

Danh mục các hình vẽ, đồ thị
Hình 2.1:
Hình 2.2:
Hình 2.3:
Hình 2.4:
Hình 2.5:
xoay 45o
Hình 2.6:
Hình 2.7:
Hình 2.8:
Hình 2.9:
Hình 2.10:
Hình 2.11:
Hình 3.1:
Hình 3.2:
Hình 3.3:
Hình 3.4:
Hình 3.5:
Hình 3.6:
Hình 3.7:
Hình 3.8:
Hình 3.9:
Hình 4.1:
Hình 4.2:

Hình 4.3:
Hình 4.4:
Hình 4.5:
Hình 4.6:
Hình 4.7:
Hình 4.8:
Hình 4.9:
Hình 4.10:
Hình 4.11:
Hình 4.12:
Hình 4.13:

Bốn đặc trƣng Haar-like cơ bản .................................................................18
Các đặc trƣng mở rộng của các đặc trƣng Haar-like cơ sở........................18
Cách tính Integral Image của ảnh ..............................................................19
Cách tính nhanh tổng các điểm ảnh của vùng D trên ảnh .........................19
Cách tính nhanh tổng điểm ảnh của vùng D trên ảnh với các đặc trƣng
....................................................................................................................20
Thuật toán Adaboost ..................................................................................21
Hình dạng và biểu diễn của hình dạng trong mô hình ...............................29
Vị trí 68 điểm mốc trên khuôn mặt ............................................................29
Thuật toán gióng hàng tập huấn luyện .......................................................30
Quy trình huấn luyện mô hình hình dáng ..................................................31
Thuật toán so khớp hình dáng khuôn mặt..................................................32
Sơ đồ tổng quát của hệ thống .....................................................................38
Mã giả thuật toán tổng quát của hệ thống ..................................................39
Giao diện chính của hệ thống ....................................................................40
Giao diện kết quả sau khi xác định đƣợc khuôn mặt chung nhất ..............40
Giao diện kết quả phát hiện khuôn mặt .....................................................41
Chuyển ảnh khuôn mặt sang vector ...........................................................42

Tập ảnh khuôn mặt sau khi chuẩn hóa cùng kích thƣớc ............................43
Thuật toán so khớp khuôn mặt...................................................................44
Thuật toán phân cụm phân cấp ..................................................................45
Ví dụ một tập cơ sở dữ liệu tự xây dựng ...................................................47
Tập ảnh đầu vào thực nghiệm 1 .................................................................48
Khuôn mặt chung nhất trong thực nghiệm 1 .............................................48
Kết quả của hệ thống trong thực nghiệm 1 - PCA .....................................49
Kết quả của hệ thống trong thực nghiệm 1 - ASM ....................................49
Tập ảnh đầu vào thực nghiệm 2 .................................................................50
Khuôn mặt chung nhất trong thực nghiệm 2 .............................................50
Kết quả của hệ thống trong thực nghiệm 2 - PCA .....................................51
Kết quả của hệ thống trong thực nghiệm 2 - ASM ....................................51
Tập ảnh đầu vào thực nghiệm 3 .................................................................52
Khuôn mặt chung nhất trong thực nghiệm 3 .............................................52
Kết quả của hệ thống trong thực nghiệm 3 - PCA .....................................53
Kết quả của hệ thống trong thực nghiệm 3 - ASM ....................................53


9

LỜI MỞ ĐẦU
Hiện nay thế giới có hàng trăm mạng mạng xã hội khác nhau nhƣ MySpace và
Facebook nổi tiếng trong thị trƣờng Bắc Mỹ và Tây Âu; Orkut và Hi5 tại Nam Mỹ;
Friendster tại Châu Á và các đảo quốc Thái Bình Dƣơng. Một số mạng xã hội khác đã
gặt hái đƣợc thành công đáng kể theo vùng miền nhƣ Bebo tại Anh Quốc, CyWorld tại
Hàn Quốc, Mixi tại Nhật Bản. Ở Việt Nam xuất hiện rất nhiều các mạng xã hội nhƣ:
Facebook, Zing Me, YuMe, Tamtay đƣợc đông đảo các bạn trẻ và mọi ngƣời trong
nƣớc tin dùng. Với số lƣợng mạng xã hội đông đảo nhƣ thế, lƣợng thông tin dữ liệu
thu đƣợc là khổng lồ. Trong lƣợng thông tin khổng lồ này, có một lƣợng lớn là hình
ảnh. Một minh chứng rõ nhất là mạng xã hội facebook, cho đến nay đã có hàng trăm tỷ

bức hình trong cơ sở dữ liệu. Việc tìm ra thông tin hữu ích trên lƣợng dữ liệu hình ảnh
lớn nhƣ vậy sẽ rất cấp thiết.
Nhiều thông tin đƣợc chia sẻ trên mạng xã hội thể hiện bằng các hình ảnh cung
cấp cho ngƣời dùng về thông tin của ngƣời, phong cảnh mang nhiều phong cách của
từng cá nhân. Mọi ngƣời thƣờng chia sẻ hình ảnh cá nhân trên các trang mạng xã hội
để chia sẻ chúng với gia đình, ngƣời thân, bạn bè và ngƣời quen. Tuy nhiên, mỗi khi
một ngƣời dùng muốn tìm hiểu thông tin về một ai đó gặp phải vấn đề phải tìm thông
tin về ngƣời đó rất khó khăn (tốn thời gian và nhiều khi không tìm đƣợc). Lý do của
việc này là lƣợng ảnh trên mạng xã hội quá nhiều và tăng nhanh hàng ngày.
Với một tập ảnh cho trƣớc, mỗi bức ảnh có thể có một hay nhiều hơn một khuôn
mặt gây ra nhiều khó khăn cho ngƣời dùng có thể xác định chủ thể trong tập ảnh đó
một cách nhanh nhất. Do đó, chúng ta nên cần một hệ thống có thể giúp gom các đối
tƣợng khuôn mặt về cùng một cụm (theo một độ đo tƣơng tự nào đó) trong một tập dữ
liệu ảnh có một hay nhiều khuôn mặt trong bức ảnh là vô cùng cần thiết. Từ đó xác
định đƣợc khuôn mặt chung nhất trong tập ảnh. Với sự cần thiết đó tác giả chọn đề tài
“Nghiên cứu và xây dựng hệ thống xác định khuôn mặt chung nhất trong tập ảnh
số”. Nội dung khóa luận gồm có 4 chƣơng:
Chƣơng 1: Tổng quan, giới thiệu và phát biểu bài toán, nêu một số hƣớng tiếp
cận trong việc phát hiện khuôn mặt trong ảnh
Chƣơng 2: Cơ sở lý thuyết, giới thiệu cơ sở lý thuyết một số phƣơng pháp liên
quan trong bài toán
Chƣơng 3: Xây dựng hệ thống, trình bày về xây dựng hệ thống giải quyết bài
toán.
Chƣơng 4: Thử nghiệm và kết quả đạt đƣợc, trình bày về cơ sở dữ liệu thực
nghiệm và kết quả thử nghiệm, đánh giá thử nghiệm


10

CHƢƠNG 1: TỔNG QUAN

1.1 Giới thiệu
Thông thƣờng để lƣu trữ thông tin, dữ liệu về một nội dung, sự vật, sự việc nào
đó thì ngƣời ta thƣờng chọn sử dụng dạng lƣu trữ kiểu văn bản. Nhƣng lƣu trữ dữ liệu
bằng văn bản nhiều khi không thể phản ánh đầy đủ, chân thực về đối tƣợng đƣợc miêu
tả và nhiều khi đó chỉ là do cảm nhận chủ quan của mình ngƣời viết. Vì vậy kết hợp
với lƣu trữ dữ liệu dạng văn bản ngƣời ta còn sử dụng lƣu trữ dữ liệu dạng ảnh. Khối
lƣợng dữ liệu dạng ảnh ngày càng trở nên khổng lồ nhất là khi hiện nay các thiết bị thu
nhận ảnh số ngày càng trở nên phổ biến với giá cả phù hợp. Khi ta có nhu cầu tìm
kiếm một vài bức ảnh trong một kho dữ liệu ảnh có thể lên tới vài trăm nghìn bức ảnh
để minh họa cho một đề tài nào đó, thì tuyệt đối không phải là chuyện đơn giản nếu
chúng ta tìm kiếm một cách thủ công tức là xem lần lƣợt từng bức ảnh cho tới khi ta
tìm thấy đƣợc bức ảnh có nội dung cần tìm. Song song với sự phát triển của các
phƣơng tiện kỹ thuật số trong tƣơng lai số lƣợng ảnh sẽ còn tăng hơn nữa nhiều hơn
nữa. Nhu cầu chia sẻ hình ảnh cá nhân của đa số mọi ngƣời trên thế giới và Việt Nam
là rất lớn làm cho lƣợng hình ảnh khuôn mặt ngày càng tăng nhanh. Trên các trang
mạng xã hội, mỗi cá nhân đều có một số lƣợng hình ảnh lớn của bản thân và nhu cầu
kết bạn chia sẻ là rất lớn nên gặp khó khăn trong việc tìm hiểu thông tin bạn bè. Do
vậy nhu cầu thật sự đòi hỏi phải có một công cụ hỗ trợ tìm kiếm ảnh chính xác và hiệu
quả giúp cho ngƣời dùng có thể xác định đƣợc ngƣời mình muốn làm quen là ai, thông
tin liên quan đến bạn bè. Vì vậy tác giả chọn đề tài “Nghiên cứu và xây dựng hệ
thống xác định khuôn mặt chung nhất trong tập ảnh số” góp phần giải quyết và
đáp ứng nhu cầu này.
Khi tìm kiếm thông tin, ở đây là thông tin chủ nhân của tập ảnh gồm lƣợng lớn
hình ảnh, hình ảnh có thể chỉ là phong cảnh, có một ngƣời hay một tập thể gồm nhiều
ngƣời khác nhau thì chúng ta không thể giải quyết bằng cách tìm kiếm tuần tự đƣợc.
Tác giả giải quyết vấn đề này bằng cách sử dụng một thuật toán phân cụm. Cụm dữ
liệu nào có số lƣợng lớn nhất đảm bảo rằng đấy cá nhân xuất hiện nhiều nhất trong tập
ảnh cho trƣớc. Phân cụm là bài toán cổ điển đã đƣợc nhiều ngƣời nghiên cứu trƣớc
đây, nhƣng nó vẫn có vai trong quan trọng và cần thiết trong nghiên cứu khai phá dữ
liệu cũng nhƣ trong nhiều lĩnh vực đời sống: thƣơng mại, sinh học, phân tích dữ liệu

không gian. Đề tài này nghiên cứu phân cụm ảnh thành từng cụm rồi trích chọn khuôn
mặt có trong cụm có số lƣợng lớn nhất, dựa vào đó ta có thể tra cứu xác định khuôn
mặt chung nhất một cách nhanh chóng và chính xác từ một cơ sở dữ liệu ảnh cho
trƣớc. Có nhiều phƣơng pháp phân cụm khác nhau nhƣ K-Means, Hierarchical
Agglomerative Clustering (HAC). Mỗi phƣơng pháp có những ƣu điểm, thế mạnh
riêng, và có yêu cầu riêng về cách biểu diễn dữ liệu, độ đo. So sánh các thuật toán


11

khác nhau ở các phạm vi khác nhau là không đơn giản, do vậy việc đánh giá thƣờng
dựa vào chất lƣợng kết quả phân cụm. HAC là thuật toán phân cụm cây phân cấp có
tính gia tăng cao và tạo ra đƣợc một cây phân cấp dựa theo yếu tố nào đó, theo hƣớng
tiếp cận này khóa luận sẽ áp dụng phƣơng pháp phân cụm HAC để phân cụm dữ liệu
sau đó tìm ra cá nhân xuất hiện nhiều nhất trong kho ảnh cho trƣớc bằng cách xác định
cụm có số lƣợng khuôn mặt nhiều nhất.
1.2 Phát biểu bài toán
Hệ thống xác định khuôn mặt ngƣời là một hệ thống nhận đầu vào là một tập
ảnh có thể chứa nhiều khuôn mặt trong ảnh. Qua quá trình xử lý tính toán hệ thống
xác định đƣợc vị trí mặt ngƣời trong ảnh (nếu có) và xác định ngƣời nào là xuất hiện
nhiều nhất trong số những ngƣời hệ thống tách đƣợc.
1.2.1 Quy trình xử lý
Hệ thống gồm các bƣớc xử lý cơ bản sau
-

Dò tìm khuôn mặt
Trích rút đặc trƣng
Phân cụm

 Dò tìm khuôn mặt

Giai đoạn tách khuôn mặt từ ảnh ban đầu là một giai đoạn quan trọng và
khó khăn góp phần quan trọng đến kết quả nhận dạng, việc phát hiện
khuôn mặt từ ảnh ban đầu gắn với điều kiện không ổn định của dữ liệu ảnh: độ
sáng của ảnh, kích thƣớc và hƣớng của khuôn mặt, góc quay,… Vì vậy, với hệ
thống nhận dạng mặt ngƣời cần phải có một số tiêu chuẩn ràng buộc:
-

Ảnh với màu tự nhiên chiếu sáng và độ đậm đều (không quá tối và
không quá sáng)

-

Kích thƣớc của khuôn mặt không quá lớn hoặc quá nhỏ.

-

Khuôn mặt phải đƣợc chụp trực diện, mắt mở tự nhiên

-

Không có vật gì che khuôn mặt: mũ, khăn, tóc...

 Trích rút đặc trưng
Giai đoạn này là tìm ra các đặc trƣng chính của khuôn mặt, từ các đặc
trƣng này hình thành các véc tơ đặc trƣng, các vectơ này đƣợc sử dụng để đối
sánh sự giống nhau giữa ảnh khuôn mặt cần tìm để phân cụm xác định khuôn
mặt chung nhất giữa các bức ảnh.
 Xác định khuôn mặt chung nhất
Từ các đặc trƣng đã trích chọn ở trên tác giả áp dụng một thuật toán
phân cụm là phân cụm phân cấp để phân cụm các khuôn mặt nhóm các khuôn



12

mặt giống nhau về cùng một cụm. Khoảng cách Euclide đƣợc áp dụng để tính
toán khoảng cách giữa các đặc trƣng đƣợc trích rút cho ta biết đƣợc sự giống
nhau của các khuôn mặt. Cụm có số lƣợng lớn nhất chứa khuôn mặt chung nhất
trong tập ảnh
1.2.2 Những khó khăn, thách thức
Những bài toán liên quan đến xử lý khuôn mặt là một trong những bài toán khó
nên những nghiên cứu hiện tại vẫn chƣa đạt đƣợc kết quả mong muốn. Chính vì vậy
vấn đề này vẫn đang đƣợc nhiều nhóm tác giả trên thế giới quan tâm nghiên cứu.
Những khó khăn, thách thức của bài toán có thể kể đến nhƣ sau:
 Tư thế, góc chụp: Ảnh chụp khuôn mặt có thể thay đổi rất nhiều bởi vì góc
chụp giữa camera và khuôn mặt. Chẳng hạn nhƣ: chụp thẳng, chụp
nghiêng bên trái
, hay nghiêng bên phải
, chụp từ trên xuống, chụp từ
dƣới lên,... Với các tƣ thế khác nhau, các thành phần trên khuôn mặt nhƣ mắt,
mũi, miệng có thể bị khuất một phần hoặc thậm chí khuất hết.
 Sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt: Các đặ trƣng
nhƣ: râu mép, râu hàm, mắt kính,... có thể xuất hiện hoặc không. Vấn đề này
làm cho bài toán càng trở nên khó hơn rất nhiều.
 Sự biểu cảm của khuôn mặt: Biểu cảm của khuôn mặt ngƣời có thể làm ảnh
hƣởng đáng kể lên các thông số của khuôn mặt. Chẳng hạn, cùng một khuôn
mặt một ngƣời, nhƣng có thể sẽ rất khác khi họ cƣời hoặc sợ hãi,...
 Sự che khuất: Khuôn mặt có thể bị che khuất bởi các đối tƣợng khác hoặc các
khuôn mặt khác.
 Hướng của ảnh: Các ảnh của khuôn mặt có thể biến đổi rất nhiều với các góc
quay khác nhau của trục camera. Chẳng hạn chụp với trục máy ảnh nghiêng

làm cho khuôn mặt bị nghiêng so với trục của ảnh.
 Điều kiện của ảnh: Ảnh đƣợc chụp trong các điều kiện khác nhau về: chiếu
sáng, về tính chất camera (máy kỹ thuật số, máy hồng ngoại,v.v...) ảnh hƣởng
rất nhiều đến chất lƣợng ảnh khuôn mặt.
Những khó khăn đã nêu trên cho chúng ta thấy tầm quan trọng của giai đoạn dò
tìm khuôn mặt có sự ảnh hƣởng rất lớn tới hiệu quả của các giai đoạn sau đó là trích
rút đặc trƣng và xác định khuôn mặt chung nhất.
1.3 Một số phƣơng pháp xác định khuôn mặt
Dựa vào tính chất của các phƣơng pháp xác định mặt ngƣời trong các bức ảnh,
các phƣơng pháp này đƣợc chia thành bốn loại chính, tƣơng ứng với bốn hƣớng[1] tiếp
cận khác nhau. Ngoài ra cũng có rất nhiều nghiên cứu mà phƣơng pháp xác định mặt
ngƣời không chỉ dựa vào một hƣớng mà có liên quan đến nhiều hƣớng.


13

 Hƣớng tiếp cận dựa trên tri thức: Dựa vào sự hiểu biết của con ngƣời về các
loại khuôn mặt để mã hóa các đặc trƣng và quan hệ giữa các đặc trƣng của
khuôn mặt thành các luật.
 Hƣớng tiếp cận dựa trên đặc trƣng không thay đổi: Các thuật toán trong hƣớng
tiếp cận này thƣơng tìm các đặc trƣng của khuôn mặt mà các đặc trƣng này
không thay đổi khi tƣ thế khuôn mặt, vị trí đặt thiết bị hay điều kiện ánh sáng
bị thay đổi.
 Hƣớng tiếp cận dựa trên so sánh khớp mẫu: Dùng các mẫu chuẩn của khuôn
mặt ngƣời (các mẫu này đã đƣợc chọn lựa và lƣu trữ) để mô tả cho các khuôn
mặt hay các đặc trƣng của khuôn mặt (các mẫu này đƣợc chọn tách biệt theo
tiêu chuẩn đã đƣợc các tác giả đề ra để so sánh). Phƣơng pháp này cho ta thấy
các mối tƣơng quan giữa dữ liệu ảnh đƣa vào và các mẫu dùng để xác định
khuôn mặt ngƣời.
 Hƣớng tiếp cận dựa trên diện mạo: Trái ngƣợc hẳn với hƣớng tiếp cận dựa trên

so khớp mẫu, các mô hình (hay các mẫu) sẽ đƣợc học từ một tập ảnh huấn
luyện trƣớc đó theo một phƣơng pháp học nào đó thể hiện tính chất tiêu biểu
của sự xuất hiện của mặt ngƣời trong ảnh. Sau đó hệ thống (mô hình) sẽ xác
định khuôn mặt ngƣời. Phƣơng pháp này còn đƣợc biết đến với tên gọi tiếp
cận theo các phƣơng pháp học máy
1.3.1 Hƣớng tiếp cận dựa trên tri thức
Trong hƣớng tiếp cận này, các phƣơng pháp xác định mặt ngƣời đƣợc xây dựng
dựa vào các luật, các luật này phụ thuộc vào tri thức của các tác giả nghiên cứu về bài
toán xác định khuôn mặt. Có thể xây dựng các luật cơ bản để mô tả các đặc trƣng của
khuôn mặt và các quan hệ tƣơng ứng. Ví dụ, một khuôn mặt thƣờng có hai mắt đối
xứng qua trục thẳng đứng giữa khuôn mặt và có một mũi một miệng. Các quan hệ đặc
trƣng có thể là quan hệ về vị trí và khoảng cách tƣơng đối. Khó khăn của hƣớng tiếp
cận này đó là làm thế nào để chuyển các tri thức của con ngƣời về khuôn mặt sang các
luật cho máy tính một cách hiệu quả. Nếu các luật này quá chi tiết, chặt chẽ thì sẽ có
thể xác định thiếu các khuôn mặt có trong ảnh, nhƣng nếu các luật quá tổng quát thì sẽ
dẫn đến xác định sai khu vực không phải là khuôn mặt thành khuôn mặt. Ngoài ra
cũng khó để mở rộng phạm vi của bải toán để xác định các khuôn mặt có nhiều tƣ thế
khác nhau.
Có nhiều cách để xây dựng chƣơng trình xác định mặt ngƣời theo hƣớng tiếp
cận dựa trên tri thức. Thông thƣờng chƣơng trình sẽ đƣợc xây dựng theo hƣớng dựa
vào một phƣơng pháp nào đấy chọn ra các ứng viên trong bức ảnh trƣớc, sau đó sẽ áp
dụng các luật để xác định ứng viên nào là khuôn mặt, ứng viên nào không phải là
khuôn mặt. Quá trình này có thể đƣợc áp dụng nhiều lần để giảm sai sót. Các luật đƣợc


14

xây dựng dựa vào tri thức của ngƣời nghiên cứu về các đặc trƣng của khuôn mặt (ví
dụ nhƣ cƣờng độ phân phối, sự khác nhau) của vùng trên khuôn mặt
Yang và Huang đã sử dụng hƣớng tiếp cận dựa trên tri thức để xác định khuôn

mặt [2]. Hệ thống của hai tác giả bao gồm ba mức luật. Đầu tiên các ông sử dụng một
khung cửa sổ để quét trên bức ảnh và thông qua một số tập luật để xác định các ứng
viên có thể là mặt ngƣời, ví dụ nhƣ tìm phần trung tâm của khuôn mặt (phần tối hơn
trong hình 1.1). Tiếp theo, dùng một tập luật để mô tả tổng quát hình dáng khuôn mặt,
lọc các ứng viên ở mức một thành một tập các ứng viên mới có xác xuất là khuôn mặt
cao hơn. Cuối cùng lại dùng một tập luật khác để xem xét ở mức chi tiết các đặc trƣng
khuôn mặt ( có thể là đặc trƣng về mắt, mũi, miệng … ), từ đó lọc ra các ứng viên
chính xác nhất. Có thể nói cách làm của hai tác giả là một cách làm mịn dần để đạt
đƣợc kết quả tốt nhất, mặc dù tỷ lệ chính xác chƣa cao, nhƣng đây là tiền đề cho nhiều
nghiên cứu sau này.
Kotropoulos và Pitas đƣa ra một phƣơng pháp gần tƣơng tự với Yang và Huang
dùng trên độ phân giải thấp. Đầu tiên, các vùng của khuôn mặt đƣợc định vị bởi
phƣơng pháp chiếu để xác định biên của khuôn mặt. Với I(x,y) là giá trị xám của một
điểm trong ảnh có kích thƣớc m x n ở tại vị trí (x,y), các hàm để chiếu ảnh theo
phƣơng ngang và thẳng đứng đƣợc định nghĩa nhƣ sau:
HI(x) =

và VI(y) =

(1.1)

Dựa trên biểu đồ hình chiếu ngang, khi xét biểu đồ biến thiên của HI hai ông tìm
đƣợc hai cực tiểu địa phƣơng tƣơng ứng với hai đỉnh đầu bên trái và bên phải của
khuôn mặt. Còn theo hình chiếu dọc, xét biến thiên và tìm cực tiểu địa phƣơng của VI
cũng cho ta các vị trí của miệng, đỉnh mũi và hai mắt. Các đặc trƣng này đủ để xác
định khuôn mặt. Cách xác định này có tỷ lệ xác định chính xác là 86.5% cho trƣờng
hợp chỉ có một khuôn mặt thẳng trong ảnh và hình nền không phức tạp. Nếu hình nền
phức tạp thì rất khó tìm. Còn nếu ảnh có nhiều khuôn mặt thì sẽ không xác định đƣợc.
1.3.2 Hƣớng tiếp cận dựa trên đặc trƣng không thay đổi
Tiếp cận dựa trên các đặc trƣng không thay đổi là tiếp cận theo kiểu bottom up.

Dựa trên thực tế, chúng ta cố gắng tìm ra những đặc điểm không thay đổi khi của
khuôn mặt khi ở các tƣ thế khác nhau và các điều kiện môi trƣờng nhƣ ánh sáng khác
nhau. Đã có rất nhiều nghiên cứu về hƣớng tiếp cận này, các đặc điểm không thay đổi
đƣợc tìm thấy nhƣ lông mày, mắt, mũi, miệng hay các đƣờng viền trên tóc … Trên cơ
sở các đặc trƣng này, các nhà nghiên cứu xây dựng lên một mô hình thống kê mô tả
quan hệ của các đặc trƣng và từ đó xác định sự xuất hiện của khuôn mặt trong bức ảnh.
Khó khăn của hƣớng tiếp cận này đó là phải mô tả các đặc trƣng không thay đổi và
quan hệ giữa chúng phù hợp với điều kiện ánh sáng, độ nhiễu hay bị che khuất.


15

Có rất nhiều nghiên cứu về các đặc trƣng của khuôn mặt. Có thể dựa vào các đặc
trƣng nhƣ hai mắt, hai lỗ mũi, miệng, phần nối giữa mũi và miệng … hoặc dựa vào
đƣờng viền của khuôn mặt.
Leung đã đƣa ra một mô hình xác xuất để xác định khuôn mặt trong ảnh có hình
nền phức tạp dựa trên việc tìm kiếm các đặc trƣng không thay đổi của khuôn mặt trong
ảnh, sau đó dùng đồ thị ngẫu nhiên để xác định khuôn mặt. Tƣ tƣởng của phƣơng pháp
này đó là xem bài toán xác định khuôn mặt nhƣ là bài toán tìm kiếm với mục tiêu là
tìm thứ tự các đặc trƣng không thay đổi của khuôn mặt. Dùng năm đặc trƣng (hai mắt,
hai lỗ mũi, phần nối giữa mũi và miệng) để mô tả một khuôn mặt. Đồng thời tính quan
hệ khoảng cách cho tất cả các cặp đặc trƣng (nhƣ mắt trái, mắt phải), sau đấy dùng
phân bố Gauss để mô hình hóa. Một mẫu khuôn mặt đƣợc đƣa ra thông qua trung bình
tƣơng ứng cho một tập đa hƣớng, đa tỷ lệ của bộ lọc đạo hàm Gauss. Từ một ảnh, các
đặc trƣng của ứng viên đƣợc xác định bằng cách so khớp từng điểm ảnh khi lọc tƣơng
ứng với vector mẫu. Hai ứng viên có đặc trƣng đứng đầu sẽ đƣợc chọn để tìm kiếm
cho các đặc trƣng khác của khuôn mặt. Từ các đặc trƣng không thay đổi, các đặc trƣng
khác sẽ đƣợc xác định thông qua sự đánh giá xác xuất khoảng cách giữa các đặc trƣng,
hơn nữa phƣơng sai của phép thống kê này có thể đƣợc tính toán trƣớc để xác định các
đặc trƣng với xác xuất lớn.

Bên cạnh tính khỏang cách liên quan để mô tả quan hệ giữa các đặc trƣng nhƣ
Leung. Kendall [3], Mardia and Dryden [4] dùng lý thuyết xác suất thống kê về hình
dáng. Dùng hàm mật độ xác suất (Probility Density Function - PDF) qua N điểm đặc
trƣng, tƣơng ứng (xi, yi) là đặc trƣng thứ i với giả sử là phân bố Gauss có 2N-chiều.
Các tác giả áp dụng phƣơng thức cực đại khả năng (Maximum-Likelihood - ML) để
xác định vị trí khuôn mặt. Một thuận lợi của phƣơng pháp này là các khuôn mặt bị che
khuất vẫn có thể xác định đƣợc. Hạn chế phƣơng pháp này đó là không xác định đƣợc
nhiều khuôn mặt trong cùng một ảnh.
Không dùng phƣơng pháp xác xuất, Sirohey đƣa một phƣơng pháp khác xác
định khuôn mặt từ một ảnh có hình nền phức tạp [5]. Phƣơng pháp dựa trên cạnh.
Dùng phƣơng pháp Candy [6] và heuristics loại bỏ các cạnh để còn lại duy nhất một
đƣờng bao xung quanh khuôn mặt. Một hình ellipse dùng để bao khuôn mặt, tách biệt
vùng đầu và hình nền. Tỷ lệ chính xác của thuật toán là 86%.
Graf đƣa ra một phƣơng pháp xác định đặc trƣng rồi xác định khuôn mặt trong
ảnh xám [7]. Dùng bộ lọc để làm nổi các biên, các phép toán hình thái học
(morphology) đƣợc dùng để làm nổi bật các vùng có cƣờng độ cao và hình dáng chắc
chắn (nhƣ mắt). Thông qua histogram để tìm các đỉnh nổi bật để xác định các ngƣỡng
chuyển ảnh xám thành hai ảnh nhị phân. Các thành phần dính nhau đều xuất hiện
trong hai ảnh nhị phân thì đƣợc xem là vùng của ứng viên khuôn mặt rồi phân loại
xem có phải là khuôn mặt không. Phƣơng pháp đƣợc kiểm tra trên các ảnh chỉ có đầu


16

và vai của ngƣời. Tuy nhiên phƣơng pháp này còn một vấn đề đấy là sử dụng các phép
toán morphology nhƣ thế nào và làm sao xác định khuôn mặt trên các vùng ứng viên.
Park dùng Gaze để tìm ứng viên góc mắt, miệng và tâm mắt [8]. Ông xây dựng
SVM (Support Vector Machine) đã đƣợc học trƣớc đó để xác định các vị trí ứng viên
có phải là góc mắt, miệng, và tâm mắt hay không để theo vết con mắt ngƣời.
1.3.3 Hƣớng tiếp cận dựa trên so khớp mẫu

Trong hƣớng tiếp cận dựa trên so sánh khớp mẫu, các mẫu chuẩn của khuôn mặt
(thƣờng là khuôn mặt đƣợc chụp thẳng) sẽ đƣợc xác định trƣớc hoặc đƣợc biểu diễn
thành một hàm với các tham số cụ thể. Từ một ảnh đƣa vào, tính các giá trị tƣơng quan
so với các mẫu chuẩn về đƣờng viền khuôn mặt, mắt, mũi và miệng. Thông qua các
giá trị tƣơng quan này mà hệ thống sẽ quyết định có hay không có tồn tại khuôn mặt
trong ảnh. Hƣớng tiếp cận này có lợi thế là rất dễ cài đặt, nhƣng không hiệu quả khi tỷ
lệ, tƣ thế, và hình dáng thay đổi.
Sakai đã cố gắng thử xác định khuôn mặt ngƣời chụp thẳng trong ảnh [9]. Ông
dùng vài mẫu con ( sub template ) về mắt, mũi, miệng, và đƣờng viền khuôn mặt để
mô hình hóa một khuôn mặt. Mỗi mẫu con đƣợc định nghĩa trong giới hạn của các
đoạn thẳng. Các đƣờng thẳng trong ảnh đƣợc trích bằng cách xem xét thay đổi của hệ
số góc và so khớp các mẫu con. Đầu tiên tìm các ứng viên thông qua mối tƣơng quan
giữa các ảnh con và các mẫu về đƣờng viền. Sau đó, so khớp với các mẫu con khác.
Hay nói một cách khác, giai đoạn đầu xem nhƣ là giai đoạn sơ chế để tìm ứng viên,
giai đọan thứ hai là giai đoạn tinh chế để xác định ứng viên có phải là khuôn mặt hay
không. Ý tƣởng này đƣợc duy trì cho đến các nghiên cứu sau này.
Craw đƣa ra một phƣơng pháp xác định khuôn mặt ngƣời dựa vào các mẫu về
hình dáng của các ảnh đƣợc chụp thẳng (dùng vẻ bề ngoài của hình dáng khuôn mặt).
Đầu tiên dùng phép lọc Sobel (Phép lọc Sobel dựa vào tích vô hƣớng của hai vector
gradient) để tìm các cạnh. Các cạnh này sẽ đƣợc nhóm lại theo một số ràng buộc. Sau
đó, tìm đƣờng viền của đầu, quá trình tƣơng tự đƣợc lặp đi lặp lại với mỗi tỷ lệ khác
nhau để xác định các đặc trƣng khác nhƣ: mắt, lông mày, và môi. Sau đó Craw mô tả
một phƣơng thức xác định dùng một tập có 40 mẫu để tìm các đặc trƣng khuôn mặt
và điều khiển chiến lƣợc dò tìm.
Một số nhà nghiên cứu sử dụng hình chiếu nhƣ các mẫu để xác định khuôn mặt
ngƣời. Silhouettes dùng Principal Component Analysis [10] (phân tích thành phần
chính – Principal Component Analysis - PCA) để có một tập hình chiếu cơ bản từ các
mẫu khuôn mặt, hình chiếu đƣợc mô tả nhƣ một mảng các bit. Dùng đặc trƣng hình
chiếu riêng kết hợp biến đổi Hough để xác định khuôn mặt ngƣời. Sau đó một phƣơng
pháp xác định dựa trên đa loại mẫu để xác định các thành phần của khuôn mặt đƣợc

trình bày. Phƣơng pháp này định nghĩa một số giả thuyết để mô tả các khả năng của
các đặc trƣng khuôn mặt.


17

1.3.4 Hƣớng tiếp cận dựa trên diện mạo
Trái ngƣợc với hƣớng tiếp cận dựa trên so sánh khớp mẫu (các mẫu đã đƣợc các
nhà nghiên cứu định nghĩa trƣớc), các mẫu trong hƣớng tiếp cận này đƣợc học từ một
tập ảnh mẫu. Có thể nói hƣớng tiếp cận dựa trên diện mạo áp dụng các kỹ thuật theo
hƣớng xác suất thống kê và học máy để tìm những đặc tính liên quan của khuôn mặt
và không phải là khuôn mặt. Các đặc tính đã đƣợc học ở trong hình thái các mô hình
phân bố hay các tham số của một hàm số nên có thể dùng các đặc tính này để xác định
khuôn mặt ngƣời. Đồng thời, bài toán giảm số chiều thƣờng đƣợc quan tâm để tăng
hiệu quả tính toán cũng nhƣ hiệu quả xác định.
Trong hƣớng tiếp cận này, phƣơng pháp xác xuất tiếp tục đƣợc nhiều nhà nghiên
cứu sử dụng. Một bức ảnh hoặc một vector (đặc trƣng cho bức ảnh) đƣợc xem nhƣ một
biến ngẫu nhiên. Biến ngẫu nhiên này sẽ đƣợc xác định là có mô tả các đặc tính của
khuôn mặt hay không thông qua các xác xuất có điều kiện p(x/face) và p(x/nonface).
Có thể dùng bộ phân loại Bayesian để phân loại các ứng viên là khuôn mặt hay không
phải khuôn mặt. Tuy nhiên, việc cài đặt bộ phân loại Bayesian với số chiều x lớn là
một điều khá khó khăn, do đó có rất nhiều nghiên cứu theo hƣớng tiếp cận này quan
tâm tới việc tham số hóa hay không tham số các xác xuất p(x/face) và p(x/nonface).
Một các tiếp cận khác trong hƣớng tiếp cận dựa trên diện mạo là tìm một hàm
biệt số ví dụ nhƣ các hàm mô tả mặt phẳng hay siêu phẳng quyết định (các ranh giới)
để phân biệt hai lớp khuôn mặt và không phải khuôn mặt. Thông thƣờng, một bức ảnh
đƣợc chiếu vào không gian có số chiều ít hơn rồi sau đó dùng một hàm biệt số (dựa
trên các độ đo khoảng cách) để phân loại hoặc xây dựng một mặt quyết định phi tuyến
bằng mạng neural đa tầng. Ngoài ra có thể dùng SVM (Super Vector Machine)[11]
chiếu các mẫu vào không gian có số chiều cao hơn để dữ liệu bị rời rạc hoàn toàn và từ

đó có thể sử dụng mặt phẳng phân loại để phân loại các mẫu là khuôn mặt hay không
phải là khuôn mặt.
1.4 Kết luận chƣơng 1
Trong chƣơng này, tác giả đã phát biểu và đặt vấn đề cho bài toán. Bên cạnh đó,
tác giả cũng phân tích: những ƣu, nhƣợc điểm, các khó khăn thách thức của lớp bài
toán đã đặt ra trong luận văn. Để giải quyết yêu cầu đặt ra của luận văn, tác giả đi sâu
nghiên cứu và giải quyết hai vấn đề chính: Vấn đề thứ nhất, giới thiệu trình tự các
bƣớc giải quyết cho lớp bài toán. Vấn đề thứ hai, nghiên cứu và xây dựng ứng dụng
hệ thống xác định khuôn mặt chung nhất trong một tập ảnh cho trƣớc.


18

CHƢƠNG 2: CƠ SỞ LÝ THUYẾT
Trong chƣơng này tác giả sẽ trình bày tổng quan lý thuyết để giải quyết bài toán
bao gồm lý thuyết thuật toán, phƣơng pháp của các giai đoạn nhƣ phát hiện khuôn mặt,
trích rút đặc trƣng, và xác định khuôn mặt chung nhất trong tập ảnh cho trƣớc.
2.1 Phát hiện khuôn mặt
2.1.1 Các đặc trƣng giống Haar
Viola và Jones dùng 4 đặc trƣng cơ bản [18] để xác định khuôn mặt ngƣời. Mỗi
đặc trƣng Haar–like là sự kết hợp của hai hay ba hình chữ nhật "trắng" hay "đen" nhƣ
trong hình sau:

Hình 2.1: Bốn đặc trưng Haar-like cơ bản
Để áp dụng các đặc trƣng này vào việc bài toán xác định mặt ngƣời, 4 đặc trƣng
Haar-like cơ bản đƣợc mở rộng ra, và đƣợc chia làm 3 tập đặc trƣng nhƣ sau:
1

Đặc trưng cạnh (edge features):


2. Đặc trưng đường (line features):

3. Đặc trưng xung quanh tâm (center-surround features):

Hình 2.2: Các đặc trưng mở rộng của các đặc trưng Haar-like cơ sở
Lợi ích của các đặc trƣng Haar-like là nó diễn đạt đƣợc tri thức về các đối tƣợng
trong ảnh (bởi vì nó biểu diễn mối liên hệ giữa các bộ phận của đối tƣợng), điều mà
bản thân từng điểm ảnh không diễn đạt đƣợc. Để tính giá trị các đặc trƣng haar-like, ta
tính sự chênh lệch giữa tổng của các pixel của các vùng đen và các vùng trắng nhƣ
trong công thức sau:
f(x) = Tổngvùng đen(pixel) - Tổngvùng trắng(pixel)

(2.1)


19

Nhƣ vậy ta có thể thấy rằng, để tính các giá trị của đặc trƣng Haar-like, ta phải
tính tổng của các vùng pixel trên ảnh. Nhƣng để tính toán các giá trị của các đặc trƣng
Haar-like cho tất cả các vị trí trên ảnh đòi hỏi chi phí tính toán khá lớn, không đáp ứng
đƣợc cho các ứng dụng đòi hỏi tính run-time. Do đó Viola và Jones đƣa ra một khái
niệm gọi là Integral Image để tính toán nhanh cho khác feature cơ bản. Sau này,
Lienhart kế thừa gọi Integral Image là SAT – Summed Area Table và đƣa ra thêm khái
niệm RSAT – Rotated Summed Area Table dùng để tính toán nhanh cho các đặc trƣng
xoay 1 góc 45o. Integral Image là một mảng 2 chiều với kích thƣớc bằng với kích của
ảnh cần tính các đặc trƣng Haar-like, với mỗi phần tử của mảng này đƣợc tính bằng
cách tính tổng của điểm ảnh phía trên (dòng-1) và bên trái (cột-1) của nó. Bắt đầu từ vị
trí trên, bên trái đến vị trí dƣới, phải của ảnh, việc tính toán này đơn thuần chỉ đựa trên
phép cộng số nguyên đơn giản, do đó tốc độ thực hiện rất nhanh.


P(x,y)

(2.2)
Hình 2.3: Cách tính Integral Image của ảnh
Sau khi đã tính đƣợc Integral Image, việc tính tổng điểm ảnh của một vùng bất
kỳ nào đó trên ảnh thực hiện rất đơn giản theo cách sau: (Giả sử ta cần tính tổng điểm
ảnh của vùng D nhƣ trong hình 2.4:
D = A + B + C + D – (A+B) – (A+C) + A
Với A + B + C + D chính là giá trị tại điểm P4 trên Integral Image, tƣơng tự nhƣ
vậy A+B là giá trị tại điểm P2, A+C là giá trị tại điểm P3, và A là giá trị tại điểm P1.
Vậy ta có thể viết lại biểu thức tính D ở trên nhƣ sau:
(2.3)
A

P1

C

B

P2

D
P3

P4

Hình 2.4: Cách tính nhanh tổng các điểm ảnh của vùng D trên ảnh



20
B
2

A
1

D

3
4

RSAT(x,y)
(a)

C

(b)

Hình 2.5: Cách tính nhanh tổng điểm ảnh của vùng D trên ảnh với các đặc trưng
xoay 45o
Với các đặc trƣng Haar-like xoay 45o Integral Image tại một điểm (x, y) đƣợc
tính theo công thức:
(2.4)
Tổng pixel của một vùng bất kỳ trên ảnh vẫn đƣợc tính theo cách sau:
D = A + B + C + D – (A+B) – (A+C) + A
Nhƣ vậy tổng các điểm ảnh trong một hình chữ nhật (kể cả trƣờng hợp xoay 45º)
bất kì đều có thể đƣợc tính nhanh dựa trên integral image tại 4 đỉnh của nó :
Sum (D ) = 4 - 2 – 3 + 1
2.1.2 Phƣơng pháp Adaboost

Nhƣ đã biết, AdaBoost [18] ( Adaptive Boost ) là một bộ phân loại mạnh phi
tuyến phức dựa trên hƣớng tiếp cận boosting đƣợc Freund và Schapire đƣa ra vào năm
1995. Adaboost hoạt động trên nguyên tắc kết hợp tuyến tính các weak classifier dựa
trên các đặc trƣng Haar- Line để hình thành một strong classifier.
Để có thể kết hợp các bộ phân loại yếu, adaboost sử dụng một trọng số (weight)
để đánh dấu các mẫu khó nhận dạng. Trong quá trình huấn luyện, cứ mỗi weak
classifier đƣợc xây dựng, thuật toán sẽ tiến hành cập nhật lại trọng số để chuẩn bị cho
việc xây dựng weak classifier tiếp theo: tăng trọng số của các mẫu bị nhận dạng sai và
giảm trọng số của các mẫu đƣợc nhận dạng đúng bởi weak classifier vừa xây dựng.
Bằng cách này, các weak classifier sau có thể tập trung vào các mẫu mà các weak
classifier trƣớc đó chƣa thực hiện tốt. Sau cùng các weak classifier sẽ đƣợc kết hợp tùy
theo mức độ „tốt‟ của chúng để tạo nên một strong classifier.
Các weak classifiers hk(x) là các bộ phân loại yếu, đƣợc biểu diễn nhƣ sau:
(2.5)


21

Trong đó:
X : mẫu hay cửa sổ con cần xét ( X = (x1,x2,…,xn) là vector đặc trƣng của mẫu)
Ok: ngƣỡng (O = teta)
fk: giá trị của đặc trƣng Haar-like
pk: hệ số quyết định chiều của bất phƣơng trình
Công thức trên có thể diễn giải nhƣ sau: Nếu giá trị đặc trƣng của mẫu cho bởi
hàm đánh giá của bộ phân loại vƣợt qua một ngƣỡng cho trƣớc thì mẫu đấy là khuôn
mặt ( gọi là object : đối tƣợng cần nhận dạng ), ngƣợc lại thì mẫu là background (
không phải là đối tƣợng ).
Thuật toán AdaBoost:
1. Cho một tập gồm n mẫu có đánh dấu (x1,y1), (x2,y2),… (xn,yn) với xk ∈
(xk1, xk2, … , xkm) là vector đặc trƣng và yk ∈ (-1, 1) là nhãn của mẫu (1

ứng với object, -1 ứng với background).
2. Khởi tạo trọng số ban đầu cho tất cả các mẫu: với m là số mẫu đúng
(ứng với object và y = 1) và l là số mẫu sai (ứng với background và y =
-1).

3. Xây dựng T weak classifiers
Lặp t = 1, …, T
 Với mỗi đặc trƣng trong vector đặc trƣng, xây dựng một weak
classifier hj với ngƣỡng θj và lỗi εj.

 Chọn ra hj với εj nhỏ nhất, ta đƣợc ht:
 Cập nhật lại trọng số:

 Trong đó:

: Hệ số dùng để đƣa

về đoạn [0,1] (normalization factor)

4. Strong classifier đƣợc xây dựng :
Hình 2.6: Thuật toán Adaboost


22

Quá trình huấn luyện bộ phân loại đƣợc thực hiện bằng một vòng lặp mà ở mỗi
bƣớc lặp, thuật toán sẽ chọn ra weak classifier ht thực hiện việc phân loại với lỗi εt nhỏ
nhất (do đó sẽ là bộ phân loại tốt nhất) để bổ sung vào strong classifier. Mỗi khi chọn
đƣợc 1 bộ phân loại ht, Adaboost sẽ tính giá trị αt theo công thức ở trên. αt cũng đƣợc
chọn trên nguyên tắc làm giảm thiểu giá trị lỗi εt.

Hệ số αt nói lên mức độ quan trọng của ht:
 Trong công thức của bộ phân loại H(x):
(2.6)
Ta thấy tất cả các bộ phân loại ht đều có đóng góp vào kết quả của bộ
phân loại H(x), và mức độ đóng góp của chúng phụ thuộc vào giá trị αt tƣơng
ứng: ht với αt càng lớn thì nó càng có vài trò quan trọng trong H(x).
 Trong công thức tính αt:
(2.7)
Dễ thấy giá trị αt tỉ lệ nghịch với εt. Bởi vì ht đƣợc chọn với tiêu chí đạt εt
nhỏ nhất, do đó nó sẽ đảm bảo giá trị αt lớn nhất.
Sau khi tính đƣợc giá trị αt, Adaboost tiến hành cập nhật lại trọng số của các
mẫu: tăng trọng số các mẫu mà ht phân loại sai, giảm trọng số các mẫu mà ht phân loại
đúng. Bằng cách này, trọng số của mẫu phản ánh đƣợc mức độ khó nhận dạng của
mẫu đó và ht+1 sẽ ƣu tiên học cách phân loại những mẫu này.
Vòng lặp xây dựng strong classifier sẽ dừng lại sau T lần lặp. Trong thực tế cài
đặt (thƣ viện OpenCV của Intel), ngƣời ta ít sử dụng giá trị T vì không có công thức
nào đảm bảo tính đƣợc giá trị T tối ƣu cho quá trình huấn luyện. Thay vào đó, ngƣời ta
sử dụng giá trị max false positive hay max false alarm (tỉ lệ nhận dạng sai tối đa các
mẫu background). Tỉ lệ này của bộ phân loại cần xây dựng không đƣợc phép vƣợt quá
giá trị này. Khi đó, qua các lần lặp, false alarm của strong classifier Ht(x) xây dựng
đƣợc (tại lần lặp thứ t) sẽ giảm dần, và vòng lặp kết thúc khi tỉ lệ này thấp hơn max
false alarm.
2.2 Tổng quan về các phƣơng pháp trích rút đặc trƣng
Hiện nay có rất nhiều các phƣơng pháp trích dẫn dữ liệu từ khuôn mặt, mỗi
phƣơng pháp có những ƣu nhƣợc điểm và đặc điểm riêng nhƣng theo cách
thức mà những phƣơng pháp và hình thức của dữ liệu đƣợc trích dẫn thì chia ra làm 2
hƣớng tiếp cận chính:
Thứ nhất, hƣớng tiếp cận dựa trên đặc trƣng hình học là hƣớng tiếp cận dựa vào
các bức ảnh trực diện khuôn mặt lấy từ khâu phát hiện khuôn mặt, trích chọn đặc trƣng



23

về hình học biểu diễn hình dáng, vị trí các phần của khuôn mặt nhƣ mắt, mũi, miệng,
lông mày. Cụ thể xác định một số các điểm đặc trƣng trên khuôn mặt: 2 mống mắt,
điểm chính giữa miệng, khóe miệng, một số các điểm khác ở vùng trán, mắt,…
Thứ hai, hƣớng tiếp cận dựa trên đặc trƣng diện mạo là hƣớng tiếp cận dựa vào
cấu trúc phân bổ của cƣờng độ sáng của điểm ảnh trên bề mặt của bức ảnh để trích
chọn các đặc trƣng.
Trong đó trích chọn đặc trƣng diện mạo có ƣu điểm là ít phức tạp hơn phƣơng
pháp trích chọn đặc trƣng hình học, các khâu ít hơn nhƣng độ chính xác thƣờng thấp
hơn. Tùy thuộc vào yêu cầu hệ thống chúng ta có thể áp dụng các phƣơng pháp khác
nhau. Tuy nhiên kết quả tối ƣu nếu chúng ta áp dụng cả hai phƣơng pháp trên xuất
hiện phƣơng pháp thứ ba là phƣơng pháp lai giữa hai phƣơng pháp sử dụng đặc trƣng
hình học và đặc trƣng diện mạo.
2.2.1 Phƣơng pháp trích chọn đặc trƣng hình học
Yang [11] đã phát triển một hệ thống thời gian thực để xác định và theo vết
các điểm đặc trƣng nhƣ mống mắt, khóe miệng hay lỗ mũi. Phƣơng pháp tìm kiếm 2
vùng mắt là 2 vùng tối nhất và sử dụng các điều kiện về hình học nhƣ vị trí bên trong
mặt, kích thƣớc và hình dáng để xác định. Phƣơng pháp dùng phép lặp lấy ngƣỡng để
phát hiện ra vùng tối nhất với điều kiện ánh sáng thay đổi. Xác định lỗ mũi cũng
tƣơng tự nhƣ xác định 2 mống mắt.
Phƣơng pháp trên có một số những ƣu điểm nhƣ thỏa mãn điều kiện thực thi với
thời gian thực. Một số phƣơng pháp có thể áp dụng với những độ phân giải khác nhau
(với cả độ phân giải thấp), tuy nhiên vẫn có trƣờng hợp phát hiện ra lông mày thay vì
mắt. Tian [13] đã giải quyết vấn đề bằng cách phát hiện cả vùng mắt và lông mày.
Bằng cách đó, không chỉ trích chọn đƣợc thêm đặc trƣng mà tỷ lệ chính xác còn đƣợc
tăng lên. Đối với xác định khóe miệng, trƣờng hợp sai là khi miệng không ở trạng
thái bình thƣờng và phƣơng pháp áp dụng đối với mặt trực diện hoặc gần trực diện.
2.2.2 Phƣơng pháp trích chọn đặc trƣng diện mạo

Một dạng khác của trích chọn đặc trƣng là trích trọn đặc trƣng diện mạo để xác
định những thay đổi trên khuôn mặt. Đặc trƣng về diện mạo biểu diễn sự thay đổi
vẻ bề ngoài: kết cấu da nhƣ các nếp nhăn trên khuôn mặt; biểu đồ nhiệt của khuôn mặt:
các mẫu nhiệt khuôn mặt là duy nhất với mỗi ngƣời và đặc trƣng về nụ cƣời.
Các đặc trƣng về diện mạo có thể đƣợc trích rút trên cả khuôn mặt hoặc phần
nào đó trên khuôn mặt. Một số phƣơng pháp tiểu biểu nhƣ : Principal component
analysis (PCA) [10,14], Gabor Wavelet Analysis [19] và Local Binary Pattern
[15, 16] và đƣợc áp dụng trên toàn bộ bề mặt bức ảnh hoặc một phần để trích ra các
đặc trƣng và phát hiện sự thay đổi của khuôn mặt.


24

2.3 Phƣơng pháp phân tích thành phần chính
2.3.1 Sơ lƣợc đại số tuyến tính
 Vector riêng, trị riêng và sự chéo hóa của ma trận
Cho A là một ma trận vuông cấp n trên trƣờng K. Một số   K đƣợc gọi là giá
trị riêng của ma trận A nếu tồn tại vectơ u khác không u  K n , sao cho thỏa mãn điều
kiện A(u)  u . Khi đó vectơ u đƣợc gọi là vectơ riêng của ma trận A ứng với giá trị
riêng  . Ma trận A với kích thƣớc n x n sẽ có tối đa n trị riêng và n vector riêng tƣơng
ứng.
2

3

1

1 

Ví dụ cho ma trận A  

 , u   3 , v   2
 3 6
 
 
Ta có:
 2 3   1   7 
Au  
       7u
 3 6  3  21

2

3  1 

8

1 

Và Av  
       k  2
 3 6  2  9
 
Kết luận: u là vectơ riêng của ma trận A ứng với giá trị riêng – 7, còn v không là
vectơ riêng của ma trận A vì không tồn tại một số thực k nào thỏa Av = kv.
Nếu tồn tại một cơ sở trong không gian Rn sao cho ma trận A biểu diễn trong cơ
sở đó có dạng chéo (các phần tử ngoài đƣờng chéo bằng 0) thì ma trận A sẽ chéo hóa
đƣợc
 Kỳ vọng và phƣơng sai trong thống kê đa chiều
Đối với thống kê đa chiều, mỗi một mẫu thống kê là một vector đa
chiều. Giả sử ta có một biến ngẫu nhiên X trong không gian tuyến tính n

chiều.
X = [x1, x2,…, xn]T

(2.8)

Khi đó kỳ vọng của biến ngẫu nhiên X cũng là một vector n chiều,
trong thống kê, kỳ vọng E[X] của biến ngẫu nhiên X có thể ƣớc lƣợng bằng trung
bình mẫu , và đƣợc tính bằng công thức:
(2.9)
Trong đó: M là tổng số mẫu có trong thống kê.
 Ma trận hiệp phƣơng sai


×