Tải bản đầy đủ (.pdf) (58 trang)

Nghiên cứu và xây dựng hệ thống xác định khuôn mặt chung nhất trong tập ảnh số

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.62 MB, 58 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

CÙ VIỆT DŨNG

NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG XÁC ĐỊNH
KHUÔN MẶT CHUNG NHẤT TRONG TẬP ẢNH SỐ

LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM

Hà Nội – 2014


1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

CÙ VIỆT DŨNG

NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG XÁC ĐỊNH
KHUÔN MẶT CHUNG NHẤT TRONG TẬP ẢNH SỐ

Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103

LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Bùi Thế Duy


Hà Nội – 2014


2

LỜI CẢM ƠN
Trƣớc tiên, em xin gửi lời cảm ơn chân thành và sự biết ơn sâu sắc tới thầy
giáo hƣớng dẫn, PGS.TS Bùi Thế Duy đã tận tình hƣớng dẫn em trong suốt q
trình thực hiện khố luận tốt nghiệp, cách đặt ra các câu hỏi nghiên cứu, hiểu các
vấn đề, và viết báo cáo một cách khoa học.
Em xin chân thành cảm ơn sâu sắc tới các anh chị, thầy cơ trong phịng
tƣơng tác ngƣời máy đã ln tận tình chỉ bảo, giải quyết những vấn đề vƣớng
mắc.
Em xin bày tỏ lời cảm ơn sâu sắc tới các thầy cô giáo trong trƣờng Đại học
Công Nghệ, những ngƣời thầy, cơ đã tận tình giảng dạy và truyền đạt cho em
những kiến thức, những kinh nghiệm quý báu trong suốt quá trình học tập và rèn
luyện ở Trƣờng.
Con xin bày tỏ lòng chân thành và biết ơn tới cha mẹ, anh chị, những ngƣời
trong gia đình và bạn bè đã ln ở bên cạnh con những lúc khó khăn nhất, giúp
con vƣợt qua khó khăn trong học tập cũng nhƣ trong cuộc sống.

Hà nội, ngày 2 tháng 09 năm 2014
Học viên

Cù Việt Dũng


3

Lời cam đoan


Tôi xin cam đoan:
Những kết quả nghiên cứu đƣợc trình bày trong luận văn là hồn tồn trung
thực, của tơi, khơng vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và pháp luật Việt
Nam. Nếu sai, tơi xin chịu hồn tồn trách nhiệm trƣớc pháp luật.

TÁC GIẢ LUẬN VĂN

Cù Việt Dũng


4

MỤC LỤC
Trang
Lời cam đoan ................................................................................................................... 3
MỤC LỤC ....................................................................................................................... 4
Danh mục các ký hiệu và chữ viết tắt ............................................................................. 6
Danh mục các bảng ......................................................................................................... 7
Danh mục các hình vẽ, đồ thị .......................................................................................... 8
LỜI MỞ ĐẦU ................................................................................................................. 9
CHƢƠNG 1: TỔNG QUAN ......................................................................................... 10
1.1

Giới thiệu .........................................................................................................10

1.2

Phát biểu bài tốn .............................................................................................11


1.2.1

Quy trình xử lý ..........................................................................................11

1.2.2

Những khó khăn, thách thức .....................................................................12

1.3

Một số phƣơng pháp xác định khuôn mặt........................................................12

1.3.1

Hƣớng tiếp cận dựa trên tri thức ...............................................................13

1.3.2

Hƣớng tiếp cận dựa trên đặc trƣng không thay đổi...................................14

1.3.3

Hƣớng tiếp cận dựa trên so khớp mẫu ......................................................16

1.3.4

Hƣớng tiếp cận dựa trên diện mạo ............................................................17

1.4


Kết luận chƣơng 1 ............................................................................................17

CHƢƠNG 2: CƠ SỞ LÝ THUYẾT ............................................................................. 18
2.1

Phát hiện khuôn mặt.........................................................................................18

2.1.1

Các đặc trƣng giống Haar..........................................................................18

2.1.2

Phƣơng pháp Adaboost .............................................................................20

2.2

Tổng quan về các phƣơng pháp trích rút đặc trƣng .........................................22

2.2.1

Phƣơng pháp trích chọn đặc trƣng hình học .............................................23

2.2.2

Phƣơng pháp trích chọn đặc trƣng diện mạo ............................................23

2.3

Phƣơng pháp phân tích thành phần chính ........................................................24


2.3.1

Sơ lƣợc đại số tuyến tính ...........................................................................24

2.3.2

Phân tích thành phần chính - PCA ............................................................25

2.4

Mơ hình diện mạo tích cực ..............................................................................28


5

2.4.1

Hình dáng và các điểm mốc ......................................................................28

2.4.2

Căn chỉnh hình dạng của tập huấn luyện ..................................................30

2.4.3

Huấn luyện mơ hình ..................................................................................30

2.4.3.1


Huấn luyện mơ hình hình dáng .............................................................31

2.4.3.2

Huấn luyện hình ảnh ..............................................................................31

2.4.3.3 So khớp......................................................................................................32
2.5

Giới thiệu về phân cụm ....................................................................................33

2.5.1

Khái niệm ..................................................................................................33

2.5.2

Một số vấn đề trong phân cụm ..................................................................35

2.5.3

Phân cụm phân cấp ....................................................................................36

2.6

Kết luận chƣơng 2 ............................................................................................37

CHƢƠNG 3: XÂY DỰNG HỆ THỐNG ...................................................................... 38
3.1


Tổng quan hệ thống .........................................................................................38

3.2

Phát hiện khn mặt.........................................................................................40

3.3

Trích rút đặc trƣng ...........................................................................................41

3.3.1

Phân tích thành phần chính .......................................................................42

3.3.2

Mơ hình diện mạo tích cực........................................................................44

3.4

Xác định khuôn mặt chung nhất ......................................................................45

3.5

Kết luận chƣơng 3 ............................................................................................46

CHƢƠNG 4: THỬ NGHIỆM VÀ KẾT QUẢ ĐẠT ĐƢỢC ........................................ 47
4.1

Cơ sở dữ liệu khuôn mặt thử nghiệm...............................................................47


4.2

Một số thực nghiệm .........................................................................................48

4.3

Kết luận chƣơng 4 ............................................................................................54

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .................................................................... 55
TÀI LIỆU THAM KHẢO ............................................................................................. 56


6

Danh mục các ký hiệu và chữ viết tắt
CSDL Cơ sở dữ liệu
ASM Active Shape Model
PCA Principal Component Analysis
HAC

Hierarchical

Agglomerative

Clustering


7


Danh mục các bảng
Bảng 2.1: Tham số dữ liệu thuộc tính nhị phân ............................................................35


8

Danh mục các hình vẽ, đồ thị
Hình 2.1:
Hình 2.2:
Hình 2.3:
Hình 2.4:
Hình 2.5:
xoay 45o
Hình 2.6:
Hình 2.7:
Hình 2.8:
Hình 2.9:
Hình 2.10:
Hình 2.11:
Hình 3.1:
Hình 3.2:
Hình 3.3:
Hình 3.4:
Hình 3.5:
Hình 3.6:
Hình 3.7:
Hình 3.8:
Hình 3.9:
Hình 4.1:
Hình 4.2:

Hình 4.3:
Hình 4.4:
Hình 4.5:
Hình 4.6:
Hình 4.7:
Hình 4.8:
Hình 4.9:
Hình 4.10:
Hình 4.11:
Hình 4.12:
Hình 4.13:

Bốn đặc trƣng Haar-like cơ bản .................................................................18
Các đặc trƣng mở rộng của các đặc trƣng Haar-like cơ sở........................18
Cách tính Integral Image của ảnh ..............................................................19
Cách tính nhanh tổng các điểm ảnh của vùng D trên ảnh .........................19
Cách tính nhanh tổng điểm ảnh của vùng D trên ảnh với các đặc trƣng
....................................................................................................................20
Thuật tốn Adaboost ..................................................................................21
Hình dạng và biểu diễn của hình dạng trong mơ hình ...............................29
Vị trí 68 điểm mốc trên khn mặt ............................................................29
Thuật tốn gióng hàng tập huấn luyện .......................................................30
Quy trình huấn luyện mơ hình hình dáng ..................................................31
Thuật tốn so khớp hình dáng khn mặt..................................................32
Sơ đồ tổng qt của hệ thống .....................................................................38
Mã giả thuật toán tổng quát của hệ thống ..................................................39
Giao diện chính của hệ thống ....................................................................40
Giao diện kết quả sau khi xác định đƣợc khuôn mặt chung nhất ..............40
Giao diện kết quả phát hiện khuôn mặt .....................................................41
Chuyển ảnh khuôn mặt sang vector ...........................................................42

Tập ảnh khn mặt sau khi chuẩn hóa cùng kích thƣớc ............................43
Thuật tốn so khớp khn mặt...................................................................44
Thuật tốn phân cụm phân cấp ..................................................................45
Ví dụ một tập cơ sở dữ liệu tự xây dựng ...................................................47
Tập ảnh đầu vào thực nghiệm 1 .................................................................48
Khuôn mặt chung nhất trong thực nghiệm 1 .............................................48
Kết quả của hệ thống trong thực nghiệm 1 - PCA .....................................49
Kết quả của hệ thống trong thực nghiệm 1 - ASM ....................................49
Tập ảnh đầu vào thực nghiệm 2 .................................................................50
Khuôn mặt chung nhất trong thực nghiệm 2 .............................................50
Kết quả của hệ thống trong thực nghiệm 2 - PCA .....................................51
Kết quả của hệ thống trong thực nghiệm 2 - ASM ....................................51
Tập ảnh đầu vào thực nghiệm 3 .................................................................52
Khuôn mặt chung nhất trong thực nghiệm 3 .............................................52
Kết quả của hệ thống trong thực nghiệm 3 - PCA .....................................53
Kết quả của hệ thống trong thực nghiệm 3 - ASM ....................................53


9

LỜI MỞ ĐẦU
Hiện nay thế giới có hàng trăm mạng mạng xã hội khác nhau nhƣ MySpace và
Facebook nổi tiếng trong thị trƣờng Bắc Mỹ và Tây Âu; Orkut và Hi5 tại Nam Mỹ;
Friendster tại Châu Á và các đảo quốc Thái Bình Dƣơng. Một số mạng xã hội khác đã
gặt hái đƣợc thành công đáng kể theo vùng miền nhƣ Bebo tại Anh Quốc, CyWorld tại
Hàn Quốc, Mixi tại Nhật Bản. Ở Việt Nam xuất hiện rất nhiều các mạng xã hội nhƣ:
Facebook, Zing Me, YuMe, Tamtay đƣợc đông đảo các bạn trẻ và mọi ngƣời trong
nƣớc tin dùng. Với số lƣợng mạng xã hội đông đảo nhƣ thế, lƣợng thông tin dữ liệu
thu đƣợc là khổng lồ. Trong lƣợng thơng tin khổng lồ này, có một lƣợng lớn là hình
ảnh. Một minh chứng rõ nhất là mạng xã hội facebook, cho đến nay đã có hàng trăm tỷ

bức hình trong cơ sở dữ liệu. Việc tìm ra thơng tin hữu ích trên lƣợng dữ liệu hình ảnh
lớn nhƣ vậy sẽ rất cấp thiết.
Nhiều thông tin đƣợc chia sẻ trên mạng xã hội thể hiện bằng các hình ảnh cung
cấp cho ngƣời dùng về thông tin của ngƣời, phong cảnh mang nhiều phong cách của
từng cá nhân. Mọi ngƣời thƣờng chia sẻ hình ảnh cá nhân trên các trang mạng xã hội
để chia sẻ chúng với gia đình, ngƣời thân, bạn bè và ngƣời quen. Tuy nhiên, mỗi khi
một ngƣời dùng muốn tìm hiểu thơng tin về một ai đó gặp phải vấn đề phải tìm thơng
tin về ngƣời đó rất khó khăn (tốn thời gian và nhiều khi khơng tìm đƣợc). Lý do của
việc này là lƣợng ảnh trên mạng xã hội quá nhiều và tăng nhanh hàng ngày.
Với một tập ảnh cho trƣớc, mỗi bức ảnh có thể có một hay nhiều hơn một khn
mặt gây ra nhiều khó khăn cho ngƣời dùng có thể xác định chủ thể trong tập ảnh đó
một cách nhanh nhất. Do đó, chúng ta nên cần một hệ thống có thể giúp gom các đối
tƣợng khuôn mặt về cùng một cụm (theo một độ đo tƣơng tự nào đó) trong một tập dữ
liệu ảnh có một hay nhiều khn mặt trong bức ảnh là vơ cùng cần thiết. Từ đó xác
định đƣợc khuôn mặt chung nhất trong tập ảnh. Với sự cần thiết đó tác giả chọn đề tài
“Nghiên cứu và xây dựng hệ thống xác định khuôn mặt chung nhất trong tập ảnh
số”. Nội dung khóa luận gồm có 4 chƣơng:
Chƣơng 1: Tổng quan, giới thiệu và phát biểu bài toán, nêu một số hƣớng tiếp
cận trong việc phát hiện khuôn mặt trong ảnh
Chƣơng 2: Cơ sở lý thuyết, giới thiệu cơ sở lý thuyết một số phƣơng pháp liên
quan trong bài tốn
Chƣơng 3: Xây dựng hệ thống, trình bày về xây dựng hệ thống giải quyết bài
toán.
Chƣơng 4: Thử nghiệm và kết quả đạt đƣợc, trình bày về cơ sở dữ liệu thực
nghiệm và kết quả thử nghiệm, đánh giá thử nghiệm


10

CHƢƠNG 1: TỔNG QUAN

1.1 Giới thiệu
Thông thƣờng để lƣu trữ thông tin, dữ liệu về một nội dung, sự vật, sự việc nào
đó thì ngƣời ta thƣờng chọn sử dụng dạng lƣu trữ kiểu văn bản. Nhƣng lƣu trữ dữ liệu
bằng văn bản nhiều khi không thể phản ánh đầy đủ, chân thực về đối tƣợng đƣợc miêu
tả và nhiều khi đó chỉ là do cảm nhận chủ quan của mình ngƣời viết. Vì vậy kết hợp
với lƣu trữ dữ liệu dạng văn bản ngƣời ta còn sử dụng lƣu trữ dữ liệu dạng ảnh. Khối
lƣợng dữ liệu dạng ảnh ngày càng trở nên khổng lồ nhất là khi hiện nay các thiết bị thu
nhận ảnh số ngày càng trở nên phổ biến với giá cả phù hợp. Khi ta có nhu cầu tìm
kiếm một vài bức ảnh trong một kho dữ liệu ảnh có thể lên tới vài trăm nghìn bức ảnh
để minh họa cho một đề tài nào đó, thì tuyệt đối khơng phải là chuyện đơn giản nếu
chúng ta tìm kiếm một cách thủ cơng tức là xem lần lƣợt từng bức ảnh cho tới khi ta
tìm thấy đƣợc bức ảnh có nội dung cần tìm. Song song với sự phát triển của các
phƣơng tiện kỹ thuật số trong tƣơng lai số lƣợng ảnh sẽ còn tăng hơn nữa nhiều hơn
nữa. Nhu cầu chia sẻ hình ảnh cá nhân của đa số mọi ngƣời trên thế giới và Việt Nam
là rất lớn làm cho lƣợng hình ảnh khuôn mặt ngày càng tăng nhanh. Trên các trang
mạng xã hội, mỗi cá nhân đều có một số lƣợng hình ảnh lớn của bản thân và nhu cầu
kết bạn chia sẻ là rất lớn nên gặp khó khăn trong việc tìm hiểu thơng tin bạn bè. Do
vậy nhu cầu thật sự địi hỏi phải có một cơng cụ hỗ trợ tìm kiếm ảnh chính xác và hiệu
quả giúp cho ngƣời dùng có thể xác định đƣợc ngƣời mình muốn làm quen là ai, thơng
tin liên quan đến bạn bè. Vì vậy tác giả chọn đề tài “Nghiên cứu và xây dựng hệ
thống xác định khuôn mặt chung nhất trong tập ảnh số” góp phần giải quyết và
đáp ứng nhu cầu này.
Khi tìm kiếm thơng tin, ở đây là thơng tin chủ nhân của tập ảnh gồm lƣợng lớn
hình ảnh, hình ảnh có thể chỉ là phong cảnh, có một ngƣời hay một tập thể gồm nhiều
ngƣời khác nhau thì chúng ta khơng thể giải quyết bằng cách tìm kiếm tuần tự đƣợc.
Tác giả giải quyết vấn đề này bằng cách sử dụng một thuật toán phân cụm. Cụm dữ
liệu nào có số lƣợng lớn nhất đảm bảo rằng đấy cá nhân xuất hiện nhiều nhất trong tập
ảnh cho trƣớc. Phân cụm là bài toán cổ điển đã đƣợc nhiều ngƣời nghiên cứu trƣớc
đây, nhƣng nó vẫn có vai trong quan trọng và cần thiết trong nghiên cứu khai phá dữ
liệu cũng nhƣ trong nhiều lĩnh vực đời sống: thƣơng mại, sinh học, phân tích dữ liệu

khơng gian. Đề tài này nghiên cứu phân cụm ảnh thành từng cụm rồi trích chọn khn
mặt có trong cụm có số lƣợng lớn nhất, dựa vào đó ta có thể tra cứu xác định khn
mặt chung nhất một cách nhanh chóng và chính xác từ một cơ sở dữ liệu ảnh cho
trƣớc. Có nhiều phƣơng pháp phân cụm khác nhau nhƣ K-Means, Hierarchical
Agglomerative Clustering (HAC). Mỗi phƣơng pháp có những ƣu điểm, thế mạnh
riêng, và có yêu cầu riêng về cách biểu diễn dữ liệu, độ đo. So sánh các thuật toán


11

khác nhau ở các phạm vi khác nhau là không đơn giản, do vậy việc đánh giá thƣờng
dựa vào chất lƣợng kết quả phân cụm. HAC là thuật toán phân cụm cây phân cấp có
tính gia tăng cao và tạo ra đƣợc một cây phân cấp dựa theo yếu tố nào đó, theo hƣớng
tiếp cận này khóa luận sẽ áp dụng phƣơng pháp phân cụm HAC để phân cụm dữ liệu
sau đó tìm ra cá nhân xuất hiện nhiều nhất trong kho ảnh cho trƣớc bằng cách xác định
cụm có số lƣợng khn mặt nhiều nhất.
1.2 Phát biểu bài tốn
Hệ thống xác định khuôn mặt ngƣời là một hệ thống nhận đầu vào là một tập
ảnh có thể chứa nhiều khn mặt trong ảnh. Qua q trình xử lý tính tốn hệ thống
xác định đƣợc vị trí mặt ngƣời trong ảnh (nếu có) và xác định ngƣời nào là xuất hiện
nhiều nhất trong số những ngƣời hệ thống tách đƣợc.
1.2.1 Quy trình xử lý
Hệ thống gồm các bƣớc xử lý cơ bản sau
-

Dị tìm khn mặt
Trích rút đặc trƣng
Phân cụm

 Dị tìm khn mặt

Giai đoạn tách khn mặt từ ảnh ban đầu là một giai đoạn quan trọng và
khó khăn góp phần quan trọng đến kết quả nhận dạng, việc phát hiện
khuôn mặt từ ảnh ban đầu gắn với điều kiện không ổn định của dữ liệu ảnh: độ
sáng của ảnh, kích thƣớc và hƣớng của khn mặt, góc quay,… Vì vậy, với hệ
thống nhận dạng mặt ngƣời cần phải có một số tiêu chuẩn ràng buộc:
-

Ảnh với màu tự nhiên chiếu sáng và độ đậm đều (không quá tối và
khơng q sáng)

-

Kích thƣớc của khn mặt khơng q lớn hoặc quá nhỏ.

-

Khuôn mặt phải đƣợc chụp trực diện, mắt mở tự nhiên

-

Khơng có vật gì che khn mặt: mũ, khăn, tóc...

 Trích rút đặc trưng
Giai đoạn này là tìm ra các đặc trƣng chính của khn mặt, từ các đặc
trƣng này hình thành các véc tơ đặc trƣng, các vectơ này đƣợc sử dụng để đối
sánh sự giống nhau giữa ảnh khn mặt cần tìm để phân cụm xác định khuôn
mặt chung nhất giữa các bức ảnh.
 Xác định khn mặt chung nhất
Từ các đặc trƣng đã trích chọn ở trên tác giả áp dụng một thuật toán
phân cụm là phân cụm phân cấp để phân cụm các khuôn mặt nhóm các khn



12

mặt giống nhau về cùng một cụm. Khoảng cách Euclide đƣợc áp dụng để tính
tốn khoảng cách giữa các đặc trƣng đƣợc trích rút cho ta biết đƣợc sự giống
nhau của các khn mặt. Cụm có số lƣợng lớn nhất chứa khn mặt chung nhất
trong tập ảnh
1.2.2 Những khó khăn, thách thức
Những bài tốn liên quan đến xử lý khn mặt là một trong những bài tốn khó
nên những nghiên cứu hiện tại vẫn chƣa đạt đƣợc kết quả mong muốn. Chính vì vậy
vấn đề này vẫn đang đƣợc nhiều nhóm tác giả trên thế giới quan tâm nghiên cứu.
Những khó khăn, thách thức của bài tốn có thể kể đến nhƣ sau:
 Tư thế, góc chụp: Ảnh chụp khn mặt có thể thay đổi rất nhiều bởi vì góc
chụp giữa camera và khuôn mặt. Chẳng hạn nhƣ: chụp thẳng, chụp
nghiêng bên trái
, hay nghiêng bên phải
, chụp từ trên xuống, chụp từ
dƣới lên,... Với các tƣ thế khác nhau, các thành phần trên khn mặt nhƣ mắt,
mũi, miệng có thể bị khuất một phần hoặc thậm chí khuất hết.
 Sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt: Các đặ trƣng
nhƣ: râu mép, râu hàm, mắt kính,... có thể xuất hiện hoặc khơng. Vấn đề này
làm cho bài tốn càng trở nên khó hơn rất nhiều.
 Sự biểu cảm của khuôn mặt: Biểu cảm của khuôn mặt ngƣời có thể làm ảnh
hƣởng đáng kể lên các thông số của khuôn mặt. Chẳng hạn, cùng một khuôn
mặt một ngƣời, nhƣng có thể sẽ rất khác khi họ cƣời hoặc sợ hãi,...
 Sự che khuất: Khn mặt có thể bị che khuất bởi các đối tƣợng khác hoặc các
khuôn mặt khác.
 Hướng của ảnh: Các ảnh của khuôn mặt có thể biến đổi rất nhiều với các góc
quay khác nhau của trục camera. Chẳng hạn chụp với trục máy ảnh nghiêng

làm cho khuôn mặt bị nghiêng so với trục của ảnh.
 Điều kiện của ảnh: Ảnh đƣợc chụp trong các điều kiện khác nhau về: chiếu
sáng, về tính chất camera (máy kỹ thuật số, máy hồng ngoại,v.v...) ảnh hƣởng
rất nhiều đến chất lƣợng ảnh khn mặt.
Những khó khăn đã nêu trên cho chúng ta thấy tầm quan trọng của giai đoạn dị
tìm khn mặt có sự ảnh hƣởng rất lớn tới hiệu quả của các giai đoạn sau đó là trích
rút đặc trƣng và xác định khn mặt chung nhất.
1.3 Một số phƣơng pháp xác định khuôn mặt
Dựa vào tính chất của các phƣơng pháp xác định mặt ngƣời trong các bức ảnh,
các phƣơng pháp này đƣợc chia thành bốn loại chính, tƣơng ứng với bốn hƣớng[1] tiếp
cận khác nhau. Ngồi ra cũng có rất nhiều nghiên cứu mà phƣơng pháp xác định mặt
ngƣời không chỉ dựa vào một hƣớng mà có liên quan đến nhiều hƣớng.


13

 Hƣớng tiếp cận dựa trên tri thức: Dựa vào sự hiểu biết của con ngƣời về các
loại khuôn mặt để mã hóa các đặc trƣng và quan hệ giữa các đặc trƣng của
khuôn mặt thành các luật.
 Hƣớng tiếp cận dựa trên đặc trƣng không thay đổi: Các thuật tốn trong hƣớng
tiếp cận này thƣơng tìm các đặc trƣng của khuôn mặt mà các đặc trƣng này
không thay đổi khi tƣ thế khn mặt, vị trí đặt thiết bị hay điều kiện ánh sáng
bị thay đổi.
 Hƣớng tiếp cận dựa trên so sánh khớp mẫu: Dùng các mẫu chuẩn của khuôn
mặt ngƣời (các mẫu này đã đƣợc chọn lựa và lƣu trữ) để mô tả cho các khuôn
mặt hay các đặc trƣng của khuôn mặt (các mẫu này đƣợc chọn tách biệt theo
tiêu chuẩn đã đƣợc các tác giả đề ra để so sánh). Phƣơng pháp này cho ta thấy
các mối tƣơng quan giữa dữ liệu ảnh đƣa vào và các mẫu dùng để xác định
khuôn mặt ngƣời.
 Hƣớng tiếp cận dựa trên diện mạo: Trái ngƣợc hẳn với hƣớng tiếp cận dựa trên

so khớp mẫu, các mơ hình (hay các mẫu) sẽ đƣợc học từ một tập ảnh huấn
luyện trƣớc đó theo một phƣơng pháp học nào đó thể hiện tính chất tiêu biểu
của sự xuất hiện của mặt ngƣời trong ảnh. Sau đó hệ thống (mơ hình) sẽ xác
định khn mặt ngƣời. Phƣơng pháp này cịn đƣợc biết đến với tên gọi tiếp
cận theo các phƣơng pháp học máy
1.3.1 Hƣớng tiếp cận dựa trên tri thức
Trong hƣớng tiếp cận này, các phƣơng pháp xác định mặt ngƣời đƣợc xây dựng
dựa vào các luật, các luật này phụ thuộc vào tri thức của các tác giả nghiên cứu về bài
tốn xác định khn mặt. Có thể xây dựng các luật cơ bản để mô tả các đặc trƣng của
khn mặt và các quan hệ tƣơng ứng. Ví dụ, một khn mặt thƣờng có hai mắt đối
xứng qua trục thẳng đứng giữa khn mặt và có một mũi một miệng. Các quan hệ đặc
trƣng có thể là quan hệ về vị trí và khoảng cách tƣơng đối. Khó khăn của hƣớng tiếp
cận này đó là làm thế nào để chuyển các tri thức của con ngƣời về khuôn mặt sang các
luật cho máy tính một cách hiệu quả. Nếu các luật này quá chi tiết, chặt chẽ thì sẽ có
thể xác định thiếu các khn mặt có trong ảnh, nhƣng nếu các luật quá tổng quát thì sẽ
dẫn đến xác định sai khu vực không phải là khuôn mặt thành khn mặt. Ngồi ra
cũng khó để mở rộng phạm vi của bải tốn để xác định các khn mặt có nhiều tƣ thế
khác nhau.
Có nhiều cách để xây dựng chƣơng trình xác định mặt ngƣời theo hƣớng tiếp
cận dựa trên tri thức. Thơng thƣờng chƣơng trình sẽ đƣợc xây dựng theo hƣớng dựa
vào một phƣơng pháp nào đấy chọn ra các ứng viên trong bức ảnh trƣớc, sau đó sẽ áp
dụng các luật để xác định ứng viên nào là khuôn mặt, ứng viên nào không phải là
khuôn mặt. Q trình này có thể đƣợc áp dụng nhiều lần để giảm sai sót. Các luật đƣợc


14

xây dựng dựa vào tri thức của ngƣời nghiên cứu về các đặc trƣng của khn mặt (ví
dụ nhƣ cƣờng độ phân phối, sự khác nhau) của vùng trên khuôn mặt
Yang và Huang đã sử dụng hƣớng tiếp cận dựa trên tri thức để xác định khuôn

mặt [2]. Hệ thống của hai tác giả bao gồm ba mức luật. Đầu tiên các ông sử dụng một
khung cửa sổ để quét trên bức ảnh và thông qua một số tập luật để xác định các ứng
viên có thể là mặt ngƣời, ví dụ nhƣ tìm phần trung tâm của khn mặt (phần tối hơn
trong hình 1.1). Tiếp theo, dùng một tập luật để mơ tả tổng qt hình dáng khn mặt,
lọc các ứng viên ở mức một thành một tập các ứng viên mới có xác xuất là khn mặt
cao hơn. Cuối cùng lại dùng một tập luật khác để xem xét ở mức chi tiết các đặc trƣng
khuôn mặt ( có thể là đặc trƣng về mắt, mũi, miệng … ), từ đó lọc ra các ứng viên
chính xác nhất. Có thể nói cách làm của hai tác giả là một cách làm mịn dần để đạt
đƣợc kết quả tốt nhất, mặc dù tỷ lệ chính xác chƣa cao, nhƣng đây là tiền đề cho nhiều
nghiên cứu sau này.
Kotropoulos và Pitas đƣa ra một phƣơng pháp gần tƣơng tự với Yang và Huang
dùng trên độ phân giải thấp. Đầu tiên, các vùng của khuôn mặt đƣợc định vị bởi
phƣơng pháp chiếu để xác định biên của khuôn mặt. Với I(x,y) là giá trị xám của một
điểm trong ảnh có kích thƣớc m x n ở tại vị trí (x,y), các hàm để chiếu ảnh theo
phƣơng ngang và thẳng đứng đƣợc định nghĩa nhƣ sau:
HI(x) =

và VI(y) =

(1.1)

Dựa trên biểu đồ hình chiếu ngang, khi xét biểu đồ biến thiên của HI hai ơng tìm
đƣợc hai cực tiểu địa phƣơng tƣơng ứng với hai đỉnh đầu bên trái và bên phải của
khn mặt. Cịn theo hình chiếu dọc, xét biến thiên và tìm cực tiểu địa phƣơng của VI
cũng cho ta các vị trí của miệng, đỉnh mũi và hai mắt. Các đặc trƣng này đủ để xác
định khuôn mặt. Cách xác định này có tỷ lệ xác định chính xác là 86.5% cho trƣờng
hợp chỉ có một khn mặt thẳng trong ảnh và hình nền khơng phức tạp. Nếu hình nền
phức tạp thì rất khó tìm. Cịn nếu ảnh có nhiều khn mặt thì sẽ khơng xác định đƣợc.
1.3.2 Hƣớng tiếp cận dựa trên đặc trƣng không thay đổi
Tiếp cận dựa trên các đặc trƣng không thay đổi là tiếp cận theo kiểu bottom up.

Dựa trên thực tế, chúng ta cố gắng tìm ra những đặc điểm khơng thay đổi khi của
khuôn mặt khi ở các tƣ thế khác nhau và các điều kiện môi trƣờng nhƣ ánh sáng khác
nhau. Đã có rất nhiều nghiên cứu về hƣớng tiếp cận này, các đặc điểm khơng thay đổi
đƣợc tìm thấy nhƣ lông mày, mắt, mũi, miệng hay các đƣờng viền trên tóc … Trên cơ
sở các đặc trƣng này, các nhà nghiên cứu xây dựng lên một mơ hình thống kê mơ tả
quan hệ của các đặc trƣng và từ đó xác định sự xuất hiện của khuôn mặt trong bức ảnh.
Khó khăn của hƣớng tiếp cận này đó là phải mô tả các đặc trƣng không thay đổi và
quan hệ giữa chúng phù hợp với điều kiện ánh sáng, độ nhiễu hay bị che khuất.


15

Có rất nhiều nghiên cứu về các đặc trƣng của khn mặt. Có thể dựa vào các đặc
trƣng nhƣ hai mắt, hai lỗ mũi, miệng, phần nối giữa mũi và miệng … hoặc dựa vào
đƣờng viền của khuôn mặt.
Leung đã đƣa ra một mơ hình xác xuất để xác định khn mặt trong ảnh có hình
nền phức tạp dựa trên việc tìm kiếm các đặc trƣng khơng thay đổi của khn mặt trong
ảnh, sau đó dùng đồ thị ngẫu nhiên để xác định khuôn mặt. Tƣ tƣởng của phƣơng pháp
này đó là xem bài tốn xác định khn mặt nhƣ là bài tốn tìm kiếm với mục tiêu là
tìm thứ tự các đặc trƣng không thay đổi của khuôn mặt. Dùng năm đặc trƣng (hai mắt,
hai lỗ mũi, phần nối giữa mũi và miệng) để mô tả một khuôn mặt. Đồng thời tính quan
hệ khoảng cách cho tất cả các cặp đặc trƣng (nhƣ mắt trái, mắt phải), sau đấy dùng
phân bố Gauss để mơ hình hóa. Một mẫu khn mặt đƣợc đƣa ra thơng qua trung bình
tƣơng ứng cho một tập đa hƣớng, đa tỷ lệ của bộ lọc đạo hàm Gauss. Từ một ảnh, các
đặc trƣng của ứng viên đƣợc xác định bằng cách so khớp từng điểm ảnh khi lọc tƣơng
ứng với vector mẫu. Hai ứng viên có đặc trƣng đứng đầu sẽ đƣợc chọn để tìm kiếm
cho các đặc trƣng khác của khuôn mặt. Từ các đặc trƣng không thay đổi, các đặc trƣng
khác sẽ đƣợc xác định thông qua sự đánh giá xác xuất khoảng cách giữa các đặc trƣng,
hơn nữa phƣơng sai của phép thống kê này có thể đƣợc tính tốn trƣớc để xác định các
đặc trƣng với xác xuất lớn.

Bên cạnh tính khỏang cách liên quan để mô tả quan hệ giữa các đặc trƣng nhƣ
Leung. Kendall [3], Mardia and Dryden [4] dùng lý thuyết xác suất thống kê về hình
dáng. Dùng hàm mật độ xác suất (Probility Density Function - PDF) qua N điểm đặc
trƣng, tƣơng ứng (xi, yi) là đặc trƣng thứ i với giả sử là phân bố Gauss có 2N-chiều.
Các tác giả áp dụng phƣơng thức cực đại khả năng (Maximum-Likelihood - ML) để
xác định vị trí khn mặt. Một thuận lợi của phƣơng pháp này là các khn mặt bị che
khuất vẫn có thể xác định đƣợc. Hạn chế phƣơng pháp này đó là khơng xác định đƣợc
nhiều khuôn mặt trong cùng một ảnh.
Không dùng phƣơng pháp xác xuất, Sirohey đƣa một phƣơng pháp khác xác
định khuôn mặt từ một ảnh có hình nền phức tạp [5]. Phƣơng pháp dựa trên cạnh.
Dùng phƣơng pháp Candy [6] và heuristics loại bỏ các cạnh để còn lại duy nhất một
đƣờng bao xung quanh khn mặt. Một hình ellipse dùng để bao khn mặt, tách biệt
vùng đầu và hình nền. Tỷ lệ chính xác của thuật tốn là 86%.
Graf đƣa ra một phƣơng pháp xác định đặc trƣng rồi xác định khuôn mặt trong
ảnh xám [7]. Dùng bộ lọc để làm nổi các biên, các phép tốn hình thái học
(morphology) đƣợc dùng để làm nổi bật các vùng có cƣờng độ cao và hình dáng chắc
chắn (nhƣ mắt). Thơng qua histogram để tìm các đỉnh nổi bật để xác định các ngƣỡng
chuyển ảnh xám thành hai ảnh nhị phân. Các thành phần dính nhau đều xuất hiện
trong hai ảnh nhị phân thì đƣợc xem là vùng của ứng viên khn mặt rồi phân loại
xem có phải là khn mặt khơng. Phƣơng pháp đƣợc kiểm tra trên các ảnh chỉ có đầu


16

và vai của ngƣời. Tuy nhiên phƣơng pháp này còn một vấn đề đấy là sử dụng các phép
toán morphology nhƣ thế nào và làm sao xác định khuôn mặt trên các vùng ứng viên.
Park dùng Gaze để tìm ứng viên góc mắt, miệng và tâm mắt [8]. Ơng xây dựng
SVM (Support Vector Machine) đã đƣợc học trƣớc đó để xác định các vị trí ứng viên
có phải là góc mắt, miệng, và tâm mắt hay không để theo vết con mắt ngƣời.
1.3.3 Hƣớng tiếp cận dựa trên so khớp mẫu

Trong hƣớng tiếp cận dựa trên so sánh khớp mẫu, các mẫu chuẩn của khuôn mặt
(thƣờng là khuôn mặt đƣợc chụp thẳng) sẽ đƣợc xác định trƣớc hoặc đƣợc biểu diễn
thành một hàm với các tham số cụ thể. Từ một ảnh đƣa vào, tính các giá trị tƣơng quan
so với các mẫu chuẩn về đƣờng viền khuôn mặt, mắt, mũi và miệng. Thông qua các
giá trị tƣơng quan này mà hệ thống sẽ quyết định có hay khơng có tồn tại khn mặt
trong ảnh. Hƣớng tiếp cận này có lợi thế là rất dễ cài đặt, nhƣng không hiệu quả khi tỷ
lệ, tƣ thế, và hình dáng thay đổi.
Sakai đã cố gắng thử xác định khuôn mặt ngƣời chụp thẳng trong ảnh [9]. Ông
dùng vài mẫu con ( sub template ) về mắt, mũi, miệng, và đƣờng viền khuôn mặt để
mơ hình hóa một khn mặt. Mỗi mẫu con đƣợc định nghĩa trong giới hạn của các
đoạn thẳng. Các đƣờng thẳng trong ảnh đƣợc trích bằng cách xem xét thay đổi của hệ
số góc và so khớp các mẫu con. Đầu tiên tìm các ứng viên thơng qua mối tƣơng quan
giữa các ảnh con và các mẫu về đƣờng viền. Sau đó, so khớp với các mẫu con khác.
Hay nói một cách khác, giai đoạn đầu xem nhƣ là giai đoạn sơ chế để tìm ứng viên,
giai đọan thứ hai là giai đoạn tinh chế để xác định ứng viên có phải là khn mặt hay
khơng. Ý tƣởng này đƣợc duy trì cho đến các nghiên cứu sau này.
Craw đƣa ra một phƣơng pháp xác định khuôn mặt ngƣời dựa vào các mẫu về
hình dáng của các ảnh đƣợc chụp thẳng (dùng vẻ bề ngồi của hình dáng khn mặt).
Đầu tiên dùng phép lọc Sobel (Phép lọc Sobel dựa vào tích vơ hƣớng của hai vector
gradient) để tìm các cạnh. Các cạnh này sẽ đƣợc nhóm lại theo một số ràng buộc. Sau
đó, tìm đƣờng viền của đầu, q trình tƣơng tự đƣợc lặp đi lặp lại với mỗi tỷ lệ khác
nhau để xác định các đặc trƣng khác nhƣ: mắt, lơng mày, và mơi. Sau đó Craw mơ tả
một phƣơng thức xác định dùng một tập có 40 mẫu để tìm các đặc trƣng khn mặt
và điều khiển chiến lƣợc dị tìm.
Một số nhà nghiên cứu sử dụng hình chiếu nhƣ các mẫu để xác định khn mặt
ngƣời. Silhouettes dùng Principal Component Analysis [10] (phân tích thành phần
chính – Principal Component Analysis - PCA) để có một tập hình chiếu cơ bản từ các
mẫu khn mặt, hình chiếu đƣợc mô tả nhƣ một mảng các bit. Dùng đặc trƣng hình
chiếu riêng kết hợp biến đổi Hough để xác định khn mặt ngƣời. Sau đó một phƣơng
pháp xác định dựa trên đa loại mẫu để xác định các thành phần của khn mặt đƣợc

trình bày. Phƣơng pháp này định nghĩa một số giả thuyết để mô tả các khả năng của
các đặc trƣng khuôn mặt.


17

1.3.4 Hƣớng tiếp cận dựa trên diện mạo
Trái ngƣợc với hƣớng tiếp cận dựa trên so sánh khớp mẫu (các mẫu đã đƣợc các
nhà nghiên cứu định nghĩa trƣớc), các mẫu trong hƣớng tiếp cận này đƣợc học từ một
tập ảnh mẫu. Có thể nói hƣớng tiếp cận dựa trên diện mạo áp dụng các kỹ thuật theo
hƣớng xác suất thống kê và học máy để tìm những đặc tính liên quan của khuôn mặt
và không phải là khuôn mặt. Các đặc tính đã đƣợc học ở trong hình thái các mơ hình
phân bố hay các tham số của một hàm số nên có thể dùng các đặc tính này để xác định
khn mặt ngƣời. Đồng thời, bài tốn giảm số chiều thƣờng đƣợc quan tâm để tăng
hiệu quả tính toán cũng nhƣ hiệu quả xác định.
Trong hƣớng tiếp cận này, phƣơng pháp xác xuất tiếp tục đƣợc nhiều nhà nghiên
cứu sử dụng. Một bức ảnh hoặc một vector (đặc trƣng cho bức ảnh) đƣợc xem nhƣ một
biến ngẫu nhiên. Biến ngẫu nhiên này sẽ đƣợc xác định là có mơ tả các đặc tính của
khn mặt hay khơng thơng qua các xác xuất có điều kiện p(x/face) và p(x/nonface).
Có thể dùng bộ phân loại Bayesian để phân loại các ứng viên là khuôn mặt hay không
phải khuôn mặt. Tuy nhiên, việc cài đặt bộ phân loại Bayesian với số chiều x lớn là
một điều khá khó khăn, do đó có rất nhiều nghiên cứu theo hƣớng tiếp cận này quan
tâm tới việc tham số hóa hay khơng tham số các xác xuất p(x/face) và p(x/nonface).
Một các tiếp cận khác trong hƣớng tiếp cận dựa trên diện mạo là tìm một hàm
biệt số ví dụ nhƣ các hàm mơ tả mặt phẳng hay siêu phẳng quyết định (các ranh giới)
để phân biệt hai lớp khuôn mặt và không phải khuôn mặt. Thông thƣờng, một bức ảnh
đƣợc chiếu vào không gian có số chiều ít hơn rồi sau đó dùng một hàm biệt số (dựa
trên các độ đo khoảng cách) để phân loại hoặc xây dựng một mặt quyết định phi tuyến
bằng mạng neural đa tầng. Ngồi ra có thể dùng SVM (Super Vector Machine)[11]
chiếu các mẫu vào khơng gian có số chiều cao hơn để dữ liệu bị rời rạc hồn tồn và từ

đó có thể sử dụng mặt phẳng phân loại để phân loại các mẫu là khuôn mặt hay không
phải là khuôn mặt.
1.4 Kết luận chƣơng 1
Trong chƣơng này, tác giả đã phát biểu và đặt vấn đề cho bài tốn. Bên cạnh đó,
tác giả cũng phân tích: những ƣu, nhƣợc điểm, các khó khăn thách thức của lớp bài
toán đã đặt ra trong luận văn. Để giải quyết yêu cầu đặt ra của luận văn, tác giả đi sâu
nghiên cứu và giải quyết hai vấn đề chính: Vấn đề thứ nhất, giới thiệu trình tự các
bƣớc giải quyết cho lớp bài toán. Vấn đề thứ hai, nghiên cứu và xây dựng ứng dụng
hệ thống xác định khuôn mặt chung nhất trong một tập ảnh cho trƣớc.


18

CHƢƠNG 2: CƠ SỞ LÝ THUYẾT
Trong chƣơng này tác giả sẽ trình bày tổng quan lý thuyết để giải quyết bài toán
bao gồm lý thuyết thuật toán, phƣơng pháp của các giai đoạn nhƣ phát hiện khn mặt,
trích rút đặc trƣng, và xác định khuôn mặt chung nhất trong tập ảnh cho trƣớc.
2.1 Phát hiện khuôn mặt
2.1.1 Các đặc trƣng giống Haar
Viola và Jones dùng 4 đặc trƣng cơ bản [18] để xác định khuôn mặt ngƣời. Mỗi
đặc trƣng Haar–like là sự kết hợp của hai hay ba hình chữ nhật "trắng" hay "đen" nhƣ
trong hình sau:

Hình 2.1: Bốn đặc trưng Haar-like cơ bản
Để áp dụng các đặc trƣng này vào việc bài toán xác định mặt ngƣời, 4 đặc trƣng
Haar-like cơ bản đƣợc mở rộng ra, và đƣợc chia làm 3 tập đặc trƣng nhƣ sau:
1

Đặc trưng cạnh (edge features):


2. Đặc trưng đường (line features):

3. Đặc trưng xung quanh tâm (center-surround features):

Hình 2.2: Các đặc trưng mở rộng của các đặc trưng Haar-like cơ sở
Lợi ích của các đặc trƣng Haar-like là nó diễn đạt đƣợc tri thức về các đối tƣợng
trong ảnh (bởi vì nó biểu diễn mối liên hệ giữa các bộ phận của đối tƣợng), điều mà
bản thân từng điểm ảnh không diễn đạt đƣợc. Để tính giá trị các đặc trƣng haar-like, ta
tính sự chênh lệch giữa tổng của các pixel của các vùng đen và các vùng trắng nhƣ
trong công thức sau:
f(x) = Tổngvùng đen(pixel) - Tổngvùng trắng(pixel)

(2.1)


19

Nhƣ vậy ta có thể thấy rằng, để tính các giá trị của đặc trƣng Haar-like, ta phải
tính tổng của các vùng pixel trên ảnh. Nhƣng để tính tốn các giá trị của các đặc trƣng
Haar-like cho tất cả các vị trí trên ảnh địi hỏi chi phí tính tốn khá lớn, khơng đáp ứng
đƣợc cho các ứng dụng địi hỏi tính run-time. Do đó Viola và Jones đƣa ra một khái
niệm gọi là Integral Image để tính tốn nhanh cho khác feature cơ bản. Sau này,
Lienhart kế thừa gọi Integral Image là SAT – Summed Area Table và đƣa ra thêm khái
niệm RSAT – Rotated Summed Area Table dùng để tính tốn nhanh cho các đặc trƣng
xoay 1 góc 45o. Integral Image là một mảng 2 chiều với kích thƣớc bằng với kích của
ảnh cần tính các đặc trƣng Haar-like, với mỗi phần tử của mảng này đƣợc tính bằng
cách tính tổng của điểm ảnh phía trên (dịng-1) và bên trái (cột-1) của nó. Bắt đầu từ vị
trí trên, bên trái đến vị trí dƣới, phải của ảnh, việc tính tốn này đơn thuần chỉ đựa trên
phép cộng số nguyên đơn giản, do đó tốc độ thực hiện rất nhanh.


P(x,y)

(2.2)
Hình 2.3: Cách tính Integral Image của ảnh
Sau khi đã tính đƣợc Integral Image, việc tính tổng điểm ảnh của một vùng bất
kỳ nào đó trên ảnh thực hiện rất đơn giản theo cách sau: (Giả sử ta cần tính tổng điểm
ảnh của vùng D nhƣ trong hình 2.4:
D = A + B + C + D – (A+B) – (A+C) + A
Với A + B + C + D chính là giá trị tại điểm P4 trên Integral Image, tƣơng tự nhƣ
vậy A+B là giá trị tại điểm P2, A+C là giá trị tại điểm P3, và A là giá trị tại điểm P1.
Vậy ta có thể viết lại biểu thức tính D ở trên nhƣ sau:
(2.3)
A

P1

C

B

P2

D
P3

P4

Hình 2.4: Cách tính nhanh tổng các điểm ảnh của vùng D trên ảnh



20
B
2

A
1

D

3
4

RSAT(x,y)
(a)

C

(b)

Hình 2.5: Cách tính nhanh tổng điểm ảnh của vùng D trên ảnh với các đặc trưng
xoay 45o
Với các đặc trƣng Haar-like xoay 45o Integral Image tại một điểm (x, y) đƣợc
tính theo cơng thức:
(2.4)
Tổng pixel của một vùng bất kỳ trên ảnh vẫn đƣợc tính theo cách sau:
D = A + B + C + D – (A+B) – (A+C) + A
Nhƣ vậy tổng các điểm ảnh trong một hình chữ nhật (kể cả trƣờng hợp xoay 45º)
bất kì đều có thể đƣợc tính nhanh dựa trên integral image tại 4 đỉnh của nó :
Sum (D ) = 4 - 2 – 3 + 1
2.1.2 Phƣơng pháp Adaboost

Nhƣ đã biết, AdaBoost [18] ( Adaptive Boost ) là một bộ phân loại mạnh phi
tuyến phức dựa trên hƣớng tiếp cận boosting đƣợc Freund và Schapire đƣa ra vào năm
1995. Adaboost hoạt động trên nguyên tắc kết hợp tuyến tính các weak classifier dựa
trên các đặc trƣng Haar- Line để hình thành một strong classifier.
Để có thể kết hợp các bộ phân loại yếu, adaboost sử dụng một trọng số (weight)
để đánh dấu các mẫu khó nhận dạng. Trong q trình huấn luyện, cứ mỗi weak
classifier đƣợc xây dựng, thuật toán sẽ tiến hành cập nhật lại trọng số để chuẩn bị cho
việc xây dựng weak classifier tiếp theo: tăng trọng số của các mẫu bị nhận dạng sai và
giảm trọng số của các mẫu đƣợc nhận dạng đúng bởi weak classifier vừa xây dựng.
Bằng cách này, các weak classifier sau có thể tập trung vào các mẫu mà các weak
classifier trƣớc đó chƣa thực hiện tốt. Sau cùng các weak classifier sẽ đƣợc kết hợp tùy
theo mức độ „tốt‟ của chúng để tạo nên một strong classifier.
Các weak classifiers hk(x) là các bộ phân loại yếu, đƣợc biểu diễn nhƣ sau:
(2.5)


21

Trong đó:
X : mẫu hay cửa sổ con cần xét ( X = (x1,x2,…,xn) là vector đặc trƣng của mẫu)
Ok: ngƣỡng (O = teta)
fk: giá trị của đặc trƣng Haar-like
pk: hệ số quyết định chiều của bất phƣơng trình
Cơng thức trên có thể diễn giải nhƣ sau: Nếu giá trị đặc trƣng của mẫu cho bởi
hàm đánh giá của bộ phân loại vƣợt qua một ngƣỡng cho trƣớc thì mẫu đấy là khuôn
mặt ( gọi là object : đối tƣợng cần nhận dạng ), ngƣợc lại thì mẫu là background (
khơng phải là đối tƣợng ).
Thuật tốn AdaBoost:
1. Cho một tập gồm n mẫu có đánh dấu (x1,y1), (x2,y2),… (xn,yn) với xk ∈
(xk1, xk2, … , xkm) là vector đặc trƣng và yk ∈ (-1, 1) là nhãn của mẫu (1

ứng với object, -1 ứng với background).
2. Khởi tạo trọng số ban đầu cho tất cả các mẫu: với m là số mẫu đúng
(ứng với object và y = 1) và l là số mẫu sai (ứng với background và y =
-1).

3. Xây dựng T weak classifiers
Lặp t = 1, …, T
 Với mỗi đặc trƣng trong vector đặc trƣng, xây dựng một weak
classifier hj với ngƣỡng θj và lỗi εj.

 Chọn ra hj với εj nhỏ nhất, ta đƣợc ht:
 Cập nhật lại trọng số:

 Trong đó:

: Hệ số dùng để đƣa

về đoạn [0,1] (normalization factor)

4. Strong classifier đƣợc xây dựng :
Hình 2.6: Thuật tốn Adaboost


22

Quá trình huấn luyện bộ phân loại đƣợc thực hiện bằng một vịng lặp mà ở mỗi
bƣớc lặp, thuật tốn sẽ chọn ra weak classifier ht thực hiện việc phân loại với lỗi εt nhỏ
nhất (do đó sẽ là bộ phân loại tốt nhất) để bổ sung vào strong classifier. Mỗi khi chọn
đƣợc 1 bộ phân loại ht, Adaboost sẽ tính giá trị αt theo cơng thức ở trên. αt cũng đƣợc
chọn trên nguyên tắc làm giảm thiểu giá trị lỗi εt.

Hệ số αt nói lên mức độ quan trọng của ht:
 Trong công thức của bộ phân loại H(x):
(2.6)
Ta thấy tất cả các bộ phân loại ht đều có đóng góp vào kết quả của bộ
phân loại H(x), và mức độ đóng góp của chúng phụ thuộc vào giá trị αt tƣơng
ứng: ht với αt càng lớn thì nó càng có vài trị quan trọng trong H(x).
 Trong cơng thức tính αt:
(2.7)
Dễ thấy giá trị αt tỉ lệ nghịch với εt. Bởi vì ht đƣợc chọn với tiêu chí đạt εt
nhỏ nhất, do đó nó sẽ đảm bảo giá trị αt lớn nhất.
Sau khi tính đƣợc giá trị αt, Adaboost tiến hành cập nhật lại trọng số của các
mẫu: tăng trọng số các mẫu mà ht phân loại sai, giảm trọng số các mẫu mà ht phân loại
đúng. Bằng cách này, trọng số của mẫu phản ánh đƣợc mức độ khó nhận dạng của
mẫu đó và ht+1 sẽ ƣu tiên học cách phân loại những mẫu này.
Vòng lặp xây dựng strong classifier sẽ dừng lại sau T lần lặp. Trong thực tế cài
đặt (thƣ viện OpenCV của Intel), ngƣời ta ít sử dụng giá trị T vì khơng có cơng thức
nào đảm bảo tính đƣợc giá trị T tối ƣu cho q trình huấn luyện. Thay vào đó, ngƣời ta
sử dụng giá trị max false positive hay max false alarm (tỉ lệ nhận dạng sai tối đa các
mẫu background). Tỉ lệ này của bộ phân loại cần xây dựng khơng đƣợc phép vƣợt q
giá trị này. Khi đó, qua các lần lặp, false alarm của strong classifier Ht(x) xây dựng
đƣợc (tại lần lặp thứ t) sẽ giảm dần, và vòng lặp kết thúc khi tỉ lệ này thấp hơn max
false alarm.
2.2 Tổng quan về các phƣơng pháp trích rút đặc trƣng
Hiện nay có rất nhiều các phƣơng pháp trích dẫn dữ liệu từ khn mặt, mỗi
phƣơng pháp có những ƣu nhƣợc điểm và đặc điểm riêng nhƣng theo cách
thức mà những phƣơng pháp và hình thức của dữ liệu đƣợc trích dẫn thì chia ra làm 2
hƣớng tiếp cận chính:
Thứ nhất, hƣớng tiếp cận dựa trên đặc trƣng hình học là hƣớng tiếp cận dựa vào
các bức ảnh trực diện khuôn mặt lấy từ khâu phát hiện khuôn mặt, trích chọn đặc trƣng



23

về hình học biểu diễn hình dáng, vị trí các phần của khuôn mặt nhƣ mắt, mũi, miệng,
lông mày. Cụ thể xác định một số các điểm đặc trƣng trên khn mặt: 2 mống mắt,
điểm chính giữa miệng, khóe miệng, một số các điểm khác ở vùng trán, mắt,…
Thứ hai, hƣớng tiếp cận dựa trên đặc trƣng diện mạo là hƣớng tiếp cận dựa vào
cấu trúc phân bổ của cƣờng độ sáng của điểm ảnh trên bề mặt của bức ảnh để trích
chọn các đặc trƣng.
Trong đó trích chọn đặc trƣng diện mạo có ƣu điểm là ít phức tạp hơn phƣơng
pháp trích chọn đặc trƣng hình học, các khâu ít hơn nhƣng độ chính xác thƣờng thấp
hơn. Tùy thuộc vào yêu cầu hệ thống chúng ta có thể áp dụng các phƣơng pháp khác
nhau. Tuy nhiên kết quả tối ƣu nếu chúng ta áp dụng cả hai phƣơng pháp trên xuất
hiện phƣơng pháp thứ ba là phƣơng pháp lai giữa hai phƣơng pháp sử dụng đặc trƣng
hình học và đặc trƣng diện mạo.
2.2.1 Phƣơng pháp trích chọn đặc trƣng hình học
Yang [11] đã phát triển một hệ thống thời gian thực để xác định và theo vết
các điểm đặc trƣng nhƣ mống mắt, khóe miệng hay lỗ mũi. Phƣơng pháp tìm kiếm 2
vùng mắt là 2 vùng tối nhất và sử dụng các điều kiện về hình học nhƣ vị trí bên trong
mặt, kích thƣớc và hình dáng để xác định. Phƣơng pháp dùng phép lặp lấy ngƣỡng để
phát hiện ra vùng tối nhất với điều kiện ánh sáng thay đổi. Xác định lỗ mũi cũng
tƣơng tự nhƣ xác định 2 mống mắt.
Phƣơng pháp trên có một số những ƣu điểm nhƣ thỏa mãn điều kiện thực thi với
thời gian thực. Một số phƣơng pháp có thể áp dụng với những độ phân giải khác nhau
(với cả độ phân giải thấp), tuy nhiên vẫn có trƣờng hợp phát hiện ra lơng mày thay vì
mắt. Tian [13] đã giải quyết vấn đề bằng cách phát hiện cả vùng mắt và lơng mày.
Bằng cách đó, khơng chỉ trích chọn đƣợc thêm đặc trƣng mà tỷ lệ chính xác cịn đƣợc
tăng lên. Đối với xác định khóe miệng, trƣờng hợp sai là khi miệng khơng ở trạng
thái bình thƣờng và phƣơng pháp áp dụng đối với mặt trực diện hoặc gần trực diện.
2.2.2 Phƣơng pháp trích chọn đặc trƣng diện mạo

Một dạng khác của trích chọn đặc trƣng là trích trọn đặc trƣng diện mạo để xác
định những thay đổi trên khuôn mặt. Đặc trƣng về diện mạo biểu diễn sự thay đổi
vẻ bề ngoài: kết cấu da nhƣ các nếp nhăn trên khuôn mặt; biểu đồ nhiệt của khuôn mặt:
các mẫu nhiệt khuôn mặt là duy nhất với mỗi ngƣời và đặc trƣng về nụ cƣời.
Các đặc trƣng về diện mạo có thể đƣợc trích rút trên cả khn mặt hoặc phần
nào đó trên khn mặt. Một số phƣơng pháp tiểu biểu nhƣ : Principal component
analysis (PCA) [10,14], Gabor Wavelet Analysis [19] và Local Binary Pattern
[15, 16] và đƣợc áp dụng trên toàn bộ bề mặt bức ảnh hoặc một phần để trích ra các
đặc trƣng và phát hiện sự thay đổi của khuôn mặt.


24

2.3 Phƣơng pháp phân tích thành phần chính
2.3.1 Sơ lƣợc đại số tuyến tính
 Vector riêng, trị riêng và sự chéo hóa của ma trận
Cho A là một ma trận vuông cấp n trên trƣờng K. Một số   K đƣợc gọi là giá
trị riêng của ma trận A nếu tồn tại vectơ u khác không u  K n , sao cho thỏa mãn điều
kiện A(u)  u . Khi đó vectơ u đƣợc gọi là vectơ riêng của ma trận A ứng với giá trị
riêng  . Ma trận A với kích thƣớc n x n sẽ có tối đa n trị riêng và n vector riêng tƣơng
ứng.
2

3

1

1 

Ví dụ cho ma trận A  

 , u   3 , v   2
 3 6
 
 
Ta có:
 2 3   1   7 
Au  
       7u
 3 6  3  21

2

3  1 

8

1 

Và Av  
       k  2
 3 6  2  9
 
Kết luận: u là vectơ riêng của ma trận A ứng với giá trị riêng – 7, cịn v khơng là
vectơ riêng của ma trận A vì khơng tồn tại một số thực k nào thỏa Av = kv.
Nếu tồn tại một cơ sở trong không gian Rn sao cho ma trận A biểu diễn trong cơ
sở đó có dạng chéo (các phần tử ngồi đƣờng chéo bằng 0) thì ma trận A sẽ chéo hóa
đƣợc
 Kỳ vọng và phƣơng sai trong thống kê đa chiều
Đối với thống kê đa chiều, mỗi một mẫu thống kê là một vector đa
chiều. Giả sử ta có một biến ngẫu nhiên X trong khơng gian tuyến tính n

chiều.
X = [x1, x2,…, xn]T

(2.8)

Khi đó kỳ vọng của biến ngẫu nhiên X cũng là một vector n chiều,
trong thống kê, kỳ vọng E[X] của biến ngẫu nhiên X có thể ƣớc lƣợng bằng trung
bình mẫu , và đƣợc tính bằng cơng thức:
(2.9)
Trong đó: M là tổng số mẫu có trong thống kê.
 Ma trận hiệp phƣơng sai


×