Tải bản đầy đủ (.doc) (32 trang)

Tiểu luận an ninh mạng Nhận Diện Khuôn Mặt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (846.01 KB, 32 trang )

HäC VIÖN C¤NG NGHÖ B¦U CHÝNH VIÔN TH¤NG
_________  _________
TIỂU LUẬN
AN NINH MẠNG
Nội Dung:
Nhận Diện Khuôn Mặt
Giảng viên hướng dẫn: PGS. TSKH. Hoàng Đăng Hải
Nhóm học viên: Ngô Thanh Bình
Đào Thị Lan Hương
Dương Toàn Trung
Lớp: M11CQDT01-B
Hà Nội 6/2012
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
MỤC LỤC
MỤC LỤC 2
DANH MỤC HÌNH VẼ 3
LỜI NÓI ĐẦU 4
CHƯƠNG I: TỔNG QUAN VỀ NHẬN DẠNG KHUÔN MẶT 5
1.1 Bài toán nhận diện khuôn mặt 5
1.2 Những khó khăn và thách thức trong bài toán nhận diện khuôn mặt 6
1.3 Các ứng dụng của bài toán nhận diện khuôn mặt 6
CHƯƠNG II: CÁC PHƯƠNG PHÁP NHẬN DIỆN KHUÔN MẶT 9
2.1 Phương pháp dựa trên tri thức 9
2.1.1 Phương pháp của Yang và Huang 9
2.1.2 Phương pháp của Kotropoulos và Pitas 10
2.2 Phương pháp dựa trên đặc trưng bất biến 12
2.2.1 Các đặc trưng của khuôn mặt 12
2.2.2 Kết cấu của khuôn mặt 13
2.2.3 Mầu sắc da 14
2.2.4 Đa đặc trưng 14
2.3 Phương pháp so sánh khớp mẫu 14


2.4 Phương pháp dựa trên diện mạo 17
CHƯƠNG III: GIẢI THUẬT ADABOOST 19
3.1 Tiếp cận Boosting 19
3.2 Thuật toán Adaboost 20
3.2.1 Đặc trưng Haar-like 22
3.2.2 Mô hình Cascade 26
3.2.3 Mô hình Boost Cascade 27
CHƯƠNG IV: NHẬN DIỆN KHUÔN MẶT SỬ DỤNG OPENCV 28
4.1 Sơ lược về OpenCV 28
4.2 Kết quả mô phỏng 28
KẾT LUẬN 32
Nhận Dạng Khuôn Mặt 2
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
DANH MỤC HÌNH VẼ
Hình 1.1: Nhận dạng mặt người 5
Hình 2.1: Các ảnh với độ phân giải khác nhau 10
Hình 2.2: Một tri thức về khuôn mặt 10
Hình 2.3: Minh họa giải thuật chiếu 11
Hình 2.4: Một mẫu khuôn mặt có kích thước 14 * 16 pixel trong phương pháp định vị khuôn mặt
của Sinha. Mẫu gồm 16 vùng trên khuôn mặt và 23 quan hệ 15
Hình 3.1: Boosting 20
Hình 3.2: Bộ phân loại mạnh H(x) xây dựng bằng Adaboost 21
Hình 3.3: 4 đặt trưng Haar-like cơ bản 23
Hình 3.4: Các đặc trưng mở rộng của các đặc trưng Haar-like cơ sở 24
Hình 3.5: Minh họa đặc trưng Haar-like 24
Hình 3.6: Cách tính Integral Image của ảnh 25
Hình 3.7: Ví dụ cách tính nhanh tổng các điểm ảnh của vùng D trên ảnh 25
Hình 3.8: Cách tính nhanh tổng điểm ảnh của vùng D trên ảnh với các đặc trưng xoay 45o 25
Hình 3.9: Mô hình Cascade 27
Hình 4.1: Cấu trúc cơ bản của OpenCV 28

Nhận Dạng Khuôn Mặt 3
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
LỜI NÓI ĐẦU
Nhận dạng hay nhận biết một đối tượng thông qua các giác quan của con người đặc
biệt là thị giác là một đặc điểm hết sức quan trọng. Nó giúp chúng ta phân biệt được các
sự vật hiện tượng và cảm nhận được thế giới thiên nhiên cũng như mọi người xung
quanh.
Ngày nay với sự phát triển của khoa học công nghệ, vấn đề nhận dạng đang được
đặc biệt quan tâm và phát triển nhất là trong lĩnh vực rô bốt, tự động hóa, bảo mật. Con
người ngày càng mong ước tạo ra được một hệ thống nhận dạng có khả năng tương
đương hoặc thậm chí là vượt hơn hệ thống nhận dạng sinh học.
Nhận dạng khuôn mặt người là một trong những vấn đề được khoa học thế giới
nghiên cứu và phát triển, nó có rất nhiều ứng dụng trong thực tế cuộc sống cũng như
trong khoa học công nghệ. Vì vậy trong tiểu luận này chúng em xin được nghiên cứu về
vấn đề nhận dạng khuôn mặt.
Nhận Dạng Khuôn Mặt 4
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
CHƯƠNG I: TỔNG QUAN VỀ NHẬN DẠNG KHUÔN MẶT
1.1 Bài toán nhận diện khuôn mặt
Ngày nay cùng với sự bùng nổ thông tin, sự phát triển công nghệ cao, sự giao tiếp
giữa con người và máy tính đang thay đổi rất nhanh, giờ đây giao tiếp này không còn đơn
thuần dùng những thiết bị cơ học như chuột, bàn phím… mà có thể thông qua các biểu
hiện của khuôn mặt. Bên cạnh đó, công nghệ càng phát triển thì giá cả ngày càng giảm,
thêm vào đó tốc độ xử lý của máy tính ngày càng cao, do đó hệ thống xử lí khuôn mặt
đang được phát triển rất nhiều.
Hình 1.1: Nhận dạng mặt người
Trong số đó, có thể nói đến hệ thống phát hiện khuôn mặt, hệ thống này có thể giúp
máy tính và con người giao tiếp với nhau tốt hơn. Những nghiên cứu trong hệ thống này
chủ yếu dựa trên những thông tin trong ảnh để phát hiện vị trí khuôn mặt, làm bước đệm
cho các ứng dụng tiếp theo. Rất nhiều nghiên cứu và ứng dụng được phát triển dựa trên

hệ thống này. Đó là nhiệm vụ đầu tiên của bất kì hệ thống xử lý khuôn mặt nào. Tuy
nhiên, đây cũng là một thử thách rất lớn bởi phát hiện được khuôn mặt còn dựa vào nhiều
yếu tố như tỉ lệ, vị trí, hướng nhìn (từ trên xuống, quay,…), kiểu chụp (chụp đối diện,
chụp ngang,…). Ngoài ra, những cảm xúc của khuôn mặt, một số phần bị che, hoặc
hướng ánh sáng cũng ảnh hưởng đến bài toán phát hiện khuôn mặt.
Nhận Dạng Khuôn Mặt 5
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
1.2 Những khó khăn và thách thức trong bài toán nhận diện khuôn mặt
Bài toán nhận dạng mặt người đã được nghiên cứu từ những năm 70, người đầu
tiên là Kanade. Tuy nhiên, đây là một bài toán khó nên những nghiên cứu hiện tại vẫn
chưa đạt được kết quả mong muốn. Có thể kể đến những khó khăn của bài toán nhận
dạng mặt người như dưới đây:
• Tư thế, góc chụp: Ảnh chụp khuôn mặt có thể thay đổi rất nhiều bởi vì góc chụp
giữa camera và khuôn mặt. Chẳng hạn như: chụp thẳng, chụp chéo bên trái 45
o
hay chéo bên phải 45
o
, chụp từ trên xuống, chụp từ dưới lên ). Với các tư thế
khác nhau, các thành phần trên khuôn mặt như mắt, mũi, miệng có thể bị khuất
một phần hoặc thậm chí khuất hết.
• Sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt: Các đặc trưng như: râu
mép, râu hàm, mắt kính có thể xuất hiện hoặc không. Vấn đề này làm cho bài
toán càng trở nên khó hơn rất nhiều.
• Cảm xúc biểu hiện trên khuôn mặt: Cảm xúc có thể làm ảnh hưởng đáng kể lên
các thông số của khuôn mặt. Chẳng hạn, cùng một khuôn mặt một người, nhưng
có thể sẽ rất khác khi họ cười hoặc sợ hãi…
• Sự che khuất: Khuôn mặt có thể bị che khuất bởi các đối tượng khác hoặc các
khuôn mặt khác.
• Hướng của ảnh: Các ảnh của khuôn mặt có thể biến đổi rất nhiều với các góc
quay khác nhau của trục camera. Chẳng hạn chụp với trục máy ảnh nghiêng làm

cho khuôn mặt bị nghiêng so với trục của ảnh.
• Điều kiện của ảnh: Ảnh được chụp trong các điều kiện khác nhau về: chiếu sáng,
về tính chất camera (máy kỹ thuật số, máy hồng ngoại ) ảnh hưởng rất nhiều đến
chất lượng ảnh khuôn mặt.
1.3 Các ứng dụng của bài toán nhận diện khuôn mặt
Ứng dụng của bài toán nhận diện khuôn mặt có rất nhiều và đã được triển khai
tương đối hiệu quả trong thực tế. Có thể kể đến một số ứng dụng điển hình sau đây:
Xác minh tội phạm
Dựa vào ảnh của một người, nhận dạng xem người đấy có phải là tội phạm hay
không bằng cách so sách với các ảnh tội phạm đang được lưu trữ. Hoặc có thể sử dụng
camera để phát hiện tội phạm trong đám đông. Ứng dụng này giúp cơ quan an ninh quản
lý con người tốt hơn.
Camera chống trộm
Nhận Dạng Khuôn Mặt 6
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
Các hệ thống camera sẽ xác định đâu là con người và theo dõi xem con người đó có
làm gì phạm pháp không, ví dụ như lấy trộm đồ, xâm nhập bất hợp pháp vào một khu
vực nào đó.
Bảo mật
Các ứng dụng về bảo mật rất đa dạng, một trong số đó là công nghệ nhận dạng mặt
người của laptop, công nghệ này cho phép chủ nhân của máy tính chỉ cần ngồi trước máy
là có thể đăng nhập được. Để sử dụng công nghệ này, người dùng phải sử dụng một
webcam để chụp ảnh khuôn mặt của mình và cho máy “học” thuộc các đặc điểm của
khuôn mặt giúp cho quá trình đăng nhập sau này.
Lưu trữ khuôn mặt
Xác định mặt người có thể được ứng dụng trong các trạm rút tiền tự động (ATM)
để lưu trữ khuôn mặt của người rút tiền. Hiện nay có những người bị người khác lấy trộm
thẻ ATM và mã PIN, và bị rút tiền trộm, hoặc có những chủ tài khoản đi rút tiền nhưng
lại báo với ngân hàng là bị mất thẻ và bị rút tiền trộm. Nếu lưu trữ được khuôn mặt của
người rút tiền, ngân hàng có thể đối chứng và xử lý dễ dàng hơn.

Các ứng dụng khác
• Điều khiển vào ra: văn phòng, công ty, trụ sở, máy tính, Palm, …. Kết hợp thêm
vân tay và mống mắt. Cho phép nhân viên được ra vào nơi cần thiết.
• An ninh sân bay, xuất nhập cảnh (hiện nay cơ quan xuất nhập cảnh Mỹ đã áp
dụng). Dùng camera quan sát để xác thực người nhập cảnh và kiểm tra xem người
đấy có phải là tội phạm hay phần tử khủng bố không.
• Tìm kiếm và tổ chức dữ liệu liên quan đến con người thông qua khuôn mặt người
trên nhiều hệ cơ sở dữ liệu lưu trữ thật lớn, như internet, các hãng truyền hình, ….
Ví dụ: tìm các đoạn video có tổng thống Bush phát biểu, tìm các phim có diễn
viên Lý Liên Kiệt đóng, tìm các trận đá bóng có Ronaldo đá, …
• Kiểm tra trạng thái người lái xe có ngủ gật, mất tập trung hay không, và hỗ trợ
thông báo khi cần thiết.
• Tương lai sẽ phát triển các loại thẻ thông minh có tích hợp sẵn đặc trưng của
người dùng trên đó, khi bất cứ người dùng khác dùng để truy cập hay xử lý tại các
hệ thống sẽ được yêu cầu kiểm tra các đặc trưng khuôn mặt so với thẻ để biết nay
có phải là chủ thẻ hay không.
• Hãng máy chụp hình Canon đã ứng dụng bài toán xác định khuôn mặt người vào
máy chụp hình thế hệ mới để cho kết quả hình ảnh đẹp hơn, nhất là khuôn mặt
người.
Nhận Dạng Khuôn Mặt 7
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
Nhận Dạng Khuôn Mặt 8
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
CHƯƠNG II: CÁC PHƯƠNG PHÁP NHẬN DIỆN KHUÔN MẶT
2.1 Phương pháp dựa trên tri thức
Trong hướng tiếp cận này, phương pháp phát hiện khuôn mặt dựa trên các quy tắc
rút ra từ những tri thức về khuôn mặt được các nhà khoa học nêu ra. Dễ dàng để có được
luật đơn giản để thể hiện các đặc trưng mặt người và mối quan hệ của chúng. Chẳng hạn,
một khuôn mặt thường có 2 mắt đối xứng nhau, 1 mũi, và 1 miệng. Quan hệ giữa chúng
thể hiện qua quan hệ khoảng cách hay vị trí. Thường thì các đặc trưng khuôn mặt của ảnh

đầu vào được trích chọn trước để đưa ra các ứng viên, tiếp đó là dùng tập luật trên đây để
loại bỏ tiếp các ứng viên không phải khuôn mặt. Thông thường có một giai đoạn kiểm tra
lại kết quả các ứng viên khuôn mặt đó để tăng độ chính xác của hệ thống.
Tuy nhiên, hướng tiếp cận này gặp một khó khăn đó là việc chuyển từ tri thức về
mặt người thành tập luật xác định tốt cho nhiều trường hợp. Tập luật quá chi tiết sẽ rất dễ
dẫn đến bỏ sót các khuôn mặt thật, ngược lại nếu tập luật sơ sài sẽ dẫn đến kết quả có rất
nhiều khuôn mặt mà trong số đó có cả các ứng viên không phải khuôn mặt. Thêm vào đó
hướng tiếp cận này là khá khó khăn khi mở rộng bài toán trong các trường hợp tư thế
chụp khác nhau vì tư thế chụp có thể dẫn đến luật trên đây áp dụng không đúng nữa.
Theo hướng tiếp cận này, chúng ta sẽ xem xét 2 nghiên cứu sau đây:
2.1.1 Phương pháp của Yang và Huang
Hai nhà khoa học Yang và Huang đã dùng phương pháp có thứ tự theo hướng tiếp
cận này để phát hiện khuôn mặt. Hệ thống của hai ông bao gồm 3 tầng luật:
• Tầng đầu tiên: Tìm ra các ứng viên bằng cách quét 1 cửa sổ khắp ảnh đầu vào, các
ứng viên phải thỏa mãn tập luật tầng này.
• Tầng giữa: Sử dụng các tập luật mô tả chung về khuôn mặt.
• Tầng cuối cùng: Dùng các tập luật xem xét một cách chi tiết các đặc trưng khuôn
mặt.
Một hệ thống ảnh đa phân giải được xây dựng theo các mẫu con với độ xám của cả
mẫu đó được thay bằng mức xám trung bình của mẫu. Ví dụ như dưới đây
Nhận Dạng Khuôn Mặt 9
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
Hình 2.1: Các ảnh với độ phân giải khác nhau
các mẫu mới được mã hóa theo quy tắc n*n pixels có giá trị trung bình của các pixels
trong mẫu. Trái qua phải n=1,4,9,16.
Hình 2.2: Một tri thức về khuôn mặt
Hai ông sử dụng tri thức về khuôn mặt với một số tính chất độ sáng như trên hình
2.2 và rằng:
• Tầng đầu tiên: Tìm ứng viên khuôn mặt trong mức phân giải thấp nhất gồm có
phần trung tâm của mặt với 4 phần có mức sáng tương đối đều nhau, tiếp theo là

phần xung quanh, sáng hơn chút cũng có độ sáng gần như nhau (chênh lệch độ
sáng giữa 2 vùng nói trên là đủ lớn)
• Tầng giữa: Dùng biểu đồ historgram để xem xét tiếp các ứng viên trên đây, đồng
thời tìm ra đường cạnh bao ứng viên.
• Tầng cuối cùng: Dùng các tập luật của tầng này xem xét đặc trưng khuôn mặt các
ứng viên qua được tầng giữa. Ví dụ đặc trưng về mắt, miệng …
Nhận xét: phương pháp này khá đơn giản, dễ thực hiện, tuy nhiên , kết quả lại chưa cao.
Song các ý tưởng của phương pháp đã làm nền tảng cho các nghiên cứu sau này như ý
tưởng sử dụng ảnh đa phân giải hay các tri thức về khuôn mặt đã dùng
2.1.2 Phương pháp của Kotropoulos và Pitas
Hai ông khá thành công trong việc định vị vùng chứa khuôn mặt bằng phương pháp
chiếu. Ta xem xét phương pháp này với ảnh đa mức xám. Cơ sở của phương pháp có thể
hiểu như sau:
• Giả thiết I(x,y) là độ xám tại vị trí tọa độ (x,y) của ảnh kích thước m*n
• Định nghĩa
Nhận Dạng Khuôn Mặt 10
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
- HI(x)= : đặc trưng xám ngang.
- VI(y)= : đặc trưng xám dọc.
• Với nhận xét mức xám vùng da mặt chỉ nằm trong 1 khoảng nhất định, từ đó dựa
trên sự thay đổi của đường cong HI(x), tìm ra 2 cực trị địa phương tương ứng với
hai bên của phần đầu người. Tương tự với sự thay đổi của VI(y), tìm ra các cực trị
địa phương tương ứng với vùng đôi mắt, đôi môi và đỉnh mũi. Các đặc trưng này
đủ để phát hiện được các ứng viên khuôn mặt.
Xem ví dụ dưới đây cho giải thuật này. Hình 2.3a minh họa cho cách xác định biên
của khuôn mặt ứng với các cực trị địa phương như đã nêu trên đây. Sau đó dùng vài luật
đơn giản để kiểm tra lại ví như việc tồn tại của lông mày/ mắt, lỗ mũi/ mũi hay cái miệng
… Tuy nhiên ở hai hình bên 2.3b và 2.3c việc xác định các cực trị địa phương như đã
nêu là rất khó khăn do sự thay đổi của các đường cong HI(x) và VI(y) phụ thuộc vào
nhiều yếu tố. Trường hợp hình 2.3b là ảnh với nền phức tạp, trường hợp hình 2.3c là ảnh

với sự có mặt của nhiều khuôn mặt trong ảnh.

(a) (b) (c)
Hình 2.3: Minh họa giải thuật chiếu
Phương pháp được đưa ra kiểm tra trên một tập khuôn mặt trong trong video gồm
37 người khác nhau. Mỗi ảnh chỉ chứa 1 khuôn mặt trên 1 nền không đổi. Phương pháp
của họ tìm ra được đúng các ứng viên khuôn mặt. Tỷ lệ phát hiện đúng là 86.5% và định
vị đúng các đặc trưng của khuôn mặt như mắt, mũi, môi …
Nhận xét: phương pháp của Kotropoulos Pitas khá đơn giản, dễ thực hiện, tuy nhiên,
phương pháp này lại chỉ cho hiệu quả cao với các ảnh có một khuôn mặt, tư thế chụp
thẳng và nền ảnh không quá phức tạp. Sau này, phương pháp này đã được cải tiến, kết
hợp với ý tưởng đa phân giải, hay tiền xử lí sáng tạo trước khi chiếu.
Nhận Dạng Khuôn Mặt 11
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
2.2 Phương pháp dựa trên đặc trưng bất biến
Tiếp cận dựa trên các đặc trưng không thay đổi là tiếp cận theo kiểu bottom up.
Dựa trên thực tế, chúng ta cố gắng tìm ra những đặc điểm không thay đổi khi của khuôn
mặt khi ở các tư thế khác nhau và các điều kiện môi trường như ánh sáng khác nhau. Đã
có rất nhiều nghiên cứu về hướng tiếp cận này, các đặc điểm không thay đổi được tìm
thấy như lông mày, mắt, mũi, miệng hay các đường viền trên tóc … Trên cơ sở các đặc
trưng này, các nhà nghiên cứu xây dựng lên một mô hình thống kê mô tả quan hệ của các
đặc trưng và từ đó xác định sự xuất hiện của khuôn mặt trong bức ảnh. Khó khăn của
hướng tiếp cận này đó là phải mô tả các đặc trưng không thay đổi và quan hệ giữa chúng
phù hợp với điều kiện ánh sáng, độ nhiễu hay bị che khuất.
2.2.1 Các đặc trưng của khuôn mặt
Có rất nhiều nghiên cứu về các đặc trưng của khuôn mặt. Có thể dựa vào các đặc
trưng như hai mắt, hai lỗ mũi, miệng, phần nối giữa mũi và miệng … hoặc dựa vào
đường viền của khuôn mặt.
Leung đã đưa ra một mô hình xác xuất để xác định khuôn mặt trong ảnh có hình
nền phức tạp dựa trên việc tìm kiếm các đặc trưng không thay đổi của khuôn mặt trong

ảnh, sau đó dùng đồ thị ngẫu nhiên để xác định khuôn mặt. Tư tưởng của phương pháp
này đó là xem bài toán xác định khuôn mặt như là bài toán tìm kiếm với mục tiêu là tìm
thứ tự các đặc trưng không thay đổi của khuôn mặt. Dùng năm đặc trưng (hai mắt, hai lỗ
mũi, phần nối giữa mũi và miệng) để mô tả một khuôn mặt. Đồng thời tính quan hệ
khoảng cách cho tất cả các cặp đặc trưng (như mắt trái, mắt phải), sau đấy dùng phân bố
Gauss để mô hình hóa. Một mẫu khuôn mặt được đưa ra thông qua trung bình tương ứng
cho một tập đa hướng, đa tỷ lệ của bộ lọc đạo hàm Gauss. Từ một ảnh, các đặc trưng của
ứng viên được xác định bằng cách so khớp từng điểm ảnh khi lọc tương ứng với vector
mẫu. Hai ứng viên có đặc trưng đứng đầu sẽ được chọn để tìm kiếm cho các đặc trưng
khác của khuôn mặt. Từ các đặc trưng không thay đổi, các đặc trưng khác sẽ được xác
định thông qua sự đánh giá xác xuất khoảng cách giữa các đặc trưng, hơn nữa phương sai
của phép thống kê này có thể được tính toán trước để xác định các đặc trưng với xác xuất
lớn. Tỷ lệ chính xác của phương pháp này là 86%.
Bên cạnh tính khoảng cách liên quan để mô tả quan hệ giữa các đặc trưng như
Leung. Kendall, Mardia and Dryden dùng lý thuyết xác suất thống kê về hình dáng.
Dùng hàm mật độ xác suất (Probility Density Function - PDF) qua N điểm đặc trưng,
tương ứng (xi, yi) là đặc trưng thứ i với giả sử là phân bố Gauss có 2N-chiều. Các tác giả
áp dụng phương thức cực đại khả năng (Maximum-Likelihood - ML) để xác định vị trí
Nhận Dạng Khuôn Mặt 12
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
khuôn mặt. Một thuận lợi của phương pháp này là các khuôn mặt bị che khuất vẫn có thể
xác định được. Hạn chế phương pháp này đó là không xác định được nhiều khuôn mặt
trong cùng một ảnh.
Không dùng phương pháp xác xuất, Sirohey đưa một phương pháp khác xác định
khuôn mặt từ một ảnh có hình nền phức tạp. Phương pháp dựa trên cạnh. Dùng phương
pháp Candy và heuristics loại bỏ các cạnh để còn lại duy nhất một đường bao xung
quanh khuôn mặt. Một hình ellipse dùng để bao khuôn mặt, tách biệt vùng đầu và hình
nền. Tỷ lệ chính xác của thuật toán là 80%.
Graf đưa ra một phương pháp xác định đặc trưng rồi xác định khuôn mặt trong ảnh
xám. Dùng bộ lọc để làm nổi các biên, các phép toán hình thái học (morphology) được

dùng để làm nổi bật các vùng có cường độ cao và hình dáng chắc chắn (như mắt). Thông
qua histogram để tìm các đỉnh nổi bật để xác định các ngưỡng chuyển ảnh xám thành hai
ảnh nhị phân. Các thành phần dính nhau đều xuất hiện trong hai ảnh nhị phân thì được
xem là vùng của ứng viên khuôn mặt rồi phân loại xem có phải là khuôn mặt không.
Phương pháp được kiểm tra trên các ảnh chỉ có đầu và vai của người. Tuy nhiên phương
pháp này còn một vấn đề đấy là sử dụng các phép toán morphology như thế nào và làm
sao xác định khuôn mặt trên các vùng ứng viên.
Park dùng Gaze để tìm ứng viên góc mắt, miệng và tâm mắt. Ông xây dựng SVM
(Support Vector Machine) đã được học trước đó để xác định các vị trí ứng viên có phải là
góc mắt, miệng, và tâm mắt hay không để theo vết con mắt người.
Juan và Narciso xây dựng một không gian màu mới YCg’Cr’ để lọc các vùng là
ứng viên khuôn mặt dựa trên sắc thái của màu da người. Sau khi có ứng viên, hai ông
dùng các quan hệ về hình dáng khuôn mặt, mức độ cân đối của các thành phần khuôn
mặt để xác định khuôn mặt người. Tương tự, Chang và Hwang cũng dùng không gian
mầu Ycg’Cr’ với tỷ lệ chính xác hơn 80% trong ảnh xám.
Jin xây dựng một bộ lọc để xác định ứng viên khuôn mặt người theo màu da người.
Từ ứng viên này tác giả xác định khuôn mặt người theo hình dáng khuôn mặt và các
quan hệ đặc trưng về thành phần khuôn mặt, với mắt phải được chọn làm gốc tọa độ để
xét quan hệ. Tỷ lệ chính xác cho khuôn mặt chụp thẳng trên 80%.
2.2.2 Kết cấu của khuôn mặt
Khuôn mặt con người có những kết cấu riêng biệt mà có thể dùng để phân loại so
với các đối tượng khác. Từ kết cấu của khuôn mặt xây dựng lên một bộ phân loại, gọi là
kết cấu giống khuôn mặt (face-like texture).
Nhận Dạng Khuôn Mặt 13
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
2.2.3 Mầu sắc da
Thông thường các ảnh màu không xác định trực tiếp trên toàn bộ dữ liệu ảnh mà
các tác giả dùng tính chất sắc màu của da người (khuôn mặt người) để chọn ra được các
ứng viên có thể là khuôn mặt người (lúc này dữ liệu đã thu hẹp đáng kể) để xác định
khuôn mặt người.

2.2.4 Đa đặc trưng
Gần đây có nhiều nghiên cứu sử dụng các đặc trưng toàn cục như: màu da người,
kích thước và hình dáng để tìm các ứng viên khuôn mặt, rồi sau đó sẽ xác định ứng viên
nào là khuôn mặt thông qua dùng các đặc trưng cục bộ (chi tiết) như: mắt, lông mày,
mũi, miệng, và tóc. Tùy mỗi tác giả sẽ sử dụng tập đặc trưng khác nhau.
2.3 Phương pháp so sánh khớp mẫu
Sakai đã cố gắng thử xác định khuôn mặt người chụp thẳng trong ảnh. Ông dùng
vài mẫu con (sub template) về mắt, mũi, miệng, và đường viền khuôn mặt để mô hình
hóa một khuôn mặt. Mỗi mẫu con được định nghĩa trong giới hạn của các đoạn thẳng.
Các đường thẳng trong ảnh được trích bằng cách xem xét thay đổi của hệ số góc và so
khớp các mẫu con. Đầu tiên tìm các ứng viên thông qua mối tương quan giữa các ảnh
con và các mẫu về đường viền. Sau đó, so khớp với các mẫu con khác. Hay nói một cách
khác, giai đoạn đầu xem như là giai đoạn sơ chế để tìm ứng viên, giai đọan thứ hai là giai
đoạn tinh chế để xác định ứng viên có phải là khuôn mặt hay không. Ý tưởng này được
duy trì cho đến các nghiên cứu sau này.
Craw đưa ra một phương pháp xác định khuôn mặt người dựa vào các mẫu về hình
dáng của các ảnh được chụp thẳng (dùng vẻ bề ngoài của hình dáng khuôn mặt). Đầu
tiên dùng phép lọc Sobel (Phép lọc Sobel dựa vào tích vô hướng của hai vector gradient)
để tìm các cạnh. Các cạnh này sẽ được nhóm lại theo một số ràng buộc. Sau đó, tìm
đường viền của đầu, quá trình tương tự được lặp đi lặp lại với mỗi tỷ lệ khác nhau để
xác định các đặc trưng khác như: mắt, lông mày, và môi. Sau đó Craw mô tả một phương
thức xác định dùng một tập có 40 mẫu để tìm các đặc trưng khuôn mặt và điều khiển
chiến lược dò tìm.
Một số nhà nghiên cứu sử dụng hình chiếu như các mẫu để xác định khuôn mặt
người. Silhouettes dùng PCA (phân tích thành phần chính – Principal Component
Analysis - PCA) để có một tập hình chiếu cơ bản từ các mẫu khuôn mặt, hình chiếu được
mô tả như một mảng các bit. Dùng đặc trưng hình chiếu riêng kết hợp biến đổi Hough để
xác định khuôn mặt người. Sau đó một phương pháp xác định dựa trên đa loại mẫu để
Nhận Dạng Khuôn Mặt 14
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng

xác định các thành phần của khuôn mặt được trình bày. Phương pháp này định nghĩa một
số giả thuyết để mô tả các khả năng của các đặc trưng khuôn mặt. Với một khuôn mặt sẽ
có một tập giả thuyết, lý thuyết DepsterShafer. Dùng một nhân tố tin cậy để kiểm tra sự
tồn tại hay không của các đặc trưng của khuôn mặt, và kết hợp nhân tố tin cậy này với
một độ đo để xem xét có hay không có khuôn mặt trong ảnh.
Sinha dùng một tập nhỏ các ảnh bất biến trong không gian ảnh để mô tả không gian
các mẫu ảnh. Tư tưởng chính của ông dựa vào sự thay đổi mức độ sáng của các vùng
khác nhau của khuôn mặt (như hai mắt, hai má, và trán), (quan hệ về mức độ sáng của
các vùng còn lại thay đổi không đáng kể). Sau đấy xác định các cặp tỷ số của mức độ
sáng của một số vùng (một vùng tối hơn hay sáng hơn) cho ta một lượng bất biến khá
hiệu quả. Ông lưu sự thay đổi độ sáng của các vùng trên khuôn mặt trong một tập thích
hợp với các cặp quan hệ sáng hơn – tối hơn giữa các vùng nhỏ. Một khuôn mặt được xác
định nếu nó thỏa mãn tất cả các cặp sáng hơn – tối hơn. Ý tưởng này xuất phát từ sự khác
biệt của cường độ giữa các vùng kề cục bộ trên ảnh, sau này nó được mở rộng trên cơ sở
biến đổi wavelet để xác định người đi bộ, xác định xe hơi, xác định khuôn mặt. Ý tưởng
của Sinha còn được áp dụng trong các nghiên cứu về thị giác của robot. Hình 2.4 cho
thấy mẫu khuôn mặt với 16 vùng và 23 quan hệ. Các quan hệ này được dùng để phân
loại, có 11 quan hệ thiết yếu (các mũi tên màu đen) và 12 quan hệ xác thực (các mũi tên
mầu xám). Mỗi mũi tên là một quan hệ. Một quan hệ của hai vùng thỏa mãn mẫu khuôn
mặt khi tỷ lệ giữa hai vùng vượt qua một ngưỡng và một khuôn mặt được xác định khi có
23 quan hệ thỏa mãn điều kiện trên.
Hình 2.4: Một mẫu khuôn mặt có kích thước 14 * 16 pixel trong phương pháp định vị khuôn mặt
của Sinha. Mẫu gồm 16 vùng trên khuôn mặt và 23 quan hệ.
Một số phương pháp khác như của Froba và Zink lọc cạnh ở độ phân giải thấp rồi
dùng biến đổi Hough để so khớp mẫu theo hướng cạnh để xác định hình dáng khuôn mặt
Nhận Dạng Khuôn Mặt 15
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
ở dạng chụp hình thẳng ở dạng xám. Tỷ lệ chính xác trên 91%. Ngoài ra Shu và Jain còn
xây dựng ngữ nghĩa khuôn mặt. Ngữ nghĩa xây dựng theo hình dáng và vị trí các thành
phần khuôn mặt. Hai ông từ bộ ngữ nghĩa này tạo một đồ thị quan hệ để dễ dàng so khớp

khi xác định khuôn mặt người …
Các mẫu biến dạng
Yuille dùng các mẫu biến dạng để mô hình hóa các đặc trưng của khuôn mặt. Trong
hướng tiếp cận này, các đặc trưng khuôn mặt được mô tả bằng các mẫu được tham số
hóa và có một hàm năng lượng (giá trị) để liên kết các cạnh, đỉnh, và thung lũng trong
ảnh để tương ứng với các tham số trong mẫu. Mô hình này tốt nhất khi tối thiểu hàm
năng lượng qua các tham số. Mặc dù có kết quả tốt nhưng phương pháp này có một số
hạn chế đó là các mẫu biến dạng phải được khởi tạo trong phạm vi gần với các đối tượng
mà nó xác định.
Rất nhiều hướng tiếp cận dựa trên dường gấp khúc (snake) và các mẫu để xác định
khuôn mặt. Đầu tiên ảnh sẽ được làm xoắn lại bởi một lọc làm mờ rồi dùng phép toán
morphology để làm nổi bật cạnh lên. Tiếp theo dùng một đường gấp khúc có n điểm ảnh
(giá trị n nhỏ) để tìm và ước lượng các đoạn cong nhỏ. Mỗi khuôn mặt được xấp xỉ bằng
một ellipse và biến đổi Hough, rồi tìm một ellipse nổi trội nhất. Các ứng viên sẽ có bốn
tham số mô tả một ellipse (để xác định khuôn mặt). Với mỗi ứng viên, một phương thức
tương tự như phương thức mẫu biến dạng được dùng để xác định các đặc trưng ở mức
chi tiết. Nếu tìm thấy số lượng đáng kể các đặc trưng khuôn mặt và thỏa mãn tỷ lệ cân
đối thì xem như đã xác định được một khuôn mặt. Lam và Yan cũng dùng đường gấp
khúc để xác định vị trí đầu với thuật toán greedy để cực tiểu hóa hàm năng lượng.
Thay vì dùng đường gấp khúc thì Huang và Su dùng lý thuyết dòng chảy để xác
định đường viền khuôn mặt dựa trên đặc tính hình học. Hai ông dùng lý thuyết tập hợp
đồng mức (Level Set) để loang từ các khởi động ban đầu để có được các khuôn mặt
người.
Lanitis mô tả một phương pháp biểu diễn khuôn mặt người với cả hai thông tin:
hình dáng và cường độ. Bắt đầu bằng các tập ảnh được huấn luyện với các đường viền
mẫu như là đường bao mắt, mũi, cằm/má đã được gán nhãn (phân loại). Ông dùng một
vector các điểm mẫu để mô tả hình dáng. Sau đó dùng một mô hình phân bố điểm (Point
Distribution Model – PDM) để mô tả vector hình dáng qua toàn bộ các cá thể. Dùng cách
tiếp cận như của Kirby và Sirovich để mô tả cường độ bề ngoài của hình dáng đã được
chuẩn hóa. Để tìm kiếm và ước lượng vị trí khuôn mặt cũng như các tham số về hình

dáng ông sử dụng một mô hình PDM có hình dáng như khuôn mặt (xác định khuôn mặt
Nhận Dạng Khuôn Mặt 16
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
bằng mô hình hình dáng tích cực - Active Shape Model - ASM). Các mảnh của khuôn
mặt được làm biến dạng về hình dáng trung bình rồi trích lấy các tham số cường độ. Sau
đấy các tham số hình dáng và cường độ được dùng để phân loại và xác định khuôn mặt.
2.4 Phương pháp dựa trên diện mạo
Trái ngược với hướng tiếp cận dựa trên so sánh khớp mẫu (các mẫu đã được các
nhà nghiên cứu định nghĩa trước), các mẫu trong hướng tiếp cận này được học từ một tập
ảnh mẫu. Có thể nói hướng tiếp cận dựa trên diện mạo áp dụng các kỹ thuật theo hướng
xác suất thống kê và học máy để tìm những đặc tính liên quan của khuôn mặt và không
phải là khuôn mặt. Các đặc tính đã được học ở trong hình thái các mô hình phân bố hay
các tham số của một hàm số nên có thể dùng các đặc tính này để xác định khuôn mặt
người. Đồng thời, bài toán giảm số chiều thường được quan tâm để tăng hiệu quả tính
toán cũng như hiệu quả xác định.
Trong hướng tiếp cận này, phương pháp xác xuất tiếp tục được nhiều nhà nghiên
cứu sử dụng. Một bức ảnh hoặc một vector (đặc trưng cho bức ảnh) được xem như một
biến ngẫu nhiên. Biến ngẫu nhiên này sẽ được xác định là có mô tả các đặc tính của
khuôn mặt hay không thông qua các xác xuất có điều kiện p(x/face) và p(x/nonface). Có
thể dùng bộ phân loại Bayesian để phân loại các ứng viên là khuôn mặt hay không phải
khuôn mặt. Tuy nhiên, việc cài đặt bộ phân loại Bayesian với số chiều x lớn là một điều
khá khó khăn, do đó có rất nhiều nghiên cứu theo hướng tiếp cận này quan tâm tới việc
tham số hóa hay không tham số các xác xuất p(x/face) và p(x/nonface).
Một các tiếp cận khác trong hướng tiếp cận dựa trên diện mạo là tìm một hàm biệt
số ví dụ như các hàm mô tả mặt phẳng hay siêu phẳng quyết định (các ranh giới) để phân
biệt hai lớp khuôn mặt và không phải khuôn mặt. Thông thường, một bức ảnh được chiếu
vào không gian có số chiều ít hơn rồi sau đó dùng một hàm biệt số (dựa trên các độ đo
khoảng cách) để phân loại hoặc xây dựng một mặt quyết định phi tuyến bằng mạng
neural đa tầng. Ngoài ra có thể dùng SVM (Super Vector Machine) và các phương thức
kernel chiếu các mẫu vào không gian có số chiều cao hơn để dữ liệu bị rời rạc hoàn toàn

và từ đó có thể sử dụng mặt phẳng phân loại để phân loại các mẫu là khuôn mặt hay
không phải là khuôn mặt. Có nhiều mô hình máy học được áp dụng trong hướng tiếp cận
này: Eigenface (M. Turk và A. Pentland 1991), Mô hình dựa trên phân phối (K. Sung and
T. Poggio 1998), Mạng Nơ-ron (H. Rowley 1998), Support Vector Machine (E. Osuna et
al 1997), Phân lớp Bayes (H. Schneiderman và T. Kanade 1998), Mô hình Markov ẩn
(A. Rajagopalan et al 1998), và các mô hình tăng cường AdaBoost của P. Viola và
M.Jones; FloatBoost do Stan Z. Li và Zhen Qiu Zhang 2004.
Nhận Dạng Khuôn Mặt 17
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
Nhận Dạng Khuôn Mặt 18
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
CHƯƠNG III: GIẢI THUẬT ADABOOST
3.1 Tiếp cận Boosting
Boosting là kỹ thuật dùng để tăng độ chính xác cho các thuật toán học (Learning
algorithm). Nguyên lý cơ bản của nó là kết hợp các bộ phân loại yếu thành một bộ phân
loại mạnh. Trong đó, bộ phân loại yếu là các bộ phát hiện đơn giản chỉ cần có độ chính
xác trên 50%. Bằng cách này, chúng ta nói bộ phát hiện đã được “boost”.
Xét một bài toán phát hiện 2 lớp (mẫu cần nhận dạng sẽ được phân vào 1 trong 2
lớp) với D là tập huấn luyện gồm có n mẫu. Trước tiên, chúng ta sẽ chọn ngẫu nhiên ra
n1 mẫu từ tập D (n1<n) để tạo tập D1. Sau đó, chúng ta sẽ xây dựng bộ phân loại yếu
đầu tiên C1 từ tập D1. Tiếp theo, chúng ta xây dựng tập D2 để huấn luyện bộ phát hiện
C2. D2 sẽ được xây dựng sao cho một nửa số mẫu của nó được phát hiện đúng bởi C1 và
nửa còn lại bị phát hiện sai bởi C1. Bằng cách này, D2 chứa đựng những thông tin bổ
sung cho C1. Bây giờ chúng ta sẽ xây dựng bộ huấn luyện C2 từ D2. Tiếp theo, chúng ta
sẽ xây dựng tập D3 từ những mẫu không được phát hiện tốt bởi sự kết hợp giữa C1 và
C2: những mẫu còn lại trong D mà C1 và C2 cho kết quả khác nhau. Như vậy, D3 sẽ
gồm những mẫu mà C1 và C2 hoạt động không hiệu quả. Sau cùng, chúng ta sẽ huấn
luyện bộ phát hiện C3 từ D3. Bây giờ chúng ta đã có một bộ phân loại mạnh: sự kết hợp
C1, C2 và C3. Khi tiến hành nhận dạng một mẫu X, kết quả sẽ được quyết định bởi sự
thỏa thuận của 3 bộ C1, C2 và C3: Nếu cả C1 và C2 đều phân X vào cùng một lớp thì

lớp này chính là kết quả phát hiện của X; ngược lại, nếu C1 và C2 phân X vào 2 lớp khác
nhau, C3 sẽ quyết định X thuộc về lớp nào.
Nhận Dạng Khuôn Mặt 19
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
Hình 3.1: Boosting
3.2 Thuật toán Adaboost
Adaboost (Adaptive Boost) là một tiếp cận boosting được Freund và Schapire đưa
ra vào năm 1995 đã giải quyết nhiều thực tế khó khăn của các thuật toán boosting trước
đó.
Adaboost là một cải tiến của tiếp cận boosting, Adaboost sử dụng thêm khái niệm
trọng số (weight) để đánh dấu các mẫu khó nhận dạng. Trong quá trình huấn luyện, cứ
mỗi bộ phân loại yếu được xây dựng, thuật toán sẽ tiến hành câp nhật lại trọng số để
chuẩn bị cho việc xây dựng bộ phân loại yếu kế tiếp là: tăng trọng số của các mẫu bị
nhận dạng sai và giảm trọng số của các mẫu được nhận dạng đúng bởi bộ phân loại yếu
vừa xây dựng. Bằng cách này, các bộ phân loại yếu tiếp theo có thể tập trung vào các
mẫu mà các bộ phân loại yếu trước nó chưa làm tốt. Sau cùng, các bộ phân loại yếu sẽ
được kết hợp tùy theo mức độ “tốt” của chúng để tạo dựng nên bộ phân loại mạnh.
Có thể hình dung một cách trực quan như sau: để biết một ảnh có phải là bàn tay
hay không, ta hỏi T người (tương đương với T bộ phân loại yếu xây dựng từ T vòng lặp
của boosting), đánh giá của mỗi người (tương đương với một bộ phân loại yếu) chỉ cần
tốt hơn ngẫu nhiên một chút (tỉ lệ sai dưới 50%). Sau đó, ta sẽ đánh trọng số cho đánh giá
của từng người (thể hiện qua hệ số α), người nào có khả năng đánh giá tốt các mẫu khó
thì mức độ quan trọng của người đó trong kết luận cuối cùng sẽ cao hơn những người chỉ
đánh giá tốt được các mẫu dễ. Việc cập nhật lại trọng số của các mẫu sau mỗi vòng
boosting chính là để đánh giá độ khó của các mẫu (mẫu càng có nhiều người đánh giá sai
là mẫu càng khó).
Thuật toán có đầu vào là một tập huấn luyện {(x1, y1), (x2, y2), ,(xn, yn)} trong
đó mỗi xi thuộc về một số tên miền hay không gian X và mỗi nhãn yi thuộc tập nhãn Y ta
giả sử rằng Y = {-1, +1}. AdaBoost gọi một thuật toán học yếu trong một dãy vòng lặp
từ t= 1,…,T. Một trong những ý tưởng chính của thuật toán là để duy trì một phân phối,

hoặc thiết lập của trọng số qua tập huấn luyện. Ban đầu, tất cả trọng số được thiết lập
bằng nhau, nhưng trên mỗi vòng lặp, trọng số của các mẫu phát hiện không chính xác
được tăng lên để bộ học yếu tập trung vào các mẫu khó trong tập huấn luyện.
Công việc của bộ học yếu là để tìm một bộ phân loại yếu h
t
: X {-1,+1 } tương
ứng với bộ phân phối Dt. Độ tốt của một giả thuyết yếu được đo bằng hệ số lỗi của nó:
Nhận Dạng Khuôn Mặt 20
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
Hình 3.2: Bộ phân loại mạnh H(x) xây dựng bằng Adaboost
Lưu ý là lỗi được đo đối với phân phối Dt mà trên đó các bộ học yếu được huấn
luyện. Trong thực tế, các bộ học yếu có thể là một thuật toán có thể dùng trọng số Dt trên
các mẫu huấn luyện. Ngoài ra, khi điều này là không thể, một tập hợp con của các mẫu
đang huấn luyện có thể được được lấy mẫu theo Dt và các mẫu được đánh lại trọng số có
thể được dùng để huấn luyện bộ học yếu.
Thuật toán Adaboost:
Đầu vào: (x
1
, y
1
), , (x
m
, y
m
) với x
i
∈ X và y
i
∈ Y = {-1,+1}
1. Khởi tạo: D

1
(i) = 1/m
2. For t = 1, …, T:
Huấn luyện bộ học yếu sử dụng phân phối Dt
Chọn bộ phân loại yếu h
t
: {-1,+1} với lỗi:
Nhận Dạng Khuôn Mặt 21
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
Chọn:
1
1
ln
2
t
t
t
ε
α
ε
 

=
 ÷
 
Cập nhật:
1,
,( )
( )
,( )

( )exp( ( ))
t
t
k i
t
t i
t
k i
t t i t i
t
e x y
D i
D
Z
e x y
D i y h x
Z
α
α
α

+

=

= ×






=
Với Z
t
là nhân tố bình thường hóa
Đầu ra:
1
( ) ( )
T
t t
t
H x sign h x
α
=
 
=
 ÷
 

Một khi bộ phân loại yếu đã được nhận, AdaBoost sẽ chọn một tham số như trên.
Dễ dàng thấy α
t
quan trọng được gán cho h
t
. Chú ý rằng α
t
≥ 0 nếu ε
t
≤ ½ (chúng ta có
thể giả định mà không mất tính tổng quát).

Phân phối D
t
ở bước cập nhật tiếp theo sẽ dùng các luật như trình bày giải thuật của
thuật toán ở trên, tác dụng của các luật này là làm tăng trọng số của các mẫu chưa được
phát hiện bởi h
t
và giảm trọng số của các mẫu phát hiện chính xác vì vậy trọng số tập
trung vào các mẫu khó.
Phát hiện thu được cuối cùng H là tập hợp của T bộ phân loại yếu trong đó α
t

trọng số được gán cho h
t
.
Schapire và Singer đã chỉ ra cách mà AdaBoost có thể được mở rộng để xử lý bộ
phân loại yếu với giá trị đầu ra thực và hệ số dự đoán tin cậy. Đó là với mỗi χ thì h
t
sẽ
cho ra h
t
(x) ∈ R có gán nhãn (-1 hoặc +1) và giá trị của nó
( )
t
h x
sẽ đo độ tin cậy của
dự đoán.
3.2.1 Đặc trưng Haar-like
Hệ thống phát hiện đối tượng trên hình ảnh dựa trên các đặc trưng đơn giản. Có
nhiều lý do để chọn việc xử lý dựa trên đặc trưng mà không thực hiện với xử lý trực tiếp
trên các điểm ảnh. Lý do phổ biến nhất là các đặc trưng có thể dựa trên các tri thức hữu

hạn của các dữ liệu huấn luyện để mã hóa ra các tri thức nhận dạng. Ngoài ra một hệ
thống phát hiện đối tượng sử dụng đặc trưng thì xử lý sẽ nhanh hơn so với hệ thống dựa
trên xử lý điểm ảnh.
Nhận Dạng Khuôn Mặt 22
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
Một loại đặc trưng đơn giản được sử dụng là đặc trưng Haar-like, là một loại đặc
trưng thường được dùng cho bài toán nhận dạng trên ảnh. Đặc trưng Haar-like được xây
dựng từ các hình chữ nhật có kích thước bằng nhau, dùng để tính độ chênh lệch giữa
các giá trị điểm ảnh trong các vùng kề nhau. Trong hình a và b, giá trị của đặc trưng cho
bởi 1 ảnh bằng hiệu số giữa tổng các điểm ảnh thuộc 2 vùng hình chữ nhật sáng và tối.
Trong hình c thì giá trị đặc trưng bằng tổng các điểm ảnh trong 2 vùng hình chữ nhật bên
ngoài trừ cho tổng các điểm ảnh trong hình chữ nhật ở giữa.
Hình 3.3: 4 đặt trưng Haar-like cơ bản
Để áp dụng các đặt trưng này vào việc bài toán xác định mặt người, 4 đặt trưng
Haar-like cơ bản được mở rộng ra, và được chia làm 3 tập đặc trưng như sau:
1. Đặc trưng cạnh (edge features):
2. Đặc trưng đường (line features):
3. Đặc trưng xung quanh tâm (center-surround features):
Nhận Dạng Khuôn Mặt 23
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
Hình 3.4: Các đặc trưng mở rộng của các đặc trưng Haar-like cơ sở
Lợi ích của đặc trưng Haar-like là nó diễn đạt được tri thức về các đối tượng trong
ảnh (bởi vì nó biểu diễn mối liên hệ giữa các bộ phận của đối tượng), điều mà bản thân
từng điểm ảnh không diễn đạt được.
Hình 3.5: Minh họa đặc trưng Haar-like
Để tính giá trị các đặc trưng haar-like, ta tính sự chênh lệch giữa tổng của các pixel
của các vùng đen và các vùng trắng như trong công thức sau:
f(x) = Tổng
vùng đen
(pixel) - Tổng

vùng trắng
(pixel)
Như vậy ta có thể thấy rằng, để tính các giá trị của đặc trưng Haar-like, ta phải tính
tổng của các vùng pixel trên ảnh. Nhưng để tính toán các giá trị của các đặc trưng Haar-
like cho tất cả các vị trí trên ảnh đòi hỏi chi phí tính toán khá lớn, không đáp ứng được
cho các ứng dụng đòi hỏi tính run-time. Do đó Viola và Jones đưa ra một khái niệm gọi
là Integral Image để tính toán nhanh cho khác feature cơ bản. Sau này, Lienhart kế thừa
gọi Integral Image là SAT – Summed Area Table và đưa ra thêm khái niệm RSAT –
Rotated Summed Area Table dùng để tính toán nhanh cho các đặc trưng xoay 1 góc 45
o
.
Integral Image là một mảng 2 chiều với kích thước bằng với kích của ảnh cần tính các
đặc trưng Haar-like, với mỗi phần tử của mảng này được tính bằng cách tính tổng của
điểm ảnh phía trên (dòng-1) và bên trái (cột-1) của nó. Bắt đầu từ vị trí trên, bên trái đến
Nhận Dạng Khuôn Mặt 24
Lớp M11CQDDT01-B Tiểu Luận An Ninh Mạng
vị trí dưới, phải của ảnh, việc tính toán này đơn thuần chỉ đựa trên phép cộng số nguyên
đơn giản, do đó tốc độ thực hiện rất nhanh.
Hình 3.6: Cách tính Integral Image của ảnh
Sau khi đã tính được Integral Image, việc tính tổng điểm ảnh của một vùng bất kỳ
nào đó trên ảnh thực hiện rất đơn giản theo cách sau: (Giả sử ta cần tính tổng điểm ảnh
của vùng D như trong hình 11):
D = A + B + C + D – (A+B) – (A+C) + A
Với A + B + C + D chính là giá trị tại điểm P4 trên Integral Image, tương tự như
vậy A+B là giá trị tại điểm P2, A+C là giá trị tại điểm P3, và A là giá trị tại điểm P1. Vậy
ta có thể viết lại biểu thức tính D ở trên như sau:

Hình 3.7: Ví dụ cách tính nhanh tổng các điểm ảnh của vùng D trên ảnh
Hình 3.8: Cách tính nhanh tổng điểm ảnh của vùng D trên ảnh với các đặc trưng xoay 45
o

Với các đặc trưng Haar-like xoay 45
o
Integral Image tại một điểm (x, y) được tính
theo công thức:
Nhận Dạng Khuôn Mặt 25
P
(x,y)
A
C
B
D
P
1
P
2
P
3
P
4
RSAT(x,y)
B
A
C
2
4
1
3
D
(a)
(b)

×