Tải bản đầy đủ (.pdf) (75 trang)

Nghiên cứu một số phương pháp nhận dạng khuôn mặt trong ảnh và ứng dụng (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.87 MB, 75 trang )

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN ANH XUÂN

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG KHUÔN MẶT
TRONG ẢNH VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KỸ THUẬT
( Theo định hƣớng ứng dụng)

HÀ NỘI - 2018


HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN ANH XUÂN

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG KHUÔN MẶT
TRONG ẢNH VÀ ỨNG DỤNG
CHUYÊN NGÀNH :

MÃ SỐ:

HỆ THỐNG THÔNG TIN

8480104

LUẬN VĂN THẠC SĨ KỸ THUẬT


( Theo định hƣớng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN ĐÌNH HÓA

HÀ NỘI - 2018


i

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ công trình nào khác.
Hà Nội, Ngày

tháng 1 năm 20 18
Tác giả luận văn

Nguyễn Anh Xuân


ii

MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................i
DANH MỤC HÌNH VẼ ...........................................................................................iv
BẢNG KÝ HIỆU, CHỮ VIẾT TẮT ..................................................................... vii
MỞ ĐẦU .................................................................................................................... 1
Chƣơng I: TỔNG QUAN VỀ PHÁT HIỆN KHUÔN MẶT ................................. 3

1.1. Một số kiến thức cơ bản trong xử lý ảnh ..........................................................3
1.1.1. Xử lý ảnh là gì? ..........................................................................................3
1.1.2. Một số khái niệm ........................................................................................5
1.1.3. Một số phương pháp biểu diễn ảnh ............................................................6
1.2. Bài toán phát hiện khuôn mặt ...........................................................................7
1.2.1. Giới thiệu ....................................................................................................7
1.2.2. Bài toán phát hiện khuôn mặt trong ảnh ....................................................8
1.2.3. Những khó khăn và thách thức trong quá trình phát hiện khuôn mặt ........9
1.2.4. Các lĩnh vực ứng dụng bài toán phát hiện khuôn mặt ..............................12
1.3. Các phương pháp phát hiện mặt người trong ảnh...........................................13
1.3.1. Phương pháp tiếp cận dựa trên các luật tri thức .......................................14
1.3.2. Phương pháp tiếp cận dựa trên các đặc trưng bất biến.............................17
1.3.3. Phương pháp tiếp cận dựa trên đối sánh mẫu ..........................................17
1.3.4. Phương pháp tiếp cận dựa trên kỹ thuật học máy ....................................17
1.3.5. Phương pháp tiếp cận dựa vào đặc trưng 3D ...........................................20
1.4. Tiểu kết chương 1 ...........................................................................................20
Chƣơng II: PHÁT HIỆN KHUÔN MẶT SỬ DỤNG ADABOOST ................... 22
2.1. AdaBoost và bài toán hát hiện mặt người thời gian thực ...............................22
2.2. Trích chọn đặc trưng mặt người Haar-like .....................................................23
2.3. Phát hiện mặt người với thuật toán AdaBoost ................................................26
2.3.1. Giới thiệu ..................................................................................................26
2.3.2. Tiếp cận Boosting.....................................................................................26
2.3.3. Thuật toán AdaBoost ................................................................................28
2.4. Chuỗi các bộ phân lớp Cascade of Classifiers................................................32
2.5. Tiểu kết chương 2 ...........................................................................................34
Chƣơng III: THỰC NGHIỆM VÀ ĐÁNH GIÁ................................................... 35
3.1. Môi trường thực nghiệm .................................................................................35
3.2. Xử lý dữ liệu ...................................................................................................35
3.2.1. Sơ đồ thiết kế hệ thống phát hiện khuôn mặt ...........................................35
3.2.2. Bộ dữ liệu đầu vào....................................................................................36

3.2.3. Huấn luyện phát hiện khuôn mặt trong ảnh .............................................38
3.2.4. Phát hiện khuôn mặt với OpenCV ...........................................................49


iii
3.3. Các kết quả đạt được và đánh giá ...................................................................59
3.3.1. Phát hiện khuôn mặt trên ảnh tĩnh ............................................................59
3.3.2. Phát hiện khuôn mặt trên video và camera ..............................................61
3.4. Tiểu kết chương 3 ...........................................................................................64
KẾT LUẬN .............................................................................................................. 65
Kết luận ..................................................................................................................65
Hướng phát triển ....................................................................................................65
TÀI LIỆU THAM KHẢO ...................................................................................... 66


iv

DANH MỤC HÌNH VẼ
Hình 1.1. Quá trình xử lý ảnh [1] ................................................................................ 3
Hình 1.2 Các bước cơ bản trong xử lý ảnh [1]............................................................ 4
Hình 1.3: Hướng các điểm biên và mã tương ứng A11070110764545432 [1] .......... 7
Hình 1.4: Ví dụ hệ thống phát hiện khuôn mặt [2] ..................................................... 9
Hình 1.5: Ví dụ về các trạng thái biểu cảm thay đổi ................................................. 10
Hình 1.6: 2 ví dụ về 3 góc độ chụp hình khác nhau .................................................. 10
Hình 1.7: Ảnh kết quả với các nguồn chiếu sáng thay đổi ....................................... 10
Hình 1.8: Khuôn mặt bị che ...................................................................................... 11
Hình 1.9: Ảnh hưởng của việc đeo kính lên vùng hiển thị của mắt .......................... 11
Hình 1.10: Ảnh hưởng của việc trang điểm lên khuôn mặt ...................................... 11
Hình 1.11: Hệ thống kiểm soát vào/ra dựa trên kỹ thuật phát hiện khuôn mặt ........ 13
Hình 1.12: Mô hình tổng quát các phƣơng pháp giải quyết phát hiện mặt người .... 14

Hình 1.13: Phương pháp sử dụng đa độ phân giải .................................................... 14
Hình 1.14: Một phương pháp xác định khuôn mặt theo hướng tiếp cận top-down. . 15
Hình 1.15: Phương pháp chiếu .................................................................................. 16
Hình 1.18: Kiến trúc hệ thống phát hiện khuôn mặt dựa trên mạng nơ ron [4]........ 18
Hình 2.1: Đặc trưng Haar-like cơ bản ....................................................................... 23
Hinh 2.2: Đặc trưng Haar-like mở rộng .................................................................... 24
Hình 2.3: Cách tính Integral Image của ảnh ............................................................. 24
Hình 2.4: Ví dụ cách tính nhanh tổng các điểm ảnh của vùng D trên ảnh ............... 25
Hình 2.5: Ví dụ cách tính nhanh tổng điểm ảnh của vùng D trên ảnh với các đặc
trưng xoay 45o ........................................................................................................... 25
Hình 2.6: Tiếp cận Boosting ..................................................................................... 28
Hình 2.7 : Kết hợp các bộ phân loại yếu thành bộ phân loại mạnh .......................... 29
Hình 2.8: Lưu đồ thuật toán ...................................................................................... 32
Hình 2.9: Minh họa sự huấn luyện của một cascade gồm N stages. Ở mỗi stage,
weak classifier tương ứng sẽ được huấn luyện sao cho độ chính xác của nó là h và
false alarm bằng f. ..................................................................................................... 34
Hình 3.1: Tổng quan về hệ thống phát hiện mặt người trong ảnh ............................ 36
Hình 3.2: Bộ ảnh cá nhân (chứa một khuôn mặt) ..................................................... 37


v
Hình 3.3: Bộ ảnh tập thể (chứa nhiều khuôn mặt) .................................................... 37
Hình 3.4: Tập ảnh nền Negative ............................................................................... 38
Hình 3.5: Tập ảnh Positive chứa 1370 ảnh khuôn mặt người ................................... 39
Hình 3.6: Tập ảnh Negative chứa 3364 ảnh không chứa mặt người ........................ 40
Hình 3.7: Nội dung file “infofile.txt” sau khi chạy file “create_list.bat”. ................ 41
Hình 3.8: Chương trình ObjectMarker trong thư mục “positive”. ............................ 42
Hình 3.9: Đánh dấu một khuôn mặt trong trình ObjectMarker. ............................... 42
Hình 3.10: Đánh dấu nhiều khuôn mặt trong trình ObjectMarker. ........................... 42
Hình 3.11: Nội dung file “info.txt”. .......................................................................... 43

Hình 3.12: Nội dung file “samples_creation.bat”. .................................................... 44
Hình 3.13: Nội dung file “haarTraining.bat”. ........................................................... 45
Hình 3.14: Phân tầng ở những tầng đầu tiên ............................................................. 46
Hình 3.16: Kết quả phân tầng với 20 tầng (từ 0 đến 19). ......................................... 47
Hình 3.17: Một phần file chứa kết quả phân tầng của một tầng. .............................. 48
Hình 3.18: Nội dung file “convert.bat”. .................................................................... 49
Hình 3.19: Một phần nội dung file “output.xml”. ..................................................... 49
Hình 3.20: Giao diện chính của ứng dụng. ............................................................... 51
Hình 3.21: Ví dụ về phát hiện một khuôn mặt trong ảnh.......................................... 51
Hình 3.22: Ví dụ về phát hiện nhiều khuôn mặt trong ảnh (4 khuôn mặt). .............. 52
Hình 3.23: Ví dụ về phát hiện thiếu khuôn mặt trong ảnh (thiếu 3/17 khuôn mặt). . 52
Hình 3.24: Ví dụ về phát hiện thừa khuôn mặt trong ảnh (thừa 1 khuôn mặt). ........ 53
Hình 3.25: Ví dụ về phát hiện khuôn mặt bị che khuất 1 phần................................. 53
Hình 3.26: Ví dụ về không phát hiện khuôn mặt bị che khuất 1 phần...................... 54
Hình 3.27: Ví dụ về phát hiện hình vẽ chứa khuôn mặt ........................................... 54
Hình 3.28: Ví dụ về phát hiện khuôn mặt trong điều kiện chiếu sáng yếu ............... 55
Hình 3.29: Ví dụ về phát hiện khuôn mặt trong điều kiện lóa sáng ......................... 55
Hình 3.30: Ví dụ về phát hiện khuôn mặt trong hình vẽ có cấu trúc phức tạp ......... 56
Hình 3.31: Ví dụ về không phát hiện được khuôn mặt nghiêng với góc lớn ............ 56
Hình 3.32: Ví dụ về phát hiện khuôn mặt nghiêng góc vừa phải ............................. 57
Hình 3.33: Ví dụ về phát hiện khuôn mặt đeo kính .................................................. 58
Hình 3.34: Ví dụ về phát hiện khuôn mặt trong video tự quay................................. 58
Hình 3.35: Ví dụ về phát hiện khuôn mặt trong video (có đeo kính) ....................... 59


vi
Hình 3.36: Ví dụ về phát hiện nhầm background là khuôn mặt ............................... 61
Hình 3.37: Kết quả thực nghiệm phát hiện khuôn mặt với file video....................... 62
Bảng 3.1: Kết quả thực nghiệm phát hiện khuôn mặt trên ảnh tĩnh ......................... 59
Bảng 3.2: Kết quả thực nghiệm phát hiện khuôn mặt trên video.............................. 62



vii

BẢNG KÝ HIỆU, CHỮ VIẾT TẮT
Ký hiệu,

Ý nghĩa tiếng Anh

Ý nghĩa tiếng Việt

ASM

Active Shape Models

Các mô hình hình dạng hoạt động

CCD

Change Coupled Device

Camera đã số hóa dạng photodiot

HMM

Hidden Markov Model

Mô hình Markov ẩn

PDF


Probility Density Function

Hàm mật độ xác suất

PCA

Principal Component Analysis

Phân tích thành phần chính

PDM

Point Distribution Model

Mô hình phân bố điểm

RLC

Run Length Code

Mã loạt dài

QTC

Quad Tree Code

Mã tứ phân

SVM


Support Vector Machine

Máy véc tơ hỗ trợ

viết tắt


1

MỞ ĐẦU
Bài toán phát hiện mặt người được bắt đầu nghiên cứu từ những năm 1970,
và đã có rất nhiều công trình nghiên cứu về việc phát hiện mặt người trong ảnh, tuy
nhiên cho đến hôm nay do sự đa dạng và tính phức tạp của thực tế do đó giải pháp
toàn diện vẫn đang còn là một thách thức và đang trong giai đoạn nghiên cứu.
Gần đây, lĩnh vực nghiên cứu nhận dạng đang được quan tâm nhiều nhất là
nhận dạng khuôn mặt, vân tay, giọng nói …Trong đó phát hiện khuôn mặt chiếm
một vị trí đáng kể và cũng không kém quan trọng. Nó được ứng dụng trong nhiều
lĩnh vực cho các hệ thống an toàn bảo mật, hình sự…Xuất phát từ nhu cầu thực tế
khoa học kỹ thuật phát triển những ứng dụng của nó trong đời sống trở nên phổ biến
và tình hình tội phạm đang ngày càng phát triển, tinh vi hơn, ứng dụng phát hiện
người trong ảnh, camera trở nên quan trọng vì nó giúp cho cơ quan an ninh nhanh
chóng xác định được mục tiêu và hỗ trợ con người trong việc cảnh báo và bảo mật
thông tin. Việc phát hiện khuôn mặt trong ảnh còn được dùng để đếm số người
trong ảnh, việc đếm số người này có ý nghĩa thực tiễn trong cuộc sống như xác định
được số lượng khách ra vào siêu thị, mật độ lưu thông trên đường…
Như chúng ta đã biết khuôn mặt đóng vai trò quan trọng trong quá trình giao
tiếp giữa người với người, và nó cũng mang một lượng thông tin trong đó như tuổi
tác, giới tính, trạng thái cảm xúc…Nếu chúng ta để ý hơn thì khi hai người đối diện
nói chuyện với nhau mình có thể biết người đó đang muốn nói cái gì. Chính vì thế

mà phát hiện khuôn mặt là một lĩnh vực nghiên cứu hấp dẫn và được nhiều người
quan tâm. Do đó, dựa trên những kiến thức đã tìm hiểu được và mong muốn nghiên
cứu sâu hơn về một vấn đề khá thiết thực hiện nay, cùng với sự hướng dẫn của TS
Nguyễn Đình Hóa, tôi đã chọn đề tài “Nghiên cứu một số phƣơng pháp nhận
dạng khuôn mặt trong ảnh và ứng dụng” làm đề tài luận văn tốt nghiệp. Phát
hiện khuôn mặt là bước khởi đầu cho việc nhận dạng, khối lượng công việc cho
việc phát hiện khuôn mặt khá nhiều và chiếm hầu hết thời gian làm luận văn nên
luận văn hoàn thành việc phát hiện khuôn mặt người trong ảnh. Nội dung chính
trong luận văn nghiên cứu về phát hiện khuôn mặt trong ảnh.


2

Ngoài phần mở đầu và kết luận, nội dung chính của luận văn được trình bày trong 3
chương:
Chƣơng I. Tổng quan về phát hiện khuôn mặt.
Trình bày các khái niệm cơ bản về xử lý ảnh, giới thiệu về bài toán phát hiện
khuôn mặt trong ảnh, các phương pháp tiêu biểu trong phát hiện khuôn mặt, những
khó khăn thách thức của bài toán phát hiện khuôn mặt và ứng dụng của nó trong
thực tế.
Chƣơng II. Phát hiện khuôn mặt sử dụng Adaboost.
Trình bày phương pháp trích chọn đặc trưng khuôn mặt Haar-like, nêu những
ưu điểm vượt trội cũng chính là lý do để lựa chọn thuật toán AdaBoost trong phát
hiện khuôn mặt. Trình bày các ý tưởng chính của thuật toán.
Chƣơng III. Thực nghiệm và đánh giá.
Giới thiệu môi trường thực nghiệm, cách thức thu thập, tổ chức và xử lý dữ
liệu, cài đặt thuật toán AdaBoost và tiến hành thực nghiệm phát hiện khuôn mặt trên
các bộ dữ liệu thu thập được và đánh giá kết quả đạt được.



3

Chƣơng I: TỔNG QUAN VỀ PHÁT HIỆN KHUÔN MẶT
1.1. Một số kiến thức cơ bản trong xử lý ảnh
1.1.1. Xử lý ảnh là gì?
Những năm gần đây, với sự phát triển của phần cứng máy tính, xử lý ảnh và
đồ hoạ theo đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống.
Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy.
Quá trình xử lý ảnh được xem như quá trình thao tác ảnh đầu vào nhằm cho
ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh
“tốt hơn” hoặc là một kết luận.

Hình 1.1. Quá trình xử lý ảnh [1]

Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai
trò quan trọng nhất và được các thiết bị thu (như Camera, máy chụp ảnh…) ghi lại
sau đó xử lý để phục vụ các mục đích khác nhau. Trước đây, ảnh thu qua Camera là
các ảnh tương tự (loại Camera ống kiểu CCIR). Ngày nay, với sự phát triển của
công nghệ, ảnh màu hoặc đen trắng được lấy ra từ Camera, sau đó nó được chuyển
trực tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo. Mặt khác, ảnh cũng có thể
thu nhận từ vệ tinh, có thể chụp bằng máy quét ảnh. Hình 1.2 dưới đây mô tả các
bước trong quá trình xử lý ảnh.


4

Hình 1.2 Các bước cơ bản trong xử lý ảnh [1]

Sơ đồ này bao gồm các thành phần sau:
Phần thu nhận ảnh (Image Acquisition): Ảnh có thể nhận qua camera màu

hoặc đen trắng. Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống
chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hoá (như
loại CCD – Change Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi
điểm ảnh. Camera thường dùng là loại quét dòng; ảnh tạo ra có dạng hai chiều. Chất
lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng,
phong cảnh).
Tiền xử lý ảnh (Image Processing): Sau bộ thu nhận, ảnh có thể nhiễu độ
tương phản thấp nên cần đưa vào bộ tiền xử lý để nâng cao chất lượng. Chức năng
chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét
hơn.
Phân đoạn ảnh (Segmentation): Là tách một ảnh đầu vào thành các vùng
thành phần để biểu diễn phân tích, nhận dạng ảnh. Ví dụ: để nhận dạng chữ (hoặc
mã vạch) trên phong bì thư cho mục đích phân loại bưu phẩm, cần chia các câu, chữ
về địa chỉ hoặc tên người thành các từ, các chữ, các số (hoặc các vạch) riêng biệt để
nhận dạng. Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi,
làm mất độ chính xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công
đoạn này.
Biểu diễn ảnh (Image Representation): Đầu ra ảnh sau phân đoạn chứa các
điểm ảnh của vùng ảnh (ảnh đã phân đoạn) cộng với mã liên kết với các vùng lân
cận. Việc biến đổi các số liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp


5

theo bằng máy tính. Việc chọn các tính chất để thể hiện ảnh gọi là trích chọn đặc
trưng (Feature Selection) gắn với việc tách các đặc tính của ảnh dưới dạng các
thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng này với lớp đối
tượng khác trong phạm vi ảnh nhận được.
Nhận dạng và nội suy ảnh (Image Recognition and Interpretation): Nhận
dạng là quá trình xác định ảnh. Quá trình này thường thu được bằng cách so sánh

với ảnh mẫu chuẩn đã được học hoặc lưu từ trước. Nội suy là phán đoán ý nghĩa
trên cơ sở nhận dạng. Ví dụ một loạt chữ số và nét gạch ngang trên phong bì thư có
thể nội suy thành mã điện thoại.
Cơ sở tri thức (Knowledge Base): Như đã nói ở trên, ảnh là một đối tượng
khá phức tạp về đường nét, độ sáng tối, dung lượng điểm ảnh, môi trường để thu
ảnh phong phú kéo theo nhiễu. Trong nhiều khâu xử lý và phân tích ảnh ngoài việc
đơn giản hóa các phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong
muốn bắt chước quy trình tiếp nhận và xử lý ảnh theo cách của con người. Trong
các bước xử lý đó, nhiều khâu hiện nay đã xử lý theo các phương pháp trí tuệ con
người. Vì vậy, ở đây các cơ sở tri thức được phát huy.

1.1.2. Một số khái niệm
Ảnh và điểm ảnh: Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian
và độ sáng. Để xử lý bằng máy tính (số), ảnh cần phải được số hoá. Số hoá ảnh là sự
biến đổi gần đúng một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị
trí (không gian) và độ sáng (mức xám). Khoảng cách giữa các điểm ảnh đó được
thiết lập sao cho mắt người không phân biệt được ranh giới giữa chúng. Mỗi điểm
như vậy gọi là điểm ảnh và ảnh được xem như một tập hợp các điểm ảnh.
Độ phân giải của ảnh: Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh
được ấn định trên một ảnh số được hiển thị. Theo định nghĩa, khoảng cách giữa các
điểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh.
Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ
phân giải và được phân bố theo trục x và y trong không gian hai chiều.


6

Mức xám của ảnh: Mức xám của điểm ảnh là cường độ ánh sáng của nó và
được gán bằng giá trị số tại điểm đó. Giá trị mức xám thông thường là: 16, 32, 64,
128, 256.

Ảnh đen trắng: Là ảnh có hai màu đen, trắng (không chứa màu khác) với
mức xám của các điểm ảnh có thể khác nhau.
Ảnh nhị phân: Là ảnh chỉ có hai mức đen trắng phân biệt tức dùng 1 bit mô
tả 21 bit khác nhau. Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0
hoặc 1.
Ảnh màu: Trong khuôn khổ lý thuyết 3 màu (Red, Blue, Green) để tạo nên
thế giới màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị
màu: 28*3 = 224 triệu màu.

1.1.3. Một số phương pháp biểu diễn ảnh
Sau khi thu nhận và số hóa, ảnh sẽ được lưu trữ hay chuyển sang giai đoạn
phân tích. Trước khi đề cập đến vấn đề lưu trữ ảnh, cần xem xét ảnh sẽ được biểu
diễn ra sao trong bộ nhớ máy tính. Sau đây là một số phương pháp biểu diễn ảnh:
1.1.3.1. Mã loạt dài
Mã loạt dài (Run-length Code) dùng để biểu diễn cho vùng ảnh hay ảnh nhị
phân. Một vùng ảnh R có thể biểu diễn đơn giản nhờ một ma trận nhị phân:
(

)

{

(

)

Với các biểu diễn trên, một vùng ảnh hay ảnh nhị phân được xem như chuỗi
0 hay 1 đan xen. Các chuỗi này được gọi là mạch (run). Theo phương pháp này, mỗi
mạch sẽ được biểu diễn bởi địa chỉ bắt đầu của mạch và chiều dài mạch theo dạng
<hàng, cột>, chiều dài.

1.1.3.2. Mã xích
Mã xích thường được dùng để biểu diễn biên của ảnh. Thay vì lưu trữ toàn
bộ ảnh, người ta lưu trữ các điểm ảnh A, B,…M. Theo phương pháp này, 8 hướng
của vecto nối 2 điểm biên liên tục được mã hoá. Khi đó ảnh được biểu diễn qua


7

điểm ảnh bắt đầu A cùng với chuỗi các từ mã. Điều này được minh hoạ trong hình
dưới đây:

Hình 1.3: Hướng các điểm biên và mã tương ứng A11070110764545432 [1]

1.1.3.3. Mã tứ phân
Theo phương pháp mã tứ phân (Quad Tree Code), một vùng ảnh coi như bao
kín một hình chữ nhật. Vùng này được chia làm 4 vùng con (Quadrant). Nếu một
vùng con gồm toàn điểm đen (1) hay toàn điểm trắng (0) thì không cần chia tiếp.
Trong trường hợp ngược lại, vùng con gồm cả điểm đen và trắng gọi là vùng không
đồng nhất, ta tiếp tục chia thành 4 vùng con tiếp và kiểm tra tính đồng nhất của các
vùng con đó. Quá trình chia dừng lại khi mỗi vùng con chỉ chứa thuần nhất điểm
đen hoặc điểm trắng. Quá trình đó tạo thành một cây chia theo bốn phần gọi là cây
tứ phân. Như vậy, cây biểu diễn ảnh gồm một chuỗi các ký hiệu b (black), w (white)
và g (grey) kèm theo ký hiệu mã hóa 4 vùng con. Biểu diễn theo phương pháp này
ưu việt hơn so với các phương pháp trên, nhất là so với mã loạt dài. Tuy nhiên, để
tính toán số đo các hình như chu vi, mô men là tương đối khó khăn.

1.2. Bài toán phát hiện khuôn mặt
1.2.1. Giới thiệu
Phát hiện đối tượng là bài toán cơ bản và quan trọng trong lĩnh vực thị giác
máy tính. Các kỹ thuật đã được áp dụng có thể chia thành một trong hai cách tiếp

cận: so khớp các mô hình hình học hai, ba chiều vào ảnh và phương pháp so khớp
các mô hình khung vào ảnh có chứa khuôn mặt cần dò tìm. Các nghiên cứu trước
đây cho thấy rằng các phương pháp dựa trên khung nhìn có thể phát hiện các khuôn


8

mặt thẳng trong nền phức tạp một cách hiệu quả. Trong cuộc sống những ứng dụng
về nhận dạng khuôn mặt đang được chú tâm phát triển. Đây là lớp bài toán để giải
quyết trong hệ thống máy và quan sát đám đông. Để nhận dạng được khuôn mặt
trong ảnh thì vấn đề cốt lõi là làm sao phát hiện ra khuôn mặt đó trong ảnh, trước
khi nhận dạng nó là ai, là cái gì…Và vấn đề phát hiện khuôn mặt trong ảnh là cần
thiết cho bất cứ hệ thống xử lý nhận dạng khuôn mặt như xác thực người dùng, xác
định các thành phần đặc trưng của khuôn mặt,…
Cốt lõi trong hệ thống phát hiện mặt người là xác định xem có khuôn mặt
người trong ảnh đầu vào hay không và nếu có thì chỉ ra vị trí, kích thước khuôn mặt
có trong ảnh đó.
Trong gần hai thập kỷ gần đây, vấn đề này được các nhà khoa học trên thế
giới quan tâm nghiên cứu về bài toán phát hiện khuôn mặt người trong ảnh, từ ảnh
đen trắng, xám đến ảnh màu và trong chuỗi ảnh video. Tuy nhiên do sự đa dạng và
tính phức tạp của thực tế do đó giải pháp toàn diện vẫn đang còn là một thách thức
và đang trong giai đoạn nghiên cứu.

1.2.2. Bài toán phát hiện khuôn mặt trong ảnh
Bài toán phát hiện mặt người là hệ thống nhận vào là một ảnh hoặc một đoạn
video, qua xử lý trên máy tính thuật toán xác định được tất cả vị trí, kích thước
khuôn mặt người trong ảnh đó, nhưng sẽ bỏ qua những thứ khác như ngôi nhà, mặt
con vật, cơ thể con người ,…



9

Hình 1.4: Ví dụ hệ thống phát hiện khuôn mặt [2]

1.2.3. Những khó khăn và thách thức trong quá trình phát hiện khuôn mặt
Tuy được nghiên cứu từ những năm 70 nhưng do đây là một bài toán khó
nên những nghiên cứu từ đó đến nay vẫn chưa đạt kết quả mong muốn, vì vậy việc
xác định khuôn mặt trong ảnh có những khó khăn nhất định:
Nét mặt trong quá trình chụp hình sẽ khác nhau tùy thuộc vào tâm trạng của
của người đó như lúc vui, buồn,…do đó khuôn mặt sẽ không giống với trạng thái
mẫu lý tưởng.


10

Hình 1.5: Ví dụ về các trạng thái biểu cảm thay đổi

Hướng của khuôn mặt đối với máy ảnh khi chụp: như nhìn thẳng, nhìn
nghiên, dó đó cùng trong một ảnh mà có nhiều khuôn mặt ở nhiều tư thế khác nhau.

Hình 1.6: 2 ví dụ về 3 góc độ chụp hình khác nhau

Điều kiện chụp ảnh thiếu ánh sáng làm cho chất lượng ảnh kém hoặc chụp
ngược ánh sáng.

Hình 1.7: Ảnh kết quả với các nguồn chiếu sáng thay đổi

Trong quá trình chụp ảnh khuôn mặt bị che bởi một số vật chắn.



11

Hình 1.8: Khuôn mặt bị che

Sự có mặt của các chi tiết đi kèm với khuôn mặt như mắt kính, khẩu trang,…

Hình 1.9: Ảnh hưởng của việc đeo kính lên vùng hiển thị của mắt

Sự thay đổi khi trang điểm và sử dụng các loại mỹ phẩm:

Hình 1.10: Ảnh hưởng của việc trang điểm lên khuôn mặt

Từ những khó khăn cơ bản được nêu ở trên chứng tỏ rằng bất cứ thuật toán
xác định khuôn mặt nào cũng gặp phải những khuyết điểm nhất định. Do vậy để so
sánh với các thuật toán xác định mặt người khác ta thường dựa trên các tiêu chí
đánh giá sau:


12

Tỷ lệ phần trăm về vị trí xác định chính xác khuôn mặt, có xác định được tất
cả khuôn mặt có trong ảnh không để so sánh với số lượng thực tế khuôn mặt trong
ảnh đó.
Tổng thời gian để máy tính xác định được tất cả các khuôn mặt trong ảnh.

1.2.4. Các lĩnh vực ứng dụng bài toán phát hiện khuôn mặt
Xác định mặt người là một phần của hệ thống nhận dạng khuôn mặt. Nó
được dùng trong giám sát video, giao tiếp giữa người và máy, các ứng dụng cơ bản
của xác định khuôn mặt có thể kể đến là :
1.2.4.1. Hệ thống quan sát và theo dõi hành vi

Hệ thống quan sát và theo dõi hành vi sử dụng camera để xác định đâu là con
người và theo dõi người đó có xâm nhập bất hợp pháp vào một khu vực nào đó hay
không. Hoặc dựa vào ảnh của một người để nhận dạng xem họ có phải là tội phạm
hay không bằng cách so sánh với các ảnh tội phạm được lưu trữ trước đó và đưa ra
cảnh báo giúp cơ quan an ninh quản lý tốt con người.
1.2.4.2. Hệ thống tương tác giữa người và máy
Sử dụng các biểu cảm của khuôn mặt như nháy mắt để giúp những người bị
bại liệt có thể giao tiếp với máy tính từ đó thể hiện được những gì họ đang muốn.
Ngoài ra giúp những người bị tật hoặc khiếm khuyết có thể dùng ngôn ngữ tay chân
trao đổi giao tiếp với những người bình thường
1.2.4.3. Bảo mật
Ứng dụng phát hiện khuôn mặt trong ảnh vào bảo mật rất đa dạng, một trong
số đó là hệ thống nhận dạng mặt người của laptop, với hệ thống này cho phép chủ
nhân của máy tính ngồi trước webcam là có thể đăng nhập được.
Điều kiển ra vào công ty, văn phòng… kết hợp với nhận dạng vân tay để cho
phép từng người ra vào khu vực mà họ được phép.
Xác định mặt người có thể được ứng dụng trong các trạm rút tiền tự động
(ATM) để lưu trữ khuôn mặt của người rút tiền, nhằm giảm hiện tượng bị rút trộm
tiền rồi đổ lỗi cho ngân hàng.


13

Hình 1.11: Hệ thống kiểm soát vào/ra dựa trên kỹ thuật phát hiện khuôn mặt

1.2.4.4. Một số ứng dụng khác
Tại Mỹ cơ quan an ninh sân bay xuất nhập cảnh sử dụng camera quan sát để
xác thực người nhập cảnh mục đích để kiểm tra xem người đó có phải là phần tử
khủng bố hay tội phạm không.
Kiểm tra trạng thái của tài xế có mất cảnh giác hay ngủ gật khi đang lái xe

không để ra thông báo hỗ trợ khi cần thiết. Hệ thống tìm kiếm dữ liệu liên quan đến
con người thông qua ảnh khuôn mặt hay đoạn video.
Một số hãng sản xuất máy chụp ảnh như Canon, Fuijfilm đã ứng dụng thuật
toán xác định mặt người trong ảnh vào máy chụp hình của mình để cho kết quả ảnh
tại vị trí khuôn mặt đẹp và rõ hơn hơn . Hiện nay số lượng người bị mất thẻ và mã
PIN ngày càng nhiều, và một số chủ tài khoản thì tham rút tiền rồi nhưng báo là bị
rút trộm tiền. Ứng dụng trong hệ thống ATM để lưu trữ khuôn mặt người rút tiền sẽ
giúp cho ngân hàng dễ xử lý và đối chứng hơn.

1.3. Các phƣơng pháp phát hiện mặt ngƣời trong ảnh
Theo Ming-Hsuan Yang [6], dựa vào tính chất của các phương pháp có thể
phân loại các phương pháp phát hiện khuôn mặt trong ảnh thành 4 nhóm chủ yếu
sau:


14

Hình 1.12: Mô hình tổng quát các phương pháp giải quyết phát hiện mặt người

1.3.1. Phương pháp tiếp cận dựa trên các luật tri thức
Nhóm phương pháp này chủ yếu dựa trên các luật được người nghiên cứu
định nghĩa trước về khuôn mặt. Những thuộc tính được định nghĩa thường có mối
quan hệ giữa các thành phần trên khuôn mặt. Một số nghiên cứu áp dụng theo
hướng tiếp cận này như G .Yang 1994 [4], Kotropoulos 1997 [8].

Hình 1.13: Phương pháp sử dụng đa độ phân giải

Ảnh a có độ phân giải n=1, b=4, c=8, d= 16.
Trong phương pháp tiếp cận này, người nghiên cứu sẽ đưa ra các tập luật dựa
vào tri thức mà họ thu nhận được và cách làm thế nào để chuyển tri thức con người

sang các tập luật. Đây là hướng tiếp cận dạng top – down, đại diện nhà nghiên cứu
Yang [4] đã sử dụng cách tiếp cận này để xác định khuôn mặt trong ảnh.
Hệ thống của tác giả sử dụng ba mức tập luật. Ở mức đầu tiên tác giả đã
dùng một khung cửa sổ quét trên toàn ảnh thông qua một tập luật để tìm các đối
tượng được cho là khuôn mặt. Qua mức thứ hai tác giả đã sử dụng một tập luật khác


15

đểmô tả tổng quát hình thể khuôn mặt. Mức cuối cùng tác giả sử dụng tập luật khác
để phân tích chi tiết các đặc trưng được xác định ở bước hai. Hệ thống đa độphân
giải có thứ tự được dùng để xác định hình 1.6. Các luật ở mức cao dùng đểtìm các
ứng viên như là vùng trung tâm khuôn mặt, phần xung quanh bên trên của một
khuôn mặt, mức độ khác nhau giữa các giá trị xám trung bình của phần vùng trung
tâm và phần bao xung quanh bên trên. Sang mức thứ hai, xem xét biểu đồ của các
ứng viên để loại bớt ứng viên nào không phải là khuôn mặt, đồng thời dò ra cạnh
bao xung quanh các ứng viên đó. Ở mức cuối cùng, những ứng viên nào còn lại sẽ
được xem xét các đặc trưng của khuôn mặt về mắt, mũi và miệng, hai ông đã dùng
chiến thuật làm rõ dần để giảm bớt số lượng tính toán xử lý.

Hình 1.14: Một phương pháp xác định khuôn mặt theo hướng tiếp cận top-down.

Pitas và Kotropoulos [8] đưa ra một phương pháp dùng trên độ phân giải
thấp. Hai tác giả dùng phương pháp chiếu để xác định các đặc trưng khuôn mặt.
Phương pháp này được thể hiện như sau:
Gọi I(x,y) là giá trị mức xám của một điểm ảnh có kích thước m x n tại vị trí
(x,y) các hàm chiếu ảnh theo phương ngang và thẳng đứng được định nghĩa như
sau:
( )




(

) và

( )



(

)


16

Hình 1.15: Phương pháp chiếu

(a) Ảnh chỉ có một khuôn mặt và hình nền đơn giản;
(b) Ảnh chỉ có một khuôn mặt và hình nền phức tạp;
(c) Ảnh có nhiều khuôn mặt
Dựa vào biểu đồ phương ngang ta thấy có hai giá trị cực tiểu cục bộ khi hai
tác giả đang xét quá trình thay đổi độ dốc của HI đó chính là cạnh bên trái và bên
phải của hai bên đầu. Tương tự với phương chiếu thẳng đứng VI các cực tiểu cục bộ
cũng cho ta biết vị trí miệng, mũi và hai mắt. Với các đặc trưng này đã đủ đểxác
định khuôn mặt.
Chicote và Mateos [9] dùng kết cấu để xác định ứng viên trong ảnh màu, sau
đó phân tích hình dáng , kích thước và thành phần khuôn mặt để xác định khuôn
mặt. Khi tìm được ứng viên khuôn mặt, hai tác giả trích ra các ứng viên của từng

thành phần khuôn mặt, sau đó dùng phép chiếu ở trên chiều từng phần để xác thực
lại lần nữa đó có phải là thành phần khuôn mặt hay không hình 1.9.

Hình 1.16: Chiếu từng phần ứng viên để xác thực thành phần khuôn mặt


×