(Luận văn thạc sĩ) Nhận dạng khuôn mặt người từ camera sử dụng đặc trưng haar like, ứng dụng trong giám sát an ninh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2 MB, 69 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

VŨ THẠCH AN

NHẬN DẠNG KHUÔN MẶT NGƯỜI TỪ CAMERA
SỬ DỤNG ĐẶC TRƯNG HAAR-LIKE, ỨNG DỤNG
TRONG GIÁM SÁT AN NINH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên - 2019
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

VŨ THẠCH AN

NHẬN DẠNG KHUÔN MẶT NGƯỜI TỪ CAMERA
SỬ DỤNG ĐẶC TRƯNG HAAR-LIKE, ỨNG DỤNG
TRONG GIÁM SÁT AN NINH
Chuyên ngành: Khoa học máy tính
Mã số: 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS. Nguyễn Văn Tảo

Thái Nguyên – 2019
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

i
LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong luận văn là công trình nghiên
cứu của riêng tôi. Trong toàn bộ nội dung của luận văn, những điều được
trình bày hoặc là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu.
Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp
pháp.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn
gốc.
Thái Nguyên, ngày 26 tháng 7 năm 2019
Tác giả luận văn

Vũ Thạch An

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

ii
LỜI CẢM ƠN

Nghiên cứu khoa học này được hoàn thành tại Trường Đại học Công
nghệ Thông tin & Truyền thông, Đại học Thái Nguyên.
Em xin bày tỏ sự kính trọng và lòng biết ơn sâu sắc đến thầy giáo TS.
Nguyễn Văn Tảo người đã tận tình hướng dẫn, chỉ bảo và giúp đỡ em trong
suốt quá trình nghiên cứu và hoàn thiện luận văn này.
Và em xin gửi lời cảm ơn đến Ban Giám hiệu, các thầy giáo, cô giáo
phòng Đào tạo Trường Công nghệ Thông tin & Truyền thông và các thầy giáo,
cô giáo đã giảng dạy và cung cấp cho em những kiến thức rất bổ ích trong thời
gian học tập, đã giúp em có nền tảng tri thức để phục vụ nghiên cứu khoa học
sau này.
Em cũng vô cùng biết ơn đến gia đình và bạn bè, đồng nghiệp là những
người luôn quan tâm, động viên và khuyến khích em, giúp đỡ tạo mọi điều kiện
thuận lợi cho em trong suốt thời gian học tập và hoàn thiện luận văn này.
Mặc dù đã có nhiều cố gắng, song do thời gian hạn hẹp và khả năng
nghiên cứu của bản thân còn hạn chế nên kết quả nghiên cứu có thể còn nhiều
thiếu sót. Em mong nhận được sự góp ý, chỉ bảo của các thầy giáo, cô giáo và
các bạn đồng nghiệp.
Em xin chân thành cảm ơn!
Thái Nguyên, ngày 26 tháng 7 năm 2019
Tác giả luận văn

Vũ Thạch An

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

iii

MỤC LỤC
TRANG PHỤ BÌA
LỜI CAM ĐOAN .............................................................................................. i
LỜI CẢM ƠN.. ................................................................................................. ii
MỤC LỤC........................................................................................................iii
DANH MỤC CÁC TỪ VIẾT TẮT .................................................................. v
DANH MỤC HÌNH ẢNH ............................................................................... vi
DANH MỤC SƠ ĐỒ ..................................................................................... viii
MỞ ĐẦU...........................................................................................................1
CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN VÀ NHẬN DẠNG MẶT
NGƯỜI............. ................................................................................................. 2
Khái quát về phát hiện và nhận dạng mặt người .................................. 2
Giới thiệu chung ............................................................................. 2
Phát hiện khuôn mặt ....................................................................... 2
Nhận dạng khuôn mặt .................................................................... 3
Phân tích khuôn mặt ....................................................................... 7
1.2 Bài toán nhận dạng mặt người trong giám sát an ninh ......................... 8
Đặt vấn đề....................................................................................... 8
Thành phần chức năng của một hệ thống phát hiện và nhận dạng
khuôn mặt qua camera .............................................................................. 10
KẾT LUẬN CHƯƠNG 1................................................................................ 11
1.1

CHƯƠNG 2: MỘT SỐ KỸ THUẬT LỰA CHỌN, TRÍCH RÚT ĐẶC
TRƯNG PHÁT HIỆN VÀ NHẬN DẠNG MẶT NGƯỜI ............................. 12
Đặc trưng Haar-like ............................................................................ 12
Tổng quan về Haar-like ................................................................ 12
Áp dụng đặc trưng Haar-like phát hiện khuôn mặt người ........... 16
2.2 Local Binary Pattern (Mẫu nhị phân cục bộ) ..................................... 20
Local Binary Pattern (LBP) ......................................................... 20

Principal Component Analysis (PCA) và Linear Discriminant
Analysis (LDA) ......................................................................................... 25
Áp dụng phương pháp LBP nhận dạng khuôn mặt người ........... 31
2.1

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

iv
2.3 Phân tích và đánh giá nhận dạng mặt người sử dụng đặc trưng Haarlike và LBP................................................................................................... 33
Sử dụng kỹ thuật trích rút đặc trưng Haar-like và nhận dạng sử dụng
phương pháp LBP ..................................................................................... 33
Đánh giá nhận dạng mặt người sử dụng đặc trưng Haar-like và
LBP...... ..................................................................................................... 35
KẾT LUẬN CHƯƠNG 2................................................................................ 36
CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM ....................................... 37
Phân tích yêu cầu bài toán .................................................................. 37
Phân tích lựa chọn công cụ ................................................................. 38
Cấu hình phần cứng...................................................................... 39
Phần mềm, công cụ sử dụng ........................................................ 39
Thư viện sử dụng .......................................................................... 40
Chuẩn bị thử nghiệm chương trình .............................................. 42
3.3 Một số kết quả của chương trình ........................................................ 42
Giám sát an ninh ........................................................................... 42
Giao diện của chương trình .......................................................... 47
Kết quả thực nghiệm .................................................................... 52
KẾT LUẬN CHƯƠNG 3................................................................................ 55
3.1

3.2

KẾT LUẬN CHUNG ...................................................................................... 56
TÀI LIỆU THAM KHẢO ............................................................................... 58

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

v

DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt
AI
CCTV

Tiếng Anh

Tiếng Việt

Artificial Intelligence

Trí tuệ nhân tạo

Closed-circuit television

Truyền hình mạch kín
(Camera giám sát)

CV

Computer Vision

Thị giác máy

IoT

Internet of things

Internet vạn vật

PCA

Principal Component Analysis

Phân tích thành phần chính

LDA

Linear Discriminant Analysis

Phân tích phân lớp tuyến
tính

LBP

Local Binary Pattern

Mẫu nhị phân cục bộ

VR

Virtual reality

Thực tại ảo

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

vi
DANH MỤC HÌNH ẢNH
Hình 1.1: Hệ thống nhận dạng khuôn mặt theo thời gian thực ......................... 8
Hình 2.1: Đặc trưng Haar-like cơ bản. ............................................................ 13
Hình 2.2: Đặc trưng Haar-like biểu diễn ở dạng số ........................................ 13
Hình 2.3: Các đặc trưng Haar-like mở rộng ................................................... 14
Hình 2.4: Tính giá trị ảnh tích phân tại điểm P có tọa độ (x, y) ..................... 15
Hình 2.5: Tính nhanh tổng các giá trị điểm ảnh của vùng D trên ảnh ............ 15
Hình 2.6: Kết hợp các bộ phân loại yếu thành bộ phân loại mạnh ................. 17
Hình 2.7: Chuyển ảnh màu về ảnh đa cấp xám............................................... 19
Hình 2.8: Các dạng của đặc trưng Haar-like ................................................... 20
Hình 2.9: Ví dụ về phương pháp mã LBP ...................................................... 21
Hình 2.10: Ví dụ về toán tử LBP mở rộng với các vùng tròn có bánh kính và
số điểm ảnh lân cận tương ứng (8,1), (16,2) và (24,3) ................................... 22
Hình 2.11: Ví dụ về toán tử LBP mở rộng với các vùng tròn có bánh kính và
số điểm ảnh lân cận tương ứng (8,1), (12,2.5) và (16,4) ................................ 22
Hình 2.12: Vector chiếu tối đa hóa sự phân chia vô hướng............................ 29
Hình 2.13: So sánh giữa PCA và LDA ........................................................... 31

Hình 3.1: Một số thiết bị phục vụ cho giám sát an ninh. ................................ 38
Hình 3.2: Thu thập dữ liệu mẫu ...................................................................... 44
Hình 3.3: Huấn luyện nhận dạng khuôn mặt .................................................. 45
Hình 3.4: Nhận dạng khuôn mặt ..................................................................... 46
Hình 3.5: Quy trình hoạt động nhận dạng khuôn mặt..................................... 46
Hình 3.6: Giao diện chương trình huấn luyện................................................. 47
Hình 3.7: Giao diện chương trình nhận dạng khuôn mặt................................ 48
Hình 3.8: Huấn luyện mẫu khuôn mặt của đối tượng thứ 1 (Tên: Hiền, định
danh: Hien, giới tính: Nữ) ............................................................................... 50

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

vii
Hình 3.9: Huấn luyện mẫu khuôn mặt của đối tượng thứ 2 (Tên: Hòa, định
danh: Hoa, giới tính: Nam) ............................................................................. 50
Hình 3.10: Huấn luyện mẫu khuôn mặt của đối tượng thứ 3 (Tên: Nga, định
danh: Nga, giới tính: Nữ) ................................................................................ 51
Hình 3.11: Huấn luyện mẫu khuôn mặt của đối tượng thứ 4 (Tên: Nghĩa, giới
tính: Nữ) .......................................................................................................... 51
Hình 3.12: Tập ảnh huấn luyện (40/400 ảnh) ................................................. 52
Hình 3.13: Nhận dạng từng đối tượng riêng lẻ ............................................... 53
Hình 3.14: Nhận dạng nhiều khuôn mặt (Có 02 đối tượng được huấn luyện
trước – Hiền & Nga) ....................................................................................... 54
Hình 3.15: Nhận dạng khuôn mặt bị hạn chế do khoảng cách xa từ camera tới
vị trí khuôn mặt nên đối tượng ở xa không nhận dạng chính xác ................... 54

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

viii
DANH MỤC SƠ ĐỒ
Sơ đồ 1.1: Hệ thống nhận dạng khuôn mặt ....................................................... 4
Sơ đồ 1.2 : Sơ đồ khối của hệ thống phát hiện và nhận dạng khuôn mặt ....... 11
Sơ đồ 2.1: Sơ đồ khối về phân tầng Haar Cascade ......................................... 18
Sơ đồ 2.2: Sơ đồ luồng của mô hình Local Binary Pattern ............................ 33
Sơ đồ 2.3: Sơ đồ hoạt động của hệ thống nhận dạng khuôn mặt sử dụng
LBP.................................................................................................................. 33
Sơ đồ 2.4: Các kỹ thuật phát hiện khuôn mặt ................................................. 34

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

1
MỞ ĐẦU
Ngày nay, cuộc cách mạng công nghiệp lần thứ 4 bùng nổ, là cuộc cách
mạng công nghệ số. Công nghệ 4.0, điểm chú ý là các công nghệ như Internet
of Thing (IoT), Trí tuệ nhân tạo (AI), Thực tại ảo (VR), Dữ liệu lớn (Big Data),
Thị giác máy (CV),…đang được ứng dụng rộng rãi. Sự phát triển mạnh mẽ của
nền công nghiệp hiện đại thì Thị giác máy đã góp phần to lớn vào xu thế chung.
Như ứng dụng nhận dạng sản phẩm trong dây chuyền sản xuất tự động; ứng
dụng xử lý hình ảnh trong các thiết bị tự động, autopilot- xe tự lái,.. Đặc biệt là
trong giám sát an ninh, phát hiện và phòng ngừa tội phạm, khủng bố. Ngày nay
việc ứng dụng thị giác máy giúp cho các hệ thống tự động, hệ thống giám sát

ngày càng thông minh và chính xác hơn. Từ những lí do trên, em lựa chọn đề
tài Nhận dạng khuôn mặt người từ camera sử dụng đặc trưng haar-like, ứng
dụng trong giám sát an ninh.
Mục tiêu của luận văn là nghiên cứu phương pháp phát hiện và nhận
dạng khuôn mặt từ camera giám sát an ninh. Dựa trên cơ sở của các phương
pháp phát hiện khuôn mặt qua đặc trưng Haar-like và lựa chọn phương pháp
nhận dạng có độ chính xác cao như Local Binary Pattern (LBP). Nội dung chính
của luận văn bao gồm 3 Chương, chương trình thực nghiệm được xây dựng trên
ngôn ngữ Python và sử dụng thư viện OpenCV của Intel.
Luận văn bao gồm các nội dung sau:
Chương 1: Tổng quan về phát hiện và nhận dạng khuôn mặt người
Chương 2. Một số kỹ thuật lựa chọn, trích rút đặc trưng để phát hiện và
nhận dạng mặt người.
Chương 3. Chương trình thử nghiệm.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

2
CHƯƠNG 1:

TỔNG QUAN VỀ PHÁT HIỆN VÀ NHẬN DẠNG

MẶT NGƯỜI
1.1

Khái quát về phát hiện và nhận dạng mặt người
Giới thiệu chung

Từ xa xưa con người đã rất giỏi trong việc sử dụng thị giác của mình để

nhận dạng khuôn mặt và các hình mẫu phức tạp. Và ngay cả khi một thời gian
dài trôi qua, khả năng đó không hề bị ảnh hưởng nhiều, con người vẫn nhận
biết được những đặc điểm riêng biệt của chúng. Điều đó thể hiện bằng việc vẽ
lại các bức họa chân dung, hay ảnh vẽ truyền thần.
Ngày nay, con người sử dụng máy tính hỗ trợ mạnh mẽ trong việc phát
hiện và nhận dạng khuôn mặt trong lĩnh vực sinh trắc học và giám sát an ninh.
Sự phát triển mạnh mẽ của trí tuệ nhân tạo (Artificial Intelligence -AI),
con người cố gắng tạo ra một máy tính mô phỏng trí thông minh của con người
để xác định và quyết định sử dụng các tri thức vào đúng thời điểm để nhận biết
và ra quyết định xử lý nhiều vấn đề. Nó đề cập đến các mô hình tính toán và có
thể nghĩ và hành xử như con người. Thị giác máy (Computer Vision - CV) là
một phần rất thú vị của trí tuệ nhận tạo, từ đó ta có thể thu thập các thông tin từ
dữ liệu thị giác. Trí tuệ đó có thể là phát hiện khung hình hoặc đối tượng, phát
hiện khuôn mặt, nhận dạng khuôn mặt, phân tích khuôn mặt.
Phát hiện khuôn mặt
Phát hiện khuôn mặt (Face detect) là tìm kiếm những khuôn mặt (bất kỳ)
trong một hình ảnh hoặc khung hình (frame). Phát hiện khuôn mặt không cần
quan tâm đến toàn bộ khuôn mặt mà chỉ cần nhận biết vùng nào có xuất hiện
khuôn mặt. Số lượng người có thể xác định (đếm) được trong một hình ảnh
hoặc khung hình. Nó thường được sử dụng để đếm số lượng người trong hội
nghị, cửa hàng hoặc khu vực công cộng.
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

3
Phát hiện khuôn mặt là giai đoạn đầu tiên của hệ thống nhận dạng khuôn mặt.

Nhiều nghiên cứu đã thực hiện trong lĩnh vực này và đạt được nhiều kết quả
cao đối với ảnh tĩnh. Bởi vì ảnh tĩnh thì xử lý khung hình đơn gian hơn việc xử
lý nhiều khung hình khác nhau lựa chọn được khung hình có chất lượng để
nhận dạng khuôn mặt là điều quan trọng nếu áp dụng vào video. Trong các
khung hình của video, hình ảnh khuôn mặt của con người có các chuyển động
theo các hướng, góc nghiêng khác nhau không cố định. Do đó việc lựa chọn
được khung hình tốt để nhận dạng là khó khăn, đây là thách thức đối với người
nghiên cứu.
Trước hết, cần tách frame ảnh từ video thành nhiều khung hình. Có thể coi mỗi
frame là một ảnh tĩnh, việc tách xử lý riêng từng frame chiếm nhiều thời gian.
Nó ảnh hưởng tới tốc độ phát hiện và cả nhận dạng ở bước sau này. Tuy nhiên,
ta vẫn có thể áp dụng các phương pháp phát hiện và nhận dạng như đối với ảnh
tĩnh.
Nhận dạng khuôn mặt
Nhận dạng khuôn mặt (Face Recognition) là nhận diện khuôn mặt trong
một hình ảnh hoặc khung hình. Nhận dạng khuôn mặt là một vấn đề nhận dạng
mô hình trực quan. Ở đó, một khuôn mặt như một đối tượng ba chiều được
chiếu sáng, hướng và biểu hiện khác nhau và như vậy sẽ được xác định dựa
trên hình ảnh hai chiều. Một hệ thống nhận dạng khuôn mặt sẽ bao gồm 4 khối
mô đun được mô tả trong Sơ đồ 1.1 như sau: phát hiện, căn chỉnh, trích xuất và
so khớp đặc trưng, trong đó thì bước định vị và chuẩn hóa vùng ảnh khuôn mặt
(phát hiện khuôn mặt và căn chỉnh) là được thực hiện ở bước trước khi nhận
dạng (trích xuất đặc điểm của khuôn mặt) được thực hiện.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

4

Sơ đồ 1.1: Hệ thống nhận dạng khuôn mặt
Vùng phát hiện khuôn mặt là khu vực hiển thị khuôn mặt từ ảnh nền.
Trong trường hợp là video thì phát hiện khuôn mặt cần phải theo dấu khuôn
mặt bằng cách sử dụng các thành phần theo dõi khuôn mặt. Căn chỉnh hình ảnh
khuôn mặt là nhằm đưa hình ảnh khuôn mặt về điều kiện bình thường, khi đó
phát hiện khuôn mặt sẽ đưa ra các ước tính thô về vị trí và tỉ lệ của từng khuôn
mặt được phát hiện. Thành phần trên khuôn mặt như: mắt, mũi, miệng và các
đường viền bao quanh khuôn mặt được định vị dựa trên các điểm vị trí, hình
ảnh khuôn mặt đầu vào được chuẩn hóa theo các đặc tính hình học, chẳng hạn
như kích thước và tư thế sử dụng các biến đổi hình học và biến đổi hình dạng.
Khuôn mặt thường được chuẩn hóa nhưng giữ được các tính chất của hình ảnh
như độ chiếu sáng hay thang độ xám.
Sau khi một khuôn mặt được chuẩn hóa về hình học và trắc quang học
thì trích xuất đặc trưng được thực hiện để cung cấp thông tin hiệu quả, hữu ích
cho quá trình phân biệt giữa các khuôn mặt khác nhau và ổn định với các biến
đổi hình học và trắc quang. Quá trình so khớp khuôn mặt, vector đặc trưng trích
xuất của khuôn mặt đầu vào được so khớp với các khuôn mặt đã được lưu trữ
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

5
trong cơ sở dữ liệu, nó xuất ra danh tính của khuôn mặt khi tìm thấy kết quả so
khớp trùng nhau hoặc tương đồng ở mức tin cậy được hoặc chỉ ra đó là một
khuôn mặt chưa biết.
Kết quả nhận dạng khuôn mặt phụ thuộc nhiều vào đặc trưng được trích
xuất để thể hiện mô hình đặc trưng riêng của khuôn mặt và phương pháp phân
loại đã được sử dụng để phân biệt giữa các khuôn mặt khi chuẩn hóa khuôn mặt

là cơ sở để trích xuất đặc trưng được hiệu quả. Những vấn đề này có thể được
phân tích từ quan điểm của không gian con và nhiều đa tạp của khuôn mặt được
chỉ ra.
Các kỹ thuật phân tích không gian con để nhận dạng khuôn mặt dựa trên
thực tế là một lớp các mẫu được quan tâm, chẳng hạn như vùng khuôn mặt nằm
trong một không gian con của không gian ảnh đầu vào. Ví dụ như một hình ảnh
nhỏ kích thước 64 x 64 có 4096 pixel có thể thể hiện một số lượng lớn các lớp
mẫu, chẳng hạn như nhà cửa, cây cối và mặt. Tuy nhiên, trong số 2564096>
109864 những thông tin cấu hình có thể có thì chỉ có một số tương ứng với
vùng ảnh khuôn mặt. Do đó, hình ảnh ban đầu đưa vào là rất dư thừa mà có thể
giảm được đáng kể khi chỉ có mẫu khuôn mặt được quan tâm. Do vậy với các
phương pháp phân tích nét đặc trưng riêng của khuôn mặt hay phân tích thành
phần chính PCA thì một số nhỏ của các không gian riêng của khuôn mặt
(khoảng 40 hoặc nhỏ hơn) được lấy từ một tập hợp các hình ảnh khuôn mặt tập
huấn bằng cách sử dụng biến đổi Karhunen-Loeve hoặc PCA. Một hình ảnh
khuôn mặt được thể hiện một cách hiệu quả như một vector đặc trưng (tức là
một vectơ có trọng lượng) có chiều thấp. Các đặc trưng trong không gian con
như vậy cung cấp thông tin nổi bật và phong phú hơn để nhận dạng tốt hơn so
với hình ảnh thô. Việc sử dụng các kỹ thuật của mô hình không gian con có
công nghệ nhận dạng khuôn mặt tiên tiến tăng lên đáng kể.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

6
Nhận dạng khuôn mặt đòi hỏi phải qua quá trình huấn luyện và lưu trữ
thông tin so khớp trong một bộ cơ sở dữ liệu. Các thuật toán nhận dạng khuôn
mặt trên video, theo thời gian thực sử dụng các phương pháp tiếp cận về công

nghệ xử lý trên các frame tĩnh. Tuy nhiên có hạn chế, nhược điểm ảnh hưởng
tới hiệu quả nhận dạng khuôn mặt cần quan tâm như:
 Chất lượng hình ảnh, video kém hoặc độ phân giải thấp
 Độ sáng thấp hoặc bị chói sáng
 Thay đổi góc nhìn, chuyển động của khuôn mặt
 Biểu cảm khuôn mặt, hoặc phụ kiện, trang phục che khuất trên khuôn
mặt.
 Khoảng cách xa gần thay đổi từ đối tượng tới vị trí camera là khác
nhau.
Có nhiều chiến lược để khắc phục những khó khăn trên: khai thác đặc
trưng và mô hình phân loại dựa trên những đặc trưng đã được trích xuất. Một
là xây dựng một không gian đặc trưng tốt mà trong đó các phần đa tạp của
khuôn mặt từ phức tạp đều trở thành đơn giản hơn, tức là ít phi tuyến và không
giao thoa nhiều hơn với các không gian khác. Điều này bao gồm hai bước xử
lý: 1-biến đổi về trạng thái bình thường của hình ảnh khuôn mặt về mặt hình
học và trắc quang, chẳng hạn như sử dụng cân bằng hình thái (morphe) và biểu
đồ histogram; 2- trích xuất những đặc trưng từ các hình ảnh đã được chuẩn hóa
ổn định đối với các biến thể đó, chẳng hạn dựa trên các bước sóng Gabor (Gabor
wavelets).
Chiến lược thứ hai là xây dựng các công cụ có khả năng giải quyết các
vấn đề phân loại và hồi quy phi tuyến khó trong không gian đặc trưng và để
khái quát hóa tốt hơn. Mặc dù việc chuẩn hóa và trích xuất đặc trưng làm giảm
tính phi tuyến và giao thoa, nhưng chúng không giải quyết được hoàn toàn các
vấn đề và các công cụ phân loại có thể xử lý các khó khăn như vậy vẫn cần
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

7

thiết để đạt được hiệu quả cao. Một thuật toán thành công phải kết hợp được cả
hai chiến lược trên.
Với phương pháp dựa trên đặc điểm hình học được sử dụng khi vấn đề
nhận dạng mới được tiếp cận, các đặc điểm của khuôn mặt như mắt, mũi, miệng
và cằm được phát hiện. Các thuộc tính và quan hệ (như vùng, khoảng cách,
góc) giữa các đặc trưng được sử dụng làm mô tả để nhận dạng khuôn mặt. Ưu
điểm của phương pháp này bao gồm tính kinh tế và hiệu quả khi đạt được giảm
dữ liệu và ít bị ảnh hưởng với các biến thể trong chiếu sáng và góc nhìn. Tuy
nhiên, các kỹ thuật đo lường và phát hiện đặc điểm khuôn mặt được phát triển
cho đến nay không đủ tin cậy để nhận dạng hình học và chỉ tính chất hình học
như vậy là không đủ để nhận dạng khuôn mặt vì thông tin phong phú chứa trong
kết cấu hoặc diện mạo khuôn mặt bị loại bỏ. Đây là những lý do tại sao các kỹ
thuật ban đầu không hiệu quả.
Phương pháp học thống kê học từ dữ liệu đào tạo (hình ảnh xuất hiện
hoặc các đặc trưng được trích xuất từ ngoại hình) để trích xuất các đặc trưng
tốt và xây dựng các công cụ phân loại. Trong quá trình học, cả hai kiến thức
trước về khuôn mặt và các biến thể nhìn thấy trong dữ liệu đào tạo đều được
xem xét.
Phân tích khuôn mặt
Phân tích khuôn mặt (Facial Analysis) là nhận biết các thông tin và phân
tích nhận diện được giới tính, độ tuổi và biểu cảm của khuôn mặt (vui, buồn,
hạnh phúc, …). Nó có thể giúp bạn biết thông tin chi tiết về khách hàng của
bạn trong một cửa hàng nếu bạn sử dụng khả năng này. Từ những biểu cảm, độ
tuổi và giới tính giúp ta đưa ra được những phương án tiếp các đối tượng này.
Phạm vi tìm hiểu và nghiên cứu của luận văn tập trung vào phát hiện và nhận
dạng khuôn mặt người trong giám sát an ninh từ camera.
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

8

1.2

Bài toán nhận dạng mặt người trong giám sát an ninh
Đặt vấn đề
Sử dụng kỹ thuật nhận dạng mặt người trong giám sát an ninh ngày càng

được quan tâm hơn. Ngày 1/8/2017, cảnh sát Đức đã lần đầu tiên triển khai lắp
đặt thử nghiệm các máy quay (camera) nhận dạng khuôn mặt tại các nhà ga tàu
điện chính tại thủ đô Berlin sau nhiều vụ khủng bố tại các khu vực tập trung
đông người xảy ra ở nước Đức và một số quốc gia lân cận. Với công nghệ mới
này, cảnh sát Đức có thể phát hiện, theo dõi và bắt giữ tội phạm cũng như các
đối tượng bị tình nghi khủng bố.

Hình 1.1: Hệ thống nhận dạng khuôn mặt theo thời gian thực
Công nghệ nhận diện khuôn mặt (Facial Recognition Technology) hiện
là một công nghệ đang được sử dụng khá phổ biến tại các quốc gia phát triển.
Công nghệ này có khả năng xác định hoặc xác nhận một người từ hình ảnh kỹ
thuật số được lấy mẫu trước đó hoặc từ một khung hình trong một nguồn video
khác. Tiết kiệm thời gian và tài nguyên với khả năng xử lý nhanh và mạnh mẽ
nếu kết hợp với công nghệ AI (Trí tuệ nhân tạo). Công nghệ nhận diện khuôn
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

9
mặt là công nghệ sinh trắc học ít tác động đến người dùng nhất và là công nghệ

sinh trắc học nhanh nhất hiện nay. Hệ thống nhận dạng có thể giúp nhà quản lý
chủ động hơn trong việc kiểm soát, hệ thống nhận dạng có thể nhận diện khuôn
mặt một cách kín đáo bằng cách chụp ảnh khuôn mặt bất cứ ai bước vào khu
vực được xác định từ camera giám sát, không gây phiền hà hay phải yêu cầu
người đó dừng lại để tương tác, xác nhận khi đi vào khu vực giám sát.
Bài toán nhận dạng khuôn mặt người trong giám sát an ninh bao gồm hệ
thống các camera, hệ thống máy tính chạy chương trình phát hiện và nhận dạng
thông qua tập dữ liệu hình ảnh rất lớn để huấn luyện “học máy”. Nguồn dữ liệu
đầu vào là các frame (khung hình) thu được từ máy quay an ninh. Quá trình lấy
mẫu bằng các camera giám sát hoặc bằng một thiết bị có cùng chức năng lưu
trữ lại để làm cơ sở so sánh. Các dữ liệu được lấy mẫu sẽ được trích xuất từ
hình ảnh, các mẫu (quá trình phân tích). Các dữ liệu thu được (qua camera giám
sát) được đem so sánh với các dữ liệu trong cơ sở dữ liệu. Dữ liệu ra là kết quả
nhận dạng khuôn mặt với đối tượng người cụ thể trong cơ sở dữ liệu. Hệ thống
sau đó sẽ quyết định kết quả so sánh có phù hợp hay không và đưa ra thông
báo. Khi người dùng đi vào vùng quét của camera, hệ thống sẽ tự động xác định
vùng hình ảnh khuôn mặt và thực hiện các thuật toán để tách vùng khuôn mặt
khỏi khung hình và tiến hành chuẩn hóa hình ảnh, sau đó trích xuất các dữ liệu
đặc trưng của hình ảnh khuôn mặt đó. Độ chính xác phụ thuộc nhiều vào vào
nhiều yếu tố ngoại cảnh như ánh sáng, vùng che khuất, biểu cảm và trang phục,
góc độ của đối tượng trên khung hình thu được từ camera.
Ngoài ra chất lượng hình ảnh của đầu vào, camera là rất quan trọng như độ sắc
nét, độ tương phản hay noise nhiễu gây ảnh hưởng tới chất lượng và hiệu quả
của hoạt động phát hiện và nhận dạng khuôn mặt từ camera giám sát.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

10
Thành phần chức năng của một hệ thống phát hiện và nhận dạng
khuôn mặt qua camera
- Thu thập (Capture) hình ảnh từ camera: Hình ảnh từ camera được tách
thành từng khung hình và được biểu diễn dưới dạng số hóa.
- Xử lý trích chọn đặc trưng (Feature Extraction) phát hiện, đánh dấu vùng
hình ảnh xuất hiện khuôn mặt và xử lý mẫu của khuôn mặt phục vụ quá
trình so sánh, đối chiếu với cơ sở dữ liệu hoặc là nguồn dữ liệu ban đầu
cho qua trình học máy huấn luyện mẫu.
- Học máy “huấn luyện” với tập dữ liệu mẫu đầu vào xây dựng cơ sở dữ
liệu mẫu để phục vụ quá trình phân loại, so sánh và phân lớp kết quả với
mẫu trong cơ sở dữ liệu đối sánh.
- So sánh tiên đoán (predict) và quyết định (Decion): Sau khi xử lý trích
chọn đặc trưng, dữ liệu của khung hình được đưa qua chức năng so sánh
với các mẫu trong cơ sở dữ liệu (predict). Quá trình so sánh và đưa ra
ngưỡng trùng khớp với các trường hợp có trong cơ sở dữ liệu mẫu. Tỉ lệ
chính xác chỉ định thông qua chỉ số ngưỡng (giá trị chấp nhận được).
Quyết định kết quả của đối tượng xuất hiện trên khung hình được trích
chọn ra là người được định danh hoặc không có trong cơ sở dữ liệu.
- Sơ đồ khối của quá trình phát hiện và nhận dạng khuôn mặt từ hình ảnh,
camera như sau:

Hình ảnh
đầu vào

Phát hiện
khuôn mặt

Trích chọn vùng
ảnh khuôn mặt

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

Khớp các

Lưu hình ảnh

Lưu trữ những

11

Sơ đồ 1.2 : Sơ đồ khối của hệ thống phát hiện và nhận dạng
khuôn mặt

KẾT LUẬN CHƯƠNG 1
Trong nhiều năm qua, lĩnh vực thị giác máy đã có nhiều bước tiến mạnh
mẽ. Ứng dụng của thị giác máy tính trong các lĩnh vực công nghệ và đời sống
ngày càng phổ biến. Trong Chương 1 đã giới thiệu khái quát về lĩnh vực phát

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

12
hiện và nhận dạng khuôn mặt người. Để bao quát được đòi hỏi người nghiên
cứu phải tìm hiểu chuyên sâu hơn nữa.

Lĩnh vực phát hiện và nhận dạng mặt người chỉ là một đối tượng nhỏ
trong Thị giác máy tính nhưng ngày nay nó càng được để ý quan tâm đến nhiều
hơn. Các phương pháp phát hiện và nhận dạng phổ biến sẽ được em trình bày
ở chương tiếp theo.

CHƯƠNG 2:

MỘT SỐ KỸ THUẬT LỰA CHỌN, TRÍCH RÚT

ĐẶC TRƯNG PHÁT HIỆN VÀ NHẬN DẠNG MẶT NGƯỜI
2.1

Đặc trưng Haar-like
Tổng quan về Haar-like

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

13
Đặc trưng Haar-like do Paul Viola và Michael Jones [3] công bố bao gồm
4 đặc trưng cơ bản để xác định mặt người. Đặc trưng Haar-like được tạo thành
bằng việc kết hợp các hình chữ nhật màu đen và trắng với nhau theo một trật
tự, kích thước nào đó. Mỗi đặc trưng Haar-like là sự kết hợp của hai hay ba
hình chữ nhật “đen” hay “trắng”. Hình dưới đây mô tả 4 đặc trưng Haar-like cơ
bản như sau:

Hình 2.1: Đặc trưng Haar-like cơ bản.

Hình 2.2: Đặc trưng Haar-like biểu diễn ở dạng số
- Để sử dụng các đặc trưng này vào việc phát hiện khuôn mặt người, 4 đặc trưng
Haar-like cơ bản được mở rộng (bởi Lienhart, Kuranov & Pisarevky, 2002;
Lienhart & Maydt, 2002) và được chia thành nhóm các đặc trưng cạnh, đặc
trưng đường và đặc trưng xung quanh tâm (Hình 2.3).

Đặc trưng quanh tâm
Đặc trưng
Đặc trưng
cạnh
đường
(center-surround
(edge
(line features)
features)
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

features)

14

Hình 2.3: Các đặc trưng Haar-like mở rộng
Giá trị của đặc trưng Haar-like là sự chênh lệch giữa tổng các điểm ảnh của của
các vùng màu đen và các vùng màu trắng theo công thức sau:
𝑓(𝑥) = 𝑻ổ𝒏𝒈𝑣ù𝑛𝑔 đ𝑒𝑛 (𝑝𝑖𝑥𝑒𝑙) − 𝑻ổ𝒏𝒈𝑣ù𝑛𝑔 𝑡𝑟ắ𝑛𝑔 (𝑝𝑖𝑥𝑒𝑙)

(2.1)

Để tính các giá trị của đặc trưng Haar-like ta phải tính tổng của các vùng pixel

trên ảnh. Nhưng để tính toán các giá trị của đặc trưng Haar-like cho tất cả các
vị trí trên ảnh đòi hỏi chi phí tính toán khá lớn. Do đó, Viola và Jones (2001;
2004) đã đưa ra khái niệm ảnh tích phân (Integral Image) để tính toán nhanh
giá trị của các đặc trưng Haar-like. Integral Image là một mảng hai chiều có
kích thước bằng với kích thước của ảnh cần tính giá trị đặc trưng Haar-like, với
mỗi phần tử của mảng này được tính bằng tổng của các điểm ảnh phía trên và
bên trái của nó.

P(x,y)

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

15
Hình 2.4: Tính giá trị ảnh tích phân tại điểm P có tọa độ (x, y)
Giá trị tích phân tại điểm P có tọa độ (x, y) được tính như sau:
𝒊𝒊(𝒙, 𝒚) =

∑

𝒊(𝒙′ , 𝒚′ )

(2.2)

𝒙′ ≤𝒙,𝒚′≤𝒚

Sau khi đã tính được ảnh tích phân, việc tính tổng các giá trị mức xám của một
vùng ảnh bất kỳ nào đó trên ảnh ta thực hiện theo cách sau. Ví dụ tính giá trị

của vùng D trong hình dưới như sau:
D = A + B + C + D – (A+B) – (A + C) + A

A

P1 B

C

D

(2.3)

P2

P

P

3

4

Hình 2.5: Tính nhanh tổng các giá trị điểm ảnh của vùng D trên ảnh
Với A + B + C + D chính là giá trị tại điểm P4 trên ảnh tích phân, A + B là giá
trị tại điểm P2, A + C là giá trị tại điểm P3 và A là giá trị tại điểm P1. Vì vậy, ta
có thể tính lại biểu thức tính D ở trên như sau:
D = (x4, y4) – (x2, y2) – (x3, y3) + (x1, y1)

(2.4)

Để chọn các đặc trưng Haar-like dùng cho việc thiết lập ngưỡng, tạo bộ phân
loại thì Viola và Jones sử dụng phương pháp máy học gọi là AdaBoost.
AdaBoost sẽ kết hợp các bộ phân loại yếu tạo thành một bộ phân loại mạnh.
Với những bộ phân loại yếu thì việc đưa ra câu trả lời chính xác thì chỉ hơn

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

(Luận văn thạc sĩ) Nhận dạng khuôn mặt người từ camera sử dụng đặc trưng haar like, ứng dụng trong giám sát an ninh

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về