Đề xuất một kỹ thuật nhận dạng mặt người dựa trên mống mắt sử dụng ngôn ngữ lập trình python

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (12.69 MB, 60 trang )

Trang 1<div class="page_container" data-page="1">

BỘ TÀI NGUYÊN VÀ MÔI TRƯỜNG

TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI

BÁO CÁO TỔNG HỢP

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NĂM 2021

TÊN ĐỀ TÀI

ĐỀ XUẤT MỘT KỸ THUẬT NHẬN DẠNG MẶT NGƯỜI DỰA TRÊN MỐNG MẮT SỬ DỤNG NGƠN NGỮ LẬP TRÌNH PYTHON

MÃ SỐ : 13.01.21.B.01

Tổ chức chủ trì: Trường Đại học Tài nguyên và Môi trường Hà Nội Chủ nhiệm đề tài: TS Nguyễn Đức Toàn

Hà Nội - 2021

</div>Trang 2<div class="page_container" data-page="2">

BỘ TÀI NGUYÊN VÀ MÔI TRƯỜNG

TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI

BÁO CÁO TỔNG HỢP

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NĂM 2021

TÊN ĐỀ TÀI

ĐỀ XUẤT MỘT KỸ THUẬT NHẬN DẠNG MẶT NGƯỜI

DỰA TRÊN MỐNG MẮT SỬ DỤNG NGƠN NGỮ LẬP TRÌNH

</div>Trang 3<div class="page_container" data-page="3">

MỤC LỤC

THÔNG TIN K T QU NGHIÊN C U ... iiiẾ Ả Ứ

INFORMATION ON RESEARCH RESULTS ... v

DANH MỤC CÁC CHỮ VIẾT TẮT ... vii 5. Phương pháp nghiên cứu: ... 3

5.1. Phương pháp nghiên cứu lý thuyết: ... 3

5.2. Phương pháp nghiên cứu thực tiễn: ... 3

5.3. Phương pháp thiết kế mô hình, chế tạo sản phẩm: ... 3

5.4. Phương pháp thực nghiệm khoa học: ... 3

5.5. Phương pháp phân tích và tổng kết kinh nghiệm:... 3

6. Ý nghĩa khoa học của đề tài: ... 3

CHƯƠNG 1 TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU ... 4

1.1 Tình hình nghiên cứu ngồi nước và trong nước ... 4

1.1.1 Tình hình nghiên cứu ngồi nước ... 4

1.1.2 Tình hình nghiên cứu trong nước ... 5

1.2. Công ngh nh n di n khuôn m t ... 9 ệ ậ ệ ặ 1.3. Th c trự ạng và phương pháp của h th ng nh n d ng khuôn m t ... 10 ệ ố ậ ạ ặ 1.3.1 Quy trình của hệ thống nhận dạng khuôn mặt ... 10

1.3.2 Phát hiện khuôn mặt (face detection) ... 10

1.4 M t s ộ ố phương pháp nhận d ng khuôn m t ... 11 ạ ặ 1.4.2 Dựa trên tri thức ... 14

1.4.3 Dựa trên so khớp mẫu ... 14

1.4.4 Dựa trên diện mạo ... 15

1.4.5 Dựa trên đặc trưng lõm ... 15

1.5. T ng quan v bài toán ... 16 ổ ề 1.6 Kết luận chương 1 ... 16

</div>Trang 4<div class="page_container" data-page="4">

CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP VÀ THUẬT TỐN NHẬN DẠNG ... 17

2.1 Thu t tốn Viola-Jones ... 17 ậ 2.2 One-shot learning... 18

2.3 Learning similarity ... 18

2.4 Siam network ... 19

2.5 Thu t toán ORB ... 20 ậ 2.6 Thu t toán RANSAC ... 21 ậ 2.7 Thuật toán HOG (Trong đề tài chủ ế y u dùng thu t toán này) ... 22 ậ 2.8 Thu t toán Cậ amShif (Dùng trong đề tài và có bài báo trong REV) ... 28

2.8.2 Thuật toán Camshift ... 29

2.8.3 Cải tiến thuật toán áp dụng cho đề tài ... 29

CHƯƠNG 3 XÂY DỰNG DEMO ... 33 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ CỦA TÁC GIẢ ... 48

LIÊN QUAN ĐẾN ĐỀ TÀI ... 48

</div>Trang 5<div class="page_container" data-page="5">

iii

Mẫu 9-TTKQ

THÔNG TIN K T QU NGHIÊN C U Ế Ả Ứ

1. Thông tin chung:

- Tên đề tài: Đề xu t m t k thu t nh n d ng mấ ộ ỹ ậ ậ ạ ặt người d a trên m ng m t s d ng ngôn ự ố ắ ử ụ

Mục tiêu tổng quát: Nghiên cứu công nghệ nhận dạng ảnh với AI để xác định và quét mống mắt ở khuôn mặt có trong hình ảnh. Sử dụng kỹ thuật học sâu để thực hiện việc nhận dạng với dữ liệu máy đã học trước đó, sau đó so sánh và nhận dạng.

Mục tiêu cụ thể : Chống học hộ, điểm danh hộ, đồng thời giám sát hành vi của sinh viên trên trường

theo thời gian thực (realtime). 3. Tính m i và sáng t o: ớ ạ

Sử dụng các thiết bị và giải pháp nhận diện khuôn mặt đã xuất hiện vài năm trở lại đây trong phạm vi ứng dụng chấm cơng, kiểm sốt ra vào và xác thực định danh. Công nghệ này càng trở nên rõ nét hơn khi đại dịch COVID19 đã ảnh hưởng lớn đến việc giao tiếp với các đối tượng xung quanh. Nhận dạng vân tay sử dụng một cảm biến liên lạc, một thiết bị không tiệt trùng mà tất cả mọi người phải chạm tới để được nhận dạng. Trong môi trường lâm sàng, điều này dẫn đến khả năng một số người sử dụng sẽ có thể bị lây các bệnh truyền nhiễm,

Trong đề tài này, tôi đề xuất một phương pháp nhận dạng khuôn mặt dựa trên mống mắt. Nhận dạng dựa trên mống mắt ngược lại với nhận dạng dựa trên võng mạc, bởi vì mống mắt ở bên ngồi và có thể nhìn thấy mà khơng có bất kỳ ánh sáng xâm lấn. Hệ thống nhận dạng mống mắt chỉ có một hình ảnh kỹ thuật số bên ngoài của mắt và không cung cấp bất kỳ thông tin y tế khác. Mống mắt là tính năng độc đáo nhất có thể nhìn thấy trên cơ thể con người. Khơng có hai trịng mắt giống nhau thậm - chí cặp song sinh giống hệt nhau cũng có mơ hình mống mắt khác nhau. Sự phong phú của các chi tiết trong mống mắt, sự khác biệt và không phụ thuộc vào di truyền, đồng thời việc cho hình ảnh tiếp cận mà không cần phải tiếp xúc vật lý… tất cả làm cho mống mắt có một định danh cá nhân xuất sắc. Mỗi một công nghệ sinh trắc học có các ứng dụng nổi bậc riêng.

</div>Trang 6<div class="page_container" data-page="6">

Tuy nhiên, trong việc nhận dạng con người, mống mắt có lợi thế hơn. Mống mắt được cơng nhận là chính xác hơn nhận dạng bằng dấu vân tay hoặc khuôn mặt. Do đó cơng nghệ khơng tiếp xúc là một lựa chọn tốt hơn hết.

4. K t qu nghiên c u: ế ả ứ

Tìm hiểu các phương pháp nhận diện khn mặt cơ bản Tìm hiểu được thư viện ảnh số OpenCV

Nhận diện được hình ảnh khá tốt qua nhận diện khn mặt.

5. S n ph m: ả ẩ

1. Báo cáo tổng kết đề tài.

2. Phần mềm ứng dụng được ghi trên đĩa CD

6. Phương thức chuyển giao, địa chỉ ứng dụng, tác động và lợi ích mang lại của kết quả nghiên cứu:

- Chuyển giao cơng nghệ có đào tạo và theo tỉ lệ 50-50 – Khoa CNTT và Phịng NCKH&HTQT Nhận dạng khn mặt trở nên bất tiện trong mùa dịch COVID 19 bởi mọi người phải đeo khẩu trang; -còn nhận dạng vân tay cũng gặp phiền hà khi mọi người không muốn bỏ găng tay. Việc sử dụng rộng rãi tính năng nhận dạng mống mắt sẽ cải thiện những hạn chế này. Vì vậy, đề tài phù hợp với mục tiêu, nội dung và sản phẩm dự kiến của đề tài.

Kết quả của đề tài nếu được ứng dụng trong Trường Đại học Tài nguyên và Môi trường Hà Nội sẽ chống học hộ, điểm danh hộ, đồng thời giám sát hành vi của sinh viên trên trường theo thời gian thực (realtime).

</div>Trang 7<div class="page_container" data-page="7">

Duration: from to:

2. Objective(s): To study image recognition technology with AI to identify and scan irises of faces in

images. Use deep learning technique to perform the recognition with previously learned machine data, then compare and recognize.

Specific objectives: Anti-student, household attendance, and at the same time monitor students' behavior at school in real time.

3. Creativeness and innovativeness:

Using facial recognition devices and solutions has emerged in the past few years in the scope of timekeeping, access control and identity authentication applications. This technology becomes even more apparent when the COVID19 pandemic has greatly affected communication with surrounding objects.

Fingerprint recognition uses a contact sensor, a non-sterile device that everyone must touch in order to be identified. In the clinical setting, this leads to the possibility that some users will be exposed to infectious diseases,

In this topic, I propose an iris-based face recognition method. Iris-based recognition is the opposite of retina-based recognition, because the iris is external and visible without any invasive light. The iris recognition system only takes a digital image of the outside of the eye and does not provide any other medical information. The iris is the most unique feature visible on the human body. No two irises are alike - even identical twins have different iris patterns. The richness of details in the iris, the distinct and independent genetics, and the access to images without the need for physical contact… all give the iris a unique identity. excellent person. Each of the biometric technologies has its own outstanding applications.

</div>Trang 8<div class="page_container" data-page="8">

However, in recognizing people, the iris has an advantage. Iris recognition is more accurate than fingerprint or face recognition. Therefore contactless technology is a better choice.

4. Research results:

- Learn basic face recognition methods - Learn about OpenCV digital image library - Face recognition is quite good.

5. Products:

+) The final report on the topic. +) Application software recorded on CD

6. Transfer alternatives, application institutions, impacts and benefits of research results:

Technology transfer with training and at the rate of 50-50 Faculty of IT and Department of – Scientific Research and International Cooperation

Facial recognition becomes inconvenient during the COVID-19 season because everyone has to wear masks; And fingerprint recognition is also problematic when people don't want to take off their gloves. Widespread use of iris recognition should improve these limitations. Therefore, the topic is suitable for the purpose, content and expected product of the topic.

The results of the project, if applied in the University of Natural Resources and Environment, Hanoi, will prevent students from studying, take attendance, and monitor students' behavior on campus in real time.

</div>Trang 9<div class="page_container" data-page="9">

vii

DANH MỤC CÁC CHỮ VIẾT TẮT

</div>Trang 10<div class="page_container" data-page="10">

viii

DANH MỤC CÁC HÌNH

Hình 1. 1 Kiểm soát theo thời gian thực (real-time) ... 9

Hình 1. 2 Qui trình của hệ thống nhận dạng khn mặt ... 10

Hình 1. 3 Các đặc trưng Haar ... 11

Hình 1. 4 Mơ hình phân tầng Cascade ... 13

Hình 1. 5 Kết hợp các bộ phân loại yếu thành bộ phân loại mạnh ... 14

Hình 2. 1 Phát hiện khn mặt bằng cách sử dụng Haar cascade được đào tạo trước 17

Hình 2. 2 Phương pháp learning similarity. ... 18

Hình 2. 3 Mơ hình Convolutional neural network ... 19

Hình 2. 4 Kết quả đối sánh ảnh sử dụng thuật tốn ORB. ... 20

Hình 2. 5 Đồ thị cường độ nhiễu của ảnh ... 21

Hình 2. 6 Mơ hình human detection dựa trên HOG. ... 23

Hình 2. 7 Hình ảnh vận động viên được chia thành các lưới ơ vng, mỗi ơ vng có kích thước 8x8 pixels. ... 26

Hình 2. 8 Mapping độ lớn gradients với các bins. ... 27

Hình 3. 1 Giao diện chạy chương trình getData 38 Hình 3. 2 Các giao diện chuyển từ file ảnh sang file số ... 40

Hình 3. 3 Các góc nghiêng nhận dạng ... 41

Hình 3. 4 Các góc nghiêng khơng nhận dạng ... 43

Hình 3. 5 Các hình ảnh nhận dạng khn mặt bằng mống mắt ... 44

Hình 3. 6 Hiệu suất đối sánh giữa nhận dạng mống mắt và nhận dạng khuôn mặt ORB ... 45

Hình 3. 7 Biểu đồ đối sánh nhiễu từ file ảnh sang file số ... 45

</div>Trang 11<div class="page_container" data-page="11">

LỜI MỞ ĐẦU 1 Lý do chọn đề tài

Cơng nghệ nhận dạng này có thể nhận dạng mọi người ngay sau vài tấm ảnh họ được gán nhãn với độ chính xác đến 98% ]. Có nhiều hệ thống bảo mật thơng minh sử dụng sinh trắc học [6 định danh người, có thể nhận dạng bằng cách sử dụng đặc điểm tĩnh và động như: ngón tay nhú mơ hình, hình học cơ thể, bàn tay, mống mắt của mắt, khuôn mặt, tĩnh mạch, chữ viết tay, dáng, dáng đi, giọng nói, v.v. [ ]. Tất cả các phương pháp nhận dạng được trình bày đều có bộ những thuận lợi và 7 khó khăn liên quan đến phương pháp có được các chỉ số về con người như chi phí, độ tin cậy của kết quả. số lượng máy quay video tại nơi công cộng đã tăng lên rất nhiều, chi phí của việc tiếp nhận, xử lý và truyền dữ liệu đã giảm đáng kể đã dẫn đến việc tạo và phát triển các phương pháp để xác định hiệu quả người từ video và hình ảnh, và hầu hết các phần của phương pháp tập trung vào việc nhận dạng khuôn mặt người.

Các công ty lớn nhất trên thế giới đang phát triển của riêng các giải pháp phần mềm sử dụng đặc trưng của khuôn mặt trong ảnh và trong video. Những công ty khổng lồ như Amazon, Facebook, Apple đã triển khai hệ thống thơng minh phân tích video trong điều kiện thực và đưa ra thị trường các giải pháp cạnh tranh. Amazon Rekognition [8] cho phép nhúng ảnh và video dựa trên học sâu vào các ứng dụng. Dịch vụ này có thể nhận dạng các đối tượng, người, văn bản, cảnh và hành động, cũng như phát hiện nội dung không phù hợp. Amazon Rekognition có thể phân tích chính xác và nhận dạng khn mặt trong hình ảnh và video. Facebook đã triển khai một dự án để nhận dạng và xác định trước mặt của mọi người trong các bức ảnh đã được đưa lên mạng xã hội và cho phép sử dụng các từ để mô tả mọi thứ hiển thị trong ảnh [ ]. Công nghệ FaceID của Apple [ ] cho phép độ chính xác cao 9 10 xác định người dùng trên điện thoại thông minh và thay thế cho quét dấu vân tay, vì nó sử dụng hệ thống cảm biến và máy ảnh chất lượng cao và một loạt các các phương pháp nhận dạng, bao gồm cả nhận dạng khn mặt. Thị giác máy tính và học máy đã làm nên điều đó có thể thực hiện xác định khách hàng thông qua thiết bị đầu cuối video trong một tổ hợp mua sắm tự động [11, 12] khơng có máy tính tiền và bộ điều khiển, và theo dõi [13].

Tại Việt Nam, một số công ty sáng tạo hình thành lĩnh vực dịch vụ phân tích hình ảnh trong tiếp cận hệ thống điều khiển. Ví dụ, dịch vụ BiFace [ ]. Trên thế giới hệ thống nhận dạng khuôn 14 mặt NTechLab [ ] dẫn đầu trong việc phát triển thuật toán và các giải pháp phần mềm để kiểm soát15 nhận dạng cá nhân cho các nhóm người, thành phố và Quốc gia. Dịch vụ FindFace từ công ty này chiếm lĩnh các dòng xếp hạng cạnh tranh hàng đầu cho nhận dạng khn mặt. Mức độ chính xác của

</div>Trang 12<div class="page_container" data-page="12">

nhận dạng và tốc độ của phân tích phụ thuộc vào các phương pháp chuyển đổi ảnh, các đặc trưng của tập huấn luyện, sử dụng phương pháp huấn luyện sâu và thuật tốn tìm kiếm.

Nhận dạng một người trong video có nhiều giai đoạn. Bước đầu tiên là chuyển đổi video vào sang ảnh, bước thứ hai là tìm kiếm các ảnh có khn mặt. Phần thứ ba là gán một tập hợp duy nhất đặc trưng cho tất cả những đặc điểm thấy. Thứ tư là xác định người dựa trên so sánh với cơ sở dữ liệu [16], [17], [18]. Tốn học các phương pháp và mơ hình được sử dụng để nhận dạng khn mặt bao gồm phương pháp hồi quy, mạng nơron, SVM [4], [5], ...

2. Đối tượng và ph m vi nghiên c u cạ ứ ủa đề tài

2.1 Đối tượng nghiên cứu: Đề tài tập trung nghiên cứu một số phương pháp nhận dạng khuôn mặt người, chủ yếu là nhận diện bằng mống mắt.

2.2 Phạm vi nghiên cứu: là sinh viên đang học tập tại trường Đại học Tài nguyên và Môi trường Hà Nội, tập trung chủ yếu là sinh viên Khoa CNTT.

3. M c tiêu nghiên c u: ụ ứ

Nghiên cứu đề tài này nhằm mục đích tìm hiểu bài tốn nhận dạng khn mặt bằng mống mắt, từ đó xây dựng các hệ thống ứng dụng trong thực tiễn như: điểm danh, giam sát người ra vào, an ninh trong sân bay. Nhận dạng khuôn mặt trở nên bất tiện trong mùa dịch COVID-19 bởi mọi người phải đeo khẩu trang; còn nhận dạng vân tay cũng gặp phiền hà khi mọi người không muốn bỏ găng tay. Việc sử dụng rộng rãi tính năng nhận dạng mống mắt sẽ cải thiện những hạn chế này. Vì vậy, đề tài phù hợp với mục tiêu, nội dung và sản phẩm dự kiến của đề tài.

4. N i dung nghiên c u: ộ ứ

Chương 1: Tổng quan vấn đề nghiên cứu

Trong chương này, tác giả sẽ trình bày về những cơ sở lý thuyết về nhận dạng khuôn mặt,

tổng quan về bài toán đặt ra để giải quyết trong đề tài.

Chương Một số phương pháp và thuật toán nhận dạng ảnh2:

Trong chương này, tác giả sẽ trình bày về một số phương pháp nhận dạng ảnh và một số thuật tốn về nhận dạng khn mặt có sử dụng trong đề tài nghiên cứu từ đó làm tiền đề xây ,

dựng demo ở chương 3.

Chương Xây dựng demo 3:

Trong chương này, tác giả sẽ trình bày về demo của đề tài nghiên cứu dựa trên các thuật ,

toán từ chương 2, trong chương này còn sử dụng máy học để phân tích ảnh ra dạng số.

</div>Trang 13<div class="page_container" data-page="13">

5. Phương pháp nghiên cứu:

5.1. Phương pháp nghiên cứu l thuyết: ý

+ Tìm hiểu một số thuật tốn nhận dạng khn mặt + Tìm hiểu ngơn ngữ lập trình Python

5.2. Phương pháp nghiên cứu thực tiễn:

+ Phương pháp khảo sát thực tế, thu thập dữ liệu: tìm hiểu thực tế về cơng nghệ nhận dạng khuôn mặt.

+ Phương pháp phân tích đánh giá: dựa vào dữ liệu đã tìm hiểu được. Phân tích các thuật tốn.

5.3. Phương pháp thiết kế mơ hình, chế tạo sản phẩm:

+ Xác định yêu cầu của bài tốn đặt ra + Tính toán lựa chọn các thuật toán phù hợp.

5.4. Phương pháp thực nghiệm khoa học:

+ Bước đầu đưa sản phẩm vào sử dụng để hiệu chỉnh thơng số chi tiết và hồn thiện sản phẩm demo.

5.5. Phương pháp phân tích và tổng kết kinh nghiệm:

+ Phân tích, đánh giá ưu nhược điểm của sản phẩm

+ Rút ra kinh nghiệm cũng như đưa ra hướng phát triển cho phù hợp 6. Ý nghĩa khoa học của đề tài:

</div>Trang 14<div class="page_container" data-page="14">

CHƯƠNG 1 TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

Trong chương này, tác giả sẽ trình bày về những cơ sở lý thuyết về nhận dạng khn

mặt, tổng quan về bài tốn đặt ra để giải quyết trong đề tài.

1.1 Tình hình nghiên cứu ngồi nước và trong nước

1.1.1 Tình hình nghiên cứu ngoài nước

Trong năm 1964 và 1965, Bledsoe, cùng với Helen Chan và Charles Bisson, bắt đầu ý tưởng sử dụng máy tính để nhận ra khuôn mặt của con người (Bledsoe 1966a, 1966b; Bledsoe và Chan 1965). Ông rất tự hào về cơng việc này, nhưng do kinh phí được cung cấp bởi một cơ quan tình báo giấu tên mà khơng cho phép cơng khai, rất ít tác phẩm đã được xuất bản. Với một cơ sở dữ liệu lớn các hình ảnh (thực tế là một cuốn sách ảnh thẻ) và một bức ảnh, vấn đề là phải lựa chọn từ cơ sở dữ liệu là một tập hợp nhỏ các hồ sơ hình ảnh như vậy có chứa các hình ảnh ăn khớp với bức ảnh đưa ra. Sự thành công của phương pháp này có thể được đo bằng tỷ lệ danh sách câu trả lời trên số lượng các hồ sơ trong cơ sở dữ liệu. Bledsoe (1966a) đã mô tả những khó khăn sau đây:

Dự án này đã được dán nhãn "man-machine" bởi vì con người trích xuất tọa độ của một tập hợp các đặc điểm từ các hình ảnh, sau đó được máy tính sử dụng để nhận dạng. Sử dụng một graphic tablet (GRAFACON hoặc RAND TABLET), các tốn tử sẽ trích xuất các tọa độ của các đặc điểm như tâm của con ngươi, các góc bên trong mắt, góc ngồi của mắt, điểm widows peak và... Từ những tọa độ này, một danh sách 20 khoảng cách, như chiều rộng của miệng và khoảng cách giữa 2 mắt, từ con ngươi đến con ngươi sẽ được tính tốn. Các tốn tử có thể xử lý khoảng 40 hình ảnh một giờ. Khi xây dựng các cơ sở dữ liệu, tên của người trong bức ảnh đã được gắn liền với danh sách của các khoảng cách tính tốn và được lưu trữ trong máy tính. Trong giai đoạn nhận dạng, tập hợp các khoảng cách được so sánh với khoảng cách tương ứng cho mỗi bức ảnh, cho ra một khoảng cách giữa các bức ảnh và các bản ghi cơ sở dữ liệu. Các hồ sơ gần nhất được trả về.

Hệ thống điểm danh bằng mặt người thực hiện rút trích tự động khuôn mặt người trong ảnh thu được từ camera (webcam) và xác định danh tính của đối tượng trong hệ thống dựa vào nội dung của ảnh khn mặt rút trích được. Nhận dạng tự động khn mặt có thể ứng

</div>Trang 15<div class="page_container" data-page="15">

dụng nhiều trong thực tiễn như camera giám sát, hệ thống chấm cơng, chú thích ảnh tự động, lưu trữ thơng tin khuơn mặt ở các máy ATM, tìm kiếm và xác minh tội phạm. Hệ thống điểm danh thực hiện nhận dạng khuơn mặt người qua 2 bước chính: định vị khuơn mặt trong ảnh thu được từ camera và định danh đối tượng từ ảnh khuơn mặt. Trong bài báo [20] trình bày các nghiên cứu trước đây trong nhận dạng khuơn mặt người. Rút trích tự động khuơn mặt trong ảnh thu được từ camera dựa trên mơ hình mạng nơ-ron [14] hoặc đặc trưng haar-like kết hợp với mơ hình phân tầng (Cascade of Boosted Classifiers – CBC) [18].

Để xác định danh tính của đối tượng trong hệ thống dựa vào nội dung của ảnh khuơn mặt, nghiên cứu trước đây sử dụng các đặc trưng như mắt, tai, màu tĩc, độ dày mơi để tự động nhận dạng. [10], [19] sử dụng phương pháp phân tích thành phần chính (Principal Component Analysis - PCA) và thuật tốn eigenfaces để nhận dạng khuơn mặt. Các hướng nghiên cứu gần đây [12], [13], [15], [17], dựa vào phương pháp biểu diễn ảnh bằng các nét đặc trưng khơng đổi với những biến đổi tỉ lệ. Đặc trưng cục bộ SIFT khơng bị thay đổi trước những biến đổi tỉ lệ ảnh, tịnh tiến, phép quay, khơng bị thay đổi một phần đối với phép biến đổi hình học affine (thay đổi gĩc nhìn) và mạnh với những thay đổi về độ sáng, nhiễu và sự che khuất. Để định danh đối tượng từ ảnh khuơn mặt người, [ ] đề xuất so khớp các đặc 14 trưng SIFT trong khi nghiên cứu của [16] kết hợp giải thuật Bayes với láng giềng gần nhất (Nạve Bayes Nearest Neighbor - NBNN [11]) và đặc trưng trong [6], trong bài báo [7] đề xuất mơ hình máy học.

1.1.2 Tình hình nghiên cứu trong nước

Ngày 20/4/2020, Viện Nghiên cứu trí tuệ nhân tạo VinAI Research (Vingroup) đã nghiên cứu thành cơng cơng nghệ nhận diện khuơn mặt chính xác, ổn định cả khi dùng khẩu trang; trở thành một trong những đơn vị đầu tiên trên thế giới nghiên cứu thành cơng và sẵn sàng cung cấp miễn phí cho cộng đồng.

VinAI sử dụng mơ hình học sâu (deep learning) mới nhất và đặc thù do các chuyên gia của viện nghiên cứu và tối ưu hĩa để nghiên cứu cơng nghệ nhận diện ổn định cả khi sử dụng và khơng sử dụng khẩu trang. Mơ hình deep learning với thiết kế mơ phỏng cách hoạt động của mạng lưới thần kinh trong não người để huấn luyện và tự động trích xuất các thơng tin cĩ giá trị trên một phần khuơn mặt, nhằm nhận diện ngay cả khi người dùng sử dụng khẩu trang.

</div>Trang 16<div class="page_container" data-page="16">

Kết quả nghiên cứu cho thấy khi giả lập đeo khẩu trang hệ thống nhận diện của VinAI - đạt được độ chính xác tốt hơn đáng kể so với công nghệ hiện tại trên thế giới. Điểm ưu việt của công nghệ nhận diện do VinAI phát triển là thuật toán và cách sử dụng công nghệ nhận diện dẫn đến hiệu quả ổn định, có độ chính xác cao.

Nhận dạng mặt người (Face recognition) là một lĩnh vực nghiên cứu của ngành Computer Vision, và cũng được xem là một lĩnh vực nghiên cứu của ngành Biometrics (tương tự như nhận dạng vân tay – Fingerprint recognition, hay nhận dạng mống mắt – Iris recognition). Xét về nguyên tắc chung, nhận dạng mặt có sự tương đồng rất lớn với nhận dạng vân tay và nhận dạng mống mắt, tuy nhiên sự khác biệt nằm ở bước trích chọn đặt trưng (feature extraction) của mỗi lĩnh vực.

Trong khi nhận dạng vân tay và mống mắt đã đạt tới độ chín, tức là có thể áp dụng trên thực tế một cách rộng rãi thì nhận dạng mặt người vẫn cịn nhiều thách thức và vẫn là một lĩnh vực nghiên cứu thú vị với nhiều người. So với nhận dạng vân tay và mống mắt, nhận dạng mặt có nguồn dữ liệu phong phú hơn (có thể nhìn thấy mặt người ở bất cứ tấm ảnh, video clip nào liên quan tới con người trên mạng) và ít địi hỏi sự tương tác có kiểm sốt hơn (để thực hiện nhận dạng vân tay hay mống mắt, dữ liệu input lấy từ con người địi hỏi có sự hợp tác trong mơi trường có kiểm sốt).

Hiện nay các phương pháp nhận dạng mặt được chia thành nhiều hướng theo các tiêu chí khác nhau: nhận dạng với dữ liệu đầu vào là ảnh tĩnh 2D (still image based FR) là phổ biến nhất, tuy nhiên tương lai có lẽ sẽ là 3D FR (vì việc bố trí nhiều camera 2D sẽ cho dữ liệu 3D và đem lại kết quả tốt hơn, đáng tin cậy hơn), cũng có thể chia thành 2 hướng là: làm với dữ liệu ảnh và làm với dữ liệu video.[1]

Trên thực tế người ta hay chia các phương pháp nhận dạng mặt ra làm 3 loại: phương pháp tiếp cận toàn cục (global, như Eigenfaces-PCA, Fisherfaces-LDA), phương pháp tiếp cận dựa trên các đặc điểm cục bộ (local feature based, như LBP, Gabor wavelets) và phương pháp lai (hybrid, là sự kết hợp của hai phương pháp toàn cục và local feature) [2]. Phương pháp dựa trên các đặc điểm cục bộ đã được chứng minh là ưu việt hơn khi làm việc trong các điều kiện không có kiểm sốt và có thể nói rằng lịch sử phát triển của nhận dạng mặt (A

</div>Trang 17<div class="page_container" data-page="17">

never ending story) là sự phát triển của các phương pháp trích chọn đặc trưng (feature extractrion methods) được sử dụng trong các hệ thống dựa trên feature based.

Các ứng dụng cụ thể của nhận dạng mặt dựa trên 2 mơ hình nhận dạng: identification (xác định danh tính, bài tốn 1 N), và verification (xác thực danh tính, bài tốn 1- -1). Trong bài toán identification, ta cần xác định danh tính của ảnh kiểm tra, còn trong bài toán verification ta cần xác định 2 ảnh có cùng thuộc về một người hay khơng [3].

Nhận dạng khuôn mặt (Face Recognition) là một phương pháp sinh trắc để xác định hoặc xác minh một cá nhân nào đó bằng cách so sánh dữ liệu hình ảnh chụp trực tiếp hoặc hình ảnh kỹ thuật số với bản ghi được lưu trữ cho người đó.Nó được xem là một lĩnh vực nghiên cứu của ngành Biometrics (tương tự như nhận dạng vân tay – Fingerprint Recognition, hay nhận dạng mống mắt – Iris Recognition). Xét về nguyên tắc chung, nhận dạng khn mặt có sự tương đồng rất lớn với nhận dạng vân tay và nhận dạng mống mắt, tuy nhiên sự khác biệt nằm ở bước trích chọn đặt trưng (feature extraction) của mỗi lĩnh vực [4].

Trong khi nhận dạng vân tay và mống mắt đã đạt tới độ chín, tức là có thể áp dụng trên thực tế một cách rộng rãi thì nhận dạng khn mặt người vẫn cịn nhiều thách thức và vẫn là một lĩnh vực nghiên cứu thú vị với nhiều người.So với nhận dạng vân tay và mống mắt, nhận dạng khn mặt có nguồn dữ liệu phong phú hơn (chúng ta có thể nhìn thấy mặt người ở bất cứ tấm ảnh, video clip nào liên quan tới con người trên mạng) và ít địi hỏi sự tương tác có kiểm sốt hơn (để thực hiện nhận dạng vân tay hay mống mắt, dữ liệu input lấy từ con người đòi hỏi có sự hợp tác trong mơi trường có kiểm sốt).

Các hệ thống nhận dạng khn mặt thường được sử dụng cho các mục đích an ninh như kiểm sốt an ninh tại tịa nhà, sân bay, máy ATM, tra cứu thông tin của tội phạm, phát hiện tội phạm ở nơi công cộng, ...và ngày càng được ứng dụng rộng rãi trong cuộc sống.

Bên cạnh những thành cơng đã được ghi nhận thì nhận dạng khn mặt cũng cịn gặp nhiều khó khăn như về độ sáng, hướng nghiêng, kích thước hình ảnh, diện mạo, biểu hiện cảm xúc của khuôn mặt hay ảnh hưởng của tham số môi trường.

Để xây dựng một hệ thống nhận dạng khn mặt có đầu vào của hệ thống là một hình ảnh kỹ thuật số hay một khung hình video từ một nguồn video. Đầu ra là xác định hoặc xác minh người ở trong bức hình hoặc trong video đó là ai. Hướng tới mục tiêu này chúng ta

</div>Trang 18<div class="page_container" data-page="18">

thường chia thủ tục nhận dạng khuôn mặt gồm ba bước: Phát hiện khn mặt, trích rút đặc trưng và nhận dạng khuôn mặt.

Phát hiện khuôn mặt (Face Detection): Chức năng chính của bước này là phát hiện ra khn mặt xem nó có xuất hiện ở trong một bức hình hay một đoạn video hay khơng? Tỉ lệ phát hiện ra khuôn mặt phụ thuộc nhiều vào điều kiện về độ sáng, hướng khuôn mặt, biểu hiện cảm xúc trên khuôn mặt hay các yếu tố môi trường khác. Để hệ thống nhận dạng hoạt động đạt hiệu quả cao thì hình ảnh khn mặt sau khi được phát hiện cần chuẩn hóa về kích thước, ánh sáng.

Trích rút đặc trưng (Feature Extraction): Sau khi phát hiện ra khuôn mặt trong bức ảnh, chúng ta tiến hành trích rút những đặc trưng của khuôn mặt. Bước này trích xuất ra một vector đặc trưng đại diện cho một khn mặt. Nó phải đảm bảo được tính duy nhất của một khn mặt [5].

Nhận dạng khn mặt (Face Recognition): Với hình ảnh đầu vào sau khi phát hiện ra khn mặt, trích rút các đặc trưng của khuôn mặt và đem so sánh các đặc trưng này với cơ sở dữ liệu khn mặt.

Bài tốn nhận dạng khn mặt được ứng dụng nhiều trong các lĩnh vực đời sống đặc biệt ở những lĩnh vực công nghệ cao, yêu cầu về an ninh, bảo mật. Do đó để hệ thống nhận dạng khuôn mặt hoạt động mạnh mẽ với tốc độ và độ tin cậy thì có rất nhiều các phương pháp về nhận dạng khuôn mặt được đưa ra. Các phương pháp có thể được phân loại theo các tiêu chí khác nhau như nhận dạng với dữ liệu ảnh đầu vào là ảnh tĩnh 2D (Elastic Bunch Graph, Active Appearance Model). Phương pháp này là phổ biến nhất và tương lai sẽ là 3D (3D Morphable Model).

Tuy nhiên trên thực tế người ta hay chia phương pháp nhận dạng khuôn mặt ra thành 2 loại:

• Nhận dạng dựa trên các đặc trưng của các phần tử trên khuôn mặt (Feature Base Face Recognition)

• Nhận dạng dựa trên xét tổng thể tồn khn mặt (Appearance Based Face Recognition).

</div>Trang 19<div class="page_container" data-page="19">

1.2. Công nghệ nhận diện khuôn mặt

Công nghệ nhân diện khuôn mặt (Facial Recognition Technology) hiện là một công nghệ đang được sử dụng khá phổ biến tại các quốc gia phát triển. Cơng nghệ này có khả năng xác định hoặc xác nhận một người từ hình ảnh kỹ thuật số được lấy mẫu trước đó hoặc từ một khung hình trong một nguồn video khác. Và hiện nay, tại thị trường Việt Nam, công nghệ này đã dần dần được sử dụng tại một số hệ thống cửa hàng, khách sạn - resort. Công nghệ Nhận dạng khn mặt là một ứng dụng máy tính tự động xác định hoặc nhận dạng một người nào đó từ một bức hình ảnh kỹ thuật số hoặc một khung hình video từ một nguồn video. Một trong những cách để thực hiện điều này là so sánh các đặc điểm khuôn mặt chọn trước từ hình ảnh và một cơ sở dữ liệu về khuôn mặt. Hệ thống này thường được sử dụng trong các hệ thống an ninh và có thể được so sánh với các dạng sinh trắc học khác như các hệ thống nhận dạng vân tay hay trịng mắt như nhiều người có thể biết. Nhận dạng khuôn mặt hiện giờ đăng là xu thế phát triển tất yếu của cuộc sống, nhận thấy tiềm năng lớn Futech cùng đội ngũ đã ứng dụng cơng nghệ này vào các giải pháp của mình để nâng cao hiệu quả và đáp ứng tốt hơn nhu cầu từ người sử dụng.

Hình 1. 1 Kiểm soát theo thời gian thực (real-time)

</div>Trang 20<div class="page_container" data-page="20">

1.3. Thực trạng và phương pháp của hệ thống nhận dạng khn mặt

1.3.1 Quy trình của hệ thống nhận dạng khuôn mặt

1.3.2 Phát hiện khuôn mặt (face detection)

Phát hiện khn mặt là q trình xác định vị trí khu vực khn mặt trong hình ảnh và sẽ lấy ra tất cả các khn mặt trong một hình ảnh.

Tiền xử lý ảnh (preprocessing): Bước này nhằm mục đích lọc nhiễu, nâng cao chất

lượng ảnh, trong bước này bao gồm các bước : Căn chỉnh ảnh, chuẩn hóa ánh sáng

Trích rút đặc trưng ( feature extraction): Ở bước này một phương pháp trích chọn đặc điểm như: mẫu nhị phân cục bộ – LBP (hay Gabor wavelets, Gradient, Discrete Cosine Transform …) sẽ được sử dụng với ảnh mặt để trích xuất các thơng tin đặc trưng cho ảnh,kết quả là mỗi ảnh sẽ được biểu diễn dưới dạng một vector.đề tài nhóm chọn chủ yếu trình bày về

phương pháp Local Binary Pattern mục

Nhận dạng/Phân lớp: Bước nhận dạng (recognition) hay phân lớp (classification), tức là xác định danh tính (identity) hay nhãn (label) của ảnh – đó là ảnh của ai.

</div>Trang 21<div class="page_container" data-page="21">

1.4 Một số phương pháp nhận dạng khuôn mặt

Phát hiện mặt người là bài toán cơ bản được xây dựng từ nhiều năm nay, có nhiều phương pháp được đưa ra như sử dụng template matching, neuron network…Cho tới nay bài toán này hầu như được giải quyết dựa trên phương pháp sử dụng các đặc trưng haar like. Phương pháp này được cho là đơn giản và kết quả phát hiện là tương đối cao, lên tới 98%, các hãng sản xuất máy ảnh như Canon, Samsung… cũng đã tích hợp nó vào trong các sản phẩm của mình.

1.4.1 Các đặc trưng Haar-Like: Các đặc trưng Haar Like là những hình chữ nhật được phân -thành các vùng khác nhau như hình:

Đặc trưng do Viola và Jones công bố gồm 4 đặc trưng cơ bản để xác định khuôn mặt người. Mỗi đặc trưng Haar Like là sự kết hợp của hai hay ba hình chữ nhật -trắng hay đen như trong hình sau:

Để sử dụng các đặc trưng này vào việc xác định khuôn mặt người, 4 đặc trưng Haar-Like cơ bản được mở rộng ra và được chia làm 3 tập đặc trưng như sau:

Đặc trưng cạnh(edge feature)

</div>Trang 22<div class="page_container" data-page="22">

Đặc trưng đường(line feature)

Đặc trưng xung quanh tâm(center-surround features)

Dùng các đặc trưng trên, ta có thể tính được các giá trị của đặc trưng Haar-Like là sự chênh lệch giữa tổng của các pixel của vùng đen và vùng trắng như trong công thức sau:

( ) ( )

Viola và Joines đưa ra một khái niệm gọi là Integral Image, là một mảng 2 chiều với kích thước bằng với kích thước của ảnh cần tính đặc trưng Haar Like, với mỗi -phần tử của mảng này được tính bằng cách tính tổng của điểm ảnh phía trên (dịng-1) và bên trái (cột 1) của nó.

-Cơng thức tính Intergral Image

( ) ∑ ( )

Sau khi tính được Integral Image, việc tính tổng các giá trị mức xám của một vùng bất kỳ nào đó trên ảnh thực hiện rất đơn giản theo cách sau:

Giả sử ta cần tính tổng giá trị mức xám của vùng D như hình dưới, ta có thể tính được như sau:

D = A + B + C + D - (A+B) - (A+C) + A

Với A + B + C + D chính là giá trị tại điểm P4 trên Integral Image, tương tự như vậy A+B là giá trị tại điểm P2, A+C là giá trị tại điểm P3, và A là giá trị tại điểm P1. Vậy ta có thể viết lại biểu thức tính D ở trên như sau:

</div>Trang 23<div class="page_container" data-page="23">

AdaBoost là một bộ phân loại mạnh phi tuyến phức dựa trên hướng tiếp cận boosting được Freund và Schapire đưa ra vào năm 1995. Adaboost cũng hoạt động trên nguyên tắc kết hợp tuyến tính các weak classifiers để hình thành một trong các classifiers.

Viola và Jones dùng AdaBoost kết hợp các bộ phân loại yếu sử dụng các đặc trưng Haar-like theo mơ hình phân tầng (cascade) như sau:

Hình 1. 4 Mơ hình phân tầng Cascade Trong đó, là các bộ phân loại yếu, được biểu diễn như sau:

{ ( ) Với:

</div>Trang 24<div class="page_container" data-page="24">

Với: là hệ số chuẩn hóa cho các bộ phân loại yếu

Đây là hình ảnh minh họa việc kết hợp các bộ phân loại yếu thành bộ phân loại mạnh

1.4.2 Dựa trên tri thức

Trong hướng tiếp cận này, các luật sẽ phụ thuộc rất lớn vào tri thức của những tác giả nghiên cứu về bài tốn xác định khn mặt người. Đây là hướng tiếp cận dạng top-down. Dễ dàng xây dựng các luật cơ bản để mô tả các đặc trưng của khuôn mặt và các quan hệ tương ứng. Ví dụ, một khn mặt thường có hai mắt đối xứng nhau qua trục thẳng đứng ở giữa khuôn mặt và có một mũi, một miệng. Các quan hệ của các đặc trưng có thể được mơ tả như quan hệ về khoảng cách và vị trí. Thơng thường sẽ trích đặc trưng của khn mặt trước tiên để có được các ứng viên, sau đó các ứng viên này sẽ được xác định thông qua các luật để biết ứng viên nào là khuôn mặt và ứng viên nào không phải khuôn mặt. Thường áp dụng quá trình xác định để giảm số lượng xác định sai.

1.4.3 Dựa trên so khớp mẫu

Trong so khớp mẫu, các mẫu chuẩn của khuôn mặt (thường là khuôn mặt được chụp thẳng) sẽ được xác định trước hoặc xác định các tham số thông qua một hàm. Từ một ảnh đưa vào, tính các giá trị tương quan so với các mẫu chuẩn về đường viền khuôn mặt, mắt, mũi và miệng. Thông qua các giá trị tương quan này mà các tác giả quyết định có hay khơng có tồn tại khn mặt trong ảnh. Hướng tiếp cận này có lợi thế là rất dễ cài

</div>Trang 25<div class="page_container" data-page="25">

đặt, nhưng khơng hiệu quả khi tỷ lệ, tư thế, và hình dáng thay đổi. Nhiều độ phân giải, đa tỷ lệ, các mẫu con, và các mẫu biến dạng được xem xét thành bất biến về tỷ lệ và hình dáng.

1.4.4 Dựa trên diện mạo

Trái ngược với các phưong pháp so khớp mẫu với các mẫu đã được định nghĩa trước bởi những chuyên gia, các mẫu trong hướng tiếp cận này được học từ các ảnh mẫu. Một các tổng quát, các phương pháp theo hướng tiếp cận này áp dụng các kỹ thuật theo hướng xác suất thống kê và máy học để tìm những đặc tính liên quan của khn mặt và khơng phải là khn mặt. Các đặc tính đã được học ở trong hình thái các mơ hình phân bố hay các hàm biệt số nên dùng có thể dùng các đặc tính này để xác định khn mặt người. Đồng thời, bài toán giảm số chiều thường được quan tâm để tăng hiệu quả tính tốn cũng như hiệu quả xác định.

1.4.5 Dựa trên đặc trưng lõm

Năm 1983, James L. Crowley đã đưa ra khái niệm ridge và peak. Ridge là các điểm lồi trên ảnh. Tập các điểm ridge trên ảnh sẽ tạo thành những đường xương sống và các đường này sẽ tạo thành các chùm tia gọi là peak (chùm). James L. Crowley sử dụng phép hiệu của lọc Low Pass để rút ra các điểm ridge (lồi) trên ảnh, và sau đó một thuật tốn duyệt để kết chúng lại với nhau thành các đặc trưng ridge và peak. Tiếp sau đó, một số các phương pháp được đề xuất để rút trích các thơng tin về ridge và valley (lõm). Hầu hết các phương pháp này dùng một bộ lọc để tăng cường thông tin về cạnh trên ảnh sau đó dị tìm quỹ tích các điểm cực trị. Quỹ tích các điểm cực trị này được xem là các đặc trưng lồi và lõm. Trong đặc trưng lồi và lõm được dị tìm trên nhiều độ phân giải khác nhau, cho kết quả đáng kể. Tuy nhiên, chất lượng của các đặc trưng lồi lõm này còn phụ thuộc khá nhiều vào điều kiện chiếu sáng cũng như các mức phân giải được lựa chọn trước. Để giải quyết sự phụ thuộc này, Lindeberg đã đề xuất một phương pháp tự động chọn độ phân giải tốt nhất. Gần đây Hải Trần đưa ra một cách tiếp cận sử dụng Laplacian để tăng cường thông tin cạnh sau đó dị tìm ridge và peak dưới nhiều mức khác nhau. Trong hướng tiếp cận này, các đặc trưng ridge và peak được biểu diễn dưới dạng các đồ thị quan hệ hoặc các cây cấp bậc với các tầng là các ridge và peak được dị tìm tại các mức khác nhau.

</div>Trang 26<div class="page_container" data-page="26">

1.5. Tổng quan về bài toán

Nhận dạng mặt người (Face recognition) được nghiên cứu từ nhưng năm 1980, là một lĩnh vực nghiên cứu của ngành thị giác máy tính (Computer Vision), và cũng được xem là một lĩnh vực nghiên cứu của ngành sinh trắc học (Biometrics) tương tự như nhận dạng vân tay -8 Fingerprint recognition, hay nhận dạng mống mắt Iris recognition. Trong khi nhận - dạng vân tay và mống mắt có thể áp dụng trên thực tế một cách rộng rãi thì nhận dạng mặt người vẫn còn nhiều thách thức. So với nhận dạng vân tay và mống mắt, nhận dạng mặt có nguồn dữ liệu phong phú hơn và ít địi hỏi sự tương tác có kiểm sốt hơn.

Bài tốn nhận dạng mặt người cịn nhiều thách thức nên hàng năm trong & ngoài nước vẫn có nhiều nghiên cứu về các phương pháp nhận dạng mặt người. Để thử nghiệm phương pháp chúng ta cần có một cơ sở dữ liệu ảnh mẫu. Có ba cơ sở dữ liệu ảnh mẫu phổ biến là: Cơ sở dữ liệu AT&T, Cơ sở dữ liệu Yale A, Cơ sở dữ liệu Yale B Bài tốn nhận dạng khn mặt có thể áp dụng rộng rãi trong nhiều ứng dụng thực tế khác nhau.

Trong đề tài này, tác giả tập trung vào bài tốn nhận dạng bằng mống mắt sử dụng ngơn ngữ lập trình Python. Do các khó khăn của bài tốn nhận dạng khn mặt như: Tư thế góc chụp, sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt, sự biểu cảm của khuôn mặt, sự che khuất, hướng của ảnh, điều kiện của ảnh...

nh được xét là ảnh số, nghĩa là ảnh mặt người được chụp từ các thiết bị như máy ảnh số,camera,….Không xem xét các ảnh mặt người nhân tạo như vẽ, điêu khắc …

1.6 Kết luận chương 1

Trong chương 1, tác giả đã hân tích, đánh giá những vấn đề còn hạn chế, tồn tại của p các cơng trình nghiên cứu trong và ngồi nước, một số phương pháp nhận diện khuôn mặt. Từ đó đã nêu được bài tốn đặt ra và hướng giải quyết ở các chương tiếp theo.

</div>Trang 27<div class="page_container" data-page="27">

CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP VÀ THUẬT TOÁN NHẬN DẠNG Trong chương này, tác giả sẽ trình bày về những thuật toán dùng để giải quyết bài

toán đã nêu ra ở chương 1 và làm tiền đề cho chương 3.

2.1 Thuật toán Viola-Jones

Thuật toán Viola-Jones lần đầu tiên được xuất bản vào năm 2001 bởi Paul Viola và Michael Jones trong bài báo năm 2001 của họ, Rapid Object Detection using a Boosted Cascade of Simple Features, bài báo này đã trở thành một trong những bài báo được trích dẫn nhiều nhất trong tài liệu về computer vision. Trong bài báo này, Viola và Jones đề xuất một thuật tốn có khả năng phát hiện các vật thể trong hình ảnh, bất kể vị trí và tỷ lệ của chúng trong một hình ảnh. Hơn nữa, thuật tốn này có thể chạy trong thời gian thực, giúp phát hiện các đối tượng trong video stream.

Cụ thể, Viola và Jones tập trung vào việc phát hiện khn mặt trong ảnh, nhưng thuật tốn này cũng có thể được sử dụng để huấn luyện máy dị tìm các vật thể tùy ý, như xe hơi, tòa nhà, dụng cụ nhà bếp và thậm chí là một trái chuối.

Mặc dù khung Viola Jones chắc chắn đã mở ra cánh cửa để phát hiện đối tượng, nhưng giờ -đây nó đã vượt xa các phương pháp khác, chẳng hạn như sử dụng Histogram of Oriented Gradients (HOG) + Linear SVM và Deep Learning.

</div>Trang 28<div class="page_container" data-page="28">

2.2 One-shot learning

One-shot learning là thuật toán học có giám sát mà mỗi một người chỉ cần 1 vài, rất ít hoặc thậm chí chỉ 1 bức ảnh duy nhất (để khỏi tạo ra nhiều biến thể).

Từ đầu vào là bức ảnh của một người, chúng ta sử dụng một kiến trúc thuật toán CNN đơn giản để dự báo người đó là ai.

Tuy nhiên nhược điểm của phương pháp này là chúng ta phải huấn luyện lại thuật toán thường xuyên khi xuất hiện thêm một người mới vì shape của output thay đổi tăng lên 1. Rõ ràng là không tốt đối với các hệ thống nhận diện khuôn mặt của một công ty vì số lượng người ln biến động theo thời gian.

2.3 Learning similarity

Phương pháp này dựa trên một phép đo khoảng cách giữa 2 bức ảnh, thông thường là các norm chuẩn hoặc sao cho nếu 2 bức ảnh thuộc cùng một người thì khoảng cách là nhỏ nhất và nếu khơng thuộc thì khoảng cách sẽ lớn hơn.

{ ( ) ( )

Hình 2. 2 Phương pháp learning similarity.

</div>Trang 29<div class="page_container" data-page="29">

Thay vì dự báo một phân phối xác suất để tìm ra nhãn phù hợp nhất với ảnh đầu vào. Thuật toán sẽ so sánh khoảng cách giữa ảnh đầu vào (bên phải) với tồn bộ các ảnh cịn lại (bên trái). Ta cần chọn một ngưỡng threshold để quyết định ảnh là giống hoặc khác.

Giả sử ngưỡng threshold là 0.5. Trong các bức ảnh bên trái thì bức ảnh ở giữa có khoảng cách với ảnh bên phải nhỏ hơn 0.5. Do đó nó được dự báo cùng một người với ảnh bên phải. Learning similarity có thể trả ra nhiều hơn một ảnh là cùng loại với ảnh đầu vào tùy theo ngưỡng threshold. Ngồi ra phương pháp này khơng bị phụ thuộc vào số lượng classes. Do đó khơng cần phải huấn luyện lại khi xuất hiện class mới.Điểm mấu chốt là cần xây dựng được một model encoding đủ tốt để chiếu các bức ảnh lên một không gian eucledean n chiều. Sau đó sử dụng khoảng cách để quyết định nhãn của chúng.

Như vậy learning similarity có ưu điểm hơn so với one shot learning khi không phải huấn -luyện lại model khi mà vẫn tìm ra được ảnh tương đồng.

2.4 Siam network

Những kiến trúc mạng mà khi đưa vào 2 bức ảnh và mơ hình sẽ trả lời chúng thuộc về cùng 1 người hay không được gọi chung là Siam network. Siam network được giới thiệu đầu tiên bởi DeepFace: Closing the Gap to Human-Level - Yaniv Taigman. elt.

Kiến trúc của Siam network dựa trên base network là một Convolutional neural network đã được loại bỏ output lay có tác dụng encoding ảnh thành véc tơ embedding. Đầu vào của er mạng siam network là 2 bức ảnh bất kì được lựa chọn ngẫu nhiên từ dữ liệu ảnh. Output của Siam network là 2 véc tơ tương ứng với biểu diễn của 2 ảnh input. Sau đó chúng ta đưa 2 véc tơ vào hàm loss function để đo lường sự khác biệt giữa chúng. Thông thường hàm loss function là một hàm norm chuẩn bậc 2.

</div>