Tải bản đầy đủ (.pdf) (78 trang)

Nghiên cứu ứng dụng mô hình faster r cnn trong nhận diện ảnh để điểm danh sinh viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.66 MB, 78 trang )

I HỌC
Ƣ

G

G

I HỌC Ƣ H

-------------------

BÙI HỊ HU H

NGHIÊ CỨU Ứ G DỤ G

Ơ HÌ H FA

O G HẬ DIỆ Ả H Ể IỂ

UẬ V

H C

HỆ HỐ G HÔ G I

ng - ăm 2023

E R-CNN

DA H I H VIÊ



I HỌC
Ƣ

G

G

I HỌC Ƣ H

-------------------

BÙI HỊ HU H

GHIÊ CỨU Ứ G DỤ G

Ơ HÌ H FA

O G HẬ DIỆ Ả H Ể IỂ

ã số: 84.80.104

H C

gƣời hƣớng dẫn khoa học: TS. VŨ HỊ

ng - ăm 2023

-CNN


DA H I H VIÊ

Chuyên ngành: Hệ thống thông tin

UẬ V

E






v

MỤC LỤC
LỜI CẢM ƠN ............................................................................................................. i
LỜI CAM ĐOAN ...................................................................................................... ii
TÓM TẮT ................................................................................................................. iii
MỤC LỤC ...................................................................................................................v
DANH MỤC CÁC CHỮ VIẾT TẮT ...................................................................... vii
DANH MỤC BẢNG ............................................................................................... viii
DANH MỤC CÁC HÌNH ......................................................................................... ix
Ở ẦU ....................................................................................................................1
1. Lí do chọn đề tài .............................................................................................1
2. Mục tiêu và nhiệm vụ .....................................................................................2
3. Đối tƣợng và phạm vi nghiên cứu ..................................................................2
4. Phƣơng pháp nghiên cứu ................................................................................3
5. Ý nghĩa khoa học và thực tiễn của đề tài .......................................................3
6. Kết quả đạt đƣợc.............................................................................................3

7. Cấu trúc luận văn ............................................................................................3
CHƢƠ G 1. Ổ G QUA VỀ HẬ DIỆ KHUÔ
Ặ CO
GƢ I ...5
1.1. ổng quan về phƣơng pháp machine learning v deep learning ..................5
1.2. B i tốn nhận diện khn mặt ..........................................................................7
1.2.1. Lịch sử hình thành và phát triển ...............................................................7
1.2.2. Mơ tả bài tốn nhận diện khn mặt .....................................................10
1.2.3. Hệ thống nhận diện khuôn mặt...............................................................10
1.3. ột số phƣơng pháp nhận diện khuôn mặt .................................................12
1.3.1. Phƣơng pháp phân tích thành phần chính (PCA) ...................................12
1.3.2. Phƣơng pháp mạng neural ......................................................................15
1.3.3. Phƣơng pháp Support Vector Machine (SVM) ......................................16
Ổ G KẾ CHƢƠ G 1 .......................................................................................17
CHƢƠ G 2. Ứ G DỤ G HƢƠ G HÁ FA E
C
O G HẬ
DIỆ KH
Ặ ..............................................................................................18
2.1. Phƣơng pháp Faster -CNN ...........................................................................18
2.1.1. Thuật tốn CNN - convolutional neural network ...................................18
2.1.2. Thuật toán R-CNN .................................................................................25
2.1.3. Thuật toán Fast R-CNN ..........................................................................27
2.1.4. Thuật toán Faster R-CNN.......................................................................29


vi
2.2. hƣơng pháp nhận diện khuôn mặt ...............................................................32
Ổ G KẾ CHƢƠ G 2 .......................................................................................35
CHƢƠ G 3. HỰC GHIỆ

XÂY DỰ G Ứ G DỤ G HẬ DIỆ
KH
Ặ .........................................................................................................36
3.1. ơ tả b i toán điểm danh sinh viên ...............................................................36
3.2. Dữ liệu thử nghiệm b i toán ............................................................................36
3.3. Kết quả thử nghiệm .........................................................................................37
3.4. ánh giá ............................................................................................................41
Ổ G KẾ CHƢƠ G 3 .......................................................................................50
KẾ
UẬ ..............................................................................................................51
I IỆU HA

KHẢO ......................................................................................52


vii

DANH MỤC CÁC CHỮ VIẾT TẮT
AI

Artificial Intelligence

ML

Machine Learning

DL

Deep Learning


CNN

Convolutional Neural Network

R-CNN

Region-based Convolutional Neural Networks

FAST R-CNN

FASTER R-CNN

Fast Region-based Convolutional Neural
Networks
Faster Region-based Convolutional Neural
Networks

PCA

Principal Component Analysis

SVM

Support Vector Machine


viii

DANH MỤC BẢNG


ố hiệu
bảng
3.1.

Tên bảng
Bảng số liệu thử nghiệm

Trang
42


ix

DANH MỤC CÁC HÌNH
ố hiệu
hình

Tên hình

Trang

1.1.

Mối quan hệ giữa AI,ML,DL

5

1.2.

Những cộc mốc quan trọng của Deep Learning


6

1.3.

Mơ hình bài tốn nhận diện khuôn mặt ngƣời

10

1.4.

Hệ thống nhận diện khuôn mặt

11

1.5.

Hệ thống nhận diện khn mặt cơ bản

11

1.6.

Mơ hình mạng neural của Rowley và cộng sự

16

2.1.

Mơ hình mạng CNN


20

2.2.

Mơ hình R-CNN

25

2.3.

Mơ hình Fast R-CNN

28

2.4.

Mơ hình Faster R-CNN

30

2.5.

68 toạ độ biểu diễn trên khn mặt

33

3.1.

Mơ hình nhận diện khn mặt


36

3.2.

Tập ảnh huấn luyện

37

3.3.

Giao diện mơ phỏng việc huấn luyện ảnh

37

3.4.

Hình ảnh huấn luyện khn mặt

38

3.5.

Hình ảnh huấn luyện khn mặt thành cơng

39

3.6.

Giao diện mô phỏng việc nhận diện khuôn mặt


40

3.7.

Phát hiện vùng khuôn mặt trong ảnh và nhận diện khuôn mặt

41

3.8.

Huấn luyện khuôn mặt không cƣời

42

3.9.

Thử nghiệm nhận diện khuôn mặt cƣời

43

3.10.

Huấn luyện khn mặt khơng đeo kính

44

3.11.

Hình ảnh nhận diện khn mặt khi đeo kính


45

3.12.

Hình ảnh huấn luyện khn mặt chụp chính diện

46

3.13.

Hình ảnh nhận diện khn mặt góc nghiêng

47

3.14.

Huấn luyện khuôn mặt không đeo khẩu trang

47

3.15.

Nhận diện khuôn mặt đeo khẩu trang

48

3.16.

Nhận dạng khn mặt có mơi trƣờng phức tạp


49


1

MỞ ẦU
1. Lí do chọn đề tài
Chúng ta đã biết, công nghiệp 4.0 là xu hƣớng hiện thời trong việc tự động
hóa và trao đổi dữ liệu trong cơng nghệ sản xuất. Xã hội đang ở nền công nghiệp
4.0 ngày nay phần lớn các thiết bị điện tử đều phát triển theo xu hƣớng tự động hóa,
thơng minh, hiểu ý con ngƣời, các thiết bị thông minh phổ biến nhƣ smart phone,
smart watch, smart house, xe tự lái, máy in 3D, công nghệ nano, robot thế hệ mới,...
Để làm đƣợc điều đó các thiết bị cảm biến, các thuật tốn nhận diện ra đời ngày
càng hiện đại hơn, chính xác hơn, chúng có thể nhận biết hoạt động, hình dáng của
con ngƣời và hoạt động theo ý muốn con ngƣời. Thì bài tốn “nhận diện khn mặt
ngƣời” là một trong số đó.
Trí tuệ nhân tạo (AI) đang là xu hƣớng phát triển có nhiều tiềm năng trong
lĩnh vực cơng nghệ thơng tin, nắm giữ vai trị chủ đạo trong dịng chảy công nghệ
hiện đại với nhiều ứng dụng trong mọi lĩnh vực của đời sống xã hội nhƣ trợ lí ảo,
nhà thông minh, xe tự lái, các hệ thống nhận diện,… Nhận diện khuôn mặt là một
lĩnh vực nghiên cứu của ngành thị giác máy tính, và cũng đƣợc xem là một lĩnh
vực nghiên cứu của ngành sinh trắc học tƣơng tự nhƣ nhận diện vân tay, hay nhận
diện mống mắt. Công nghệ nhận diện khuôn mặt mang lại nhiều hữu ích và thiết
thực trong cuộc sống hằng ngày nhƣ phần mềm mở khố điện thoại, hệ thống
chấm cơng khơng chạm, các hệ thống giám sát an ninh … Ở Việt Nam các ứng
dụng về xử lý ảnh bƣớc đầu đã đƣợc triển khai trên một số lĩnh vực: nhận diện biển
số xe, nhận diện khn mặt… Tuy nhiên nhìn chung các ứng dụng đƣợc triển khai
trên thực tế là q ít. Cùng với xu hƣớng ứng dụng cơng nghệ thông tin trong các
công việc, lĩnh vực này sẽ phát triển mạnh mẽ trong tƣơng lai.

Hiện nay tình trạng trốn học, bỏ tiết học, không thực hiện đầy đủ nội quy
tham gia đầy đủ số tiết học trong các trƣờng học nói chung và trƣờng Trung học
phổ thơng Ngũ Hành Sơn nói riêng, việc quản lý điểm danh cịn nhiều khó khăn,
quản lý điểm danh cịn nhiều thiếu sót cũng nhƣ là lƣu trữ cịn chƣa chặt chẽ.
Cơng tác quản lý điểm danh học sinh cịn theo hình thức truyền thống, thủ cơng.
Có nhiều phƣơng pháp để xây dựng hệ thống nhận diện khuôn mặt, trong đề tài này,


2
tôi chọn nghiên cứu về nhận diện khuôn mặt bằng mơ hình faster R-CNN kết hợp
thuật tốn Facial Landmarks. Tơi cũng đã phân tích phƣơng pháp đề xuất với các
phƣơng pháp khác. Trên cơ sở đó, Tơi quyết định chọn đề tài “Nghiên cứu ứng dụng
mơ hình faster R-CNN trong nhận diện ảnh để điểm danh sinh viên” để làm luận
văn tốt nghiệp. Hƣớng phát triển của mơ hình là ứng dụng điểm danh sinh viên bằng
nhận diện khuôn mặt giúp cho việc điểm danh trở nên nhanh chóng và dễ dàng hơn,
khắc phục những khuyết điểm, hạn chế của việc điểm danh truyền thống.
2. Mục tiêu và nhiệm vụ
2.1.
-

ục tiêu

Đề xuất giải pháp nhận diện khuôn mặt tại Trường Trung học phổ thông
Ngũ Hành Sơn..

-

Xây dựng cơ sở dữ liệu phục vụ cho việc nhận diện khn mặt.

-


Tìm hiểu bài tốn nhận diện khn mặt, nghiên cứu phƣơng pháp nhận
diện khn mặt, lựa chọn phƣơng pháp cho bài tốn nhận diện.

-

Xây dựng đƣợc hệ thống nhận diện khuôn mặt.

2.2. hiệm vụ
Để đạt đƣợc mục trên, cần phải thực hiện các nhiệm vụ sau:
-

Tìm hiểu lý thuyết về Machine Learning, Deep Learning

-

Xây dựng cơ sở dữ liệu tại đơn vị phục vụ cho việc nhận diện khuôn mặt.

-

Huấn luyện và xây dựng chƣơng trình thử nghiệm bài tốn ứng dụng.

-

Xây dựng hệ thống nhận diện khuôn mặt bằng phƣơng pháp Faster RCNN.

3. ối tƣợng và phạm vi nghiên cứu
3.1. ối tƣợng nghiên cứu
- Các phƣơng pháp nhận diện khuôn mặt và mơ hình Faster R-CNN trong
nhận diện khn mặt.

3.2. hạm vi nghiên cứu
- Hình ảnh khn mặt một số học sinh trong lớp 11/1 trƣờng Trung học phố thông
Ngũ Hành Sơn.


3
4. hƣơng pháp nghiên cứu
4.1. ghiên cứu lý thuyết
- Tìm hiểu lý thuyết Machine Learning (học máy) và Deep Learning (học sâu).
- Tìm hiểu lý thuyết về thuật tốn CNN và mơ hình Faster R-CNN .
- Một số tài liệu liên quan.
4.2. ghiên cứu thực nghiệm
- Dựa trên lý thuyết đã nghiên cứu, tiến hành triển khai với các công cụ đã có
kết hợp với một số kỹ thuật thống kê để đánh giá việc sử dụng mơ hình Faster RCNN cho bài toán thực nghiệm.
5. Ý nghĩa khoa học và thực tiễn của đề tài
5.1. Về mặt khoa học
- Nghiên cứu, tìm hiểu phƣơng pháp nhận diện khn mặt để ứng dụng vào thực tế.
- Cơng trình nghiên cứu về đề tài này góp phần khảo sát và nghiên cứu về
Deep Learning.
5.2. Về mặt thực tiễn
- Kết quả nghiên cứu của đề tài góp phần mở rộng lĩnh vực ứng dụng phƣơng
pháp nhận diện khuôn mặt học sinh đến lớp học, từ việc nhận diện đƣợc khn mặt
có thể xác định thông tin học sinh và điểm danh học sinh…
6. Kết quả đạt đƣợc
1. Lý thuyết
- Hiểu đƣợc các phƣơng pháp nhận diện khuôn mặt.
2. Thực tiễn
- Ứng dụng phƣơng pháp nhận diện khuôn mặt để nhận diện đƣợc khuôn mặt
của các học sinh trong lớp 11/1 trƣờng Trung học phổ thơng Ngũ Hành Sơn.
7. Cấu trúc luận văn

Ngồi phần mở đầu, kết luận. Luận văn gồm 3 chƣơng
Chương 1: Tổng quan về nhận diện khuôn mặt con người.


4
Chƣơng này nghiên cứu tổng quan về học sâu, học máy, bài tốn nhận diện
khn mặt, một số phƣơng pháp nhận diện khuôn mặt.
Chương 2: Ứng dụng phương pháp Faster R-CNN trong nhận diện khuôn mặt
Giới thiệu về phƣơng pháp Faster R-CNN và phƣơng pháp Facial
Landmarks. Kết hợp hai phƣơng pháp này để áp dụng cho bài toán phát hiện,
nhận diện khuôn mặt.
Chương 3: Thực nghiệm và đánh giá
Tác giả đã xây dựng bộ dữ liệu thử nghiệm, xây dựng mơ hình nhận diện
khn mặt, huấn luyện đánh giá kết quả đạt đƣợc.


5

CHƢƠ G 1

TỔNG QUAN VỀ NHẬN DIỆN KHUÔN MẶT CO

GƢ I

1.1. Tổng quan về phƣơng pháp machine learning v deep learning
Những năm gần đây, Al - Artificial Intelligence (Trí Tuệ Nhân Tạo), và cụ thể
hơn là Machine Learning (Máy Học) nổi lên nhƣ một minh chứng của cuộc cách
mạng công nghiệp lần thứ tƣ (1- động cơ hơi nƣớc, 2 – năng lƣợng diện, 3 - công
nghệ thông tin). AI hiện diễn trong mọi lĩnh vực của đời sống con ngƣời, từ kinh tế,
giáo dục. y khoa cho đến những cơng việc nhà, giải trí hay thậm chỉ là trong quân

sự. Những ứng dụng nổi bật trong việc phát triển AI đến từ nhiều lĩnh vực để giải
quyết nhiều vấn đề khác nhau. Nhƣng những đột phá phần nhiều đến từ Deep
Learning (học sâu) - một mảng nhỏ đang mở rộng dần đến từng loại công việc, từ
đơn giản đến phức tạp. Deep Learning đã giúp máy tính thực thi những việc tƣởng
chừng nhƣ không thể vào 15 năm trƣớc phân loại cả ngàn vật thể khác nhau trong
các bức ảnh, tự tạo chú thích cho ảnh, bắt chƣớc giọng nói và chữ viết: của con
ngƣời, giao tiếp với con ngƣời, hay thậm chí cả sáng tác văn, phim ảnh, âm nhạc.

Hình 1.1. Mối quan hệ giữa AI,ML,DL
Chúng ta có thể thấy Deep learning chỉ là một nhánh nhỏ của Machine
Learning. Tuy nhiên trong khoảng 5 năm trở lại đây thì Deep Learning đƣợc
nhắc đến rất nhiều nhƣ một xu hƣớng mới của cuộc cách mạng AI. Có một số lý


6
do nhƣ sau:
+ Bùng nổ dữ liệu: Deep learning khai thác đƣợc Big Data (dữ liệu lớn) cùng
với độ chính xác cao hơn hẳn so với các phƣơng pháp Machine Learning khác trên
tập dữ liệu đặc biệt là đối với ảnh. Cụ thể là năm 2012, Alex Krizhevsky, Ilya
Sutskever và ngƣời hƣớng dẫn là Hinton, submit một model làm bất ngờ những
ngƣời làm việc trong ngành AI, và sau này là cả thế giới khi đạt top-5 error là 16%
trong cuộc thi ILSVRC 2012. Đây là lần đầu tiên một model Artificial Neural
Network (ANN) đạt kết quả state-of-the-art (SOTA).
+ Phần cứng phát triển: Sự xuất hiện của GPU GTX 10 series của NVIDIA ra
mắt năm 2014 với hiệu năng tính tốn cao cũng nhƣ giá thành rẻ có thể tiếp cận với
hầu hết với mọi ngƣời dẫn đến việc nghiên cứu Deep Learning khơng cịn là những
bài tốn chỉ đƣợc nghiên cứu trong các phòng lab đắt tiền của các trƣờng Đại học
danh giá và các cơng ty lớn.[1]

Hình 1.2. Những cộc mốc quan trọng của Deep Learning

Hình trên thể hiện những dấu mốc quan trọng của Deep Learning. Vào
đầu những năm 1940, với sự xuất hiện và phát triển mạnh mẽ của thiết bị bán
dẫn, linh kiện điện tử và máy tính đã đặt những nền móng đầu tiên cho sự xuất


7
hiện của trí tuệ nhân tạo (AI). Tuy nhiên trí tuệ nhân tạo thời gian này vẫn chƣa
thật sự có ứng dụng thực tiễn hoặc thành tựu nổi bật nào. Khoảng thời gian từ
năm 1960 đến 2000, giới chuyên gia và các nhà nghiên cứu đã phải trải qua hai
mùa đông AI (AI Winter), do sự bế tắc và các gián đoạn nghiên cứu xảy ra trong
khoảng thời gian này.[1]
Sự đột phá bắt đầu từ năm 2006, khi mà Hinton [1] giới thiệu ý tƣởng về tiền
huấn luyện không giám sát (unsupervised pre-training) thông qua deep belief nets
(DBN). Điểm nổi bật trong bài báo này là đã tạo ra đƣợc một nơron nhân tạo với
nhiều lớp ẩn (hidden layer) thay vì chỉ một lớp nhƣ trƣớc đây. Từ thời gian này,
neural networks với nhiều lớp ẩn đƣợc gọi với cái tên là Deep Learning.[1]
Sự phát triển không ngừng của lĩnh vực trí tuệ nhân tạo, máy học và học sâu
cũng chỉ để nhằm vào mục đích duy nhất, đó là phục vụ cho nhu cầu lợi ích và cuộc
sống của con ngƣời. Nhƣ giúp thiết bị điện tử nhận diện trắc sinh học (vân tay, quét
võng mạc, nhận diện khuôn mặt, …), giúp dự đoán thời tiết, chẩn đoán các loại
bệnh hay dịch các ngôn ngữ khác nhau. Để phục vụ những cơng việc phức tạp,
mn hình vạn trạng của con ngƣời, trí tuệ nhân tạo chia ra làm các lĩnh vực để
chuyên biệt hóa nhƣ Hệ chuyên gia, Cây ngữ nghĩa, Xử lý ngôn ngữ tự nhiên,
Robotics, Quy hoạch, Thị giác máy tính, …
Tuy nhiên, việc nhận diện gƣơng mặt là một vấn đề không hề đơn giản.
Gƣơng mặt mỗi ngƣời đều có những đặc trƣng riêng biệt, điều này đặt ra các thách
thức không nhỏ cho việc huấn luyện mơ hình nhận diện.
1.2. Bài tốn nhận diện khn mặt
1.2.1. Lịch sử hình thành và phát triển
Những ngƣời tiên phong trong tự động nhận diện khuôn mặt bao gồm Woody

Bledsoe, Helen Chan Wolf và Charles Bisson.
Trong năm 1964 và 1965, Bledsoe, cùng với Helen Chan và Charles Bisson,
bắt đầu ý tƣởng sử dụng máy tính để nhận ra khn mặt của con ngƣời. Ơng rất tự
hào về cơng việc này, nhƣng do kinh phí đƣợc cung cấp bởi một cơ quan tình báo
giấu tên mà khơng cho phép cơng khai, rất ít tác phẩm đã đƣợc xuất bản. Với một
cơ sở dữ liệu lớn các hình ảnh và một bức ảnh, vấn đề là phải lựa chọn từ cơ sở dữ
liệu là một tập hợp nhỏ các hồ sơ hình ảnh nhƣ vậy có chứa các hình ảnh ăn khớp
với bức ảnh đƣa ra. Sự thành công của phƣơng pháp này có thể đƣợc đo bằng tỷ lệ


8
danh sách câu trả lời trên số lƣợng các hồ sơ trong cơ sở dữ liệu đã mơ tả những
khó khăn sau đây:
Dự án này đã đƣợc dán nhãn man-machine bởi vì con ngƣời trích xuất tọa độ
của một tập hợp các đặc điểm từ các hình ảnh, sau đó đƣợc máy tính sử dụng để
nhận diện. Sử dụng một máy tính bảng đồ họa, các tốn tử sẽ trích xuất các tọa độ
của các đặc điểm nhƣ tâm của con ngƣơi, các góc bên trong mắt, góc ngồi của mắt,
điểm ... Từ những tọa độ này, một danh sách 20 khoảng cách, nhƣ chiều rộng của
miệng và khoảng cách giữa 2 mắt, từ con ngƣơi đến con ngƣơi sẽ đƣợc tính tốn.
Các tốn tử có thể xử lý khoảng 40 hình ảnh một giờ. Khi xây dựng các cơ sở dữ
liệu, tên của ngƣời trong bức ảnh đã đƣợc gắn liền với danh sách của các khoảng
cách tính tốn và đƣợc lƣu trữ trong máy tính. Trong giai đoạn nhận diện, tập hợp
các khoảng cách đƣợc so sánh với khoảng cách tƣơng ứng cho mỗi bức ảnh, cho ra
một khoảng cách giữa các bức ảnh và các bản ghi cơ sở dữ liệu. Các hồ sơ gần nhất
đƣợc trả về.
Bởi vì khơng chắc rằng bất kỳ hai hình ảnh sẽ khớp nhau khi xoay đầu,
nghiêng hoặc cúi đầu, và tỉ lệ khoảng cách tới máy ảnh, mỗi bộ khoảng cách đƣợc
chuẩn hóa để đại diện cho khn mặt theo hƣớng nhìn từ phía trƣớc. Để thực việc
chuẩn hóa này, chƣơng trình đầu tiên cố gắng để xác định độ nghiêng, xoay đầu, và
cúi đầu. Sau đó, sử dụng các góc độ này, máy tính sẽ xóa những biến dạng này trên

các khoảng cách tính tốn. Để tính tốn các góc, các máy tính phải biết đƣợc dạng
hình học ba chiều của đầu. Vì đầu thực tế là khơng có sẵn, sử dụng một đầu tiêu
chuẩn từ việc đo đạc trên bảy đầu.
Sau đó Bledsoe rời PRI vào năm 1966, công việc này đƣợc tiếp tục tại Viện
nghiên cứu Stanford, chủ yếu bởi Peter Hart. Trong các thí nghiệm thực hiện trên
một cơ sở dữ liệu hơn 2.000 bức ảnh, máy tính ln vƣợt trội so với con ngƣời khi
thể hiện cùng một nhiệm vụ nhận diện.
Đến khoảng năm 1997, hệ thống đƣợc phát triển bởi Christoph von der
Malsburg và các sinh viên sau đại học của trƣờng Đại học Bochum ở Đức và Đại
học Nam California tại Mỹ đã thể hiện vƣợt trội so với hầu hết các hệ thống của
Viện Công nghệ Massachusetts và Đại học Maryland xếp hạng theo sau. Hệ thống
Bochum đƣợc phát triển thông qua tài trợ bởi Phịng Thí Nghiệm Nghiên cứu Qn
đội Hoa Kỳ. Phần mềm này đƣợc bán với cái tên ZN-Face và sử dụng bởi các khách
hàng nhƣ Deutsche Bank và các nhà điều hành sân bay và các địa điểm đông đúc


9
khác. Phần mềm này đủ mạnh mẽ để nhận diện đƣợc gƣơng mặt từ các góc nhìn ít
lý tƣởng hơn. Nó cũng thƣờng xuyên có thể nhận diện đƣợc gƣơng mặt mặc dù có
những trở ngại nhƣ ria mép, râu, thay đổi kiểu tóc và thậm chí đeo kính râm.
Trong khoảng tháng 1 năm 2007, tìm kiếm hình ảnh đã là dựa trên ký tự xung
quanh bức ảnh, ví dụ, đoạn văn kế bên đề cập đến các nội dung hình ảnh. Cơng
nghệ Polar Rose có thể đốn từ một bức ảnh, trong khoảng 1,5 giây, bất kỳ ngƣời
nào sẽ trông nhƣ thế nào trong không gian ba chiều, và khẳng định rằng họ sẽ yêu
cầu ngƣời dùng nhập tên của những ngƣời mà họ nhận ra trong ảnh online để giúp
xây dựng một cơ sở dữ liệu. Identix, một công ty từ Minnesota, đã phát triển một
phần mềm là FaceIt. FaceIt có thể nhận ra khn mặt của một ai đó trong đám đơng
và so sánh nó với cơ sở dữ liệu trên toàn thế giới để nhận diện và đặt tên cho một
khuôn mặt. Phần mềm đƣợc viết để phát hiện nhiều đặc điểm trên khn mặt ngƣời.
Nó có thể phát hiện khoảng cách giữa hai mắt, chiều rộng của mũi, hình dạng của

xƣơng gị má, độ dài của đƣờng viền của hàm dƣới và nhiều đặc điểm khác trên
khn mặt. Nó thực hiện điều này bằng cách đƣa hình ảnh của khn mặt vào một
faceprint, một mã số đại diện cho gƣơng mặt của con ngƣời. Phần mềm nhận diện
khuôn mặt trƣớc kia thƣờng phải dựa trên một hình ảnh 2D với ngƣời cần nhận diện
gần nhƣ phải trực tiếp đối mặt với máy ảnh. Bây giờ, với FaceIt, một hình ảnh 3D
có thể đƣợc so sánh với một hình ảnh 2D bằng cách chọn 3 điểm cụ thể trên tấm
hình 3D và chuyển đổi nó thành một hình ảnh 2D sử dụng một thuật tốn đặc biệt
có thể đƣợc quét qua hầu nhƣ tất cả các cơ sở dữ liệu.
Năm 2006, các thuật toán nhận diện khuôn mặt mới nhất đã đƣợc đánh giá
trong Face Recognition Grand Challenge. Hình ảnh gƣơng mặt, hình ảnh scan
gƣơng mặt 3D và ảnh độ phân giải cao, đƣợc sử dụng trong các bài kiểm tra. Kết
quả cho thấy rằng các thuật tốn mới là chính xác hơn 10 lần so với các thuật tốn
nhận diện khn mặt của năm 2002 và chính xác hơn 100 lần so với các thuật tốn
của năm 1995. Một số thuật tốn đã có thể nhận diện tốt hơn ngƣời tham gia trong
việc nhận diện khn mặt và duy nhất có thể xác định từng ngƣời trong các cặp
song sinh giống hệt nhau.
Các đánh giá và các vấn đề thách thức do Chính phủ Hoa Kỳ tài trợ đã giúp
thúc đẩy 2 vấn đề hiệu năng và cấp phóng đại trong các hệ thống nhận diện khuôn
mặt. Từ năm 1993, tỷ lệ lỗi của hệ thống nhận diện khuôn mặt tự động đã giảm bởi
một yếu tố của 272. Việc giảm áp dụng cho các hệ thống phù hợp với những ngƣời
có hình thẻ đƣợc chụp trong studio hay những nơi chụp hình thẻ. Định luật Moore,


10
nói rằng tỷ lệ lỗi giảm một nửa mỗi hai năm một lần.
Hình ảnh độ phân giải thấp của khn mặt có thể đƣợc tăng cƣờng bằng cách
sử dụng khn mặt ảo giác. Các cải tiến cao hơn trong hình có độ phân giải cao,
máy ảnh megapixel trong vài năm gần đây đã giúp giải quyết vấn đề thiếu độ phân
giải.[5]
1.2.2. Mơ tả bài tốn nhận diện khn mặt

Giả sử có một cơ sở dữ liệu ảnh về các khn mặt của con ngƣời, bài toán
nhận diện là làm sao để khi đưa ảnh khuôn mặt của một người bất kì vào thì máy sẽ
thu nhận mặt, tách đặc trưng trên mặt và nhận diện khuôn mặt của người này trong
cơ sở dữ liệu.

Hình 1.3. Mơ hình bài tốn nhận diện khuôn mặt người
1.2.3. Hệ thống nhận diện khuôn mặt
Hệ thống nhận diện khuôn mặt là một ứng dụng học máy tự động xác định
hoặc nhận diện một ngƣời nào đó từ một bức hình ảnh kỹ thuật số hoặc một khung
hình video từ một nguồn video. Một trong những cách để thực hiện điều này là so
sánh các đặc điểm khn mặt chọn trƣớc từ hình ảnh và một cơ sở dữ liệu
(CSDL) về khuôn mặt.
Hệ thống này thƣờng đƣợc sử dụng trong các hệ thống an ninh và có thể đƣợc
so sánh với các dạng sinh trắc học khác nhƣ các hệ thống nhận diện vân tay hay
tròng mắt. [5]


11

Hình 1.4. Hệ thống nhận diện khn mặt
Hệ thống nhận diện khuôn mặt cơ bản nhƣ sau:
Ảnh

Phát hiên khuôn mặt

Tiền xử lí

Trích xuất đặc trƣng

Nhận diện khn măt

Hình 1.5. Hệ thống nhận diện khuôn mặt cơ bản

 Phát hiện khuôn mặt: Phát hiện khn mặt là bài tốn con nằm trong bài
toán phát hiện vật thể (Object Detection). Phát hiện khn mặt là q trình xác định
vùng hình ảnh chứa khuôn mặt xuất hiện trong ảnh. Đầu vào của hầu hết mọi thuật


12
tốn phát hiện khn mặt là một ảnh. Đầu ra của thuật tốn là vùng ảnh chứa khn
mặt có dạng hình chữ nhật có thể đƣợc biểu diễn bởi 4 điểm (hoặc 2 điểm và chiều
dài, rộng) kèm theo đó là xác suất khn mặt có trong vùng ảnh đó. Các thuật tốn
two stage detection điển hình nhƣ RCNN, Fast-RCNN, Faster-RCNN. Việc gọi là
two-stage là do cách model xử lý để lấy ra đƣợc các vùng có khả năng chứa vật thể
từ bức ảnh.

 Tiền xử lí: Q trình tiền xử lý đối với khuôn mặt nhằm nâng cao chất lƣợng
ảnh, chuẩn hóa dữ liệu, kích thƣớc ảnh. Việc chuẩn hóa này khiến độ lệch giữa 2
điểm ảnh đƣợc giảm xuống làm q trình trích chọn đặc trƣng thêm chính xác.

 Trích chọn đặc trưng: là kỹ thuật sử dụng các thuật tốn để lấy ra những
thơng tin mang những đặc điểm riêng biệt của một ngƣời
Các khâu trong quá trình trích chọn đặc trƣng:
- Đầu vào: Ảnh đã đƣợc chuẩn hóa.
- Đầu ra: Vector đặc trƣng của ảnh đầu vào

 Nhận diện khuôn mặt: Những đặc trƣng sau khi đƣợc trích chọn sẽ đƣa vào
khối nhận diện để phân lớp đối tƣợng.[5]
1.3. Một số phƣơng pháp nhận diện khuôn mặt
1.3.1. hƣơng pháp phân tích th nh phần chính ( CA)
1.3.1.1. óm tắt

Phân tích thành phần chính (Principal Component Analysis – PCA) là kĩ thuật
hữu ích trong các ứng dụng nhận diện mặt và nén ảnh và là một kĩ thuật phổ biến để
tìm mẫu trong các dữ liệu nhiều chiều.
PCA là một thuật toán để đƣợc sử dụng để tạo ra một ảnh mới từ ảnh ban đầu.
Ảnh mới này có kích thƣớc nhỏ hơn rất nhiều so với ảnh đầu vào và vẫn mang
những đặc trƣng cơ bản nhất của ảnh cần nhận diện. PCA không cần quan tâm đến
việc tìm ra các đặc điểm cụ thể của thực thể cần nhận diện và mối quan hệ giữa các
đặc điểm đó. Tất cả các chi tiết đó đều đƣợc thể hiện ở ảnh mới đƣợc tạo ra từ PCA.
Trƣớc khi tìm hiểu về PCA, tơi xin giới thiệu về khái niệm toán học sẽ đƣợc
sử dụng trong PCA là: độ lệch chuẩn (Standard Deviation), phƣơng sai (Variance),
hiệp phƣơng sai (covariance), vecto riêng (eigenvector) và giá trị riêng
(eigenvalue). [7]


13
1.3.1.2.

ột số khái niệm toán học

ộ lệch chuẩn:
Để hiểu độ lệch chuẩn, chúng ta cần một tập dữ liệu. Giả sử ta có tập:
X= [1 2 4 6 12 15 25 45 68 67 65 98]
X là ký hiệu đại diện cho tập số, mỗi số riêng biệt đƣợc ký hiệu Xi. Phần tử
đầu tiên là X1 và n là số lƣợng các phần tử của tập hợp. Khi đó trung bình của
mẫu có cơng thức:
̅=∑
̅ là kí hiệu trung bình mẫu, tuy nhiên trung bình mẫu khơng nói lên đƣợc
nhiều điều ngoại trừ cho ta biết nó là một điểm giữa. Ví dụ với 2 tập dữ liệu [0 8 12
20] và [8 9 11 12]
Có trung bình mẫu bằng nhau nhƣng lại khác khác nhau. Sự khác biệt ở đây

chính là khoảng cách của dữ liệu. Và độ lệch chuẩn là đại lƣợng để đo khoảng cách
này. Ta có thể hiểu độ lệch chuẩn là khoảng cách trung bình từ trung bình mẫu đến
các điểm của dữ liệu. Ta có cơng thức:


S=√

̅̅̅̅̅

hƣơng sai
Phƣơng sai là một đại lƣợng khác dùng để đo khoảng cách dữ liệu. Ta có cơng
thức:
S2 =



̅̅̅̅̅

Dễ thấy phƣơng sai chính là bình phƣơng độ lệch chuẩn.
Hiệp phƣơng sai:
Ta thấy rằng 2 đại lƣợng độ lệch chuẩn và phƣơng sai chỉ sử dụng đƣợc trong
1 chiều. Trong thực tể dữ liệu có thể có rất nhiều chiều. Đối với dữ liệu này, độ lệch
chuẩn và phƣơng sai chỉ tính đƣợc trên từng chiều riêng biệt và ta không thấy đƣợc
mối liên hệ giữa 2 chiều này.
Tƣơng tự phƣơng sai, hiệp phƣơng sai là đại lƣợng đo sự biến thiên giữa 2
chiều. Nếu tính hiệp phƣơng sai giữa 1 chiều với chính nó, ta đƣợc phƣơng sai của


14
chiều đó. Nếu tập dữ liệu có 3 chiều x, y, z ta có thể tính hiệp phƣơng sai của từng

cặp chiều (x,y), (y,z) và (x,z). Cơng thức tính hiệp phƣơng sai tƣơng tự công thức
của phƣơng sai.
Công thức của hiệp phƣơng sai đƣợc triển khai nhƣ sau:
var(X) =

̅̅̅̅



̅̅̅̅

Công thức của hiệp phƣơng sai:
Cov(X,Y) =



̅̅̅̅

̅̅̅

Từ công thức hiệp phƣơng sai ta thấy, nếu cov(X,Y) dƣơng thì X,Y đồng biến,
cov(X,Y) âm thì X,Y nghịch biến, nếu bằng 0 thì X,Y độc lập.
1.3.1.3. Ma trận đại số
Phần này giới thiệu về hai khái niệm nền tảng đƣợc sử dụng trong PCA là
vecto riêng (eigenvector) và giá trị riêng (eigenvalue).
 Vector riêng (Eigenvector)
Ta có thể nhân 2 ma trận với điều kiện kích cỡ phù hợp và eigenvector là 1
trƣờng hợp đặc biệt của phép nhân này.
Các tính chất của vector riêng
 Chỉ các ma trận vng (nxn) mới có vector riêng

 Khơng phải mọi ma trận vng đều có vector riêng
 Nếu 1 ma trận (nxn) có vector riêng thì sẽ có n vector riêng
 Nếu nhân vector riêng với 1 số thì kết quả sau khi nhân với ma trận chuyển
đổi, vector kết quả vẫn là vector ban đầu.
 Tất cả các vector riêng của 1 ma trận đều trực giao với nhau.
 Giá trị riêng (Eigenvalue)
Giá trị riêng là một khái niệm liên quan chặt chẽ đến vector riêng. Với mỗi
vector riêng sẽ có một giá trị riêng tƣơng ứng của nó.[7]


×