Tải bản đầy đủ (.pdf) (109 trang)

(Đồ án hcmute) xây dựng hệ thống nhận diện khuôn mặt và cảm xúc dùng mạng nơ ron tích chập

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.03 MB, 109 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

ĐỒ ÁN TỐT NGHIỆP
NGÀNH CƠNG NGHỆ KỸ THUẬT
ĐIỆN TỬ - TRUYỀN THÔNG

XÂY DỰNG HỆ THỐNG NHẬN DIỆN KHN MẶT VÀ
CẢM XÚC DÙNG MẠNG NƠ-RON TÍCH CHẬP

GVHD:GVC-THS NGUYỄN NGÔ LÂM
SVTH:NGUYỄN VĂN PHÚC
MSSV:16141071

SKL 0 0 7 1 8 3

Tp. Hồ Chí Minh, tháng 08/2020

do an


TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TPHCM
KHOA ĐÀO TẠO CHẤT LƯỢNG CAO

ĐỒ ÁN TỐT NGHIỆP

XÂY DỰNG HỆ THỐNG NHẬN DIỆN
KHN MẶT VÀ CẢM XÚC
DÙNG MẠNG NƠ-RON TÍCH CHẬP


SVTH

: NGUYỄN VĂN PHÚC

MSSV

: 16141071

Khóa

: 2016

Nghành : CƠNG NGHỆ KỸ THUẬT ĐIỆN TỬ - TRUYỀN THƠNG
GVHD

: GVC-THS NGUYỄN NGƠ LÂM

Tp. Hồ Chí Minh, tháng 8 năm 2020

do an


TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TPHCM
KHOA ĐÀO TẠO CHẤT LƯỢNG CAO

ĐỒ ÁN TỐT NGHIỆP

XÂY DỰNG HỆ THỐNG NHẬN DIỆN
KHN MẶT VÀ CẢM XÚC
DÙNG MẠNG NƠ-RON TÍCH CHẬP


SVTH : NGUYỄN VĂN PHÚC
MSSV : 16141071
Khóa

: 2016

Nghành : CƠNG NGHỆ KỸ THUẬT ĐIỆN TỬ - TRUYỀN THÔNG
GVHD : GVC-THS NGUYỄN NGÔ LÂM

Tp. Hồ Chí Minh, tháng 8 năm 2020

do an


PHỤ LỤC 3: (Mẫu nhiệm vụ đồ án tốt nghiệp)

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh Phúc
----***---Tp. Hồ Chí Minh, ngày 01 tháng 8 năm 2020

NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
Họ và tên sinh viên: Nguyễn Văn Phúc

MSSV: 16141071

Nghành: Công Nghệ Kỹ Thuật Điện Tử - Truyền Thông Lớp: 16141CLVTA
Giảng viên hướng dẫn: GVC-THS Nguyễn Ngô Lâm

ĐT:


Ngày nhận đề tài: 17/04/2020 Ngày nộp đề tài : 12/8/2020
1. Tên đề tài : Xây dựng hệ thống nhận diện khuôn mặt và cảm xúc dùng mạng
nơ-ron tích chập.
2. Các số liệu, tài liệu ban đầu: Các tài liệu và kiến thức về mơ hình mạng nơ-ron
tích chập, mơ hình mạng ResNet, các tập dữ liệu khn mặt và cảm xúc có sẵn
dùng để huấn luyện mơ hình mạng như FERC-2013, LFW,…
3. Nội dung thực hiện đề tài: Xây dựng hệ thống nhận diện khuôn mặt và cảm xúc
dùng mạng nơ-ron tích chập trên máy tính cũng như trên kit Raspberry Pi 4.
4. Sản phẩm : Mơ hình hệ thống nhận diện khn mặt và cảm xúc trên máy tính và
trên kit Raspberry Pi 4.

TRƯỞNG NGHÀNH

GIẢNG VIÊN HƯỚNG DẪN

i

do an


PHỤ LỤC 4: (Mẫu nhận xét của Giáo viên hướng dẫn)

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh Phúc
----***----

PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
Họ và tên Sinh viên: Nguyễn Văn Phúc


MSSV:16141071

Ngành: Công Nghệ Kỹ Thuật Điện Tử - Truyền Thông
Tên đề tài: Xây dựng hệ thống nhận diện khuôn mặt và cảm xúc dùng mạng nơ-ron tích
chập.
Họ và tên Giáo viên hướng dẫn: GVC-THS Nguyễn Ngô Lâm
NHẬN XÉT
1. Về nội dung đề tài & khối lượng thực hiện:
.................................................................................................................................................
.................................................................................................................................................
.................................................................................................................................................
.................................................................................................................................................
2. Ưu điểm:
.................................................................................................................................................
.................................................................................................................................................
.................................................................................................................................................
.................................................................................................................................................
3. Khuyết điểm:
.................................................................................................................................................
.................................................................................................................................................
.................................................................................................................................................

ii

do an


4. Đề nghị cho bảo vệ hay không ?
.................................................................................................................................................
5. Đánh giá loại:

.................................................................................................................................................
6. Điểm:……………….(Bằng chữ: ....................................................................................... )
.................................................................................................................................................
Tp. Hồ Chí Minh, ngày

tháng

Giáo viên hướng dẫn
(Ký & ghi rõ họ tên)

iii

do an

năm 20…


PHỤ LỤC 5: (Mẫu nhận xét của Giáo viên phản biện)

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh Phúc
----***----

PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
Họ và tên Sinh viên: Nguyễn Văn Phúc

MSSV:16141071

Ngành: Công Nghệ Kỹ Thuật Điện Tử - Truyền Thông
Tên đề tài: Xây dựng hệ thống nhận diện khuôn mặt và cảm xúc dùng mạng nơ-ron tích

chập.
Họ và tên Giáo viên phản biện :
NHẬN XÉT
1. Về nội dung đề tài & khối lượng thực hiện:
.................................................................................................................................................
.................................................................................................................................................
.................................................................................................................................................
.................................................................................................................................................
2. Ưu điểm:
.................................................................................................................................................
.................................................................................................................................................
.................................................................................................................................................
.................................................................................................................................................
3. Khuyết điểm:
.................................................................................................................................................
.................................................................................................................................................
.................................................................................................................................................

iv

do an


4. Đề nghị cho bảo vệ hay không ?
.................................................................................................................................................
5. Đánh giá loại:
.................................................................................................................................................
6. Điểm:……………….(Bằng chữ: ....................................................................................... )
.................................................................................................................................................
Tp. Hồ Chí Minh, ngày


tháng

Giáo viên phản biện
(Ký & ghi rõ họ tên)

v

do an

năm 20…


LỜI CẢM ƠN
Để hoàn thành được đồ án tốt nghiệp này và có được những kiến thức quý giá trong
quá trình thực hiện, cá nhân em đã nhận được rất nhiều sự giúp đỡ, quan tâm từ Thầy Cô
cho đến gia đình và bạn bè. Đầu tiên em xin chân thành gửi lời cảm ơn đến Thầy ThS.
Nguyễn Ngô Lâm là giáo viên hướng dẫn đồ án trực tiếp của em, thầy đã nhiệt tình chỉ
dẫn, truyền đạt kiến thức, kinh nghiệm cho em để em hoàn thành đồ án tốt nghiệp này.
Em cũng xin chân thành cảm ơn đến các Thầy Cô nghành công nghệ kỹ thuật điện tử
truyền thông thuộc khoa đào tạo chất lượng cao và khoa điện – điện tử nói riêng và
Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh nói chung đã dùng những tâm
huyết của mình để truyền đạt kiến thức quý báu cho em trong suốt quá trình học tập tại
trường.
Và cuối cùng em xin gửi lời cảm ơn đến gia đình, người thân, bạn bè của em đã động
viên hỏi thăm em trong suốt quá trình làm đồ án tốt nghiệp.
Do thời gian thực hiện đồ án có hạn, mặc dù em đã cố gắng để hồn thành khóa luận
này tốt nhất có thể nhưng cũng khơng thể tránh được những trường hợp thiếu sót trong
q trình làm đồ án tốt nghiệp, em rất mong nhận được sự cảm thông và chỉ bảo của
Thầy Cô và bạn bè.

Em xin chân thành cảm ơn !

vi

do an


TĨM TẮT
Hiện nay thị giác máy tính đã và đang trở thành một hướng nghiên cứu sôi nổi từ các
nhà nghiên cứu trên tồn thế giới nói chung và tại Việt Nam nói riêng. Các hướng nghiên
cứu trong thị giác máy tính được phân loại dựa trên cơ sở ứng dụng của nó. Nhận dạng
khn mặt và cảm xúc là một trong những đề tài được nghiên cứu ứng dụng nhiều nơi,
đặc biệt là trong nghành an ninh và đánh giá tâm trạng cũng như mức độ hài lòng của
người tiêu dùng đối với sản phẩm hoặc thương hiệu của họ trong thế giới kỹ thuật số.
Bên cạnh đó việc ứng dụng của nhận dạng cảm xúc trong thực tế là khá lớn như: Các hệ
thống sử dụng rô bốt điều khiển bằng cảm xúc, các thiết bị hỗ trợ người tàn tật,….
Việc nhận dạng khuôn mặt và cảm xúc được thực hiện với đối tượng đầu vào là hình
ảnh hoặc video có nhiều khn mặt được chụp từ camera. Sau đó, hình ảnh chứa khn
mặt được tiền xử lý như loại nhiễu, cân bằng độ sáng…. Một số kỹ thuật trích xuất đặc
trưng được sử dụng để lấy thành phần riêng của từng khuôn mặt. Tất cả khuôn mặt riêng
được lưu trữ trong một cơ sở dữ liệu để phục vụ cho việc gắn nhãn trong quá trình nhận
dạng tùy theo mỗi ứng dụng. Đối với nhận dạng cảm xúc, ảnh hoặc video được đưa vào
hệ thống để tiến hành nhận dạng cảm xúc. Hệ thống sẽ tiến hành nhận dạng 7 loại cảm
xúc cơ bản gồm có: “ vui vẻ ”, “ buồn ”, “ sợ hãi ”, “ khó chịu ”, “ giận dữ ”, “ ngạc
nhiên ” và “ bình thường ”.
Đề tài “ Xây dựng hệ thống nhận diện khuôn mặt và cảm xúc dùng mạng nơ-ron
tích chập. ” được xây dựng với hai mục đích đó là nhận diện khn mặt và nhận diện
cảm xúc. Đối với hệ thống nhận diện khuôn mặt, cá nhận thực hiện đề tài sử dụng hai
loại tập mẫu. Tập mẫu thứ nhất dựa trên tập mẫu có sẵn [22], tập mẫu thứ hai do cá nhân
thực hiện được thu thập từ camera điện thoại với 4 nam bao gồm 2000 ảnh được lấy mẫu

với nhiều kịch bản khác nhau. Đặc trưng Haar-like được sử dụng để phát hiện khuôn mặt
với sự trợ giúp của thư viện OpenCV. Mạng nơ-ron tích chập được huấn luyện trước với
từng loại tập mẫu sau đó kết quả của từng loại tập mẫu sẽ được so sánh với nhau. Mô

vii

do an


hình mạng nơ-ron tích chập sau khi được huấn luyện sẽ được nạp vào kit Raspberry Pi
4 cùng với camera được kết nối nhằm nhận dạng đối tượng theo thời gian thực với dữ
liệu đã được huấn luyện từ trước.
Đối với hệ thống nhận dạng cảm xúc, cá nhân thực hiện đề tài sử dụng tập dữ liệu
hình ảnh cảm xúc FERC-2013 để làm cơ sở dữ liệu để huấn luyện mơ hình mạng nơ-ron
tích chập. Tập dữ liệu huấn luyện đầu vào sẽ là hình ảnh chứa khn mặt đã được xử lý.
Những hình ảnh chứa khn mặt sau đó sẽ đưa vào mơ hình mạng nơ-ron tích chập
truyền thống để tiến hành huấn luyện và kiểm tra. Mô hình mạng nơ-ron tích chập sau
khi được huấn luyện sẽ được ứng dụng để nhận dạng cảm xúc thông qua khuôn mặt từ
camera.
Kết quả thực hiện đồ án tốt nghiệp cho kết quả tương đối tốt bao gồm cả hai hệ thống
nhận diện khn mặt và cảm xúc. Ngồi ra, kết quả thực hiện nhận dạng cảm xúc do cá
nhân thực hiện cho kết quả tốt hơn kết quả đã được cơng bố [1]. Bên cạnh đó hệ thống
đảm bảo tốc độ xử lý nhanh, cho phép giải quyết bài tốn nhận dạng khn mặt và cảm
xúc theo thời gian thực.

viii

do an



MỤC LỤC
LỜI CẢM ƠN .................................................................................................................vi
TÓM TẮT ......................................................................................................................vii
MỤC LỤC .......................................................................................................................ix
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................. xiii
DANH MỤC BẢNG ...................................................................................................... xv
DANH MỤC HÌNH ......................................................................................................xvi
CHƯƠNG 1 : TỔNG QUAN ........................................................................................... 1
1.1 TÌNH HÌNH NGHIÊN CỨU .............................................................................. 1
1.2 MỤC TIÊU ĐỀ TÀI ............................................................................................ 2
1.3 GIỚI HẠN ĐỀ TÀI ............................................................................................. 3
1.4 ĐỐI TƯỢNG NGHIÊN CỨU............................................................................. 3
1.5 PHẠM VI NGHIÊN CỨU .................................................................................. 4
1.6 BỐ CỤC ĐỀ TÀI ................................................................................................ 4
CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT ............................................................................... 6
2.1 TỔNG QUAN VỀ QUÁ TRÌNH XỬ LÝ ẢNH ................................................. 6
2.1.1 Xử lý ảnh ....................................................................................................... 6
2.1.2 Điểm ảnh ....................................................................................................... 8
2.1.3 Độ phân giải .................................................................................................. 9
2.1.4 Tăng cường ảnh........................................................................................... 10
2.1.5 Khôi phục ảnh ............................................................................................. 10

ix

do an


2.1.6 Phân tích ảnh ............................................................................................... 10
2.1.7 Nén dữ liệu ảnh ........................................................................................... 11
2.1.8 Nhận dạng ảnh ............................................................................................ 11

2.2 KHUÔN MẶT VÀ CẢM XÚC ........................................................................ 12
2.2.1 Đặc trưng của mặt người............................................................................. 12
2.2.2 Phương pháp tiếp cận đặc trưng khuôn mặt ............................................... 12
2.2.3 Biểu cảm của khuôn mặt khi bày tỏ cảm xúc ............................................. 13
2.3 MẠNG NƠ-RON TÍCH CHẬP ........................................................................ 14
2.3.1 Mạng nơ-ron nhân tạo ................................................................................. 14
2.3.2 Mạng nơ-ron tích chập ................................................................................ 16
2.3.2.1 Mơ hình tổng quan ................................................................................ 17
2.3.2.2 Các lớp trong mơ hình .......................................................................... 18
2.3.3 Những vấn đề xảy ra với mơ hình mạng nơ-ron tích chập ......................... 23
2.3.3.1 Q khớp (Overfiting) .......................................................................... 23
2.3.3.2 Drop out ................................................................................................ 24
2.4 Giới thiệu về máy tính nhúng kit Raspberry Pi ................................................. 25
2.5 Xử lý ảnh với Python ........................................................................................ 28
2.5.1 Giới thiệu ngơn ngữ lập trình Python ......................................................... 28
2.5.2 Một số ưu điểm của ngôn ngữ Python: ....................................................... 28
CHƯƠNG 3 : XÂY DỰNG HỆ THỐNG NHẬN DIỆN KHN MẶT VÀ CẢM XÚC
DÙNG MẠNG NƠ-RON TÍCH CHẬP TRÊN KIT RASPBERRY PI 4 ..................... 33
3.1 Yêu cầu của hệ thống ........................................................................................ 33

x

do an


3.2 Đặc tả hệ thống .................................................................................................. 33
3.3 Sơ đồ khối hệ thống........................................................................................... 34
3.4 Thiết kế chi tiết hệ thống ................................................................................... 35
3.4.1 Khối Camera ............................................................................................... 35
3.4.2 Khối xử lý Raspberry Pi 4 .......................................................................... 36

3.4.2.1 Hệ thống nhận dạng khuôn mặt ............................................................ 36
3.4.2.1.1 Sơ đồ quá trình xử lý hệ thống nhận dạng khuôn mặt ................... 36
3.4.2.1.1.1 Tạo cơ sở dữ liệu ảnh............................................................... 37
3.4.2.1.1.2 Phát hiện khuôn mặt ................................................................ 39
3.4.2.1.1.3 Tiền xử lý ................................................................................. 39
3.4.2.1.1.4 Trích chọn đặc trưng ................................................................ 40
3.4.2.1.1.5 Phân loại, nhận dạng ................................................................ 42
3.4.2.1.2 Mơ hình mạng nơ-ron tích chập được dùng để mã hóa khn mặt43
3.4.2.2 Hệ thống nhận dạng cảm xúc ............................................................... 49
3.4.2.2.1 Lưu đồ xử lý của hệ thống nhận dạng cảm xúc ............................. 49
3.4.2.2.2 Mô hình mạng CNN được dùng để nhận dạng cảm xúc ................ 50
3.4.2.2.3 Tập dữ liệu...................................................................................... 51
3.4.2.2.3.1 Tập dữ liệu mẫu có sẵn ............................................................ 51
3.4.2.2.3.2 Tập dữ liệu riêng ...................................................................... 53
3.4.2.2.4 Quá trình huấn luyện và nhận dạng................................................ 55
3.4.2.2.4.1 Quá trình huấn luyện ............................................................... 55

xi

do an


3.4.2.2.4.2 Quá trình nhận dạng................................................................. 56
3.4.3 Khối hiển thị ............................................................................................... 57
CHƯƠNG 4 : KẾT QUẢ ............................................................................................... 59
4.1 Mơ hình hồn chỉnh của hệ thống ..................................................................... 59
4.2 Giao diện hiển thị kết quả của hệ thống ............................................................ 59
4.3 Kết quả hệ thống nhận dạng khn mặt ............................................................ 60
4.3.1 Phân tích và nhận xét kết quả hệ thống nhận dạng khuôn mặt ................... 60
4.3.1.1 Kết quả kiểm tra với tập dữ liệu 1 ........................................................ 61

4.3.1.2 Kết quả kiểm tra với tập dữ liệu 2 ........................................................ 62
4.3.2 Kết quả kiểm tra nhận dạng với một số ảnh ............................................... 62
4.4 Kết quả hệ thống nhận dạng cảm xúc ............................................................... 67
4.4.1 Kết quả huấn luyện và nhận dạng ............................................................... 67
4.4.2 Kết quả kiểm tra nhận dạng với một số ảnh ............................................... 73
CHƯƠNG 5 : KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .............................................. 82
5.1 Kết quả đạt được ............................................................................................... 82
5.2 Hướng phát triển................................................................................................ 82
TÀI LIỆU THAM KHẢO .............................................................................................. 84

xii

do an


DANH MỤC CÁC TỪ VIẾT TẮT
Số thứ tự

Từ viết tắt

1

2D

2

HOG

Ý nghĩa của từ viết tắt
2 Dimenision: Hai chiều

Histogram of Oriented Gradient: Phương pháp rút
trích đặc trưng sử dụng các thống kê histogram về
hướng ảnh trên gradient cho bài toán phát hiện
khuôn mặt.

3

ANN

4

CNN

Artificial Neural Network: Mạng nơ-ron nhân tạo
Convolution Neural Network: Mạng nơ-ron tích
chập

5

FERC2013

Facial Expression Recognition Challenge: Cuộc
thi “Thử thách nhận dạng cảm xúc khuôn mặt năm
2013”

6

NN

Neural Network: Mạng nơ-ron


7

PE

Processing Element: Phần tử xử lý

8

PwC

PricewaterhouseCoopers: Cơng ty kiểm tốn của
Mỹ

9

RELU

Rectified Linear Unit: Hàm đơn vị tuyến tính đứng

xiii

do an


10

RGB

Red Green Blue : là ba màu cơ bản Đỏ, xanh lá

cây và xanh lam trong các mơ hình ánh sáng bổ
sung

11

GUI

Graphical User Interface: Giao diện đồ họa người
dùng

12

GPU

Graphics Processing Unit: Bộ vi xử lý đồ họa

13

PCA

Principal Component Analysis: Phân tích thành
phần chính

14

SVM

Support vector machine: Máy véc-tơ hỗ trợ

15


RNN

Recurrent Neural Network: Mạng nơ-ron hồi quy

16

LFW

Labeled Faces in the Wild: Tập dữ liệu LFW chứa
các khuôn mặt đã được gắn nhãn tương ứng

17

ResNet

Residual Network: Mơ hình mạng nơ-ron tích
chập sâu được giới thiệu năm 2015.

xiv

do an


DANH MỤC BẢNG
Bảng 3.1: Bảng phân loại số lượng cảm xúc trong tập dữ liệu mẫu FERC-2013[2] .... 52
Bảng 3.2: Bảng phân loại số lượng cảm xúc trong tập dữ liệu riêng ............................ 54
Bảng 4.1: So sánh độ chính xác sau khi qua q trình huấn luyện giữa hai mơ hình ... 70
Bảng 4.2: Đánh giá tỉ lệ nhận dạng cảm xúc khi kiểm tra tập riêng. ............................ 72
Bảng 4.3: So sánh độ chính xác giữa hai mơ hình ........................................................ 72


xv

do an


DANH MỤC HÌNH
Hình 2.1: Quy trình xử lý ảnh ......................................................................................... 6
Hình 2.2: Ví dụ về pixel ảnh ........................................................................................... 9
Hình 2.3: Sự thay đổi độ mịn của hình ảnh theo kích thước........................................... 9
Hình 2.4: Một số thơng tin có thể tìm thấy trong một bức ảnh khn mặt ................... 12
Hình 2.5: Cấu trúc tổng quát của mạng nơ-ron ANN ................................................... 15
Hình 2.6: Q trình xử lý thơng tin trong mạng ........................................................... 15
Hình 2.7: Hàm tổng của một và nhiều nơ-ron đối với n input. ..................................... 16
Hình 2.8: Sự khác nhau giữa cấu trúc ANN và CNN ................................................... 17
Hình 2.9: Quá trình thực hiện của mạng CNN .............................................................. 18
Hình 2.10: CNN tìm những điểm tương đồng trên bức ảnh ......................................... 18
Hình 2.11: Chập ma trận ảnh với bộ lọc 3x3 ................................................................ 19
Hình 2.12: Ví dụ về lớp RELU ..................................................................................... 21
Hình 2.13: Maxpooling với bộ lọc 2x2, bước trượt bằng 2 .......................................... 22
Hình 2.14: Phân lớp dữ liệu trong lớp kết nối đầy đủ ................................................... 22
Hình 2.15: Ví dụ minh họa lỗi q khớp trong CNN .................................................... 23
Hình 2.16: Kỹ thuật Drop-out giải quyết vấn đề overfitting ......................................... 25
Hình 2.17: Hình ảnh thực tế kit Raspberry Pi ............................................................... 26
Hình 2.18: Cấu tạo của Raspberry Pi 4 ......................................................................... 26
Hình 2.19: Sơ đồ chân của Raspberry Pi 4 ................................................................... 27
Hình 2.20: Cấu trúc thư viện OpenCV .......................................................................... 30

xvi


do an


Hình 3.1: Sơ đồ khối của hệ thống ................................................................................ 34
Hình 3.2: Sơ đồ mơ tả tiến trình của hệ thống nhận dạng khn mặt trên kit Raspberry
Pi..................................................................................................................................... 36
Hình 3.3: Lưu đồ xử lý của hệ thống nhận dạng khuôn mặt ......................................... 37
Hình 3.4: Sơ đồ quá trình tạo cơ sở dữ liệu .................................................................. 38
Hình 3.5: Một số khn mặt được lấy từ tập cơ sở dữ liệu LFW ................................. 38
Hình 3.6: Một số hình ảnh từ tập cơ sở dữ liệu tự tạo .................................................. 39
Hình 3.7: Sơ đồ quá trình tiền xử lý .............................................................................. 39
Hình 3.8: Sơ đồ quá trình trích chọn đặc trưng ............................................................. 40
Hình 3.9: Lưu đồ thuật tốn q trình trích chọn đặc trưng ......................................... 41
Hình 3.10: Sơ đồ quá trình phân loại nhận dạng ........................................................... 42
Hình 3.11: Khơng gian Euclide 3 chiều ........................................................................ 42
Hình 3.13: Một ví dụ về mã hóa khn mặt sử dụng mạng ResNet ............................. 45
Hình 3.18: Lưu đồ xử lý của hệ thống nhận dạng cảm xúc .......................................... 49
Hinh 3.19: Kiến trúc mạng CNN được dùng trong hệ thống ........................................ 50
Hình 3.20: Một số hình ảnh trong tập dữ liệu mẫu ....................................................... 52
Hình 3.21: Biểu đồ số lượng cảm xúc trong tập dữ liệu mẫu FERC-2013[2] .............. 53
Hình 3.22: Biểu đồ phân loại số lượng cảm xúc trong tập dữ liệu riêng ...................... 55
Hình 3.23: Lưu đồ thuật tốn q trình huấn luyện ...................................................... 56
Hình 3.24: Lưu đồ thuật tốn q trình nhận dạng ....................................................... 57
Hình 4.1: Camera kết nối với kit Raspberry Pi ............................................................. 59
Hình 4.2: Giao diện hiển thị của đề tài.......................................................................... 60

xvii

do an



Hình 4.3: Ma trận tương quan của tập dữ liệu 1 ........................................................... 61
Hình 4.4: Ma trận tương quan của tập dữ liệu 2 ........................................................... 62
Hình 4.5: Một số khn mặt được kiểm tra đúng từ tập dữ liệu 1 ................................ 63
Hình 4.6: Ảnh đơn được nhận dạng với người có trong cơ sở dữ liệu 2 ...................... 64
Hình 4.7: Ảnh bao gồm cả hai khn mặt có trong tập dữ liệu 2 ................................. 65
Hình 4.8: Kết quả nhận dạng ảnh của khn mặt khơng có trong tập cơ sở dữ liệu .... 66
Hình 4.9: Kết quả nhận dạng bị sai khi khn mặt có trong tập dữ liệu 2.................... 67
Hình 4.11: Biểu đồ độ chính xác của q trình huấn luyện .......................................... 69
Hình 4.12: Ma trận tương quan của mơ hình với ngõ vào là dữ liệu tập mẫu .............. 71
Hình 4.13: Ma trận tương quan của mơ hình với ngõ vào là dữ liệu tập riêng ............. 71
Hình 4.14: Nhận dạng cảm xúc “ bình thường ” ........................................................... 73
Hình 4.15: Nhận dạng cảm xúc “ vui vẻ ” ..................................................................... 74
Hình 4.16: Nhận dạng cảm xúc “ ngạc nhiên ”............................................................. 74
Hình 4.17: Nhận dạng cảm xúc “ buồn ” ...................................................................... 75
Hình 4.18: Nhận dạng cảm xúc “ giận dữ ” .................................................................. 76
Hình 4.19: Nhận dạng cảm xúc “ khó chịu ”................................................................. 76
Hình 4.20: Nhận dạng cảm xúc “ sợ hãi ” .................................................................... 77
Hình 4.21: Nhận dạng cảm xúc “ bình thường ” thành cảm xúc “ buồn ” do biểu cảm
khơng rõ ràng ................................................................................................................. 78
Hình 4.22: Nhận dạng cảm xúc “ bình thường ” thành cảm xúc “ sợ hãi ” do cường độ
sáng quá cao và ảnh được nhận dạng bị ngược sáng. .................................................... 79

xviii

do an


Hình 4.23: Khơng nhận dạng được khn mặt do góc nghiêng và các đặc trưng trên
khuôn mặt bị mất ............................................................................................................ 79

Hình 4.24: Nhận dạng cảm xúc “ bình thường ” thành cảm xúc “ sợ hãi ” do cường độ
ánh sáng trên khn mặt yếu. ......................................................................................... 80
Hình 4.25: Nhận dạng cảm xúc “ bình thường ” thành cảm xúc “ buồn ” do khn mặt
bị thay đổi góc nghiêng đồng thời khn mặt khơng ngang tầm và chính diện với camera
........................................................................................................................................ 81

xix

do an


CHƯƠNG 1 : TỔNG QUAN
1.1 TÌNH HÌNH NGHIÊN CỨU
Hiện nay trên thế giới nói chung và tại Việt Nam nói riêng, trí tuệ nhân tạo được xem
là một trong những công nghệ cốt lõi của cuộc cách mạng công nghiệp 4.0. Nhiều quốc
gia bắt đầu ghi nhận xu thế phát triển tất yếu và tác động chuyển đổi to lớn của trí tuệ
nhân tạo trong mọi mặt đời sống xã hội, từ thay đổi cán cân quyền lực kinh tế, đến cả
quân sự và chính trị. Để đảm bảo tiếp tục phát triển kinh tế - xã hội, đem lại thịnh vượng
cho quốc gia, bên cạnh việc tận dụng hiệu quả những thành tựu phát triển của trí tuệ nhân
tạo và tự động hóa, nhiều nước đã đưa ra nhiều giải pháp phù hợp cho tiến trình chuyển
đổi nhanh chóng và mạnh mẽ của cuộc cách mạng công nghiệp 4.0 hiện nay.
Nhắc đến trí tuệ nhân tạo, chúng ta sẽ nghĩ ngay đến công nghệ sinh trắc học. Đây là
một trong những hướng phát triển mũi nhọn trong nền công nghiệp thuộc lĩnh vực thị
giác máy tính hiện nay. Cơng nghệ sinh trắc học là công nghệ sử dụng những đặc tính
vật lý, đặc điểm sinh học riêng của mỗi cá nhân như cảm xúc, võng mạc, khuôn mặt, vân
tay… để nhận dạng. Trong đó nhận dạng khn mặt và cảm xúc là hai loại nhận dạng
đặc trưng tiêu biểu cho cơng nghệ sinh trắc học đóng vai trị quan trọng và là nền tảng
trong việc chế tạo các loại rơ bốt có thể tương tác trực tiếp với con người
Các nghiên cứu về nhận dạng khuôn mặt và cảm xúc đã được xây dựng và phát triển
theo nhiều hướng khác nhau dựa trên đặc điểm và yêu cầu riêng của từng hệ thống. Đối

với hệ thống nhận dạng khuôn mặt, các thử nghiệm về tỉ lệ nhận dạng chính xác của các
phương pháp đề xuất thường được tiến hành trên các tập dữ liệu được thu thập trong điều
kiện hạn chế về ánh sáng, hướng nhìn của khn mặt, tuổi tác,… Do đó khi áp dụng vào
thực tế thì kết quả thu được thường kém xa so với môi trường thử nghiệm. Để khắc phục
điều đó, các hướng tiếp cận sau này được đề xuất dựa trên ý tưởng sử dụng các mơ hình
học máy thống kê có khả năng học để lựa chọn các đặc trưng khuôn mặt từ một tập mẫu
cho trước điển hình như phương pháp PCA, trong đó mỗi khn mặt được biểu diễn dưới

1

do an


dạng tổ hợp các eigenvectors, eigenfaces và fisherfaces, phương pháp sử dụng các mơ
hình mạng nơ-ron tích chập. Hiện tại, hiệu quả của các mơ hình nhận dạng khn mặt
đã được cải thiện đáng kể dựa trên việc kết hợp sử dụng các mơ hình học sâu để tự động
phát hiện các đặc trưng trên khuôn mặt và các kỹ thuật phân lớp thống kê [4], [5], [6].
Đối với hệ thống nhận dạng cảm xúc của khuôn mặt, để xác định được cảm xúc trên
khuôn mặt của con người không phải là cơng việc dễ dàng. Rất nhiều cơng trình nghiên
cứu, bài báo đưa ra các phương pháp nhằm xác định cảm xúc trên khuôn mặt. Trong một
nghiên cứu của tác giả Young Hoon Jo vào năm 2015 [5], tác giả đã xác định cảm xúc
của mỗi cá nhân dựa trên đặc điểm, khoảng cách của các thành phần trên khuôn mặt. Sau
khi chia ra thành từng vùng trên khuôn mặt, tác giả đã đi phân tích đặc điểm của từng
phần, thông qua đặc điểm của từng phần để xác định từng lớp cảm xúc trên khuôn mặt
người. Tuy nhiên, việc xác định trên chỉ đúng khi các đặc điểm trên khuôn mặt được coi
là tiêu chuẩn. Ngày nay, bằng việc sử dụng một phương pháp mới đó là mạng nơ-ron
xoắn tích chập đã mở ra những bước tiến mới trong việc xác định và nhận dạng cảm xúc
trên khuôn mặt con người.
Vì những lý do trên, cá nhận thực hiện lựa chọn đề tài “ Xây dựng hệ thống nhận dạng
khn mặt và cảm xúc dùng mạng nơ-ron tích chập ” để nghiên cứu. Đề tài hướng đến

việc giúp cho máy tính và kit Raspberry Pi 4 có thể nhận dạng được khuôn mặt và cảm
xúc của con người thông qua khuôn mặt bằng việc sử dụng mạng nơ-ron tích chập.
1.2 MỤC TIÊU ĐỀ TÀI
Đề tài tập trung nghiên cứu mạng nơ-ron tích chập, tìm hiểu về kiến trúc, mơ hình đào
tạo, trích xuất đặc trưng của mạng, thuật tốn phân loại nhận dạng. Ngồi ra đề tài cịn
nghiên cứu về kit Raspberry Pi 4, ngôn ngữ Python và thư viện OpenCV, cách xây dựng
cơ sở dữ liệu, tìm hiểu về việc sử dụng thuật toán trong việc phát hiện khuôn mặt từ
camera hoặc ảnh, các bước xử lý ảnh. Mơ hình sử dụng các phương pháp đặc trưng HOG
[3] hay bộ phận phân lớp Haar-Cascade để phát hiện khn mặt, mơ hình nhận dạng

2

do an


được sử dụng dựa trên cơ sở mơ hình mạng nơ-ron tích chập có khả năng tự động trích
chọn đặc trưng của khn mặt từ đó xây dựng một hệ thống nhận dạng khuôn mặt.
Đối với hệ thống nhận dạng khuôn mặt, hệ thống sẽ nhận dạng được ảnh và luồng
video có sẵn được lưu trong máy tính, kit Raspberry Pi hoặc luồng video trực tiếp được
thu từ camera.
Đối với hệ thống nhận dạng cảm xúc, cá nhân thực hiện đề tài sẽ xây dựng và huấn
luyện mơ hình mạng nơ-ron tích chập riêng để kiểm tra tính hiệu quả trong việc nhận
dạng cảm xúc. Với kết quả đạt được, cá nhân thực hiện đề tài sẽ xây dựng một hệ thống
nhận dạng 7 loại cảm xúc thông qua khuôn mặt gồm có: “ vui vẻ ”, “ buồn ”, “ sợ hãi ”,
“ giận dữ ”, “ ngạc nhiên ”, “ khó chịu ”, “ bình thường ”. Hệ thống sẽ được cài đặt trên
máy tính nhúng Raspberry Pi.
1.3 GIỚI HẠN ĐỀ TÀI
Đối với hệ thống nhận dạng khuôn mặt, hệ thống nhận dạng được thực nghiệm tại căn
phòng trọ với khoảng 4 người trong phòng, dữ liệu được lấy trực tiếp từ camera. Hệ
thống sẽ nhận dạng được ảnh và luồng video có sẵn được lưu trong máy tính, kit

Raspberry Pi hoặc luồng video trực tiếp được thu từ camera.
Đối với hệ thống nhận dạng cảm xúc, chỉ xem xét đến thuật toán nhận dạng cảm xúc
cho luồng video trực tuyến được thực hiện trong điều kiện đầy đủ ánh sáng, gương mặt
chính diện và khoảng cách nhận dạng biểu cảm của khuôn mặt trong khoảng 1m.
1.4 ĐỐI TƯỢNG NGHIÊN CỨU
Đề tài nghiên cứu những đối tượng sau:
-

Mô hình mạng nơ-ron tích chập trong việc xây dựng hệ thống nhận dạng cảm xúc.
Đồng thời ứng dụng mơ hình mạng nơ-ron tích chập để tạo ra véc-tơ đặc trưng
128 chiều cho mỗi khuôn mặt để nhận dạng khuôn mặt.

-

Các biểu cảm cảm xúc thông qua khuôn mặt.

3

do an


×