Tải bản đầy đủ (.pdf) (65 trang)

Xây Dựng Mô Hình Kết Hợp Ảnh Thường Và Ảnh Nhiệt Để Ước Lượng Cảm Xúc Con Người

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.09 MB, 65 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH

Trần Thanh Nhã

XÂY DỰNG MƠ HÌNH KẾT HỢP
ẢNH THƯỜNG VÀ ẢNH NHIỆT ĐỂ ƯỚC LƯỢNG
CẢM XÚC CON NGƯỜI

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thành phố Hồ Chí Minh - 2019


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH

Trần Thanh Nhã

XÂY DỰNG MƠ HÌNH KẾT HỢP
ẢNH THƯỜNG VÀ ẢNH NHIỆT ĐỂ ƯỚC LƯỢNG
CẢM XÚC CON NGƯỜI

Chuyên ngành: Khoa học máy tính
Mã số
: 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. NGUYỄN VIẾT HƯNG



Thành phố Hồ Chí Minh - 2019


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Xây dựng mơ hình kết hợp ảnh thường và
ảnh nhiệt để ước lượng cảm xúc con người” là do tơi tìm hiểu, nghiên cứu và
thực hiện dưới sự hướng dẫn của Tiến sĩ Nguyễn Viết Hưng. Luận văn khơng
có sự sao chép từ các tài liệu, cơng trình nghiên cứu khác mà không ghi rõ
nguồn trong tài liệu tham khảo.
Tôi xin chịu trách nhiệm về kết quả thực hiện và lời cam đoan này.
Thành phố Hồ Chí Minh, ngày 27 tháng 12 năm 2019


LỜI CẢM ƠN
Trước hết tôi xin chân thành gởi lời cảm ơn sâu sắc đến Thầy của tôi,
Tiến sĩ Nguyễn Viết Hưng, người đã định hướng, chỉ bảo, giúp đỡ tận tình
trong cả quá trình học tập, nghiên cứu và hồn thiện luận văn này.
Tơi cũng xin bày tỏ lịng biết ơn đến quý Thầy, cô giáo đã trực tiếp tham
gia giảng dạy và truyền đạt kiến thức quý báu cho tơi trong suốt q trình học
cao học tại Trường Đại học Sư phạm Thành phố Hồ Chí Minh. Đồng thời, tôi
xin được cảm ơn tới quý Thầy cô Khoa Cơng nghệ thơng tin, Phịng Sau đại
học Trường Đại học Sư phạm Thành phố Hồ Chí Minh đã tận tình dạy dỗ và
hướng dẫn cho tơi trong suốt q trình học tập tại Trường.
Cuối cùng, tôi muốn gửi lời cảm ơn đến gia đình và bạn bè của tơi.
Những người luôn bên cạnh, động viên và ủng hộ tôi để tơi có đủ niềm tin,
động lực để hồn thành khóa học và luận văn của mình.
Tp Hồ Chí Minh, ngày 27 tháng 12 năm 2019



MỤC LỤC
Trang

Lời cam đoan
Lời cảm ơn
Mục lục
Danh mục các ký hiệu và chữ viết tắt
Danh mục các bảng biểu
Danh mục các hình vẽ
MỞ ĐẦU .......................................................................................................... 1
1. Lý do chọn đề tài ........................................................................................ 1
2. Mục tiêu và nhiệm vụ nghiên cứu.............................................................. 2
3. Đóng góp của luận văn............................................................................... 3
4. Đối tượng và phạm vi nghiên cứu.............................................................. 3
5. Phương pháp nghiên cứu............................................................................ 3
6. Ý nghĩa khoa học và thực tiễn ................................................................... 4
7. Cấu trúc luận văn ....................................................................................... 4
Chương 1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU ............................. 6
1.1. Các cơng trình nghiên cứu liên quan ...................................................... 6
1.2. Một số thách thức trong lĩnh vực nghiên cứu nhận dạng cảm xúc của
con người............................................................................................... 10
1.3. Sơ lược về cơ sở dữ liệu cảm xúc ......................................................... 11
Chương 2. CƠ SỞ LÝ THUYẾT ................................................................. 15
2.1. Bài toán phát hiện cảm xúc khuôn mặt ................................................. 15
2.2. Kiến trúc Mạng nơ-ron tích chập (Convolutional neural network) ...... 17
2.2.1. Lớp Convolution............................................................................... 17
2.2.2. Lớp pooling ..................................................................................... 18


2.2.3. Lớp Fully Connected ...................................................................... 19

2.3. Học chuyển giao.................................................................................... 20
2.4. Mạng huấn luyện Resnet (Residual Network) ...................................... 21
2.5. Độ đo đánh giá mơ hình phân lớp ......................................................... 25
Chương 3. ƯỚC LƯỢNG CẢM XÚC CỦA NGƯỜI DỰA TRÊN ẢNH
THƯỜNG VÀ ẢNH NHIỆT ...................................................... 27
3.1. Cơ sở dữ liệu ảnh nhiệt Kotani Thermal Facial Emotion (KTFE) ....... 27
3.2. Mơ hình ước lượng cảm xúc trên ảnh thường và ảnh nhiệt .................. 32
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ............................................ 37
4.1. Môi trường thực nghiệm ....................................................................... 37
4.2. Dữ liệu đầu vào ..................................................................................... 37
4.3. Phân tích đánh giá ................................................................................. 38
4.3.1. Kết quả thực nghiệm ....................................................................... 38
4.3.2. So sánh kết quả thực nghiệm với kết quả của phương pháp [32]... 43
4.3.3. So sánh kết quả thực nghiệm với kết quả của phương pháp [36]... 44
Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................ 46
CƠNG TRÌNH CƠNG BỐ ........................................................................... 48
TÀI LIỆU THAM KHẢO ............................................................................ 49


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ
viết tắt

Nguyên mẫu

AAM

Active Appearance Model

AU


Action Units

CNN

Diễn giải
Mơ hình xuất hiện tích
cực
Đơn vị hành động, xác
định độ co của cơ mặt

Convolutional Neural

Mơ hình mạng nơ-ron

Networks

tích chập
Mơ hình máy Boltzman

DBM

Deep Boltzmann Machine

ECG

Electrocardiogram

Tín hiệu điện tâm đồ


EEG

Electroencephalogram

Tín hiệu điện não đồ

EMC

FACS

FTFP
HMM
HOG

KTFE

Eigenspace Method based
on Class features

học sâu

Phương pháp không
gian riêng dựa trên các
đặc trưng của lớp

Facial Action Coding

Hệ thống mã hóa hành

System


động mặt

Facial Thermal Feature

Cơ sở các điểm đặc

Points

trưng nhiệt mặt

Hidden Markov Models

Mơ hình Markov ẩn

Histogram of Oriented

Biểu đồ của các

Gradients

gradient định hướng

Kotani Thermal Facial
Emotion

LBP

Local Binary Pattern


LDA

Linear Discriminant

Cơ sở dữ liệu ảnh nhiệt
Mơ hình nhị phân cục
bộ
Phương pháp phân tích


Analysis
LDP

NVIE

PCA

PTSD

Local Directional Pattern
Natural Visible and
Infrared facial Expression

phân biệt tuyến tính
Mơ hình định hướng
cục bộ
Cơ sở dữ liệu ảnh nhiệt

Principal Component


Phương pháp phân tích

Analysis

thành phần chính

Posttraumatic Stress
Disorder

ROI

Region of Interest

SVM

Support Vector Machines

Chấn thương tâm lý
Khu vực quan tâm
Phương pháp Máy
vector hỗ trợ


DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1. Một số cơ sở dữ liệu ảnh nhiệt [8] .................................................. 13
Bảng 2.1. Bảng chi tiết kiến trúc mạng Resnet 18, 50,101 và 153 lớp [50] ... 24
Bảng 2.2. Định nghĩa các giá trị cho việc đánh giá thực thi mơ hình ............. 25
Bảng 4.1. Số lượng dữ liệu cụ thể chia 80% quá trình huấn luyện (train và val)
và 20% cho kiểm tra (test set) ......................................................... 37
Bảng 4.2. Kết quả thí nghiệm mơ hình. Từ trái sang phải: giận dữ (An), ghê

tởm (Di), sợ hãi (Fe), hạnh phúc (Ha), bình thường (Ne), buồn rầu
(Sa) và ngạc nhiên (Su) ................................................................... 38
Bảng 4.4. So sánh phân tích với phương pháp [32] trên 5 cảm xúc ............... 44
Bảng 4.3. So sánh phân tích với phương pháp [36] ........................................ 45


DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Ví dụ về đặc trưng hình học của mặt gồm lơng mày, mắt, mũi,
miệng [17] ......................................................................................... 7
Hình 1.2. Trích xuất ROI trong phương thức [32] ............................................ 9
Hình 1.3. Thuật tốn xác định cảm xúc [33] ..................................................... 9
Hình 1.4. Cơ sở dữ liệu FACES [39] thể hiện 6 loại cảm xúc: bình thường,
giận dữ, hạnh phúc, buồn rầu, sợ hãi và ghê tởm. .......................... 12
Hình 1.5. Các dải hồng ngoại trong phổ điện từ [46] ..................................... 14
Hình 2.1. Mơ hình phát hiện cảm xúc sử dụng phương pháp học máy truyền
thống................................................................................................ 15
Hình 2.2. Kiến trúc cơ bản của mạng tích chập .............................................. 17
Hình 2.3. Minh họa phép tích chập [47] ......................................................... 18
Hình 2.4. Minh họa phương thức maxpooling và average pooling [48] ........ 19
Hình 2.5. Minh họa kết nối đầy đủ và phân lớp [49] ...................................... 20
Hình 2.6. Hình so sánh độ lỗi của mơ hình trước và sau khi thêm các lớp
mạng [50] ........................................................................................ 22
Hình 2.7. ResNets block .................................................................................. 23
Hình 2.8. So sánh mạng truyền thống với Resnet (18/34 lớp) [50] ................ 24
Hình 3.1. Mẫu ảnh nhiệt và ảnh nhìn thấy của bảy cảm xúc [8] .................... 28
Hình 3.2. Thư mục lưu trữ dữ liệu thơ KTFE chứa video ảnh thường ........... 29
Hình 3.3. Tập tin dữ liệu thô hiển thị trên giao diện phần mềm NS9500-PRO
(Video chứa các frame ảnh nhiệt) ................................................... 30
Hình 3.4. Frame ảnh thường và ảnh nhiệt của một đối tượng sau khi xóa vùng
dư thừa trên ảnh nhiệt (bên trái)...................................................... 31

Hình 3.5. Freeze các layer của pre-trained model, chỉ train FC layer mới thêm
vào ................................................................................................... 33
Hình 3.6. Unfreeze các layer của pre-trained model, train ở các layer trong
ConvNet của pre-trained model và fully connected layer mới. ...... 34


Hình 3.7. Mơ hình kết hợp ước lượng cảm xúc ảnh thường và ảnh nhiệt ...... 35
Hình 4.1. Kết quả dự đốn của mơ hình ......................................................... 39
Hình 4.2. Kết quả nhận dạng trên ảnh thường Vi-Resnet-50 ......................... 40
Hình 4.3. Kết quả nhận dạng trên ảnh nhiệt Ther-Resnet-50 ......................... 41
Hình 4.4. Kết quả ước lượng cảm xúc kết hợp ảnh thường và ảnh nhiệt FuResnet-50 ........................................................................................ 42
Hình 4.5. So sánh giữa Vi-Resnet-50, Ther- Resnet-50 và Fu-Resnet-50..... 43
Hình 4.6. So sánh giữa phương pháp đề xuất và phương pháp [32] ............... 44
Hình 4.7. So sánh giữa phương pháp đề xuất và phương pháp [36] ............... 45


1

MỞ ĐẦU
1. Lý do chọn đề tài
Trong kỷ nguyên công nghệ số và sự bùng nổ của các ứng dụng cho
cuộc cách mạng công nghiệp lần thứ tư, trao đổi thơng tin của người và máy
đóng một vai trị cực kì quan trọng. Những nghiên cứu hỗ trợ cho máy móc và
robot hiểu được con người và giao tiếp tốt với con người đang được thu hút từ
nhiều ngành nghề.
Hai nguồn thơng tin chính giúp người và máy có thể trao đổi được một
cách nhanh chóng và hiệu quả đó là giọng nói và hình ảnh [1], [2], [3]. Trong
dữ liệu hình ảnh mặt người, những biểu hiện trên khn mặt chiếm 55% cơ sở
để giúp con người có thể hiểu nhau trong q trình trao đổi và nói chuyện [4].
Bên cạnh đó, rất dễ dàng cho con người có thể hiểu nhau thông qua những

biểu hiện khuôn mặt trong giao tiếp xã hội, nhưng đó lại là một bài tốn khó
đối với máy tính và robot. Do đó, nghiên cứu về biểu hiện trên khuôn mặt
được thu hút rất nhiều nghiên cứu và đạt được nhiều kết quả khích lệ [5], [6],
[7], [8], [9], [10].
Cảm xúc là một trong những biểu hiện của khn mặt nhưng khó để hiểu
hết được cảm xúc bằng thông tin của ảnh thông thường. Cảm xúc, trong
nghiên cứu này, được định nghĩa không chỉ là biểu hiện bề ngồi của khn
mặt (do sự di chuyển của các khối cơ) mà còn là sự thay đổi vật lí về nhiệt độ
diễn ra trong các mạch máu. Để có thể lấy được đầy đủ thơng tin như định
nghĩa trên, với ảnh thông thường là chuyện không thể. Ngoài các vấn đề như
chất lượng ảnh thu được kém khi nguồn sáng yếu, màu da khác nhau, ảnh
thông thường không phản ánh được cảm xúc của những người ít khi thể hiện
hay cảm xúc trái ngược với biểu hiện của khn mặt. Bên cạnh đó, ảnh nhiệt
khơng phụ thuộc vào nguồn sáng, đồng thời nó phản ánh được cảm xúc của
những người ít khi thể hiện cảm xúc. Việc kết hợp sử dụng thêm thông tin của
ảnh nhiệt, giúp máy tính lẫn con người dự đốn chính xác hơn về cảm xúc của


2

con người [8], [9]. Hầu hết các nghiên cứu tập trung vào dự đoán 6 loại cảm
xúc như: giận dữ (anger), ghê tởm (disgust), hạnh phúc (happiness), sợ hãi
(fear), ngạc nhiên (surprise) và buồn (sadness).
Hiện nay, có rất nhiều nghiên cứu cảm xúc (biểu hiện khuôn mặt) dựa
trên ảnh thông thường, có thể tham khảo tại [9], [10]. Tuy nhiên, rất ít nghiên
cứu cảm xúc dựa trên ảnh nhiệt và kết hợp ảnh nhiệt và ảnh thông thường.
Xuất phát từ các cơ sở đó, đề tài “Xây dựng mơ hình kết hợp ảnh
thường và ảnh nhiệt để ước lượng cảm xúc con người” được thực hiện dựa
trên biểu hiện trên khn mặt bằng cách kết hợp ảnh có thể nhìn thấy và ảnh
nhiệt. Luận văn làm rõ cơ sở lý thuyết và các nghiên cứu liên quan cũng như

thực nghiệm, đánh giá kết quả đạt được trong thực tế và khả năng phát triển
của đề tài.
2. Mục tiêu và nhiệm vụ nghiên cứu
Mục tiêu: Xây dựng mơ hình kết hợp ảnh thông thường và ảnh nhiệt để
ước lượng cảm xúc.
Nhiệm vụ: Để đạt mục tiêu trên, đề tài thực hiện những nhiệm vụ sau
đây:
- Tìm hiểu tổng quan tình hình nghiên cứu về nhận dạng, phân tích và
dự đốn cảm xúc của người bằng ảnh thường và ảnh nhiệt.
- Nghiên cứu các cơ sở lý thuyết của đề tài.
- Nghiên cứu mơ hình học sâu để trích xuất đặc trưng của ảnh thường
và ảnh nhiệt.
- Xây dựng đa mơ hình ước lượng cảm xúc của người dựa trên ảnh
thường và ảnh nhiệt.
- Tiến hành thực nghiệm và đánh giá kết quả đạt được.
- Đề xuất hướng phát triển trong tương lai của đề tài.


3

3. Đóng góp của luận văn
Đóng góp của luận văn là xây dựng mơ hình kết hợp ước lượng cảm xúc
dựa trên nguồn dữ liệu ảnh thường và ảnh nhiệt. Bên cạnh đó, xây dựng cơ sở
dữ liệu cảm xúc ảnh thường và ảnh nhiệt.
4. Đối tượng và phạm vi nghiên cứu
Đối tượng: Cảm xúc của con người thông qua thông tin khuôn mặt
người.
Phạm vi nghiên cứu:
- Cảm xúc (emotion) trong nghiên cứu này không chỉ là những biểu
hiện bên ngồi của khn mặt mà đó cịn có cả những thay đổi thành

phần vật lí bên trong của khn mặt.
- Nhận biết và dự đoán sự thay đổi cảm xúc trong đề tài này chính là
ước lượng cảm xúc của người dựa trên hai nguồn thông tin (ảnh
thường và ảnh nhiệt) của khuôn mặt người (human emotion
estimation).
- Nhận dạng bảy cảm xúc cơ bản: buồn rầu, hạnh phúc, sợ hãi, giận
dữ, ngạc nhiên, ghê tởm và bình thường.
- Nghiên cứu được thực hiện và kiểm thử trên cơ sở dữ liệu KTFE.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết
- Tìm hiểu các cơng trình nghiên cứu liên quan.
- Tìm hiểu về bài tốn ước lượng cảm xúc con người.
- Tìm hiểu về hình ảnh thường, ảnh nhiệt và trích xuất các đặc trưng
quan trọng dựa trên cơ sở dữ liệu KTFE.
- Tìm hiểu các phương pháp trích xuất đặc trưng và phân loại.
- Tìm hiểu mơ hình học sâu cho bài toán ước lượng cảm xúc.
Phương pháp nghiên cứu thực nghiệm
- Tiến hành phân tích, xây dựng mơ hình và cài đặt.


4

- So sánh và đánh giá kết quả đạt được.
6. Ý nghĩa khoa học và thực tiễn
Về mặt lý thuyết:
Xây dựng đa mơ hình từ nhiều nguồn dữ liệu khác nhau phục vụ khơng
chỉ cho thị giác máy tính mà cịn phục vụ cho cả hướng tâm lí học, và nhiều
hướng khác.
Về mặt thực tiễn:
Việc sử dụng trí tuệ nhân tạo ứng dụng vào giải quyết bài toán thực tế là

cần thiết và cấp bách trong việc hội nhập thời đại cơng nghiệp 4.0 như u
cầu của Thủ tướng Chính phủ.
7. Cấu trúc luận văn
Dựa trên mục tiêu cụ thể đã trình bày trong phần trước, nội dung luận
văn được xây dựng gồm các phần sau:
Chương mở đầu
Chương này giới thiệu tổng quan về đề tài gồm các nội dung như: lý do
chọn đề tài, mục tiêu và nhiệm vụ nghiên cứu, đối tượng và phạm vi nghiên
cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực tiễn cũng như cấu
trúc chung của đề tài.
Chương 1. Tổng quan tình hình nghiên cứu
Chương này giới thiệu tổng quan về tình hình nghiên cứu và tìm hiểu về
cơ sở dữ liệu ảnh thường và ảnh nhiệt. Những kiến thức cơ bản này là tiền đề
để áp dụng vào việc xây dựng đa mơ hình dựa trên hai nguồn dữ liệu (ảnh
thường và ảnh nhiệt).
Chương 2. Cơ sở lý thuyết
Chương này giới thiệu lý thuyết về mạng CNN, kỹ thuật học chuyển
giao, mơ mình mạng pre-trained và độ đo đánh giá mơ hình.
Chương 3. Uớc lượng cảm xúc của người dựa trên ảnh thường và
ảnh nhiệt


5

Chương này vận dụng những kiến thức đã nêu ở chương một và chương
hai để xây dựng đa mơ hình phân lớp từ nhiều nguồn dữ liệu khác nhau và
hợp nhất quyết định sau mỗi nguồn được phân loại riêng lẻ nhằm nâng cao độ
chính xác.
Chương 3. Thực nghiệm và đánh giá
Chương này phân tích về những ưu điểm, nhược điểm, so sánh và đánh

giá kết quả mơ hình ước lượng cảm xúc trên ảnh thường, ảnh nhiệt và mơ
hình kết hợp.
Chương 4. Kết luận và hướng phát triển
Chương này tổng kết lại những gì đã đạt được và chưa đạt được trong
luận văn để từ đó đề xuất những hướng nghiên cứu tiếp theo để nâng cao độ
chính xác về bài toán ước lượng cảm xúc của con người.


6

Chương 1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
1.1. Các cơng trình nghiên cứu liên quan
Trong các bài tốn phân tích cảm xúc hay ước lượng cảm xúc đều có ba
bước chính: phát hiện khn mặt, rút trích đặc trưng và phân loại cảm xúc.
Trong rút trích đặc trưng, ta có thể phân loại làm hai nhánh chính đó là
phương pháp dựa trên đặc trưng biểu hiện (hình dạng) và phương pháp dựa
trên đặc trưng hình học.
Bản chất của rút trích đặc trưng là tìm ra một ánh xạ sao cho hỗ trợ việc
phân loại cảm xúc tốt nhất. Phương pháp rút trích đặc trưng dựa trên hình
học, trích xuất thơng tin đặc trưng bằng hình dạng, khoảng cách và vị trí của
các thành phần trên khn mặt. Cơng việc đầu tiên trong lĩnh vực này là hệ
thống mã hóa hành động mặt (FACS), được thiết kế bởi Ekman [11]. FACS
mã hóa một biểu hiện khn mặt trong 44 đơn vị hành động trên khn mặt
(AU). Ngồi ra các phương pháp dựa trên đặc trưng hình học cịn sử dụng mơ
hình Active Appearance Model (AAM) hoặc các biến thể của nó. Vị trí của
các vùng trên khn mặt này sau đó được sử dụng theo nhiều cách khác nhau
để trích xuất hình dạng các đặc điểm khn mặt và chuyển động các đặc điểm
khuôn mặt khi cảm xúc thay đổi. Choi và cộng sự [12] sử dụng AAM với sự
giảm thiểu bậc hai, và một perceptron đa lớp, để nhận biết biểu hiện khn
mặt. Một ví dụ gần đây về kỹ thuật dựa trên AAM để nhận dạng biểu hiện

khuôn mặt được trình bày trong [13], trong đó các thuật tốn cải tiến AAM
khác nhau được so sánh và đánh giá. Trong [14], [15] các tác giả cũng đã đưa
ra một cách tiếp cận dựa trên đặc trưng hình học để lập mơ hình, theo dõi và
nhận dạng các biểu hiện khuôn mặt.


7

Hình 1.1. Ví dụ về đặc trưng hình học của mặt gồm lông mày, mắt, mũi,
miệng [17]
Các đặc trưng dựa trên hình học mơ tả hình dạng của khn mặt và các
thành phần của khuôn mặt trong khi các đặc điểm dựa trên đặc trưng thể hiện
được tạo ra từ biểu hiện trên khuôn mặt. Các đặc trưng xuất hiện đã được sử
dụng thành công để nhận dạng cảm xúc như tốn tử mơ hình nhị phân cục bộ
(LBP) [16], biểu đồ của gradient định hướng (HOG) [17, 18], cục bộ mơ hình
định hướng (LDP) [19], thơng tin kết cấu dựa trên bộ lọc Gabor [20], phân
tích thành phần chính (PCA) [21] và phân tích phân biệt tuyến tính (LDA)
[22]. Những tiến bộ gần đây trong ảnh hồng ngoại nhiệt đã giúp chúng ta có
được tín hiệu sinh lý, nhiệt độ cơ thể, thông qua các phương tiện không xâm
nhập và không tiếp xúc [23]. Khi một cảm xúc xảy ra, nhiệt độ trên khuôn
mặt xuất hiện do lưu lượng máu mà cơ thể phát ra qua các mạch máu ở dưới
da [24], sự thay đổi này có thể đủ điều kiện và định lượng để có thể nghiên
cứu cảm xúc thông qua ảnh nhiệt. M.M.Khan và các cộng sự của ông [25] đề
xuất sử dụng các điểm đặc trưng nhiệt mặt (FTFP) tỷ lệ chính xác dao động từ
66,3% đến 83,8% với năm loại cảm xúc. Di Giacinto cùng cộng sự [26] khám
phá cảm xúc sợ hãi ở những bệnh nhân bị rối loạn stress sau chấn thương


8


(PTSD). Nó cho thấy rằng nhiệt độ trên mặt ở bệnh nhân PTSD là thấp hơn so
với những người được kiểm soát. Trong [27] các tác giả phân loại các cảm
xúc bất ngờ, hạnh phúc, bình thường từ hai yếu tố đầu vào. Dữ liệu đầu vào
đầu tiên bao gồm các lựa chọn của một tập hợp các vùng thích hợp khi thực
hiện trích xuất đặc trưng, đầu vào thứ hai là ma trận hiệp phương sai mức xám
được sử dụng để tính tốn các bộ mơ tả vùng của ảnh nhiệt. Liu và Wang [28]
đã phân tích dữ liệu chuỗi nhiệt độ mặt, tính tốn thống kê và các tính tốn
biểu đồ khác biệt về nhiệt độ. Hơn nữa, mơ hình Hidden Markov (HMM)
được sử dụng để phân biệt hạnh phúc, ghê tởm và sợ hãi với tỷ lệ công nhận
tương ứng là 68,11%, 57,14% và 52,30%. Họ đã sử dụng các mẫu từ cơ sở dữ
liệu NVIE (biểu hiện trên khuôn mặt tự nhiên và hồng ngoại) để đánh giá kết
quả. Nguyen.H và cộng sự [29] đề xuất phương pháp kết hợp ảnh nhìn thấy và
chuỗi ảnh nhiệt để ước lượng bảy cảm xúc cơ bản. Kết quả được đánh giá với
hai phương pháp phân loại t-PCA và n-EMC trên tập cơ sở dữ liệu KTFE.
B.R. Nhan và T.Chau [30] nhận dạng cảm xúc dựa trên phân tích tần số
thời gian từ chuỗi thời gian trung bình của năm vùng quan tâm trên mặt nhiệt.
Shan He và các cộng sự [31] đề xuất phương pháp nhận dạng cảm xúc với
Deep Boltzmann Machine (DBM) trên cơ sở dữ liệu NVIE đạt tỷ lệ công
nhận là 51,3% . Trong bài báo [32], một phương pháp nhận dạng cảm xúc dựa
vào vùng quan tâm (ROI), như hình 3, và phân loại bằng cách sử dụng SVM
nhiều lớp. Thuật toán được kiểm tra trên cơ sở dữ liệu KTFE công nhận năm
cảm xúc cơ bản gồm tức giận, sợ hãi, hạnh phúc, buồn và bình thường với độ
chính xác 87,50%.


9

Hình 1.2. Trích xuất ROI trong phương thức [32]
Trong nghiên cứu [33], nhóm Wang đã đề ra thuật tốn như Hình 1.3.
Tuy nhiên, thuật tốn này có những ràng buộc ban đầu để xác định ví trị mắt

mũi miệng cho phần rút trích đặc trưng.

Hình 1.3. Thuật tốn xác định cảm xúc [33]
Trong nghiên cứu công bố vào cuối năm 2018, nhóm Basu [34] đã đưa
ra hệ thống phân loại đặc trưng của cá nhân như P, E hay N dựa vào mơ hình
của Eysenck. Hệ thống sử dụng mơ hình kết hợp ảnh thường và ảnh nhiệt


10

trong đó ảnh nhiệt sử dụng mơ hình mạch máu. Mơ hình Markov ẩn dùng để
tìm ra thể hiện cảm xúc với đặc trưng kết hợp được rút trích ở trên. Mặc dù
kết quả đạt khá cao với gần 90% cho việc phân loại cảm xúc nhưng nhóm tác
giả chỉ thực hiện trên 4 cảm xúc cơ bản dễ phân loại. Ngoài ra, một điểm yếu
của nghiên cứu này là việc giới hạn về số dữ liệu.
Trong năm 2018, nhóm Wang [35], cũng đề ra một phương pháp dựa
trên mô hình học sâu và SVM để phân loại cảm xúc. Mục đích của nhóm
hướng tới nhu cầu thực tế với việc chi phí cho camera nhiệt rất tốn kém nên
việc huấn luyện được thực hiện với cả dữ liệu ảnh thường và ảnh nhiệt nhưng
việc kiểm tra được thực hiện chỉ với dữ liệu ảnh thường.
Trong nghiên cứu [36], nhóm Thu Nguyen đề xuất một phương pháp
trích xuất các vùng quan tâm (ROI) trên dữ liệu ảnh nhiệt. Sau đó tiến hành
ước lượng cảm xúc với các phương pháp kinh điển trong lĩnh vực thị giác
máy tính bao gồm: PCA, EMC và kết hợp PCA-EMC trên cơ sở dữ liệu
KTFE đạt tỷ lệ công nhận tương ứng là 90,42%, 89,99%, 85,94%.
1.2. Một số thách thức trong lĩnh vực nghiên cứu nhận dạng cảm xúc
của con người
Từ tổng quan các kết quả nghiên cứu đạt được của các nhóm nghiên cứu
đã có rất nhiều kết quả khả quan và ứng dụng được trong bài toán thực tế. Tuy
nhiên, với những hệ thống này thường nhận dạng trên ảnh thường. Điều đó

dẫn đến kết quả khơng chính xác trong những trường hợp như thiếu ánh sáng,
ảnh bị mờ, màu da hoặc đối với người không thể hiện biểu cảm trên khuôn
mặt nên khó phát hiện được cảm xúc. Đây là thách thức lớn địi hỏi cần có
những hướng nghiên cứu và tiếp cận mới để khắc phục những hạn chế của
ảnh nhìn thấy được nhằm tăng tỉ lệ chính xác hơn trong ước lượng cảm xúc.
Đối với ảnh nhiệt cũng gặp phải một số hạn chế như nhiệt độ cơ thể thay
đổi khi đối tượng tập thể dục hoặc nhiệt độ môi trường xung quanh. Ngoài ra


11

khi đối tượng đeo kính (Eyeglass) sẽ dẫn đến mất thơng tin hữu ích xung
quanh khn mặt nhiệt bởi vì vật liệu thủy tinh ngăn chặn phần lớn năng
lượng nhiệt.
Ngoài ra, việc kết hợp các phương pháp khác nhau để nhận dạng cảm
xúc giúp cải thiện tỷ lệ chính xác hơn cũng là một bài toán cần được nghiên
cứu và phát triển mạnh mẽ trong tương lai.
1.3. Sơ lược về cơ sở dữ liệu cảm xúc
Nhận dạng khuôn mặt người, phân tích cảm xúc và tương tác giữa người
và máy ngày càng được quan tâm, số lượng cơ sở dữ liệu sinh ra để phục vụ
cho việc nghiên cứu về nhận dạng khuôn mặt và cảm xúc ngày càng nhiều
nhưng phổ biến ở cơ sở dữ liệu ảnh thường như CK+ [37], Fer2013 [38] và
còn nhiều cơ sở dữ liệu cảm xúc khác [39], cơ sở dữ liệu cảm xúc thường
được tạo ra trong phịng thí nghiệm nên hầu như cảm xúc được thể hiện một
cách sắp đặt (posed) và thể hiện quá mức.


12

Hình 1.4. Cơ sở dữ liệu FACES [39] thể hiện 6 loại cảm xúc: bình

thường, giận dữ, hạnh phúc, buồn rầu, sợ hãi và ghê tởm.
Bên cạnh đó, có loại cảm xúc được gây ra (induced) không phải do tự
phát, tự sinh ra mà cảm xúc được thể hiện qua sự tương tác giữa người tham
gia và các cá nhân khác hoặc xem qua các phương tiện nghe nhìn để gợi lên
những cảm xúc thực hơn, tự nhiên hơn.
Ngoài ra, cảm xúc được thể hiện trong các bộ dữ liệu tự phát
(Spontaneous) được coi là gần nhất với các tình huống thực tế trong đời sống
hàng ngày. Tuy nhiên, đối với loại cảm xúc tự phát này diễn ra trong khi
người đó khơng biết trước được họ sẽ được ghi hình, quá trình thu thập dữ
liệu sẽ chạm đến quyền riêng tư, việc gán nhãn phải được thực hiện một cách
thủ cơng vì phải qua các bước phân tích dự đoán của chuyên gia, cơ sở dữ liệu
tự phát thường bao gồm các đoạn phim được trích xuất từ phim ảnh [42],
đoạn clip trên YouTube.


13

Có rất ít cơ sở dữ liệu mặt nhiệt được phát triển để hỗ trợ nghiên cứu về
biểu hiện và cảm xúc trên khuôn mặt người. IRIS [44] và NIST / Equinox
[45], bao gồm các cặp ảnh được gắn nhãn với ba cảm xúc chính đặt ra dưới
nhiều ánh sáng và tư thế đầu khác nhau. Cơ sở dữ liệu Natural Visible and
Infrared Facial Expression (NVIE) chứa 215 đối tượng, mỗi đối tượng hiển
thị bảy cảm xúc [43]. Bộ dữ liệu Kotani Thermal Facial Emotion (KTFE) là
cơ sở dữ liệu cảm xúc, được ghi lại trong phịng thí nghiệm và cũng được kích
hoạt thơng qua phương tiện nghe nhìn [8].
Bảng 1.1. Một số cơ sở dữ liệu ảnh nhiệt [8]
Cơ sở dữ liệu

Số lượng


Dải sóng

đối tượng

camera nhiệt

NIST/Equinox

600

IRIS

30

8-12µm,
3-5µm
7-14µm

Loại cảm xúc
Mỉm cười, cau mày
và ngạc nhiên.
Ngạc nhiên, cười và
giận dữ.
Hạnh phúc, giận dữ,

NVIE

215

8-14µm


bình thường, ghê tởm,
sợ hãi, buồn rầu và ngạc
nhiên.
Hạnh phúc, giận dữ,

KTFE

30

8-14µm

bình thường, ghê tởm,
sợ hãi, buồn rầu và ngạc
nhiên.

Tất cả các vật thể, cả tự nhiên lẫn nhân tạo, đều phát ra năng lượng nhiệt
hồng ngoại. Bằng cách phát hiện sự khác biệt nhiệt độ rất tinh vi, công nghệ
hình ảnh nhiệt cho thấy những gì mà mắt thường khơng nhìn thấy được.


14

Máy ảnh nhiệt thường phát hiện bức xạ trong dải hồng ngoại dài của phổ
điện từ (khoảng 9.000–14.000 nm hoặc 9–14 µm) và tạo ra hình ảnh của bức
xạ đó, được gọi là thermograms. Khi camera chụp ảnh nhiệt, các vật thể ấm
áp nổi bật so với các nền lạnh hơn, con người và các động vật máu nóng khác
trở nên dễ dàng nhìn thấy ngay cả trong bóng tối hồn tồn và điều kiện mơi
trường đầy thách thức.


Hình 1.5. Các dải hồng ngoại trong phổ điện từ [46]


×