báo cáo project mô hình học máy cho bài toán nhận diện cảm xúc gương mặt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.55 MB, 32 trang )

Trang 1<div class="page_container" data-page="1">

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VIỆN CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

BÁO CÁO PROJECTĐề tài: Mơ hình học máy cho bài tốn

Nhận diện cảm xúc gương mặt

Giảng viên hướng dẫn: TS. Trần Việt TrungSinh viên thực hiện:

</div>Trang 2<div class="page_container" data-page="2">

Lời nói đầu...6

Chương 1: Tổng quan về đề tài...7

1. Giới thiệu bài toán...7

Chương 2: Khảo sát các bài nghiên cứu...12

1. Facial Emotion Recognition: State of the Art Performance onFER2013...12

a. Ý tưởng của đề tài...12

Chương 3: Các kết quả huấn luyện mơ hình...17

1. Facial Emotion Recognition: State of the Art Performance onFER2013...17

a. VGGNet...17

b. EfficientNet b3...192

</div>Trang 4<div class="page_container" data-page="4">

Phân chia công việc

Dương Ngô KiênTạ Hữu Đăng

Đỗ Đức TiếnKiều Trọng Thành

</div>Trang 5<div class="page_container" data-page="5">

Danh mục hình ảnh

Hình 1: Kiến trúc nhận diện cảm xúc gương mặt theo phương pháp truyền thống...8

Hình 2: Kiến trúc nhận diện cảm xúc gương mặt theo phương pháp học sâu...9

Hình 3: Mơ hình VGGNet...12

Hình 4: Kết quả của mơ hình với các Optimizer và LR Scheduler khác nhau...13

Hình 5: Mơ hình WSCNet...14

Hình 6: Q trình tạo Sentiment map...15

Hình 7: Kết quả training VGG16 với Optimizer SGD và Scheduler RLRP...18

Hình 8: Kết quả training VGG16 với Optimizer Adadelta và Scheduler CosineWR...18

Hình 9: Kết quả training EfficientNet b3 với Optimizer SGD và Scheduler RLRP...19

Hình 10: Kết quả training EfficientNet b3 với Optimizer SGD và Scheduler RLRP...20

Hình 11: Kết quả training Resnet 50 với Optimizer SGD và Scheduler RLRP...20

Hình 12: Kết quả training Resnet 101 với Optimizer SGD và Scheduler RLRP...21

Hình 13: Kết quả training Resnet18 với Optimizer SGD và Scheduler RLRP...24

Hình 14: Kết quả training Resnet18 với Optimizer SGD và Scheduler StepLR...25

Hình 15: Kết quả training Resnet34 với Optimizer SGD và Scheduler StepLR...26

Hình 16: Kết quả training Resnet50 với Optimizer SGD và Scheduler StepLR...27

Hình 17: Kết quả training Resnet101 với Optimizer SGD và Scheduler StepLR...27

Hình 18: Thử nghiệm Ten-crop...29

Hình 19: Các kết quả training VGGNet với Optimizer và Scheduler khác nhau...30

</div>Trang 6<div class="page_container" data-page="6">

Lời nói đầu

Nhận diện cảm xúc khn mặt là một đề tài khá quen thuộc, được chú trọng nghiên cứu và phát triển vì tính ứng dụng của nó. Việc dự đốn cảm xúc gương mặt có thể được ứng dụng trong nhiều lĩnh vực từ y tế, giáo dục, kinh doanh chotới giải trí và chăm sóc khách hàng. Tuy nhiên, việc huấn luyện cho mơ hình có thể xác định được chính xác biểu cảm của gương mặt là không hề đơn giản. Lý do là bởi vì cảm xúc của gương mặt rất phức tạp, các biểu cảm phải được phân tích từ tất cả các đặc điểm trên gương mặt từ mắt, mũi, môi, lông mày,...

Trong các nghiên cứu hiện nay, với tập dữ liệu FER-2013, người ta đã đạt được độ chính xác cao nhất là 73.28% với mơ hình VGGNet khi không sử dụng thêm tập dữ liệu nào khác, và đạt tới 76.82% khi sử dụng thêm tập dữ liệu khác.Với bộ AffectNet, độ chính xác cao nhất đạt 65.69% với 7 loại cảm xúc và 62.09% với 8 loại cảm xúc.

Vì vậy, với mơn học Project, nhóm chúng em sẽ tìm hiểu các bài nghiên cứu mới nhất của đề tài “Nhận diện cảm xúc gương mặt”, tiến hành training từ mơ hình gốc của bài nghiên cứu. Sau đó nhóm chúng em cũng nghiên cứu thay đổi mơ hình để đưa ra các kết quả, từ đó có thể đưa ra các kết luận cho đề tài này nói riêng và cho bài tốn phân loại bằng mơ hình học sâu nói chung.

Bài báo cáo được chia thành 4 chương:Chương 1: Tổng quan về đề tài

Chương 2: Các phương pháp phát triển bài toánChương 3: Các kết quả huấn luyện mơ hìnhChương 4: Nhận xét các mơ hình

</div>Trang 7<div class="page_container" data-page="7">

Chương 1: Tổng quan về đề tài

1. Giới thiệu bài tốn

Với sự phát triển của cơng nghệ, bài tốn nhận diện cảm xúc khn mặtđã được chú trọng nghiên cứu nhờ tính ứng dụng trong thực tiễn. Bài tốnnhằm xây dựng mơ hình huấn luyện để phân loại cảm xúc trên gương mặt.Các nghiên cứu thường tập trung vào 7 loại cảm xúc chính gồm: tức giận,kinh tởm, sợ hãi, vui vẻ, bình thường, buồn bã, bất ngờ trong vơ số các biểucảm có thể có của con người. Bài tốn có đầu vào là bức ảnh tĩnh hoặc hìnhảnh khn mặt trích xuất từ camera, và đầu ra sẽ là dự đoán về cảm xúc củagương mặt đó.

2. Ứng dụng

Việc nhận diện cảm xúc khn mặt có thể ứng dụng trong nhiều lĩnh vựcgiúp cải thiện đời sống con người. Bao gồm các lĩnh vực như:

Giáo dục: Dự đốn, theo dõi và phân tích phản ứng của người

học trong thời gian thực như một thước đo cho hiệu quả của bàigiảng.

Tiếp thị: Các công ty kinh doanh có thể áp dụng cơng nghệ

nhận diện cảm xúc nhằm phân tích thái độ, phản ứng của kháchhàng khi phản hồi với quảng cáo, sản phẩm, bao bì hay thiết kếcửa hàng.

Game: Với sự ra đời của game thực tế ảo gần với trải nghiệm

thực tế. Nhận dạng cảm xúc khn mặt đóng một vai trị quantrọng để các nhà phát triển cải thiện trải nghiệm chơi trò chơi.

Bảo mật: Nhận diện cảm xúc gương mặt giúp xác định hành vi

đáng ngờ của một đối tượng nào đó trong đám đơng và có thểđược sử dụng để ngăn chặn tội phạm và những kẻ khủng bố.

</div>Trang 8<div class="page_container" data-page="8">

Chăm sóc sức khỏe: Nhận diện cảm xúc gương mặt rất hữu ích

trong việc tự động hóa dịch vụ y tế. Cả sức khỏe thể chất và tinhthần có thể được phân tích thơng qua ứng dụng này.

Ngồi ra hệ thống nhận diện cảm xúc khuôn mặt được ứng dụng trong rấtnhiều cuộc sống như đánh giá mức độ đau của bệnh nhân khi điều trị y tế,phát hiện nói dối, giám sát trạng thái của người lái xe, phát hiện trạng tháibuồn ngủ và đưa ra cảnh báo.

3. Các phương pháp phát triển bài tốn

Trong q trình nghiên cứu và phát triển, bài toán Nhận diện cảm xúc gươngmặt đã được áp dụng với hai phương pháp: Phương pháp truyền thống vàPhương pháp hiện đại.

a. Phương pháp truyền thống

Với hệ thống nhận dạng cảm xúc khuôn mặt bằng phương pháp truyềnthống thì bài tốn sẽ được xử lý qua các giai đoạn:

Tiền xử lý hình ảnh khn mặt Trích xuất đặc trưng Phân loại

Hình 1: Kiến trúc nhận diện cảm xúc gương mặt theo phương pháp truyền thống

Tiền xử lý hình ảnh khn mặt: Là q trình được sử dụng để cải thiện

hiệu suất của hệ thống, được thực hiện qua các quy trình khác nhau: cănchỉnh độ rõ, chia tỷ lệ hình ảnh, điều chỉnh độ tương phản và sử dụng cácquy trình nâng cao để cải thiện các khung biểu thức.

Trích xuất đặc trưng trong thị giác máy tính: Là một giai đoạn quan

trọng, giúp chuyển từ mô tả đồ họa sang mơ tả dữ liệu ẩn, trích chọn8

</div>Trang 9<div class="page_container" data-page="9">

những đặc trưng riêng nhất của hình ảnh. Sau đó những mô tả dữ liệu nàyđược sử dụng làm đầu vào cho bài toán phân loại.

Phân loại: Là giai đoạn cuối cùng của hệ thống, nhằm phân loại ra các

loại cảm xúc trên khuôn mặt bao gồm hạnh phúc, buồn bã, bất ngờ, tứcgiận, sợ hãi, ghê tởm và bình thường. Sử dụng các phương pháp phân loạinhư: Cây quyết định (ID3), SVM, HMM (Hidden Markov Model)...Trong đó, phân loại SVM cho độ chính xác cao nhất. Chính vì vậy, SVMlà đại diện cho phương pháp truyền thống để sử dụng cho hệ thống nhậndiện.

b. Phương pháp hiện đại

Trong phương pháp hiện đại, hệ thống nhận diện cảm xúc qua khuôn mặtđược thực hiện qua các giai đoạn:

Tiền xử lý Phân lớp Học sâu

Hình 2: Kiến trúc nhận diện cảm xúc gương mặt theo phương pháp học sâu

Những năm gần đây, học sâu hay còn gọi là Deep Learning là một phươngpháp tiếp cận mới, giúp hệ thống đạt được độ chính xác cao hơn so vớiphương pháp truyền thống, bởi hình ảnh sẽ khơng phải qua bước trích xuấtcác đặc trưng nữa.

Tiền xử lý ảnh: Phương pháp hiện đại cũng cần phải xử lý hình ảnh đầu

vào hệ thống trước quá trình trainning. Các bước thực hiện là: Căn chỉnhkhuôn mặt để phát hiện khuôn mặt, tăng dữ liệu hình ảnh đảm bảo đủ dữliệu training, cuối cùng là chuẩn hóa dữ liệu khuôn mặt. Sử dụng cácphương pháp CNN, DBN, DAE, RNN, GAN...

Phân loại: Trong phương pháp truyền thống, bước trích xuất đặc trưng và

bước phân loại là độc lập với nhau. Tuy nhiên, Deep Learning sẽ thực hiện9

</div>Trang 10<div class="page_container" data-page="10">

đồng thời hai quy trình đó. Hàm mất mát hay còn gọi là Loss Function sẽđược thêm vào cuối mạng để điều chỉnh lại tham số của mơ hình, thuậttốn backpropagation hay cịn gọi là lan truyền ngược được thực hiện đểtối ưu Loss Function. Sau đó, mạng sẽ trực tiếp xuất ra xác suất dự đoáncủa từng loại cảm xúc.

Số lượng: 1 triệu ảnh

Số lượng cảm xúc: 7 dạng cảm xúc Hình thức ảnh: Ảnh màu RGB

b) FER2013

Nguồn download: Benchmark: lượng : 35888 ảnh (28709 ảnh cho tập training, 3589 ảnh cho tập validation, 3589 ảnh cho tập test)

Số lượng cảm xúc: 7 dạng cảm xúc

Hình thức ảnh: Ảnh đen trắng Grayscale kích thước 48x48

c) Google Facial Expression Comparison Dataset

Nguồn download: expression/

</div>Trang 11<div class="page_container" data-page="11">

e) Real-world Affective Faces Database (RAF-DB)

Nguồn download: Real-world Affective Faces (RAF) Database (whdeng.cn)

Số lượng : 29672 ảnh

Số lượng cảm xúc: 7 dạng cảm xúc

Hình thức ảnh: Ảnh màu RGB và ảnh đen trắng Grayscale

</div>Trang 12<div class="page_container" data-page="12">

Chương 2: Khảo sát các bài nghiên cứu

1. Facial Emotion Recognition: State of the Art Performance on

a. Ý tưởng của đề tài

Bài paper sử dụng kiến trúc VGGNet, đồng thời áp dụng nhiều thínghiệm về các thuật tốn optimization và learning rate scheduler khácnhau. Đồng thời, nhóm nghiên cứu áp dụng thêm các kỹ thuật tăng cườngdữ liệu và điều chỉnh tham số (hyperparameter) để mô hình có thể đạtđược độ chính xác là 73.28%. Đây là độ chính xác cao nhất có thể đạtđược khi training với bộ dữ liệu FER2013 mà không sử dụng thêm bất cứtập dữ liệu nào khác.

c. Phương pháp chính

Hình 3: Mơ hình VGGNet

Bài paper sử dụng mơ hình VGGNet với kiến trúc như sau:

4 convolutional stages3 fully connected layer

Mỗi convolutional stages chứa 2 convolutional blocks và 1 pooling layer

max-1 convolution block bao gồm: max-1 convolutional layer ReLU , 1

activation, và 1 batch normalization layer

</div>Trang 13<div class="page_container" data-page="13">

Batch normalization được sử dụng nhằm:

+ Tăng tốc độ quá trình học+ Giảm internal covariance shift

+ Tránh xảy ra gradient vanishing or explosion

2 lớp fully connected đầu tiên kết hợp với ReLU activation

Lớp fully connected cuối cùng dùng để phân loại

Khối convolutional stages có trách nhiệm trích xuất các đặc trưng của khn mặt

Các lớp fully connected được huấn luyện để phân loại cảm xúc khuôn mặt với đầu vào là các đặc trung được trích xuất từ các khối

convolutional stages

d. Tập dữ liệu

- Tập dữ liệu FER2013.csv

e. Kết quả

- Mơ hình đạt độ chính xác 73.28% trên tập test

Hình 4: Kết quả của mơ hình với các Optimizer và LR Scheduler khác nhau

</div>Trang 14<div class="page_container" data-page="14">

5. Weakly Supervised Coupled Networks for Visual Sentiment Analysis

a. Ý tưởng đề tài

Nhận dạng cảm xúc thường khó hơn so với các tác vụ nhận diện thông thường do tính chủ quan cao trong q trình nhận dạng của con người.

Hơn nữa, một vài nghiên cứu cho thấy các vùng trong 1 bức ảnh biểu thị cảm xúc khơng giống nhau.Ví dụ như EmotionROI dataset- tập dataset cung cấp các ảnh đã được localize bằng các bounding box, các box này đại diện cho các vùng biểu thị cảm xúc chính trong 1 bức ảnh

Thay vì dùng các bounding box, ý tưởng chính của Weakly Supervised Coupled Networks là tạo ra 1 ma trận trọng số (soft sentiment map) đại diện cho khả năng biểu thị cảm xúc.

o Nhánh 2 bắt localized representation bằng cách coupling sentiment map với deep features, sau đó được combined với representation tồn thể để có 1 semantic vector.

Mơ hình:

Hình 5: Mơ hình WSCNet

</div>Trang 15<div class="page_container" data-page="15">

o Ảnh đầu vào được đưa vào ResNet-101, và feature maps cuối cùng được chia ra làm hai nhánh.

o Nhánh đầu tiên:

Hình 6: Quá trình tạo Sentiment map

Đưa qua 1 kernel 1x1 để thu thập thông tin cho mỗi loại nhãn, có phản hồi cao với từng vùng phân biệt nhất định. Giả sử có k detectors cho mỗi class, ta đượcfeature maps mới F’ với kích thước w.h.kC (C là số nhãn)

Dùng cross-spatial pooling để tổng hợp tất cả thông tin thành 1 vector duy nhất (Gmax: Global Max Pooling):

Sau đó k đầu ra cho mỗi nhãn được tổng hợp bằng Average Pooling, giá trị được tối đa hóa bằng cách tìmtất cả các discriminative regions của 1 cảm xúc cụ thể.Vector v sau đó được đưa qua softmax layer, ta có hàm loss đầu tiên (sentiment detection loss):

</div>Trang 16<div class="page_container" data-page="16">

Tạo ra sentiment map: đưa các feature maps trong F’ qua AveragePooling sau đó nhân với các trọng số tương ứng trong v

o Nhánh thứ 2: Classification :

Sentiment map biểu thị các vùng phân biệt trong ảnh có nhiều thơng tin cho classification tasks.Sau khi tạo ra sentiment map M, Coupled feature maps F với M, sau đó nối (concatenate) ln với FTừ đấy tạo ra feature d bằng Global Average Pooling các feature máp dã nối ở trên , sentiment scores s(y =c | d, w ) được định nghĩa:ic

Hàm loss thứ hai:

o Join training process: Hàm loss chung cho cả quá trình train

</div>Trang 17<div class="page_container" data-page="17">

Chương 3: Các kết quả huấn luyện mơ hình

Trong Project này, nhóm chúng em sẽ thử nghiệm các mơ hình với bộ data FER2013.csv với các thông tin như sau:

- Bộ ảnh gồm 35.887 bức ảnh đen trắng, tỉ lệ 48 x 48, được chia thànhcác tập:

+ Training set: 28709 ảnh+ Validation set: 3589 ảnh+ Testing set: 3589 ảnh

- Dữ liệu bao gồm 7 loại cảm xúc khác nhau, bao gồm:+ Tức giận: 4953 ảnh

+ Ghê tởm: 547 ảnh+ Sợ hãi: 5121 ảnh+ Vui vẻ: 8989 ảnh+ Buồn: 6077 ảnh+ Ngạc nhiên: 4002 ảnh+ Bình thường: 6198 ảnh

1. Facial Emotion Recognition: State of the Art Performance onFER2013

Lần thử nghiệm này là tái hiện lại bài paper: “Facial Emotion Recognition:State of the Art Performance on FER2013”.

- Đạt độ chính xác 69.16% trên tập test khi sử dụng Optimizer SGD và

Scheduler ReduceLROnPlateau (RLRP) (50 epochs)

</div>Trang 18<div class="page_container" data-page="18">

Hình 7: Kết quả training VGG16 với Optimizer SGD và Scheduler RLRP

- Đạt độ chính xác 55.67% trên tập test khi sử dụng Optimizer

Adadelta và Scheduler CosineWR (30 epochs)

Hình 8: Kết quả training VGG16 với Optimizer Adadelta và Scheduler CosineWR

</div>Trang 19<div class="page_container" data-page="19">

- Đạt độ chính xác 67.51% trên tập test khi sử dụng Optimizer

Adagrad và Scheduler CosineWR (30 epochs)

Hình 9: Kết quả training EfficientNet b3 với Optimizer SGD và Scheduler RLRP

- Đạt độ chính xác 69.13% trên tập test khi sử dụng Optimizer SGD và

Scheduler ReduceLROnPlateau (RLRP) (30 epochs)

</div>Trang 20<div class="page_container" data-page="20">

Hình 10: Kết quả training EfficientNet b3 với Optimizer SGD và Scheduler RLRP

g. Resnet50

- Đạt độ chính xác 69.77% trên tập test khi sử dụng Optimizer SGD và

Scheduler ReduceLROnPlateau (RLRP) (50 epochs)

Hình 11: Kết quả training Resnet 50 với Optimizer SGD và Scheduler RLRP

h. Resnet101

- Đạt độ chính xác 69.07% trên tập test khi sử dụng Optimizer SGD và

Scheduler ReduceLROnPlateau (RLRP) (30 epochs)

</div>Trang 21<div class="page_container" data-page="21">

Hình 12: Kết quả training Resnet 101 với Optimizer SGD và Scheduler RLRPi. Bảng tổng hợp kết quả

Model Lầần OptimizerSchedulerKếết quảN

1SGD ReduceLROnPlateau(RLRP)

Train accuracy86.92%Trainnhaaccuxuốốkho nả

và ko t eừVal accuracy72.50%

2SGD ReduceLROnPlateau(RLRP) epochs60

Train accuracy87.34% Val axuốốkho nả

và ko t eừVal accuracy72.00% 73.3352%(54)

3AdadeltaCosineWR epochs42

Train accuracy51.58% 51.7256%(41) Trainacc lên

tăngepocthấốp lấầnVal accuracy59.13% 59.3759%

4AdadeltaCosineWR 50epochs

Train accuracy51.92%

Acc thv i lấớVal accuracy56.98%

Test accuracy55.67%Test loss0.02%

5SGD ReduceLROnPlateau(RLRP) epochs38/50 Train accuracy 77.97% D nGPừVal accuracy69.24%72.1092 %

</div>Trang 22<div class="page_container" data-page="22">

accuxuốốkho nả6

SGD ReduceLROnPlateau(RLRP)13epochs

và ko t eừVal accuracy70.94%72.19%

10SGD ReduceLROnPlateau(RLRP) epochs50

Train accuracy85.31%

Nh nậVal accuracy70.77% 72.7222%(41)Test accuracy69.16%

Test loss0.02%

EfficientNet b3

1AdagradCosineAnnealingLR epochs30

Train accuracy65.49%65.68%Nh nậVal accuracy69.21%69.35%Test accuracy67.51%

Test loss 0.0142242SGD ReduceLROnPlateau

Train accuracy73.91%

Nên teVal accuracy69.38%

Test accuracy69.13%Test loss0.02%

1SGD ReduceLROnPlateau(RLRP) epochs28

Train accuracy74.63%

D nừ

Val accuracy69.96%Test accuracy

Test loss

2SGD ReduceLROnPlateau(RLRP) epochs50

Train accuracy88.77%

Val accuracy70.72% 71.1619%(48)Test accuracy69.77%

Test loss0.02%Resnet10

1 1 SGD

Train accuracy80.45%TraiResneVal accuracy69.55%71.3291%(2

</div>

báo cáo project mô hình học máy cho bài toán nhận diện cảm xúc gương mặt

<b>TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI</b>

<b>BÁO CÁO PROJECTĐề tài: Mơ hình học máy cho bài tốn</b>

<b>Nhận diện cảm xúc gương mặt</b>

<b>Phân chia công việc</b>

<b>Danh mục hình ảnh</b>

<b>Lời nói đầu</b>

<b>Chương 1: Tổng quan về đề tài</b>

<b>Chương 2: Khảo sát các bài nghiên cứu</b>

<b>Chương 3: Các kết quả huấn luyện mơ hình</b>

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về