Tải bản đầy đủ (.pdf) (54 trang)

(Luận văn thạc sĩ) human action and detect abnormal behavor from camera ,hành vi con người và phát hiện hành vi không bình thường từ camera

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.66 MB, 54 trang )

UNIVERSITE NATIONAL DU VIETNAM, HANOI
INSTITUT FRANCOPHONE INTERNATIONAL

COULIBALY Adama

Human action and detect abnormal
behavor from camera
Hành vi con người và phát hiện hành vi
khơng bình thường từ camera

MÉMOIRE DE FIN D’ÉTUDES DE MASTER EN INFORMATIQUE

HANOăI 2020


UNIVERSITE NATIONAL DU VIETNAM, HANOI
INSTITUT FRANCOPHONE INTERNATIONAL

COULIBALY Adama

Human action and detect abnormal
behavor from camera
Hành vi con người và phát hiện hành vi
khơng bình thường từ camera
Spécialité : Système Intelligent et multimédia
Code : Programme pilote

MÉMOIRE DE FIN D’ÉTUDES DE MASTER EN INFORMATIQUE

Sous la direction de :
— Dr. Phuc Trong Nguyen, Responsable du laboratoire de


recherche et développement de IFI – SOLUTION.
Lu et approuvộ

HANOăI - 2020


ATTESTATION SUR L’HONNEUR
J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les
données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée.

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tơi. Các số liệu, kết quả nêu
trong Luận văn là trung thực và chưa từng được ai cơng bố trong bất kỳ cơng
trình nào khác. Các thơng tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.

Signature de l’étudiant

COULIBALY Adama

1


Remerciement
Je souhaite avant tout remercier mon encadreur pédagogique de stage M. NGUYEN
Phan Quang responsable du département de logiciel N1 de IFI SOLUTION, à qui
je voudrais témoigner toute ma vive gratitude. Je tiens également à remercier Dr.
NGUYEN Trong Phuc et M. NGUYEN Khoi, pour le temps qu’ils ont consacré à m’apporter les outils méthodologiques indispensables à la conduite de cette
recherche. Leurs exigence m’ont grandement stimulé.
Un grand merci également à toute l’équipe de IFI SOLUTION trop nombreux
pour les citer, qui ont participé de prêt comme de loin à la réalisation et validation

de ce projet. Ce travail n’aurait pu être accompli sans leur effort et leur contribution
passionnées.
Je voudrais remercier notre responsable de Master Dr Ho Tuong Vinh ainsi que
tous les personnels pédagogiques et administratifs de l’Institut Francophone International, Université National de Vietnam à Hanoi. Je leur suis reconnaissant de
tout cœur pour avoir assuré et amélioré la qualité de notre formation. En particulier, je tiens à exprimer ma profonde gratitude à mes parents, à ma famille pour
tout leurs efforts à mon éducation, ma santé et bien d’autre chose que je ne peut
toute les énuméré, qui m’ont permit d’être là aujourd’hui. J’aimerais aussi exprimer
ma gratitude à M. NGUYEN Quang pour son encadrement et ces conseils lors du
module Travaux Personnel Encadré durant le Master 1. Sans oublier mes amis qui
ont toujours été là pour moi. Votre soutien inconditionnel et vos encouragements
ont été d’une grande aide. Je vous remercie.

2


Table des figures
1
2
3
4
5
6
7
8
9
10
11
12
13
14

15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Violence detection by 3D convolutional networks in ref. [10] . . . . .
Le logo de IFI SOLUTION . . . . . . . . . . . . . . . . . . . . . . .
Exemple de Violences . . . . . . . . . . . . . . . . . . . . . . . . . .
Organigramme général de l’approche proposée. . . . . . . . . . . . .
Le processus général pour la génération de sacs-de-mots audio-visuels.
Détection des événements anormaux dans les séquences vidéo. . . .
Processus de fusion multimodale . . . . . . . . . . . . . . . . . . . .
Archtecture basées sur les trames (changements inter-images) . . . .
Une illustration des descripteurs de mouvement binaires locaux . .
L’encodeur spatio-temporel . . . . . . . . . . . . . . . . . . . . . . .
Présentation d’une cellule BiConvLSTM. . . . . . . . . . . . . . . .
Schéma du codeur spatial . . . . . . . . . . . . . . . . . . . . . . .
L’architecture à cadre unique . . . . . . . . . . . . . . . . . . . . .

L’architecture à cadre multiple. . . . . . . . . . . . . . . . . . . . .
L’architecture du modèle Darknet-19. . . . . . . . . . . . . . . . . .
ReLU f(x). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ReLU. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Max Pooling1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Max Pooling2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Max Pooling3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Graphe de la précisions du modèle à cadre unique. . . . . . . . . . .
Graphe de la perte du modèle à cadre unique. . . . . . . . . . . . .
Graphe de la précision du modèle à cadre multiple . . . . . . . . . .
Graphe de la perte du modèle à cadre multiple . . . . . . . . . . . .
Détection de non violence dans la vidéo 01 . . . . . . . . . . . . . .
Détection de non violence dans la vidéo 02 . . . . . . . . . . . . . .
Détection de violence dans la vidéo 01 . . . . . . . . . . . . . . . .
Détection de violence dans la vidéo 02 . . . . . . . . . . . . . . . .
Violence non détecter dans la vidéo 01 . . . . . . . . . . . . . . . .
L’architecture de la solution . . . . . . . . . . . . . . . . . . . . . .

3

10
12
13
16
17
18
19
20
21
23

26
27
30
31
33
34
35
36
36
36
40
40
41
41
42
43
43
44
44
45


Résumé
La sécurité des citoyens dans les environnements urbains modernes est un aspect
important de la qualité de la vie. La mise en œuvre d’une approche de la vidéosurveillance basée sur les villes intelligentes dépend en grande partie de la capacité
de collecte et de traitement de grandes quantités de données urbaines en direct.
L’analyse des données provenant de flux vidéo de surveillance à bande passante
élevée fournis par des réseaux de capteurs distribués de grande taille est particulièrement difficile. Le sujet de ce stage s’inscrit dans le contexte de la détection
automatique du comportement violent à partir de séquences vidéos de surveillance,
qui est une des préoccupations majeures dans le domaine de la vision par ordinateur. Les domaines d’application pour les systèmes de vision sont nombreux. On

peut citer notamment la vidéo surveillance, la recherche et l’indexation automatique de vidéos ou encore l’assistance aux personnes âgées et fragiles. Cette tâche
reste très problématique par le fait des grandes variations dans la manière de réaliser les comportements, l’apparence de la personne et les variations des conditions
d’acquisition.
Le travail réalisé s’inscrit dans le cadre du projet Bahavior Abnormal Detection
(Détection de comportement anormal) et fait usage des méthodes de deep learning de la computer vision sur des vidéos issues des caméras de surveillance. La
première tache à faire était d’étudier le domaine de la détection d’anomalie dans
une vidéo de surveillance, de mettre en évidence les différences cas possible, ces
relations, sa sollicité dans le monde réel. La seconde tache était de proposer une
solution au problème en spécifiant un cas d’application bien définir et qui soit un
besoin réel dans notre quotidien.
Suite à une étude bibliographique approfondir du domaine, en réponse l’objectif rechercher, nous optons pour la détection de violence dans une vidéo de surveillance.
Pour ce faire, nous avons fait usage de la combinaison de réseaux de neurones
convolution (CNN), pour l’aspect spatio-temporel afin d’extraire les caractéristiques pertinentes ainsi que du réseau de neurones récurrente (RNN) reconnu pour
le traitement séquentiel des données, le but d’améliorer les résultats obtenus.
Le modèle mise en place prend suite à notre spécification de domaine, prend en
entrée des vidéos pour les modelés CNN, c’est à dire une séquence d’images extraire de la vidéo. Ils sont capables de faire une prédiction avec un bon taux de
précision et de reconnaˆıtre les comportements violent effectuées par des personne
dans une vidéo.
Les actions constituant notre base de vidéos sont de deux catégories (Violence et
Non-violence), avec lesquelles nous avons fait différentes expérimentations avec la
validation sur l’ensemble de nos deux actions et à l’issu des entraˆınements nous
avons obtenons de bon résultats, mais avec certaines confusion dans certaines actions.
4


Mots clés : réseaux de neurones convolutionnel ; réseaux de neurones récurrente ;
l’apprentissage en profondeur ; vision par ordinateur ; détection de comportement
anormale ; détection de la violence ; Villes intelligentes

5



Abstract
Citizen security in modern urban environments is an important aspect of the quality of life. The implementation of a video surveillance approach based on smart
cities largely depends on the capacity to collect and process large quantities of
live urban data. Analysis of data from high bandwidth surveillance video streams
provided by large distributed sensor networks is particularly difficult. The subject
of this internship is in the context of automatic detection of violent behavior from
surveillance video sequences, which is one of the major concerns in the field of
computer vision. The fields of application for vision systems are numerous. These
include video surveillance, automatic search and indexing video or the elderly and
frail assistance. This task remains very problematic because of the great variations
in the way behaviors achieving, the person appearance of and the variations in the
acquisition conditions.
The work carried out is part of the Bahavior Abnormal Detection project and
makes use of deep learning methods, computer vision methods on videos from surveillance cameras. The first task to do was to study the anomaly detection field in
a surveillance video, to highlight the differences cases possible, these relationships,
its demand in the real world. The second task was to propose a solution to the
problem by specifying a well defined application case which is a real need in our
daily life.
Following a thorough bibliographic study of the field, in response to the objective
sought, we opt for the violence detection in a surveillance video. About it, we used
the combination of convolutional neural networks (CNN), for the spatio-temporal
aspect in order to extract the relevant characteristics, as well as the recurrent neural network (RNN) recognized for the sequential data processing, the purpose of
improving the results obtained. The model implemented follows our domain specification, takes as input videos for CNN models, ie a sequence of images extracted
from the video. They are able to make a prediction with a good rate of accuracy
and to recognize violent behavior carried out by people in a video. The actions
constituting our video base are of two categories (Violence and No-violence), with
which we have made different experiments with validation on all of our two actions
and at the end of the training we have obtained good results , but with certain

confusion in certain actions.
Keywords : Convolutional neural networks ; recurrent neural networks ; deep
learning ; computer vision ; detection of abnormal behavior ; detection of violence ;
Smart cities.

6


Acronymes
DL : Deep Learning ;
CV : Computer Vision ;
CNN : Convolution Neuronal Network ;
RNN : Recurrent Neuronal Network ;
LSTM : Long short-term memory ;
LDA : Latent Dirichlet Allocation ;
SVM : Support Vector Machine ;

7


Table des matières
1 Présentation du projet
1.1 Structure d’accueil . . . .
1.1.1 Contexte du projet
1.1.2 Problématique . . .
1.1.3 Objectifs du stage .

.
.
.

.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.

.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.

.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

2 État de l’art
2.1 Détection de violence : . . . . . . . . . . . . . . . . . . . .
2.1.1 L’approche à l’aide de fonctionnalités de bas niveau

2.1.2 L’approches à l’aide du descripteur audio-visuel . .
2.1.3 L’approche heuristique du comportement . . . . . .
2.1.4 L’approche basées sur fonctionnalités audio . . . . .
2.1.5 L’approche basées sur les trames . . . . . . . . . .
2.1.6 L’approche basées sur les points d’intérêt . . . . . .
2.2 Architecture des modèles de la détection de violences . . .
2.2.1 Architecture d’encodage spatio-temporel . . . . . .
2.2.2 Architecture du codeur spatial . . . . . . . . . . . .
3 Solutions envisagées et contributions
3.1 Base de données . . . . . . . . . . . .
3.1.1 Collecte de données . . . . . .
3.1.2 Nos jeu de données . . . . . .
3.2 Nos classes (étiquettes) . . . . . . . .
3.3 Modèles . . . . . . . . . . . . . . . .
3.3.1 Les modèles à cadre unique .
3.3.2 Les modèles à cadre multiple .
3.3.3 Darknet-19 . . . . . . . . . .
3.3.4 Paramètres du modèle . . . .
3.3.5 Optimisation des modèles . .
3.3.6 Évaluation de nos modèles . .

.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.

.
.
.

12
12
13
13
14

.
.
.
.
.
.
.
.
.
.

15
15
15
16
17
19
20
20
22

23
26

.
.
.
.
.
.
.
.
.
.
.

28
28
28
28
29
29
29
31
32
34
36
37

4 Résultats et analyses
38

4.1 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.1 Outils et environnement de travail . . . . . . . . . . . . . . . 39
4.1.2 Expérimentation du modèle à cadre unique, Darknet19+3FC 40
4.1.3 Expérimentation du modèle à cadre multiple, Darknet19+CNN+LSTM 41
4.2 Résultat attendu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3 Architecture de la solution . . . . . . . . . . . . . . . . . . . . . . . 45
8


5 CONCLUSION et PERSPECTIVES
47
5.1 CONCLUSION GÉNÉRALES . . . . . . . . . . . . . . . . . . . . . 47
5.2 PERSPECTIVES . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

9


INTRODUCTION GÉNÉRALE
La surveillance vidéo par réseau de capteurs dans les zones urbaines implique de
grandes quantités de petits nœuds capables de la détection vidéo. Une approche
possible repose sur un nœud central puissant capable de mettre en œuvre des
solutions DL en traitant des flux vidéo collectés à partir des nœuds du réseau.
Cette approche centralisée présente un inconvénient majeur lié à la bande passante
requise compte tenu du streaming (diffusion) vidéo haute résolution. Une meilleure
solution implique un traitement distribué au niveau de chaque nœud. Le problème
principal dans ce cas est la faible puissance de calcul disponible pour la mise en
œuvre de l’algorithme DL.
Les travaux antérieurs sur la détection de la violence utilisent des fonctionnalités
traditionnelles telles que BoVW, STIP et MoSIFT, et les classent par SVM [9].
Ding et. Al. extraire les caractéristiques spatiales et temporelles à l’aide des couches

de convolution 3D et les classer selon les couches entièrement connectées (comme le
montre la Figure.1) 1 [10]. Cependant, les deux méthodes proposées ne supportent
pas bien la longueur variable des vidéos. Et le temps de calcul de la convolution
3D augmente rapidement en raison de la profondeur de l’axe temporel.

Figure 1 – Violence detection by 3D convolutional networks in ref. [10]

1. https ://www.researchgate.net/figure/Our-3D-ConvNet-architecture-for-spatio-temporalfeatures-constructionf ig12 21620711

10


Structure du mémoire
Chapitre 1 : dans ce chapitre, nous présentons, de manière générale, l’organisme
d’accueil de ce stage ainsi que le projet "Abnormalie detection" autour duquel est
né ce sujet du stage, la problématique et les objectifs de notre travail.
Chapitre 2 : le chapitre 2 contient l’étude bibliographique (état de l’art) concernant la détection de la violence, les différentes méthodes et architectures d’apprentissage profond utilisées pour cette problématique.
Chapitre 3 : ce chapitre concerne les solutions envisagées à l’issu des différentes
méthodes d’apprentissage profond existantes dans la littérature. Nous faisons usage
de la combinaison des deux méthodes CNN avec RNN en particulier du LSTM.
Chapitre 4 : le chapitre 4 présente différents résultats des expérimentations et
approches utilisées sur les vidéos.

11


Chapitre 1

1


Présentation du projet

1.1

Structure d’accueil

Ce stage s’est déroulé au sein de l’établissement IFI Solution 2 , c’est une entreprise de développement informatique situer à Hanoi au Vietnam, qui fournit des
services professionnels d’externalisation de logiciels dans plusieurs domaines tel
que :
— la télécommunication
— l’énergie
— la santé
— l’automobile
— la gestion des données
— la finance
— la banque
Avec plus de 15 ans d’expérience et un engagement élevé dans la qualité, IFI
Solution intervient dans différents pays, notamment en France, en Italie, au Japon,
en Suisse et en Allemagne.
Les principaux service d’externalisation de logiciel à IFI Solution sont :
— Développement d’applications mobiles
— Développement d’applications Web frontales
— Développement d’applications Web back-end (serveur)
— Développement de logiciels embarqués
— Tests de logiciels (tests automatisés, tests manuels)

Figure 2 – Le logo de IFI SOLUTION

2. https ://www.ifisolution.com/


12


1.1.1

Contexte du projet

Ce sujet de stage est né d’une problématique autour de la sécurité dans un smart
city (une ville intelligente), l’automatisation des systèmes de sécurité à l’aide des
caméras de surveillance, aujourd’hui, qui ne cesse d’augmenter en quantité et qualité autour de nous dans nos vie quotidienne dans des lieux public comme privé,
dans nos service comme nos domicile. La sécurité des citoyens dans les environnements urbains modernes est un aspect important de la qualité de la vie. Promouvoir la capacité, l’importance de la vidéosurveillance basée sur les villes intelligentes. L’exploitation des sources de données fournissant une quantité énorme
d’informations précieuses le plus tôt possible afin de prendre des décisions et agir
en conséquence. Inspectées, identifié les évènements inattendu beaucoup plut tôt,
d’extraire des actions humaines à partir de vidéos enregistrées ou éventuellement
en temps réel, de reconnaˆıtre des modèles et d’apprendre les comportements habituels, puis de détecter s’il en existe des anormaux. L’approche de la ville intelligente
est considérée comme une solution prometteuse aux problèmes liés à l’urbanisation accrue. Vues les performances de certaines méthodes de deep learning et de
la vision par ordinateur de comprendre, caractériser le mouvement et des comportements humain sur certaines données vidéo, il était question de les appliquer
sur nos données. Le but du projet est d’utiliser des informations provenant des
caméras de surveillance pour l’optimisation de la sécurité des personnes dans les
périmètre du systèmes de sécurité urbain, de détecter des évènements anormaux

1.1.2

Problématique

La problématique de notre travail fait mention de la reconnaissance des actions
humaines telles que : violence et non violence. Ces actions expliquent entre autres
les activités effectuées par au moins deux personnes dans une scène (voir Figure
3 3 ).


Figure 3 – Exemple de Violences

3. https ://vision.seecs.edu.pk/vision-based-violence-detection-system/

13


1.1.3

Objectifs du stage

Les objectifs de ce stage étaient de faire :
— une études préalable du domaine de la détection d’anomalie des comportements humain via une caméra de surveillance,
— proposer une solution spécifique du domaine de la détection d’anomalie,
donc la détection de violence,
— mettre en œuvre cette solution permettant d’extraire les actions humaines
et de détecter les comportements anormaux à partir d’une caméra en utilisant les certaine technique de l’apprentissage profond et de la vision par
ordinateur.

14


Chapitre 2
2
2.1

État de l’art
Détection de violence :

La détection d’anomalies est l’un des problèmes les plus difficiles et les plus

anciens de la vision par ordinateur [21, 16, 18]. Pour les applications de vidéo
surveillance, plusieurs tentatives de détection de la violence ou de l’agression [17,
19] sont présentées dans des vidéos. Datta et al. ont proposés de détecter la violence
humaine en exploitant le mouvement et l’orientation des membres. Kooij et al. [17]
ont utilisé des données vidéo et audio pour détecter les actions agressives dans les
vidéos de surveillance.
Différente approches de la détection de violence ont été proposés, à savoir :
— L’approche à l’aide de fonctionnalités de bas niveau ;
— L’approches du descripteur audio-visuel ;
— L’approche heuristique du comportement ;
— L’approche basées sur fonctionnalités audio
— L’approche basées sur les trames
— L’approche basées sur les points d’intérêt
Nous présentons quelque explications de ces approches de la détection de violences de la vidéo surveillance dans les sections suivante.
2.1.1

L’approche à l’aide de fonctionnalités de bas niveau

L’organigramme général de l’approche de la détection de la violence par fonctionnalités de bas niveau est composé de cinq phases à savoir :
— prétraitement vidéo,
— segmentation de région de mouvement,
— extraction de caractéristiques de bas niveau,
— traitement de caractéristiques et classification
— prédiction.
Comme mentionné dans la référence [15], les images consécutives sont très redondantes, il n’est donc pas nécessaire d’extraire les images image par image. Pendant
la phase de prétraitement vidéo, les images sont extraires d’une longue séquence
vidéo en utilisant une stratégie d’échantillonnage temporel clairsemée, qui est appelée cadre de segment temporel [15]. L’organigramme général de l’approche est
illustré dans la figure 4.

15



Figure 4 – Organigramme général de l’approche proposée.

Cinq phases sont impliquées : le prétraitement vidéo, la segmentation de la région
de mouvement, l’extraction d’entités, le traitement et la prédiction d’entités.
2.1.2

L’approches à l’aide du descripteur audio-visuel

Cette section décrit la représentation audio-visuelle jointe proposer pour la détection des événements et plus précisément de scènes violentes. Le but étant d’exploiter la forte corrélation entre l’information audio et l’information visuelle afin
de découvrir des motifs audio-visuels capables d’identifier les scènes violentes.
La représentation des motifs audio-visuels est censée donner de meilleurs résultats
qu’une simple fusion (précoce ou tardive) des deux modalités audio et visuelle qui
ignore leurs corrélations. La méthode proposée est composée de trois étapes :
1. Dans un premier temps, les descripteurs locaux audio et visuels sont extraits
à partir de la vidéo ;
2. Ensuite, les motifs bimodaux (ou encore les mots bimodaux) sont trouvés
et le dictionnaire bimodal est construit ;
3. Enfin, la représentation sous la forme de sacs-de-mots bimodaux est construite
par l’intermédiaire de ces mots.
Le processus général de la méthode est illustré dans la figure 5.

16


Figure 5 – Le processus général pour la génération de sacs-de-mots audio-visuels.

2.1.3


L’approche heuristique du comportement

Gao et al. les descripteurs de flux violents proposés pour détecter la violence
dans les vidéos de foule. Plus récemment, Mohammadi et al. [19] ont proposés
une nouvelle approche basée sur une approche heuristique du comportement pour
classifier les vidéos violentes et non violentes. Au-delà de la discrimination fondée
sur des formes violentes et non violentes, les auteurs dans [20] ont proposés d’utiliser le suivi pour modéliser le mouvement normal de personnes et détecter une
déviation de ce mouvement normal comme une anomalie. En raison de la difficulté
d’obtenir des pistes fiables, plusieurs approches évitent de suivre et apprennent les
modèles de mouvement globaux à l’aide de méthodes basées sur l’histogramme,
la modélisation de sujets [16], les modèles de mouvement, les modèles de forces
sociales, les mélanges de modèles de textures dynamiques.
La structure générale est illustré dans la figure 6.

17


Figure 6 – Détection des événements anormaux dans les séquences vidéo.

Tout d’abord, nous avons une extraction d’une description de mouvement au
moyen d’un flux optique dense (l’advection de particules peut également être utilisée). Deuxièmement, en suivant l’équation de dérivée substantielle, nous calculons
la force locale et la force de convection entre chaque paire consécutive de trames.
Ensuite, nous avons suivi le paradigme standard du sac de mots pour chaque force
séparément, en échantillonnant P patchs et en les encodant dans K centres. Enfin,
nous concaténons les histogrammes pour former le descripteur final, défini comme
la force totale.

18



2.1.4

L’approche basées sur fonctionnalités audio

Les premiers travaux sur le terrain comprennent [32], présenter dans la figure 8,
où des scènes violentes dans des vidéos ont été reconnues en utilisant la détection
de flammes et de sang et en capturant le degré de mouvement, ainsi que les sons
caractéristiques des événements violents.

Figure 7 – Processus de fusion multimodale

Un travail important a été réalisé sur l’exploitation des fonctionnalités audio et
vidéo d’une vidéo afin de détecter et localiser la violence [26]. Par exemple, dans,
une méthode faiblement supervisée est utilisée pour combiner les classificateurs
auditifs et visuels de manière co-formative. Bien que l’intégration de l’audio dans
l’analyse soit souvent plus efficace, l’audio n’est pas souvent disponible dans les
vidéos de surveillance publique. Ce problème a été résolut en développant une
architecture de détection de la violence qui ne nécessite pas de fonctionnalités
audio. De plus, la violence est une catégorie assez large, englobant non seulement
la violence de personne à personne, mais aussi la violence de foule, la violence
sportive, le feu, les coups de feu, la violence physique, etc. Dans [31], la violence
des foules est détectée à l’aide du modèle allocation de Dirichlet latente (LDA)
et des machines à vecteurs de support (SVM). La détection de la violence par la
détection d’objets spécifiques liés à la violence tels que les armes à feu est également
un sujet de recherche actuel.

19


2.1.5


L’approche basées sur les trames

Plusieurs techniques existantes utilisent des changements inter-images pour la
détection de la violence, afin de capturer des modèles de changement de mouvement rapide qui sont typiques d’une activité violente. [24] ont proposés l’utilisation
d’estimations d’accélération calculées à partir du spectre de puissance des trames
adjacentes comme indicateur de mouvement rapide entre trames successives. [36]
ont proposés un réseau neuronal profond pour la détection de la violence en se
nourrissant des différences de trame. Il a été proposés d’utiliser des caractéristiques
d’objets blob, obtenues en soustrayant des trames adjacentes, comme descripteur
de caractéristiques. Dans la figure ci-dessous nous avons une illustration de la basés
sur les trames.

Figure 8 – Archtecture basées sur les trames (changements inter-images)

2.1.6

L’approche basées sur les points d’intérêt

D’autres méthodes suivent des techniques telles que le suivi du mouvement et
la position des membres etc, pour identifier les points d’intérêt spatio-temporels
et extraire les caractéristiques de ces points. Il s’agit notamment du détecteur de
coin Harris [22], de la transformation des caractéristiques invariantes à l’échelle du
mouvement (MoSIFT), illustrer dans la figure 9.

20


Figure 9 – Une illustration des descripteurs de mouvement binaires locaux


Les descripteurs MoSIFT sont obtenus à partir de points saillants en deux parties : la première est un histogramme agrégé de gradients (HoG) qui décrit l’apparence spatiale. La deuxième partie est un histogramme agrégé de flux optique
(HoF) qui indique le mouvement du point caractéristique. [38] ont utilisé une
version modifiée du descripteur local motion-Weber (MoIWLD), suivie d’une représentation clairsemée comme descripteur de caractéristique.

21


2.2

Architecture des modèles de la détection de violences

Pour classer de manière appropriée la violence dans les vidéos, un encodage
vidéo robuste a été générer pour passer à travers un réseau de classificateurs entièrement connecté. Cette représentation vidéo a été produit à travers un encodeur
spatio-temporel. Cela extrait des caractéristiques d’une vidéo qui correspondent
aux détails spatiaux et temporels via un encodeur spatio-temporel (Section.2.2.1).
Le codage temporel est effectué dans les deux directions temporelles, permettant
d’accéder aux informations futures de l’état actuel. Une version simplifiée de l’encodeur spatio-temporel qui code uniquement les entités spatiales via un encodeur
spatial simplifié a été étudier (Section.2.2.2). Les architectures de ces deux encodeurs sont décrites ci-dessous.

22


2.2.1

Architecture d’encodage spatio-temporel

Figure 10 – L’encodeur spatio-temporel

L’encodeur spatio-temporel est composé de trois parties : un encodeur spatial
réseau VGG13, un LSTM à convolution bidirectionnelle (BiConvLSTM), un encodeur temporel et un classificateur. Les trames sont redimensionnées à 224 ×

224 et la différence entre les trames adjacentes est utilisée comme entrée sur le
réseau. Le classificateur VGG et la dernière couche de regroupement maximale
sont supprimés du réseau VGG13 (bleu et rouge). Les mappes de caractéristiques
de trame (Orange) sont de taille 14 × 14 × 512. Les caractéristiques de trame
sont transmises au BiConvLSTM (vert) qui émet les codages spatio-temporels de
trame (Cyan). Une opération de regroupement max par élément est effectuée sur
l’encodage spatio-temporel pour produire la représentation vidéo finale (Gold).
Cette représentation vidéo est ensuite classée comme violente ou non violente via
un classificateur entièrement connecté (violet).
L’architecture de l’encodeur spatio-temporel est illustrée à la figure 10. Elle se
compose d’un encodeur spatial qui extrait les caractéristiques spatiales pour chaque
image de la vidéo, suivi d’un codeur temporel qui permet à ces cartes de caractéristiques spatiales de se «mélanger» temporellement pour produire un codage spatiotemporel à chaque pas de temps. Tous ces encodages sont ensuite agrégés en une
seule représentation vidéo via une opération de regroupement max par élément.
Cette représentation vidéo finale est vectorisée et transmise à un classificateur
entièrement connecté.
Encodage spatial : Dans ce travail, un modèle de réseau neuronal convolutif
(CNN) VGG13 [35] est utilisé comme encodeur spatial. La dernière couche de
23


×