Phát triển các thuật toán nhận dạng hình dạng để xác định và mô tả đặc tính của đống đổ nát tái chế

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (45.32 MB, 52 trang )

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ
INSTITUT FRANCOPHONE INTERNATIONAL

Saidi DAOUDA KADRI

Développement d’algorithmes de
reconnaissance de formes pour identifier et
caractériser des gravats recyclés

Phát triển các thuật tốn nhận dạng hình
dạng để xác định và mơ tả đặc tính của đống
đổ nát tái chế

MÉMOIRE DE FIN D’ÉTUDES DU MASTER
INFORMATIQUE

HANOÏ - 2020

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ
INSTITUT FRANCOPHONE INTERNATIONAL

Saidi DAOUDA KADRI

Développement d’algorithmes de
reconnaissance de formes pour identifier et
caractériser des gravats recyclés

Phát triển các thuật tốn nhận dạng hình
dạng để xác định và mơ tả đặc tính của đống
đổ nát tái chế

Spécialité : Systèmes Intelligents et Multimédia
Code : Programme pilote

MÉMOIRE DE FIN D’ÉTUDES DU MASTER
INFORMATIQUE
Sous la direction de :
Dr. Nicolas SIDERE, Assistant Professeur
Dr. Jérome Lux, Maitre de Conférence

HANOÏ - 2020

ATTESTATION SUR L’HONNEUR
J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données
et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La
source des informations citées dans ce mémoire a été bien précisée.

LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu
trong Luận văn là trung thực và chưa từng được ai cơng bố trong bất kỳ cơng
trình nào khác. Các thơng tin trích dẫn trong Luận văn đã được chỉ rõ nguồn
gốc.

Signature de l’étudiant

Saidi DAOUDA KADRI

Remerciements

Je souhaite tout d’abord à exprimer mes plus vifs remerciements à mes encadrants
Monsieur Nicolas Sidère, Assistant Professeur et Monsieur Jérome Lux Mtre de Conférence pour m’avoir accompagné et guidé tout au long de mon stage. Leurs conseils, leur
disponibilité m’ont permis de compléter ce mémoire et d’acquérir une expérience inestimable.
Je remercie également le Doctorant Jean David Lau Hiu Hoong qui, malgré son emploi du temps chargé à toujours su se rendre disponible lorsque j’avais besoin des explications ou accède au machine de calcul.
Je tiens à remercier Dr. Muhammad Muzzamil LUQMAN et tout l’équipe du laboratoire L3i qui ont participé à la réalisation et validation de ce projet.
Je voudrais aussi remercier notre responsable de Master Dr. Ho Tuong Vinh ainsi que
tous les personnels pédagogiques et administratifs de l’Institut Francophone International, Université National de Vietnam à Hanoi.
Enfin, je tiens à exprimer ma profonde gratitude à mes parents, à ma famille pour
m’avoir apporté un soutien indéfectible et des encouragements constants tout au long de
mes années de Master.
Je ne saurais oublier M. Lionel Houssou et mes amis qui ont toujours été là pour moi.
Votre soutien inconditionnel et vos encouragements ont été d’une grande aide. Je vous
remercie.

Saidi DAOUDA KADRI

Résumé
Chaque année la France produit des millions de tonne de déchets inertes et réutiliser une partie peu significatif.Dans ce projet il est question de trouver les moyens
idoines pour la valorisation ces déchets au profit de l’utilisation des ressources naturelles.
Après l’étape de création de la base de données suivi de l’implémentation d’une
modèle de classification.L’étape suivante que nous avons aborde dans ce manuscrits
consiste à implémenter une méthode de détection et segmentation d’objet. Le système
humaine est composé de plusieurs organes, mais celui qui s’occupe de l’oeil est très
complexe et joue un rôle majeur. Un seul coup d’oeil sur une image, l’homme arrive à
identifier et localiser les objets sur l’image.
La reproduction du fonctionnement des yeux sur l’ordinateur sont des tâches fastidieuses et laborieusement effectuées par les chercheurs.Mais depuis quelques années
avec les méthodes basées sur l’apprentissage profond, ces tâches deviennent de plus
en plus facile.

Pour atteindre les objectifs nous étudierons les travaux existant qui traite une partie
ou totale de notre sujet afin d’avoir des connaissances sur les méthodes pour pouvoir
proposer une solution et apporter des contribuions.
Mots clés : Reconnaissance de formes, Analyse d’image, Apprentissage profond,
Segmentation sémantique, Segmentation d’instance, Agrégats recyclés.

Abstract
Each year France produces millions of tonnes of inert waste and reusing some of it
can be significant. In this project it is a question of finding the appropriate means for
the recovery of these waste for the benefit of the use of natural resources.
After the step of creation of the database following implementation of a classification model. The next step that we will discuss in this manuscript consists in implementing a method of object detection and segmentation. The human system is made up of
several organs, but the one that takes care of the eye is very complex and plays a major
role. With a single glance at an image, man can identify and locate the objects on the
image.
Reproducing the functioning of the eyes on the computer are tedious and laboriously carried out by researchers. a few years with the methods based on deep learning, these tasks become more and more easy.
To reach the objectives we will study the existing work which treats part or total of
our subject in order to have knowledge on the methods to be able to propose a solution
and make contributions.
Keywords :Pattern recognition, Image analysis, Deep learning, semantic segmentation, instance segmentation, recycled aggregates ;

Table des matières

Liste des tableaux

iv

Table des figures

v

1 Introduction générale
1.1 Présentation de l’établissement d’accueil . . . . . . . . . . . . . . . . . . . .
1.1.1 L3i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1.1 Le laboratoire L3i, la structure de recherche en informatique de l’Université de La Rochelle . . . . . . . . . . . . . .
1.1.1.2 Une politique scientifique ancrée sur des enjeux socioéconomiques . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1.3 Une politique de réseau consolidée . . . . . . . . . . . . . .
1.1.1.4 Une culture de la relation avec l’entreprise avec Valconum
1.2 Contexte et problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1.1 Domaine d’étude . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1.2 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1.3 Problématiques . . . . . . . . . . . . . . . . . . . . . . . . . .

1
2
2
2
2
3
3
4
4
4
4
4

2 État de l’art
6

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.1 Méthodes de détection . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.2 Méthodes de segmentation . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.3 Méthode détection et segmentation en temps réel . . . . . . . . . . 7
2.2 Détection automatique d’objet . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 Réseau de convolution basé sur les régions (R-CNN) . . . . . . . . . 7
2.2.2 Réseau convolutionnel rapide basé sur la région(Fast R-CNN) . . . 8
2.2.3 Réseau de convolution régional plus rapide (Faster R-CNN) . . . . . 9
2.2.4 Réseau de convolution basé sur le masque de région(Mask R-CNN) 10
2.2.5 Le modèle You Only Look Once(Yolo) . . . . . . . . . . . . . . . . . . 11
2.2.6 Réseau complément convolutifs (FCNs) . . . . . . . . . . . . . . . . 12
i

TABLE DES MATIÈRES

2.2.7 Unet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.8 Réseau de de-convolution (Auto-encodeur) . . . . . . . . . . . . . . 14
2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 Solutions proposées et contributions
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Description du Méthode . . . . . . . . . .
3.1.1.1 Resnet . . . . . . . . . . . . . . . .
3.1.1.2 Feature Pyramide Network(FPN)
3.1.1.3 Region Proposal Network(RPN) .
3.1.1.4 RoIalign . . . . . . . . . . . . . . .
3.1.1.5 Tête de Détection . . . . . . . . .
3.1.1.6 Tête de Segmentation . . . . . . .
3.2 Base de donnée . . . . . . . . . . . . . . . . . . .
3.2.1 Création de la base de donnée . . . . . . .

3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.

20
20
20
21
21
22
22
23
23
24
24
26

4 Expérimentations et résultats

27

Résultats et analyses
4.1 Introduction . . . . . . . . . . . .
4.2 Environnement de travail . . . .
4.2.1 Environnement matériel .
4.2.2 Environnement logiciel .
4.2.3 Autre Plate-forme . . . . .
4.3 Pré-traitement . . . . . . . . . .
4.3.1 Redimensionnement . . .
4.4 Dataset utilisé . . . . . . . . . . .
4.5 Validation . . . . . . . . . . . . .
4.6 Mask R-CNN Backbone . . . . .

4.6.1 Analyse . . . . . . . . . . .
4.7 Contribution . . . . . . . . . . . .
4.7.1 Tête box et masque . . .
4.7.2 Backbone . . . . . . . . .
4.7.3 Script Imagette . . . . . .
4.8 Conclusion . . . . . . . . . . . . .

27
27
27
27
27
27
28
28
28
28
29
30
31
31
32
34
34

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

5 Conclusion et Perspectives
35
5.1 Conclusion générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
A Algorithmes

38

ii

Table des figures

1.1 Logo L3i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Logo Univ-la Rochelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2
2

2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8

principe de l’architecture R-CNN . . . . . . . . . . . . . . . . .
principe de l’architecture Fast R-CNN . . . . . . . . . . . . . .

principe de l’architecture Faster R-CNN . . . . . . . . . . . . .
principe de l’architecture Mask R-CNN . . . . . . . . . . . . .
principe de l’architecture Yolo . . . . . . . . . . . . . . . . . .
principe de l’architecture du réseau complément convolutifs
principe de l’architecture du réseau complément convolutifs
principe de l’architecture du réseau complément convolutifs

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

8
9
10
11
12
13
14
15

3.1
3.2

3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11

. . . . . . . . . . . . . . . . . . . . . . . . .
Resnet Méthode . . . . . . . . . . . . . .
Architecture de FPN . . . . . . . . . . . .
Architecture de Region Proposal Network
Architecture de Region Proposal Network
Architecture des têtes de sorties . . . . .
Architecture d’acquisition d’image . . .
RA . . . . . . . . . . . . . . . . . . . . . . .
Rb02 . . . . . . . . . . . . . . . . . . . . . .
RA . . . . . . . . . . . . . . . . . . . . . . .
Rb01 . . . . . . . . . . . . . . . . . . . . . .

. . . .
. . . .
. . . .
. . .
. . .
. . . .
. . . .
. . . .

. . . .
. . . .
. . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.

.
.
.
.
.
.
.
.
.
.
.

20
21
22
22
23
24
25
26
26
26
26

4.1
4.2

4.3
4.4
4.5
4.6
4.7

Taille réelle 6000x4000 . .
Taille réduite à 1920x1280
Validation . . . . . . . . .
ResNet . . . . . . . . . . .
Existant Avec Resnet101 .
Architecture du modèle .
RA . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.

.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

28
28
29
30
30
31
31

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

iii

.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

TABLE DES FIGURES

4.8
4.9
4.10
4.11
4.12

Sans nom des classes et scores
Architecture ResNet18 . . . . .
Imagette . . . . . . . . . . . . .
Imagette . . . . . . . . . . . . .
A Imagette . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

iv

.
.
.
.
.

.
.
.

.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.

.
.

.
.
.
.
.

31
33
34
34
34

Liste des tableaux

2.1 Tableau comparatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1 Tableau des Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Tableau des Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

v

Liste des sigles et acronymes

MASK RCNN ..
(R-CNN

Réseau de convolution basé sur les région

Fast R-CNN Réseau convolutionnel rapide basé sur la région
Faster R-CNN Réseau de convolution régional plus rapide
RPN

Réseau de proposition de région

Mask R-CNN Réseau de convolution basé sur le masque de région
Yolo

You Only Look Once

FCNs

Réseau complément convolutifs

Chapitre

1

Introduction générale
En France, des études ont montré qu’environ 260 million de tonnes de déchets issue des chantiers (construction, démolitions et de dé-constructions) sont enregistrés
chaque année. Pas plus 15 million de tonnes sont valorisés après une longue processus
de recyclage. la question qui se pose est de savoir comment rehausser le taux de valorisation ? L’une des options consistes à minimiser l’utilisation des granulats naturelle.
Ce travail s’inscrit dans la continuité d’un projet dont la première phase était la
classification des images de granulats recyclés, les résultats obtenus étaient impressionnants avec un taux d’erreur de 5 %. La seconde étape qui fait l’objet de notre étude
consiste à implémenter les algorithmes de reconnaissance d’objet en temps réel pour
identifier chaque type de gravats.

Le processus de valorisation des déchets comporte plusieurs étapes. Après la collecte, ils sont envoyés aux plate-formes de recyclage. A ce niveau il existe certains phases
très pénible ou les techniciens devront trié manuellement les gravats. Ce trie demande
beaucoup d’effort humaine et de temps pour en traiter une quantité peu importante
de déchets.
Dans le monde actuel, nous vivons dans l’ère de la révolution informatique avec
l’apparition des super-calculateurs et aussi la disponibilité des méga données acquit
grâce à des appareils très sophistiques, et une grande partie à travers l’internet. A partir de ces deux aspects, les réseaux de neurone convolutif et d’autres ont permis de
résoudre des problèmes très fastidieux : la reconnaissance d’objet, d’action, détection
de fraude etc.
Ainsi dans l’optique d’apporter une solution au besoin ci-dessus que nous envisagerons dans le cadre de ce projet une architecture de segmentation et d’identification
.
Ainsi autre l’analyse du sujet, l’étude d’état de l’art, la solution proposée, nous allons expliquer en quoi consiste notre travail. Nous exposerons dans le rapport la conception et la modélisation du système.

1

CHAPITRE 1. INTRODUCTION GÉNÉRALE

F IGURE 1.1 – Logo L3i

F IGURE 1.2 – Logo Univ-la Rochelle

1.1 Présentation de l’établissement d’accueil
Ce stage s’est déroulé entièrement au laboratoire L3i (La Rochelle) au sein de l’équipe
Images et Contenus.

1.1.1 L3i
1.1.1.1 Le laboratoire L3i, la structure de recherche en informatique de l’Université
de La Rochelle
Créé en 1993, le Laboratoire Informatique, Image, Interaction (L3i) est le laboratoire de recherche du domaine Sciences du Numérique de l’Université de la Rochelle.

Il comporte 98 membres travaillant dans les domaines de l’Informatique, l’Image et
l’Interaction. Il associe les chercheurs en informatique de l’IUT et du Pôle Sciences de
l’Université de La Rochelle.
1.1.1.2 Une politique scientifique ancrée sur des enjeux socio-économiques
En terme de politique scientifique, le laboratoire L3i développe un projet de recherche résolument tourné vers les enjeux de société, adressant des problématiques
jugées stratégiques au plan européen (programme Horizon 2020) et national (technologies clés du ministère du redressement productif, alliance ALLISTENE. . . ).
Ce projet est articulé avec la politique scientifique globale de l’université dans son
ensemble (l’axe de recherche du laboratoire L3i est un des deux axes stratégiques de
l’Université de La Rochelle), en relais avec la politique de développement des collectivités territoriales, et en particulier de la région Poitou-Charentes.

2

CHAPITRE 1. INTRODUCTION GÉNÉRALE

1.1.1.3 Une politique de réseau consolidée
Le laboratoire L3i est intégré aux réseaux de recherche régionaux (Fédération CNRS
MIRES, ERT « Interactivité numérique »), nationaux (GDR I3, et GDR ISIS) et internationaux (IAPR) dans les secteurs de visibilité de son action scientifique, autour d’un projet
stratégique lié à la gestion intelligente et interactive des contenus numériques. Ceci est
consolidé par une politique volontariste de participation ou de pilotage de projets de
recherche labellisés (ANR, PCRD, ...), au sein desquels le laboratoire occupe souvent
une position de leadership.
Enfin, son action internationale est actuellement renforcée avec des liens privilégiés avec de nombreux centres de recherche à travers le monde (Espagne, Japon, Vietnam, Tunisie, Malaisie).
1.1.1.4 Une culture de la relation avec l’entreprise avec Valconum
Une autre originalité du projet porté par le L3i est son lien particulièrement fort
avec le monde socio-économique, avec la création de l’écosystème Valconum (Centre
Européen de Valorisation Numérique) qui représente un consortium académique et
industriel regroupant de nombreuses unités de recherche en France et à l’étranger, et
des entreprises de portée nationale et du territoire picto-charentais.
L’objectif de la création de cet écosystème est de contribuer à la compộtitivitộ scientifique et industrielle franỗaise, sur un sujet prộcis, abordé sous un angle systémique.

Les concepts d’innovation et de transfert technologique représentent les piliers de ce
consortium. 1

1. https ://https ://l3i.univ-larochelle.fr/Presentation

3

CHAPITRE 1. INTRODUCTION GÉNÉRALE

1.2 Contexte et problématique
1.2.1 Contexte
La vision humain est l’un des organes qui nous permet d’être relation direct avec
le monde extérieur. L’adaptation des machines pour réaliser cette tâche ardue n’est
pas du tout une chose facile.Car plusieurs paramètres entre en jeu (la forme, la couleur, la texture etc..). La forme nous permet d’avoir une représentation plus précise de
l’objet, ce qui a conduit à la discipline appelle reconnaissance de forme.La reconnaissance de forme a joué un rôle importante dans plusieurs aspects. Les chercheurs et
ingénieurs ont mené des études approfondis qui ont aboutis à des articles et applications(Robotique, Biologique, analyse de texte etc...) ces techniques ont révolutionné le
monde,mais reste inférieur à la vue humaine.
1.2.1.1 Domaine d’étude
Notre sujet concerne la reconnaissance des gravats recyclés. C’est un domaine d’étude
qui fait appel outre l’informatique à des connaissances en génie civil. Du point de vue
scientifique et environnemental il est important d’implémenter des méthodes de vision par ordinateur pour résoudre certains aspects du génie civil.
1.2.1.2 Objectifs
Les travaux effectués dans ce stage ont pour objectifs, de faire une étude des solutions pour la détection et segmentation de gravats dans une image ;Avoir en sortie uniquement le masque et boite englobante et enfin implémenter l’architecture resnet18.
En résume les objectifs peuvent être regroupés en deux partie :
— Proposer et implémenter une méthode de détection et segmentation
— Modifier la sortie pour avoir uniquement le masque et boite englobante
— Implémenter l’architecture resnet 18
1.2.1.3 Problématiques
La détection et segmentation sont des tâches ardues de la vision par ordinateur.La

détection consiste à localiser l’objet en utilisant la boite délimitation et à déterminer la
catégorie.Pour l’implémentation plusieurs paramètres doivent être pris en compte.En
effet, dans les scènes naturelles les gravats peuvent appartre dans de nombreux variations :
— Variation du point de vue :les gravats sont entités physiques tri-dimensionnelles,leur
apparence change en fonction de l’angle de vue.
— Variation d’illumination :des changements peuvent appartre sur gravats en fonction de l’environnement de leur acquisition.

4

CHAPITRE 1. INTRODUCTION GÉNÉRALE

— les occlusions : les objets peuvent être partiellement ou totalement masqués par
d’autres objets dans une image.
— les variations d’échelle :Concernant l’échelle ils peuvent arriver que les gravats
d’une même catégorie présentes des tailles différentes.
Par contre la segmentation a pour but d’identifier les parties homogènes et les
contours, ces deux éléments sont pertinents pour segmenter un objet.
les problématiques suivantes sont alors posées en raison de ne pas perde de vue les
objectifs.
— Comment localiser chaque gravats avec précision ;
— Comment localiser et segmenter l’objet en même temps ;
— Comment allons-nous réduire le nombre de paramètres de l’architecture.

5

Chapitre

2

État de l’art
2.1 Introduction
L’oeil humain est doté d’une énorme capacité qui lui permet de localise et reconntre un objet quelque la forme,l’échelle, illuminance ou l’environnement. La simulation de cette faculté sur ordinateur et autre appareil ont permis d’avoir les voitures
autonomes, les robots assistants, application de diagnostic de cancer etc.. C’est la raison pour laquelle les chercheurs et ingénieurs ont multiplié les études afin de trouver
une méthode qui fonctionnera comme les yeux humains.
Dans cette section de revue littéraire nous allons faire la synthèse des algorithmes
de détections et de segmentation. Plusieurs algorithmes existent pour effectuer cette
tâche et chacun présente des avantages et inconvénients.En résumé ces méthodes
peuvent être regroupés trois catégories :

2.1.1 Méthodes de détection
— Les modèles basés sur la recherche sélective : R-CNN, fast R-CNN
— Les modèles basés sur région proposal Network : Faster R-CNN,
— Modèle basé sur les grilles : Yolo framework

2.1.2 Méthodes de segmentation
;
— Fully Convolutional Network for Semantic Segmentation
— Deconvolution Network
— Unet

6

CHAPITRE 2. ÉTAT DE L’ART

2.1.3 Méthode détection et segmentation en temps réel
— Les modèles basés sur région proposal Network : Mask R-CNN

2.2 Détection automatique d’objet
2.2.1 Réseau de convolution basé sur les régions (R-CNN)
Les réseaux de convolution basés sur les régions R-CNN est la toute première méthode utilisant l’apprentissage profond pour la détection d’objet. l’objectif [1] est que
l’algorithme localise les objets en ce basent sur la méthode de recherche puis déterminé les classes en utilisant le CNN. L’algorithme de recherche permettant de localiser
les objets dans une image s’appelle recherche sélective. Cet algorithme utilise essentiellement les quatre régions qui forment un objet : la couleur, la texture, l’échelle et
l’enceinte variable.Ces motifs dans l’image permettent à l’ algorithme de proposer diverses régions ; son fonctionnement est simple, il prends à l’entrée une image puis il
génère des sous-segmentations afin d’avoir plusieurs régions.Ensuite le processus de
regrouper les régions similaire pour former une région plus grande basée sur la similarité de la forme, du couleur, du texture, de la taille et la comptabilité de la forme. Enfin,
ces régions produisent les emplacements d’objet finaux. Chaque région proposée est
redimensionnée en fonction de l’entrée du réseau de neurone convolutif qui extrait
un ensemble de caractéristiques dans un vecteur de 4096 dimensions. Ces vecteurs de
caractéristiques sont les données d’entrée pour les classifieurs afin d’obtenir les propositions d’appartenance de chaque classe. Chacune de ces classes possède un classifieur
SVM entrné pour optimiser la probabilité de détection de cet objet. Une régression
linéaire est appliquée pour déterminer la forme ou contour de la boite englobant pour
une région proposé et ainsi réduire les erreurs de localisations. Les auteurs ont entrnés le réseau décrit ci-haut avec le dataset suivant : tout d’abord le CNN est préforme
sur le dataset imageNet, après avoir adopté le réseau a notre problème de détection,
il est entrné sur PASCAL VOC 2007 pour la validation des décisions de conception et
les hyper paramètres. Et enfin entrner sur PASCAL VOC 2012 pour optimisation. La
localisation a été ajuste en utilisant les régions proposées correspondant à un IoU supérieur à 0.5 comme vérité sur le terrain, les classifieurs SVM sont aussi entrnes pour
chaque classe de dataset.

7

CHAPITRE 2. ÉTAT DE L’ART

F IGURE 2.1 – principe de l’architecture R-CNN

2.2.2 Réseau convolutionnel rapide basé sur la région(Fast R-CNN)
Fast R-CNN est une version améliore du modèle R-CNN pour accélérer la vitesse de

détection et apporter des solutions aux inconvénients du R-CNN qui sont :
— La recherche sélective génère environ 2000 propositions de régions pour chaque
image.
— Chaque région d’intérêt entrée dans le réseau de neurone convolutif ce qui entrne une lenteur au moment du test.
— le modèle requière une quantité importante d’espace de stockage.
Le modèle Fast R-CNN développé par Ross-Girshick et al [2] avait pour objectif principal de réduire le temps de calcul et de mémoire nécessaire dû au fonctionnement
du RCNN en utilisant un réseau qui permet d’entrner l’ensemble des couches en
un seul passage et mettre à jour tous les poids. Au lieu d’utiliser un réseau de neurones convolitif pour chaque région susceptible de contenir un objet, Fast RCNN prend
l’image entière en entrée et l’envoie dans un CNN qui extrait les cartes de caractéristique.Les régions d’intérêt (RoI) sont détectées avec la recherche sélective appliqué sur
la carte de caractéristiques produit. la dimension de la cartes est réduite en utilisant
une couche de pooling afin d’obtenir les régions d’intérêt valide avec des hauteur et

8

CHAPITRE 2. ÉTAT DE L’ART

largeur et dimension fixe comme hyper-paramètre.les régions d’intérêt aplati sont introduites chacun dans un réseau entièrement connecte créant ainsi le vecteur de caractéristique utilisé pour prédire l’objet observé à l’aide d’un classifieur softmax et un
régression linéaire pour déterminer les localisations à travers les boites englobantes.La
figure ci-dessous illustre l’architecture

F IGURE 2.2 – principe de l’architecture Fast R-CNN

2.2.3 Réseau de convolution régional plus rapide (Faster R-CNN)
Ross Girshick et al avaient présente en 2016 une nouvelle architecture Faster RCNN pour la détection des objets. Faster R-CNN est une variante de Fast R-CNN.La différence qui existe entre les deux modèle ce situe au niveau de la méthode utiliser pour
la reconnaissance d’objet dans l’image. Faster R-CNN introduit un réseau RPN (Region
Proposion Network ) alors que Fast R-CNN est basée sur la recherche sélective. L’inconvénient de la recherche sélective, elle est très coûteuse en calcul et mémoire. Bien
que Fast R-CNN ait adopté un processus qui permettait de réduire le temps de calcul
en prennent l’image entière.Mais la recherche sélective demeure un goulot d’étranglement pour les modèles R-CNN et Fast R-CNN.Dans Faster R-CNN, réseau de proposition de region(RPN) a été introduit pour remplacer la recherche sélective. cette méthode vise à proposer des régions qui seront utilisées par la méthode Fast R-CNN pour
déterminer les boites englobantes et détecter les objets.RPN utilise les modèles préentrner pour la classification, c’est un réseau de convolution profond qui propose

des régions d’intérêt.Il prend à l’entrée l’image entière qui passe dans plusieurs couche
de convolution qui génère en sortie les cartes de caractéristique pertinentes. Ces cartes
sont passés dans RPN qui applique une fenêtre de taille n x n qui parcourt l’ensemble
des cartes de caractéristique pour produire un vecteur de caractéristique ;Ce vecteur
est entièrement connectés à deux couches :classification et régression.A chaque position du fenêtre un maximum de K propositions de régions,les k régions sont appelées
ancres et ont un nombre fixe .Ces ancres ont de taille et forme diffèrent pour localiser les objets.la couche de classification utilise 2k pour génère un score d’objectivité
pour chaque ancrage et la couche de régression 4K pour déterminer la boite d’ancrage.
9

CHAPITRE 2. ÉTAT DE L’ART

les boites d’ancrage détectées sont ensuite sélectionnées par rapport au score d’objectivité.Celles qui dépassent le seuil prédéfini sont acheminées vers Fast R-CNN au
cas contraire l’objet détectée est éliminé.En utilisant RPN dans Faster R-CNN cela permettait d’éviter la recherche sélective et d’augmenter la performance.L’architecture du
réseau décrit ci-haut est illustré par la figure ci-dessous.

F IGURE 2.3 – principe de l’architecture Faster R-CNN

2.2.4 Réseau de convolution basé sur le masque de région(Mask RCNN)
Le modèle Mask R-CNN développé par Kaiming He et al [4] est une extension du
modèle faster R-CNN. Mask R-CNN est le résultat d’une combinaison de faster R-CNN
et du réseau entièrement convolutionnel (FCN). La figure ci-dessous illustre l’architecture, Mask R-CNN ajoute une troisième branche pour la reconnaissance d’ ancre sélectionnée afin de prédire un masque pour l’objet.Mask R-CNN utilise les deux étapes du
Faster R-CNN en modifiant certain partie.Dans la première étape, Mask R-CNN adopte
l’architecture RPN.Mais, au niveau de la deuxième étape Mask R-CNN étant du faster
R-CNN original. Outre la prédiction des classes et les boites englobantes mask r-cnn affiche un masque binaire pour chaque RoI.La représentation du masque permet d’avoir
la disposition spéciale de l’objet.L’inconvénient majeur du RoI pooling est que le RoI à
nombre flottant est quantifié, cela entrne des prêts d’informations.Cette quantification est sans effet sur la classification mais impacte la prédiction des masques objets.Le
faite que la branche masque a été ajouter trouver que la segmentation améliorer la localisation et la détection.

10

CHAPITRE 2. ÉTAT DE L’ART

F IGURE 2.4 – principe de l’architecture Mask R-CNN

2.2.5 Le modèle You Only Look Once(Yolo)
Le modèle You Only Look One(Yolo)[5] est un modèle qui consiste en un seul réseau
de neurone formé bout en bout pour la détection.Contrairement aux modèles étudies
précédemment qui ne prend pas l’image entière , plutôt des régions susceptible de
contenir un objet en utilisant des méthodes comme : recherche sélective et réseau de
proposition de région. Framework Yolo fusionne des deux étapes(détection et location)
des algorithmes vus ci-haut ; détection considère comme un problème de classification
est formule par Yolo comme un tâche de régression, qui permettait de séparer le cadre
de sélection et associe les probabilité de classe.Il prend un image en entrée, une grille
de taille S x S est appliqué et ensuit les boites englobantes et les scores de confiance
prévues(sont prédites) pour chaque boite. Pour affecter un cadre de sélection à un objet, algorithme vérifie si le centre d’objet ce trouve dans le grille et calcul le score. le
calcul de score est basée sur IoU(Intersection over Union) Aire de l’intersection / Aire
de l’union. Certes, yolo est rapide,qui est un atout pour les algorithmes de détection.Il
viens avec un problème de localisation.La figure ci-dessous illustre l’architecture.

11

CHAPITRE 2. ÉTAT DE L’ART

F IGURE 2.5 – principe de l’architecture Yolo

2.2.6 Réseau complément convolutifs (FCNs)
Long et al 2015[6] présentaient une architecture pour la segmentation sémantique

d’image :les réseaux complètement convolutifs(FCNs).les CNNs utilisaient une architecture pyramidale ou la dimension spatiale de l’image est réduit a chaque passage de
couche profond et la profondeur s’accrt avant qu’il soit transmise à la couche entièrement connectée .Dans l’architecture FCNs les couches complètement connectées sont
remplacées par un structure pyramidale qui réduit la profondeur et augmente la résolution spatiale par des opérations de sur-échantillonnage. La dimension de la couche
de sortie est identique à celle de l’ image en entrée ;De même pour la profondeur et au
nombre de classe. Les couches entièrement connectées ne conviennent pas à la segmentation pour deux raisons :L’image en entrée doit être de la même dimension et elle
entrnent une perte d’information locales très important en segmentation.

12

Phát triển các thuật toán nhận dạng hình dạng để xác định và mô tả đặc tính của đống đổ nát tái chế

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về