Tải bản đầy đủ (.pdf) (42 trang)

ứng dụng phát hiện nhận dạng văn bản trong các cảnh chụp cho người khiếm thị và hướng dẫn du lịch

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.96 MB, 42 trang )




Table des matières
Table des matières

i

Liste des tableaux

vi

Table des figures

vii

1 Introduction générale

1

1.1

Contexte et Cadre d’étude

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2

Problématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .



1

1.3

Domaine d’application

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

1.4

Objectifs du stage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

1.5

Travaux à Réaliser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

1.6

Planification des tâches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.7


Organisation du rapport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

2 État de l’art
2.1

2.2

2.3

4

Les approches basées sur des régions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

2.1.1

Maximally Stable Extremal Regions (MSER) . . . . . . . . . . . . . . . . . . . . . . . . .

4

2.1.2

Sliding Window . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4


Les approches basées sur les composants connexes . . . . . . . . . . . . . . . . . . . . . . . . . .

5

2.2.1

Stroke Width Transform (SWT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

2.2.2

Les propriétés géométriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

Les méthodes de classification de composants connexes. . . . . . . . . . . . . . . . . . . . . . . .

5

2.3.1

Méthode de classification en cascade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

2.3.2

Machine à vecteurs de support (SVM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


7

2.4

Réseaux de neurones convolutifs (CNN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2.5

Réseaux de neurones convolutifs profond (DCNN) . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2.6

Les approches hybrides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.7

Tableau de synthèse des articles étudiés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3 Solution proposée
3.1

3.2

13

Description des différentes phases de mise en place du pipeline . . . . . . . . . . . . . . . . . . . 13

3.1.1

Module 1 : Lecture d’image . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1.2

Module 2 : le pré-traitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1.3

Module 3 : Extraction des composants connexes . . . . . . . . . . . . . . . . . . . . . . . 14

3.1.4

Module 4 : Filtrage des composants connexes . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1.5

Module 5 : Étape de groupage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1.6

Module 6 : Affichage des boites englobantes ( Bounding Boxes) . . . . . . . . . . . . . 14

3.1.7

Tableau récapitulatif des entrées / sorties des modules du pipeline . . . . . . . . . . . . . 14

Environnement de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14


i


3.3

3.2.1

Environnement matériel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.2

Environnement logiciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Implémentation du pipeline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3.1

Pré-traitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.3.2

L’extraction des composants connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.3.3

Filtrage des composants connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.3.4

Description des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18


3.3.5

Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.3.6

Étape de formation des mots (Grouping) . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.4

3.3.7 Affichage des boites englobantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Présentation de quelques résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.5

Analyse des résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4 Apport et contribution novatrice : Extraction des composants connexes couleurs

25

4.1

Description de l’extraction des composants couleurs . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.2

Chne de couleur RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.3

4.4

Extraction des composants sur la chaine Bleu,Vert, Rouge . . . . . . . . . . . . . . . . . . . . . . 26
Fusion des composants de la chne Bleu,Vert et Rouge . . . . . . . . . . . . . . . . . . . . . . . 26

5 Conclusion générale et perspective

28

5.1

Conclusion

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5.2

Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5.3

Activités annexes au laboratoire L3i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Bibliographie

30

ii



Remerciements
La réalisation de ce document qui couronne la fin de notre formation de Master, n’aurait été possible sans
l’appui direct ou indirect de personnes et d’institutions auxquelles nous tenons ici à exprimer nos sincères
remerciements. Il s’agit de :
— L’Agence Universitaire de la Francophonie (AUF), pour nous avoir donné l’opportunité de poursuivre
nos études de Master à l’IFI à travers une bourse.
— L’Institut Francophone International (IFI) et de tous les professeurs, pour les nombreuses connaissances
acquises durant notre formation.
— Mes encadrants du stage au laboratoire Informatique, Image et Interaction de la Rochelle ( Dr. Nayef
NIBAL et Dr. Muhammad Muzzamil LUQMAN ) pour m’avoir accueilli au sein de leur équipe et pour leur
suivi et implication personnelle dans la réalisation de mes travaux.
— Tous ceux qui de près ou de loin m’ont apporté leur soutien durant notre formation.

iii


Résumé
L’extraction de texte à base d’images est l’un des domaines de recherche les plus dynamiques dans le domaine
de la technologie multimédia de nos jours. L’extraction de texte à partir d’images complexes ou plus colorées est
un problème difficile, or les données textuelles présentes dans les images contiennent des informations utiles pour
l’explication habituelle, l’indexation et la structuration des images. L’extraction de ces informations implique
la détection, la localisation, et la reconnaissance du texte à partir d’une image donnée.
Pour extraire rapidement du texte à partir d’images, nous avons mis en place, au cours de ce stage, un
pipeline complet de traitement basé sur des composants connexes qui identifient plus précisément les textes
dans l’image. Notre pipeline de détection de texte commence par un module de pré-traitement de l’image
d’entrée. Ensuite, dans un autre module, nous extrayons les composants connexes (binaires /couleurs). Puis
dans un autre nous filtrons ces composants connexes avec l’algorithme d’apprentissage supervisé SVM pour
ne garder que les composants textuels. En fin dans le dernier module nous avons mis en place un algorithme
pour regrouper les composants textuels en mots en nous basant sur certains paramètres tel que : la distance
euclidienne entre les caractères, les positions rectilignes et nous affichons le résultat à la sortie du pipeline. Les

résultats expérimentaux démontrent que la performance de notre pipeline est supérieure à certaines approches
de la littérature
Mots clés : Détection de texte de scène, reconnaissance de texte de scène, OCR, accessibilité au texte pour
les malvoyants

iv


abstract
Image-based text extraction is one of the most dynamic areas of research in the field of multimedia technology
today. Extracting text from complex or more colorful images is a difficult problem, but the textual data in the
images contain useful information for the usual explanation, indexing and structuring of images. Extracting this
information involves detecting, locating, and recognizing text from a given image.
To quickly extract text from images, we have set up, during this internship, a complete pipeline of processing
based on connected components that more precisely identifies small or large texts in the image. Our text detection
pipeline begins with a pre-processing module of the input image. Then, in another module we extract the related
components (binaries / colors). Then we filter these related components with the supervised learning algorithm
SVM to keep that textual components. Finally in the last we have implemented an algorithm to group the textual
components into words based on certain parameters such as : the Euclidean distance between the characters,
the rectilinear positions and we display the result at the exit of the pipeline. Experimental results demonstrate
that the performance of our pipeline is superior to some state-of-the-art approaches
Key Words : Scene text detection, scene text recognition, OCR, text accessibility for the visually impaired

v


Liste des tableaux
1.1

Planning prévisionnel des tâches du stage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


2.1

Tableau de synthèse des articles étudiés(1/2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2

Tableau de synthèse des articles étudiés(2/2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1

Tableau récapitulatif des entrées / sorties des modules du pipeline . . . . . . . . . . . . . . . . . 15

3.2

Tableau de validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

vi

3


Table des figures
1.1

Accessibilité du texte dans les scènes naturelles pour les malvoyants . . . . . . . . . . . . . . . .

2

2.1


Illustration de SWT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

2.2

Représentation de suppression de composant par la taille de son aire. ( source : https ://imagej.net/MorphoLibJ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

2.3

Structure de la classification en cascade [1]

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2.4
2.5

Structure de la classification en cascade et SVM [1] . . . . . . . . . . . . . . . . . . . . . . . . .
Processus de mise en place de SVM [2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8
8

2.6


Architecture de CNN pour la classification text/non-text [3] . . . . . . . . . . . . . . . . . . . . .

9

2.7

Architecture de DCNN pour la classification text/non-text [4] . . . . . . . . . . . . . . . . . . . . 10

2.8

Architecture 3D de VGG-16 (source :https ://goo.gl/ogqbau) . . . . . . . . . . . . . . . . . . . . 10

3.1

Architecture du Pipeline proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.2

image 1 : originale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.3

image 1 : Binarisation d’Otsu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.4

image 2 originale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.5


image 2 Binarisation d’Otsu

3.6

Coordonnées des boites englobantes des composants . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.7

Illustration de la classification avec SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.8

Illustration des distances pour le groupage[5] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.9

Illustration des distances pour le groupage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.10 Illustration de l’affichage des boites englobantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.11 -Résultat de détection de texte image 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.12 -Résultat de détection de texte image 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.13 -Résultat de détection de texte image 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.14 -Résultat de détection de texte image 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.15 -Résultat de détection de texte image 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.16 -Résultat de détection de texte image 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1

Illustration de l’extraction des composants couleurs


4.2

originale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

. . . . . . . . . . . . . . . . . . . . . . . . . 25

4.3

chne bue

4.4

image 2 chne verte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.5

chne rouge

4.6

originale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.7

chne bue

4.8

image 2 chne verte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27


4.9

chne rouge

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.10 Illustration de la fusion des composants de chaque chne de couleurs

vii

. . . . . . . . . . . . . . . 27


5.1

Photos de l’anniversaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5.2

Affiche séminaire sur le Deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

viii


Chapitre 1


Introduction générale
Ce premier chapitre introduit le contexte et le cadre d’étude de notre stage. Il présente les éléments nécessaires
à la compréhension du sujet d’étude notamment la problématique, les objectif et les travaux à réaliser

1.1

Contexte et Cadre d’étude

Le présent rapport a été élaboré dans le cadre des travaux réalisés durant le stage de fin de formation pour
l’obtention du Master spécialité "Systèmes Intelligents et Multimédia" de l’Institut Francophone International
en collaboration avec l’Université de La Rochelle. Les travaux se sont déroulés au sein de l’équipe "Image
et contenus" du laboratoire Informatique Image et Interaction (L3I) de l’Université de la Rochelle. C’est un
laboratoire de recherche du domaine des sciences du numérique.. Près de 100 membres travaillent au sein
du L3i dans les domaines de l’Informatique, l’Image et l’Interaction. Le laboratoire associe les chercheurs en
informatique de l’IUT et du Pôle Sciences de l’Université de La Rochelle. Le stage a été encadré et orienté par
Dr. Nayef NIBAL, IGR et Dr. Muhammad Muzzamil LUQMAN , IGR.
La thématique abordée durant ces travaux est relative au domaine de la détection et la reconnaissance de
texte de scène naturelle. Ce domaine fait appel à la vision par ordinateur et au traitement d’image que nous
avons étudié au cours de notre notre formation à l’IFI. En effet nous observons du texte partout dans les scènes
naturelles qui nous environnent. Ces textes peuvent se trouver sur plusieurs supports de communication, tel
que : les panneaux de signalisation, les plaques d’immatriculation, les panneaux publicitaires, les cartes de visite,
les panneaux de construction, les étiquettes sur les colis postés et les plaques signalétiques etc ... Cependant
l’extraction de textes de scène naturelles, est un véritable challenge . Ainsi, de nombreuses recherches ont été
menées ces dernières années pour mettre à la disposition des personnes malvoyantes ou des touristes, des outils
précis et efficaces afin de les aider dans leur lecture et la compréhension des images de scènes naturelles.

1.2

Problématiques


La détection de texte dans les images de scènes naturelles est une tâche ardue. En effet, dans les scènes
naturelles, le texte peut appartre dans de nombreux états ; texte sombre sur fond clair et inversement, avec
une grande variété de polices, même pour les caractères du même mot, une partie des mots peut être superposée
par un objet de l’environnement et, par conséquent, la détection de ces parties peut être impossible. D’autres
facteurs, tels que les paramètres de l’appareil photo, peuvent provoquer des images floues ou une distorsion
de la perspective. Les conditions d’éclairage constituent un facteur majeur qui rend difficile la détection et la
reconnaissance de texte dans des scènes naturelles. La lumière de l’environnement peut créer des reflets sur
les surfaces de texte, un objet de l’environnement peut également projeter des ombres sur la surface du texte
et l’intensité de ces objets dépend également de la source de lumière. Ces facteurs, qui sont des véritables
challenges dans le domaine de la détection de texte de scène naturelles , ont mobilisés ces dernières années, de

1


nombreux chercheurs, qui se sont lancés dans l’élaboration de différentes approches. De nombreuses solutions
ont été proposées et chacune d’elles présente des avantages et des inconvénients. Nos travaux s’intéressent à ce
domaine et visent à proposer un Pipeline complet de détection de texte de scènes naturelles.

1.3

Domaine d’application

La détection de texte s’applique dans plusieurs domaines de la vie quotidienne. Il peut être un composant
efficace pour les appareils de navigation, il peut être également un outil nécessaire pour les aveugles ou les
malvoyants ainsi que les touristes (figure 1.1 ).

Figure 1.1 – Accessibilité du texte dans les scènes naturelles pour les malvoyants

1.4


Objectifs du stage

Les objectifs de ce stage sont multiples et se déclinent en deux grandes parties. Dans la première partie, il
s’agira de mettre en place un Pipeline complet de détection de texte d’image de scènes naturelles. Pour mettre
en place ce Pipeline nous procéderons par une démarche modulaires. Chaque module traitera un problème
spécifique de l’ensemble de la chne de traitement. À l’atteinte de cet objectif, nous aborderons la seconde
partie qui consistera à proposer une méthode pour traiter les composants connexes couleurs. Cette nouvelle
approche sera inclure dans une deuxième version du Pipeline ce qui lui permettra d’être plus efficace.

1.5

Travaux à Réaliser

Le travail à réaliser durant notre stage est à la fois d’ordre théorique et pratique. Sur le plan théorique :
Les chercheurs proposant ce stage travaillent activement sur le thèmes de la détection de texte de scène, alors
il s’agira pour nous, dans un premier temps de faire une étude bibliographique des travaux récentes sur notre
sujet et de proposer une solution qui permettra d’atteindre nos différentes objectifs.
Sur le plan pratique : au cours de cette étape nous implémenterons le pipeline. Il s’agira d’abord de mettre
en place notre environnement de travail en installant tous les outils nécessaires qui permettront de réussir ce
travail : OpenCV 3, Python3. Après la mise en place des différentes versions, nous procéderons aux différentes
tests.
Au regard des objectifs à atteindre, nous avons prévu certaines difficultés notamment celle liées à :
— la mtrise d’algorithme de groupage de caractère en texte.
— l’extraction et calcul des données des composants connexes.
— la mtrise des fonctions d’OpenCV

2


1.6


Planification des tâches

La planification des différents travaux est consignée dans le tableau 1.1.
Travaux

Durée (en jours)

Mise en place du pipeline + revue de la littérature sur la détection de texte
de scène.

60

Nouvelle contribution à la détection de texte de scène (composants connexes
couleurs.

60

Finalisation de la démo + rédaction du rapport de stage.

30

Rédaction d’un atelier international / document de conférence.

30

Table 1.1 – Planning prévisionnel des tâches du stage

1.7


Organisation du rapport

Ce rapport est organisé autour de six chapitres de faỗon rendre compte du travail effectué durant le stage.
Le premier chapitre introduit le contexte et le cadre d’étude de notre stage. Il présente les éléments nécessaires
à la compréhension du sujet d’étude notamment la problématique, les objectifs et les travaux à réaliser
Le second chapitre présente les principaux travaux recensés lors de l’étude bibliographique et qui traitent dans
un premier temps les méthodes basées sur les régions de l’image et les composants connexes, la classification des
composants connexes. Et dans un second temps qui traitent les composants connexes couleurs et les techniques
de groupage des caractères en mots.
Le troisième chapitre présente d’abord la solution que nous avons proposé pour atteindre les objectifs de ce
stage, ensuite l’implémentation de cette solution et en fin l’analyse des résultats obtenus.
Dans le quatrième chapitre nous abordons l’extraction des composants couleurs cette partie qui constitue
notre apport personnel pour rendre efficace le pipeline proposé.
Le cinquième chapitre quant à lui fait le bilan ainsi que les perspective de nos travaux au cours de ce stage.

3


Chapitre 2

État de l’art
Dans ce chapitre nous faisons la synthèse des études menées sur les récents travaux du domaine du sujet
soumis à notre étude. Cette étape est très importante car elle nous permet de conntre et de comprendre les
méthodes et les techniques existantes.
Parmi, les contenus des images numériques, le texte joue un rôle important, il est utilisé pour de nombreuse
applications, telles que la récupération des images basée sur le contenu, la navigation assistée, la compréhension
de la scène etc... C’est pourquoi l’extraction, des informations textuelles dans les images connt une grande
attention de la part des chercheurs ces derniers temps. Les systèmes d’extraction de textes dans les images,
reposent sur deux étapes à savoir : la détection de texte et la reconnaissance de texte. La détection de texte
consiste à détecter la région de texte dans une image tandis que la reconnaissance de texte consiste à récupérer

la région de texte en utilisant OCR (Optical Character Recognition) et d’autres technologies. Il faut noter que
la performance d’un système d’information textuelle repose essentiellement sur la détection. Plusieurs travaux
ont été publiés ces dernières années sur la détection de texte. Nous pouvons regrouper les différentes méthodes
utilisées en trois catégories à savoir : les méthodes basées sur les régions de l’image, les méthodes
basées sur les composants connexes et les méthodes hybrides.

2.1
2.1.1

Les approches basées sur des régions
Maximally Stable Extremal Regions (MSER)

Les méthodes basées sur la région détectent le texte en se basant sur le faite qu’il existe des différences
évidentes entre les régions de texte et les régions d’arrière plan. Ces différences visuelles peuvent être observer
au niveau de la texture, la couleur, etc... Parmi celle-ci, la methode MSER (Maximally Stable Extremal
Regions) est largement adoptée pour extraire les caractères candidats pour la détection de texte de scène,
ces dernières années, [6], [7], [8]. En effet, la méthode MSER à pour rôle d’extraire dans une image un certain
nombre de régions qui comportent des caractères candidates en se basant sur une stratégie de minimisation
des variations. Malgré le succès rencontré par les méthodes basées sur MSER ces dernières années, plusieurs
problèmes demeurent à présent. Premièrement, les méthodes basées sur MSER sont difficiles à obtenir des
performances de détection de texte élevées en raison de leur exigence de stabilité maximale. Deuxièmement,
certains objets de texte dans les images ne sont pas des régions extrêmes dont les pixels ont une intensité
supérieure ou inférieure à ses pixels de la limite extérieure et ne peuvent pas être extraits directement par des
méthodes MSER.

2.1.2

Sliding Window

Les méthodes basées sur la fenêtre glissante détectent les informations textuelles de l’image en faisant glisser

une sous-fenêtre multi-échelles sur tous les emplacements possibles dun texte dans une image, et conỗoivent un

4


classifieur texte / non-texte pour éliminer les fenêtres bruyantes [9], [10]. En utilisant cette méthode dans dans
[9], Wang et Al ont obtenu un taux de rappel élevé par rapport à la littérature. Cependant, la principale limite
est le coût du calcul élevé.

2.2

Les approches basées sur les composants connexes

Les méthodes basées sur les composants connexes sont beaucoup utilisées pour la détection de texte de scène.
Il s’agit d’abord de binariser l’image, Ensuite d’extraire les composants de l’image. Le résultat de cette phase
est composé des composants textes et des non textes. Après cette phase les auteurs appliquent les techniques de
machine learning pour procéder à la classification des composants. Les composants non-text sont éliminés et les
composants textes passent dans une autre phase qui consiste à regrouper les caractères en mots. Pour faire la
classification des composants connexes extraits, les auteurs dans les papiers [11], [12],[13] ont utilisé, plusieurs
techniques pour extraire les caractéristiques des composants. Par la suite ces caractéristiques sont passer à un
classifieur pour déterminer si ce composant est texte ou non.

2.2.1

Stroke Width Transform (SWT)

La caractéristique Stroke Width Transform (SWT) dans [13], a pour objectif de déterminer la largeur
du trait le plus probable contenant le plus de pixel. La sortie du SWT est une image de taille égale à la taille
de l’image d’entrée, où chaque élément contient la largeur du trait associé au pixel. nous définissons un trait
comme étant une partie contiguë d’une image qui forme une bande d’une largeur presque constante, comme

illustré à la figure 2.1. En effet les traits sont l’élément dominant dans les caractères écrits. Cette technique
permet aisément de reconntre un composant caractère ou texte dans l’ensemble des composants connexes.

2.2.2

Les propriétés géométriques

Les propriétés géométriques des composants constituent des éléments caractéristiques importants pour la
classification des composants connexes. Nous énumérons, dans la suite de notre rapport, les plus utilisés dans
la littérature.
- Aspect Ratio : l’aspect ratio désigne le rapport de la largeur sur la hauteur. cette technique est utilisée
pour éliminer les composants non-textes.
- Occupation Ratio : cette technique donne le ratio de l’aire du composant connexe sur l’aire de sa boite
englobante(bounding box area). Cette technique est utilisée pour supprimer les composants ayant de petit nombre
de pixel dans les boites englobantes ou ceux qui ont nombre trop élevé de pixel. c’est l’une des caractéristiques
que wang et al ont utilisé dans [14] pour filtrer les composants dans leur méthode appelée connected component
analysis
- Euler number : cette propriété donne le nombre totale d’objet dans une image moins le nombre totale
de trous dans ces objets.
- Area : cette propriété donne l’air de chaque composants connexes en pixel. En observant la figure 2.2 nous
constatons que l’on peut supprimer des composants non significatives en utilisant l’aire qu’ils occupent ? L’aire
est un composant est utile dans suppression des composants non-textes après la phase d’extraction.

2.3
2.3.1

Les méthodes de classification de composants connexes.
Méthode de classification en cascade

R. Jiang et ses alliés dans [1] utilisent la classification en cascade basée sur différentes caractéristiques

pour éliminer les composants non-textes. Comme la figure 2.3 l’indique, tous les composants passent dans
les niveaux de filtrage, chaque niveau est conỗu avec une caractéristique donnée qui permet de vérifier si un
composant est texte ou non-texte. Si la condition est vérifiée le composant passe au niveau supérieur sinon il
5


Figure 2.1 – Illustration de SWT

Figure 2.2 – Représentation de suppression de composant par la taille de son aire. ( source : https ://imagej.net/MorphoLibJ)

6


est automatiquement rejeté et cela dans tous les niveaux de filtrage. A la fin du processus plusieurs composants
non-textes sont supprimés de l’ensemble des composants.

Figure 2.3 – Structure de la classification en cascade [1]

2.3.2

Machine à vecteurs de support (SVM)

la Machine à vecteurs de support (SVM) est une technique qui est beaucoup utilisée dans la classification des
composants connexes [1], [2]. Il a pour rôle de déterminer pour un composant donné s’il est texte ou non-texte.
Dans lapplication le modốle est conỗu partir d’une base d’apprentissage appelée Training set contenant des
images des caractères ou des textes et le test est effectué sur la base de test appelée test set. Lorsque le modèle
a bien appris il prédit si un composant est texte ou non. Il est important de souligner que la prédiction est
effectuée grâce aux caractéristiques que le modèle aura apprise sur la base d’apprentissage (figure2.5). Vu les
performances qu’a SVM dans la littérature, R. Jiang et ses alliés dans [1] l’ont utilisé pour filtrer les composants
restants après la phase de la classification en cascade. (figure 2.4).


2.4

Réseaux de neurones convolutifs (CNN)

Dans le papier [3], Nibal Nayef et ses collaborateurs ont proposé l’approche des réseaux de neurones convolutifs pour faire une classification des composants connexes après la phase d’extraction. Cette classification leur à
permise de séparer les composants textes et les composants non-textes extraits. Le réseau (Figure 2.6) constitué
à cet effet était composé de :
— une couche de donnée ;
— Quatre(4) couches de convolution qui traitent les données ;
— deux(2) couches appelées Pooling, qui permet de compresser l’information en réduisant la taille de l’image
intermédiaire ;
— deux (2) couches entièrement connectées , qui sont des couches de type perceptron ;
— la couche de correction (ReLU) ;
— la couche de perte (LOSS).

2.5

Réseaux de neurones convolutifs profond (DCNN)

La phase de filtrage des caractères candidates, est une phase très importante dans la détection de texte, c’est
pourquoi plusieurs méthode sont proposées dans cette phase. Dans le papier [4], Wang et ses collaborateurs, en
2017 ont proposé l’utilisation des réseaux de neurones convolutifs profond pour filtrer les caractères candidates
extraits après une phase pré-traitement. Ce réseau était constitué de deux grande parties comme le montre la
figure 2.7 à savoir :

7


Figure 2.4 – Structure de la classification en cascade et SVM [1]


Figure 2.5 – Processus de mise en place de SVM [2]

8


Figure 2.6 – Architecture de CNN pour la classification text/non-text [3]

9


Figure 2.7 – Architecture de DCNN pour la classification text/non-text [4]

Figure 2.8 – Architecture 3D de VGG-16 (source :https ://goo.gl/ogqbau)

- VGG-16 : en effet VGG-16 est constitué de plusieurs couches, dont 13 couches de convolution et 3 fullyconnected. Il doit donc apprendre les poids de 16 couches. Il prend en entrée une image en couleurs de taille
224 224 pixel et la classifie dans une des 1000 classes. Il renvoie donc un vecteur de taille 1000, qui contient les
probabilités d’appartenance à chacune des classes (figure 2.8).
- Multi-level ROI Pooling (MLRP) : en raison de forte la variation des caractère, MLRP avait été appliqué
pour uniformiser les tailles.

2.6

Les approches hybrides

Les approches hybrides quant à elles combinent les approches basées sur les composants connexes et les
approches basées sur des régions. Ces méthodes des donnent des résultats performants.

10



Articles

Méthodes

Nibal Nayef, JeanMarc Ogier et al,
2018 [3] ;
Learning
Text
Component
Features via Convolutional
Neural
Networks for Scene
Text Detection

- Binarisation :
multiple binarizations [15]
- Classification :
CNN.
- Features : caractéristiques
couleurs
et
contours.
Grouping
:
linkage-based
clustering
et
overlapping
technique.


Cong Wang, Fei
Yin1 et al, 2017
[4] ;
Scene Text Detection with Novel
Superpixel
Based
Character Candidate Extraction

- Binarisation :
Segmentation de
superpixel
- Classification :
Clustering hierachique (HAC),
DCNN.

Points forts

Limites

— réduction
superpixel
après segmentation.
— nouvel algorithme de
groupage de caractère.
— Bon taux de précision .
— Fusion des caractéristiques couleurs et
contour.

— Problème avec les caractères non latin

— Manque d’assez d’information sur les caractéristiques utilisées.
— l’algorithme n’a pas été
tester sur des images
avec du texte vertical

— réduction
superpixel
après segmentation.
— nouvel algorithme de
groupage de caractère.
— Bon taux de précision .
— Fusion des caractéristiques couleurs et
contour.

— Problème avec les caractères non latin
— Manque d’assez d’information sur les caractéristiques utilisées.
— l’algorithme n’a pas été
tester sur des images
avec du texte vertical

Table 2.1 – Tableau de synthèse des articles étudiés(1/2)

2.7

Tableau de synthèse des articles étudiés

Dans cette partie de ce document, nous avons fait une analyse critique de quelques articles principaux que
nous avons étudié au cours de notre stage. Cette analyse et consignée dans les tableaux 2.1 et 2.2
Au terme de notre étude bibliographique, nous retenons que les travaux sur la détection de texte de ces
derniers années, se sont axés autour de deux (2) approches principales : les approches basées sur la région

d’image et les approches basées sur les composants connexes. Quant à la classification des composants
connexes, nous avons étudié dans la littérature des approches basées sur les Machine à vecteurs de support
(SVM) ; les réseaux de neurones ; et aussi la combinaisons des approches tel que la classification en cascade
combiné à SVM. Également différentes caractéristiques sont utilisées pour l’amélioration des résultats (propriétés
géométrique, couleur, histogramme des gradients).

11


Articles
Renjie Jiang, Feihu
Qi et Al, 2006 [1] ;
Detecting and Segmenting Text from
Natural Scenes with
2-Stage Classification

Méthodes
- Binarisation :
multiple binarizations
- Classification :
Classification en
cascades, SVM,
K-Means clustering.
- Features : caractéristiques
géométriques.

Wang
Xiaobing,
Song Yonghong et
Al, 2003 [14] ;

Natural scene text
detection
with
multi-channel
connected
component segmentation

- Binarisation :
Segmentation
avec
Markov
Random Field
- Classification :
SVM.
- Features : caractéristiques
géométriques.

Points forts

Limites

— Définition des caractéristiques (géométrique)
— classification en cascade
très performant
— Bonne segmentation de
l’image basée sur la couleur
— Bon résultat.

— pas eu de phase de grouping
— Pas de détaille sur la

phase de formation des
clusters des couleurs.
— la méthode SVM et la
méthode en cascade font
la même chose .

— Prise en compte des
chne de couleur.
— Définition d’algorithme
pour regrouper les composants en mots.
— Tester sur deux bases de
données différents (ICDAR 2003 et 2011).

— performance en dessous
des travaux récents.
— Ne marche pas sur des
image a faible contraste.
— Ne marche pas sur les
images à forte illumination .

Table 2.2 – Tableau de synthèse des articles étudiés(2/2)

12


Chapitre 3

Solution proposée
La solution proposée pour atteindre les objectifs de ce stage est de mettre en place un pipeline complet de
détection de texte qui résoudra les différents les problèmes des processus de la détection de texte vu dans l’état

de l’art. Ce chapitre est consacré à la description et l’implémentation de cette solution. Également, une analyse
des résultats obtenus sera effectuée.

3.1

Description des différentes phases de mise en place du pipeline

Dans le but de bien expliqué notre idée pour la résolution du problème posé, nous avons schématisé notre
solution que nous proposons. Comme le présente la Figure 3.1, le pipeline est composé de six(6) modules. Chaque
module traite un problème particulier de la détection de texte. Dans la suite, nous décrivons plus en détails ces
différents modules.

3.1.1

Module 1 : Lecture d’image

Dans cette partie du pipeline, nous lisons l’image en entrée. Par la suite ce module affiche plusieurs informations sur l’image entrée ( la longueur, la hauteur, la taille etc...). Dans ce même module nous affichons l’image
pour vérifier si c’est elle vraiment celle qu’on souhaite traiter. En résumé dans ce module, nous avons : en
entrée une image ; en sortie une image.

Figure 3.1 – Architecture du Pipeline proposée

13


3.1.2

Module 2 : le pré-traitement

Cette phase est très importante dans le traitement des images. Nous redimensionnons et nous binarisons

l’image avec une taille que nous avons définit au vu de la littérature. Nous avons dans cette phase d’abord en
entrée une image (celle de la sortie du module précédent puis en sortie une image binaire(niveau de gris)
redimensionnée à la nouvelle taille.

3.1.3

Module 3 : Extraction des composants connexes

Cette phase consiste à extraire les composants connexes. Ce module prend en paramètre l’image binarisée(sortie du module 2), et donne en sortie des composants connexes, ainsi que leurs données géométriques(largeurs, hauteurs, centroïdes, l’aire ...) . Ces composants connexes peuvent être des caractères de mots
ou pas (texte / non-texte).

3.1.4

Module 4 : Filtrage des composants connexes

Dans cette phase nous filtrons les composants connexes obtenus en sortie de la phase 3. Dans cette phase
nous avons proposé deux solutions. La première, consiste à filtrer les composants en fixant un seul minimal et
maximal, pour extraire que les composants textes. Dans la deuxième solution nous avons utilisé les techniques de
machines learning principalement les Machines à vecteurs de support (SVM) pour classifier les composants afin
de supprimer ceux qui ne sont pas des caractères. En entrée nous avons les caractéristiques des composants
définies pour la classification. En sortie un tableau de valeur 0 ou 1 . Lorsque la valeur est 1 c’est que le
composants a été classé Texte dans le cas contraire c’est qu’il est Non-texte. Par la suite nous supprimons tous
les composants classés non-texte.

3.1.5

Module 5 : Étape de groupage

Dans cette étape, il s’agit de reconstituer les mots de l’image en entrée. Nous avons proposé un nouvel
algorithme basé sur la distance Euclidienne entre les caractères ; soit entre les centroïdes, soit les points les plus

proches des deux composants consécutifs. Nous détaillerons notre algorithme dans la partie implémentation de
notre rapport. En entrée les données géométrique des composants classés texte. En sortie les coordonnées
des boites englobantes du texte.

3.1.6

Module 6 : Affichage des boites englobantes ( Bounding Boxes)

L’affichage des boites englobantes autours des textes contenus dans les images de scène que nous avons en
entrée du pipeline constitue la dernière étape de notre pipeline. Nous avons en paramètre de ce module les
coordonnées des boites englobantes du texte et en en sortie le résultat final, une image avec les boites qui
entourent le texte.

3.1.7

Tableau récapitulatif des entrées / sorties des modules du pipeline

Dans le tableau 3.1, nous donnons les données en entrée et en sortie de chaque module du pipeline proposée.

3.2

Environnement de travail

Dans cette section, nous décrivons l’environnement informatique utilisé au cours du stage. D’abord l’environnement matériel composé des outils matériels que nous utilisé, ensuite l’environnement logiciel et enfin les
autres plateformes que nous avons utilisé lors du stage.

14



×