UNIVERSITE NATIONALE DU VIETNAM, HANOI
INSTITUT FRANCOPHONE INTERNATIONAL
ĐÀO THỦY NGÂN
CONCEPTION D'UNE HIÉRARCHIE SÉMANTIQUE ET
SPATIALE DE DESCRIPTEURS LOCAUX VISUELS
THIẾT KẾ MỘT HỆ THỐNG PHÂN CẤP NGỮ NGHĨA
VÀ KHÔNG GIAN CỦA CÁC CHỈ SỐ
MÔ TẢ TRỰC QUAN ĐỊA PHƯƠNG
MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE
HANOI – 2016
�����������������������������
ATTESTATION SUR L’HONNEUR
J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les
données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés
ailleurs. La source des informations citées dans ce mémoire a été bien précisée.
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn
đã được chỉ rõ nguồn gốc.
Signature de l’étudiant
Remerciement
J’adresse mes remerciements aux personnes qui m’ont aid´e dans la r´ealisation de
ce m´emoire. En premier lieu, je tiens `a exprimer toute ma reconnaissance a` mes
deux encadrants : Madame Muriel VISANI et Monsieur Thierry URRUTY. Je
les remercie de m’avoir encadr´e, orient´ee, aid´ee et conseill´ee. Je les remercie aussi
d’avoir ´et´e tr`es patients pour m’encourager a` compl´eter le m´emoire quand j’´etais
dans les moments difficiles.
J’adresse mes sinc`eres remerciements a` mes professeurs `a l’IFI : Monsieur HO
Tuong Vinh, Monsieur NGUYEN Hong Quang, et Madame NGUYEN Thi Van
Tu pour leur encouragement.
Je tiens a` remercier mes chers parents, et mon cher mari VU Viet Minh qui ont
toujours ´et´e l`a pour moi.
Finalement, je remercie tr`es sp´ecialement mes amis : Chanthala SENTHAVONG
et Damien PHILLIPON pour leur sinc`ere amiti´e et confiance, leur soutien inconditionnel et leur encouragement.
` tous ces intervenants, je pr´esente mes remerciements, mon respect et ma gratiA
tude.
i
Table des mati`
eres
R´
esum´
e
iii
Abstract
iv
Liste des Figures
v
Liste des Tableaux
vi
1 Introduction
1.1 Contexte et motivation . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Probl´ematique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Objectifs du travail et principales contributions . . . . . . . . . . .
´
2 Etat
de l’art des m´
ethodes de phrases visuelles
2.1 Phrases visuelles construites par fenˆetres coulissantes
2.2 Groupes de plus proches voisins . . . . . . . . . . . .
2.3 Chaˆınes des mots visuels . . . . . . . . . . . . . . . .
2.4 Phrases visuelles construites par r´egions . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
7
9
9
15
21
25
3 Mise en œuvre de quelques m´
ethodes
30
3.1 Protocole exp´erimental . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 M´ethode de sacs de phrases visuelles descriptives . . . . . . . . . . 31
3.3 Sacs de sacs de mots visuels . . . . . . . . . . . . . . . . . . . . . . 33
4 Exp´
erimentation et discussion
4.1 M´ethode d’´evaluation . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Les base d’images utilis´ees . . . . . . . . . . . . . . . . . . . . . . .
4.3 Analyse des r´esultats . . . . . . . . . . . . . . . . . . . . . . . . . .
37
37
38
42
5 Conclusion
46
A R´
esultats d´
etaill´
es
48
Bibliographie
50
ii
R´
esum´
e
Ces derni`eres ann´ees, l’analyse des images par le contenu est devenue un sujet
d’´etude populaire. Parmi de nombreuses m´ethodes propos´ees, le mod`ele de sacs
de mots visuels semble prometteur. Il a retenu l’attention des scientifiques avec
plusieurs id´ees d’am´elioration. Parmi ces id´ees, les m´ethodes de sac de phrases
visuelles sont tr`es bien ´etudi´ees mais il n’y a pas `a notre connaissance de document
qui r´ealise une synth`ese de celles-ci, formellement et exp´erimentalement. Ce travail
est donc une ´etude syst´ematique avec un regroupement des approches de sacs
de phrases visuelles selon la m´ethode de construction d’une phrase. De plus, les
performances de certaines m´ethodes sont aussi ´etudi´ees. Parmi les m´ethodes de
sacs des phrases visuelles, deux m´ethodes sont choisies et re-impl´ement´ees. Elles
sont ensuite analys´ees sur les aspects de performance et de complexit´e (temps
d’ex´ecution) avec des exp´eriences de recherche d’images par le contenu.
iii
Abstract
In recent years, content based image analysis hqs been extensively studied. Among
the nu,erous proposed methods, the bag of visual words model seems promising
with interesting experimental results. It raised the attention of several scientists
with many ideas for improvement. Among these ideas, bag of visual phrases methods are very well studied but there is, to the best of our knowledge, no document
which provides a formal and experimental synthesis. This work is therefore a systematic study with a categorization of bag of visual phrases approaches according
to the method of construction of a phrase. In addition, the performance of some
methods is also reviewed. Among the bag of visual phrases methods, two methods
are selected and re-implemented. They are then compared on performance and
complexity (runtime) with some experiments on content based image retrieval.
iv
Liste des Figures
1.1
Illustration de l’´etape d’indexation des mots visuels 1 . . . . . . . .
2.1
Exemple de la fenˆetre coulissante . . . . . . . . . . . . . . . . . . . 10
3.1
L’histogramme spatial pour g´en´erer les phrases visuelles candidates 2 32
4.1
Exemples de la base d’image MIRFLICKF-25000
4.2
Exemples des bases d’images utilis´ees . . . . . . . . . . . . . . . . . 40
4.3
Temps d’ex´ecution de la m´ethode BBW sur les bases d’images
1
4
. . . . . . . . . 38
diff´erentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
A.1 R´esultats d´etaill´es sur la base ImageNet . . . . . . . . . . . . . . . 48
A.2 R´esultats d´etaill´es sur la base Caltech . . . . . . . . . . . . . . . . . 49
v
Liste des Tableaux
2.1
M´ethodes de phrases visuelles construites par fenˆetres coulissantes . 13
2.2
M´ethodes de plus proches voisins . . . . . . . . . . . . . . . . . . . 18
2.3
M´ethodes de chaˆınes de mots visuels . . . . . . . . . . . . . . . . . 23
2.4
M´ethodes de phrases visuelles construites par r´egion . . . . . . . . . 28
4.1
Le nombre d’images dans les bases d’images . . . . . . . . . . . . . 41
4.2
mAP des m´ethodes sur les bases d’images diff´erentes . . . . . . . . 42
4.3
Temps d’ex´ecution des m´ethodes sur les bases d’images diff´erentes . 44
vi
Chapitre 1
Introduction
1.1
Contexte et motivation
Ces derni`eres ann´ees, le volume de donn´ees multim´edia a augment´e de mani`ere
exponentielle, en parall`ele avec le d´eveloppement des appareils multim´edia et aussi
des techniques de stockage. La disponibilit´e d’une vaste quantit´e de donn´ees multim´edia, notamment des images et vid´eos, fournit de grandes ressources pour beaucoup de domaines d’application : journalisme, m´edecine, robotique... En revanche,
l’explosion de donn´ees fait ´emerger de nouvelles questions sur les techniques de
gestion automatique des images telles que : la classification des images, la recherche
d’image `a partir du contenu ou la reconnaissance des objets dans des images. Ce
contexte conduit au d´eveloppement des ´etudes sur l’analyse et sur la description
du contenu des images.
L’analyse des images par le contenu est donc un sujet de recherche tr`es ´etudi´e
r´ecemment. Appartenant au domaine de la vision artificielle, une branche de
l’intelligence artificielle, il s’agit d’un domaine s´eduisant, pratique et dynamique
avec des possibilit´es d’applications multiples. Dans l’ordinateur, les images sont
repr´esent´ees simplement par des chiffres. Cependant, au niveau des objets, les
images peuvent avoir plusieurs caract´eristiques sp´eciales. Par exemple, les documents textuels sont constitu´es des mots d´efinis par une langue qui va alors en
limiter leur sens, alors que pour les images, le contenu visuel peut ˆetre tr`es vari´e
(une plage, une montagne ou bien mˆeme de l’abstrait). La vari´et´e du contenu des
images refl`ete la vari´et´e dans le monde r´eel. Dans le monde visuel, un objet peut
1
Introduction
2
avoir plusieurs formes, plusieurs ´etats et plusieurs couleurs. Par exemple, un poisson peut ˆetre grand, petit, long ou rond... La couleur d’un mˆeme objet dans les
diff´erentes images peut varier selon les conditions de capture, et notamment l’illumination. Par contre, certains objets peuvent avoir la mˆeme couleur et la mˆeme
forme. Il est difficile d´ej`a pour l’ˆetre humain de distinguer, par exemple, un chien
et un loup. L’analyse des images par le contenu pr´esente donc plusieurs d´efis.
Ce m´emoire a ´et´e effectu´e dans le cadre d’un stage de fin d’´etude qui s’inscrit
dans le contexte du projet CINEDI, financ´e par le CNRS au travers du Groupe de
Recherche ISIS (Information, Signal, Image et ViSion). Ce projet traite de l’analyse
d’images par le contenu, en vue de l’utilisation d’outils de navigation dans des
bases d’images, ou de recherche par exemple. Le stage s’est d´eroul´e au Laboratoire
Informatique, Image et Interaction (L3i) qui est le laboratoire de recherche du
domaine Sciences du Num´erique de l’Universit´e de la Rochelle (France), sous le
co-encadrement de Madame Muriel Visani (universit´e de La Rochelle) et Monsieur
Thierry Urruty (universit´e de Poitiers).
1.2
Probl´
ematique
Mod`
ele de sacs de mots visuels classique
Apr`es une vingtaine d’ann´ees d’´etude, plusieurs m´ethodes ont ´et´e propos´ees pour
l’analyse des images par le contenu visuel. Parmi celles-ci, la m´ethode utilisant les
sacs de mots visuels semble ˆetre particuli`erement populaire et ´etudi´ee ces derni`eres
ann´ees. Ce mod`ele est appliqu´e dans des syst`emes de recherche et des syst`emes de
classification d’images par le contenu. La m´ethode des sacs de mots visuels est introduite premi`erement dans [1], inspir´ee par l’approche de sacs de mots dans le domaine de la recherche d’information textuelle. L’id´ee principale du mod`ele de sacs
de mots visuels est de g´en´erer un dictionnaire des ´el´ements visuels repr´esentatifs,
appel´es les mots visuels, puis de repr´esenter les images comme un sous-ensemble
des mots dans le dictionnaire. Les ´etapes principales de ce mod`ele peuvent ˆetre
r´esum´ees comme suit :
— D´
etection des r´
egions d’int´
erˆ
et : il y a deux types de r´egions utilis´ees
dans cette m´ethode. L’une s’apple Shape Adapted Region (SA), c’est une
r´egion construite en adjustant une forme elliptique selon un point d’int´erˆet
Introduction
3
qui est d´etect´e par le d´etecteur de Harris. L’autre s’apple Maximally Stable
Region (MS), qui est construite a` partir de la segmentation de l’image
du bassin versant (watershed image). Selon les auteurs, ces deux types de
r´egions capturent deux caract´eristiques diff´erentes d’une image, il faut donc
utiliser deux dictionnaires s´epar´es pour chaque type de r´egion.
— Extraction des descripteurs : c’est l’´etape de repr´esentation des r´egions
d´etect´ees par un vecteur de valeurs. Le descripteur SIFT [2] est utilis´e
dont chaque point d’int´erˆet est d´ecrit par un vecteur `a 128 dimensions.
L’ensemble des points d’une image est souvent exprim´e sous la forme d’une
matrice a` 128 colonnes o`
u chaque ligne est un point et chaque colonne est
une des 128 dimensions du descripteur.
— Construction du dictionnaire : pour obtenir un vocabulaire de mots visuels, les descripteurs sont regroup´es en cluster. Chaque cluster correspond
a` un mot visuel repr´esent´e par le centre du cluster. Un algorithme de quantification vectorielle quelconque est appliqu´e pour faire le clustering. Dans
[1], l’algorithme k-means est choisi. Grˆace a` une impl´ementation simple
et une pr´ecision acceptable, cet algorithme est tr`es utilis´e en pratique et
consid´er´e comme efficace pour la construction du dictionnaire bien que ne
garantissant ni l’optimalit´e, ni un temps de calcul polynomial).
— Repr´
esentation des images : pour chaque image, les descripteurs sont
d’abord quantifi´es en assignant chaque descripteur au mot visuel le plus
proche dans le dictionnaire cr´e´e. L’image d’entr´ee est donc repr´esent´ee par
un vecteur de fr´equence de mots visuels (voir la Figure 1.1). Les valeurs
dans ce vecteur ne sont pas simplement le nombre d’occurrences de chaque
mot, elles sont pond´er´ees par une strat´egie de pond´eration standardis´ee
qui est connue sous le nom Term Frequency - Inverse Document Frequency
(TF-IDF). Les fr´equences pond´er´ees sont calcul´ees par la formule 1.1 :
ti =
nid
N
log
nd
ni
(1.1)
o`
u ti est la fr´equence pond´er´ee du mot i, qui est calcul´ee en se basant sur
les variables suivantes : nid est le nombre d’occurrences du mot i dans le
document d ; nd est le nombre total de tous les mots dans le document d ;
N est le nombre de tous les documents dans la base d’image ; et ni est le
nombre d’occurrence du mot i dans toute la base d’image.
1. http : //f r.mathworks.com/help/vision/ug/bagof f eaturese ncodeoverview.png
Introduction
4
Figure 1.1: Illustration de l’´etape d’indexation des mots visuels 1
Pour examiner la performance du mod`ele de sacs des mots visuels, deux exp´eriences
sont effectu´ees sur les sc`enes et les objets dans la vid´eo “Run Lola Run”. La
´
premi`ere exp´erience est une tˆache de scene matching : Etant
donn´e une sc`ene qui
se trouve dans une localisation d´etermin´ee, il devrait falloir trouver les trames
dans la vid´eo contenant les sc`enes correspondantes qui indiquent la mˆeme localisation que celle de la requˆete. Pour construire la base d’images pour utiliser dans cet exp´erimentation, `a partir de la vid´eo, 164 trames s´electionn´ees qui
contiennent les localisations diff´erentes sont extraites (19 localisations en total dans
cet exp´erience). Une localisation peut apparaˆıtre dans plusieurs trames (entre 4
et 9 trames) et sous des points de vue diff´erents. Les images pertinentes pour
chaque requˆete sont examin´ees pour calculer la performance de l’´etape de recherche. La performance est mesur´ee par une valeur moyenne de rang normalis´e
de ces images. Le r´esultat montre que 17 sur un total de 19 localisations sont
parfaitement trouv´ees, mˆeme sous des changements consid´erables de point de vue
dans les trames.
La deuxi`eme exp´erience est une tˆache de recherche d’objets. Une trame-cl´e est
extraite pour chaque seconde de la vid´eo, et environ quatre milles trames cl´es sont
utilis´ees pour chaque vid´eo. Un objet d’int´erˆet est d´efini par l’utilisateur comme
une sous-partie d’une trame. La tˆache est de trouver toutes les trames vid´eos
qui contiennent l’objet d’int´erˆet et la recherche doit ˆetre effectu´ee en temps r´eel.
Dans cette exp´erience, quelques techniques d’augmentation sont propos´ees pour
am´eliorer la performance : l’´elimination des mots vides dans le dictionnaire, le
re-classement (re-ranking) des r´esultats de recherche selon la coh´erence spatiale.
Ces techniques se basent sur les approches similaires dans le domaine de la recherche d’informations textuelles. Dans l’´etape de recherche, les fichiers invers´es
(inverted files) sont appliqu´es pour diminuer le temps de recherche. L’utilisation
de ces fichiers prouvent aussi l’analogie entre la recherche d’objets dans les images
utilisant le mod`ele de sacs de mots visuels et la recherche textuelle. Le r´esultat
Introduction
5
obtenu qui est montr´e par les exemples pertinents est exceptionnel : une bonne
pr´ecision o`
u toutes les trames retourn´ees par la moteur de recherche contiennent
l’objet d’int´erˆet. Il ne comporte aucun faux n´egatif car aucune trame qui contient
l’objet d’int´erˆet n’est manqu´ee.
La repr´esentation d’une image sous la forme d’un vecteur des mots visuels, appel´e aussi signature de l’image, via un dictionnaire, permet d’h´eriter beaucoup de
techniques efficaces dans le domaine de recherche d’informations textuelles. Avec
cette repr´esentation, pour comparer deux images, on doit seulement comparer les
deux histogrammes de fr´equences qui les repr´esentent. La performance de cette
m´ethode en termes de temps de calcul dans la tˆache de recherche d’objet est tr`es
remarquable car on obtient le r´esultat presque sans d´elai. Cette m´ethode ouvre une
perspective de d´eveloppement des moteurs de recherche d’images par le contenu
en temps r´eel.
Malgr´e des r´esultats prometteurs, ce mod`ele pr´esente encore quelques limites. Une
limite majeure qui affecte fortement les r´esultats, est l’ambigu¨ıt´e dans la description des images. Traditionnellement, un dictionnaire est g´en´er´e en regroupant les
descripteurs locaux visuels par une m´ethode de clustering comme k-moyennes,
BIRCH,.... Dans la pratique, on s’aper¸coit souvent que les dictionnaires de sacs de
mots visuels construits de cette mani`ere contiennent naturellement de nombreux
synonymes et polys`emes. Dans de nombreux cas, un objet peut avoir plusieurs
formes ou ´etats. Pour repr´esenter chaque forme, un ensemble diff´erent de mots
visuels est utilis´e. Dans des autres cas, un mot visuel peut repr´esenter une partie
quelconque d’objets diff´erents. Dans le monde r´eel, on voit aussi tr`es souvent qu’il
y a des objets qui ont des parties de forme identique. Par cons´equent, deux objets
diff´erents peuvent ˆetre repr´esent´es par deux vecteurs tr`es proches, et deux objets
de mˆeme type peuvent ˆetre d´ecrits par deux vecteurs tr`es diff´erents.
En outre, l’ensemble des mots visuels qui d´ecrivent une image manque encore
d’ordre. Cette caract´eristique est diff´erente dans le contexte textuel, car les mots
dans une phrase textuelle ont toujours un ordre. En pratique, le changement de
l’ordre des mots dans une phrase textuelle peut changer le sens de la phrase. Le
changement des localisations des mots visuels peut provoquer le changement du
contenu d’une image car un mot visuel peut repr´esenter un d´etail de plusieurs
objets diff´erents. Donc, c’est une grande am´elioration si les informations spatiales
peuvent ˆetre ajout´ees pour d´ecrire une image. Dans la proposition, les auteurs ont
propos´e une ´etape de re-classement (re-ranking) des r´esultats utilisant une mesure
Introduction
6
de coh´erence spatiale. Cependant, cette ´etape est applicable seulement pour la
tˆache de recherche, et elle est coˆ
uteuse en termes computationnels.
Techniques d’am´
eliorations du mod`
ele de sac de mots visuels classique
Pour r´eduire l’ambigu¨ıt´e dans la description, de nombreuses id´ees d’am´elioration
ont ´et´e propos´ees. Plusieurs travaux se concentrent sur l’importance de la relation
entre les caract´eristiques des descripteurs bas niveau d’une image, principalement
sur la position spatiale du descripteur. Dans le mod`ele de sacs des mots visuels original, les descripteurs dans une image sont consid´er´es ind´ependants et d´esordonn´es.
Dans le monde r´eel, les parties d’un objet ont toujours un ordre spatial. Cet ordre
peut ˆetre d´efini par la co-occurrence des descripteurs qui repr´esentent les parties
de l’objet. Par cons´equent, la relation spatiale entre les descripteurs locaux est
une information utile pour am´eliorer la performance du mod`ele de sac des mots
visuels. Pour profiter la relation spatiale des descripteurs, dans des syst`emes de
recherche d’image par le contenu, on ajoute une ´etape de v´erification apr`es avoir
appliqu´e le mod`ele de sac de mots classiques. Les techniques de v´erification spatiale (RANSAC par exemple) peuvent am´eliorer la performance du mod`ele, mais
elles sont complexes et coˆ
uteuse en temps de calcul.
Une mani`ere plus efficace pour capturer la relation entre les descripteurs est d’enregistrer cette relation en construisant des les phrases visuelles qui sont form´ees
` partir des
en regroupant certains mots visuels selon des contraintes sp´ecifiques. A
phrases construites, un nouveau dictionnaire plus descriptif peut ˆetre g´en´er´e. Puis,
au lieu de d´ecrire une image comme un sac des mots visuels, on la d´ecrit comme
un sac des phrases visuelles. Similaire au mod`ele de sacs des mots visuels, l’id´ee
de construire les phrases visuelles est inspir´ee par la notion de phrases dans le
domaine d’analyse des documents textuels. Le mod`ele de sacs de phrases visuelles
est une am´elioration du mod`ele de sacs des mots visuels qui s´eduit fortement les
scientifiques. Ce m´emoire est une ´etude sur les diff´erentes m´ethodes des sacs de
phrases visuelles.
Introduction
1.3
7
Objectifs du travail et principales contributions
L’objectif principal de ce travail est d’´etudier les diff´erentes m´ethodes existantes
de sacs de phrases visuelles. Il s’agit d’une ´etude syst´ematique avec un regroupement (typologie) des approches de sacs de phrases visuelles selon la m´ethode de
construction d’une phrase.
La performance de certaines m´ethodes de sacs de phrases visuelles est aussi examin´ee. Le mod`ele de sac des mots visuels original [1] est consid´er´e comme la
m´ethode de base. Parmi les m´ethodes de sacs des phrases visuelles, deux m´ethodes
appartenant a` des types diff´erents sont choisies et re-impl´ement´ees, puis elles sont
compar´ees l’une avec l’autre ainsi qu’avec la m´ethode de base.
Les contributions de ce m´emoire comportent deux volets :
1. Dans les ann´ees r´ecentes, les m´ethodes de phrases visuelles sont devenues
tr`es populaires. De nombreuses m´ethodes ont ´et´e propos´ees mais il n’y a pas,
a` notre connaissance de document qui r´ealise une synth`ese de ces m´ethodes.
Ce m´emoire serait donc le premier document qui pr´esente une ´etude relativement compl`ete et syst´ematique des diff´erentes m´ethodes existantes des
phrases visuelles.
2. Malgr´e l’existence de plusieurs m´ethodes aux r´esultats prometteurs, chacune d’entre elles est impl´ement´ee et test´ee avec des dictionnaires de mots
visuels et des bases d’images diff´erentes. Cela constitue une difficult´e dans
la r´ealisation d’une comparaison entre les diff´erentes m´ethodes sur la base
des chiffres annonc´ees dans les publications associ´ees `a chacune d’elles. Il
est n´ecessaire de r´eexaminer chaque m´ethode en les exp´erimentant dans les
mˆemes conditions. Cependant, la r´e-impl´ementation des m´ethodes pour les
exp´eriences provoque beaucoup de probl`emes. Dans le cadre ce m´emoire,
seulement deux m´ethodes de sac des phrases visuelles sont choisies et reimpl´ement´ees. Leurs performances sont compar´ees avec la m´ethode des sacs
de mots visuels classique dans les mˆeme conditions : le mˆeme dictionnaire
et la mˆeme base d’images. Pour avoir des comparaisons objectives, ces
m´ethodes sont exp´eriment´ees avec trois bases d’images diff´erentes.
Le contenu du m´emoire est d´ecoup´e en trois chapitres :
Introduction
8
´
— Chapitre 2 : Etat
de l’art. Les m´ethodes des sacs des phrases visuelles
sont recens´ees et nous en ´etablissons une typologie.
— Chapitre 3 : Impl´ementation de quelques m´ethodes de sacs des phrases
visuelles. Deux m´ethodes sont choisies pour l’impl´ementation : la m´ethode
des sacs de sacs de mots visuels [3] et la m´ethode des phrases visuelles
descriptives [4]. Ces m´ethodes sont pr´esent´ees en d´etails. Les param`etres et
les conditions de l’impl´ementation sont aussi donn´es.
— Chapitre 4 : Comparaison des m´ethodes impl´ement´ees. Les r´esultats sur
plusieurs bases d’images sont pr´esent´es et analys´es.
Chapitre 2
´
Etat
de l’art des m´
ethodes de
phrases visuelles
Dans ce chapitre, les m´ethodes de sacs de phrases visuelles sont recens´ees. Elles
sont regroup´ees selon la m´ethode utilis´ee pour la construction d’une phrase : 1)
groupes des phrases visuelles construites par fenˆetres coulissantes [4–8], 2) phrases
construites en regroupant les points d’int´erˆet avec leurs k plus proches voisins
[9–16], 3) chaˆınes de mots visuels [17–20] et 4) phrases visuelles construites par
r´egions [3, 21–23]. Les caract´eristiques de chaque groupe sont pr´esent´ees dans une
section correspondante ci-dessous.
2.1
Phrases visuelles construites par fenˆ
etres coulissantes
Dans ce contexte, “une fenˆetre” est une borne dont la taille est fix´ee par un attribut, par exemple l’´echelle, le rayon ou la longueur des axes des r´egions elliptiques
[4, 5], parfois par une valeur constante [8]. Cette fenˆetre est utilis´ee alternativement pour d´eterminer les voisins de chaque point d’int´erˆet dans une image, elle
est donc appel´ee fenˆetre coulissante.
La figure 2.1 illustre l’utilisation de la fenˆetre coulissante. Les points dans la figure
repr´esentent les points d’int´erˆet. On applique la fenˆetre coulissante sur le point
4, puis le point 7 pour d´eterminer leurs voisinages. Les deux cercles illustrent les
9
´
Etat
de l’art des m´ethodes de phrases visuelles
10
Figure 2.1: Exemple de la fenˆetre coulissante
fenˆetres coulissantes correspondant a` ces deux points. Les rayons de la fenˆetre
coulissante d´ependent des caract´eristiques du point d’int´erˆet central, donc ils sont
diff´erents l’un de l’autre. On voit qu’il y a deux voisins (2 et 5) dans le voisinage du
point 4 et trois voisins (3, 4 et 8) dans le voisinage du point 7. Dans cet exemple,
le point 4 est un voisin du point 7 mais le point 7 n’est pas un voisin de point 4.
La raison est que la distance spatiale entre ces deux points est inf´erieure au rayon
de la fenˆetre du point 7, mais elle est sup´erieure au rayon de la fenˆetre du point 4.
Appliquant la fenˆetre coulissante, la m´ethode de Bhatti and Hanbury [5] est une
simple am´elioration de la m´ethode de base. Le rayon de la fenˆetre coulissante dans
cette m´ethode est d´efini en fonction des longueurs des deux axes de la r´egion elliptique correspondant `a chaque point d’int´erˆet. Une phrase visuelle est simplement
une paire de mots construite `a partir d’un point central et d’un des voisins contenu
dans la fenˆetre coulissante. Un nouveau dictionnaire est cr´e´e contenant toutes les
paires distinctes de mots visuels, nomm´e “Relational Features Codebook”. Pour
d´ecrire une image, un histogramme de phrases visuelles est g´en´er´e en codant les
phrases avec ce dictionnaire. Bien que les r´esultats report´es par les auteurs ne
soient pas meilleurs que ceux de la m´ethode de base, cette m´ethode est assez
simple et capable de capturer la relation entre les caract´eristiques des images.
Apr`es la g´en´eration des candidats (les paires ou groupes des mots visuels qui
peuvent ˆetre choisis comme phrases), les phrases visuelles sont choisies selon des
crit`eres. Ces crit`eres sont diff´erents selon chaque m´ethode. Dans [5], aucun crit`ere
n’est appliqu´e. Mais dans l’approche de Chen et al. [6], le crit`ere est que les phrases
visuelles doivent ˆetre discriminantes. Cette m´ethode est plus complexe que celle
dans [5]. Tout d’abord, le voisinage spatial de chaque point est d´etermin´e par une
fenˆetre coulissante ronde. Ensuite, les k voisins les plus proches du point central
sont choisis pour g´en´erer les paires des mots visuels. Les paires de mots visuels les
plus discriminantes sont choisies comme phrases visuelles. Il faut noter que, dans
´
Etat
de l’art des m´ethodes de phrases visuelles
11
cette m´ethode, les voisins de chaque point d’int´erˆet sont choisis par l’algorithme de
k-plus proches voisins. Donc, cette approche peut aussi ˆetre class´ee dans le groupe
des “phrases visuelles comme groupes de k plus proches voisins” qui est pr´esent´e
dans la section 2.2. Cependant, elle est pr´esent´ee dans le groupe des “phrases
visuelles construites par fenˆetres coulissantes”, car elle a un point diff´erent des
m´ethodes utilisant l’algorithme de k-plus proches voisins : comme le voisinage
d’un point d’int´erˆet est d’abord d´etermin´e par une fenˆetre coulissante, on ne peut
pas affirmer qu’il y a au moins k autres points dans le voisinage. Autrement dit, on
ne trouve pas toujours k voisins pour un point d’int´erˆet. Parfois, on ne peut trouver
aucun voisin dans la fenˆetre. Ce cas n’existe jamais pour les m´ethodes du groupe
des m´ethodes utilisant l’algorithme de k-plus proches voisins. Par cons´equente, le
choix des voisins d’un point par l’algorithme de k plus proches voisins est seulement
consid´er´e comme un crit`ere pour construire les phrases visuelles apr`es la g´en´eration
des candidats. Selon les auteurs, cette m´ethode est capable de garder les phrases
visuelles descriptives qui ont des basses fr´equences. Les r´esultats exp´erimentaux
pr´esent´es dans leur publication sont int´eressants. Cependant, cette m´ethode est
exp´eriment´ee seulement sur des images des monuments.
Dans une autre approche [7], la fr´equence est utilis´ee comme un crit`ere pour choisir
les phrases visuelles a` partir des paires des mots visuels. Pour qu’une paire de
mots visuels soit une phrase visuelle, le nombre d’images dans la base d’image qui
contiennent chaque mot visuel doit ˆetre sup´erieur `a un seuil θ. Dans cette m´ethode,
la fenˆetre coulissante qui d´etermine les voisins des points d’int´erˆet est dynamique.
Le rayon de la fenˆetre ne d´epend pas seulement du point central, mais aussi des
voisins. Pour consid´erer si un point est le voisin d’un autre point, on compare leur
distance euclidienne avec le rayon de la fenˆetre coulissante (la somme des rayons des
r´egions locales correspondant `a ces points). Dans ce cas, la relation des points est
sym´etrique. Si un point d’int´erˆet A est un voisin d’un point B, B est aussi un voisin
du point A. Cette m´ethode est une des premi`eres m´ethodes de phrases visuelles.
Elle am´eliore la m´ethode de sacs de mots visuels classique sur l’efficacit´e (le temps
d’ex´ecution) et la performance (la qualit´e des r´esultats). Cependant, cette m´ethode
ne fonctionne pas bien si les images ont peu de texture. Si les objets principaux
dans les images ont peu de d´etails, le nombre de descripteurs SIFT d´etect´es pour
ces objets est bas et ces descripteurs ne sont pas assez proches l’un de l’autre, donc
il est difficile de former de bonnes phrases visuelles. En cons´equente, les images ne
peuvent pas ˆetre bien d´ecrites. Cette m´ethode est aussi peu performante pour les
images dont l’arri`ere plan est complexe. Si l’arri`ere plan est plus complexe que les
´
Etat
de l’art des m´ethodes de phrases visuelles
12
objets principaux, la fr´equence des mots visuels d´ecrivant le fond est plus haute que
celle des mots visuels d´ecrivant les objets. Les phrases visuelles d´ecrivant l’arri`ere
plan peuvent ainsi r´eduire l’importance des phrases visuelles d´ecrivant les objets
et diminuer l’efficacit´e de la m´ethode.
En r´esum´e, avec la fenˆetre coulissante, la relation examin´ee entre les mots visuels
est la co-occurrence dans une r´egion donn´ee, plutˆot que leur distance. Dans le
tableau 2.1, quelques m´ethodes de sacs de phrases visuelles construites par fenˆetres
coulissantes sont mentionn´ees. Dans la plupart de ces m´ethodes, une phrase est
d´efinie comme une paire des mots visuels. Le nombre de phrases construites a`
partir d’un point d’int´erˆet est vari´e, car le rayon de sa fenˆetre coulissante d´epend
des caract´eristiques du point central.
Ces m´ethodes ne sont pas trop complexes par rapport `a la m´ethode de base car
les phrases visuelles ont une taille limit´ee. Par ailleurs, ces m´ethodes ne sont pas
trop coˆ
uteuses en terme de temps de calcul. Elles ne doivent pas trier les distances
entre un point et les autres points pour trouver ses voisins. Mais, les r´esultats
report´es montrent que ces m´ethodes n’am´eliorent pas beaucoup la m´ethode de
sacs de mots visuels classique. Comme le rayon de la fenˆetre coulissante d´epend
seulement des caract´eristiques du point central, les phrases visuelles ne sont pas
tr`es robustes au changement de point de vue. Dans de tels cas, les m´ethodes des
“phrases visuelles comme groupes de k plus proches voisins” qui sont pr´esent´ees
dans la partie suivante semblent ˆetre plus efficaces.
Information
M´ethode
utilis´ee
pour construire une
Construction d’une phrase
phrase
Bhatti
and
Hanbury [5]
(2010)
Les longueurs des axes
Utiliser une fenˆetre coulissante d’un
de chaque r´egion el-
rayon d´etermin´e en fonction des lon-
liptique, position spa-
gueurs des axes de chaque r´egion ellip-
tiale des r´egions
tique
Taille des
phrases
Remarques
- Capable de capturer la relation
spatiale entre les caract´eristiques
2
des images.
- Peu d’am´eliorations par rapport
a` la m´ethode de base.
- Capable de d´ecrire les cat´egories
Extraire les paires des mots visuels qui se
Zhang et al.
Position spatiale des
trouvent ensemble dans un histogramme
[4] (2009)
descripteurs
spatial invariant a` la rotation puis choisir
sp´ecifiques.
2
les K paires les plus descriptives
- Fonctionne bien seulement pour
´
Etat
de l’art des m´ethodes de phrases visuelles
Table 2.1: M´ethodes de phrases visuelles construites par fenˆetres coulissantes
les images ayant une apparence
visuelle proche de la requˆete
(mˆeme objet ou sc`ene...)
- Bon r´esultat de classification et
Regrouper les mots visuels en paires en
Chen et al.
[6] (2014)
Position spatiale et
utilisant le voisinage de chaque point
´echelle des r´egions lo-
d’int´erˆet. Les paires des mots les plus dis-
cales
criminantes sont choisies comme phrases
visuelles
de reconnaissance des images de
2
monuments
- Capable de garder les phrases
visuelles descriptives qui ont une
basse fr´equence.
13
Information
M´ethode
utilis´ee
pour construire une
Construction d’une phrase
phrase
Zheng et al.
[7] (2006)
Yang
Position spatiale et le
rayon des r´egions locales
and
Newsam
[8]
(2011)
Taille des
phrases
Regrouper les mots visuels en paire.
Choisir les paires de mots visuels qui satisfassent les conditions de distance et de
- Ne fonctionne pas bien dans le
2
fr´equence
Position spatiale des
- Utiliser une fenˆetre de rayon r fix´e pour
descripteurs
limiter le voisinage
Remarques
cas o`
u l’image a peu de textures
ou l’arri`ere plan de l’image est
complexe
2
Fonctionne bien mˆeme avec un
dictionnaire de taille petite
Utiliser un dictionnaire hi´erarchique
pour quantifier les descripteurs. Une
Zhang et al.
Position
spatiale,
[12] (2013)
l’orientation
Zhang et al.
l’´echelle des r´egions
[11] (2014)
locales
et
´
Etat
de l’art des m´ethodes de phrases visuelles
M´ethodes de phrases visuelles construites par fenˆetres coulissantes (continue)
phrase visuelle est construite en regrou- Meilleure performance que les
pant un point d’int´erˆet p avec ses plus
proches spatiaux voisins dans une r´egion
centralis´ee par p. Le descripteur central
vari´ee
sacs de mots visuels classique et
DVP [4]
est quantifi´e avec un niveau de cluster
plus haut dans le dictionnaire que ses voisins.
14
´
Etat
de l’art des m´ethodes de phrases visuelles
2.2
15
Groupes de plus proches voisins
L’algorithme des k-plus proches voisins est un des algorithmes de classification
´
les plus simples et populaires. Etant
donn´e un point x et un ensemble de points
A, cet algorithme trouve un sous ensemble de A contenant les k points les plus
proches de x en utilisant une distance m´etrique (la distance de Mahalanobis ou
Euclidienne, ou une autre distance d´efinie par l’utilisateur).
Parmi les m´ethodes de sacs de phrases visuelles, beaucoup de m´ethodes appliquent
l’algorithme des k-plus proches voisins pour d´eterminer le voisinage des points
d’int´erˆet. La premi`ere proposition de sacs de phrases visuelles comme groupes de
k-plus proches voisins a ´et´e publi´ee juste apr`es la publication de la m´ethode de
sac de mots visuels classique, et par les mˆeme auteurs [15]. Dans cette proposition,
une phrase est d´ecrite comme un groupe de k + 1 points : un point central et ses
k voisins les plus proches spatialement dans l’image. Pour comparer la similarit´e
entre deux phrases visuelles, on compare d’abord les deux mots correspondants
aux deux points centraux. Puis, on compte le nombre de mots communs entre ces
phrases. Une paire de phrases visuelles est dite “match” (c.`a.d elles d´ecrivent la
mˆeme configuration spatiale) si elles ont au moins m voisins similaires (m ≤ k),
o`
u m est un seuil fix´e heuristiquement. Dans l’exp´erimentation, cette m´ethode
est appliqu´ee pour extraire les objets, les personnages et les sc`enes principaux
d’une vid´eo. Selon les auteurs, cette m´ethode est assez efficace, mais elle n’est pas
invariante au changement d’´echelle.
Dans une autre approche [14], l’algorithme des k-plus proches voisins est combin´e
avec l’algorithme de triangulation de Delaunay pour former les phrases visuelles.
Pour une image, d’abord les points SURF sont extraits. Les points qui correspondent aux d´etails les plus saillants dans l’image sont choisis pour former un
ensemble de points-graines (seeds). Les “graph features” sont form´es en groupant
chaque “point-graine” avec ses k voisins les plus proches spatialement. Ces points
deviennent les sommets du “graph feature”. Les arˆetes du graphe sont d´etermin´ees
en appliquant l’algorithme de triangulation de Delaunay sur les sommets. Dans
cette m´ethode, les auteurs utilisent une structure hi´erarchique : a` partir d’un
“point-graine”, quatre graphes de taille croissante sont construits. Les tailles des
graphes sont d´etermin´ees par le nombre de sommets. Le graphe de la premi`ere
couche ne contient que le “point-graine”. Le nombre de sommets augmente de 3
´
Etat
de l’art des m´ethodes de phrases visuelles
16
pour chaque couche suivante, la derni`ere couche contient 10 points : un “point` partir des “graph features”,
graine” et ses 9 plus proches voisins spatialement. A
` cause de la structure
un dictionnaire comprenant les “graph words” est form´e. A
complexe des “graph features” (ce n’est pas seulement un vecteur, comme les descripteurs standards mais un graphe de vecteurs), l’algorithme k-means n’est pas
appropri´e pour la construction du dictionnaire. Les auteurs ont s´electionn´e donc
l’algorithme de regroupement agglom´eratif hi´erarchique a` deux passages. Dans le
premier passage, chaque cat´egorie est examin´e ind´ependamment. L’algorithme de
regroupement agglom´eratif est appliqu´e sur l’ensemble des “graph features” dans
chaque cat´egorie. Pour calculer la distance entre les “graph features”, une version
personnalis´ee de l’algorithme “Context Dependent Kernel” (appliqu´e sur une matrice de distance D et une matrice de topologie T des nœuds des graphes compar´es)
est utilis´ee. Dans le deuxi`eme passage, tous les clusters cr´e´es de toutes les cat´egories
dans le premier passage sont regroup´es encore une fois pour construire les clusters finals (les “graph words”). Dans cette ´etape, les distances entre les m´edianes
des clusters g´en´er´es dans l’´etape pr´ec´edente sont calcul´ees en utilisant la norme
L1. Les “graph words” sont form´es a` l’aide des “points-graines”, repr´esentant
les m´edianes des “graph features” dans chaque cluster. Ces “graph words” sont
consid´er´es comme ´etant les phrases visuelles.
Cette m´ethode n’utilise pas directement les descripteurs d’images pour construire
les phrases visuelles. L’ensemble de “features” sont plutˆot utilis´es en empruntant
l’id´ee des k-plus proches voisins pour repr´esenter plus d’informations qu’une seul
caract´eristique. Les relations entre les nœuds dans un graphe sont d´etermin´ees par
l’algorithme de triangulation de Delaunay, qui est invariante aux changements affines des objets dans les images comme la rotation, la translation ou le changement
d’´echelle. Les “graph features” sont plus robustes que les descripteurs standards.
En plus, selon les auteurs, l’utilisation de la structure hi´erarchique peut contribuer
a` l’am´elioration des r´esultats de la recherche et de la reconnaissance. Cependant,
l’inconv´enient principal de cette m´ethode est l’absence d’une structure d’indexation pour les “graph words” qui peut provoquer plus de charge en termes de temps
de calcul dans l’´etape de recherche et de reconnaissance.
Le tableau 2.2 montre quelques m´ethodes qui utilisent l’algorithme de k-plus
proches voisins pour construire les phrases visuelles. Bien que, dans tous les cas,
le nombre de points dans le voisinage soit fix´e pour chaque point d’int´erˆet, la