Tải bản đầy đủ (.pdf) (36 trang)

amélioration de la recherche dimages par le contenu grâce à la mesure de dissimilarité contextuelle

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.48 MB, 36 trang )

UNIVERSITÉ DE CANTHO
FACULTE DES TECHNOLOGIES DE L'INFORMATION
ET DE TÉLÉCOMMUNICATION

MÉMOIRE DE FIN D’ÉTUDES

AMÉLIORATION DE LA RECHERCHE
D'IMAGES PAR LE CONTENU GRÂCE À LA
MESURE DE DISSIMILARITÉ
CONTEXTUELLE

Étudiant :
Nom : VO The Vinh
Code d’étudiant : 1091468

Mémoire présenté pour l’obtention du diplôme d’ingénieur en informatique

Semestre 2, l’année 2012-2013

© VO THE VINH, 2013



Résumé :
Le besoin de la recherche documentaire existe depuis longtemps. Parallèlement au
développement, ce besoin est également indispensable dans la recherche de documents
visuels. Depuis plusieurs années, l'humain a fait efficacement beaucoup de recherches pour
une méthode de la recherche d'images par le contenu pour l'appliquer aux nombreux travaux
chaque jour.
Dans ce mémoire, je fais une recherche sur la Mesure de la Dissimilarité Contextuelle
pour l’amélioration de la recherche d'images par le contenu. Et puis l'appliquer sur un


logiciel qui marche avec une grande base d'images. Chaque image dans la base est calculée
son signature et indexée dans une base de données. Le calcul des signatures consiste en
l'extraction de caractéristiques visuelles des images (telles que : la texture, la forme des
objets...). Ensuite, l'utilisateur donne au logiciel une image (appelé l'image de requête). Le
logiciel fait une suite des actions pour comparer la signature de cette image de requête avec
celui des images de base et retourner à l'utilisateur des images les plus similaires.


Abstract
Necessitate of document searching existed long times ago. As digital development, this
need becomes more indispensable in case of visual documents. Years ago, human has
efficacy done many researches for a method of image searching by content and apply it to
lots of works every day.
In this thesis, I did a research of Contextual Dissimilarity Measure to improve image
searching by content. Then I applied it to an application which can well function with a big
image database. Each image in the database is calculated its signature and indexed in a
signature database. That signature computation consists of extraction of image’s visual
characteristic (such as: texture, object form inside image…). User loads then an image
(called request image). The application will perform a series of action to compare the
signature of this request image with those of images in base, and finally return similar
images in list-formed.


Les mots-clés
ANR :

Rang Normalisée Moyenne (Average Normalized Rank)

MDC :


Méthode de Dissimilarité Contextuelle.

NS :

Nistér-Stewénius (base d’images)

PLA :

Analyse Sémantique Latente (Latent Semantic Analysis)

PLSA : Analyse Sémantique Latente Probabiliste (Probabilistic Latent Semantic
Analysis)
RIC :

Recherche d’Image par le Contenu


Table des matières
Table des matières

1

Liste des figures

3

Liste des tableaux

4


Remerciements :

5

1. Chapitre 1

6

Introduction générale

6

1.1.

Introduction ..................................................................................................................6

1.2.

Recherche d’Images par le Contenu ............................................................................6

1.3.

Objectif .........................................................................................................................7

1.4.

Solution ........................................................................................................................7

2. Chapitre 2


9

La Mesure de Dissimilarité Contextuelle pour la Recherche d’Image par le Contenu 9
2.1.

Représentation d’une image.........................................................................................9

2.1.1. Extraction du contenu visuel d’une image ............................................................ 9
2.1.2. Agrégation des descripteurs locaux. .................................................................... 11
2.2.

Mesure de dissimilarité ..............................................................................................12

2.3.

Indexation et recherche d’images par la MDC ..........................................................13

2.3.1. Voisinage irréversible .......................................................................................... 13
2.3.2. Voisinage avec réversibilité................................................................................. 15
2.3.3. L’algorithme ........................................................................................................ 15
2.4.

Métriques d’évaluation ..............................................................................................17

2.5.

Des limites ..................................................................................................................19

3. Chapitre 3


20

Résultats expérimentaux

20

3.1.

Implémentation de la MDC .......................................................................................20

3.2.

Expérimentation .........................................................................................................20

3.2.1. Base d’images ...................................................................................................... 20
3.2.2. Mesures d’évaluations ......................................................................................... 22
3.3.

Démonstrations ..........................................................................................................25

3.3.1. Configurations...................................................................................................... 25
3.3.2. L’interface principale du système. ...................................................................... 26
1


4. Chapitre 4

30

Conclusion


30

Bibliographie

31

2


Liste des figures
FIGURE 1.1: Principe général de la recherche d'images par le contenu ....................................7
FIGURE 2.1: Structure d'un descripteur SIFT. ...........................................................................9
FIGURE 2.2: Construction de l'histogramme des orientations .................................................10
FIGURE 2.3: L’illustration des ellipses des points-clés............................................................10
FIGURE 2.4: Les 3 plus proches voisins du vecteur 5 avec MDC (tiret) et sans MDC (solide).
Les cercles signifient la distance moyenne du vecteur 3 (en bleu) et du vecteur 5 (en rouge)
à ses voisinages ........................................................................................................................14
FIGURE 2.5: Illustration du voisinage non-réversible .............................................................14
FIGURE 3.1: Images extraites de la base N-S ..........................................................................21
FIGURE 3.2: Images extraites de la base Caltech4 ..................................................................22
FIGURE 3.3: La courbe de précision-rappel de la base de caltech4 (en haut), de caltech101
(au milieu) et de N-S (en bas)..................................................................................................24
FIGURE 3.4: L'interface de configuration ................................................................................25
FIGURE 3.5: L'interface principale ...........................................................................................26
FIGURE 3.6: L'affichage des résultats de la base caltech4 ......................................................27
FIGURE 3.7: L'affichage des résultats de la base caltech101..................................................28
FIGURE 3.8: L'affichage des résultats de la base NS ..............................................................29

3



Liste des tableaux
TABLEAU 1: Mesures d'évaluations de la base NS ..................................................................23
TABLEAU 2: Mesures d'évaluations de la base Caltech 101 ....................................................23
TABLEAU 3: Mesures d'évaluations de la base Caltech 4 ........................................................23

4


Remerciements :
Je remercie tout d'abord mes enseignants de la Faculté des technologies de
l'information et de la télécommunication de l’Université de Cantho qui m'ont donne des
connaissances précieuses et des savoir-faire professionnels très nécessaires.
Je remercie tout particulièrement Monsieur PHAM Nguyen Khang, mon tuteur de
mémoire, qui m'a construit une base solide de connaissance et m’a aidé à résoudre les
difficultés que j'ai rencontrées au cours de la réalisation de ce mémoire.
Je voudrais remercier aussi Madame PHAM Thi Ngoc Diem et Madame TRAN
Nguyen Minh Thu, responsables de la filière francophone de la faculté de l'informatique de
l’Université de Cantho, qui m’ont beaucoup aidé pour les informations.
Je souhaiterais remercier mes enseignants du département de français de l’Université
de Cantho pour les connaissances très utiles sur le français et la France. Je remercie aussi
Monsieur TRAN Thanh Ai pour la correction de français de ce mémoire.
Je remercie enfin ma famille de m'avoir éduqué et m'avoir fourni des conditions
favorables à mes études.

5


1. Chapitre 1


Introduction générale
1.1. Introduction
Depuis longtemps, l’exigence de la recherche de l’information a posé des problèmes
en raison de la grande quantité de données que le développement incroyable des
technologies d’information nous fournit chaque jour. La recherche devient de plus en plus
convenable aux genres de donnée. La recherche d’image n’est pas une exception.
La recherche d’images par le contenu (RIC) est une boucle des travaux qui visent à
rechercher, dans une base d’images, les images les plus proches d’une image de requête.
Cette dernière est automatiquement traitée par ses informations visuelles extraites. Comme
la pertinence des images retournées sont objective, au lieu de retourner un ensemble
d’images pertinentes, le système de RIC retourne une liste d’images classées par pertinence
décroissante par rapport à l’image de requête.
Depuis plusieurs années, l'humain a fait beaucoup de recherches pour des méthodes de
recherche d'images par le contenu et a bien résolu nombreux problèmes de la société. En
effet, la méthode de traitement selon le modèle de sac-de-mots atteint un résultat très
satisfaisant après une étape du prétraitement d’extraction des descripteurs d’une image et
celle de l’application de la MDC.

1.2. Recherche d’Images par le Contenu
Dans un système RIC typique, le principe général (2013) contient deux étapes :
 L’étape de l’Indexation (hors ligne) :
o Extraire le contenu visuel de chaque image de base et le stoker.
o Appliquer le k-moyennes (k-means), une méthode de fouille de données,
pour obtenir la donnée prétraitée (appelée vocabulaire).
o Construire un tableau de contingence à partir des résultats.
 L’étape de la Recherche (en ligne) :
o Donner une requête, l’extraire en même méthode que celle de la
première étape.
6



o Calculer la dissimilarité en comparant la signature de l’image de requête
avec celle de chaque image de base.
o Afficher le résultat.
L’Indexation (hors ligne)
Calcul des
signatures
Base de signatures

Base d’image

Le résultat
La recherche (en ligne)
Calcul de
signature

Comparateur

Image de requête

FIGURE 1.1: Principe général de la recherche d'images par le contenu

Le contenu visuel d’une image est extrait et décrit par ce qu’on appelle la signature
d’une image. Dans une base d’images, toutes les images sont extraites en une base de
signatures. Pour la recherche des images, l’utilisateur charge une image (appelée la requête).
Le système traite cette requête en signature. Les mesures de similarité/dissimilarité entre la
signature de la requête et celle de toutes les images de la base sont calculées et comparées.
Le résultat est souvent présenté dans une liste d’images similaires à la requête en ordre de
similarité descendante.


1.3. Objectif
Une fois les signatures extraites, la comparaison consiste généralement à définir une
mesure de similarité/dissimilarité entre ces signatures. Par rapport au calcul traditionnel de
la distance entre deux images, l’application de la MDC améliore positivement le résultat.
La MDC, présentée dans le chapitre 2, est la problématique générale du sujet de
recherche. C’est la partie la plus importante dans ce travail de RIC parce qu’elle donne un
résultat très satisfaisant avec la méthode qui n’a pas recours à la MDC.

1.4. Solution
J’ai fait des recherches et appliqué tout d’abord le sift, les descripteurs, et les outils
pour extraire le contenu d’une image à la signature. Les connaissances de fouille de données
7


ont été bien appliquées, le k-moyennes. J’ai fait aussi des recherches de sac-de-mot, une
méthode populaire dans le domaine de recherche des documents. Enfin, je construis
l’interface homme-machine dans l’environnement de Qt sous Linux, en programmant en
C++ pour tout le système entier.

8


2. Chapitre 2

La Mesure de Dissimilarité Contextuelle pour la
Recherche d’Image par le Contenu
Par la nature de RIC, le système tente de résoudre deux problèmes : (i) comment
décrire mathématiquement le contenu visuel d’une image ; et (ii) comment évaluer la
similarité entre deux images en n’utilisant que ses descriptions extraites. Ce chapitre vise à

résoudre ces deux problèmes et à présenter des métriques d’évaluations appliquées pour ce
système RIC.

2.1. Représentation d’une image
2.1.1.

Extraction du contenu visuel d’une image

La recherche d’images n’est pas exactement comme la recherche d’informations
régulières. On ne peut pas appliquer la méthode consacrée à la recherche de textes. Une
autre proposition est qu’on extrait une image à sa signature et puis on travaille sur cette
signature.
L’extraction d’une image à sa signature comporte quelques étapes. Tout d’abord, c’est
la détection des points-clés. Simplement, les points-clés (ou points d’intérêt) sont des
contours, des coins des objets (ou de partie des objets) qui se situent dans une image. La
détection des points-clés est une recherche de caractéristiques locales. Chaque image,
dépendante de son contenu, a une quantité déterminée de points-clés. Autour du point-clé,
on considère une région de 16x16 pixels, dite un descripteur, subdivisée en 4x4 zones de
4x4 pixels. Sur chaque zone est calculé un histogramme des orientations comportant 8
intervalles (figure 2.2). Ensuite,
les 16 histogrammes à 8
intervalles chacun sont concaténés
et normalisés pour finalement
fournir le descripteur SIFT du
point-clé, de 128 dimensions (ou
valeurs).
L'ensemble
des
descripteurs
d'une

image
établissent ainsi une véritable
signature numérique du contenu
de celle-ci.

FIGURE 2.1: Structure d'un descripteur SIFT.

9


FIGURE 2.2: Construction de l'histogramme des orientations

Scale-invariant feature transform (SIFT) (2013) est un algorithme utilisé dans le
domaine de la vision par l’ordinateur. En ce dernier, l’extraction de caractéristiques visuelles
consiste en des transformations mathématiques calculées sur les pixels d'une image
numérique.
Bref, chaque image est extraite de son contenu visuel aux descripteurs SIFT. Ou, plus
simplement, l’ensemble des descripteurs d’une image est sa signature numérique. Après
l’extraction d’une image, on obtient sa signature sous forme de fichier .sift. Par exemple :
128
x
20.4 28.8 0.02 -0.003 0.004
20.4 28.8 0.02 -0.003 0.003
55.2 28.8 0.008 -0.001 0.004

54.72 28.8 0.007 -0.001 0.007

Paramètres de l’équation cartésienne
de l’ellipse d’un point-clé (*)


(*) : u,v,a,b,c dans

0 15 67 3 0 0 … 0 12 134
4 0 0 29 39 7 … 0 0 4 81
17 8 0 0 0 … 23 74 16 6

x
pointsclés

30 7 0 0 3 … 24 21 4

128 chiffres (0-255)

avec (u,v) les coordonnées du centre de l’ellipse.

L’image saisie

Résultat

Détecteur Hessian-Affine

FIGURE 2.3: L’illustration des ellipses des points-clés
10


Dans ce mémoire, on n’a pas besoin d’illustrer des points-clés trouvés dans une image.
Le fichier .sift est donc traité pour éliminer des données inutiles.
Fichier .sift après le traitement :
128
x

0 15 67 3 0 0 …
4 0 0 29 39 7 …
17 8 0 0 0 … 23

30 7 0 0 3 … 24

0 12 134
0 0 4 81
74 16 6

x points-clés

21 4 77

128 chiffres (0-255)

Un autre problème concerne la comparaison entre deux signatures. À partir de deux
images distinctes, on obtient deux signatures avec différentes structures en raison de
différent nombre de points-clés. Il est impossible de comparer ces deux signatures. On doit
donc convertir tous les descripteurs en un vecteur de même dimension et calculer ensuite la
mesure de dissimilarité entre les deux vecteurs.
2.1.2.

Agrégation des descripteurs locaux.

Pour convertir une signature d’une image en vecteur, le modèle sac-de-mots est le plus
efficace pour résoudre le problème de structure différent. Le vocabulaire est créé par la
fouille de donnée des descripteurs. L'algorithme des k-moyennes est utilisé(Do, 2011). Kmoyennes, une méthode de partitionnement de données, a partitionné des descripteurs en K
partitions (clusters) dans lesquelles chaque descripteur appartient à la partition avec la
moyenne plus proche.

Ex : Un vocabulaire :
K 128
3.63297
9.51351
4.77533

34.6398

1.19596 2.77916 10.5334 8.60809 4.75583 … 5.50389
11.1873 12.1448 6.16988 5.51737 12.2876 … 24.2394
1.95007 3.53451 10.6476 9.91924 6.25551 … 8.51101
25.0696 30.2 9.22541 3.79779 2.73923 … 4.20994

128 valeurs

11

K
partitions


Assigner les descripteurs aux mots visuels : Chaque descripteur de SIFT d’une image
est assigné au plus proche mot visuel. À partir du fichier de sift et de celui de vocabulaire,
on calcule la distance et obtient un vecteur (comme le modèle de sac-de-mots).

sift
4
3
1 2 3 5
1 2 3 5

5 6 7 8

vocabulaire
5 4
1 2 3 5
2 3 4 5
5 6 7 8
7 8 9 10
6 7 8 9

Donc, chaque image de base est finalement traitée en un seul vecteur. En combinant
toutes les images de la base d’images, on obtient enfin une table de contingence.
Il existe nombreux détecteurs pour extraire une image. Dans ce mémoire, j’ai appliqué
le détecteur de Hessian-Affine pour extraire l’image. Le système de RIC est apposé par la
base de données d’images Nistér-Stewénius (qui donne une somme de plus de 3 millions de
descripteurs pour le cas de seuil de 200), Caltech 101, Caltech 4.
Toutes les étapes ci-dessus sont prétraitées par une boucle des outils que mon tuteur
PHAM Nguyen Khang m’avait fournis.

2.2. Mesure de dissimilarité
Actuellement, les recherches acquièrent de nombreuses réalisations sur le calcul de la
mesure de similarité. La similarité cosinus (ou mesure cosinus) permet de calculer la
similarité entre deux vecteurs à

dimensions en déterminant l'angle entre eux (2013). La

similarité cosinus est fréquemment utilisée en tant que mesure de ressemblance entre deux
documents. En règle générale, pour mesurer finement la similarité entre des séquences de
texte, les vecteurs sont construits d'après un calcul de type TF-IDF.
Le TF-IDF(2013) (de l'anglais Term Frequency-Inverse Document Frequency) est une

méthode de pondération souvent utilisée en recherche d'information. Cette mesure
statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement
à une collection ou un corpus. Le poids augmente proportionnellement au nombre
d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du
mot dans le corpus.
12


Quelques autres méthodes qui sont ainsi utilisées sont la LSA(2013) (de l'anglais :
Latent semantic analysis), qui a été introduite en 1988. Elle permet d'établir des relations
entre un ensemble de documents et les termes qu'ils contiennent. La LSA utilise une matrice
qui décrit l'occurrence de certains termes dans les documents.
En 1999, Thomas Hofmann a présenté la PLSA (2013) (de l'anglais, Probabilistic
latent semantic analysis), qui possède des liens avec la factorisation de matrices positives.
Comme la RIC est basée sur le modèle sac-de-mots avec lequel ces méthodes sont bien
utilisées, le système RIC de ce mémoire est appliqué aussi une méthode de dissimilarité, la
MDC, qui est présentée dans la section suivante.

2.3. Indexation et recherche d’images par la MDC
La Mesure de Dissimilarité Contextuelle est proposée par Hervé Jégou et ses
partenaires (Accurate image search using the contextual dissimilarity measure, 2011) en
2008 (publication en 2011). Cette recherche a prouvé que la MDC améliore bien la
précision de la recherche d’images basée sur le sac-de-mots. Essentiellement, au lieu de
calculer la distance normale

Le facteur de correction

, on multiplie la norme par une facteur de scalaire .

pondérera les résultats retournés. Plus précisément, il


favorise les points qui sont isolés et pénalise ceux qui sont fréquentés. Cette caractéristique
est détaillée dans la section ensuite.
2.3.1.

Voisinage irréversible

Une de deux questions cruciales, mentionnées au début, d’un travail de RIC est
comment évaluer la similarité entre deux images. Chaque image est représentée par un
vecteur (selon le modèle de sac-de-mots qu’on a appliqué et cité dans la section 2.1.2). Dans
un voisinage des vecteurs, on cherche d’autres qui sont les plus proches en calculant la
distance entre eux.
La figure 4 illustre l’irréversibilité du voisinage pour une recherche des k plus proches.
Plus précisément, le vecteur 3 est un des trois voisins les plus proches du vecteur 5 (2, 3, 7) ;
mais le contraire est faux (les 3 voisins les plus proche du vecteur 3 sont 1, 2, et 4).
L’application de la MDC au voisinage assurera cette réversibilité. C’est-à-dire que les
vecteurs isolés seront favorisés et vice versa pour que le résultat retourné soit amélioré.

13


FIGURE 2.4: Les 3 plus proches voisins du vecteur 5 avec MDC (tiret) et sans MDC (solide). Les
cercles signifient la distance moyenne du vecteur 3 (en bleu) et du vecteur 5 (en rouge) à ses
voisinages

FIGURE 2.5: Illustration du voisinage non-réversible

L’image en haut à gauche est la requête (R). La première ligne est le résultat de cette
requête. Les 3 images pertinentes pour R sont la 1 re, la 4e et la 9e. Chaque colonne est le
résultat de ces trois images en tant qu’elles sont les requêtes. On peut trouver facilement que

14


l’image R n’apparait que dans les résultats des images pertinentes (en boite). C’est-à-dire
que la réversibilité n’existe pas sans la MDC.
2.3.2.

Voisinage avec réversibilité

Notre solution générale consiste donc à rendre réversibles les voisins dans un
voisinage pour régulariser l’espace des vecteurs de mots visuels. La MDC assura cette
réversibilité. En appliquant la MDC, on calcule un , dite une facteur de scalaire. Au lieu de
faire un calcul de distance traditionnel (calcul de distance entre une requête au reste des
images dans la base), application

à ce calcul nous donne un résultat plus satisfaisant (On

atteint un niveau de réversibilité d’un voisinage).
2.3.3.

L’algorithme

Le cœur de ce mémoire est la MDC, qui est représentée par

dans la formule de la

recherche des images d'une requête dans une grande base d'images suivante.

où d est la mesure de dissimilarité ou la distance de Manhattan (norme de L1) entre deux
image


et

dans la base. Le calcul

est une étape itérative dans laquelle

est défini

par :

Remplaçons les

de (1) par (2), il est facile de prouver que :

où l'exposant k signifie l’itération k-ième et
géométrique :

est défini par la distance moyenne

Notons que est calculé dans le domaine de logarithme. D’autre part, cette quantité est
aussi calculée par la distance moyenne arithmétique (utilisée ainsi dans ce mémoire) et son
utilisation atteint tout à fait le résultat similaire:
15


et r est calculé par :

Plus précisément, le pseudo-code suivant détaille le travail principal.
Saisie D : la matrice


de distance des vecteurs deux-à-deux

Itérative
%calcul les distances moyennes des voisinages

for

à

do
{ des k plus proches voisins du vecteur ième }

end for
%calcul de leurs moyennes arithmétiques
%calcul le terme mis-à-jour

for

à

do

end for
%mis-à-jour la matrice D

Dans chaque itération, on considère tout d'abord chaque vecteur
d'image un voisinage
moyenne


de

dans la base

voisins les plus proches. On calcule ensuite la distance

de chaque voisinage (entre ces

voisins les plus proches). Puis, on calcule

la distance moyenne arithmétique à partir des distances moyennes r. Après, on compute le
terme à mettre à jour . Enfin, on met à jour la distance

16

des vecteurs.


2.4. Métriques d’évaluation
La recherche d'images par le contenu est fondamentalement un problème de recherche
d'information. Les métriques d’évaluation appliquées sont sans doute celles qu'on utilise en
recherche d'information.


Deux mesures d’évaluation les plus répandues, présentées dans (Pham, 2009), qui

sont la précision et le rappel.
La précision : Cette mesure répond au pourcentage des images retournées qui sont
pertinentes par rapport à la requête.
Le rappel : correspond au pourcentage de toutes les images pertinentes de la base

d’images qui sont retournées.
Notons que quand la requête est une image, la pertinence des images retournées est
extrêmement subjective. C’est pour cela qu’au lieu de retourner un ensemble d’images
pertinentes à la requête, la plupart des systèmes de recherche d’images retournent une liste
d’images classées par pertinence décroissante par rapport à la requête. La précision et le
rappel sont souvent calculés sur un certain ensemble de k premières images retournées.

est

appelé le scope.
On a montré que la précision et le rappel suivent une relation inverse en fonction du
scope, c’est-à-dire que la précision diminue lorsque le rappel augmente quand le scope
augmente.
Notons cependant qu’avec un scope k donné, la précision avec les k premières images
retournées (dénotée par P@k) est proportionnelle au rappel (R@k) au même scope.
Traditionnellement, les résultats d’un système de recherche d’information sont
résumés par des courbes de précision-rappel ou courbes de précision-scope.
Pour obtenir une courbe de précision-rappel, on calcule la précision à chaque image
pertinente retournée et on interpole la précision à 11 points standard du rappel. Ce sont les
points où le rappel est égal à 0, 0.1, 0.2, 0.3, ... et 1. L’interpolation se fait par la règle
suivante :



est la précision au point ou le rappel est égal à .

17


Une courbe de précision-rappel idéale est parallèle à l’axe rappel et constant égale à 1

(c’est-à-dire que la précision est toujours égale à 1 quel que soit le rappel).
Pour mesurer la manière dont le système ordonne des images pertinentes dans le
résultat retourné à l’utilisateur, j’utilise la mesure numérique très populaire dans la
communauté de RIC. C’est la précision moyenne (Average Precision).
La précision moyenne pour une requête est calculée comme l’aire sous la courbe de
précision-rappel en moyennant les précisions à chaque image pertinente retournée. La
moyenne arithmétique de la précision moyenne calculée sur un nombre de différentes
requêtes est appelée le MAP (Mean Average Precision).
Je calcule la précision jusqu’à ce que toutes les images soient retournées pour les bases
NS, Caltech-4 et Caltech-101.


Une autre mesure, présentée dans(Accurate image search using the contextual

dissimilarity measure, 2011), est utilisée populairement pour les évaluations, le Rang
Normalisée Moyenne (the Average Normalized Rank - ANR). Pour chaque image de
requête, l’ANR est donné par :



: Le nombre de requête.
: Le nombre d’images de la base.
: Le nombre d’image pertinente pour la requête.
: Le rang de la je image pertinente

Le rang(j) sera égal à 1 si l’image pertinente je est en 1ere position dans le liste des
images retournées. Essentiellement, l’ANR est égale à 0 si toutes les images pertinentes sont
retournées les premières. De plus, cette mesure indique la position normalisée moyenne
(varie de 0 à 1), en cela une image similaire apparait. Par exemple,


signifie le

rang moyenne d’une image retournée est environ 1000 pour une base de 100 000 images.
Bref, le plus petit ANR, la meilleure précision.


Le score N-S, proposé dans (Scalable recognition with a vocabulary tree, 2006),

compte le nombre moyen des images similaires dans les quatre premières images sont
18


retournées. Par exemple : NS=3.0 c'est-à-dire qu’une requête donne un résultat qui contient
au moyen 3 images similaires (dans 4 premières). Cette mesure est très significative car il
n’a que 4 images pour chaque objet dans la base de N-S.

2.5. Des limites
Dans toutes les situations il existe toujours des avantages et des inconvénients. Ce
mémoire n’est pas une exception. Outre des restrictions volontaires, il reste aussi des limites
hors du contrôle du scientifique.
 Le système n’est pas encore unifié. Les données doivent être prétraitées
manuellement par des outils en ligne de commande chaque fois que l’utilisateur
a envie d’ajouter des images à la base. Un prétraitement embarqué est plus
idéal.
 En ce moment, le système ne fonctionne que sur le système d’exploitation de
Linux.
 Seules des bases d’images de test ont été déjà appliquées. Il manque une
application sur les bases réelles.

19



3. Chapitre 3

Résultats expérimentaux
3.1. Implémentation de la MDC
Dans ce mémoire, j’ai utilisé la langue de programmation C++ sur Linux. J’ai construit
les interfaces avec l’outil de programmation QT Creator. Le programme de démonstration a
des simples interfaces avec les fonctions suivantes :
 Régler pour choisir des fichiers de base et le dossier qui contient les images.
 Ouvrir une image de requête.
 Rechercher les images similaires à la requête.
 Faire les évaluations.
Pour toutes les expérimentations, le détecteur Hessian-Affine (avec le seuil de 200) est
appliqué. La distance de Manhattan est ainsi utilisée. Toutes les bases d’images ont été
performée le k-moyenne partitionnement (avec 2000 partitions). L’ensemble d’entraine est
la base entière. Le système peut aussi faire l’évaluation en total de 4 fils, grâce à la
programmation de multi-fils (2013) (multithread programming).

3.2. Expérimentation
3.2.1.

Base d’images

J’ai utilisé plusieurs bases d’images (Pham, 2009) connues pour tester le système de
RIC.

20



×