Combinaison de méthodes avancées de visualisation et de sélection d’information pour la fouille et l’analyse de données

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.8 MB, 75 trang )

Institut de la Francophonie pour l’Informatique
IFI Hanoi

INRIA-LORIA, FRANCE

Combinaison de m´
ethodes avanc´
ees de
visualisation et de s´
election
d’information pour la fouille et
l’analyse de donn´
ees
M´
emoire de fin d’´
etudes
pr´esent´ee et soutenue publiquement le 06 D´ecembre 2007
pour l’obtention du

Master de l’Institut de la Francophonie pour l’Informatique –
IFI-Hanoi
(sp´
ecialit´
e informatique)
par

Anh-Phuong TA

Sous la direction de :

Jean-Charles LAMIREL

Maˆıtre de Conf´erence, Universit´e Robert Schuman, Strasbourg

Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503

Résumé
La combinaison de méthodes avancées de visualisation et d’étiquetage des clusters joue un rôle
important non seulement pour donner un avis global des résultats du clustering, mais aussi
pour l’évaluation précise desdits résultats. Mais aujourd’hui encore, aucune solution précise sur
la façon de combiner de telles méthodes n’a été proposée. Dans ce rapport, nous présentons
une première tentative de combinaison de la visualisation hyperbolique ainsi que de nouvelles
approches d’étiquetage afin de visualiser précisément les résultats d’analyses de données issues
de méthodes de clustering toutes les fois que les clusters sont à l’origine représentés dans un
espace fortement multidimensionnel. Le modèle de visualisation se fonde sur un algorithme
hiérarchique qui est employé pour récapituler le contenu de clusters sous forme hiérarchique.
Cet algorithme préserve la densité de données issue de l’espace de description des clusters originaux. Dans ce mémoire sont présentées différentes stratégies d’étiquetage qui peuvent être
employées aussi bien pour décrire le contenu de base des clusters que pour propager précisément les étiquettes dans les différents niveaux de l’hyperbolique résultant. Ce travail s’attache
ensuite à améliorer les défauts des méthodes de visualisation hyperbolique en embarquant le
modèle de Spring à l’hyperbolique afin de mieux montrer les relations entre les clusters. Plusieurs expérimentations sont proposées sur différents types de données documentaires.
Mots-clés : analyse de données multi-vues, fouille de données, clustering numérique, évaluation de qualité du clustering, étiquetage des clusters, visualisation hyperbolique, visualisation
hiérarchique.

Abstract
Combining the visualization and the labeling methods plays an important role not only for
giving an overall view of the clustering results but also for the precise evaluation of the said
results. But at this point, no accurate solution on how to combine such methods has been proposed. In this report we present a first attempt of combination of hyperbolic visualization and
novel labeling approaches for accurately visualizing data analysis results issued for clustering
approach whenever the clusters are originally represented in a highly multidimensional space.
The visualization model relies on a hierarchical algorithm that is used for summarizing the

cluster contents in the form on a hypertree in which information on data density issued from
the original clusters description space is preserved. The core of this work presents different
novel labeling strategies that can be used for describing the basic cluster contents as well as
for accurately propagating labels into the different levels of the resulting hypertree. This work
then aims to improve the defects of hypertree visualization by embedding the model of Spring
to hyperbolic for better showing the relations between the clusters. Several realistic test experiments of our proposals are achieved on different kinds of documentary data.
Keywords : multiview data analysis, data mining, clustering, cluster labeling, clustering quality evaluation, hyperbolic visualization, hierarchical visualization.

i

Remerciements
Mes premiers remerciements vont à mon encadrant Jean-Charles Lamirel pour le temps
qu’il m’a consacré durant ce stage, son soutien, ses conseils scientifiques, sa disponibilité et son
aide précieuse pour améliorer et aller jusqu’au bout de ce travail de stage. Il m’a vraiement
impressionné de par ses qualités humaines et son esprit ouvert.
Je tiens à remercier tous les membre de l’équipe CORTEX : Randa, Maxime, Jéremy pour
leur soutien et leur accueil et les membres de l’équipe KIWI, Geoffray, Ilham.
Je tiens à remercier Pascal Cuxac et Claire François de l’INIST pour leurs évaluations.
Je tiens à remercier Mohammed Attik, un ancien doctorant de l’équipe Cortex pour sa
coopération, sa conversation et son soutien.
Je tiens à remercier mes Professeurs de l’IFI, qui m’ont donné des connaissances et m’ont
aidé à bien suivre la formation de master de l’IFI.
Mes grands remerciement à ma grande famille, en particulier ma femme et mon fils, pour
leur encouragement, leurs prières pour réussir ma vie professionnelle.

iii

Table des matières

Liste des figures

ix

Liste des tableaux

xi

Liste des algorithmes

xiii

Chapitre 1
Introduction générale
1.1

Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2

Contexte et Problématique . . . . . . . . . . . . . . . . . . . . . . . . . .

2

1.3

Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.4

Plan du mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

Chapitre 2
L’état de l’art
2.1

2.2

2.3

Visualisation d’information . . . . . . . . . . . . . . . . . . . . . . . . . .

8

2.1.1

Dimension intrinsèque des données multidimensionnelles . . . . .

8

2.1.2

Visualisation par projection cartographique linéaire . . . . . . . . 10

2.1.3

Visualisation par projection cartographique non linéaire . . . . . . 12

2.1.4

Visualisation par l’analyse de graphe . . . . . . . . . . . . . . . . 15

2.1.5

Visualisation hyperbolique . . . . . . . . . . . . . . . . . . . . . . 16

Étiquetage des clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1

Approches traditionnelles

. . . . . . . . . . . . . . . . . . . . . . 19

2.2.2

Étiquetage des clusters par la sélection d’information (variable) . 19

Traitement de données documentaires multidimensionnels . . . . . . . . . 20
2.3.1

Représentation de données documentaires . . . . . . . . . . . . . 20
v

Table des matières

2.4

2.3.2

Notion de point de vue . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3.3

Clustering numérique . . . . . . . . . . . . . . . . . . . . . . . . . 24

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Chapitre 3
Combinaison de méthodes avancées de visualisation et de sélection d’information pour la fouille et l’analyse de données
3.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.2

Nouvelles mesures de qualité du clustering basées sur la distribution d’étiquettes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3

3.4

Nouvelles stratégies d’étiquetage des clusters . . . . . . . . . . . . . . . . 32
3.3.1

Stratégie locale d’étiquetage des clusters . . . . . . . . . . . . . . 33

3.3.2

Stratégie globale d’étiquetage des clusters

3.3.3

Stratégie hybride d’étiquetage des clusters . . . . . . . . . . . . . 35

3.3.4

Stratégie d’étiquetage des clusters par les mesures d’entropie . . . 35

3.3.5

Étiquetage des clusters par Gain d’Information

. . . . . . . . . . . . . 34

. . . . . . . . . . 36

Combinaison des méthodes d’étiquetage des clusters et de visualisation
hyperbolique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.5

Communication multi-vues entre les arbres hyperboliques . . . . . . . . . 37
3.5.1

Modèle de réseau bayésien pour la communication inter-cartes . . 37

3.5.2

Communication multi-vues entre les arbres hyperboliques . . . . . 39

3.6

Intégration de graphe à l’hyperbolique . . . . . . . . . . . . . . . . . . . 39

3.7

Organisation des branches de l’hyperbolique . . . . . . . . . . . . . . . . 41

3.8

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Chapitre 4
Expérimentations et évaluations
4.1

Interprétation des résultats du clustering . . . . . . . . . . . . . . . . . . 43

4.2

Communication multi-vues entre les arbres hyperboliques . . . . . . . . . 45

4.3

Intégration de modèle de Spring à l’hyperbolique

4.4

Évaluations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Conclusion générale

vi

. . . . . . . . . . . . . 46

Annexe A
Description des données pour le Corpus Brevets
A.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
A.2 Analyse des brevets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
A.2.1 Déﬁnition des points de vue . . . . . . . . . . . . . . . . . . . . . 55
A.2.2 Multi-indexation des brevets . . . . . . . . . . . . . . . . . . . . . 56
Annexe B
Description des données pour le Corpus PASCAL
B.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
B.2 Extrait de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
B.2.1 Déﬁnition des points de vue . . . . . . . . . . . . . . . . . . . . . 59
Bibliographie

61

vii

Liste des figures
1.1

Paradigme de traitement de l’information orienté par les points de vue
(MVDA). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1
2.2
2.3

Distribution du « fer à cheval ». . . . . . . . . . . . . . . . . . . . . . . .
évolution du volume de sphère en fonction de nombre de dimensions. . .
Distribution en « fer à cheval » : (a) Distribution et plan principal trouvé
par l’ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Projection faite par CCA de IR3 à IR2 de la distribution du « fer à cheval ».
2.5 (a) deux points d’un spirale, (b) la distance euclidienne entre ces deux
points et (c) la distance curviligne ou géodésique . . . . . . . . . . . . . .
2.6 Approximation de la distance curviligne à l’aide du chemin le plus court
par l’intermédiaire des liens entre les centroïdes (ici la distance entre les
deux centroïdes noircis) . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7 CDA : Projection non-linéaire d’un « nœud de tresse »(de dimension 3 à 1)
2.8 Isomap : Exemple du « rouleau suisse »(à droite) et de la projection de
20000 échantillons tirés du rouleau par Isomap. . . . . . . . . . . . . . .
2.9 BibTechMon : réseau de mots baséesur les relations entre eux. Ce réseau
contient 28 nœuds et 131 connexions . . . . . . . . . . . . . . . . . . . .
2.10 Deux types de géodésique : un diamètre passant par O et P et un arc de
cercle AB orthogonal au cercle unité. . . . . . . . . . . . . . . . . . . . .
2.11 La visualisation de l’arbre hyperbolique (Hypertree) . . . . . . . . . . . .

3.1
3.2
3.3
4.1
4.2
4.3
4.4
4.5

5
9
10
11
13
14

14
14
15
16
17
18

Cette ﬁgure montre le principe d’étiquetage d’arbre hyperbolique par la
stratégie F-leaveOneOut . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
La structure de réseau bayésien pour la communication inter-topographies. 38
Deux masses de points et leurs connexions par l’élasticité. cij est l’élement
de matrice des indices de Jaccard. . . . . . . . . . . . . . . . . . . . . . 40
Méthode Dominant d’étiquetage d’arbre hyperbolique . . . . . . . . . . .
Méthode ThemostFrequent d’étiquetage d’arbre hyperbolique . . . . . . .

Méthode χ2 d’étiquetage d’arbre hyperbolique . . . . . . . . . . . . . . .
Étiquetage d’arbre hyperbolique par la moyenne de F-mesure (F-moyenne)
Étiquetage d’arbre hyperbolique par la F-LeaveOneOut . . . . . . . . . .
ix

44
45
46
47
48

Liste des figures
4.6
4.7
4.8

Une part vue de l’arbre qui présente le cluster source activé (en blue)
pour la propagation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Résultat de la propagation du cluster activé dans le ﬁgure 4.6, les clusters
en blue sont trouvé par la propagation bayesien . . . . . . . . . . . . . . 49
Cette ﬁgure montre le graphe utilisant le modèle de Spring pour visualiser
les relations natureles entre les clusters d’enfants d’un père de l’arbre
hyperbolique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

A.1 Exemple de notice de brevet. L’indexation qui a été générée pour ce brevet
est matérialisé par le contenu du champ «Final indexation». Ces termes
d’indexation sont préﬁxés par le nom du point de vue auquel ils sont
associés : «adv.» pour le point de vue Avantages, «titre» pour le point
de vue Titres, «use» pour le point de vue Utilisations, «soc.» pour le

point de vue Déposants. . . . . . . . . . . . . . . . . . . . . . . . . . . 57

x

Liste des tableaux
2.1
2.2

Tableau de contingences pour l’absence ou la présence d’un terme dans
les documents d’une classe . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Notations de DBHC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.1

Ce tableau présente un exemple de 6 clusters (C1 ,. . . , C6 ) annotés par
7 étiquettes, e1 , . . ., e7 . Le cluster C1 est annoté par les étiquettes e1 ,
e2 ,e3 ,e4 ,e5 . L’étiquette e4 est présente dans les clusters C1 et C4 . . . . . . 41

4.1

Ce tableau présente un exemple d’utilisation de la fonction g (cf. équation
4.1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Ce tableau présente la comparaison de diﬀérentes approches d’étiquetage
d’arbre hyperbolique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.2

A.1 Tableau résumé des caractéristiques résultantes de brevets . . . . . . . . 57

xi

Liste des algorithmes
1
2
3

Algorithme de classiﬁcation hiérarchique orienté par la densité (DBHC) . 26
Procédure 1 : élimination de classes parents répétées . . . . . . . . . . . 26
Procédure 2 : éviter les classes recouvrantes . . . . . . . . . . . . . . . 27

xiii

Liste des algorithmes

xiv

Chapitre 1
Introduction générale
Sommaire
1.1
1.2
1.3
1.4

Motivation . . . . . . . . . .
Contexte et Problématique .

Contribution . . . . . . . . .
Plan du mémoire . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.

.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.

.
.

.
.
.
.

1
2
3
3

“ Savoir ce que tout le monde sait, c’est ne rien savoir. Le savoir commence là où
commence ce que le monde ignore. ”
Remy de Gourmont, “ Promenades philosophiques ”

1.1

Motivation

D’un côté, les techniques de visualisation hyperbolique représentent un excellent
compromis pour mener à bien de manière parallèle des tâches de fouilles et d’analyse
de données. En eﬀet, ces techniques permettent de répondre à de nombreux problèmes
posés par les techniques de visualisation traditionnelles. Elles traitent les problèmes de
surcharge cognitive des représentations à base de graphes et ceux liés aux artefacts de
représentation des méthodes de projection des données multidimensionnelles sur un plan
d’interprétation. Elles permettent de plus d’exploiter les résultats des méthodes de classiﬁcation très performantes, plutôt que d’utiliser des méthodes moins performantes qui
intègrent leur propre fonction de projection.
D’un autre côté, l’étude des méthodes d’analyse des étiquettes associées aux classes

issues d’une méthode de classiﬁcation ouvre de nouvelles perspectives en analyse de données. En eﬀet, les étiquettes qu’il est possible d’associer aux classes peuvent représenter
à la fois des propriétés endogènes au processus de classiﬁcation, et des propriétés exogènes, propres aux données qui ont été classiﬁées. L’analyse de leur distribution dans les
1

Chapitre 1. Introduction générale
classes et leur catégorisation permet donc à la fois de résoudre des problèmes de fouille
de données, des problèmes de prédiction et des problèmes de ﬁltrage d’information.
L’étude de l’optimisation et de la combinaison de ces techniques, qui sont à la fois
complémentaires et en synergie l’une avec l’autre dans le contexte général de l’analyse
de données, s’avère donc être une voie de recherche extrêmement prometteuse. Elle doit
permettre de résoudre de nombreux problèmes liés à l’analyse des données complexes,
comme les données documentaires ou les données bioinformatiques.

1.2

Contexte et Problématique

Premièrement, la visualisation des résultats du clustering reste un problème relativement ouvert, malgré l’importance qu’il peut avoir dans la compréhension desdits
résultats. Les techniques de projection les plus performantes, comme les techniques de
projection non linéaires, montrent rapidement leurs limites dans le cas où les données
à visualiser sont initialement représentées dans un espace fortement multidimensionnel.
De plus, la prise en compte de relations entre ces données pose des problèmes supplémentaires de surcharge cognitive propres à la représentation des graphes.
Deuxièmement, le problème de l’étiquetage des clusters avec des étiquettes multiples
dans le cas où les clusters partagent les étiquettes (propriétés) globales a très peu été
abordé dans la recherche jusqu’à présent. Les techniques exitantes d’étiquetage des clusters, à savoir de méthodes basées sur les proﬁls de classes et celles basées sur le proﬁls de
données, ne sont pas capables de traiter le problème de surcharge cognitive (des données
fortement multidimensionnelles). En eﬀet, l’étiquetage, que nous considérons comme un
des problèmes majeurs de l’exploitation des modèles de clustering, peut nous aider à :
– valider le modèle de clustering ;

– fournir une interprétation intuitive des résultats par l’intermédiaire de la visualisation ;
– identiﬁer rapidement les clusters pertinents ;
– faciliter les tâches de recherche d’information.
Une étude de la qualité du clustering basé sur la distribution d’étiquettes pour l’étiquetage des clusters est donc nécessaire.
Notre travail se focalise sur les études de deux problèmes : la visualisation d’information avec des données fortement multidimensionnelles et les méthodes de sélection
d’information (variable) pour étiqueter des clusters avec des étiquettes multiples, avec
toutefois pour objectif l’interprétation des résultats du clustering.
Ce travail s’est déroulé dans l’équipe INRIA-CORTEX où de nombreux de travaux
ont déjà été développés sur le thème de la fouille de données. Nous avons apporté notre
contribution et amélioré quelques parties dans le modèle d’analyse de données multi-vues
(MVDA, cf. ﬁgure 1.1 et la section 2.3.2) développé par l’équipe CORTEX.
2

1.3. Contribution

1.3

Contribution

Le but de ce travail de stage est de proposer et de mettre en place des stratégies
d’étiquetage des clusters et des méthodes de visualisation des résultats du clustering.
De manière plus générale, il comporte deux aspects : la contribution aux théories et aux
logiciels.
Contribution aux théories
– Déﬁnition de nouvelles mesures de qualité du clustering avec le modèle vectoriel
(cf. section 2.3.1) de représentation de données. Elles sont à la base de notre approche pour introduire les diﬀérentes stratégies d’étiquetage des clusters et d’arbre
hyperbolique,
– Proposition de nouvelles stratégies d’étiquetage des clusters avec des éqtiquettes
multiples,

– Présentation d’un mécanisme de communication en multi-vues entre les arbres
hyperboliques,
– Intégration du modèle de Spring (cf. section 2.1.4) à l’hyperbolique pour mieux
montrer la relation entre les clusters.
Contribution aux logiciels
– Construction d’un module de classiﬁcation hiérarchique par l’algorithme DBHC
(cf. voir l’algorithme 1),
– Contribution au modèle MVDA (cf. ﬁgure 1.1), le module de visualisation hyperbolique et le module de visualisation de graphe.
– Construction de module d’étiquetage automatique des clusters.

1.4

Plan du mémoire

Après cette introduction générale, nous présentons, dans le chapitre 2, un état de
l’art relatif au rérences pertinentes permettant d’appuyer le propos de ce stage. Dans la
première section, nous commençons par la présentation du problème de la visualisation
des données multidimensionnelles. Nous présentons alors plusieurs techniques connues
utilisées pour visualiser ce type de données, à savoir la projection linéaire, la projection
non linéaire, et la visualisation hyperbolique. Nous détaillons en particulier la visualisation hyperbolique qui sera choisie dans notre propos pour la validation de modèle de
clustering. Nous introduisons dans la deuxième section, quelques approches existantes
d’étiquetage des clusters. Nous terminons ce chapitre par un résumé du traitement de
données documentaires multidimensionnelles comme la représentation de données et la
classiﬁcation non supervisée de données.
Le troisième chapitre de ce mémoire présente la contribution que représente ce travail,
il s’agit de proposer et de mettre en place la combinaison d’une méthode de visualisation
3

Chapitre 1. Introduction générale

hyperbolique avec de nouvelles stratégies d’étiquetage des clusters pour l’analyse et la
fouille de données orientée par les points de vue.
Le quartrième chapitre a pour but de présenter nos expérimentations et les évaluations d’approches proposées par rapport aux approches existantes. Enﬁn, le cinquième
chapitre conclut en donnant des perspectives à ce travail de stage.
Nous utiliserons deux types de corpus diﬀérents dans nos expérimentations, à savoir
un corpus de notice de brevets, et le corpus de données bibliographiques multidisciplinaire et multilingue PASCAL de l’INIST (INstitut de l’Information Scientiﬁque et
Technique). Une description détaillée du premier corpus est fournie en annexe et le
second est décrit dans le site web de l’INIST.

4

1.4. Plan du mémoire

Fig. 1.1 – Paradigme de traitement de l’information orienté par les points de vue
(MVDA).
5

Chapitre 1. Introduction générale

6

Chapitre 2
L’état de l’art
Sommaire
2.1

Visualisation d’information . . . . . . . . . . . . . . . . . . . .

2.1.1 Dimension intrinsèque des données multidimensionnelles . . .
2.1.2 Visualisation par projection cartographique linéaire . . . . . .
2.1.3 Visualisation par projection cartographique non linéaire . . .
2.1.4 Visualisation par l’analyse de graphe . . . . . . . . . . . . . .
2.1.5 Visualisation hyperbolique . . . . . . . . . . . . . . . . . . . .
2.2 Étiquetage des clusters . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Approches traditionnelles . . . . . . . . . . . . . . . . . . . .
2.2.2 Étiquetage des clusters par la sélection d’information (variable)
2.3 Traitement de données documentaires multidimensionnels .
2.3.1 Représentation de données documentaires . . . . . . . . . . .
2.3.2 Notion de point de vue . . . . . . . . . . . . . . . . . . . . . .
2.3.3 Clustering numérique . . . . . . . . . . . . . . . . . . . . . . .
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8
8
10
12
15
16
19
19
19
20
20
23
24
25

“If I have seen further than the others, it is because I have stood on the shoulders of

giants. ”
Isaac Newton

Résumé
L’objectif de ce chapitre est de dresser un état de l’art des principales approches
de visualisation d’information et d’étiquetage du résultat de clustering. Étant donnés
la diversité et le nombre important de travaux disponibles dans le domaine, il est impossible de réaliser une étude bibliographique exhaustive. Nous pensons que ce chapitre
doit plutôt rassembler les références pertinentes permettant d’appuyer le propos de ce
7

Chapitre 2. L’état de l’art
stage. Dans ce chapitre, nous abordons plus précisement trois aspects du problème.
Tout d’abord, nous verrons quels sont les méthodes utilisées pour la visualisation d’information. Nous nous posons ensuite la question de l’étiquetage des clusters. Enﬁn, nous
étudions les traitements de données documentaires multidimentionnels.

2.1

Visualisation d’information

La plupart du temps les classes issues des méthodes de classiﬁcation sont représentées
dans le même espace de description que celui des données sources, qui peut s’avérer fortement multidimensionnel. La représentation synthétique des résultats de ces méthodes
se ramène donc à un problème de visualisation sur un plan de représentation. Le domaine des techniques de visualisation est un domaine très riche. Diﬀérentes techniques
peuvent être appliquées en fonction du but recherché et des propriétés des données
elles-mêmes. Les techniques les plus couramment utilisées sont la projection sur un plan
bidimensionnel, l’organisation en arbres, et l’organisation en réseau ou en graphe.
Les techniques de projection sur un plan bidimensionnel, à savoir les méthodes linéaires et non linéaires, ont pour but d’optimiser le dépliage en deux dimensions de la
structure de données originale. Les techniques de visualisation de données en arbre, en
réseau ou en graphe sont, quant à elles, spécialisées dans la représentation conjointe des
données et de leurs relations potentielles.

Plusieurs facteurs importants, liés à l’ergonomie, sont également à prendre en compte
dans le choix d’une technique de visualisation. En eﬀet, une technique de visualisation
appropriée doit, dans la mesure du possible, répondre au contraintes suivantes [Bouthier,
2004] :
1. avoir une vue globale : permet de se faire une idée de l’ensemble des données,
2. zoomer : permet d’accéder, dans le contexte, à une donnée spéciﬁque,
3. avoir une vue détaillée : permet d’accéder à tous les détails d’une donnée spéciﬁque,
4. voir les relations : permet de se concentrer sur les relations entre les données et
non pas sur les données elles-mêmes.
Nous présenterons plus spéciﬁquement dans cette section les problèmes liés à la visualisation des données fortement multidimensionnelles et les solutions ou les techniques
utilisées pour visualiser ce type de données. Nous présenterons ci-après trois familles
importantes de techniques, à savoir la visualisation par la projection linéaire, la visualisation par la projection non linéaire, et la visualisation hyperbolique.

2.1.1

Dimension intrinsèque des données multidimensionnelles

Dans cette section nous abordons succinctement quelques problèmes de fond posés
par la projection des données multidimensionnelles, qui peut être considérée comme un
processus central pour la visualisation.
8

2.1. Visualisation d’information
Avant toute opération de projection de données multidimensionnelles, il est naturellement important d’évaluer la dimension idéale de l’espace cible pour représenter ces
données. En eﬀet, si la dimension de l’espace cible est trop faible, une partie de l’information sera perdue lors de la projection. Si elle est trop grande, l’intérêt de la projection
sera en partie perdu. Le concept de dimension intrinsèque est le plus souvent employé
pour évaluer cette dimension. La dimension intrinsèque correspond au nombre eﬀectif de
degrés de liberté d’un ensemble des données [Lendasse et al., 2001]. Ce concept est présenté ici en prenant comme exemple la distribution bien connue du fer à cheval (cf. ﬁgure
2.1) : pour cette distribution de données, la dimension intrinsèque est égale à deux, car

deux degrés de liberté sont suﬃsants pour déterminer de manière univoque n’importe
quelles données appartenant à la distribution, bien que ces données soient initialement
déﬁnies dans IR3 . La détermination de la dimension intrinsèque reste cependant très
problématique dans le cas des données fortement multidimensionnelles.

Fig. 2.1 – Distribution du « fer à cheval ».
Un phénomène important est également à prendre en compte lors du traitement
des données multidimensionnelles. Ce phénomène est appelé « phénomène de l’espace
vide »[Verleysen, 2003]. Considérons par exemple une hyper-sphère de n dimensions. Le
volume de cette hyper-sphère en fonction du rayon r vaut :
V (n) =

π n/2 r n
π r2
= V (n − 2)
Γ(1 + n/2)
d−2

(2.1)

avec V (1) = 2 V (n) = π. L’observation de l’évolution de V (n) où r = 1 ( ? ? ? ? ?).
L’observation de la ﬁgure 2.2 montre que le volume décroît vers 0 quand la dimension n
s’accroît, c’est-à-dire que plus la dimension d’un espace est grande, plus celui-ci semble
vide. Ce qui revient corrélativement à dire que, dans l’espace multidimensionnel, les
données ont naturellement tendance à migrer vers un hypercentre virtuel et que, de ce
fait, les relations entre celles-ci ont tendance à se complexiﬁer plus que prévu. Ce type
de comportement représente un problème supplémentaire pour la visualisation.
Les remarques précédentes montrent que la projection des données fortement multidimensionnelles représente un problème très diﬃcile à traiter directement. Cependant,
toutes les variables ou tous les descripteurs de l’espace de description ne sont pas d’égale
importance pour comprendre la structure intrinsèque qui sous-tend une distribution de

9

Chapitre 2. L’état de l’art

Fig. 2.2 – évolution du volume de sphère en fonction de nombre de dimensions.
données multidimensionnelles. Une manière de contourner les problèmes posés par la
projection d’un tel type de distribution consiste donc éliminer ou atténuer l’eﬀet des
variables ou des descripteurs marginaux. Ce principe est appliqué dans l’ensemble des
méthodes de projection que nous décrivons ci-après.

2.1.2

Visualisation par projection cartographique linéaire

L’analyse en composantes principales
L’analyse en composantes principales (ACP) est une méthode de réduction dimensionnelle linéaire [Jolliﬀe, 1986]. Son principe est la description des données aux combinaisons linéaires orthogonales (les CP) des variables originales possédant la plus grande
variance. La première CP, est la combinaison linéaire avec la plus grande variance. La
deuxième CP est la combinaison linéaire avec la deuxième plus grande variance, orthogonale à la première CP, et ainsi de suite. Le nombre de CP est égal au nombre de
dimensions de l’espace de description des données originales. Pour beaucoup d’ensembles
de données, les premiers CP expliquent la partie majeure de la variance, donc le reste
peut être négligé, la perte d’informations étant minime.
Étant donnée la matrice de covariance :
Σn×n =

1
XX T
N

où X = {xi,j : 1 ≤ i ≤ n, 1 ≤ j ≤ N} représente la matrice variable-donnée, nous

pouvons employer le théorème de décomposition spectral pour écrire Σ comme :
Σ = UΛU T
où Λ = diag(λ1, ..., λn ) est la matrice diagonale des valeurs propres ordonnées λ1 ≤
... ≤ λn et U est une matrice diagonale n × n qui contient des vecteurs propres. Les CP
sont données par les n lignes de la matrice S de n × N [Imola K. Fodor, 2002], où :
S = UT X
10

(2.2)

2.1. Visualisation d’information
Le nombre de CP à conserver peut être choisi, soit en ﬁxant un nombre k tel que
k < n, soit en ﬁxant un seuil λ0 , ensuite, soit en ne gardant que les vecteurs propres
dont les valeurs propres sont supérieures à λ0 . C’est cette dernière méthode qui a été
utilisée par [Jolliﬀe, 1972].

Fig. 2.3 – Distribution en « fer à cheval » : (a) Distribution et plan principal trouvé par
l’ACP
. (b) Projection de la distribution sur ce plan.
Cette méthode de projection prend en compte uniquement les dépendances linéaires
entre les variables. Donc, elle n’est pas capable de projeter correctement une distribution
non linéaire, comme la distribution en « fer à cheval »(cf. ﬁgure 2.3). La ﬁgure montre que
cette méthode est incapable de restituer une information pertinente sur cette distribution
en considérant sa projection selon les deux premiers CP dans ce type d’exemple.
La projection aléatoire (Random Mapping)
La méthode linéaire la plus simple est celle du Random Mapping (projection aléatoire) [Kaski, 1998; Lagus et al., 1999]. Le Random Mapping consiste simplement à
multiplier le vecteur descriptif initial d’un document par une matrice aléatoire pour
produire un vecteur descriptif transformé de plus faible dimension, soit :
y =R×x

(2.3)

où x ∈ IRn est un vecteur de document. R est une matrice aléatoire de valeurs de
dimension k × n, et la longueur euclidienne de chaque colonne de cette matrice a été
normalisée à l’unité. y ∈ IRk est le vecteur résultat de cette multiplication, k < n.
L’interprétation de projection aléatoire doit considŕer ce qui arrive à chaque dimension de l’espace original IRn dans l’espace de projection. Si la ième colonne de R est
dénotée par ri l’opération de la projection aléatoire (cf. équation 2.3) peut être exprimée
comme :
y=

xi ri

(2.4)

i

Il a été démontré que la méthode du Random Mapping produit des résultats similaires à l’ACP, alors que cette dernière méthode s’avère plus coûteuse, surtout si la
11

Chapitre 2. L’état de l’art
dimension originale des données est très grande. En dehors de son eﬃcacité opérationnelle cette méthode souﬀre cependant des mêmes limitations que l’ACP.

2.1.3

Visualisation par projection cartographique non linéaire

Comme nous l’avons mentionné précédemment, les méthodes linéaires prennent uniquement en compte les dépendances linéaires entre les variables. Elles ne sont donc
pas capables de projeter correctement une distribution non linéaire. Plusieurs méthodes

de projection non linéaires ont été proposées pour palier les problèmes des méthodes
linéaires.
Méthodes de projection
De nombreuses méthodes de projection non linéaires des données ont été proposées
dans la littérature. Parmi celles-ci, on peut citer les cartes de Kohonen (SOMs) (cf.
section ??) utilisées pour projeter les données sur une ou deux dimensions, les méthodes
basées sur la conservation de la distance (telles que le Multidimensional Scaling (MDS)
[Shepard, 1962], la projection de Sammon (NLM) [Sammon, 1969], l’analyse en composantes curvilignes (CCA) [Demartines and Hérault, 1997] et ses extensions, telle que
l’analyse par distance curviligne (CDA) [Lee et al., 2000], et Isomap [Tenenbaum et al.,
2000]). Ces méthodes sont basées sur le principe général suivant : considérons n points
dans l’espace de dimension d, il s’agit alors d’essayer de placer ces points dans un espace
de faible dimension m (m < d) en préservant les distances mutuelles entre les points
issus de l’espace original et les points correspondants dans l’espace de projection. Cette
dernière condition est naturellement impossible à réaliser dans l’absolu, du fait qu’il y a
n(n−1) conditions à satisfaire avec nm degrés de liberté [Verleysen, 2003]. Ces méthodes
cherchent donc en priorité à conserver, lors de la projection, l’intégrité des distances les
plus courtes de manière à préserver au mieux la topologie originale.
Multidimensional Scaling (MDS). Dans le cas du Multidimensional Scaling (MDS),
où la fonction-objectif est simplement basée sur la minimisation de la somme des rapports des distances entre les données d’entrée et les données projetées.
Projection non linéaire de Sammon (NLM). D’une manière similaire au MDS,
la projection de Sammon (NLM), est basée sur une fonction objectif qui est l’erreur
quadratique des diﬀérences entre les distances des données d’entrée et les distances
des données projetées. Cette méthode cherche donc à minimiser la fonction d’erreur
suivante :
E=

1
c

(Xij − Yij )2 F (Xij )

i

j
où
12

(2.5)

2.1. Visualisation d’information

F (Xij ) =

1
Xij

et

c=

Xij
i

j
Un inconvénient majeur des deux méthodes que nous avons présentées, est qu’elles
souﬀrent d’une faible ﬁabilité de projection pour des données de grande dimension [Sammon, 1969]. Une autre de leurs limitations importantes a été démontrée (mise en évidence ?) par Démartines [Demartines, 1994]. Elle est liée au fait que ces méthodes effectuent une projection directe basée sur les distances mesurées dans l’espace d’entrée.
Cette stratégie limite sévèrement les possibilités de dépliage de structures complexes
oﬀertes par ces méthodes.

Analyse en composantes curvilignes (CCA). L’analyse en composantes curvilignes (CCA) opère en deux phases distinctes. La première phase est une quantiﬁcation
vectorielle de l’espace de données d’entrée. Cette phase est importante pour utiliser un
nombre k de points inférieur au nombre n de points original. La seconde phase est une
projection non linéaire des vecteurs d’entrée dans un espace de dimension m < d qui
minimise l’erreur quadratique entre les distances. Mais contrairement aux méthodes précédemment décrites, cette minimisation s’opère relativement aux distances dans l’espace
de projection. D’après Démartines, ces principes augmentent la qualité de projection
[Demartines and Hérault, 1997]. Ainsi, la méthode CCA consiste à optimiser le critère
suivant :
k

k

(Xij − Yij )2 F (Yij , λ)

E=

(2.6)

i=1 j=1

où Xij est la distance entre les points xi est xj dans l’espace d’entrée, Yij est la
distance entre les points correspondants yi et yj , F (.) est une fonction décroissante et
monotone dont l’étendue est contrôlée par un paramètre λ ajustable. La ﬁgure 2.4 montre
la projection de la distribution du « fer à cheval »par CCA. Cette méthode détecte donc
le caractère uniforme de cette distribution en la dépliant. Un des inconvénients de cette
méthode est le choix des paramètres. De plus, malgré les améliorations apportées par
rapport aux méthodes précédemment décrites, elle continue à souﬀrir d’une mauvaise
capacité de dépliage des structures complexes.

Fig. 2.4 – Projection faite par CCA de IR3 à IR2 de la distribution du « fer à cheval ».

13

Chapitre 2. L’état de l’art
Analyse par distance curviligne (CDA). Aﬁn d’améliorer la méthode de CCA,
Lee et al. [Lee et al., 2000] ont proposé une analyse par distance curviligne (CDA) en
utilisant un type de « distance curviligne »δij au lieu de la distance euclidienne standard
pour Xij (cf. ﬁgure 2.5). La distance curviligne est mesurée sur le chemin le plus court
passant par des liens liant des centroïdes adjacents (cf. ﬁgure 2.6). Les centroïdes sont
eux-mêmes obtenus par un processus de quantiﬁcation vectorielle [Kohonen, 2001] :
N

N

(δij − Yij )2 F (Yij )

E=

(2.7)

i=1 j=1

Fig. 2.5 – (a) deux points d’un spirale, (b) la distance euclidienne entre ces deux points
et (c) la distance curviligne ou géodésique

Fig. 2.6 – Approximation de la distance curviligne à l’aide du chemin le plus court par
l’intermédiaire des liens entre les centroïdes (ici la distance entre les deux centroïdes
noircis)
La ﬁgure 2.7 montre un exemple de « nœud de tresse »qui est un objet unidimensionnel inclus dans un espace tridimensionnel. Dans un espace unidimensionnel, la CDA

le déplie rapidement et automatiquement.

Fig. 2.7 – CDA : Projection non-linéaire d’un « nœud de tresse »(de dimension 3 à 1)

14

Combinaison de méthodes avancées de visualisation et de sélection d’information pour la fouille et l’analyse de données

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về