Tải bản đầy đủ (.pdf) (68 trang)

Classification de documents médicaux à l’aide de cartes auto organisatrices (SOM) basée sur une ontologie

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (728.08 KB, 68 trang )

Classification de documents médicaux
à l’aide de cartes auto-organisatrices
(SOM) basée sur une ontologie
Mémoire de fin d’études
rédigé par PHAM Minh Hai, promotion IX-IFI
20 novembre 2005

sous la direction de:
Michel SIMONET
Delphine BERNHARD

Equipe OSIRIS
Laboratoire TIMC-IMAG
Institut d'Ingénierie de l'Information de Santé
Faculté de Médecine,
38700 La Tronche – France

Le travail décrit dans ce mémoire a été effectué dans le cadre du projet européen
NOESIS auquel participe l’équipe OSIRIS (IST-2002-507960-NOESIS)


Table des matières

REMERCIEMENTS..............................................................................................................................I
RESUME............................................................................................................................................... II
ABSTRACT .........................................................................................................................................III
LISTE DES FIGURES........................................................................................................................IV
LISTE DES TABLEAUX ...................................................................................................................VI
CHAPITRE 1: INTRODUCTION....................................................................................................... 1
I. PROBLEMATIQUE .............................................................................................................................. 1
II. MOTIVATION ................................................................................................................................... 3


III. CONTRIBUTION ............................................................................................................................... 3
IV. ENVIRONNEMENT DE STAGE ........................................................................................................... 4
CHAPITRE 2: ETAT DE L’ART........................................................................................................ 5
I. INTRODUCTION ................................................................................................................................. 5
II. METHODES DE REGROUPEMENT ....................................................................................................... 5
1. Introduction ................................................................................................................................. 5
2. Etat de l’art ................................................................................................................................. 6
3. Notre choix .................................................................................................................................. 7
III. METHODES DE REPRESENTATION DE DOCUMENTS .......................................................................... 8
1. Modèle de l'espace vectoriel [12].............................................................................................. 10
2. Latent Semantic Indexing –LSI [13].......................................................................................... 11
3. Méthodes particulières aux SOM .............................................................................................. 13
a. Cartes de catégories de mots .................................................................................................................. 13
b. Correspondance aléatoire....................................................................................................................... 16
c. Autre approche....................................................................................................................................... 18

4. Méthodes d’indexation multilingue ........................................................................................... 18
5. Ontologie pour la représentation de documents........................................................................ 19
IV. VISUALISATION DES RESULTATS DE LA RECHERCHE..................................................................... 19
1. Motivation ................................................................................................................................. 19
2. Etiquetage des groupes générés par la SOM............................................................................. 21
a. Étiquetage manuel.................................................................................................................................. 21
b. Étiquetage basé sur des groupes prédéfinis............................................................................................ 22
c. Etiquetage par les étiquettes des entrées................................................................................................. 24
d. Méthode LabelSOM[6] .......................................................................................................................... 25


CHAPITRE 3: CLASSIFICATION DE DOCUMENTS MEDICAUX A L’AIDE DE SOM EN
UTILISANT UNE ONTOLOGIE...................................................................................................... 30
I. REGROUPEMENT DE DOCUMENTS BASE SUR LA SOM ..................................................................... 30

1. Introduction de l’algorithme de SOM ....................................................................................... 30
a. Structure de SOM .................................................................................................................................. 30
b. Apprentissage ........................................................................................................................................ 33
c. Classification ......................................................................................................................................... 35

2. SOM pour regrouper des documents : Etat de l’art.................................................................. 36
a. SOM classique....................................................................................................................................... 36
b. SOM de taille flottante .......................................................................................................................... 37
c. SOM hiérarchique.................................................................................................................................. 39
d. Remarque .............................................................................................................................................. 41

II. SOM ET ONTOLOGIE: TRAVAUX CONCERNES ................................................................................ 43
1. Introduction............................................................................................................................... 43
2. Ontologie pour la représentation de documents ....................................................................... 44
III. UTILISATION D’UNE ONTOLOGIE POUR LA CLASSIFICATION DE DOCUMENTS BASEE SUR LA SOM 45
1. Introduction............................................................................................................................... 45
2. Sources de documents ............................................................................................................... 46
3. Prétraitement............................................................................................................................. 47
CHAPITRE 4: EVALUATION ......................................................................................................... 50
I. RÉSULTATS ..................................................................................................................................... 50
II. CONCLUSION ................................................................................................................................. 53
REFERENCES.................................................................................................................................... 55



i

Remerciements
J’adresse tout d’abord mes remerciements à Michel Simonet, responsable de l’équipe
OSIRIS du laboratoire TIMC, qui m’a accueilli et m’a donné des conseils précieux. Sans

lui, mon stage n’aurait pas existé.
Je souhaite ensuite remercier spécialement Delphine Bernhard qui a bien voulu écouter
avec attention toutes mes idées et m’a donné des conseils très concrets. Les
discussions entre nous étaient très ouvertes et efficaces.
Je remercie Michel et Delphine aussi pour leur relecture de ce rapport et pour m’avoir
proposé des corrections nécessaires.
Je voudrais aussi remercier Severine Gedzelman, Radja Messai, Gayo Diallo et Rémi
Patriarch qui m’ont beaucoup aidé pendant ce stage à Grenoble. Leurs idées sur
les points importants autour de mon stage m’ont fait mieux comprendre mon sujet.
Enfin, je tiens à remercier mes soeurs, mon père et mon frère qui m’ont énormément
encouragé pendant mon stage en France et spécialement à ma mère pour tout l’amour
qu’elle a réservé pour moi jusqu’à son dernier souffle.


ii

Résumé
Pour regrouper un ensemble de documents médicaux au format numérique, trois
aspects importants peuvent affecter l’efficacité de la méthode: la méthode de
représentation des documents, l’algorithme de regroupement et la méthode de
représentation des résultats. La méthode de regroupement doit être suffisamment
puissante pour pouvoir grouper un grand ensemble de documents et permettre à
l’utilisateur de visualiser des résultats. Les cartes auto-organisatrices – SOM - ont été
choisies pour cette raison. La méthode de représentation de documents doit produire
des vecteurs de documents de faible dimension et posséder la capacité d'indexer des
documents multilingues. C’est la raison pour laquelle la méthode basée sur une
ontologie a été choisie. La méthode LabelSOM a quant à elle été choisie pour étiqueter
des groupes de SOM. Nous prouvons par des expériences que la méthode qui combine
la SOM et une ontologie peut aider à réduire les dimensions et produire des résultats
encourageants avec des documents multilingues.



iii

Abstract
Clustering similar documents is a difficult task for text data mining. Difficulties stem
especially from the way documents are numerically encoded. In this paper, we will
present a method which uses Self Organizing Map (SOM) to cluster medical documents.
The originality of the method is that it does not rely on the words shared by documents
but rather on concepts taken from an ontology. Our goal is to cluster various medical
documents in thematically consistent groups (e.g. grouping all the documents related
to cardiovascular diseases). Before applying the SOM algorithm, documents have to go
through several pre-processing steps. First, textual data have to be extracted from the
documents, which can be either in the PDF or HTML format. Documents are then
indexed, using several kinds of indexing units: words, stems, and concepts. After
indexing, documents can be numerically represented by vectors whose dimensions
correspond to indexing units. These vectors store the weight of the indexing unit within
the document they represent. They are given as inputs to a SOM which arranges the
corresponding documents on a two-dimensional map. We have compared the results
for two indexing schemes: stem-based indexing and conceptual indexing. We will show
that using an ontology for document clustering has several advantages. It is possible
to cluster documents written in several languages since concepts are languageindependent. This is especially helpful in the medical domain where research done is
often presented in several languages. Another advantage is that the use of concepts
helps reduce the size of the vectors, which, in turn, reduces processing time.


iv

Liste des figures
Figure 1 : La recherche sur google.com avec le mot clé «vélo». ............................... 2

Figure 2: Représentation de chaque document sous forme de vecteur d’éléments
sémantiques. Ce vecteur est établi en se basant sur le dictionnaire et le document
original. ....................................................................................................... 9
Figure 3: Représentation des documents par des vecteurs des termes .................... 11
Figure 4 : Une décomposition en valeurs singulières ............................................. 12
Figure 5: Un exemple de représentation du contexte du mot « aime » .................... 14
Figure 6: Carte de catégories de mots avec des mots des contes de Grimm. ............ 15
Figure 7: extraite à partir de [15]. L'architecture de base de la méthode Websom. La
carte de documents est construite à partir des documents indexés par des
catégories de mots générées par la carte de catégories de mots. Les deux cartes
sont produites avec l'algorithme SOM ............................................................ 16
Figure 8: Formes d'I et de ε : I a des valeurs 0 pour les composants qui ne sont pas
sur sa diagonale. Les composants sur la diagonale d'I correspondent à ceux de la
diagonale de

R T .R . ε a des valeurs 0 pour les composantes situées sur sa

diagonale. Ses composants qui ne sont pas sur la diagonale sont ceux qui ne sont
pas sur la diagonale de

R T .R . ...................................................................... 17

Figure 9: Un exemple de recherche : c'est la SOM résultante avec différents groupes
de documents. Avec le mot-clé «vélo», comment peut-on savoir quel groupe à
pour sujet les vélos (c'est à dire les bicyclettes)? Si chaque groupe a sa propre
étiquette il sera plus facile pour l'utilisateur de choisir. .................................... 20
Figure 10 : Un exemple d’étiquetage manuel extrait à partir de [27]. Le but de ceci est
de déterminer si l'organisation des documents sur la carte est bien faite ou pas. Ce
n'est pas utile du tout dans le but de la recherche d’information. ...................... 21
Figure 11: Structure des vecteurs en entrée ........................................................ 22

Figure 12: Un exemple de l’étiquetage basé sur les groupes prédéfinis extrait du site
Web du projet de WEBSOM : ..................................................................................... 23
Figure 13:Un exemple des cartes de catégories de mots. Cette figure est extraite de
[28]. ......................................................................................................... 25
Figure 14: Erreurs de quantisation avec M=2 ....................................................... 26


v

Figure 15: deux types de seuil ........................................................................... 27
Figure 16 : Le composant représentant un terme trop commun devrait être exclu de la
liste de candidat. ........................................................................................ 28
Figure 17: Le premier composant est plus petit que

T2 celui-ci est donc éliminé....... 28

Figure 18 : Une 7x8 SOM de topologie carrée....................................................... 31
Figure 19: Une 8x8 SOM de topologie hexagonale. ............................................... 31
Figure 20: Un exemple d'une carte de topologie carrée. Les vecteurs de neurones ont
M dimensions. La carte a deux dimensions avec 6 neurones verticaux et 4
neurones horizontaux. Chaque neurone a une couleur différente des autres. Ceci
signifie que les vecteurs de neurones sont différents. ...................................... 32
Figure 21: La forme du chapeau mexicain............................................................ 34
Figure 22: Dans cet exemple, 10 données d'entrée (cercles) sont classifiées dans deux
groupes. L’espace de données a 2 dimensions et, après l'apprentissage, deux
neurones (carrés) ont des positions montrées dans le graphique. Après la
classification, une entrée a une couleur du groupe auquel elle appartient. La ligne
dans la figure sépare deux groupes. .............................................................. 36
Figure 23: La carte finale d'un processus d’apprentissage (extraite de [9]). Il y a
beaucoup de noeuds mais seulement 5 groupes (chaque groupe est dans un

modèle de fond différent). Il y a un groupe dont les noeuds ne se relient à aucun
noeud d'autres groupes. .............................................................................. 39
Figure 24: Une hiérarchie des cartes auto-organisatrices. (Extraite de [10]). ........... 40
Figure 25: Une SOM hiérarchique croissante. (Extraite à partir de [11]). Sur la couche
1, il y a 6 groupes au début. Chaque noeud de la carte de la première couche a
une SOM indépendante à la deuxième couche. Cependant, seulement deux noeuds
d'une carte de la deuxième couche ont des cartes indépendantes de la troisième
couche....................................................................................................... 41
Figure 26: Une partie de la structure hiérarchique de l'ontologie dans le domaine de
"cancer.".................................................................................................... 43


vi

Liste des tableaux
Tableau 1: La carte obtenue avec l’ontologie........................................................ 51
Tableau 2: La carte obtenue avec la pleine représentation ..................................... 52


1

Chapitre 1: Introduction
I. Problématique
Le développement de l’informatique a permis l'échange et la transmission rapides de
l'information. L'ère des documents numériques a succédé à l'ère des documents
papiers. L’abondance de documents textuels est une caractéristique commune à tous
les domaines. Il existe plusieurs types d’outils qui peuvent faciliter l’exploitation des
documents. La recherche d'informations est une des utilisations courantes d'Internet.
Certains moteurs de recherche sont très populaires et efficaces. Cependant, les
résultats sont affichés sous forme de liste que l'utilisateur doit parcourir pour vérifier si

un des résultats correspond à son besoin. Par exemple, en utilisant le moteur de
recherche Google, on peut trouver une liste d’environ 5.800.000 résultats pour la
requête “vélo”. Les résultats ne sont pas regroupés dans des catégories et il est
difficile pour l’utilisateur de les exploiter (voir la figure 1 à la page suivante).
La même situation se présente dans tous les domaines. En médecine par exemple, les
documents textuels ne sont pas seulement nombreux mais aussi écrits en plusieurs
langues. Diverses méthodes de traitement d'une même maladie peuvent avoir été
élaborés dans différent pays et consignées dans des articles écrits en diverses langues.
Cela peut produire des ensembles immenses de documents médicaux écrits dans des
langues différentes qui doivent être exploités. Afin de faciliter la recherche, il est
nécessaire de grouper les documents. De plus, les groupes doivent être étiquetés pour
guider l’utilisateur dans le choix de ceux qui conviennent le plus à ses besoins.
Pour résoudre le problème, il y a trois problèmes à
surmonter (voir [100]).
Premièrement, la méthode de représentation de documents utilisée doit convenir au
traitement des documents écrits dans des langues différentes. De plus, il est
nécessaire que les résultats obtenus par cette méthode, qui sont très souvent des
vecteurs de caractéristiques, ne soient pas d'une dimension trop importante. Ainsi, la
meilleure méthode est celle qui peut produire, pour un document, les caractéristiques
qui le représentent au mieux. Deuxièmement, les résultats produits par la méthode de
représentation de documents doivent être traités par une méthode de regroupement
efficace pour distribuer les documents dans des groupes. Troisièmement, il faut que les
groupes de documents obtenus soient automatiquement étiquetés par des descriptions
créées à partir des caractéristiques des documents appartenant à chaque groupe.
L’étiquetage d’un groupe de documents peut donner à l’utilisateur une idée du contenu
du groupe.


2


Figure 1 : La recherche sur
google.com avec le mot clé
«vélo».
Il y a d’environ 5.800.000
résultats qui peuvent être
classifiés en quelques
groupes, par exemple : les
communautés de vélos, les
guides touristiques de
vélo, les guides techniques
de vélo. Les résultats ne
sont pas ordonnés et on
peut perdre beaucoup de
temps pour trouver les
meilleurs résultats.

Dans le cadre de mon stage, je me suis concentré sur les deux derniers aspects: la
méthode de regroupement de documents et la méthode d’étiquetage des groupes de
documents. La SOM – une méthode de regroupement – est le centre de mon stage
alors que la méthode d’étiquetage a pour but de faciliter la visualisation des résultats
de la SOM. Au niveau de l’implémentation, j’ai implémenté tous les trois aspects.


3

Supposons que l’on ait un corpus D de N documents que l’on va regrouper en G
groupes. Un document d i (0 < i ≤ N , d i ∈ D ) est représenté par une liste E de M
éléments sémantiques. M est la quantité d’éléments sémantiques qui apparaissent
dans N documents. Si l’index j est la position d’un élément sémantique dans la liste E,
e j , avec 0 ≤ j < M et e j ∈ E est la fréquence globale de cet élément sémantique – i.e.

son nombre d’occurrences dans les N documents.

d i , j , avec 0 ≤ i < N , 0 ≤ j < M

représente le poids de l’élément sémantique ayant l’index j dans le document di. Le
groupe C k , avec 0 ≤ k < G est un ensemble des index de documents qui sont classifiés
dans le groupe. Dans ce rapport, j’utilise le terme «élément sémantique» dans le cas
général au lieu des termes «mot», «concept» ou «groupe de mots» qui correspondent
à des cas particuliers.

II. Motivation
La fouille de textes est pour moi un domaine très intéressant, me permettant
d’appliquer différentes méthodes d’apprentissage automatique que j’ai étudiées durant
ma première année à l’IFI. Lorsque l’on étudie une méthode d’apprentissage
automatique, on connaît ses aspects théoriques.

J'ai choisi d'appliquer les SOMs au

problème à traiter afin d'expérimenter cette méthode dans un contexte pratique.

De plus, le sujet m’a donné l'occasion de travailler sur un problème regroupant
plusieurs disciplines, notamment l'informatique et la médecine.

III. Contribution
Le stage s'est déroulé dans le cadre du projet européen NOESIS ( auquel participe l’équipe OSIRIS de laboratoire TIMC-IMAG. Durant mon stage
qui s'est déroulé du 1er mars au 15 novembre 2005 (dont la période du 1er mars au 18
août en France et le reste au Vietnam), j'ai abordé les tâches suivantes :
1. Étude de la carte auto organisatrice (la SOM). Il s’agit de comprendre le
fonctionnement de l’algorithme et son application pour le regroupement de
documents.

2. Étude de certaines méthodes de représentation de documents et leur utilisation
avec la SOM.
3. Étude de l’application d’une ontologie pour la représentation des documents. Le
processus de construction d’ontologie n’est pas intégré à cette tâche.
4. Étude de certaines méthodes de représentation de groupes de documents pour
faciliter l’exploitation de la carte après le processus d’apprentissage. Le but de


4

cette tâche est de visualiser les résultats sur la SOM.
5. Implémentation d’un programme de regroupement de documents médicaux
dont

l’algorithme

de

regroupement

est

la

SOM.

Deux

méthodes


de

représentation de documents ont été implémentées dont une méthode qui
utilise une ontologie.
6. Rédaction de deux rapports en anglais. Ce sont les rapports de résultats
d’études dans le cadre du projet NOESIS.

IV. Environnement de stage
Le stage s'est déroulé sous la direction de M. Michel SIMONET, responsable de l’équipe
OSIRIS du laboratoire IMAG-TIMC et Mlle. Delphine BERNHARD – une doctorante de
troisième année. L'IMAG est une fédération d'unités de recherche (FR 071) du CNRS,
de l'INPG et de l'UJF, implantées sur plusieurs sites de l'agglomération grenobloise.
L'IMAG regroupe une communauté d'environ 700 personnes (voir le site web de
l’IMAG: ). Le laboratoire de Techniques de l'Imagerie, de la
Modélisation et de la Cognition (TIMC - est un laboratoire
d'ingénierie médicale, qui désire profiter des avancées récentes en modélisation
biomédicale et en théorie de la complexité pour résoudre des problèmes liés à la santé.
Le laboratoire comprend 9 équipes dont l’équipe OSIRIS dont les travaux principaux
concernent les projets ISIS (Aide à la modélisation conceptuelle pour les bases de
données) et Osiris (SGBD-BC) ( />
NOESIS est un projet européen qui regroupe 2 catégories principales d’associés :
Associés utilisateurs et opérateurs cliniques et associés scientifiques et techniques.
L'équipe OSIRIS du laboratoire de TIMC participe à ce projet ambitieux en tant
qu’associé scientifique et technique.

Dans le cadre du projet NOESIS, je travaille principalement à l’application de la SOM
dans le projet. Nous sommes intéressés par l'interface de recherche où l'utilisateur
reçoit les résultats. Les résultats retournés par la recherche sont des documents
médicaux. L'indexation des documents originaux, qui sont les documents médicaux, se
base sur la structure sémantique fournie par une ontologie de sorte que nous

disposons de vecteurs qui représentent ces documents. Nous évaluerons, de manière
pratique, cette représentation en comparaison avec une méthode que nous appelons
méthode de «pleine représentation».


5

Chapitre 2: Etat de l’art
I. Introduction
Soit un ensemble de documents, que l'on souhaite regrouper de sorte que les
documents similaires appartiennent au même groupe. Une méthode qui peut résoudre
ce problème doit comprendre les trois éléments suivants :


La méthode de représentation de documents



La méthode de regroupement



La technique de représentation des résultats.

Il y a plusieurs différentes propositions qui donnent la solution au problème.
Cependant, dans ce chapitre, je présente l’état de l’art des méthodes qui résolvent le
problème en suivant les règles ci-dessous:


Je présente tout d'abord les méthodes de regroupement. Puis, je présente la

méthode que nous avons choisie et j’explique notre choix.



Ensuite, j’aborde les méthodes de représentation des documents ainsi que les
techniques de présentation des résultats selon la méthode de regroupement
choisie

Les méthodes de regroupement sont abordées dans la section II. Les méthodes de
représentation de documents sont discutées dans la section III. La section IV est
réservée aux techniques de représentation des résultats.

II. Méthodes de regroupement
1. Introduction
Le «regroupement» est une division de données en groupes d'objets similaires [22].
Chaque groupe comprend des objets qui sont similaires entre eux et différents des
objets appartenant aux autres groupes. Le regroupement de textes envisage les


6

documents

comme des objets. Les documents sont regroupés dans des groupes de

telle sorte que les documents qui appartiennent au même groupe sont très similaires
les uns aux autres et très différents des autres documents.

De point de vue d’apprentissage Automatique, un regroupement est une méthode
d’apprentissage non supervisé, c.à.d. les groupes d’objets résultant ne sont pas

prédéfinis [23]. Les relations cachées entre les documents sont détectées pendant le
processus d’apprentissage. Plusieurs méthodes ont été proposées pour regrouper des
données en général et les données textuelles en particulier. Je détaille ces méthodes
dans la prochaine sous-section.

2. Etat de l’art
Plusieurs méthodes peuvent être utilisées pour regrouper un ensemble de documents.
Selon [22] et [23], les méthodes peuvent être classées en diverses catégories:


Regroupement hiérarchique: Cette méthode génère un arbre hiérarchique
de groupes appelés dendrogramme. Il y a deux manières de construire l’arbre:
à partir des éléments ou à partir de l’ensemble de tous les éléments. Si on se
base sur les éléments, chaque document est au début mis dans un groupe et un
groupe ne contient qu’un document. Puis, les deux groupes les plus similaires
sont fusionnés pour former un nouveau groupe. Ce processus se répète
itérativement jusqu’à ce qu'une certaine condition d'arrêt soit satisfaite. Une
méthode

qui

fonctionne de

cette manière

est

appelée « regroupement

agglomératif ». Par contre, si on se base sur l’ensemble de documents, la

méthode est appelée « regroupement par division ». Au début du processus de
regroupement par division, il n’y a qu’un groupe de tous les documents. Le
groupe est divisé en deux sous-groupes lors de l’itération suivante. Le
processus continue jusqu’à ce que la condition d’arrêt soit satisfaite. La
similarité entre deux documents se base sur la distance entre ces documents.


Regroupement basé sur une partition: Un document est mis dans un
groupe parmi un nombre fixe de groupes. La méthode des K–moyens est un
exemple de ce type. Le nombre de groupes est prédéfini. Un document est mis
dans un groupe si la distance entre le vecteur de document et le centre du
groupe est la plus petite en comparaison avec les distances entre le vecteur et
les centres des autres groupes. Il y a deux types de méthodes de ce genre: le
«crisp clustering» et le «fuzzy clustering».


7



Méthodes basées sur la densité ou une grille: Si une méthode se base sur
la densité, l’espace euclidien est divisé en un ensemble des composantes
jointes. Trois concepts sont importants pour implémenter cette idée: densité,
connectivité et frontière. Un groupe est une composante dense jointe. Pour les
méthodes basées sur grille, 4 pas sont nécessaires. L’espace de données est
d’abord divisé en cellules. Puis la procédure de regroupement est appliquée aux
cellules au lieu des données. Les groupes finaux se basent sur l’appartenance
de chaque donnée à chaque cellule et les résultats du processus de
regroupement de cellules.




Méthodes basées sur un modèle: Selon ces méthodes, l’appartenance d’un
document à un groupe suit une distribution de probabilités. La carte auto
organisatrice est un représentant de ce type de méthode. Le détail de cet
algorithme sera donné plus tard.

3. Notre choix


La méthode doit être assez puissante pour traiter un grand ensemble de
documents.



Il doit être possible de visualiser les résultats du regroupement pour que
l’utilisateur puisse les exploiter.

Notre choix de méthode de regroupement – les cartes auto-organisatrices SOM – est
une des méthodes basées sur un modèle. La SOM [1] a été utilisée dans le projet
WEBSOM pour regrouper un très grand ensemble de documents. Ce travail est décrit
dans [4]. Les résultats obtenus par la méthode WEBSOM sont très encourageants. De
plus, concernant la visualisation des résultats, la SOM peut représenter les groupes sur
une carte. Plusieurs outils de visualisation et d’étiquetage des résultats ont été
proposés pour aider l’utilisateur à facilement exploiter l’ensemble des documents.

Les méthodes de représentation de documents abordées dans ce rapport sont celles
qui ont été utilisées avec la SOM ou qui sont très courantes dans le domaine du
regroupement de textes ou qui concernent l’indexation multilingue. Une de ces
méthodes sera comparée à la méthode de représentation de documents basée sur une

ontologie. En outre, les méthodes de représentation des résultats sur la carte discutées
seront aussi limitées aux méthodes proposant des solutions sur les cartes obtenues
par la SOM.


8

III. Méthodes de représentation de documents
Les documents ne peuvent pas être interprétés directement par une méthode de
regroupement. À cause de cela, une procédure d'indexation qui fait correspondre au
texte une représentation compacte de son contenu doit être appliquée. Il y a plusieurs
choix pour représenter des documents textuels. La solution la plus souvent utilisée est
de se baser sur des vecteurs de caractéristiques des documents [21]. En général, les
composants des vecteurs décrivent le contenu de documents. Le modèle de l'espace
vectoriel [12] sert de base à cette représentation. Les différentes méthodes décrivent
un document en se basant sur différentes caractéristiques et critères de sorte que
l'objectif final de décrire au mieux le sens du document tout en assurant toujours une
dimensionnalité acceptable de son vecteur de représentation soit respecté. Un des plus
grands défis dans la fouille de données en général et dans le domaine du
regroupement de documents numériques par les SOM en particulier est la grande
dimension des vecteurs lors de traitement d’un ensemble de documents.

Un document est caractérisé par un ensemble d'éléments sémantiques permettant de
le représenter sous forme de vecteur. Le nombre de dimensions du vecteur d’un
document est différent de celui du vecteur d'un autre document. Cependant, pour
grouper un ensemble de documents, il est nécessaire que les documents aient des
représentations comparables. Or, un élément sémantique peut apparaître dans un
document mais pas dans un autre. Pour résoudre ce problème, un dictionnaire doit
être construit. Ce dictionnaire contient tous éléments sémantiques trouvés dans
l'ensemble des documents de sorte qu'aucun d'eux n'apparaisse plus d'une fois dans le

dictionnaire. Un vecteur basé sur ce dictionnaire sera alors produit pour chaque
document. Le vecteur produit a la même dimension que le dictionnaire et les éléments
sémantiques y figurent dans le même ordre.

Comme cela a été abordé dans le

chapitre 1, un élément sémantique peut être un terme, un mot, une catégorie de mots
ou un concept.

L'importance d'un élément sémantique dans un document est mesurée en se basant
sur son nombre d'occurrences dans ce document. Si un élément n'est pas présent dans
le document, il aura un poids égal à 0 (cela signifie que cet élément n'a aucune
importance du tout dans le document). La même procédure est appliquée à tous les
éléments sémantiques du document. Après que tous les documents aient été indexés,


9

nous avons un ensemble de vecteurs représentant les documents. Il peut y avoir
d'autres tâches de pré-traitement comme l’application de la mesure de EFIDF,
normalisation… à accomplir avant que l'ensemble de vecteurs puisse être employé
comme entrées pour l'algorithme de regroupement.


Figure 2: Représentation
de

chaque

document


sous forme de vecteur
d’éléments sémantiques.
Ce vecteur est établi en
se

basant

dictionnaire

sur

le

et

le

document original.

Pour calculer l'importance d'un élément sémantique, il y a plusieurs méthodes. Les
méthodes les plus couramment utilisées sont les suivantes (voir ): EF et EFIDF:



ef (element frequency): Fréquence de l’élément sémantique. Le nombre
d'occurrences d'un élément sémantique dans un document sera employé pour
représenter son importance. Plus la valeur ef est grande, plus l'élément est
important. Il y a des cas où un élément a une valeur ef élevée pour tous
documents de la collection. Il est clair que cet élément ne peut permettre de

distinguer différents groupes de documents. C’est un inconvénient de la
méthode. Par exemple, dans une collection de documents médicaux, le mot
«traitement» peut avoir des valeurs ef élevées (dans ce cas-ci, un élément est
un terme) pour tous les documents dans cette collection.



efidf: Element Frequency-Inverse Document Frequency. Cette méthode a été
proposée pour surmonter l'inconvénient de la méthode ef : un élément
sémantique qui apparaît dans tous les documents doit avoir un poids petit.

 N 

efidf (i, j ) = ef (i, j ) ∗ log
 df ( j ) 
Où i est l'index du document courant, j est l'index de l'élément sémantique
courant, ef(i,j) est la valeur ef de l'élément j dans le document i, df(j) est le
nombre de documents où l'élément j apparaît. Si un élément sémantique est


10

présent

dans

plusieurs

documents,


sa

valeur

df(j)

sera

grande.

En

conséquence, sa valeur efidf sera petite.

1. Modèle de l'espace vectoriel [12]
Le modèle de l'espace vectoriel (Vector Space Model – VSM) sert de base à la
représentation des données textuelles par des vecteurs dans l'espace euclidien. Selon
[12], un document est représenté par un vecteur des termes. Soit on donne un poids
au

terme

(voir

ef

ou

efidf


ci-dessus),

soit

on

l'enregistre

simplement

comme «présent»/« non présent » dans le document courant en assignant la valeur 1
s’il est présent et 0 autrement. Un terme peut être un mot simple ou un mot composé.
L'extraction des termes s'effectue après élimination des mots outils (les mots outils
incluent des articles, des conjonctions de coordination, etc..). Les autres mots sont
alors indexés. Nous appelons ceci la pleine représentation des documents. Dans cette
méthode, les éléments sémantiques sont des termes qui apparaissent dans les
documents. Cette approche est très courante.

Comment un terme peut-il être extrait à partir d'un document donné? Une solution
commune pour ceci est d'employer un dictionnaire prédéfini des termes et un autre
dictionnaire prédéfini des mots outils. Les mots outils se trouvant dans les documents
ne sont pas pris en compte pour construire la représentation. Un nouveau dictionnaire
est construit à partir de l'intersection des termes se trouvant dans les documents et
appartenant au dictionnaire de termes. Ce dictionnaire a une taille égale ou inférieure
à celle du dictionnaire prédéfini de termes.


11

Dictionnaire de

mots outils

Dictionnaire
de termes

M dimensions
Dictionnaire construit

Créer
dictionnaire

M dimensions

e

Supprimer
mots outils

Construire vecteurs
de documents

Figure 3: Représentation des documents par des vecteurs des termes

Sachant qu'un document peut contenir beaucoup de termes, l'ensemble de tous les
documents peut produire un dictionnaire de grande dimension. Pour un grand
ensemble de textes, il est impossible d'utiliser la pleine représentation. D'ailleurs, elle
ne prend pas en compte le contexte de chaque mot dans les documents et pour cette
raison, la polysémie et la synonymie ne sont pas traitées.

Notez que l’utilisation des vecteurs pour représenter des documents sert également de

base à d’autres méthodes. Dans cette sous-section, nous traitons seulement la pleine
représentation des documents.

2. Latent Semantic Indexing –LSI [13]
L'objectif de la méthode LSI[13] est de réduire la dimension des représentations de
documents. Premièrement, chaque document est également entièrement représenté
par un vecteur. Lorsque tous les documents sont caractérisés par des vecteurs, on
obtient une matrice dont les colonnes sont des vecteurs de document et où chaque
rangée correspond à un terme. Souvent, un terme n'apparaît que dans quelques
documents et pour cette raison il y a beaucoup de composants ayant la valeur 0 dans
la matrice de sorte que la matrice est très clairsemée (creuse). Ensuite, la
décomposition en valeurs singulières (SVD – Singular Value Decomposition) est
appliquée pour réduire la taille des vecteurs colonnes de sorte qu'enfin, les vecteurs
résultants aient une dimension faible.


12

Au début, nous avons N documents et M termes pour une collection de documents. Les
documents sont représentés (en utilisant le modèle de l’espace vectoriel) par des
vecteurs de M dimensions de sorte que nous obtenons une matrice de taille MxN
appelée la matrice «termes-documents». Supposons que l’on doit ramener le nombre
de dimensions de ces vecteurs à M’ dimensions (où M'< M). L'algorithme SVD est
appliqué de sorte qu'à partir de la matrice des termes-documents que l’on appelle la
matrice A, on obtienne le produit de trois autres matrices B, C, et D.

AM . N = BM .M ' .C M '.M ' .DM '.N
Avec M'< M, cette décomposition revient à grouper plusieurs termes dans un concept
et à représenter les documents par des vecteurs de concepts au lieu de vecteurs de
termes.


Parmi des matrices résultat, B et D sont des matrices avec des colonnes

ortho-normales. C est une matrice diagonale des valeurs singulières triées par ordre
décroissant. Pour construire la SVD, B est une matrice des vecteurs propres dérivés de

M • M T tandis que D est une matrice des vecteurs propres dérivés de M T • M . La
matrice D contenant N colonnes et M rangées peut être vue comme une matrice
concepts-documents. Chaque colonne de cette matrice est un vecteur des poids des
«concepts» et peut être considérée un vecteur de document. En conséquence, une
réduction de dimensions a été effectuée.

N

M’
M’

M

=

N

M’
M’

x

x


x

x

Figure 4 : Une décomposition en valeurs singulières
Cependant, il faut noter que cette méthode nécessite beaucoup de calculs et cela peut
prendre énormément de temps pour une grande collection de documents. D'une part,
les «concepts» que nous avons mentionnés ne sont pas des concepts sémantiques. Les


13

matrices B, C, et D sont justes des matrices de nombres et aucune signification propre
n'est attachée au concept auquel un terme appartient.

3. Méthodes particulières aux SOM
a. Cartes de catégories de mots
Dans [3], Kohonen et ses collègues ont proposé les cartes de catégories de mots qui
peuvent grouper les mots ayant des contextes d'occurrence semblables dans une
catégorie. Un document, au lieu d’être représenté par un vecteur des occurrences de
mots, est caractérisé par un vecteur des occurrences de catégories de mots, qui a peu
de dimensions. En appliquant cette approche, il est nécessaire d'employer deux types
de SOM: une pour des catégories de mots et une autre pour des groupes de
documents.

Tout d'abord, un dictionnaire de tous les mots qui apparaissent dans la collection
entière de documents est construit de sorte que chaque mot ait son propre et unique
index. Puis, un vecteur de P dimensions, dont les composants sont des valeurs
aléatoires, code chaque mot. Une fenêtre glissante de mots est définie, appelé fenêtre
de contexte. La largeur de la fenêtre est W qui est habituellement un nombre impair.

Parmi les mots de W, il y a un mot-clé, qui est quelque part au milieu de la fenêtre. Si
W=3 et P=90, la fenêtre est:

“successeur” “mot-clé” “prédécesseur”
Un vecteur de 90 dimensions code chaque mot dans la fenêtre ainsi un vecteur de 270
dimensions représente la fenêtre. Un mot dans le dictionnaire ayant l’index l est
représenté par vecteur

rl . Le prédécesseur de rl est représenté par vecteur p l , et le

successeur par le vecteur

sl . xl est le vecteur représentant cette fenêtre et il a la

forme suivante :

xl = pl (ε .rl ) sl


(2).

p l (ou sl ) est un vecteur moyen de tous les prédécesseurs (ou des successeurs)

du mot-clé dans la collection de documents. Par exemple, si le mot clé est «aime», il
est représenté par un vecteur

rl de P composants aléatoires. Dans la collection de

documents, il y a 3 contextes pour ce mot :
- «il aime les chiens».



14

- «l’enfant aime nager».
- «le garçon aime nager»
Ici, les mots «il», «enfant », «chiens », «garçon» et «natation» ont leurs propres
vecteurs de représentation que nous appelons relativement ril , renfant , rchiens ,

rgarçon et

rnatation . Pour obtenir la m − ième composante du vecteur pl , on calcule la valeur
moyenne

des

m − ième

composantes

des

vecteurs

ril ,

renfant

et


rgarçon :

pl ,m = (ril ,m + rendant ,m + rgarçon,m ) / 3 . De la même manière, on peut obtenir la
m − ième composante du vecteur sl : sl ,m = (rchien,m + 2.rnatation ,m ) / 3
Le terme ε est vraiment important. C'est une valeur numérique positive inférieure à
1.0 utilisée pour diminuer le rôle du mot-clé dans la fenêtre. Avec ceci, le contexte
devient plus important de sorte que les mots-clés ayant le même contexte
appartiennent au même groupe sur la carte de catégories de mots. Après construction
(par apprentissage) de la carte de catégories de mots, chaque mot aura son propre
groupe et un groupe peut contenir plusieurs mots de signification semblable. Par
exemple, les mots « aime », « préfère »… peuvent être dans le même groupe que le
mot «apprécie». Donc finalement on obtient une carte de différents groupes qui sont
des catégories de mots. Ces catégories sont alors utilisées pour indexer l’ensemble de
documents.

il
aime

natation

ε

natation

moyenne

garçon

moyenne


enfant

chiens

Figure 5: Un exemple de représentation du contexte du mot « aime »
L'analyse des relations contextuelles des mots dans les contes de Grimm [14] est l’un
des exemples d'application de cette méthode. Comme nous pouvons le voir sur la
figure extraite à partir de [14] ci-dessous, il y a beaucoup de différentes catégories sur
la carte. Mais ces catégories se répartissent dans 3 régions distinctes : verbes, noms,
et d'autres.


15

Verbes

Figure 6:
Carte de
catégories
de mots
avec des
mots des

Autres

contes de
Grimm.

Noms


Pour représenter un document, chaque mot de ce document sera ramené à sa
catégorie. Au lieu des occurrences de mots ou de termes, le vecteur de document se
base sur des occurrences de catégories. L'élément sémantique dans cette méthode est
la catégorie de sorte que l'on utilise la fréquence de catégorie (CF) ou la fréquence de
catégorie – fréquence de document inversée (CFIDF) pour représenter l'importance
d'une catégorie dans un document. Puisque la quantité de catégories est plus petite
que le nombre de mots, cette méthode peut résoudre le problème du nombre élevé de
dimensions. De plus, comme les mots de contexte semblable appartiennent à la même
catégorie, le problème de la synonymie est également résolu.

Voici le diagramme du système de classification proposé par Kohonen et ses collègues.


×