Tải bản đầy đủ (.pdf) (50 trang)

Détection du plagiat en utilisant la technique de l’indexation sémantique latente

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (433.71 KB, 50 trang )


Département de Génie logiciel
Faculté des Technologies de l’information et de la communication
Université de Cantho
Détection du plagiat en utilisant la technique de
l’indexation sémantique latente
Bui Vo Quoc Bao
Mémoire présenté pour l’obtention du diplôme d’ingénieur en informatique
Juillet 2011
© Bui Vo Quoc Bao, 2011


Résumé
Cette thèse de fin d'études suggère une méthode de déterminer si un
document est copié d'une collection de documents enregistrés. Malgré qu'il existe
déjà des solutions informatiques différentes destinées à résoudre ce problème, ces
méthodes fonctionnent seulement bien sur la copie de façon exacte (mot par mot).
Elles ne sont pas capable de détecter effectivement la copie sémantique, c'est-à-dire
la copie avec un peu de modifications, ex. le remplacement de synonymes, le
changement de l'ordre de mots, ou la reconstruction de phrases. Afin de surmonter
cette faiblesse, la méthode proposée utilise la technique de l'indexation sémantique
latente qui est basée sur le modèle vectoriel et la décomposition en valeurs
singulières d'une matrice. Grâce à cette technique, nous pouvons mesurer la
similarité sémantique latente entre les paragraphes et puis entre les documents. Les
expérimentations montrent que l'approche sémantique latente fonctionne
effectivement. Un document qui est copié sémantiquement d'autres peut être
identifié.
Mots clés: détection du plagiat/de la copie textuelle, indexation sémantique
latente, recherche sémantique, mesure de similarité, indexation textuelle.

Abstract


This graduate thesis suggests a method for determining whether a document
is copied from a collection of registered documents. Although there are already
some different informatics solutions destined to solve this problem, these methods
only work well on the exact (word for word) copying. They aren't able to detect
efficiently the semantic copying, that is the fact of copying with a few
modifications, i.e. synonym replacement, word order changing, or sentence
restructuring. In order to overcome this weakness, the proposed method uses the
latent semantic indexing technique which is based on the vector space model and
the singular value decomposition of a matrix. Due to this technique, we can measure
the latent semantic similarity between the paragraphs and then between the
documents. The experimentations show that the latent semantic approach works
efficiently. A document that is a semantic copy from others can be identified.
Key words: plagiarism/text copying detection, latent semantic indexing,
semantic search, similarity measure, text indexing.
1

Table des matières
Liste des figures 3
Liste des tableaux 4
Remerciements 5
Introduction 6
Chapitre 1 : Problème de détection du plagiat 8
1.1 Solutions actuelles 8
1.1.1 Prévention du plagiat 8
1.1.2 Détection du plagiat 8
1.2 Proposition d’une méthode avec l’approche sémantique latente 11
Chapitre 2 : Recherche d’information 13
2.1 Concepts de base de la recherche d’information 13
2.1.1 Indexation 14
2.1.2 Modèle vectoriel 18

2.2 Analyse sémantique latente 20
2.2.1 Décomposition en valeurs singulières 21
2.2.2 Computation de quantité des comparaisons fondamentales 22
2.2.3 Illustration de la LSI 23
Chapitre 3 : Application de l’indexation sémantique latente à la
détection du plagiat 26
3.1 Prétraitement de textes 26
3.1.1 Segmentation en mots dans un document textuel en vietnamien 27
3.1.2 Indexation de paragraphes 31
3.2 Modèle de documents 33
2

3.2.1 Modèle pour les composants de la SVD 33
3.2.2 Modèle pour le vocabulaire 34
3.2.3 Problème de mise à jour du modèle 35
3.3 Mesures de similarité et de degré de copie 36
Chapitre 4 : Expérimentation 39
4.1 Conception des ensembles de test 39
4.2 Résultats de test 40
4.3 Discussion des résultats 41
Conclusions et suggestions 43
Références 45

3

Liste des figures
Figure 1.1 : Le document avec filigrane 9
Figure 1.2: Un serveur de détection de la copie textuelle. 10
Figure 2.1: Les vecteurs des documents et de la requête. 19
Figure 2.2: Les similarités cosinus entre les documents et le requête 20

Figure 2.3: Les vecteurs représentant les documents et la requête 23
Figure 2.4: La SVD de la matrice A 24
Figure 2.5: Les matrices composantes de la matrice A
2
24
Figure 2.6: La représentation de la requête q dans l’espace à 2 dimensions 25
Figure 3.1: Le processus de prétraitement de textes 27
Figure 3.2: La structure de base de données utilisée 31
Figure 3.3: L’exemple de la structure du fichier stockant la SVD 33
Figure 3.4: L’exemple de la structure du fichier stockant le vocabulaire. 34
Figure 3.5: La représentation mathématique du fait d’incorporer p paragraphes. 36
Figure 3.6: La représentation mathématique du fait d’incorporer t termes 36

4

Liste des tableaux
Tableau 2.1: Quelques approches connues pour évaluer le poids global 16
Tableau 2.2: Quelques approches populaires pour évaluer le poids local 17
Tableau 3.1: L’implémentation du tableau Documents. 31
Tableau 3.2: L’implémentation du tableau Paragraphs 32
Tableau 3.3: L’implémentation du tableau PostingList. 32
Tableau 3.4: Les valeurs de similarité données 37
Tableau 3.5: La longueur de T et ses paragraphes. 38
Tableau 4.1: Quatre ensembles de test. 40
Tableau 4.2: Les résultats de l’ensemble 1 – 100%. 40
Tableau 4.3: Les résultats de l’ensemble 1 – 80%. 41
Tableau 4.4: Les résultats de l’ensemble 1 – 50%. 41
Tableau 4.5: Les résultats de l’ensemble 1 – 00%. 41

5


Remerciements
Je tiens à exprimer ma reconnaissance et ma gratitude à monsieur Tran Cao
De, mon tuteur de thèse. Merci pour sa confiance, son aide et sa patience.
Je remercie les professeurs de faculté des Technologies de l'information et de
la communication qui non seulement m'ont guidé avec l'enthousiasme dans mes
études en informatique, mais aussi m'ont donné des conseils précieux. Grâce à leur
aide, je peux accomplir bien mon programme d'études en complétant cette thèse. Je
les souhaite de la santé et du succès dans la vie.
Mes remerciements vont également à mes colocataires de cité universitaire,
mes amis de ma classe qui m'ont accompagné au cours de mes années d'études à
l'Université de Cantho. J'ai une pensée pour vous et les années passées ensembles.
Je dédie cette thèse à ma famille, mes parents et mon petit frère.
6

Introduction
Avec le développement de l’Internet, une personne peut facilement trouver
des documents désirés, par exemple, via un moteur de recherche et fait des copies au
lieu d’écrire elle-même. Cela cause le problème du plagiat lorsque l’on recopie un
travail fait par quelqu’un d’autre sans en mentionner la source [plagiarism.org].
Malheureusement, ce phénomène est de plus en plus répandu dans notre société et
cause des problèmes sérieux à plusieurs domaines différents. Ainsi, la duplication
des documents dégrade l’efficacité du processus de recherche d’information. Au
point de vue de commerce électronique, celle des matériaux de copyright cause la
perte de revenus aux détenteurs de copyright. Pour l’éducation et la formation
universitaire, le plagiat dégrade l’esprit scientifique chez des étudiants et des
chercheurs, les habitue à violer le droit d’auteur, etc. Détecter efficacement le
contenu en double est important pour le succès à long terme de librairies digitales,
l’Internet et le média distribué numériquement en général. L’objectif de ce mémoire
de fin d’études est d’étudier les méthodes les plus répandues pour le problème de

détection du plagiat et de proposer une méthode qui est basée sur la mesure de la
similarité entre les documents textuels. La dernière est mesurée par la sémantique
latente entre deux documents.
Copier un texte à partir d’un peu de documents dans une librairie digitale est
très facile. Est-il facile de détecter un document copié d’autres dans une librairie
digitale ? Comment déterminer si un texte est copié ou collecté à certains autres
documents ou non ? Si l’on n’effectue pas de copie de façon exacte (mot par mot),
comment déterminer le degré de copie ? Ce sont les questions que nous essayons à
répondre au cours de notre recherche.
Cette thèse est composée de quatre chapitres. Les deux premiers abordent les
aspects théoriques de base et les deux derniers traitent la méthode proposée et les
expérimentations effectuées.
Le premier chapitre introduira des méthodes et des utiles informatiques pour
le problème de plagiat. Les mécanismes de détecter un document textuel qui est
copié d’une collection de documents sont aussi décrits. Cette collection peut être
issue d’une source fermée telle qu’une librairie digitale ou d’une source ouverte
librement comme les documents sur l’Internet.
7

Dan le second chapitre, nous introduirons les concepts de base de la
recherche d'information (RI) au travers de la description du processus de RI. Ce
processus consiste à déterminer la liste des documents qui sont pertinents pour la
requête utilisateur. Nous décrirons ici les étapes de l'indexation traditionnelle des
données textuelles, le modèle vectoriel qui est utilisé pour représenter les documents
et la requête. Enfin, nous présenterons la technique de l'indexation sémantique
latente (LSI) qui est un élément important de notre recherche.
Dans le troisième chapitre, nous décrirons pas à pas l'élaboration de
l'approche sémantique latente, en commençant par décrire la série de traitements que
subissent les documents, puis la façon d'appliquer le modèle vectoriel et la
technique LSI à la détection du plagiat. Enfin, nous présenterons la méthode de

déterminer la similarité entre les documents, et de mettre à jour le modèle vectoriel
préexistant.
Le quatrième chapitre est consacré aux expérimentations. Nous décrirons
notre façon d'évaluer l'approche proposée, présenterons les résultats obtenus et nous
discuterons sur ces résultats.
Enfin, nous conclurons et proposerons différentes pistes de recherche.
8

Chapitre 1 : Problème de détection du plagiat
Dans ce premier chapitre, nous présentons des méthodes courantes pour le
problème de plagiat, y compris des systèmes de détection du plagiat couramment
utilisés. Les caractéristiques de chaque méthode sont examinées. A partir de ces
analyses, nous allons proposer une autre approche avec l’intention de surmonter des
points faibles de ces méthodes et de détecter plus efficacement la copie textuelle.
1.1 Solutions actuelles
Les solutions destinées à résoudre le problème de plagiat sont étudiées depuis
longtemps. Il y a deux philosophies principales pour le traitement du problème: la
prévention et la détection [3]. La première rend difficile ou impossible l’utilisation
non autorisée de documents tant que la dernière rend facile la découverte de tel acte.
1.1.1 Prévention du plagiat
La prévention du plagiat inclut l’isolation physique des informations (ex., en
les plaçant sur un système autonome de CD-ROM), l’utilisation des matériels
spécialisés pour l’autorisation et les documents actifs, c’est-à-dire, les documents
encapsulés par un programme spécial. Toutefois, ces techniques sont évaluées d’être
embarrassantes (l’utilisation des matériels et logiciels spéciaux), restrictives (la
limitation d’accès aux documents) et de ne pas être toujours en sécurité (les
documents peuvent être recordés en utilisant un programme d’émulateur) [3, 12]. En
réalité, dans l’industrie logicielle, des mécanismes de protection peuvent faire
diminuer les ventes logicielles [3, 13].
1.1.2 Détection du plagiat

L’autre approche est d’utiliser des techniques de détection des copies
illégales. Dans cette approche, on assume que la plupart des utilisateurs sont
honnêtes, alors on les autorise à accéder aux documents. On concentrera seulement
sur la détection des personnes qui violent les règles. Les stratégies de détection
peuvent être classifiées en deux catégories : celle basée sur l’enregistrement et celle
basée sur la signature [12]. La première répond à la question: Est-ce qu’un
document est une copie illégale de certains documents dans une collection ? Et la
dernière répond à la question: Si le document est une copie illégale, qui est
l’initiateur de cette affaire ?
9


Figure 1.1 : Le document avec filigrane.
Avec la technique basée sur la signature, une signature unique (ex., le
filigrane, voir la figure 1.1) est ajoutée à un document quand il est assigné à un
utilisateur ou quand il est produit par l’auteur. Lorsqu’une copie illégale est trouvée,
cette signature peut être utilisée afin d’en découvrir la source et l’auteur de
document. Cependant, cette méthode rencontre un point faible majeur: les signatures
peuvent souvent être enlevées automatiquement et elles ne sont pas utiles pour
détecter des copies partiales [12, 4]. Pour ces raisons, les méthodes basées sur un
serveur d’enregistrement sont préférentielles. Dans ces méthodes, les utilisateurs
(tels que les auteurs, les éditeurs) enregistrent leurs documents digitaux au serveur.
Ces documents sont divisés en des unités primitives telles que des mots, des
phrases, des paragraphes, etc. qui sont stockées dans un entrepôt. Quand on vérifie
si un document est une copie ou non, on coupe le document en unités primitives de
même façon des documents enregistrés dans l’entrepôt. Les unités du document
vérifié sont ensuite comparées avec celles dans l’entrepôt pour la vérification du
plagiat. Si la similarité obtenue via cette comparaison est supérieure à un seuil
prédéfini, le document vérifié est considéré comme une reproduction des documents
enregistrés. Si non, le document n’en est pas compté comme une copie.

10


Figure 1.2: Un serveur de détection de la copie textuelle.
La figure 1.2 donne l’architecture générale d’un serveur de détection de la
copie textuelle avec un entrepôt de documents enregistrés. Des méthodes différentes
varient en fonction d’unité primitive utilisée et de façon de déterminer la similarité
entre les documents via la comparaison des unités. Deux systèmes connus utilisant
le serveur d’enregistrement sont COPS [3, 4] (Copy Protection System) et SCAM
[12, 13, 11, 4] (Stanford Copy Analysis Mechanism).
1.1.1.1 COPS
COPS utilise un tableau de hachage pour stocker l’ensemble des phrases
extraites à partir des documents enregistrés. Alors, une unité est une phrase au sens
normal. Afin de vérifier si un document est copié des autres, chaque phrase de ce
document est recherchée dans le tableau de hachage. Si le ratio entre le nombre de
phrases trouvées et celui de phrases du document est grand, le document est marqué
comme une copie. Une faiblesse de COPS est la collision dans le tableau de
hachage: plusieurs phrases peuvent avoir la même valeur de hachage. Un autre
problème de cette méthode est l’identification de phrase. Détecter et analyser une
phrase anglaise est un travail assez compliqué [3].
Flot de documents
Coupeur
Enregistrer

Comparer

Insérer
Documents
enregistrés
O N

11

1.1.1.2 SCAM
SCAM est basé sur les théories de la recherche d’information. Les documents
vérifiés et ceux enregistrés sont modelés dans un modèle vectoriel. Chaque
document est considéré comme un vecteur de termes dans un ensemble fermé de
termes (ou vocabulaire). La valeur de chaque élément est la fréquence de terme dans
le document. Par exemple, suppose que le vocabulaire est {a, b, c, d, e}, le
document D = {a d c a}. D est modelé comme un vecteur {1/2, 0, 1/4, 1/4, 0}. Dans
plusieurs cas examinés, SCAM est meilleur que COPS, mais il produit aussi plus de
fautes positives où des fautes positives sont des paires de documents qui sont
annoncées comme des cas possibles de plagiat, mais cela n’est pas correct (ex. deux
documents sont différents). La faiblesse de SCAM est que la mesure de la similarité
est mal définie. Quelquefois, il peut donner un résultat incorrect [4].
1.2 Proposition d’une méthode avec l’approche sémantique latente
Le problème de détection de la copie peut être formalisé comme suit:
Soit T est un document textuel, appelé document vérifié. C'est le document
utilisé pour la vérification du plagiat. Soit L est un ensemble de documents textuels,
appelé la source qui peut être considérée comme une librairie digitale fermée. Le
problème est de déterminer le degré de similarité entre T et un document dans L. Si
la similarité entre T et quelques documents dans L est grande (supérieure à un seuil
prédéfini), T est considéré comme une copie de L (un ou certains documents dans
L). Note qu'il n'est pas nécessaire d'exister un document D qui est similaire à T.
Autrement dit, T pourrait ne pas être une copie de façon mot par mot d’un seul
document D. T est susceptible d'être une collection de quelques documents dans L
avec un peu de modifications. Au cas où nous évaluons seulement la similarité entre
deux documents, nous pouvons détecter la copie d'un seul document, mais nous ne
pouvons pas vérifier si un texte est une collection d'autres.
En réalité, il est très difficile de vérifier et de détecter le plagiat à cause de ses
diversités. La difficulté réside non seulement dans l’algorithme de la détection mais

aussi dans le consensus sur le terme “plagiat”. Comment définissons-nous un
plagiat, et comment déterminons-nous le degré de copie ou plagiat ? Les méthodes
existantes fonctionnent efficacement au cas le plus simple de plagiat, c’est-à-dire, au
cas où l’on effectue une copie mot par mot. Cependant, elles ont des difficultés à
vérifier et détecter le plagiat dans lequel l’on a remplacé certains mots par ses
12

synonymes, restructuré quelques phrases, changé l’ordre de mots… En d’autres
termes, ce n’est pas une copie exacte, mais c’est une copie d’idée ou sémantique.
Nous proposons une solution destinée à détecter le plagiat au sens restreint.
Nous n’avons pas l’intention de définir le plagiat. La copie sémantique utilisée ici
signifie une copie avec un peu de modifications comme le replacement de
synonymes, la reconstruction de phrases (en changeant l’ordre de mots ou en
réécrivant une phrase composée au lieu de deux phrases simples). La méthode
proposée est basée sur l’indexation sémantique latente (LSI) [7, 9, 1, 2]. Un
document est modelé comme un ensemble de segments textuels, chaque segment est
modelé comme un vecteur, et ensuite, les similarités sémantiques entre deux
segments sont le cosinus de deux vecteurs correspondants. En d’autres termes, le
modèle vectoriel [1, 2, 5] est utilisé afin de modeler les documents et la LSI est
utilisée pour calculer les similarités sémantiques entre deux segments textuels. Nous
espérons que les caractéristiques de la LSI, qui faites émerger la structure
sémantique sous-jacente du modèle vectoriel de documents, vont bien nous aider à
détecter la copie sémantique.
Un corpus contenant 33 documents au format texte en UTF-8 en vietnamien
a été construit pour tester la solution proposée. Chaque document contient un ou
plusieurs articles à partir du site www.chungta.com et d’autres sites en fonction de
leur longue et de leur sujet. Afin d’éviter la duplication de contenus, nous
choisissons les sujets assez différents pour les documents. L’expérimentation sur ce
corpus montre que notre méthode fonctionne efficacement. Un document qui est
copié sémantiquement d’autres documents peut être identifié. Dans certains cas, la

précision obtenue est presque 100%.
13

Chapitre 2 : Recherche d’information
Notre recherche est basée sur la théorie de la recherche d’information (RI).
Ce chapitre a donc pour objectif de familiariser le lecteur d’une part avec le
vocabulaire de la RI et d’autre part avec des théories de base utilisées dans notre
travail.
Dans la première partie est décrit le processus de la RI, des différents
traitements pouvant être effectués sur les données textuelles, ainsi que le modèle
vectoriel utilisé pour représenter ces données.
Dans la deuxième partie nous présentons la technique de l’analyse
sémantique latente et son application dans le système de recherche d’information –
l’indexation sémantique latente destinée à améliorer le processus de la RI.
2.1 Concepts de base de la recherche d’information
La RI concerne les méthodes et mécanismes qui permettent la création et
l’utilisation d’une base d’information. Une base d’information est un système
documentaire permettant d’exploiter une collection de documents. La gestion
concerne principalement le stockage des documents, ainsi que leur recherche et leur
présentation en vue d’une utilisation (consultation par exemple).
Un système de recherche d’information (SRI) est un ensemble logiciel
permettant d’effectuer l’ensemble des tâches nécessaires à la RI. Un SRI possède
trois fonctions fondamentales qui définissent le modèle de recherche : représenter le
contenu des documents, représenter le besoin de l’utilisateur et comparer ces deux
représentations. La représentation des documents et de la requête dans le système se
fait à l’issue d’une phase appelée indexation qui consiste à choisir les termes
représentatifs des documents et à les ajouter à un index qui à chaque terme associe
le document dans lequel il se trouve avec éventuellement des informations
additionnelles comme la fréquence d’apparition du terme dans le document. Le
modèle doit mettre en correspondance les représentations des documents et la

représentation du besoin de l’utilisateur exprimé sous la forme d’une requête afin de
retourner à celui-ci les documents en rapport avec sa requête. Généralement, cela se
fait à l’aide d’un calcul de similarité. L’opération de comparaison des
représentations est fondamentale en RI. Elle constitue le cœur du modèle de
recherche. Les modèles de recherche s’appuient sur des théories mathématiques qui
14

offrent des opérations pour comparer les représentations des documents de la
collection et la représentation de la requête de l’utilisateur. Généralement, le calcul
de similarité qui est effectué exploite les termes communs aux documents comparés
pour évaluer leur ressemblance. Par exemple, dans le modèle vectoriel les
documents et la requête sont représentés comme des vecteurs dans l’espace des
termes indexés, le SRI retourne les documents qui sont “à proximité” de la requête
dans cet espace.
2.1.1 Indexation
Dans un SRI, dont l’objectif final est de retourner une liste de documents
pertinents par rapport à une requête utilisateur, il est nécessaire de pouvoir
rechercher les documents de la collection dont le contenu ressemble ou correspond
au contenu de la requête. Afin de réduire la complexité des documents et les rendre
plus facile à manipuler, le document doit être transformé. La recherche implique une
méthode de tri et la comparaison de contenu implique une analyse à défaut de
pouvoir directement comparer les concepts véhiculés dans le document à ceux
présents dans la requête. Les mots sont les unités linguistiques porteuses de sens les
plus souvent utilisées dans les systèmes actuels pour représenter ces concepts.
Indexer un document c’est élire ses termes représentatifs afin de générer la
liste des termes d’indexation et ajouter à l’index de la collection, pour chacun de ces
termes, la liste des références de chaque document le contenant. Ces références
donnent un moyen de retrouver de façon non ambiguë des documents ou un
document ou une partie de document où le terme apparaît. L’indexation des
documents est une étape primordiale car elle détermine de quelle manière les

connaissances contenues dans les documents fournis sont représentées. Elle a lieu à
chaque ajout d’un document dans l’ensemble des documents étudiés.
L’indexation automatique implique une analyse automatique du contenu de
chaque document de la collection. Cette analyse comprend plusieurs étapes, le but
étant d’extraire les termes représentatifs du contenu et d’évaluer leur pourvoir de
représentation du contenu ainsi que leur pouvoir de caractérisation du document
dans lequel ils apparaissent. Voici la suite des opérations traditionnellement
effectuées sur les données textuelle lors de l’indexation :


15

2.1.1.1 Analyse lexicale
L’analyse lexicale est l’étape qui permet de transformer un document textuel
en un ensemble de termes. Pendant cette phrase, la ponctuation, la casse, et la mise
en page sont supprimées. Pour le vietnamien, cette étape est plus difficile à achever
que d’autres langues comme l’anglais ou le français à cause de la frontière obscure
des mots. Un mot vietnamien est constitué par un ou plusieurs unités linguistiques
appelées syllabes, séparées par des espaces vides lors de l’écriture, par exemple,
“may vi tinh” (ordinateur), “cong nhan” (employée). Cela rend difficile le fait de
déterminer les mots du vietnamien.
Dans notre recherche, nous utilisons le système de MMSEG [15] (Maximum
Matching Segmentation) adapté à la segmentation du vietnamien pour extraire des
termes à partir des documents textuels dans la collection.
2.1.1.2 Sélection de termes
Afin de ne garder que les termes importants, plusieurs techniques peuvent
être mise en œuvre. Parmi celles-ci, l’on utilise souvent un anti-dictionnaire qui
permet de ne pas conserver les mots moins importants, c'est-à-dire ne reflétant pas le
contenu informationnel des documents. C’est une liste de mots qui contient
généralement les articles, pronoms, prépositions, les mots outils, ainsi que les mots

athématiques, c'est-à-dire présents dans le document pour l’introduire ou le
présenter mais n’ayant pas de réel rapport avec le sujet traité.
Le traitement lié à un anti-dictionnaire est très simple. Quand un mot est
rencontré dans un texte à indexer, s’il apparaît dans l’anti-dictionnaire, il n’est pas
considéré comme un index.
2.1.1.3 Utilisation de radicaux
Dans plusieurs langues, un mot peut avoir des variantes morphologiques, qui
ont la plupart du temps un sens très proche. Par exemple, il peut être utile de trouver
des documents contenant les mots “transmission”, “transmettrons”, “transmetteur”,
“transmet”, “transmis”, à partir d’une requête comportant le mot “transmettre”. Il
est donc nécessaire de représenter plusieurs variantes d’un mot sous une forme
unique appelée racine ou radical (ex. “transm”) en utilisant des algorithmes de
radicalisation. L’utilisation de radicaux non seulement réduit le besoin de stockage
en diminuant le nombre de termes d’indexation maintenus, mais aussi rend plus
efficace la recherche d’information.
16

2.1.1.4 Pondération de termes
La pondération d’un terme d’indexation est l’association de valeurs
numériques appelées poids à ce terme de manière à représenter son pouvoir de
discrimination pour chaque document de la collection. Cette caractérisation est liée
au pouvoir informatif du terme pour le document donné. Ainsi, un terme qui
apparaît dans tous les documents n’est pas discriminant, c'est-à-dire qu’il ne permet
pas de distinguer un document des autres documents. Un poids faible sera affecté à
ce terme.
Nom Formule
NOR (Normal)
å
j
ij

tf
2
1

GFIDF
(Global Frequency-Inverse
Document Frequency)
i
i
df
gf

IDF
(Inverse Document Frequency)
÷
÷
ø
ö
ç
ç
è
æ
i
df
ndocs
2
log

ENTRO (Entropy)
(

)
( )
å
-
j
ijij
ndocs
pp
log
log
1


i
ij
ij
gf
tf
p =

Pas de poids global 1
ij
tf
: la fréquence du terme i dans le document j.
i
gf
: le nombre total d’occurrences du terme i dans le corpus.
i
df
: le nombre de documents dans lesquels le terme i apparaît.

ndocs : le nombre de documents dans le corpus.
Tableau 2.1: Quelques approches connues pour évaluer le poids global.
La pondération d’un terme i dans un document j dépend généralement de
deux facteurs : l’importance du terme dans le document (pondération locale L
ij
) et
celle du terme dans la collection (pondération globale Gi). Il existe plusieurs
possibilités pour calculer chacune de ces pondérations. Les tableaux 2.1 et 2.2
donnent des approches connues afin d’évaluer la pondération locale et la
17

pondération globale. Des autres fonctions et des discussions approfondies peuvent
être trouvées dans [6, 10]. Le poids du terme i dans le document j s’écrit sous la
forme:
Poids
i
(j) = L
ij
x G
i
(2.1)
Nom Formule
TF (Term Frequency)
ij
tf

BIN (Binary)
1 si
ij
tf

> 0
0 si
ij
tf
= 0

LOG (Logarithm)
)1log(
+
ij
tf

ij
tf
: la fréquence du terme i dans le document j.

Tableau 2.2: Quelques approches populaires pour évaluer le poids local.
2.1.1.5 Illustration des étapes d’indexation
- Document original:
The present study is a history of the DEWEY Decimal Classification. The first edition of the DDC
was published in 1876, the eighteenth edition in 1971, and future editions will continue to appear
as needed.
- Après analyse lexicale:
the present study is a history of the dewey decimal classification the first edition of the ddc was
published in 1876 the eighteenth edition in 1971 and future editions will continue to appear as
needed
- Après suppression des mots moins importants:
present study history dewey decimal classification edition ddc published 1876 eighteenth edition
1971 future editions continue needed
- Après radicalisation:

present studi histori dewey decim classif edit ddc publish 1876 eighteenth edit 1971 futur edit
continu need
Le résultat d’une indexation donne un ensemble de termes et leurs
pondérations pour chaque document comme suit:
} },{ {
ijij
atd ®

avec t
i
le terme d’indice i dans le vocabulaire et a
ij
son poids dans le document d
j
.
18

L’entrée de l’index correspondant au document au-dessus avec la
pondération TF est:
d1
®
{{edit, 3}; (dewey, 1}; {decim, 1}; {classif, 1}; {present, 1}; {studi, 1};
{histori, 1}; {publish, 1}; {ddc, 1}; {eighteenth, 1}; {futur, 1}; {continu, 1}; {need,
1}}.
2.1.2 Modèle vectoriel
L’indexation choisit les termes pour représenter le contenu d’un document ou
d’une requête, le modèle permet de donner une interprétation des termes choisis
pour représenter le contenu d’un document. Etant donné un ensemble de termes
pondérés issus de l’indexation, le modèle remplit deux fonctions. La première est de
créer une représentation interne pour un document ou pour une requête basée sur ces

termes. La deuxième est de définir une méthode de comparaison entre une
représentation de document et une représentation de requête afin de déterminer leur
degré de correspondance (ou similarité).
Le modèle vectoriel est un modèle algébrique où l’on représente les
documents et les requêtes par des vecteurs dans un espace multidimensionnel dont
les dimensions sont les termes issus de l’indexation. La comparaison de la requête
au document est effectuée en comparant leurs vecteurs respectifs. On ramène ainsi
une proximité sémantique à une mesure de distance géométrique.
Soit R l’espace vectoriel défini par l’ensemble des termes: <t1, t2,…, tn>
Un document d et une requête q peuvent être représentés par des vecteurs de
poids comme suit:
d
®
<w
d1
, w
d2
,…, w
dn
>
q
®
<w
q1
, w
q2
,…, w
qn
>
w

di
et w
qi
correspondent aux poids du terme t
i
dans le document d
i
et dans la requête
q et n correspond au nombre de termes de l’espace.
Etant donnés ces deux vecteurs, leur degré de correspondance est déterminé
par leur similarité. Plus d’approches peuvent être utilisées pour déterminer la
similarité en fonction de l’application. Une mesure très utilisée est la similarité
cosinus, qui consiste à quantifier la similarité entre le document et la requête en
calculant le cosinus entre leurs vecteurs:
19

å å
å
=
i i
qidi
i
qidi
ww
ww
qdSim
22
*
*
),( (2.2)

Les documents ayant les plus hauts degrés de correspondance sont retournés
en réponse à la requête.
Voici un exemple illustrant l’approche vectorielle [17] qui permet de ramener
un problème complexe de comparaison de documents à un problème de
comparaison de mesures de similarité ou de distances.
Suppose qu’une collection contenant cinq documents suivants est
questionnée par la requête utilisateur latent semantic indexing (q):
d1 = LSI tutorials and fast tracks.
d2 = Books on semantic analysis.
d3 = Learning latent semantic indexing.
d4 = Advances in structures and advances in indexing.
d5 = Analysis of latent structures.
La figure ci-dessous montre des vecteurs représentant les documents et la
requête après l’indexation sans radicalisation, la pondération TF-IDF pour les
documents et la pondération TF pour la requête:

Figure 2.1: Les vecteurs des documents et de la requête.
Afin de trouver des documents correspondant à la requête, l’on calcule le
cosinus entre le vecteur représentant la requête et celui de chaque document via la
formule (2.2):

20


Figure 2.2: Les similarités cosinus entre les documents et le requête.
L’ordre des documents correspondant à la requête selon les résultats au
dessus est: d3 > d5 > d2 > d4 > d1. Si l’on choisit le seuil 0.5 pour déterminer quels
documents retournés à la requête, seulement le document d3 y est retourné.
2.2 Analyse sémantique latente
L’analyse sémantique latente (LSA : Latent semantic analysis), ou

l’indexation sémantique latente (LSI : Latent semantic indexing) dans le contexte de
la RI, est un procédé de traitement des langues naturelles, qui s’appuie sur une
représentation multidimensionnelle de la signification sous-jacente des termes et des
documents dans le corpus. Grâce à une analyse statistique, le sens de chaque terme
est caractérisé par un vecteur dans un espace à grande dimension, avec la propriété
que la proximité entre deux vecteurs (leur cosinus) correspond à la proximité de
sens des termes qu’ils représentent. L’expérimentation montre que l’application de
la LSI traite efficacement deux défauts fondamentaux de la RI courante: le problème
de synonyme, un concept donné pouvant être décrite par plusieurs termes différents,
et celui de polysémie, un terme ayant plusieurs significations distinctes [7].
Pour la LSI, deux termes peuvent être considérés sémantiquement proches
s’ils sont utilisés dans des contextes similaires. Le contexte d’un terme est ici défini
comme l’ensemble des termes qui apparaissent conjointement à lui dans un texte.
Ainsi, les mots “vélo” et “bicyclette” sont considérés comme sémantiquement
proches puisqu’ils apparaissent tous les deux avec des mots tels que “guidon”,
“pédaler”, etc. et ils n’apparaissent que rarement avec des mots comme
“ordinateur”, “bouilloire”, etc. Cette notion de cooccurrence est statistique : la
méthode fonctionne si un nombre suffisant de textes est utilisé. Mais il ne s’agit pas
simplement de comptage, il faut aussi disposer d’une procédure pour établir les
liaisons sémantiques. Cette procédure repose en effet sur la décomposition en
valeurs singulières (SVD : Singular value decomposition) de la matrice.
La LSA se fait en deux étapes. Dans un premier temps, le modèle vectoriel
est construit pour représenter le corpus. Il s’agit d’une matrice dont les lignes
représentent les termes et les colonnes représentent les documents. L’élément (i, j)
de la matrice correspond ainsi à la pondération appliquée du terme i dans le
21

document j. L’étape suivante consiste à décomposer la matrice en trois autres
matrices à forme très spéciale via la SVD. Ces matrices reflètent une analyse
statistique transformant des relations originales en des components linéairement

indépendants ou facteurs. Beaucoup de ces components sont très petits, et peuvent
être ignorés. Cela conduit à un modèle approximatif ayant moindre de dimensions
que le précédent. Dans ce modèle réduit, toutes les similarités terme-terme,
document-document et terme-document sont maintenant estimées via des valeurs
dans ce moindre nombre de dimensions. Dans le contexte de la RI, la SVD peut être
considérée comme une technique dérivant de la matrice terme-document un
ensemble de variables index non corrélatifs ou facteurs. Chaque terme et document
sont ensuite représentés par leur vecteur de facteurs.
2.2.1 Décomposition en valeurs singulières
Soit A une matrice m x n, la décomposition en valeurs singulières de A est
définie comme suit :
T
USVA =
(2.3)
où U est la matrice orthogonale m x m dont les colonnes sont les vecteurs singuliers
de gauche de A, S est la matrice diagonale m x n dans laquelle les valeurs
singulières
),min(2

nmi
sss
³³³ de A est ordonnées sur sa diagonale et V est la
matrice orthogonale n x n dont les colonnes sont les vecteurs singuliers de droite de
A. La SVD est unique et existe toujours pour n’importe quelle matrice rectangulaire
A [1, 7].
Le rang de A est le nombre de valeurs non nulles de la matrice S. Suppose
que rArang
=
)( , la norme de Frobenius de A est définie comme suit:
å

=
=
r
i
i
F
A
1
2
s
(2.4)
Il est intéressant de pouvoir transformer une matrice A en une matrice A
k
ayant un rang donné, égal à k (
(
)
Arangrk =£ ), pour le besoin d’une application. La
résolution de ce problème, lorsqu’il s’agit de minimiser la distance au sens de
Frobenius entre A et A
k
, est la SVD de A :
T
kkkk
VSUA =
(2.5)

×