Tải bản đầy đủ (.pdf) (82 trang)

Application des méthodes dintelligence artificielle à lanalyse des données concernant les canalisations de gaz

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.8 MB, 82 trang )

Institut de la francophonie
pour l’informatique

Rapport de stage de fin d’études

Application des méthodes d'intelligence
artificielle à l'analyse des données

concernant les canalisations de gaz
CHU Thanh-Quang

Lieu du stage:

Gaz de France, Direction de la Recherche, 361 Av. du
Pdt Wilson - BP. 33 93211 La Plaine Saint Denis Cedex

Période du stage: du 01/03/2006 au 31/08/2006
Tutrice de stage: Marketa PICHLOVA


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation

REMERCIEMENTS
Je tiens tout d’abord à remercier monsieur Yves MELQUIOND, chef du pôle
Statistiques et Intelligence Artificielle à la Direction de la Recherche de Gaz de
France, pour m’avoir permis d’effectuer mon stage ici.
Je voudrais exprimer mes reconnaissances à Marketa PICHLOVA, mon maître
de stage, qui a dirigé mon travail de recherche et qui m'a donné de bons conseils
et des aides précieuses tout au long de mon stage de fin d’études.
Je souhaite également remercier chaleureusement toute l’équipe du projet
RPCI&IA: Emmanuel CHATEAU, chef de projet, Michel MEYER, expert


corrosion et Mures ZAREA. Leur cordialité et leur écoute m’ont permis de
m’intégrer rapidement, et de travailler dans une ambiance agréable.
Je tiens également à exprimer toute ma sympathie à l’ensemble des collègues
du pôle, pour leur accueil et leur attitude ouverte vis-à-vis des stagiaires, que
l’ensemble du personnel de l’entreprise soit aussi remercié, pour permettre de
faire perdurer cette politique d’ouverture enrichissante.
J’adresse mes reconnaissances aux professeurs de l’Institut de la
Francophonie pour l’Informatique, pour m’avoir aidé à effectuer ce stage à Gaz
de France.
Paris, juillet - 2006
Chu Thanh Quang

CHU Thanh-Quang

Page 2 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation

Résumé
Etudiant en deuxième année à l'Institut de la Francophonie pour l'Informatique au

Vietnam, je prépare le diplôme de master en informatique. J’ai fait mon stage de fin
d’études chez Gaz de France – Direction de la Recherche dans le Pôle Statistiques et

Intelligence artificielle. J’ai travaillé pendant 6 mois sur le sujet « Application des méthodes

d'intelligence artificielle à l'analyse des données concernant les canalisations de gaz ».

L’objectif du stage est de l’explorer des informations intéressantes concernant le

problème de corrosion des canalisations de gaz. Il s’agit d’utiliser différentes méthodes

d’Intelligence Artificielle pour analyser une base de données des défauts de revêtements sur
les tubes transportant du gaz.

Il y a deux parties dans mon travail. La première partie, consistait à étudier la présence

de la corrosion sur les défauts de revêtement en utilisant des méthodes qui peuvent faire la

prédiction de la corrosion telles que les réseaux de neurones, les arbres de décision, les
machines à vecteur support, k-plus proches voisins, etc. Ces méthodes non-explicatives ne

sont pas capables d’expliquer les causes de la corrosion. Et dans la deuxième partie, j’ai

utilisé la méthode de réseaux bayésiens pour expliquer les causes de la corrosion sur les
canalisations en analysant les relations découvertes entre les variables de la base de
données.

Abstract
In my second year at the Information Technology Institute of the Francophone in

Vietnam, I’ve prepared the master program on IT. I have an internship at Gaz de France -

Research Direction, in the Pole Statistics and artificial Intelligence. I’ve been working for 6
months on the subject “Applying the artificial intelligence method on the data analysis of
the gas pipelines”. The internship objective is to indicate some interesting information

concerning the corrosion problem on the gas pipelines. It is a question of using various

Artificial Intelligence methods to analyze a database of the coatings defects on the tubes

transporting of gas.
There are two parts in my work. The first part, I studied the presence of corrosion on the

coatings defects by using the methods, which can predict corrosion problem such as Neural
Network, Decision Tree, Support Vector Machine, and K-Nearest Neighbors etc. However,

these methods cannot be good explanations for the corrosion problem. Therefore, in the
second part, I use the Bayesian Network method to explain the causes of corrosion on the
tubes by analyzing the found relationship among the variables of data.

CHU Thanh-Quang

Page 3 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation

TABLE DES MATIERES
1. PRESENTATION DE L’ENTREPRISE .............................................................. 7
1.1. Présentation de Gaz de France............................................................................... 7

1.1.1.
Organisation ..................................................................................................................... 7
1.1.2.
Ambition........................................................................................................................... 7
1.1.3.
Activités............................................................................................................................ 7
1.1.3.1.
Acheter ..................................................................................................................... 7
1.1.3.2.

Vendre ...................................................................................................................... 7
1.1.3.3.
Produire .................................................................................................................... 7
1.1.3.4.
Etre leader du GNL en Europe ................................................................................. 7
1.1.3.5.
Gérer des infrastructures .......................................................................................... 8
1.1.4.
Recherche et Développement........................................................................................... 8
1.2. Présentation de la Direction de la Recherche ......................................................... 8

1.2.1.
Organisation ..................................................................................................................... 8
1.2.1.1.
Entités support.......................................................................................................... 8
1.2.1.2.
Matrice Recherche et Développement ..................................................................... 9
1.2.2.
Chiffres-clés ..................................................................................................................... 9
1.2.3.
Accueil des stagiaires ..................................................................................................... 10

2. CONTEXTE DU STAGE............................................................................. 11
2.1. Généralités.......................................................................................................... 11

2.1.1.
Corrosion électrochimique ............................................................................................. 11
2.1.2.
Canalisations de transport de gaz et leur protection contre la corrosion........................ 11
2.1.2.1.

Protection par revêtement externe.......................................................................... 11
2.1.2.2.
Protection cathodique ............................................................................................. 12
2.1.3.
Méthodes de détection de la corrosion ........................................................................... 12
2.1.3.1.
Piston instrumenté – inspection de la corrosion par voie interne........................... 12
2.1.3.2.
Excavation – inspection directe de la corrosion externe ........................................ 12
2.1.3.3.
Mesures de surface ................................................................................................. 12
2.1.4.
Fiche de constat sur Fouille............................................................................................ 12
2.2. Projet PRCI&IA ..................................................................................................... 13
2.3. Base de données REX (Retour d’Expérience)......................................................... 13
2.4. Objectifs du stage et déroulement des travaux .................................................... 14
2.5. Logiciels utilisés.................................................................................................. 14

2.5.1.
2.5.2.

Statistica ......................................................................................................................... 14
BayesiaLab ..................................................................................................................... 14

3. ETUDES DES METHODES D’INTELLIGENCE ARTIFICIELLE ........................... 15
3.1. Réseaux de neurones .......................................................................................... 15

3.1.1.
3.1.2.
3.1.3.


Introduction .................................................................................................................... 15
Perceptron multicouche.................................................................................................. 16
Réseaux de fonction à base radiale................................................................................. 16

3.2. Arbre de décision ................................................................................................ 17

3.2.1.
3.2.2.

Introduction .................................................................................................................... 17
Exemple.......................................................................................................................... 18

CHU Thanh-Quang

Page 4 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
3.3. Machine à vecteurs supports ............................................................................... 19

3.3.1.
3.3.2.

Introduction .................................................................................................................... 19
Notes techniques............................................................................................................. 20

3.4. K-plus proches voisins ........................................................................................ 20

3.4.1.

3.4.2.

Classification .................................................................................................................. 20
Régression ...................................................................................................................... 20

3.5. Classifieurs Naïfs bayésiens................................................................................. 21

3.5.1.
3.5.2.

Introduction .................................................................................................................... 21
Exemple.......................................................................................................................... 21

3.6. Réseaux bayésiens .............................................................................................. 23

3.6.1.
3.6.2.
3.6.3.

Introduction .................................................................................................................... 23
Exemple très simple dans la modélisation des risques................................................... 23
Construction et utilisation des réseaux bayésiens .......................................................... 24

3.7. Comparaison des méthodes d’intelligence artificielle .......................................... 25

4. TRAVAIL EFFECTUE................................................................................. 26
4.1. Définition du problème d’analyse de données de canalisation ............................ 26

4.1.1.
Définir le problème de détection de la corrosion ........................................................... 26

4.1.1.1.
Essayer la prédiction de l’atteinte au métal............................................................ 26
4.1.1.2.
Essayer la prédiction de la corrosion...................................................................... 27
4.1.2.
Réduire le nombre de variables à analyser..................................................................... 27
4.2. Pré-traitement de données.................................................................................. 28

4.2.1.
Objectifs ......................................................................................................................... 28
4.2.2.
Problèmes liés aux données............................................................................................ 28
4.2.2.1.
Taille de données.................................................................................................... 28
4.2.2.2.
Valeurs manquantes ............................................................................................... 28
4.2.2.3.
Incohérence de données.......................................................................................... 28
4.2.2.4.
Déséquilibre de données......................................................................................... 29
4.2.3.
Solutions......................................................................................................................... 29
4.2.3.1.
Gestion des valeurs manquantes............................................................................. 29
4.2.3.2.
Rectification des données incohérentes.................................................................. 29
4.2.3.3.
Réplication des corrosions...................................................................................... 29
4.3. Analyse des données par les méthodes de classification...................................... 30


4.3.1.
Construction des modèles d’analyse de données ........................................................... 30
4.3.1.1.
Echantillonnage de données avec différentes tailles de données ........................... 30
4.3.1.2.
Apprentissage des modèles de classification.......................................................... 31
4.3.1.3.
Choix des critères de comparaison entre les méthodes .......................................... 31
4.3.2.
Analyse des résultats ...................................................................................................... 32
4.3.2.1.
Influence de la taille d’échantillon sur le taux de classification............................. 32
4.3.2.2.
Taux de classification de l’ensemble de test et de l’ensemble global .................... 33
4.3.2.3.
Taux de classification des classes corrosion et non-corrosion ............................... 34
4.4. Analyse des données par Réseaux bayésiens ....................................................... 35

4.4.1.
Discrétisation des variables continues............................................................................ 36
4.4.1.1.
Discrétisation « égales distances » ......................................................................... 36
4.4.1.2.
Discrétisation « égales fréquences » ...................................................................... 36
4.4.1.3.
Discrétisation manuelle .......................................................................................... 37
4.4.1.4.
Rectification de discrétisation ................................................................................ 38
4.4.2.
Apprentissage sans échantillonnage et comparaison des réseaux différents.................. 39

CHU Thanh-Quang

Page 5 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
4.4.3.
Analyse des résultats ...................................................................................................... 40
4.4.3.1.
Analyse des relations découvertes.......................................................................... 40
4.4.3.2.
Analyse des causes de la corrosion ........................................................................ 41
4.4.3.3.
Analyse des évidences et des contradictions dans les observations....................... 44
4.4.3.4.
Exécution des requêtes sur réseaux bayésiens ....................................................... 45
4.4.3.5.
Echantillonnage de données, calcul de la performance des réseaux bayésiens...... 47
4.4.4.
Conclusion sur les réseaux bayésiens............................................................................. 50

5. PERSPECTIVES POUR LA POURSUITE DES RECHERCHES ............................. 51
5.1. Amélioration des données d’entrées.................................................................... 51
5.2. Intégration des connaissances de l’expert dans le processus d’apprentissage du
réseau bayésien .................................................................................................. 51
5.3. Simulation temporelle de la corrosion ................................................................. 51

6. BILAN DU STAGE .................................................................................... 52
7. GLOSSAIRE ............................................................................................. 53
8. LISTE DES TABLEAUX .............................................................................. 54

9. LISTE DES FIGURES ................................................................................. 55
10. BIBLIOGRAPHIE....................................................................................... 56
11. ANNEXE ................................................................................................. 57
11.1. Description de la base de Rex ............................................................................. 57
11.2. Incohérences de données dans la base de Rex..................................................... 62
11.3. Règles d’intégrité de la base de Rex .................................................................... 62
11.4. Sélection des variables pour le problème de classification ................................... 64
11.5. Rapport d’analyse des relations des variables ...................................................... 65

11.5.1.
11.5.2.
11.5.3.
11.5.4.

Discrétisation égales distances ....................................................................................... 65
Discrétisation égales fréquences .................................................................................... 66
Discrétisation manuelle .................................................................................................. 67
Discrétisation manuelle rectifiée .................................................................................... 68

11.6. Rapport d’analyse de la variable Corrosion .......................................................... 70

11.6.1.
11.6.2.
11.6.3.
11.6.4.

Discrétisation égales distances ....................................................................................... 70
Discrétisation égales fréquences .................................................................................... 73
Discrétisation manuelle .................................................................................................. 76
Discrétisation manuelle rectifiée .................................................................................... 80


CHU Thanh-Quang

Page 6 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation

1.

PRESENTATION DE L’ENTREPRISE

1.1. Présentation de Gaz de France
Gaz de France est un acteur majeur de l'énergie en Europe. Le Groupe produit, transporte,

distribue et commercialise du gaz, de l'électricité et des services auprès de 13,8 millions de clients
(particuliers, entreprises, collectivités).

1.1.1. Organisation
Le management de Gaz de France repose sur un Comité exécutif et 4 Branches opérationnelles.

Quatre fonctions de pilotage sont également rattachées au Président Directeur Général: stratégie,
communication, audit et risques et délégation aux cadres dirigeants Groupe.

L'organisation opérationnelle du Groupe s'articule aujourd'hui autour d'un Comité exécutif,

organe de pilotage du groupe Gaz de France et de 4 Branches opérationnelles: Approvisionnements
et Production, Infrastructures, Clientèles, International.

1.1.2. Ambition

Gaz de France a pour ambition de fournir de l'énergie et des services à ses clients au meilleur

prix, de s'imposer comme un gestionnaire d'infrastructures de référence en Europe, d’être un acteur

engagé du développement durable et de créer de la valeur pour ses actionnaires.

1.1.3. Activités
Le Groupe produit, transporte, distribue et vend du gaz, de l'électricité et des services auprès de

13,8 millions de clients (particuliers, entreprises, collectivités locales) en Europe. Il intervient sur

l'ensemble de la chaîne gazière.
1.1.3.1. Acheter

Gaz de France est le 4ème acheteur mondial de gaz naturel et dispose du portefeuille

d'approvisionnement le plus diversifié en Europe. C'est pourquoi Gaz de France peut garantir à ses
clients la fourniture d'une énergie compétitive.
1.1.3.2. Vendre
Gaz de France vend à ses clients du gaz, de l'électricité et des services en France et en Europe.

Le Groupe est le 3ème opérateur de services énergétiques en France et le 2ème en Italie.
1.1.3.3. Produire

Etre producteur est le fruit d'une politique volontariste de diversification du portefeuille

d'approvisionnements du Groupe. Depuis 2005, Gaz de France produit également de l'électricité.
1.1.3.4. Etre leader du GNL en Europe

Gaz de France est le 2ème acteur du gaz naturel liquéfié (GNL), le 2ème opérateur de réception


de GNL en Europe et le 5ème importateur mondial. En 2005, le GNL a représenté 26 % des
approvisionnements de long terme de Gaz de France.

CHU Thanh-Quang

Page 7 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
1.1.3.5. Gérer des infrastructures
Gaz de France investit significativement sur son réseau en France et renforce ses positions en

Europe, pour s'imposer comme un gestionnaire d'infrastructures de référence.

1.1.4. Recherche et Développement
La Direction de la recherche de Gaz de France joue un rôle décisif car elle prépare l'avenir du
Groupe en anticipant les évolutions et en contribuant à construire des avantages concurrentiels.
Les 4 priorités de la Direction de la recherche de Gaz de France sont la sécurité, la performance

économique (tant pour Gaz de France que pour ses clients), la construction d'avantages

concurrentiels pour les activités commerciales du Groupe et la préparation de l'avenir énergétique
dans une perspective de développement durable.

1.2. Présentation de la Direction de la Recherche
La Direction de la Recherche est le Centre de recherche de Gaz de France, modèle choisi d'une

R&D intégrée au Groupe, dont la finalité est d'apporter son expertise sur tous les métiers du domaine
gazier et de l'énergie, de façon à favoriser le développement du Groupe comme la DR le fait depuis

l'origine de Gaz de France.

Le centre de recherche est réparti sur 2 sites, tous les 2 dédiés à la recherche appliquée : l'un

situé à Saint Denis et l'autre à Alfortville (France).

Des programmes de recherche fondamentale sont également menés en partenariat avec des

organismes comme le CNRS, des grandes écoles et des universités, des fondations ou des pôles de
compétitivité.

Gaz de France joue également un rôle majeur dans la recherche énergétique européenne et

figure parmi les leaders mondiaux de la recherche gazière.

La Direction de la recherche de Gaz de France a environ de 590 collaborateurs et effectue 40 %

des recrutements ingénieurs chez Gaz de France

1.2.1. Organisation
La Direction de la Recherche est organisée selon une structure matricielle constituée d'un axe

«programme de recherche» et d'un axe «compétences».

Les 7 programmes de recherche couvrent l'ensemble de la chaîne gazière :
Gaz Naturel Liquéfié (GNL), Transport, Distribution, Clients Industriels, Clients Résidentiels et

Tertiaires, Nouveaux Marchés, Etudes Economiques et Générales.

Ils incluent les 80 projets de recherche définis par le Contrat de Recherche triennal.

1.2.1.1. Entités support
Le Département DCG (Contrôle de Gestion), les Missions MICIV (Connaissance Information

Veille), MiRIC (Mission Relations Institutionnelles et Communication), MQHSE (Qualité Sécurité
Environnement et Normalisation), la Mission Valorisation et le pôle RH apportent leur support aux
départements.

CHU Thanh-Quang

Page 8 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
1.2.1.2. Matrice Recherche et Développement
Les compétences nécessaires à la mise en oeuvre de ces projets sont regroupés dans 3

départements, le département réseaux (DRX), le département utilisations (DU) et le département
économie et traitement de l'information (DETI), constitués de 17 pôles de compétence.

Le fonctionnement de la matrice peut être illustré par le projet PRCI auquel j’ai contribué. Ce

projet s’inscrit dans le cadre du programme Transport. La majorité des personnes qui y participent,
font partie du Pôle Techniques de Transport au sein du Département Réseaux, qui rassemble les

compétences dans le domaine des canalisations et de la corrosion, mais ma responsable de stage

appartient au Pôle Statistiques Intelligence Artificielle du département Economie et Traitement de

l’Information regroupant les personnes avec les compétences en analyse de données, apprentissage
automatique etc.


Figure 1: Organisation matricielle de la Direction de Recherche

1.2.2. Chiffres-clés
- 600 personnes dont 510 chercheurs et techniciens
- 9 thésards sur le site, une dizaine d'autres en laboratoires sous contrat avec le Centre de
Recherche

- 100 stagiaires des grandes écoles d'ingénieurs et des universités (DESS, DEA, doctorat)
- 123 partenariats industriels
- 97 contrats de recherche
- 11 contrats-cadre de travail commun avec des institutionnels (Ademe, CNRS...)
- 15 projets européens en cours financés par l'Europe dans le cadre du Programme Cadre de
Recherche et Développement (PCRD)

- 200 brevets en vigueur en France, 1 600 à l'étranger

CHU Thanh-Quang

Page 9 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
1.2.3. Accueil des stagiaires
La Direction de la Recherche de Gaz de France accueille régulièrement de nombreux stagiaires.

L’habitude de travailler avec des stagiaires rend leur accueil chaleureux et facilite leur intégration au
sein de leur équipe de travail. Les stagiaires ont de nombreux avantages au sein de cette entreprise,
comme le temps de travail de 35 heures par semaine, le restaurant du site à prix correct, la
possibilité d’accéder à la bibliothèque, à la vidéothèque etc…


CHU Thanh-Quang

Page 10 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation

2.

CONTEXTE DU STAGE

2.1. Généralités
2.1.1. Corrosion électrochimique
La corrosion est un phénomène naturel ayant un impact financier dans de nombreux secteurs

industriels partout dans le monde. En effet, une étude récente a montré qu’aux Etats-Unis, les

dépenses liées à la corrosion, que ce soit en investissement ou en maintenance, représentent 3 % du
PIB. C’est donc un facteur économique important qui se double, dans le cas du transport de gaz, de
considérations sécuritaires majeures.

Le réseau de transport de gaz français est âgé en moyenne de 25 ans. Les inspections par

piston instrumenté d’une part, et les incidents ayant eu lieu sur des réseaux étrangers plus anciens

d’autre part, accréditent la thèse selon laquelle le risque d’atteinte à l’intégrité des canalisations du

fait de la corrosion augmenterait dans les décennies à venir si des mesures compensatoires n’étaient
pas prises. Le niveau de vigilance doit donc être accru afin de garder un niveau de sécurité optimal

sur le réseau français.

2.1.2. Canalisations de transport de gaz et leur protection contre la corrosion
Définition : un tube de transport de gaz est un tube d’acier recouvert d’un revêtement qui

assure une protection passive contre la corrosion.

2.1.2.1. Protection par revêtement externe
Le revêtement extérieur sert à isoler, donc protéger passivement, les canalisations des actions

physico-chimiques des sols (qui engendrent la corrosion). Il joue un rôle très important pour le
maintien dans le temps du bon état de ces canalisations.

Sur le réseau de Gaz de France, essentiellement trois types de revêtements ont été mis en œuvre :
-

Les revêtements hydrocarbonés (brai de houille et bitume de pétrole): Fabriqués à partir de

résidus de charbon ou de pétrole, ces revêtements ont été utilisés jusque dans les années 80.

Lorsque le revêtement PE bi-couches est apparu, l’utilisation des revêtements hydrocarbonés a été
progressivement stoppée, notamment pour des raisons de toxicité lors de leur mise en œuvre.
-

Le PE bi-couches: Il associe à une couche adhésive à base d’un copolymère d’éthylène

-

Le PE tri-couches : C’est le plus récent des revêtements et il n’est utilisé que depuis une


appliquée sur le tube, une couche de polyéthylène.

dizaine d’années en France. C’est un PE bi-couches auquel une sous-couche époxydique a été
rajoutée afin de conférer à la liaison adhésive du revêtement une meilleure tenue dans le temps .

Figure 2: Revêtement tri-couches

CHU Thanh-Quang

Page 11 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
2.1.2.2. Protection cathodique
En complément de l’utilisation de revêtements de plus en plus performants, Gaz de France a

toujours protégé ces canalisations contre la corrosion à l’aide d’une protection électrochimique active

appelée « protection cathodique ». Le but de la protection cathodique est de pallier les conséquences

possibles des défauts de revêtement en abaissant le potentiel électrochimique des surfaces d’acier
exposées au milieu extérieur jusqu’au potentiel d’immunité de l’acier où la corrosion devient

impossible.

Il arrive cependant que la protection cathodique (PC) soit défaillante, en raison de la présence

d’un obstacle à la continuité électrique ; on appelle cela une situation d’écran, qui peut avoir
différentes causes:
-


Le sol ne conduit pas assez : c’est le cas des sols électriquement très résistifs ou des sols qui

subissent une alternance humidité/sécheresse. Dans le premier cas, ces sols sont également peu

corrosifs, ce qui atténue le problème. Dans le second cas, c’est plus difficile : lors de la période

humide, le sol est potentiellement corrosif mais peu résistif, donc bien conducteur des courants de
PC. Lors de la période sèche, le courant de protection ne circule plus, mais des espèces corrosives et
de l’eau peuvent néanmoins rester piégées au contact de la canalisation.
-

Le revêtement est décollé : l’acier sous le revêtement est en contact avec l’électrolyte (le sol),

mais le revêtement isole électriquement le sol de l’acier de la canalisation. Les courants de protection
cathodique ne parviennent pas jusqu’à l’acier.
-

Un obstacle physique non-conducteur arrête les courants de protection cathodique : c’est le

cas par exemple d’une pierre ayant perforé le revêtement et restant au droit du défaut de revêtement.

2.1.3. Méthodes de détection de la corrosion
2.1.3.1. Piston instrumenté – inspection de la corrosion par voie interne
Un piston instrumenté parcourt l’intérieur d’une canalisation en acier et mesure l’épaisseur de
métal de celle-ci, tout au long de son parcours et sur toute la circonférence. Il peut ainsi détecter des

pertes de métal dans l’acier des canalisations, en fournissant les dimensions des ces anomalies, ainsi
que leur position.


2.1.3.2. Excavation – inspection directe de la corrosion externe
Une excavation a lieu suite à une inspection qui a décelé la présence d’un défaut dans le

revêtement ou dans l’acier, d’une canalisation enterrée. Son but est de décrire l’anomalie de ce

revêtement et l’éventuelle atteinte au métal, afin d’en estimer la gravité et la cause. A cette occasion,
un grand nombre de renseignements concernant l’environnement de la canalisation sont disponibles
et des mesures sont effectuées au niveau des défauts.
2.1.3.3. Mesures de surface
Une inspection de surface a pour but d’étudier l’endommagement du revêtement d’une

canalisation en acier enterrée. Elle est réalisée grâce à des méthodes électriques, mises en oeuvre à
partir de la surface du sol.

2.1.4. Fiche de constat sur Fouille
Une fiche de constat sur fouille est un formulaire que les agents de terrain de Gaz de France

doivent compléter à chaque excavation. S’il est bien rempli, ce document fournit de nombreuses
informations sur les différents défauts de canalisation rencontrés. Voici les grandes parties de cette

CHU Thanh-Quang

Page 12 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
fiche : Identification du défaut, Environnement, Défaut de revêtement, Etat du métal, Mesures
électriques, Informations générales sur la canalisation.

2.2. Projet PRCI&IA

Le PRCI. (Pipeline Research Council International) est un regroupement de pétroliers et de

gaziers, principalement nord-américains, ayant pour objectif de faire progresser la Recherche
concernant les canalisations.

En septembre 2003, Gaz de France a proposé un projet au PRCI, dans le but d’optimiser les

intervalles de ré-inspection à l’aide de bases de données et de l’Intelligence Artificielle. Ces bases de
données sont obtenues à l’aide d’inspections des canalisations par pistons instrumentés et lors

d’excavations. Le coût de ce projet était estimé à 150 000 $ et la durée à 3 ans. Ce programme
s’inscrit dans le programme de recherche « Optimisation des Intervalles de Ré-inspection » du PRCI.

La première phase de ce projet consiste en la création d’une base de données devant recevoir
beaucoup de données différentes, provenant de différents gaziers et pétroliers. La création de cette
base de données a fait l’objet d’un stage précédent, donc elle n’est pas traitée dans ce rapport.

La deuxième phase du projet consiste à faire remplir la base de données par les opérateurs du

PRCI, c’est à dire par les entreprises adhérentes. L’analyse de données demande d’avoir en sa
possession une masse de données suffisante ; c’est pourquoi, pour la réussite de ce projet, il est
nécessaire de rassembler les données du plus grand nombre d’opérateurs.

La troisième phase du projet consiste à tester la capacité de l’Intelligence Artificielle à trouver

une corrélation entre les données issues d’une inspection par un piston instrumenté et les données
issues d’une excavation, concernant un même défaut.

La quatrième phase du projet consiste à tester la capacité de l’Intelligence Artificielle à trouver
les combinaisons de paramètres (ou variables) en corrélation avec l’occurrence de corrosion. Le but

de cette phase est donc de trouver quelles sont les variables liées à la présence de corrosion et
comment elles le sont. L’idéal serait donc d’obtenir des règles logiques conduisant à la présence de
corrosion. C’est dans ce cadre que s’inscrit l’exploration de données que j’ai réalisée durant ce stage.

2.3. Base de données REX (Retour d’Expérience)
La base de données mise à notre disposition pour cette étude possède une quarantaine de

variables numériques et symboliques, mais peu d’exemples au regard du nombre de variables. Il

s’agit d’une base élaborée par Gaz de France, dans le cadre d’un projet visant à capitaliser toutes les
informations récupérées suite à des excavations de canalisations. Ces excavations ont lieu dans toute

la France pour réparer les canalisations endommagées et les informations recueillies sont les
réponses à un questionnaire qui est le même pour tous. Gaz de France a ainsi pu récolter des
données sur plus de 4700 excavations et continue à en amasser d’année en année.

La base de données est stockée dans un fichier Excel et se présente sous la forme d’un

immense tableau unique. Mais les variables de la base ne sont jamais toutes bien renseignées. En
effet, beaucoup de données sont manquantes et certaines sont erronées, voir aberrantes etc. La
partie 4.2 décrit en détails les problèmes rencontrés et les solutions proposées.
Chaque observation de la base correspond à un « défaut de revêtement » sur une canalisation.

Les défauts sont détectés à partir de la surface du sol, par des procédés électriques appelés «

inspections de surface », puis ils donnent lieu à une excavation. Lors de ces excavations, une « Fiche
de Constat sur Fouille » est remplie et les données collectées viennent s’ajouter à la base. La base

CHU Thanh-Quang


Page 13 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
REX ne contient que des informations issues de ces fiches. Plusieurs défauts peuvent être rencontrés

lors d’une même excavation. Chaque excavation est réalisée dans un environnement (terrain, sol…)

dont la description est présente dans la base. Outre la description du défaut de revêtement, on trouve
également des mesures électriques prises au niveau du défaut. Le défaut peut parfois être associé à

un décollement du revêtement, à la présence d’une corrosion (ou d’un dépôt) et également à la
présence d’une atteinte au métal de la canalisation.

2.4. Objectifs du stage et déroulement des travaux
L’objectif du stage est de l’explorer des informations intéressantes concernant le problème de

corrosion des canalisations de gaz. Il s’agit d’utiliser de différentes méthodes d’Intelligence
Artificielle pour analyser la base de données REX.

J’ai travaillé sur ce sujet pendant six mois et j’ai réalisé les travaux suivants : j’ai commencé par

la collecte des données. Ensuite, j’ai collaboré avec un expert du domaine afin de choisir les variables
plus importantes en termes d’influence sur la corrosion. Puis, j’ai procédé à la rectification des
erreurs et au traitement des valeurs manquantes pour avoir une base de données prête à exploiter.

Après, j’ai construit des modèles de classification avec la variable cible « corrosion » en utilisant

différentes méthodes de classification comme les réseaux de neurones, les arbres de décision, les
machines à vecteurs supports et k-plus proches voisins. Ces modèles ont eu pour but de classifier


des observations en deux classes « corrosion » et « non-corrosion » et ils ont été construits à partir

d’un ensemble de données d’apprentissage. J’ai comparé les performances des modèles en utilisant

le taux de classification correcte sur les ensembles de données de test. Enfin, j’ai retenu les meilleurs
modèles pour faire la prévision de la corrosion.

L’explication des causes de la corrosion est une tâche très importante dans l’analyse des
données de canalisation et, la méthode de réseaux bayésiens peut faire ce type d’analyse d’une

manière très efficace. Pour cette raison, j’ai utilisé le logiciel BayesiaLab de la société Bayesia, pour
construire par apprentissage un réseau bayésien comportant les relations entre les variables de la

base de données. Le réseau obtenu permet aux experts en corrosion d’analyser l’influence des autres
variables sur la présence de la corrosion et d’en déduire les causes.

2.5. Logiciels utilisés
2.5.1. Statistica
STATISTICA offre la gamme la plus riche du marché en termes de procédures d'analyse, de

gestion et de représentation des données, ainsi que de solutions de data mining. Parmi ces

techniques, citons une gamme impressionnante de techniques de modélisation prédictive, de
clustering, de classification ou de techniques exploratoires, sur une même plate-forme logicielle.
Toutes les informations nécessaires sont trouvées sur le site .

2.5.2. BayesiaLab
BayesiaLab est un laboratoire complet de manipulation de réseaux bayésiens qui permet


d’élaborer des modèles décisionnels par recueil d’expertise et automatiquement à partir des

données, d’assimiler rapidement des connaissances représentées grâce à une boite à outils d’analyse

originale, d’exploiter des modèles en mode interactif ou par lots et faire l’apprentissage des

politiques d’actions. On peut consulter aussi le site pour avoir plus
d’information.

CHU Thanh-Quang

Page 14 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation

3.

ETUDES DES METHODES D’INTELLIGENCE ARTIFICIELLE
Dans le domaine de data mining, les méthodes d’Intelligence Artificielle peuvent résoudre

plusieurs types de problèmes comme la classification pour prédire les valeurs catégorielles des
variables, la régression pour prédire les valeurs numériques des variables, etc. En, général on les
divise en deux groupes : méthodes explicatives et méthodes non-explicatives.

Dans le cadre du travail de ce stage, j’ai utilisé les méthodes de réseaux de neurones, d’arbre

de décision, de machines à vecteurs supports, de k-plus proches voisins et la classification naïve
bayésienne pour le problème de classification de la corrosion. L’objectif est de prédire la présence de


la corrosion au droit d’un défaut de revêtement de la canalisation. Et puis, pour le problème

d’explication des causes de la corrosion j’ai utilisé la méthode explicative des réseaux bayésiens.

Toutes ces méthodes ont de nombreux paramètres à régler. Le changement des paramètres va

influencer la taille de la mémoire utilisée, le temps d’exécution des algorithmes et le résultat obtenu.
Pour avoir de bons résultats avec des ressources matérielles limitées, il est nécessaire de choisir les
valeurs appropriées des paramètres.

3.1. Réseaux de neurones
3.1.1. Introduction
Un réseau de neurones (ou Artificial Neural Network en anglais) est un modèle de calcul dont la

conception est très schématiquement inspirée du fonctionnement de vrais neurones (humains ou
non). Les réseaux de neurones sont généralement optimisés par des méthodes d’apprentissage de
type statistique, si bien qu’ils sont placés d’une part dans la famille des applications statistiques,

qu’ils enrichissent avec un ensemble de paradigmes permettant de générer de vastes espaces
fonctionnels souples et partiellement structurés, et d’autre part dans la famille des méthodes de

l’intelligence artificielle qu’ils enrichissent en permettant de prendre des décisions s’appuyant
davantage sur la perception que sur le raisonnement logique formel.

Figure 3: Structure d'un neurone artificiel

La structure d'un neurone artificiel est illustrée ci dessus : le neurone calcule la somme de ses

entrées puis cette valeur passe à travers la fonction d'activation pour produire sa sortie.


La large majorité des réseaux de neurones possède un algorithme d’apprentissage qui consiste
à modifier les poids synaptiques en fonction d’un jeu de données présentées en entrée du réseau. Le
but de cet apprentissage est de permettre au réseau de neurones « d’apprendre » à partir des

CHU Thanh-Quang

Page 15 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
exemples. Si l’apprentissage est correctement réalisé, le réseau est capable de fournir des réponses
en sortie très proches des valeurs d’origines du jeu de données d’apprentissage.

3.1.2. Perceptron multicouche
Le perceptron multicouche (PMC) est la première grande famille de réseaux de neurones qui

comporte L couches, chaque neurone d'une couche étant totalement connecté aux neurones de la

couche suivante. On suppose que la rétine comporte un neurone particulier dont la sortie, constante
et égale à 1, est reliée à une entrée de tous les neurones des couches supérieures (les poids de

connexions issues de ce neurone d'entrée particulier joueront le rôle de seuils pour les automates

receveurs). Chaque neurone k est un automate linéaire généralisé dont la fonction de transfert fk est

supposée sigmoïdale.

Figure 4: Perceptrons multicouches
L'algorithme d'apprentissage par rétro-propagation du gradient de l'erreur est un algorithme


itératif qui a pour objectif de trouver le poids des connexions minimisant l'erreur quadratique

moyenne commise par le réseau sur l'ensemble d'apprentissage. Cette minimisation par une méthode
du gradient conduit à l'algorithme d'apprentissage de rétro-propagation.

Cet algorithme, qui présente l'avantage d'exister, reste discutable dans la mesure où sa

convergence n'est pas prouvée. Son utilisation peut conduire à des blocages dans un minimum local
de la surface d'erreur. Son efficacité dépend, en effet, d'un grand nombre de paramètres que doit
fixer l'utilisateur : le pas du gradient, les paramètres des fonctions sigmoïdes des automates,

l'architecture du réseau (nombre de couches, nombre de neurones par couche), l'initialisation des

poids.

3.1.3. Réseaux de fonction à base radiale
Les réseaux GRBF (Gaussian Radial Basis Functions, fonction à base radiale gaussienne) forment

une deuxième famille de réseaux de neurones. C’est un réseau à deux couches. Les neurones de la
première couche sont reliés aux entrées et ont chacun deux paramètres : un vecteur prototype
un coefficient d'étalement

suivante :

Le vecteur prototype

à 1 pour une entrée
du point

définit un point dans l'espace d'entrée. La sortie


égale à

décroissance est réglée par

et

strictement positif. La fonction réalisée, de forme gaussienne, est la

du neurone est égale

, puis décroît vers 0 lorsque l'entrée s'éloigne de . La vitesse de

: plus le coefficient est petit et plus la fonction sera concentrée autour

et proche de 0 ailleurs.

CHU Thanh-Quang

Page 16 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
Les neurones de la seconde couche quand à eux calculent la sortie du réseau en effectuant une

combinaison linéaire des sorties de ceux de la première couche, et un biais est ajouté au total. La
fonction qu'ils réalisent est la suivante :


est un vecteur composé des sorties de tous les neurones de la première couche,


vecteur de poids et

est le biais.

et

sont ajustés lors de l'apprentissage.

est un

Ainsi le réseau peut être représenté par le schéma suivant :

Figure 5: Schéma général d'un réseau GRBF
Et chaque sortie du réseau GRBF est donnée par la formule :

Où est le numéro de la sortie (c'est à dire le numéro du neurone de la seconde couche dont on
calcule la sortie).
neurone numéro

le nombre de neurones de la première couche.
de la première couche,

poids du neurone de sortie , et

le vecteur prototype du

son coefficient d'étalement,

les


son biais.

Il a été montré que le réseau GRBF est un approximateur universel, c'est à dire que le réseau est

capable d'approximer n'importe quelle fonction douce avec une précision donnée, pourvu que l'on
fournisse un nombre suffisant de neurones, et que l'on utilise un algorithme d'apprentissage
adéquat. Lors de l'apprentissage d'un réseau GRBF deux problèmes se posent : la constitution de la
première couche (choix du nombre de neurones, choix des prototypes et des coefficients
d'étalement), et la détermination des poids et biais de la seconde couche.

3.2. Arbre de décision
3.2.1. Introduction
Pour certains domaines d'application, il est essentiel de produire des procédures de

classification compréhensibles par l'utilisateur. C'est en particulier le cas pour l'aide au diagnostic
médical où le médecin doit pouvoir interpréter les raisons du diagnostic. Les arbres de décision

répondent à cette contrainte car ils représentent graphiquement un ensemble de règles et sont
aisément interprétables. Pour les arbres de grande taille, la procédure globale peut être difficile à
appréhender, cependant, la classification d'un élément particulier est toujours compréhensible.

CHU Thanh-Quang

Page 17 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
3.2.2. Exemple
Pour mieux appréhender l’induction des arbres de décision, nous allons reprendre un exemple


décrit dans l’ouvrage de Quinlan (1993). Il s’agit de prédire le comportement de sportifs (Jouer ;

variable à prédire) en fonction de données météo (Ensoleillement, Température, Humidité, Vent ;

variables prédictives).

Tableau 1: Exemple des données
L’algorithme d’apprentissage cherche à produire des groupes d’individus le plus homogène

possible du point de vue de la variable à prédire à partir des variables de météo. Le partitionnement
est décrit à l’aide d’un arbre de décision.

Sur chaque sommet de l’arbre est décrit la distribution de la variable à prédire. Dans le cas du

premier sommet, la racine de l’arbre, nous constatons qu’il y a 14 observations dans notre fichier, 9
d’entre eux ont décidé de jouer (Jouer = oui), 5 ont décidé le contraire (Jouer = non).

Ce premier sommet est segmenté à l’aide de la variable Ensoleillement, 3 sous-groupes ont été

produits. Le premier groupe à gauche (Ensoleillement = Soleil) comporte 5 observations, 2 d’entre
eux correspondent à Jouer = oui, 3 à Jouer = non.

Chaque sommet est ainsi itérativement traité jusqu’à ce que l’on obtienne des groupes

suffisamment homogènes. Elles correspondent aux feuilles de l’arbre, des sommets qui ne sont plus
segmentés.

Figure 6: Arbre de décision
La lecture d’un arbre de décision est très intuitive, c’est ce qui fait son succès. L’arbre peut être


traduit en base de règles sans pertes d’informations. Si l’on considère la feuille la plus à gauche,

CHU Thanh-Quang

Page 18 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
nous pouvons aisément lire la règle d’affectation suivante : « Si ensoleillement = soleil et humidité <

77.5% alors jouer = oui ».

3.3. Machine à vecteurs supports
3.3.1. Introduction
La méthode de machine à vecteurs supports a pour but de séparer un ensemble d’individus en

plusieurs classes différentes par les frontières de décision. Par exemple, on veut séparer les points

dans la Figure 7: Exemple simple de machine à vecteurs supports en deux classes : vert et rouge. La
ligne est la frontière qui sépare le plan en deux côtés. Le côté gauche est la classe pour les points

rouges et le côté droit est la classe pour les points verts. Pour un nouvel individu quelconque,
exemple le point blanc, s’il est tombé vers la gauche de la ligne il est donc classé rouge. Au contraire,
il est un membre de la classe verte.

Figure 7: Exemple simple de machine à vecteurs supports
En réalité, le problème de classification est souvent beaucoup plus complexe. On ne peut pas

utiliser une frontière linéaire pour séparer les classes. En fait, il faut trouver une frontière plus

optimale comme dans la Figure 8: Exemple plus complexe de machine à vecteurs supports. En plus

dans la plupart des cas, on ne peut pas même représenter les objets aux points sur le plan parce que
les individus ont plusieurs paramètres. Les données des individus sont multidimensionnelles.

Figure 8: Exemple plus complexe de machine à vecteurs supports
L'illustration ci-dessous Figure 9: L'idée principale de la machine à vecteurs supports montre

l'idée fondamentale des machines à vecteur de supports. Les objets originaux (côté gauche du
schéma) sont réarrangés en utilisant un ensemble de fonctions mathématiques, connu sous le nom

de noyau. Grâce au processus de réarrangement, les objets (côté gauche du schéma) sont bien
séparés par une frontière linéaire.

Figure 9: L'idée principale de la machine à vecteurs supports

CHU Thanh-Quang

Page 19 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
3.3.2. Notes techniques
La machine à vecteurs supports (SVM) est principalement une méthode de classification par

construction d’une frontière dans l’espace multi dimensions pour séparer les classes. SVM peut
manipuler des variables continues et catégorielles multiples dans la résolution de problème de
classification et même de régression.

Pour construire une frontière optimale, SVM utilise un algorithme d’apprentissage pour réduire


au minimum une fonction d’erreur. Selon la forme de la fonction erreur, les modèles de SVM peuvent
être classifiés dans quatre groupes distincts :


Classification SVM Type 1 ( C-SVM classification)



Classification SVM Type 2 ( nu-SVM classification)



Regression SVM Type 1 ( epsilon-SVM regression)



Regression SVM Type 2 ( nu-SVM regression)

3.4. K-plus proches voisins
3.4.1. Classification
Pour illustrer la méthode k-plus proches voisins, on va considérer le problème de classification

d’un nouvel objet (point de requête) dans un certain nombre d'exemples connus. Ceci est montré
dans la figure ci-dessous : il y a une classe des signes plus, une autre classe des signes moins et un
point de requête en rouge. Notre problème est « à quelle classe appartient le point de requête ? »

Figure 10: Classification par k-plus proches voisins
On cherche d’abord les k plus proches voisins du point de requête. Dans ce cas, k est égal à 1.
En effet, si on considère que la classe de ce point est la classe du point le plus proche, le résultat est


alors le signe plus. Dans le cas où k est égal à 2, on ne peut pas définir le résultat parce que
deuxième voisin est un signe moins. Si on augmente k à 5, on obtient donc une région des voisins

définie par le cercle. En fait, il y a 2 signes plus et 3 signes moins dans cette région. Et la classe du
point de requête est le signe moins.

3.4.2. Régression
La méthode k-plus proches voisins peut résoudre aussi les problèmes de régression. Des
problèmes de régression ont pour but de prévoir la valeur d'une variable dépendante si on a un
ensemble de variables indépendantes.

CHU Thanh-Quang

Page 20 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
Dans le schéma montré ci-dessus, il y a un ensemble de points (points verts) identifiés par la

relation entre la variable indépendante x et la variable dépendante y (courbe rouge). L'ensemble

d'objets verts constitue les données d'exemples. On utilise la méthode k-plus proches voisins pour
prévoir le résultat d’une valeur x quelconque. Dans le cas où k est égal à 1, le voisin de x est x4.

Donc, la valeur de y correspondant est y4. Dans le cas où k est égal à 2, les voisins de x sont x3 et
x4. Le résultat est alors la moyenne des valeurs y3 et y4.

Figure 11: Régression par k-plus proches voisins


3.5. Classifieurs Naïfs bayésiens
3.5.1. Introduction
Nommés d'après le théorème de Bayes, ces méthodes sont qualifiées de "Naïve" ou "Simple" car

elles supposent l'indépendance des variables. L'idée est d'utiliser des conditions de probabilité
observées dans les données. On calcule la probabilité de chaque classe parmi les exemples. Ce sont

les probabilités a-priori. Par exemple, si la classe "informatique" revient 2 fois sur les 5 documents
donnés en exemple, sa probabilité a-priori sera de 2/5. En plus des probabilités a-priori, l'algorithme
calcule les fréquences d'apparition de chaque variable d'entrée avec celles de sortie. Pour classer des

documents, les variables d'entrée sont les mots présents dans l'ensemble des documents. A chaque

mot on calcule le nombre de fois qu'il apparaît dans les documents classés dans une classe donnée.
On calcule cette fréquence pour chaque classe.

3.5.2. Exemple
Un exemple du classifieur Naïf bayésien est donné dans l'illustration ci-dessous Figure 12:

Exemple pour classifier naïf bayésien. Les objets peuvent être classifiés comme VERT ou ROUGE.
Notre tache est de classifier de nouveaux cas comme ils arrivent, c.-à-d., décider la classe à laquelle
ils appartiennent.

Figure 12: Exemple pour classifier naïf bayésien

CHU Thanh-Quang

Page 21 sur 82



Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
Dans l’exemple, on a les probabilités a-priori comme suivant :

Pr obabilité _ apriori _ VERT =

Nombre _ des _ objets _ VERTS
Nombre _ total _ des _ objets

Pr obabilité _ apriori _ ROUGE =

Nombre _ des _ objets _ ROUGES
Nombre _ total _ des _ objets

En appliquant les nombres :

Pr obabilité _ apriori _ VERT =

40
60

Pr obabilité _ apriori _ ROUGE =

20
60

Après avoir calculé les probabilités a-priori, nous sommes maintenant prêts à classifier un

nouvel objet (cercle BLANC). Puisque les objets sont bien groupés, il est raisonnable de supposer que
le PLUS objet vert (ou rouge) proche de X, plus les nouveaux cas appartiennent probablement à cette


couleur. Pour mesurer cette probabilité, nous traçons un cercle autour de X qui entoure un nombre
(choisi a priori) de points indépendamment de leurs étiquettes de classe. Alors nous calculons le

nombre de points du cercle appartenant à chaque étiquette de classe. À partir de ceci nous calculons
la probabilité conditionnelle :

Pr obabilité _ X _ sachant _ VERT =

Nombre _ des _ VERTS _ proches _ X
Nombre _ des _ objets _ VERTS

Pr obabilité _ X _ sachant _ ROUGE =

Nombre _ des _ ROUGES _ proches _ X
Nombre _ des _ objets _ ROUGES

En appliquant les nombres :

Pr obabilité _ X _ sachant _ VERT =

1
40

Pr obabilité _ X _ sachant _ ROUGE =

3
20

Bien que les probabilités a-priori indiquent que X peut appartenir au VERT, la probabilité


conditionnelle indique autrement que la classe de X est ROUGE. Dans l'analyse bayésienne, la
classification finale est produite en combinant les deux sources d'information, c.-à-d., la probabilité
a-priori et la probabilité conditionnelle, pour former une probabilité finale en utilisant la règle Bayes.

Pr obabilité _ X _ est _ VERT
= probabilité _ apriori _ VERT * probabilité _ X _ sachant _ VERT
=

4 1
1
=
*
6 40 60

Pr obabilité _ X _ est _ ROUGE
= probabilité _ apriori _ ROUGE * probabilité _ X _ sachant _ ROUGE
=

2 3
1
=
*
6 20 20

Finalement, la classe de X est Rouge.

CHU Thanh-Quang

Page 22 sur 82



Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
Une variante des Naive Bayes sont les réseaux bayésiens : dans ce modèle, on ne suppose plus

que les variables sont toutes indépendantes, et on en autorise certaines à être liées. Cela alourdit
considérablement les calculs et les résultats n’augmentent pas de façon significative.

3.6. Réseaux bayésiens
3.6.1. Introduction
Les réseaux bayésiens sont à la fois :


Des modèles de représentation des connaissances



Des "machines à calculer" les probabilités conditionnelles.

Pour un domaine donné, on décrit les relations causales entre variables d'intérêt par un graphe.

Dans ce graphe, les relations de cause à effet entre les variables ne sont pas déterministes, mais
probabilisées.

Ainsi,

l'observation

d'une

cause


ou

de

plusieurs

causes

n'entraîne

pas

systématiquement l'effet ou les effets qui en dépendent, mais modifie seulement la probabilité de les
observer.

L'intérêt particulier des réseaux bayésiens est de tenir compte simultanément de connaissances

a priori d'experts (dans le graphe) et de l'expérience contenue dans les données. Les réseaux
bayésiens sont surtout utilisés pour le diagnostic (médical et industriel), l'analyse de risques, et le
datamining.

3.6.2. Exemple très simple dans la modélisation des risques
Un opérateur travaillant sur une machine risque de se blesser, s’il l’utilise mal. Ce risque

dépend de l’expérience de l’opérateur et de la complexité de la machine. «Expérience» et
«Complexité» sont deux facteurs déterminants de ce risque (Figure 13: Structure de causalité)

Bien sûr, ces facteurs ne permettent pas de créer un modèle déterministe. Si l’opérateur est


expérimenté, et la machine simple, cela ne garantit pas qu’il n’y aura pas d’accident. D’autres

facteurs peuvent jouer : l’opérateur peut être fatigué, dérangé, etc. La survenance du risque est
toujours aléatoire, mais la probabilité de survenance dépend des facteurs identifiés.

Le schéma ci-dessous représente la structure de causalité de ce modèle Figure 13: Structure de

causalité.

Figure 13: Structure de causalité

CHU Thanh-Quang

Page 23 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation
Le suivant représente la probabilisation de la dépendance : on voit que la probabilité d'accident

augmente si l'utilisateur est peu expérimenté ou la machine complexe.

On voit ici comment intégrer des connaissances d'expert (les facteurs déterminants) et des

données (par exemple, la table de probabilité d'accident en fonction des déterminants peut venir de

statistiques).

Figure 14: Intégration des connaissances d'expert et des données

3.6.3. Construction et utilisation des réseaux bayésiens

Construire d’un réseau bayésien c'est donc :


Définir le graphe du modèle



Définir les tables de probabilité de chaque variable, conditionnellement à ses causes.

Le graphe est aussi appelé la "structure" du modèle, et les tables de probabilités ses
"paramètres". Structure et paramètres peuvent être fournis par des experts, ou calculés à partir de

données, même si en général, la structure est définie par des experts et les paramètres calculés à
partir de données expérimentales.

L'utilisation d'un réseau bayésien s'appelle "inférence". Le réseau bayésien est alors

véritablement une "machine à calculer des probabilités conditionnelles". En fonction des informations

observées, on calcule la probabilité des données non observées. Par exemple, en fonction des
symptômes d'un malade, on calcule la probabilité des différentes pathologies compatibles avec ces
symptômes. On peut aussi calculer la probabilité de symptômes non observés, et en déduire les
examens complémentaires les plus intéressants.

CHU Thanh-Quang

Page 24 sur 82


Application des méthodes d'intelligence artificielle à l'analyse des données de canalisation


3.7. Comparaison des méthodes d’intelligence artificielle
Méthode

Données
utilisées

Réseaux de neurones

Numériques

Solution

Problème résolu

Vectorisation Classification,
des variables Régression

Explicative
Non

catégorielles
Arbre de décision

Catégorielles

Discrétisation Classification,
des variables

Oui


numériques
Machine à vecteurs supports Numériques

Vectorisation Classification,
des variables Régression

Non

catégorielles
K-plus proches voisins

Numériques

Vectorisation Classification,

des variables Régression

Non

catégorielles
Classifieurs Naïfs bayésiens

Catégorielles

Discrétisation Classification
des variables

Non


numériques
Réseaux bayésiens

Catégorielles

Discrétisation Classification
des variables

Oui

numériques

Tableau 2: Bilan des méthodes d'intelligence d'artificielle

CHU Thanh-Quang

Page 25 sur 82


×