Tải bản đầy đủ (.docx) (62 trang)

Analyse de données temporelles massives en science de l’environnement phân tích dữ liệu thời gian đại trà trong khoa học môi trường

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.61 MB, 62 trang )

UNIVERSIT NATIONALE DU VIETNAM

HANOI (UNVH)

INSTITUT FRANCOPHONE INTERNATIONAL (IFI)

ZONGO SYLVAIN

ANALYSE DE DONN ES TEMPORELLES MASSIVES EN
SCIENCE DE L’ENVIRONNEMENT
PH N T CH DÚ LI U TH˝I GIAN I TR
TRONG KHOA H¯C M˘I TR×˝NG

Sp†cialit† : Syst–mes Intelligents et Multim†dia
Code : Programme Pilote

M MOIRE DE FIN D’ TUDES DU MASTER
INFORMATIQUE

HANOI - 2019


UNIVERSIT NATIONALE DU VIETNAM

HANOI (UNVH)

INSTITUT FRANCOPHONE INTERNATIONAL (IFI)

ZONGO SYLVAIN

ANALYSE DE DONN ES TEMPORELLES MASSIVES EN


SCIENCE DE L’ENVIRONNEMENT
PH N T CH DÚ LI U TH˝I GIAN I TR
TRONG KHOA H¯C M˘I TR×˝NG
Sp†cialit† : Syst–mes Intelligents et Multim†dia
Code : Programme Pilote
M MOIRE DE FIN D’ TUDES DU MASTER
INFORMATIQUE
Sous la direction de :
Pr. Pierre Gancarski, Professeur d’Informatique,
Directeur adjoint d’ICube


Dr. Agn–s Braud, Ma tre de Conf†rences, dans l’†quipe SDC


HANOI - 2019


ATTESTATION SUR LHONNEUR

Jatteste sur lhonneur que ce mmoire a t ralis par moi-mảme et que les donnes et les rsultats
qui y sont prsents sont exacts et nont jamais t publis ailleurs. La source des informations cites
dans ce mmoire a t bien prcise.

LI CAM

OAN

Tổi cam oan Ơy l cổng trnh nghiản cứu ca riảng tổi. CĂc s liằu, kt quÊ nảu trong Lun vôn l
trung thỹc v chữa tng ữổc ai cổng b trong bĐt ký cổng trnh n o khĂc. CĂc thổng tin trch dÔn

trong Lun vôn  ữổc ch rê nguỗn gc.

ZONGO SYLVAIN


R†sum†
La pr†servation et/ou la restauration du bon †tat des cours d’eau exig†e par la Di-rective
Cadre Europ†enne sur l’eau met en exergue la n†cessit† de disposer d’outils op†-rationnels
pour aider l’interpr†tation des informations complexes concernant les cours d’eau et leur
fonctionnement. En effet, ces outils permettront l’†valuation de l’effica-cit† des programmes
d’actions engag†s, ce qui a conduit la naissance du projet ANR Fresqueau. Le projet
Fresqueau a conduit la cr†ation d’une base de donn†es partir de diverses sources pourtant
sur la qualit† physico-chimique et biologique des cours d’eau.

Le projet ADQUEAU est un prolongement du projet ANR Fresqueau avec pour
double objectifs s’†talant sur deux ann†es acad†miques. Le premier objectif sur lequel
nous avons travaill† consistait impl†menter des mod–les d’apprentissage pour la
construction de clusters pour une analyse r†trospective sur les donn†es recueillies. Le
deuxi–me objec-tif sert, lors de la deuxi–me ann†e de mettre en oeuvre l’approche de
clustering sous contrainte propos†e par l’†quipe SDC. Cette analyse †tant sur des s†ries
temporelles, il a †t† d†cid† de faire une analyse chronologique et non chronom†trique
pour l’†valuation de la qualit† physico-chimique et biologique des cours d’eau.

Pour y parvenir lors de mon stage, nous avons proc†d† une †tude des travaux
connexes sur l’apprentissage non supervis† des s†ries temporelles. Une premi–re
approche a †t† l’†tude des algorithmes tels que DBSCAN, TDBSCAN, CHA, SWAP,
Kmeans. Une seconde approche †tudi†e a †t† celle bas†e sur l’apprentissage non
supervis† avec les r†seaux de neurones tels que Deep Belief Network (DBN), les
r†seaux de neurones convo-lutionnels (RNC) et Deep Temporal Clustering (DTC).
A l’issue de l’†tude r†alis†e sur les diff†rentes approches relatives au sujet, notre choix

est port† sur Kmeans pour sa rapidit† et sa robustesse. Comme de nombreux algorithmes
d’apprentissage, une distance de similarit† est requise. Ainsi la distance DTW (Dynamic
Time Warping) a †t† approuv†e comme †tant la mesure de similarit† la mieux adapt†e. Mais
bien avant l’application de Kmeans, plusieurs m†thodes d’imputation des valeurs
manquantes, de normalisation et de r†duction de dimension des donn†es ont †t† impl†ment†es pour avoir un jeu de donn†es coh†rent avec les objectifs du projet.

Nos travaux serviront de base la seconde phase du projet pour la prochaine
ann†e acad†mique.

i


Abstract
The preservation and/or restoration of the good condition of watercourses required by the
European Water Framework Directive highlights the need for operational tools to help
interpret complex information about watercourses and their functioning. These tools will allow
the evaluation of the effectiveness of the action programs undertaken, which led to the birth
of the ANRFresqueau project. The Fresqueau project led to the creation of a da-tabase from
various sources on the physico-chemical and biological quality of watercourses.

The ADQUEAU project is an extension of the ANR Fresqueau project with two
objec-tives spread over two academic years. The first objective we worked on was to
implement learning models for the construction of clusters for retrospective analysis
of the data col-lected. The second objective is to implement the constrained
clustering approach proposed by the SDC team in the second year. This analysis
being on time series, he has was decided to do a chronological analysis for the
evaluation of the physico-chemical and biological quality of watercourses.
To achieve this during my internship, we conducted a study of related work on unsupervised time series learning. A first approach was to study algorithms such as DBSCAN,
TDBSCAN, CHA, SWAP, Kmeans. A second approach studied was the one based on
unsupervised learning with neural networks such as Deep Belief Network (DBN), convolutional neural networks (RNC) and Deep Temporary Clustering (DTC).

At the end of the study carried out on the different approaches relating to the subject,
we chose Kmeans for its speed and robustness. Like many learning algorithms, a similar
distance is required. Thus the DTW (DynamicTime Warping) distance was approved as
the most appropriate similarity measure. But before the application of Kmeans, several
methods of missing values imputation, normalization and data reduction were implemented to have a data set consistent with the project objectives.

Our work will serve as the basis for the second phase of the project for the next
academic year.

ii


Remerciements
La r†alisation de ce m†moire a †t† possible gr¥ce au concours de plusieurs
personnes qui je voudrais adresser ma profonde gratitude.
Je voudrais par ces mots, remercier tout d’abord mes encadrants Pierre Gancarski

le Directeur Adjoint d’ICube, et Agn–s Braud de l’†quipe SDC (Science des Donn†es
et Connaissances), pour leurs disponibilit†s, leurs conseils judicieux qui m’ont †t† tr–
s b†n†fiques dans la r†alisation de ce projet.
J’adresse †galement ma reconnaissance tous les membres des deux laboratoires : laboratoire ICube et laboratoire LIVE, qui lors de nos rencontres ont pu soulever des probl–mes
qui m’ont permis de mieux comprendre et d’appronfondir mes connaissances sur le projet.

Je saisis cette occasion †galement pour remercier tout le corps enseignant de
l’IFI (Institut Francophone International) pour la formation que nous avons recue
durant ces deux ann†es acad†miques.
Je ne saurais terminer sans t†moigner ma reconnaissance tous ceux ou celles
qui de pr–s ou de loin ont apport† leurs soutiens de diff†rentes natures pour la
r†ussite de ce m†moire. Je vais ici remercier toute la famille ZONGO, en particulier
mes parents et la famille BOMBIRI.

Ce m†moire doit beaucoup son succ–s aux diff†rentes rencontres que nous avons
tenues pour la clarification de chaque point du sujet, aux critiques mais surtout aux
diff†rentes suggestions. De toutes ces exp†riences j’ai pu tirer le plus grand profit des
connaissances qui me permettrons d’entrer dans ma vie professionnelle avec s†r†nit†.

iii


D†dicaces
A mes grands-parents Vourma, Yamba, Kolibi† et Noaga pour votre amour inexprimable et toutes vos b†n†dictions qui continuent me fortifier et m’animer de force.

A mes parents Noaga et N’Gan† pour vos encouragements et vos soutiens qui sont
tou-jours une bouff†e d’oxyg–ne qui me ressource dans les moments p†nibles, de
solitude et de souffrance. Merci d’¶tre toujours mes cæt†s, par votre pr†sence, vous
qui n’avez jamais cess† de me soutenir tout au long de mes †tudes, je ne saurai
vous exprimer ma profonde gratitude et ma reconnaissance.

iv


Table des mati–res
Chapitre 1
1.1
1.2
1.3
1.4
Chapitre 2
2.1
2.2
2.3


2.4

2.5

Struc
Pr†sentation g†n†rale du Laboratoire ICube .
Organigramme du laboratoire . . . . . . . . . . . . .
Pr†sentation de l’†quipe SDC . . . . . . . . . . . . .
Ressources Humaines et budgets . . . . . . . . . .

Analy
Contexte du projet ADQUEAU . . . . . . . . . . . . .
Objectif du projet ADQUEAU . . . . . . . . . . . . . .
Dynamique dans la r†alisation du projet . . . .
2.3.1
cha
2.3.2
Or
D†finitions . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1
Le
2.4.2
Vis
2.4.3
An
2.4.4
Le
Les donn†es Fresqueau . . . . . . . . . . . . . . . . .
2.5.1

La
2.5.2
Le

Chapitre 3

tude
3.1 tude de l’existant . . . . . . . . . . . . . . . . . . . . . . .
3.2 Travaux connexes . . . . . . . . . . . . . . . . . . . . . .
3.2.1
Ap
3.2.2
Ap

Chapitre 4

Tech
4.1 Apprentissage automatique . . . . . . . . . . . . . . .
4.1.1
L’a

v
4.1.2

L’app


4.1.3
L’app
4.1.4

L’app
4.2 Description de l’algorithme Kmeans . . . . . . . .
4.2.1
Fonc
4.2.2
Limite
4.3 Distances temporelles . . . . . . . . . . . . . . . . . . .
4.3.1
Moye
4.3.2
Limite
4.4 Autres approches . . . . . . . . . . . . . . . . . . . . . . .
Chapitre 5

Impl†
5.1 Impl†mentation . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1
Probl
5.1.2
Prem
5.1.3
Solut
5.2 Pr†traitement des donn†es . . . . . . . . . . . . . . .
5.2.1
Pourq
5.2.2
Netto
5.2.3
Impu
5.2.4

Visua
5.2.5
Norm
5.2.6
Fonc
5.3 Exp†rimentations avec quelques jeux de donn
5.3.1
Interf
5.3.2
tapes

Chapitre 6

Int†g
lyse d
6.1Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Tslearn : Time series learning . . . . . . . . . . . . .
6.2.1
Archi
6.3 Annexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

vi


Table des figures
1.1 Structure d’accueil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Organigramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Flux de donn†es et les traitements . . . . . . . . . . . . . . . . . . . . . . .
3.1 Structure de FoDoMuST . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Structure fonctionnelle de TSFRESH . . . . . . . . . . . . . . . . . . . . .

4.1
4.2
4.3
4.4
4.5
4.6
4.7

Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fonction de coude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Repr†sentation de calcul avec la distance euclidienne . . . . . . . .
Formule de DTW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Repr†sentation de calcul de distance avec DTW . . . . . . . . . . . . .
Repr†sentation du calcul de la moyenne avec DBA . . . . . . . . . . .
Architecture de DTC [11] . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.1
5.2
5.3
5.4
5.5
5.6

Donn†es au format arff . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Donn†es au format csv . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Processus du cheminement des traitements des donn†es . . . . . .
Module preprocessing avec ses sous modules et leurs fonctionnali
Module Exclude avec ses fonctionnalit†s . . . . . . . . . . . . . . . . . . .
Normalisation du jeu de donn†es FONG_prio_her_v2_4_5_10_15
avec la m†thode MinMax avec la phase d’imputation par interpola

porelle lin†aire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7 Nombre de Cluster former : Comme marqu†es en rouge sur la fig
valeurs approximatives 6 et 9 sont les mieux repr†sentatifs en ter
nombre de clusters bien distingu†
nombre 9 pour l’exp†rimentation. L’exp†rimentation a †t† effectu†
la valeur k=9 ce qui pourrait ¶tre la valeur k=6 car travers la cour
coude la valeur k=6 est aussi une valeur qui permet de bien distin
clusters sur notre jeu de donn†es. . . . . . . . . . . . . . . . . . . . . . . .
5.8 Donn†es †tiquet†es (cluster_id)

5.9

vii
Profil temporel de chaque cluster en fonction de l’attribut Cyprodin


5.10
5.11
5.12
5.13

6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8


par litre_avg sans seuil. Cette repr†sentation permet la mise en
de l’†volution de l’attribut Cyprodinil_microgramme par litre_av
chaque cluster. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Profil temporel de chaque cluster en fonction de l’attribut Captan
par litre_avg sans seuil. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Profil temporel de chaque cluster en fonction de l’attribut Captan
par litre_avg et chlothalonil_microgramme par litre_avg avec se
Profil temporel du cluster 0 en fonction de 4 attributs du jeu de
avec seuil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Profil temporel du cluster 0 en fonction de tous les attributs du
donn†es sans seuil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Architecture de la solution . . . . . . . . . . . . . . . . . . . . . . . . . . .
Jeux de donn†es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Affichage des donn†es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Affichage des statistiques des donn†es . . . . . . . . . . . . . . . . . .
Affichage des statistiques des donn†es par station . . . . . . . . .
Nombre de valeurs manquantes par colonne en [a] et Pourcenta
leurs manquantes par ligne en [b] . . . . . . . . . . . . . . . . . . . . . .
Test du fichier FONG_prio_her_v2_4_5_10_15_18.csv . . . . . .
Profil temporel de tous les attributs sans seuils . . . . . . . . . . . . .

viii


Introduction g†n†rale
Ces derni–res d†cennies sont marqu†es par de nombreuses †tudes centr†es
autour des donn†es. Cette acc†l†ration des recherches autour des donn†es dans
ces derni–res d†cennies est due l’explosion des donn†es l’†chelle mondiale.
L’exploration de ces donn†es est rendue possible gr¥ce l’avanc†e de la technologie qui a

conduit l’apparition des serveurs, des micro-serveurs, des conteneurs pouvant stocker
un volume encore jamais vu de donn†es, ainsi de nombreuses techniques et approches ont
†t† d†velopp†es pour l’extraction de connaissances partir de ces donn†es. L’apprentissage
supervis† conna t aujourd’hui un grand succ–s avec l’av–nement de Deep learning. Cependant l’apprentissage non supervis† en particulier celui des donn†es temporelles demeure un
challenge en Machine learning. Ce challenge est du la complexit† de la structure de
certaines s†ries temporelles, mais aussi la grande dimensionnalit† de ces donn†es temporelles qui n†cessitent un filtrage de tr–s bon qualit† des attributs perninents. Ainsi cet
apprentissage non supervis† s’effectue avec des donn†es non †tiquet†es.

De telles donn†es temporelles peuvent provenir de diverses sources telles que
les objets connect†s, les informations de sant†, les donn†es de r†seaux sociaux, les
transactions sur un march†, les donn†es sur la m†t†orologie, les donn†es sur la
production agricole, les donn†es sur l’†volution de la population d’une r†gion, les
donn†es sur la pollution de l’air, la pollution des sources d’eau.
Le projet sur lequel nous avons travaill† est relatif aux donn†es collect†es sur des cours
d’eaux afin d’†tudier les caract†ristiques physico-chimique et biologique de ceux-ci.

Pour le d†roulement de nos travaux, nous pr†sentons tout d’abord la structure
d’accueil en chapitre 1, l’analyse du sujet en chapitre 2, l’†tude des travaux connexes et
de l’outil d’analyse de donn†es FoDoMuST en chapitre 3, les techniques et m†thodes
utilis†es en chapitre 4, en chapitre 5 nous pr†sentons la partie impl†mentation et
exp†rimentation et en chapitre 6 Int†gration FoDoMuST de fonctions externes pour
l’analyse de s†ries et enfin nous terminons par la conclusion et les perspectives.

1


Chapitre 1
Structure d’accueil
Dans ce chapitre nous pr†sentons la structure d’accueil en particulier sa
hi†rarchie, l’†quipe dans laquelle j’ai int†gr† et surtout les th–mes sur lesquels son

activit† de recherche s’articule.

1.1

Pr†sentation g†n†rale du Laboratoire ICube

Cr†† en 2013, le laboratoire regroupe les forces de recherche du site universitaire
de Strasbourg, dans le domaine des sciences de l’ing†nieur et de l’informatique,
avec l’ima-gerie comme th–me f†d†rateur.
ICube a vocation ¶tre un acteur majeur en ing†nierie biom†dicale, en †tant implant†
sur les sites des hæpitaux universitaires de Strasbourg, au sein de l’Institut HospitaloUniversitaire (IHU), de l’Institut de Recherche contre les Cancers de l’Appareil Digestif
(IRCAD), et de l’Institut de Physique Biologique(IPB). Les scientifiques du laboratoire
d†veloppent †galement des recherches originales pour l’environnement et le d†veloppement durable, en uvrant notamment dans la g†othermie et le photovolta que.

Les principaux champs d’expertise couvrent la physique, la micro†lectronique et
les nanosciences, l’automatique et la robotique, l’informatique et les r†seaux
(infrastructures num†riques et objets communicants), le traitement des donn†es
("data science / Big Data" qui comprend le traitement du signal et des images),
l’optique et le laser ainsi que l’ing†nierie pour la sant†.

2


Figure 1.1

1.2

Structure d’accueil
[13]


Organigramme du laboratoire

Les activit†s de recherche du laboratoire sont regroup†es en 4 d†partements et
16 †quipes de recherche. Le sch†ma ci-dessous est une repr†sentation de
l’organisation du laboratoire.

Figure 1.2

Organigramme

[13]
3


1.3

Pr†sentation de l’†quipe SDC

L’†quipe que j’ai int†gr†e est l’†quipe SDC : Science des Donn†es et Connais-sances
qui couvre un large spectre de recherches en informatique, plus pr†cis†ment en fouille
de donn†es et en intelligence artificielle. C’est en d†but 2016 qu’est n†e l’†-quipe SDC,
quand l’ancienne †quipe BFO est scind†e en deux pour devenir d’un cæt† l’†quipe Syst–
mes Complexes, Bioinformatique Translationnelle (CSTB) et de l’autre l’†-quipe SDC.
Cette derni–re a pour th†matique la Fouille de Donn†es et l’Ing†nierie des
Connaissances. Son activit† de recherche s’articule autour de deux th–mes de
recherche th†oriques et de quelques domaines d’application privil†gi†s savoir :

La science des donn†es.
Les connaissances et technologies s†mantiques.
avec des applications concr–te telles que :


Mod†lisation des connaissances du domaine au moyen d’ontologies (web
s†-mantique).
Raisonnement qualitatif spatial et temporel dans les ontologies.
Mod†lisation des connaissances impr†cises au moyen de la logique floue.
T†l†d†tection et analyse d’images.
Analyse de donn†es temporelles massives
Les membres de cette †quipe travaillent le plus souvent sur des projets de recherche
en collaboration avec des laboratoires ou des entreprises.

1.4

Ressources Humaines et budgets

Le laboratoire compte 650 membres, dont 274 Permanents (professeurs, ma tres de
conf†rences,

techniciens,

personnels

administratifs,

chercheurs,

directeurs

de

recherche, ing†nieurs et techniciens), 180 non permanents (doctorants, post doctorants,

et person-nels sous CDD et charg†s de recherche). Le laboratoire ICube g–re un budget
de 28 Millions d’Euros de fonctionnement annuel. Enfin, le laboratoire est multisite sur six
em-placements, T†l†com Physique Strasbourg, IRCAD l’hæpital civil, Institut de
Physique Biologie, Campus de Chronenbourg, site de la rue Boussingault et l’INSA de
Strasbourg.

Apr–s une br–ve pr†sentation de la structure d’accueil, nous faisons dans le
chapitre suivant l’analyse du sujet qui a fait l’objet de nos travaux.

4


Chapitre 2
Analyse du sujet
L’objectif de pr†server ou restaurer le bon †tat des masses d’eau, impos† par la Directive Cadre Europ†enne sur l’eau, met en exergue la n†cessit† de disposer d’outils op†rationnels pour aider l’interpr†tation des informations complexes concernant les cours

d’eau et leur fonctionnement, ainsi que pour †valuer l’efficacit† des programmes d’actions engag†s ce qui conduit la naissance du projet ANR Fresqueau. Mon stage s’inscrit

dans le cadre du nouveau projet ADQUEAU qui fait suite Freasqueau, projet que
nous pr†sentons dans les sections suivantes.

2.1

Contexte du projet ADQUEAU

Le projet ANR Fresqueau s’est d†roul† de 2011 2015 et a r†uni un consortium de
quatre laboratoires de recherche et deux bureaux d’†tudes, avec des †quipes
d’informa-ticiens sp†cialis†s en structuration et extraction de connaissances partir de
donn†es et des †quipes d’hydrologues et d’†cologues sp†cialistes de l’†valuation
des †cosyst–mes aquatiques.

Cette collaboration a d†bouch† entre autres sur la construction d’une base de
donn†es importante partir de sources diverses telles que des agences de l’eau et
l’ONEMA (Office National de l’Eau et des Milieux Aquatiques), mais †galement l’IGN
(Institut G†ographique et Forestier National) pour l’information g†ographique et
diff†rents ser-vices de l’ tat. Les donn†es collect†es portent sur deux grands bassins
hydrographiques, correspondant aux districts Rhin-Meuse (33.000 km2) et RhæneM†diterran†e et Corse (130.000km2), pour une p†riode de temps allant de 1995
2010. Ces donn†es, couvrant les deux districts, ont †t† int†gr†es dans des bases de
donn†es contenant 80 tables, dont certaines ont un nombre de lignes important.

5


2.2

Objectif du projet ADQUEAU

Le projet ADQUEAU, financ† par le Conseil Scientifique de l’ENGEES ( cole Nationale du G†nie de l’Eau et de l’Environnement), regroupe des chercheurs des laboratoires
ICube et LIVE (†quipe compos†e des experts hydro-†cologues). Il a pour objectifs de
faire collaborer des th†maticiens (hydro-†cologues) et des informaticiens. L’objectif du
projet ADQUEAU est de construire des clusters (groupes d’objets similaires) partir de
s†quences de donn†es num†riques de qualit† de l’eau issues de stations de mesures
sur des rivi–res. Ces donn†es sont stock†es dans des bases de donn†es Fresqueau.
Les clusters obtenus seront utilis†s comme base de construction des classes
th†matiques par une op†-ration que nous pourrions qualifier de s†mantisation. Le projet
se d†roule en deux phases correspondant chacune une ann†e universitaire.
La premi–re ann†e, il s’agit, gr¥ce deux stagiaires (dont un th†maticien et un informaticien financ† directement par l’†quipe SDC d’ICube), de recenser et mettre jour et en
forme les donn†es disponibles. J’ai donc †t† associ† ce projet en tant que stagiaire
informaticien. Parall–lement, une adaptation de la plateforme FoDoMuST et de son interface MultiCube (permettant le clustering sous contraintes) d†velopp†e par l’†quipe SDC
est faite. Les premi–res exp†riences de clustering sous contraintes doivent ¶tre men†es.


En deuxi–me ann†e, il s’agira de valider (gr¥ce un stagiaire th†maticien)
l’approche de clustering sous contraintes interactives dans le domaine concern† et
de publier les r†-sultats. Une comparaison pourra ¶tre men†e avec les r†sultats
obtenus par la recherche de motifs.
L’objectif de ce projet est double. Il s’agit, par analyse de cette masse de donn†es
collect†es, de r†pondre deux enjeux scientifiques :
Mettre en †vidence des liens entre diff†rentes m†triques permettant de
caract†riser la qualit† des cours d’eau.
Relier les sources de pressions sur le milieu la qualit† physico-chimique et
biolo-gique des cours d’eau.
Mes travaux s’inscrivent dans l’objectif de la premi–re ann†e du projet qui est de
recenser et mettre jour et en forme les donn†es disponibles et d’adapter l’interface
MultiCube pour permettre le clustering sous contraintes.

6


2.3

Dynamique dans la r†alisation du projet

Le laboratoire LIVE, en particulier les membres de l’ENGEES, maintient les bases
de donn†es Fresqueau et poss–de toutes les expertises th†matiques n†cessaires
leur analyse. L’†qupe SDC apporte son expertise en analyse de donn†es travers de
nouvelles m†thodes sous contraintes. Elle est compos†e d’experts en Data science.
Notre projet s’inscrit dans une collaboration des membres de ces deux structures en vue
d’adapter l’outil d’analyse FoDoMuST d†velopp† par l’†quipe SDC aux donn†es de l’†quipe LIVE ainsi que de faciliter l’exploitation des r†sultats pour mettre en †vidence des
liens entre diff†rentes m†triques permettant de caract†riser la qualit† des cours d’eau.

2.3.1


changes des flux de donn†es entre les †quipes

L’extraction de jeux de donn†es partir de bases de donn†es existantes (a) n†cessite une
connaissance forte sur leurs potentialit†s. De ce fait cette t¥che (1) indispensable et cruciale
est faite par les th†maticiens du LIVE. Les jeux de donn†es (b) extraits d†crivent des
caract†ristiques physico-chimiques et biologiques des cours d’eau et sont transmises
(2) aux sp†cialistes de traitement de donn†es d’ICube. Ceux-ci, en fonction de la demande,
†tudient le probl–me en vue de modifier (3) les algorithmes existants ou d’en d†velopper

de nouveaux pour r†pondre la demande. Les r†sultats (c) des traitements (4) sont
retourn†s aux experts du LIVE pour analyse th†matique (6).
La figure ci-dessous montre les diff†rents flux de donn†es et les traitements mis en oeuvre.

Figure 2.1

Flux de donn†es et les traitements
7


2.3.2

Organisation du projet

Afin de garantir une collaboration efficace nous avons organis† de nombreux
points de rencontre.
R†union pl†ni–re
Des r†unions se tiennent r†guli–rement propos du projet.
La premi–re rencontre a eu pour objectif, une pr†sentation g†n†rale du projet,
avec la d†finition des premiers besoins.

Les rencontres qui ont suivi, ont eu pour objectif de suivre l’avancement du projet.
Enfin une r†union finale a permis de faire le point sur le projet et de d†finir les

axes de recherches pour l’ann†e suivante.
R†union secondaire Les rencontres secondaires †taient des rencontres avec un
stagiaire de L’ENGEES (HONDA Gabriel), qui exprimait les besoins d†finis avec ses
encadrants afin de mieux adapter les outils aux demandes pour fournir des r†sultats
coh†rents aux experts du domaine.
Propositions de solution aux encadrants
Toutes nos propositions de solution permettant d’am†liorer la visualisation des
r†sultats ou l’analyse des donn†es ont †t† soumises nos encadrants qui les valident
selon leur efficacit†.

2.4

D†finitions

Une analyse temporelle consiste †tudier un ph†nom–ne au cours du temps (†volution
des cours d’eau, variation des temp†ratures, suivi de la production agricole, suivi des
ventes commerciales ...) partir de donn†es dites temporelles issues de capteurs sur ce
ph†nom–ne et prises des moments diff†rents de la r†alisation de celui-ci.

2.4.1

Les donn†es temporelles

Les donn†es temporelles, sont tr–s souvent repr†sent†es sous forme de s†ries temporelles c’est- -dire d’une suite de valeurs correspondant g†n†ralement chacune l’†volu-tion
d’une donn†e : par exemple, suite de valeurs prises par un capteur de pollution, s†rie
d’images prises par un satellite, etc. On parlera plus souvent de s†quences temporelles
lorsque les donn†es consid†r†es sont d’un type symbolique ou cat†goriel ( tat de pollu-tion,

classe d’appartenance, . . . ). Partant de ces s†ries, l’analyse temporelle peut ¶tre vue
8


suivant deux angles principaux.

2.4.2

Vision chronologique versus chronom†trique

Chaque donn†e d’une s†rie temporelle est la captation d’un †v–nement produit
par le ph†nom–ne. D’un point de vue chronologique, on s’int†resse uniquement
l’instant auquel l’†v†nement a eu lieu. Ainsi,
la dur†e et l’†cart entre ces †v–nements ne sont pas pris en compte.
seul l’ordre de r†alisation de ces †v†nements est consid†r†.

Exemple :
Etats pris par un bloc urbain, valeurs d’un pixel, etc.
Contrairement la vision chronologique, la vision chronom†trique consiste †tudier le
ph†nom–ne en s’int†ressant la dur†e de chaque †v–nement de ce ph†nom–ne.
Le temps est pris en compte :
Dans la dur†e et l’†cart entre des †v–nements
L’ordre de r†alisation de ces †v†nements est
consid†r†. Exemples :
Suivi d’une culture.
Suivi de la croissance de la population.

2.4.3

Analyse prospective versus r†trospective


L’objectif de l’expert peut ¶tre soit de s’int†resser au pass† soit au futur. Dans le
premier cas, l’objectif de son analyse est de comprendre les causes et cons†quences
d’un ph†nom–ne pass† (ou en cours). Dans le second cas, il cherche extraire des
donn†es et des mod–les permettant de pr†voir l’†volution du ph†nom–ne.

L’analyse r†trospective
Elle consiste tenter de comprendre ou caract†riser le pass† partir des donn†es
dispo-nibles : quelles ont †t† les grandes tendances dans l’†volution de la pollution ?
Pourquoi cette rivi–re a eu une †volution diff†rente des autres, etc.
L’analyse prospective
Elle consiste tenter d’extraire des donn†es disponibles, des informations sur
l’†volution future du ph†nom–ne †tudi† : quel sera le taux de pollution venir ? quelle
est l’†volution potentielle d’une rivi–re ? quelle sera la temp†rature des les jours venir
? quels seront les clients forte potentielle dans l’achat des nouveaux produits ? etc.
9


Il a †t† d†cid† de limiter dans ce projet, nos travaux une approche r†trospective
chronologique.

2.4.4

Les composantes des s†ries temporelles

Les s†ries temporelles pr†sentent l’†volution d’un ph†nom–ne qui peut prendre
plu-sieurs formes telles que :
La tendance
long terme (ou trend)
La tendance repr†sente le mouvement profond de l’†volution long terme du ph†nom–

ne.

Les variations saisonni–res
Les variations saisonni–res ou la saisonnalit† des fluctuations p†riodiques s’†quilibrent
autour de la tendance court terme. Les variations saisonni–res ont de multiples causes :
cycle des saisons, dispositions r†glementaires, dont les effets se produisent date fixe.

Les ruptures temporelles
Les ruptures temporelles correspondent soit des †v–nement irr†versibles telles que
les catastrophes soit des †v–nements singuliers (coupures foresti–res, construction
d’une route, ...). Elles font intervenir des composantes conjoncturelles ou
accidentelles pour tenir compte des ph†nom–nes particuliers, limit†s dans le temps
(gr–ves, actions volontaristes ou publicitaires).

2.5

Les donn†es Fresqueau

2.5.1

La description des donn†es

Les donn†es collect†es portent sur deux grands bassins hydrographiques, correspondant
aux districts Rhin-Meuse (33.000 km2) et Rhæne-M†diterran†e et Corse (130.000km2), pour
une p†riode de temps allant de 1995 2010. Ces donn†es, couvrant les deux dis-tricts, ont †t†
int†gr†es une base PostgreSQL/PostGIS. Cette base contient 80 tables, dont certaines ont
un nombre de lignes important. On trouve notamment plus de cinq cent milliers de lignes
correspondant des mesures climatiques, plus de quatorze millions de mesures pour la
physico-chimie, plus de neuf millions d’exploitations dans le registre parcellaire graphique,
plus de huit millions de b¥timents et plus d’un million de troncons hydrographiques. De plus

vingt-deux des tables poss–dent au moins un attribut repr†-sentant une g†om†trie. Des
donn†es physico-chimiques et biologiques couvrant la France
10


enti–re pour la p†riode 2007-2013, ont †galement †t† acquises dans le cadre d’un
projet financ† par l’ONEMA (2015-2016). L’association de dates aux donn†es font
d’elles des donn†es chronologiques.

2.5.2

Les probl–mes li†s aux donn†es

De nombreuses difficult†s sont rencontr†es dans le traitement des s†ries temporelles. En
effet les donn†es sont g†n†ralement bruit†es, peuvent contenir des valeurs redondantes, et
dans la majorit† des cas elles sont de longueurs diff†rentes (nombres d’†v†nements
diff†rents) ou de dur†es diff†rentes. En particulier dans le cas des donn†es sur lesquelles
nous travaillons, qui sont des donn†es environnementales li†es la qualit† biologique et
physico-chimique des cours eau, nous avons pu identifier les probl–mes suivants.
Une forte h†t†rog†n†it† des donn†es.
Des donn†es manquantes.

Des s†quences de longueurs variables qui engendrent un probl–me
d’inad†quation de l’application de certaines m†triques de calcul de distance
telle que la distance euclidienne.
Le manque de connaissance sur le type des ph†nom–nes analysables pour
ces donn†es.
Et pour terminer, nous avons le probl–me de distorsion (la distorsion ici est due
la variabilit† des dimensions s†quentielles) temporelle des ph†nom–nes.
De nombreuses m†thodes et techniques existent pour la r†solution de ces probl–mes.


11


Chapitre 3
tude de l’existant et les travaux
connexes
Ce chapitre fait l’objet de l’†tude de l’existant (syst–me d’analyse de donn†es
FoDo-MuST) tant ces librairies que ces interfaces et des travaux connexes relatifs
l’analyse des donn†es temporelles afin de mieux comprendre le sujet.

3.1

tude de l’existant

FoDoMuST (Fouille de donn†es Multi-Strat†gie Multi-Temporelles) est un
environne-ment d’analyse de donn†es d†velopp† et maintenu par l’†quipe SDC.
Librairies
La plateforme FoDoMuST est compos†e de deux librairies principales que nous
pr†-sentons avec chacune son ræle.
JCL qui est une librairie de clustering en java et d†velopp†e par l’†quipe SDC
d’ICube. En r†sum† c’est une librairie compos†e de classifieurs.
JSL qui est une biblioth–que d’algorithmes de segmentation de donn†es soit
propres ICube soit propos†s par l’Orfeo Tool Box (OTB).
Interfaces
FoDoMuST contient trois interfaces d†di†es chacune une famille d’applications
diff†-rentes. Ces trois interfaces sont :
Classifx qui est l’interface d†di†e
l’analyse et la classification de donn†es temporelles de format ARFF.


12


MultICube qui est l’interface d†di†e
s†ries temporelles d’images.
Ivisualize qui est l’interface d†di†e
porelles g†ographiques.

l’analyse et la classification de l’analyse de

l’analyse et la classification des s†ries tem-

Architecture de FoDoMuST
La plateforme d’analyse FoDoMuST est un outil qui permet le traitement des
donn†es de type image, des donn†es de type shapes et celles de type arrf. La figure
ci-dessus est une pr†sentation de la structure de FoDoMuST.

Figure 3.1

3.2

Structure de FoDoMuST
[13]

Travaux connexes

Le clustering des donn†es, en particulier des donn†es temporelles reste un challenge
dans le monde d’apprentissage. Ainsi nous nous int†ressons aux travaux qui ont †t† effectu†s dans le domaine de l’analyse de s†ries temporelles afin de mieux comprendre comment
de tels probl–mes sont trait†s et quels ont †t† les r†sultats obtenus lors des exp†riences au
cours de ces travaux. Dans une premi–re approche nous allons †tudier les algorithmes clas13



siques du machine learning permettant l’apprentissage non supervis† et dans une deuxi–me
approche nous allons †tudier les algorithmes du deep learning permettant l’apprentissage

non supervis†.

3.2.1

Approche des algorithmes classiques du machine learning

Dans l’article [3] deux algorithmes ont †t† mix†s pour le regroupement des th†matiques
sur le climat. Il s’agit de l’algorithme de CHA (Classification Hi†rarchique Ascendante) pour la
partie construction des premiers centres qui a permis dans ces travaux d’am†liorer la
s†lection des centres et la qualit† de la classification. Ainsi, de l’algorithme SWAP qui lui est
lanc† partir des centres issus de CAH et toutes les permutations des centres possibles sont
faites ce niveau. Enfin on calcule leur effet sur la somme des dissimilarit†s entre les centres
et les autres individus. Dans l’article [2] les travaux sont exp†riment†s sur des jeux de
donn†es personnelles de voyage bas†es sur le GPS et recueillies dans une base de
donn†es de Shanghai pour comparer les r†sultats des algorithmes T-DBSCAN et DBSCAN
[6]. Les r†sultats lors de ces exp†riences ont indiqu† que T-DBSCAN am†liore de facon
efficace la fois la pr†cision et la vitesse de calcul dans la segmentation de tra-jectoire. Les
algorithmes classiques n’ayant pas tous la capacit† d’extraire les motifs les plus importants
des donn†es temporelles pour le clustering, des algorithmes d’extraction sont utilis†s avant
de passer la phase de clustering. Parmi ces algorithmes d’extrac-tion, l’algorithme TSFRESH
: Time Series FeatuRe Extraction Scalable Hypothesis [5] a †t† utilis† pour une extraction
rapide d’un grand nombre de fonctions compatibles l’apprentissage automatique. Parmi ces
fonctions extraites nous pouvons citer le nombre de pics d’une s†rie, la valeur moyenne
d’une s†rie, les maximums d’une s†rie, les mini-mums d’une s†rie, la statistique de sym†trie
par inversion du temps, ainsi que d’autres motifs importants et plus complexes. TSFRESH a

eu son application sur terrain pour de nombreux avantages dont sa robustesse, son filtrage
des motifs est correct du point de vue statistique et math†matique, sa riche documentation,
mais surtout sa flexibilit† et extensibilit†. Ces avantages permettre de r†duire le temps
consacr† l’analyse des s†ries temporelles et d’avoir plus de temps de faire de
l’apprentissage profond du probl–me afin de construire de meilleurs mod–les.

14


×