Tải bản đầy đủ (.pdf) (56 trang)

(Luận văn thạc sĩ) contribution au développement d’une intelligence de conduite pour le train autonome ,đóng góp phát triển thông minh nhân tạo cho lái tàu tự động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.27 MB, 56 trang )

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ
INSTITUT FRANCOPHONE INTERNATIONAL

Yasser HAMIDULLAH

Contribution au développement d’une
intelligence de conduite pour le train autonome

Đóng góp phát triển thông minh nhân tạo
cho lái tàu tự động

MÉMOIRE DE FIN D’ÉTUDES DU MASTER
INFORMATIQUE

HANOÏ - 2019


UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ
INSTITUT FRANCOPHONE INTERNATIONAL

Yasser HAMIDULLAH

Contribution au développement d’une
intelligence de conduite pour le train autonome

Đóng góp phát triển thông minh nhân tạo
cho lái tàu tự động
Spécialité : Systèmes Intelligents et Multimédia
Code : Programme pilote

MÉMOIRE DE FIN D’ÉTUDES DU MASTER


INFORMATIQUE
Sous la direction de :
M. Sébastien LEFEBVRE ( Chef de projet - IRT Railenium)

HANOÏ - 2019


ATTESTATION SUR L’HONNEUR
J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données
et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La
source des informations citées dans ce mémoire a été bien précisée.

LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu
trong Luận văn là trung thực và chưa từng được ai cơng bố trong bất kỳ cơng
trình nào khác. Các thơng tin trích dẫn trong Luận văn đã được chỉ rõ nguồn
gốc.

Signature de l’étudiant

Yasser HAMIDULLAH


Remerciements

La réalisation de ce mémoire a été possible grâce au concours de plusieurs personnes
à qui je voudrais témoigner toute ma gratitude.
J’aimerais tout d’abord remercier mon encadreur pédagogique de stage Dr Damien
Trenteseaux du Laboratoire d’Automatique, de Mécanique et d’Informatique Industrielles
et Humaines(LAMIH) à l’Université Polytechnique Hauts-de-France. La porte du bureau

du professeur Trenteseaux était toujours ouverte chaque fois que je rencontrais un problème ou si j’avais une question sur mes recherches. Il a toujours permis que ce document
soit mon propre travail, mais il m’a guidé dans la bonne direction chaque fois qu’il pensait que j’en avais besoin.
Je tiens également à remercier M. Sebastien LEFEBVRE et toute l’équipe de l’IRT Railenium qui ont participé à la réalisation et validation de ce projet. Ce travail n’aurait pu
être accompli sans leur effort et leur contribution passionnées.
Je voudrais remercier notre responsable de Master Dr Ho Tuong Vinh ainsi que tous
les personnels pédagogiques et administratifs de l’Institut Francophone International,
Université National de Vietnam à Hanoi. Je leur suis reconnaissant de tout cœur pour
avoir assuré et amélioré la qualité de notre formation.
Enfin, je tiens à exprimer ma profonde gratitude à mes parents, à ma famille et à
Mme Võ Thu Trang pour m’avoir apporté un soutien indéfectible et des encouragements
constants tout au long de mes années de Master. Sans oublier mes amis qui ont toujours
été là pour moi. Votre soutien inconditionnel et vos encouragements ont été d’une grande
aide. Je vous remercie.

Yasser HAMIDULLAH



Résumé
Ce projet en collaboration avec l’IRT Railenium & LAMIH vise principalement à
résoudre le problème de conduite autonome dont la première tentative de résolution
était à base des données. En effet, ces données ne sont pas encore disponibles, alors
les tâches préliminaires à faire étaient la récolte et génération des données nécessaires
dont le formattage de ces dernières fait parti des objectifs secondaires de ce projet.
Malgrộ ỗa, nous avons proposộ et implộmentộ une approche utilisant une structure
perceptron multi-couche avec cross-entropy (MLP-CE) entrainée avec des données de
conduite du simulateur qui n’a pas abouti à un bon résultat. Ceci nous a mené à traiter
d’abord ce problème d’un autre point de vue, de la décision et contrôle en faisant appel
aux approches du domaine différents "théorie de contrôle" qui cherche généralement
le contrôle optimal d’un système ; et de "l’apprentissage par renforcement" qui est basé

sur la théorie d’optimalité de Bellman.
D’une part le PID avec lequel on a eu un résultat plus stable cependant sa versatilité
n’est pas très assurée et d’autre part le RL Qlearning avec une discrétisation de l’espace
d’état qui a montré sa capabilité de s’adapter et le comportement préventif ; malgré
cela cette technique souffre d’un sérieux problème au niveau de stockage qui pourra
ralentir l’algorithme. Face à ce problème nous avons proposé une solution typique avec
un réseau de neurone de type Deep Q-Network qui échappera le problème de stockage
mais qui peut être inutile si l’espace est continu.
Notre contribution principale dans ce projet est la modélisation de ce problème en
processus de décision markovien qui nous a permis d’utiliser les techniques dérivées
telles que le Qlearning, et le Deep Q-learning. La contribution technique est caractérisée par l’utilisation du MLP-CE et l’adaptation du contrôleur PID aux contraintes
spécifiques de notre simulateur.
Les prochaines étapes dans ce projet seront la validation de nos résultats avec des
données réelles ou des simulateurs à haute fidélité ou encore avec des simulateurs à
niveau d’abstraction moyenne qui est adéquat pour le système de transport. Enfin,
des scènes et cas plus complexes seront aux limites des modèles mathématiques, physiques et dynamiques nécessiteront une recherche parallèle dans l’éthique. En faisant
correspondre le comportement du nouveau système à l’éthique, nous faciliterons son
acceptation auprès de la société.
Mots clés : Train autonome, système autonome, intelligence artificielle, théorie de
contrôle, apprentissage automatique, apprentissage par renforcement, processus de
décision markovien.


Abstract
This project in collaboration with the IRT Railenium LAMIH is mainly aimed at solving the problem of autonomous driving whose first attempt at resolution was based
on the data. In fact, these data are not yet available, so the preliminary tasks to be done
were the collection and generation of the necessary data, the formatting of which is
part of the secondary objectives of this project. In spite of that, we proposed and implemented an approach using a multi-layer perceptron with cross-entropy (MLP-CE)
trained with generated data from simulator that did not lead to a good result. This has
led us to deal with this problem from another point of view, from decision and control,

using the different approaches from "control theory" which generally seeks the optimal
control of a system ; and "reinforcement learning" which is based on Bellman’s theory
of optimality.
On the one hand the PID controller, with which we had a more stable result whose
versatility is not very assured. On the other hand RL Qlearning with a discretization of
the state space of the MDP problem that showed its ability to adapt and gives a preventative behavior ; despite this, this technique suffers from a serious storage problem that
may slow down the algorithm. Faced with this problem we have proposed a solution
with neural network (DQN) that will escape the storage problem but may be useless if
the space is continuous.
Our main contribution in this project is the modeling of this problem as Markov
decision process problem which allowed us to use derived techniques such as Qlearning, and Deep Q-learning. The technical contribution is characterized by the use of
the MLP-CE and the adaptation of the PID controller to the specific constraints of our
simulator.
The next steps in this project will be the validation of our results with real data or
high-fidelity simulators or with a medium-level abstraction simulator that is adequate
for the transport system. Finally, more complex scenes and cases will be at the limits of
mathematical, physical and dynamic models will require a parallel search in ethics. By
matching the behavior of the new system to ethics, we will make it easier for society to
accept it.
Keywords : Autonomous train, machine learning, reinforcement learning, autonomous system, artificial intelligence, control theory, Markov decision process.


Table des matières

Liste des tableaux

iv

Table des figures


v

1 Introduction générale
1.1 Présentation de l’établissement d’accueil
1.1.1 IRT Railenium . . . . . . . . . . . .
1.1.2 LAMIH . . . . . . . . . . . . . . . .
1.2 Contexte et problématique . . . . . . . .
1.2.1 Le projet Train Autonome . . . . .
1.2.1.1 Objectifs . . . . . . . . . .
1.2.1.2 Problématiques . . . . . .
2 Etat de l’art
2.1 Train Autonome . . . . . . . . . . . . . . .
2.2 Optimisation de trajectoire . . . . . . . .
2.2.1 Méthodes analytiques . . . . . . .
2.2.2 Algorithmes numériques . . . . .
2.2.3 Algorithmes évolutionnaires . . .
2.3 Contrôle de vitesse de train . . . . . . . .
2.3.1 Contrôleur PID . . . . . . . . . . .
2.3.2 Méthodes de contrôle intelligents
2.3.3 Méthodes de contrôle adaptatives
2.4 Conlusion . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.


.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.

.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.


.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.

.

1
3
3
3
5
5
5
5

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.


8
8
9
9
10
10
11
11
12
12
13

3 Solutions proposées et contributions
3.1 Architecture générale des solutions . . . . . . . . . . . . . .
3.2 Approche 1 : Qlearning . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Les concepts utilisés . . . . . . . . . . . . . . . . . . .
3.2.1.1 Processus de décision markovien (MDP) . .
3.2.1.2 Processus de récompense markovien (MRP)

.
.
.
.
.

.
.
.
.

.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.

.

.
.
.
.
.

.
.
.
.
.

14
14
16
16
16
17

i

.
.
.
.
.
.
.

.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.
.


TABLE DES MATIÈRES

3.2.1.3 MDP en espace continu normalisée (discrétisation) . . . .
3.2.1.4 Qlearning, Deep Qlearning, Q-Networks Deep Q-Networks
3.2.2 L’algorithme proposé . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2.1 Qlearning . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2.2 Deep Q-Network (Qlearning avec réseau de neurone approximateur) . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Approche 2 : PID (Proportionnel Intégral Dérivé) . . . . . . . . . . . . . . .
3.3.1 Les concepts utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1.1 Réglage proportionnel (P) . . . . . . . . . . . . . . . . . . . .
3.3.1.2 Réglage intégral (I) . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1.3 Réglage dérivé . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1.4 Les méthodes de réglage de PID . . . . . . . . . . . . . . . .
A
Algorithme Twiddle . . . . . . . . . . . . . . . . . .
B

La descente du gradient stochastique avec backpropagation . . . . . . . . . . . . . . . . . . . . . . .
C
Réglage manuelle . . . . . . . . . . . . . . . . . . .
3.3.2 L’algorithme proposé . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A
Implémentation . . . . . . . . . . . . . . . . . . . .
3.4 Approche 3 : Percéptron multicouche avec Cross-Entropy . . . . . . . . . .
3.4.1 Les concepts utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1.1 Perceptron, Perceptron multicouches . . . . . . . . . . . . .
3.4.1.2 Cross-Entropy . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1.3 Données utilisées . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 L’algorithme proposé . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.3 La structure du MLP . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.3.1 La méthode d’entrnement . . . . . . . . . . . . . . . . . .

17
18
19
19
20
20
21
21
21
21
21
21
22
22
22

23
23
23
24
24
24
24
24
25

4 Résultats et analyses

26

Résultats et analyses
4.1 La phase d’entrnement . . . . . . . . . . . . . . . . . . .
4.1.1 Le suivi du profil . . . . . . . . . . . . . . . . . . . .
4.1.2 Le suivi du retard en temps . . . . . . . . . . . . . .
4.1.3 Le suivi de la récompense (pour DQN/Qlearning) .
4.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Règles basiques . . . . . . . . . . . . . . . . . . . . .
4.2.2 Qlearning . . . . . . . . . . . . . . . . . . . . . . . .
4.2.3 MLP avec cross-entropy . . . . . . . . . . . . . . . .
4.2.4 PID . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . .

26
26
26
27

27
27
29
29
30
31
32

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

5 Conclusion et Perspectives
35

5.1 Conclusion générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
ii


TABLE DES MATIÈRES

A Algorithmes
40
A.1 Implémentation du Qlearning . . . . . . . . . . . . . . . . . . . . . . . . . . 40
A.2 Implémentation de la structure du DQN . . . . . . . . . . . . . . . . . . . . 41
A.3 PID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.4
MLP

iii


Table des figures

1.1
1.2
1.3
1.4

Logo Railenium . . . . . . . . . .
Logo LAMIH . . . . . . . . . . . .
L’entrée et sortie prévues . . . .
la génération du plan de vitesse


.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.

3
3
6
6

3.1
3.2
3.3
3.4
3.5
3.6

Architecture de la solution . . . . . . . . . . . . . . . . . .
La règle basique . . . . . . . . . . . . . . . . . . . . . . . .
Etape de discrétisation . . . . . . . . . . . . . . . . . . .
Algorithme proposé avec qlearning . . . . . . . . . . . .
Conduite à base de réseau de neurones du modèle DQN
Conduite avec le régulateur PID . . . . . . . . . . . . . .

.

.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.

.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.

.

.
.
.
.
.
.

.
.
.
.
.
.

15
16
18
19
20
23

4.1
4.2
4.3
4.4
4.5
4.6
4.7


Vitesse durant la phase d’apprentissage dans le simulateur
La variation de la récompense durant l’apprentissage . . .
Le suivi du temps de retard dans le simulateur . . . . . . . .
Règles basiques . . . . . . . . . . . . . . . . . . . . . . . . . .
Qlearning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
MLP avec Cross-Entropy . . . . . . . . . . . . . . . . . . . . .
PID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.

.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

27
28
28
29
30
31
31

iv


.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.


Liste des tableaux

4.1

4.2
4.3
4.4

Paramètres Qlearning
Paramètres MLP-CE .
Paramètres PID . . . .
Tableau comparatif . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.

.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

v

.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.

.
.
.
.

29
30
31
34


Liste des sigles et acronymes

DQN

Deep Q-Network

IRT


Institut de Recherche Technologique

MDP

Markov Decision Process

PID

Proportional Derivate Integral


Chapitre

1

Introduction générale
L’automatisation est certes l’une des plus grands challenges du domaine des transports et de la mobilité actuelle. Les nouveaux robots de transport deviennent de plus
en plus intelligents voire autonomes. Par rapport à l’automatisation des véhicules, celle
des trains prend beaucoup de temps par rapport aux voitures et aux avions. Avec différents acteurs de la concurrence et tous visant le même objectif, il semble que le secteur
des trains va se développer à un rythme effréné. Nous pouvons avoir un sentiment
d’excitation brute quant la faỗon dont le marchộ des trains autonomes va se développer, étant donné que l’industrie automobile autonome devrait atteindre 7 000 milliards de dollars d’ici 2050 1 . La troisième révolution du transport ferroviaire est sur les
rails. Après l’électrification des voies et la grande vitesse, voici venir les trains digitalisés à conduite autonome. Autrement dit, des trains où l’intelligence artificielle (IA)
fera office de copilote. A la SNCF, on estime que les premiers trains autonomes fret et
voyageurs circuleront sur les lignes dès 2023 2 .
L’automatisation des trains se traduit par des bénéfices concrets pour les voyageurs
et les clients du fret dont : une plus grande capacité (faire rouler plus de trains, c’est
pouvoir transporter plus de personnes et de marchandises), plus de fluidité et de régularité (grâce à une circulation harmonisée et à une vitesse optimisée, permettant de
mieux faire face aux imprévus) et une ambition écologique (grâce à une diminution de
la consommation d’énergie).
Après le premier déploiement réussi de l’Australie en 2018, on se rend compte qu’il

n’y avaient pas qu’eux seuls avait ce projet en projection. A part la France, on peut lister
quelques pays qui travaillent pour la mise sur les rails leur premier trains autonomes
d’ici quelques années, il s’agit de l’Allemagne, la Suisse, l’Angleterre, le Pays-Bas et l’Autriche 3 .
Dans le cadre de projet train autonome s’inscrit notre projet de recherche. Il faut
1. https
://analyticsindiamag.com/cars-planes-but-no-autonomous-trains-what-is-the-matterwith-this-sector/
2. https ://www.sncf.com/fr/innovation-developpement/innovation-recherche/trains-autonomescirculeront-en-2023
3. https ://mediarail.wordpress.com/2018/09/23/le-train-autonome-ou-en-est-on-reellement/

1


CHAPITRE 1. INTRODUCTION GÉNÉRALE

mentionner que ce train aura deux prototypes, un train voyageur et un train fret dans
le lequel notre travail était intégré. Parmi les blocs technologiques nécessaire dans ce
projet, celui qui permettra la prise de décision autonome du futur train autonome, le
composant qui lie les informations des différentes sources de capteurs et les états pour
les utiliser comme source d’entrée du conducteur autonome. Plusieurs aspects sont
traités dans cette partie de projet, à savoir l’aspect conduite proprement dite, l’aspect
sécurité à bord, sécurité de l’environnement. Dans ce rapport nous allons détailler nos
approches pour la conduite intelligente du train. Au début nous souhaitions traiter
ces aspects en utilisant une seule approche pour tous les aspects mais notre résultat
intermédiaire a démontré que la meilleure solution est de commencer par traiter ce
problème en petit sous problèmes à traiter séparément. Nous avons pu nous concentrer sur la conduite proprement dite pour laquelle il existe dans la littérature plusieurs
techniques qui traitent les mêmes problématiques. En plus, nous avons proposé différentes contributions, des versions adaptées à notre projet avec la comparaison sur ces
différentes méthodes proposées.
Ce manuscrit sera organisé comme suit : premièrement nous allons présenter l’état
de l’art de ce domaine, dans un deuxième temps nous nous concentrions sur les solutions théoriques que nous avons retenues, suivi de l’implémentation avec résultats et
analyses et dans la dernière partie les perspectives et la conclusion


2


©IGN

CHAPITRE 1. INTRODUCTION GÉNÉRALE

F IGURE 1.1 – Logo Railenium
F IGURE 1.2 – Logo LAMIH

1.1 Présentation de l’établissement d’accueil
Ce stage s’est déroulé dans deux environnements différents, principalement au sein
de l’IRT Railenium (industriel) 3 à 4 jours par semaine, et au LAMIH (académique) 1 à
2 jours par semaine.

1.1.1 IRT Railenium
Railenium, L’Institut de Recherche Technologique de la filière ferroviaire, met en
œuvre des projets d’innovation en créant des partenariats entre industriels et académiques. Il coordonne la réalisation de projets d’innovation répondant aux enjeux de
filière en lien avec les pouvoirs publics.
Railenium a pour mission d’accompagner le développement de la filière ferroviaire
face à deux défis de taille que constituent l’accélération du report modal et la concurrence des pays émergents. L’IRT s’attache en effet à développer, valider et tester des
technologies et solutions innovantes qui doivent répondre à quatre enjeux prioritaires
de la filière : l’augmentation de la capacité de transport à iso-infrastructure, l’accroissement de la fiabilité en service, la réduction et la mtrise des cỏts, réduction du
temps de mise sur le marché. En réponse à ces enjeux, Railenium a mis en place 3
programmes stratégiques repris dans le contrat stratégique de filière : Centre d’essai
Ferroviaire, Train autonome et Modélisation et prévision ferroviaire 4 .

1.1.2 LAMIH
Le LAMIH UMR CNRS 8201 (Laboratoire d’Automatique, de Mécanique et d’Informatique Industrielles et Humaines) est une unité mixte de recherche entre l’Université Polytechnique des Hauts-de-France (UPHF) et le Centre National de la Recherche

4. https ://railenium.eu

3


CHAPITRE 1. INTRODUCTION GÉNÉRALE

Scientifique (CNRS). Sa nouvelle structure est issue de la fusion au 1er janvier 2015
avec le laboratoire TEMPO EA 4542 Carnot ARTS. Le LAMIH est organisé en 4 départements disciplinaires bien identifiés : Automatique, Mécanique, Informatique, Science
de l’Homme et du Vivant (SHV). Au sein de chaque département existent des thèmes
de recherche (2 ou au maximum 3) qui peuvent évoluer au cours du temps et des différentes roadmaps à venir. Il a un rattachement principal à l’INS2I où il relève des sections 06 pour le département Informatique et 07 pour le département Automatique.
Il a deux rattachements secondaires, à l’INSIS sections 09 et 10 pour le département
Mécanique et à l’INSB section 26 pour SHV 5 .

5. https ://www.uphf.fr/LAMIH

4


CHAPITRE 1. INTRODUCTION GÉNÉRALE

1.2 Contexte et problématique
1.2.1 Le projet Train Autonome
Le programme « Train Autonome » de l’IRT Railenium vise une innovation de rupture en apportant notamment les outils et briques technologiques nécessaires au développement du train autonome et répond ainsi aux enjeux clés de la filière. L’augmentation de la capacité de transport : la conduite autonome sera mieux mtrisée qu’en
manuel et permettra d’augmenter l’occupation des infrastructures ; à plus long terme,
la conjugaison de la conduite autonome avec la mise en œuvre de « cantons mobiles »
ou encore de couplage virtuel des trains permettra un bond en avant dans l’augmentation de la capacité de transport ; L’accroissement de la fiabilité : par l’amélioration de
la ponctualité et de la sécurité globale du système (conduite, signalisation/ contrôlecommande, exploitation) grâce à des systèmes d’aide à la conduite dans un premier
temps, puis des systèmes de télé-conduite en lien avec le poste de supervision et enfin
grâce aux systèmes de conduite autonome ; La réduction des coûts d’investissement,

d’exploitation et de maintenance : la signalisation sera plus légère avec moins d’équipements à la voie. L’exploitation des trains sera plus souple avec des conducteurs au sol
capables de télé-conduire plusieurs trains à la fois ou avec des trains complètement
autonomes. Avec l’augmentation de la capacité de transport, c’est le coût de l’infrastructure rapporté au passager transporté qui pourra être considérablement rộduit. De
faỗon transverse, la rộponse ces enjeux permettra damộliorer l’attractivité du ferroviaire avec notamment plus de ponctualité, de flexibilité en heures de pointe ou encore
d’expérience voyageur 6 .
1.2.1.1 Objectifs
Les travaux effectués dans ce stage ont pour objectifs, de faire un premier benchmark des solutions pour la conduite autonome. Il est aussi prévu qu’après nos études,
nous serons capables de définir les formats d’entrée de notre solution. En résumé, les
objectifs peuvent être regroupés en 2 catégories :
— Proposer et implémenter des méthodes de conduite autonome.
— Comparer ses techniques et proposer des améliorations et perspectives permettant d’avoir des résultats plus optimaux.
1.2.1.2 Problématiques
Sachant que pour conduire, le conducteur doit prendre en compte de l’état de l’environnement et du train, venant de plusieurs sources d’informations qui seront ensuite
reformulés en contraintes (sécurité à bord du train, sécurité de l’environnement(les
piétons, les animaux, etc)) et la conduite proprement dite (basée sur la mission et le
plan définit du voyage).
6. https ://railenium.eu/fr/train-autonome/

5


CHAPITRE 1. INTRODUCTION GÉNÉRALE

D’autres lots de ce projet travaillent sur les parties qui traitent les données pour
pouvoir être données en entrée pour notre solution (de conduite).

F IGURE 1.3 – L’entrée et sortie prévues
Les problématiques suivant sont posés afin de bien se conformer à nos objectifs
initiaux :
— Comment faire pour générer le plan ?

— Comment assurer la sécurité à bord du train et de l’environnement ?
— Comment allons-nous donner des commandes en sortie tout en prenant compte
des ces 3 contraintes ?

F IGURE 1.4 – la génération du plan de vitesse
A ce stade du projet, le format des données d’entrée de notre solution n’a pas encore été
défini, alors on a considéré pour l’instant que le plan de vitesse était sous forme d’une
indication sur la consigne de vitesse durant chaque point dans le temps du voyage.
Pendant ce temps, la génération du plan de vitesse est encore une autre problématique
6


CHAPITRE 1. INTRODUCTION GÉNÉRALE

qui sera traitée indirectement mais qui fait parti des éléments classiques nécessaires
pour la conduite. Donc on n’a pas proposé une solution précise pour le traiter mais
à travers les techniques de l’Etat de l’art qu’on présente dans le chapitre suivant on
énumère les différentes solutions existantes pour ce problème.

7


Chapitre

2

Etat de l’art
2.1 Train Autonome
Bien que la plupart des projets mondiaux sur le train autonome soient actuellement
en phase d’initialisation, en 2018, l’Australie a réussi à terminer, le premier voyage d’un

train autonome. Les locomotives ont parcouru plus de 280km, seules sur une ligne
à voie unique dans une region desertique là où on estime une très petite probabilité
d’obstacle.
Les Pays-bas par ProRail et Rotterdam Rail Feeding (RRF) a annoncé leur souhait
de créer une ligne réservée au trafic fret pour le test de fonctionnement automatisé des
trains.
L’Allemagne via son Deutsche Bahn, en 2018, a transformé une section de plusieurs
kilomètres en un terrain d’essai pour le train autonome qu’ils envisagent de mettre en
place d’ici 2023.
La Suisse a fait un test du train autonome en 2017 et prévoit l’exploitation de ceuxci d’ici 2025.
L’Autriche s’est mis aussi en rang dans ce progrès en faisant circuler une automotrice d’une manière autonome à l’aide d’un logiciel (commande de conduite, freinage
et contrôle des points d’arrêts et obstacles). Ils se sont aussi lancés dans le développement des systèmes de démonstrations qui facilitera l’approbation des nouveaux produits du domaine ferroviaire.
La France par la SNCF qui prévoit de mettre en marche d’ici 2023 des trains voyageurs et frets autonome.
Enfin l’Angleterre par Thameslink qui a fait son premier pas en faisant un test de
conduite par ordinateur du train avec présence humaine à bord, car pour eux ils ont
toujours besoin des conducteurs. Du moins pour l’instant le but est de fluidifier le trafic 1 .
1. https ://mediarail.wordpress.com/2018/09/23/le-train-autonome-ou-en-est-on-reellement/

8


CHAPITRE 2. ETAT DE L’ART

2.2 Optimisation de trajectoire
Pour un trajet donné, les limites sont fixées au départ du train dans un plan de vitesse. N’ayant que les limites extrêmes définies, le conducteur alors est libre de le respecter à sa faỗon. Cette libertộ peut coỷter trốs cher, notamment en termes de consommation énergétique, de confort passagers, de capacité de la ligne, ... D’où la nécessité
d’avoir un plan de vitesse recommandé. La recherche d’une solution optimale revient
à un problème d’optimisation, en formulant des contraintes telles que : la ponctualité,
la limite de vitesse,..
En tant que parties complémentaires du système ATO, le contrôleur de vitesse recommandé et le contrôleur de vitesse de train répondent de manière coopérative aux
exigences de fonctionnement en matière d’automatisation et d’efficacité. L’optimisation recommandée du profil de vitesse (ou de la trajectoire du train) est généralement

formulée comme un problème de contrôle optimal [1].

2.2.1 Méthodes analytiques
L’une des principales méthodologies de solution pour l’optimisation du profil de
vitesse est l’algorithme analytique, qui repose généralement sur la théorie du contrôle
optimal et résolu par le principe du maximum de Pontryagin ((Howlett et Pudney,
1995 ; Khmelnitsky, 2000 ; Liu et Golovitcher, 2003)). Ce type de solution permet d’obtenir la solution théoriquement optimale, mais nécessite des propriétés rigides des modèles mathématiques formulés.
Par conséquent, les algorithmes analytiques existants ne considèrent généralement
que deux objectifs, à savoir la consommation d’énergie et la ponctualité des trains,
dans un environnement simplifié du processus de modélisation. Par exemple, pour atteindre la consommation de carburant minimale dans un temps de trajet donné, Howlett et Pudney (1995) et Howlett (2000) ont formulé un modèle de contrôle de train
discret sur une pente relativement plate.
Considérant une situation pratique avec des gradients variables et des limites de
vitesse arbitraires, Khmelnitsky (2000) a conỗu un algorithme pratiquement efficace
basộ sur le principe maximum pour trouver le profil de vitesse optimal minimisant la
consommation d’énergie.
De plus, Su et al. (2013) ont proposé d’optimiser la consommation d’énergie globale
en prenant en compte les profils de vitesse d’un train sur chaque segment. C’est une
approche de programmation à deux niveaux. Dans le premier niveau, un algorithme
efficace avec une vitesse de calcul rapide est développé sur la base du principe de Pontryagin maximum. Dans le deuxième niveau, la répartition du temps de parcours total
est optimisée pour le profil de vitesse économe en énergie sur l’ensemble du parcours.

9


CHAPITRE 2. ETAT DE L’ART

2.2.2 Algorithmes numériques
Les algorithmes numériques, impliquant la programmation dynamique (DP) (Ko
et al., 2004), la programmation quadratique séquentielle (Miyatake et Matsuda, 2009)
et la méthode du multiplicateur de Lagrange (Rodrigo et al., 2013), ont relativement

moins d’exigences pour l’objectif fonction et peut faire un compromis entre performances d’optimisation et temps de calcul.
Comme les méthodes selon le principe de Pontryagin maximum rencontrent souvent des difficultés pour rendre compte des modèles dynamiques complexes des trains,
des limites de vitesse variables et des gradients, etc., Ko et al. (2004) ont reformulé le
processus de circulation des trains en un processus de décision en plusieurs étapes
et appliqué la programmation dynamique (DP) à la recherche directe de la stratégie
de contrôle optimale. Le profil de vitesse optimal peut être obtenu dans des délais de
calcul pratiquement acceptables, même lorsque la méthode est appliquée à des conditions de fonctionnement complexes et réelles.
Compte tenu des contraintes opérationnelles complexes et des contraintes de signalisation, Wang et Goverde (2016) ont formulé le problème d’optimisation de la trajectoire d’un train dans un modèle de contrôle optimal à plusieurs phases résolu par
une méthode pseudospectrale. En particulier, cette approche permet de calculer les
trajectoires optimales des trains dans les situations de retard et de non retard afin de
minimiser le temps de retard des trains et leur consommation d’énergie [1].

2.2.3 Algorithmes évolutionnaires
Par rapport aux deux types précédents de méthodes, les algorithmes évolutionnaires, par exemple, l’algorithme génétique (GA) (Bocharnikov et al., 2010 ; Chang et
Sim, 1997 ; Wong et Ho, 2004), l’optimisation des colonies de fourmis (ACO) (Ke et al.
., 2009), la recherche tabou (TS) (Liu et al., 2015) et l’algorithme de recuit simulé (SA)
(Kim et Chien, 2011) ont moins d’exigences pour les modèles d’optimisation des profils
de vitesse des trains.
Néanmoins, la plupart de ces algorithmes ne peuvent garantir l’optimalité et la
convergence des solutions. Chang et Sim (1997) ont appliqué l’AG pour déterminer
le point de freinage accéléré sur la côte en évaluant conjointement la consommation
d’énergie, la ponctualité et le confort de conduite. Wong et Ho (2004) ont montré que
l’AG pouvait obtenir un nombre moyen d’itérations plus faible et une solution plus fine
avec plusieurs points de commutation par rapport à la méthode classique de Nelder et
Mead. Ke et al. (2009) ont formulé un modèle d’optimisation combinatoire avec des
contraintes de système de signalisation à bloc fixe afin de minimiser le temps de calcul
et la consommation d’énergie.
Un système Max-min ant (MMAS) de ACO a été mis au point pour rechercher le
profil de vitesse de train optimal, qui s’avère plus efficace que le GA. Lu et al. (2013) ont
appliqué trois algorithmes, à savoir GA, DP et ACO, pour faire la comparaison, les résultats ont indiqué que chaque algorithme présente des avantages pour certains aspects

10


CHAPITRE 2. ETAT DE L’ART

spécifiques (écart, performances, temps de calcul) et pour avoir une solution efficace
il faut en utiliser plusieurs [1].

2.3 Contrôle de vitesse de train
Après avoir généré le profil de vitesse recommandé optimal, la procédure suivante
consiste à mettre au point une méthode efficace pour contrôler les mouvements du
train en fonction des différents modèles de trains (trains métropolitains, trains à grande
vitesse, etc.) et des conditions de circulation (par exemple, tunnels, courbes, pentes
prononcées), afin que le train puisse suivre le profil de vitesse avec précision et circuler
en toute sécurité et en douceur. Dans un système ferroviaire typique, le contrôle de la
vitesse d’un train est généralement effectué par l’une des deux approches suivantes :
— Dans la plupart des lignes de chemin de fer principales, des TGV et des lignes
de métro relevant des GoA1 ou GoA0, les trains sont principalement contrôlés
par les conducteurs. Un système de conseil aux conducteurs (DAS) intégré au
système de contrôle des trains peut donc fournir aux conducteurs des conseils
de conduite supplémentaires maintenir le train à la vitesse recommandée.
— Dans les lignes de métro urbaines avec des niveaux d’automatisation élevés (GoA2,
GoA3 ou GoA4), la fonction de contrôle de la vitesse des trains est réalisée par un
ordinateur de bord doté d’algorithmes de contrôle de la vitesse prédéfinis.

2.3.1 Contrôleur PID
La méthode de contrôle de la vitesse des trains la plus largement utilisée par ATO
est le contrôleur PID qui calcule en permanence la valeur d’erreur entre la vitesse du
train mesurée v et la vitesse recommandée v’ et ajuste la commande de contrôle pour
minimiser l’erreur de suivi de la vitesse dans le temps.

Bien que les contrôleurs basés sur PID puissent atteindre des performances de suivi
relativement bonnes dans une grande variété d’implémentations industrielles, les ingénieurs se concentrent particulièrement sur deux aspects de la conception de contrôleurs basés sur PID dans des applications pratiques pour les systèmes ATO.
D’une part, déterminer les meilleurs coefficients PID est une tâche ardue et la plupart des méthodes existantes reposent sur des expériences manuelles et des jugements
professionnels effectués à de nombreuses reprises sur le terrain.
D’autre part, les contrôleurs basés sur les PID ont toujours un confort de conduite
médiocre en raison des commutations fréquentes des commandes de contrôle des PID,
qui peuvent également augmenter la consommation d’énergie pour les opérations ferroviaires.
Par conséquent, les ingénieurs doivent en pratique formuler des contraintes supplémentaires pour le contrôleur PID afin d’améliorer conjointement les performances
de plusieurs objectifs (précision de suivi, ponctualité, confort, efficacité énergétique)
[1].
11


CHAPITRE 2. ETAT DE L’ART

2.3.2 Méthodes de contrôle intelligents
Comme nous l’avons mentionné ci-dessus, le processus de conduite des trains doit
prendre en compte plusieurs objectifs, à savoir la consommation d’énergie, la ponctualité et le confort de conduite. Comme un seul contrôleur PID est difficile à atteindre de
manière synchrone, de nombreux chercheurs ont commencé à utiliser certaines méthodes de contrôle intelligents (par exemple, le contrôle flou, les systèmes experts)
pour transformer les connaissances et les expériences de conduite en une série de
règles de domaine afin d’améliorer la conduite, confort des passagers et réduire la
consommation dộnergie. Dong et al. (2013) ont conỗu deux approches floues, à savoir un contrôleur de logique floue directe et un contrôleur de logique floue implicite,
et les deux méthodes sont sans modèle.
En outre, certaines autres études utilisent des méthodes de représentation des connaissances (système expert, exploration de données, etc.) pour simuler des stratégies
de conduite expérimentées afin de réaliser un contrôle automatique de la vitesse des
trains. Yin et al. (2014, 2016a, b) ont proposé d’utiliser des algorithmes d’apprentissage
automatique pour apprendre les expériences de conduite à partir de données brutes
historiques au moyen de la représentation des connaissances (Chandrasegaran et al.,
2013).
Sur la base de certaines règles empiriques du domaine, Yin et ses collaborateurs

(2016b) ont d’abord appliqué un algorithme de régression, à savoir CART (classification
et arbre de régression) et des méthodes d’apprentissage d’ensemble (à savoir, Bagging
et LSBoost) afin de représenter les précieuses connaissances spécialisées à partir des
données historiques de conduite de train.
Deux algorithmes d’exploitation de train intelligent (ITO) basés respectivement sur
un système expert et l’apprentissage par renforcement ont également été proposés
(Yin et al., 2014, 2016a). Ces deux algorithmes ITO, qui combinent les avantages des
méthodes de conduite manuelle et de contrôle automatique de la vitesse, se sont révélés efficaces pour améliorer les performances des opérations de métro [1].

2.3.3 Méthodes de contrôle adaptatives
Il est très intéressant de noter que les méthodes de contrôle de la vitesse décrites
ci-dessus, basées sur des expériences de connaissances. Les trains sont généralement
traités comme un modèle de train à point unique dans les études ci-dessus. Néanmoins, la réalisation du contrôle de la vitesse des trains est beaucoup plus difficile en
raison de la complexité des opérations et des caractéristiques de la dynamique des
trains.
Par conséquent, le contrôle de la vitesse des trains est particulièrement considéré
comme l’un des principaux problèmes d’amélioration du degré d’automatisation des
systèmes ferroviaires. Voici quelques études utilisant les méthodes de contrôle adaptatives afin de gérer la complexité et l’incertitude des modèles d’exploitation des trains.
Considérant les forces d’interaction entre les véhicules connectés d’un train, le modèle
12


×