HAL Id: hal-02075368
https://hal.archives-ouvertes.fr/hal-02075368
Submitted on 21 Mar 2019
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Vianney Bordeau, Roland Donat
To cite this version:
Vianney Bordeau, Roland Donat.
MODÉLISATION ET ANALYSE PRÉDICTIVE DES
PRÉCURSEURS DE DANGERS. Congrès Lambda Mu 21 “ Maîtrise des risques et transformation
numérique : opportunités et menaces ”, Oct 2018, Reims, France. �hal-02075368�
MODÉLISATION ET ANALYSE PRÉDICTIVE DES PRÉCURSEURS DE
DANGERS
MODELING AND PREDICTIVE ANALYSIS OF HAZARD PRECURSORS
Vianney BORDEAU
Roland DONAT
RATP
EdgeMind
LAC VH51 - Avenue du Val de Fontenay
23 rue du Départ – Boîte 37
94724 Fontenay-Sous-Bois
75014 Paris
Résumé
La RATP développe une politique de sécurité lui permettant de se prémunir des événements redoutés. Depuis près de quinze ans, l’analyse des précurseurs de dangers des réseaux ferroviaires de la RATP, permet de suivre mensuellement les événements relatifs à la sécurité ferroviaire suivant un modèle d’analyse statistique spécifique. L’objectif de la communication est de présenter l’algorithme de prévision développé permettant d’estimer les occurrences de chaque précurseur suivi pour le prochain mois.
Ces estimations reposeront sur une modélisation probabiliste des précurseurs qui tiendra compte du comportement passé de ces derniers, de certaines variables contextuelles et des recommandations mensuelles émises par la RATP.
Summary
RATP is developing a safety policy allowing it to protect itself from the hazard events.
For almost fifteen years, the RATP's precursor of hazards analysis of railway networks has been used to monitor railway safety events on a monthly basis using a specific statistical analysis model.
The objective of the paper is to present the prediction algorithm developed to estimate the occurrences of each precursor monitored for the next month.
These estimates will be based on a probabilistic modeling of precursors that will take into account their past behavior, certain contextual variables and monthly recommendations issued by RATP.
Contexte
1. Réseaux de transport de la RATP
Avec seize lignes de métro, deux lignes de RER, huit lignes de tramway et près de trois cent cinquante lignes de bus, la RATP (Régie Autonomes des Transports Parisiens) assure chaque jour la circulation de plusieurs millions de passagers dans l’ensemble de la région Île-de-France.
Les systèmes de transport sont des systèmes complexes. Leur complexité est liée à la multitude d’éléments les constituant, aux multiples interactions les animant et aux importantes et constantes sollicitations qu’ils subissent. En termes de sécurité, toutes ces contraintes favorisent l’émergence de situations complexes et dégradées susceptibles, si elles ne sont pas maîtrisées, d’aboutir à l’occurrence d’événements redoutés.
Afin d’assurer la maîtrise de ces situations, la RATP s’appuie sur un ensemble de processus qui constitue sa politique de maîtrise des risques.
2. Politique de maîtrise des risques
La RATP développe une politique de sécurité lui permettant de se prémunir des événements redoutés. Cette politique se décline notamment au travers de la recherche permanente de la sûreté de fonctionnement et de la maîtrise de la qualité de la production et du service, afin d’assurer à ses clients, et à la collectivité, le service sûr attendu, et à son personnel la sécurité dans ses interventions.
Pour maîtriser ses risques dans le domaine ferroviaire, la RATP a développé depuis de nombreuses années des mesures centrées sur l’amélioration continue de la fiabilité des installations, du matériel roulant et sur la mise en place de différents systèmes et méthodes de management des risques.
Depuis près de quinze ans, l’analyse des précurseurs de dangers des réseaux ferroviaires de la RATP, permet de suivre mensuellement les événements relatifs à la sécurité ferroviaire suivant un modèle d’analyse statistique spécifique (Voncken et al, 2004). L’analyse de ces précurseurs génère des recommandations qui sont systématiquement analysées en comité de sécurité ferroviaire et font l’objet d’actions spécifiques.
La démarche liée aux précurseurs de dangers repose sur une idée forte : « Être attentif à tous les signes précurseurs pour en réduire leur fréquence d’apparition, seule démarche capable de diminuer la probabilité d’apparition des événements redoutés ».
Objectif de la démarche
L’objectif des travaux menés est d’améliorer l’analyse des précurseurs de dangers en y intégrant un algorithme de prévision. Ce dernier doit fournir une indication sur la tendance future des évolutions des événements précurseurs de dangers.
Le gain apporté par l’ajout d’un tel algorithme réside dans l’augmentation de la sensibilité de l’analyse des précurseurs de dangers. Il doit permettre d’une part, d’anticiper les dégradations à venir, et d’autre part, d’anticiper la confirmation d’une dégradation avérée, afin d’anticiper les plans d’actions préventives ou curatives adéquates pour assurer la maîtrise des risques.
Ces travaux s’inscrivent dans la poursuite de ceux menés en 2014 (Hounnou et al, 2014).
Principe de l’analyse des précurseurs de
dangers
L’objectif de l’analyse des précurseurs de dangers est de participer à conforter la sécurité ferroviaire par :
- la connaissance des événements précurseurs d’accident (définition des précurseurs et moyen de mesure) ;
- le suivi de l’évolution de ces précurseurs (méthode d’analyse et présentation des résultats) ;
- l’anticipation, en maintenant ou ramenant la fréquence des précurseurs dans une plage d'exigence (partie pilotage des actions suite aux analyses des précurseurs).
Le modèle mathématique appliqué est issu de travaux conjointement réalisés par la RATP et le Laboratoire d’Analyse et Modélisation de Systèmes pour l’Aide à la DÉcision de l’université Paris Dauphine (LAMSADE) (Tanzi et al, 2000).
1. Définition des événements précurseurs de dangers
Un événement précurseur de danger est défini comme étant un événement appartenant à une chaîne incidentelle et susceptible de conduire à des événements redoutés (incidents d’exploitation ou accidents graves).
Ces chaînes d’événements peuvent être représentées comme étant le résultat des états successifs des moyens de prévention et de protection ou barrières mis en place pour réduire le risque en agissant soit sur la probabilité d’occurrence de l’accident, soit sur sa gravité en minimisant les conséquences.
En pratique, leur identification est réalisée au sein de groupe de travail rassemblant les différents pôles d’expertise des départements d’exploitation, d’ingénierie et de la maintenance de la RATP. Cette identification pouvant être fonction des évolutions techniques, environnementales et organisationnelles, la liste des événements précurseurs de dangers suivis peut être amenée à évoluer dans le temps. Les principes de cette identification ont déjà fait l’objet d’une publication dans le cadre du Lambda-Mu 18 (Parrennes et al, 2012).
Parmi tous les événements d’une chaîne accidentelle, seront distingués :
- ceux qui représentent la sollicitation d’un moyen de prévention ;
- ceux qui représentent l’inefficacité du moyen de prévention ;
- ceux qui représentent l’efficacité du moyen de prévention ;
- ceux qui représentent le fonctionnement en mode dégradé (utilisation et durée de fonctionnement en mode dégradé).
La condition sinequanone pour qu’un précurseur identifié soit suivi via cette analyse est que sa mesure soit fiable et exhaustive.
2. Méthode d’analyse et présentation des résultats La résultante de l’analyse des précurseurs de dangers est l’émission d’une recommandation à destination du métier portant la responsabilité du précurseur considéré. Cette recommandation est construite à partir de 3 indicateurs : - l’indicateur mensuel
- l’indicateur d’évolution à court terme - l’indicateur de tendance à long terme.
Le caractère confidentiel et l’objet de cette communication font que ces trois indicateurs sont succinctement décrits dans les paragraphes suivants.
2.1. Indicateur mensuel
L’indicateur mensuel a pour objet de positionner l’observation du précurseur considéré d’un mois donné de l’année en cours par rapport aux mêmes mois calendaires des années antérieures. La majeure partie des effets saisonniers est ainsi évitée, ce qui rend signifiante la comparaison des valeurs de l’indice pour les mois successifs.
2.2. Indicateur d’évolution à court terme
Il importe de pouvoir mettre en évidence aussi bien le caractère exceptionnel d’une valeur anormalement élevée que le reflet d’une évolution dangereuse du précurseur. Dans ce but, la comparaison des valeurs que prend l’indicateur mensuel durant plusieurs mois consécutifs est réalisée. Elle repose sur une analyse de l’évolution à court terme (courte série).
Cet indicateur d’évolution permet de savoir si nous sommes en présence d’un épiphénomène ou si au contraire il est révélateur d’une réelle évolution.
2.3. Indicateur de tendance à long terme
L’analyse de l’évolution à court terme peut être insuffisante. En effet, une dérive lente des observations d’un précurseur pourrait ne pas être détectée avec l’analyse d’une série courte. Par conséquent, un indicateur reflétant l’évolution sur une longue période a été associé à chaque précurseur.
Cet indicateur reflète l’évolution de la valeur de l’occurrence du précurseur, rapportée à sa valeur moyenne. Il permet de détecter d’une part, les dérives lentes qui se produisent par petits pas et d'autre part, la persistance de situations d’alerte que des actions correctives ne parviendraient pas à faire disparaître, instaurant ainsi la normalisation d’un niveau d’exigence affaibli.
2.4. Établissement de la recommandation
L’objectif de l’analyse des précurseurs est de déterminer, pour chacun d’eux, le type d’action qu’il faut mener. Les recommandations sont issues de l’analyse des trois indicateurs, en tenant compte de la recommandation du mois précédent pour éviter les alertes intempestives sur des épiphénomènes. Soit, il n’y a pas de recommandation, soit la recommandation “Examiner”, soit la recommandation “Réagir”.
3. Pilotage des actions
Sans pilotage, l’établissement des recommandations à partir de l’analyse de précurseurs perd tout son sens. Par conséquent, les recommandations sont systématiquement transmises au corps décisionnel (i.e. direction générale et directeurs des départements concernés) et font l’objet d’une revue mensuelle spécifique lors des comités de sécurité des différents réseaux de transports.
Les précurseurs, pour lesquelles une recommandation “Réagir” a été émise, doivent faire l’objet d’une présentation des investigations et en fonction, la proposition d’un plan d’actions associé.
Formalisation de la problématique
D’un point de vue probabiliste, un précurseur de dangers 𝜌𝜌 est un événement pour lequel on définit la variable 𝑁𝑁𝑡𝑡𝜌𝜌
désignant le nombre d’occurrences de ce précurseur 𝜌𝜌 au mois 𝑡𝑡. La variable 𝑁𝑁𝑡𝑡𝜌𝜌 représente donc un nombre entier
positif ou nul.
De plus, un indicateur numérique, noté 𝐼𝐼𝑡𝑡𝜌𝜌, caractérisant la
tendance d’évolution du précurseur 𝜌𝜌 est déterminé comme suit :
où la fonction 𝑓𝑓 représente la procédure de calcul de l’indicateur 𝐼𝐼𝑡𝑡𝜌𝜌 qui repose sur les nombres d’occurrences
du précurseur 𝜌𝜌 observées entre le mois courant 𝑡𝑡 et les ℎ derniers mois (cf. Sections indicateur mensuel, Indicateur de tendance à court terme et indicateur de tendance à long terme). En pratique, l’indicateur 𝐼𝐼𝑡𝑡𝜌𝜌 est un nombre réel
positif.
Enfin, une recommandation qualitative 𝑅𝑅𝑡𝑡𝜌𝜌= 𝑔𝑔(𝐼𝐼𝑡𝑡𝜌𝜌) est
déduite de l’indicateur 𝐼𝐼𝑡𝑡𝜌𝜌 selon une procédure 𝑔𝑔
permettant de convertir une valeur numérique en un niveau d’alerte représentatif de la tendance d’évolution du précurseur 𝜌𝜌 (cf. Section Établissement de la recommandation). Chaque recommandation est transmise au métier concerné par le précurseur associé et par conséquent susceptible de prendre des mesures pour corriger des tendances à risque si besoin.
D’un point de vue opérationnel, la chronologie de l’analyse des précurseurs est la suivante :
- pour un précurseur donné 𝜌𝜌, la donnée 𝑁𝑁𝑡𝑡𝜌𝜌 n’est
disponible qu’à la fin du mois 𝑡𝑡 (consolidation de la donnée) ;
- la recommandation correspondante 𝑅𝑅𝑡𝑡𝜌𝜌 est calculée
au cours du mois 𝑡𝑡 + 1et transmise au métier à la fin du mois 𝑡𝑡 + 1 ;
- en pratique, le métier peut donc prendre des mesures pour corriger la tendance du précurseur 𝜌𝜌 sur la base de la recommandation 𝑅𝑅𝑡𝑡𝜌𝜌au mois 𝑡𝑡 + 2.
L’objectif de ce papier est de proposer une approche permettant d’estimer une prévision de la recommandation d’un précurseur 𝜌𝜌 donné au mois 𝑡𝑡 + 1, notée 𝑅𝑅�𝑡𝑡+1𝜌𝜌 . Or,
d’après la définition de l’Équation 1, cette prévision est définie par 𝑅𝑅�𝑡𝑡+1𝜌𝜌 = 𝑔𝑔 ∘ 𝑓𝑓�𝑁𝑁�𝑡𝑡+1𝜌𝜌 , 𝑁𝑁𝑡𝑡𝜌𝜌, … , 𝑁𝑁𝑡𝑡−ℎ−1𝜌𝜌 �, où
𝑁𝑁�𝑡𝑡+1𝜌𝜌 correspond à la prévision du nombre d’occurrence du
précurseur 𝜌𝜌 au mois 𝑡𝑡 + 1.
La problématique posée se résume donc à l’estimation de 𝑁𝑁�𝑡𝑡+1𝜌𝜌 . Pour ce faire, une modélisation probabiliste visant à
expliquer la variable 𝑁𝑁𝑡𝑡+1𝜌𝜌 à partir de variables
contextuelles (e.g. historique des valeurs précédentes, recommandations précédentes, période de l’année, etc) est décrite dans les sections suivantes.
Modélisation
La problématique soulevée dans cet article relève de l’analyse des séries temporelles (Box et al. 2015). Suite aux travaux réalisés en 2014 et présentés au Lambda-Mu 19 (Hounnou et al, 2014), des expérimentations ont ainsi été réalisées en utilisant les modèles autorégressifs ou la méthode des bandes de Bollinger (Kannan et al. 2010). Toutefois ces techniques ne sont pas adaptées à la représentation de processus dépendant de variables contextuelles qualitatives (e.g. recommandation, saison). Afin de lever cette limitation, la méthodologie proposée repose sur le formalisme des réseaux bayésiens (Pearl 2014). Plus précisément, l’objectif étant la modélisation et la prévision à court terme de l’évolution des précurseurs, il sera question de réseaux bayésiens dynamiques (Murphy
et al. 2002 ; Zhang et al. 2004) correspondant à une
extension du formalisme initial adaptée à la représentation des phénomènes dynamiques.
Le choix des réseaux bayésiens est motivé par leur caractère intuitif et leur puissance de modélisation. De plus, la transparence mathématique des modélisations réalisées avec ce formalisme, et par conséquent leur capacité à faciliter l’interprétation des résultats obtenus, est un atout particulièrement intéressant, notamment dans le domaine de l’analyse de risques. Notons enfin que les réseaux bayésiens sont toujours plébiscités à la fois dans
le monde académique et le monde industriel pour la mise en œuvre d’outils d’aide à la décision, et ce, dans une large gamme de secteurs d’activités.
1. Rappels sur les réseaux bayésiens
Les réseaux bayésiens (RB) sont des outils mathématiques permettant de représenter la loi jointe d’une suite de variables aléatoires (v.a.) 𝑋𝑋1, . . . , 𝑋𝑋𝑛𝑛 à partir :
- d’un graphe orienté sans circuit dans lequel chaque nœud est associé à une des v.a. du processus et chaque arc correspond à une relation de dépendance directe entre deux v.a. :
- d’une suite de lois de probabilité conditionnelles (LPC), notées {𝑃𝑃�𝑋𝑋𝑖𝑖|𝑝𝑝𝑝𝑝(𝑋𝑋𝑖𝑖)�}𝑖𝑖=1,...,𝑛𝑛, représentant le
comportement probabiliste de chacune des v.a. 𝑋𝑋𝑖𝑖
conditionnellement à ses v.a. parentes dans le graphe, notées 𝑝𝑝𝑝𝑝(𝑋𝑋𝑖𝑖).
En conséquence, la loi jointe d’une suite de v.a. 𝑋𝑋1, . . . , 𝑋𝑋𝑛𝑛
représentée par un RB vérifie la relation suivante : 𝑃𝑃(𝑋𝑋1, … , 𝑋𝑋𝑛𝑛) = ∏ 𝑃𝑃�𝑋𝑋𝑛𝑛𝑖𝑖=1 𝑖𝑖�𝑝𝑝𝑝𝑝(𝑋𝑋𝑖𝑖)� {2}
Cette factorisation est à l’origine du caractère parcimonieux des modèles probabilistes reposant sur les RB et de l’efficacité calculatoire des algorithmes d’inférence probabiliste bâtis pour ce formalisme (Cozman 2000).
2. Hypothèses de modélisation
L’objectif de cette étude est d’estimer une prévision du nombre d’occurrences mensuel d’un précurseur 𝜌𝜌, notée 𝑁𝑁𝑡𝑡+1𝜌𝜌 , à partir des observations précédentes de ce
précurseur et d’un ensemble de variables explicatives. Notons que l’expression de la v.a. 𝑁𝑁𝑡𝑡+1𝜌𝜌 peut se mettre sous
la forme 𝑁𝑁𝑡𝑡+1𝜌𝜌 = 𝑁𝑁𝑡𝑡𝜌𝜌+ 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 où 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 est une v.a.
représentant l’évolution du nombre d’occurrences du précurseur 𝜌𝜌 entre les mois 𝑡𝑡 et 𝑡𝑡 + 1. La relation qui lie 𝑁𝑁𝑡𝑡𝜌𝜌, 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 et 𝑁𝑁𝑡𝑡+1𝜌𝜌 est déterministe.
La relation précédente implique ainsi que la problématique de prévision de 𝑁𝑁𝑡𝑡+1𝜌𝜌 se ramène à la prévision de la v.a.
𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 . S’intéresser à 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 plutôt qu’à 𝑁𝑁𝑡𝑡+1𝜌𝜌 a un intérêt
pratique visant à réduire le domaine de définition de la variable cible à expliquer.
Par ailleurs, afin de cadrer le travail de modélisation, les hypothèses suivantes sont utilisées :
H1. Le processus d’évolution des précurseurs est considéré comme étant markovien d’ordre au plus égal à 3. Autrement dit, la v.a. 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 ne dépend que
de v.a. observables entre les mois 𝑡𝑡 + 1 et 𝑡𝑡 − 2. H2. Toutes les v.a. considérées dans cette modélisation
sont discrètes et finies, en particulier la v.a. 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 est
à valeurs dans l’ensemble {𝑛𝑛𝑚𝑚𝑖𝑖𝑛𝑛𝜌𝜌 , . . . , −1, 0, 1, . . . , 𝑛𝑛𝑚𝑚𝑚𝑚𝑚𝑚𝜌𝜌 }où 𝑛𝑛𝑚𝑚𝑖𝑖𝑛𝑛𝜌𝜌 et 𝑛𝑛𝑚𝑚𝑚𝑚𝑚𝑚𝜌𝜌 sont
respectivement les bornes de troncature minimum et maximum des évolutions possibles en termes d’occurrences du précurseur 𝜌𝜌 entre deux mois successifs. Il est important de souligner que cette hypothèse est nécessaire du point de vue calculatoire afin de permettre l’utilisation d’un algorithme d’inférence probabiliste exacte afin d’estimer une prévision de 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 .
H3. Les variables explicatives considérées dans cette étude sont :
- 𝑅𝑅𝑡𝑡−1𝜌𝜌 , la recommandation produite suite aux
observations du précurseur 𝜌𝜌 disponibles au mois 𝑡𝑡 − 1 ;
- 𝑅𝑅𝑡𝑡−2𝜌𝜌 , la recommandation produite suite aux
observations du précurseur 𝜌𝜌 disponibles au mois 𝑡𝑡 − 2 ;
- 𝐸𝐸𝑡𝑡+1𝜌𝜌 , une variable indiquant si le mois 𝑡𝑡 + 1 est
dans la période estivale juillet/août ou non ; H4. Les variables explicatives sont supposées
indépendantes conditionnellement à l’observation de la v.a. 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 afin de limiter la complexité des
modélisations réalisées et ainsi réduire les risques de surinterprétation.
3. Modélisations réalisées
La Figure 1 donne la structure générale du réseau bayésien modélisant la loi d’évolution du processus aléatoire associé à la suite de v.a. (𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 , 𝛥𝛥𝑁𝑁𝑡𝑡𝜌𝜌, 𝑅𝑅𝜌𝜌𝑡𝑡−1, 𝑅𝑅𝑡𝑡−2𝜌𝜌 , 𝑆𝑆𝑡𝑡+1, 𝐸𝐸𝑡𝑡+1). Cette modélisation,
notée 𝑀𝑀1, est conforme aux hypothèses H1, H3, H4
énoncées précédemment.
Figure 1. Structure du réseau bayésien 𝑀𝑀1 proposé afin
de représenter le processus aléatoire d’évolution des précurseurs.
D’après la propriété de factorisation dans les RB (cf. Équation 2), la loi de probabilité jointe du processus représenté par 𝑀𝑀1 s’écrit :
𝑃𝑃�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 , ∆𝑁𝑁𝑡𝑡𝜌𝜌, 𝑅𝑅𝑡𝑡−1𝜌𝜌 , 𝑅𝑅𝑡𝑡−2𝜌𝜌 , 𝑆𝑆𝑡𝑡+1, 𝐸𝐸𝑡𝑡+1� =
𝑃𝑃�∆𝑁𝑁𝑡𝑡𝜌𝜌� ∙ 𝑃𝑃�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 �∆𝑁𝑁𝑡𝑡𝜌𝜌� ∙ 𝑃𝑃�𝑅𝑅𝑡𝑡−1𝜌𝜌 �∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � ∙
𝑃𝑃�𝑅𝑅𝑡𝑡−2𝜌𝜌 �∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � ∙ 𝑃𝑃�𝑆𝑆𝑡𝑡+1�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � ∙ 𝑃𝑃�𝐸𝐸𝑡𝑡+1�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 �
{3} Notons que les termes du membre de droite de l’Équation 3 correspondent aux lois de probabilité conditionnelles (LPC) associées à chacune des v.a. du modèle conditionnellement à ses v.a. parentes dans le graphe de la Figure 1. Ces LPC correspondent donc aux paramètres du modèle dont l’approche d’estimation est décrite dans la suite (cf. section Apprentissage des modèles).
Par ailleurs, nous proposons d’étudier les trois modèles supplémentaires suivants, tous dérivés du modèle 𝑀𝑀1en
éliminant certaines variables explicatives :
- Le modèle 𝑀𝑀2(cf. Figure 2) correspond au modèle
dynamique le plus rudimentaire puisqu’il s’apparente à une chaîne de Markov classique, i.e. sans prise en compte de variable explicative.
Figure 2. Structure du réseau bayésien 𝑀𝑀2.
- Le modèle 𝑀𝑀3(cf. Figure 3) correspond au modèle 𝑀𝑀2
en ajoutant au processus d’évolution une dépendance des recommandations passées.
Figure 3. Structure du réseau bayésien 𝑀𝑀3
- Le modèle 𝑀𝑀4(cf. Figure 4) correspond au modèle 𝑀𝑀2
en ajoutant au processus d’évolution une
dépendance du contexte calendaire (saison et période estivale).
Figure 4. Structure du réseau bayésien 𝑀𝑀4.
Dans la suite de cette étude, les quatre modèles précédents sont analysés. L’objectif est de pouvoir les comparer en termes de performance prévisionnelle et ainsi retenir pour chaque précurseur considéré le modèle le plus simple qui permet d’atteindre un taux de performance satisfaisant.
4. Apprentissage des modèles
L’approche utilisée pour estimer les paramètres des LPC relatives aux différents modèles présentés dans la section précédente repose sur la méthode du maximum de vraisemblance adaptée aux RB (Friedman et al. 1997). La procédure d’apprentissage statistique s’appuie sur des historiques d’observations de chaque précurseurs et des variables explicatives considérées dans l’hypothèse H3. Plus formellement, il s’agit d’exploiter le jeu de données, noté 𝐷𝐷𝜌𝜌= (𝛥𝛥𝑛𝑛
𝑡𝑡 𝜌𝜌, 𝑟𝑟
𝑡𝑡𝜌𝜌, 𝑠𝑠𝑡𝑡, 𝑒𝑒𝑡𝑡)𝑡𝑡=1,...,𝜏𝜏𝜌𝜌, contenant un nombre 𝜏𝜏𝜌𝜌
d’observations mensuelles disponibles sur les variables relatives au précurseur 𝜌𝜌. Autrement dit, dans cette étude 𝜏𝜏𝜌𝜌 désigne la taille de l’historique des données exprimée
en nombre de mois. Plus concrètement, l’analyse des précurseurs ayant débuté, il y a environ quinze ans à la RATP, nous avons donc 𝜏𝜏𝜌𝜌≃ 15 × 12 = 180 observations
pour les précurseurs les plus anciens.
Remarquons qu’un jeu de 180 données reste un échantillon de taille modeste justifiant ainsi l’approche parcimonieuse visant à limiter la complexité des modélisations proposées afin de réduire les risques de surinterprétation.
Par ailleurs, sur une période de quinze ans, il est fortement probable que des changements organisationnels aient eu lieu notamment en ce qui concerne les politiques d’exploitation ou de maintenance. Ces changements sont susceptibles d’entraîner une non-stationnarité des processus d’évolution des précurseurs. Par conséquent, afin de se prémunir contre ce phénomène, une mise à jour des modèles est réalisée mensuellement en estimant à nouveau les paramètres des modèles à partir des ℎ𝜌𝜌 dernières données disponibles,
notées 𝐷𝐷ℎ𝜌𝜌𝜌𝜌= (𝛥𝛥𝑛𝑛𝑡𝑡𝜌𝜌, 𝑟𝑟𝑡𝑡𝜌𝜌, 𝑠𝑠𝑡𝑡, 𝑒𝑒𝑡𝑡)𝑡𝑡=(𝜏𝜏𝜌𝜌−ℎ𝑝𝑝),...,𝜏𝜏𝜌𝜌.
5. Calcul des prévisions
Dans cette section, nous décrivons l’utilisation pratique des modélisations proposées afin d’estimer une prévision de l’évolution d’un précurseur 𝜌𝜌 donné. Les résultats énoncés concernent le modèle général 𝑀𝑀1, les calculs
pour les autres modèles étant analogues.
En effectuant quelques manipulations algébriques de l’Équation 3, la loi de probabilité a posteriori de la v.a. 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 conditionnellement à son contexte a pour
expression 𝑃𝑃�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 �∆𝑛𝑛𝑡𝑡𝜌𝜌, 𝑟𝑟𝑡𝑡−1𝜌𝜌 , 𝑟𝑟𝑡𝑡−2𝜌𝜌 , 𝑠𝑠𝑡𝑡+1, 𝑒𝑒𝑡𝑡+1� = 1 𝑍𝑍⁄ × 𝑃𝑃�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 �∆𝑛𝑛𝑡𝑡𝜌𝜌� ∙ 𝑃𝑃�𝑟𝑟𝑡𝑡−1𝜌𝜌 �∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � ∙ 𝑃𝑃�𝑟𝑟𝑡𝑡−2𝜌𝜌 �∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � ∙ 𝑃𝑃�𝑠𝑠𝑡𝑡+1𝜌𝜌 �∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � ∙ 𝑃𝑃�𝑒𝑒𝑡𝑡+1𝜌𝜌 �∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � {4} ∆𝑁𝑁𝑡𝑡+1𝜌𝜌 ∆𝑁𝑁𝑡𝑡𝜌𝜌 𝑅𝑅𝑡𝑡−2𝜌𝜌 𝑅𝑅𝑡𝑡−1𝜌𝜌 𝑆𝑆𝑡𝑡+1 𝐸𝐸𝑡𝑡+1 ∆𝑁𝑁𝑡𝑡+1𝜌𝜌 ∆𝑁𝑁𝑡𝑡𝜌𝜌 𝑅𝑅𝑡𝑡−2𝜌𝜌 𝑅𝑅𝑡𝑡−1𝜌𝜌 ∆𝑁𝑁𝑡𝑡+1𝜌𝜌 ∆𝑁𝑁𝑡𝑡𝜌𝜌 𝑆𝑆𝑡𝑡+1 𝐸𝐸𝑡𝑡+1 ∆𝑁𝑁𝑡𝑡+1𝜌𝜌 ∆𝑁𝑁𝑡𝑡𝜌𝜌
où
- les valeurs 𝛥𝛥𝑛𝑛𝑡𝑡𝜌𝜌, 𝑟𝑟𝑡𝑡−1𝜌𝜌 , 𝑟𝑟𝑡𝑡−2𝜌𝜌 , 𝑠𝑠𝑡𝑡+1, 𝑒𝑒𝑡𝑡+1 sont
respectivement des observations des v.a. 𝛥𝛥𝑁𝑁𝑡𝑡𝜌𝜌, 𝑅𝑅𝑡𝑡−1𝜌𝜌 , 𝑅𝑅𝑡𝑡−2𝜌𝜌 , 𝑆𝑆𝑡𝑡+1, 𝐸𝐸𝑡𝑡+1définissant ainsi le contexte
de la v.a. 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 ;
- le terme 𝑃𝑃(𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 |𝛥𝛥𝑛𝑛𝑡𝑡𝜌𝜌) correspond à la loi de
transition du processus d’évolution du précurseur 𝜌𝜌 sachant que la dernière observation de l’évolution du précurseur vaut 𝛥𝛥𝑛𝑛𝑡𝑡𝜌𝜌;
- les termes 𝑃𝑃(∙ |𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 )s’interprètent comme la
contribution de chaque v.a. explicative dans l’ajustement du processus de transition 𝑃𝑃(𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 |𝛥𝛥𝑁𝑁𝑡𝑡𝜌𝜌)par rapport au contexte observé ;
- le terme
𝑍𝑍 = ∑𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 𝑃𝑃�𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 , 𝛥𝛥𝑛𝑛𝑡𝑡𝜌𝜌, 𝑟𝑟𝑡𝑡−1𝜌𝜌 , 𝑟𝑟𝑡𝑡−2𝜌𝜌 , 𝑠𝑠𝑡𝑡+1, 𝑒𝑒𝑡𝑡+1� est un
facteur de normalisation.
Remarquons qu’il suffit de retirer dans l’Équation 4 les termes 𝑃𝑃(∙ |𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 ) associés aux variables explicatives
n’apparaissant pas dans les modèles 𝑀𝑀2, 𝑀𝑀3, 𝑀𝑀4 pour
obtenir la déclinaison de cette équation correspondant à ces modèles.
Enfin, pour déduire une estimation de la prévision d’évolution du précurseur 𝜌𝜌, nous proposons d’utiliser le calcul de l’espérance a posteriori (EAP). En notant 𝒄𝒄𝑡𝑡+1= (𝛥𝛥𝑛𝑛𝑡𝑡𝜌𝜌, 𝑟𝑟𝑡𝑡−1𝜌𝜌 , 𝑟𝑟𝑡𝑡−2𝜌𝜌 , 𝑠𝑠𝑡𝑡+1, 𝑒𝑒𝑡𝑡+1) le contexte du précurseur
au mois 𝑡𝑡 + 1, l’EAP de la prévision du précurseur est définie par :
𝐸𝐸𝐸𝐸𝑃𝑃�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � = ∑𝑛𝑛𝑚𝑚𝑚𝑚𝑚𝑚 𝑛𝑛 × 𝑃𝑃�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 = 𝑛𝑛�𝑐𝑐𝑡𝑡𝜌𝜌�
𝜌𝜌
𝑛𝑛=𝑛𝑛𝑚𝑚𝑚𝑚𝑚𝑚𝜌𝜌 {5}
Application
Cette section présente l’application de la méthodologie décrite dans ce papier afin d’en évaluer la pertinence opérationnelle.
1. Cas d’étude
Le cas d’étude retenu concerne les précurseurs de danger du réseau Métro de la RATP.
Actuellement 80 précurseurs de danger sont suivis sur le réseau Métro. Etant donné, les diverses opérations de modernisation en cours et à venir, ce nombre devrait augmenter substantiellement. Les précurseurs sont répartis par événement redouté (collision/déraillement, écrasement/électrisation, incendie/panique et divers) et par famille d’appartenance :
- ceux relevant de l’exploitation, par exemple le nombre de franchissement intempestif d’un signal de manœuvre fermé ;
- ceux relevant de la maintenance, par exemple le nombre de dysfonctionnement des appareils de voie, défauts d’assise et incidents d’attache ; - ceux relevant de l'environnement, par exemple le
nombre d’objet sur la voie.
Afin de servir de support à l’évaluation de la méthodologie de prévision développée ainsi qu’aux différentes modélisations proposées, les trois précurseurs suivants ont été sélectionnés :
- DdV : nombre mensuel de dépassements de vitesse identifié lors du dépouillement des paramètres d’exploitation des rames ;
- RC : nombre mensuel de rails (ou barres de guidage) cassés sur le réseau métro ;
- DA : Nombre mensuel d’événements “disjonction d’alarme” enregistrés par le poste de commande centralisé (PCC) du métro.
Ce choix de précurseurs est motivé par leurs propriétés d’évolution qui permettent d’illustrer les principales caractéristiques de la méthodologie appliquée.
L’historique d’évolution de ces trois précurseurs est présenté à titre illustratif dans les Figures 5, 6 et 7.
Figure 5. Évolution des occurrences mensuelles du précurseur DdV (dépassement de vitesse) entre 1998 et
2017.
Figure 6. Évolution des occurrences mensuelles du précurseur RC (rail cassé) entre 1998 et 2017.
Figure 7. Évolution des occurrences mensuelles du précurseur DA (disjonction d’alarme) entre 1998 et 2006. 2. Protocole de tests
Pour chacun des précurseurs sélectionnés 𝜌𝜌 ∈{DdV, RC, DA}, des tests de performance sur la précision des prévisions sont réalisés en faisant varier le modèle utilisé 𝑀𝑀 ∈ {𝑀𝑀1, 𝑀𝑀2, 𝑀𝑀3, 𝑀𝑀4}et la profondeur des données
d’apprentissage ℎ𝜌𝜌, i.e. le nombre de mois d’observations
du précurseur 𝜌𝜌, considérée pour calibrer les modèles. Pour estimer la précision des prévisions d’un précurseur 𝜌𝜌, le protocole de tests suivant est appliqué :
1. Extraction de données de tests à partir de l’historique disponible sur le précurseur.
2. Estimation du nombre d’occurrences du précurseur sur les données de tests en utilisant le calcul de l’EAP (cf. Équation 5). Chaque prévision est estimée à partir d’un modèle calibré à partir de l’historique de taille ℎ𝜌𝜌 précédent la prévision à calculer
conformément à l’approche décrite dans la Section
Apprentissage des modèles.
3. Évaluation de la performance prévisionnelle en mesurant l’erreur sur les prévisions effectuées. Pour ce faire, le critère de l’erreur absolue normalisée moyenne, notée communément MASE (Mean
Absolute Scaled Error) (Hyndman et al., 2006), est
3. Résultats et discussions
3.1. Précurseur : dépassement de vitesse
Les résultats de l’étude paramétrique sur le précurseur DdV (dépassement de vitesse) sont présentés sur la Figure 8.
Les principales observations sont :
- L’augmentation de la profondeur d’apprentissage a une influence négative sur la mesure d’erreur, cette dernière atteignant un minimum avec un historique de 48 mois, soit 4 ans.
- Les modèles 𝑀𝑀2 et 𝑀𝑀3 offrent les meilleurs
performances sans pour autant se détacher nettement des autres modèles.
Figure 8. Performance prévisionnelle du précurseur DdV (dépassement de vitesse) en fonction de la profondeur d’apprentissage, variant de 3 à 12 ans. Ces résultats peuvent s’expliquent par les points suivants :
- Le précurseur DdV a une tendance clairement non stationnaire (cf. Figure 5) avec une tendance décroissante entre les années 1998 et 2007 (correspondant à la mise en place des contrôles continus de vitesse sur l’ensemble du réseau Métro) puis une tendance stabilisée jusqu’en 2018. Une profondeur d’apprentissage relativement courte permet donc de rester robuste face aux changements de caractéristiques du processus d’évolution du précurseur.
- En tenant compte d’une profondeur d’apprentissage courte, les quatre modèles montrent des performances comparables. Le modèle 𝑀𝑀2semble
toutefois plus précis quelque soit la profondeur d’apprentissage. Ceci peut s’expliquer en partie par une réduction de l’effet de surinterprétation dûe à l’utilisation d’un modèle simple dans un contexte non-stationnaire.
- Le caractère non-stationnaire s’explique par les travaux de modernisation du Métro de plus en plus nombreux. La mise en service d’automatismes de conduite, la pose de limitations temporaires de vitesse, par exemple, sont des facteurs influents pour ce précurseur.
3.2. Précurseur : rail ou barre de guidage cassé Les résultats de l’étude paramétrique sur le précurseur RA (rail ou barre de guidage cassé) sont présentés sur la Figure 9.
Les principales observations sont :
- L’augmentation de la profondeur d’apprentissage a une influence positive sur l’erreur de prévision commise.
- Alors que tous les modèles offrent des performances comparables avec des historiques d’apprentissage courts (inférieurs à 5 ans), les modèles 𝑀𝑀1 et 𝑀𝑀4 se détachent assez clairement
avec des historiques plus longs (supérieurs à 10 ans).
- On notera que pour le précurseur équivalent sur le réseau RER, la profondeur n’aura, a priori, pas la même influence en supposant que l’opération de renouvellement de la voie et du ballast du RER A soit significative.
Figure 9. Performance prévisionnelle du précurseur RC (rail ou barre de guidage cassé) en fonction de
la profondeur d’apprentissage, variant de 3 à 12 ans.
Ces résultats peuvent s’interpréter de la façon suivante : - Le précurseur RC possède une tendance annuelle
relativement stationnaire. Par ailleurs, un phénomène de saisonnalité lié aux températures basse explique en partie les pics d’occurrences de rails cassés. Il est donc naturel pour les modèles tenant compte de la saison courante, i.e. les modèles 𝑀𝑀1 et 𝑀𝑀4 d’atteindre les meilleurs résultats.
- L’évolution du précurseur RC semblant stationnaire, les modèles s’avèrent d’autant plus robustes que la taille des données d’apprentissage est importante. - Les occurrences de ce précurseur sont relativement
faibles et peu dispersées ; d’autant plus entre les périodes définies entre avril et octobre.
3.3. Précurseur : disjonction d’alarme
Les résultats de l’étude paramétrique sur le précurseur DA (disjonction d’alarme) sont présentés sur la Figure 10. Les principales observations sont :
- L’augmentation de la profondeur d’apprentissage semble avoir une influence positive sur la performance prévisionnelle, en particulier pour les modèle 𝑀𝑀2 et 𝑀𝑀3.
- Le couple de modèles 𝑀𝑀1 et 𝑀𝑀4 aboutissent à des
performances significativement supérieures au couple de modèles 𝑀𝑀2 et 𝑀𝑀3 quelque soit la
Figure 10. Performance prévisionnelle du précurseur DA (disjonction d’alarme) en fonction de la profondeur d’apprentissage, variant de 3 à 6 ans. Les résultats précédents peuvent s’interpréter de la manière suivante :
- D’un point de vue opérationnel, l’expertise montre que l’occurrence des disjonctions d’alarme se produit fortement en lien avec les intrusions sur les voies et les actes de malveillance.
- Pour l’exploitant, les périodes de vacances scolaires, et particulièrement celles estivales, sont propices à la manipulation de rupteur d’alarme suite à d’objets tombés sur la voie ayant eu pour conséquence des intrusions sur les voies de voyageurs. Cette réalité opérationnelle est donc en accord avec les bonnes performances réalisées par le modèle 𝑀𝑀4.
Conclusion
Les travaux présentés dans cette publication ont pour objectif d’améliorer l’analyse des événements précurseurs de dangers par la mise en place d’une méthodologie générale d’analyse prévisionnelle de ces derniers. La finalité de cette démarche est de renforcer le concept de précurseur en anticipant les dérives permettant ainsi aux unités opérationnelles de passer d’un pilotage par actions “correctives” à un pilotage par actions “préventives”.
Pour ce faire, une première modélisation a été réalisée en s’appuyant sur l’analyse d’indicateurs prédictifs élaborés afin d’être intégrés dans un modèle probabiliste ne requérant la compréhension d’aucun phénomène expliquant le mécanisme d’évolution des systèmes étudiés (Hounnou et al, 2014). La mise en oeuvre de cette méthodologie s’est avérée trop complexe au regard des performances démontrées et du caractère adaptatif et évolutif de la méthode.
Fort de ce REX, le développement d’une nouvelle méthodologie a été orienté par l’ambition d’analyser les données brutes, de pouvoir calibrer le modèle probabiliste, d’évaluer les performances de prévision et enfin d’être en capacité de sélectionner un mode opérationnel. Compte-tenu de la nature hétérogène des précurseurs et du principe fondamental de la démarche, il était important de choisir un modèle “sur-mesure” pouvant s’adapter aux différents processus d’évolution.
Pour toutes ces raisons, l’intérêt s’est porté sur les réseaux bayésiens, accentué par la contrainte de parcimonie dûe à la taille limitée des historiques.
La méthodologie est encore en cours de développement. Les tests doivent se poursuivre via la comparaison des recommandations construites sur les données réelles et celles élaborées sur les données prédites pour un certain nombre de précurseurs.
La prise en compte de l’expertise métier pour représenter plus fidèlement le processus d’évolution de certains précurseurs et contribuer à combler le déficit de données est une piste d’amélioration sérieusement envisagée.
Remerciement
Nous remercions le Laboratoire d’Informatique de Paris 6 pour le développement et la maintenance de la librairie
opensource pyAgrum1. Cette librairie, écrite pour le
langage Python permettant de construire et quantifier les réseaux bayésiens, a été largement utilisée tout au long des travaux présentés dans cet article.
Références
Box, G. E., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2015). Time series analysis: forecasting and control. John Wiley & Sons.
Cozman, F. G. (2000, November). Generalizing variable elimination in Bayesian networks. In Workshop on Probabilistic Reasoning in Artificial Intelligence (pp. 27-32). Editora Tec Art São Paulo, Brazil.
Friedman, N., Geiger, D., & Goldszmidt, M. (1997). Bayesian network classifiers. Machine learning, 29(2-3), 131-163.
Hounnou, L., Parrennes, F., Anticiper l’évolution des précurseurs de danger par le développement d’une fonction prédictive, Publication Lambda-Mu 19 (Dijon), 2014.
Hyndman, R. J. and A. B. Koehler (2006). Another look at measures of forecast accuracy. International Journal of Forecasting 22(4), 679–688.
Kannan, K. S., Sekar, P. S., Sathik, M. M., & Arumugam, P. (2010, March). Financial stock market forecast using data mining techniques. In Proceedings of the International Multiconference of Engineers and computer scientists (Vol. 1, p. 4).
Murphy, K. P., & Russell, S. (2002). Dynamic bayesian networks: representation, inference and learning.
Parrennes, F., Cointet, A., Maîtrise des risques d’un système de transport - Identification des précurseurs de dangers, Publication Lambda‑Mu 18 (Tours), p. 454 à 461, 2012.
Pearl, J. (2014). Probabilistic reasoning in intelligent systems: networks of plausible inference. Elsevier. Tanzi, T.-J., Roy, B., Flages, M., Voncken, D., Indicateurs de dangerosité appliqués au transport collectifs, Publication Lambda‑Mu 12 (Montpellier), p. 703 à 708, 2000.
Voncken, D., Roy, B., Indicateurs d’alerte des dangers (Rapport final), Document RATP, 2004.
Zhang, C., Sun, S., & Yu, G. (2004, October). A Bayesian network approach to time series forecasting of short-term traffic flows. In Intelligent Transportation Systems, 2004. Proceedings. The 7th International IEEE Conference on (pp. 216-221). IEEE.