MODÉLISATION ET ANALYSE PRÉDICTIVE DES PRÉCURSEURS DE DANGERS

(1)

HAL Id: hal-02075368

https://hal.archives-ouvertes.fr/hal-02075368

Submitted on 21 Mar 2019

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Vianney Bordeau, Roland Donat

To cite this version:

Vianney Bordeau, Roland Donat.

MODÉLISATION ET ANALYSE PRÉDICTIVE DES

PRÉCURSEURS DE DANGERS. Congrès Lambda Mu 21 “ Maîtrise des risques et transformation

numérique : opportunités et menaces ”, Oct 2018, Reims, France. �hal-02075368�

(2)

MODÉLISATION ET ANALYSE PRÉDICTIVE DES PRÉCURSEURS DE

DANGERS

MODELING AND PREDICTIVE ANALYSIS OF HAZARD PRECURSORS

Vianney BORDEAU

Roland DONAT

RATP

EdgeMind

LAC VH51 - Avenue du Val de Fontenay

23 rue du Départ – Boîte 37

94724 Fontenay-Sous-Bois

75014 Paris

Résumé

La RATP développe une politique de sécurité lui permettant de se prémunir des événements redoutés. Depuis près de quinze ans, l’analyse des précurseurs de dangers des réseaux ferroviaires de la RATP, permet de suivre mensuellement les événements relatifs à la sécurité ferroviaire suivant un modèle d’analyse statistique spécifique. L’objectif de la communication est de présenter l’algorithme de prévision développé permettant d’estimer les occurrences de chaque précurseur suivi pour le prochain mois.

Ces estimations reposeront sur une modélisation probabiliste des précurseurs qui tiendra compte du comportement passé de ces derniers, de certaines variables contextuelles et des recommandations mensuelles émises par la RATP.

Summary

RATP is developing a safety policy allowing it to protect itself from the hazard events.

For almost fifteen years, the RATP's precursor of hazards analysis of railway networks has been used to monitor railway safety events on a monthly basis using a specific statistical analysis model.

The objective of the paper is to present the prediction algorithm developed to estimate the occurrences of each precursor monitored for the next month.

These estimates will be based on a probabilistic modeling of precursors that will take into account their past behavior, certain contextual variables and monthly recommendations issued by RATP.

Contexte

1. Réseaux de transport de la RATP

Avec seize lignes de métro, deux lignes de RER, huit lignes de tramway et près de trois cent cinquante lignes de bus, la RATP (Régie Autonomes des Transports Parisiens) assure chaque jour la circulation de plusieurs millions de passagers dans l’ensemble de la région Île-de-France.

Les systèmes de transport sont des systèmes complexes. Leur complexité est liée à la multitude d’éléments les constituant, aux multiples interactions les animant et aux importantes et constantes sollicitations qu’ils subissent. En termes de sécurité, toutes ces contraintes favorisent l’émergence de situations complexes et dégradées susceptibles, si elles ne sont pas maîtrisées, d’aboutir à l’occurrence d’événements redoutés.

Afin d’assurer la maîtrise de ces situations, la RATP s’appuie sur un ensemble de processus qui constitue sa politique de maîtrise des risques.

2. Politique de maîtrise des risques

La RATP développe une politique de sécurité lui permettant de se prémunir des événements redoutés. Cette politique se décline notamment au travers de la recherche permanente de la sûreté de fonctionnement et de la maîtrise de la qualité de la production et du service, afin d’assurer à ses clients, et à la collectivité, le service sûr attendu, et à son personnel la sécurité dans ses interventions.

Pour maîtriser ses risques dans le domaine ferroviaire, la RATP a développé depuis de nombreuses années des mesures centrées sur l’amélioration continue de la fiabilité des installations, du matériel roulant et sur la mise en place de différents systèmes et méthodes de management des risques.

Depuis près de quinze ans, l’analyse des précurseurs de dangers des réseaux ferroviaires de la RATP, permet de suivre mensuellement les événements relatifs à la sécurité ferroviaire suivant un modèle d’analyse statistique spécifique (Voncken et al, 2004). L’analyse de ces précurseurs génère des recommandations qui sont systématiquement analysées en comité de sécurité ferroviaire et font l’objet d’actions spécifiques.

La démarche liée aux précurseurs de dangers repose sur une idée forte : « Être attentif à tous les signes précurseurs pour en réduire leur fréquence d’apparition, seule démarche capable de diminuer la probabilité d’apparition des événements redoutés ».

Objectif de la démarche

L’objectif des travaux menés est d’améliorer l’analyse des précurseurs de dangers en y intégrant un algorithme de prévision. Ce dernier doit fournir une indication sur la tendance future des évolutions des événements précurseurs de dangers.

Le gain apporté par l’ajout d’un tel algorithme réside dans l’augmentation de la sensibilité de l’analyse des précurseurs de dangers. Il doit permettre d’une part, d’anticiper les dégradations à venir, et d’autre part, d’anticiper la confirmation d’une dégradation avérée, afin d’anticiper les plans d’actions préventives ou curatives adéquates pour assurer la maîtrise des risques.

Ces travaux s’inscrivent dans la poursuite de ceux menés en 2014 (Hounnou et al, 2014).

(3)

Principe de l’analyse des précurseurs de

dangers

L’objectif de l’analyse des précurseurs de dangers est de participer à conforter la sécurité ferroviaire par :

- la connaissance des événements précurseurs d’accident (définition des précurseurs et moyen de mesure) ;

- le suivi de l’évolution de ces précurseurs (méthode d’analyse et présentation des résultats) ;

- l’anticipation, en maintenant ou ramenant la fréquence des précurseurs dans une plage d'exigence (partie pilotage des actions suite aux analyses des précurseurs).

Le modèle mathématique appliqué est issu de travaux conjointement réalisés par la RATP et le Laboratoire d’Analyse et Modélisation de Systèmes pour l’Aide à la DÉcision de l’université Paris Dauphine (LAMSADE) (Tanzi et al, 2000).

1. Définition des événements précurseurs de dangers

Un événement précurseur de danger est défini comme étant un événement appartenant à une chaîne incidentelle et susceptible de conduire à des événements redoutés (incidents d’exploitation ou accidents graves).

Ces chaînes d’événements peuvent être représentées comme étant le résultat des états successifs des moyens de prévention et de protection ou barrières mis en place pour réduire le risque en agissant soit sur la probabilité d’occurrence de l’accident, soit sur sa gravité en minimisant les conséquences.

En pratique, leur identification est réalisée au sein de groupe de travail rassemblant les différents pôles d’expertise des départements d’exploitation, d’ingénierie et de la maintenance de la RATP. Cette identification pouvant être fonction des évolutions techniques, environnementales et organisationnelles, la liste des événements précurseurs de dangers suivis peut être amenée à évoluer dans le temps. Les principes de cette identification ont déjà fait l’objet d’une publication dans le cadre du Lambda-Mu 18 (Parrennes et al, 2012).

Parmi tous les événements d’une chaîne accidentelle, seront distingués :

- ceux qui représentent la sollicitation d’un moyen de prévention ;

- ceux qui représentent l’inefficacité du moyen de prévention ;

- ceux qui représentent l’efficacité du moyen de prévention ;

- ceux qui représentent le fonctionnement en mode dégradé (utilisation et durée de fonctionnement en mode dégradé).

La condition sinequanone pour qu’un précurseur identifié soit suivi via cette analyse est que sa mesure soit fiable et exhaustive.

2. Méthode d’analyse et présentation des résultats La résultante de l’analyse des précurseurs de dangers est l’émission d’une recommandation à destination du métier portant la responsabilité du précurseur considéré. Cette recommandation est construite à partir de 3 indicateurs : - l’indicateur mensuel

- l’indicateur d’évolution à court terme - l’indicateur de tendance à long terme.

Le caractère confidentiel et l’objet de cette communication font que ces trois indicateurs sont succinctement décrits dans les paragraphes suivants.

2.1. Indicateur mensuel

L’indicateur mensuel a pour objet de positionner l’observation du précurseur considéré d’un mois donné de l’année en cours par rapport aux mêmes mois calendaires des années antérieures. La majeure partie des effets saisonniers est ainsi évitée, ce qui rend signifiante la comparaison des valeurs de l’indice pour les mois successifs.

2.2. Indicateur d’évolution à court terme

Il importe de pouvoir mettre en évidence aussi bien le caractère exceptionnel d’une valeur anormalement élevée que le reflet d’une évolution dangereuse du précurseur. Dans ce but, la comparaison des valeurs que prend l’indicateur mensuel durant plusieurs mois consécutifs est réalisée. Elle repose sur une analyse de l’évolution à court terme (courte série).

Cet indicateur d’évolution permet de savoir si nous sommes en présence d’un épiphénomène ou si au contraire il est révélateur d’une réelle évolution.

2.3. Indicateur de tendance à long terme

L’analyse de l’évolution à court terme peut être insuffisante. En effet, une dérive lente des observations d’un précurseur pourrait ne pas être détectée avec l’analyse d’une série courte. Par conséquent, un indicateur reflétant l’évolution sur une longue période a été associé à chaque précurseur.

Cet indicateur reflète l’évolution de la valeur de l’occurrence du précurseur, rapportée à sa valeur moyenne. Il permet de détecter d’une part, les dérives lentes qui se produisent par petits pas et d'autre part, la persistance de situations d’alerte que des actions correctives ne parviendraient pas à faire disparaître, instaurant ainsi la normalisation d’un niveau d’exigence affaibli.

2.4. Établissement de la recommandation

L’objectif de l’analyse des précurseurs est de déterminer, pour chacun d’eux, le type d’action qu’il faut mener. Les recommandations sont issues de l’analyse des trois indicateurs, en tenant compte de la recommandation du mois précédent pour éviter les alertes intempestives sur des épiphénomènes. Soit, il n’y a pas de recommandation, soit la recommandation “Examiner”, soit la recommandation “Réagir”.

3. Pilotage des actions

Sans pilotage, l’établissement des recommandations à partir de l’analyse de précurseurs perd tout son sens. Par conséquent, les recommandations sont systématiquement transmises au corps décisionnel (i.e. direction générale et directeurs des départements concernés) et font l’objet d’une revue mensuelle spécifique lors des comités de sécurité des différents réseaux de transports.

Les précurseurs, pour lesquelles une recommandation “Réagir” a été émise, doivent faire l’objet d’une présentation des investigations et en fonction, la proposition d’un plan d’actions associé.

Formalisation de la problématique

D’un point de vue probabiliste, un précurseur de dangers 𝜌𝜌 est un événement pour lequel on définit la variable 𝑁𝑁𝑡𝑡𝜌𝜌

désignant le nombre d’occurrences de ce précurseur 𝜌𝜌 au mois 𝑡𝑡. La variable 𝑁𝑁𝑡𝑡𝜌𝜌 représente donc un nombre entier

positif ou nul.

De plus, un indicateur numérique, noté 𝐼𝐼𝑡𝑡𝜌𝜌, caractérisant la

tendance d’évolution du précurseur 𝜌𝜌 est déterminé comme suit :

(4)

où la fonction 𝑓𝑓 représente la procédure de calcul de l’indicateur 𝐼𝐼𝑡𝑡𝜌𝜌 qui repose sur les nombres d’occurrences

du précurseur 𝜌𝜌 observées entre le mois courant 𝑡𝑡 et les ℎ derniers mois (cf. Sections indicateur mensuel, Indicateur de tendance à court terme et indicateur de tendance à long terme). En pratique, l’indicateur 𝐼𝐼𝑡𝑡𝜌𝜌 est un nombre réel

positif.

Enfin, une recommandation qualitative 𝑅𝑅𝑡𝑡𝜌𝜌= 𝑔𝑔(𝐼𝐼𝑡𝑡𝜌𝜌) est

déduite de l’indicateur 𝐼𝐼𝑡𝑡𝜌𝜌 selon une procédure 𝑔𝑔

permettant de convertir une valeur numérique en un niveau d’alerte représentatif de la tendance d’évolution du précurseur 𝜌𝜌 (cf. Section Établissement de la recommandation). Chaque recommandation est transmise au métier concerné par le précurseur associé et par conséquent susceptible de prendre des mesures pour corriger des tendances à risque si besoin.

D’un point de vue opérationnel, la chronologie de l’analyse des précurseurs est la suivante :

- pour un précurseur donné 𝜌𝜌, la donnée 𝑁𝑁𝑡𝑡𝜌𝜌 n’est

disponible qu’à la fin du mois 𝑡𝑡 (consolidation de la donnée) ;

- la recommandation correspondante 𝑅𝑅𝑡𝑡𝜌𝜌 est calculée

au cours du mois 𝑡𝑡 + 1et transmise au métier à la fin du mois 𝑡𝑡 + 1 ;

- en pratique, le métier peut donc prendre des mesures pour corriger la tendance du précurseur 𝜌𝜌 sur la base de la recommandation 𝑅𝑅𝑡𝑡𝜌𝜌au mois 𝑡𝑡 + 2.

L’objectif de ce papier est de proposer une approche permettant d’estimer une prévision de la recommandation d’un précurseur 𝜌𝜌 donné au mois 𝑡𝑡 + 1, notée 𝑅𝑅�𝑡𝑡+1𝜌𝜌 . Or,

d’après la définition de l’Équation 1, cette prévision est définie par 𝑅𝑅�𝑡𝑡+1𝜌𝜌 = 𝑔𝑔 ∘ 𝑓𝑓�𝑁𝑁�𝑡𝑡+1𝜌𝜌 , 𝑁𝑁𝑡𝑡𝜌𝜌, … , 𝑁𝑁𝑡𝑡−ℎ−1𝜌𝜌 �, où

𝑁𝑁�𝑡𝑡+1𝜌𝜌 correspond à la prévision du nombre d’occurrence du

précurseur 𝜌𝜌 au mois 𝑡𝑡 + 1.

La problématique posée se résume donc à l’estimation de 𝑁𝑁�𝑡𝑡+1𝜌𝜌 . Pour ce faire, une modélisation probabiliste visant à

expliquer la variable 𝑁𝑁𝑡𝑡+1𝜌𝜌 à partir de variables

contextuelles (e.g. historique des valeurs précédentes, recommandations précédentes, période de l’année, etc) est décrite dans les sections suivantes.

Modélisation

La problématique soulevée dans cet article relève de l’analyse des séries temporelles (Box et al. 2015). Suite aux travaux réalisés en 2014 et présentés au Lambda-Mu 19 (Hounnou et al, 2014), des expérimentations ont ainsi été réalisées en utilisant les modèles autorégressifs ou la méthode des bandes de Bollinger (Kannan et al. 2010). Toutefois ces techniques ne sont pas adaptées à la représentation de processus dépendant de variables contextuelles qualitatives (e.g. recommandation, saison). Afin de lever cette limitation, la méthodologie proposée repose sur le formalisme des réseaux bayésiens (Pearl 2014). Plus précisément, l’objectif étant la modélisation et la prévision à court terme de l’évolution des précurseurs, il sera question de réseaux bayésiens dynamiques (Murphy

et al. 2002 ; Zhang et al. 2004) correspondant à une

extension du formalisme initial adaptée à la représentation des phénomènes dynamiques.

Le choix des réseaux bayésiens est motivé par leur caractère intuitif et leur puissance de modélisation. De plus, la transparence mathématique des modélisations réalisées avec ce formalisme, et par conséquent leur capacité à faciliter l’interprétation des résultats obtenus, est un atout particulièrement intéressant, notamment dans le domaine de l’analyse de risques. Notons enfin que les réseaux bayésiens sont toujours plébiscités à la fois dans

le monde académique et le monde industriel pour la mise en œuvre d’outils d’aide à la décision, et ce, dans une large gamme de secteurs d’activités.

1. Rappels sur les réseaux bayésiens

Les réseaux bayésiens (RB) sont des outils mathématiques permettant de représenter la loi jointe d’une suite de variables aléatoires (v.a.) 𝑋𝑋1, . . . , 𝑋𝑋𝑛𝑛 à partir :

- d’un graphe orienté sans circuit dans lequel chaque nœud est associé à une des v.a. du processus et chaque arc correspond à une relation de dépendance directe entre deux v.a. :

- d’une suite de lois de probabilité conditionnelles (LPC), notées {𝑃𝑃�𝑋𝑋𝑖𝑖|𝑝𝑝𝑝𝑝(𝑋𝑋𝑖𝑖)�}𝑖𝑖=1,...,𝑛𝑛, représentant le

comportement probabiliste de chacune des v.a. 𝑋𝑋𝑖𝑖

conditionnellement à ses v.a. parentes dans le graphe, notées 𝑝𝑝𝑝𝑝(𝑋𝑋𝑖𝑖).

En conséquence, la loi jointe d’une suite de v.a. 𝑋𝑋1, . . . , 𝑋𝑋𝑛𝑛

représentée par un RB vérifie la relation suivante : 𝑃𝑃(𝑋𝑋1, … , 𝑋𝑋𝑛𝑛) = ∏ 𝑃𝑃�𝑋𝑋𝑛𝑛𝑖𝑖=1 𝑖𝑖�𝑝𝑝𝑝𝑝(𝑋𝑋𝑖𝑖)� {2}

Cette factorisation est à l’origine du caractère parcimonieux des modèles probabilistes reposant sur les RB et de l’efficacité calculatoire des algorithmes d’inférence probabiliste bâtis pour ce formalisme (Cozman 2000).

2. Hypothèses de modélisation

L’objectif de cette étude est d’estimer une prévision du nombre d’occurrences mensuel d’un précurseur 𝜌𝜌, notée 𝑁𝑁𝑡𝑡+1𝜌𝜌 , à partir des observations précédentes de ce

précurseur et d’un ensemble de variables explicatives. Notons que l’expression de la v.a. 𝑁𝑁𝑡𝑡+1𝜌𝜌 peut se mettre sous

la forme 𝑁𝑁𝑡𝑡+1𝜌𝜌 = 𝑁𝑁𝑡𝑡𝜌𝜌+ 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 où 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 est une v.a.

représentant l’évolution du nombre d’occurrences du précurseur 𝜌𝜌 entre les mois 𝑡𝑡 et 𝑡𝑡 + 1. La relation qui lie 𝑁𝑁𝑡𝑡𝜌𝜌, 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 et 𝑁𝑁𝑡𝑡+1𝜌𝜌 est déterministe.

La relation précédente implique ainsi que la problématique de prévision de 𝑁𝑁𝑡𝑡+1𝜌𝜌 se ramène à la prévision de la v.a.

𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 . S’intéresser à 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 plutôt qu’à 𝑁𝑁𝑡𝑡+1𝜌𝜌 a un intérêt

pratique visant à réduire le domaine de définition de la variable cible à expliquer.

Par ailleurs, afin de cadrer le travail de modélisation, les hypothèses suivantes sont utilisées :

H1. Le processus d’évolution des précurseurs est considéré comme étant markovien d’ordre au plus égal à 3. Autrement dit, la v.a. 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 ne dépend que

de v.a. observables entre les mois 𝑡𝑡 + 1 et 𝑡𝑡 − 2. H2. Toutes les v.a. considérées dans cette modélisation

sont discrètes et finies, en particulier la v.a. 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 est

à valeurs dans l’ensemble {𝑛𝑛𝑚𝑚𝑖𝑖𝑛𝑛𝜌𝜌 , . . . , −1, 0, 1, . . . , 𝑛𝑛𝑚𝑚𝑚𝑚𝑚𝑚𝜌𝜌 }où 𝑛𝑛𝑚𝑚𝑖𝑖𝑛𝑛𝜌𝜌 et 𝑛𝑛𝑚𝑚𝑚𝑚𝑚𝑚𝜌𝜌 sont

respectivement les bornes de troncature minimum et maximum des évolutions possibles en termes d’occurrences du précurseur 𝜌𝜌 entre deux mois successifs. Il est important de souligner que cette hypothèse est nécessaire du point de vue calculatoire afin de permettre l’utilisation d’un algorithme d’inférence probabiliste exacte afin d’estimer une prévision de 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 .

H3. Les variables explicatives considérées dans cette étude sont :

- 𝑅𝑅𝑡𝑡−1𝜌𝜌 , la recommandation produite suite aux

observations du précurseur 𝜌𝜌 disponibles au mois 𝑡𝑡 − 1 ;

- 𝑅𝑅𝑡𝑡−2𝜌𝜌 , la recommandation produite suite aux

observations du précurseur 𝜌𝜌 disponibles au mois 𝑡𝑡 − 2 ;

(5)

- 𝐸𝐸𝑡𝑡+1𝜌𝜌 , une variable indiquant si le mois 𝑡𝑡 + 1 est

dans la période estivale juillet/août ou non ; H4. Les variables explicatives sont supposées

indépendantes conditionnellement à l’observation de la v.a. 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 afin de limiter la complexité des

modélisations réalisées et ainsi réduire les risques de surinterprétation.

3. Modélisations réalisées

La Figure 1 donne la structure générale du réseau bayésien modélisant la loi d’évolution du processus aléatoire associé à la suite de v.a. (𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 , 𝛥𝛥𝑁𝑁𝑡𝑡𝜌𝜌, 𝑅𝑅𝜌𝜌𝑡𝑡−1, 𝑅𝑅𝑡𝑡−2𝜌𝜌 , 𝑆𝑆𝑡𝑡+1, 𝐸𝐸𝑡𝑡+1). Cette modélisation,

notée 𝑀𝑀1, est conforme aux hypothèses H1, H3, H4

énoncées précédemment.

Figure 1. Structure du réseau bayésien 𝑀𝑀1 proposé afin

de représenter le processus aléatoire d’évolution des précurseurs.

D’après la propriété de factorisation dans les RB (cf. Équation 2), la loi de probabilité jointe du processus représenté par 𝑀𝑀1 s’écrit :

𝑃𝑃�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 , ∆𝑁𝑁𝑡𝑡𝜌𝜌, 𝑅𝑅𝑡𝑡−1𝜌𝜌 , 𝑅𝑅𝑡𝑡−2𝜌𝜌 , 𝑆𝑆𝑡𝑡+1, 𝐸𝐸𝑡𝑡+1� =

𝑃𝑃�∆𝑁𝑁𝑡𝑡𝜌𝜌� ∙ 𝑃𝑃�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 �∆𝑁𝑁𝑡𝑡𝜌𝜌� ∙ 𝑃𝑃�𝑅𝑅𝑡𝑡−1𝜌𝜌 �∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � ∙

𝑃𝑃�𝑅𝑅𝑡𝑡−2𝜌𝜌 �∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � ∙ 𝑃𝑃�𝑆𝑆𝑡𝑡+1�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � ∙ 𝑃𝑃�𝐸𝐸𝑡𝑡+1�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 �

{3} Notons que les termes du membre de droite de l’Équation 3 correspondent aux lois de probabilité conditionnelles (LPC) associées à chacune des v.a. du modèle conditionnellement à ses v.a. parentes dans le graphe de la Figure 1. Ces LPC correspondent donc aux paramètres du modèle dont l’approche d’estimation est décrite dans la suite (cf. section Apprentissage des modèles).

Par ailleurs, nous proposons d’étudier les trois modèles supplémentaires suivants, tous dérivés du modèle 𝑀𝑀1en

éliminant certaines variables explicatives :

- Le modèle 𝑀𝑀2(cf. Figure 2) correspond au modèle

dynamique le plus rudimentaire puisqu’il s’apparente à une chaîne de Markov classique, i.e. sans prise en compte de variable explicative.

Figure 2. Structure du réseau bayésien 𝑀𝑀2.

- Le modèle 𝑀𝑀3(cf. Figure 3) correspond au modèle 𝑀𝑀2

en ajoutant au processus d’évolution une dépendance des recommandations passées.

Figure 3. Structure du réseau bayésien 𝑀𝑀3

- Le modèle 𝑀𝑀4(cf. Figure 4) correspond au modèle 𝑀𝑀2

en ajoutant au processus d’évolution une

dépendance du contexte calendaire (saison et période estivale).

Figure 4. Structure du réseau bayésien 𝑀𝑀4.

Dans la suite de cette étude, les quatre modèles précédents sont analysés. L’objectif est de pouvoir les comparer en termes de performance prévisionnelle et ainsi retenir pour chaque précurseur considéré le modèle le plus simple qui permet d’atteindre un taux de performance satisfaisant.

4. Apprentissage des modèles

L’approche utilisée pour estimer les paramètres des LPC relatives aux différents modèles présentés dans la section précédente repose sur la méthode du maximum de vraisemblance adaptée aux RB (Friedman et al. 1997). La procédure d’apprentissage statistique s’appuie sur des historiques d’observations de chaque précurseurs et des variables explicatives considérées dans l’hypothèse H3. Plus formellement, il s’agit d’exploiter le jeu de données, noté 𝐷𝐷𝜌𝜌_{= (𝛥𝛥𝑛𝑛}

𝑡𝑡 𝜌𝜌_{, 𝑟𝑟}

𝑡𝑡𝜌𝜌, 𝑠𝑠𝑡𝑡, 𝑒𝑒𝑡𝑡)𝑡𝑡=1,...,𝜏𝜏𝜌𝜌, contenant un nombre 𝜏𝜏𝜌𝜌

d’observations mensuelles disponibles sur les variables relatives au précurseur 𝜌𝜌. Autrement dit, dans cette étude 𝜏𝜏𝜌𝜌_{désigne la taille de l’historique des données exprimée}

en nombre de mois. Plus concrètement, l’analyse des précurseurs ayant débuté, il y a environ quinze ans à la RATP, nous avons donc 𝜏𝜏𝜌𝜌_{≃ 15 × 12 = 180 observations}

pour les précurseurs les plus anciens.

Remarquons qu’un jeu de 180 données reste un échantillon de taille modeste justifiant ainsi l’approche parcimonieuse visant à limiter la complexité des modélisations proposées afin de réduire les risques de surinterprétation.

Par ailleurs, sur une période de quinze ans, il est fortement probable que des changements organisationnels aient eu lieu notamment en ce qui concerne les politiques d’exploitation ou de maintenance. Ces changements sont susceptibles d’entraîner une non-stationnarité des processus d’évolution des précurseurs. Par conséquent, afin de se prémunir contre ce phénomène, une mise à jour des modèles est réalisée mensuellement en estimant à nouveau les paramètres des modèles à partir des ℎ𝜌𝜌_{dernières données disponibles,}

notées 𝐷𝐷_ℎ𝜌𝜌𝜌𝜌= (𝛥𝛥𝑛𝑛_𝑡𝑡𝜌𝜌, 𝑟𝑟_𝑡𝑡𝜌𝜌, 𝑠𝑠𝑡𝑡, 𝑒𝑒𝑡𝑡)𝑡𝑡=(𝜏𝜏𝜌𝜌_−ℎ𝑝𝑝_{),...,𝜏𝜏}𝜌𝜌.

5. Calcul des prévisions

Dans cette section, nous décrivons l’utilisation pratique des modélisations proposées afin d’estimer une prévision de l’évolution d’un précurseur 𝜌𝜌 donné. Les résultats énoncés concernent le modèle général 𝑀𝑀1, les calculs

pour les autres modèles étant analogues.

En effectuant quelques manipulations algébriques de l’Équation 3, la loi de probabilité a posteriori de la v.a. 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 conditionnellement à son contexte a pour

expression 𝑃𝑃�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 �∆𝑛𝑛𝑡𝑡𝜌𝜌, 𝑟𝑟𝑡𝑡−1𝜌𝜌 , 𝑟𝑟𝑡𝑡−2𝜌𝜌 , 𝑠𝑠𝑡𝑡+1, 𝑒𝑒𝑡𝑡+1� = 1 𝑍𝑍⁄ × 𝑃𝑃�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 �∆𝑛𝑛𝑡𝑡𝜌𝜌� ∙ 𝑃𝑃�𝑟𝑟𝑡𝑡−1𝜌𝜌 �∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � ∙ 𝑃𝑃�𝑟𝑟𝑡𝑡−2𝜌𝜌 �∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � ∙ 𝑃𝑃�𝑠𝑠𝑡𝑡+1𝜌𝜌 �∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � ∙ 𝑃𝑃�𝑒𝑒𝑡𝑡+1𝜌𝜌 �∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � {4} ∆𝑁𝑁𝑡𝑡+1𝜌𝜌 ∆𝑁𝑁𝑡𝑡𝜌𝜌 𝑅𝑅𝑡𝑡−2𝜌𝜌 𝑅𝑅𝑡𝑡−1𝜌𝜌 𝑆𝑆𝑡𝑡+1 𝐸𝐸𝑡𝑡+1 ∆𝑁𝑁𝑡𝑡+1𝜌𝜌 ∆𝑁𝑁𝑡𝑡𝜌𝜌 𝑅𝑅𝑡𝑡−2𝜌𝜌 𝑅𝑅_𝑡𝑡−1𝜌𝜌 ∆𝑁𝑁𝑡𝑡+1𝜌𝜌 ∆𝑁𝑁𝑡𝑡𝜌𝜌 𝑆𝑆𝑡𝑡+1 𝐸𝐸𝑡𝑡+1 ∆𝑁𝑁𝑡𝑡+1𝜌𝜌 ∆𝑁𝑁𝑡𝑡𝜌𝜌

(6)

où

- les valeurs 𝛥𝛥𝑛𝑛𝑡𝑡𝜌𝜌, 𝑟𝑟𝑡𝑡−1𝜌𝜌 , 𝑟𝑟𝑡𝑡−2𝜌𝜌 , 𝑠𝑠𝑡𝑡+1, 𝑒𝑒𝑡𝑡+1 sont

respectivement des observations des v.a. 𝛥𝛥𝑁𝑁𝑡𝑡𝜌𝜌, 𝑅𝑅𝑡𝑡−1𝜌𝜌 , 𝑅𝑅𝑡𝑡−2𝜌𝜌 , 𝑆𝑆𝑡𝑡+1, 𝐸𝐸𝑡𝑡+1définissant ainsi le contexte

de la v.a. 𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 ;

- le terme 𝑃𝑃(𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 |𝛥𝛥𝑛𝑛𝑡𝑡𝜌𝜌) correspond à la loi de

transition du processus d’évolution du précurseur 𝜌𝜌 sachant que la dernière observation de l’évolution du précurseur vaut 𝛥𝛥𝑛𝑛𝑡𝑡𝜌𝜌;

- les termes 𝑃𝑃(∙ |𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 )s’interprètent comme la

contribution de chaque v.a. explicative dans l’ajustement du processus de transition 𝑃𝑃(𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 |𝛥𝛥𝑁𝑁𝑡𝑡𝜌𝜌)par rapport au contexte observé ;

- le terme

𝑍𝑍 = ∑_{𝛥𝛥𝑁𝑁}_𝑡𝑡+1𝜌𝜌 𝑃𝑃�𝛥𝛥𝑁𝑁_𝑡𝑡+1𝜌𝜌 , 𝛥𝛥𝑛𝑛_𝑡𝑡𝜌𝜌, 𝑟𝑟_𝑡𝑡−1𝜌𝜌 , 𝑟𝑟_𝑡𝑡−2𝜌𝜌 , 𝑠𝑠_𝑡𝑡+1, 𝑒𝑒_𝑡𝑡+1� est un

facteur de normalisation.

Remarquons qu’il suffit de retirer dans l’Équation 4 les termes 𝑃𝑃(∙ |𝛥𝛥𝑁𝑁𝑡𝑡+1𝜌𝜌 ) associés aux variables explicatives

n’apparaissant pas dans les modèles 𝑀𝑀2, 𝑀𝑀3, 𝑀𝑀4 pour

obtenir la déclinaison de cette équation correspondant à ces modèles.

Enfin, pour déduire une estimation de la prévision d’évolution du précurseur 𝜌𝜌, nous proposons d’utiliser le calcul de l’espérance a posteriori (EAP). En notant 𝒄𝒄𝑡𝑡+1= (𝛥𝛥𝑛𝑛𝑡𝑡𝜌𝜌, 𝑟𝑟𝑡𝑡−1𝜌𝜌 , 𝑟𝑟𝑡𝑡−2𝜌𝜌 , 𝑠𝑠𝑡𝑡+1, 𝑒𝑒𝑡𝑡+1) le contexte du précurseur

au mois 𝑡𝑡 + 1, l’EAP de la prévision du précurseur est définie par :

𝐸𝐸𝐸𝐸𝑃𝑃�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 � = ∑𝑛𝑛𝑚𝑚𝑚𝑚𝑚𝑚 𝑛𝑛 × 𝑃𝑃�∆𝑁𝑁𝑡𝑡+1𝜌𝜌 = 𝑛𝑛�𝑐𝑐𝑡𝑡𝜌𝜌�

𝜌𝜌

𝑛𝑛=𝑛𝑛_{𝑚𝑚𝑚𝑚𝑚𝑚}𝜌𝜌 {5}

Application

Cette section présente l’application de la méthodologie décrite dans ce papier afin d’en évaluer la pertinence opérationnelle.

1. Cas d’étude

Le cas d’étude retenu concerne les précurseurs de danger du réseau Métro de la RATP.

Actuellement 80 précurseurs de danger sont suivis sur le réseau Métro. Etant donné, les diverses opérations de modernisation en cours et à venir, ce nombre devrait augmenter substantiellement. Les précurseurs sont répartis par événement redouté (collision/déraillement, écrasement/électrisation, incendie/panique et divers) et par famille d’appartenance :

- ceux relevant de l’exploitation, par exemple le nombre de franchissement intempestif d’un signal de manœuvre fermé ;

- ceux relevant de la maintenance, par exemple le nombre de dysfonctionnement des appareils de voie, défauts d’assise et incidents d’attache ; - ceux relevant de l'environnement, par exemple le

nombre d’objet sur la voie.

Afin de servir de support à l’évaluation de la méthodologie de prévision développée ainsi qu’aux différentes modélisations proposées, les trois précurseurs suivants ont été sélectionnés :

- DdV : nombre mensuel de dépassements de vitesse identifié lors du dépouillement des paramètres d’exploitation des rames ;

- RC : nombre mensuel de rails (ou barres de guidage) cassés sur le réseau métro ;

- DA : Nombre mensuel d’événements “disjonction d’alarme” enregistrés par le poste de commande centralisé (PCC) du métro.

Ce choix de précurseurs est motivé par leurs propriétés d’évolution qui permettent d’illustrer les principales caractéristiques de la méthodologie appliquée.

L’historique d’évolution de ces trois précurseurs est présenté à titre illustratif dans les Figures 5, 6 et 7.

Figure 5. Évolution des occurrences mensuelles du précurseur DdV (dépassement de vitesse) entre 1998 et

2017.

Figure 6. Évolution des occurrences mensuelles du précurseur RC (rail cassé) entre 1998 et 2017.

Figure 7. Évolution des occurrences mensuelles du précurseur DA (disjonction d’alarme) entre 1998 et 2006. 2. Protocole de tests

Pour chacun des précurseurs sélectionnés 𝜌𝜌 ∈{DdV, RC, DA}, des tests de performance sur la précision des prévisions sont réalisés en faisant varier le modèle utilisé 𝑀𝑀 ∈ {𝑀𝑀1, 𝑀𝑀2, 𝑀𝑀3, 𝑀𝑀4}et la profondeur des données

d’apprentissage ℎ𝜌𝜌_{, i.e. le nombre de mois d’observations}

du précurseur 𝜌𝜌, considérée pour calibrer les modèles. Pour estimer la précision des prévisions d’un précurseur 𝜌𝜌, le protocole de tests suivant est appliqué :

1. Extraction de données de tests à partir de l’historique disponible sur le précurseur.

2. Estimation du nombre d’occurrences du précurseur sur les données de tests en utilisant le calcul de l’EAP (cf. Équation 5). Chaque prévision est estimée à partir d’un modèle calibré à partir de l’historique de taille ℎ𝜌𝜌_{précédent la prévision à calculer}

conformément à l’approche décrite dans la Section

Apprentissage des modèles.

3. Évaluation de la performance prévisionnelle en mesurant l’erreur sur les prévisions effectuées. Pour ce faire, le critère de l’erreur absolue normalisée moyenne, notée communément MASE (Mean

Absolute Scaled Error) (Hyndman et al., 2006), est

(7)

3. Résultats et discussions

3.1. Précurseur : dépassement de vitesse

Les résultats de l’étude paramétrique sur le précurseur DdV (dépassement de vitesse) sont présentés sur la Figure 8.

Les principales observations sont :

- L’augmentation de la profondeur d’apprentissage a une influence négative sur la mesure d’erreur, cette dernière atteignant un minimum avec un historique de 48 mois, soit 4 ans.

- Les modèles 𝑀𝑀2 et 𝑀𝑀3 offrent les meilleurs

performances sans pour autant se détacher nettement des autres modèles.

Figure 8. Performance prévisionnelle du précurseur DdV (dépassement de vitesse) en fonction de la profondeur d’apprentissage, variant de 3 à 12 ans. Ces résultats peuvent s’expliquent par les points suivants :

- Le précurseur DdV a une tendance clairement non stationnaire (cf. Figure 5) avec une tendance décroissante entre les années 1998 et 2007 (correspondant à la mise en place des contrôles continus de vitesse sur l’ensemble du réseau Métro) puis une tendance stabilisée jusqu’en 2018. Une profondeur d’apprentissage relativement courte permet donc de rester robuste face aux changements de caractéristiques du processus d’évolution du précurseur.

- En tenant compte d’une profondeur d’apprentissage courte, les quatre modèles montrent des performances comparables. Le modèle 𝑀𝑀2semble

toutefois plus précis quelque soit la profondeur d’apprentissage. Ceci peut s’expliquer en partie par une réduction de l’effet de surinterprétation dûe à l’utilisation d’un modèle simple dans un contexte non-stationnaire.

- Le caractère non-stationnaire s’explique par les travaux de modernisation du Métro de plus en plus nombreux. La mise en service d’automatismes de conduite, la pose de limitations temporaires de vitesse, par exemple, sont des facteurs influents pour ce précurseur.

3.2. Précurseur : rail ou barre de guidage cassé Les résultats de l’étude paramétrique sur le précurseur RA (rail ou barre de guidage cassé) sont présentés sur la Figure 9.

Les principales observations sont :

- L’augmentation de la profondeur d’apprentissage a une influence positive sur l’erreur de prévision commise.

- Alors que tous les modèles offrent des performances comparables avec des historiques d’apprentissage courts (inférieurs à 5 ans), les modèles 𝑀𝑀1 et 𝑀𝑀4 se détachent assez clairement

avec des historiques plus longs (supérieurs à 10 ans).

- On notera que pour le précurseur équivalent sur le réseau RER, la profondeur n’aura, a priori, pas la même influence en supposant que l’opération de renouvellement de la voie et du ballast du RER A soit significative.

Figure 9. Performance prévisionnelle du précurseur RC (rail ou barre de guidage cassé) en fonction de

la profondeur d’apprentissage, variant de 3 à 12 ans.

Ces résultats peuvent s’interpréter de la façon suivante : - Le précurseur RC possède une tendance annuelle

relativement stationnaire. Par ailleurs, un phénomène de saisonnalité lié aux températures basse explique en partie les pics d’occurrences de rails cassés. Il est donc naturel pour les modèles tenant compte de la saison courante, i.e. les modèles 𝑀𝑀1 et 𝑀𝑀4 d’atteindre les meilleurs résultats.

- L’évolution du précurseur RC semblant stationnaire, les modèles s’avèrent d’autant plus robustes que la taille des données d’apprentissage est importante. - Les occurrences de ce précurseur sont relativement

faibles et peu dispersées ; d’autant plus entre les périodes définies entre avril et octobre.

3.3. Précurseur : disjonction d’alarme

Les résultats de l’étude paramétrique sur le précurseur DA (disjonction d’alarme) sont présentés sur la Figure 10. Les principales observations sont :

- L’augmentation de la profondeur d’apprentissage semble avoir une influence positive sur la performance prévisionnelle, en particulier pour les modèle 𝑀𝑀2 et 𝑀𝑀3.

- Le couple de modèles 𝑀𝑀1 et 𝑀𝑀4 aboutissent à des

performances significativement supérieures au couple de modèles 𝑀𝑀2 et 𝑀𝑀3 quelque soit la

(8)

Figure 10. Performance prévisionnelle du précurseur DA (disjonction d’alarme) en fonction de la profondeur d’apprentissage, variant de 3 à 6 ans. Les résultats précédents peuvent s’interpréter de la manière suivante :

- D’un point de vue opérationnel, l’expertise montre que l’occurrence des disjonctions d’alarme se produit fortement en lien avec les intrusions sur les voies et les actes de malveillance.

- Pour l’exploitant, les périodes de vacances scolaires, et particulièrement celles estivales, sont propices à la manipulation de rupteur d’alarme suite à d’objets tombés sur la voie ayant eu pour conséquence des intrusions sur les voies de voyageurs. Cette réalité opérationnelle est donc en accord avec les bonnes performances réalisées par le modèle 𝑀𝑀4.

Conclusion

Les travaux présentés dans cette publication ont pour objectif d’améliorer l’analyse des événements précurseurs de dangers par la mise en place d’une méthodologie générale d’analyse prévisionnelle de ces derniers. La finalité de cette démarche est de renforcer le concept de précurseur en anticipant les dérives permettant ainsi aux unités opérationnelles de passer d’un pilotage par actions “correctives” à un pilotage par actions “préventives”.

Pour ce faire, une première modélisation a été réalisée en s’appuyant sur l’analyse d’indicateurs prédictifs élaborés afin d’être intégrés dans un modèle probabiliste ne requérant la compréhension d’aucun phénomène expliquant le mécanisme d’évolution des systèmes étudiés (Hounnou et al, 2014). La mise en oeuvre de cette méthodologie s’est avérée trop complexe au regard des performances démontrées et du caractère adaptatif et évolutif de la méthode.

Fort de ce REX, le développement d’une nouvelle méthodologie a été orienté par l’ambition d’analyser les données brutes, de pouvoir calibrer le modèle probabiliste, d’évaluer les performances de prévision et enfin d’être en capacité de sélectionner un mode opérationnel. Compte-tenu de la nature hétérogène des précurseurs et du principe fondamental de la démarche, il était important de choisir un modèle “sur-mesure” pouvant s’adapter aux différents processus d’évolution.

Pour toutes ces raisons, l’intérêt s’est porté sur les réseaux bayésiens, accentué par la contrainte de parcimonie dûe à la taille limitée des historiques.

La méthodologie est encore en cours de développement. Les tests doivent se poursuivre via la comparaison des recommandations construites sur les données réelles et celles élaborées sur les données prédites pour un certain nombre de précurseurs.

La prise en compte de l’expertise métier pour représenter plus fidèlement le processus d’évolution de certains précurseurs et contribuer à combler le déficit de données est une piste d’amélioration sérieusement envisagée.

Remerciement

Nous remercions le Laboratoire d’Informatique de Paris 6 pour le développement et la maintenance de la librairie

opensource pyAgrum1_{. Cette librairie, écrite pour le}

langage Python permettant de construire et quantifier les réseaux bayésiens, a été largement utilisée tout au long des travaux présentés dans cet article.

Références

Box, G. E., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2015). Time series analysis: forecasting and control. John Wiley & Sons.

Cozman, F. G. (2000, November). Generalizing variable elimination in Bayesian networks. In Workshop on Probabilistic Reasoning in Artificial Intelligence (pp. 27-32). Editora Tec Art São Paulo, Brazil.

Friedman, N., Geiger, D., & Goldszmidt, M. (1997). Bayesian network classifiers. Machine learning, 29(2-3), 131-163.

Hounnou, L., Parrennes, F., Anticiper l’évolution des précurseurs de danger par le développement d’une fonction prédictive, Publication Lambda-Mu 19 (Dijon), 2014.

Hyndman, R. J. and A. B. Koehler (2006). Another look at measures of forecast accuracy. International Journal of Forecasting 22(4), 679–688.

Kannan, K. S., Sekar, P. S., Sathik, M. M., & Arumugam, P. (2010, March). Financial stock market forecast using data mining techniques. In Proceedings of the International Multiconference of Engineers and computer scientists (Vol. 1, p. 4).

Murphy, K. P., & Russell, S. (2002). Dynamic bayesian networks: representation, inference and learning.

Parrennes, F., Cointet, A., Maîtrise des risques d’un système de transport - Identification des précurseurs de dangers, Publication Lambda‑Mu 18 (Tours), p. 454 à 461, 2012.

Pearl, J. (2014). Probabilistic reasoning in intelligent systems: networks of plausible inference. Elsevier. Tanzi, T.-J., Roy, B., Flages, M., Voncken, D., Indicateurs de dangerosité appliqués au transport collectifs, Publication Lambda‑Mu 12 (Montpellier), p. 703 à 708, 2000.

Voncken, D., Roy, B., Indicateurs d’alerte des dangers (Rapport final), Document RATP, 2004.

Zhang, C., Sun, S., & Yu, G. (2004, October). A Bayesian network approach to time series forecasting of short-term traffic flows. In Intelligent Transportation Systems, 2004. Proceedings. The 7th International IEEE Conference on (pp. 216-221). IEEE.