Évaluation des performances de la résolution en temps de calcul

IV.3 Évaluation des performances de l’algorithme sur un ensemble de cas de tests

V.2.1 Évaluation des performances de la résolution en temps de calcul

La principale limitation concerne le temps de calcul : pour ce type de problèmes, le temps de résolution explose de manière exponentielle en fonction de la taille des données d’entrée. La figure (Figure 21 page 116) montre que le facteur déterminant est bien le nombre N de systèmes (croissance exponentielle), et non la taille du plan de vol (croissance linéaire). Ainsi, pour 6 systèmes pouvant tomber en panne le solveur explore par exemple plus d’un million d’états et trouve une solution optimale et valide en 32 secondes.

Deux pistes d’amélioration peuvent être envisagées : réduire de manière pertinente le nombre de systèmes en entrée ; ou trouver un solveur plus rapide, voire non-optimal. Un tel solveur pourrait en particulier profiter de la structure très particulière du problème : notre modèle présente très peu de boucles, et s’apparente dans presque tous les cas à un GSSP (Kolobov et al.2012), qui peut être résolu à la volée de manière bien plus rapide. Une résolution à la volée permet de n’explorer que les états qui semblent les plus intéressants, réduisant de manière importante le nombre d’états visités. Comme nous le verrons dans la seconde partie de cette étude, un algorithme construit autour de ce principe peut être construit et appliqué à ce problème.

Toutefois, la piste principale d’évolution concerne la réduction des données d’entrée : lorsqu’une panne d’un instrument de localisation survient, il n’est par exemple pas pertinent de considérer une panne possible de la ventilation ; il est donc possible d’effectuer un tri en amont des systèmes pouvant impacter la réparation de la panne venant de survenir. Ce tri peut concerner par exemple les critères suivants :

– Considérer les systèmes faisant partie de la chaîne de redondance et/ou mentionnés dans la MEL. – Considérer les systèmes pouvant prochainement tomber en panne (pronostic).

– Considérer les systèmes dont une panne potentielle serait critique et pourrait retarder ou empêcher une réparation à temps.

Nous avions déjà évoqué dans un chapitre précédent la pertinence de proposer deux options de résolution - une rapide et une plus longue. Ceci correspond à deux besoins différents de l’utilisateur, selon qu’il doit obtenir une réponse préliminaire rapide ou obtenir une réponse détaillant toutes les implications de la solution choisie. Nous avions chiffré lors d’un dimensionnement grossier que le

CHAPITRE V. ÉVALUATION SUR LE PROBLÈME DU BUSINESS JET 1 2 3 4 5 6 10−2 10−1 100 101 N (s) t (s) – log t (M=4 fixe) 2 4 6 8 10 0 5 10 15 M (s) t (s) t (N=5 fixe)

F i g u r e 21 – Comparaison des temps de résolution selon N (nombre des systèmes) et M (nombres d’escales). La courbe N est en échelle log.

nombre de systèmes concernés pouvait être réduit à un ordre de grandeur de 10 pour la résolution rapide et à un ordre de grandeur de 100 pour la résolution complète.

Nos résultats montrent donc que cette méthode est applicable dans un contexte industriel pour une résolution rapide, puisque le temps de résolution est de l’ordre de la minute. Cependant, en raison de la croissance exponentielle du temps de résolution en fonction du nombre de systèmes, cette méthode n’est pas envisageable pour une résolution complète : les courbes obtenues (Figure 21 page 116) montrent que l’ordre de grandeur du temps de résolution est de M ∗ 10N −5 secondes, ce qui fixe N = 9 comme le maximum raisonnable de systèmes pouvant être traités dans le cadre d’un MCC (2 heures et 50 minutes) et N = 11 le maximum raisonnable de systèmes pouvant être traité lorsque le temps n’est pas contraint (près de 12 jours).

Nous pouvons étudier trois formes particulières de réduction : Réduction à un seul système

Le cas extrême est de restreindre la résolution à un système - celui étant défaillant à l’état initial. Cette méthode nous donne le même type de solution qu’une méthode de planification classique, et à l’avantage d’être presque instantanée (10−2 secondes dans l’exemple 21).

Une de ces deux conditions est suffisante pour garantir que cette réduction est adaptée :

1. La solution optimale doit proposer une réparation au temps le plus tôt possible. Ainsi, si une nouvelle panne survient il sera possible de modifier le plan de réparation prévu pour le prendre en compte.

2. Tous les systèmes impactés par la défaillance venant de se produire ont une contrainte MEL plus longue que la durée de la fin de mission.

Conditions suffisantes pour la réduction à un système

Avec ces conditions, il est évident que le plan choisi demeure le plan optimal même si la résolution ne prend pas en compte les défaillances pouvant survenir : si une nouvelle défaillance survient, cette défaillance ne provoquera pas d’immobilisation de l’avion, ou en tout cas pas d’immobilisation qu’il aurait été possible d’éviter si on avait choisi un autre plan de réparation.

Réduction à l’ensemble des systèmes impactés ou impactants

L’intuition naturelle est de restreindre les systèmes à ceux immédiatement concernés par la panne venant de survenir. Ceci concerne les systèmes dont la défaillance nécessiterait un changement du plan de réparation, par exemple en cas de non respect des contraintes de temps ou de MEL, ou des systèmes présents dans les conditions de dispatch associés à la panne qui vient de survenir, par exemple les systèmes de la chaîne redondante.

On peut calculer ces systèmes de la manière suivante : à partir de la MEL, on détermine tous les systèmes concernés par les conditions GO-IF des défaillances présentes dans l’avion. On ne garde parmi ces systèmes que ceux nécessitant des opérations complexes, c’est-à-dire nécessitant un temps de réparation non négligeable ou des équipements n’étant pas présents au même prix à toutes les escales. On ajoute à cet ensemble de systèmes tous les systèmes dont les conditions GO-IF dépendent de la défaillance venant de survenir. On définit ainsi l’ensemble des systèmes impactés par la défaillance et des systèmes impactant le maintien des services proposés par l’équipement défaillant.

Il est évident que cet ensemble des systèmes ne suffit pas à garantir que les plans de réparations obtenus sont identiques aux plans optimaux qui seraient obtenus si le solveur prenait en compte tous les systèmes : on peut par exemple imaginer un scénario où une panne d’un autre système survient, nécessitant une réparation immédiate empêchant la réparation initiale ; si la réparation initiale ne peut pas être replanifiée à une escale ultérieure, alors l’avion se retrouve bloqué au sol, ou tout du moins obligé de subir des pénalités de retard.

Ce type de scénario ne peut se produire si l’on conserve la condition (1) que les réparations ont lieu le plus tôt possible. Dans les faits, l’ajout des systèmes impactés/impactant est donc intéressante lorqu’il n’est pas possible d’assurer la condition (2) selon laquelle les systèmes impactés ont une contrainte MEL plus longue que la mission.

La condition (1) peut être prise dès lors qu’il n’y a aucun avantage à repousser la réparation ; ceci est notamment le cas lorsque le coût des pièces de rechange est le même à toutes les escales pour les équipements impliqués dans la réparation. La perte financière maximale résultant du choix de cette option est donc facile à évaluer : il s’agit de la différence entre le coût de la réparation au plus tôt et de la réparation au moins cher.

La condition (1) peut cependant être allégée si au cours de la mission une escale est fixée comme permettant toutes les réparations, à la fois en termes de coût et en termes de temps de réparation ; c’est notamment le cas pour les avions disposant d’un hangar de maintenance avec des visites régulières, ou des missions longues dans laquelle l’avion réalise un arrêt long dans un aéroport, pour lequel les équipements de réparation peuvent être obtenus au plus bas coût. Lors de la résolution, une telle escale agit comme une borne supérieure au temps de réparation de la panne : on sait que si la défaillance ne peut pas être résolue avant cette escale, il sera possible de la résoudre à ce moment là. Sous de telles conditions, la sécurité du vol et la capacité de dispatch ne sont pas mises en cause lorsqu’on ne prend pas en compte tous les systèmes.

Analyses de plusieurs combinaisons de systèmes

La dernière approche de réduction consiste à effectuer plusieurs résolutions avec un faible nombre de systèmes, puis à tirer des conclusions sur ces différentes résolutions sur le plan optimal.

L’avantage de cette approche est que l’algorithme est particulièrement rapide pour une résolution de 1 à 3 systèmes. Il est par exemple possible d’effectuer une centaine de résolutions à 2 systèmes en l’espace de quelques secondes. L’inconvénient principal est que les résolutions multiples ne nous donnent que peu d’information sur la manière de les corréler en une solution cohérente.

Une approche envisageable est par exemple de regrouper les stratégies de réparation à un seul système supplémentaire, et de les comparer à la stratégie obtenue sans système autre que le système défaillant à l’état initial : si toutes les stratégies de réparation du système ayant subi la défaillance initiale sont les mêmes, alors cette stratégie semble robuste à une panne supplémentaire ; si certaines stratégies sont différentes, alors cela veut dire que ces pannes peuvent perturber le plan prévu. En particulier, si certaines de ces stratégies imposent que la réparation ait lieu plus tôt que prévu par la stratégie à un seul système, alors la stratégie optimale devra prendre en compte la panne possible de

CHAPITRE V. ÉVALUATION SUR LE PROBLÈME DU BUSINESS JET

ces systèmes.

Plus précisément, en termes de processus décisionnel markovien nous devons comparer entre ces stratégies le chemin d’exécution le plus probable (Most probable path) et détecter parmi les solutions proposées quel est le temps minimal choisi pour la réparation : fixer la réparation plus tard que ce temps est impossible pour des raisons de sécurité ; en revanche, il n’est pas garanti qu’il ne faille pas fixer la réparation plus tôt, puisqu’une combinaison de deux pannes ou plus peut à nouveau perturber le plan de vol.

Il est possible de répéter le même processus (résoudre le problème, trouver le "Most probable path" et trouver le temps de réparation minimal) avec des combinaisons de 2 pannes, puis de 3 pannes, bien que le temps de résolution (et le nombre de combinaisons à étudier) ne grandisse de façon drastique à chaque augmentation. Ceci provoque une erreur en termes de coût vis-à-vis de la politique optimale, puisque toutes les défaillances ne sont pas considérées, qui est au moins aussi grand que la perte maximale causée par les combinaisons de pannes non envisagées, multipliée par la probabilité d’occurrence de chacune de ces combinaison.

On peut par exemple envisager un problème où toutes les situations à 2 pannes ont été anticipées, mais où certaines situations à 3 pannes ont des conséquences importantes en termes de coût, par exemple puisque trois pannes précises mènent à un retard important au décollage ; alors on peut chiffrer le coût de ne pas avoir anticipé cette combinaison de pannes comme étant le produit des probabilités des trois pannes et du coût du retard. On peut se rendre compte que si les trois pannes sont très peu probables la perte financière est acceptable. Pour calculer le coût total de n’avoir anticipé aucune combinaison de 3 pannes, il faudrait faire la somme de ces pertes sur toutes les combinaisons de 3 pannes possibles ; en réalité, les probabilités de défaillance ont souvent plusieurs ordres de grandeur de différence, et il suffit donc le plus souvent de limiter cette somme aux combinaisons les plus probables.

Dans le cas général, en considérant une combinaison de 2 pannes cette perte est minime (en considérant un ordre de grandeur maximal de 10−3 pour les probabilités de défaillance des systèmes critiques) et justifie de limiter la recherche à une combinaison de 2 pannes maximum, voire aux combinaisons de 2 pannes les plus probables (>10−6).

Bien que cette méthode apporte une réponse satisfaisante et rapide dans une grande majorité des cas, notons qu’il est possible de construire des cas où la solution obtenue n’est pas valide, c’est-à-dire qu’une combinaison extrêmement improbable de défaillances amène à l’immobilisation de l’avion et aurait pu être évitée si une autre décision avait été prise. Il est possible de chiffrer ce risque, puisqu’il s’agit simplement du produit maximal des probabilités des combinaisons non testées ; ce risque peut alors être comparé à un certain seuil, de la même manière que la probabilité de respecter une contrainte est comparée à un seuil dans les contraintes PCTL.

Cette méthode est donc valide lorsqu’il est possible de définir un seuil de probabilité de respect des contraintes et que les contraintes les plus probables sont soit (1) incluses dans les tests de combinaison, soit (2) ont un temps de réparation minime devant le temps disponible aux escales visitées avant la date prévue pour la réparation du système initial. En pratique, nous verrons que cette méthode a des similarités avec un algorithme que nous proposerons dans la seconde partie de cette étude ; dans les cas où cette méthode serait choisie, nous recommanderons donc l’application de cet algorithme pour obtenir des résultats similaires.

Dans le document Conception sûre et optimale de systèmes dynamiques critiques auto-adaptatifs soumis à des évènements redoutés probabilistes (Page 126-129)