• Aucun résultat trouvé

court-terme

2.5. Evaluation des modèles

2.5.2. Evaluation des modèles sur des critères probabilistes

2.5.2.1. Fiabilité des modèles

Un critère déterminant pour des modèles probabilistes est la fiabilité. On l’évalue ici avec des histogrammes PIT, focalisés d’abord sur l’ensemble de la distribution (Figure 2-19.A), ensuite seulement sur la partie basse (Figure 2-19.B).

Les histogrammes PIT (Probability Integral Transform) sont des outils qui permettent d’évaluer la fiabilité de modèles de prévision. Pour un intervalle de probabilité donné [τ1, τ2], l’histogramme PIT

permet d’illustrer la proportion des observations qui ont été observées entre les prévisions quantiles Y

̂

t+h|t

τ1

et Ŷt+h|tτ2 . Ainsi, si la valeur de la barre atteint 𝛼%, 𝛼% valant 100% dans le cas d’une fiabilité

parfaite étant observée, il y aurait 𝛼 ∙ (τ2− τ1)% des observations qui seraient comprises entre les

prévisions quantiles Ŷt+h|tτ1 et Ŷ

t+h|t

τ2

.

On fera remarquer qu’un modèle de prévision peut être parfaitement fiable, même si 𝛼 n’atteint pas 100%. Par exemple, avec 10000 prévisions aux erreurs indépendantes et parfaitement fiables, et pour le quantile 𝜏=1%, il y a 1% de probabilité que 1.24% des observations soient surestimées par des prévisions quantiles 1%.

En effet, en accord avec des lois binomiales, des déviations peuvent être observées, et on peut estimer alors que pour un niveau de probabilité 𝜏, la proportion d’observations supérieures à une prévision quantile 𝜏 a une probabilité 𝛽 d’être supérieure à une valeur 𝜏∙ 𝛼𝜏β. Considérant une absence totale de corrélation entre les erreurs de prévision, on représente des exemples de valeurs de 𝛼𝜏β fonction du

nombre d’échantillons sur le Tableau 2-8. Les résultats ne pouvant être calculés pour des échantillons trop importants avec des calculs considérant les formules des lois binomiales, les résultats sont obtenus avec 2000 tirages aléatoires associés à des échantillons de taille variable et dont les valeurs des observations sont binaires. Les valeurs de ces observations sont fixées égales à 1 de manière aléatoire, avec un niveau de probabilité 𝜏.

Tableau 2-8. Exemple de valeurs de 𝛼𝜏 β

, fonction des nombres de prévisions considérées.

𝜏 = 0.1% 𝜏 = 0.5% 𝜏 = 1% 𝜏 = 2% Nombre de prévisions 𝛃 =1% 𝛃 =99% 𝛃 =1% 𝛃 =99% 𝛃 =1% 𝛃 =99% 𝛃 =1% 𝛃 =99% 100 0% 1000% 0% 400% 0% 400% 0% 300% 1000 0% 400% 20% 200% 40% 180% 55% 155% 10000 30% 190% 68% 138% 78% 124% 84% 117% 50000 70% 130% 86% 116% 90% 110% 93% 107%

Dans cette partie, on considère l’ensemble des prévisions pour des horizons allant de 24 heures à 48 heures, ce pour toutes les stations. Les valeurs des barres correspondent aux valeurs moyennes observées pour cet échantillon de prévision, et les barres correspondent aux écart-types observés par rapport à la dispersion de ces valeurs de fréquence relative, pour les mêmes types de données non plus pour toutes les stations mais seulement station par station.

On peut constater sur la Figure 2-19 que les distributions sont relativement bonnes sur les parties centrales, et se dégradent fortement pour les parties basses et les parties hautes des distributions, à l’exception de ce qui est observé pour le modèle QRF.

2. Prévision du Dynamic Line Rating à court-terme 92

Considérant une utilisation de prévisions RTLR pour un quantile fixé à 5%, le MDNN et le GBRT apparaissent même comme non viables, en raison d’une fréquence de surestimations des prévisions proche de 10%.

On fera remarquer que la nature de la construction des échantillons d’entraînement des modèles a un impact faible sur ces fréquences. Sur la Figure 2-20, on représente les diagrammes de fiabilité pour deux modèles de GBRT créés avec des prévisions faites pour les mêmes ensembles de donnée que sur la Figure 2-19. Le premier modèle est entraîné avec un échantillon d’entraînement fixe correspondant à un an de données, et l’autre avec des échantillons d’entraînement réactualisés tous les mois avec un procédé de fenêtre glissante correspondant à un an de données. Même si de légères améliorations sont obtenues, la fréquence de surestimations des prévisions quantiles à 5% passant de 10% à 9%, cette amélioration reste relativement faible.

On remarque aussi sur la Figure 2-19 que les fiabilités erronées pour les quantiles bas sont concentrées pour les niveaux de probabilité inférieurs à 1%.

Une question se pose alors, celle de la qualité de la fiabilité des modèles au regard des exigences des opérateurs de réseau. Les critères de fréquence de 5% et 10% de [51], [76] peuvent aisément être respectés, là où cela peut être plus compliqué pour le critère de 1% utilisé dans [73].

Figure 2-19. Diagrammes PIT pour les 5 différents modèles considérés. Pour calculer la fiabilité, on considère la fréquence relative des prévisions associées aux fréquences considérées supérieures aux observations, ce pour l’ensemble des prévisions faites sur les 8 stations différentes, avec des horizons allant de 24 à 48 heures. On représente avec les barres d’erreur les écarts-types associés aux variations de valeurs de fiabilité entre les différentes stations. Sur la Figure 2-19.A, on représente les diagrammes PIT pour les quantiles allant de 0 à 100%, et sur la Figure 2-19.B, les diagrammes PIT pour les quantiles allant de 0 à 20%.

2. Prévision du Dynamic Line Rating à court-terme 94

Figure 2-20. Diagrammes PIT pour des prévisions fournies par 2 différents modèles de GBRT, avec les mêmes considérations que sur la Figure 2-19. Sur le diagramme de gauche, le modèle est entraîné à l’aide d’un échantillon d’entraînement fixe, comprenant des données collectées sur une année. Pour le deuxième à droite, le modèle est entraîné avec des échantillons d’entraînement réactualisés tous les mois, en utilisant une fenêtre glissante correspondant à une année de données.

2.5.2.2. Finesse

Un deuxième paramètre à évaluer pour des modèles probabilistes est la finesse des modèles. On peut évaluer celle-ci comme étant liée à la largeur des intervalles de précision. On représente sur la Figure 2-21 la taille moyenne des intervalles de précision à 94%, c’est-à-dire la différence moyenne entre les prévisions à 3% et à 97%. La valeur moyenne de ces intervalles est calculée sur les prévisions faites pour l’ensemble des stations météorologiques.

Figure 2-21. Taille moyenne des intervalles [Ŷt3%k+h|tk, Ŷt97%k+h|tk] pour différents modèles de

prévision, fournis avec les 5 méthodologies considérées. Les indices sont calculés en faisant la moyenne des MAPE observés pour les 8 stations différentes, pour des horizons de prévision allant de 1 à 48 heures.

On trouve que le MDNN fournit des prévisions ayant une bonne finesse, ce qui est à mettre en parallèle avec sa mauvaise fiabilité. Un autre point notable est le fait que le QRF a une assez bonne finesse, meilleure que le QLR et le KDE, et ce tout en ayant une bonne fiabilité comme on l’a vu dans la partie précédente.

Par la suite, nous nous sommes intéressés au lien entre le gain fourni par des prévisions RTLR, et la finesse des prévisions. Ainsi, dans la Figure 2-22, on a évalué les fréquences associées à des dépassements d’une valeur seuil, ici 120% du SLR, par une observation RTLR et une prévision RTLR définie avec un niveau de fréquence de 3%.

Figure 2-22. Fréquence de situations où Ŷt k+h|tk

3% ≥ SLR pour différents modèles de prévision,

fournis avec les 5 méthodologies considérées. Les indices sont calculés en faisant la moyenne des MAPE observés pour les 8 stations différentes, pour des horizons de prévision allant de 1 à 48 heures.

On représente les fréquences de dépassement comme les moyennes de celles observées pour l’ensemble des stations. En réalité, ces fréquences ne correspondent pas à des situations réalistes d’utilisation du DLR : au vu de la sélection d’une section critique de ligne, il faudrait en fait observer les dépassements des valeurs minimales de RTLR sur les 8 stations par rapport aux prévisions à 3% minimales fournies pour les 8 stations. Il est alors à noter que là où le modèle MDNN permettait d’obtenir des prévisions probabilistes avec de relativement bonnes finesses, mais que cela ne se traduit pas par une amélioration significative du nombre de situations où la prévision RTLR dépasse les 120% du SLR, surtout par rapport au modèle QLR qui est meilleur que le MDNN sur ce critère en dépit d’une moins bonne évaluation de sa finesse.

On peut aussi souligner une différence remarquable qui apparaît entre la prévision du DLR et d’autres types de prévision. En effet, on peut constater que là où pour des horizons à 24 heures on obtient en moyenne un maximum local pour le nombre d’améliorations permises par le DLR, on constate aussi un minimum local pour la taille des intervalles à 94%.

Pour résumer simplement cette tendance contre-intuitive qui a été observée dans nos cas d’étude, plus une prévision moyenne DLR est grande, moins il y a d’incertitudes sur celle-ci. Cela est principalement dû au fait que les prévisions à haut quantile évoluent relativement peu avec les prévisions

2. Prévision du Dynamic Line Rating à court-terme 96

météorologiques, là où les prévisions à bas quantiles sont beaucoup plus sensibles à ces paramètres. Si on considère les prévisions à haut quantiles comme fixes, on comprend alors que la finesse des intervalles décroît seulement lorsque les prévisions à bas quantile sont élevées et proches des prévisions à haut quantile.