• Aucun résultat trouvé

court-terme

3.3. Modélisation de la partie basse à partir d’un ensemble d’observations et de prévisions

3.3.2. Partitionnement en k-moyennes

Dans [129], il est proposé de définir les paramètres ρ̂ comme dépendant de l’appartenance des prévisions à des clusters donnés. Ces clusters sont définis de manière simple, selon l’appartenance ou non de la prévision médiane Ŷt+h|t50% à des intervalles [ai, ai+1]. Les valeurs de ai étant définies de telle manière que

pour un ensemble de prévisions donné, chaque intervalle contient le même nombre de prévisions, à une observation près.

Cette approche nous apparaît plus difficile à justifier pour le RTLR que pour des prévisions d’EnR. En effet, là où on peut admettre des écart-types associés à des prévisions relativement stables en fonction des prévisions médianes pour des prévisions de production d’énergie, ce n’est pas le cas pour le RTLR, deux ensembles de variables très différents pouvant générer une même prévision médiane.

On pourrait illustrer cela en prenant l’exemple de deux prévisions médianes égales, associées soit à des prévisions de température et de vent faibles (une valeur élevée étant due à la prévision de la température faible, associée à un niveau d’incertitudes faibles), soit à des prévisions de température et de vent élevées (une valeur élevée étant due à la prévision de la vitesse du vent forte, associée à un niveau d’incertitude fort).

Ces ensembles de variables génèrent alors des prévisions médianes identiques, mais les prévisions à quantile bas seront, elles, très différentes. Pour illustrer cela, on représente sur la Figure 3-3 un exemple d’évolution de la finesse de prévisions, ici représentée par la taille des intervalles à 90%, en fonction des valeurs des prévisions RTLR médiane. On fera remarquer que cette figure illustre à nouveau le point illustré dans la section 2.5.2.2, qui est que pour la prévision du DLR, la finesse des intervalles décroît lorsque la prévision médiane croît.

3. Modélisation de la partie basse des distributions 108

Figure 3-3. Finesse des prévisions, ici représentée par la différence entre une prévision à 95% et une prévision à 5%, en fonction des valeurs des prévisions RTLR médianes pour la station 1, ce pour des horizons de prévision allant de 24 à 47 heures pour la période de l’année 2010.

Nous avons alors décidé d’utiliser deux quantiles τ1 et τ2 pour effectuer le clustering, là où un seul fixé

à 50% était utilisé dans l’exemple cité. L’idée est de pouvoir avoir un clustering prenant en compte à la fois la prévision médiane et la finesse de la prévision probabiliste.

Pour effectuer le clustering, nous avons fait un partitionnement en k-moyennes (k-mean clustering), de manière à pouvoir aisément faire varier le nombre de clusters et les paramètres liés aux distances utilisées.

Considérant un ensemble de n observations de tuples de prévisions (Ŷm τ1

, Ŷm τ2

), le partitionnement en k- moyennes vise à partitionner l’ensemble des observations en une partition S de k ensembles, en cherchant à minimiser la distance entre les observations, ici des prévisions (Ŷmτ1, Ŷ

m τ2

), de chaque ensemble et le barycentre de chaque ensemble,(μiY

̂τ1

, μiY ̂τ2

), aussi dit centroïde du cluster Si (3-16) :

minS∑ ∑ (Ŷm τ1− μ i Y ̂τ1 )2+ (Ŷmτ2− μ i Y ̂τ2 )2 m∈Si k i=1 (3-16)

Pour obtenir les clusters, nous avons utilisé la fonction KMeans du package python sklearn [131]. De plus, la résolution de ce problème, avec l’algorithme de Lloyd [132], peut donner des clusters différents en fonction des valeurs des centroïdes (μi,s1Y

̂τ1

, μi,s2Y ̂τ2

), définis lors de l’initialisation du problème, et à partir desquels l’algorithme va définir par la suite les clusters finaux. Pour limiter l’influence du choix aléatoire des premiers centroïdes, nous avons utilisé un nombre élevé d’initialisations différentes, ici 200, de manière à obtenir des résultats identiques pour deux mêmes opérations de clustering.

Pour faire les clusterings, nous avons testé plusieurs combinaisons différentes de couples pour la mise en place des clusters. Deux catégories étaient à différencier pour les couples, ceux générés à partir de quantiles fournissant une information sur l’ensemble de la prévision probabiliste (avec par exemple deux

quantiles symétriques, comme 5% et 95%) et ceux fournissant seulement des informations sur les quantiles bas (par exemple 5% et 10%).

3.3.2.1. Echantillon d’entraînement et de test

Dans le chapitre 2, nous avons travaillé à partir de deux ensembles d’observations pour générer les prévisions, un pour l’apprentissage de nos modèles de prévision et un pour la validation de ces modèles. Chacun de ses échantillons faisait la même taille, et correspondait à peu près à une année de collecte de données.

Pour l’entraînement de la méthodologie ici présentée, il est nécessaire de travailler à partir de l’échantillon d’entraînement évoqué, et cela considérant des prévisions réalistes qui auraient des caractéristiques statistiques similaires aux prévisions faites sur l’échantillon de validation.

Ces critères de similitudes entre les prévisions utilisées dans l’entraînement et en validation ne peuvent pas être respectés avec les prévisions telles qu’elles ont été initialement faites. Pour avoir des prévisions adaptées, on les générera alors par une méthode de “k-fold cross-validation”: On divise l’échantillon d’entraînement en k échantillons, et on considère chacun de ces échantillons comme un échantillon test pour un modèle entraîné avec les (k-1) autre échantillons. Ici k est sélectionné de manière à ce que les échantillons correspondent à des périodes d’échantillonnage d’un mois.

On concatène ensuite les prévisions obtenues et les observations pour obtenir un nouvel échantillon d’entraînement adapté pour faire la configuration des paramètres ρ.

Un problème associé à cette méthodologie est le faible nombre de données utilisées : considérant un an de données, on obtient normalement autour de 300 observations. Cela est suffisant pour observer des prévisions avec des quantiles inférieurs à 5%, mais ce n’est plus le cas lorsque l’on ajoute des clusters : pour un cas de dix clusters, en moyenne seulement près de deux observations correspondraient à des observations inférieures à des prévisions quantiles à 5%. On propose ici de travailler non plus sur des prévisions faites à un instant t pour un instant t+h, mais plutôt pour une concaténation d’ensembles de prévisions pour une liste d’horizons h+i, avec les valeurs de i appartenant à un intervalle donné. On définit ces ensembles d’horizons comme correspondant à des quarts de journée, avec les horizons de prévision suivants :

• De 24 heures à 29 heures. • De 30 heures à 35 heures. • De 36 heures à 41 heures. • De 42 heures à 47 heures.

Chaque échantillon d’apprentissage est alors composé de près de 2000 observations, ce qui permet en moyenne d’avoir près de 100 observations inférieures à des prévisions quantiles à 5%.

Par la suite, les prévisions utilisées pour tester la méthode sont générées à partir de modèles entraînés sur des fenêtres glissantes, des échantillons correspondant à un an de données et réactualisés tous les mois, et testé sur des périodes de un mois. Cette fois, seuls les horizons t+h sont considérés pour les prévisions.

3. Modélisation de la partie basse des distributions 110

Figure 3-4. Schémas illustrant une méthode de k-validation croisée en haut, avec k=12, et une méthode d’entraînement avec fenêtre glissante en bas.

Sur la Figure 3-5, on illustre des clusters faits tel que proposé, pour des données issues de prévisions faites sur la station 1 et pour des horizons allant de 24 heures à 30 heure, ce pour 4 et 10 clusters. De plus, pour chaque cluster, on y ajoute la valeur du paramètre ρ y étant associée. Pour faciliter la lecture de ces graphiques, on précisera que plus les valeurs de ρ sont importantes, plus la queue de distribution « descendra » rapidement, et moins les prévisions à bas quantiles seront distantes des prévisions à quantile 5%. Comme on peut le voir sur ce cas précis, et on a pu retrouver cela sur l’ensemble des autres cas d’étude, il y a un impact sur les valeurs de ρ fonction du cluster d’origine. Cette distinction apparaît pour des cas où le nombre de cluster est faible (Figure 3-5.A), avec des variations allant du simple au double, et est marquée lorsque l’on travaille avec des nombres de clusters plus importants (Figure 3-5.B).

De manière générale, on a pu tirer quelques règles générales. Dans un premier temps, des valeurs de ρ importantes sont observées lorsque les valeurs de prévisions pour les quantiles à 5% et 20% sont toutes les deux faibles. On a observé pour l’ensemble des 24 cas de clustering (6 stations et 4 plages d’horizon) la valeur moyenne de ce paramètre sur le cluster associé aux prévisions respectant le plus ce critère (ici, celui au barycentre ayant la valeur d’abscisse la plus faible). On trouve alors une valeur médiane de ρ̅ de 45,4 A-1, à comparer à la valeur de 13,6 A-1 obtenue dans un cas où un seul cluster est utilisé. Pour

23 des 24 cas considérés, la valeur de ρ associée au cluster bas est plus importante que la valeur de ρ associée au cas où il n’y a pas de clustering.

De plus, considérant une dizaine de clusters pour les partitionnements et ayant alors 240 clusters considérés au total (4 plages d’horizon * 6 stations étudiées), on peut définir plusieurs paires de clusters, associés à des situations où les clusters se « chevauchent ». On peut illustrer cela sur la Figure 3-5.B, avec les clusters 3 et 4 dont les barycentres ont des abscisses proches, mais des ordonnées différentes. On définit ici ce que l’on qualifie de chevauchement lorsque les différences entre les abscisses ou les ordonnées de deux barycentres de clusters est inférieure à 0,03p.u.

Pour les chevauchements verticaux (les abscisses de deux barycentres sont proches), on trouve alors un total de 54 paires respectant ces critères. Pour 70% d’entre elles, la valeur de ρ est supérieure pour le cluster qui est « chevauché », c’est-à-dire dont la valeur de l’ordonnée du barycentre est la plus faible. Cette situation est observée sur la sur la Figure 3-5.B, avec le cluster 3 étant chevauché par le cluster 4, et ayant une valeur de ρ3 supérieure à celle de ρ4. Pour 26% des clusters chevauchés, la valeur de ρ est

supérieure au double de la valeur du paramètre ρ trouvé pour le deuxième cluster, là où la situation inverse n’est observée que dans un seul cas. On retrouve alors une règle générale assez intuitive : pour une valeur de prévision à bas quantile donné, plus la valeur de la prévision à quantile supérieur sera élevée, plus la queue de distribution sera longue. On observe un phénomène similaire pour des chevauchements horizontaux, où les différences des valeurs d’ordonnée des barycentres ne diffèrent pas de plus de 0,3 p.u. : pour 84% des 25 paires observées, on a une queue moins longue lorsque les prévisions quantiles à 5% sont plus proches des prévisions à quantile supérieur.

Nous n’avons pas poussé plus loin l’investigation dans cette direction, mais ces deux derniers points nous permettent de visualiser les évolutions des définitions des paramètres ρ lorsque des structures de clusters différentes seraient utilisées.

Figure 3-5. Exemples de clustering faits sur des prévisions faites sur la station 1, pour des horizons de prévisions allant de 24 à 30 heures. 4 clusters sont considérés sur la Figure 3-5.A et 10 sur la Figure 3-5.B. Pour chaque cluster, on montre sur la figure la valeur de ρ obtenue.

3. Modélisation de la partie basse des distributions 112