• Aucun résultat trouvé

court-terme

2.3. Propositions de modèles de prévision probabilistes

2.3.4. Classement des variables

Les différents modèles présentés peuvent avoir une sensibilité plus ou moins importante au nombre de variables. Dans le cas d’un nombre de variables élevé, on parle de surapprentissage (overfitting en anglais), les modèles de prévision entraînés avec un échantillon d’apprentissage pouvant devenir non utilisables sur de nouveaux échantillons.

De plus, et comme nous le verrons ici, ce type de phénomène peut apparaître différemment fonction de l’utilisation des modèles pour fournir des prévisions déterministes ou à bas quantile.

Nous présentons dans cette section deux méthodes de traitement des données d’entrée qui ont été utilisées, une première basée sur l’utilisation de variables non traitées et classées suivant un algorithme glouton, et une deuxième basée sur l’utilisation d’une Analyse par Composante Principale en amont de l’entraînement des modèles suivie de la sélection d’un nombre limité de variables transformées. Par la suite, nous présentons les résultats associés à l’étude de l’influence du nombre de variables sélectionnées sur les qualités des différents modèles proposés, ce pour différents indices statistiques d’évaluation. 2.3.4.1. Algorithme glouton avec critère d’information mutuelle.

On s’intéresse dans un premier temps à un entraînement des modèles avec un nombre de variables limité. La sélection des variables se fait selon un algorithme glouton (greedy algorithm) : on sélectionne une première variable fortement liée à la sortie, et on ajoute ensuite de manière incrémentale de nouvelle variables pour observer l’effet obtenu sur la performance du modèle [121].

Pour sélectionner la première variable, plutôt que d’utiliser le coefficient de corrélation pour mesurer la dépendance entre la sortie Y et la variable considérée X1, on s’inspire d’une approche proposée dans

[104], où le coefficient d’information mutuelle (MI) est utilisé :

MI(X1, Y) = ∑ P(x1, y) ∗ log ( P(x1, y) P(x1) ∗ P(y) ) X1Y (2-28)

Contrairement au coefficient de corrélation qui vérifie s’il existe une relation linéaire entre deux variables, le critère d’information mutuelle est en mesure de repérer des relations plus générales. Il est à noter que dans le cas discret, et contrairement au coefficient de corrélation de Pearson, le critère d’information mutuelle peut être inefficient si les données utilisées prennent un nombre de valeurs trop important. On pourrait illustrer cela en disant que si on a des valeurs d’irradiation solaire ayant chacune une valeur différente, alors le coefficient d’information mutuelle sera incapable de repérer des relations potentielles avec une autre variable, tandis que ce ne serait pas le cas si ces valeurs étaient dégradées de manière à n’envisager qu’un nombre de valeurs possibles limité.

Il est alors nécessaire de traiter les données utilisées, et de les classer par cluster, de manière à ce qu’elles n’aient qu’un nombre de valeurs limitées, chaque cluster ayant une valeur associée. Cela est fait en associant les valeurs à des intervalles de même taille, représentant les valeurs possibles entre la valeur minimale et la valeur maximale observées. Ici, 10 intervalles sont considérés.

On sélectionne ensuite une deuxième variable, en considérant encore l’information mutuelle entre la sortie et la nouvelle variable, mais en ajoutant aussi un critère de pénalité par rapport à la relation entre la variable précédemment sélectionnée et la nouvelle variable. Cette nouvelle variable X2 est donc

sélectionnée de manière à maximiser la fonction L1 :

L1(X2) = MI(X2, Y) − λ ∗ MI(X2, Y) (2-29)

Par la suite, ce procédé est à nouveau utilisé pour la sélection d’une k° variable suivante avec la minimisation de la fonction Lk :

Lk(Xk) = MI(Xk, Y) − λ ∗ ∑ MI(Xk, Xj) k−1

j=1

(2-30)

Pour différentes valeurs de λ, on montre sur le Tableau 2-6 un exemple de l’ordre des variables sélectionnées par l’algorithme, dans le cas de la station 1 et ce pour des prévisions faites tous les jours à midi pour un horizon de 24 heures. Le tableau se lit ainsi : pour une valeur de λ donnée, on fournit l’ordre k de la sélection de chaque variable, la variable associée à 1 étant la première variable sélectionnée par l’algorithme.

2. Prévision du Dynamic Line Rating à court-terme 76

Tableau 2-6. Ordre des variables sélectionnés par l’algorithme glouton, pour des prévisions faites avec pour un horizon de 24 heures pour la station 1. Les modèles sont entraînés pour être utilisés tous les jours à midi.

λ 0 0,8 2 5 10 V ari ab les RTLR_0_ob 14 3 4 3 3 RTLR_m_ob 27 5 5 5 5 U_t+h_1 8 9 10 10 10 U_t+h_2 9 16 16 16 16 U_t+h_3 5 2 3 21 21 U_t+h_4 7 21 21 4 4 V_t+h_1 10 24 24 24 24 V_t+h_2 20 20 20 20 20 V_t+h_3 11 7 7 7 7 V_t+h_4 12 25 25 25 25 T_t+h_1 13 22 22 23 23 T_t+h_2 21 4 2 2 2 T_t+h_3 17 18 12 17 17 T_t+h_4 18 12 19 12 12 S_t+h_1 22 14 9 14 14 S_t+h_2 24 10 14 9 8 S_t+h_3 25 23 23 22 22 S_t+h_4 23 19 17 19 19 RTLR_t+h_1 1 1 1 1 1 RTLR_t+h_2 2 15 15 15 15 RTLR_t+h_3 3 17 18 18 18 RTLR_t+h_4 4 11 11 11 11 U_t+h_SD 19 13 13 13 13 V_t+h_SD 16 27 27 27 27 T_t+h_SD 15 26 26 26 26 S_t+h_SD 26 6 6 6 6 RTLR_t+h_SD 6 8 8 8 9

Bien que ce tableau ne soit que l’illustration d’une sélection de variables dans un cas particuliers, quelques résultats qui ont été observés de manière générale peuvent être commentés.

Tout d’abord, nous avons souligné que cette méthode permettait d’éviter la sélection de variables corrélées entre elles, et on constate en effet que pour une valeur de λ égale à 0,8, il est nécessaire d’atteindre la 9° variable sélectionnée pour retrouver deux prévisions d’une même variable faites à deux positions différentes (U_t+h_3 et U_t+h_1).

Ensuite, on constate que la variable la plus explicative est une variable construite à partir des prévisions météorologiques, ici la variable associée à la prévision du DLR à la position 1, créée à l’aide du modèle physique et des prévisions météorologiques, et la nécessité de l’utilisation du modèle physique de l’ampacité d’une ligne pour générer des variables de modèles de prévision DLR apparaît alors claire.

Enfin, avec λ = 0,8, on soulignera le fait que la prévision de l’irradiation solaire globale apparaît comme significative pour la performance des modèles, la variable étant sélectionnée en 6° position devant une valeur de prévision de vitesse de vent sud-nord. Même si les prévisions sont faites pour midi, il est notable de noter que cette variable apparaît comme apportant une information plus importante que la prévision de la vitesse du vent sud-nord, ce malgré la faible importance du terme d’échauffement dû à l’irradiation solaire devant le terme de refroidissement par convection.

2.3.4.2. Analyse par Composante principale.

L’Analyse par Composante Principale [122] (PCA) est une méthode qui vise à faire un changement de base pour les données considérées de manière à réduire les corrélations entre les différentes variables. Nous avons souhaité utiliser cet algorithme pour obtenir un set de variables à taille limitée, donc adapté à des modèles comme le KDE, conservant cependant une capacité plus importante à expliquer des phénomènes que pour un même nombre de variables non traitées.

L’algorithme peut être décrit comme ci-dessous :

• Dans un premier temps, les variables des échantillons d’entraînement et de test sont normalisées en utilisant les valeurs moyennes X̅k train pour l’ensemble d’entraînement considéré et l’écart-type σXk train.

Xtk,normalised =Xt

k− X̅k train

σXk train

(2-31) • La matrice de covariance C pour l’échantillon d’entraînement est calculée, comme la matrice des

données multipliée par sa transposée. Le résultat est une matrice carrée, réelle et symétrique de taille d*d, où d est le nombre de dimensions.

• En raison des propriétés de la matrice considérée et le théorème spectral, la matrice C est diagonalisable dans une base orthonormée. Un ensemble de valeurs propres réelles et de vecteurs propres peut alors être obtenu.

• Les différents vecteurs propres peuvent être classés dans un ordre croissant, en fonction de leurs valeurs propres, le premier étant le vecteur sur lequel la projection des données aura la variance la plus importante.

• Une projection pour les ensembles d’entraînement et de test sur la base obtenue est faite, et un nombre de variables limité est sélectionné de manière à conserver une part importante de la variance des données d’entrée.

2.3.4.3. Echantillons d’entraînement et de test pour le paramétrage

Comme cela est montré dans [123] pour le cas du MDNN, des échantillons pour entraîner les modèles et définir leurs paramètres doivent être générés par validation croisée. Dans le cas du DLR et dans le cadre de cette thèse, cela est difficile car il n’y a actuellement pas de fonction objectif standard définie pour ce type de prévision. En effet, là où on sait que des producteurs d’énergie renouvelables chercheront la plupart du temps à évaluer dans leur ensemble les densités de probabilité associées aux prévisions avec des indices comme le CRPS, cela n’est pas le cas pour les prévisions DLR. La qualité de la modélisation de la partie basse de la distribution sera le critère déterminant, or il n’y a pas actuellement d’étude montrant quelle caractéristique de cette modélisation de partie basse est importante pour les gestionnaires de réseau, des paramètres de finesse ou de fiabilité pouvant être considérés, ce qui entraîne des différences importantes pour le paramétrage final.

2. Prévision du Dynamic Line Rating à court-terme 78

Au lieu de validation croisée pour générer les échantillons utilisés, on travaillera alors ici avec deux échantillons, un d’entraînement et un de test, chacun associé à une année de donnée. Pour chaque méthodologie, un ensemble de modèles associés à toutes les configurations et nombres de variables possible sont générés et évalués afin d’illustrer les différences de comportement des modèles, ainsi que des informations sur les paramétrages finals.