Gradient boosting d’arbres aléatoires (GBRT – Gradient Boosting Regression Trees)

court-terme

2.3. Propositions de modèles de prévision probabilistes

2.3.1. Description des modèles

2.3.1.5. Gradient boosting d’arbres aléatoires (GBRT – Gradient Boosting Regression Trees)

Une deuxième méthode ensembliste a été considérée, un Gradient Boosting Regression Trees (GBRT) [109]. Un tel modèle peut avoir un intérêt pour la prévision du DLR : il est possible d’utiliser des fonctions de perte paramétrables, ce que ne permet pas le modèle QRF proposé.

La régression quantile repose sur un coût des erreurs de prévisions évoluant de manière linéaire avec la magnitude des erreurs. Or, le coût réel pris en compte par les gestionnaires de réseau tendrait plutôt à évoluer de manière quadratique ou exponentielle avec la magnitude de l’erreur. Un GBRT permet alors de prendre en considération de telles fonctions, et il est alors aussi considéré ici.

Contrairement au QRF qui entraîne les modèles d’arbres décisionnels de manière parallèle, sans prendre en considération les performances des différents arbres, un modèle de GBRT va entraîner des arbres

décisionnels de manière itérative, en considérant les performances du modèle précédent en accord avec une fonction perte définie par l’utilisateur. On peut succinctement définir l’algorithme comme suit : On commence par entraîner un premier modèle de prévision F0,h. Sa nature importe peu, certains prenant

par exemple la valeur moyenne des valeurs observées dans l’échantillon d’apprentissage. Ensuite, on suit le processus itératif suivant, considérant un modèle Fn,h :

• On calcule le gradient associé à l’erreur de prévision du modèle en considérant une fonction perte LGBRT :

−g(Xt_i) = −

δLGBRT(Yt+h, Fn,h(Xt))

δFn,h(Xt_i)

(2-16) • On crée un arbre décisionnel h_n,h, non plus avec les observations Yt+h comme variables de sortie,

mais avec les variables −g(Xti).

• On définit un nouveau modèle F_n+1,h comme suit :

Fn+1,h(Xt_i) = Fn,h(Xt_i) + plearning∙ hn,h(Xt_i) (2-17)

où plearning est un paramètre d’apprentissage.

Contrairement au QRF vu précédemment, le GBRT peut être plus sensible au paramétrage dans ses performances. Nous avons utilisé les paramètres suivants :

• Le paramètre d’apprentissage plearning a été fixé égal à 0,02.

• Le nombre d’itérations effectuées par le GBRT : là où pour un QRF un nombre d’arbres élevé permet d’améliorer le modèle, ce n’est pas le cas pour le GBRT où un trop grand nombre d’arbres peut amener à faire du surapprentissage, les modèles générés dans les itérations de fin se focalisant sur la prévision du bruit. De manière générale, il est recommandé de fixer ce paramètre par validation croisée, après avoir fixé un paramètre d’apprentissage bas [110]. Celui-ci a été dans notre cas défini de manière arbitraire, après plusieurs avoir testé plusieurs combinaisons de paramètre. Nous avons fixé deux valeurs différentes : 600 itérations pour des prévisions quantiles avec des quantiles compris entre 15% et 85%, et 200 itérations pour des quantiles aux extrémités hors de cet intervalle, un nombre d’arbres supérieurs à 200 entraînant des dégradations pour les prévisions à haut et bas quantiles, mais pas pour les prévisions à quantiles moyens.

• Le nombre de variables sélectionnées aléatoirement pour l’entraînement de chaque arbre est, comme pour le QRF, fixé comme égal à la racine quadratique du nombre de dimension d. Des variations autour de cette valeur entraînent des modifications pour la performance des modèles peu significatives.

• Le nombre d’observations utilisées pour l’entraînement de chaque arbre : ces observations sont sélectionnées de manière aléatoire, sans possibilité de doublon comme avec un processus de bagging. On a fixé ce paramètre comme égal à 90% du nombre total d’observations.

• Enfin, la complexité des arbres joue un rôle important. On a ici fixé ce paramètre avec la taille maximale de la taille des feuilles des arbres, fixée à 30, et pour tous les quantiles considérés. Il est à noter que des variations pouvaient entraîner des dégradations importantes du modèle, contrairement à ce qu’on a observé pour le QRF. Par exemple, les scores quantiles évaluant les prévisions quantiles allant de 1% à 20% subissaient des augmentations importantes. Ainsi, pour une taille maximale de feuille passant de 30 à 5, ces scores quantiles augmentent de 50% en passant de 20 A à 30 A.

2. Prévision du Dynamic Line Rating à court-terme 64

Une méthode automatique pour identifier ces paramètres, comme par exemple l’utilisation de processus d’optimisation bayésienne [111], n’a pas ici était utilisée pour identifier ces paramètres.

Le modèle GBRT présente plusieurs avantages similaires au QRF : il est non-paramétrique, et il est peu sensible au surapprentissage comme nous le verrons plus tard.

Il est souvent considéré car contrairement au QRF, il est peu sensible à des problèmes de biais : pour un nombre de variables important, le QRF serait moins à même de modéliser des relations complexes, en raison de l’entraînement des arbres en parallèle, que le GBRT qui les entraîne de manière itérative. Cela est cependant un problème qui peut être considéré comme peu important pour la prévision du DLR : la prévision du DLR est faite avec un nombre de variables relativement réduit, quelques dizaines, et des problèmes de biais auraient un impact limité.

Par rapport aux faiblesses de ce modèle, on fera remarquer que la difficulté à paramétrer le GBRT par rapport au QRF peut le rendre moins attractif. Là où pour un problème de prévision déterministe, un seul paramétrage est nécessaire, un GBRT nécessite un paramétrage différent pour chaque quantile. L’entraînement est le paramétrage du modèle devient alors très long par rapport à ce qui est nécessaire pour le QRF.

Aussi, comme le QLR et contrairement au QRF, une telle approche présente aussi l’inconvénient de ne pas garantir la cohérence entre les différentes prévisions quantiles, un agencement étant nécessaire après la génération des prévisions pour assurer que Ŷ_t+h|tτ− > Ŷ_t+h|tτ+ avec τ+> τ−.

Dans le document Prévision du Dynamic Line Rating et impact sur la gestion du système électrique (Page 62-64)