• Aucun résultat trouvé

Chapitre 2 : Méthode de méta modélisation des consommations en fonction des facteurs d’usage

B. Méthodes de création des métamodèles pour réduire le temps de calcul

1. Types de métamodèles

Dans le chapitre 1, nous avons présenté les principales méthodes de régression linéaire utilisées dans le cadre du M&V proposé par l’IPMVP et l’ASHRE Guideline 14. Ce sont des exemples particuliers de métamodèles qui ne sont valables que localement autour de la consommation cible. Dans la littérature, nous trouvons un nombre important de méthodes pour construire des métamodèles. Les méthodes de régressions incluent la régression linéaire, multilinéaire et polynomiale. D’autres approches plus complexes incluent les fonctions splines à régression adaptative multidimensionnelle (MARS pour multivariate adaptative regression splines), le processus gaussien de régression (GPR pour Gaussian Process Regression), les séries de Fourier (FSM pour Fourier Series Model), les polynômes de chaos, la méthode des réseaux de neurones artificiels (ANN pour Artificial Neural Network), les régressions à vecteur de support (SVR pour support vector regression), l’arbre de décision (CART pour classification and regression trees) et la forêt aléatoire (RF pour random forest). Ces méthodes présentent toutes des variantes et des méthodes d’optimisations. Nous pouvons distinguer deux grands groupes, les approches par régressions, qui restent relativement proches des pratiques courantes des professionnels, et les approches plus sophistiquées. Une tendance marquée au déploiement des plateformes de suivi énergétique est constatée actuellement sur le marché (Granderson et al., 2016). Ces plateformes permettent le suivi des consommations sur site ou à distance. Les technologies associées aux plateformes de suivi énergétique utilisent en général une approche de construction automatique de modèle de référence de la consommation pour déterminer le potentiel d’économie d’énergie. Ce sont des modèles dits de « machine learning » qui relient la consommation d’énergie à des paramètres comme la température extérieure, l’humidité ou les horaires d’utilisation du bâtiment. En effet, la mise en place de plus en plus systématique de compteurs et sous-compteurs permet une télérelève horaire, ou un pas de temps de 15min, générant une masse de données qui permet d’envisager un nouveau type de génération de modèles. Ces modèles sont supposés être plus précis que les modèles obtenus par régressions classiques. Ils ne sont pour autant pas encore utilisés de manière généralisée. Une comparaison 10 méthodes de création de ces modèles dits de « machine learning » a été effectuée par Granderson et al. (2016). Des modèles ont pu être collectés pour former une importante base de données sous des climats variés. Ils sont uniquement basés sur la température extérieure, la date et l’heure de la journée, et sont listés dans le tableau 10 ci-dessous :

Description et origine de la méthode

M1 Combinaison des méthodes d’analyse des composants principaux (principle component analysis) et de bin modeling, développé par Buildings Alive Pty. Ltd, Sydney, Australie

M2 Combinaison des méthodes forêts aléatoires (Random Forest), arbres de décisions extrêmement aléatoires (extremely randomized trees) et de semaine moyenne (Mean Week), développé par Paul Raftery et Tyler Hoyt du Center for the Built Environment, University of California, Berkeley.

M3 Méthode avancée de régression incluant un terme d’inertie (drift), développé par Gridium Inc. M4 Semaine moyenne (Mean Week) où la prédiction dépend uniquement de l’heure et du jour. Par exemple la prédiction pour le mardi à 15h est la moyenne de toutes les données des mardis à 15h. Avec cette méthode il y a une consommation différente pour chaque jour de la semaine mais en revanche pas pour les différentes semaines d’un mois. Cette approche est considérée simpliste et a été inclus dans cette comparaison pour référence.

Thèse de doctorat – Aymeric NOVEL 84

M5 Moment de la semaine et température (Time-of-week-and-temperature) où la prédiction est la somme de deux termes, l’un lié au moment qui permet d’avoir des consommations différentes selon les moments, et l’autre issu d’une relation à la température extérieure. L’effet de la température est estimé séparément pour les périodes avec des consommations élevées et faibles pour déterminer les pentes différentes pendant les heures d’occupation et d’inoccupation.

M6 Moment de la semaine et température pondérée (Weighted time-of-week-and-temperature) qui reprend la méthode 5 mais en ajoutant un facteur de pondération pour donner plus de poids aux données des jours précédents proches du jour de prédiction. Ceci est réalisé en faisant « fitter » le modèle avec des coefficients de pondération qui décroient en fonction du temps dans les deux directions depuis le jour central.

M7 Combinaison des approches du voisin le plus proche (nearest neighbors) et du modèle linéaire généralisé (generalized linear model), développé par Lucid Design Group.

M8 Combinaison de Multivariate Adaptive Regression Splines (MARS) (traduction) et d’autres techniques de régressions avancées.

M9 Combinaison du bin modeling et d’autre techniques de régressions avancées, développé par Performance Systems Development of New York, LLC.

M10 Régression avancée par voisin le plus proche (Nearest neighbor advanced regression)

Tableau 10: 10 méthodes de modélisation "machine learning" (Granderson et al., 2016)

Les prédictions de la consommation issue de ces méthodes ont été comparées aux consommations énergétiques réelles de plusieurs centaines de bâtiments. Granderson propose sur la figure 43 une base de comparaison entre les 10 méthodes considérées :

Figure 43: Comparaison de l'efficacité des principales méthodes de machine learning pour le suivi énergétique (Granderson et al. 2016)

Granderson constate que dans la majorité des cas, il existe une tendance au biais vers une surestimation de la consommation d’énergie. Mais il postule, sans toutefois conclure, que ceci peut être l’effet d’une réduction des consommations de ces bâtiments dans le temps. Ces résultats soulèvent donc l’épineux problème de la fiabilité pour interprétation et plan d’action.

De plus, l’étude menée par Gallagher et al. (2018) montre qu’il faut une durée de relevés de données d’au moins 6 mois pour obtenir une fiabilité acceptable, comme illustré sur la figure 44 ci-dessous :

Thèse de doctorat – Aymeric NOVEL 85

Figure 44 : Evolution de la précision du modèle prédictif obtenu par la méthode des réseaux de neurones artificiels en fonction de la durée de la période d'apprentissage et de test (Gallagher et al., 2018) Cela implique un décalage entre les phénomènes réels à la source d’une information et le temps qu’il faut pour que le modèle « apprenne » et restitue une prédiction fiable.

Gallagher et al. (2018) ont également testé l’usage des techniques de « machine learning » pour améliorer la précision d’un modèle de la consommation de référence dans le cas d’un site industriel. Gallagher met en avant dans sa veille que ces méthodes ont jusqu’ici montré des performances limitées lorsque la consommation d’un bâtiment dépend fortement d’autres facteurs que la température extérieure et le moment de la semaine. Il a comparé les résultats de plusieurs algorithmes de « machine learning » avec des modèles traditionnels obtenus par régression des moindres carrés ordinaires (bilinéaire et multilinéaire). Ses résultats montrent que plus on utilise de points, plus la régression traditionnelle et le « machine learning » ont des résultats proches. En revanche avec moins de données (intervalle mensuel) le « machine learning » permet de meilleurs résultats. Les régressions multilinéaires classiques ont besoin d’un nombre de données plus important. Les algorithmes de « machine learning » permettent « d’apprendre » avec moins de données mais en conséquence ne restituent aucune compréhension du phénomène étudié.

Østergård et al. (2018) ont étudié les avantages et les inconvénients de 6 techniques de constructions de métamodèles à partir de simulations thermiques dynamiques des bâtiments pour application à un problème d’optimisation multicritère de la conception : la régression multilinéaire avec méthode des moindres carrés (OLS pour ordinary least square), la forêt aléatoire (RF), la support vector regression (SVR), les fonctions splines à régression adaptative multidimensionnelle (MARS), le processus Gaussien (GPR) et les réseaux de neurones (ANN). La comparaison est effectuée en fonction de la précision de prédiction, du besoin en puissance de calcul, de la facilité d’utilisation, de la transparence et de la fiabilité de l’outil. L’évaluation est faite pour 3 types d’utilisateurs : l’expert avec suffisamment de temps et un objectif de précision important, le non-expert en métamodèles avec un temps limité et un besoin de fiabilité et un outil automatique qui nécessite un minimum de données d’entrées. Un espace type de bureau est utilisé pour cette analyse. Pour le niveau « expert », le réseau de neurones artificiel est recommandé pour sa précision. Pour les non-experts, le processus Gaussien est recommandé pour sa capacité à produire un modèle fiable et suffisamment précis avec un nombre raisonnable de simulations. Enfin pour l’outil de modélisation automatique, la régression multilinéaire est recommandée car elle permet d’obtenir une bonne précision avec peu de points de simulations.

Tian et al. (2015) ont élaboré un métamodèle de prédiction des besoins de chaud et de froid pour un campus aux Etats-Unis en fonction des paramètres de conception (surface, hauteur, surfaces vitrées, niveaux d’isolation) et d’exploitation (en particulier les apports internes liés aux équipements utilisés dans le campus et aux occupants et les plannings associés). L’auteur compare différentes méthodes de

Thèse de doctorat – Aymeric NOVEL 86

régression : régression multilinéaire et ses diverses optimisations (transformation en racine carrée, Lasso, Moindres carrés partiels), régressions à vecteur de support (SVM), fonctions splines à régression adaptative multidimensionnelle (MARS), Processus Gaussien (GP) et Processus Gaussien à arbre bayesien (BTGP pour Bayesian Trees Gaussian Process). Pour les besoins de chaud, tous les modèles présentent des RMSE très similaires. Le modèle multilinéaire présente donc un excellent compromis entre précision, facilité d’utilisation et transparence. Pour les besoins de froid, la méthode MARS donne les meilleurs résultats. La méthode multilinéaire donne des résultats similaires aux autres méthodes après transformation par racine carrée. D’après ces résultats, l’auteur recommande la régression multilinéaire pour construire des métamodèles de la consommation énergétique des parcs immobiliers en exploitation, notamment en raison du fait que les autres méthodes, pour un gain de précision très faible, sont plus complexes d’utilisation et nécessitent un savoir-faire précis quant à leur calibration. L’auteur rappelle également que le bon choix dépend de l’abondance de données disponibles et du temps disponibles. Si ces éléments sont limités, l’utilisation des méthodes comme Lasso et les moindres carrés partiels permettent d’obtenir de bons résultats avec la régression multilinéaire.

Yildiz et al. (2017) ont étudié la consommation d’électricité d’un campus en Australie en fonction des variables d’exploitation. Le but est de construire un modèle prédictif à court terme de la consommation horaire et du pic d’appel de puissance d’électricité du campus. Les variables prises en compte sont la consommation à la même heure le jour précédent et la semaine précédente, la consommation moyenne des 24h précédentes, la distinction jour ouvré ou non, la température de l’air extérieur, l’humidité relative extérieure, l’enthalpie extérieure et un paramètre d’inconfort thermique. Des métamodèles sont obtenus pour chaque saison, à l’échelle du campus et à l’échelle d’un bâtiment et pour 7 méthodes différentes : la régression multilinéaire, 4 types de réseaux de neurones artificiels, régressions à vecteur de support (SVM), les arbres de régression (RT). La méthode de régression multilinéaire obtient un coefficient de détermination R² compris entre 0,81 et 0,93. Les méthodes dérivées des réseaux de neurones artificiels obtiennent de meilleurs résultats, avec un coefficient de détermination R² compris entre 0,93 et 0,99. L’auteur conclus que les méthodes dites de « machine learning » donnent une meilleure précision que la régression multilinéaire mais que cette dernière a permis une meilleure implication de l’utilisateur ce qui est un avantage important. La complexité des méthodes de « machine learning » est importante et nécessite de l’expertise. L’auteur ajoute que l’utilisation de ces méthodes doit se faire pour des cas où la précision de la prédiction est un critère très important et présente des difficultés à atteindre. Ceci est particulièrement vrai pour pas des temps et d’espace courts, ce qui se traduit concrètement par le fait que la prédiction court terme d’un pic de puissance sur une petite échelle est plus difficile que prédire la courbe de consommation d’énergie mensuelle ou annuelle sur une plus grande échelle spatiale.

Melo et al. (2016) ont développé des métamodèles pour calculer les besoins de chaud et de froid ainsi que des degrés-heures de refroidissement des bâtiments résidentiels neufs au Brésil en fonction des paramètres d’enveloppe afin d’apporter des améliorations aux modèles sous-jacents à la réglementation thermique locale. La méthode des réseaux de neurones artificiels est comparée à la méthode de régression multilinéaire. Des modèles d’ordre 1 et interaction d’ordre 2 sont élaborés pour les besoins de chaud et de froid avec des coefficients de détermination R² de 0,79 et 0,87 respectivement. Avec la méthode des réseaux de neurones artificiels le coefficient R² obtenu est 0,99 dans tous les cas. Cette méthode est alors recommandée mais elle présente le désavantage de ne pas pouvoir être interprétée et de nécessiter un paramétrage expert de la base de données initiale.

En synthèse, nous voyons à travers ces comparaisons qu’en dépit de la diversité des méthodes pour créer des métamodèles, la régression multilinéaire, basée la plupart du temps sur des techniques de moindres carrés, conserve un bon équilibre entre précision, facilité d’utilisation et transparence. Des méthodes plus sophistiquées existent et peuvent donner des résultats plus précis mais elles nécessitent un

savoir-Thèse de doctorat – Aymeric NOVEL 87

faire très spécifique et requièrent plus de temps, et elles sont recommandées pour des applications particulières.