• Aucun résultat trouvé

3.7 Conclusions sur la robustesse

3.7.3 Perspectives

De nombreuses questions restent encore ouvertes sur ce sujet de l’estimation ro- buste pour des courbes moyennes ou totales. Nous n’avons notamment pas étudié la question de la fenêtre temporelle à prendre en compte. En effet, il est fréquent que l’on ait à travailler sur de très longues périodes temporelles (plusieurs années au pas demi- horaire). Si l’on souhaite utiliser une méthode robuste basée sur l’ACP sur les instants de discrétisation, il n’est alors pas pertinent de travailler sur l’ensemble de la courbe (il y aurait alors beaucoup plus d’instants que d’individus et beaucoup de valeurs propres nulles dans l’analyse spectrale). Il serait alors judicieux de découper notre période en plus petites périodes qui seront traitées séparément (semaines ou mois). On peut alors se demander comment choisir la fenêtre temporelle optimale et comment traiter les estimations en bordures de ces fenêtres. De même, pour les méthodes fonctionnelles, la taille de la fenêtre temporelle sélectionnée aura un impact important sur les limites de troncature obtenues.

Par ailleurs, nous n’avons proposé ici que des estimateurs instantanés de l’erreur quadratique moyenne. Or il pourrait être intéressant de construire des bandes de confiance qui prennent en compte les corrélations temporelles du problème : une bande de confiance à α % d’un estimateur de courbe moyenne ou totale se définit comme l’enveloppe dans laquelle la courbe moyenne ou totale de la population est intégralement contenue avec une probabilité deα %, pour α ∈ [0,1]. Pour construire ces bandes de confiance, on pourrait se baser sur la démarche proposée parCardot

l’estimation robuste dans laquelle nous avons non seulement de la variance mais aussi du biais.

Estimation de courbes de

consommation électrique moyennes ou

totales par sondage pour de petits

domaines

Dans ce chapitre, nous nous intéressons à l’estimation de courbes de consomma- tion électrique moyennes ou totales pour de petites sous-populations, aussi appelées petits domaines.

4.1 Contexte et introduction

Avec l’arrivée des compteurs communicants, il deviendra de plus en plus aisé et de moins en moins coûteux de recruter et maintenir de grands échantillons de courbes de charge. Il sera donc possible de produire des estimations de courbes moyennes non plus uniquement à la maille de l’ensemble de la France, mais aussi pour de plus petites zones géographiques telles que les régions, les départements, les villes, voire même les quartiers. Ces estimations pourraient être utilisées par exemple pour proposer aux col- lectivités territoriales des services basés sur l’analyse de leur courbe de consommation électrique estimée, ou encore pour aider Enedis à assurer l’équilibre entre offre et de- mande d’énergie au niveau local et en particulier à intégrer les énergies renouvelables, actuellement en plein développement, sur le réseau. En outre, dans un souci de déve- loppement de l’Open Data, Enedis pourrait souhaiter publier des informations sur les consommations électriques à des mailles les plus fines possibles géographiquement et temporellement, et dans ce cadre, une solution pourrait être d’exploiter les résultats de nos estimations.

Par ailleurs, les modèles développés dans ce chapitre, qui décrivent le lien entre la courbe de consommation électrique individuelle et les variables explicatives, peuvent être appliqués dans d’autres contextes que l’estimation de courbes moyennes de sous- populations. On peut en effet en faire usage dans une optique de prospective, pour prévoir l’évolution de la consommation globale d’un territoire en fonction des prévi- sions d’évolution de différents paramètres : par exemple, si nous avons identifié dans nos panels des clients équipés de véhicules électriques, les modèles peuvent nous per-

mettre de quantifier l’impact de ce nouvel usage sur la courbe de charge et donc d’an- ticiper l’effet de son développement sur la courbe de charge globale. Enfin, les mo- dèles peuvent également permettre de proposer un service au client final basé sur la comparaison de sa courbe de consommation à celle d’un client-type possédant des caractéristiques similaires, estimée par le modèle.

Bien que le besoin d’estimation pour de petites sous-populations soit grandissant, nos panels ont été dimensionnés pour assurer des précisions correctes à l’échelle de la France entière, et non de ces domaines. Si les sous-populations d’intérêt sont pe- tites, on n’aura donc que peu d’unités dans chacune d’entre elles, voire pas du tout dans certains cas. Cela rendra les estimations classiques directes -c’est-à-dire basées uniquement sur les données du domaine considéré - imprécises, voire impossibles à réaliser si aucune unité du domaine n’est échantillonnée.

En sondages, cette question est très fréquemment abordée, et connue sous le terme d’estimation sur de petits domaines. Un "petit" domaine peut ici se définir comme un domaine pour lequel on ne dispose que de peu d’unités dans l’échantillon au regard

de ce qu’on souhaite mesurer, c’est-à-dire un domaine pour lequel l’estimation est im-

précise. Pour améliorer la qualité des estimations produites sur les petits domaines, les méthodes de l’état de l’art reposent souvent sur des modélisations implicites ou expli- cites utilisant conjointement les données de l’ensemble des domaines. En accroissant la quantité d’information exploitée, les modèles permettent de consolider les estima- tions produites sur chacun des domaines. Le livre récent de Rao and Molina (2015) propose un état de l’art des méthodes existantes.

Lorsque la variable d’intérêt est réelle, les méthodes les plus couramment utilisées pour l’estimation sur des petits domaines sont le modèle linéaire mixte au niveau do- maine proposé parFay III and Herriot (1979) et le modèle linéaire mixte au niveau unité proposé parBattese et al. (1988). Dans notre contexte, on dispose principale- ment de données au niveau unité, c’est donc ce dernier modèle qu’on se proposera d’adapter au contexte fonctionnel dans la sous section4.3.1.

Dans la littérature, il existe des méthodes d’estimation sur petits domaines spéci- fiques aux séries temporelles. Par exemple,Burck and Pfeffermann(1990) etRao and Yu(1994) posent des modèles de séries temporelles sur les séries d’aléas et/ou de cœf- ficients aux différents instants pour prendre en compte les dépendances temporelles. Cependant ces modèles de type espace-état ont été pensés pour des séries tempo- relles relativement courtes (quelques dizaines de points). Ils s’estiment en effet par des filtres de Kalman, très gourmands en temps de calcul. De plus, nos courbes sont très chahutées, et présentent une structure temporelle très complexe avec de nom- breuses saisonnalités ; certains outils d’analyse des données fonctionnelles tels que les ondelettes apparaissent donc plus pertinents que les méthodes de séries temporelles de type ARIMA.

Toujours pour des raisons de temps de calculs et de rapidité d’implémentation, nous avons privilégié les modèles linéaires mais on aurait également pu utiliser d’autres approches. Ainsi,Opsomer et al.(2008) propose une extension non linéaire des modèles mixtes au niveau unité à l’aide de P-splines. Cette approche est très inté- ressante mais néanmoins coûteuse en temps de calcul, ce qui peut être problématique dans un cas d’application tel que le nôtre dans lequel les données peuvent être volu-

mineuses.1

Nous proposons des adaptations de méthodes existantes pour l’estimation sur pe- tits domaines au contexte des données fonctionnelles. Dans un premier temps, dans la section4.2on se place dans l’approche basée sur le plan de sondage, et les estimateurs utilisés sont l’estimateur de Horvitz-Thompson et l’estimateur par calage de courbe moyenne présentés respectivement dans (2.14) et (2.23), appliqué indépendamment sur chaque domaine. Comme la courbe moyenne de chaque domaine est estimée sé- parément, cette approche n’exploite pas conjointement l’ensemble des données, c’est pourquoi dans la section4.3, on supposera l’existence d’un modèle commun à l’en- semble des unités de la population, liant l’information auxiliaire et la variable d’inté- rêt, et qui permettent, en utilisant conjointement les données issues de l’ensemble des domaines, de gagner en précision. On se placera alors dans le cadre de l’estimation basée sur un modèle.

Notre première approche, exposée dans la sous-section 4.3.1, s’inscrit dans une philosophie similaire à celle suivie dans le précédent Chapitre. Elle consiste à projeter notre problème fonctionnel dans un espace de dimension finie puis à appliquer in- dépendamment sur chacun des vecteurs de base de cet espace une des méthodes les plus usuelles de la littérature sur la thématique de l’estimation pour de petits domaines pour des variables scalaires. En l’occurrence, il s’agira ici des modèles linéaires mixtes au niveau unité proposés parBattese et al.(1988). Comme dans le Chapitre précédent, on testera différents espace de projection, en particulier les composantes principales de l’ACP et les bases d’ondelettes.

Une seconde approche, exposée dans la sous-section4.3.2, consiste à utiliser des régressions linéaires fonctionnelles. Dans le cadre de l’estimation basée sur le plan de sondage, et lorsque l’on peut faire l’hypothèse que la distribution de la variable étu- diée est la même dans l’ensemble des domaines conditionnellement aux informations auxiliaires,Ardilly(2014) propose d’estimer les courbes de chacun des domaines aisé- ment grâce au GREG (Generalized Regression Estimator) étudié parSärndal(1992), qui est un estimateur assisté par un modèle. Cette méthode possède l’immense avantage de ne nécessiter que l’estimation d’un seul poids par unité même lorsque l’on s’inté- resse à un grand nombre de variables, en l’occurrence les valeurs de la courbe à chacun des instants de la période considérée. Nous montrons donc dans la sous-section4.3.2

comment adapter cette démarche dans notre cadre de travail où l’estimation est basée sur un modèle et non pas sur le plan de sondage.

Une troisième famille de méthodes, présentée dans la sous-section4.3.3, consiste à suivre l’approche par prédiction décrite dans Valliant et al. (2000) : il s’agit de construire un estimateur de la courbe moyenne en agrégeant les prédictions indivi- duelles de chacune des unités non échantillonnées et les courbes échantillonnées. Pour produire ces prédictions individuelles, nous utilisons des arbres de régression adaptées au contexte des données fonctionnelles selon l’approche dite du "Courbo- tree", fréquemment utilisée à EDF et décrite dansStéphan and Cogordan(2009). Nous

1. Le concept de ce chapitre, qui est d’associer dans une même problématique petits domaines et données massives, peut de prime abord sembler contre-intuitif mais c’est néanmoins la situation à la- quelle nous sommes confrontés : on s’intéresse en effet à des petits domaines nombreux, pour lesquels on souhaite estimer la courbe moyenne à de nombreux instants, et, pour chacun de ces domaines, on ne dispose que de très peu voire pas du tout de données.

avons étendu cette approche de façon à utiliser des forêts aléatoires plutôt que des arbres de régression. Nous aurions cependant tout à fait pu utiliser d’autres algo- rithmes d’analyse des données fonctionnelles.

Comme dans le Chapitre précédent, nos estimations de courbes moyennes ou to- tales de petits domaines peuvent être sensibles à la présence dans les échantillons d’unités influentes. On se propose donc dans la section4.4d’aborder conjointement les aspects petites sous-populations et unités influentes en construisant des estima- teurs robustes de courbes moyennes ou totales pour de petits domaines. Cette ques- tion de l’estimation robuste en sondages pour des petits domaines a déjà été abordée dans la littérature, hors du contexte des données fonctionnelles. Ainsi, pour des va- riables d’intérêt réelles,Jiongo et al.(2013) propose une approche basée sur le biais conditionnel, similaire à la nôtre, dans le cadre de modèles linéaires mixtes au niveau unité, que nous appliquons ici pour estimer les coordonnées moyennes de chaque do- maine pour chaque vecteur de la base de projection dans le paragraphe4.4.1.

Dans la littérature, il existe également des méthodes d’estimation robuste sur des petits domaines qui ne se basent pas sur la notion de biais conditionnels. Ainsi,Sinha

and Rao(2009) proposent l’estimateur REBLUP (Robust EBLUP) qui est une version

robuste du modèle linéaire mixte niveau unité obtenue en introduisant des fonctions de Huber dans les équations d’estimation du maximum de vraisemblance utilisées pour estimer les paramètres. L’estimateur obtenu appartient alors à la famille des M- estimateurs. L’une des méthodes que nous proposons, détaillée au paragraphe4.4.2, consiste donc à déployer cette démarche sur les vecteurs d’une base de projection des courbes. Une version semi-paramétrique du REBLUP a également été proposée par

Rao et al.(2014) à partir d’un modèle de P-splines.

Par ailleurs,Tzavidis et al.(2010) etChambers and Tzavidis(2006) utilisent la mé- thode des M-quantiles pour répondre à cette même problématique. Leur proposition se base sur des régressions quantiles robustes (M-quantiles) appliquées pour estimer la courbe moyenne de chaque domaine en fonction du vecteur des moyennes des va- riables explicatives, pour un certain quantileα déterminé à partir des unités échan- tillonnées du domaine et qui permet de capter les spécificités du domaine non tra- duites dans les variables explicatives. Cette méthode est cependant assez gourmande en temps de calcul, c’est pourquoi nous ne l’avons pas retenue dans nos tests.

L’ensemble des méthodes proposées dans ce chapitre sont finalement testées et comparées sur un jeu de données de courbes de consommation électrique de ménages français dans la section4.5.