• Aucun résultat trouvé

4.3 Estimation de courbes moyennes pour des petits domaines dans l’ap-

4.3.3 Agrégation de prédictions par arbres de régression pour des courbes

Dans les deux sous-sections à venir, nous présentons des méthodes non paramé- triques. Contrairement aux méthodes linéaires, celles-ci n’imposent plus une forme linéaire à la relation entre informations auxiliaires et variable d’intérêt, ce qui permet plus de souplesse dans la modélisation. En contrepartie, ces méthodes ne permettent pas de capter les spécificités des domaines que reflétaient les effets aléatoires du mo- dèle (4.9).

Approche prédictive pour des domaines et estimation non paramétrique

Les deux dernières approches que nous proposons relèvent de l’approche prédic-

tive proposée parValliant et al.(2000) : il s’agit, pour estimer le total ou la moyenne d’une variable sur une population, d’estimer la valeur de cette variable pour chacune

des unités non échantillonnées puis ensuite d’additionner ces prédictions ainsi que les valeurs de la variable pour les unités échantillonnées afin d’en déduire l’estimateur du total. Plus précisément, l’estimateur de la courbe moyenne du domaine d est donnée par (voirValliant et al.(2000)),

ˆ µPA d (t ) = 1 Nd à X i ∈sd Yi(t ) + X i ∈Ud−sd ˆ Yi(t ) ! , d = 1,...,D, t ∈ [0,T]. (4.22)

Pour obtenir les prédictions individuelles ˆYi(t ) nous utilisons des modèles non para-

métriques : des arbres de régression adaptés aux données fonctionnelles dans cette sous-section et des forêts aléatoires dans4.3.4. En effet, les arbres de régression pour données fonctionnelles sont fréquemment utilisés à EDF et sont connus pour donner des résultats satisfaisants sur les courbes de consommation électrique. Par ailleurs, dans la littérature, les arbres de régression ont été adaptés au cadre des sondages par

Toth and Eltinge(2011) mais pas dans une optique d’estimation de totaux sur des petits

domaines.

Dans cette sous-section et la suivante, on cherche donc à estimer un cas particulier du modèle général (4.5) dans lequel la fonction f ne dépend pas du domaine auquel appartient l’unité i ,

fd(Xi, t ) = f (Xi, t ) i ∈ U, t ∈ [0,T]. (4.23)

On suppose donc que, conditionnellement aux variables explicatives, la distribu- tion de Y est la même pour l’ensemble des domaines. Tout comme dans le modèle (4.14) et contrairement aux modèles définis dans les équations (4.9) et (4.13), celui- ci ne permettra donc plus de capter d’éventuelles différences entre les domaines non explicables par les informations auxiliaires. En contrepartie, nous ne faisons ici plus l’hypothèse de linéarité des effets des variables auxiliaires Xi ce qui permet de traduire

plus fidèlement la complexité éventuelle du lien entre informations auxiliaires et va- riable cible.

Par ailleurs, pour utiliser des arbres ou des forêts aléatoires, on a besoin de disposer des informations auxiliaires Xi pour chaque individu de la population alors que pré-

cédemment nous avions seulement besoin des valeurs moyennes Xd sur chacun des

domaines de la population et des Xi sur l’échantillon.

Dans les paragraphes suivants, nous donnons rapidement quelques éléments de bibliographie sur les arbres de régression, en particulier lorsque la variable cible est une courbe. Dans l’Annexe B, nous abordons spécifiquement des points particuliers d’implémentation propres à la problématique de l’estimation de courbes de consom- mation électrique.

Arbres de régression pour des données fonctionnelles

L’arbre de régression et de classification (CART) proposé parBreiman et al.(1984) est une technique de statistique non paramétrique très populaire. Son objectif est de prédire la valeur d’une variable cible Y en fonction d’un vecteur des variables explica- tives Xi = (X1i, . . . , Xj i, . . . Xpi), i ∈ s. Pour cela, on détermine un partitionnement de

l’espace des Xi en séparant en deux itérativement le jeu de données, selon une règle

de décision est choisie parmi toutes les règles possibles de façon à maximiser un cri- tère d’homogénéité (ou, de manière équivalente, minimiser un critère d’inertie) sur chacun des groupes ainsi créés. Ainsi, notre échantillon s constitue le premier nœudλ d’un arbre (sa "racine") que l’on cherche à subdiviser en deux nœuds disjointsλl etλr

tels queλl∪λr = λ et λl∩λr = ; de façon à ce que les valeurs de la variable cible Yisoit

les plus homogènes possible dans chacun des nœuds.

Pour les variables Xj quantitatives, les règles de décision sont de la forme

½

i ∈ λl si Xj i < c

i ∈ λr sinon, (4.24)

avec c un point de coupure à optimiser parmi l’ensemble des valeurs possibles de Xj. Pour les variables qualitatives, elles consistent en un découpage en deux sous-

ensembles disjoints de modalités.

Le critère d’inertie utilisé pour quantifier l’homogénéité d’un nœud est fréquem- ment la somme des carrés des résidus c’est-à-dire la somme des carrés des différences entre les valeurs de Yi pour les unités i du nœud et la moyenne de ces valeurs dans

le nœud. Ainsi, pour un nœudλ, soit κ un critère d’inertie, par exemple la somme des carrés des écarts à la moyenneκ(λ) = Pi ∈λ(Yi−Yλ)2où Yλest la moyenne des Yidans le

nœudλ. La recherche du critère de split optimal revient à résoudre le problème d’op- timisation arg max λlr ³ κ(λ) − κ(λl) − κ(λr) ´ . (4.25)

Chacun de ces nœuds sera ensuite à son tour subdivisé en deux nœuds fils et le pro- cessus de partitionnement se poursuit jusqu’à atteindre une taille minimale de nœud, jusqu’à ce que la valeur de la variable cible soit la même pour l’ensemble des unités du nœud, ou encore jusqu’à atteindre une profondeur maximale donnée. La partition finale de l’espace est alors constituée par les nœuds finaux de l’arbre, aussi appelés des feuilles. Un résumé de chacune de ces feuilles (très souvent la moyenne pour une variable cible quantitative) devient alors la variable prédite pour l’ensemble des unités affectées à la feuille. Les différents paramètres (taille minimale de nœud et profondeur) peuvent être choisis par validation croisée.

Lorsque la variable Y à prédire n’est plus une variable réelle mais un vecteur de dimension m > 1, le principe de l’arbre de régression s’étend très naturellement : l’al- gorithme de construction de l’arbre et de choix des paramètres par validation croisée reste inchangé mais le critère d’inertie est modifié. Ainsi le critèreκ, qui était une dis- tance en dimension 1, est remplacée par une distance en dimension m. Le problème de minimisation s’écrit toujours sous la forme (4.25) mais cette fois le critère est de la formeκ(λ) = Pi ∈λ||Yi− Yλ||2, où ||.|| est une distance, par exemple la distance eu-

clidienne ou la distance de Mahalanobis. Les arbres de régression multivariés ont été utilisés par exemple parDe’Ath(2002) dans le cadre d’une application à l’écologie.

Enfin, lorsque la variable à prédire Y est une courbe, l’algorithme de construction de l’arbre et de choix des paramètres est identique mais cette fois, on doit utiliser un critère d’inertieκ fonctionnel. De nombreux choix sont possibles. Nous avons choisi de suivre l’approche dite du "Courbotree", décrite dansStéphan and Cogordan(2009) et

fréquemment employée à EDF pour construire des segmentations de jeux de données de courbes de consommation électrique en fonction de variables explicatives. Dans cette approche, on applique la méthode présentée dans le paragraphe précédent pour Y multivariée sur les vecteurs Yi = (Yi(t1), . . . , Yi(tL)) des valeurs des courbes aux ins-

tants de discrétisation, avec la distance euclidienne. La distance euclidienne sur les instants de discrétisation peut alors être vue comme une approximation de la norme L2[0, T]. Plus formellement, le critère fonctionnel s’écrit alors

κ(λ) = X i ∈λ L X l =1 (Yi(tl) − Yλ(tl))2, (4.26) avec Yλ(tl) = P i ∈λYi(tl)

nλ où nλ est le nombre d’unités de l’échantillon appartenant au

nœudλ.

Il est d’usage d’élaguer les arbres de régression pour éviter le surapprentissage. Cela n’est toutefois pas encore implémenté dans notre outil Courbotree, et on recommande donc de jouer avec les paramètres de profondeur de l’arbre et de taille minimale des feuilles pour limiter ce surapprentissage. En outre, il n’est pas forcément pertinent d’utiliser les méthodes standard de validation croisée pour déterminer ces paramètres : en effet, celles-ci ont été construites de façon à maximiser la précision de l’estimation de chaque courbe et non pas de la courbe moyenne d’un ensemble d’unités, or il n’est pas assuré que les paramètres optimaux pour l’estimation de la courbe de chaque unité soient également optimaux pour estimer la courbe moyenne d’un domaine.

En pratique, lorsque l’on travaille sur des données de consommation électrique, les courbes considérées ont des niveaux extrêmement hétérogènes, et l’algorithme du Courbotree basé sur la distance euclidienne peut mal fonctionner lorsqu’il est appli- qué sur les données brutes. Il est donc fréquent que l’on applique les arbres de régres- sion Courbotree ou les forêts aléatoires CourboForest que nous présentons ci-dessous, sur les formes des courbes, obtenues en divisant celles-ci par leur moyenne. On pré- sente donc en Annexe A une variante de la démarche que nous venons d’exposer qui contexte à séparer la prédiction du niveau des courbes de la prédiction de leur forme. Cette variante est fréquemment utilisée en pratique par les ingénieurs de EDF dans le contexte des courbes de consommation électrique.

4.3.4 Agrégation de prédictions par forêts aléatoires pour des