• Aucun résultat trouvé

4.3 Estimation de courbes moyennes pour des petits domaines dans l’ap-

4.3.2 Régression linéaire fonctionnelle

Les modèles linéaires mixtes que nous venons de présenter peuvent être coûteux en temps de calcul pour de gros volumes de données (c’est-à-dire un nombre K de composantes principales et un nombre D de domaines élevé). Nous proposons donc dans cette sous-section la régression linéaire fonctionnelle, qui est une simplification du modèle précédent ayant comme nous le verrons l’avantage de pouvoir être estimée rapidement même lorsque le nombre d’instants de discrétisation ou de composantes principales considérés est grand. On commence par présenter le modèle puis on pro- pose une méthode rapide pour en estimer les coefficients dans un échantillon en uti- lisant l’approche citée, entre autres, dansArdilly(2014).

Estimateurs de courbes moyennes de domaines par régression linéaire fonction- nelle

Dans cette sous-section, on suppose que la première variable explicative de nos vecteurs d’information auxiliaire Xi est la variable constante égale à 1. Le modèle étu-

dié ici est un cas particulier du modèle général (4.5) dans lequel la fonction de régres- sion fd définie dans le modèle général peut être définie comme

fd(Xi, t ) = β0(t )Xi, t ∈ [0,T]. (4.14)

Il s’agit d’une simplification du modèle général dans laquelle les effets des variables explicatives sont linéaires et la fonction de régression fd ne dépend pas du domaine d .

On fait donc l’hypothèse que, conditionnellement aux variables explicatives, la dis- tribution des courbes est la même sur l’ensemble des domaines et qu’il n’y a pas de spécificité des domaines non prise en compte dans les informations auxiliaires.

On est alors dans le contexte usuel de la régression linéaire fonctionnelle (plus pré- cisément dans le cas de la régression d’une variable fonctionnelle sur des variables réelles). Hors du contexte des sondages, ce problème a été étudié notamment parFara- way(1997). Les paramètres de ce modèle peuvent être estimés en projetant les courbes sur une base adaptée (composantes principales ou ondelettes par exemple) ou en es- timant la fonctionβ instant par instant.

Si on choisit de travailler dans l’espace des composantes principales, chaque score

gi k est modélisé comme suit :

gi k= β0kXi+ ²i k, i ∈ U, k = 1,...,K, (4.15)

avec²i kun résidu de moyenne nulle et de varianceσk. Le paramètreβkde ce modèle

est estimé par ˆβk= (P

i ∈sXiX0i)−1Pi ∈sXigi k, l’estimateur obtenu par les moindres car-

rés ordinaires (sans pondération) sur l’ensemble de l’échantillon, et on en déduit que le score moyen du domaine d est estimé par :

b

gd k= ˆβ0kXd, k = 1,...K.

Enfin, l’estimation de la courbe moyenne est obtenue de l’équation (4.13).

Si on ne projette pas les courbes, on a pour tout instant t ∈ [0,T], l’estimateur de la courbe de charge moyenne par domaine basé sur l’équation (4.14) :

ˆ

µREGLIN

d (t ) = ˆβ

0

(t )Xd, t ∈ [0,T], (4.16)

avec ˆβ(tl) le paramètre de la régression linéaire estimé par les moindres carrés ordi-

naires (sans pondération) sur l’ensemble de l’échantillon :

ˆ β(tl) = Ã X i ∈s XiX0i !−1 X i ∈s XiYi(tl). (4.17)

Estimation rapide des coefficients du modèle à l’aide de l’algorithme du calage

L’estimation de ce modèle fonctionnel peut être lourde en temps de calcul si l’on travaille sur de grosses bases de données (beaucoup de domaines ou encore beaucoup d’instants de mesure ou de composantes principales). Cependant, on remarque que notre estimateur par la régression fonctionnelle pour un instant tl peut s’écrire sous la

forme d’une moyenne pondérée des courbes de l’ensemble de l’échantillon :

ˆ µREGLIN d (tl) = 1 Nd X i ∈s wi dYi(tl), l = 1,...,L, d = 1,...,D, (4.18)

avec des poids wi d qui ne dépendent pas de Y ni de temps :

wi d= X 0 i( X i ∈s XiX 0 i)−1NdXd | {z } tXd , i ∈ s. (4.19)

Pour implémenter notre estimateur, comme Xiest constante au cours du temps,il suffit

donc, quel que soit le nombre d’instants de discrétisation ou de composantes princi- pales retenues, de déterminer le vecteur des pondérations wi d de chacune des unités

de l’échantillon.

Pour cela, on procède d’une manière similaire à ce qui est fait dansArdilly(2014) (bien que cet article relève de l’approche basée sur le plan de sondage alors que nous nous plaçons quant à nous toujours dans le contexte de l’estimation basée sur le mo- dèle) pour déterminer les poids wi den utilisant l’algorithme du calage avec la méthode

linéaire.

On remarque en effet que, lorsque le paramètre d’intérêt est une moyenne, notre estimateur par la régression linéaire fonctionnelle défini par l’équation (4.18) et l’esti- mateur par calage défini par l’équation (4.3) s’écrivent tous deux sous la forme d’une moyenne pondérée des courbes des unités de l’échantillon.

Or, comme montré dansDeville and Särndal(1992), pour la méthode linéaire, l’es- timateur par calage est égal à l’estimateur par la régression généralisée qui est un autre estimateur basé sur le plan de sondage, lui-même égal à notre estimateur par régres- sion fonctionnelle pour des poids constants. En effet, l’expression de l’estimateur par régression généralisée (voirSärndal (1992)) de la courbe moyenne du domaine d à l’instant tl est : ˆ µGREG d (tl) = 1 Nd à X i ∈s diYi(tl) + (tXd− X i ∈s diXi)0βˆπ(tl) ! , (4.20)

avec ˆβπ(tl) = (Pi ∈sdiXiXi0)−1Pi ∈sdiXiYi(tl) l’estimateur des moindes carrés pondérés

du coefficientβ(tl) (voir Särndal (1992) ou Rao and Molina (2015)) estimé sur l’en-

semble de l’échantillon s.

Donc, si nous appliquons l’algorithme du calage pour la méthode linéaire sur l’en- semble des unités de l’échantillon s en remplaçant les poids de sondage di par les

poids constants di∗= Nd

n , pour tout i ∈ s en utilisant comme totaux de calage tXd le

vecteur des totaux des variables auxiliaires sur le domaine d , on calcule l’estimateur ˆ βπ(tl) = (Pi ∈sdiXiXi)−1 P i ∈sdiXiYi(tl), et ˆ µGREG∗ d (tl) = 1 Nd à X i ∈s di∗Yi(tl) + (tXd− X i ∈s diXi)0βˆπ(tl) ! . (4.21) Or on a ˆβπ(tl) = ˆβ etPi ∈sdi∗Yi(tl) − (Pi ∈sdiXi)0βˆπ(tl) = 0 d’où ˆ µGREG∗ d (tl) = 1 Nd tX0dβˆπ(tl) = X 0 dβ(tˆ l) = ˆµREGLINd (tl).

Les poids wi d fournis par l’algorithme de calage pour la méthode linéaire en par-

tant des poids di∗sont donc bien les poids utilisés dans l’équation (4.19). L’utilisation de cet algorithme permet donc d’implémenter notre estimateur de la régression li- néaire de manière rapide quel que soit le nombre d’instants de discrétisation en cal- culant un unique vecteur de poids puis en en déduisant l’estimateur de la courbe moyenne par l’équation (4.18).

On remarquera bien que notre estimateur par la régression linéaire est un estima- teur basé sur le modèle et non basé sur le plan. En effet, il ne s’agit pas d’un estimateur par régression généralisée, puisqu’on ne part pas des poids de Horvitz-Thompson mais de poids constants di∗qui ne dépendent pas du plan de sondage.

4.3.3 Agrégation de prédictions par arbres de régression pour des