• Aucun résultat trouvé

4.3 Estimation de courbes moyennes pour des petits domaines dans l’ap-

4.3.1 Modèles linéaires mixtes au niveau unité pour des données fonc-

Les modèles linéaires mixtes au niveau unité proposés parBattese et al.(1988) sont très utilisés dans le cadre de l’estimation de totaux de variables réelles pour des do- maines. En effet, il permettent, comme nous le verrons plus en détail par la suite, de traduire à la fois l’effet de l’information auxiliaire sur la variable d’intérêt (par les effets fixes) et les spécificités des domaines (par les effets aléatoires).

Dans ce chapitre, nous cherchons donc à adapter ces modèles au contexte des don- nées fonctionnelles. Pour cela, nous allons transformer notre problème fonctionnel en plusieurs sous-problèmes d’estimation de totaux ou de moyennes de variables réelles non corrélées sur des petits domaines, que nous résoudrons ensuite par des méthodes usuelles. Nous proposons donc de mettre en œuvre une approche en trois temps. La première étape consiste à projeter les courbes de notre échantillon dans un espace de dimension finie. Dans la seconde étape, nous estimons pour chaque domaine de la po- pulation les moyennes des coordonnées des courbes dans la base de projection. Pour cela, nous appliquons des modèles linéaires mixtes au niveau unité pour des variables réelles. Enfin dans la troisième étape nous combinons les résultats obtenus précédem- ment en reconstituant les courbes moyennes estimées à partir des moyennes des co- ordonnées dans l’espace de projection.

L’utilisation de bases de projection permet donc de préserver la structure de cor- rélation temporelle de nos données tout en se ramenant à plusieurs sous-problèmes décorrélés d’estimation de moyennes de variables réelles que l’on traite indépendam- ment par les méthodes usuelles.

Plus précisément, nous utilisons ici une ACP fonctionnelle déjà présentée dans

2.1.3. En suivant l’expansion de Karhunen-Loève, chaque courbe de la population peut

donc être approximée selon l’équation (2.4).

Remarque 8. Lorsque nous traiterons la question de l’estimation robuste pour des petits

domaines, nous utiliserons plutôt la médiane spatiale m et les composantes principales sphériques de l’ACP robuste Zk, k = 1,...K, introduites dans la sous-section3.4.2plutôt que la moyenne de l’espaceµ et les composantes principales ζk, k = 1,...K.

Voyons maintenant comment utiliser l’ACP fonctionnelle pour construire nos es- timateurs de courbes moyennes en adaptant les méthodes standards d’estimation de totaux de variables réelles pour des petits domaines. En utilisant (2.4), la moyenneµd

sur le domaine d peut être approximée par

µd(t ) ' µY(t ) + K X k=1 Ã 1 Nd X i ∈Ud gi k ! ζk(t ), d = 1,...,D, t ∈ [0,T]. (4.6)

La moyenne inconnueµYest estimée par

ˆ µ(t) = 1 N X i ∈s diYi(t ), t ∈ [0,T] (4.7)

et lesζk, k = 1,...,K sont estimés par ˆζk, les vecteurs propres de ˆV, l’estimateur de V

(Cardot et al.(2010)) :

ˆ

Vˆζk= ˆλkˆζk, (4.8)

avec ˆλk l’estimateur deλk. Donc, afin d’estimerµd, il nous faut estimer la moyenne

des scores sur les composantes principales pour le domaine d , i.e. gd k= 1 Nd

X

i ∈Ud gi k.

Pour cela, nous considérons pour chaque composante k = 1,...,K un modèle li- néaire mixte au niveau unité sur gi k (Rao and Molina(2015), Chapitre 4) :

gi k= B

0

kXi+ υd k+ εi k, i ∈ Ud, k = 1,...,K, (4.9)

avec B0kXi l’effet fixe des informations auxiliaires,υd k l’effet aléatoire du domaine d et

εi kle résidu de l’unité i . On suppose que les effets aléatoires des domaines sont indé-

pendants, et suivent une loi commune de moyenne 0 et de varianceσ2υk. Les résidus sont également indépendants, distribués selon une loi de moyenne 0 et de variance σ2

εk. En outre, les effets aléatoires et les résidus sont également supposés indépendants.

Ce modèle, aussi appelé nested error regression model, a été introduit parBattese

et al.(1988). C’est un modèle paramétrique dans lequel on impose que les effets des

variables auxiliaires soient linéaires. Il s’agit d’un modèle linéaire mixte standard, dont les paramètres peuvent être estimés par un BLUP (Best Linear Unbiased Estimator), en suivant l’approche deRao and Molina(2015), Chapitre 7.

Plus précisément, soient Xd ,s = 1 nd X i ∈sd Xi et gd k,s = 1 nd X i ∈sd

gi k les moyennes res-

pectives des vecteurs Xi et des scores gi k sur sd. Soit ˜Bkl’estimateur BLUP de Bk.

L’estimateur BLUP degd k s’écrit comme un estimateur composite (voirRao and Molina(2015)) : e gd k= γk¡gd k,s− (Xd ,s− Xd)0B˜k¢ + (1 − γk)X 0 dB˜k, k = 1,...,K, (4.10) avec γk= σ2 υk σ2 υk+ σ2εk , k = 1,...K. (4.11)

Le premier terme de (4.10) dépend principalement de termes calculés sur sd : la

moyenne des scores et des effets fixes des informations auxiliaires pour sd. Il reflète les

spécificités des scores gi k des unités du domaine d non explicables par les informa-

tions auxiliaires. L’estimateur bgd k est donc une combinaison linéaire d’un estimateur traduisant les particularités du domaine d par rapport aux autres et de l’estimateur basé sur un modèle X0dk. L’importance relative de ces deux termes dépendra des va-

riances respectives des effets aléatoires et des résidus. En effet, plus la variance des effets aléatoires grandit, plus il existe de différences entre les domaines non expliquées par l’information auxiliaire, et plus on attribuera un poids fort au premier terme de l’expression, qui justement représente ces différences.

Les variancesσ2υk etσ2εk pour k = 1,...K sont inconnues et elles sont estimées par ˆ

σ2

υk et ˆσ2εk obtenues par exemple par maximum de vraisemblance restreint (Rao and

Molina(2015)). L’estimateur du gd k obtenu ainsi est appelé EBLUP (Empirical Best

Linear Unbiased Prediction) et donné par

b gd k= ˆγk¡gd k,s− (Xd ,s− Xd)0B˜k¢ + (1 − ˆγk)X 0 dB˜k, k = 1,...K. (4.12) où ˆ γk= ˆ σ2 υk ˆ σ2 υk+ ˆσ2εk .

Pour conclure, la moyenneµd est estimée par

ˆ µBHF d (t ) = ˆµ(t) + K X k=1 b gd kˆζk(t ), d = 1,...,D, (4.13)

avec ˆµ et ˆζkles estimations du centre de l’espace et de la kemecomposante principale

donnés dans les formules (4.7) et (4.8).

Remarque 9. Plutôt que de projeter les courbes sur les K premières composantes princi-

pales de l’ACP, on pourrait également choisir d’utiliser d’autres bases de projection, par exemple une base d’ondelettes, celles-ci étant particulièrement adaptées aux courbes ir- régulières. Une autre solution consisterait enfin à appliquer les modèles linéaires mixtes fonctionnels sur les valeurs des courbes aux instants de discrétisation ; néanmoins cette façon de faire ne permettrait pas de prendre en compte les corrélations temporelles de la problématique contrairement aux précédentes.