• Aucun résultat trouvé

1.4 Exemples de méthodes à noyaux

2.2.3 Estimation des paramètres

Nous voyons maintenant différentes façons d’estimer les paramètres du modèle [144, 161]. On notera ψ le vecteur des paramètres de la fonction de corrélation : par exemple, pour la fonction de corrélation exponentielle (2.13), on aura ψ = (θ1, . . . , θn, p1, . . . , pn).

Pour les méthodes utilisant le maximum de vraisemblance, on fera l’hypothèse que la matrice M est de rang plein p.

– Maximum de vraisemblance [8, 122]

La fonction de vraisemblance est la densité jointe des observations, vue comme une fonction des paramètres inconnus. L’estimation par maximum de vraisemblance (MV, ou Maximum Likelihood, ML) consiste à chercher une combinaison de valeurs des paramètres qui maximise la fonction de vraisemblance, ou de façon équivalente son logarithme, appelé log-vraisemblance.

On peut montrer que la log-vraisemblance correspondant à l’échantillon Yn, sous le modèle

(2.18), s’écrit à une constante près l(β, σ2, ψ|Yn) =−1 2  n log σ2+ log(det(R)) + t(Yn− Mβ)R−1(Yn− Mβ) σ2  . (2.30) Le maximum est atteint en un point où les dérivées partielles sont nulles. En dérivant par rapport à β et égalant à zéro, on obtient

b

β = bβ(ψ) = (tM R−1M )−1tM R−1Yn. (2.31) On remarque que c’est aussi l’estimateur des moindres carrés pondérés de β quand R est connue (voir la proposition 2.2.8) ; ici, R dépend du paramètre inconnu ψ. Faisant de même avec σ2, on obtient

bσ2=bσ2(ψ) = 1 n

t(Yn− M bβ)R−1(Yn− M bβ), (2.32)

qui est un estimateur biaisé de σ2 (on a tendance à sous-estimer la valeur du paramètre).

En substituant bβ(ψ) etσb2(ψ) dans (2.30), on obtient

l( bβ,σb2, ψ|Yn) =−1 2 

n logσb2(ψ) + log(det(R(ψ))) + n, qui ne dépend que de ψ. L’estimateur du MV de ψ s’écrit de façon compacte

b

ψ = argmin

ψ



n log2(ψ) + log (det (R (ψ))), (2.33) avec bσ2(ψ) défini en (2.32). Connaissant bψ, on peut finalement calculer aussi les estimateurs

du MV bβ et bσ2, et les injecter dans (2.28) pour obtenir l’EBLUP du maximum de

vraisemblance.

Il faut en général O(n3) calculs pour évaluer la vraisemblance, ce qui rend la méthode

difficile à appliquer si le nombre d’observations n est grand [161]. Concernant la recherche du minimum de (2.33), si l’optimisation se fait sous contraintes relatives au paramètre ψ (par exemple si la forme de la covariance impose ψ1> 0, 0 < ψ2≤ 2, ...), on peut effectuer

une reparamétrisation qui permet une optimisation sans contrainte [143]. Il est possible que la fonction de vraisemblance soit multimodale pour certaines fonctions de covariance [115], mais nous n’avons pas constaté ce phénomène pour les covariances classiques présentées en 2.1.2.3. L’existence de maxima multiples de la vraisemblance n’est pas forcément un

problème, et peut simplement indiquer que les données ne permettent pas de choisir entre plusieurs valeurs des paramètres [161].

– Maximum de vraisemblance restreint

Le maximum de vraisemblance restreint, MVR (Restricted Maximum Likelihood, RML), appelé aussi maximum de vraisemblance marginal, est une méthode visant à construire un estimateur moins biaisé des paramètres de la fonction de covariance : en effet, lors de l’estimation par MV, il y a un biais dû au fait que le paramètre inconnu β est remplacé par l’estimateur bβ dans les équations (2.32) et (2.33). Le prix à payer pour cette diminution du biais est une plus grande variance des estimateurs.

L’idée est de filtrer le terme β des données : on va chercher une application linéaire L : Rn → Rn−p, de rang plein n − p, dont le noyau contient Im(M). De cette façon, on va envoyer Yn dans Rn−p orthogonalement à sa moyenne Mβ. Puisque les p colonnes

de M sont supposées linéairement indépendantes, cette méthode consiste à choisir une matrice L, de taille (n − p) × n et de rang n − p, qui satisfasse l’égalité LM = 0 (on peut par exemple partir de la matrice de projection P = I − M(tM M )−1tM , dont on ne garde

que n − p lignes linéairement indépendantes [125] ; notons que l’estimateur du maximum de vraisemblance restreint n’est pas défini si n ≤ p).

On applique ensuite la méthode du MV au vecteur des données transformées W = LYn∼ NLM β = 0, σ2LR(ψ)tL.

Les éléments de W sont appelés contrastes, ce sont des combinaisons linéaires des observations dont la loi jointe ne dépend pas de β. La matrice W contient p données de moins que Yn(d’où l’augmentation de la variance des estimations), mais présente l’avantage

de ne pas contenir le paramètre inconnu β (d’où la diminution du biais). Nous allons voir que l’estimation par MVR de ψ est indépendante de la matrice L choisie.

La log-vraisemblance des données transformées s’écrit, à une constante près, l(σ2, ψ|W ) = −1

2 "

(n− p) log σ2+ log det(LRtL)+

tW (LRtL)−1W

σ2

# . On peut montrer (voir [68]) que cette quantité est égale, à une constante près, à

−1 2

"

(n− p) log σ2+ log (det(R)) + log det(tM R−1M )+

t(Yn− M bβ)R−1(Yn− M bβ)

σ2

# , (2.34) qui ne dépend pas de la matrice L, avec bβ = bβ(ψ) l’estimateur du MV de β défini en (2.31). Le maximum est atteint en un point où les dérivées partielles sont nulles. En dérivant par rapport à σ2 et égalant à zéro, on obtient l’estimateur du MVR de σ2,

f

σ2 = fσ2(ψ) = 1

n− p

t(Yn− M bβ)R−1(Yn− M bβ). (2.35)

Remarque 2.2.17 On a fσ2 = [n/(n− p)]cσ2, avec cσ2 l’estimateur du MV (2.32).

On retrouve bien le terme correctif n/(n − p) utilisé habituellement pour construire un estimateur non biaisé de σ2.

l(fσ2, ψ|Yn) =

−12h(n− p) log fσ2(ψ) + log (det (R(ψ))) + log det tM R−1(ψ)M+ n

− pi, qui ne dépend que de ψ. L’estimateur du MVR de ψ s’écrit de façon compacte

e

ψ = argmin

ψ

h

(n− p) log fσ2(ψ) + log (det (R (ψ))) + log det tM R−1(ψ) Mi, (2.36)

avec fσ2(ψ) défini en (2.35). Connaissant eψ, on peut calculer fσ2 et eβ = bβ( eψ) et les injecter

dans (2.28) pour obtenir l’EBLUP du maximum de vraisemblance resteint.

L’avantage du MVR est qu’il peut être utilisé aussi pour le krigeage intrinsèque (voir l’annexe E), alors que le MV n’est pas applicable [161] : en effet, une covariance généralisée est seulement définie pour les combinaisons linéaires admissibles des observations, qui correspondent aux contrastes du MVR.

– Validation croisée

Notons φ le vecteur des paramètres à estimer. La méthode d’estimation de φ par validation croisée ordinaire (ordinary cross-validation, OCV) consiste à minimiser une estimation de l’erreur de prédiction moyenne du modèle,

EPE( bY ) = Z X EY (x)b − Y (x)2  dx.

L’estimation de l’EPE s’obtient en faisant la somme des erreurs commises aux xi quand

on les prédit en utilisant les n − 1 données restantes [181]. On cherche alors b φ = argmin φ 1 n n X i=1 (by−i(φ)− yi)2, (2.37)

avec, pour i = 1, . . . , n, by−i(φ) la prédiction de Y (xi) obtenue à partir de toutes les données

d’apprentissage excepté (xi, yi), en utilisant la formule (2.23). Le modèle retenu sera celui

ayant la meilleure capacité de prédiction.

Une généralisation utilisant des groupes de données, appelée l-fold cross-validation, fonctionne de la façon suivante [70] :

1. partager les n données en l groupes de taille à peu près égale, ce qui revient à se donner une application Π : {1, . . . , n} −→ {1, . . . , l} qui détermine à quel groupe appartient la ie observation, pour i = 1, . . . , n ;

2. calculer l’estimation par validation croisée de l’erreur de prédiction, CVl(φ) = 1 n n X i=1 b y−Π(i)(φ)− yi 2 ,

avec by−Π(i) la prédiction de Y (xi) obtenue à partir de toutes les données

d’apprentissage, excepté {(xj, yj), Π(j) = Π(i)}, les données appartenant au même

groupe que l’observation i ;

3. calculer l’estimateur de validation croisée de φ, b

φ = argmin

φ

Le cas l = n, appelé leave-one-out cross-validation, correspond à la formule (2.37), avec Π(i) = i ∀i = 1, . . . , n.

Le choix de la constante l n’est pas évident : si l = n, CVl est un estimateur

asymptotiquement non biaisé de l’EPE, mais peut avoir une grande variance. Pour de plus petites valeurs de l, CVla une variance plus petite, mais peut être très biaisé si l’EPE

varie beaucoup pour un nombre de données voisin de n−n/l (le nombre de données utilisées pour la prédiction). En pratique, on utilise souvent l = 5 ou l = 10.

Pour d’autres extensions de la validation croisée, on pourra consulter [70, 182].

Remarque 2.2.18 [31, 161] Dans le cas d’un modèle de krigeage, la validation croisée ne permet pas d’estimer le paramètre de variance σ2, car celui-ci n’intervient pas dans la

formule du prédicteur (2.23), et donc pas non plus dans l’équation (2.37). Une façon de prendre en compte l’ensemble des paramètres est d’évaluer

1 n n X i=1 (yb−i(φ)− yi)2 \ EQM−i(φ) , (2.38)

avec \EQM−i l’EQM empirique en xi obtenue à partir de toutes les données d’apprentissage

excepté (xi, yi), en utilisant la formule (2.24). On cherchera les valeurs de φ telles que (2.38)

soit proche de 1 (l’idée est que le numérateur est en moyenne égal au dénominateur). – EBLUP bayésien

Par une mise en perspecive bayésienne du krigeage (voir l’annexe C), on obtient un prédicteur qui prend en compte l’information a priori dont on dispose sur la répartition des paramètres β, σ2, ψ.

Après s’être donné une densité de probabilité f (β, σ2, ψ) résumant les valeurs a priori plus

ou moins pertinentes des paramètres, on calcule le prédicteur du mode a posteriori, ( bβ, cσ2, bψ) = argmax

(β,σ2,ψ)



l(β, σ2, ψ|Yn) + log f (β, σ2, ψ).

On construit ensuite l’EBLUP du mode a posteriori (posterior mode EBLUP) en injectant ces valeurs bβ, cσ2, bψ dans l’équation (2.28). On note que la complexité algorithmique est du

même ordre que pour le maximum de vraisemblance.

Une étude empirique présentée dans [144] tend à montrer qu’il vaut mieux utiliser le MV ou le MVR pour obtenir un bon prédicteur de krigeage (voir aussi [202] pour une comparaison des prédicteurs). De plus, on sait que sous certaines hypothèses de dérivabilité de la vraisemblance, l’estimateur du MV est asymptotiquement efficace (voir le § 2.3.1). On peut aussi utiliser le maximum de vraisemblance pénalisé, voir le § 2.3.2. Un des inconvénients des méthodes utilisant la vraisemblance est le coût de calcul algorithmique élevé quand le nombre de données n est grand, ainsi que l’instabilité liée à l’inversion de la matrice de covariance de taille n × n. Il existe des méthodes d’approximation de la vraisemblance [166] ; on peut aussi utiliser des méthodes d’approximation d’un processus gaussien par un champ aléatoire markovien gaussien (Gaussian Markov Random Field, GMRF) [139], où les matrices sont creuses, ce qui permet d’économiser du temps de calcul. Pour une liste exhaustive de méthodes d’approximation, voir [136].

Remarque 2.2.19 Dans notre présentation, nous avons fait l’hypothèse la plus communément utilisée d’un processus gaussien stationnaire, et nous avons vu au § 2.1.2 que cette hypothèse permet d’obtenir une justification théorique de la validité de l’inférence statistique. Notons cependant qu’il est possible d’utiliser d’autres types de fonctions de covariance : covariance généralisée (ce qui conduit au krigeage intrinsèque, voir l’annexe E), et, plus généralement,

covariance non stationnaire, pour la construction et l’utilisation desquelles nous renvoyons à [123, 165, 193].

Documents relatifs