Estimation des paramètres - Exemples de méthodes à noyaux

1.4 Exemples de méthodes à noyaux

2.2.3 Estimation des paramètres

Nous voyons maintenant diﬀérentes façons d’estimer les paramètres du modèle [144, 161]. On notera ψ le vecteur des paramètres de la fonction de corrélation : par exemple, pour la fonction de corrélation exponentielle (2.13), on aura ψ = (θ1, . . . , θn, p1, . . . , pn).

Pour les méthodes utilisant le maximum de vraisemblance, on fera l’hypothèse que la matrice M est de rang plein p.

– Maximum de vraisemblance [8, 122]

La fonction de vraisemblance est la densité jointe des observations, vue comme une fonction des paramètres inconnus. L’estimation par maximum de vraisemblance (MV, ou Maximum Likelihood, ML) consiste à chercher une combinaison de valeurs des paramètres qui maximise la fonction de vraisemblance, ou de façon équivalente son logarithme, appelé log-vraisemblance.

On peut montrer que la log-vraisemblance correspondant à l’échantillon Yn_{, sous le modèle}

(2.18), s’écrit à une constante près l(β, σ2, ψ|Yn) =−1 2 n log σ2+ log(det(R)) + t_(Yn_{− Mβ)R}−1_(Yn_{− Mβ)} σ2 . (2.30) Le maximum est atteint en un point où les dérivées partielles sont nulles. En dérivant par rapport à β et égalant à zéro, on obtient

β = bβ(ψ) = (tM R−1M )−1tM R−1Yn. (2.31) On remarque que c’est aussi l’estimateur des moindres carrés pondérés de β quand R est connue (voir la proposition 2.2.8) ; ici, R dépend du paramètre inconnu ψ. Faisant de même avec σ2_{, on obtient}

bσ2=_bσ2(ψ) = 1 n

t_(Yn_{− M b}_β)R−1_(Yn_{− M b}_β), _(2.32)

qui est un estimateur biaisé de σ2 _{(on a tendance à sous-estimer la valeur du paramètre).}

En substituant bβ(ψ) etσ_b2_{(ψ) dans (2.30), on obtient}

l( bβ,σb2, ψ|Yn) =−1 2

n logσb2(ψ) + log(det(R(ψ))) + n, qui ne dépend que de ψ. L’estimateur du MV de ψ s’écrit de façon compacte

ψ = argmin

n log_bσ2(ψ) + log (det (R (ψ))), (2.33) avec bσ2_{(ψ) déﬁni en (2.32). Connaissant b}_{ψ, on peut ﬁnalement calculer aussi les estimateurs}

du MV bβ et bσ2_{, et les injecter dans (2.28) pour obtenir l’EBLUP du maximum de}

vraisemblance.

Il faut en général O(n3_{) calculs pour évaluer la vraisemblance, ce qui rend la méthode}

diﬃcile à appliquer si le nombre d’observations n est grand [161]. Concernant la recherche du minimum de (2.33), si l’optimisation se fait sous contraintes relatives au paramètre ψ (par exemple si la forme de la covariance impose ψ1> 0, 0 < ψ2≤ 2, ...), on peut eﬀectuer

une reparamétrisation qui permet une optimisation sans contrainte [143]. Il est possible que la fonction de vraisemblance soit multimodale pour certaines fonctions de covariance [115], mais nous n’avons pas constaté ce phénomène pour les covariances classiques présentées en 2.1.2.3. L’existence de maxima multiples de la vraisemblance n’est pas forcément un

problème, et peut simplement indiquer que les données ne permettent pas de choisir entre plusieurs valeurs des paramètres [161].

– Maximum de vraisemblance restreint

Le maximum de vraisemblance restreint, MVR (Restricted Maximum Likelihood, RML), appelé aussi maximum de vraisemblance marginal, est une méthode visant à construire un estimateur moins biaisé des paramètres de la fonction de covariance : en eﬀet, lors de l’estimation par MV, il y a un biais dû au fait que le paramètre inconnu β est remplacé par l’estimateur bβ dans les équations (2.32) et (2.33). Le prix à payer pour cette diminution du biais est une plus grande variance des estimateurs.

L’idée est de ﬁltrer le terme β des données : on va chercher une application linéaire L : Rn _{→ R}n−p_{, de rang plein n − p, dont le noyau contient Im(M). De cette façon,} on va envoyer Yn _{dans R}n−p _{orthogonalement à sa moyenne Mβ. Puisque les p colonnes}

de M sont supposées linéairement indépendantes, cette méthode consiste à choisir une matrice L, de taille (n − p) × n et de rang n − p, qui satisfasse l’égalité LM = 0 (on peut par exemple partir de la matrice de projection P = I − M(t_{M M )}−1t_{M , dont on ne garde}

que n − p lignes linéairement indépendantes [125] ; notons que l’estimateur du maximum de vraisemblance restreint n’est pas déﬁni si n ≤ p).

On applique ensuite la méthode du MV au vecteur des données transformées W = LYn∼ NLM β = 0, σ2LR(ψ)tL.

Les éléments de W sont appelés contrastes, ce sont des combinaisons linéaires des observations dont la loi jointe ne dépend pas de β. La matrice W contient p données de moins que Yn_{(d’où l’augmentation de la variance des estimations), mais présente l’avantage}

de ne pas contenir le paramètre inconnu β (d’où la diminution du biais). Nous allons voir que l’estimation par MVR de ψ est indépendante de la matrice L choisie.

La log-vraisemblance des données transformées s’écrit, à une constante près, l(σ2, ψ|W ) = −1

2 "

(n− p) log σ2+ log det(LRtL)+

t_{W (LR}t_L)−1_W

σ2

# . On peut montrer (voir [68]) que cette quantité est égale, à une constante près, à

−1 2

(n_{− p) log σ}2+ log (det(R)) + log det(tM R−1M )+

t_(Yn_{− M b}_β)R−1_(Yn_{− M b}_β)

σ2

# , (2.34) qui ne dépend pas de la matrice L, avec bβ = bβ(ψ) l’estimateur du MV de β déﬁni en (2.31). Le maximum est atteint en un point où les dérivées partielles sont nulles. En dérivant par rapport à σ2 _{et égalant à zéro, on obtient l’estimateur du MVR de σ}2_,

σ2 _{= f}_σ2_{(ψ) =} 1

n_{− p}

t_(Yn_{− M b}_β)R−1_(Yn_{− M b}_β). _(2.35)

Remarque 2.2.17 On a fσ2 _{= [n/(n}_{− p)]c}_σ2_{, avec c}_σ2 _{l’estimateur du MV (2.32).}

On retrouve bien le terme correctif n/(n − p) utilisé habituellement pour construire un estimateur non biaisé de σ2_.

l(fσ2_{, ψ}_|Yn_{) =}

−1₂h(n_{− p) log f}σ2_{(ψ) + log (det (R(ψ))) + log det} t_{M R}−1_(ψ)M_{+ n}

− pi, qui ne dépend que de ψ. L’estimateur du MVR de ψ s’écrit de façon compacte

ψ = argmin

(n_{− p) log f}σ2_{(ψ) + log (det (R (ψ))) + log det} t_{M R}−1_{(ψ) M}i_, _(2.36)

avec fσ2_{(ψ) déﬁni en (2.35). Connaissant e}_{ψ, on peut calculer f}_σ2 _{et e}_{β = b}_{β( e}_{ψ) et les injecter}

dans (2.28) pour obtenir l’EBLUP du maximum de vraisemblance resteint.

L’avantage du MVR est qu’il peut être utilisé aussi pour le krigeage intrinsèque (voir l’annexe E), alors que le MV n’est pas applicable [161] : en eﬀet, une covariance généralisée est seulement déﬁnie pour les combinaisons linéaires admissibles des observations, qui correspondent aux contrastes du MVR.

– Validation croisée

Notons φ le vecteur des paramètres à estimer. La méthode d’estimation de φ par validation croisée ordinaire (ordinary cross-validation, OCV) consiste à minimiser une estimation de l’erreur de prédiction moyenne du modèle,

EPE( bY ) = Z X E_{Y (x)}b _{− Y (x)}2 dx.

L’estimation de l’EPE s’obtient en faisant la somme des erreurs commises aux xi quand

on les prédit en utilisant les n − 1 données restantes [181]. On cherche alors b φ = argmin φ 1 n n X i=1 (_by−i(φ)− yi)2, (2.37)

avec, pour i = 1, . . . , n, by−i(φ) la prédiction de Y (xi) obtenue à partir de toutes les données

d’apprentissage excepté (xi, yi), en utilisant la formule (2.23). Le modèle retenu sera celui

ayant la meilleure capacité de prédiction.

Une généralisation utilisant des groupes de données, appelée l-fold cross-validation, fonctionne de la façon suivante [70] :

1. partager les n données en l groupes de taille à peu près égale, ce qui revient à se donner une application Π : {1, . . . , n} −→ {1, . . . , l} qui détermine à quel groupe appartient la ie _{observation, pour i = 1, . . . , n ;}

2. calculer l’estimation par validation croisée de l’erreur de prédiction, CVl(φ) = 1 n n X i=1 b y_−Π(i)(φ)− yi 2 ,

avec by−Π(i) la prédiction de Y (xi) obtenue à partir de toutes les données

d’apprentissage, excepté {(xj, yj), Π(j) = Π(i)}, les données appartenant au même

groupe que l’observation i ;

3. calculer l’estimateur de validation croisée de φ, b

φ = argmin

Le cas l = n, appelé leave-one-out cross-validation, correspond à la formule (2.37), avec Π(i) = i _{∀i = 1, . . . , n.}

Le choix de la constante l n’est pas évident : si l = n, CVl est un estimateur

asymptotiquement non biaisé de l’EPE, mais peut avoir une grande variance. Pour de plus petites valeurs de l, CVla une variance plus petite, mais peut être très biaisé si l’EPE

varie beaucoup pour un nombre de données voisin de n−n/l (le nombre de données utilisées pour la prédiction). En pratique, on utilise souvent l = 5 ou l = 10.

Pour d’autres extensions de la validation croisée, on pourra consulter [70, 182].

Remarque 2.2.18 [31, 161] Dans le cas d’un modèle de krigeage, la validation croisée ne permet pas d’estimer le paramètre de variance σ2_{, car celui-ci n’intervient pas dans la}

formule du prédicteur (2.23), et donc pas non plus dans l’équation (2.37). Une façon de prendre en compte l’ensemble des paramètres est d’évaluer

1 n n X i=1 (yb−i(φ)− yi)2 \ EQM_−i(φ) , (2.38)

avec \EQM_−i l’EQM empirique en xi obtenue à partir de toutes les données d’apprentissage

excepté (xi, yi), en utilisant la formule (2.24). On cherchera les valeurs de φ telles que (2.38)

soit proche de 1 (l’idée est que le numérateur est en moyenne égal au dénominateur). – EBLUP bayésien

Par une mise en perspecive bayésienne du krigeage (voir l’annexe C), on obtient un prédicteur qui prend en compte l’information a priori dont on dispose sur la répartition des paramètres β, σ2_{, ψ.}

Après s’être donné une densité de probabilité f (β, σ2_{, ψ) résumant les valeurs a priori plus}

ou moins pertinentes des paramètres, on calcule le prédicteur du mode a posteriori, ( bβ, cσ2_{, b}_{ψ) = argmax}

(β,σ2_,ψ)

l(β, σ2, ψ|Yn) + log f (β, σ2, ψ).

On construit ensuite l’EBLUP du mode a posteriori (posterior mode EBLUP) en injectant ces valeurs bβ, cσ2_{, b}_{ψ dans l’équation (2.28). On note que la complexité algorithmique est du}

même ordre que pour le maximum de vraisemblance.

Une étude empirique présentée dans [144] tend à montrer qu’il vaut mieux utiliser le MV ou le MVR pour obtenir un bon prédicteur de krigeage (voir aussi [202] pour une comparaison des prédicteurs). De plus, on sait que sous certaines hypothèses de dérivabilité de la vraisemblance, l’estimateur du MV est asymptotiquement eﬃcace (voir le § 2.3.1). On peut aussi utiliser le maximum de vraisemblance pénalisé, voir le § 2.3.2. Un des inconvénients des méthodes utilisant la vraisemblance est le coût de calcul algorithmique élevé quand le nombre de données n est grand, ainsi que l’instabilité liée à l’inversion de la matrice de covariance de taille n × n. Il existe des méthodes d’approximation de la vraisemblance [166] ; on peut aussi utiliser des méthodes d’approximation d’un processus gaussien par un champ aléatoire markovien gaussien (Gaussian Markov Random Field, GMRF) [139], où les matrices sont creuses, ce qui permet d’économiser du temps de calcul. Pour une liste exhaustive de méthodes d’approximation, voir [136].

Remarque 2.2.19 Dans notre présentation, nous avons fait l’hypothèse la plus communément utilisée d’un processus gaussien stationnaire, et nous avons vu au § 2.1.2 que cette hypothèse permet d’obtenir une justiﬁcation théorique de la validité de l’inférence statistique. Notons cependant qu’il est possible d’utiliser d’autres types de fonctions de covariance : covariance généralisée (ce qui conduit au krigeage intrinsèque, voir l’annexe E), et, plus généralement,

covariance non stationnaire, pour la construction et l’utilisation desquelles nous renvoyons à [123, 165, 193].

Dans le document Inversion d'un système par krigeage : application à la synthèse des catalyseurs à haut débit (Page 63-67)