• Aucun résultat trouvé

Aspects pratiques : un probl`eme d’optimisation non-convexe

5.2 EMV des param`etres de covariance du Krigeage Simple

5.2.1 Aspects pratiques : un probl`eme d’optimisation non-convexe

R´esoudre 5.33 n’est g´en´eralement pas possible de mani`ere analytique. On a alors affaire `

a un probl`eme d’optimisation num´erique. Voyons dans un premier temps comment ce probl`eme peut souvent ˆetre simplifi´e en introduisant la vraisemblance concentr´ee. Log-vraisemblance concentr´ee

Lorsque la matrice de covariance s’´ecrit Kσ2 = σ2Rψ —ce qui est le cas lorsque l’on observe un processus stationnaire Y non-bruit´e—, o`u Rψ est la matrice de corr´elation

des observations, l’´equation 5.33 peut s’´ecrire min ψ∈Ψ,σ2∈[0,+∞[  n log(σ2) + log(det[Rψ]) + 1 σ2Y TR−1 ψ Y  (5.34) Pour ψ ∈ Ψ quelconque fix´e, on remarque que l’on peut obtenir une expression du σ2 optimal correspondant, comme fonction de ψ :

n c σ2 − 1 c σ22 YTR−1ψ Y = 0 ! =⇒ cσ2(ψ) = Y TR−1 ψ Y n (5.35)

En injectant l’expression du σ2 optimal dans 5.32, on peut d´efinir la fonction de log- vraisemblance concentr´ee

Lc(ψ; Y) : =L(cσ2(ψ), ψ; Y), (5.36)

et l’EMV s’obtient alors en r´esolvant une optimisation portant uniquement sur ψ : min ψ∈Ψ{Lc(ψ; Y)− n log(2πe)} ≡ minψ∈Ψ ( n log Y TR−1 ψ Y n ! + log(det[Rψ]) ) (5.37)

Une fois bψ trouv´e, il suffit ainsi de calculer σ2 en utilisant l’´eq. 5.35. Voyons maintenant comment maximiserLc en pratique. Commen¸cons par un calcul de gradient.

Gradient de la vraisemblance concentr´ee. ∀i ∈ [1, p], ∂Lc(ψ; Y) ∂ψi =−n(YTR−1ψ Y)−1YTR−1ψ ∂Rψ ∂ψi Rψ−1Y + tr  R−1ψ ∂Rψ ∂ψi  (5.38) D´emonstration. Les deux termes de la somme sont obtenus directement par diff´erentiation des deux termes de 5.37, en utilisant pour chacun la r`egle de diff´erentiation des fonc- tions compos´ees (chain rule, souvent attribu´ee `a Leibniz). Le premier terme n´ecessite

d’employer la diff´erentielle de l’inverse ; on rappelle que pour E et F deux espaces de Banach, l’application inv : Isom(E, F ) → Isom(F, E) qui u associe u−1 est C1 avec Dinv(u)(v) = −u−1.v.u−1. Il vient alors que d(R−1

ψ ) = −R−1ψ ∂Rψ

∂ψiR

−1

ψ . Pour le

second terme, on utilise la diff´erentielle du d´eterminant (Cf. annexe), et on obtient d (log(det[Rψ])) = det[R1 ψ]  det[Rψ]tr  R−1ψ ∂Rψ ∂ψi  = trR−1ψ ∂Rψ ∂ψi 

Algorithmes d’optimisation employ´es

La litt´erature de l’EMV pour les processus gaussiens est vaste, et nous ne pouvons garantir une vision exhaustive des techniques d’optimisation employ´ees pour r´esoudre 5.37. On peut cependant affirmer avoir souvent rencontr´e le nom de scoring, encore appel´e algorithme de Newton-Raphson ; il se r´esume `a un algorithme de recherche de z´ero (la m´ethode de Newton en version multivariable, Cf. annexe) appliqu´ee au score afin de trouver un point critique de la vraisemblance. Il est important de pr´eciser que cette m´ethode repose sur l’inversion d’une matrice d’information `a chaque it´eration. Elle semble n´eanmoins s’ˆetre impos´ee comme l’une des routines d’optimisation les plus popu- laires dans les applications statistiques. L’article de r´ef´erence [MM84] sugg`ere d’augmen- ter la robustesse de cette technique en incorporant un param`etre de Levenberg-Marquart afin de garantir une am´elioration de la vraisemblance `a chaque it´eration. Les auteurs ´evoquent aussi la possibilit´e d’utiliser une algorithme de quasi-Newton.

Nous avons choisi ici, comme pour la maximisation de l’EI au chapitre 4, d’utiliser un algorithme g´en´etique hybride avec optimisations locales d’ordre 1 (genoud, Cf. [MS08]). Cette m´ethode a donn´e des r´esultats bien meilleurs que les techniques de descente de type BFGS (Impl´ement´ees dans les m´ethodes de base de [dCT06]), `a la fois en termes de performances extrˆemes que de robustesse. Le prix `a payer pour une robustesse accrue est bien sˆur le temps de calcul, qui augmente avec la taille de la population.

Exemples

Ex. 1 : On consid`ere un PG tri-dimensionnel Y , centr´e, de noyau gaussien isotrope et de param`etres (σ2, ψ)≡ (σ2, θ) = (1, 0.5). Les plans d’exp´eriences {X

i, i∈ {1, ..., 27}} sont

ici des r´ealisations i.i.d. d’un plan al´eatoire X de loi uniforme sur les 10-uplets de points de [0, 1]3. On s’int´eresse aux fonctions de vraisemblance associ´ees `a l’observation de Y en les

Xi. La figure 5.2.1 illustre les 27 surfaces de log-vraisemblance obtenues en repr´esentant

la surface de vraisemblance associ´ee aux observations en Xi d’une r´ealisation yi du

Fig. 5.1 – On observe que l’´echantillon des 27 fonctions de (−2×)log-vraisemblance obtenues pr´esente une grande variabilit´e ; en particulier, les minimiseurs globaux des ces surfaces —i.e. les estimations par MV de (σ2, θ)— sont dispers´es spatialement et peuvent

parfois ˆetre tr`es diff´erents des valeurs (σ2, θ) des param`etres de covariance effectivement utilis´es pour g´en´erer les observations. En revanche la somme des 27 surfaces (graphe en bas `a droite) pr´esente bien nettement son minimum global au niveau de (σ2, θ), ce qui peut ˆetre vu comme une illustration du r´esultat 5.15 dans le contexte du KS.

Ex. 2&3 : on reprend l’exemple 1 avec des plans de taille 30, respectivement en dimension 3 (exemple 2) et en dimension 10. Comme dans l’exemple 1, 27 r´ealisations de Y (X) sont consid´er´ees, mais seules 9 d’entre elles sont repr´esent´ees sur la figure 5.2.1.

Fig. 5.2 – 9 des 27 fonctions de (−2×)log-vraisemblance obtenues dans les exemples 2 (en haut `a gauche) et 3 (en bas `a gauche), ainsi que les sommes des deux ensembles de 27 surfaces (respectivement en haut `a droite et en bas `a droite). Les graphes relatifs `a l’exemple 2 illustrent le fait que 30 points choisis uni- form´ement dans le cube suffisent pour estimer convenablement (en prenant peu de risques, Cf. la variabilit´e des 9 surfaces) les param`etres de covariance (σ2, θ) = (1, 0.5) du processus Y consid´er´e ; par ailleurs, la surface somme in- dique une estimation assez pr´ecise du param`etre θ mais une estimation plus grossi`ere du param`etre σ2 (variation lente de L dans la direction horizontale). Les graphes relatifs `a l’exemple 3 illustrent que la proc´edure d’estimation avec 30 points tir´es dans l’hypercube unit´e fonctionne toujours en dimension 10, mais que la variabilit´e de l’EMV se fait ressentir cette fois-ci plutˆot au niveau de l’estimation de θ que de celle de σ2; cela conforte l’intuition selon laquelle il devient plus difficile d’estimer la valeur

d’un param`etre de port´ee `a mesure que les interdistances du mˆeme ordre de grandeur que cette port´ee se font rares dans le plan d’exp´eriences.