• Aucun résultat trouvé

Conditions th´eoriques d’optimalit´e

Optimiser sans contrainte

9.1 Conditions th´eoriques d’optimalit´e

Les conditions d’optimalit´e pr´esent´ees ici ont inspir´e des algorithmes et des conditions d’arrˆet utiles. Supposons la fonction de coˆut J(·) diff´erentiable, et ´ecrivons son d´eveloppement de Taylor au premier ordre au voisinage d’un minimiseurbx

J(bx+ δ x) = J(bx) + n

i=1 ∂ J ∂ xi(bx)δ xi+ o(||δ x||), (9.1) ou, de fac¸on plus concise,

J(bx+ δ x) = J(bx) + gT(bx)δ x + o(||δ x||), (9.2) avec g(x) le gradient de la fonction de coˆut ´evalu´e en x

g(x) =∂ J ∂ x(x) =          ∂ J ∂ x1 ∂ J ∂ x2 .. . ∂ J ∂ xn          (x). (9.3)

Exemple 9.1. Analogie topographique

Si J(x) est l’altitude au point x, avec x1sa latitude et x2sa longitude, alors g(x) est la direction de mont´ee la plus raide, c’est `a dire la direction dans laquelle l’altitude monte le plus rapidement quand on quitte x.  Pour quebx soit un minimiseur de J(·) (au moins localement), il faut que le terme du premier ordre en δ x ne contribue jamais `a faire d´ecroˆıtre le coˆut. Il doit donc satisfaire

gT(bx)δ x > 0 ∀δ x ∈ Rn. (9.4) L’´equation (9.4) doit rester vraie quand δ x est remplac´e par−δ x, il faut donc que

gT(bx)δ x = 0 ∀δ x ∈ Rn. (9.5) Comme il n’y a pas de contrainte sur δ x, ceci n’est possible que si le gradient du coˆut enbx est nul. Une condition n´ecessaire d’optimalit´e au premier ordre est donc

g(bx) = 0. (9.6) Cette condition de stationnarit´e ne suffit pas `a garantir quebx soit un minimiseur, mˆeme localement. Il peut tout aussi bien s’agir d’un maximiseur local (figure 9.1) ou d’un point en selle, c’est `a dire d’un point `a partir duquel le coˆut augmente dans certaines directions et diminue dans d’autres. Si une fonction de coˆut diff´erentiable n’a pas de point stationnaire, alors le probl`eme d’optimisation associ´e n’a pas de sens en l’absence de contrainte.

x J(x)

Consid´erons maintenant le d´eveloppement de Taylor au second ordre de la fonc-tion de coˆut au voisinage debx

J(bx+ δ x) = J(bx) + gT(bx)δ x +1 2 n

i=1 n

j=12J ∂ xi∂ xj (bx)δ xiδ xj+ o(||δ x||2), (9.7) ou, de fac¸on plus concise,

J(bx+ δ x) = J(bx) + gT(bx)δ x +1 2δ x

TH(bx)δ x + o(||δ x||2), (9.8) o`u H(x) est la hessienne de la fonction de coˆut ´evalu´e en x

H(x) =

2J

∂ x∂ xT(x). (9.9) C’est une matrice sym´etrique, dont l’´el´ement en position(i, j) est donn´e par

hi, j(x) =

2J ∂ xi∂ xj

(x). (9.10) Si la condition n´ecessaire d’optimalit´e au premier ordre (9.6) est satisfaite, alors

J(bx+ δ x) = J(bx) +1 2δ x

TH(bx)δ x + o(||δ x||2), (9.11) et le terme du second ordre en δ x ne doit jamais contribuer `a faire d´ecroˆıtre le coˆut. Une condition n´ecessaire d’optimalit´e au second ordre est donc

δ xTH(bx)δ x > 0 ∀δ x, (9.12) de sorte que toutes les valeurs propres de H(bx) doivent ˆetre positives ou nulles. Ceci revient `a dire que H(bx) doit ˆetre sym´etrique d´efinie non-n´egative, ce qu’on note

H(bx) < 0. (9.13) Ensemble, (9.6) et (9.13) ne forment pas une condition suffisante d’optimalit´e, mˆeme localement, car les valeurs propres nulles de H(bx) sont associ´ees `a des vec-teurs propres dans la direction desquels il est possible de s’´eloigner de bx sans faire croˆıtre la contribution au coˆut du terme du second ordre. Il faudrait alors consid´erer des termes d’ordre plus ´elev´e pour conclure. Pour prouver, par exemple, que J(x) = x1000a un minimiseur local enxb= 0 via un d´eveloppement de Taylor, il faudrait calculer toutes les d´eriv´ees de cette fonction de coˆut jusqu’`a l’ordre 1000, car toutes les d´eriv´ees d’ordre inf´erieur sont nulles enbx.

La condition plus restrictive

qui impose que toutes les valeurs propres de H(bx) soient strictement positives, fournit une condition suffisante d’optimalit´e locale au second ordre (pourvu que la condition n´ecessaire du premier ordre (9.6) soit aussi satisfaite). Elle ´equivaut `a dire que H(bx) est sym´etrique d´efinie positive, ce qu’on note

H(bx) 0. (9.15) En r´esum´e, une condition n´ecessaire d’optimalit´e debx est

g(bx) = 0 et H(bx) < 0, (9.16) et une condition suffisante d’optimalit´e locale debx est

g(bx) = 0 et H(bx) 0. (9.17) Remarque 9.1.Il n’y a pas, en g´en´eral, de condition n´ecessaire et suffisante d’opti-malit´e, mˆeme locale.  Remarque 9.2.Quand on ne sait rien d’autre de la fonction de coˆut, la satisfaction de (9.17) ne garantit pas quebx soit un minimiseur global.  Remarque 9.3.Les conditions sur la hessienne ne sont valides que pour une mini-misation. Pour une maximisation, il faut y remplacer< par 4, et par ≺.  Remarque 9.4.Comme le sugg`ere (9.6), des m´ethodes de r´esolution de syst`emes d’´equations vues au chapitre 3 (pour les syst`emes lin´eaires) et au chapitre 7 (pour les syst`emes non lin´eaires) peuvent aussi ˆetre utilis´ees pour rechercher des mini-miseurs. On peut alors exploiter les propri´et´es sp´ecifiques de la jacobienne de la fonction gradient (c’est `a dire de la hessienne), dont (9.13) nous dit qu’elle doit ˆetre sym´etrique d´efinie non-n´egative en tout minimiseur local ou global.  Exemple 9.2. Retour sur le krigeage

On peut ´etablir les ´equations (5.61) et (5.64) du pr´edicteur par krigeage grˆace aux conditions d’optimalit´e th´eoriques (9.6) et (9.15). Supposons, comme en sec-tion 5.4.3, que N mesures aient ´et´e effectu´ees pour obtenir

yi= f (xi), i= 1,··· ,N. (9.18) Dans sa version la plus simple, le krigeage interpr`ete ces r´esultats comme des r´ealisations d’un processus gaussien `a moyenne nulle Y(x). On a donc

∀x, E{Y (x)} = 0 (9.19) et

∀xi,∀xj, E{Y (xi)Y (xj)} = σ2

yr(xi, xj), (9.20) o`u r(·,·) est une fonction de corr´elation, telle que r(x,x) = 1, et o`u σ2

y est la variance du processus gaussien. Soit bY(x) une combinaison lin´eaire des Y (xi), de sorte que

b

Y(x) = cT(x)Y, (9.21) o`u Y est le vecteur al´eatoire

Y= [Y (x1),Y (x2),··· ,Y (xN)]T (9.22) et o`u c(x) est un vecteur de poids. bY(x) est un pr´edicteur non biais´e de Y (x), puisque pour tout x

E{bY(x)−Y (x)} = E{bY(x)} − E{Y (x)} = cT(x)E{Y} = 0. (9.23) Il n’y a donc pas d’erreur syst´ematique quel que soit le vecteur de poids c(x). Le meilleur pr´edicteur lin´eaire non biais´ede Y(x) choisit c(x) pour minimiser la va-riance de l’erreur de pr´ediction en x. Comme

[bY(x)−Y (x)]2= cT(x)YYTc(x) + [Y (x)]2− 2cT(x)YY (x), (9.24) la variance de l’erreur de pr´ediction vaut

E{[bY(x)−Y (x)]2

} = cT(x)EYYT c(x) + σ2

y− 2cT(x)E{YY (x)} = σy2cT(x)Rc(x) + 1− 2cT(x)r(x) , (9.25) o`u R et r(x) sont d´efinis par (5.62) et (5.63). La minimisation de cette variance par rapport `a c est donc ´equivalente `a la minimisation de

J(c) = cTRc+ 1− 2cTr(x). (9.26) La condition d’optimalit´e au premier ordre (9.6) se traduit par

∂ J

∂ c(bc) = 2Rbc− 2r(x) = 0. (9.27) Pourvu que R soit inversible, comme elle devrait l’ˆetre, (9.27) implique que le vec-teur de pond´eration optimal est

bc(x) = R−1r(x). (9.28) Comme R est sym´etrique, (9.21) et (9.28) impliquent que

b

Y(x) = rT(x)R−1Y. (9.29) La moyenne pr´edite sur la base des donn´ees y est ainsi

b

y(x) = rT(x)R−1y, (9.30) qui est (5.61). Remplac¸ons dans (9.25) c(x) par sa valeur optimalebc(x) pour obtenir la variance (optimale) de la pr´ediction

b

σ2(x) = σy2rT(x)R−1RR−1r(x) + 1− 2rT(x)R−1r(x) = σ2

y1 − rT(x)R−1r(x) , (9.31) qui est (5.64).

La condition (9.17) est satisfaite, pourvu que

2J

∂ c∂ cT(bc) = 2R 0. (9.32)  Remarque 9.5.L’exemple 9.2 n´eglige le fait que σy2est inconnu et que la fonction de corr´elation r(xi, xj) implique souvent un vecteur p de param`etres `a estimer `a partir des donn´ees, de sorte que R et r(x) devrait en fait s’´ecrire R(p) et r(x, p). L’approche la plus courante pour estimer p et σy2est celle du maximum de vraisem-blance. La densit´e de probabilit´e du vecteur des donn´ees y est alors maximis´ee sous l’hypoth`ese que ce vecteur a ´et´e g´en´er´e par un mod`ele de param`etres p et σy2. Les estim´ees au sens du maximum de vraisemblance de p et σy2sont ainsi obtenues en solvant un autre probl`eme d’optimisation, comme

b p= arg min p  Nln yTR−1(p)y N  + ln det R(p)  (9.33) et b σy2=y TR−1(bp)y N . (9.34)

En remplac¸ant dans (5.61) et dans (5.64) R par R(bp), r(x) par r(x,bp) et σ2 y parσby2, on obtient un meilleur estimateur lin´eaire non biais´e empirique [205].