Exemple de r´esolution d’un probl`eme de minimisation

Dans cette section, nous allons résoudre complètement un problème de minimisation “classique”.

Qui plus est, nous en tirerons des enseignements généraux, enseignements qui nous permettront de développer la théorie liée à l’optimisation de fonctionnellesdifférentiables et/ouconvexes.

On considère le problème de la minimisation d’une fonctionnelle quadratique qui dépend de n variables ; soit donc un polynôme de degré 2 enx1,· · ·, xn, c’est-à-dire :

P(x1,· · ·, xn) =

i=1 i

j=1

αijxixj−

k=1

βjxj+γ. (1.1)

On va étudier l’existence de minima locaux ou globaux, lorsque (x1,· · ·, xn) parcourt Rⁿ. Tout d’abord, essayons de nous servir des résultats généraux de la section précédente. Le théorème 1.2.1 ne s’applique pas, puisque Rⁿ n’est pas compact. Quant à la proposition 1.2.1, il est difficile de savoir si on peut l’utiliser, car vérifier que P est bien infini à l’infini n’est pas aisé ! Bref, nous allons développer de nouveaux outils, (mieux) adaptés au problème de la minimisation de (1.1).

2. Nous allons expliquer pourquoi la démonstration de la proposition ne s’applique pas dans un espace de dimension infinie. Pour cela, rappelons un théorème dû à Riesz.

Théorème 1.2.2 SoitEun espace vectoriel normé etB(0,1) ={v∈E : "v" ≤1}sa boule unité fermée. Alors, Eest de dimension finie si, et seulement si,B(0,1)est compacte.

A partir de ce résultat, on voit qu’il ne sert à rien de se ramener à une suite bornée, si l’on reprend la démonstration dans le cas de la dimension infinie. En effet, les éléments de la suite appartiennent bien à une boule fermée et bornée, mais celle-ci n’est plus compacte. On ne peut alors plus considérer une sous-suite qui converge...

1.3.1 Dans R

Considérons brièvement le cas d’un polynôme d’une seule variable. Bien évidemment, si n= 1,P(x) =α x²−β x+γ.

Si x0 est un minimum local deP, il existe η >0 tel que, pour tout h v´erifiant|h| < η, on ait P(x0+h)≥P(x0). Par diff´erence, on obtienth(2α x0+α h−β)≥0.

Si on choisith dans ]0, η[, on a alors 2α x0+α h−β ≥0 ; on fait tendrehvers 0, pour arriver

a 2α x0−β≥0.

En prenanthn´egatif, on obtient cette fois 2α x0−β≤0.

Ainsi, une condition n´ecessaire d’existence de minimum est que

2α x0=β. (1.2)

Réciproquement, six0 est tel que 2α x0=β, on trouveP(x0+h) =P(x0) +α h². Pour garantir l’existence d’un minimum (qui sera d’ailleurs global), α doit être positif ou nul. Notons enfin que pour que (1.2) possède une solution, il faut soit que α /= 0, soit que α = β = 0. Dans le premier cas, il existe une solution et une seule, et dans le second cas, x0 est quelconque.

En conclusion, nous sommes arriv´es au r´esultat suivant :

(I) α < 0 : la condition n´ecessaire d’existence de minimum (1.2) n’est jamais suffisante. Il n’existe pas de minimum.

(II) α ≥ 0 : la condition d’existence de minimum (1.2) est nécessaire et suffisante. Qui plus est, la résolution de (1.2) permet de caractériser les minima, qui sont automatiquement globaux.

Siα >0, il existe un minimum x0 unique, ´egal `ax0=β/2α.

Siα= 0 etβ= 0, tout élément deR réalise le minimum.

Siα= 0 etβ/= 0, il n’existe pas de minimum.

(I) (II)

α<0 α>0 α=β=0 α=0, β=0/

Fig. 1.1 –Petit r´ecapitulatif ’visuel’.

1.3.2 Dans Rⁿ

Ci-dessous, nous allons faire usage des prérequis d’algèbre linéaire rappelés dans l’Avant-Propos.

Dans le cas général (n ≥ 2), on peut se ramener à une forme “condensée”, qui permet de simplifier l’étude que l’on se propose de réaliser, en la rapprochant du cas à une variable.

En effet, si on note :v= (x1,· · ·, xn)^T etb= (β1,· · ·, βn)^T, on a"n

k=1βjxj= (b, v), o`u (., .) est le produit scalaire usuel deRⁿ.

Qu’en est-il pour le terme quadratique de P? Soit A = (Ai,j)1≤i,j≤n une matrice de R^n×n; comparons ¹₂(Av, v) au premier terme deP:

2(Av, v) = 1 2

i=1 n

j=1

Ai,jxjxi= 1 2

i=1

Ai,ixixi+

i=1

j<i

2{Ai,j+Aj,i}xixj. En identifiant les coefficients terme `a terme, on arrive `a :

# Ai,i= 2αii, 1≤i≤n.

Ai,j+Aj,i= 2αij, 1≤i≤n, 1≤j < i.

Il y a plus d’inconnues que d’équations. Ceci étant, si l’on suppose que A est symétrique, on peut déterminer A, puisqu’on obtientAi,i= 2αii, pour 1≤i≤n, etAi,j=αij, pour 1≤i≤n, 1≤j < i. En résumé, on vient de démontrer le résultat élémentaire suivant :

Proposition 1.3.1 A tout polynômeP de nvariables et de degré 2, on peut associer un unique triplet (A, b, c), où A est une matrice symétrique de R^n×n,b un vecteur de Rⁿ, et cun réel, tel que

∀v= (x1,· · ·, xn)^T∈Rⁿ, P(x1,· · ·, xn) =1

2(Av, v)−(b, v) +c.

PourA sym´etrique, on introduit la fonctionnelleJ0 :Rⁿ →R, d´efinie par

∀v∈Rⁿ, J0(v) = 1

2(Av, v)−(b, v) +c. (1.3)

On s’intéresse aux problèmes de minimisation suivants : Problèmelocal

# Trouveru∈Rⁿ, solution de

∃η >0, ∀h∈Rⁿ, 'h'< η=⇒J0(u)≤J0(u+h). (1.4)

Probl`emeglobal

# Trouveru∈Rⁿ, solution de

∀h∈Rⁿ, J0(u)≤J0(u+h). (1.5)

Consid´erons tout d’abord le probl`eme (1.4).

•Siu∈Rⁿ est un minimum local, il existe η >0 tel que, pour touthde norme plus petite queη,J0(u+h)≥J0(u).

Par diff´erence, on obtient : J0(u+h)−J0(u) = 1

2(A{u+h}, u+h)−(b, u+h) +c−1

2(Au, u) + (b, u)−c

= 1

2(Au, h) +1

2(Ah, u) +1

2(Ah, h)−(b, h)

= (Au−b, h) +1

2(Ah, h), (1.6)

Comme dans le cas monodimensionnel, considérons maintenant despetites variations. Pour tout vecteur non nulddeRⁿ,λ dest de norme plus petite queη dès lors que|λ|< η/'d'. On arrive alors à

∀λtel que|λ|< η/'d', λ{(Au−b, d) + λ

2(Ad, d)} ≥0.

En faisant tendre λ vers zéro par valeurs supérieures (λ > 0), on en déduit qu’une condition nécessaire d’existence d’un minimum est

∀d∈Rⁿ, (Au−b, d)≥0, (1.7)

ou, de fa¸con ´equivalente, puisquedparcourt l’ensemble des directions possibles dans Rⁿ,

Au=b. (1.8)

•Comme dans le cas monodimensionnel, examinons la r´eciproque:

si (1.8) est vérifiée, on a l’égalitéJ0(u+h) =J0(u) +¹₂(Ah, h), pour touth. En conséquence, pour que usoit bien un minimum,Adoit être positive, c’est-à-dire que

∀h∈Rⁿ, (Ah, h)≥0.

Dans ce cas, le minimum estglobal. SiAn’est pas positive, il n’existe pas de minimum.

Bien évidemment, pour que (1.8) possède une solution, il faut et il suffit que b appartienne à l’image deA, notée Im A. Comme Aest symétrique, ceci équivaut à ce que bsoit orthogonal à Ker A. En effet,

Lemme 1.3.1 SoitA une matrice de R^m×n, alors Im A= (Ker A^T)^⊥.

Preuve :Prouvons pour commencer queIm A⊂(Ker A^T)^⊥. Soit doncxun élément deIm A; il existev∈Rⁿ tel quex=Av. Alors, pour tout élément y appartenant àKer A^T, on a

(x, y)m= (Av, y)m= (v, A^Ty)n= 0.

Pour prouver l’égalité entre ces deux sous-espaces vectoriels de R^m, vérifions qu’ils ont même dimension. D’une part, puisque Ker Aet (Ker A^T)^⊥ sont supplémentaires,

m=dim[Ker A^T] +dim[(Ker A^T)^⊥].

Et, d’autre part, commeA^T:R^m→Rⁿ, d’après le théorème du rang (rg(A)=rg(A^T)), on trouve m=dim[Ker A^T] +dim[Im A^T] =dim[Ker A^T] +dim[Im A].

On a bien l’´egalit´e entre les dimensions,dim[(Ker A^T)^⊥] =dim[Im A], ce qui permet d’arriver

à l’égalité annoncée.

R´esumons : lorsque A est positive, on a deux possibilit´es, selon que A est inversible ou non.

Si A est inversible, il existe une unique solution à (1.8). Si A n’est pas inversible, on sait que l’ensemble des solutions de (1.8) est égal à l’espace affine u0+Ker A, où u0 est une solution particulière de l’équation.

Avant de conclure, relions l’inversibilit´e deAau fait qu’elle estd´efinie positive, i. e.

∀h∈Rⁿ\ {0}, (Ah, h)>0.

Proposition 1.3.2 Soit A une matrice sym´etrique et positive. Alors A est inversible si et seulement elle est d´efinie positive.

Preuve :Supposons queAest inversible. Soitw tel que (Aw, w) = 0. On va montrer quewest en fait égal à zéro. On va se servir encore une fois de petites variations autour dew, selon une direction ddeRⁿ (d/= 0) : soit donc enfinλ >0. CommeAest positive et symétrique :

0≤(A{w+λ d}, w+λ d) = 2λ(Aw, d) +λ²(Ad, d).

En mettant λ en facteur, puis en faisant tendre λ vers 0 dans le facteur restant, on obtient (Aw, d)≥0. Comme c’est valable pour toute direction, on en déduit queAw= 0, ce qui conduit enfin àw= 0 par hypothèse surA.

La réciproque est aisée et classique. En effet, si A est définie-positive, Aw = 0 entraˆıne que (Aw, w) = 0, et donc quew= 0 : par conséquent,A est inversible.

DansRⁿ, nous avons r´esolu les probl`emes (1.4) et (1.5) :

(III) A n’est pas positive : la condition n´ecessaire d’existence de minimum (1.8) n’est jamais suffisante. Il n’existe pas de minimum.

(IV) Aest positive : la condition d’existence de minimum (1.8) est nécessaire et suffisante. Qui plus est, la résolution de (1.8) permet decaractériserles minima, qui sont automatiquement globaux.

SiAest définie-positive, il existe un minimumu unique, égal àu=A⁻¹b.

Sinon,

sib⊥Ker A, l’espace des minima est ´egal `au0+Ker A.

Si b/⊥Ker A, il n’existe pas de minimum.

Exercice 1.3.1 1. Essayer de résoudre directement le problème de la minimisation du polynôme P défini par (1.1).

2. Résoudre les problèmes de minimisation avec une fonctionnelle J0 définie à partir d’une matrice Aquelconque (voir (1.3)).

3. V´erifier directement que si A n’est pas positive, il n’existe pas de minimum global.

4. Montrer queAest d´efinie-positive si et seulement si il existeν >0telle que, pour tout vecteur v, (Av, v)≥ν'v'².

5. En économie, on maximise le profit : résoudre les problèmes de maximisation quadratiques associés.

La fa¸con dont nous avons résolu le problème posé est riche d’enseignements :

Il est utile de condenser les notations, en passant de (1.1) à (1.3). Les sceptiques sont invités à examiner la question 1 de l’exercice 1.3.1 ! Ceci reste vrai lorsque l’on est confronté

a un calcul de diff´erentielle.

Or, la condition n´ecessaire d’existence d’un minimum est obtenue `a l’aide de c

¯alculs de petites variations, autour d’un point de minimum. Ceci nous conduira naturellement, dans la section suivante, à utiliser les notions indispensables decalcul différentieldans des espaces vectoriels normés, et plus particulièrement dansRⁿ, en vue de résoudre des problèmes d’optimisation.

Le fait que la condition d’existence d’un minimum estsuffisantedécoule de lapositivité deA, qui est elle-même équivalente à la convexité de la fonctionnelle J0, comme on le verra section 2.3, qui traite en particulier d’optimisation convexe. On prouvera aussi que la condition qui garantit l’existence (et l’unicité) du minimum est l’α-convexité de J0.

Enfin, lorsqueAest symétrique définie-positive, ces résultats théoriques, qui lient minimisation (cf. (1.5)) et résolution du système linéaire en A (1.8), ont des conséquences pratiques importantes. En effet, ils sont à la base de nombreux algorithmes de calcul numérique qui seront étudiés dans la suite du cours.

Dans le document Optimisation et alg` ebre lin´ eaire (Page 15-19)