Conditions suffisantes - Convexit´e et conditions suffisantes

2.3 Convexit´e et conditions suffisantes

2.3.2 Conditions suffisantes

Pourquoi avoir passé quelques pages à établir ces caractérisations de la convexité d’une fonctionnelle différentiableJ? Comme le suggère le titre du paragraphe, la raison principale est que, lorsqueJ est convexe, les conditions qu’elle doit vérifier en un pointu, qui sont simplement nécessaires dans le cas général, deviennent nécessaires et suffisantes.

Reprenons donc pour finir les principaux r´esultats portant sur les conditions de r´ealisation d’un point de minimum.

Théorème 2.3.4 SoientK un sous-ensemble convexe deE,uun point deK etJ une fonctionnelle convexe et différentiable de K. Alors u est un point de minimum global de J sur K si, et seulement si,

(∇J(u), v−u)≥0, ∀v∈K. (2.17) Preuve : Siuest un point de minimum deJ, nous savons déjà que l’inéquation d’Euler (2.17) est vérifiée.

R´eciproquement, du fait de la convexit´e, la condition (ii) nous dit queuest un point de minimum global.

On se place maintenant dans le cas d’un convexeK^#égal à un espace affine (voir la sous-section 2.2.3), défini par

K^#={v∈E : (v−u0, ak) = 0, 1≤k≤p},

où (ak)1≤k≤p est une famille libre deE, etu0 un vecteur deE. On infère du théorème ci-dessus un second résultat dû à Karush, Kuhn et Tucker (K.K.T.).

Corollaire 2.3.1 Soient u^# un point deK^# et J une fonctionnelle convexe et diff´erentiable de K^#. Alorsu^# est un point de minimum global deJ sur K^# si, et seulement si,

∃λ∈R^p, ∇J(u^#) +

k=1

λkak = 0. (2.18)

Preuve : Siu^# est un point de minimum, le théorème 2.2.3 nous permet d’affirmer qu’il existe un élément λ deR^p tel que (2.18) soit vérifiée.

Réciproquement, s’il existe λtel que (2.18) soit vraie, on en déduit que le gradient ∇J(u^#) est orthogonal à toute différence de deux éléments deK^#, c’est-à-dire que

(∇J(u^#), v^#−u^#) = 0, ∀v^# ∈K^#. Le th´eor`eme 2.3.4 nous permet de conclure.

Enfin, pour en finir ici avec les problèmes avec contraintes, revenons à la minimisation quadratique sous contraintes d’égalité. Considérons la fonctionnelle J0 définie comme d’habitude par (1.3) pour des vecteurs deRⁿ, où l’on suppose cette fois que la matrice Aest symétrique et positive.

L’espaceK^# est quant `a lui d´efini par

K^#={v∈Rⁿ : C v=f},

o`uC est une matrice deR^p×n de rangp, etf est un vecteur deR^p. On a alors le

Th´eor`eme 2.3.5 u^# est un point de minimum de J0 sur K^# si, et seulement si, il existe un

´el´ement λde R^p tel que le couple (u^#, λ) soit solution de ( A C^T

C 0

) ( u^# λ

)

= ( b

f )

. (2.19)

Si de plus A est (symétrique) définie-positive, le système linéaire (2.19) admet une solution unique. En d’autres termes, il existe un point de minimum global deJ0 sur K^# et un seul.

Preuve :Siu^# est un point de minimum, on applique le corollaire 2.2.4.

Réciproquement, nous allons vérifier queJ0est convexe. En effet, on sait que∇J0(v) =Av−b, puisqueA est symétrique. De plus,

(∇J0(v)− ∇J0(u), v−u) = (A(v−u), v−u)≥0,

puisqueAest positive. D’après (iii),J0est convexe. On se retrouve dans la situation du corollaire précédent, ce qui achève la démonstration du premier point.

On suppose ici queAest sym´etrique d´efinie-positive. La matrice ( A C^T

C 0 )

appartient `aR(n+p)×(n+p)

Pour prouver que le système linéaire (2.19) admet une solution unique, il suffit de vérifier que le noyau de l’application linéaire associée est réduit à {0} (pour une application linéaire d’un espace vectoriel de dimension finie dans lui-même, bijectivité ⇐⇒surjectivité ⇐⇒injectivité.) Soit donc un couple (u, λ) deRⁿ×R^p tel que

( A C^T C 0

) ( u λ

)

= ( 0

0 )

. Comme Aest inversible, on inf`ere, par implications successives que u=−A⁻¹C^Tλ(premi`ere ligne) ; CA⁻¹C^Tλ= 0 (seconde ligne) ;

(CA⁻¹C^Tλ, λ)p = 0 (produit scalaire parλ) ; (A⁻¹C^Tλ, C^Tλ) = 0 (transposition) ; Comme Aest symétrique définie-positive,A⁻¹ l’est également, et ainsi

C^Tλ= 0.

Pour conclure, on note que l’application linéaire associée à C^T va de R^p dansRⁿ, et qu’elle est de rang p. Par conséquent, dim(Ker(C^T)) = 0, dont on déduit queλ= 0, puis finalement que u= 0 par retour à la première ligne du système linéaire. La conclusion suit.

En ce qui concerne les probl`emes sans contraintes, on a imm´ediatement le

Théorème 2.3.6 SoientK un sous-ensemble convexe deE,uun point deK etJ une fonctionnelle convexe et différentiable de K. Si K = E (ou si u est intérieur à K), alors u est un point de minimum (global) de J si, et seulement si,

∇J(u) = 0. (2.20)

La démonstration, immédiate, est laissée au lecteur.

Exercice 2.3.3 On reprend J0(u) = ¹₂(Av, v)−(b, v) +c, d´efinie surRⁿ. 1. A quelle(s) condition(s) J0 est-elle convexe, strictement convexe,α-convexe?

2. Retrouver les conclusions concernant l’´etude des probl`emes (1.4) et (1.5).

Exercice 2.3.4 Soit J une fonctionnelle α-convexe et diff´erentiable sur Rⁿ. Montrer que J admet un minimum global, et le caract´eriser.

Chapitre 3

Moindres carr´ es lin´ eaires

Nous considérons dans ce chapitre un problème de minimisation, relativement courant en pratique, appelé problème de moindres carrés. Nous nous contentons de considérer le cas particulier des moindres carrés linéaires, car on verra que ces problèmes ont de très fortes ramifications avec la Partie 2, qui traite d’algèbre linéaire.

3.1 Probl` ematique

De prime abord, il est rassurant (!?) de r´esoudre exactement un probl`eme. En pratique, cependant, on se rend compte que, dans de nombreux cas, il n’existe pas de solution ”exacte”

(voir la note de bas de page). C’est souvent le cas lorque l’on désire réaliser l’opération suivante : A partir d’un nombre fini (parfois très grand) de mesures, inférer un comportement valable dans tous les cas, passés, présents ou à venir.

Typiquement, d’une part on dispose d’un modèle abstrait, et d’autre part de données, et l’on souhaite fusionner l’un et l’autre, pour disposer d’une modélisation concrète du phénomène

étudié, et/ou d’outils de prédiction. Prenons l’exemple suivant.

Carl Friedrichs Gauss(1777-1855) désirait déterminer la trajectoire de planètes, et notamment celle d’Uranus, découverte à la fin du 18ème siècle. D’après les lois deKépler, si l’on néglige la présence des autres planètes autour du Soleil, Uranus décrit une ellipse. Si l’on supposeconnus le plan de la trajectoire (écliptique) ainsi que la direction du grand axe, sa trajectoire est une ellipseE dans le plan de l’écliptique, dont l’équation est

(x−x0)²

a² + (y−y0)²

b² = 1. (3.1)

L’ellipse E est donc caractérisée par quatre paramètres, (x0, y0, a, b). Dès que l’on dispose de quatre positions (ou plus) d’Uranus dans le ciel, il est possible de caractériser sa trajectoire elliptique¹... Pour cela, Gauss a inventé le principe dit desmoindres carrés(en 1801). Disposant de K mesures de la position d’Uranus Mk(xk, yk)1≤k≤K, on choisit (x0, y0, a, b), ce qui définit une unique ellipseE=Ex0,y0,a,b. A partir de là, on introduit les points (M_k^!)1≤k≤K: pour chaque valeur de k, M_k^! est le point d’intersection de l’ellipse avec la droite passant par Mk et le centre de l’ellipse, le plus proche deMk, de coordonnées

x^!_k =pE(xk, yk), y_k^! =qE(xk, yk), 1≤k≤K. (3.2)

1. Caractérisation de la trajectoire... Pour trois mesures ou moins, il existe une infinité de possibilités. Quatre mesures sont idéales, puisque qu’il leur correspond une unique ellipse. A partir de cinq mesures ou plus, il faut espérer que tous les points de la trajectoire, à partir du 5ême^` , se trouvent sur l’ellipse définie par les quatre premiers ! Cette prise de conscience (existence d’une surdétermination) est fondamentale, lorsque l’on résout ce type de problèmes.

E(x ,y ,a,b)_{0 0} Mesures Projections

Fig.3.1 – Projections sur l’ellipse

Pour mesurer l’erreur commise entre les positions mesur´ees et leurs projections sur l’ellipse E, on forme la quantit´e

ν=

k=1

MkM_k^!². (3.3)

Si tous les points de la trajectoire mesurée se trouvent sur l’ellipse E, on obtient ν = 0 ; dans le cas contraire, ν > 0. Précisons, avant de continuer, que les données sont (xk, yk)1≤m≤K, et que lesinconnues sont (x0, y0, a, b). Comme les nombres (x^!_k, y^!_k)1≤k≤K sont caractérisés par les relations (3.2), on peut donc introduire la fonctionnelle

ν(x0, y0, a, b) =

k=1

{'xk−pE(xk, yk)'²+'yk−qE(xk, yk)'²}. (3.4) L’idée est de partir d’une première ellipse, puis de la modifier, de fa¸con à diminuer la valeur de ν correspondante, et ainsi de suite... Le but est de minimiser la valeur deν(x0, y0, a, b), le quadruplet (x0, y0, a, b) décrivantR⁴:

Trouver (xôpt₀ , yôpt₀ , aôpt, bôpt)∈R⁴,

tel queν(xôpt₀ , y₀ôpt, aôpt, bôpt) = inf

(x0,y0,a,b)∈R⁴ν(x0, y0, a, b). (3.5) Idéalement, comme nous l’avons remarqué plus haut, si les mesures sont exactes, et si la trajectoire est effectivement elliptique dans le plan de l’ecliptique, on détermine une solution telle que

ν(xôpt₀ , yôpt₀ , aôpt, bôpt) = 0.

Malheureusement, on sait que toute mesure est approchée, ce qui interdit de trouver un tel résultat.Heureusement, ceci n’est pas incompatible avec la résolution du problème (3.5).

Dans la suite, nous nous limiterons à l’étude de modèles-type, pour lesquels la dépendance par rapport aux inconnues est linéaire. A des fins illustratives, dans le formalisme adopté ci-dessus, on aurait

# x^!_k =αkx0+βky0+γka+δkb+f(x1, y1,· · ·, xK, yK),

y^!_k=α^!_kx0+β_k^!y0+γ_k^!a+δ_k^!b+f^!(x1, y1,· · ·, xK, yK), 1≤k ≤K,

soit ν(v) ='Av−b'², v∈R⁴, A∈R^2K×4, b∈R^2K. (3.6) On parle alors demoindres carr´es lin´eaires.

Remarque 3.1.1 Pour refermer la parenthèse historique (voir [20] pour plus de détails), men-tionnons que Gauss a mené à bien ses calculs (sans ordinateur !). A la suite de quoi, on s’est aper¸cu qu’au cours du temps la trajectoire elliptique optimale variait... Après avoir éliminé les

incertitudes liées aux erreurs de mesure, on en a déduit que la trajectoire n’était pas une ellipse, mais plutôt une perturbation de trajectoire elliptique. L’influence des autres planètes a été prise en compte, mais cela ne résolvait toujours pas la difficulté. Urbain le Verrier (1811-1877) a donc eu l’idée de chercher une nouvelle planète, introduisant une nouvelle perturbation, qui validerait le modèle : il a découvert Neptune en 1846.

Dans le document Optimisation et alg` ebre lin´ eaire (Page 32-37)