D´epartement Biosciences V´eg´etales
Module : Introduction ` a l’optimisation
J. Gergaud
Janvier 2007
Table des mati` eres
1 D´efinition du probl`eme 1
1 Exemples . . . 1
1.1 Cas continu et de dimension finie . . . 1
1.2 Probl`eme en nombres entiers . . . 7
1.3 Probl`eme en dimension infinie . . . 8
2 Probl`eme d’optimisation . . . 8
2.1 D´efinitions . . . 8
2.2 Classification . . . 9
2 Fonctions de plusieurs variables 11 1 Introduction . . . 11
2 Notion de limite et de continuit´e dansRn . . . 11
2.1 Notions topologiques . . . 11
2.2 Limite, continuit´e . . . 12
3 Notion de d´eriv´ee . . . 13
3.1 D´efinitions . . . 13
3.2 Th´eor`emes . . . 16
3.3 D´eriv´ee seconde . . . 19
3.4 D´eriv´ee seconde et convexit´e . . . 20
3 Existence de solution 21 1 Introduction . . . 21
2 Th´eor`emes . . . 21
2.1 Probl`emes avec contraintes . . . 21
2.2 Probl`eme sans contraintes . . . 22
4 Condition n´ecessaire, condition suffisante de solution 23 1 Introduction . . . 23
2 Th´eor`emes . . . 23
2.1 D´efinitions . . . 23
2.2 Condition N´ecessaire . . . 24
2.3 Condition suffisante . . . 24
2.4 Probl`eme convexe . . . 24
3 Applications . . . 25
3.1 Exemples . . . 25
3.2 Probl`eme aux moindres carr´ees . . . 26
5 Algorithme de Newton 27 1 Introduction . . . 27
2 Algorithme de Newton . . . 27
2.1 R´esolution d’une ´equation : cas de la dimension 1 . . . 27
2.2 R´esolution d’´equations : cas de la dimension n . . . 27
2.3 Application aux probl`emes d’optimisation . . . 29
3 Exemples . . . 30
3.1 Exemple 1 . . . 30
3.2 Exemple 2 . . . 32
3.3 Mod`ele de Kaplan . . . 32
i
Chapitre 1
D´ efinition du probl` eme
1 Exemples
1.1 Cas continu et de dimension finie
Exemple 1.1.1. La trajectoire d’un rayon lumineux allant de A `a B respecte le principe du minimum de Fermat : Le trajet est celui pour lequel le temps de parcours est minimum.
−1 0 1 2 3 4 5 6 7
−3
−2
−1 0 1 2 3
A(0,a)
B(k,b) P(x,0)
air
eau
α1
α2
Fig.1.1 – Principe de Fermat
La vitesse de la lumi`ere estc1 dans l’air etc2 dans l’eau. Le temps de parcours est donc :
T(x) = 1 c1
pa2+x2+ 1 c2
pb2+ (k−x)2 Le probl`eme est alors ici de trouver le point P (i.e.x∗) tel que :
T(x∗)≤T(x)∀x∈R⇐⇒(P)
M in f(x) x∈R On peut ici tracer cette fonction (1.2)
Une condition n´ecessaire de solution de(P)estT0(x) = 0 (4.2.2.1). Ce qui donne ici 1
2 CHAPITRE 1. D ´EFINITION DU PROBL `EME
0 1 2 3 4 5 6 7
4 4.5 5 5.5 6 6.5
x
T(x)
Fig.1.2 – FonctionT
x c1
√a2+x2+ −(k−x) c2p
b2+ (k−x)2 = 0
⇐⇒ x
c1
√a2+x2 = (k−x) c2p
b2+ (k−x)2
⇐⇒ sinα1
c1 = sinα2
c2
⇐⇒n1sinα1 = n2sinα2 Remarque 1.1.2. Nous retrouvons dans ce cas les lois de Descartes1 ou de Snell.
Remarque 1.1.3. La condition T0(x) = 0 n’est qu’une condition n´ecessaire, en effet si nous consid´erons la fonctionnelle r´eellef(x) =x3 nous avons f0(0) = 0 mais 0 n’est pas un minimum def (1.3).
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2
−8
−6
−4
−2 0 2 4 6 8
x
f(x)
Fig.1.3 –f0(0) = 0 et 0 n’est pas un minimum
1Associer les noms de Fermat et Descartes est surprenant pour qui connaˆıt les confrontations scientifiques virulentes qui les op- pos`erent. Les ´etudiants int´eress´es peuvent voir la vid´eo ([2]) o`u se rendre au mus´ee Pierre de Fermat de Beaumont de Lomagne, ville natale de P. de Fermat pr`es de Toulouse
1. EXEMPLES 3 Exemple 1.1.4. Un condensateur charg´e `a une tension de U0 volts se d´echarge sur une r´esistance. On mesure la tensionU entre les armatures du condensateur toutes les secondes pendant un intervalle de temps de 10 secondes.
Les r´esultats des mesures sont donn´ees dans la table (1.1)
ti Ui ti Ui
0 100 6 15
1 75 7 10
2 55 8 10
3 40 9 5
4 30 10 5
5 20
Tab. 1.1 – Donn´ees Th´eoriquement, la tension en fonction du temps s’´ecrit :
U(t) =U0e−αt
On d´esire ici estimer les valeurs des constantes U0 et α. Notre but est donc de trouver les valeurs de ces constantes pour que cette fonctionU(t)”colle” au mieux `a nos donn´ees. Si on donne des valeurs `a ces constantes, nous pouvons calculer les quantit´es appel´ees r´esidus :
ri(U0, α) =Ui−U(ti) =Ui−U0e−αti Par suite nous pouvons calculer la quantit´e :
f(U0, α) = 1 2
n
X
i=1
(Ui−U0e−αti)2
Cette quantit´e est graphiquement la somme des carr´es des longueurs des r´esidus (1.4)
−2 0 2 4 6 8 10 12
0 10 20 30 40 50 60 70 80 90 100 110
← r1
← r2
← r3
← r4
← r5
← r6
← r7
← r8 ← r9
← r10 ← r11
Fig.1.4 – Crit`eres des moindres carr´es
Plus cette quantit´e sera faible, plus notre courbe sera proche de nos points exp´erimentaux. Estimer les param`etres U0 etαpar les moindres carr´es, c’est rechercher la valeur solution du probl`eme d’optimisation suivant :
(P)
M inf(U0, α) =12Pn
i=1(Ui−U0e−αti)2 (U0, α)∈R2
Attention dans le pbobl`eme(P)ci-dessus, les instantstiet les valeursUi sont connus. Ce sont les valeurs des param`etres que l’on cherche.
4 CHAPITRE 1. D ´EFINITION DU PROBL `EME Remarque 1.1.5. • Dans l’exemple pr´ec´edent on peut aussi ´ecrire : f(β) =12 kr(β)k2 o`u
β = U0
α
r(β) =
r1(β)
... rn(β)
et ri(β) =Ui−U0e−αti
• Minimiser f(β)est ´equivalent `a minimiser αf(β)avec α >0. Le terme 12 est mis ici afin de ne pas avoir le terme 2 lorsque l’on d´erive la fonctionf(β)
Exemple 1.1.6(Mod`ele de Kaplan). On d´esire ´etudier la diffusion d’une drogue dans un organe d’un corps donn´e.
La drogue est inject´ee par intraveineuse dans le sang `a l’instantt0= 0. On mod´elise le syst`eme par un mod`ele `a compartiments :
Sang y1(t) Organey2(t)
-
?
k1
k3
k2
Les concentrations dans le sang sont mesur´ees `a diff´erents instants :
ti yi1 ti yi1
0.25 215.6 3.00 101.2 0.50 189.2 4.00 88.0 0.75 176.0 6.00 61.6 1.00 162.8 12.00 22.0 1.50 138.6 24.00 4.4 2.00 121.0 48.00 0.0
Le syst`eme d’´equations diff´erentielles d´ecrivant le mod`ele est le suivant :
(EDO)
dy1
dt = ˙y1(t) =−(k1+k2)y1(t) +k3y2(t) dy2
dt = ˙y2(t) =k1y1(t)−k3y2(t) y1(0) =c0
y2(0) = 0
On d´esire estimer les param`etresc0, k1, k2etk3 par les moindres carr´es. Posonsβ=t(c0, k1, k2, k3), alors pour toute valeur de β, on peut int´egrer le syst`eme d’´equations diff´erentielles ordinaires `a condition initiale (EDO).
Notons(y1(t;β), y2(t;β))cette solution. Par suite on peut calculer les r´esidus ri(β) =yi1−y1(ti;β).
Ces r´esidus sont visualis´es sur la figure (1.5). Nous estimerons alors le param`etre β en r´esolvant le probl`eme d’optimisation aux moindres carr´es suivant :
(P)
M inf(β) =12Pn
i=1r2i(β) =12||r(β)||2 β ∈R4
Exemple 1.1.7. On veut mesurer la liaison entre 2 g`enes dominants, l’un contrˆolant la couleur d’une fleur, rouge (R) est dominant sur blanc (b), et l’autre la taille, grand (G) est dominant sur petit (p). Dans la descendanceF2, issu de deux populations homozygotes de ph´enotype [RG] et [bp], on a ´etudi´e n = 3839 plantes. On a obtenu les r´esultats suivants :
1. EXEMPLES 5
0 5 10 15 20 25 30 35 40 45 50
0 50 100 150 200 250
t y 1(t)
← r1
← r2
← r3
← r4
← r5
← r6
← r← r78
← r9
← r10 ← r11 ← r12
0 5 10 15 20 25 30 35 40 45 50
0 20 40 60 80
t y 2(t)
Fig.1.5 – Crit`ere des moindres carr´es pour le mod`ele de Kaplan Ph´enotypes [RG] [Rp] [bG] [bp]
Effectifs observ´es 1997 906 904 32 Tab.1.2 – Donn´ees de Sir R.A. Fisher
Le probl`eme est ici d’estimer, `a partir de ces donn´ees le taux de recombinaisonr.
Ici la populationF1est h´et´erozygote de g´enotypeRb, Gp. Nous avons donc les probabilit´es de la table (1.3) pour les diff´erents gam`etes possibles et les diff´erents croisements possibles.
Par suite nous avons dans la population F2 la loi suivante pour la variable al´eatoire ph´enotypeX : X :F2 −→ {[RG],[Rp],[bG],[bp]}
1 plante 7−→ son ph´enotype
P(X= [RG]) = 1
4(3−2r+r2) = 2 +θ 4 P(X = [Rp]) = 1
4(2r−r2) =1−θ 4 P(X= [bG]) = 1
4(2r−r2) =1−θ 4 P(X = [bp]) = 1
4(1−r)2= θ 4
6 CHAPITRE 1. D ´EFINITION DU PROBL `EME
♀:♂ RG bp Rp bG
1
2(1−r) 12(1−r) 12r 12r
RG [RG] [RG] [RG] [RG]
1
2(1−r) 14(1−r)2 14(1−r)2 14r(1−r) 14r(1−r)
bp [RG] [bp] [Rp] [bG]
1
2(1−r) 14(1−r)2 14(1−r)2 14r(1−r) 14r(1−r)
Rp [RG] [Rp] [Rp] [RG]
1
2r 14r(1−r) 14r(1−r) 14r2 14r2
bG [RG] [bG] [RG] [bG]
1
2r 14r(1−r) 14r(1−r) 14r2 14r2 Tab.1.3 – Probabilit´es pour la descendanceF2
coˆut (par tonne) composition chimique (kgt−1) azote phosphate potasse
lisier 25 francs 6 1.5 4
engrais 1300 francs 250 100 100
Tab.1.4 – Coˆuts et compositions des engrais o`u θ= (1−r)2∈[14; 1].
D´efinissons maintenant le vecteur al´eatoire de dimension 4 suivant (A, B, C, D) :F2n −→ R4
nplantes 7−→
(nb de plantes de ph´enotypes [RG], nb de plantes de ph´enotypes [Rp], nb de plantes de ph´enotypes [bG], nb de plantes de ph´enotypes [bp])
On suppose la populationF2de taille infinie, donc la loi de ce vecteur al´eatoire est une loi multinomiale : L(a, b, c, d;θ) = P((A, B, C, D) = (a, b, c, d))
= n!
a!b!c!d!P(X = [RG])aP(X = [Rp])bP(X)[bG])cP(X = [bp])d
= n!
a!b!c!d!
2 +θ 4
a 1−θ
4
b+c θ 4
d
L s’appelle la vraisemblance2. L’estimation deθ par le maximum de vraisemblance consiste alors `a rechercher la valeur deθ solution du probl`eme de maximisation suivant
(P)
M ax L(1997,906,904,32;θ) θ∈[14; 1]
Exemple 1.1.8. Un fermier d´esire d´eterminer les quantit´es de lisier de porc et d’engrais compos´e `a ´etendre sur 20 ha de prairie de fa¸con `a optimiser le coˆut total de la fertilisation. Le coˆut et la composition du lisier et de l’engrais sont donn´es ci-dessous :
Le fermier veut appliquer au moins 75kgha−1d’azote, 25 kgha−1de phosphate et 35kgha−1 de potasse. Il ne peut appliquer le lisier qu’`a un taux maximum de 8t/heureet l’engrais qu’`a un taux maximum de 0.4t/heure. Il ne peut de plus consacrer pour ce travail qu’un maximum de 25 heures.
Appelonsx1( respectivementx2) la quantit´e en tonnes de lisier ( respectivement d’engrais ) ´etendu. Le probl`eme est alors d’obtenir un coˆut minimum, c’est-`a-dire que l’on cherche `a minimiser 25x1+ 1300x2. Mais nous avons aussi les contraintes suivantes :
x1≥0 non n´egativit´e dex1
x2≥0 non n´egativit´e dex2
6x1+ 250x2≥75×20 = 1500 contrainte sur l’azote 1.5x1+ 100x2≥500 contrainte sur le phosphate 4x1+ 100x2≥700 contrainte sur la potasse (1/8)x1+ (1/0.4)x2≤25 contrainte de temps
2likelihood en anglais
1. EXEMPLES 7 En r´esum´e nous avons le probl`eme suivant `a r´esoudre :
(P)
M inf(x) = 25x1+ 1300x2
x1≥0 x2≥0
6x1+ 250x2≥75×20 = 1500 1.5x1+ 100x2≥500
4x1+ 100x2≥700 (1/8)x1+ (1/0.4)x2≤25
1.2 Probl` eme en nombres entiers
Exemple 1.2.1(Probl`eme du sac `a dos de Knapsack). Un alpiniste veut mettre dans son sac `a dos un maximum de 16 kg de ravitaillement. Il peut choisir un certain nombre d’unit´es de trois produits diff´erents. Le poids unitaire en kilogrammes et la valeur ´energ´etique unitaire des ces produits sont connus et donn´es dans la table (1.5).
Produits I II III
Poids 2 5 7
Valeurs 4 10 15
Tab.1.5 – Poids unitaires et valeurs ´energ´etiques unitaires
Le probl`eme pour l’alpiniste est de savoir ce qu’il doit emporter pour avoir une valeur totale en calories maximale sans d´epasser les 16 kg.
Si nous notons x1, x2 etx3 les nombres d’unit´es `a emporter des articles I,II et III, le probl`eme s’crit
(P)
M ax 4x1+ 10x2+ 15x3
2x1+ 5x2+ 7x3≤16 (x1, x2, x3)∈N3
Exemple 1.2.2. ([1]) Dans un service hospitalier, les malades i attendent d’ˆetre op´er´es. Le malade i a besoin d’une dur´ee d’op´erationDi. D’autre part, compte tenu des disponibilit´es des chirurgiens, la somme des dur´ees des op´erations possibles chaque jours j de la p´eriode ´etudi´ee est connue et ´egale `a Tj. On veut minimiser la somme des p´enalit´es d’attente pour les diff´erents malades. On note :
• xij = 1si le maladei est op´er´e le jourj;
• xij = 0si le maladei n’est pas op´er´e le jourj;
• cij la p´enalit´e du malade is’il est op´er´e le jourj.cij est une fonction croissante dej.
Le probl`eme s’´ecrit alors :
(P)
M in f(x) =P
i
P
jcijxij P
iDixij ≤Tj ∀j limitation des possibilit´es op´eratoire du jourj P
jxij = 1 ∀i Le maladeiest op´er´e une fois et une seule xij = 0 ou 1 l’op´eration est effectu´ee en une fois
Exemple 1.2.3 (Alignement de s´equences). Soit 2 s´equencesCT GT AT C etCT AT AAT CCC. On d´esire trouver le ”meilleur” alignement possible. A chaque alignement, est associ´e un score (simple ici) suivant : pour chaque position on associe 0 si les 2 bases sont identiques, +1 si les deux bases sont diff´erentes et +3 s’il y a un ”trou”.
On effectue ensuite la somme. La figure (1.6) donne un exemple de la fonction score S.
C T A T − A A − T C C C
− − C T G T A T C − − −
3 3 1 0 3 1 0 3 1 3 3 3 = 24
Fig.1.6 – Exemple de calcul d’un score Le probl`eme est alors de r´esoudre le probl`eme d’optimisation suivant :
(P)
M in S(alignement)
pour tous les alignements possibles
8 CHAPITRE 1. D ´EFINITION DU PROBL `EME Remarque 1.2.4. la difficult´e est ici de construire l’ensemble de tous les alignements possibles. Ceci se fait de la fa¸con suivante. Suppossons que l’on soit `a la position i, alors pour aller `a la position i+ 1, nous avons trois possibilit´es :
• avancer d’un nucl´eotide pour les 2 s´equences ;
• avancer d’un nucl´eotide pour la s´equence S1 et mettre un ”trou” pour la s´equenceS2;
• avancer d’un nucl´eotide pour la s´equence S2 et mettre un ”trou” pour la s´equenceS1. Nous pouvons ainsi construire un arbre permettant d’avoir tous les alignements possibles.
1.3 Probl` eme en dimension infinie
Exemple 1.3.1(Probl`eme de la brachistochrone). Il s’agit d’un probl`eme pos´e par le math´ematicien Jean Bernoulli en 1696 qui a donn´e naissance `a ce qu’on appelle le calcul des variations.
Ce probl`eme consiste en la recherche dans un plan vertical du chemin reliant 2 points P0 et Pf de ce plan, suivant lequel un corpsM entrain´e par son propre poids effectuera le trajet deP0`aPf en un temps minimum. On suppose qu’il n’y a pas de frottement. Nous ne donnerons pas ici la formalisation math´ematique de ce probl`eme.
Il s’agit d’un probl`eme en dimension infinie car l’inconnu est ici une courbe. Nous avons donc une infinit´e non d´enombrable d’inconnues.
2 Probl` eme d’optimisation
2.1 D´ efinitions
D´efinition 2.1.1 (Fonctionnelle). On appelle fonctionnelle toute fonctionf `a valeur dansR.
D´efinition 2.1.2(Fonction convexe). Une fonctionnellef deRn `a valeurs dansRest convexe si et seulement si elle v´erifie :
∀(x, y)∈Rn×Rn, ∀α∈[0,1], f(αx+ (1−α)y)≤αf(x) + (1−α)f(y) Dans la casn= 1, ceci signifie que le graphe de la fonctionf est toujours sous la corde (1.7)
0 0.5 1 1.5 2 2.5 3
−2
−1 0 1 2 3 4
x
f(x)
Fig.1.7 – Fonction convexe
D´efinition 2.1.3 (Probl`eme d’optimisation sans contraintes). On appelle probl`eme d’optimisation sans contrain- tes en dimension finie tout probl`eme (P) consistant en la recherche d’un minimum d’une fonctionnellef d´efinie sur Rn. On notera ce probl`eme sous la forme suivante :
(P)
M inf(x) x∈Rn o`u f :Rn→Rsera donn´ee.
Remarque 2.1.4. R´esoudre le probl`eme(P)revient `a rechercher le pointx∗deRn tel quef(x∗)≤f(x)∀x∈Rn.
2. PROBL `EME D’OPTIMISATION 9 Remarque 2.1.5. Un probl`eme de maximisation se ram`ene tr`es facilement `a un probl`eme de minimisation :
M axf(x)⇐⇒M in(−f(x))
D´efinition 2.1.6(Probl`eme d’optimisation avec contraintes). On appelle probl`eme d’optimisation avec contraintes tout probl`eme (P) consistant en la recherche d’un minimum sur un ensemble C inclus dansRnd’une fonctionnelle f d´efinie surRn. On notera ce probl`eme sous la forme suivante :
(P)
M inf(x) x∈C⊂Rn o`uf :Rn→Rsera donn´ee.
Remarque 2.1.7. Dans la pratiqueC sera d´efini de la fa¸con suivante :
C={x∈IRn/gi(x)≤0 i= 1, . . . , m et hl(x) = 0 l= 1, . . . , p}
et nous ´ecrirons(P)sous la forme
(P)
M inf(x)
gi(x)≤0i= 1, . . . , m hl(x) = 0l= 1, . . . , p
D´efinition 2.1.8 (Probl`eme d’optimisation convexe). Un probl`eme d’optimisation est dit convexe si et seulement si les fonctionsf et gi sont convexes et les fonctionshlsont affines.
D´efinition 2.1.9 (Probl`eme aux moindres carr´es). On appelle probl`eme aux moindres carr´es un probl`eme d’op- timisation sans contraintes o`u la fonctionnelle f est de la forme suivante :
f(β) =1
2kr(β)k2= 1
2(r(β)/r(β)) = 1 2
n
X
i=1
r2i(β) Le probl`eme est dit aux moindres carr´es lin´eaires si la fonctionrest affine :
r:Rp −→ Rn β 7−→ y−Xβ o`uX matrice de type (n, p) ety un ´el´ement de Rn.
Exemple 2.1.10. L’exemple (1.1.4) est un probl`eme aux moindres carr´es non lin´eaire.
D´efinition 2.1.11 (Probl`eme lin´eaire). Un probl`eme d’optimisation est dit lin´eaire si et seulement si les fonctions f,gi, ethl sont affines.
Exemple 2.1.12. L’exemple (1.1.8) est un probl`eme lin´eaire.
2.2 Classification
Consid´erons le probl`eme d’optimisation suivant : (P)
M in f(x) x∈C⊂E
Suivant la nature des ensemblesCetE et de la fonctionf nous avons diff´erents types de probl`eme d’optimisation.
On classifie les probl`eme d’optimisation de la fa¸con suivante : (i) C est fini.
(ii) E=Rn : probl`eme en dimension finie.
(a) C=E : probl`eme sans contraintes.
i. f(x) = 12kr(x)k2=Pn
i=1r2i(x) : probl`eme aux moindres carr´es A. r(x) =Ax+b: probl`eme aux moindres carr´es lin´eaires
(b) C={x∈Rn/gj(x)≤0, j= 1. . . , m et hl(x) = 0, l= 1, . . . , p} : probl`eme avec contraintes.
i. gj ethlquelconques : programmation non lin´eaire (Non Linear Programming) ii. f,gj convexes ethl affines : probl`eme convexes.
10 CHAPITRE 1. D ´EFINITION DU PROBL `EME iii. Toutes les variablesxisont enti`eres : probl`eme en nombres entiers (Integer Non Linear Programming) iv. Certaines variablesxisont enti`eres : Probl`emes d’optimisation mixte (Mixed Non Linear Program-
ming)
v. les fonctions f,gj ethl sont affines : programmation lin´eaire (Linear Programming). C’est aussi un cas particulier de (2.2.2)
A. Toutes les variablesxi sont enti`eres : programmation lin´eaire en nombre entier (Integer Linear Programming)
B. Certaines variablesxi sont enti`eres : programmation lin´eaire mixte (Mixed Integer Linear Pro- gramming)
(iii) E de dimension infinie : probl`eme en dimension infinie
Les algorithmes utilis´es pour r´esoudre un probl`eme d’optimisation sont tr`es diff´erents suivant la nature de ceux-ci. Nous ne verrons, dans cette introduction `a l’optimisation que les cas des prob`emes en dimension finie sans contraintes et de la programmation lin´eaire.
Chapitre 2
Fonctions de plusieurs variables
1 Introduction
Nous nous int´eressons dans ce chapitre aux fonctions deRn dansRmet plus particuli`erement aux notions de limites, continuit´es et de d´eriv´ees, notions qui nous serons utiles pour r´esoudre les probl`emes d’optimisation sans contraintes en dimension finie. La norme sera toujours dans ce chapitre la norme euclidienne.
2 Notion de limite et de continuit´ e dans R
n2.1 Notions topologiques
D´efinition 2.1.1 (Boule ouverte,boule ferm´ee). On appelle boule ouverte (respectivement boule ferm´ee) deRn de centrex0 et de rayonεl’ensemble :
B(x0, ε) ={x∈Rn/kx−x0k< ε}
(respectivementBf(x0, ε) ={x∈Rn/kx−x0k ≤ε}) Exemple 2.1.2. (i) n= 1
kx−x0k=|x−x0|, par suite la boule ouverte de centrex0et de rayonε >0est l’intervalle ouvert]x0−ε, x0+ε[
(ii) n= 2etn= 3
Voir figure (2.1) et (2.2).
D´efinition 2.1.3 (Ouvert de Rn). U ⊂Rn est un ouvert si et seulement si pour toutx∈U il existe une boule ouverte de centrex0 et de rayonε >0 inclu dansU.
D´efinition 2.1.4 (Ferm´e). F ⊂Rn est un ferm´e si et seulement si{F est ouvert.
Exemple 2.1.5. Une boule ouverte (respectivement ferm´ee) est un ouvert (respectivement ferm´e). En particulier dansRun intervalle ouvert (respectivement ferm´e) est un ouvert (respectivement ferm´e).
D´efinition 2.1.6(Limite d’une suite). Soit (xk)k∈N une suite d’´el´ements deRn. On dit que la suite converge vers une limitelquand ktend vers +∞si et seulement si :
∀ε >0,∃K,∀k > Kkx−lk< ε .
Remarque 2.1.7. • La d´efinition ci-dessus n’est que l’´ecriture math´ematique de ”xk est aussi proche que l’on veut del `a partir d’un certain rang”.
• Dans le casn= 1on a :
∀ε >0,∃K,∀k > K|x−l|< ε .
Th´eor`eme 2.1.8. F ⊂Rn est ferm´e si et seulement si pour toute suite de point de F qui converge dansRn, la limite appartient `aF.
11
12 CHAPITRE 2. FONCTIONS DE PLUSIEURS VARIABLES
−3 −2 −1 0 1 2 3
−3
−2
−1 0 1 2 3
Fig.2.1 – Boule dansR2
0 0.5
1 1.5
2
1 1.5 2 2.5 3 2 2.5 3 3.5 4
Fig.2.2 – Boule dansR3 D´emonstration
Admise.2
Exemple 2.1.9. ]0,1] n’est pas ferm´e car la suite (k1) converge vers 0 qui n’appartient pas `a ]0,1]. Par contre [0,1], est bien un ferm´e.
D´efinition 2.1.10 (Ensemble born´e). C⊂Rn est born´e si et seulement si il existeR >0 tel que : C⊂B(O, R)⇐⇒ kxk< R pour tout x∈C
D´efinition 2.1.11 (Compact). C⊂Rn est un compact si et seulement si il est ferm´e et born´e.
2.2 Limite, continuit´ e
D´efinition 2.2.1 (Limite d’une application f). Soitf une application de Rn dansRm. On dit que la fonctionf tend vers une limitel lorsquextend versx0 si et seulement si :
∀ε >0, ∃η >0tel quekx−x0k< η=⇒ kf(x)−lk< ε
Remarque 2.2.2. (i) La norme employ´ee dans la d´efinition ci-dessus est la norme euclidienne.
(ii) Lorsque n=m= 1nous avonskx−x0k=|x−x0|etkf(x)−lk=|f(x)−l|et nous retrouvons la d´efinition bien connue.
3. NOTION DE D ´ERIV ´EE 13 (iii) La d´efinition est ´equivalente `a :
∀ε >0∃η >0tel que x∈B(x0, η) =⇒f(x)∈B(l, ε)
La d´efinition ci-dessus est donc la transcription math´ematique du fait que f(x)“s’approche” de plus en plus del lorsquex“s’approche” de plus en plus de x0.
D´efinition 2.2.3 (Continuit´e d’une applicationf). Soitf une application deRn dansRm. (i) On dit quef est continue enx0 si et seulement sif(x) tend versf(x0) quandxtend versx0. (ii) On dit quef est continue si et seulement si elle est continue en tout pointx0deRn.
3 Notion de d´ eriv´ ee
3.1 D´ efinitions
D´efinition 3.1.1 (D´eriv´ee d’une application deRdansR.). Soitf une application deRdansRalors (i) f est d´erivable enx0si et seulement si la limite de
f(x0+h)−f(x0) h
existe quand htend vers 0.
(ii) f est d´erivable surRsi et seulement sif est d´erivable enx0 pour toutx0deR.
Notation 3.1.2. On note la d´eriv´ee def enx0 f0(x0) = df
dx(x0) = lim
h→0
f(x0+h)−f(x0) h
Remarque 3.1.3. f0(x0)existe si et seulement si on peut ´ecrire :
f(x0+h) =f(x0) +f0(x0).h+hε(h)avec lim
h→0ε(h) = 0 ou encore
f(x0+h) =f(x0) +f0(x0).h+|h|ε(h)avec lim
h→0ε(h) = 0 (2.1)
Posonsx=x0+halors la relation (2.1) pr´ec´edente devient :
f(x) =f(x0) +f0(x0).(x−x0) +|x−x0|ε(x−x0)avec lim
x→x0ε(x−x0) = 0
Or y(x) =f(x0) +f0(x0).(x−x0) est l’´equation d’une droite passant par x0 et de pente f0(x0)et c’est la droite
“limite” M0M quandM “tend” versM0 (cf. figure (2.3).
x0 x0+h
f(x0) f(x0+h)
x
f(x)
y=f’(x0)(x−x0)+f(x0)
Fig.2.3 – D´eriv´ee
D´efinition 3.1.4 (Tangente). La droite d’´equationy(x) = f(x0) +f0(x0).(x−x0) s’appelle la tangente de f en x0.
D´efinition 3.1.5 (D´eriv´ee d’une application deRn dansRm). Soitf une application deRn dansRm alors
14 CHAPITRE 2. FONCTIONS DE PLUSIEURS VARIABLES (i) f est d´erivable en x0 si et seulement si il existe une application lin´eaire continue de Rn `a valeur dans Rm
not´eef0(x0) telle que :
f(x0+h) =f(x0) +f0(x0).h+khkε(h) lim
khk→0kε(h)k= 0 (2.2)
(ii) f est d´erivable surRn si et seulement sif est d´erivable en x0 pour toutx0 deRn.
Remarque 3.1.6. (i) On utilisera dans la suite les bases canoniques de Rn et de Rm. Par suite nous iden- tifierons l’application lin´eaire avec sa matrice (`a m lignes et n colonnes) et le . dans la formule (2.2) se transforme en un produit matriciel.
(ii) La formule (2.2) est bien homog`ene :
x0∈Rn h∈Rn
=⇒f(x0+h)∈Rm f0(x0)∈ Mm,n(R)
h∈Rn
=⇒f0(x0).h∈ Mm,1(R)≡Rm khk ∈R
ε(h)∈Rm
=⇒ khkε(h)∈Rm (iii)
ε(h) =
ε1(h)
... εm(h)
et dire que kε(h)k tend vers 0 quand khk tend vers 0 est ´equivalent `a dire que chacune des composantes de ε(h)tend vers 0 lorsquehtend vers le vecteur nul ou encore que ε(h) tend vers~0 quandhtend vers~0.
(iv) Sin=m= 1on retrouve bien la d´efinition (2.1)
D´efinition 3.1.7(Application d´eriv´ee). Soitf :Rn −→Rm d´erivable sur Rn On appelle application d´eriv´ee de f l’application not´eef0 d´efinie par :
f0:Rn −→ Mm,n(R) x 7−→ f0(x)
Remarque 3.1.8. Si m= 1alorsf0 est une application deRn dansM1,n(R)et donc la transpos´ee def0 est une application deRn dansRn.
D´efinition 3.1.9 (Gradient). Si f est `a valeurs dans R, on appelle gradient de f en x et on note ∇f(x), la transpos´ee de la d´eriv´ee def en x :
∇f(x) =tf0(x) Remarque 3.1.10. Quandm= 1 on a la relation :
f0(x).h= (∇f(x)/h) Exemple 3.1.11.
Soitf :R2 −→ R x1
x2
7−→ x21+x22=kxk2= (x/x)
On rappelle que(x/y)d´esigne ici le produit scalaire dansRn, c’est-`a-dire ici que(x/y) =Pn
i=1xiyi Calculons la d´eriv´ee def en x0.
f(x0+h) = f(x01+h1, x02+h2) = (x01+h1)2+ (x02+h2)2
= (x01)2+ (x02)2+ 2x01h1+ 2x02h2+h21+h22
= f(x0) + (2x0/h) +khkε(h) avec ici
ε(h) =khk= q
h21+h22−→0 quandh−→~0 et
f0(x0).h= 2x01 2x02 h1
h2
et donc
f0(x0) = 2x01 2x02
3. NOTION DE D ´ERIV ´EE 15 Exemple 3.1.12.
Soitf :Rn −→ R
x1
... xn
7−→ x21+. . .+x2n =kxk2= (x/x) Calculons la d´eriv´ee def enx0.
f(x0+h) = (x0+h/x0+h)
= (x0/x0) + 2(x0/h) + (h/h)
= f(x0) + 2tx0.h+khkε(h) avec ε(h) =khk
doncε(h)−→~0quandh−→~0.
Nous en d´eduisons donc imm´ediatement que
f0(x0) = 2x01 . . . 2x0n
= 2tx0 Par suite nous avons
∇f(x0) =tf0(x0) = 2x0=
2x01
... 2x0n
Exemple 3.1.13.
Soitf :Rp −→ R
β 7−→ Xβ−yo`uX ∈ Mn,p(R) etb∈Rn Nous avons alors :
f(β0+h) =X(β0+h)−y = Xβ0−y+Xh+~0
f(β0) +X.h+khkε(h) o`uε(h) =~0 Par cons´equent nous avons ici
f0(β0) =X
Remarque 3.1.14. f(x0) +f0(x0).h est la meilleure approximation affine de la fonction f au voisinage de x0 (nous retrouvons la tangente lorsque n=m= 1).
D´efinition 3.1.15 (Applications composantes).
Soit f :Rn −→ Rm x 7−→ f(x)
On appelle applications composantes lesnapplicationsfi d´efinies pouri= 1, . . . , nde la fa¸con suivante : fi:Rn −→ R
x 7−→ fi(x) avec
f(x) =
f1(x)
... fm(x)
D´efinition 3.1.16(Application partielle). Soitf :Rn−→RmOn appelleieme` application partielle def au point x0l’applicationgi d´efinie par :
gi:R −→ Rm
xi 7−→ gi(xi) =f(x01, . . . , x0i−1, xi, x0i+1, . . . , x0n)
16 CHAPITRE 2. FONCTIONS DE PLUSIEURS VARIABLES D´efinition 3.1.17 (D´eriv´ee partielle). On appelle ieme` d´eriv´ee partielle de f au point x0 la d´eriv´ee de la ieme` application partielle def au pointx0i et on note :
∂f
∂xi
(x0) =g0(x0i)
Remarque 3.1.18. Lai`eme d´eriv´ee partielle de f au pointx0 est un ´el´ement deMm,1(R), c’est donc un ´el´ement deRm.
Exemple 3.1.19.
Soitf :R2 −→ R x1
x2
7−→ x21+ 2x1x2−x22
et soit x0 un point fix´e deR2. Alors la premi`ere application partielle de f enx0 est : g1:R −→ R
x1 7−→ g1(x1) =f(x1, x02) =x21+ 2x1x02−(x02)2 et la premi`ere d´eriv´ee partielle est :
∂f
∂x1
(x0) =g0(x01) = 2x01+ 2x02
Quant `a la deuxi`eme application partielle et d´eriv´ee partielle cela donne imm´ediatement : g2:R −→ R
x 7−→ g2(x2) =f(x01, x2) = (x01)2+ 2x01x2−x22
∂f
∂x2(x0) =g0(x02) = 2x01−2x02
Le probl`eme dans la pratique est de calculer la d´eriv´ee. Il y a pour cela trois th´eor`emes fondamentaux que nous allons voir maintenant.
3.2 Th´ eor` emes
Th´eor`eme 3.2.1.
Soit f :Rn −→ Rm
x 7−→ f(x) =t(f1(x), . . . , fm(x))
alors l’application f est d´erivable enx0 si et seulement si les n applications composantes fi sont d´erivables en x0 et on a la relation suivante :
f0(x0).h=
f10(x0).h ... fm0 (x0).h
D´emonstration Admise.2
Remarque 3.2.2. La formule du th´eor`eme pr´ec´edent est bien homog`ene, en effet : f0(x0)∈ Mm,n(R)
h∈Rn
=⇒f0(x0).h∈Rm fi0(x0)∈ M1,n(R)
h∈Rn
=⇒fi0(x0).h∈R Th´eor`eme 3.2.3. Soitf :Rn −→Rm :
(i) Si f est d´erivable en x0 alors f admet n d´eriv´ees partielles et on a :
f0(x0).h=
n
X
j=1
∂f
∂xj
(x0).hj
3. NOTION DE D ´ERIV ´EE 17 (ii) Si f admet n d´eriv´ees partielles continues en x0 alors f est d´erivable en x0 et on a la relation pr´ec´edente.
Remarque 3.2.4. La relation du th´eor`eme (3.2.3) est bien homog`ene, en effet : f0(x0)∈ Mm,n(R)
h∈Rn
=⇒f0(x0).h∈Rm (∂f /∂xj)(x0)∈ Mm,1(R)
hj∈R
=⇒ ∂f
∂xj(x0).hj∈Rm
Remarque 3.2.5. Appliquons successivement les deux th´eor`emes pr´ec´edents. Le th´eor`eme (3.2.1) donne
f0(x0).h=
f10(x0).h ... fm0 (x0).h
ici fi est une application de Rn dans R. Le th´eor`eme (3.2.3) appliqu´e `a chacune des fonctions fi permet alors d’´ecrire :
fi0(x0).h=
n
X
j=1
∂fi
∂xj
(x0).hj En conclusion nous obtenons la formule suivante :
f0(x0).h=
∂f1
∂x1(x0) · · · ∂f∂x1
j(x0) · · · ∂x∂f1
n(x0)
... ... ...
∂fi
∂x1(x0) · · · ∂x∂fi
j(x0) · · · ∂x∂fi
n(x0)
... ... ...
∂fm
∂x1(x0) · · · ∂f∂xm
j(x0) · · · ∂f∂xm
n(x0)
h1
... hj
... hn
Ici ∂x∂fi
j(x0)est un ´el´ement deM1,1(R)≡R. Pour calculer f0(x0)if suffit donc de calculernmd´eriv´ees d’applica- tions deR`a valeur dansR.
Exemple 3.2.6.
Soitf :R3 −→ R2
x1 x2 x3
7−→
x21−x23 x2
Alorsf1(x) =x21−x23 donc
∂f1
∂x1
(x0) = 2x01; ∂f1
∂x2
(x0) = 0 ; ∂f1
∂x3
(x0) =−2x03 etf2(x) =x2 et donc
∂f2
∂x1
(x0) = 0 ; ∂f2
∂x2
(x0) = 1 ; ∂f2
∂x3
(x0) = 0 Par suite nous obtenons :
f0(x0).h=
2x01 0 −2x03
0 1 0
h1
h2
h3
=
2x01h1−2x03h3
h2
et
M =f0(x0) =
2x01 0 −2x03
0 1 0
On peut “approximer”f au voisinage de x0 parf(x0) +f0(x0)(x−x0)
Nous venons de voir deux th´eor`emes qui ram`enent le calcul de la d´eriv´ee d’une application deRndansRmau calcul denmd´eriv´ees d’applications de Rdans R. Nous allons voir maintenant un th´eor`eme qui permet souvent de simplifier les calculs (en d´ecomposant la fonction f). Ce th´eor`eme tr`es important est d’un abord difficile et demande de la pratique pour ˆetre bien assimil´e.
18 CHAPITRE 2. FONCTIONS DE PLUSIEURS VARIABLES Th´eor`eme 3.2.7 (Th´eor`eme des fonctions compos´ees).
Soientf :Rn −→Rp d´erivable enx0 etg:Rp−→Rm d´erivable en y0=f(x0)
alorsg◦f :Rn−→Rp est d´erivable en x0 et on a :
(g◦f)0(x0).h=g0(f(x0)).(f0(x0).h)∀h∈Rn. (2.3) Remarque 3.2.8. La formule (2.3) est bien homog`ene :
(g◦f)0(x0)∈ Mm,n(R) h∈Rn
=⇒(g◦f)0(x0).h∈Rm f0(x0)∈ Mp,n(R)
h∈Rn
=⇒f0(x0).h∈Rp g0(y0)∈ Mm,p(R)
k∈Rp
=⇒g0(y0).k∈Rm Remarque 3.2.9. • (2.3) est ´equivalent `a(g◦f)0(x0) =g0(f(x0))f0(x0).
• Si n=m= 1on peut aussi ´ecrire (g◦f)0(x0) =f0(x0)g0(f(x0)). Mais cette formule n’est plus valable dans le cas g´en´eral o`u les produits sont des produits matriciels.
Exemple 3.2.10.
Soitf :R −→ R
x 7−→ sin(4x+ 2) alorsf0(x) = cos(4x+ 2)(4) = 4 cos(4x+ 2)
Exemple 3.2.11. Reprenons l’exemple (1.1.1.4). La fonctionnelle `a minimiser est f(β) = 1
2
n
X
i=1
(Ui−β1e−β2ti)2 o`u β= (U0, α). Par suite
f0(β) = ∂f
∂β1(β). . .∂β∂f
1(β) Calculons tous d’abord les d´eriv´ees partielles deri(β) =Ui−β1e−β2ti :
∂ri
∂β1(β) = −e−β2ti
∂ti
∂β2
(β) = −β1e−β2ti(−ti) On en d´eduit :
f0(β) = Pn
i=1(Ui−β1e−β2ti)(−eβ2ti) Pn
i=1(ui−β1e−β2ti)β1tie−β2ti Exemple 3.2.12. Consid´erons un probl`eme aux moindres carr´es
(P)
M in f(β) = 12kr(β)k2 β∈Rp
On peut ´ecriref =g◦r avec
g:Rn −→ Rn y 7−→ 1
2kyk2 et
r:Rp −→ Rn β 7−→ r(β) =
r1(β)
... rn(β)
3. NOTION DE D ´ERIV ´EE 19 Or on a g0(y) =ty donc
f0(β) =tr(β)r0(β) ou encore
∇f(β) =tr0(β)r(β) = (∇r1(β). . .∇rn(β))
r1(β)
... rn(β)
=
n
X
i=1
∇ri(β)ri(β) Dans le cas de l’exemple (3.2.11) on obtient
f0(β) = (U1−β1e−β2t1. . . Un−β1e−β2tn)
−e−β2t1 β1t1e−β2t1 ... ...
−e−β2tn β1tne−β2tn
Exemple 3.2.13. Consid´erons maintenant le cas des moindres carr´es lin´eaires. Nous avons r(β) = y−Xβ et r0(β) =−X (cf exemple(3.1.13)). Par suite nous obtenons :
f0(β) =t(y−Xβ)(−X) Donc
∇f(β) = (tXXβ−tXy)
3.3 D´ eriv´ ee seconde
Nous ne consid´ererons ici que le cas o`uf est `a valeur dansR
D´efinition 3.3.1 (D´eriv´ee seconde). Soitf une fonctionnelle d´erivable sur une boule de centre x0 et de rayonε.
La d´eriv´ee seconde def enx0est alors, si elle existe la d´eriv´ee du gradient∇f enx0. On noteraf00(x0) =∇2f(x0).
Remarque 3.3.2. • Sif est une fonction de Rn `a valeurs dansR, alors la fonction gradient, si elle existe, est une fonction de Rn `a valeurs dans Rn. Par suite, la d´eriv´ee seconde en un point x0, ∇2f(x0) est une matrice `an lignes etncolonnes.
• Dans le cas consid´er´e ici la d´eriv´ee seconde est aussi appel´ee le hessien.
Th´eor`eme 3.3.3. Si la fonctionnellef admet une d´eriv´ee seconde en x0 alors la matrice∇2f(x0)est sym´etrique et la fonction
q:Rn −→ R
h 7−→ q(h) = (∇2f(x0)h/h) est une forme quadratique.
D´emonstration Admise2
Exemple 3.3.4. Dans le cas du probl`eme aux moindres carr´es lin´eaires, nous avons vu que
∇f(β) =tXXβ−tXy Par suite
∇2f(β) =tXX Exemple 3.3.5. Reprenons l’exemple (3.2.11) Nous avons
∇f(β) = Pn
i=1(Ui−β1e−β2ti)(−e−β2ti) Pn
i=1(Ui−β1e−β2ti)β1tie−β2ti
Donc
∇2f(β) =
Pn
i=1e−2β2ti Pn
i=1Uitie−β2ti−2β1Pn
i=1tie−2β2ti Pn
i=1Uitie−β2ti−2β1Pn
i=1tie−2β2ti −Pn
i=1Uit2iβ1e−β2ti+ 2Pn
i=1β12t2ie−2β2ti
Th´eor`eme 3.3.6. Soit f une fonctionnelle deux fois d´erivables en x0 alors il existe η > 0 tel que pour tout x∈B(x0, η)on ait :
f(x) =f(x0) + (∇f(x0)/x−x0) +1
2(∇2f(x0)(x−x0)/x−x0) +kx−x0k2ε(x−x0) (2.4)
20 CHAPITRE 2. FONCTIONS DE PLUSIEURS VARIABLES D´emonstration
Admise2
Remarque 3.3.7. La formule (2.4) donne la meilleure approximation `a l’ordre 2 de la fonctionf au voisinage du point x0. Si on pose
q(x) =f(x0) + (∇f(x0)/x−x0) +1
2(∇2f(x0)(x−x0)/x−x0) alors on aq(x0) =f(x0),∇q(x) =∇f(x0) +∇2f(x0)(x−x0)et∇2q(x) =∇2f(x0).
3.4 D´ eriv´ ee seconde et convexit´ e
Rappelons tout d’abord la d´efinition d’une forme quadratique d´efinie positive et d’une forme quadratique semi- d´efinie positive.
D´efinition 3.4.1 (Forme quadratique d´efinie positive). La forme quadratique q(x) = (Ax/x) est semi-d´efinie positive si et seulement si :
∀x∈Rn q(x)≥0
La forme quadratiqueq(x) = (Ax/x) est d´efinie positive si et seulement si elle est semi-d´efinie positive et :
∀x∈Rnx6=~0⇒q(x)>0
Th´eor`eme 3.4.2. La forme quadratique q(x) = (Ax/x), o`u A est sym´etrique et semi-positive (respectivement d´efinie positive), si et seulement si toutes ses valeurs propres sont positives ou nulles (respectivement strictement positive).
D´emonstration
A´etant sym´etrique, on peut ´ecrireA=U DtU avecU orthogonale etD la matrice diagonale des valeurs propres deA. Par suite, on a :
q(x) = (U DtU x/x) = (DtU x/tU x) = (Dy/y) =X
i
λiy2i
avecy=tU xle th´eor`eme est alors ´evident2
Th´eor`eme 3.4.3. Soit f une fonctionnelle deux fois d´erivable sur Rn.f est convexe si et seulement si ∇2f(x) est semi-d´efinie positive pour toutx.
Exemple 3.4.4. Prenons le cas du probl`eme aux moindres carr´ees lin´eaire. Alors ∇2f(β) =tXX. C’est donc une matrice constante. PosonsA=tXX.A est alors sym´etrique. La forme quadratique q(β) = (Aβ/β)est alors ´egale aq(β) = (Xβ/Xβ) =kXβk2≥0. L’application du th´eor`eme (3.4.3) implique alors quef est convexe.
Exemple 3.4.5. Reprenons l’exemple (1.1.1.1). Un calcul simple donne T00(x) = a2
c1
√a2+x2 + b2 c2p
b2+ (k−x)2 DoncT00(x)>0 pour toutx. La fonctionT est donc convexe.