Département Biosciences Végétales Module : Introduction à l’optimisation

(1)

Département Biosciences Végétales

Module : Introduction ` a l’optimisation

J. Gergaud

Janvier 2007

(2)

Table des mati` eres

1 D´efinition du probl`eme 1

1 Exemples . . . 1

1.1 Cas continu et de dimension finie . . . 1

1.2 Probl`eme en nombres entiers . . . 7

1.3 Probl`eme en dimension infinie . . . 8

2 Probl`eme d’optimisation . . . 8

2.1 D´efinitions . . . 8

2.2 Classification . . . 9

2 Fonctions de plusieurs variables 11 1 Introduction . . . 11

2 Notion de limite et de continuit´e dansRⁿ . . . 11

2.1 Notions topologiques . . . 11

2.2 Limite, continuit´e . . . 12

3 Notion de d´eriv´ee . . . 13

3.2 Th´eor`emes . . . 16

3.3 D´eriv´ee seconde . . . 19

3.4 Dérivée seconde et convexité . . . 20

3 Existence de solution 21 1 Introduction . . . 21

2 Th´eor`emes . . . 21

2.1 Probl`emes avec contraintes . . . 21

2.2 Probl`eme sans contraintes . . . 22

4 Condition n´ecessaire, condition suffisante de solution 23 1 Introduction . . . 23

2 Th´eor`emes . . . 23

2.2 Condition N´ecessaire . . . 24

2.3 Condition suffisante . . . 24

2.4 Probl`eme convexe . . . 24

3 Applications . . . 25

3.1 Exemples . . . 25

3.2 Probl`eme aux moindres carr´ees . . . 26

5 Algorithme de Newton 27 1 Introduction . . . 27

2 Algorithme de Newton . . . 27

2.1 R´esolution d’une ´equation : cas de la dimension 1 . . . 27

2.2 R´esolution d’´equations : cas de la dimension n . . . 27

2.3 Application aux probl`emes d’optimisation . . . 29

3 Exemples . . . 30

3.1 Exemple 1 . . . 30

3.2 Exemple 2 . . . 32

3.3 Mod`ele de Kaplan . . . 32

i

(3)

Chapitre 1

D´ efinition du probl` eme

1 Exemples

1.1 Cas continu et de dimension finie

Exemple 1.1.1. La trajectoire d’un rayon lumineux allant de A `a B respecte le principe du minimum de Fermat : Le trajet est celui pour lequel le temps de parcours est minimum.

−1 0 1 2 3 4 5 6 7

−3

−2

−1 0 1 2 3

A(0,a)

B(k,b) P(x,0)

air

eau

α₁

α2

Fig.1.1 – Principe de Fermat

La vitesse de la lumi`ere estc1 dans l’air etc2 dans l’eau. Le temps de parcours est donc :

T(x) = 1 c1

pa²+x²+ 1 c2

pb²+ (k−x)² Le probl`eme est alors ici de trouver le point P (i.e.x^∗) tel que :

T(x^∗)≤T(x)∀x∈R⇐⇒(P)

M in f(x) x∈R On peut ici tracer cette fonction (1.2)

Une condition n´ecessaire de solution de(P)estT⁰(x) = 0 (4.2.2.1). Ce qui donne ici 1

(4)

2 CHAPITRE 1. D ´EFINITION DU PROBL `EME

0 1 2 3 4 5 6 7

4 4.5 5 5.5 6 6.5

x

T(x)

Fig.1.2 – FonctionT

x c1

√a²+x²+ −(k−x) c₂p

b²+ (k−x)² = 0

⇐⇒ x

c1

√a²+x² = (k−x) c₂p

b²+ (k−x)²

⇐⇒ sinα1

c₁ = sinα2

c₂

⇐⇒n₁sinα₁ = n₂sinα₂ Remarque 1.1.2. Nous retrouvons dans ce cas les lois de Descartes¹ ou de Snell.

Remarque 1.1.3. La condition T⁰(x) = 0 n’est qu’une condition nécessaire, en effet si nous considérons la fonctionnelle réellef(x) =x³ nous avons f⁰(0) = 0 mais 0 n’est pas un minimum def (1.3).

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2

−8

−6

−4

−2 0 2 4 6 8

x

f(x)

Fig.1.3 –f⁰(0) = 0 et 0 n’est pas un minimum

1Associer les noms de Fermat et Descartes est surprenant pour qui connaˆıt les confrontations scientifiques virulentes qui les op- posèrent. Les étudiants intéressés peuvent voir la vidéo ([2]) où se rendre au musée Pierre de Fermat de Beaumont de Lomagne, ville natale de P. de Fermat près de Toulouse

(5)

1. EXEMPLES 3 Exemple 1.1.4. Un condensateur chargé à une tension de U₀ volts se décharge sur une résistance. On mesure la tensionU entre les armatures du condensateur toutes les secondes pendant un intervalle de temps de 10 secondes.

Les r´esultats des mesures sont donn´ees dans la table (1.1)

t_i U_i t_i U_i

0 100 6 15

1 75 7 10

2 55 8 10

3 40 9 5

4 30 10 5

5 20

Tab. 1.1 – Données Théoriquement, la tension en fonction du temps s’écrit :

U(t) =U0e^−αt

On désire ici estimer les valeurs des constantes U₀ et α. Notre but est donc de trouver les valeurs de ces constantes pour que cette fonctionU(t)”colle” au mieux à nos données. Si on donne des valeurs à ces constantes, nous pouvons calculer les quantités appelées résidus :

ri(U0, α) =Ui−U(ti) =Ui−U0e^−αtⁱ Par suite nous pouvons calculer la quantit´e :

f(U₀, α) = 1 2

n

X

i=1

(U_i−U₀e^−αtⁱ)²

Cette quantité est graphiquement la somme des carrés des longueurs des résidus (1.4)

−2 0 2 4 6 8 10 12

0 10 20 30 40 50 60 70 80 90 100 110

← r₁

← r₂

← r₃

← r₄

← r₅

← r₆

← r₇

← r₈ ← r₉

← r₁₀ ← r₁₁

Fig.1.4 – Crit`eres des moindres carr´es

Plus cette quantité sera faible, plus notre courbe sera proche de nos points expérimentaux. Estimer les paramètres U₀ etαpar les moindres carrés, c’est rechercher la valeur solution du problème d’optimisation suivant :

(P)

M inf(U0, α) =¹₂Pn

i=1(Ui−U0e^−αtⁱ)² (U0, α)∈R²

Attention dans le pbobl`eme(P)ci-dessus, les instantstiet les valeursUi sont connus. Ce sont les valeurs des param`etres que l’on cherche.

(6)

4 CHAPITRE 1. D ÉFINITION DU PROBL ÈME Remarque 1.1.5. • Dans l’exemple précédent on peut aussi écrire : f(β) =¹₂ kr(β)k² où

β = U0

α

r(β) =





 r1(β)

... rn(β)





 et ri(β) =Ui−U0e^−αtⁱ

• Minimiser f(β)est équivalent à minimiser αf(β)avec α >0. Le terme ¹₂ est mis ici afin de ne pas avoir le terme 2 lorsque l’on dérive la fonctionf(β)

Exemple 1.1.6(Modèle de Kaplan). On désire étudier la diffusion d’une drogue dans un organe d’un corps donné.

La drogue est injectée par intraveineuse dans le sang à l’instantt0= 0. On modélise le système par un modèle à compartiments :

Sang y1(t) Organey2(t)

-

?

k₁

k3

k2

Les concentrations dans le sang sont mesurées à différents instants :

ti y_i1 ti yi1

0.25 215.6 3.00 101.2 0.50 189.2 4.00 88.0 0.75 176.0 6.00 61.6 1.00 162.8 12.00 22.0 1.50 138.6 24.00 4.4 2.00 121.0 48.00 0.0

Le système d’équations différentielles décrivant le modèle est le suivant :

(EDO)









 dy1

dt = ˙y₁(t) =−(k₁+k₂)y₁(t) +k₃y₂(t) dy2

dt = ˙y2(t) =k1y1(t)−k3y2(t) y1(0) =c0

y2(0) = 0

On désire estimer les paramètresc0, k1, k2etk3 par les moindres carrés. Posonsβ=^t(c0, k1, k2, k3), alors pour toute valeur de β, on peut intégrer le système d’équations différentielles ordinaires à condition initiale (EDO).

Notons(y1(t;β), y2(t;β))cette solution. Par suite on peut calculer les r´esidus ri(β) =yi1−y1(ti;β).

Ces résidus sont visualisés sur la figure (1.5). Nous estimerons alors le paramètre β en résolvant le problème d’optimisation aux moindres carrés suivant :

(P)

M inf(β) =¹₂Pn

i=1r²_i(β) =¹₂||r(β)||² β ∈R⁴

Exemple 1.1.7. On veut mesurer la liaison entre 2 gènes dominants, l’un contrôlant la couleur d’une fleur, rouge (R) est dominant sur blanc (b), et l’autre la taille, grand (G) est dominant sur petit (p). Dans la descendanceF2, issu de deux populations homozygotes de phénotype [RG] et [bp], on a étudié n = 3839 plantes. On a obtenu les résultats suivants :

(7)

1. EXEMPLES 5

0 5 10 15 20 25 30 35 40 45 50

0 50 100 150 200 250

t y 1(t)

← r₁

← r₂

← r₃

← r₄

← r₅

← r₆

← r← r₇₈

← r₉

← r₁₀ ← r₁₁ ← r₁₂

0 5 10 15 20 25 30 35 40 45 50

0 20 40 60 80

t y 2(t)

Fig.1.5 – Critère des moindres carrés pour le modèle de Kaplan Phénotypes [RG] [Rp] [bG] [bp]

Effectifs observ´es 1997 906 904 32 Tab.1.2 – Donn´ees de Sir R.A. Fisher

Le problème est ici d’estimer, à partir de ces données le taux de recombinaisonr.

Ici la populationF₁est hétérozygote de génotypeRb, Gp. Nous avons donc les probabilités de la table (1.3) pour les différents gamètes possibles et les différents croisements possibles.

Par suite nous avons dans la population F₂ la loi suivante pour la variable al´eatoire ph´enotypeX : X :F₂ −→ {[RG],[Rp],[bG],[bp]}

1 plante 7−→ son ph´enotype

P(X= [RG]) = 1

4(3−2r+r²) = 2 +θ 4 P(X = [Rp]) = 1

4(2r−r²) =1−θ 4 P(X= [bG]) = 1

4(2r−r²) =1−θ 4 P(X = [bp]) = 1

4(1−r)²= θ 4

(8)

6 CHAPITRE 1. D ´EFINITION DU PROBL `EME

♀:♂ RG bp Rp bG

1

2(1−r) ¹₂(1−r) ¹₂r ¹₂r

RG [RG] [RG] [RG] [RG]

1

2(1−r) ¹₄(1−r)² ¹₄(1−r)² ¹₄r(1−r) ¹₄r(1−r)

bp [RG] [bp] [Rp] [bG]

1

2(1−r) ¹₄(1−r)² ¹₄(1−r)² ¹₄r(1−r) ¹₄r(1−r)

Rp [RG] [Rp] [Rp] [RG]

1

2r ¹₄r(1−r) ¹₄r(1−r) ¹₄r² ¹₄r²

bG [RG] [bG] [RG] [bG]

1

2r ¹₄r(1−r) ¹₄r(1−r) ¹₄r² ¹₄r² Tab.1.3 – Probabilit´es pour la descendanceF₂

coˆut (par tonne) composition chimique (kgt⁻¹) azote phosphate potasse

lisier 25 francs 6 1.5 4

engrais 1300 francs 250 100 100

Tab.1.4 – Coˆuts et compositions des engrais o`u θ= (1−r)²∈[¹₄; 1].

D´efinissons maintenant le vecteur al´eatoire de dimension 4 suivant (A, B, C, D) :F₂ⁿ −→ R⁴

nplantes 7−→

(nb de plantes de phénotypes [RG], nb de plantes de phénotypes [Rp], nb de plantes de phénotypes [bG], nb de plantes de phénotypes [bp])

On suppose la populationF2de taille infinie, donc la loi de ce vecteur al´eatoire est une loi multinomiale : L(a, b, c, d;θ) = P((A, B, C, D) = (a, b, c, d))

= n!

a!b!c!d!P(X = [RG])^aP(X = [Rp])^bP(X)[bG])^cP(X = [bp])^d

= n!

a!b!c!d!

2 +θ 4

a 1−θ

4

b+c θ 4

d

L s’appelle la vraisemblance². L’estimation deθ par le maximum de vraisemblance consiste alors `a rechercher la valeur deθ solution du probl`eme de maximisation suivant

(P)

M ax L(1997,906,904,32;θ) θ∈[¹₄; 1]

Exemple 1.1.8. Un fermier désire déterminer les quantités de lisier de porc et d’engrais composé à étendre sur 20 ha de prairie de fa¸con à optimiser le coût total de la fertilisation. Le coût et la composition du lisier et de l’engrais sont donnés ci-dessous :

Le fermier veut appliquer au moins 75kgha⁻¹d’azote, 25 kgha⁻¹de phosphate et 35kgha⁻¹ de potasse. Il ne peut appliquer le lisier qu’`a un taux maximum de 8t/heureet l’engrais qu’`a un taux maximum de 0.4t/heure. Il ne peut de plus consacrer pour ce travail qu’un maximum de 25 heures.

Appelonsx1( respectivementx2) la quantité en tonnes de lisier ( respectivement d’engrais ) étendu. Le problème est alors d’obtenir un coût minimum, c’est-à-dire que l’on cherche à minimiser 25x1+ 1300x2. Mais nous avons aussi les contraintes suivantes :

x1≥0 non n´egativit´e dex1

x2≥0 non n´egativit´e dex2

6x1+ 250x2≥75×20 = 1500 contrainte sur l’azote 1.5x1+ 100x2≥500 contrainte sur le phosphate 4x1+ 100x2≥700 contrainte sur la potasse (1/8)x₁+ (1/0.4)x₂≤25 contrainte de temps

2likelihood en anglais

(9)

1. EXEMPLES 7 En résumé nous avons le problème suivant à résoudre :

(P)











M inf(x) = 25x1+ 1300x2

x1≥0 x2≥0

6x1+ 250x2≥75×20 = 1500 1.5x1+ 100x2≥500

4x1+ 100x2≥700 (1/8)x1+ (1/0.4)x2≤25

1.2 Probl` eme en nombres entiers

Exemple 1.2.1(Problème du sac à dos de Knapsack). Un alpiniste veut mettre dans son sac à dos un maximum de 16 kg de ravitaillement. Il peut choisir un certain nombre d’unités de trois produits différents. Le poids unitaire en kilogrammes et la valeur énergétique unitaire des ces produits sont connus et donnés dans la table (1.5).

Produits I II III

Poids 2 5 7

Valeurs 4 10 15

Tab.1.5 – Poids unitaires et valeurs ´energ´etiques unitaires

Le probl`eme pour l’alpiniste est de savoir ce qu’il doit emporter pour avoir une valeur totale en calories maximale sans d´epasser les 16 kg.

Si nous notons x1, x2 etx3 les nombres d’unités à emporter des articles I,II et III, le problème s’crit

(P)







M ax 4x1+ 10x2+ 15x3

2x1+ 5x2+ 7x3≤16 (x₁, x₂, x₃)∈N³

Exemple 1.2.2. ([1]) Dans un service hospitalier, les malades i attendent d’être opérés. Le malade i a besoin d’une durée d’opérationD_i. D’autre part, compte tenu des disponibilités des chirurgiens, la somme des durées des opérations possibles chaque jours j de la période étudiée est connue et égale à T_j. On veut minimiser la somme des pénalités d’attente pour les différents malades. On note :

• xij = 1si le maladei est op´er´e le jourj;

• xij = 0si le maladei n’est pas op´er´e le jourj;

• c_ij la pénalité du malade is’il est opéré le jourj.c_ij est une fonction croissante dej.

Le probl`eme s’´ecrit alors :

(P)











M in f(x) =P

i

P

jc_ijx_ij P

iD_ix_ij ≤T_j ∀j limitation des possibilit´es op´eratoire du jourj P

jx_ij = 1 ∀i Le maladeiest opéré une fois et une seule x_ij = 0 ou 1 l’opération est effectuée en une fois

Exemple 1.2.3 (Alignement de séquences). Soit 2 séquencesCT GT AT C etCT AT AAT CCC. On désire trouver le ”meilleur” alignement possible. A chaque alignement, est associé un score (simple ici) suivant : pour chaque position on associe 0 si les 2 bases sont identiques, +1 si les deux bases sont différentes et +3 s’il y a un ”trou”.

On effectue ensuite la somme. La figure (1.6) donne un exemple de la fonction score S.

C T A T − A A − T C C C

− − C T G T A T C − − −

3 3 1 0 3 1 0 3 1 3 3 3 = 24

Fig.1.6 – Exemple de calcul d’un score Le problème est alors de résoudre le problème d’optimisation suivant :

(P)

M in S(alignement)

pour tous les alignements possibles

(10)

8 CHAPITRE 1. D ÉFINITION DU PROBL ÈME Remarque 1.2.4. la difficulté est ici de construire l’ensemble de tous les alignements possibles. Ceci se fait de la fa¸con suivante. Suppossons que l’on soit à la position i, alors pour aller à la position i+ 1, nous avons trois possibilités :

• avancer d’un nucl´eotide pour les 2 s´equences ;

• avancer d’un nucléotide pour la séquence S1 et mettre un ”trou” pour la séquenceS2;

• avancer d’un nucléotide pour la séquence S₂ et mettre un ”trou” pour la séquenceS₁. Nous pouvons ainsi construire un arbre permettant d’avoir tous les alignements possibles.

1.3 Probl` eme en dimension infinie

Exemple 1.3.1(Problème de la brachistochrone). Il s’agit d’un problème posé par le mathématicien Jean Bernoulli en 1696 qui a donné naissance à ce qu’on appelle le calcul des variations.

Ce problème consiste en la recherche dans un plan vertical du chemin reliant 2 points P₀ et P_f de ce plan, suivant lequel un corpsM entrainé par son propre poids effectuera le trajet deP₀àP_f en un temps minimum. On suppose qu’il n’y a pas de frottement. Nous ne donnerons pas ici la formalisation mathématique de ce problème.

Il s’agit d’un problème en dimension infinie car l’inconnu est ici une courbe. Nous avons donc une infinité non dénombrable d’inconnues.

2 Probl` eme d’optimisation

2.1 D´ efinitions

D´efinition 2.1.1 (Fonctionnelle). On appelle fonctionnelle toute fonctionf `a valeur dansR.

Définition 2.1.2(Fonction convexe). Une fonctionnellef deRⁿ à valeurs dansRest convexe si et seulement si elle vérifie :

∀(x, y)∈Rⁿ×Rⁿ, ∀α∈[0,1], f(αx+ (1−α)y)≤αf(x) + (1−α)f(y) Dans la casn= 1, ceci signifie que le graphe de la fonctionf est toujours sous la corde (1.7)

0 0.5 1 1.5 2 2.5 3

−2

−1 0 1 2 3 4

x

f(x)

Fig.1.7 – Fonction convexe

Définition 2.1.3 (Problème d’optimisation sans contraintes). On appelle problème d’optimisation sans contraintes en dimension finie tout problème (P) consistant en la recherche d’un minimum d’une fonctionnellef définie sur Rⁿ. On notera ce problème sous la forme suivante :

(P)

M inf(x) x∈Rⁿ o`u f :Rⁿ→Rsera donn´ee.

Remarque 2.1.4. Résoudre le problème(P)revient à rechercher le pointx^∗deRⁿ tel quef(x^∗)≤f(x)∀x∈Rⁿ.

(11)

2. PROBL ÈME D’OPTIMISATION 9 Remarque 2.1.5. Un problème de maximisation se ramène très facilement à un problème de minimisation :

M axf(x)⇐⇒M in(−f(x))

Définition 2.1.6(Problème d’optimisation avec contraintes). On appelle problème d’optimisation avec contraintes tout problème (P) consistant en la recherche d’un minimum sur un ensemble C inclus dansRⁿd’une fonctionnelle f définie surRⁿ. On notera ce problème sous la forme suivante :

(P)

M inf(x) x∈C⊂Rⁿ o`uf :Rⁿ→Rsera donn´ee.

Remarque 2.1.7. Dans la pratiqueC sera d´efini de la fa¸con suivante :

C={x∈IRⁿ/gi(x)≤0 i= 1, . . . , m et hl(x) = 0 l= 1, . . . , p}

et nous ´ecrirons(P)sous la forme

(P)







M inf(x)

gi(x)≤0i= 1, . . . , m hl(x) = 0l= 1, . . . , p

Définition 2.1.8 (Problème d’optimisation convexe). Un problème d’optimisation est dit convexe si et seulement si les fonctionsf et gi sont convexes et les fonctionshlsont affines.

Définition 2.1.9 (Problème aux moindres carrés). On appelle problème aux moindres carrés un problème d’optimisation sans contraintes où la fonctionnelle f est de la forme suivante :

f(β) =1

2kr(β)k²= 1

2(r(β)/r(β)) = 1 2

n

X

i=1

r²_i(β) Le problème est dit aux moindres carrés linéaires si la fonctionrest affine :

r:R^p −→ Rⁿ β 7−→ y−Xβ oùX matrice de type (n, p) ety un élément de Rⁿ.

Exemple 2.1.10. L’exemple (1.1.4) est un problème aux moindres carrés non linéaire.

Définition 2.1.11 (Problème linéaire). Un problème d’optimisation est dit linéaire si et seulement si les fonctions f,g_i, eth_l sont affines.

Exemple 2.1.12. L’exemple (1.1.8) est un probl`eme lin´eaire.

2.2 Classification

Consid´erons le probl`eme d’optimisation suivant : (P)

M in f(x) x∈C⊂E

Suivant la nature des ensemblesCetE et de la fonctionf nous avons diff´erents types de probl`eme d’optimisation.

On classifie les probl`eme d’optimisation de la fa¸con suivante : (i) C est fini.

(ii) E=Rⁿ : probl`eme en dimension finie.

(a) C=E : probl`eme sans contraintes.

i. f(x) = ¹₂kr(x)k²=Pn

i=1r²_i(x) : problème aux moindres carrés A. r(x) =Ax+b: problème aux moindres carrés linéaires

(b) C={x∈Rⁿ/gj(x)≤0, j= 1. . . , m et hl(x) = 0, l= 1, . . . , p} : probl`eme avec contraintes.

i. gj ethlquelconques : programmation non lin´eaire (Non Linear Programming) ii. f,gj convexes ethl affines : probl`eme convexes.

(12)

10 CHAPITRE 1. D ÉFINITION DU PROBL ÈME iii. Toutes les variablesx_isont entières : problème en nombres entiers (Integer Non Linear Programming) iv. Certaines variablesx_isont entières : Problèmes d’optimisation mixte (Mixed Non Linear Program-

ming)

v. les fonctions f,g_j eth_l sont affines : programmation lin´eaire (Linear Programming). C’est aussi un cas particulier de (2.2.2)

A. Toutes les variablesx_i sont enti`eres : programmation lin´eaire en nombre entier (Integer Linear Programming)

B. Certaines variablesx_i sont enti`eres : programmation lin´eaire mixte (Mixed Integer Linear Pro- gramming)

(iii) E de dimension infinie : probl`eme en dimension infinie

Les algorithmes utilisés pour résoudre un problème d’optimisation sont très différents suivant la nature de ceux-ci. Nous ne verrons, dans cette introduction à l’optimisation que les cas des probèmes en dimension finie sans contraintes et de la programmation linéaire.

(13)

Chapitre 2

Fonctions de plusieurs variables

1 Introduction

Nous nous intéressons dans ce chapitre aux fonctions deRⁿ dansR^met plus particulièrement aux notions de limites, continuités et de dérivées, notions qui nous serons utiles pour résoudre les problèmes d’optimisation sans contraintes en dimension finie. La norme sera toujours dans ce chapitre la norme euclidienne.

2 Notion de limite et de continuit´ e dans R

ⁿ

2.1 Notions topologiques

Définition 2.1.1 (Boule ouverte,boule fermée). On appelle boule ouverte (respectivement boule fermée) deRⁿ de centrex⁰ et de rayonεl’ensemble :

B(x⁰, ε) ={x∈Rⁿ/kx−x⁰k< ε}

(respectivementBf(x⁰, ε) ={x∈Rⁿ/kx−x⁰k ≤ε}) Exemple 2.1.2. (i) n= 1

kx−x⁰k=|x−x⁰|, par suite la boule ouverte de centrex⁰et de rayonε >0est l’intervalle ouvert]x⁰−ε, x⁰+ε[

(ii) n= 2etn= 3

Voir figure (2.1) et (2.2).

D´efinition 2.1.3 (Ouvert de Rⁿ). U ⊂Rⁿ est un ouvert si et seulement si pour toutx∈U il existe une boule ouverte de centrex⁰ et de rayonε >0 inclu dansU.

Définition 2.1.4 (Fermé). F ⊂Rⁿ est un fermé si et seulement si{F est ouvert.

Exemple 2.1.5. Une boule ouverte (respectivement fermée) est un ouvert (respectivement fermé). En particulier dansRun intervalle ouvert (respectivement fermé) est un ouvert (respectivement fermé).

Définition 2.1.6(Limite d’une suite). Soit (x_k)_k∈N une suite d’éléments deRⁿ. On dit que la suite converge vers une limitelquand ktend vers +∞si et seulement si :

∀ε >0,∃K,∀k > Kkx−lk< ε .

Remarque 2.1.7. • La définition ci-dessus n’est que l’écriture mathématique de ”x_k est aussi proche que l’on veut del à partir d’un certain rang”.

• Dans le casn= 1on a :

∀ε >0,∃K,∀k > K|x−l|< ε .

Théorème 2.1.8. F ⊂Rⁿ est fermé si et seulement si pour toute suite de point de F qui converge dansRⁿ, la limite appartient àF.

11

(14)

12 CHAPITRE 2. FONCTIONS DE PLUSIEURS VARIABLES

−3 −2 −1 0 1 2 3

−3

−2

−1 0 1 2 3

Fig.2.1 – Boule dansR²

0 0.5

1 1.5

2

1 1.5 2 2.5 3 2 2.5 3 3.5 4

Fig.2.2 – Boule dansR³ D´emonstration

Admise.2

Exemple 2.1.9. ]0,1] n’est pas fermé car la suite (_k¹) converge vers 0 qui n’appartient pas à ]0,1]. Par contre [0,1], est bien un fermé.

Définition 2.1.10 (Ensemble borné). C⊂Rⁿ est borné si et seulement si il existeR >0 tel que : C⊂B(O, R)⇐⇒ kxk< R pour tout x∈C

Définition 2.1.11 (Compact). C⊂Rⁿ est un compact si et seulement si il est fermé et borné.

2.2 Limite, continuit´ e

D´efinition 2.2.1 (Limite d’une application f). Soitf une application de Rⁿ dansR^m. On dit que la fonctionf tend vers une limitel lorsquextend versx⁰ si et seulement si :

∀ε >0, ∃η >0tel quekx−x⁰k< η=⇒ kf(x)−lk< ε

Remarque 2.2.2. (i) La norme employ´ee dans la d´efinition ci-dessus est la norme euclidienne.

(ii) Lorsque n=m= 1nous avonskx−x⁰k=|x−x⁰|etkf(x)−lk=|f(x)−l|et nous retrouvons la d´efinition bien connue.

(15)

3. NOTION DE D ÉRIV ÉE 13 (iii) La définition est équivalente à :

∀ε >0∃η >0tel que x∈B(x⁰, η) =⇒f(x)∈B(l, ε)

La d´efinition ci-dessus est donc la transcription math´ematique du fait que f(x)“s’approche” de plus en plus del lorsquex“s’approche” de plus en plus de x⁰.

D´efinition 2.2.3 (Continuit´e d’une applicationf). Soitf une application deRⁿ dansR^m. (i) On dit quef est continue enx⁰ si et seulement sif(x) tend versf(x⁰) quandxtend versx⁰. (ii) On dit quef est continue si et seulement si elle est continue en tout pointx⁰deRⁿ.

3 Notion de d´ eriv´ ee

3.1 D´ efinitions

Définition 3.1.1 (Dérivée d’une application deRdansR.). Soitf une application deRdansRalors (i) f est dérivable enx⁰si et seulement si la limite de

f(x⁰+h)−f(x⁰) h

existe quand htend vers 0.

(ii) f est d´erivable surRsi et seulement sif est d´erivable enx⁰ pour toutx⁰deR.

Notation 3.1.2. On note la d´eriv´ee def enx⁰ f⁰(x⁰) = df

dx(x⁰) = lim

h→0

f(x⁰+h)−f(x⁰) h

Remarque 3.1.3. f⁰(x⁰)existe si et seulement si on peut ´ecrire :

f(x⁰+h) =f(x⁰) +f⁰(x⁰).h+hε(h)avec lim

h→0ε(h) = 0 ou encore

f(x⁰+h) =f(x⁰) +f⁰(x⁰).h+|h|ε(h)avec lim

h→0ε(h) = 0 (2.1)

Posonsx=x⁰+halors la relation (2.1) pr´ec´edente devient :

f(x) =f(x⁰) +f⁰(x⁰).(x−x⁰) +|x−x⁰|ε(x−x⁰)avec lim

x→x⁰ε(x−x⁰) = 0

Or y(x) =f(x⁰) +f⁰(x⁰).(x−x⁰) est l’´equation d’une droite passant par x⁰ et de pente f⁰(x⁰)et c’est la droite

“limite” M⁰M quandM “tend” versM⁰ (cf. figure (2.3).

x0 x0+h

f(x0) f(x0+h)

x

f(x)

y=f^’(x⁰)(x−x⁰)+f(x⁰)

Fig.2.3 – D´eriv´ee

D´efinition 3.1.4 (Tangente). La droite d’´equationy(x) = f(x⁰) +f⁰(x⁰).(x−x⁰) s’appelle la tangente de f en x⁰.

Définition 3.1.5 (Dérivée d’une application deRⁿ dansR^m). Soitf une application deRⁿ dansR^m alors

(16)

14 CHAPITRE 2. FONCTIONS DE PLUSIEURS VARIABLES (i) f est dérivable en x⁰ si et seulement si il existe une application linéaire continue de Rⁿ à valeur dans R^m

not´eef⁰(x⁰) telle que :

f(x⁰+h) =f(x⁰) +f⁰(x⁰).h+khkε(h) lim

khk→0kε(h)k= 0 (2.2)

(ii) f est d´erivable surRⁿ si et seulement sif est d´erivable en x⁰ pour toutx⁰ deRⁿ.

Remarque 3.1.6. (i) On utilisera dans la suite les bases canoniques de Rⁿ et de R^m. Par suite nous iden- tifierons l’application lin´eaire avec sa matrice (`a m lignes et n colonnes) et le . dans la formule (2.2) se transforme en un produit matriciel.

(ii) La formule (2.2) est bien homog`ene :

x⁰∈Rⁿ h∈Rⁿ

=⇒f(x⁰+h)∈R^m f⁰(x⁰)∈ Mm,n(R)

h∈Rⁿ

=⇒f⁰(x⁰).h∈ Mm,1(R)≡R^m khk ∈R

ε(h)∈R^m

=⇒ khkε(h)∈R^m (iii)

ε(h) =





 ε₁(h)

... εm(h)







et dire que kε(h)k tend vers 0 quand khk tend vers 0 est ´equivalent `a dire que chacune des composantes de ε(h)tend vers 0 lorsquehtend vers le vecteur nul ou encore que ε(h) tend vers~0 quandhtend vers~0.

(iv) Sin=m= 1on retrouve bien la d´efinition (2.1)

Définition 3.1.7(Application dérivée). Soitf :Rⁿ −→R^m dérivable sur Rⁿ On appelle application dérivée de f l’application notéef⁰ définie par :

f⁰:Rⁿ −→ Mm,n(R) x 7−→ f⁰(x)

Remarque 3.1.8. Si m= 1alorsf⁰ est une application deRⁿ dansM_1,n(R)et donc la transpos´ee def⁰ est une application deRⁿ dansRⁿ.

Définition 3.1.9 (Gradient). Si f est à valeurs dans R, on appelle gradient de f en x et on note ∇f(x), la transposée de la dérivée def en x :

∇f(x) =^tf⁰(x) Remarque 3.1.10. Quandm= 1 on a la relation :

f⁰(x).h= (∇f(x)/h) Exemple 3.1.11.

Soitf :R² −→ R x1

x2

7−→ x²₁+x²₂=kxk²= (x/x)

On rappelle que(x/y)d´esigne ici le produit scalaire dansRⁿ, c’est-`a-dire ici que(x/y) =Pn

i=1xiyi Calculons la d´eriv´ee def en x⁰.

f(x⁰+h) = f(x⁰₁+h1, x⁰₂+h2) = (x⁰₁+h1)²+ (x⁰₂+h2)²

= (x⁰₁)²+ (x⁰₂)²+ 2x⁰₁h₁+ 2x⁰₂h₂+h²₁+h²₂

= f(x⁰) + (2x⁰/h) +khkε(h) avec ici

ε(h) =khk= q

h²₁+h²₂−→0 quandh−→~0 et

f⁰(x⁰).h= 2x⁰₁ 2x⁰₂ h1

h2

et donc

f⁰(x⁰) = 2x⁰₁ 2x⁰₂

(17)

3. NOTION DE D ´ERIV ´EE 15 Exemple 3.1.12.

Soitf :Rⁿ −→ R





 x1

... xn





 7−→ x²₁+. . .+x²_n =kxk²= (x/x) Calculons la d´eriv´ee def enx⁰.

f(x⁰+h) = (x⁰+h/x⁰+h)

= (x⁰/x⁰) + 2(x⁰/h) + (h/h)

= f(x⁰) + 2^tx⁰.h+khkε(h) avec ε(h) =khk

doncε(h)−→~0quandh−→~0.

Nous en d´eduisons donc imm´ediatement que

f⁰(x⁰) = 2x⁰₁ . . . 2x⁰_n

= 2^tx⁰ Par suite nous avons

∇f(x⁰) =^tf⁰(x⁰) = 2x⁰=





 2x⁰₁

... 2x⁰_n







Exemple 3.1.13.

Soitf :R^p −→ R

β 7−→ Xβ−yo`uX ∈ M_n,p(R) etb∈Rⁿ Nous avons alors :

f(β⁰+h) =X(β⁰+h)−y = Xβ⁰−y+Xh+~0

f(β⁰) +X.h+khkε(h) o`uε(h) =~0 Par cons´equent nous avons ici

f⁰(β⁰) =X

Remarque 3.1.14. f(x⁰) +f⁰(x⁰).h est la meilleure approximation affine de la fonction f au voisinage de x⁰ (nous retrouvons la tangente lorsque n=m= 1).

D´efinition 3.1.15 (Applications composantes).

Soit f :Rⁿ −→ R^m x 7−→ f(x)

On appelle applications composantes lesnapplicationsfi d´efinies pouri= 1, . . . , nde la fa¸con suivante : f_i:Rⁿ −→ R

x 7−→ fi(x) avec

f(x) =





 f₁(x)

... fm(x)







Définition 3.1.16(Application partielle). Soitf :Rⁿ−→R^mOn appelleiême^` application partielle def au point x⁰l’applicationg_i définie par :

gi:R −→ R^m

xi 7−→ gi(xi) =f(x⁰₁, . . . , x⁰_i−1, xi, x⁰_i+1, . . . , x⁰_n)

(18)

16 CHAPITRE 2. FONCTIONS DE PLUSIEURS VARIABLES Définition 3.1.17 (Dérivée partielle). On appelle iême^` dérivée partielle de f au point x⁰ la dérivée de la iême^` application partielle def au pointx⁰_i et on note :

∂f

∂xi

(x⁰) =g⁰(x⁰_i)

Remarque 3.1.18. Lai^`ême dérivée partielle de f au pointx⁰ est un élément deMm,1(R), c’est donc un élément deR^m.

Exemple 3.1.19.

Soitf :R² −→ R x1

x2

7−→ x²₁+ 2x1x2−x²₂

et soit x⁰ un point fix´e deR². Alors la premi`ere application partielle de f enx⁰ est : g₁:R −→ R

x1 7−→ g1(x1) =f(x1, x⁰₂) =x²₁+ 2x1x⁰₂−(x⁰₂)² et la première dérivée partielle est :

∂f

∂x1

(x⁰) =g⁰(x⁰₁) = 2x⁰₁+ 2x⁰₂

Quant à la deuxième application partielle et dérivée partielle cela donne immédiatement : g₂:R −→ R

x 7−→ g2(x2) =f(x⁰₁, x2) = (x⁰₁)²+ 2x⁰₁x2−x²₂

∂f

∂x₂(x⁰) =g⁰(x⁰₂) = 2x⁰₁−2x⁰₂

Le problème dans la pratique est de calculer la dérivée. Il y a pour cela trois théorèmes fondamentaux que nous allons voir maintenant.

3.2 Th´ eor` emes

Th´eor`eme 3.2.1.

Soit f :Rⁿ −→ R^m

x 7−→ f(x) =^t(f1(x), . . . , fm(x))

alors l’application f est d´erivable enx⁰ si et seulement si les n applications composantes f_i sont d´erivables en x⁰ et on a la relation suivante :

f⁰(x⁰).h=







f₁⁰(x⁰).h ... f_m⁰ (x⁰).h







D´emonstration Admise.2

Remarque 3.2.2. La formule du théorème précédent est bien homogène, en effet : f⁰(x⁰)∈ Mm,n(R)

h∈Rⁿ

=⇒f⁰(x⁰).h∈R^m f_i⁰(x⁰)∈ M1,n(R)

h∈Rⁿ

=⇒f_i⁰(x⁰).h∈R Th´eor`eme 3.2.3. Soitf :Rⁿ −→R^m :

(i) Si f est dérivable en x⁰ alors f admet n dérivées partielles et on a :

f⁰(x⁰).h=

n

X

j=1

∂f

∂xj

(x⁰).hj

(19)

3. NOTION DE D ÉRIV ÉE 17 (ii) Si f admet n dérivées partielles continues en x⁰ alors f est dérivable en x⁰ et on a la relation précédente.

Remarque 3.2.4. La relation du théorème (3.2.3) est bien homogène, en effet : f⁰(x⁰)∈ Mm,n(R)

h∈Rⁿ

=⇒f⁰(x⁰).h∈R^m (∂f /∂xj)(x⁰)∈ Mm,1(R)

hj∈R

=⇒ ∂f

∂x_j(x⁰).hj∈R^m

Remarque 3.2.5. Appliquons successivement les deux théorèmes précédents. Le théorème (3.2.1) donne

f⁰(x⁰).h=







f₁⁰(x⁰).h ... f_m⁰ (x⁰).h







ici f_i est une application de Rⁿ dans R. Le théorème (3.2.3) appliqué à chacune des fonctions f_i permet alors d’écrire :

f_i⁰(x⁰).h=

n

X

j=1

∂f_i

∂xj

(x⁰).h_j En conclusion nous obtenons la formule suivante :

f⁰(x⁰).h=







∂f1

∂x1(x⁰) · · · ^∂f_∂x¹

j(x⁰) · · · _∂x^∂f¹

n(x⁰)

... ... ...

∂fi

∂x1(x⁰) · · · _∂x^∂fⁱ

j(x⁰) · · · _∂x^∂fⁱ

n(x⁰)

... ... ...

∂fm

∂x₁(x⁰) · · · ^∂f_∂x^m

j(x⁰) · · · ^∂f_∂x^m

n(x⁰)











 h₁

... hj

... hn







Ici _∂x^∂fⁱ

j(x⁰)est un élément deM1,1(R)≡R. Pour calculer f⁰(x⁰)if suffit donc de calculernmdérivées d’applications deRà valeur dansR.

Exemple 3.2.6.

Soitf :R³ −→ R²



 x₁ x₂ x₃



 7−→

x²₁−x²₃ x₂

Alorsf1(x) =x²₁−x²₃ donc

∂f1

∂x1

(x⁰) = 2x⁰₁; ∂f1

∂x2

(x⁰) = 0 ; ∂f1

∂x3

(x⁰) =−2x⁰₃ etf2(x) =x2 et donc

∂f2

∂x1

(x⁰) = 0 ; ∂f2

∂x2

(x⁰) = 1 ; ∂f2

∂x3

(x⁰) = 0 Par suite nous obtenons :

f⁰(x⁰).h=

2x⁰₁ 0 −2x⁰₃

0 1 0



 h1

h2

h3



=

2x⁰₁h1−2x⁰₃h3

h2

et

M =f⁰(x⁰) =

2x⁰₁ 0 −2x⁰₃

0 1 0

On peut “approximer”f au voisinage de x⁰ parf(x⁰) +f⁰(x⁰)(x−x⁰)

Nous venons de voir deux théorèmes qui ramènent le calcul de la dérivée d’une application deRⁿdansR^mau calcul denmdérivées d’applications de Rdans R. Nous allons voir maintenant un théorème qui permet souvent de simplifier les calculs (en décomposant la fonction f). Ce théorème très important est d’un abord difficile et demande de la pratique pour être bien assimilé.

(20)

18 CHAPITRE 2. FONCTIONS DE PLUSIEURS VARIABLES Théorème 3.2.7 (Théorème des fonctions composées).

Soientf :Rⁿ −→R^p d´erivable enx⁰ etg:R^p−→R^m d´erivable en y⁰=f(x⁰)

alorsg◦f :Rⁿ−→R^p est d´erivable en x⁰ et on a :

(g◦f)⁰(x⁰).h=g⁰(f(x⁰)).(f⁰(x⁰).h)∀h∈Rⁿ. (2.3) Remarque 3.2.8. La formule (2.3) est bien homog`ene :

(g◦f)⁰(x⁰)∈ Mm,n(R) h∈Rⁿ

=⇒(g◦f)⁰(x⁰).h∈R^m f⁰(x⁰)∈ M_p,n(R)

h∈Rⁿ

=⇒f⁰(x⁰).h∈R^p g⁰(y⁰)∈ Mm,p(R)

k∈R^p

=⇒g⁰(y⁰).k∈R^m Remarque 3.2.9. • (2.3) est ´equivalent `a(g◦f)⁰(x⁰) =g⁰(f(x⁰))f⁰(x⁰).

• Si n=m= 1on peut aussi écrire (g◦f)⁰(x⁰) =f⁰(x⁰)g⁰(f(x⁰)). Mais cette formule n’est plus valable dans le cas général où les produits sont des produits matriciels.

Exemple 3.2.10.

Soitf :R −→ R

x 7−→ sin(4x+ 2) alorsf⁰(x) = cos(4x+ 2)(4) = 4 cos(4x+ 2)

Exemple 3.2.11. Reprenons l’exemple (1.1.1.4). La fonctionnelle `a minimiser est f(β) = 1

2

n

X

i=1

(Ui−β1e^−β²^tⁱ)² o`u β= (U₀, α). Par suite

f⁰(β) = _∂f

∂β1(β). . ._∂β^∂f

1(β) Calculons tous d’abord les d´eriv´ees partielles deri(β) =Ui−β1e^−β²^tⁱ :

∂ri

∂β₁(β) = −e^−β²^tⁱ

∂ti

∂β2

(β) = −β1e^−β²^tⁱ(−ti) On en d´eduit :

f⁰(β) = Pn

i=1(Ui−β1e^−β²^tⁱ)(−e^β²^tⁱ) Pn

i=1(ui−β1e^−β²^tⁱ)β1tie^−β²^tⁱ Exemple 3.2.12. Considérons un problème aux moindres carrés

(P)

M in f(β) = ¹₂kr(β)k² β∈R^p

On peut ´ecriref =g◦r avec

g:Rⁿ −→ Rⁿ y 7−→ 1

2kyk² et

r:R^p −→ Rⁿ β 7−→ r(β) =





 r₁(β)

... rn(β)







(21)

3. NOTION DE D ´ERIV ´EE 19 Or on a g⁰(y) =^ty donc

f⁰(β) =^tr(β)r⁰(β) ou encore

∇f(β) =^tr⁰(β)r(β) = (∇r1(β). . .∇rn(β))





 r1(β)

... rn(β)





=

n

X

i=1

∇ri(β)ri(β) Dans le cas de l’exemple (3.2.11) on obtient

f⁰(β) = (U1−β1e^−β²^t¹. . . Un−β1e^−β²^tⁿ)







−e^−β²^t¹ β1t1e^−β²^t¹ ... ...

−e^−β²^tⁿ β1tne^−β²^tⁿ







Exemple 3.2.13. Considérons maintenant le cas des moindres carrés linéaires. Nous avons r(β) = y−Xβ et r⁰(β) =−X (cf exemple(3.1.13)). Par suite nous obtenons :

f⁰(β) =^t(y−Xβ)(−X) Donc

∇f(β) = (^tXXβ−^tXy)

3.3 D´ eriv´ ee seconde

Nous ne considérerons ici que le cas oùf est à valeur dansR

Définition 3.3.1 (Dérivée seconde). Soitf une fonctionnelle dérivable sur une boule de centre x⁰ et de rayonε.

La dérivée seconde def enx⁰est alors, si elle existe la dérivée du gradient∇f enx⁰. On noteraf⁰⁰(x⁰) =∇²f(x⁰).

Remarque 3.3.2. • Sif est une fonction de Rⁿ à valeurs dansR, alors la fonction gradient, si elle existe, est une fonction de Rⁿ à valeurs dans Rⁿ. Par suite, la dérivée seconde en un point x⁰, ∇²f(x⁰) est une matrice àn lignes etncolonnes.

• Dans le cas considéré ici la dérivée seconde est aussi appelée le hessien.

Théorème 3.3.3. Si la fonctionnellef admet une dérivée seconde en x⁰ alors la matrice∇²f(x⁰)est symétrique et la fonction

q:Rⁿ −→ R

h 7−→ q(h) = (∇²f(x⁰)h/h) est une forme quadratique.

D´emonstration Admise2

Exemple 3.3.4. Dans le cas du problème aux moindres carrés linéaires, nous avons vu que

∇f(β) =^tXXβ−^tXy Par suite

∇²f(β) =^tXX Exemple 3.3.5. Reprenons l’exemple (3.2.11) Nous avons

∇f(β) = Pn

i=1(Ui−β1e^−β²^tⁱ)(−e^−β²^tⁱ) Pn

i=1(Ui−β1e^−β²^tⁱ)β1tie^−β²^tⁱ

Donc

∇²f(β) =

Pn

i=1e^−2β²^tⁱ Pn

i=1U_it_ie^−β²^tⁱ−2β₁Pn

i=1t_ie^−2β²^tⁱ Pn

i=1U_it_ie^−β²^tⁱ−2β₁Pn

i=1t_ie^−2β²^tⁱ −Pn

i=1U_it²_iβ₁e^−β²^tⁱ+ 2Pn

i=1β₁²t²_ie^−2β²^tⁱ

Théorème 3.3.6. Soit f une fonctionnelle deux fois dérivables en x⁰ alors il existe η > 0 tel que pour tout x∈B(x⁰, η)on ait :

f(x) =f(x⁰) + (∇f(x⁰)/x−x⁰) +1

2(∇²f(x⁰)(x−x⁰)/x−x⁰) +kx−x⁰k²ε(x−x⁰) (2.4)

(22)

20 CHAPITRE 2. FONCTIONS DE PLUSIEURS VARIABLES D´emonstration

Admise2

Remarque 3.3.7. La formule (2.4) donne la meilleure approximation `a l’ordre 2 de la fonctionf au voisinage du point x⁰. Si on pose

q(x) =f(x⁰) + (∇f(x⁰)/x−x⁰) +1

2(∇²f(x⁰)(x−x⁰)/x−x⁰) alors on aq(x⁰) =f(x⁰),∇q(x) =∇f(x⁰) +∇²f(x⁰)(x−x⁰)et∇²q(x) =∇²f(x⁰).

3.4 D´ eriv´ ee seconde et convexit´ e

Rappelons tout d’abord la définition d’une forme quadratique définie positive et d’une forme quadratique semi- définie positive.

Définition 3.4.1 (Forme quadratique définie positive). La forme quadratique q(x) = (Ax/x) est semi-définie positive si et seulement si :

∀x∈Rⁿ q(x)≥0

La forme quadratiqueq(x) = (Ax/x) est d´efinie positive si et seulement si elle est semi-d´efinie positive et :

∀x∈Rⁿx6=~0⇒q(x)>0

Théorème 3.4.2. La forme quadratique q(x) = (Ax/x), où A est symétrique et semi-positive (respectivement définie positive), si et seulement si toutes ses valeurs propres sont positives ou nulles (respectivement strictement positive).

D´emonstration

Aétant symétrique, on peut écrireA=U D^tU avecU orthogonale etD la matrice diagonale des valeurs propres deA. Par suite, on a :

q(x) = (U D^tU x/x) = (D^tU x/^tU x) = (Dy/y) =X

i

λiy²_i

avecy=^tU xle théorème est alors évident2

Théorème 3.4.3. Soit f une fonctionnelle deux fois dérivable sur Rⁿ.f est convexe si et seulement si ∇²f(x) est semi-définie positive pour toutx.

Exemple 3.4.4. Prenons le cas du problème aux moindres carrées linéaire. Alors ∇²f(β) =^tXX. C’est donc une matrice constante. PosonsA=^tXX.A est alors symétrique. La forme quadratique q(β) = (Aβ/β)est alors égale aq(β) = (Xβ/Xβ) =kXβk²≥0. L’application du théorème (3.4.3) implique alors quef est convexe.

Exemple 3.4.5. Reprenons l’exemple (1.1.1.1). Un calcul simple donne T⁰⁰(x) = a²

c1

√a²+x² + b² c₂p

b²+ (k−x)² DoncT⁰⁰(x)>0 pour toutx. La fonctionT est donc convexe.