Les algorithmes math´ematiques classiques

φ (Eq. II.1) est une fonction positive définie en tout point où−→Y est définie. Cette fonctionb peut donc être minimisée des méthodes de minimisation de fonctions mathématiques (voir, par exemple, l’ouvrage de Culioli [CUL 94]). Nous présentons dans cette partie le principe général des plus classiques d’entre elles adaptées à la fonction φ.

Le principe général de ces méthodes d’optimisation consiste à construire une suite de points de l’espace des solutions convergeant vers un minimum de la fonction φ. Pour cela, ces méthodes partent d’un point −→u0, vecteur de l’espace des paramètres et tentent de trouver une direction

de descente −→d permettant d’obtenir un nouveau point o`u la valeur de φ est plus petite. La direction d doit alors v´erifier :

∃ α > 0 tel que

(

[−→u0, −→u0+ α−→d ] ⊂ Uad

∀γ 0 < γ < α φ(−→u + γ−→_{d ) ≤ φ(−}→u ) (II.2) o`u Uad est l’espace des param`etres admissibles. On dit alors que −→d est admissible.

Le point −→u0 est minimum si et seulement si :

∀−→d admissible _∇φ(−→u0)t−→d ≥ 0 (II.3)

o`_{u ∇ désigne l’opérateur gradient et .}t l’opérateur transposé.

II.2.1 La m´ethode du gradient

L’approximation linéaire de φ au voisinage de −→u0 (développement de Taylor à l’ordre 1)

permet de d´efinir la nouvelle fonction L, approximation de φ `a l’ordre 1 :

L(−→u ) = φ(−→u0) + ∇φ(−→u0)t.(−→u − −→u0) (II.4)

Pour cette fonction L, il existe α > 0 tel que :

L(−→u (α)) = φ(−→u0) − α∇φ(−→u0)t.∇φ(−→u0) < φ(−→u0) (II.5)

La direction −→_{d = −∇φ(−}→u0) est donc une direction admissible. En fait, c’est la meilleure

direction de descente. Cette propriété permet de définir une variété de méthodes regroupées sous le terme de méthode du gradient. On distingue entre autre :

• la méthode du gradient à pas optimal : on cherche l’optimum de la fonction à un seul paramètre L(−→u (α));

• la méthode du gradient à pas fixe : α est fixé au cours des itérations. Cependant, il est généralement difficile d’estimer la bonne valeur à adopter pour le paramètre α.

II.2.2 La m´ethode de relaxation

Cette méthode consiste à substituer à la fonction φ à n variables une série de problèmes Ji(ν) à une seule variable :

Ji(ν) = φ(u1₁, u2₂, ..., ui−1_i−1, ν, u0_i+1, ..., u0_n) (II.6)

Partant du point initial−→u0 = (u0₁, u0₂, ..., u0_n), on minimise J1(ν) pour trouver la premi`ere com- posante u1

1, puis de mani`ere it´erative, on minimise Ji(ν) pour trouver uii.

II.2.3 La m´ethode de Newton

En approchant φ par un développement de Taylor à l’ordre 2, nous pouvons définir φ0 par :

φ0(−→u ) = φ(−→u0) + ∇φ(−→u0)t.(−→u − −→u0) +

2(−→u − −→u0)

t_φ”(−→_u

0).(−→u − −→u0) (II.7)

où φ”(−→u0) est la matrice des dérivées secondes ∂

2_φ

∂ui∂uj au point −

→_u₀_{, appelée aussi Hessien ou} matrice Hessienne. La méthode de Newton consiste alors à annuler le gradient ∇φ en considérant son approximation ∇φ0 _`_{a l’ordre 1 :}

La solution u1 de ∇φ0(u) = 0 est telle que :

φ”(−→u0)−→u1= φ”(−→u0).−→u0− ∇φ(−→u0) (II.9)

Pour que la solution existe, φ”(−→u0) doit ˆetre inversible.

Des variantes de cette méthode existe : φ”(−→u0) peut être remplacée par une approximation

(m´ethode de quasi-Newton). Nous renvoyons le lecteur vers l’ouvrage de Culioli [CUL 94] pour plus de d´etails.

II.2.4 La m´ethode du gradient conjugu´e

Une alternative bien connue à la méthode de Newton est la méthode des gradients conjugués. On dit que deux directions−→d1 et−→d0 sont conjuguées si d→−0tφ”(−→u0)−→d1 = 0. L’algorithmique de la

méthode du gradient conjugué est constituée des étapes suivantes :

1. −→u0 est point de d´epart et on choisit la direction −→d0 = ∇φ(−→u0). On pose A = φ”(−→u0) et

on note k−→d k2_A=→−d0tA−→d0

2. on construit le point −→u1 = −→u0+ α0−→d0 avec α0 = k − → d0k2

k−d→0k2_A

3. on construit la direction −→d1 combinaison de −→d0 et de ∇φ(−→u1) telle que −→d1 = ∇φ(−→u1) − − → d0tA∇φ(−u→1) k−→d0k2_A − → d0 4. ...

5. connaissant −→ui et−→di, on actualise A = φ”(−→ui) et on optimise φ le long de la direction−→di.

On obtient −→ui+1= −→ui− − →_d it∇φ(−→ui) k−→dik2_A − →_d i

6. on cherche la direction−→di+1conjugu´ee de −→di et−→di−1

− →_d i+1= ∇φ(−→ui) − − → ditA∇φ(−→ui+1) k−→dik2_A − →_d i

7. on itère les étapes 5 et 6 jusqu’à vérifier le critère d’arrêt.

Des variantes existent également pour cette méthode (Flechter-Reeves, ou Polak et Ribière) [CUL 94].

II.2.5 La m´ethode des moindres carr´es

Les méthodes précédentes ne prennent pas en compte la forme particulière de la fonction φ. Partant de l’expression de φ donnée par l’équationII.1, nous cherchons désormais à linéariser la fonction−→Y .b

Soient u le vecteur des paramètres à optimiser et −→u0 un point de départ du problème de

minimisation. Si −→Y (réponse du modèle analytique) est continue et dérivable au voisinage deb −

→_u₀_{, on peut écrire le développement de Taylor à l’ordre 1 suivant :} − → b Y (−→u0+−→δu) ⋍ − → b Y (−→u0) + ∇ − → b Yu−→δu =→−f0+ P−→δu (II.10)

o`_{u ∇ d´efinit l’op´erateur gradient suivant la variable −}→u et −→δu est une petite variation de −→u . La

fonction φ peut être alors approchée par la nouvelle fonction bφ définie par :

b φ = Σn_i=1_kYi− f0i− ∇fjiδjk2 (II.11) = k−→Y −−→f0− P−→δuk2 (II.12) φ u₁ u2 φ φ u0

Figure II.1 : Visualisation de la fonction bφ

définie par l’équationII.11définit au point u0 tangent à φ en u0

Une condition n´ecessaire pour que bφ soit minimum en −→u = −→u0+−→δu est :

∂ bφ ∂−→δu

= 0 (II.13)

ce qui se traduit par une ´equation matricielle de la forme :

A−→δu = −→g (II.14)

o`u A = Pt_{P et −}→_{g = P}t₍−→_{Y −}−→_f

0). Soit −→δ la solution de l’´equation (II.14), −→δ est solution de

l’approximation de φ par linéarisation de−→Y . On itère ainsi l’opération au point −b →u1 = −→u0+−→δ .

Cette technique que nous appelons Méthode des moindres carrés diffère de la méthode de gradient en ce sens que ce n’est pas φ qui est linéarisé mais −→Y . bb φ est alors une forme quadra- tique tangente à φ en −→u0 dont l’optimum est connu et supposé proche de l’optimum de φ

optimal en suivant les vallées et en contournant les bosses (voir figureII.2). Elle présente cependant l’inconvénient de converger lentement vers la solution. Dans certains cas, le point courant peut osciller indéfiniment dans le voisinage de la solution sans l’atteindre. Cette technique peut

bosses : valeurs

éleveés deφ

point de départ u₀

minimum

Figure II.2 : Exemple de contournement de bosses : partant du point u0la m´ethode des moindres

carrés converge vers le minimum en contournant les zones de valeurs plus élevées de φ.

donc être employée pour ≪ dégrossir ≫ le problème d’optimisation, en pré-traitement d’une autre méthode à convergence plus rapide.

Notons également qu’afin de réduire le mauvais conditionnement de la matrice A et de ne pas favoriser certaines directions (cas de vallées très étroites, ou paramètres d’ordre de grandeurs très différents), il est possible de transformer le système (II.14) en changeant A en A∗_{, −}→_{g en}

− →_g∗ _et−→_δ u en −→δu∗, avec : A∗ = (a∗_ij) = µ aij √_a ii√ajj ¶ (II.15) − →_g∗ _{= (g}∗ i) = µ gi √_a ii ¶ (II.16)

alors, la solution −→δu se d´eduit de −→δu∗ par la relation :

− →_δ u = δ_{u i}∗ √_a ii (II.17)

II.2.6 M´ethode de Levenberg-Marquardt

Sur la base de la méthode précédente, Marquardt [MAR 63] a proposé une nouvelle méthode, qui porte aujourd’hui le nom de Levenberg-Marquardt, très utilisée dans les problèmes d’identification par moindres carrés. Cette méthode consiste à ajouter au problème de minimisation de la fonction bφ, donnée par l’équation (II.12_{), la contrainte k}−→δuk = R0 où R0 est un rayon d’hypersphère

arbitraire. L’auteur introduit ainsi un multiplicateur de Lagrange λ. La nouvelle fonction `a optimiser devient alors −→u (δ, λ) d´efinie par :

−

→_{u (δ, λ) = k}−→_{Y −}−→_f₀ _{− ∇}−→_f−→_{δ k}2_{+ λ(k}−→_{δ k}2₋−→_δ

02) (II.18)

La solution−→δ v´erifie alors :

(A + λI)−→δ = −→g (II.19)

Comme pour la méthode précédente,−→δ corrige le point obtenu au pas précédent.

L’algorithme consiste alors à ajuster λ à chaque itération de sorte que φ au point courant décroisse entre deux itérations successives. L’auteur propose de partir d’une valeur de λ arbitraire, puis, à chaque itération et suite à une série de tests sur φ, de multiplier ou de diviser une ou plusieurs fois λ par un facteur ν > 1.

Cette méthode présente l’avantage d’être très rapide. En revanche, sa rapidité de convergence la rend moins stable que la méthode des moindres carrés et elle peut ne pas converger dans certains cas. La figureII.3permet de visualiser le chemin parcouru au cours des itérations pour les deux dernières méthodes.

u₀

Figure II.3 : Comparaison de la méthode des moindres carrés (¥) avec la méthode de Levenberg-

Marquartd (◦). Le point u0 est le point de d´epart de l’algorithme (les fl`eches ◮

et ⊲ donne le sens de progression des it´erations).

Dans le document CONTRIBUTION A L'ETUDE DES ELASTOMERES ET DES MEMBRANES SOUFFLEES (Page 35-40)