• Aucun résultat trouvé

oùT

0

(X

n

) =X

n

,T

j

désigneT répétéejfois etC

k

i

les coefficients binomiaux. Le paramètre

λ

n

est choisi afin de minimiser la norme d’une approximation du résiduR

n

=T(X

n

)−X

n

,

à l’étapen

ième

du schéma ∆

k

et il est donné par

λ

n

= (−1)

k

(∆X

n

,

k+1

X

n

)

(∆

k+1

X

n

,∆

k+1

X

n

). (3.4)

Dans ce chapitre, nous proposons une nouvelle méthode qui peut être considérée comme

une modification des méthodes ∆

k

. A chaque itération du nouveau schéma, nous évaluons

le pas de descente λ

n

de la méthode ∆

k

une fois et l’utilisons deux fois. Ce chapitre

est organisé comme suit. Dans la section 3.2, nous rappelons une méthode intéressante

présentée dans [100] pour résoudre des systèmes linéaires. En particulier, nous effectuons

une remarque sur l’équation d’erreur. Cette remarque nous permet de définir le nouveau

schéma appelé la méthode ∆

k

-ajustée. Sa convergence est étudiée dans la section 3.3.

Finalement, dans la dernière section, nous présentons des résultats numériques impliquant

un problème non linéaire elliptique, lesquels illustrent l’intérêt du nouveau schéma. Un

résultat numérique supplémentaire impliquant une distribution de Poisson est donné. Il

suggére que le nouveau schéma peut être étendu avec succès à un problème important en

statistique qui est l’accélération de l’algorithme E.M. ( Espérance-Maximisation).

3.2 Les méthodes ∆

k

ajustées

3.2.1 La méthode de Cauchy-Barzilai-Borwein

Considérons le problème linéaire suivant

Trouver x∈IR

p

tel queQx=b (3.5)

où Q est une matrice symétrique définie positive de dimension p. Une des méthodes les

plus simples pour résoudre (3.5) est la méthode de Cauchy [40] définie par

x

n+1

=x

n

(Qr(r

n

, r

n

)

n

, r

n

) r

n

(3.6)

où r

n

= Qx

n

−b. Mais cette méthode converge lentement dans de nombreux cas. Pour

éviter cet inconvénient, Barzilai et Borwein [11] présentent une nouvelle méthode définie

par

x

n+1

=x

n

−t

n1

r

n

où t

n1

= (r

n1

, r

n1

)/(Qr

n1

, r

n1

) est le choix optimal (Choix de Cauchy) à l’itération

précédente ett

1

= 1. La convergence est étudiée dans [99], pour plus de détails voir aussi

[98]. Récemment, Raydan et al [100] présentent un nouveau schéma appelé méthode de

Cauchy-Barzilai-Borwein et notée CBB, qui améliore les méthodes de Barzilai-Borwein et

de Cauchy. Précisons que cette méthode appartient à une famille générale de méthodes à

gradient avec retard introduites dans [65]. Elle est décrite par l’algorithme suivant

3.2 Les méthodes ∆

k

ajustées 37

Prendre x

0

dansIR

p

, et à chaque itération n, calculer

t

n

= (r

n

, r

n

)/(r

n

, Qr

n

)

x

n+1

=x

n

−2t

n

r

n

+t

2n

Qr

n

. (3.7)

Des résultats numériques encourageants furent obtenus dans [100] et montrent la

per-formance de la méthode CBB. Précisons qu’à notre connaissance, aucun résultat théorique

ne justifie la performance de cette méthode par rapport à la méthode de Cauchy ou/et la

méthode de Barzilai et Borwein. Mais suite à ces résultats numériques, il semble naturel

d’essayer d’adapter la même idée au cas non linéaire. Pour cela, nous remarquons la

rela-tion suivante entre l’équarela-tion d’erreur de la méthode de Cauchy (Eq. (3.6)) et celle de la

méthode de Cauchy-Barzilai-Borwein (Eq. (3.7))

e

n+1

= (I−t

n

Q)

2

e

n

pour CBB et

(3.8)

e

n+1

= (I−t

n

Q)e

n

pour Cauchy,

où e

n

= x

n

−x. Précisons que ces deux équations découlent du fait que r

n

= Qe

n

et

Qr

n

=Q

2

e

n

. De ce fait, nous considérons la méthode CBB comme une méthode de Cauchy

au carré. Grâce à cette remarque, nous proposons dans la section suivante un nouveau

schéma pour le cas non linéaire.

3.2.2 Les nouveaux schémas

Nous supposons que nous sommes en dimension finie et que T est différentiable en

chacun de ses points fixes. Nous notonsψ la matrice jacobienne de T au point fixeX. En

posant ε

n

=X

n

−X l’erreur à lan

ième

étape, nous avons

T

j

(X

n

) =X +ψ

j

ε

n

+o(ε

n

).

Mais

k

X

n

=

k

X

i=0

(−1)

ik

C

ik

T

i

(X

n

)

où T

0

(X

n

) =X

n

et lesC

ik

désignent les coefficients binomiaux. Alors,

k

X

n

=

k

X

i=0

(−1)

ik

C

ik

X+

k

X

i=0

(−1)

ik

C

ik

ψ

i

ε

n

+o(ε

n

)

=

k

X

i=0

(−1)

ik

C

ik

ψ

i

ε

n

+o(ε

n

)

= (ψ−I)

k

ε

n

+o(ε

n

),

puisqueP

k i=0

(−1)

ik

C

k i

= (1−1)

k

= 0.

Ainsi, pour la méthode∆

k

donnée par (3.2), nous avons

ε

n+1

=h

I −(−1)

k

λ

n

(ψ−I)

k

i

3.3 Convergence 38

Par la remarque (3.8), nous voulons définir un nouveau schéma dont l’équation d’erreur

est

ε

n+1

=h

I−(−1)

k

λ

n

(ψ−I)

k

i2

ε

n

+o(ε

n

). (3.10)

La nouvelle méthode peut être alors décrite par l’algorithme suivant

Soit X

0

donné et pourn= 0,1, . . .

Calculer le paramètre de relaxation

λ

n

= (−1)

k

(∆X

n

,

k+1

X

n

)

(∆

k+1

X

n

,∆

k+1

X

n

)

Calculer X

n+1

par

X

n+1

=X

n

−2λ

n

(−1)

k

k

X

n

2n

2k

X

n

.

(3.11)

Nous l’appelons la méthode ∆

k

-ajustée. Pour k=1, le pas de relaxation de la méthode

1

-ajustée correspond au paramètre de Lemaréchal [85] et, pour k=2, nous retrouvons le

paramètre proposé par Chehab, c’est-à-dire le pas de relaxation de la méthode adaptative

de Marder-Weitzner [43]. Remarquons que, pour k=1, notre méthode requiert seulement

une somme vectorielle et un produit scalaire de plus par rapport à la méthode ∆

1

[28].

D’autre part, pour k=2, le nombre d’évaluations du terme non linéaire n’est pas le même.

En effet, la méthode ∆

2

-ajustée requiert une évaluation supplémentaire du terme non

linéaire par rapport à la méthode ∆

2

. Néanmoins, les expériences numériques montrent

que pourk=2, notre schéma est efficace. Mais, dans les autres cas, c’est-à-dire pourk >2,

la méthode∆

k

-ajustée ne semble pas être convenable puisque le coût du calcul du vecteur

2k

X

n

devient important. Dans la suite, nous étudions seulement les cask=1 etk=2.

3.3 Convergence

Discutons de la convergence des méthodes ∆

1

et ∆

2

ajustées.

En accord avec [28, Théorème 3] et [85, Eqn (1)], nous supposons que T est monotone

décroissante et satisfait une condition de Lipschitz, c’est-à-dire

∀ y, z, (T(y)−T(z), y−z)≤0 (3.12)

∃L >0 tel que ∀y, z, ||T(y)−T(z)|| ≤L||y−z|| (3.13)

où ||x||

2

= (x, x) pour tout x. Une propriété de monotonie, soit décroissante (≤ 0) soit

croissante (≥ 0), est souvent considérée par les auteurs. Voir (en plus de [28, 85]), [79]

où Korpelevich montre que son algorithme dit extragradient converge sous la condition de

monotonie croissante et aussi [87] pour les applications à des problèmes d’équilibre.

Remarquons que la condition (3.12) implique l’unicité de la solution X. Par (3.3) et

(3.4), nous avons

λ

n

= − (T(X

n

)X

n

, T

2

(X

n

)−2T(X

n

) +X

n

)

3.3 Convergence 39

Dans la suite, l’itéré X

n

est supposé différent de T(X

n

), sinon le calcul de X

n+1

s’avére

inutile. Soit D

n

>0le dénominateur de λ

n

. Nous avons les relations suivantes

λ

n

D

n

=||T(X

n

)−X

n

||

2

−(T(X

n

)−X

n

, T

2

(X

n

)−T(X

n

))

(1−λ

n

)D

n

=||T

2

(X

n

)−T(X

n

)||

2

−(T(X

n

)−X

n

, T

2

(X

n

)−T(X

n

))

qui montrent, par (3.12), queλ

n

∈]0,1]. Précisons qu’il peut-être montré de la même façon

queD

n

eststrictement positif. De plus, par définition des termes∆

k

X

n

et par (3.11) avec

k=1, nous avons

X

n+1

−X =a

n

(X

n

−X) +b

n

(T(X

n

)−X) +c

n

(T

2

(X

n

)−X)

avec les variables positivesa

n

, b

n

et c

n

définies par

a

n

= (1−λ

n

)

2

b

n

= 2λ

n

(1−λ

n

)

c

n

= λ

2n

.

Ainsi, nous avons

||X

n+1

−X||

2

= a

2n

||X

n

−X||

2

+b

2n

||T(X

n

)−X||

2

+c

2n

||T

2

(X

n

)−X||

2

+ 2a

n

b

n

(X

n

−X, T(X

n

)−X) + 2a

n

c

n

(X

n

−X, T

2

(X

n

)−X)

+ 2b

n

c

n

(T(X

n

)−X, T

2

(X

n

)−X).

Finalement, nous en déduisons à partir des hypothèses (3.12), (3.13), de l’inégalité de

Cauchy-Schwarz, et rappelant que T(X) =X, que

||X

n+1

−X||

2

≤M

n2

||X

n

−X||

2

,

avec M

2

n

= (a

n

+L

2

c

n

)

2

+b

2

n

L

2

>0.

Mais, M

n2

est un polynôme de degré 4 en la variable λ

n

M

n2

=P(λ

n

) = 1−4λ

n

+ (6 + 6L

2

2n

−(4 + 12L

2

3n

+ (1 +L

4

+ 6L

2

4n

.

Ce polynôme décroît sur [0, ξ] et croît sur[ξ,1], où ξ est l’unique zéro appartenant à [0,1]

de la dérivée de P, ce qui peut-être prouvé en dérivant P trois fois et en utilisant le fait

queλ

n

∈]0,1](voir l’annexe C (page 46) pour le détail des calculs). D’autre part,P(0) = 1

et P(1) =L

4

. Nous en déduisons donc le résultat suivant

Théorème 2.

– Si L <1, alors M

n

<1 et la méthode ∆

1

-ajustée converge,

– Si L≥1 et λ

n

< µ, où µest tel que P(µ) = 1, alors M

n

<1 et le nouveau schéma

converge.

3.4 Résultats numériques 40

Documents relatifs