oùT
0(X
n) =X
n,T
jdésigneT répétéejfois etC
ki
les coefficients binomiaux. Le paramètre
λ
nest choisi afin de minimiser la norme d’une approximation du résiduR
n=T(X
n)−X
n,
à l’étapen
ièmedu schéma ∆
ket il est donné par
λ
n= (−1)
k(∆X
n,∆
k+1
X
n)
(∆
k+1X
n,∆
k+1X
n). (3.4)
Dans ce chapitre, nous proposons une nouvelle méthode qui peut être considérée comme
une modification des méthodes ∆
k. A chaque itération du nouveau schéma, nous évaluons
le pas de descente λ
nde la méthode ∆
kune fois et l’utilisons deux fois. Ce chapitre
est organisé comme suit. Dans la section 3.2, nous rappelons une méthode intéressante
présentée dans [100] pour résoudre des systèmes linéaires. En particulier, nous effectuons
une remarque sur l’équation d’erreur. Cette remarque nous permet de définir le nouveau
schéma appelé la méthode ∆
k-ajustée. Sa convergence est étudiée dans la section 3.3.
Finalement, dans la dernière section, nous présentons des résultats numériques impliquant
un problème non linéaire elliptique, lesquels illustrent l’intérêt du nouveau schéma. Un
résultat numérique supplémentaire impliquant une distribution de Poisson est donné. Il
suggére que le nouveau schéma peut être étendu avec succès à un problème important en
statistique qui est l’accélération de l’algorithme E.M. ( Espérance-Maximisation).
3.2 Les méthodes ∆
kajustées
3.2.1 La méthode de Cauchy-Barzilai-Borwein
Considérons le problème linéaire suivant
Trouver x∈IR
ptel queQx=b (3.5)
où Q est une matrice symétrique définie positive de dimension p. Une des méthodes les
plus simples pour résoudre (3.5) est la méthode de Cauchy [40] définie par
x
n+1=x
n−(Qr(r
n, r
n)
n
, r
n) r
n(3.6)
où r
n= Qx
n−b. Mais cette méthode converge lentement dans de nombreux cas. Pour
éviter cet inconvénient, Barzilai et Borwein [11] présentent une nouvelle méthode définie
par
x
n+1=x
n−t
n−1r
noù t
n−1= (r
n−1, r
n−1)/(Qr
n−1, r
n−1) est le choix optimal (Choix de Cauchy) à l’itération
précédente ett
−1= 1. La convergence est étudiée dans [99], pour plus de détails voir aussi
[98]. Récemment, Raydan et al [100] présentent un nouveau schéma appelé méthode de
Cauchy-Barzilai-Borwein et notée CBB, qui améliore les méthodes de Barzilai-Borwein et
de Cauchy. Précisons que cette méthode appartient à une famille générale de méthodes à
gradient avec retard introduites dans [65]. Elle est décrite par l’algorithme suivant
3.2 Les méthodes ∆
kajustées 37
Prendre x
0dansIR
p, et à chaque itération n, calculer
t
n= (r
n, r
n)/(r
n, Qr
n)
x
n+1=x
n−2t
nr
n+t
2nQr
n. (3.7)
Des résultats numériques encourageants furent obtenus dans [100] et montrent la
per-formance de la méthode CBB. Précisons qu’à notre connaissance, aucun résultat théorique
ne justifie la performance de cette méthode par rapport à la méthode de Cauchy ou/et la
méthode de Barzilai et Borwein. Mais suite à ces résultats numériques, il semble naturel
d’essayer d’adapter la même idée au cas non linéaire. Pour cela, nous remarquons la
rela-tion suivante entre l’équarela-tion d’erreur de la méthode de Cauchy (Eq. (3.6)) et celle de la
méthode de Cauchy-Barzilai-Borwein (Eq. (3.7))
e
n+1= (I−t
nQ)
2e
npour CBB et
(3.8)
e
n+1= (I−t
nQ)e
npour Cauchy,
où e
n= x
n−x. Précisons que ces deux équations découlent du fait que r
n= Qe
net
Qr
n=Q
2e
n. De ce fait, nous considérons la méthode CBB comme une méthode de Cauchy
au carré. Grâce à cette remarque, nous proposons dans la section suivante un nouveau
schéma pour le cas non linéaire.
3.2.2 Les nouveaux schémas
Nous supposons que nous sommes en dimension finie et que T est différentiable en
chacun de ses points fixes. Nous notonsψ la matrice jacobienne de T au point fixeX. En
posant ε
n=X
n−X l’erreur à lan
ièmeétape, nous avons
T
j(X
n) =X +ψ
jε
n+o(ε
n).
Mais
∆
kX
n=
kX
i=0(−1)
i−kC
ikT
i(X
n)
où T
0(X
n) =X
net lesC
ikdésignent les coefficients binomiaux. Alors,
∆
kX
n=
kX
i=0(−1)
i−kC
ikX+
kX
i=0(−1)
i−kC
ikψ
iε
n+o(ε
n)
=
kX
i=0(−1)
i−kC
ikψ
iε
n+o(ε
n)
= (ψ−I)
kε
n+o(ε
n),
puisqueP
k i=0(−1)
i−kC
k i= (1−1)
k= 0.
Ainsi, pour la méthode∆
kdonnée par (3.2), nous avons
ε
n+1=h
I −(−1)
kλ
n(ψ−I)
ki
3.3 Convergence 38
Par la remarque (3.8), nous voulons définir un nouveau schéma dont l’équation d’erreur
est
ε
n+1=h
I−(−1)
kλ
n(ψ−I)
ki2
ε
n+o(ε
n). (3.10)
La nouvelle méthode peut être alors décrite par l’algorithme suivant
Soit X
0donné et pourn= 0,1, . . .
Calculer le paramètre de relaxation
λ
n= (−1)
k(∆X
n,∆
k+1X
n)
(∆
k+1X
n,∆
k+1X
n)
Calculer X
n+1par
X
n+1=X
n−2λ
n(−1)
k∆
kX
n+λ
2n∆
2kX
n.
(3.11)
Nous l’appelons la méthode ∆
k-ajustée. Pour k=1, le pas de relaxation de la méthode
∆
1-ajustée correspond au paramètre de Lemaréchal [85] et, pour k=2, nous retrouvons le
paramètre proposé par Chehab, c’est-à-dire le pas de relaxation de la méthode adaptative
de Marder-Weitzner [43]. Remarquons que, pour k=1, notre méthode requiert seulement
une somme vectorielle et un produit scalaire de plus par rapport à la méthode ∆
1[28].
D’autre part, pour k=2, le nombre d’évaluations du terme non linéaire n’est pas le même.
En effet, la méthode ∆
2-ajustée requiert une évaluation supplémentaire du terme non
linéaire par rapport à la méthode ∆
2. Néanmoins, les expériences numériques montrent
que pourk=2, notre schéma est efficace. Mais, dans les autres cas, c’est-à-dire pourk >2,
la méthode∆
k-ajustée ne semble pas être convenable puisque le coût du calcul du vecteur
∆
2kX
ndevient important. Dans la suite, nous étudions seulement les cask=1 etk=2.
3.3 Convergence
Discutons de la convergence des méthodes ∆
1et ∆
2ajustées.
En accord avec [28, Théorème 3] et [85, Eqn (1)], nous supposons que T est monotone
décroissante et satisfait une condition de Lipschitz, c’est-à-dire
∀ y, z, (T(y)−T(z), y−z)≤0 (3.12)
∃L >0 tel que ∀y, z, ||T(y)−T(z)|| ≤L||y−z|| (3.13)
où ||x||
2= (x, x) pour tout x. Une propriété de monotonie, soit décroissante (≤ 0) soit
croissante (≥ 0), est souvent considérée par les auteurs. Voir (en plus de [28, 85]), [79]
où Korpelevich montre que son algorithme dit extragradient converge sous la condition de
monotonie croissante et aussi [87] pour les applications à des problèmes d’équilibre.
Remarquons que la condition (3.12) implique l’unicité de la solution X. Par (3.3) et
(3.4), nous avons
λ
n= − (T(X
n)−X
n, T
2
(X
n)−2T(X
n) +X
n)
3.3 Convergence 39
Dans la suite, l’itéré X
nest supposé différent de T(X
n), sinon le calcul de X
n+1s’avére
inutile. Soit D
n>0le dénominateur de λ
n. Nous avons les relations suivantes
λ
nD
n=||T(X
n)−X
n||
2−(T(X
n)−X
n, T
2(X
n)−T(X
n))
(1−λ
n)D
n=||T
2(X
n)−T(X
n)||
2−(T(X
n)−X
n, T
2(X
n)−T(X
n))
qui montrent, par (3.12), queλ
n∈]0,1]. Précisons qu’il peut-être montré de la même façon
queD
neststrictement positif. De plus, par définition des termes∆
kX
net par (3.11) avec
k=1, nous avons
X
n+1−X =a
n(X
n−X) +b
n(T(X
n)−X) +c
n(T
2(X
n)−X)
avec les variables positivesa
n, b
net c
ndéfinies par
a
n= (1−λ
n)
2b
n= 2λ
n(1−λ
n)
c
n= λ
2n.
Ainsi, nous avons
||X
n+1−X||
2= a
2n||X
n−X||
2+b
2n||T(X
n)−X||
2+c
2n||T
2(X
n)−X||
2+ 2a
nb
n(X
n−X, T(X
n)−X) + 2a
nc
n(X
n−X, T
2(X
n)−X)
+ 2b
nc
n(T(X
n)−X, T
2(X
n)−X).
Finalement, nous en déduisons à partir des hypothèses (3.12), (3.13), de l’inégalité de
Cauchy-Schwarz, et rappelant que T(X) =X, que
||X
n+1−X||
2≤M
n2||X
n−X||
2,
avec M
2n
= (a
n+L
2c
n)
2+b
2n
L
2>0.
Mais, M
n2est un polynôme de degré 4 en la variable λ
nM
n2=P(λ
n) = 1−4λ
n+ (6 + 6L
2)λ
2n−(4 + 12L
2)λ
3n+ (1 +L
4+ 6L
2)λ
4n.
Ce polynôme décroît sur [0, ξ] et croît sur[ξ,1], où ξ est l’unique zéro appartenant à [0,1]
de la dérivée de P, ce qui peut-être prouvé en dérivant P trois fois et en utilisant le fait
queλ
n∈]0,1](voir l’annexe C (page 46) pour le détail des calculs). D’autre part,P(0) = 1
et P(1) =L
4. Nous en déduisons donc le résultat suivant
Théorème 2.
– Si L <1, alors M
n<1 et la méthode ∆
1-ajustée converge,
– Si L≥1 et λ
n< µ, où µest tel que P(µ) = 1, alors M
n<1 et le nouveau schéma
converge.
3.4 Résultats numériques 40
Dans le document
Méthodes d'Accélération de Convergence en Analyse Numérique et en Statistique
(Page 51-55)