• Aucun résultat trouvé

Algorithme 3MG dans le cas déterministe

3.3 Algorithme MM sous-espace

3.3.2 Algorithme 3MG dans le cas déterministe

Soit une fonction F :RN 7→R différentiable sur R dont on souhaite déterminer itérativement un minimiseur. Supposons que pour tout x ∈ RN, il existe A(x) ∈ RN×N symmétrique définie positive, telle que la fonction quadratique Q(·, x) de courbure A(x) est une approximation majorante deF enx. L’algorithme MM par sous-espace de [49] s’écrit :

x0 ∈RN

Pour k = 0,1, . . .

ChoisirDk ∈RN×Mk, xk+1∈Argmin

x∈ranDk

Q(x, xk).

(3.7)

52 Chapitre 3. Algorithmes de majoration-minimisation pour l’optimisation non convexe Pour tout k ∈ N, Dk est une matrice de RN×Mk, Mk > 1, dont chaque colonne peut être vue comme une direction dans laquelle on va rechercher la future itérée, et ranDk est l’espace vectoriel engendré par ces colonnes. Notons que, même siQ(·, xk) a un minimiseur unique surRN, elle n’est pas forcément minimisée de façon unique sur ranDk. En pratique, on choisit le minimiseur issu de l’inverse généralisé, c’est à dire :

(∀k ∈N) xk+1 =xk+Dksk, sk =−DkA(xk)Dk

DkF(xk). (3.8) Lorsque ranDk = RN, l’Algorithme 3.7 est équivalent à un algorithme MM qua-dratique “classique”. Cependant, on voit par l’Equation (3.8) que chaque itération k ∈ N, nécessite dans ce cas d’inverser la matrice A(xk), de dimension N ×N, ce qui peut être très prohibitif dans le contexte de la grande dimension. Une meilleure solution est de prendre Mk assez petit, et des directions de recherche bien choisies, afin de réduire la complexité par itération tout en préservant une vitesse de conver-gence raisonnable (voir [49, Tab.I] pour une liste de choix possibles pour la matrice Dk) .

La convergence de la suite (∇F(xk))k∈N vers 0 avait été montrée dans [49], pour une séquence de {A(xk)}k∈N à spectre borné, et sous l’hypothèse faible que ranDk

contienne une direction “gradient reliée” [23] (ex : gradient, gradient préconditionné).

Nous avions effectué de nombreux tests numériques dans [49], comparant, sur des exemples de restauration d’images, l’Algorithme 3.7 avec des méthodes d’optimi-sation différentiables usuelles tel que le gradient conjugué non linéaire [106], l’al-gorithme de Newton tronqué et l’all’al-gorithme L-BFGS [134]. Ces tests illustraient le fait que le choix du sous-espace avait une influence importante sur la vitesse de l’algorithme, le meilleur compromis étant réalisé pour le sous-espace de mémoire de gradient [145], engendré par la direction de plus grande pente, et la différence des itérés précédentes, donnant lieu à l’algorithme 3MG (Majorize-Minimize Me-mory Gradient). Ces travaux prometteurs nous ont amenés à effectuer une analyse plus poussée de la convergence de la méthode, dans un cadre non nécessairement convexe, et également une analyse théorique de sa vitesse. Les résultats obtenus ont été publiés dans [50, 62], et j’en présente ici un résumé.

Résultats de convergence :

Théorème 3.3.1 Soit(xk)k∈Nla suite générée par l’Algorithme3.7. Supposons que :

F :R→R est coercive et différentiable,

Il existe (ν, ν)∈]0,+∞[2 tel que (∀k ∈N) νIN A(xk)νIN,

Pour tout k ∈ N, δkranDk, avec δk ∈ RN gradient-reliée i.e., il existe0, γ1)∈]0,+∞[2 tel que pour tout k ∈ N, h∇F(xk)|δki 6−γ0k∇F(xk)k2 et kδkk6γ1k∇F(xk)k.

Supposons en outre queF satisfait l’inégalité de Kurdyka-Łojasiewicz. Les assertions suivantes sont alors satisfaites :

3.3. Algorithme MM sous-espace 53 (i) La suite (∇F(xk))k∈N converge vers 0. La suite (F(xk))k∈N est décroissante et

converge vers F(x)e xb est un point critique de F. (ii) La suite (xk)k∈N converge vers x.b

Notons que le résultat de convergence que nous avons établi dans [50] était un peu plus général, au sens où l’algorithme étudié faisait intervenir des sous-itérations dans la règle de mise à jour à l’intérieur du sous-espace. Cependant, nous avons remarqué qu’en pratique, ces sous-itérations n’apportaient pas d’accélération significative à l’algorithme. Par ailleurs, notons qu’une extension de ce résultat, pour le traitement de fonctions à variables complexes a été présentée dans notre article [95], dans le cadre de l’application de l’Algorithme 3.7 à la reconstruction d’images en Imagerie par Résonance Magnétique multi-canaux.

Vitesse de convergence : Présentons maintenant le résultat de vitesse de conver-gence que nous avons établi dans [62]. Considérons une fonctionF fortement convexe de la forme :

(∀x∈RN) F(x) = 1

2xRxrx+ Ψ(x), (3.9) où R ∈ RN×N est symmétrique définie positive, r ∈ RN, et Ψ : RN 7→ R est une fonction bornée inférieurement, deux fois continuement différentiable et convexe sur RN. Dans ce cas, une forme générique pour la matrice de majorationA(·) peut être : (∀x∈RN) A(x) =R+B(x), (3.10) telle qu’il existe une matriceV ∈RN×N définie positive telle que, pour tout k ∈N,

2Ψ(xk)B(xk)V.

Théorème 3.3.2 Soit F donnée par (3.9), et (xk)k∈N la suite générée par l’Algo-rithme 3.7. Soit ǫ ∈]0,+∞[ tel que ǫINR et kǫ ∈ N tel que, pour tout k > kǫ,

2F(xk)RǫIN. Alors pour toutk >kǫ,

F(xk+1)−infF 6θk(F(xk)−infF), (3.11) avec θk = 1−(1 +ǫ)−1θek, et

θek =

F(xk)C(xk)∇F(xk)

F(xk)2F(xk)−1F(xk), C(xk) = Dk(DkA(xk)Dk)Dk. (3.12)

A partir du Théorème 3.3.2, on peut montrer (voir détails dans [62]) que θk ap-partient à ]0,1[ et est maximal (ce qui correspond au pire cas en terme de vitesse de convergence) lorsque Dk = ∇F(xk). Dans ce cas, la vitesse est d’autant plus lente que la matrice Hessienne deF enxkest mal conditionnée. A l’inverse, lorsque le sous-espace est tel que ranDk =RN,θk est minimal (i.e. la convergence est rapide) et est

54 Chapitre 3. Algorithmes de majoration-minimisation pour l’optimisation non convexe d’autant plus petit que la fonction quadratique majorante constitue une approxima-tion fine de la foncapproxima-tion à minimiser. Un taux intermédiaire est obtenu pour le sous-espace de mémoire de gradient employé dans 3MG, avec l’avantage important d’une complexité réduite par itération. Cela confirme les résultats observés en pratique sur différentes applications [49, 50]. Enfin, soulignons qu’en conséquence du Théorème 3.3.2, l’algorithme MM sous-espace converge linéairement, avec un taux directement lié au spectre deR+V, et à la norme de la matriceA(xk)122F(xk)−1A(xk)12 quantifiant la qualité d’approximation de la fonction majorante. Outre son interpré-tation intéressante, le résultat que nous avons obtenu est très novateur, les seules analyses de la vitesse de convergence des approches MM quadratiques existant dans la littérature étant limitées au cas des algorithmes de type semi-quadratiques (cor-respondant au cas d’un sous-espace engendrant l’espace RN complet) [6,150].