Méthodes itératives génériques - Algorithmes d'optimisation de critères pénalisés pour la r

L’optimisation est un domaine très riche des mathématiques appliquées. Cette section se propose de faire un tour d’horizon de certains algorithmes itératifs employés pour la minimisation des critères pénalisés différentiables. Ces algorithmes itératifs peuvent être regroupés selon deux familles. La première famille se compose des algorithmes de relaxation, qui consistent à fragmenter le problème de minimisation initial en une série de sous-problèmes de dimension réduite. La deuxième famille se compose des méthodes travaillant sur l’ensemble de l’espace solution, en utilisant le gradient du critère pénalisé.

IV.3 Méthodes itératives génériques

IV.3.1

Algorithmes de relaxation

L’algorithme de relaxation coordonnée par coordonnée minimise le critère _{J en minimisant} le critère monovarié J(n) _{associé `}_{a la variable x}(n) _{mis à jour `}_{a la k + 1 itération selon}

x(n)_k+1 = arg min

u J

(n)_(u) _(IV.8)

o`u

J(n)(u) =_{J (x}(1)_k+1, . . . , x(n−1)_k+1 , u, x(n+1)_k , . . . , x(N )_k )

une itération complète k→ k + 1 est obtenue après un balayage complet des N composantes de x. Ce schéma itératif coordonnée par coordonnée est connu sous le nom de méthode de Gauss Seidel. On peut citer [Bouman et Sauer, 1996; Erdogan et Fessler, 1999] pour l’emploi de ces algorithmes itératifs dans le domaine de la reconstruction d’images.

Notons que les méthodes de relaxation ne sont pas limitées à la mise à jour coordonnée par coordonnée, mais qu’elles peuvent mettre en jeu des blocs de coordonnées. Dans ce cas, chaque itération conduit à des sous problèmes d’optimisation multivariés. Une condition suffisante de convergence globale de ces algorithmes de relaxation est la convexité stricte du critère et le fait que l’ensemble des lignes de niveaux soit un compact [Tseng et Bertsekas,1987, p. 306].

Un des inconvénients de ces algorithmes de relaxation réside dans leur faible taux de convergence. Le taux de convergence des algorithmes de relaxation peut se révéler bien plus faible que celui de l’algorithme de plus forte descente [Nocedal et Wright, 1999, p. 54]. Notons que l’ordre dans lequel la relaxation est mise en œuvre a une influence parfois sensible sur le taux de convergence.

IV.3.2

Algorithmes `a directions de descente

Les algorithmes à directions de descente sont des schémas itératifs répandus en optimisation et largement employés pour la minimisation des critères pénalisés. Nous présentons à présent certaines des variantes les plus courantes.

[A] Forme g´en´erale

A l’itération courante k, la mise à jour s’écrit

x_k+1 = xk+ θkdk

avec dk et θk respectivement la direction de déplacement et le pas. Les méthodes à directions de descente assurent que la direction dk fait décroˆıtre strictement le critère

J (xk+1) <J (xk)

si le pas θk > 0 est choisi suffisamment petit. Cependant, garantir la d´ecroissance stricte ne suffit pas `a garantir la convergence globale de ces algorithmes.

Nous passons en revue les algorithmes à directions de descente les plus répandus dans le domaine du traitement de l’image, soit les algorithmes de plus forte descente, du gradient conjugué et de quasi-Newton. Ces algorithmes se distinguent par le type de direction de descente employée. L’efficacité varie sensiblement d’un algorithme à l’autre.

Minimisation des critères pénalisés

[B] Algorithme de plus forte descente

On commence par l’algorithme `a directions de descente le plus simple. Cet algorithme produit une mise `a jour courante suivant la plus forte pente locale

dk=−∇J (xk).

L’algorithme de plus forte descente est connu pour son faible taux de convergence en comparai- son du gradient conjugué ou d’une méthode de quasi-Newton. Ainsi, on lui préfère souvent un algorithme du gradient conjugué qui permet une convergence plus rapide au prix d’un encom- brement mémoire et d’un coût de calcul par itération très légèrement supérieur.

[C] Algorithmes du gradient conjugu´e

L’algorithme du gradient conjugué est une méthode d’optimisation qui a été initialement proposé par [Hestenes et Stiefel, 1952] pour la minimisation de critères quadratiques dont le Hessien est symétrique défini positif. Cet algorithme a ensuite été étendu à des critères non quadratiques donnant naissance à de nombreuses variantes. Nous reviendrons de manière dé- taillée sur cette famille d’algorithmes dans le chapitreVI.

[D] Algorithmes de quasi-Newton

L’algorithme de Newton calcule une direction de déplacement à partir du Hessien∇2_{J (x} k) du critère _{J au point courant}

d_k=−(∇2J (xk))−1∇J (xk).

Cette méthode ne permet pas d’assurer dans le cas général que dkest une direction de descente. En particulier, cet algorithme n’est pas défini lorsque le Hessien est singulier. L’algorithme de Newton a souvent un comportement pathologique et peut diverger ou cycler sans converger [Bertsekas, 1999, p. 92]. Il ne peut donc généralement pas être utilisé tel quel et doit être modifié. De plus, le coût en ressources informatiques (temps et stockage) du calcul de l’inverse du Hessien devient vite prohibitif pour les critères pénalisés en fonction de la taille du problème. Les formes de quasi-Newton ne calculant pas explicitement l’inverse du Hessien ont un coût bien plus faible. Ainsi, les algorithmes de quasi-Newton sont préférés à l’algorithme de Newton pour des raisons de convergence et de meilleure efficacité.

Les directions de descente des algorithmes de quasi-Newton ont la structure suivante [Noce- dal et Wright,1999, p. 194]

dk =−M−1_k ∇J (xk) (IV.9)

où Mk est une matrice définie positive. La matrice Mkest choisie de telle sorte que la direction dk résultante tende à approcher la direction de Newton. Le principe des algorithmes de quasi- Newton est d’établir un compromis entre l’efficacité de la méthode de Newton en terme de taux de convergence et le coût de calcul.

L’algorithme BFGS est un représentant classique des ces algorithmes de quasi-Newton [No- cedal et Wright,1999, p. 194]. L’intérêt de cet algorithme est que le calcul de la direction ne fait pas intervenir d’inversion de matrice contrairement à l’algoritme de Newton [Nocedal et Wright,

1999, p. 198]. Cependant, l’algorithme BFGS semble peu utilisé pour les problèmes de traitement d’images. D’autres algorithmes de quasi-Newton sont utilisés à la place de l’algorithme BFGS en traitement de l’image. Il s’agit des algorithmes semi-quadratiques, présentés dans la section suivante.

Dans le document Algorithmes d'optimisation de critères pénalisés pour la restauration d'images. Application à la déconvolution de trains d'impulsions en imagerie ultrasonore. (Page 57-60)