Gradient conjugué sans recherche linéaire Généralités sur le gradient conjugué

données BOS

4. Nous implémentons notre algorithme de reconstruction sur une architecture parallèle afin d’obtenir des temps de calcul raisonnables malgré le coût des

2.3.5 Minimisation du critère

2.3.5.2 Gradient conjugué sans recherche linéaire Généralités sur le gradient conjugué

Comme la descente du gradient, le gradient conjugué ne fait appel qu’à des infor-mations sur la dérivée première de la fonction objectif. La différence se fait sur le calcul de la direction de descente. En effet, cette méthode utilise une combinaison linéaire du gradient courant et de la direction de descente précédente pour choisir la direction courante. Cette méthode est réputée pour sa rapidité de convergence mais présente comme désavantage de nécessiter le stockage de plus d’informations que la descente de gradient et peut donc limiter la taille des cas à reconstruire.

D’une manière générale, le gradient conjugué alterne donc les 2 équations suivantes :

x_k₊₁ =x_k+α_kd_k (2.52)

où le pas α_kest obtenu grâce à une recherche linéaire et la direction d_k est générée par,

d_k+1=−r_k₊₁+β_kd_k , d₀ =−r₀ (2.53) où β_k est le paramètre de mise à jour de la direction et r_k=∇J(xk)

Dans le cas du gradient conjugué non linéaire, c’est-à-dire si la fonction objectif est non quadratique, de nombreuses versions coexistent, elles diffèrent généralement pour le calcul du β qui permet de remettre à jour la direction de descente (Hager et Zhang (2006)). Parmi les paramètres les plus utilisés on retrouve ceux issus des travaux de Fletcher-Reeves (FR), Polak-Ribière (PR), Hestensee-Stiefel (HS), Dai-Yuan (DY) et la méthode de descente conjugué (DC),

β^{F R}_k = ^{|| r}^k⁺¹ ^|| 2 || r_k||2 (2.54) β_k^{P R} = ^r T k+1(r_k+1− r_k) || r_k||2 (2.55) β_k^HS = ^r T k+1(rk+1− r_k) (r_k+1− r_k)Td_k ^(2.56) β_k^DY = ^{|| r}^k⁺¹^|| 2 (r_k₊₁− r_k)Td_k ^(2.57) β_k^CD = ^{− || r}^k⁺¹ ^|| 2 rT kd_k ^(2.58)

Lorsque la fonction objectif est quadratique, tous les algorithmes basés sur ces différents paramètres présentent le même comportement. Dans le cas non linéaire les

comportements changent et le choix d’une méthode particulière est généralement fait de manière empirique en fonction du problème considéré.

Contrairement à la méthode du gradient conjugué linéaire, où l’on peut calculer de manière explicite le pas de descente, α, en minimisant exactement la parabole α 7→ J(ρ+αd), lorsque les fonctions à minimiser sont non quadratiques il est nécessaire d’effectuer une recherche de pas. Nous avons déjà mis en avant le fait que ces recherches sont lourdes à mettre en œuvre. Néanmoins, depuis les travaux de Sun et Zhang (2001) une méthode explicite de choix du pas de descente pour les méthodes de gradient conjugué non linéaires avec preuve de convergence a été décrite.

Travaux de Sun et Zhang (2001)

La formule développée par Sun et Zhang (2001) est valable pour les méthodes PR et CD lorsque la fonction objectif est Lipschitz continue au premier ordre (LC¹) et pour les méthodes FR, HS et DY pour les fonctions LC¹ et fortement convexes. Avant de donner la formule choisie par Sun et Zhang (2001), nous reprécisons les conditions nécessaires pour qu’une fonction soit LC¹ ou LC¹ et fortement convexe.

Une fonction J est LC¹ dans le voisinage N d’un ensemble L := { x ∈Rⁿ| J(x)<

J(x1)} et L borné si le gradient ∇J(x) est Lipschitz continue de module µ, c’est à dire qu’il existe µ>0 tel que,

|| ∇J(x_k₊₁)− ∇J(x_k)||≤ µ || x_k₊₁− x_k|| (2.59) pour x_k∈ N .

Une fonction J(x)est LC¹ et fortement convexe sur N si il existe ζ >0 tel que,

[∇J(x_k₊₁)− ∇J(x_k)]^T (x_k₊₁− x_k)≥ ζ || x_k₊₁− x_k||2 (2.60) pour tout x_k₊₁, x_k∈ N .

Sun et Zhang (2001) assument qu’il existe ν_min > 0 et νmax > 0 de telle façon

que pour tout ρ ∈Rⁿ on puisse définir {Q_k} comme une séquence de matrices définies positives :

νmind^Td ≤ d^TQkd ≤ νmaxd^Td (2.61) Le formule explicite de calcul du pas est la suivante,

αk= − ^θr T kdk || d_k||2 Qk (2.62) où || d_k||_Q_k= q d^TQ_kd et θ ∈(0, ν_min/µ).

Les auteurs ont montré qu’en utilisant cette formule pour des fonctions répondant aux contraintes définies précédemment, la méthode du gradient conjugué est globale-ment convergente pour les différentes formules de β présentées. Ceci est particulièreglobale-ment intéressant puisque cela permet d’éviter l’étape complexe et lourde de recherche linéaire. La séquence de matrices {Q_k} n’est pas autrement définie que par les contraintes de l’Eq. (2.61) mais les auteurs notent qu’une matrice qui comporterait des informations du second ordre sur la fonction objectif pourrait être pertinente.

Travaux de Labat et Idier (2008)

A la suite de ces travaux, Labat et Idier (2008) ont noté que la formule de Sun et Zhang (2001) fournissait des pas trop faibles à cause de conditions de convergence trop strictes (θ ∈(0, ν_min/µ)). Ils ont montré la convergence du gradient conjugué pour des valeurs de pas beaucoup moins restrictives (theta dans (0, 2)), pour plusieurs formules de conjugaison classiques (sauf Fletcher-Reeves). Accessoirement, leur étude permet aussi d’itérer le calcul de pas sur un nombre fini d’itérations I.

La stratégie itérative de choix de pas est la suivante,

α_k=α¹_k=0, si d_k =0; (2.63) sinon, α⁰_k =0; (2.64) αⁱ_k⁺¹ =α_kⁱ −^θd T k∇J(xk+αⁱ_kdk) d^T_kQi kd_k ^{, i ∈ {0, · · · , I − 1} ,} ^(2.65) α_k =α^I_k (2.66)

Notons que dans le cas I = 1, on retrouve la formule de l’équation (2.62).

Les auteurs ont testé leur stratégie pour les algorithmes de gradient conjugué de type Polak-Ribière avec d’une part le calcul du pas de manière explicite via leur formule pour différents nombres d’itérations et, d’autre part, une stratégie de recherche linéaire classique (Algorithmes 3.2 et 3.3 dans Nocedal et Wright (1999)). Ces tests ont été conduits sur des cas de restauration d’image de taille 512² avec régularisation L₂L₁ où la fonction objectif à minimiser est la suivante,

J(x) = ¹ 2 || Ax − y ||² +λ C X c=1 Φ([Dx]_c) (2.67)

où C est le nombre total d’éléments du vecteur Dx, D est l’opérateur de dérivation et Φ(u)la fonction de régularisation telle que,

Φ(u) =^q|| u ||2 +δ2 (2.68)

Notons que cette fonction de régularisation est la même que celle que nous utilisons dans le cadre de la régularisation L₂L₁ (Eq. 2.43).

Pour le calcul explicite du pas, θ est fixé à 1 et le choix de la séquence de matrices

Qⁱ_k est :

Qⁱ_k=Q_GR(x_k+αⁱ_kd_k) (2.69) où,

Q_GR(u) =A^TA+λD^T Diag{Vect[Φ0([Du]_c)/[Du]_c]}D (2.70) Afin de rendre plus concrète la matrice Q_k, nous présentons sa valeur pour I = 1 dans le cadre de :

– la régularisation quadratique,

Φ(u) =|| u ||2 (2.71)

– la régularisation L₂L₁,

Φδ(u) =^q|| u ||2 +δ2 (2.73)

Qk =A^TA+λD^TDiag{p ¹

|| u ||2

c +δ2}D (2.74)

On constate que dans le cadre quadratique la matrice Q_k est la matrice Hessienne qui est constante. Dans le cas L₂L₁ la matrice Q_k dépend du point où l’on se place et correspond à une approximation de la matrice Hessienne. L’étude présentée dans ces travaux reposent sur des images de taille 512² ce qui permet le calcul et le stockage des matrices.

Au final, les résultats des tests montrent que le nombre d’itérations de la méthode avec calcul explicite et de celle avec recherche linéaire est proche mais le temps effectif de calcul est environ le double pour les méthodes avec recherche linéaire. Les auteurs ont également montré que le nombre d’itérations nécessaires à la détermination du pas est faible (I =1 ou I = 2), au delà on n’obtient pas d’améliorations notables mais le temps de calcul augmente.

Travaux de Wu (2011)

Wu (2011) a cherché à simplifier le calcul du pas proposé par Sun et Zhang (2001) en mettant en place une formule de pas explicite qui n’utilise pas de matrice Q_k mais utilise les informations sur la fonction objectif et sur le gradient de celle-ci. Notons que dans ces travaux il est nécessaire que la fonction objectif soit LC1et fortement convexe.

La formule proposée est la suivante,

αk =− ^θr T kdk (∇J(x_k+d_k)− r_k)Td_k+γτ_k ^(2.75) où, τ_k =6(J(x_k)− J(x_k+d_k)) +3(r_k+∇J(x_k+d_k))^Td^k, (2.76) θ ∈(0, ζ/µ) (2.77) et, γ ≥ 0 si µ=ζ, ou γ ∈(0, ζ − θµ 3(µ − ζ)⁾ ^(2.78)

où ζ et µ sont définis dans les équations (2.59) et (2.60).

Comparaison des travaux de Labat et Idier (2008) et Wu (2011)

Afin de déterminer la méthode la plus pertinente dans nos travaux, nous avons implémenté sur un exemple de débruitage 1D de taille modéré les stratégies de pas de Labat et Idier (2008) et Wu (2011). Pour le calcul du pas de Labat et Idier (2008), nous avons choisi θ =1 et la méthode qui utilise qu’une seule itération pour la déter-mination du pas puisqu’elle a prouvé être aussi performante que celles nécessitant plus d’itérations.

La fonction à minimiser est la fonction définie dans l’équation (2.67) avec la régu-larisation présentée dans l’équation (2.68). Le pseudo-code est détaillé ci-dessous, les indices LI et W sont respectivement pour Labat et Idier (2008) et Wu (2011).

x⁰ = vecteur initial r⁰ =∇J(x⁰) d⁰ = -r⁰ for k = 0, 1, 2, . . . α_k =α_LI ou α_W x^k⁺¹ =x^k+α_kd^k r^k⁺¹ =∇J(x^k) β_k=hrk+1, r^k⁺¹− rki /|| rk||2 c^k⁺¹ =−rk+1+βkd^k d^k⁺¹=−ck+1· sign(r^{T k}⁺¹· ck+1) end

Nous avons tracé les critères J dans les deux cas sur la figure 2.12, nous constatons que le nombre d’itérations nécessaire à la convergence est bien supérieur dans le cas de l’utilisation du pas de Wu (2011), il en est de même pour le temps total d’obtention de la convergence.

Figure 2.12 – Convergence des méthodes de Labat et Idier (2008) et Wu (2011)

Malgré la mise en avant de la simplicité de la formule du pas de Wu (2011), leur méthode nécessite tout de même d’évaluer des quantités qui ne sont pas habituellement évaluées dans la méthode du gradient conjugué. La complexité de la méthode de Labat

et Idier (2008) est surtout apparente puisque dans le cas choisi (I =1 et régularisations quadratique (Eq. 2.71) et L₂L₁ (Eq. 2.73)) les formules de calcul de la matrice Q_k (Eq. 2.72 et 2.74) sont relativement simples. Notons que dans notre étude nous calculons à chaque itération les termes nécessaires au calcul du pas de descente et les matrices ne sont donc pas stockées. Les détails sont présentés dans la section 2.4.

Conclusion

Suite à ces comparaisons, nous avons donc mis en place dans notre algorithme, la méthode de Labat et Idier (2008) avec le pseudo-code suivant,

ρ⁰ = vecteur initial r⁰ =∇J(ρ⁰) d⁰ = -r⁰ for k = 0, 1, 2, . . . α_k =−rT kd^k/d^{T k}Q_kd^k ρ^k⁺¹ =ρ^k+αkd^k rk+1 =∇J(ρk) β_k=hrk+1, r^k⁺1− rki /|| rk||2 c^k⁺¹ =−rk+1+β_kd^k d^k⁺¹=−ck+1· sign(r^{T k}⁺¹· ck+1) end

Au final, nous avons implémenté deux stratégies de minimisation des deux critères que nous avions défini :

– la descente de gradient

– le gradient conjugué avec la formulation de Labat et Idier (2008)

Une dernière approche, nécessitant une nouvelle formulation des critères à minimiser a également été mise en œuvre.

Dans le document Mesure d'un champ de masse volumique par Background Oriented Schlieren 3d. Etude d'un dispositif expérimental et des méthodes de traitement pour la résolution du problème inverse. (Page 82-87)