6.6.3 ´ Evaluation r´etrograde - Méthodes numériques et optimisation, un guide du consommateur

Evaluer (6.114) de façon rétrograde (de la droite vers la gauche) est parti-culièrement économique en flops, car chaque résultat intermédiaire est un vecteur de même dimension que b (c’est à dire dim v), tandis qu’une évaluation progres-sive (de la gauche vers la droite) produirait des résultats intermédiaires de mêmes dimensions que C (c’est à dire dim x× dimv). Plus dimx est grand, plus il de-vient économique de choisir l’évaluation rétrograde. Résoudre (6.114) de façon rétrograde implique de calculer la récurrence

d_k₋₁= Akd_k, k= N,··· ,1, (6.118) qui remonte le “temps”, `a partir de la condition terminale

La valeur du gradient de f(·) en x0est finalement donn´ee par ∂ f

∂ x(x0) = Cd0, (6.120) ce qui revient à dire qu’elle est contenue dans les dim x premiers éléments de d₀. Le vecteur d_k a la même dimension que v_ket est appelé son vecteur adjoint (ou vecteur dual). La récurrence (6.118) est mise en œuvre dans un code adjoint, déduit du code direct par dualisation, comme expliqué ci-dessous. Voir la section 6.7.2 pour un exemple détaillé.

6.6.3.1 Dualisation d’une instruction d’affectation

Examinons

A_k=^{∂ Φ}^Φ^Φ

T k

∂ v (vk−1) (6.121) plus en d´etail. Rappelons que

[ΦΦΦ_k(v_k−1)]_µ(k)= φ_k(v_k−1), (6.122) et

[ΦΦΦk(vk−1)]_i= vi(k− 1), ∀i 6= µ(k), (6.123) où v_i(k−1) est la i-ème composante de vk−1^{. Ceci a pour conséquence que A}k s’ob-tient en remplaçant la µ(k)-ème colonne de la matrice identité Idim vpar le vecteur

∂ φ_k ∂ v(vk−1) pour obtenir A_k=            1 0 ··· ∂ φ_k ∂ v₁(vk−1) 0 0 . ._. ₀ .._. .._. .. . 0 1 .._. .._. .. . .._. ₀ ∂ φ_k ∂ vµ(k)(vk−1) 0 0 0 0 .._. ₁            . (6.124)

La structure de A_k révélée par (6.124) a des conséquences directes sur les instruc-tions d’affectation à inclure dans le code adjoint pour mettre en œuvre (6.118).

La µ(k)-ème composante de la diagonale principale de Akest la seule pour la-quelle le un de la matrice identité a disparu, ce qui explique pourquoi la µ(k)-ème composante de d_k₋₁requiert un traitement spécial. Soit d_i(k− 1) la i-ème compo-sante de d_k−1. À cause de (6.124), la récurrence (6.118) équivaut à

d_i(k− 1) = di(k) +^{∂ φ}^k ∂ vi

(vk−1)d_µ(k)(k), ∀i 6= µ(k), (6.125) d_µ(k)(k− 1) = ^{∂ φ}^k

∂ v_µ(k)(vk−1)d_µ(k)(k). (6.126) Pour calculer d₀, il n’est pas nécessaire de stocker les valeurs successives prises par le vecteur dual d, et l’indexation de d par le “temps” peut donc être évitée. Les (pseudo) instructions adjointes pour

v_µ(k):= φ_k({vi| i ∈ Ik}); seront alors, dans cet ordre

for all i∈ Ik, i6= µ(k), do di:= di+∂ φ_k

∂ v_i(vk−1)d_µ_(k); d_µ(k):= ∂ φ_k

∂ vµ(k)(v_k₋₁)d_µ(k);

Remarque 6.11.Si φkdépend non linéairement de certaines variables du code direct, alors le code adjoint fera intervenir les valeurs prises par ces variables, qui devront donc être stockées lors de l’exécution du code direct avant l’exécution du code ad-joint. Ces exigences de stockage sont une limitation de l’évaluation rétrograde. Exemple 6.12.Supposons que le code direct contienne l’instruction d’affectation

cost:= cost+(y-ym)2; de sorte que φk= cost+(y-y_m)2.

Soient dcost, dy et dy_mles variables duales de cost, y et y_m. La dualisation de cette instruction produit les (pseudo) instructions suivantes pour le code adjoint

dy:= dy +∂ φ_k

∂ y dcost= dy + 2(y-ym)dcost; dy_m:= dy_m+∂ φ_k

∂ ym dcost= dy_m− 2(y - ym) dcost; dcost:= ∂ φ_k

∂ cost dcost= dcost; % inutile

Une seule instruction du code direct s’est donc traduite par plusieurs instructions du

code adjoint.

6.6.3.2 Ordre de dualisation

Rappelons que le rôle du temps est tenu par le passage d’une instruction d’af-fectation à la suivante. Puisque le code adjoint est exécuté en temps rétrograde, les groupes d’instructions duales associés à chacune des instructions d’affectation du code direct seront exécutés dans l’ordre inverse de l’exécution des instructions d’af-fectation correspondantes du code direct.

Quand le code direct comporte des boucles, inverser le sens du temps revient `a inverser le sens de variation de leurs compteurs d’it´erations ainsi que l’ordre des

instructions dans chacune des boucles. En ce qui concerne les branchements condi-tionnels, si le code direct contient

if (C) then (code A) else (code B); alors le code adjoint doit contenir

if (C) then (adjoint de A) else (adjoint de B); et la valeur vraie ou fausse prise par la condition C pendant l’exécution du code direct doit être mémorisée pour que le code adjoint sache quelle branche suivre.

6.6.3.3 Initialisation du code adjoint

La condition terminale (6.119) avec b donné par (6.117) signifie que toutes les variables duales doivent être initialisées à zéro, sauf celle associée à la valeur de

f(x0), qui doit être initialisée à un.

Remarque 6.12.v, d et Ak ne sont pas mémorisés en tant que tels. Seules les va-riables directes et duales interviennent. On améliore la lisibilité du code adjoint en utilisant une convention systématique pour nommer les variables duales, par exemple en ajoutant un d en tête du nom de la variable dualisée comme dans

l’exemple 6.12.

6.6.3.4 En r´esum´e

La procédure de différentiation automatique via l’usage d’un code adjoint est résumée par la figure 6.2.

f (x0) x0

d0 dN

Une exécution du code direct

Une exécution du code adjoint dans d0

Gradient

(utilise des informations du code direct)

La méthode à base de code adjoint évite les erreurs de méthode dues aux ap-proximations par différences finies. La génération du code adjoint à partir du source du code direct est systématique et peut être automatisée.

Le volume de calcul requis pour évaluer la fonction f(·) et son gradient est ty-piquement de l’ordre de trois fois celui requis par la seule évaluation de la fonction quelle que soit la dimension dex (à comparer avec l’approche à base de différences finies, pour laquelle l’évaluation de f(·) doit être répétée plus de dimx fois). La méthode à base de code adjoint est donc particulièrement appropriée quand

— dim x est tr`es grand, comme dans certains probl`emes de traitement d’images ou d’optimisation de formes,

— de nombreuses ´evaluations de gradients sont n´ecessaires, comme c’est sou-vent le cas en optimisation,

— l’´evaluation de f(·) est longue ou coˆuteuse.

Par contre, cette méthode ne peut être appliquée que si le source du code direct est disponible et différentiable. Une mise en œuvre à la main demande du soin, car une seule erreur de codage peut rendre le résultat invalide. (Il existe des techniques de vérification partielle, qui exploitent le fait que le produit scalaire du vecteur dual avec la solution des équations d’état linéarisées doit rester constant le long de la tra-jectoire de l’état.) Finalement, l’exécution du code adjoint requiert la connaissance des valeurs prises par certaines variables lors de l’exécution du code direct (les va-riables qui interviennent de façon non linéaire dans des instructions d’affectation du code direct). Il faut donc stocker ces valeurs, ce qui peut poser des problèmes de taille de mémoire.

Dans le document Méthodes numériques et optimisation, un guide du consommateur (Page 135-139)