Différentiation automatique - Intégrer et différentier des fonctions

Int´egrer et diff´erentier des fonctions

6.6 Diff´erentiation automatique

. (6.99) L’évaluation de gradients, au cœur de certaines des méthodes d’optimisation les plus efficaces, est considérée plus en détail dans la section qui suit, dans le cas particulier important où la fonction à différentier est évaluée par un code numérique.

6.6 Diff´erentiation automatique

Supposons la valeur numérique de f(x0) calculée par un code numérique, dont les variables d’entrée incluent les éléments de x₀. Le premier problème considéré dans cette section est l’évaluation numérique du gradient de f(·) en x0, c’est à dire de ∂ f ∂ x(x0) =          ∂ f ∂ x₁(x0) ∂ f ∂ x2(x0) .. . ∂ f ∂ x_n(x0)          , (6.100)

via l’utilisation d’un code numérique déduit de celui évaluant f(x0).

Nous commençons par une description des problèmes rencontrés quand on uti-lise des différences finies, avant de décrire deux approches pour mettre en œuvre la différentiation automatique [71, 84, 222, 93, 190, 173, 85]. Ces approches per-mettent d’éviter toute erreur de méthode dans l’évaluation de gradients (ce qui n’élimine pas les erreurs d’arrondi, bien sûr). La première de ces approches peut conduire à une diminution drastique du volume de calcul, tandis que la seconde est simple à mettre en œuvre via la surcharge d’opérateurs.

6.6.1 Inconv´enients de l’approximation par diff´erences finies

Remplaçons les dérivées partielles dans (6.100) par des différences finies, pour obtenir soit ∂ f ∂ xi (x0)≈ ^f^(x⁰^{+ e} i δ xi)− f (x0) δ xi , i= 1,··· ,n, (6.101) où eⁱest la i-ème colonne de I_n, soit

∂ f

∂ x_i(x0)≈ ^f^(x⁰^{+ e}

iδ xi)− f (x0− eiδ xi) 2δ xi

, i= 1,··· ,n. (6.102) L’erreur de m´ethode est en O(δ x2

i) pour (6.102), au lieu de O(δ xi) pour (6.101). De plus, (6.102) n’introduit pas de distorsion de phase contrairement à (6.101) (penser au cas où f(x) est une fonction trigonométrique). Par contre, (6.102) requiert plus de calculs que (6.101).

Rappelons qu’on ne peut pas faire tendre δ xivers zéro, car ceci entraˆınerait le calcul de la différence de nombres réels infinitésimalement proches, un désastre avec des nombres à virgule flottante. Il faut donc trouver un compromis entre les erreurs d’arrondi et de méthode en gardant des δ xi finis (et pas nécessairement égaux). Un bon réglage de chacun des δ xiest difficile, et peut nécessiter des essais et des erreurs. Même si l’on suppose que des δ xi appropriés ont déjà été trouvés, une évaluation approchée du gradient de f(·) en x0 requiert dim x+ 1 évaluations de f(·) avec (6.101) et 2 · dimx évaluations de f (·) avec (6.102). Ceci peut s’avérer difficile si la dimension de x est très grande (comme en traitement d’images ou en optimisation de formes) ou si de nombreuses évaluations de gradient doivent être effectuées (comme en optimisation).

La différentiation automatique n’implique, quant à elle, aucune erreur de méthode et peut spectaculairement réduire la charge de calcul.

6.6.2 Id´ee de base de la diff´erentiation automatique

La fonction f(·) est évaluée par un programme (le code direct). Nous supposons que f(x) telle qu’elle est mise en œuvre dans le code direct est différentiable par rapport à x. Le code direct ne peut donc pas contenir une instruction comme

if (x6= 1) then f(x):= x, else f(x):= 1. (6.103) Cette instruction n’a pas grand sens, mais des variantes plus difficiles `a d´etecter peuvent se tapir dans le code direct. Nous distinguerons deux types de variables :

— les variables ind´ependantes (les entr´ees du code direct), qui incluent les com-posantes de x,

— the variables dépendantes (à calculer par le code direct), qui incluent f(x). Toutes ces variables sont placées dans un vecteur d’état v, une aide conceptuelle qui ne sera pas stockée en tant que telle dans l’ordinateur. Quand x prend la va-leur numérique x₀, l’une des variables dépendantes a pour valeur f(x0) à la fin de l’exécution du code direct.

Pour simplifier, supposons tout d’abord que le code direct soit une suite linéaire de N instructions d’affectation, sans boucle ou branchement conditionnel. La k-ème instruction d’affectation modifie la µ(k)-ème composante de v selon

En général, φkne dépend que de quelques composantes de v. Définissons Ikcomme l’ensemble des indices de ces composantes et remplaçons (6.104) par une version plus détaillée

v_µ_(k):= φ_k({vi| i ∈ Ik}). (6.105) Exemple 6.11.Si la 5^`emeinstruction d’affectation est

v₄:= v1+v2v₃;

alors µ(5) = 4, φ₅(v) = v1+ v2v3et Ik={1,2,3}. Globalement, la k-`eme instruction d’affectation se traduit par

v := ΦΦΦk(v), (6.106) où ΦΦΦkne change aucune des composantes de v, sauf la µ(k)-ème qui est modifiée selon (6.105).

Remarque 6.10.L’expression (6.106) ne doit pas être confondue avec une équation à résoudre par rapport à v... Soit v_kl’état du code direct après l’exécution de la k-ème instruction d’affecta-tion. Il satisfait

v_k= ΦΦΦ_k(vk−1), k= 1,··· ,N. (6.107) C’est l’équation d’état d’un système dynamique à temps discret. Les équations d’état trouvent de nombreuses applications, en chimie, en mécanique, en automa-tique et en traitement du signal, par exemple. (Voir le chapitre 12 pour des exemples d’équations d’état à temps continu.) Le rôle du temps discret est tenu ici par le pas-sage d’une instruction d’affectation à la suivante. L’état final v_N est obtenu à partir de l’état initial v₀par composition de fonctions, puisque

v_N= ΦΦΦN◦ ΦΦΦN−1◦ ··· ◦ ΦΦΦ1(v0). (6.108) L’´etat initial v₀contient notamment la valeur x₀de x, et l’´etat final v_Nla valeur de

f(x0).

La règle de différentiation en chaˆıne appliquée à (6.107) et (6.108) se traduit par

∂ f ∂ x(x0) =^{∂ v} T 0 ∂ x ·^{∂ Φ}^Φ^Φ T 1 ∂ v (v0)· ... ·^{∂ Φ}^Φ^Φ T N ∂ v (vN−1)· ^{∂ f} ∂ vN (x0). (6.109) Pour aider à mémoriser (6.109), remarquons que, comme ΦΦΦ_k(v_k₋₁) = v_k, l’équation

∂ v^T

∂ v = I (6.110) permet de faire disparaˆıtre tous les termes interm´ediaires du membre de droite de (6.109), ce qui laisse la mˆeme expression que dans le membre de gauche.

Posons ∂ v^T₀ ∂ x = C, (6.111) ∂ ΦΦΦ^T_k ∂ v (v_k−1) = A_k (6.112) et ∂ f ∂ vN (x0) = b. (6.113) L’´equation (6.109) devient alors

∂ f

∂ x(x0) = CA1···ANb, (6.114) et l’évaluation du gradient de f(·) en x0se résume au calcul de ce produit de ma-trices et de vecteur. Choisissons, de façon arbitraire, de stocker la valeur de x₀dans les n premières composantes de v₀, de sorte que

I 0 . (6.115) De fac¸on tout aussi arbitraire, stockons la valeur de f(x0) dans la derni`ere compo-sante de v_N, de sorte que

f(x0) = b^Tv_N, (6.116) avec

0 ··· 0 1 T

. (6.117) Reste `a voir comment ´evaluer les matrices A_iet comment ordonner les calculs dans (6.114).

Dans le document Méthodes numériques et optimisation, un guide du consommateur (Page 132-135)