Algorithme correctionnel - Mise en place d’un algorithme basé sur la novation

3.3 Mise en place d’un algorithme basé sur la novation

3.3.2 Algorithme correctionnel

∼ N (δ, Γ) avec

δ > 0, représentant l’erreur que l’on admet sur E², aussi petit que l’on veut et Γ = B2,2

n R_n^2,2

calculable.

On a ainsi vu que, sous l’hypothèse que la dynamique du processus sur E2 n’est pas trop complexe, on est capable de produire un algorithme d’estimation du processus sur E1 équivalent à celui proposé par le filtre de Kalman décomposé sur les espaces orthogonaux. Pour cela on a eu besoin de pouvoir estimer parfaitement les covariances. On va maintenant essayer de mettre en place un algorithme reprenant ces idées dans le cas où la dynamique n’est pas linéaire et éventuellement non Gaussienne.

3.3.2 Algorithme correctionnel

Dans le cas linéaire on a utilisé un filtre qui permet d’estimer la moyenne d’un pro-cessus. On va faire de même dans le cas non-linéaire. La méthode qui se rapproche le plus du filtre de Kalman est le procédé de filtrage appelé 3D-Var. Celui-ci repose sur une minimisation variationnelle pour estimer la moyenne à partir d’une innovation exacte-ment comme dans Kalman. Ce filtre n’est plus optimal dans le cas non-linéaire pour deux raisons : tout d’abord la forme de l’innovation Γ_nY_n− H_n( ¯X_n) où H_n est la fonction d’observation et Γ_n une matrice, équivalent de la matrice de gain, est linéaire et ne peut donc pas minimiser une erreur non-linéaire. De plus il n’y a pas de procédé pour estimer la matrice Γ_ncontrairement au cas linéaire où l’on pouvait écrire la matrice de gain G_n. Dans la sous-section précédente, le fonctionnement du filtre reposait sur le fait que l’on était capable de connaître cette matrice malgré le manque d’information sur E². On a donc deux problèmes à résoudre. Dans un premier temps on va voir comment écrire un filtre qui permet d’estimer la novation puis nous proposerons des solutions pour l’estimation de la matrice Γ_n.

On a vu dans ce qui précède que l’erreur commise quand on ne cherche pas à estimer la novation est, en fait, une moyenne de l’influence du processus dans le sous-espace orthogonal. On va donc utiliser une méthode basée sur l’estimateur 3D-Var. Pour cela il faut définir une fonction de coût puis étudier les conditions que doit vérifier un estimateur de la novation pour minimiser cette fonction de coût.

On va reprendre à partir de maintenant des bruits additifs de forme Gaussienne. Le but est d’être en mesure d’écrire la fonction de coût de manière explicite. Tout ce qui va être montré par la suite peut l’être dans le cas où l’on dispose d’une loi dont les deux premiers moments sont finis et dont on peut écrire explicitement la fonction de coût associée. On aura donc une fonction de coût de la forme

Jn(x, w¹, v¹) = φ(x¹₀) + ¹ 2 n X k=1 |F_k,x^2,11 k−1 (x²_k−1) + w¹_k| + |v_k¹|

où les variables de contrôle x, v et w respectent les contraintes, pour k = 1...n,

x¹_k= F_k^1,1(x¹_k−1) + F_k^2,1(x²_k−1) + w_k¹

Y_k¹ = H¹(x¹_k) + v_k¹ dans le cas où les bruits v1

k et w1

k suivent une une loi Gaussienne centrée et sont non corrélés. On ne suppose pas de structure sur les bruits dans le sous-espace E2. φ est ici une fonction localement Lipschitz qui représente la vraisemblance de l’état initial. Dans le papier [27], il a été montré que l’on peut obtenir, pour ce type de fonctions de coût, et avec des fonctions d’évolution C2 comme on l’a supposé, un estimateur pour la moyenne conditionnelle

I_n= F_n^1,1(I_n−1) + ρ⁻¹ψ_nY_n¹− H1

n(F_n^1,1(I_n−1)) où ψ_n est une fonction et ρ une constante.

Dans le cas linéaire, ρ⁻¹ψ_n est la matrice de gain pour le filtre de Kalman. F1,1

n (I_n−1) est, dans ce cas, la valeur a priori et I_n l’estimateur a posteriori. Dans notre cas plus général, il va falloir trouver un moyen de décrire cette fonction.

Il faut remarquer que l’on est dans des conditions parfaites pour appliquer un algo-rithme de type 3D-Var. En effet, comme on l’a vu dans la section précédente, à la fois la partie de la dynamique provenant de E1 est observable à l’aide de Y1

n mais la novation l’est aussi. L’estimateur que l’on vient de voir est alors robuste au sens où il estime la réalité aussi bien qu’on le souhaite, à condition d’avoir suffisamment d’informations au départ. De plus on doit estimer une moyenne, il faut donc ajouter comme hypothèse que la distribution de l’influence de E2 sur E1 dans la dynamique est diffuse. Dans le cas contraire, nous risquerions de rester bloqué dans un mode alors que d’un point de vue théorique c’est vraiment la moyenne que l’on veut être en mesure d’estimer.

Après ces différentes remarques, on revient au problème principal. On sait que l’esti-mateur In, sous les bonnes hypothèses, que nous développerons dans la suite, est optimal. Le problème est de connaître la fonction ψn. D’un point vue théorique cela ne pose pas de problème, on peut supposer qu’on la connaît à chaque pas de temps. Pourtant, quand on voudra créer un algorithme utilisable en pratique, il nous faudra une méthode pour l’es-timer. Or estimer une fonction est quelque chose d’extrêmement complexe. Le problème peut être simplifié grâce à des méthodes proches de la linéarisation. On peut utiliser la matrice R_n(ξ) = min

x,w1,v1J_n(x, w¹, v¹), sous la contrainte x¹_n= ξ, à l’instant final, et réécrire notre estimateur I_n = F_n^1,1(I_n−1) + ρ⁻¹Y_n¹− H1 n(F_n^1,1(I_n−1))^∂H 1 n ∂x F_n^1,1(I_n−1)(^∂ 2R ∂x2)⁻¹ La matrice ^∂Hⁿ ∂x

F_n^1,1(I_n−1) ne pose a priori pas de problèmes à être calculée. Toute la partie inconnue de la fonction ψ_n a été stockée dans le terme (^∂

∂x2)⁻¹. Pour que ce terme existe il faut supposer que la fonction de coût est C2, ce qui est évident étant donné

que l’on a supposé que toutes les fonctions d’évolution et d’observation sont C2. On voit cependant que la novation doit prendre la forme

N_n = ρ⁻¹Y_n¹− H1 n(F_n( ˆX_n−1¹ ))^∂H 1 n ∂x F_n^1,1( ˆX_n−1¹ )(^∂ 2R ∂x2)⁻¹

Le problème est donc maintenant d’être capable d’estimer cette matrice (^∂

∂x2)⁻¹.

Dans l’estimateur de moyenne conditionnelle 3D-Var, cette matrice est apprise de manière empirique à l’aide d’expérimentation. Notre problème est de créer un algorithme qui ne soit pas basé sur de telles considérations pour pouvoir montrer sa convergence théorique. Pour plus de lisibilité, et pour relier notre problème à la théorie de Kalman, on va réécrire la novation comme

N_n = Γ_nY_n¹− H1

n(F_n^1,1( ˆX_n−1¹ ))

ainsi toutes les informations inconnues seront contenues dans la matrice de gain Γ_n. On va supposer dans cette partie que l’on est en mesure d’estimer aussi bien qu’on le souhaite cette matrice. Nous donnerons dans la sous-section suivante une méthode, dont nous prouverons la convergence, pour la calculer.

Notre but ici est alors de montrer que, dans notre cas, cette méthode permet, une fois que l’on dispose de la bonne matrice de gain, d’estimer de manière aussi précise qu’on le souhaite la novation. On va dans un premier temps étudier la différence entre le processus réel, qui prend en compte l’influence du processus dans le sous-espace orthogonal, et un qui l’estime avec la novation donnée un peu plus haut. On va supposer que l’on part du même point x1

n−1 pour un certain n > 0. Le résultat du processus réel sera x1

n et celui de l’estimateur ˆx1 n. On écrit alors x¹_n− ˆx¹_n = F_n^1,1(x¹_n−1) + F_n,x^2,11 n−1(x²_n−1) − F_n^1,1(x1 n−1) + Γ_nY_n¹− H1 n(F1,1 n (x1 n−1)) = F_n,x^2,11 n−1(x²_n−1) − Γ_nY_n¹ − H_n¹(F_n^1,1(x¹_n−1))

Le but est donc de minimiser la première partie. Avoir une bonne matrice de gain Γn

signifie alors que, pour tout δ > 0, on a une matrice Γ^δ_n telle que kF_n,x^2,11

n−1

(x²_n−1) − Γ^δ_nY_n¹− H1

n(F_n^1,1(x¹_n−1))k < δ

On aura donc une suite (Γ^δ_n)_δ>0 pour tout x_n−1. On va noter la fonction Γ^δ_n(x_n−1) qui, à δ et x_n−1, associe la matrice de gain au niveau δ pour le processus partant de x_n−1. On voit donc que l’on est capable de minimiser, en partant d’un même point, l’erreur commise par l’estimateur. Cela veut dire que, de manière récursive, on va pouvoir estimer avec la précision que l’on se fixe, le processus réel à chaque pas de temps. Or comme on l’a vu précédemment, ce qui nous intéresse est la distribution du processus. On va donc reprendre nos calculs pour montrer le résultat suivant.

Théorème 6. On suppose que l’on souhaite estimer les distributions (η_n¹)_n dont le pro-cessus sous-jacent suit la dynamique (3.4). Pour cela on utilise une minimisation

va-riationnelle et on obtient l’estimateur (ˆη¹_n)_n. Pour cet estimateur, la novation prend la

forme

N_n = Γ_n(x¹_n−1, x²_n−1)Y_n¹− H1

n(F_n^1,1( ˆX_n−1¹ ))= Γ_nY_n¹− H1

n(F_n^1,1( ˆX_n−1¹ ))

où ˆX_n est le processus associé à l’estimateur. On suppose de plus que l’on connaît la

fonction de gain Γδ

n(x1

n−1, x2

n−1) telle que pour tout n > 0, δ > 0 et x_n−1 ∈ E kF_n,x^2,11

n−1(x²_n−1) − Γ^δ_n(x¹_n−1, x²_n−1)Y_n¹ − H_n¹(F_n^1,1(x¹_n−1))k < δ

On a alors une borne Lp pour la déviation en un pas de temps de l’estimateur

∀δ > 0,  E kη1 n− ˆη¹_nk^p_G η_n−1   1/p ≤ δ

où k.kG est la semi-norme de Zolotarev associée à l’ensemble de fonctions G mesurables

dans E telles que kf k_Osc < 1.

Remarque 5. Γ est à priori une fonction de X¹ et X². Or dans notre cas X² est inac-cessible par hypothèse. On ne pourra donc pas implémenter telle quel son estimation et on ne cherchera pas à le calculer. Nous verrons plus loin que, sous de bonnes hypothèses, nous serons en mesure d’utiliser ces résultats en pratiques.

Démonstration. La différence entre la distribution réelle η¹_net la distribution de

l’estima-teur ˆη_n¹ peut être décrite à l’aide de la semi-norme de Zolotarev sur G kη1

n− ˆη_n¹kG = sup

f ∈G

|η1

n(f ) − ˆη¹_n(f )| On cherche donc à majorer |η1

n(f ) − ˆη1

n(f )| pour f ∈ G. Si on suppose que l’on part de la même distribution η_n−1 pour les deux processus, on a alors, pour δ > 0,

|η1 n(f ) − ˆη¹_n(f )| = Z ^" f F_n^1,1(x¹_n−1) + F_n,x^2,11 n−1 (x²_n−1) −f F_n^1,1(x¹_n−1) − Γ^δ_n(x_n−1¹ , x²_n−1)Y_n¹− H1 n(F_n^1,1(x¹_n−1)) ^# ηn−1(dxn−1) ≤ Z F_n,x^2,11 n−1 (x²_n−1) − Γ^δ_n(x¹_n−1, x²_n−1)Y_n¹− H1 n(F_n^1,1(x¹_n−1)) η_n−1(dx_n−1)

en utilisant le fait que kf k_Osc ≤ 1. On a finalement, étant donné que le membre de droite ne dépend pas de la fonction f de G que l’on a choisie, et en prenant l’espérance

conditionnelle vis-à-vis de η_n−1, E[kηn¹− ˆη_n¹kG|η_n−1] ≤ Z F_n,x^2,11 n−1(x²_n−1)−Γ^δ_n(x¹_n−1, x²_n−1)Y_n¹−H1 n(F_n^1,1(x¹_n−1)) η_n−1(dx_n−1) Il reste alors à utiliser l’hypothèse qui dit que pour tout δ > 0 et pour tout x_n−1 ∈ E,

kF_n,x^2,11

n−1(x²_n−1) − Γ^δ_n(x¹_n−1, x²_n−1)Y_n¹− H_n¹(F_n^1,1(x¹_n−1)k < δ

étant donné que η_n−1est une mesure de probabilité, on obtient finalement la borne Lp. On a donc vu que la méthode variationnelle va nous permettre d’obtenir un algorithme qui permet d’estimer la valeur moyenne de l’influence du processus vivant dans l’espace orthogonal. Cet algorithme minimise, pas de temps par pas de temps, l’erreur que l’on commet si l’on ne considère pas le processus X2

n. Il correspond exactement à ce que préconisait la théorie puisque l’influence que l’on ne connaît pas est bien une moyenne. Toutes ces considérations sont basées sur le fait que l’on est capable de calculer les matrices de gain Γδ

n. On va voir dans ce qui vient comment mettre en place une méthode pour les estimer de manière plus efficace que par l’expérimentation.

Dans le document Reconstitution par filtrage non-linéaire de milieux turbulents et rétrodiffusants à l'aide de LIDARs Doppler et aérosols (Page 114-118)