• Aucun résultat trouvé

3.3 Mise en place d’un algorithme basé sur la novation

3.3.2 Algorithme correctionnel

∼ N (δ, Γ) avec

δ > 0, représentant l’erreur que l’on admet sur E2, aussi petit que l’on veut et Γ = B2,2

n Rn2,2

calculable.

On a ainsi vu que, sous l’hypothèse que la dynamique du processus sur E2 n’est pas trop complexe, on est capable de produire un algorithme d’estimation du processus sur E1 équivalent à celui proposé par le filtre de Kalman décomposé sur les espaces orthogonaux. Pour cela on a eu besoin de pouvoir estimer parfaitement les covariances. On va maintenant essayer de mettre en place un algorithme reprenant ces idées dans le cas où la dynamique n’est pas linéaire et éventuellement non Gaussienne.

3.3.2 Algorithme correctionnel

Dans le cas linéaire on a utilisé un filtre qui permet d’estimer la moyenne d’un pro-cessus. On va faire de même dans le cas non-linéaire. La méthode qui se rapproche le plus du filtre de Kalman est le procédé de filtrage appelé 3D-Var. Celui-ci repose sur une minimisation variationnelle pour estimer la moyenne à partir d’une innovation exacte-ment comme dans Kalman. Ce filtre n’est plus optimal dans le cas non-linéaire pour deux raisons : tout d’abord la forme de l’innovation ΓnYn− Hn( ¯Xn) où Hn est la fonction d’observation et Γn une matrice, équivalent de la matrice de gain, est linéaire et ne peut donc pas minimiser une erreur non-linéaire. De plus il n’y a pas de procédé pour estimer la matrice Γncontrairement au cas linéaire où l’on pouvait écrire la matrice de gain Gn. Dans la sous-section précédente, le fonctionnement du filtre reposait sur le fait que l’on était capable de connaître cette matrice malgré le manque d’information sur E2. On a donc deux problèmes à résoudre. Dans un premier temps on va voir comment écrire un filtre qui permet d’estimer la novation puis nous proposerons des solutions pour l’estimation de la matrice Γn.

On a vu dans ce qui précède que l’erreur commise quand on ne cherche pas à estimer la novation est, en fait, une moyenne de l’influence du processus dans le sous-espace orthogonal. On va donc utiliser une méthode basée sur l’estimateur 3D-Var. Pour cela il faut définir une fonction de coût puis étudier les conditions que doit vérifier un estimateur de la novation pour minimiser cette fonction de coût.

On va reprendre à partir de maintenant des bruits additifs de forme Gaussienne. Le but est d’être en mesure d’écrire la fonction de coût de manière explicite. Tout ce qui va être montré par la suite peut l’être dans le cas où l’on dispose d’une loi dont les deux premiers moments sont finis et dont on peut écrire explicitement la fonction de coût associée. On aura donc une fonction de coût de la forme

Jn(x, w1, v1) = φ(x10) + 1 2 n X k=1  |Fk,x2,11 k−1 (x2k−1) + w1k| + |vk1| 

où les variables de contrôle x, v et w respectent les contraintes, pour k = 1...n,

x1k= Fk1,1(x1k−1) + Fk2,1(x2k−1) + wk1

Yk1 = H1(x1k) + vk1 dans le cas où les bruits v1

k et w1

k suivent une une loi Gaussienne centrée et sont non corrélés. On ne suppose pas de structure sur les bruits dans le sous-espace E2. φ est ici une fonction localement Lipschitz qui représente la vraisemblance de l’état initial. Dans le papier [27], il a été montré que l’on peut obtenir, pour ce type de fonctions de coût, et avec des fonctions d’évolution C2 comme on l’a supposé, un estimateur pour la moyenne conditionnelle

In= Fn1,1(In−1) + ρ−1ψnYn1− H1

n(Fn1,1(In−1)) où ψn est une fonction et ρ une constante.

Dans le cas linéaire, ρ−1ψn est la matrice de gain pour le filtre de Kalman. F1,1

n (In−1) est, dans ce cas, la valeur a priori et In l’estimateur a posteriori. Dans notre cas plus général, il va falloir trouver un moyen de décrire cette fonction.

Il faut remarquer que l’on est dans des conditions parfaites pour appliquer un algo-rithme de type 3D-Var. En effet, comme on l’a vu dans la section précédente, à la fois la partie de la dynamique provenant de E1 est observable à l’aide de Y1

n mais la novation l’est aussi. L’estimateur que l’on vient de voir est alors robuste au sens où il estime la réalité aussi bien qu’on le souhaite, à condition d’avoir suffisamment d’informations au départ. De plus on doit estimer une moyenne, il faut donc ajouter comme hypothèse que la distribution de l’influence de E2 sur E1 dans la dynamique est diffuse. Dans le cas contraire, nous risquerions de rester bloqué dans un mode alors que d’un point de vue théorique c’est vraiment la moyenne que l’on veut être en mesure d’estimer.

Après ces différentes remarques, on revient au problème principal. On sait que l’esti-mateur In, sous les bonnes hypothèses, que nous développerons dans la suite, est optimal. Le problème est de connaître la fonction ψn. D’un point vue théorique cela ne pose pas de problème, on peut supposer qu’on la connaît à chaque pas de temps. Pourtant, quand on voudra créer un algorithme utilisable en pratique, il nous faudra une méthode pour l’es-timer. Or estimer une fonction est quelque chose d’extrêmement complexe. Le problème peut être simplifié grâce à des méthodes proches de la linéarisation. On peut utiliser la matrice Rn(ξ) = min

x,w1,v1Jn(x, w1, v1), sous la contrainte x1n= ξ, à l’instant final, et réécrire notre estimateur In = Fn1,1(In−1) + ρ−1Yn1− H1 n(Fn1,1(In−1))∂H 1 n ∂x  Fn1,1(In−1)( 2R ∂x2)−1 La matrice ∂Hn ∂x 

Fn1,1(In−1) ne pose a priori pas de problèmes à être calculée. Toute la partie inconnue de la fonction ψn a été stockée dans le terme (

2R

∂x2)−1. Pour que ce terme existe il faut supposer que la fonction de coût est C2, ce qui est évident étant donné

que l’on a supposé que toutes les fonctions d’évolution et d’observation sont C2. On voit cependant que la novation doit prendre la forme

Nn = ρ−1Yn1− H1 n(Fn( ˆXn−11 ))∂H 1 n ∂x  Fn1,1( ˆXn−11 )( 2R ∂x2)−1

Le problème est donc maintenant d’être capable d’estimer cette matrice (

2R

∂x2)−1.

Dans l’estimateur de moyenne conditionnelle 3D-Var, cette matrice est apprise de manière empirique à l’aide d’expérimentation. Notre problème est de créer un algorithme qui ne soit pas basé sur de telles considérations pour pouvoir montrer sa convergence théorique. Pour plus de lisibilité, et pour relier notre problème à la théorie de Kalman, on va réécrire la novation comme

Nn = ΓnYn1− H1

n(Fn1,1( ˆXn−11 ))

ainsi toutes les informations inconnues seront contenues dans la matrice de gain Γn. On va supposer dans cette partie que l’on est en mesure d’estimer aussi bien qu’on le souhaite cette matrice. Nous donnerons dans la sous-section suivante une méthode, dont nous prouverons la convergence, pour la calculer.

Notre but ici est alors de montrer que, dans notre cas, cette méthode permet, une fois que l’on dispose de la bonne matrice de gain, d’estimer de manière aussi précise qu’on le souhaite la novation. On va dans un premier temps étudier la différence entre le processus réel, qui prend en compte l’influence du processus dans le sous-espace orthogonal, et un qui l’estime avec la novation donnée un peu plus haut. On va supposer que l’on part du même point x1

n−1 pour un certain n > 0. Le résultat du processus réel sera x1

n et celui de l’estimateur ˆx1 n. On écrit alors x1n− ˆx1n =  Fn1,1(x1n−1) + Fn,x2,11 n−1(x2n−1)  Fn1,1(x1 n−1) + ΓnYn1− H1 n(F1,1 n (x1 n−1))  = Fn,x2,11 n−1(x2n−1) − ΓnYn1 − Hn1(Fn1,1(x1n−1))

Le but est donc de minimiser la première partie. Avoir une bonne matrice de gain Γn

signifie alors que, pour tout δ > 0, on a une matrice Γδn telle que kFn,x2,11

n−1

(x2n−1) − ΓδnYn1− H1

n(Fn1,1(x1n−1))k < δ

On aura donc une suite (Γδn)δ>0 pour tout xn−1. On va noter la fonction Γδn(xn−1) qui, à δ et xn−1, associe la matrice de gain au niveau δ pour le processus partant de xn−1. On voit donc que l’on est capable de minimiser, en partant d’un même point, l’erreur commise par l’estimateur. Cela veut dire que, de manière récursive, on va pouvoir estimer avec la précision que l’on se fixe, le processus réel à chaque pas de temps. Or comme on l’a vu précédemment, ce qui nous intéresse est la distribution du processus. On va donc reprendre nos calculs pour montrer le résultat suivant.

Théorème 6. On suppose que l’on souhaite estimer les distributions (ηn1)n dont le pro-cessus sous-jacent suit la dynamique (3.4). Pour cela on utilise une minimisation

va-riationnelle et on obtient l’estimateur (ˆη1n)n. Pour cet estimateur, la novation prend la

forme

Nn = Γn(x1n−1, x2n−1)Yn1− H1

n(Fn1,1( ˆXn−11 ))= ΓnYn1− H1

n(Fn1,1( ˆXn−11 ))

où ˆXn est le processus associé à l’estimateur. On suppose de plus que l’on connaît la

fonction de gain Γδ

n(x1

n−1, x2

n−1) telle que pour tout n > 0, δ > 0 et xn−1 ∈ E kFn,x2,11

n−1(x2n−1) − Γδn(x1n−1, x2n−1)Yn1 − Hn1(Fn1,1(x1n−1))k < δ

On a alors une borne Lp pour la déviation en un pas de temps de l’estimateur

∀δ > 0, E  1 n− ˆη1nkpG ηn−1  1/p ≤ δ

où k.kG est la semi-norme de Zolotarev associée à l’ensemble de fonctions G mesurables

dans E telles que kf kOsc < 1.

Remarque 5. Γ est à priori une fonction de X1 et X2. Or dans notre cas X2 est inac-cessible par hypothèse. On ne pourra donc pas implémenter telle quel son estimation et on ne cherchera pas à le calculer. Nous verrons plus loin que, sous de bonnes hypothèses, nous serons en mesure d’utiliser ces résultats en pratiques.

Démonstration. La différence entre la distribution réelle η1net la distribution de

l’estima-teur ˆηn1 peut être décrite à l’aide de la semi-norme de Zolotarev sur G 1

n− ˆηn1kG = sup

f ∈G

1

n(f ) − ˆη1n(f )| On cherche donc à majorer |η1

n(f ) − ˆη1

n(f )| pour f ∈ G. Si on suppose que l’on part de la même distribution ηn−1 pour les deux processus, on a alors, pour δ > 0,

1 n(f ) − ˆη1n(f )| = Z " f  Fn1,1(x1n−1) + Fn,x2,11 n−1 (x2n−1)  −f  Fn1,1(x1n−1) − Γδn(xn−11 , x2n−1)Yn1− H1 n(Fn1,1(x1n−1)) # ηn−1(dxn−1) Z Fn,x2,11 n−1 (x2n−1) − Γδn(x1n−1, x2n−1)Yn1− H1 n(Fn1,1(x1n−1)) ηn−1(dxn−1)

en utilisant le fait que kf kOsc ≤ 1. On a finalement, étant donné que le membre de droite ne dépend pas de la fonction f de G que l’on a choisie, et en prenant l’espérance

conditionnelle vis-à-vis de ηn−1, E[kηn1− ˆηn1kGn−1] ≤ Z Fn,x2,11 n−1(x2n−1)−Γδn(x1n−1, x2n−1)Yn1−H1 n(Fn1,1(x1n−1)) ηn−1(dxn−1) Il reste alors à utiliser l’hypothèse qui dit que pour tout δ > 0 et pour tout xn−1 ∈ E,

kFn,x2,11

n−1(x2n−1) − Γδn(x1n−1, x2n−1)Yn1− Hn1(Fn1,1(x1n−1)k < δ

étant donné que ηn−1est une mesure de probabilité, on obtient finalement la borne Lp. On a donc vu que la méthode variationnelle va nous permettre d’obtenir un algorithme qui permet d’estimer la valeur moyenne de l’influence du processus vivant dans l’espace orthogonal. Cet algorithme minimise, pas de temps par pas de temps, l’erreur que l’on commet si l’on ne considère pas le processus X2

n. Il correspond exactement à ce que préconisait la théorie puisque l’influence que l’on ne connaît pas est bien une moyenne. Toutes ces considérations sont basées sur le fait que l’on est capable de calculer les matrices de gain Γδ

n. On va voir dans ce qui vient comment mettre en place une méthode pour les estimer de manière plus efficace que par l’expérimentation.