Critère d’optimalité - Bases de l’assimilation de données

2.1 Bases de l’assimilation de données

2.1.4 Critère d’optimalité

L’optimalité d’un estimateur est définie par sa capacité à utiliser toute l’information dispo- nible le mieux possible, c’est-à-dire en tenant compte du niveau de confiance accordé à chaque information. De manière un peu plus pratique, l’optimalité est définie comme la minimisation ou la maximisation de critères choisis en fonction de la performance recherchée :

2.2. La théorie de l’estimation – minimisation de la variance (donnée par la fonction trace de la matrice de covariance

d’erreurs A),

– maximisation de la fonction de vraisemblance (la vraisemblance est définie comme la den- sité de probabilité de l’état inconnu Xt, étant donné des observations Yobs),

– minimisation des r.m.s. (root mean square) par exemple.

Le filtre de Kalman présenté un peu plus loin est théoriquement optimal quel que soit le critère retenu pour peu qu’il ait un sens. Cela est rendu possible par le fait que dans le cadre linéaire gaussien et pour des erreurs non biaisées et non corrélées, ces différents critères sont équivalents.

2.2 La théorie de l’estimation

On peut trouver les prémices de la théorie de l’estimation dans l’article de Gauss de 1809 [Sor70]. La théorie de l’estimation fournit la base des méthodes d’assimilation de données. Elle s’appuie sur un formalisme probabiliste. On possède, regroupées dans un vecteur Y ∈ Rp, des mesures sur un système physique h dépendant de paramètres rangés dans un vecteur X ∈ Rn. On suppose que les mesures sont entachées d’erreurs et qu’elles peuvent donc être considérées comme la réalisation d’un vecteur aléatoire Y. De même le vecteur de paramètre X peut être vu comme la réalisation du vecteur aléatoire X. Les vecteurs aléatoires X et Y sont donc reliés entre eux par la relation :

Y = h(X) + V, où V représente le vecteur aléatoire des erreurs.

Le problème de l’estimation peut être énoncé de la manière suivante : si j’observe une réali- sation Y ∈ Rp de Y, que puis-je en tirer comme information sur X ? De manière plus précise, le problème de l’estimation consiste à construire un estimateur de X noté ˆX. Un estimateur ˆX de X est une fonction déterministe g qui à toute réalisation Y du vecteur Y fait correspondre une valeur particulière ˆX :

X = g(Y).

On peut définir une large gamme d’estimateurs : estimateur des moindres carrés, estimateur de la variance minimale par exemple. Dans le cas où X et Y sont des vecteurs aléatoires ayant des densités de probabilités, l’estimateur ˆX appartient à la famille des estimateurs de Bayes.

2.2.1 Approche bayésienne

On se place dans le cadre des statistiques bayésiennes où les vecteurs aléatoires ont des densités de probabilité. L’approche bayésienne consiste à rechercher l’état le plus probable X connaissant les observations Y. Les estimateurs de Bayes sont donc basés sur la fonction de densité conditionnelle pX|Y(X|Y). De manière pratique, cette fonction de densité est obtenue

via la règle de Bayes :

pX|Y(X|Y) =

pY|X(Y|X)pX(X)

pY(Y)

où la densité de probabilité pY(Y) est généralement donnée tandis que pY|X(Y|X) se calcule à

L’expression des estimateurs de Bayes ˆX est obtenue en minimisant un risque de Bayes :

EhC( ˆX(Y) − X)i (2.1)

où C( ˆX(Y) − X) est une fonction coût positive que l’on choisit. Par exemple, l’estimateur ˆX du minimum d’erreur quadratique moyenne de X sachant Y minimise le risque suivant [Leg06] :

E[| ˆX(Y) − X)|2].

Lorsque la loi de probabilité conditionnelle est gaussienne, cet estimateur se confond avec l’estimateur du minimum de variance, l’estimateur du maximum de vraisemblance ainsi qu’avec l’estimateur optimal fourni par ailleurs par le filtre de Kalman.

On présente ci-après l’interpolation statistique dont l’extension dans une approche séquen- tielle est donnée par le filtre de Kalman Dans la suite, on utilise le terme d’analyse emprunté à l’assimilation de données plutôt que le terme statistique d’estimateur et on ne fait plus de distinction entre variable aléatoire et réalisation.

2.2.2 Interpolation statistique

L’interpolation statistique permet de construire une famille d’estimateurs linéaires à laquelle appartient l’estimateur BLUE présenté plus loin. Dans l’interpolation statistique, l’analyse est recherchée sous la forme d’une combinaison linéaire du terme d’ébauche et des observations

Xa= LXb+ KYobs. (2.2)

où L et K sont des matrices de dimension respective n × n et p × p. Cette méthode n’utilise que les observations réalisées au temps présent de l’analyse. Il n’y a donc pas de prise en compte d’un modèle de dynamique ce qui la rend peu coûteuse. Elle est obtenue sous les hypothèses suivantes :

– l’opérateur d’observation H est linéaire : on le note dans la suite H et on a donc Yobs = HXt+ obs;

– l’erreur d’ébauche est sans biais : E[b] = 0 ; – l’erreur d’observation est sans biais : E[obs] = 0.

Les matrices L et K de l’équation (2.2) sont déterminées en utilisant la contrainte que l’erreur commise sur l’analyse a soit sans biais. Un rapide calcul donne l’expression de l’erreur a en fonction des erreurs d’ébauche b, d’observation obs et de l’état vrai Xt :

a= Xa− Xt= Lb+ Kobs+ (L + KH − Id)Xt. On obtient donc l’expression de la moyenne de a :

E[a] = LE[b] + KE[obs] + (L + KH − Id)E[Xt].

En utilisant les hypothèses d’erreurs non biaisées, l’analyse est donc obtenue en imposant L = Id − KH. On en déduit l’expression de Xa :

Xa= Xb+ K(Yobs− HXb).

Le vecteur Yobs− HXb _{est appelé vecteur d’innovation. La matrice K est usuellement appelée}

matrice gain ; on la retrouve également dans l’expression du filtre de Kalman. A ce stade, la matrice K n’est pas déterminée. On peut la fixer en imposant que l’analyse soit l’estimateur du minimum de variance. L’estimation linéaire porte alors le nom d’estimation optimale.

2.2. La théorie de l’estimation L’estimation optimale (BLUE)

L’estimation optimale consiste à rechercher l’analyse linéaire sans biais et de variance minimale. L’analyse s’appelle dans ce cas BLUE (Best Linear Unbiaised Estimator). Elle nécessite des hypothèses supplémentaires portant sur les matrices de covariance d’erreur B et R non utilisées jusqu’à présent :

– les matrices B et R sont des matrices définies positives ; – les erreurs sont non corrélées cov(b, obs) = 0.

On résume ci-après les étapes permettant d’obtenir l’expression de la matrice K. Le détail des calculs peut être trouvé dans [Bou99]. Le calcul de la matrice d’erreur d’analyse A en fonction de la matrice K donne l’expression suivante :

A(K) = (Id − KH)B(Id − KH)T + KRKT.

Minimiser la variance de l’analyse revient à minimiser la quantité T r(A(K)). La variation de T r(A) par rapport à K étant définie par :

δ(T r(A(K))) = 2T r((−(Id − KH)BHT + KR)(δK)T), on en déduit que la matrice gain optimale notée K∗ vérifie

−(Id − K∗H)BHT + K∗R = 0. L’expression de K∗ est alors donnée par

K∗ = (BHT)(R + HBHT)−1

et dans ce cas, l’expression de la matrice d’erreur d’analyse est la suivante : A = (Id − K∗H)B.

L’expression de l’analyse BLUE est donc donnée par le système suivant

Xa = Xb+ K∗(Yobs− HXb_),

K∗ = BHT(HBHT + R)−1. (2.3)

Remarque 1 En notant que

Yobs− HXa= Yobs− HXb+ H(Xb− Xa) = (Id − HK)(Yobs− HXb),

on en déduit que la matrice Id − KH fait le lien entre le vecteur d’innovation et le résidu d’analyse Yobs− HXa_.

Remarque 2 On peut obtenir une autre expression équivalente de la matrice gain optimale K∗ grâce à la formule de Sherman-Morrison-Woodbury

K∗ = (B−1+ HTR−1H)−1HTR−1.

Cette expression de K∗ présente deux intérêts. D’une part, l’inversion matricielle porte sur une matrice de taille p×p au lieu de n×n. Or la taille p du vecteur des observations est généralement beaucoup plus petite que la taille n du vecteur d’état, ce qui rend l’opération d’inversion moins coûteuse. D’autre part, cette expression permet d’établir l’équivalence entre l’approche BLUE et l’approche variationnelle. On peut en effet montrer que l’analyse BLUE minimise la fonctionnelle coût suivante :

L’interpolation optimale

L’interpolation optimale (OI) développée par Gandin en 1963 [Gan63] et présentée notam- ment dans [Lor81] et [Dal91] est une simplification algébrique du BLUE, qui permet d’obtenir une analyse avec un coût calcul bien plus faible que ce dernier. Elle correspond à l’application de la méthode BLUE à chacune des n composantes du vecteur d’état X. L’IO repose alors sur l’hypothèse que pour chacune de ces variables, seul un nombre réduit d’observations est détermi- nant pour calculer l’estimateur correspondant. L’IO consiste alors à déterminer ces observations pertinentes en définissant un voisinage d’influence autour de la variable. Une fois les observations sélectionnées, le calcul de K se résume à n calculs de matrices de gain encore de taille n × n mais ne faisant intervenir que des produits et inversions matricielles de taille réduite (cette taille correspond au nombre d’observations retenues).

L’inconvénient majeur de cette méthode réside dans la sensibilité de l’analyse au choix des voisinages d’influence. Et contrairement à ce que son nom pourrait laisser penser, l’analyse produite par l’IO est sous- optimale par rapport à l’ensemble des informations disponibles ; elle est seulement localement optimale à l’instant de l’analyse. Elle est cependant l’une des variantes du BLUE parmi les plus utilisées en météorologie et en océanographie.

2.3 Filtre de Kalman

Le filtre de Kalman introduit en 1960 par R.E. Kalman, se présente comme une extension de l’estimation optimale (BLUE) pour les systèmes dynamiques linéaires. Son principal avantage est de fournir l’incertitude sur l’analyse par le calcul de la matrice des covariance d’erreur d’analyse. Son inconvénient en revanche est le coût en mémoire et temps calcul occasionné par la construction de la matrice de gain et la mise à jour de la matrice de covariance d’erreur d’analyse. Des variantes du filtre de Kalman consistent justement à réduire le coût calcul en diminuant la taille du vecteur de contrôle (filtres sous optimaux, [Tod94]). Il existe également des versions du filtre de Kalman pour des systèmes dynamiques non linéaires (filtre de Kalman étendu, [Eve94][Eve03]).

2.3.1 Principe

On dispose de n séries d’observation réalisées aux temps t₁, t2, ..., tn et d’un modèle dyna-

mique2 linéaire noté M_i,i−1 permettant de calculer l’évolution de l’état entre les instants ti−1 et

ti :

X(ti) = Mi,i−1X(ti−1).

A ce modèle, on associe une erreur modèle notée m et de matrice de covariance Qi au temps ti.

Cette erreur modèle permet de caractériser l’imperfection du modèle par rapport à la réalité : Xt(ti) = Mi,i−1Xt(ti−1) + m(ti−1).

L’opérateur d’observation est supposé linéaire. Comme pour le modèle d’évolution, on lui attache une erreur notée obs et définie par

Yobs(ti) = HiXt(ti) + obs(ti).

2.3. Filtre de Kalman La matrice de covariance d’erreur d’observation au temps ti est notée Ri.

Le filtre de Kalman est une extension de l’estimation optimale pour les systèmes dynamiques : à chaque nouveau temps de mesure ti, on calcule l’analyse optimale Xa(ti) à partir des termes

d’ébauche et d’observation au temps t_i. Le terme d’ébauche provient ici du calcul d’évolution de l’analyse au temps précédent ti−1 : Xb(ti) = Mi,i−1Xa(ti−1). On préfère alors le nommer prévision (ou forecast en anglais) et le noter Xf(ti) ; on indice également par f sa matrice

d’erreurs qui est notée ci-après Pf(ti). On note Pa(ti) la matrice d’erreur d’analyse au temps

courant ti. Le filtre de Kalman est basé sur les hypothèses suivantes :

– les erreurs d’observation et de modèle sont non biaisées (même hypothèse que dans le BLUE) :

E[obs(ti)] = 0 = E[m(ti)] = 0 ;

– les erreurs d’observation et de modèle sont non corrélées : E[(obs(ti))(m(ti))T] = 0.

Son algorithme comprend 3 étapes :

étape prévision : l’estimation de l’état courant et sa matrice d’erreur sont calculées à partir de l’analyse précédente

Xf(ti) = Mi,i−1Xa(ti−1),

Pf_i = Mi,i−1Pai−1MTi,i−1+ Qi−1,

calcul du gain de Kalman : le gain est calculé de manière semblable à ce qui est fait dans l’estimation optimale Ki= Pf_iHTi h Ri+ HiPf_iHTi i−1 ,

étape analyse : les observations de l’état courant sont utilisées pour corriger l’état prédit Xa(ti) = Xf(ti) + KiYobs(ti) − HiXf(ti) ,

Pa_i = [Id − KiHi] Pfi.

Dans le document Assimilation de données pour la dynamique du xénon dans les cœurs de centrale nucléaire (Page 46-51)