Méthodes séquentielles

1.4 Méthodes séquentielles

1.4.1 Filtre de Kalman linéaire

Lefiltre de Kalman[100] et son extension au temps continu appeléfiltre de Kalman-Bucy

[99] permettent de résoudre de façon optimale le problème du filtrage linéaire, quand les bruits

du système sont additifs et gaussiens. Depuis 1960, le filtre de Kalman a été intensivement utilisé

dans des applications diverses, et a donné lieu à de nombreuses recherches. Dans cette section, le

principe général du filtre de Kalman est expliqué. Le but du filtrage est de suivre un étatx∈R

,

connaissant des observations de cet état y

∈ R

. On considère un système linéaire à bruits

additifs gaussienw

: _





x

_t₊₁

=M

x

+w

,

x(t

₀

) =x

₀

+η,

y

=H

x

+²

,

(1.13)

oùtest l’indice de temps, avect

₀

≤t≤t

. Les hypothèses suivantes sont faites :

Hypothèses 1.4.1

– Le bruit d’initialisationηest un bruit blanc gaussien de covarianceB

₀

.

– Les matrices M

et H

sont déterministes, appelées respectivement matrices d’état et de

mesure.

– Les bruits du modèlew

et des mesure²

sont des bruits blancs gaussiens de covariances

respectivesQ

etR

connues. Ils sont supposés mutuellement indépendants et indépendant

de la condition initiale.R

est inversible.

Le meilleur estimateur dex

connaissant toutes les données jusqu’à l’instanttest donné par

l’es-pérance conditionnellexˆ

=E[x

|y

_{1 :}_t

]et sa covarianceB

=E[(x

−xˆ

)(x

−xˆ

)

]. Ces deux

premiers moments sont calculés récursivement par le filtre de Kalman. Commex

|y

_{1 :}_t

suit une

loi gaussienne, ces deux moments définissent entièrement la distribution de probabilité.

Théorème 1.4.2 On suppose la validité des hypothèses (1.4.1) et l’existence du système (1.13)

dont on connaît la condition initialex

₀

de covarianceB

₀

. On pose alors

ˆ

x

₀

=x

₀

,

et on obtient un modèle de propagation de l’état et de sa covariance d’erreur :

ˆ

x

_t₊₁_|_t

=M

xˆ

,

B

_t₊₁_|_t

=Q

+M

B

M

^T_t

,

ainsi qu’une innovation de l’état et de sa covariance d’erreur :

ˆ

x

= ˆx

_t_|_t₋₁

+K

(y

−H

xˆ

_t_|_t₋₁

),

B

=B

_t_|_t₋₁

−K

H

B

_t_|_t₋₁

,

entraînent un gain fort. La mesure prend donc de l’importance dans la valeur finale de l’estimé. On

note enfin qu’avec le signe−présent dans l’équation d’innovation de la covariance, la matriceB

est toujours inférieure àB

_t_|_t₋₁

, ceci implique que l’on diminue la variance de l’erreur de l’estimé

à chaque nouvelle étape.

On peut remarquer que les matrices de covariance et le gain du filtre ne dépendent pas de la mesure

courante. Pour une réduction du temps de calcul, ces matrices pourront être calculées au préalable

dans le cas où les matrices du systèmeM

,H

,R

etQ

sont indépendantes du temps.

Nous allons à présent nous intéresser à l’adaptation du filtre de Kalman dans le cas où les

opéra-teursMetHsont non linéaires.

1.4.2 Filtre de Kalman étendu

Lorsque le système à résoudre n’est pas linéaire, mais que les hypothèses sur les bruits sont

conservées (bruits blancs additifs, gaussiens, indépendants entre eux et indépendants de la

condi-tion initiale), il s’écrit : _





x

_t₊₁

=M

(x

) +w

,

x(t

₀

) =x

₀

+η,

y

=H

(x

) +²

,

(1.14)

où M

(R

ⁿ

,R

ⁿ

) : x

7→ x

_t₊₁

et H

(R

ⁿ

,R

) : x

7→ y

sont des opérateurs non linéaires,

supposés dérivables. On note toujours Q

la covariance du bruit d’état et R

celle du bruit de

mesure. Le système (1.14) peut être approché par un modèle linéaire gaussien par linéarisation

des équations d’état et de mesure. L’extension la plus simple est obtenue par développement au

premier ordre (autour de l’estimation précédente pour l’équation d’état et de la prédiction pour

l’équation de mesure) :

M

(x

) =M

(ˆx

) +∂

_x_ˆ_t

M

(x

−xˆ

),

H

(x

) =H

(ˆx

_t_|_t₋₁

) +∂

_ˆ_x_t

H

(x

−xˆ

_t_|_t₋₁

). ^(1.15)

Le système linéaire déduit est le suivant :

½

x

_t₊₁

=∂

_x_ˆ_t

M

x

+M

(ˆx

)−∂

_x_ˆ_t

M

xˆ

+w

,

y

=∂

_x_ˆ_t

H

x

+H

(ˆx

)−∂

_ˆ_x_t

H

xˆ

+²

. ^(1.16)

L’utilisation du filtre de Kalman pour ce système fournit les équations du filtre de Kalman étendu

au premier ordre. Dans le cas où les bruits ne sont plus additifs mais liés de façon non linéaire

à l’état et à la mesure, on procède de la même manière. Les fonctions des bruits sont linéarisées

autour de 0 afin d’obtenir un système qui peut être résolu par un filtre de Kalman. Des filtres

équi-valents peuvent être déduits de linéarisation à des ordres supérieurs, mais ils ne sont pas utilisés en

pratique. Si les non-linéarités sont trop importantes, le filtre de Kalman étendu peut diverger. Ceci

est d’autant plus vrai que les équations de ce filtre ne prennent pas en compte l’erreur de

linéarisa-tion. Pour remédier à ce problème, quelques propositions ont été faites. Il est possible, d’une part,

30 1.4 Méthodes séquentielles

d’augmenter la variance des bruitsQ

etR

afin de prendre en compte cette erreur. Une

augmen-tation artificielle de la covarianceB

permet d’autre part de limiter la confiance dans les estimées

passées. Ces méthodes nécessitent cependant un ajustement précis et difficile des paramètres.

1.4.3 Lissage de Kalman

Le lissage de Kalman consiste à chercherxˆ

= E[x

|y

_{1 :}_N

], où N > t. On ne cherche donc

plus une estimationa priorisuivant les observations passées de l’état, mais une estimationa

poste-riori, en considérant l’ensemble des observations sur un intervalle de temps donné. Contrairement

aux cas présentés précédemment, le filtrage ne peut plus être réalisé en ligne, mais s’applique à un

traitement différé (ou hors ligne). Avec le filtrage de Kalman, on sait obtenirxˆ

=E[x

|y

_{1 :}_t

], il

ne reste donc qu’à déterminerˆx

=E[x

|y

_t_{+1 :}_N

]pour obtenir le lissage souhaité. L’idée est alors

de réaliser un filtrage de Kalman rétrograde du tempsN au tempst, en prenant les matrices de

covariance de modèle et de mesure associées à ce nouveau problème. Une fois les deux filtrages

réalisés, on obtientˆx

par filtrage "avant" etxˆ

par filtrage "arrière". Il ne reste plus qu’à combiner

ces deux estimations. Ceci est fait en utilisant un autre filtre de Kalman incorporant les lois des

deux estimésxˆ

etˆx

. On utilise alorsxˆ

comme mesure lors d’un nouveau filtrage de Kalman

"avant". En notantB

1 t

etB

, les matrices de covariance obtenues par les deux premiers filtrages,

l’estiméa posteriorixˆ

de matrice de covarianceB

est donné par :

B

= (B

¹_t

+B

_t²

)

⁻¹

,

ˆ

x=B

(B

_t¹

xˆ

¹_t

+B

_t²

xˆ

²_t

). ^(1.17)

En pratique, le filtre de Kalman a souvent un temps de retard par rapport aux observations. Le

lissage de Kalman permet alors de répondre à ce problème, comme le montre schématiquement la

figure (1.4.3).

1.4.4 Filtre de Kalman d’ensemble

Le filtre de Kalman étendu peut être utilisé dans le cas où la dynamique est linéarisable ou

faiblement non linéaire. Ces hypothèses sont cependant rarement satisfaites dans des contextes

pratiques, comme l’imagerie fluide, l’océanographie ou la météorologie. En 1994, Evensen [65]

(voir aussi [36, 66]) propose une méthode basée sur un échantillonnage de Monte Carlo. Un

en-semble d’échantillons d’états possibles représente alors la distribution de probabilités empirique

de l’état du système. Chaque membre de l’ensemble est propagé jusqu’à l’instant suivant à l’aide

de la dynamique puis déplacé de nouveau en fonction de l’observation à ce nouvel instant. Ce

dernier déplacement est obtenu en effectuant une approximation gaussienne de la distribution des

états prédits et en appliquant les formules du filtre de Kalman classique. Cette formule n’est qu’une

approximation, car en général la distribution des états prédits n’est pas gaussienne si la dynamique

est non linéaire. Le filtre de Kalman d’ensemble a été largement utilisé pour des espaces d’état

de grandes dimensions, lorsque les calculs de prédiction sont coûteux, car il permet d’avoir une

approximation correcte de l’état recherché même pour un petit nombre de particules. On se place

ainsi dans le cadre d’une dynamique non linéaire avec un modèle de mesure linéaire.







x

_t₊₁

=M

(x

) +w

,

x(t

₀

) =x

₀

+η,

y

=H

x

+²

.

(1.18)

F

. 1.1:

Principe du lissage de Kalman.On cherche à suivre la position d’un objet au cours du temps. La courbe noire indique la vraie position de l’objet. La courbe en rouge représente le filtrage obtenu par un Kalman "avant", celle en bleu le filtrage "arrière". La courbe verte est le résultat du lissage de Kalman.

Le filtre de Kalman d’ensemble vise à utiliser les expressions fournies par le filtre de

Kal-man pour le cas linéaire, et nécessite une approximation gaussienne de la variance de la loi de

prédiction. C’est une méthode de Monte Carlo dans le sens où les différentes distributions de

pro-babilités sont décrites de façon empirique par des échantillons de cette loi. Ainsi, la loi initiale

est échantillonnée parN membres (ou particules) xˆ

⁽₀ⁱ⁾

, i = 1. . . N. L’étape de prédiction, dans

le cadre d’une modélisation discrète, consiste à propager l’ensemble des particulesxˆ

⁽_tⁱ⁾

suivant la

dynamique (1.14) pour obtenir les particules prédites notées :

ˆ

x

⁽_t₊₁ⁱ⁾ _|_t

=M

(ˆx

⁽_tⁱ⁾

) +w

_t⁽ⁱ⁾

.

Le second terme de la somme correspond à la simulation d’une variable aléatoire gaussienne

cen-tréew

de varianceQ

. La répartition des particules prédites{xˆ

⁽_t₊₁ⁱ⁾ _|_t

, i= 1. . . N}ne suit une loi

gaussienne que sous l’hypothèse où d’une part le nuage de particules de départ{xˆ

⁽_tⁱ⁾

, i= 1. . . N}

a lui-même une répartition gaussienne et si la dynamique est linéaire. On peut même considérer

que plus les non linéarités sont fortes plus la répartition du nuage prédit s’éloigne de la

gaus-sienne. Le filtre de Kalman d’ensemble s’appuie néanmoins sur une approximation gaussienne de

ce nuage afin de pouvoir appliquer les formules de Kalman. Malgré cette approximation forte, la

méthode semble conduire à de bonnes performances dans le cadre d’applications géophysiques.

Pour réaliser cette approximation, on définit tout d’abord la particule moyenne par :

ˆ

x

_t₊₁_|_t

=

P

i=1

ˆ

x

⁽_t₊₁ⁱ⁾ _|_t

N ^. ^(1.19)

32 1.4 Méthodes séquentielles

On en déduit la matrice de covariance d’ensembleB

t+1|t

à l’aide de l’expression suivante :

B

^e_t₊₁_|_t

=

P

i=1

³

ˆ

x

⁽_t₊₁ⁱ⁾ _|_t

−ˆx

_t₊₁_|_t

´ ³

ˆ

x

⁽_tⁱ₊₁⁾ _|_t

−xˆ

_t₊₁_|_t

´

N −1 ^. ^(1.20)

Cette expression est celle de l’estimateurnon biaisé de la variance d’une série de données. On

peut déduire de cette variance d’ensemble un gain de Kalman d’ensembleK

_t^e

à l’image du cas

gaussien présenté dans la partie précédente. On a alors

K

=B

_t^e₊₁_|_t

H

^T_t₊₁

(H

_t₊₁

B

_t^e₊₁_|_t

H

^T_t₊₁

+R

_t₊₁

)

⁻¹

. (1.21)

Passons à présent à la phase de correction. Les membres d’ensemble obtenus après propagation

suivant la dynamique considérée sont corrigés “en direction” de la mesure d’observation. Pour

cela, on commence par perturber la mesure à l’aide deN tirages suivant la loi du bruit

d’obser-vation (Burgerset al.[36] montre que cette phase est nécessaire pour conserver une covariance

d’ensemble cohérente vis à vis du cas gaussien du filtre de Kalman classique). On obtient ainsi

un ensemble de perturbations d’observations{²

⁽ⁱ⁾

, i = 1. . . N}. Chaque particulexˆ

⁽_tⁱ_|_t⁾₋₁

est

en-suite associée à l’observation perturbéey

+²

(i)

, et l’étape de correction du filtre de Kalman est

appliquée de façon à obtenir l’ensemble de particules corrigéesˆx

⁽_tⁱ⁾

:

ˆ

x

⁽_tⁱ₊₁⁾

= ˆx

⁽_tⁱ₊₁⁾ _|_t

+K

(y

_t₊₁

+²

⁽ⁱ⁾

−Hxˆ

⁽_tⁱ₊₁⁾ _|_t

). (1.22)

Pour des raisons de mise en œuvre, notamment dans le cas d’espaces d’état de très grandes

di-mensions, la covariance d’observationR est parfois remplacée par une covariance empiriqueR

calculée à partir de l’échantillonnage de la loi du bruit d’observation (les ²

(i)

). Le gain K

, de

même que la covariance d’ensemble B

t+1|t

, n’est alors pas calculé explicitement mais

simple-ment représenté par l’ensemble (voir [66, 67]). Cela permet notamsimple-ment de ne pas calculer (ni de

stocker) de matrice de covariance dont la dimension estn×n, ce qui peut être très grand si par

exemplenest le nombre de pixels dans une image. Le jeu de particules ainsi obtenu est utilisé

comme point de départ de l’estimation à l’instant suivant. Il existe de nombreuses autres variantes

du filtre de Kalman. On citera notamment le filtre de Kalman inodorequi utilise une approche

d’échantillonnage déterministe pour représenter une approximation gaussienne de la loi de

fil-trage. Pour une étude plus détaillée du filtrage de Kalman et de ses dérivées, nous renvoyons à la

thèse d’Élise Arnaud [7].

1.4.5 Filtre particulaire

Le développement des filtres de Kalman d’ensemble a principalement été mené dans la

com-munauté des océanographes. D’autres méthodes séquentielles de Monte Carlo comme le filtre

par-ticulaire ont été étudiées de façon intensive dans la communauté du traitement du signal [80, 81].

Ici, la loi de filtrage est échantillonnée également à l’aide de particules (équivalentes aux membres

d’ensemble) qui sont déplacées lors de la phase de prédiction, et affectées d’un poids pendant la

phase de correction. On se place dans le même contexte que dans le paragraphe précédent,i.e.dans

le cas où le modèle d’observation est linéaire, et où la dynamique est non linéaire, l’un et l’autre

avec bruits additifs gaussiens. Cependant, le filtre particulaire s’applique dans le cas général non

linéaire, non additif, non gaussien.

on peut encore, grâce à la loi de Bayes, écrire cette loi de filtrage comme suit :

p(ˆx

_{0 :}_t

|y

_{1 :}_t

) =p(ˆx

_{0 :}_t₋₁

|y

_{1 :}_t₋₁

)^p(y

^|^x^ˆ

^)p(ˆ^x

^|^x^ˆ

^t⁻¹

⁾

p(y

|y

_{1 :}_t₋₁

) ^. ^(1.24)

On obtient ainsi une formule récursive pour la loi de filtrage des trajectoires obtenues. L’évaluation

de cette loi de filtrage s’obtient suivant le principe de l’échantillonnage préférentiel : ne pouvant

simuler des échantillons directement suivant la loi objectif, on tire des échantillons suivant une loi

proche, appelée loi d’importance, et on affecte à chacun un poids valant le rapport des valeurs de

la loi objectif sur la loi d’importance en l’échantillon. Ainsi, si l’on échantillonne suivant la loi

π(ˆx

_{0 :}_t

|y

_{1 :}_t

), la loi objectif sera représentée par les échantillonsx

⁽_{0 :}ⁱ⁾_t

affectés des poidsγ

_t⁽ⁱ⁾

valant

γ

_t⁽ⁱ⁾

= ^p(ˆ^x

(i) 0 :t

|y

_{1 :}_t

)

π(ˆx

⁽_{0 :}ⁱ⁾_t

|y

_{1 :}_t

)^. ^(1.25)

La condition à remplir quant au choix de la loi d’importance est que son support contienne le

support de la loi objectif. En suivant Doucetet al.[63], afin d’obtenir une formulation séquentielle

de l’échantillonnage, la loi d’importance est choisie avec la forme récursive suivante :

π(ˆx

_{0 :}_t

|y

_{1 :}_t

) =π(ˆx

_{0 :}_t₋₁

|y

_{1 :}_t₋₁

)π(ˆx

|y

_{1 :}_t

,ˆx

_{0 :}_t₋₁

). (1.26)

En combinant cette formulation avec l’expression récursive de la loi objectif donnée par (1.24), on

obtient la formule générale des poids :

γ

_t⁽ⁱ⁾

∝γ

_t⁽₋ⁱ⁾₁

^p(y

^|^x^ˆ

(i)

)p(ˆx

⁽_tⁱ⁾

|xˆ

⁽_tⁱ₋⁾₁

)

π(ˆx

⁽_tⁱ⁾

|xˆ

⁽_tⁱ₋⁾₁

,y

_{1 :}_t

) ^, ^(1.27)

la somme de ces poids valant 1. Ainsi, en propageant les particules à l’instant t à l’aide de la

loi de distribution

π(ˆxt|ˆx⁽_tⁱ₋⁾₁,y1 :t)

, et en affectant aux trajectoires ainsi incrémentées le poids

γ

_t⁽ⁱ⁾

défini ci-dessus, on a un échantillonnage de la loi de filtrage recherchée. Différents choix sont

possibles pour la définition de la loi de propagation. Ils sont discutés dans les paragraphes suivants.

Cette procédure est généralement agrémentée d’une étape de rééchantillonnage, où les trajectoires

correspondant à des particules de poids faibles sont abandonnées au profit des particules de poids

fort qui sont dupliquées. Concrètement, on effectueN tirages suivant la loi discrète définie par les

poids des particules pour définirN nouvelles particules de poids1/N. Notons que la présence de

poids non identiques implique une baisse de représentativité de l’échantillon : une particule dont le

poids est proche de zéro contient moins d’information qu’une particule de poids significatif. Cette

quantité d’information peut être représentée par la taille effective d’échantillon [63], ou bien par

la notion d’entropie issue de la théorie de l’information [154] (voir aussi Konget al.[104]). Ce

problème est généralement compensé en introduisant le rééchantillonnage des particules évoqué

ci-dessus, mais cette étape a pour conséquence d’introduire un biais dans la description de la loi

de filtrage, d’autant plus important que le nombre de particules est petit.

Dans le document Assimilation de données images : application au suivi de courbes et de champs de vecteurs (Page 29-35)

1.4 Méthodes séquentielles

1.4.1 Filtre de Kalman linéaire

Lefiltre de Kalman[100] et son extension au temps continu appeléfiltre de Kalman-Bucy

[99] permettent de résoudre de façon optimale le problème du filtrage linéaire, quand les bruits

du système sont additifs et gaussiens. Depuis 1960, le filtre de Kalman a été intensivement utilisé

dans des applications diverses, et a donné lieu à de nombreuses recherches. Dans cette section, le

principe général du filtre de Kalman est expliqué. Le but du filtrage est de suivre un étatx∈R

,

connaissant des observations de cet état y

∈ R

. On considère un système linéaire à bruits

additifs gaussienw

: 





x

=M

x

+w

,

x(t

) =x

+η,

y

=H

x

+²

,

(1.13)

oùtest l’indice de temps, avect

≤t≤t

. Les hypothèses suivantes sont faites :

Hypothèses 1.4.1

– Le bruit d’initialisationηest un bruit blanc gaussien de covarianceB

.

– Les matrices M

et H

sont déterministes, appelées respectivement matrices d’état et de

mesure.

– Les bruits du modèlew

et des mesure²

sont des bruits blancs gaussiens de covariances

respectivesQ

etR

connues. Ils sont supposés mutuellement indépendants et indépendant

de la condition initiale.R

est inversible.

Le meilleur estimateur dex

connaissant toutes les données jusqu’à l’instanttest donné par

l’es-pérance conditionnellexˆ

=E[x

|y

]et sa covarianceB

=E[(x

−xˆ

)(x

−xˆ

)

]. Ces deux

premiers moments sont calculés récursivement par le filtre de Kalman. Commex

|y

suit une

loi gaussienne, ces deux moments définissent entièrement la distribution de probabilité.

Théorème 1.4.2 On suppose la validité des hypothèses (1.4.1) et l’existence du système (1.13)

dont on connaît la condition initialex

de covarianceB

. On pose alors

ˆ

x

=x

,

et on obtient un modèle de propagation de l’état et de sa covariance d’erreur :

ˆ

x

=M

xˆ

,

B

=Q

: _

condi-tion initiale), il s’écrit : _