• Aucun résultat trouvé

Les ltres particulaires (FP) sont utilisés dans de nombreux domaines : robotique, sta- tistiques, économie, automatique, etc. et plus récemment dans ceux du diagnostic et du pronostic. Cependant les bases restent les mêmes quel que soit le cas d'utilisation. Avant d'étudier le FP, revenons d'abord sur le contexte des approches bayésiennes.

1.1 Dénition du problème

Considérons un système modélisé comme markovien, non-linéaire, non-stationnaire et peut être non-gaussien [54]. Pour mémoire, un processus de Markov est un processus stochastique avec la propriété de Markov, c'est à dire que la distribution de probabilité conditionnelle des états futurs dépend seulement de l'état actuel et non des états passés. La non-linéarité fait référence à la fois à la dénition classique d'un système non-linéaire, c'est à dire un système pour lequel la sortie n'est pas directement proportionnelle à l'en- trée, et à la représentation mathématique, c'est à dire une équation d'état non-linéaire. La connaissance de toutes les informations pertinentes pour décrire le système sous étude et observations bruitées de ce système sont traduites sous la forme d'au moins deux mo- dèles dans le but d'analyser les dynamiques du système [7,54] :

1. le modèle d'état (ou modèle du système) : décrit l'évolution de l'état dans le temps, cela peut être un état non-observé (état caché) {xt, t ∈ N}, xt ∈ X est modélisé

comme un processus de Markov de distribution initiale p(x0) et d'équation de

transition p(xt|xt−1),

2. le modèle d'observation : lie les mesures bruitées à l'état. Les observations sont notées {yt, t ∈ N∗}, yt∈Y est supposé être conditionnellement indépendant étant

donné le processus {xt, t ∈ N} et de distribution marginale p(yt|xt).

Selon [7], une hypothèse importante est que les modèles doivent être disponibles sous leur forme probabiliste. Cependant pour être utilisés dans une structure de ltrage, les modèles sont communément trouvés sous la forme [152] :

xt= f (xt−1, ut, ωt) ↔ p(xt|xt−1) (40)

yt= h(xt, vt) ↔ p(yt|xt) (41)

où utest la commande en entrée du système, ωtet vtsont des bruits blancs, pas nécessai-

rement gaussiens. Quelques exemples de buits blancs non-gaussiens sont décrits dans [83].

1.2 L'approche bayésienne

L'approche bayésienne consiste à construire la fonction de densité de probabilité pos- térieure de l'état (probability density function - pdf) basée sur toutes les informations

disponibles. En principe, une estimation optimale de l'état, vis-à-vis de n'importe quel critère, peut être obtenue [7].

L'état est estimé récursivement via l'approche de ltrage. Selon [7], cela signie que les données reçues peuvent être traitées de manière séquentielle plutôt qu'en groupe. Il n'est donc pas nécessaire de stocker les données complètes ni de traiter à nouveau les anciennes quand de nouvelles arrivent. En pratique, nous verrons dans la partie pronostic que sto- cker une partie des données peut être nécessaire quand on transforme le fonctionnement du ltre. Le ltrage comporte 2 étapes :

1. prédiction : on utilise le modèle d'état pour estimer l'état actuel ;

2. mise à jour : on utilise la dernière mesure pour modier la pdf prédite avec la règle de Bayes.

Pour mémoire, la règle de Bayes peut être formulée comme suit pour une variable continue [257] :

p(x|y) = p(y|x)p(x)

p(y) =

p(y|x)p(x)

R p(y|x0)p(x0)dx0 (42)

avec l'exigence que p(y) > 0.

Dans le contexte du ltrage, si x est une quantité qui doit être déduite de y, la probabilité p(x)sera dénommée la distribution de probabilité antérieure, et y est appelée donnée. La distribution p(x) résume la connaissance concernant la variable x avant l'incorporation de y. p(x|y) est appelée distribution de probabilité postérieure [257].

Sur cette base, la problème de tracking bayésien consiste à calculer de manière récursive un degré de croyance dans l'état xkà la date k, connaissant les données y1:k jusqu'à cette

date. On réalise alors la construction de la pdf p(xk|y1:k). La pdf initiale p(x0|y0) ≡ p(x0)

de l'état est supposée disponible. La pdf p(xk|y1:k) est obtenue récursivement par les 2

étapes mentionnées plus tôt, prédiction et mise à jour :

1. utilisation du modèle d'état pour obtenir la pdf antérieure à la date k via l'équa- tionu de Chapman-Kolmogorov :

p(xk|y1:k−1) =

Z

p(xk|xk−1)p(xk−1|yk−1)dxk−1 (43)

2. à la date k, une mesure yk devient disponible et peut être utilisée pour mettre à

jour la pdf via la règle de Bayes : p(xk|y1:k) =

p(yk|xk)p(xk|y1:k−1)

p(yk|y1:k−1) (44)

où la constante de normalisation p(yk|y1:k−1) =

Z

p(yk|xk)p(xk|y1:k−1)dxk (45)

Ceci forme la solution bayésienne optimale. Cependant, c'est seulement une solution conceptuelle : en général elle ne peut pas être déterminée analytiquement. Pour ce faire, une famille d'outils de ltrage existe allant du ltre de Kalman (KF) et ses variations (extended KF or unscented KF), des histogrammes aux ltres particulaires. Le choix parmi ces ltres dépend de la dynamique du système et de la forme de la distribution du bruit. Une classication non-exhaustive guidant ce choix est proposée dans [240] et reproduite en Figure85de l'Annexe F.

La suite se concentre maintenant sur les ltres particulaires (FP).

2 Filtrage particulaire

2.1 Considérations générales

L'usage des FP ore certains avantages mais a aussi des inconvénients. Cela dépend fortement des conditions d'utilisation. Parmi les avantages, on peut citer le fait que le FP est applicable aux systèmes non linéaires, qu'il est adaptatif, se focalise sur les régions probables de l'espace d'état, fonctionne avec les bruits non gaussiens, etc. [130]. Concernant les désavantages, on peut retenir qu'il est dicile de déterminer le nombre de particules optimal, qu'il peut y avoir une haute complexité de calcul, qu'il existe des problèmes potentiels de dégénérescence et de perte de diversité, etc. Ces avantages et défauts peuvent être discutés plus largement, nous y reviendrons dans le chapitre suivant dans le cadre particulier du pronostic.

2.2 Principe et hypothèses

Comme pour l'échantillonage de Monte Carlo (MC) parfait, le ltrage particulaire sup- pose que l'on est capable de simuler N échantillons aléatoires indépendants et identi- quement distribués suivant p(x0:t|y1:t) qui sont appelés particules [54]. La notation x0:t

désigne l'état ayant évolué de l'instant initial à l'instant t. Basé sur le principe de si- mulation de MC, l'approximation du FP représente une distribution continue par des mesures aléatoires discrètes composées des particules xi

t. Ces particules sont les i valeurs

possibles de l'état inconnu xt à la date t.

On peut dénir diérents objectifs du ltrage et leurs distributions correspondantes sui- vant les cas applicatifs du FP [152]. Cependant, par soucis de clarté et de pertinence, les discussions de se focalisent sur les distributions suivantes :

 la distribution antérieure p(xt|xt−1),

 la distribution postérieure p(xt|y1:t),

 la densité d'importance (ou distribution préférentielle) q(xt|x0:t−1, y1:t),

Le succès de l'algorithme du FP dépend de la validité des hypothèses suivantes [267] :  hypothèse de Monte Carlo : l'approximation de point de masse de Dirac donne

 hypothèse d'échantillonnage d'importance : il est possible d'obtenir des échan- tillons de la postérieure en échantillonnant la distribution préférentielle appropriée et en appliquant des corrections d'échantillonnage préférentiel.

2.3 Une grande famille de ltres

. Sequential Importance Sampling : la forme classique. Sequential Importance Sampling (SIS) est une méthode de MC qui forme la base de la plupart des ltres sé- quentiels. Elle est connue sous diérentes appellations : bootstrap ltering, condensation algorithm, interacting particle approximation, survival of the ttest [7].

L'idée principale est d'utiliser un jeu d'échantillons aléatoires avec poids associés pour représenter la pdf postérieure. Les estimations d'état sont basées sur ces échantillons et leurs poids. Par conséquent, la discrétisation de l'espace d'état est donnée par l'approxi- mation discrète pondérée :

p(x0:k|y1:k) ≈ N

X

i=1

ωkiδ(x0:k− xi0:k) (46)

avec les poids normalisés tel que P ωi

k= 1 et δ la fonction de Dirac.

Les poids sont choisis en fonction du principe d'échantillonnage préférentiel (importance sampling) [7]. On suppose que p(x) est proportionnelle à π(x) est une densité de pro- babilité de laquelle il est dicile de tirer des échantillons mais pour laquelle π(x) peut être évaluée. De plus, xi ≈ q(x), i = 1...N sont des échantillons facilement générés de la

densité d'importance q(.). On a donc la densité pondérée approximée : p(x) ≈

N

X

i=1

ωiδ(x − xi) (47)

où wi est proportionnel à π(xi)

q(xi).

A chaque itération, on peut avoir des échantillons constituant une approximation de

p(x0:k|y1:k−1) et on veut approximer p(x0:k|y1:k−1) avec un nouveau jeu d'échantillons.

De la relation :

q(x0:k|y1:k) = q(xk|x0:k−1, y1:k)q(x0:k−1|y1:k−1) (48)

on peut déduire l'équation de mise à jour des poids : wkiαwk−1i .p(yk|x i k)p(xik|xik−1) q(xi k|xik−1, yk) (49) et la densité postérieure ltrée :

p(xk|y1:k) ≈ N

X

i=1

ωkiδ(xk− xik) (50)

1. Un problème de dégénérescence : après quelques itérations, toutes les particules sauf une ont un poids négligeable.

Une mesure de la dégénérescence de l'algorithme est donnée par la taille eective de l'échantillon (eective sample size - ESS)

Nef f =

N

1 + var(ωk∗i) (51)

où ω∗i

k est le poids non normalisé. L'ESS ne peut être évalué exactement donc il

est approximé par :

ˆ Nef f = 1 P(ωi k)2 (52) Deux possibilités sont bien connues pour réduire cet eet de dégénérescence : un bon choix de densité d'importance et l'utilisation du ré-échantillonnage (resam- pling). Cela nous conduit aux points 2 et 3.

2. Choix d'une bonne densité d'importance : une première méthode consiste à choi- sir la densité d'importance q(xk|xik−1, yk) qui minimise var(ωk∗i) pour maximiser

Nef f. Cependant, elle a deux défauts principaux car elle requiert l'aptitude à

échantillonner depuis p(xk|xik−1, yk)mais aussi à évaluer une intégrale sur le nou-

vel état. Il existe deux cas dans lesquels l'utilisation de la densité d'importance optimale est possible :

 xk fait parti d'un jeu ni d'échantillons,

 ou avec une classe de modèles pour lesquels p(xk|xik−1, yk) est gaussien (dy-

namiques non-linéaires avec des observations linéaires).

3. Ré-échantillonnage : le principe est d'éliminer les particules qui ont de petits poids et de se concentrer sur les particules de poids plus élevés. Cette étape implique la génération d'un nouveau jeu de particules xi∗

k

N

i=1 en ré-échantillonnant N

fois depuis p(xk|y1:k). Le résultat est un échantillon indépendant identiquement

distribué de la densité discrète et les poids sont réinitialisés à 1/N.

Cela introduit des problèmes pratiques, le plus important d'entre eux est la perte de diversité : les particules qui ont des poids élevés sont souvent sélectionnées éliminant des parties entières de l'espace d'état.

L'algorithme SIS est la base de tous les FP. Un grand nombre de variantes de ltres ont été proposées ces quinze dernières années. Toutefois ils suivent tous un schéma classique. . Schéma général du ltre particulaire. Sur la base du SIS, tous les FP suivent le même schéma.

1. Initialisation : N particules sont créées à partir de l'état initial du système. Selon [257], si on connaît les valeurs de x0, la distribution initiale p(x0)doit être initia-

lisée avec une distribution qui centre toutes les probabilités sur la valeur correcte x0 et assigne la probabilité 0 partout ailleurs. Si on ignore totalement la valeur

de x0, une distribution uniforme sur le domaine de x0 peut être utilisée (ou une

2. Prédiction : la distribution de probabilité à la date t p(xt|xt−1) est évaluée grâce

au modèle d'état, l'état estimé xt−1 à la date t − 1 et les entrées du système ut.

3. Mise à jour : une nouvelle observation est disponible, les poids sont calculés grâce à l'équation (49). La propagation des particules avec le calcul des poids est appelée échantillonnage d'importance (importance sampling) [152].

4. Ré-échantillonnage : les particules avec des poids faibles sont éliminées et les autres sont dupliquées. Le ré-échantillonnage est équivalent à la modication de la mesure aléatoire pour améliorer l'exploration de l'espace d'état à t + 1 [152]. Les tâches de mise à jour et de ré-échantillonnage sont les plus délicates de la procédure. Le calcul des poids requiert la connaissance de (équation (49)) :

 la distribution de likelihood p(yk|xik) qui mesure la correspondance entre chaque

particule et la dernière observation,  la prédiction p(xk|xk−1);

 et la distribution préférentielle q(xk|xk−1, yk)

Le choix de la distribution préférentielle est loin d'être une tâche triviale car la forme de q(.) est presque toujours inconnue. Il existe plusieurs approches pour l'extraction de la densité (approximation gaussienne, distribution multimodale : k-means clustering, his- togramme, arbre de densité, estimation de densité de noyau) [257].

Il est également possible de prendre la distribution préférentielle q(xt|x0:t−1, y1:t) =

p(xt|x0:t−1, y1:t)qui minimise la variance des poids d'importance conditionnelle à x0:t−1et

y1:t. Cependant le choix le plus populaire est l'utilisation de q(xt|x0:t−1, y1:t) = p(xt|xt−1)

[267]. Le point crucial est que si on échoue à utiliser la dernière information disponible, seules quelques particules auront des poids signicatifs lorsque leur likelihood sera éva- luée.

Le second point dur est le ré-échantillonnage. Pour éviter la dégénérescence, deux types de solutions existent : la stratégie de force brute consistant à augmenter le nombre de particules et une stratégie plus ne consistant à implémenter des stratégies de ré- échantillonnage évoluées. Selon [150], pour éviter l'appauvrissement en échantillons, le ré-échantillonnage doit être exécuté seulement à des moments précis, par exemple seule- ment quand la variance des poids non-normalisés est supérieure à un seuil déni par l'ESS mentionné plus tôt. Cela permet de contrôler la fréquence de ré-échantillonnage : en eet ré-échantillonner trop souvent augmente le risque de perte de diversité, en revanche le faire trop peu risque de gâcher des particules dans des régions à faible probabilité. Le ré-échantillonnage est adopté pour forcer les particules des zones à faibles likelihood à bouger vers celles à haute likelihood. Il existe un très grand nombre d'approches. [150] les dénit comme aveugles quand la mobilité des particules est faite sans direction spé- cique, et comme guidées quand de nouvelles observations sont directement utilisées pour diriger les particules.

. Filtres particulaires évolués. Une grande diversité de ltres est apparue. Leurs diérences reposent surtout sur le choix de la distribution préférentielle et/ou dans des changements dans la procédure de ré-échantillonnage. Tous n'ont pas de nom particulier donc pour avoir un aperçu global dans la revue de littérature, à la fois les diérents

types de ltres et de ré-échantillonnage doivent être étudiés. Des revues détaillées sur le sujet existent déjà [35,152], expliquant comment les diérentes procédures fonctionnent donc ici seuls les noms des ltres/resampling sont résumés. Par exemple dans [152], les auteurs proposent une classication des schémas de ré-échantillonnage en distinguant les approches séquentielles et parallèles ainsi que quatre critères supplémentaires : la dis- tribution utilisée, le ré-échantillonnage de toutes les particules suivant le même principe ou non, la manière de grouper les particules ainsi que l'utilisation ou non de la dernière information disponible.

Les diérents types de ltres et ré-échantillonnages sont résumés dans les Tables 19 et

20. Il est important de préciser que les ltres modiés pour le pronostic ne sont pas inclus dans ces tables, ils viendront dans la suite.