Autres stratégies, quand la fonction d'importance optimale n'est pas

2.3 Stratégies d'échantillonnage

2.3.3 Autres stratégies, quand la fonction d'importance optimale n'est pas

Lorsque la fonction d'importance optimale n'est pas disponible, diérentes méthodes ont été proposées pour l'approcher, ou pour guider les particules vers les zones de forte vraisemblance.

Ajout d'une étape de Monte Carlo

Une première possibilité consiste à mettre en ÷uvre une deuxième étape de Monte Carlo pour approcher la fonction d'importance optimale [Doucet 98]. Pour cela, une procédure d'acceptation rejet ou d'échantillonnage pondéré peut être utilisée. Cette approche n'est pas intéressante dans un cadre d'algorithme séquentiel car elle est trop coûteuse en temps de calcul.

D'autres méthodes de Monte Carlo par chaînes de Markov (mcmc) peuvent être intro-duites pour une meilleure diusion des particules, en particulier lorsque la diérence entre la densité de prédiction et la vraisemblance est trop importante pour les déplacer en un pas. L'idée est de faire migrer les particules par une ou plusieurs itérations de mcmc, en introduisant des densités intermédiaires. Ces densités sont choisies de façon à introduire graduellement l'information de la vraisemblance dans la fonction d'importance.

Ces ltres hybrides, qui combinent un ltrage particulaire avec des itérations de mcmc correspondent à un développement séquentiel de l'algorithme d'échantillonnage pondéré refroidi (annealed importance sampling) proposé par Neal [Neal 01]. On peut citer par exemple le ltre particulaire avec correction progressive [Musso 01] ou le ltre particulaire couplé à l'utilisation de bridging densities [Godsill 01]. La diculté d'utilisation de ces algorithmes vient du choix des distributions intermé-diaires (en particulier, choix de la séquence des coecients de refroidissement), et de leur nombre. De plus, l'ajout d'itérations de mcmc augmente signicativement le coût de calcul. Filtre particulaire étendu et ltre particulaire unscented

Une idée alternative pour l'approximation de la loi de proposition optimale repose sur les développements des extensions du ltre de Kalman. On suppose une forme gaussienne de la fonction d'importance π(xk|x⁽ⁱ⁾_k−1, z_k) = N (x_k; ˆx⁽ⁱ⁾_k|k, Σ⁽ⁱ⁾_k|k). À chaque particule est associé un ltre de Kalman étendu ou unscented, qui permet le calcul des moments de cette approximation soit par linéarisation [Doucet 00b], soit par estimation sur un nuage de point [Merwe 00], en utilisant la nouvelle mesure zk.

Les ltres construits sont appelés ltre particulaire étendu (extended particle l-ter) et ltre particulaire unscented (unscented particle ll-ter). Ces méthodes prennent en compte la vraisemblance lors de la propagation des particules. Elles ont donc des per-formances supérieures au ltre bootstrap. Enn, nous avons vu dans la section 1.2.2 les avantages du ltre de Kalman unscented, ce qui rend préférable son utilisation par rapport au ltre de Kalman étendu.

De façon similaire au cas non aléatoire, le ltre particulaire unscented peut être étendu au ltre particulaire unscented, par mélange de gaussiennes [Merwe 03].

Cette méthode représente la densité a posteriori par une somme nie de loi gaussiennes, dont les paramètres sont déterminés par l'algorithme EM (expectation-maximisation) sur le nuage pondéré des particules. Le nuage évolue par le principe d'échantillonnage pondéré avec rééchantillonnage, en utilisant un banc de ltre de Kalman unscented pour la propagation des particules.

Filtre particulaire auxilaire

Le ltre particulaire auxiliaire (auxiliary particle lter) a été introduit par Pitt et Shepard [Pitt 99] [Pitt 01] dans le but de réduire le problème de dégénérescence quand la vraisemblance est très informative ou que l'observation se trouve dans la queue de la densité de prédiction. Le schéma d'échantillonnage pondéré avec rééchantillonnage est conservé, en introduisant la loi de proposition π(xk, i|z_1:k), utilisée pour tirer les couples {x(j)

k , i^j}_j=1...N où ij est la variable auxiliaire qui désigne l'indice de la particule au temps précédent.

Le ltre particulaire auxiliaire consiste à générer un ensemble d'échantillons selon la densité jointe p(xk, i|z_1:k). Puis les indices sont supprimés dans les couples {x(j)

k , i^j}_j=1...N pour obtenir un ensemble d'échantillons {x(j)

k }_j=1...N de la loi marginale p(xk|z_1:k) (qui correspond à la loi de ltrage recherchée). En remarquant que

p(x_k, i|z_1:k) ∝ p(z_k|x_k) p(x_k, i|z_1:k−1)

= p(z_k|x_k) p(x_k|i, z_1:k−1) p(i|z_1:k−1)

= p(zk|x_k) p(xk|x⁽ⁱ⁾_k−1) w⁽ⁱ⁾_k−1, (2.40) la fonction d'importance est naturellement choisie telle que

π(xk, i|z1:k) ∝ p(zk|µ⁽ⁱ⁾_k ) p(xk|x⁽ⁱ⁾_k−1) w_k−1⁽ⁱ⁾ , (2.41) où µ(i)

k caractérise la loi conditionnelle p(xk|x⁽ⁱ⁾_k−1)(par exemple, µ(i)

k peut être déni comme la moyenne). En écrivant

π(xk, i|z1:k) = π(i|z1:k) π(xk|i, z_1:k) (2.42) et en posant

π(x_k|i, z_1:k) = p(x_k|x⁽ⁱ⁾_k−1) (2.43) on obtient

π(i|z1:k) ∝ p(zk|µ⁽ⁱ⁾_k ) w_k−1⁽ⁱ⁾ . (2.44) L'idée est ainsi de d'abord tirer un indice ij selon π(i|z1:k) ∝ p(z_k|µ⁽ⁱ⁾_k ) w⁽ⁱ⁾_k−1 et de faire évoluer la particule d'indice sélectionné selon la loi de propagation a priori p(xk|x⁽ⁱ_k−1^j⁾). Sur le même principe que (2.18) (p. 38), le poids d'importance attribué au couple (xj

Le ltre particulaire auxiliaire est résumé par l'algorithme 10. Comme cela est décrit dans [Ristic 04b], il équivaut à eectuer une étape de rééchantillonnage des particules à

50 2.3 Stratégies d'échantillonnage

l'instant k−1 (en utilisant la nouvelle mesure disponible au temps k), avant la propagation des particules au temps k. Ainsi, bien qu'une étape de rééchantillonnage à la n du temps k soit décrite dans l'algorithme original, celle-ci n'est pas nécessaire. On peut également remarquer que choisir la densité de prédiction pour le tirage des particules (2.43) n'est pas obligatoire, et que n'importe quelle densité de proposition peut être utilisée.

Les performances du ltre particulaire auxiliaire sont meilleures que celles du ltre bootstrap lorsque les pics de la vraisemblance coïncident avec des zones où l'a priori est faible. Cela est due à une meilleure propagation des particules dont la vraisemblance prédite est élevée. Néanmoins, si les deux distributions coïncident, il n'est pas nécessaire d'utiliser cet algorithme car l'introduction de variables auxiliaires augmente la variance de l'échan-tillon.

Algorithme 10 Filtre particulaire auxiliaire • initialisation :

pour j = 1...N, générer x(j)

0 ∼ p(x₀), et xer w(j)

0 = 1/N • pour k = 1, 2, ... :

1. pour i = 1...N calculer, µ(i)

k en fonction de p(xk|x⁽ⁱ⁾_k−1) 2. échantillonnage des variables auxiliaires :

pour j = 1...N, générer ij ∼ π(i|z_1:k) ∝ p(z_k|µ⁽ⁱ⁾_k ) w⁽ⁱ⁾_k−1 3. échantillonnage des particules :

pour j = 1...N, générer x(j)

k ∼ p(x_k|x⁽ⁱ_k−1^j⁾)

4. mise à jour des poids d'importance : pour i = 1...N, calculer w(j)

k = ^p(zk|x^(j)_k ) p(zk|µ^{(ij )}_k )

5. normalisation des poids : pour j = 1...N, calculer we_k^(j)= ^w

(j) k

PN i=1w_k⁽ⁱ⁾

Échantillonnage par la vraisemblance

An de prendre en compte la nouvelle observation pour la diusion des particules, [Fox 01] propose l'utilisation d'une fonction de proposition égale à la vraisemblance du modèle (likelihood sampling). Cela amène à considérer un algorithme dual du ltre particulaire classique. La méthode proposée consiste à prédire les particules selon leur vraisemblance. Puis le nuage prédit est corrigé à travers un calcul des poids d'importance proportionnellement à la densité de prédiction a priori. Cette phase de correction revient à projeter en arrière la particule prédite pour connaître sa probabilité d'avoir un prédécesseur parmi le nuage à l'instant précèdent. La diculté du tirage selon la vraisemblance est un problème de cette méthode.

De récents développements ont étendu cette méthode vers un échantillonnage local par la vraisemblance (local likelihood sampling) [Torma 04]. L'idée est de déplacer les particules selon la prédiction, puis de les faire localement se rapprocher d'un mode

de la vraisemblance. Le calcul des poids d'importance prend en compte ce double échan-tillonnage. Cet algorithme se révèle ecace lorsque la vraisemblance est très informative, contrairement à la densité de prédiction (cas (a) de la gure (2.1)) , mais ne permet pas de résoudre le problème de dégénérescence lorsqu'il n'y a pas de recouvrement entre ces deux densités (cas (b) de la gure (2.1)).

Échantillonnage d'un bloc de variables

Les techniques présentées jusqu'ici proposent l'introduction de la dernière mesure zk

dans la fonction d'importance, pour une prédiction à un pas des nouvelles particules au temps k. La prédiction à un pas peut être généralisée par une prédiction à L pas, en considérant une fonction d'importance π(xk−L:k|x_0:k−1, z1:k) permettant de tirer un bloc de variables xk−L:k. Par extension au cas L = 1, la loi de proposition minimisant la variance des poids utilise un bloc de mesures et s'écrit p(xk−L:k|x_k−L−1, z_k−L:k). Dans le cas le plus simple, on peut utiliser p(xk−L:k|x_k−L−1).

Les résultats présentés dans [Doucet 04] montrent qu'une prédiction d'un bloc de variables donne de meilleurs résultats qu'une prédiction à un pas, pour une dégénérescence moindre des poids d'importance (la taille ecace du N-échantillon diminue moins vite avec le temps, et le nombre de phases de rééchantillonnage nécessaires diminue). Cependant, échantillonner un bloc de variables est une étape dicile et coûteuse. Elle peut être réalisée par des récursions forward-backward, ou à l'aide d'approximations de la loi de proposition (modèles de mélanges, algorithmes mcmc, etc.).

Stratégies d'échantillonnage pour le suivi dans des séquences d'images

Dans le cadre du suivi dans des séquences d'images, les stratégies d'échantillonnage utilisées consistent en une des méthodes décrites précédemment (fonction de proposition égale à la densité de prédiction ou permettant de prendre en compte la nouvelle mesure), ou en une méthode qui combine la densité de prédiction et le résultat d'un processus réalisé sur les images. En voici deux exemples : une fonction de proposition qui autorise un grand déplacement des particules peut être dénie pour rendre plus eective l'exploration de l'es-pace d'état. Cette dénition repose sur un module de détection [Pérez 04] [Vermaak 02a]. Une descente de gradient sur l'image peut aussi être mise en place, pour la construction d'une loi qui fusionne une recherche déterministe avec une recherche guidée par le modèle de prédiction a priori [Sullivan 01].

Ces techniques sont décrites dans la deuxième partie, où les modèles utilisés pour le suivi dans des séquences d'images sont présentés.

Dans le document Methodes de filtrage pour du suivi dans des sequences d'images - Application au suivi de points caracteristiques (Page 49-52)