Fusion de modèles - Fusion en suivi d’objet

1.3 Fusion en suivi d’objet

1.3.2 Fusion de modèles

Les algorithmes de suivi combinent en général deux types de modèles : des modèles de mouvement et des modèles d’apparence.

Fusion de modèles de mouvement

Historiquement, les premières études de fusion de modèles se sont intéressées à la fusion de modèles de mouvement pour le pistage de points dont le problème est le suivant : un capteur (radar, laser, etc.) détecte des cibles potentielles représentées par des points (positions). A chaque instant, des points sont détectés mais non identifiés comme appartenant à l’une des cibles existantes. Le pistage des cibles consiste alors à associer la bonne séquence de points à chacune des cibles (problème d’association de points). Pour cela, les études cherchent à modéliser le mouvement de chacune des cibles à partir de détections passées, pour permettre l’association des détections futures aux pistes existantes. Puis, afin d’avoir un modèle le plus fidèle possible à la piste, le modèle est corrigé en intégrant la nouvelle détection à chaque instant. Ces études ont donné naissance aux méthodes de modèles de mouvements indépendants et de suivi multi-hypothèses (Multiple Hypothesis Tracking) pour le suivi multi-cibles [Blackman, 2004]. Elles ont ensuite été étendues aux méthodes MCMC (Markov Chain Monte Carlo) telles que le filtrage particulaire [Bar-Shalom et al., 2011] où chaque cible possède plusieurs modèles de mouvement, le nombre de modèles étant déterminé par le nombre de particules utilisées pour représenter l’espace d’état. Certaines de ces techniques ont été exploitées dans le pistage vidéo mais il s’agit de pistage

multi-objets, pas de suivi. Pour le suivi multi-personnes dans des vidéos, [Breitenstein et al., 2011] combinent des filtres particulaires, un détecteur générique de personnes et des classifieurs spécifiques appris en ligne, proposés par [Grabner et Bischof, 2006] : le détecteur génère des détections de personnes, qui servent d’une part à initialiser les pistes de suivi, et d’autre part, comme exemples d’apprentissage pour entraîner des classifieurs spécifiques à chaque personne afin de pouvoir discriminer les personnes entre elles par l’apparence. [Khan et al., 2014] améliorent la recherche de l’objet en ajoutant une échelle/région variable dans le modèle de mouvement, et disposent ainsi d’un ensemble de modèles de mouvement à échelles différentes ou régions variables permettant de couvrir des espaces plus grands. Parmi cet ensemble, un seul modèle de mouvement est sélectionné à chaque instant, et correspond à celui dont la prédiction d’état maximise la vraisemblance des observations. Cette dernière est calculée à partir d’un modèle d’observation basé sur un histogramme de couleurs HSV.

Fusion de modèles d’apparence

Les efforts majeurs dans le suivi vidéo ont porté sur le modèle d’apparence, en particulier sur la fusion de modèles d’apparence différents et la sélection des modèles, adaptés aux situations.

Conservation de l’historique du modèle d’apparence L’une des raisons qui expliquent l’échec de suivi d’un tracker est la dérive de son modèle d’apparence causée par de mauvaises mises à jour. [Zhang et al., 2014a] (tracker MEEM) résolvent ce problème de dérive en conservant un historique du modèle d’apparence pris à des instants différents {M_t}T

t=0, chaque modèle d’apparence constitue alors un expert (ou tracker). Lorsque les experts ne votent pas pour la même position d’objet (prédictions dissociées des uns des autres), une sélection du meilleur expert est nécessaire. La qualité de chaque expert est évaluée par une mesure d’entropie des réponses (probabilité a posteriori) de l’expert sur un ensemble de positions possibles de la cible. Un expert qui donne une probabilité a posteriori élevée pour toutes les positions de cet ensemble va générer une entropie élevée alors qu’un expert qui donne une probabilité a posteriori élevée pour une seule position et une probabilité faible pour toutes les autres va générer une entropie faible. Le meilleur expert est donc celui qui génère la plus faible entropie.

Utilisation d’un répertoire varié de caractéristiques Les trackers suivants exploitent un répertoire varié de caractéristiques (couleur, texture, gradient, spatio-temporel). Une possibilité consisterait à « fusionner des vecteurs de caractéristiques de types différents », mais augmenterait alors la dimensionnalité de l’espace de représentation et rendrait son exploitation coûteuse et complexe à maîtriser (« curse of dimensionality »). Cette approche est peu utilisée.

Une autre manière est de « mettre en compétition des modèles d’apparence basés sur des caractéristiques différentes en pondérant les modèles » en fonction de la situation (nature de la scène, type de difficulté, etc.). C’est le cas du Boosting en ligne [Grabner et al., 2006] (Ensemble

d’apprentissage. [Brasnett et al., 2007] combinent un ensemble de modèles d’apparence basés sur des caractéristiques hétérogènes (couleurs, textures, contours) dans un filtre particulaire et montrent une amélioration du suivi par rapport à l’utilisation d’un seul modèle d’apparence. La fonction de vraisemblance globale correspond au produit des vraisemblances de chaque modèle, pondérées par un coefficient. Chaque coefficient mesure une distance entre l’apparence initiale et l’apparence de la prédiction fonction du modèle utilisé et est mis à jour en ligne. [Erdem

et al., 2012] fusionnent 3 types de caractéristiques (couleur, mouvement et lumière infrarouge)

dans un filtre particulaire et proposent une méthode d’estimation en ligne de la fiabilité de chaque caractéristique basée sur la vraisemblance courante mais aussi passée. [Penne et al., 2013] proposent une combinaison linéaire d’un ensemble de « modules » boostés en ligne selon un algorithme de type Adaboost [Freund et al., 1996], chaque module étant pondéré en fonction de sa capacité à discriminer l’objet de son contexte avoisinant (similitude entre objet et voisinage proche). Chaque module est composé d’un classifieur basé sur une caractéristique visuelle simple et produit à chaque instant, une carte de confiance sur la localisation de l’objet (réponse du module en chaque point de l’image). Les poids des modules ainsi que les cartes de confiance (données d’observation) sont combinés dans un filtre particulaire pour déterminer la position de

l’objet.

Plutôt que de pondérer les modèles, [Yoon et al., 2012] « sélectionnent le modèle le plus adapté à chaque instant ». Ils proposent un formalisme bayésien combinant N trackers à filtrage particulaire, chacun utilisant un modèle d’apparence construit sur une caractéristique différente (HOG, caractéristiques de Haar et intensité). A chaque instant t, la fiabilité de chaque tracker est évaluée et quantifiée par une probabilité appelée « probabilité du tracker ». Le tracker ayant la probabilité la plus élevée parmi les N trackers est sélectionné : T_t^best= argmax

L(Ti

t), où T_tⁱ est le ième tracker et L est une fonction de vraisemblance construite sur deux autres modèles d’apparence (apparence récente moyennée sur les images précédentes et dictionnaire d’apparences vues au cours du temps). L’état de la cible ˆX_t est l’estimation qui maximise la probabilité a posteriori de ce tracker : ˆXt = argmax

p(Xt|Tbest

t , Y1:t), où Y_1:t désigne les observations des instants 1 à t.

Fusion de différents types de modèles

Une solution fusionnant des trackers à différents niveaux est le VTS (Tracking by Sampling

Trackers) de [Kwon et Lee, 2011] qui utilise un ensemble de N trackers échantillonnés dans

l’espace des modèles d’apparence, modèles de mouvement, types de représentation d’état et types d’observation. Similaire à l’étude précédente [Yoon et al., 2012], le suivi d’objet est formulé sous la forme d’un filtrage bayésien. La probabilité a posteriori est estimée par une somme pondérée des probabilités a posteriori conditionnelles aux trackers :

p(X_t|Y_1:t) ' p(X_t|T_t, Y_1:t) = N X i=1 p(T_tⁱ|Y_1:t)p(X_t|Ti t, Y_1:t) (1.6)

où p(X_t|Ti

t, Y_1:t) est la probabilité a posteriori conditionnelle au ième tracker T_tⁱ à l’instant t, et p(T_tⁱ|Y_1:t) le poids correspondant. T_t désigne l’ensemble des trackers à l’instant t et Y_1:t les observations des instants 1 à t. L’état de la cible ˆX_t maximise cette probabilité a posteriori conditionnellement à l’ensemble des trackers T_t : ˆX_t= argmax

p(X_t|T_t, Y_1:t), où Y_1:t désigne les observations des instants 1 à t.

Cependant, parmi ces approches, deux seulement utilisent des contraintes spatiales pour évaluer la qualité des modèles d’observation [Zhang et al., 2014a, Penne et al., 2013]. Pour toutes les autres approches, la qualité des modèles d’observation n’est pas évaluée en ligne, rendant la performance dépendante de la fiabilité des vraisemblances.

Dans le document Fusion en ligne d'algorithmes de suivi visuel d'objet (Page 50-53)