• Aucun résultat trouvé

Classification des méthodes de suivi

3 Le suivi d’objets

3.1 Classification des méthodes de suivi

La littérature distingue deux grandes catégories de méthodes de suivi que nous allons retrouver sous les acronymes anglais VOT pour « Visual Object Tracking » et MOT pour « Multi Object Tracking ». La première catégorie regroupe les algorithmes dont l’objectif est de suivre une cible unique en faisant bien souvent l’hypothèse que le vecteur d’état de l’objet à suivre est connu à l’instant t0 et ne nécessite pas de détecteur (segmentation ou détecteur spécialisé). Le processus de suivi consiste alors à rechercher la région de l’image qui minimise la distance avec la signature de la cible. La deuxième catégorie est plus générale et regroupe finalement tous les autres algorithmes qui ne rentrent pas dans la première catégorie. Toutefois, elle intègre essentiellement les méthodes faisant référence à l’association de données. Dans le cadre de nos travaux, nous nous sommes particulièrement intéressés au problème du suivi multi objet puisque, avec une étape préalable de modélisation/segmentation de l’avant-plan, nous avons à notre disposition un ensemble de blobs détectés à l’instant t. Cependant, le détecteur peut ne pas être parfait et des objets suivis à l’instant t-1 peuvent ne pas avoir de correspondant dans l’ensemble des blobs à l’instant t. Pour ces objets « gelés » (nous reviendrons sur ce terme par

V - Suivi d’objets d’intérêts mobiles

114

la suite), une stratégie de type « VOT » peut leur être appliquée afin de pallier les défauts du détecteur ou s’assurer de leur réelle absence dans la scène.

De nombreuses approches de suivi d’objets dans les vidéos sont décrites dans la littérature et plusieurs auteurs ont proposé une classification de ces différentes méthodes. Yilmaz et al. [117], proposent une classification en trois catégories (Figure 82) basée sur le type de descripteurs. Cette étude est un peu ancienne mais elle est intéressante dans le sens où les auteurs présentent différentes approches permettant la description des objets et ne se limitent pas aux boites englobantes. La taxinomie proposée par les auteurs se base justement sur le type de représentation de l’objet : points, primitives géométrique et apparence.

Figure 82 : taxonomie des méthodes de suivis proposée par Yilmaz [117]

Dans le cas du suivi par points, les objets sont représentés par des points et le problème peut être formulé comme un problème de mise en correspondance de points d’intérêts. Cette première approche a été principalement étudiée dans les années 80 et 90 lorsque les capacités de calcul étaient particulièrement limitées.

L’approche par noyaux fait référence à la forme géométrique (gabarit) et à l'apparence de l'objet. Le noyau peut être un rectangle ou une ellipse avec un histogramme associé. Les objets sont suivis en calculant le mouvement du noyau dans des images consécutives. Plusieurs modèles d’apparence ont été proposés dans la littérature comme nous le verrons par la suite. Le suivi par noyau est particulièrement bien adapté lorsque la détection est réalisée par un détecteur spécialisé.

Les méthodes de suivi de silhouettes utilisent les informations encodées à l'intérieur de la région de l'objet. Ces informations peuvent prendre la forme de modèles de densité et d'apparence de forme. Compte tenu des modèles d'objets, les silhouettes sont suivies soit par correspondance de formes soit par évolution de contours. Cette approche est généralement utilisée après une modélisation de fond et une segmentation du masque de mouvement.

L’étude de Smeulders et al. [118], plus récente, se concentre sur les méthodes de suivi à base de boites englobantes. Les auteurs ne proposent pas réellement de taxonomie des différents

V - Suivi d’objets d’intérêts mobiles

115

traqueurs. Leur étude est plus particulièrement orientée sur leur évaluation. Néanmoins, les auteurs les regroupent dans quatre grandes classes en fonction de la complexité du modèle d’apparence utilisé ou de la méthode de recherche. La première catégorie concerne les traqueurs basés sur des modèles d’apparences simples associés à des mesures de similarités, comme par exemple une simple imagette de l’objet et une mesure de corrélation croisée, ou une comparaison d’histogrammes. La deuxième catégorie concerne les modèles d’apparence étendus soit en conservant plusieurs apparences de l’objet au cours du temps, soit en utilisant plusieurs modèles dont des modèles de mouvements ou d’état. Pour ces deux premières catégories, la stratégie de recherche consiste à explorer un voisinage et à ne garder que la position pour laquelle la similarité est la plus grande. La troisième catégorie proposée concerne les traqueurs qui utilisent des modèles d’apparence relativement simples mais pour laquelle la stratégie de recherche est basée sur la mise en commun de plusieurs échantillons épars. Les traqueurs de cette catégorie sont essentiellement dérivés du traditionnel filtre à particules. Enfin la quatrième catégorie proposée par les auteurs regroupe les approches basées sur l’apprentissage d’un classificateur de la cible par rapport à l’arrière-plan. Par exemple, dans cette catégorie, les auteurs incluent le traqueur proposé par Nguyen et al. [119] où un classificateur discriminant linéaire est formé à partir d’un vecteur de caractéristiques de texture de Gabor de la région cible en s’appuyant sur un vecteur de caractéristiques dérivés du fond local entourant la cible.

Dans [120] les auteurs proposent également une taxonomie (Figure 83) assez complète des méthodes récentes de suivi intégrant également des approches basée sur l’apprentissage profond.

V - Suivi d’objets d’intérêts mobiles

116

Figure 83 : taxonomie des méthodes de suivi proposée par Fiaz et al dans [120]

Nous pouvons également classer les différentes méthodes en simplement deux catégories générales. La première faisant référence aux approches où une détection préalable est disponible à chaque itération, soit à travers un détecteur spécialisé, soit via une modélisation de fond et une segmentation. La seconde regroupant les approches où seul le vecteur d’état de l’objet est donné pour la première image de la séquence.