Mise à jour du modèle d’apparence

1.1 Le suivi d’objet

1.1.3 Mise à jour du modèle d’apparence

Un des points centraux du suivi d’objet est la capacité des trackers à s’adapter aux variations d’apparence de l’objet en mettant à jour leur modèle d’apparence. Évidemment, la façon dont cette mise à jour est réalisée est cruciale et peut entraîner la dérive du tracker lorsque de mauvaises mises à jour sont introduites dans le modèle. Deux problématiques s’articulent donc autour de ce sujet :

— Comment mettre à jour le modèle ? (techniques de mise à jour en ligne, choix des exemples d’apprentissage, labellisation)

— Quand effectuer la mise à jour ? A quelle fréquence ? Comment décider qu’une mise à jour est bonne ou mauvaise ?

Les trackers élémentaires réalisant la correspondance de template [Lewis, 1995] ou d’histo-grammes [Comaniciu et al., 2000, Vojir et al., 2013] ne disposent pas de mise à jour de leur modèle, leur modèle est dit « statique » :

où M_t est le modèle d’apparence de l’objet à l’instant t et est construit uniquement à partir de l’apparence initiale de l’objet. La constance du modèle évite les mauvaises mises à jour, cependant le suivi long-terme de l’objet ne peut être assuré dès lors que l’apparence change de manière très importante. La plupart des trackers modernes disposent donc d’une politique d’adaptation de leur modèle d’apparence.

Mécanisme de mise à jour

Processus dynamiques d’ordre 1 Une manière naïve de réaliser cette mise à jour est de remplacer le modèle précédent par le modèle courant :

M_t−1← M_t (1.2)

C’est le cas du suivi de points par flot optique dans [Kalal et al., 2010b] où à chaque instant la grille de points est réinitialisée à partir de la nouvelle prédiction.

[Matthews et al., 2004] proposent une alternative à la méthode naïve pour l’adaptation du modèle par correspondance de template incorporant le template original T₁ :

Mt= f (T_t, T1) (1.3)

où T_test le template issu de la prédiction courante.

Une autre stratégie de mise à jour consiste à contrôler la vitesse d’adaptation de leur modèle par un pas d’apprentissage λ. A chaque instant t, le nouveau modèle M_t est obtenu par une somme pondérée de la nouvelle apparence A_t et du modèle passé M_t−1 :

Mt= λA_t+ (1 − λ)M_t−1 (1.4)

C’est le cas du tracker IVT [Ross et al., 2008], qui réalise l’apprentissage incrémental d’un sous-espace de représentation de l’objet (PCA) et adapte le modèle en intégrant la nouvelle apparence de l’objet avec un facteur d’oubli sur les apparences passées de l’objet. L’inconvénient d’une telle approche est que la nouvelle apparence est intégrée au modèle sans contrôle, ce qui peut facilement conduire à une dérive du modèle. De plus, un aspect important de la mise à jour concerne le choix des exemples utilisés dans la mise à jour et leur labellisation. Pour ces trois derniers trackers [Kalal et al., 2010b, Matthews et al., 2004, Ross et al., 2008], la localisation de l’objet est le seul exemple positif utilisé pour la mise à jour de leur modèle. Cette méthode est clairement peu robuste en particulier lorsque la localisation de l’objet est imprécise. Pour éviter ce problème, [Kim et al., 2008] réalisent le suivi de visages en ajoutant des contraintes de variations d’apparence du visage (pose, alignement) pour empêcher l’adaptation du modèle à des apparences candidates qui ne sont pas des visages. Ces contraintes sont apprises hors ligne à partir de connaissances a priori. Les apparences candidates sont pondérées en fonction de leur

pose et de leur alignement, ce qui permet de rejeter les candidates mal-alignées par exemple. Toutefois, ce procédé ne peut s’appliquer au suivi d’objet quelconque.

Apprentissage en ligne du contexte par un processus d’ordre 1 D’autres trackers exploitent l’information de contexte pour être plus robustes à la dérive, par exemple en construisant un modèle de fond [Zhang et al., 2012] ou un modèle discriminant [Henriques et al., 2015, Danelljan

et al., 2014, Ma et al., 2015]. Leur mécanisme de mise à jour s’apparente à celui de [Ross et al.,

2008], i.e. en utilisant un pas d’apprentissage λ. [Zhang et al., 2012] génèrent des exemples positifs et négatifs à partir de la prédiction (position de l’objet) pour mettre à jour les modèles d’objet et de fond respectivement. Les exemples positifs labellisés à 1 sont sélectionnés dans un rayon faible α autour de la prédiction, et les exemples négatifs labellisés à −1 sont sélectionnés sur une couronne externe α < c < β. Cette labellisation binaire des exemples {−1, 1} permet d’intégrer une variation de l’apparence de l’objet autour de la position prédite (plusieurs instances labellisées à 1) mais conduit souvent à une confusion du modèle et une mauvaise discrimination de l’objet par rapport à son contexte. En revanche, les filtres de corrélation discriminants sont plus précis [Henriques et al., 2015, Danelljan et al., 2014, Ma et al., 2015] en utilisant une régression : les exemples sont labellisés entre [0, 1]. Les exemples d’entraînement sont présentés sous la forme d’une matrice circulante [Henriques et al., 2012], centrée sur la position de l’objet : les exemples d’entraînement sont générés par translation dense autour de cette position et labellisés avec les valeurs d’une gaussienne centrée sur cette position. De plus, [Danelljan et al., 2014, Ma et al., 2015] comportent une étape d’estimation d’échelle permettant une localisation précise de l’objet et donc permettent une meilleure robustesse à la dérive.

Classifieurs appris en ligne Les trackers inspirés des techniques d’apprentissage automatique (Boosting, forêts aléatoires, SVM, réseaux de neurones) adaptent les classifieurs hors ligne en classifieurs en ligne. [Grabner et al., 2006] présentent un version en ligne de l’algorithme AdaBoost (Adaptive Boosting) [Grabner et Bischof, 2006] pour le suivi d’objet. [Hare et al., 2011] utilisent une méthode d’optimisation [Platt, 1999, Bordes et al., 2007, Bordes et al., 2008] pour entraîner en ligne un classifieur SVM sur des données à labels structurés. Cette méthode permet la mise à jour des vecteurs de support tenant compte des nouveaux exemples d’apprentissage sans avoir à ré-entraîner le classifieur sur tous les exemples existants. Dans beaucoup de cas, les classifieurs sont utilisés à la fois pour prédire la position de l’objet et pour générer les exemples d’entraînement, une imprécision du classifieur peut alors entraîner des erreurs de labellisation des exemples.

Labellisation robuste des exemples d’apprentissage Pour rendre les classifieurs plus robustes aux erreurs de labellisation, différentes approches de labellisation ont été développées. Au lieu de suivre un apprentissage classique avec un label par exemple d’apprentissage, [Babenko

contiennent au moins un exemple positif sinon négatif. [Grabner et al., 2008] utilisent un a priori (externe) pour mettre à jour leur classifieur en ligne. [Kalal et al., 2012] utilisent des contraintes spatiales pour labelliser les exemples d’apprentissage destinés à mettre à jour le détecteur d’objet [Kalal et al., 2010a] : à chaque image, le détecteur produit un certain nombre de détections, or une seule contient l’objet, toutes les autres sont des fausses détections. Un évaluateur externe (expert P-N) détermine les exemples mal-classés du détecteur (fausses détections) par des contraintes spatiales (position de l’objet), qui sont alors utilisés pour entraîner le détecteur.

Gestion en ligne des exemples d’apprentissage Les techniques d’apprentissage automa-tique soulèvent également un problème de gestion des exemples d’apprentissage présents dans le modèle qui peuvent impacter sur la précision du classifieur et la rapidité de calcul. Pour résoudre ce problème, [Hare et al., 2011] incorporent un budget limité dans l’apprentissage en ligne d’un classifieur SVM et proposent une approche pour gérer l’ajout et la suppression des vecteurs de support du classifieur.

Deep Learning L’apprentissage en ligne des réseaux profonds avec ou sans pré-entraînement sur une autre base est confronté au phénomène de surapprentissage (overfitting), dû au faible nombre d’exemples d’apprentissage rencontrés au cours du suivi de l’objet. Pour adapter un réseau pré-entraîné à un nouveau problème de vision, une technique très employée est d’ajouter des couches d’adaptation en sortie du réseau pré-appris d’extraction de caractéristiques et prenant en entrée les caractéristiques du réseau. Seules les couches d’adaptation sont entraînées en ligne. Pour éviter le surapprentissage de cette nouvelle structure, [Wang et al., 2016] entraînent un réseau convolutif (CNN) par une méthode d’apprentissage séquentiel. [Nam et Han, 2015] proposent le réseau MDNet (Multi-Domain) basé sur l’apprentissage de représentations multi-domaines pour le suivi d’objet (un domaine correspond à une séquence vidéo). Le réseau est pré-entraîné sur une large base de vidéos de suivi, les dernières couches (fully-connected) et des couches spécifiques au domaine sont entraînées en ligne afin de s’adapter au nouveau domaine.

Mécanisme de censure

Les trackers suivants mettent en place un mécanisme de censure qui empêche la mise à jour de leur modèle lorsque certaines conditions ne sont pas satisfaites. Ces conditions sont pour la plupart basées sur des hypothèses de mouvement ou de changement d’apparence. [Supancic et Ramanan, 2013] sélectionnent les bonnes images à apprendre parmi les images précédentes pour faire l’apprentissage de leur modèle. Cette sélection est utile notamment lors d’occultations. [Mei

et al., 2011] détectent une occultation à partir de l’erreur de reconstruction de l’observation par

rapport au modèle, cette erreur est basée sur une minimisation `₁. Le modèle n’est pas mis à jour pendant les 5 prochaines images suivant la détection d’occultation. De la même manière, [Zhong et al., 2012] calculent une carte d’occultation de l’image basée sur une mesure d’erreur de reconstruction par rapport au modèle et décident la mise à jour du modèle lorsque les occultations

présentes sur la carte sont faibles. [Kalal et al., 2012] autorisent l’apprentissage du détecteur lorsque celui-ci fournit une réponse fiable, déterminée par un évaluateur extérieur construit sur un modèle d’apparence différent de celui du détecteur.

Combinaison stabilité-adaptabilité

L’adaptation pose un problème en suivi, appelé « dilemme de la stabilité-plasticité » [Grossberg, 1987] à cause de l’instabilité du modèle due à l’adaptation. Pour assurer à la fois une stabilité et une plasticité du modèle, PROST [Santner et al., 2010] combine trois trackers à différents degrés d’adaptabilité. TLD [Kalal et al., 2012] utilise une fonction de redétection long-terme combinée à une fonction de suivi à très court-terme. MEEM [Zhang et al., 2014a] conserve les modèles d’apparence des instants précédents pour permettre de revenir en arrière lorsqu’une mauvaise mise à jour a été effectuée. MUSTer [Hong et al., 2015b] est un tracker bio-inspiré à deux modèles, l’un a une mémoire à court-terme et l’autre une mémoire à long-terme. La mémoire à long-terme s’assure de la stabilité de l’information délivrée par la mémoire à court-terme (par exemple répétition) avant de la stocker. LGT [Čehovin et al., 2011] utilise un modèle à deux couches couplées, une couche globale (modèle d’apparence globale de l’objet) et une locale (ensemble de parties visuelles de l’objet), l’adaptation de la couche globale est contrainte par la stabilité de la couche locale.

Dans le document Fusion en ligne d'algorithmes de suivi visuel d'objet (Page 29-33)