• Aucun résultat trouvé

1.3 Fusion en suivi d’objet

1.3.3 Fusion de modules

Une autre manière d’aborder la problématique de fusion est de combiner les entrées et sorties de différents modules de traitements. La littérature en vision par ordinateur offre divers types de modules de traitements qui peuvent être combinés spécifiquement ou génériquement afin d’obtenir un tracker performant, notamment en associant des détecteurs génériques ou spécifiques, et des trackers à faible dimension d’espace d’état. La sortie du système de fusion correspond généralement à la combinaison d’un sous-ensemble de sorties des modules. Pour décider quel sous-ensemble fusionner, la plupart des systèmes disposent d’une fonction capable d’évaluer individuellement chaque traitement afin de sélectionner les meilleures sorties à fusionner.

Évaluation en ligne d’un traitement

De nombreux indicateurs ont été considérés pour juger de la qualité des traitements. [Chau

et al., 2009] évaluent la performance en ligne des trackers (confiance des trajectoires, précision des

trackers) à partir d’un ensemble de caractéristiques comportementales génériques du tracker et dont les seuils ont été fixés empiriquement : longueur de trajectoires avant perte de la cible, zones de dérive, rapport largeur/hauteur de la boîte au cours du temps, aire de la boîte, vitesse de la cible, histogramme de couleurs et sens de déplacement de la cible. Cette approche ne permet pas de généraliser étant donné que le comportement observé d’un tracker dépend de la difficulté de la séquence.

[SanMiguel et al., 2012, Biresaw et al., 2014a] recherchent des caractéristiques plus spécifiques, en analysant le comportement du modèle d’observation. [SanMiguel et al., 2012] mesurent l’incertitude d’un tracker à filtrage particulaire par l’incertitude spatiale des N particules, en analysant les valeurs propres de la matrice de covariance. [Biresaw et al., 2014a] utilisent un ensemble de trackers par point, chaque point est associé à un filtre de Kalman, la qualité de prédiction de chaque tracker est mesurée en observant les valeurs de la matrice de covariance du filtre de Kalman. Cette qualité classe les trackers dans deux catégories : les trackers faibles et les trackers forts. Une correction des trackers faibles est effectuée par les trackers forts en

utilisant une régression par PLS (Partial Least Square). Cependant, ces indicateurs sont difficiles à produire et demandent une bonne compréhension du fonctionnement des trackers.

Dans une approche plus générique par apprentissage et pour des systèmes de vision variés (segmentation sémantique, estimation de point de fuite, estimation de paramètres caméra, etc.), [Zhang et al., 2014b] entraînent une fonction d’alerte de mauvais fonctionnement des systèmes à partir des sorties (mesure d’erreur ou de précision) couplées aux entrées par SVM. Les entrées sont soit des images, soit des caractéristiques extraites (SIFT, couleurs, textures, HOG, histogrammes de lignes, LBP, similarités). Ils proposent ensuite deux métriques d’évaluation des alertes générées par la fonction apprise. Cependant, l’approche est mono-image alors que le suivi d’objet nécessite d’exploiter un signal temporel, elle ne peut donc pas prendre en compte cette dimension temporelle.

Dans la plupart des systèmes de fusion de trackers rencontrés [Santner et al., 2010, Stenger

et al., 2009, Kalal et al., 2012, Vojir et al., 2015], le score de confiance correspondant à la boîte

englobante prédite est utilisé comme critère d’évaluation de bon fonctionnement du tracker.

Fusion de modules

Il existe différents types de schémas de fusion, des schémas spécifiques et des schémas génériques.

Schéma spécifique de fusion [Siebel et Maybank, 2002, Santner et al., 2010] proposent des schémas de fusion qui combinent de manière spécifique un certain nombre de traitements. Pour répondre au problème du suivi de personnes, [Siebel et Maybank, 2002] combinent les informations provenant de différents modules séquentiels réalisant chacun une fonction différente dans la chaîne de traitements : un détecteur de mouvement pour détecter les zones de mouvement de l’image, un tracker de région pour suivre une zone de mouvement, un détecteur de visages pour détecter des personnes, et un tracker basé forme pour suivre spécifiquement une personne. Les sorties des modules sont combinées dans un ordre précis pour produire une boîte englobante pour chaque personne présente dans la scène. [Santner et al., 2010] exploitent les spécificités de 3 trackers basés sur des concepts différents, notamment en jouant sur la stabilité-plasticité de leurs modèles. Les trackers en question, du plus stable au plus adaptatif, sont : une corrélation de template NCC, un détecteur en ligne basé sur des forêts aléatoires ORF et un flot optique FLOW. Ils sont combinés en cascade selon les règles de fonctionnement suivantes : FLOW est choisi comme tracker principal pour gérer les variations rapides d’apparence. Étant de nature moins stable, il peut être invalidé par son prédécesseur dans la cascade. Si les boîtes englobantes de FLOW et ORF ont un recouvrement nul et que le score de confiance de FLOW est inférieur à un certain seuil, alors ORF prédomine par rapport à FLOW qui est corrigé par ORF (FLOW prend comme entrée la sortie de ORF). ORF est mis à jour uniquement lorsque sa boîte recouvre

celle de NCC ou de FLOW sinon il est corrigé par NCC. Lorsqu’un tracker dérive, il est corrigé par son prédécesseur dans la cascade, dont le modèle est plus stable.

Schéma générique de fusion Les trackers suivants conçoivent des schémas génériques de fusion. Un traitement de la chaîne peut être remplacé par un autre du même type à condition de renvoyer le même type de sortie, le schéma reste alors valable indépendamment du traitement choisi dans la chaîne. Une première série d’études combine un détecteur et des trackers [Stenger

et al., 2009, Kalal et al., 2012, Vojir et al., 2015]. Pour le suivi de mains et de visages, [Stenger et al., 2009] proposent deux schémas de fusion : un schéma parallèle et un schéma en cascade,

combinant un détecteur spécifique de mains ou de visages et plusieurs trackers. Chaque tracker de la chaîne (cascade ou parallèle) est évalué à partir du score de confiance associé à la boîte prédite, ce score renvoie à une erreur de précision de prédiction issue d’un apprentissage hors ligne. Si l’erreur est supérieure à un certain seuil, le tracker est identifié comme étant en échec. Le détecteur spécifique appris hors ligne sert à réinitialiser les trackers lorsque ces derniers échouent. Dans le schéma parallèle, le tracker d’erreur estimée la plus faible et inférieure à un certain seuil, est sélectionné à chaque instant. Si tous les trackers ont une erreur supérieure à ce seuil, alors ils sont réinitialisés par le détecteur. Dans le schéma séquentiel, les trackers sont évalués à la chaîne, le premier tracker d’erreur estimée inférieure au seuil est sélectionné. Si tous les trackers ont une erreur supérieure au seuil, alors ils sont réinitialisés par le détecteur.

[Kalal et al., 2012] décrivent le TLD comme la coopération d’un tracker basé flot optique et d’un détecteur appris en ligne, leur combinaison et mise à jour sont gérées par un autre modèle construit à partir de templates basse résolution de l’objet qui évalue la qualité de chaque estimée. Lorsque le tracker échoue, il est corrigé par le détecteur. Le détecteur est mis à jour lorsque le tracker et lui-même sont validés par le 3ième modèle. Une version récente assez similaire au TLD est le HMMTxD [Vojir et al., 2015]. Il décrit les états d’un ensemble de trackers sous la forme d’un modèle de Markov caché (HMM), chaque tracker ayant deux états possibles s = {0, 1}, 1 pour un état correct et 0 sinon. Le HMM détermine les états des trackers à partir de couples d’observables (boîte, score de confiance) produits par chacun des trackers à chaque instant. Un détecteur hors ligne très précis (zéro taux de faux positifs et 30% de rappel) est utilisé pour l’apprentissage en ligne des paramètres du HMM et également pour réinitialiser les trackers lorsque c’est nécessaire. Lorsque le détecteur ne génère pas de détection, le HMM estime l’état le plus probable du système (état de chaque tracker) et produit une boîte de fusion qui est la moyenne des boîtes des trackers aux états corrects. Un vote majoritaire des trackers est utilisé pour vérifier l’exactitude de la détection, auquel cas une mauvaise détection ne sera pas utilisée pour réinitialiser les trackers.

Les trackers suivants réalisent la fusion de trackers sans détecteur. [Biresaw et al., 2014b] mettent en compétition 2 trackers à filtre particulaire dont la qualité de chaque prédiction est évaluée selon un critère d’incertitude spatiale des particules. [Zhong et al., 2014] proposent une fusion « en boucle ouverte » des sorties de trackers en utilisant un apprentissage faiblement

supervisé sur des labels imparfaits générés par des « oracles » (trackers) pour estimer en ligne leur précision et sélectionner l’oracle le plus précis à chaque instant. [Moujtahid et al., 2015b] combinent un ensemble de trackers de type AdaBoost en ligne [Grabner et Bischof, 2006] basés sur des caractéristiques hétérogènes (couleur, texture, forme) et fonctionnant indépendamment. A chaque instant, le meilleur tracker est sélectionné à partir de son score de confiance normalisé et d’une mesure de cohérence spatio-temporelle. Seul le tracker sélectionné réalise la mise à jour de son modèle utilisant sa sortie. Dans une version plus récente, [Moujtahid et al., 2015a] réalisent la sélection du tracker le plus adapté à la scène à partir d’un classifieur (perceptron multi-couches) de contexte de scènes. Ce classifieur apprend le tracker le plus adapté (taux de recouvrement avec la vérité terrain) à partir des caractéristiques extraites de la scène, des scores de confiance des trackers et des trackers sélectionnés dans les trois images précédentes.

Une dernière approche plus générique est d’élaborer des stratégies de fusion de boîtes englobantes (sorties de trackers), exploitant peu de connaissances sur les trackers [Bailer et al., 2014]. Ces derniers proposent la fusion en « boucle ouverte » de boîtes produites par 29 trackers issus de [Wu et al., 2013] en maximisant une fonction d’attraction de boîtes et en lissant la trajectoire finale. Les boîtes peuvent être pondérées par la performance hors ligne des trackers. La fusion des trackers réalise de meilleures performances de précision que le meilleur tracker sur chaque séquence de la base.

Le tableau 1.2 résume les principales approches de fusion en précisant le type de fusion (parallèle ou en cascade), les attributs jugeant de la qualité des prédictions et le contrôle de la

mise à jour ou de la réinitialisation des trackers et détecteurs.