Fusion de trackers par mélange d’experts - Évaluation des prédicteurs de dérives par apprentiss

4.4 Évaluation des prédicteurs de dérives par apprentissage des indicateurs de com-

4.4.4 Fusion de trackers par mélange d’experts

Dans cette section, nous réalisons la fusion de deux trackers, CT et STRUCK, par un mélange d’experts. Le mélange d’experts estime les poids respectifs p₁ et p₂ des trackers CT et STRUCK à partir des valeurs des indicateurs de comportement calculés à chaque instant. Les indicateurs de comportement utilisés sont ceux de la section 4.4.1 dont on ajoute un biais de 1. CT possède un indicateur ∆area, STRUCK en possède deux, var₁₀ et d.

Données d’apprentissage Les données d’apprentissage et de test utilisées sont calculées sur 12 séquences de VOT2013 [Kristan et al., 2013] en lançant les trackers sur chacune des séquences suivant le protocole d’évaluation défini dans le chapitre 2. Les données comportent :

— les indicateurs de comportement des trackers individuels, — les prédictions (boîtes englobantes) des trackers individuels, — la vérité terrain de chacune des prédictions.

Apprentissage et évaluation par validation croisée Pour mesurer les performances de la fusion CT-STRUCK, on réalise une validation croisée sur les 12 séquences. Elle consiste à entraîner le mélange d’experts sur une partie des séquences, i.e. estimer les paramètres du mélange d’experts {w_i}2

i=1par une descente de gradient ; puis à évaluer le mélange sur le reste des séquences. Nous avons créé 12 ensembles d’entraînement et 12 ensembles d’évaluation. Chaque ensemble d’entraînement contient les indicateurs de 11 séquences, l’ensemble d’évaluation correspondant contient les indicateurs de la séquence ne faisant pas partie des 11 séquences d’entraînement. Par

Table 4.3 – Performances individuelles de CT et STRUCK, performances de fusion de CT-STRUCK par mélange d’experts (Fusion ME), et performances de fusion de CT-CT-STRUCK par une moyenne des boîtes sur 12 séquences de VOT2013 (colonne de gauche). La performance mesurée pour chaque séquence est une erreur de localisation du centre en pixels. La dernière ligne du tableau (Moyenne) correspond à une moyenne de l’erreur sur l’ensemble des séquences. Les meilleures performances sont enrouge, les deuxièmes meilleures performances en bleu.

CT STRUCK Fusion ME Fusion

Moyenne Bicycle 4.0598 4.0145 2.8046 2.5941 Car 7.1512 8.1532 7.4421 6.9986 Cup 5.5207 3.1847 3.091 3.528 David 24.7045 18.1105 12.6347 13.9245 Face 24.8409 27.3152 23.1027 21.957 Hand 8.7394 8.261 6.8658 6.8927 Iceskater 33.986 14.097 17.8148 21.596 Juice 13.809 5.3418 6.854 8.2423 Jump 14.2703 7.5134 7.0747 8.2993 Sunshade 12.9549 5.5121 5.3967 7.0178 Torus 7.5819 15.2527 11.5124 9.8206 Woman 11.9825 6.3738 7.2711 8.5667 Moyenne 14.1334 10.2608 9.3221 9.9531

exemple, on entraîne sur les 11 premières séquences et on évalue les performances de la fusion sur la dernière.

Performances de fusion La performance mesurée est une erreur de localisation du centre en pixels mesurant la distance moyenne entre les boîtes de la fusion et de la vérité. Elle est définie dans la section 1.2.2. Les performances de fusion obtenues pour chacune des séquences par la validation croisée, sont indiquées dans le tableau 4.3. Nous comparons ces performances à celles des trackers individuels (CT, STRUCK) et à une fusion simple (Fusion Moyenne) consistant à pondérer les trackers de la même manière, p₁ = p₂ = 0.5. La meilleure performance correspond à l’erreur la plus faible. Les résultats montrent que la fusion par mélange d’experts obtient globalement l’erreur moyenne la plus faible sur l’ensemble des séquences, cependant comparée à la fusion moyenne, elle est seulement légèrement supérieure. En observant plus précisément les poids estimés des trackers dans le mélange pour différentes séquences (figures 4.13b et 4.13d),

p₁' 0.3 et p₂ ' 0.7 à chaque instant : STRUCK est favorisé par rapport à CT. STRUCK montre en effet des performances globales supérieures à CT mais non au niveau des performances locales comme le montre la figure 4.13c : l’erreur de localisation du centre de CT est inférieure à celle de STRUCK entre les instants 200 et 280. Cette pondération inégale semble résulter de données d’apprentissage insuffisantes pour permettre une représentation équilibrée des situations.

0 50 100 150 200 250 300 0 10 20 30 40 50 60 temps erreur en pixels bicycle Erreur(CT) Erreur(STRUCK) Erreur(Fusion)

(a) bicycle, erreur de localisation du centre

0 50 100 150 200 250 300 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 temps

poids des trackers

bicycle

CT STRUCK

(b) bicycle, poids des trackers

0 50 100 150 200 250 300 350 400 0 5 10 15 20 25 30 temps erreur en pixels car Erreur(CT) Erreur(STRUCK) Erreur(Fusion)

0 50 100 150 200 250 300 350 400 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 temps

poids des trackers

car

CT STRUCK

(d) car, poids

Figure 4.13 – Évolution de l’erreur de localisation du centre (en pixels) et des poids des trackers de la fusion CT-STRUCK par mélange d’experts dans les séquences bicycle et car de VOT2013. (a,c) représentent l’évolution de l’erreur de localisation du centre instantanée des trackers individuels CT (vert) et STRUCK (violet), et de la fusion CT-STRUCK. (b,d) représentent l’évolution des poids g_i(φ^t_i) des trackers CT (vert) et STRUCK (violet) dans la fusion CT-STRUCK. Les poids des trackers sont initialisés à 0.5 dans la première image. Les deux instants 130 et 180 dans (b) où les poids des deux trackers sont à 0.5 correspondent à une dérive de l’un des deux trackers.

4.5 Discussion et travaux futurs

L’objectif de cette étude a été de développer des fonctions de prédiction en ligne des dérives des trackers en analysant leur comportement. La construction d’une telle fonction est en réalité loin d’être générique et simple à réaliser.

La première approche a consisté à prédire la dérive à partir d’indicateurs de qualité du modèle d’apparence, calculés en ligne. Une des difficultés était de trouver les « bons indicateurs spécifiques » construits à partir des données intrinsèques au modèle. Une autre concernait la manière de régler les seuils des prédicteurs de dérives, à savoir quelle précision rappel pour un usage optimal. L’apprentissage d’un classifieur SVM ou d’un mélange d’experts à partir des indicateurs était difficile principalement dus au manque de données d’apprentissage et à la manière de labelliser les exemples. Il pourra être envisagé d’étendre les tests sur d’autres trackers ou combinaisons de trackers en utilisant une base de données d’apprentissage plus conséquente. Une autre perspective est d’apprendre à prédire les dérives des trackers directement à partir des images brutes ou des caractéristiques image sans passer par les cartes de scores, ces dernières ne permettant pas d’obtenir des indicateurs de comportement de manière générique. Une dimension temporelle devra être ajoutée à l’exploitation des images brutes ou caractéristiques puisque le suivi d’objet exploite un signal temporel.

La deuxième approche raisonne à partir de la localisation et de la configuration spatiale des boîtes prédites sans utiliser les données intrinsèques du modèle. L’efficacité de cette approche n’a pas encore été prouvée puisqu’elle ne sera évaluée que dans le chapitre 5.

4.6 Conclusion

Les travaux décrits dans ce chapitre sont centrés sur la prédiction en ligne des dérives des trackers, plus précisément sur la conception de méthodes d’auto-évaluation de bon ou mauvais fonctionnement des trackers.

Puisque les dérives des trackers sont la conséquence d’un modèle d’apparence inadapté au suivi, la première approche a consisté à évaluer la qualité du modèle d’apparence du tracker à partir d’indicateurs de comportement du tracker calculés en ligne. Ces indicateurs de comportement exploitent des caractéristiques intrinsèques du modèle (score de confiance, carte de scores et autres scores) qui traduisent une certaine qualité de la prédiction, comme leur vraisemblance avec le modèle, ou leur variation spatio-temporelle. Ces deux aspects ont été étudiés car détecter un changement de leur comportement permet d’anticiper une dérive du tracker. La deuxième approche exploite le comportement individuel ou collectif des boîtes prédites prises au même instant qui, en fonction de leur distribution spatiale, détermine les boîtes aberrantes. L’efficacité des prédicteurs de dérives par indicateurs de comportement dépend fortement des seuils d’indicateurs choisis. Leur apprentissage n’ayant pas donné de résultats concrets, ils seront utilisés avec des seuils fixes dans la suite du travail de thèse.

Cependant, l’évaluation de performances de ces approches a été réalisée de manière hors ligne et ne permet pas de juger de l’efficacité de l’approche lorsqu’elle est intégrée dans une chaîne de fusion. La prochaine étape sera alors de proposer une chaîne de fusion complète intégrant les méthodes de prédiction en ligne des dérives proposées, de façon à sélectionner et fusionner de manière robuste un ensemble de trackers pour en améliorer globalement les performances de suivi.

Conception de mécanismes de fusion

de trackers

Sommaire

5.1 Différents schémas de fusion possibles . . . 140

5.1.1 Fonctionnement général d’un tracker . . . 140

Dans le document Fusion en ligne d'algorithmes de suivi visuel d'objet (Page 135-140)