• Aucun résultat trouvé

Métriques de performance

1.2 Évaluation des trackers

1.2.2 Métriques de performance

Il existe de nombreuses métriques de performance en suivi d’objet détaillées dans [Wu et al., 2013, Smeulders et al., 2014, Čehovin et al., 2014]. Les principales utilisées sont les suivantes :

Erreur de localisation du centre L’erreur de localisation du centre [Babenko et al., 2009, Kwon et Lee, 2010] est une mesure courante consistant à mesurer la distance moyenne entre les centres des boîtes prédites {pi}M

i=1 et de la vérité terrain {gi}M

i=1 : M1 PM

i=1kpi− gik. Cette mesure ne rend pas compte de la précision en taille des boîtes prédites.

Précision selon un seuil sur l’erreur de localisation Une autre mesure très utilisée est la précision selon un seuil sur l’erreur de localisation [Wu et al., 2013, Bailer et al., 2014]. Elle mesure la proportion d’images, entre [0, 1], pour lesquelles la distance entre les centres de la boîte prédite et de la vérité terrain est inférieure à un seuil en nombre de pixels. Une courbe de proportion d’images en fonction du seuil sur l’erreur de localisation peut être calculée, voir la

(a) rabbit : déformations et changements de taille importants, contexte difficile, occultation

(b) fish1 : déformations, environnement complexe, occultation

(c) basketball : scène complexe, confusion avec des objets similaires, occultation, variations d’apparence,

déplacements importants

(d) graduate : zoom et dézoom de la caméra, fortes variations de taille, objet peu texturé, confusion

avec l’arrière-plan

(e) soccer2 : résolution faible, objet de petite taille, flou de bouger, mouvements brusques de caméra

(f) matrix : changements d’illumination importants, bruit (pluie), zoom de caméra Figure 1.8 – Exemples de séquences difficiles de VOT2015 [Kristan et al., 2015a].

(a) Erreur de localisation (b) Taux de recouvrement

Figure 1.9 – Métriques d’évaluation. (a) Courbe de proportion d’images en fonction du seuil sur l’erreur de localisation pour différents trackers. La valeur indiquée à côté de chaque tracker correspond au seuil de 20 pixels. (b) Courbe de proportion d’images en fonction du seuil sur le taux de recouvrement pour différents trackers. La valeur indiquée à côté de chaque tracker correspond à l’aire sous la courbe. [Wu et al., 2013]

figure 1.9a. Le seuil habituellement utilisé pour comparer la précision entre différents trackers est de 20 pixels.

Taux de recouvrement moyen Le taux de recouvrement entre la boîte prédite B et la vérité terrain B0 est défini comme étant le rapport des aires d’intersection et d’union des boîtes :

IoU (B, B0) = |B ∩ B0|

|B ∪ B0| (1.5)

IoU , illustré dans la figure 1.10a, est une mesure d’erreur plus précise que l’erreur de localisation

du centre puisqu’il tient compte de la taille des boîtes. Le taux de recouvrement moyen consiste alors à moyenner IoU sur l’ensemble des images de la base [Zhang et al., 2012].

Précision selon un seuil sur le taux de recouvrement Une autre mesure largement uti-lisée par les trackers actuels trace une courbe de proportion d’images en fonction du seuil sur le taux de recouvrement compris entre [0, 1] [Wu et al., 2013, Bailer et al., 2014]. Chaque valeur du taux de recouvrement correspond à la proportion d’images de la séquence ayant un taux de recouvrement avec la vérité terrain, inférieur à cette valeur. De cette courbe, on tire une valeur représentative du comportement du tracker qui est l’aire sous la courbe (Area Under Curve), voir la figure 1.9b. Cette métrique est souvent utilisée conjointement avec la précision selon un seuil sur l’erreur de localisation.

Selon l’étude de [Čehovin et al., 2014], la plupart des métriques sont corrélées et ne reflètent pas les différents aspects de la performance de suivi. Pour le benchmark VOT [Kristan et al.,

2013], deux métriques considérées comme étant mieux décorrélées ont été choisies pour évaluer les trackers : la précision et la robustesse définies ci-dessous.

Avant de les définir, décrivons le protocole d’évaluation de VOT. Selon ce protocole, un tracker a 3 régimes de fonctionnement : suivi, dérive et réinitialisation, comme illustré dans la figure 1.10c. Pour savoir dans quel régime est un tracker, entre suivi et dérive, l’IoU est calculé à chaque instant :

— Suivi : dans un premier temps, le tracker suit correctement l’objet, un fonctionnement correct du tracker étant défini par un IoU non nul (figure 1.10a).

— Dérive : ensuite, il dérive. Une dérive étant mesurée par un IoU de valeur nulle (figure 1.10b). C’est le seuil critique choisi pour déterminer qu’un tracker a dérivé de l’objet. Passé ce seuil, le tracker a peu de chance de retrouver l’objet.

— Réinitialisation : puis, il est réinitialisé (position et modèle) avec la vérité terrain, 5 images après que la dérive est détectée. Pendant ces 5 images, le tracker est arrêté.

Puis on recommence un nouveau cycle de 3 régimes jusqu’à atteindre la fin de la séquence.

Robustesse La robustesse est le nombre total de dérives du tracker sur une séquence ou sur une base de vidéos. Plus un tracker compte de dérives, moins il est robuste.

Précision La précision est définie comme étant la moyenne du taux de recouvrement mesuré entre le tracker et la vérité terrain sur une séquence ou sur une base de vidéos. Les 10 premières boîtes suivant une initialisation ou réinitialisation du tracker sont éliminées du calcul de la précision car elles introduisent un biais. En effet, la précision y est élevée dans les premières images due à l’initialisation ou la réinitialisation par la vérité terrain. Réinitialiser le tracker est utile car une fois qu’il a dérivé, le taux de recouvrement mesuré sera toujours nul.

Dans le protocole d’évaluation de VOT, la précision et la robustesse sont calculées non pas sur toutes les images de la base mais sur des sous-ensembles d’images annotées par un même attribut visuel, voir la description détaillée dans la section 1.2.3.