• Aucun résultat trouvé

Métriques d’évaluation

1 Avant-propos

2.2 Métriques d’évaluation

De façon générale, la qualité des masques de mouvement générés par un algorithme de modélisation est évaluée en comparant pixel à pixel le masque de mouvement avec un masque issu de la vérité terrain. Chaque pixel est alors associé à une des quatre catégories suivantes que nous utiliserons par la suite à l’aide de leur acronyme anglais :

 Vrai positif (TP) : si le pixel est correctement détecté comme un pixel d’avant-plan,  Vrai négatif (TN) : si le pixel est correctement détecté comme un pixel d’arrière-plan,  Faux positif (FP) : si le pixel de l’arrière-plan est détecté comme un pixel d’avant-plan,  Faux négatif (FN) : si le pixel de l’avant-plan est détecté comme un pixel de

l’arrière-plan.

Les FP sont des pixels qui sont détectés à tort comme étant en mouvement et qui vont ajouter du bruit dans le masque. Sans une attention particulière, les pixels correspondant à l’ombre portée des objets en mouvement sont souvent détectés comme faux positif. Les FN correspondent aux pixels qui n’ont pas été détectés comme étant en mouvement. Ils peuvent entrainer des omissions ou plus fréquemment des trous, voire la fragmentation d’un objet en plusieurs blobs.

Ces quatre classes permettent de construire une matrice de confusion, appelée également table de contingence, où les deux lignes correspondent à la vérité terrain et les deux colonnes à la classe estimée.

VI - Evaluation des étapes de la détection d’intrusions 144 Mesure Avant-plan Arrière-plan Vérité Avant-plan TP FN Arrière-plan FP TN

A partir des données de la matrice de confusion, il est possible de calculer un certain nombre de mesures. Les plus communes sont les suivantes :

 Rappel (Re) : TP / (TP + FN)  Précision (Pr) : TP / (TP + FP)  Spécificité (Sp) : TN / (TN + FP)

 Taux de faux positif (FPR) : FP / (FP + TN)  Taux de faux négatif (FNR) : FN / (TN + FP)  F-mesure: 2 . (Pr . Re) / (Pr + Re)

Le rappel permet d’évaluer la capacité du modèle à détecter les pixels de l’avant-plan et la précision permet d’évaluer la capacité du modèle à ne détecter que les pixels de l’avant plan. Afin de pouvoir comparer deux modèles ayant des valeurs de précision et de rappel différentes, il est d’usage d’utiliser la F-mesure qui correspond à la moyenne harmonique des deux valeurs. L’utilisation de la moyenne harmonique à la place de la moyenne arithmétique permet de punir d’avantage les mesures extrêmes. Ces trois mesures sont régulièrement utilisées par les auteurs pour évaluer leur modèle ou pour comparer plusieurs modèles entre eux [200][201] [194][202]. Par exemple, pour les évaluations de CDnet [203], ces mesures sont calculées pour chaque masque de mouvements. Pour chacune de ces mesures, une valeur moyenne est calculée sur l’ensemble de la séquence. Les auteurs justifient ce choix (par opposition à la mise en commun de tous les pixels dans la séquence, puis la moyenne) par le fait qu’il empêche les biais qui se produiraient si certaines séquences étaient beaucoup plus grandes en termes de résolution ou de nombre d’images.

Les mesures précision, rappel, F-Mesure, sont certes intéressantes pour avoir une vision globale de la qualité de la segmentation, mais elles ne permettent pas de repérer la plupart des défauts tels que la fusion, la fragmentation ou tout simplement la non-détection des objets ; à plus forte raison lorsque ces mesures sont moyennées sur l’ensemble de la séquence ce qui est généralement le cas. Afin de palier ces défaut, d’autres mesures ont été introduites.

Dans DAVIS [199] , les auteurs utilisent l’indice de Jaccard entre un masque et une vérité terrain à chaque image ainsi que la mesure F pour les points du contour. Ces deux mesures permettent une estimation de la qualité de la segmentation à chaque image. Afin d’évaluer la stabilité temporelle de la segmentation tout au long de la séquence, les auteurs introduisent une mesure de stabilité basée sur l’évolution du contour de l’objet. Le masque des objets est transformé en polygones représentant les contours sur lesquels sont calculés un descripteur de formes SCD [204]. La stabilité du contour entre deux images successives est estimée en utilisant la mesure DTW pour « dynamic time warping » appliquée sur le descripteur de forme. La mesure DTW permet d’estimer une distance point à point entre deux courbes. Nous l’avons utilisée dans [20]

VI - Evaluation des étapes de la détection d’intrusions

145

pour estimer la correspondance entre deux trajectoires. Les auteurs calculent le coût moyen par point comme mesure de stabilité. Si la transformation est fluide et précise, le coût est relativement faible et, est simplement lié à la déformation de l’objet. Un coût important permet, d’après les auteurs, de mesurer efficacement les oscillations et les inexactitudes de l’extraction du contour.

Dans le BMC2012 [197], nous avons présenté trois types de mesures. Tout d’abord les mesures traditionnelles de rappel, précision et F-mesure calculé sur le masque de mouvement auxquelles nous avons ajouté une mesure du rapport signal / bruit (PSNR : « Peak Signal Noise Ratio ») :

𝑃𝑆𝑁𝑅 = 1

𝑁 10. 𝐿𝑜𝑔

𝑀

∑ ‖𝑆 (𝑗) − 𝐺 (𝑗)‖

où Si(j) est le jième pixel du masque i de taille M dans la séquence S composée N images et G la vérité terrain. Cette première série de mesures permet de comparer le comportement « brut » de chaque algorithme.

Nous avons également utilisée une mesure perceptuelle (SSIM : « Structural SIMilarity ») donnée par [205].

𝑆𝑆𝐼𝑀 = 1 𝑁

(2𝜇 𝜇 + 𝑐 )(2𝑐𝑜𝑣 , + 𝑐 ) (𝜇 + 𝜇 + 𝑐 )(𝜎 + 𝜎 + 𝑐 )

où µS, µG sont les valeurs moyennes, σs, σg les écarts types et covS,G la covariance du masque S et de la vérité G associée. Les deux valeurs c1 et c2 sont des constantes correspondant à la dynamique des images d’entrées. L’introduction d’une mesure perceptuelle pour l’évaluation d’un masque de mouvement a été motivée en supposant que la perception visuelle humaine est fortement adaptée pour extraire les informations structurelles d’une image.

Enfin dans le cadre de BMC2012, nous avons de nouveau utilisé la mesure D-Score que nous avions présenté dans [11]. Le but de cette mesure est de pénaliser les erreurs de classification des pixels en fonction de la position réelle des objets. Comme la distance de Baddeley [206], il s’agit d’une mesure de similarité appliquée aux images binaires et basées sur la transformation en distance (Figure 103). Pour calculer cette mesure, nous ne considérons que les erreurs (faux positifs et faux négatif) du masque de mouvements. Chaque coût d’erreur dépend de la distance du pixel mal classé avec le pixel positif le plus proche dans la vérité terrain. Nous avons introduit cette mesure pour pénaliser les erreurs de classification proches des objets en mouvement et susceptible déformer leur contour ou de fusionner des objets entre eux.

VI - Evaluation des étapes de la détection d’intrusions

146

Figure 103 : illustration de la mesure D-Score. (1) Vérité terrain. (2) Carte du coût. (3) Exemple d’erreurs à longue portée. D-score = 0.003 (4) Omissions avec des erreurs de moyenne portée. D-score = 0.058.

Formellement, le D-Score est donné par :

𝐷𝑆𝑐𝑜𝑟𝑒(𝑥) = exp − ln 2. 𝐷𝑇(𝑥) − 5

2 𝑠𝑖 𝐷𝑇(𝑥) > 0

0 𝑠𝑖𝑛𝑜𝑛

où DT(x) est la distance entre le pixel x et le pixel positif le plus proche dans la vérité terrain. Cette mesure est un bon exemple de métriques introduites en fonction du contexte d’exploitation du résultat de la segmentation issue de la modélisation. En effet, nous utilisions les points du contour pour calculer un vecteur de caractéristiques associés à chaque objet. Ce vecteur de caractéristiques était ensuite utilisé comme signature pour suivre les objets au cours de la séquence mais également pour permettre une classification. Dans ces conditions, une attention particulière devait être apportée à la détection du contour des objets, alors que les trous dans un objet de même que la détection à tort de blobs loin des objets, n’avaient que peu ou pas d’incidence.

3 Evaluation des algorithmes de suivi