Évaluation des modèles - Apprentissage statistique de classes sémantiques pour l'interprétation

• La probabilité d’un événementTrue Negative/Vrai Négatif (TN). LesTNsont les exemples négatifs classés comme négatifs par le modèle

p(𝑇 ≤ 𝑡, 𝑌 = 0) (2.3)

• La probabilité d’un événementTN. LesFalse Negative/Faux Négatif (FN)sont les exemples positifs classés comme négatifs par le modèle

p(𝑇 ≤ 𝑡, 𝑌 = 1) (2.4)

En pratique ces quantités sont estimées empiriquement à partir des annotations en comptant les occurrences des événements. On fait l’hypothèse que les exemples𝑋sontIndépendants et Identiquements Distribués (i.i.d)et on utilise le théorème de Glivencko-Cantelli pour approcher les probabilités des différents événements. Le théorème de Glivencko-Cantelli énonce qu’une loi de probabilité peut être révélée par la connaissance d’un grand nombre d’échantillons de ladite loi de probabilité. La probabilité d’apparition d’un événementTP,FP,TNouFNest donnée par : p(𝑇 > 𝑡, 𝑌 = 1) ≈ ^#^{𝑇 𝑃}^(𝑡) 𝑁 (2.5) p(𝑇 > 𝑡, 𝑌 = 0) ≈ ^#^{𝐹 𝑃}^(𝑡) 𝑁 (2.6) p(𝑇 ≤ 𝑡, 𝑌 = 1) ≈ ^#^{𝑇 𝑁}^(𝑡) 𝑁 (2.7) p(𝑇 ≤ 𝑡, 𝑌 = 1) ≈ ^#^{𝐹 𝑁}^(𝑡) 𝑁 (2.8)

où#𝑇 𝑃(𝑡), #𝐹 𝑃(𝑡), #𝑇 𝑁(𝑡), #𝐹 𝑁(𝑡)désignent le cardinal de l’ensemble des éléments deTP,FP,TN,FN

pour un seuil𝑡.

Une fois ces différents événements définis, il devient possible d’utiliser un large ensemble de métriques pour évaluer les performances du modèle. Dans cette thèse, nous nous intéresserons aux métriques mettant en oeuvre les notions de précision et rappel. Dans le contexte de la détection d’objets dans des images, les mesures de précision et de rappel sont particulièrement bien adaptées pour l’évaluation des performances d’un modèle où le nombre deTN

(tous les ensembles connexes de pixels du fond de l’image) est immense par rapport aux autres événements (TP,

FPetFN) (Davis & Goadrich,2006).

2.2.2 Précision et Rappel

La connaissance de la probabilité des différents événements permet d’introduire deux nouvelles métriques que sont la précision et le rappel. Le rappel est une métrique quantifiant le taux de vrais positifs parmi tous les échantillons testés. Elle évalue la capacité du détecteur à trouver le plus grand nombre de cibles possibles. La précision est une métrique quantifiant le taux de vrais positifs parmi les échantillons prédits comme étant positifs. Il évalue la capacité du détecteur à renvoyer le moins de fausses alarmes possibles.

Ces métriques sont formellement définies de la façon suivante : • Expression de la précision𝑝𝑟𝑒𝑐(𝑡)

𝑝𝑟𝑒𝑐(𝑡) = p(𝑌 = 1, 𝑇 ≥ 𝑡) = ^{p(𝑌 = 1, 𝑇 > 𝑡)} p(𝑇 > 𝑡) = ^{p(𝑌 = 1, 𝑇 > 𝑡)} p(𝑇 > 𝑡, 𝑌 = 1) + p(𝑇 > 𝑡, 𝑌 = 0) ≈ ^{𝑇 𝑃 (𝑡)} 𝑇 𝑃 (𝑡) + 𝐹 𝑃 (𝑡) (2.9) • Expression du rappel𝑟𝑒𝑐(𝑡) 𝑟𝑒𝑐(𝑡) = p(𝑇 > 𝑡 | 𝑌 = 1) = ^{p(𝑇 > 𝑡, 𝑌 = 1)} p(𝑌 = 1) = ^{p(𝑇 > 𝑡, 𝑌 = 1)} p(𝑇 > 𝑡, 𝑌 = 1) + p(𝑇 < 𝑡, 𝑌 = 1) = ^{𝑇 𝑃 (𝑡)} 𝑇 𝑃 (𝑡) + 𝐹 𝑁 (𝑡) (2.10)

Ces métriques sont déjà des mesures permettant d’évaluer le comportement d’un modèle sur une base de test. Elles permettent de donner une idée sur le comportement du modèle vis-à-vis des exemples positifs de la base de test. Cependant en combinant ces deux métriques nous pouvons obtenir une interprétation plus générale des performances du modèle. La précision et le rappel pour un modèle donné ont des comportements opposés par rapport au seuil 𝑡utilisé. Pour un seuil𝑡très petit un grand nombre d’échantillons testés seront classés comme étant des échantillons positifs, cela implique que parmi ces échantillons un grand nombre seront lesFP. Par contre un grand nombre de cibles seront détectées, on a donc une précision basse et un rappel élevé. Pour un seuil𝑡très grand au contraire le détecteur classifiera peu d’échantillons comme positifs mais avec une très grande confiance ce qui signifie peu deFP. Par contre le détecteur pourra louper certaines cibles avec un score de confiance plus faible, on a donc une précision élevée et un rappel faible.

2.2.3 Précision Moyenne

Parmi les métriques possibles à partir de𝑝𝑟𝑒𝑐(𝑡)et𝑟𝑒𝑐(𝑡)l’aire sous la courbe précision rappel est un outil parti-culièrement efficace pour évaluer un modèle. De plus la courbe précision-rappel introduit une notion de classement entre les exemples de test par rapport à la sortie du modèle. L’allure générale de ce type de courbe est donnée en figure2.1

Cette courbe est paramétrée par le score du modèle𝑡et est définie de la façon suivante :

PR = {(𝑟𝑒𝑐(𝑡), 𝑝𝑟𝑒𝑐(𝑡)) | 𝑡 ∈ ℝ} (2.11)

Au fur et à mesure que le seuil𝑡augmente, le rappel tend vers 0 et a contrario la précision doit tendre vers 1. Si la précision tend vers 1, cela signifie que l’exemple de test avec le plus haut score est unTPce qui est le comportement souhaitable pour le modèle. Par contre si la précision ne tend pas vers 1 alors que le rappel tend vers 0, cela signifie que l’exemple avec le score le plus haut n’est pas un TP. Cela implique que la valeur de la précision autour de

2.2. ÉVALUATION DES MODÈLES 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1

mAP

Rappel Précision

Fig. 2.1 : Allure générale d’une courbe précision/rappel. À un seuil𝑡correspond un point dont les coordonnées sont données par un couple (𝑝𝑟𝑐𝑖𝑠𝑖𝑜𝑛,𝑟𝑎𝑝𝑝𝑒𝑙) sur la courbe. L’aire sous la courbe donne la valeur deAP

Une fois la courbe précision-rappel construite, il est utile de pouvoir la réduire à une seule valeur pour une analyse plus aisée. Une façon de faire est de calculer l’aire sous la courbe pour obtenir un score de performance du modèle. L’aire sous la courbe précision-rappel peut-être interprétée comme une moyenne pondérée de la précision pour un seuil donné ou encore la fraction d’exemples positifs que de modèle pourra reconnaître pour un seuil donné. Dans la littérature ce score est appeléAPouArea Under the Curve (AUC)et est défini de la façon suivante :

ap = ∫

ℝ

𝑝𝑟𝑒𝑐(𝑡) d𝑃(𝑇 ≤ 𝑡) (2.12)

Selon (Boyd, Eng & Page,2013) il n’existe pas demeilleurmoyen de calculer l’aire sous la courbe précision rappel principalement en raison du fait que pour une valeur du rappel𝑟𝑒𝑐(𝑡)donné il peut exister plusieurs valeurs pour la précision𝑝𝑟𝑒𝑐(𝑡).

Dans nos propres expériences nous calculons une estimation de l’aire sous la courbe précision-rappel en gardant les points avec la précision la plus élevée pour chaque valeur de𝑡.

2.2.4 Taux de classification

Le taux de classification (accuracy) est le score qui mesure le taux de bonnes classifications d’un modèle sur l’en-semble des prédictions. Ce taux est défini par :

acc = ^#^{𝑇 𝑃}^{+ #}^{𝑇 𝑁}

#𝑇 𝑃+ #𝑇 𝑁+ #𝐹 𝑃+ #𝐹 𝑁 (2.13)

Ce score de classification se prête particulièrement bien à l’évaluation des modèles multiclasses où l’on veut mettre en avant la capacité du modèle à prédire la bonne catégorie parmi𝑁autres catégories.

2.2.5 𝑓₁-score

Le 𝑓₁-score est une mesure de l’exactitude des prédictions binaires réalisées par un modèle. Il s’agit d’un cas particulier du𝑓_𝛽-score où𝛽 = 1. Il est donné par :

𝑓_𝛽(𝑡) = (1 + 𝛽²) ^{𝑝𝑟𝑒𝑐(𝑡) × 𝑟𝑒𝑐(𝑡)}

𝛽2𝑝𝑟𝑒𝑐(𝑡)) + 𝑟𝑒𝑐(𝑡) (2.14)

Ce score peut être interprété comme une moyenne pondérée entre la précision et le rappel. Il permet de donner un aperçu de la capacité du modèle à retrouver précisément les éléments à classifier au-dessus d’un certain score𝑡

2.2.6 Intersection over Union (IoU)

Lors de la détection d’objets dans des images il faut pouvoir établir pour un critère permettant de séparer les vrais détections des fausses alarmes. Pour cela nous utilisons la définition debonne détection tel que définie par le

Pascal Visual Object Challenge (Pascal VOC)(Everingham, Gool, Williams, Winn & Zisserman,2010). Cette métrique est aussi aussi utilisée en statistique sous le nom d’indice de Jacquard. Les hypothèses de détection dans une image sont assignées aux objets de la vérité terrain et sont considérées comme de bonnes ou mauvaises détections en fonction du recouvrement entre la détection et la vérité terrain (c.f. figure2.2).

Détection 𝐴

Vérité-terrain 𝐵

𝐴 ⋂ 𝐵 𝐴 ⋃ 𝐵

Fig. 2.2 : Exemple d’évaluation de boîtes englobantes. La boîte𝐴représentant une détection et la boîte 𝐵 représentant la vérité-terrain. L’intersection entre les boîtes est représentée en orange et l’union entre les boîtes en bleue.

Pour être considérée comme une bonne détection, la boite englobante d’une détection𝐴 doit recouvrir la boite englobante de la vérité terrain𝐵avec un score supérieur à 0,5 selon la formule suivante :

IoU(𝐴, 𝐵) = ^{aire(𝐴 ∩ 𝐵)}

aire(𝐴 ∪ 𝐵) (2.15)

2.2.7 Bayesian Information Criteron

Dans le chapitre3 nous présentons une méthode de modélisation des sous-catégories visuelles au sein d’une catégorie sémantique. Cependant la méthode proposée ne permet pas de déterminer a priori le nombre de

Dans le document Apprentissage statistique de classes sémantiques pour l'interprétation d'images aériennes (Page 34-38)