Métriques d’évaluation - Analyse de complexité

0.2 Analyse de complexité

1.3.7 Métriques d’évaluation

Il est essentiel d’évaluer les modèles pour valider la qualité des prédictions sur de nouvelles données et de s’assurer de la bonne généralisation de notre modèle. Pour ce faire, on sépare notre ensembleD pour obtenir un ensemble de test sur lequel le modèle ne s’entraînera pas. Suite à l’entraînement, on analyse sa capacité de généralisation grâce aux prédictions sur l’ensemble de test.

Les métriques qu’on utilise dépendent du problème à résoudre. En eﬀet, une connaissance du domaine peut nous indiquer s’il y a des coûts diﬀérents quant aux erreurs de prédiction du modèle. Par exemple, un système d’alarme qui génère quelques faux positifs peut être sans conséquence, mais s’il génère des faux négatifs cela peut

ﬁgure 1.2 – Calcul des attributs pour le cas deux classes.

être coûteux. Il est important de noter qu’aucune métrique n’est parfaite et peut être utilisée à tort.

Classiﬁcation

Pour évaluer les algorithmes de classiﬁcation 2 classes, on combine les attributs suivants : vrai positif (TP), faux positif (FP), vrai négatif (TN) et faux négatif (FN). On peut calculer ces attributs avec une matrice de confusion celle de la Fig. 1.2.

La première mesure est la justesse (accuracy en anglais), elle dénote le ratio d’exemples correctement classiﬁés sur le nombre total d’exemples. Cette mesure n’est pas recommandée si les classes sont fortement déséquilibrées, car les erreurs des classes moins nombreuses auront trop peu d’inﬂuence :

Accuracy = T P + T N

T P + T N + F P + F N.

Pour nuancer notre analyse, on fait appel à la précision et au rappel. La précision est élevée lorsque le nombre de faux positifs est faible et le nombre de vrais positifs est faible. À l’opposé, le rappel est élevé si le nombre de faux négatifs est faible et le nombre de vrais positifs est élevé. Ces deux métriques ont des objectifs très diﬀérents. Pour le rappel, il est important que tous les éléments de la classe positive soient identiﬁés quitte à générer un grand nombre de faux positifs. La précision accorde plus d’importance aux faux positifs, peu importe le nombre de faux négatifs :

P recision = T P T P + F P Rappel = T P

T P + F N.

Étant donné leurs objectifs diamétralement opposés, il est dangereux d’utiliser qu’une seule de ces deux métriques. On privilégiera alors la F-measure, qui est une combinaison de la précision et du rappel :

F_β = (1 + β2)∗ P recision∗ Rappel β2P recision + Rappel.

Le paramètre β permet de mettre l’accent sur la précision ou le rappel. En général on utilise β = 1.

Finalement, bien qu’on classiﬁe généralement une donnée dans la classe positive si la probabilité est plus grande que 0.5, il est intéressant de faire varier ce seuil. En calculant la précision et le rappel à plusieurs niveaux de seuil, on obtient une courbe appelée la courbe précision-rappel. Lorsque le seuil est bas, on obtient un rappel élevé, mais plus de faux positifs. Lorsque le seuil est haut, on obtient peu de faux positifs, mais beaucoup de faux négatifs. On utilise cette courbe pour choisir le meilleur seuil selon notre application. Si on prend par exemple la Fig. 1.3, on y compare trois courbes précision-rappel obtenues de trois modèles diﬀérents. Généra- lement, on choisit le modèle le plus près du coin supérieur droit. Dans ce cas-ci, la courbe continue verte est choisie, car elle permet de garder une bonne précision tout en ayant un bon rappel.

Localisation

Il est extrêmement diﬃcile d’évaluer les algorithmes de localisation due à la grande variété des problèmes dont peuvent souﬀrir les algorithmes. Par exemple, un algo- rithme peut produire des boîtes trop grandes, mais trouver beaucoup d’objets alors qu’un autre génère des boîtes parfaites en omettant les petits objets. De ce fait, l’ef-

ﬁgure 1.3 – Exemple de trois courbes précision-rappel.

ﬁgure 1.4 – Exemple du calcul de l’IoU.

fort s’est concentré sur les protocoles d’évaluation pour les rendre plus nuancées et non sur les métriques.

La première mesure à utiliser est l’ intersection over union (IoU). Elle permet de comparer deux boîtes et savoir à quel point elles sont similaires. Comme dans la Fig. 1.4, on calcule l’aire où les deux boîtes se chevauchent, divisé par l’aire de l’union des deux boîtes. En général, on note qu’une IoU > 0.5 implique que les deux boîtes sont assez similaires.

La principale métrique est la mean Average Precision (mAP), elle est notamment utilisée pour les déﬁs COCO[61] et Pascal VOC [27]. Soit un ensemble de boîtes cibles et de boîtes prédites. Pour chaque boîte cible dont le IoU > 0.5 avec une boîte prédite sera considérée comme un vrai positif, les autres étant considérées comme des faux positifs. En utilisant la conﬁance des boîtes, on peut générer plusieurs précisions pour plusieurs niveaux de rappel. On prendra la moyenne des précisions à plusieurs niveaux

(a) (b)

ﬁgure 1.5 – Représentation graphique d’un réseau de neurones. a) Exemple d’un réseau pour un problème binaire à 4 neurones. b) Exemple d’un réseau pour un problème trois classes à 6 neurones.

de rappel.

Cette métrique est fortement critiquée, elle encourage la création de boîtes à faible conﬁance pour obtenir des scores de rappel élevé. De plus, le seuil 0.5 pour l’IoU est fortement critiqué, car il avantage les techniques qui génèrent des boîtes imparfaites. Le processus d’évaluation de COCO[61] a mitigé cette contrainte en rapportant plu- sieurs seuils d’IoU.

1.4 Réseaux de neurones et apprentissage profond

Dans le document Estimation de complexité et localisation de véhicules à l'aide de l'apprentissage profond (Page 32-36)