Métriques d’évaluation - Apprentissage automatique

2.3 Apprentissage automatique

2.3.3 Métriques d’évaluation

Un modèle peut donner des résultats satisfaisants lorsqu’évalué à l’aide d’une métrique, mais peut donner de mauvais résultats lorsqu’évalué par rapport à d’autres mesures. Les méthodes d’évaluation sont aussi appelées métriques. La méthode la plus communément utilisée en classification est la justesse, mais avant, voyons les notions de base avec la matrice de confusion.

Matrice de confusion

La matrice de confusion, comme son nom l’indique, donne une matrice en sortie et décrit les performances complètes du modèle en fonction des différentes valeurs possibles en prédiction. La matrice permet d’illustrer le nombre de prédictions correctes et incorrectes par classe. La matrice de confusion montre les façons dont le modèle classifie les images et à quel point il est confus quand il fait des prédictions. Cela donne un aperçu non seulement des erreurs commises par le classificateur, mais surtout des types d’erreurs qui sont commises et si le classificateur a de la difficulté à distinguer deux classes en particulier.

Supposons un problème de classification binaire. Les échantillons appartiennent à deux classes : positif ou négatif. Le classificateur prédit une classe pour un échan- tillon d’entrée donné. En testant le modèle sur 165 échantillons, les résultats sont les suivants : Prédit N=165 positif négatif V érité positif 50 10 négatif 5 100

2.3. Apprentissage automatique

On retrouve les quatre attributs suivants :

◦ Vrais positifs : Les cas dans lesquels positif est prédit et la cible était égale- ment positif.

◦ Vrais négatifs : les cas dans lesquels négatif est prédit et la cible était négatif. ◦ Faux positifs : les cas dans lesquels positif est prédit et la cible était négatif. ◦ Faux négatifs : Les cas dans lesquels négatif est prédit et la cible était positif. La précision de la matrice est calculée en prenant l’équation 2.5.

Justesse de la classification

La justesse (le terme anglais est "accuracy") est le rapport entre le nombre de prédictions correctes et le nombre total d’échantillons évalués.

J ustesse = Nombre de bonnes prédictions Nombre totale de prédictions .

Cette métrique fonctionne à son meilleur lorsqu’il y a un nombre égal d’échantillons appartenant à chaque classe.

Par exemple, pour évaluer les algorithmes de classification 2 classes, on combine les attributs suivants : vrais positifs (TP), faux positifs (FP), vrais négatifs (TN) et faux négatifs (FN).

J ustesse = T P + T N

T P + T N + F P + F N

La justesse est toutefois non recommandée pour des données fortement déséquili- brées. Par exemple, lorsqu’il y a 98% d’échantillons d’une classe A et 2% d’échantillons d’une classe B dans l’ensemble de formation. Ensuite, le modèle peut facilement obte- nir une précision d’entraînement de 98% en prédisant simplement chaque échantillon d’apprentissage appartenant à la classe A. Lorsque le même modèle est testé sur un ensemble de test avec 60% d’échantillons d’une classe A et 40% d’échantillons d’une classe B, la précision du test tombe alors à 60%. La précision de la classification est excellente, mais elle peut donner un faux sentiment d’atteindre de bonnes performances. Le vrai problème se pose lorsque le coût d’une mauvaise classification des échantillons de classe mineure est très élevé. Si le réseau a pour objectif de traiter une

2.3. Apprentissage automatique

maladie rare, mais mortelle, le coût de l’échec du diagnostic de la maladie d’une personne malade est beaucoup plus élevé que le coût de l’envoi d’un mauvais diagnostic à une personne en bonne santé.

F-Measure

Pour nuancer l’analyse, on introduit les métriques de précision et de rappel. La précision est élevée lorsque le nombre de vrais positifs parmi tous les positifs prédits est élevé.

P recision = T P

T P + F P (2.5)

La précision accorde plus d’importance aux faux positifs, peu importe le nombre de faux négatifs. À l’opposé, le rappel est élevé si le nombre de faux négatifs est faible et le nombre de vrais positifs est élevé. Il est important que tous les éléments de la classe positive soient identifiés même si cela génère un grand nombre de faux positifs.

Rappel = T P

T P + F N

Ces deux métriques ont des objectifs très différents et étant donné leurs objectifs opposés, il est dangereux de n’utiliser qu’une seule des deux. C’est pour cela que la F-measure est plus utilisée. Elle est une combinaison pondérée de la précision et du rappel :

Fβ = (1 + β2)

Précision · Rappel β2_{Précision + Rappel}

Le paramètre β permet de mettre l’accent sur la précision ou le rappel. En général β = 1.

Le F1 Score est la moyenne harmonique entre la précision et le rappel. La plage du score F1 est [0, 1] et est ensuite multipliée par 100 pour affiché un résultat en pourcentage. Ce résultat indique la précision du classificateur (combien d’instances il classe correctement), ainsi que sa robustesse (savoir s’il ne manque pas un nombre significatif d’instances). Cette métrique offre une précision extrême lorsque le modèle a une haute précision, mais un rappel moindre. Dans cette situation, il manque alors

2.3. Apprentissage automatique

un grand nombre d’instances difficiles à classer. Plus le score F1 est élevé, meilleures sont les performances du modèle. Mathématiquement, il peut s’exprimer comme suit :

F 1 = 2 · Précision · Rappel Précision + Rappel Erreur absolue moyenne

L’erreur absolue moyenne ("Mean Absolute Error " ou MAE en anglais) est la moyenne de la différence entre les valeurs d’origine et les valeurs prédites par le modèle. Le calcul donne la mesure de la distance entre les prévisions et la sortie réelle. Cependant, le résultat ne donne aucune idée si le modèle sous-prédit ou sur- prédit sur l’ensemble de données. Mathématiquement, l’erreur absolue moyenne est représentée comme :

Erreur Absolue Moyenne = 1 N N X i=1 yi− y pred i .

Erreur quadratique moyenne

L’erreur quadratique moyenne (Mean Squared Error ou MSE en anglais) est si- milaire à l’erreur absolue moyenne, la seule différence étant que l’erreur quadratique moyenne prend la moyenne différence au carré entre les valeurs d’origine et les valeurs prédites du modèle. L’avantage de l’erreur quadratique moyenne est qu’il est plus facile de calculer le gradient et que l’erreur quadratique est associée à un bruit Gaussien :

y = f (x) + N (0, σ2)

Puisque ce calcul prend en considération le carré de l’erreur, l’effet des erreurs plus importantes devient encore plus prononcé que l’erreur plus petite. Le modèle peut alors se concentrer davantage sur les erreurs plus importantes.

Erreur quadratique moyenne = 1 N N X i=1 yi− y pred i 2 .

Dans le document Analyse comparative de l'utilisation de l'apprentissage profond sur des images satellitaires (Page 44-48)