Score F1 et ER par segment - Apprentissage de représentations pour l’analyse de scènes sonores

B.2.1 Scores F1 par segment . . . 134

B.1 Pourquoi des métriques particulières ?

La question du choix de la métrique se pose rarement pour l’évaluation de tâches de classifica-tion standards. Pour des problèmes multi-classes, calculer le taux de reconnaissance (ou d’erreur) suffit à donner une bonne première indication des performances des modèles. Comme une seule étiquette est associée à chaque observation, le taux de reconnaissance nous donne simplement le pourcentage de bonnes réponses obtenues par notre système. Dans le cas de la classification de scènes ou d’événements cette observation correspond à une séquence de longueur fixée à la construction de la base de données. Ainsi, la question de la longueur de la fenêtre d’évaluation ne se pose pas.

En revanche, les tâches de détection d’événements avec recouvrement offrent un plus large choix de métriques qui influent sur notre interprétation des résultats. A la différence des tâches de classification, l’axe du temps sur lequel sont placés les instants de début et de fin des événements n’est pas échantillonné. Une grande partie des bases possède des frontières placées à la millise-conde près. Une telle précision temporelle semble excessive et amène donc la question du choix d’une longueur de fenêtre d’évaluation pertinente. C’est là qu’apparait la distinction importante entre les métriques par segments et les métriques par événements. Les métriques par événements s’intéressent uniquement à la bonne détection des instants de début et de fin de chaque événe-ment dans l’annotation. Elles traduisent la capacité du modèle à identifier avec précision, souvent à quelques centaines de millisecondes près, les instants d’occurrence de chaque événement. Ces métriques reviennent à traiter le problème de détection d’événements polyphoniques comme au-tant de problèmes de segmentation qu’il y a de catégories. Elles sont cependant de moins en moins plébiscitées par la communauté que se tourne principalement vers l’utilisation de métriques par segments.

Les métriques par segments définissent une longueur de fenêtre d’évaluation fixe et évaluent la présence ou l’absence d’un événement dans cette fenêtre indépendamment de la proportion de l’événement dans la fenêtre d’évaluation. C’est-à-dire que si un événement se manifeste unique-ment sur quelques dizaines de millisecondes, il sera considéré comme présent même pour des fenêtres d’évaluation d’une seconde. Les métriques par segments accordent moins d’importance à la précision temporelle de la détection. Ainsi, elle permettent de s’affranchir de la subjectivité des annotations en détection d’événements. En effet, les instants de début de certains événements peuvent être flous et sujets à interprétation, en particulier pour les événements se définissant par une augmentation progressive en intensité tels qu’une voiture qui passe. Les métriques par seg-ments vont uniquement traduire la capacité des modèles à lister correctement les événeseg-ments pré-sents dans une fenêtre donnée. Par exemple, les systèmes soumis aux tâches de détection des challenges DCASE 2016 et 2017 ont été évalués sur des fenêtres de 1 seconde sans recouvrement. Les différentes métriques de détection d’événements sont présentées et discutées en détail dans les travaux deMesaros et al.[2016a].

B.2 Score F1 et ER par segment

La majorité des métriques, dont celles que nous présentons, se définit à partir de la notion d’épreuves élémentaires. Dans le cas de la détection d’événements, une épreuve correspond à l’identification de la présence ou l’absence d’une catégorie d’événements dans la fenêtre d’éva-luation. Il convient alors de rappeler les notions suivantes, permettant de qualifier le résultat de l’épreuve :

— True positive (TP) : La classe c est présente à la fois dans la prédiction et dans l’annotation. — True negative (TN) : La classe c n’est présente ni dans la prédiction ni dans l’annotation.

ANNEXE B. MÉTRIQUES POUR LA DÉTECTION D’ÉVÉNEMENTS S 0 1 0 1 I 0 0 1 0 D 1 0 0 1 E 4 2 2 3 TP 3 1 2 1 FP 0 1 1 1 FN 1 1 0 2 TN 0 1 1 0

FIGUREB.1 – Exemple du calcul de la précision, du rappel, du score F1 et de l’ER sur quatres fenêtres d’évaluation d’une seconde pour la détection d’événements avec recouvrement.

— False positive (FP) : La classe c est présente dans la prédiction mais pas dans l’annotation. — False negative (FN) : La classe c n’est pas présente dans la prédiction mais est présente dans

l’annotation.

B.2.1 Scores F1 par segment

Considérons le cas d’un problème de détection d’événements à C classes et N fenêtres d’éva-luation. On note F P_nle nombre de faux positifs dans la fenêtre n, cette valeur s’obtient en comp-tant le nombre de classes ayant donné un faux positif pour cette fenêtre. Il en va de même pour T Pn, T Nnet F Nn. La précision, le rappel et le score F1 par segment s’obtiennent alors en accu-mulant ces statistiques intermédiaires sur l’ensemble des segments d’évaluation :

P = PN n=1T P_n PN n=1F Pn+ T Pn^{, R =} PN n=1T P_n PN n=1F Pn+ F Nn ^{et F =} 2P R P + R^. ^(B.1) B.2.2 ER par segment

Le taux d’erreur (ER) de l’anglais error rate, représente comme son nom l’indique, la pro-portion d’erreur dans les prédictions du système par rapport à l’annotation. L’ER en détection d’événements a été adapté d’autres métriques similaires telles que le taux d’erreur par mot en reconnaissance de la parole ou le taux d’erreur en détection du locuteur. L’expression de l’ER nécessite l’introduction de trois grandeurs intermédiaires.

— La substitution S_n = min(F N_n, F P_n) : elle traduit l’occurrence simultanée d’un faux positif et d’un faux négatif.

— La suppression (ou deletion en anglais) Dn = max(0, F Nn− F Pn) : représente tous les faux négatifs non comptés comme substitution.

— L’insertion I_n = max(0, F P_n − F N_n) : représente tout les faux positifs non comptés comme substitution.

Si on pose Enle nombre total d’événements présents dans l’annotation pour le segment n, alors l’ER s’obtient comme suit :

ER = PN

n=1S_n+ I_n+ D_n PN

n=1En ^. ^(B.2)

Annexe C

Noyaux de Sinkhorn pour la

classification de descripteurs d’images

Sommaire

C.1 Noyaux de Sinkhorn pour la classification . . . 136

Dans le document Apprentissage de représentations pour l’analyse de scènes sonores (Page 146-150)