• Aucun résultat trouvé

3.7 Annotations structurelles produites

5.1.2 M´etriques d’´evaluation

Il existe un grand nombre de m´etriques utilis´ees pour l’´evaluation des syst`emes d’es- timation de la structure. Certaines n’´evaluent que la position des fronti`eres structurelles estim´ees par rapport aux fronti`eres de r´ef´erence, d’autres comparent la structure es- tim´ee et celle de r´ef´erence dans leur ensemble (c’est-`a-dire les fronti`eres et les ´etiquettes structurelles).

Nous portons notre attention sur la F-mesure et le boundary hit rate Fbr pour

les fronti`eres, sur la F-mesure dyadique et le score de mod´elisation pour la struc- ture compl`ete. Ces m´etriques sont conceptuellement simples, ont l’avantage d’ˆetre sym´etriques et sont utilis´ees soit dans la campagne de MIREX soit celle de Quaero4.

5.1.2.1 Evaluation de la segmentation´

F-mesure, pr´ecision et rappel L’´evaluation d’un syst`eme de segmentation consiste `

a comparer les fronti`eres estim´ees par ce syst`eme aux fronti`eres de r´ef´erence pour un ensemble de morceaux donn´e. Cette comparaison est r´ealis´ee par l’interm´ediaire d’un ensemble de m´etriques d’´evaluation fr´equemment utilis´ees dans le cadre de la recherche automatique d’information (Information Retrieval) [vR79] : la pr´ecision, le rappel et la F-mesure. Nous allons les d´efinir dans le cadre de l’estimation des fronti`eres structurelles.

Soient fR l’ensemble des fronti`eres de r´ef´erence d’un morceau de musique, et fE

l’ensemble des fronti`eres estim´ees par le syst`eme ´evalu´e, on d´efinit la pr´ecision (P ) et le rappel (R) comme suit :

P = |fE ∩ fR| |fE| , (5.1) R= |fE ∩ fR| |fR| , (5.2)

4. Ces deux campagnes d’´evaluation ont malheureusement peu de m´etriques en commun. Notons cependant que la F-mesure et le boundary hit rate Fbr sont deux versions de la mˆeme m´etrique.

Contexte exp´erimental 77

o`u |X| d´esigne le nombre d’´el´ements de l’ensemble X. La pr´ecision correspond ainsi au taux de fronti`eres estim´ees correspondant `a des fronti`eres de r´ef´erence, et le rappel au taux de fronti`eres de r´ef´erence correspondant aux fronti`eres estim´ees. La corres- pondance est approch´ee : on consid`ere que deux fronti`eres correspondent si leur ´ecart temporel est inf´erieur `a une certaine valeur de tol´erance, typiquement 0.5 s [TLPG07] ou 3 s [LS08]. Ces valeurs sont par exemple utilis´ees dans de cadre de la campagne d’´evaluation MIREX5. Notons qu’une mˆeme fronti`ere peut ˆetre associ´ee `a plusieurs autres lors du calcul de la pr´ecision et du rappel, contrairement aux boundary hit rates d´efinies plus loin.

La F-mesure est la moyenne harmonique de ces deux quantit´es :

F = 2P R

P + R (5.3)

Cette quantit´e se d´et´eriore lorsque P ou R diminue ; en particulier elle suit le compor- tement du plus faible des deux dans le cas o`u l’un est n´egligeable devant l’autre (par exemple F = 2R si R << P ).

Boundary hit rates La d´efinition des boundary hit rates Pbr, Rbr et Fbr est respec-

tivement la mˆeme que celle de la pr´ecision, du rappel et de la F-mesure [TLPG07]. Il s’agit cependant ici de consid´erer que chaque fronti`ere estim´ee (respectivement de r´ef´erence) ne peut ˆetre associ´ee qu’`a une seule fronti`ere de r´ef´erence (respectivement estim´ee).

5.1.2.2 Evaluation de la structure compl`´ ete

Plusieurs m´etriques ont ´et´e propos´ees afin de comparer la structure de r´ef´erence aux estimations produites par les algorithmes.

Mesures de pr´ecision, rappel et F-mesure pour les groupements dyadiques de trames [LS08] Le calcul des mesures de pr´ecision, rappel et F-mesure pour les groupements dyadiques de trames (pairwise precision, recall and F-measure, que l’on note respectivement pP , pR, pF par la suite) reprend les formules de celles utilis´ees dans le cas des fronti`eres structurelles mais compare des objets diff´erents. On suppose ici que le morceau est divis´e en petites fenˆetres successives qui ne se recouvrent pas (en pratique il s’agit de trames de 100 ms). Il s’agit de comparer les paires de fenˆetres associ´ees `a la mˆeme ´etiquette structurelle par l’algorithme `a celles associ´ees `a la mˆeme ´etiquette de r´ef´erence. Soient pE l’ensemble des paires de fenˆetres associ´ees `a la mˆeme

´etiquette estim´ee et pRl’ensemble des paires de fenˆetres associ´ees `a la mˆeme ´etiquette

de r´ef´erence, on a : pP = |pE ∩ pR| |pE| , (5.4) pR= |pE ∩ pR| |pR| , (5.5) et pF = 2pP pR pP + pR. (5.6) 5. http://www.music-ir.org/mirex/wiki/2011:Structural_Segmentation

Score de mod´elisation [Pee07] On consid`ere pour chaque classe de segments struc- turels de l’annotation de r´ef´erence la classe de segments structurels estim´ee dont les segments recouvrent le mieux les segments qu’il contient. Le score de mod´elisation cor- respond au taux de recouvrement des segments des classes de r´ef´erence par les classes estim´ees une fois ces associations faites.

Plus pr´ecis´ement, soit ri le vecteur temporel tel que ri(t) prend la valeur 1 lorsque

la classe de segments structurels de r´ef´erence i existe `a l’instant t et 0 sinon. On d´efinit de la mˆeme mani`ere le vecteur ej pour la classe de segments structurels estim´ee j.

On associe `a chaque classe de r´ef´erence i la classe estim´ee k(i) maximisant le produit scalaire hek(i)|rii.

Le score de mod´elisation (ou modeling score) Σmod correspond `a la somme des produits scalaires obtenus normalis´e par la dur´ee du morceau :

Σmod = P ihek(i)|rii P i P trk(i)(t) (5.7) Ce score tend vers 1 lorsque les structures estim´ee et de r´ef´erence sont les mˆemes. Il tend vers 0 lorsqu’elles diff`erent.