• Aucun résultat trouvé

5.4.1 Contexte m´ethodologique et algorithme propos´e

Les algorithmes d’estimation de structure de l’´etat de l’art fondent g´en´eralement l’estimation des fronti`eres structurelles sur des consid´erations externes aux segments eux-mˆemes : un segment est homog`ene, d´etect´e par la rupture de l’homog´en´eit´e par rap- port `a ses voisins. un segment est r´ep´et´e, ou un segment est r´ep´et´e au cours du morceau. La conception de l’algorithme que nous avons soumis aux campagnes d’´evaluation de 2012 est motiv´ee par la volont´e d’utiliser un mod`ele d’organisation interne aux segments structurels pour l’estimation de leurs fronti`eres. Il s’agit du mod`ele syst`eme/contraste pr´esent´e dans la partie 3.5.3.

L’algorithme IRISA12 soumis cette ann´ee aux ´evaluations MIREX et Quaero re- prend l’approche utilis´ee en 2011 en rempla¸cant le crit`ere de r´ep´etition par le crit`ere morphologique d´efini dans la partie 4.1.2.4.

Nous utilisons cette fois des descripteurs num´eriques (vecteurs de chroma) pour d´ecrire les morceaux de musique dans le cadre de l’estimation des fronti`eres structu- relles. Ces descripteurs sont les Chroma Pitch (CP) g´en´er´es par la Chroma Toolbox de Muller et Ewert [ME11]. Ceux-ci sont exprim´es `a l’´echelle des snaps en associant `a chacun d’entre eux le vecteur de chroma moyen issu des vecteurs contenus dans une fenˆetre dont la dur´ee ´egale la p´eriode des snaps et qui est centr´ee sur le snap courant. Les snaps sont estim´es de la mˆeme mani`ere qu’en 2011.

Nous utilisons le mˆeme mod`ele de contrainte de r´egularit´e qu’en 2011, avec une pulsation structurelle de τ = 16 snaps. Le coˆut de segmentation est d´efini par les ´equations 4.1 et 4.2 o`u Φ est le coˆut issu du crit`ere morphologique d´ecrit par l’´equation 4.10 et avec λ1 = 1, λ2 = 0.04, λ = 0.41 et α = 0.93. Ces param`etres sont r´egl´es sur

notre base d’´etude MIREX10 (IRISA).

Les segments obtenus sont ´etiquet´es `a l’aide de l’algorithme de regroupement hi´erar- chique utilis´e en 2011 pour lequel on a effectu´e plusieurs modifications. Le calcul des pro- babilit´es des automates d´ecrit dans la partie 4.2 est toujours effectu´e `a partir d’une des- cription symbolique du morceau de musique, mais l’ordre de fusion des branches d’au- tomate est ´etabli `a l’aide des vecteurs de chroma dans l’optique de rendre l’´etiquetage robuste aux changements de tonalit´e. On compare ainsi deux segments en calculant la distance entre la s´equence de vecteurs de chroma du premier avec la s´equence de chroma du second pour toutes les transpositions possibles. Transposer une s´equence de vecteurs de chroma d’un demi-ton correspond `a effectuer une permutation circulaire des coefficients des de chacun de ces vecteurs. La mesure de distance utilis´ee est la stripe distance [PK08a] et correspond `a une mesure d’alignement temporel (cf. DTW partie 2.6). La distance entre deux segments correspond `a la stripe distance minimale sur l’ensemble des 12 transpositions possibles. De la mˆeme mani`ere que pour l’algo- rithme de 2011, la distance entre deux groupes de segments (c’est-`a-dire deux branches d’automates) correspond `a la plus petite distance entre un ´el´ement du premier groupe et un ´el´ement du second.

On choisit de plus de consid´erer chaque segment par les trois-quarts de leur s´equence de descripteurs dans le cas o`u leur taille est d’au moins 16 snaps. Ceci permet d’´eviter de consid´erer la partie des blocs structurels la plus susceptible de varier au cours du morceau (le contraste), en consid´erant qu’ils soient constitu´es de quatre ´el´ements mor- phologiques.

La s´equence de symboles est obtenue par quantification des vecteurs de chroma par un algorithme de Quantification Vectorielle, avec un nombre de classes de vecteurs de chroma empiriquement fix´e `a 16. On utilise la m´ethode LBG ou Lloyd g´en´eralis´e, initialis´ee par division r´ecursive des donn´ees selon le barycentre ou splitting [Gra84].

L’algorithme IRISA12 2 soumis `a la campagne Quaero correspond `a IRISA12 avec un param´etrage diff´erent (λ1 = 1, λ2 = 0.15, λ = 0.49 et α = 1.11) r´egl´e sur l’ensemble

de d´eveloppement de la campagne Quaero 2012 (regroupant les bases MIREX10 (IRISA, Dev) et Eurovision (Dev)).

5.4.2 Participants

Les soumissions KSP1, KSP2, KSP3, SP1, IRCAM1, IRCAM2 et IRCAM3 corres- pondent `a plusieurs versions du mˆeme algorithme. L’estimation des fronti`eres struc- turelles est effectu´ee via un crit`ere d’homog´en´eit´e sur des descripteurs de timbre (les MFCCs et leurs moments) et de type tonal (les multi-probe histogram d´eriv´es des vec- teurs de chroma) combin´es en une matrice de similarit´e. Ce crit`ere d’homog´en´eit´e correspond `a la fonction de nouveaut´e d´ecrite dans la partie 2.6 `a laquelle on ap- plique un seuil adaptatif. Les segments obtenus sont ´etiquet´es `a l’aide d’un crit`ere de r´ep´etition. Chaque segment est caract´eris´e par les coefficients de la matrice de simila- rit´e d´ecompos´ee par un algorithme NMF. SP1, KSP1 (=IRCAM2), KSP3 (=IRCAM1) et IRCAM3 diff`erent par l’ordre de la d´ecomposition par NMF (respectivement 4, 6, 8 ,10). KSP2 correspond `a une version de l’algorithme SP1 n’utilisant pas les descripteurs multi-probe histogram [KSG12].

SMGA1 et SMGA 2 sont deux versions du mˆeme algorithme qui fonde l’estima- tion des fronti`eres structurelles sur un crit`ere de r´ep´etition conceptuellement proche du crit`ere de d´etection des ruptures de r´ep´etition d´ecrit dans la partie 4.1.2.2. Les descripteurs utilis´es d´erivent des vecteurs de chroma : chaque descripteur correspond au vecteur de chroma de son instant correspondant auquel on concat`ene un ensemble d’´echantillons de la s´equence de chromas qui le pr´ec`ede. Ceci permet de mod´eliser la m´emoire `a court-terme d’un auditeur. L’estimation des fronti`eres structurelles consiste ensuite `a calculer une matrice de similarit´e `a partir de ces descripteurs et `a localiser les instants s´eparant les s´equences de coefficients sous-diagonaux de forte similarit´e. Les d´etails concernant l’estimation des ´etiquettes structurelles n’ont pas encore ´et´e publi´es [SMPA12].

MHRAF2 correspond au mˆeme algorithme que ceux nomm´es MHRAF1, MHRAF2 et MHRAF3 lors des campagnes de 2010 et 2011 avec un r´eglage diff´erent de ses pa- ram`etres.

Les d´etails du syst`eme OYZS1 n’ont pas encore ´et´e publi´es.

5.4.3 R´esultats obtenus

R´esultats concernant l’estimation des fronti`eres structurelles Le tableau 5.7 permet d’observer une augmentation des performances globales obtenues sur MIREX09 et MIREX10 (IRISA) en comparaison des ann´ees pr´ec´edentes pour l’estimation des fronti`eres. Celles-ci mettent en avant les algorithmes SMGA et KSP pour la tol´erance de 3 s, et KSP pour celle de 0.5 s. Les approches de ces algorithmes innovent prin- cipalement par leurs descripteurs : pour KSP, les multi-probe histograms repr´esentant l’´evolution du contenu tonal plutˆot que le contenu tonal lui-mˆeme et les descripteurs

Campagnes d’´evaluation MIREX et Quaero de 2012 89

de SMGA prennent en compte une mod´elisation de la m´emoire `a court-terme. On ob- serve de nouveau que les performances sur MIREX10 (IRISA) sont plus ´elev´ees que celles obtenues sur MIREX09. L’algorithme IRISA12 obtient des r´esultats comparables `

a ceux des algorithmes IRISA10 1&2 et IRISA11, pr´esent´es les ann´ees pr´ec´edentes, sur ces deux bases.

Deux nouvelles bases ont ´et´e utilis´ees cette ann´ee dans MIREX : les annotations ori- ginales de MIREX10 produites avec RWC Pop par l’AIST et MIREX12. Les r´esultats obtenus par les diff´erents algorithmes sont regroup´es dans le tableau 5.8. L’observa- tion des r´esultats pour les bases MIREX10 (IRISA et AIST), regroup´es dans la figure 5.3, permet de constater que les mesures de Fbr moyennes sur MIREX10 (AIST) sont

l´eg`erement plus faibles que pour MIREX10 (IRISA) et pour presque l’ensemble des algorithmes (seuls OYZS1 et IRISA12 voient leur Fbr moyenne `a 3 s augmenter de

quelques pourcent). Ceci peut s’interpr´eter en terme de coh´erence des annotations de MIREX10 (IRISA) par rapport `a celles de MIREX10 (AIST).

Les tendances des r´esultats obtenus sur la nouvelle base MIREX12 sont diff´erentes : les Fbr moyennes `a 0.5 s baissent mais restent comparables `a celles des autres bases. En

revanche, l’ensemble des algorithmes voient leur Fbr moyennes `a 3 s passer en dessous

de 50%. Le d´es´equilibre des mesures Pbr et Rbr moyennes (de l’ordre de 30% avec

Pbr < Rbr) traduit l’estimation d’un nombre trop ´elev´e de fronti`eres structurelles dans

le cas des algorithmes KSP et SMGA. IRISA12 poss`ede aussi ce comportement sur cette base, tandis que OYZS1 tend `a estimer un nombre de fronti`eres structurelles plus faibles que celles de r´ef´erence et que MHRAF1 voit ses mesures Pbret Rbrmoyennes ´equilibr´ees.

Ceci peut s’interpr´eter par le fait que les annotations de r´ef´erence correspondent en g´en´eral `a une ´echelle structurelle plus grossi`ere que les annotations estim´ees, comme semblent le montrer les aper¸cus des r´esultats disponibles sur le site de MIREX13. Les aper¸cus de trois morceaux de MIREX12 sont repr´esent´es dans la figure 5.2 (les r´ef´erences n’ont pas ´et´e rendues publiques).

Les algorithmes IRISA12 2 et IRCAM1/2/3, correspondent aux algorithmes IRISA12 et KSP1 pour lesquels les param`etres sont r´egl´es diff´eremment. Le tableau 5.9 permet d’observer que leur classement correspond `a celui observ´e dans le cadre de MIREX. Les r´esultats obtenus par IRISA12 2 sur la base Eurovision (Test) sont globalement com- parables `a ceux du syst`eme IRISA11. Le Fbr diminue d’un pourcent, et l’´ecart entre Pbr

et Rbr se creuse avec Pbr > Rbr, ce qui implique que le syst`eme IRISA12 2 a tendance

`

a estimer un nombre de fronti`eres plus faible que le nombre de fronti`eres de r´ef´erence. Les algorithmes IRCAM n’ont pas ´et´e ´evalu´es sur la base Eurovision.

R´esultats concernant l’estimation de la structure compl`ete Les performances moyennes des diff´erents algorithmes sur MIREX09, MIREX10 (AIST) et MIREX12 sont r´epertori´ees dans le tableau 5.8. L’algorithme d’´etiquetage de IRISA12 a ´et´e sou- mis `a MIREX `a titre exploratoire. Les modifications que l’on a effectu´e par rapport `

a l’algorithme IRISA11 de 2011 visent `a ´evaluer le concept de S&C plutˆot qu’`a ob- tenir les meilleures performances possibles. On observe que les performances obtenues par IRISA12 sont l´eg`erement plus ´elev´ees que celles obtenues par IRISA11 sur cette mˆeme base (il faut tenir compte de l’am´elioration de l’estimation des fronti`eres struc- turelles). Ceci peut venir du fait que la comparaison entre les segments structurels est bas´ee sur leurs trois premiers quarts, et est plus robuste changements de tonalit´e. Une

13. http://nema.lis.illinois.edu/nema_out/mirex2012/results/struct/sal/ comparisonplots.html#segmentssalami000000

Figure 5.2 – Aper¸cu des estimations de structure des algorithmes soumis `a MIREX 2012 pour trois morceaux de musique. Dans chaque cas, la structure la plus basse (orange) correspond `a l’annotation de r´ef´erence (les r´ef´erences n’ont pas ´et´e rendues public). Ces figures sont issues du site de MIREX 2012.

Observations g´en´erales 91

Figure5.3 – Comparaison des mesures de Fbrpour les tol´erances de 0.5 s et 3 s obtenues avec les algorithmes de MIREX 2012 sur les bases MIREX10 (IRISA et AIST). ´etude suppl´ementaire est n´ecessaire afin de diagnostiquer ce r´esultat. Les algorithmes MHRAF, KSP et SMGA sont tous les trois bas´es sur des crit`eres de r´ep´etition et des descripteurs de type tonal (chromas), sont les plus performants sur les trois bases. Leurs r´esultats sont les meilleurs obtenus `a l’´echelle des trois ann´ees pour la structure compl`ete mais aussi pour les fronti`eres. Au vu des performances obtenues `a l’´echelle des campagnes de 2010 `a 2012 (WB1 et MHRAF2 en 2010 et CL1 en 2011), il est difficile de privil´egier un crit`ere de r´ep´etition devant un crit`ere d’homog´en´eit´e afin d’am´eliorer significativement l’estimation des ´etiquettes structurelles.

Les scores de mod´elisation moyens obtenus dans le cadre de Quaero sont r´epertori´es dans le tableau 5.9 et affichent les mˆemes tendances qu’`a MIREX.