• Aucun résultat trouvé

5.5 Application aux modèles d'alignement par CRF

5.5.3 Modèles HTCRF

Dans une dernière série d'expériences, nous appliquons les fonctions d'observation es- timées à un alignement par le modèle HTCRF. Comme précédemment, le paramètre de tempo est xé à la valeur µ3 = 101. Les paramètres de la fonction de transition sont ici

encore estimés grâce à une recherche sur une grille de valeurs. Les valeurs retenues sont γd = 20et γt = 200.

Nous avons constaté qu'avec ce modèle, l'utilisation des attributs modiés pour l'a- grégat vide permettait d'obtenir de meilleurs résultats, et cela pour toutes les fonctions d'observation. Cela s'explique par la grande diversité des observations que représente cet agrégat. De ce fait, l'exploitation de l'attribut original peut mener, selon les morceaux, à une sous-estimation ou une surestimation de la probabilité de cette étiquette. La mod- ication de l'attribut permet de lui aecter une fonction d'observation peu informative. La probabilité de l'agrégat vide est alors déterminée principalement par les contraintes temporelles du modèle, qui sont très ables dans le cas du HTCRF.

Les résultats des alignements avec ces attributs modiés sont présentés en table5.5. Le modèle temporel très précis utilisé diminue ici les diérences entre les fonctions d'observa- tion testées. On peut alors constater que les transformations W estimées par apprentissage ne donnent plus systématiquement les meilleurs résultats. Par exemple, pour le chroma- gramme CGZ, le taux d'alignement à 100 ms le plus haut sur le corpus MAPS est obtenu avec la transformation heuristique (97,8%). Cela peut être expliqué par la diérence entre les deux corpus. En eet, l'apprentissage mène à une valeur de W qui opère un compromis entre les timbres des deux parties de l'ensemble d'apprentissage. Les gabarits théoriques semblent alors plus adaptés au corpus MAPS. Cependant, les deux stratégies d'appren- tissage permettent une augmentation des scores sur le corpus RWC-pop (94,8% et 95,2% contre 94,6%). Une autre cause possible est la diérence entre les longueurs des notes telles qu'indiquées par la partition et leurs durées eectives, comme expliqué en section2.4.1. En raison de ce phénomène, causé notamment par la réverbération, des notes qui  devraient  être éteintes (d'après la partition) peuvent se superposer aux agrégats suivants. De ce fait, le contenu de certains agrégats de la partition peut ne pas correspondre à l'enregistrement. Dans ce cas, il est pénalisant d'utiliser un modèle d'observation trop discriminant.

Représentation en spectrogramme (SP) :

Corpus MAPS Corpus RWC-pop

Apprentissage H(m) MD(m) MV(m) H(m) MD(m) MV(m) TAMP (θ =300 ms) 99.4 99.5 99.6 99.7 99.6 99.7 TAMP (θ =100 ms) 98.0 98.0 98.2 95.9 95.9 96.0 TAMP (θ =50 ms) 91.3 90.1 90.9 86.5 86.0 86.1 IMP (ms) 24 25 24 28 28 28 CCMP 11.5 11.4 11.2 22.0 22.5 22.3 Représentation en semigramme SGQ :

Corpus MAPS Corpus RWC-pop

Apprentissage H(m) MD(m) MV(m) H(m) MD(m) MV(m) TAMP (θ =300 ms) 99.4 99.5 99.6 99.6 99.5 99.7 TAMP (θ =100 ms) 97.8 97.9 98.3 96.1 96.3 97.4 TAMP (θ =50 ms) 89.6 89.6 91.2 81.8 82.2 84.3 IMP (ms) 26 26 24 34 33 31 CCMP 12.1 12.2 11.2 28.5 29.0 27.5 Représentation en chromagramme CGZ :

Corpus MAPS Corpus RWC-pop

Apprentissage H(m) MD(m) MV(m) H(m) MD(m) MV(m) TAMP (θ =300 ms) 99.5 99.3 99.4 99.1 99.2 99.5 TAMP (θ =100 ms) 97.8 97.4 97.4 94.6 94.8 95.2 TAMP (θ =50 ms) 88.4 86.9 87.5 78.4 77.7 78.7 IMP (ms) 27 29 28 37 37 37 CCMP 12.7 13.2 13.1 30.3 30.9 30.1

Table 5.5  Résultats des alignements avec le modèle HTCRF, pour les diérents attributs d'agrégat. Dans ces expériences, tous les systèmes utilisent les attributs modiés pour l'agrégat vide.

semble conduire ici à des alignements légèrement plus précis que le semigramme sur le corpus MAPS, avec une imprécision moyenne pondérée de 28 ms contre 31 ms. On peut pour cela avancer la même explication que précédemment : les systèmes exploitant le spectrogramme accordent plus d'importance aux contraintes temporelles, qui sont ici très ables. De plus, l'exploitation d'une transformée à Q constant peut limiter la précision temporelle de la représentation SGQ, en raison de la taille importante des fenêtres d'analyse en basses fréquences.

Le poids plus important donné à la fonction de transition explique encore les meilleurs résultats de l'apprentissage MV sur la stratégie MD pour la représentation en chroma- gramme (13,1% de cout de classication moyen pondéré contre 13,2% sur MAPS et 30,1% contre 30,9% sur RWC-pop).

De façon générale, l'apprentissage par maximum de vraisemblance conduit donc à une amélioration de la qualité moyenne des alignements sur les deux bases de données par rapport à l'utilisation d'attributs heuristiques.

5.6 Conclusion

Une étude approfondie de l'attribut d'agrégat utilisé par nos systèmes d'alignement a été menée dans ce chapitre. Nous avons tout d'abord déni cet attribut à partir d'une transformation linéaire de la partition vers le domaine des observations acoustiques. Cela permet d'appliquer le même formalisme pour plusieurs fonctions de dissimilarité, ainsi que cinq diérentes représentations temps-fréquence de l'audio. Parmi les paramètres testés, la divergence de Kullback-Leibler symétrisée apparait comme un bonne mesure de dis- similarité et deux représentations, en spectrogramme et en semigramme conduisent aux alignements les plus précis.

Deux stratégies d'apprentissage sont alors proposées pour l'estimation de la transfor- mation linéaire optimale. La première utilise le critère du minimum de divergence an de maximiser l'attache aux données. La seconde tire parti d'un modèle discriminatif d'aligne- ment par CRF, en exploitant le critère du maximum de vraisemblance. Nos expériences mettent en valeur les améliorations induites par l'optimisation de la transformation. En ef- fet, dans presque toutes nos expériences, les alignements obtenus sont plus précis que ceux qui utilisent une transformation heuristique. Les quelques exceptions observées concernent le modèle HTCRF, où le modèle temporel devient dominant par rapport à la fonction d'observation. Dans le cas des représentations en spectrogramme et en semigramme, la stratégie discriminative parait en outre la plus prometteuse, car elle mène à de meilleurs performances que l'apprentissage par minimum de divergence, alors que le modèle CRF ex- ploité dans la phase d'apprentissage n'est pas le même que ceux utilisés pour le décodage.

Chapitre 6

L'Alignement dans le monde réel :

améliorations pratiques

Dans les chapitres précédents, nous avons présenté la structure des modèles CRF ainsi que l'apprentissage de certains paramètres des attributs. Cependant, dans la perspective de tâches d'alignement audio-sur-partition réalistes, certains ajustements peuvent être ap- portés. Nous considérons dans ce chapitre trois questions qui peuvent se poser dans l'utili- sation pratique de nos modèles. La première est celle de la prise en compte de changements de structure entre la partition et l'interprétation. La deuxième concerne la diminution de la complexité du décodage des modèles CRF, an de réduire les besoins en mémoire et puissance de calcul de l'alignement. Enn, nous nous intéressons à des considérations de scalabilité en comparant les diérentes valeurs du compromis performance/complexité liés aux modèles proposés. Les travaux décrits dans ce chapitre ont été eectués avant ceux du chapitre précédent. C'est pourquoi toutes les expériences utilisent les descripteurs décrits dans la partie4.2(vecteurs de chroma CGZ).

6.1 Robustesse aux changements de structure musicale