• Aucun résultat trouvé

3.4 Modélisation des durées dans les modèles CRF

3.4.3 Extension : prise en compte du tempo

Les modèles semi-markoviens permettent de représenter n'importe quelle contrainte de durées s'exerçant sur les séquences d'étiquettes. En revanche, ils présentent une limitation pour la modélisation temporelle de la musique. En eet, dans les modèles précédents, les scores de transitions associés aux durées des agrégats sont xés a priori. Ces modèles ne permettent donc pas de modéliser les corrélations entre les durées d'agrégats (la seule source de corrélation est la contrainte reliant la somme des durées et la longueur de la séquence). Or le temps musical est en général très structuré et les durées sont très fortement corrélées. Ces relations entre les durées de notes, qui peuvent être très contraintes, sont contenues dans les notions de rythme et de tempo. Dans la majorité des musiques, le rythme, c'est- à-dire les rapports entre les durées de notes, est caractéristique du morceau et doit donc

être invariant. La valeur rythmique d'un agrégat (blanche, noire, croche,. . . ) correspond à la durée en pulsations.

Le tempo dénit la durée de la pulsation, qui est l'unité rythmique de référence. On peut donc déduire la durée (en secondes) d'un agrégat d'après sa valeur rythmique et la valeur du tempo. Les durées (en secondes) des agrégats sont donc reliées entre elles par le tempo. Or, si les valeurs rythmiques sont connues, puisqu'indiquées par la partition, le tempo est à la fois inconnu et variable. La seule hypothèse faite est que les variations du tempo sont en général lentes par rapport à la durée de la pulsation, an d'assurer une certaine régularité locale des pulsations. Ainsi, le tempo peut être considéré comme constant durant plusieurs pulsations consécutives.

Suivant ces considérations, les modèles utilisés par Raphael [2006] etCont[2010] sont des réseaux bayésiens qui exploitent une variable aléatoire supplémentaire représentant le tempo courant. An de maintenir une interprétation intuitive de cette variable, elle est supposée constante pendant toute la durée d'un agrégat. Nous notons Tc la variable de

tempo associée à l'agrégat c. L'intérêt de cette variable est la possibilité de faire dépendre les scores de transition associés aux durées d'agrégats de la valeur courante du tempo. On ajoute alors cette dépendance à la dénition de l'équation (3.38) pour obtenir une nouvelle fonction de pénalité ρd(l, c, t). Dans les réseaux bayésiens cités plus haut, cette pénalité

est dénie comme la probabilité conditionnelle de la durée de l'agrégat sachant la valeur du tempo P (Lc= l

Tc= t).

L'évolution de la variable de tempo est alors régie par une fonction de pénalité ρt(tc, tc−1),

qui correspond à la probabilité de variation de tempo P (Tc

Tc−1) d'un réseau bayésien. Il est à noter qu'un tel modèle peut en fait être considéré comme un modèle semi-markovien, modélisant les durées d'étiquettes de la forme (C, T ).

Diverses fonctions de pénalité ρ peuvent être utilisées, conduisant à des contraintes tem- porelles diérentes. Nous détaillerons dans le chapitre suivant la forme que nous proposons pour la modélisation des durées musicales.

3.5 Conclusion

Dans ce chapitre, nous avons présenté l'utilisation de modèles graphiques pour l'aligne- ment temporel audio sur partition. Nous avons déni le problème d'alignement musique- sur-partition comme un problème d'étiquetage de séquence, consistant à associer à chaque trame temporellle de l'enregistrement un agrégat de la partition. Ce problème peut alors être traité avec un modèle graphique probabiliste, en introduisant pour chaque trame une variable aléatoire cachée représentant l'agrégat joué. Nous avons présenté, à travers l'ex- emple d'un modèle de Markov caché, comment des modèles génératifs utilisant le cadre des réseaux bayésiens dynamiques sont employés dans la littérature.

Nous avons ensuite vu que la classe des modèles discriminatifs de type champs aléa- toires conditionnels (CRF) pouvait être considérée comme une généralisation des modèles précédents pour la tâche d'alignement. Ce cadre présentant un certain nombre d'avantages sur les réseaux bayésiens dynamiques, nous avons choisi d'employer le formalisme CRF dans nos travaux.

Ce formalisme permet alors d'exprimer diverses formes de dépendances entre les vari- ables aléatoires, qui mènent à diérentes contraintes s'appliquant aux durées des agrégats. Trois structures particulières ont été étudiées, ainsi que les modèles temporels qu'elles occasionnent. Ces structures peuvent alors être utilisées pour la conception de systèmes d'alignement temporel audio-sur-partition, qui est l'objet du chapitre suivant.

Chapitre 4

Présentation de nos modèles

d'alignement par CRF

Nous avons vu, dans le chapitre précédent, que les modèles graphiques utilisés pour l'alignement temporel peuvent tous être exprimés dans le cadre des CRF. Nous utilisons donc ce formalisme pour présenter les modèles envisagés dans cette thèse. Nous proposons ici trois formes diérentes de la fonction de transition, correspondant aux trois modèles temporels exposés dans le chapitre précédent.

Nous proposons en outre une fonction d'observation exploitant plusieurs types de de- scripteurs acoustiques représentant respectivement le contenu spectral, l' impulsivité  (à travers la détection des transitoires) et le tempo.

Nous exposons ensuite la stratégie adoptée pour le décodage de ces modèles, avant d'évaluer les systèmes obtenus dans la tâche d'alignement, sur les deux bases de données MAPS et RWC-pop.

4.1 Fonctions de transition utilisées

Nous nous intéressons tout d'abord aux fonctions de transition de nos trois modèles, qui dénissent les contraintes s'appliquant aux durées des agrégats.