• Aucun résultat trouvé

5.4 Apprentissage discriminatif par maximum de vraisemblance (MV)

5.4.4 Expérience d'alignement

Comme dans les sections précédentes, nous exploitons les matrices de transformations estimées pour un alignement avec le modèle MCRF0. Notons que la valeur de µ1, bien que

jouant un rôle dans le calcul de la vraisemblance et donc utilisée pour l'apprentissage de la matrice W, n'a pas d'inuence sur les séquences d'agrégats détectées ici, comme on l'a exposé dans la section 4.4. Les diérences par rapport aux expériences précédentes sont donc dûes uniquement à la transformation. Les taux d'alignement obtenus sont présentés dans la table 5.2et comparés à ceux exploitant l'apprentissage MD.

Puisque l'apprentissage par maximum de vraisemblance prend en compte le modèle CRF exploité pour l'alignement, on peut s'attendre à ce qu'il permette une amélioration des résultats. En eet, dans le cas des représentations SP et SGF, on observe une aug- mentation des taux d'alignement (même si cette augmentation n'est pas signicative sur le corpus MAPS avec le spectrogramme). En revanche, les scores s'eondrent avec les autres représentations. Cette dégradation est spectaculaire sur le corpus RWC-pop, où le taux d'alignement à 300 ms passe par exemple de 74,4% à 8,1% pour le chromagramme CGZ.

La raison de ce phénomène est que le critère MV n'est pas lié à la maximisation de nos mesures d'évaluation. En eet, l'apprentissage maximise la probabilité des séquences d'agrégats annotées dans l'ensemble d'apprentissage, mais ne limite pas la probabilité des autres séquences. En particulier, rien n'assure que cette séquence annotée sera la plus

probable. En d'autres termes, même si la probabilité de la  bonne  séquence est optimisée, il est possible que d'autres séquences soient encore plus favorisées par cette optimisation. Il n'y a donc aucune garantie que les scores d'évaluation de l'alignement augmentent, même sur l'ensemble d'apprentissage. De fait, pour la même représentation, le cout de classication moyen pondéré sur cet ensemble est de 74,3%, alors qu'il est égal à 50,9% avec l'apprentissage MD.

En examinant plus précisément les résultats, on constate que les erreurs sont causées par de nombreux alignements aberrants, où presque tout le morceau est décodé comme étant un agrégat vide (représentant les parties où aucune note n'est jouée), représentant notamment le début ou la n du morceau. L'attribut fait en eet apparaitre un biais très important en faveur de cet agrégat. Ce phénomène peut être expliqué par la forme de la vraisemblance. La dérivée partielle de l'équation (5.26) peut être développée en :

∂L(Θ) ∂Wi,j = µ1 X e Ne X n=1 ( ∂f1e(cen, ven; W) ∂Wi,j − X cn∈Ce ∂f1e(cn, vne; W) ∂Wi,j P cn ve1:Ne; Θ ) (5.27) = µ1 X e Ne X n=1 ∂ ∂Wi,j ( f1e(cen, vne; W) − X cn∈Ce ωcnf e 1(cn, vne; W) ) ωcn=P cn v1:Nee ;Θ 

où Ceest l'ensemble des agrégats présents dans le morceau e. Cette équation traduit le fait

que la stratégie MV vise à maximiser la diérence entre la valeur de l'attribut des agrégats joués et la moyenne des attributs de tous les agrégats, pondérée par leurs probabilités. Cette idée, intuitivement valide, peut néanmoins conduire à un biais lorsque les occurences des étiquettes dans la base d'apprentissage sont déséquilibrées, puisque l'optimisation se concentre sur la sélection du bon agrégat parmi les plus probables.

De plus, les probabilités en jeu dans l'équation (5.27) sont les probabilités des agrégats, chacune égale à la somme des probabilités de toutes les séquences contenant l'étiquette considérée. De ce fait, une plus grande importance est donnée aux agrégats contenant un grand nombre de séquences de probabilités modérées par rapport aux agrégats contenant une seule séquence très probable. C'est pourquoi l'apprentissage accorde peu d'importance à l'agrégat vide, souvent isolé aux extrémités d'un morceau. Dans notre cas, cela conduit à une surestimation quasi-systématique de la probabilité de cet agrégat.

Modication de l'attribut de l'agrégat vide

An de limiter ce problème, nous choisissons de modier la valeur de l'attribut f1

de l'agrégat vide. Elle est alors calculée, pour chaque instance de cet agrégat, comme la moyenne des attributs des agrégats voisins, en considérant les 5 précédents et les 5 suivants. On évalue aussi l'inuence de cette modication sur les alignements des systèmes précédents.

Les taux d'alignement de tous les systèmes considérés sont alors compilés table5.2. On peut tout d'abord observer que la modication de l'attribut de l'agrégat vide améliore con- sidérablement les scores des chromagrammes et du semigramme SGQ après l'apprentissage MV. Cette dernière représentation obtient alors le meilleur taux d'alignement sur le corpus

Corpus MAPS :

Représentation SP SGF SGQ CGM CGZ

Agrégat vide (o) (m) (o) (m) (o) (m) (o) (m) (o) (m) W Heuristique 90.6 90.5 89.7 89.6 91.0 90.9 87.5 87.4 88.2 88.1 W Appr. MD 94.1 93.9 91.3 91.3 93.5 93.3 88.9 88.9 89.4 89.3 W Appr. MV 94.2 94.0 92.3 92.2 92.7 93.6 83.5 86.0 64.6 88.5

Corpus RWC-pop :

Représentation SP SGF SGQ CGM CGZ

Agrégat vide (o) (m) (o) (m) (o) (m) (o) (m) (o) (m) W Heuristique 80.4 79.8 75.8 75.9 79.8 79.1 65.9 65.1 72.4 71.4 W Appr. MD 83.2 83.6 77.5 77.7 82.1 82.2 68.9 68.2 74.4 74.3 W Appr. MV 83.8 84.0 80.4 80.1 14.1 84.4 22.4 66.5 8.1 72.9 Table 5.2  Taux d'alignement moyens pondérés à 300 ms obtenus par le modèle MCRF0 pour les diérentes méthodes de calcul des attributs avec la distance KLs (en %). Les systèmes notés (o) et (m) utilisent respectivement les attributs originaux et modiés des agrégats vides.

RWC-pop (84,4%). En revanche, la modication n'augmente pas de façon signicative les résultats découlant des autres stratégies d'apprentissage.

D'après ces expériences, la stratégie d'apprentissage par maximum de vraisemblance permet donc d'améliorer les alignements par rapport au minimum de divergence, pour les représentations en spectrogramme et en semigramme. En revanche, elle obtient de moins bons résultats pour les représentations en chromagramme (CGM et CGZ). Cela peut être expliqué par le plus faible pouvoir discriminant de ces représentations du fait de leur plus petite dimension. Ainsi, l'apprentissage a tendance à se baser davantage sur la fonction de transition (qui apparait de façon implicite dans le calcul des probabilités) pour discerner les agrégats, privilégiant alors le critère d'entropie pour la mise à jour de la transformation. En comparaison, la stratégie MD ne tient pas compte de la fonction de transition et cherche alors une matrice W expliquant mieux les données.