Apprentissage des paramètres - Adaptation à la partition analysée

6.2. Adaptation à la partition analysée

6.2.2. Apprentissage des paramètres

La seconde phase de l'apprentissage consiste à ajuster les paramètres liés aux modèles de classe. Il s'agit donc des seuils de décision td(k) qui interviennent dans la génération d'hypothèses

(Tableau 4.3), et dans la définition des distributions de possibilité d'appartenance aux classes (Eq. 5.2). Les nouveaux modèles k

M sont corrélés avec les images d'apprentissage, sans portée. Notons

( )

k s

C le score de corrélation entre le modèle k a

M et le nième prototype (0≤n<Nk) de la classe k.

Comme les symboles présentent toujours une variabilité dans la partition, on observe, sur chaque classe k, des variations du score de corrélation autour de la valeur moyenne m

k C , définie par :

( )

∑

− = = N 1 0 n n k k m k k s C N 1 C (Eq. 6.1)

Chapitre 6

(a) Modèles de classe déduits de l'apprentissage

Améliorations de la robustesse

(c) Résultats de classification : ces résultats sont corrigés par l'utilisateur pour réaliser l'apprentissage. Figure 6.8 : Exemple d'apprentissage de modèles de classe.

Chapitre 6

Figure 6.9: Exemple d'apprentissage de symboles : (a) Exemples de modèles appris k a

M et proportion de prototypes extraits de la partition pour l'apprentissage ;(b) Histogrammes des scores de corrélation entre les modèles k

M et les prototypes d'apprentissage ; en pointillés rouges, les seuils de décision ; (c) Histogrammes calculés sur toute la partition.

6.0% 5.9% 7.8% 17.4% 5.6% 19.0% 6.4% 10.5% 18.75% (a) (b) (c)

Améliorations de la robustesse Le seuil de décision td(k) est ensuite calculé en fonction du paramètre D (paragraphe 5.2), qui

représente l'écart maximal typique que l'on peut observer entre les scores de corrélation obtenus par des symboles de même classe, dans une même partition :

( )

k C D/2

t m

d = − (Eq. 6.2)

La méthode de reconnaissance en généralisation est inchangée. Elle utilise simplement les nouveaux modèles de classe, avec les nouveaux seuils de décision td(k). En particulier, les

distributions de possibilité d'appartenance aux classes sont toujours apprises sur chaque page de musique analysée (Eq. 5.2), afin d'ajuster le paramètre Sk. Il ne s'agit en effet que d'un ajustement,

puisque Sk, en l'absence de symboles classés en classe k en hypothèse H1 (n(k)=0 dans l'équation

5.2), prend la valeur moyenne m k

C . Aucun des autres paramètres du programme ne dépend des

modèles de classe, et ils ne sont donc pas modifiés.

L'apprentissage conduit à de bons résultats si le nombre de prototypes appris par classe est suffisant. Les expérimentations ont montré que 5 prototypes, en comptant les symétriques pour les classes "noire", "blanche" et "ronde", sont suffisants. Mais les résultats sont bien sûr d'autant plus fiables et précis que la base d'apprentissage est importante. La figure 6.9 illustre la méthode appliquée à la partition de la figure 6.8. La comparaison des scores de corrélation, obtenus sur la base d'apprentissage (colonne de gauche) et sur toute la partition (colonne de droite), prouve que les modèles appris sont effectivement représentatifs. On observe toujours une variabilité des scores de corrélation, ce qui montre que la modélisation floue des classes est, en dépit de l'apprentissage de nouveaux modèles, toujours pertinente.

6.2.3. Conclusion

La variabilité importante des polices de symboles est une difficulté majeure, identifiée dans de nombreux articles (e.g. [Fujinaga 88] [Bainbridge, Bell 96] ). Bien que les systèmes présentés soient pour la plupart conçus pour être les plus généraux possibles, on peut affirmer qu'une source importante d'erreurs est due à cette caractéristique de l'édition musicale, et qu'il est nécessaire de proposer des procédures d'apprentissage des modèles de classe. Très peu de solutions ont cependant été proposées dans la littérature. Un seul auteur, à notre connaissance, traite réellement de ce problème : Fujinaga, dont le système, fondé sur l'extraction de caractéristiques et la décision par le plus proche voisin, peut apprendre de nouveaux prototypes et ajuster sa règle de décision par un algorithme génétique [Fujinaga 97]. Nous proposons une autre méthode, consistant à apprendre des modèles de classe utilisés pour une analyse par corrélation, ainsi que les paramètres liés à ces modèles. Cet apprentissage est spécifique à une partition donnée, mais on peut supposer qu'il peut être réutilisé pour d'autres partitions provenant de la même édition.

Grâce à l'apprentissage, le système de reconnaissance gagne en robustesse à deux niveaux : − Il y a une diminution de l'ambiguïté des scores de corrélation, puisque les modèles de classe

sont plus ressemblants aux symboles de la partition.

− La modélisation floue des classes de symboles est plus fine, car les seuils de décision td(k)

Chapitre 6

classes adaptées à la partition, ces distributions étant ensuite affinées grâce aux résultats produits par l'analyse des symboles de toute la partition.

L'apprentissage nécessite une intervention limitée de l'utilisateur. Dans les expérimentations, et pour des raisons pratiques de programmation, des portées entières ont été sélectionnées pour qu'elles incluent suffisamment de symboles de chaque classe en un nombre minimal de portées. Cette tâche n'est pas nécessaire : avec une interface graphique, il suffit que l'utilisateur pointe des symboles, jusqu'à ce que le nombre de prototypes par classe soit suffisant. L'apprentissage étant ensuite complètement automatique, on peut donc affirmer que la procédure est simple et rapide à réaliser. Un gain substantiel, en termes de taux de reconnaissance, a été obtenu dans les expérimentations réalisées. Des résultats précis seront présentés dans le chapitre 7 (paragraphe 7.7).

6.3. Conclusion

Nous avons proposé dans ce chapitre deux axes d'amélioration d'un système d'OMR : l'indication automatique d'erreurs potentielles et l'apprentissage supervisé d'une partition donnée, permettant de gagner en robustesse et en facilité d'utilisation. Ces voies ont été peu explorées jusqu'à présent, bien qu'on puisse affirmer qu'elles sont essentielles : Lutz, dans le cadre de la création d'une large base de données musicales [Lutz 04], rapporte qu'il faut à des musiciens expérimentés environ 1/4 d'heure pour rééditer correctement une page de musique scannée et reconnue par le logiciel commercial PhotoScore [PhotoScore]. Cette expérience montre qu'il est indispensable d'améliorer la fiabilité du système d'OMR, en passant si nécessaire par des procédures d'apprentissage, et en facilitant la recherche des erreurs. Les propositions faites dans ce chapitre vont dans ce sens et sont donc très pertinentes.

Les modèles de classe appris peuvent être sauvegardés et réutilisés. La procédure d'apprentissage, couplée à la méthode de sélection automatique de modèles (paragraphe 4.4), permet donc de compléter et d'affiner le programme d'OMR, au fur et à mesure de son utilisation. On peut également imaginer que l'utilisateur extraie lui-même de la base de données les modèles appropriés, de manière plus ou moins assistée.

Enfin, il faut de nouveau souligner l'intérêt de la modélisation floue, dont les résultats sont largement repris pour l'indication des erreurs potentielles.

CHAPITRE 7

Résultats

L'objet de ce chapitre est d'évaluer les différentes étapes de la méthode, de manière objective, sur une large base d'images. Comme nous l'avons mentionné au premier chapitre, les systèmes d'OMR présentés dans la littérature sont très rarement évalués. Le cas échéant, l'évaluation est réalisée sur une base de données restreinte, qui ne permet pas de vérifier la généralité de la méthodologie, en particulier de ses différents paramètres [Blostein, Baird 92]. Notons également qu'il n'existe pas de base d'images de référence, ni de méthode standard d'évaluation d'un logiciel d'OMR. Il a donc fallu constituer cette base, et définir des critères d'évaluation.

Une large base de données a été constituée, avec un grand souci de généralité (paragraphe 2.2), afin d'analyser les résultats obtenus en sortie de l'étape d'analyse individuelle des symboles, et de fournir des taux de reconnaissance. L'objectif est double : évaluer la fiabilité du système proposé, mais aussi analyser finement la méthode et repérer les sources d'erreurs. Des résultats de reconnaissance seront également comparés à ceux produits par un logiciel du commerce, Smartscore, sur quelques exemples [SmartScore 06]. Différentes statistiques seront ensuite données sur l'indication des erreurs potentielles. Enfin, l'apport de l'apprentissage sera illustré sur trois cas.

Dans le document Reconnaissance de partitions musicales par modélisation floue des informations extraites et des règles de notation (Page 174-180)