• Aucun résultat trouvé

Sans entrer dans les détails de chaque étape du système de reconnaissance, nous pouvons d’ores et déjà indiquer les aspects novateurs de cette architecture.

Notre approche suit une logique comparable à celle de nombreux auteurs [Blostein, Baird 92], et classique en analyse d’image, puisqu’il s’agit d’un processus séquentiel réalisant prétraitements, segmentation, et analyse. Néanmoins, elle nous permet de prendre en considération et de traiter les difficultés mentionnées au chapitre précédent.

Chapitre 2

L’ambiguïté, qui est due à la variabilité des polices de symboles, aux défauts d'impression, aux défauts de segmentation, est prise en compte, car l’étape d’analyse individuelle des symboles n’aboutit pas à une décision mais à un ensemble d’hypothèses. Ce n’est qu’après introduction du contexte, formalisé sous la forme de relations floues entre symboles, que la décision sera prise. En ce sens, la méthode est similaire à celle de [Fahmy, Blostein 98], puisqu’elle prend une décision sur des hypothèses précédemment générées, les deux phases, génération d’hypothèses et décision, étant bien distinctes et réalisées l’une après l’autre.

Il est intéressant de discuter ce type de modèle par rapport à d’autres architectures permettant de gérer l’ambiguïté. Les approches de type [Kato, Inokuchi, 92] ou encore [Stückelberg et al. 97] [McPherson, Bainbridge 01] [McPherson 02], sont, au contraire de la nôtre, bidirectionnelles. C’est-à-dire que les différentes étapes du processus de reconnaissance, du plus bas niveau (extraction des primitives) au plus haut niveau (analyse contextuelle), communiquent également dans le sens descendant, pour orienter ou contraindre les tâches de bas niveau en fonction de l’information recherchée. L’inconvénient de ces méthodes est qu’elles doivent mettre en œuvre un processus complexe d’ordonnancement des tâches à effectuer. De plus, il n’est pas certain que ce processus puisse prendre en compte toute l’information contextuelle, si celle-ci n’est pas encore disponible, et qu’il n’y ait pas un risque de propagation d’erreurs, si l’on oriente le processus d’analyse en fonction de résultats (hypothèses ou décisions) erronés. Au contraire, notre méthode permet de prendre une décision globale, avec une méthodologie simple : parcourir toutes les configurations d’hypothèses. Si la solution est dans cet espace, alors elle peut être trouvée par optimisation simultanée de tous les critères. Lors de l'analyse individuelle, nous choisissons des seuils de corrélation bas pour accepter une hypothèse, et nous autorisons en cas de forte ambiguïté jusqu'à quatre hypothèses simultanées pour chaque objet, de telle sorte qu’il est très rare que la bonne solution soit absente de l’ensemble des hypothèses. Il y a certes un risque d’explosion combinatoire, à cause de ces seuils bas, et parce que toutes les hypothèses sont générées en aveugle, c’est-à-dire de manière complètement indépendante du contexte. Néanmoins, en divisant le problème en sous-problèmes (la mesure), l’expérience montre que l’on reste dans des limites possibles. Par ailleurs, on peut trouver des heuristiques qui permettent de réduire le coût de calcul, notamment en évitant de tester des configurations que l’on sait, grâce aux précédents tests, impossibles. De plus, on peut s'appuyer sur la notion de mesure, car la détection des barres de mesure est très fiable.

La décomposition du processus de reconnaissance en trois étapes distinctes, analyse individuelle des symboles, modélisation floue et décision, présente deux autres avantages.

Le premier est qu'elle permet d'adapter le processus de reconnaissance à la partition traitée. En effet, les paramètres qui définissent les sous-ensembles flous modélisant les classes de symboles sont appris à partir des résultats de corrélation, qui ont été obtenus sur toute la partition durant la phase d'analyse individuelle, de sorte que le modèle s'adapte. Le problème de la variabilité des polices peut être ainsi traité.

Le second est qu'elle permet de structurer la modélisation des règles d'écriture musicale de manière rigoureuse, évitant de les disséminer un peu partout dans la méthode, contrairement à ce qui a souvent été fait dans les systèmes présentés dans la littérature. La connaissance a priori concernant les symboles, chacun indépendamment des autres, est intégrée dans la phase d'analyse

Structure du système de reconnaissance proposé individuelle : par exemple, le fait qu'une barre de mesure est nécessairement entre la première et la cinquième ligne de portée, que les notes sont sur les lignes de portée ou dans les interlignes. En revanche, toutes les règles qui expriment des interactions entre symboles sont introduites dans la deuxième phase, un module gérant les règles graphiques, un autre gérant les règles syntaxiques. La formalisation, fondée sur la théorie des ensembles flous et des possibilités, permet de modéliser et de fusionner ces informations très hétérogènes [Dubois et al. 99], par conséquent de prendre une décision globale, et c'est aussi l'un des aspects novateurs de notre méthodologie.

La méthode de reconnaissance proposée est unidirectionnelle, comme nous venons de le préciser. Néanmoins, les procédures proposées pour gagner en robustesse introduisent dans une certaine mesure une rétroaction : tout d'abord, au niveau de l'indication automatique des erreurs potentielles, puisque les résultats obtenus sur les symboles finalement retenus sont réexaminés dans ce but, mais sans remise en cause de la décision ; ensuite, de manière plus évidente, dans la méthode (optionnelle) d'apprentissage d'une partition : des modèles sont appris sur un extrait puis introduits dans le programme pour la reconnaissance du reste de la partition. Néanmoins, il ne s'agit que d'ajustements de paramètres internes, la méthodologie de reconnaissance restant identique et fondamentalement unidirectionnelle. Ces deux points, qui n'ont à notre connaissance par encore été abordés dans la littérature, constituent des idées innovantes permettant d'améliorer considérablement les performances d'un système d'OMR.

CHAPITRE 3

Prétraitements et segmentation

L’image en entrée, notée I0,est binaire, I0(x,y) au point de coordonnées (x,y) prenant les

valeurs 0 (pixel blanc) ou 1 (pixel noir correspondant à l'impression). On considère un système de coordonnées dont l’origine est le coin en haut à gauche de l’image, l’axe des x vertical et orienté vers le bas, l’axe des y horizontal et orienté vers la droite. L’image a une largeur de W pixels, et une hauteur de H pixels (typiquement W = 2400 pixels et H = 3400 pixels pour une partition de format A4). Ainsi :

{ }

0,1 ,0 x H,0 y W ) y , x ( I0 ∈ ≤ < ≤ < (Eq 3.1)

Les prétraitements permettent de corriger l’inclinaison de l’image et de déterminer la position des lignes de portée. L'image est ensuite segmentée de sorte que les symboles de la partition puissent être analysés (chapitre 4).