• Aucun résultat trouvé

Nous avons identifié dans le paragraphe 1.2 les spécificités de l'édition musicale, sources d'imprécision et d'incertitude : la variabilité des symboles (inter et intra partition), la grande variété des arrangements de notes possibles, le masquage partiel des symboles par les lignes de portée, les défauts liés à l'impression et à la numérisation. Les techniques de segmentation et de reconnaissance ont été définies pour surmonter au mieux ces difficultés, en particulier par l'introduction de nombreuses connaissances a priori relatives à la mise en page, à la structure et à la position des symboles. Néanmoins, une imprécision sur la forme et la position des objets segmentés, et par conséquent une incertitude sur leur classe, ne peuvent être totalement évitées, pour toutes les raisons précédemment évoquées, et les conclusions données dans la littérature convergent sur ce point (e.g. [Ng, Boyle 96] [Watkins 96] [Fahmy, Blostein 98] [Bainbridge, Wijaya 99] [McPherson 02]).

Les deux premières étapes, la segmentation et l'analyse individuelle des symboles, permettent cependant de définir un ensemble d'hypothèses de reconnaissance, contenant les symboles recherchés (voir l'évaluation présentée au chapitre 7, paragraphe 7.2). Les résultats sont donc pertinents mais encore insuffisants. Deux nouveaux axes peuvent alors être exploités pour l'extraction de la solution : d'une part analyser les scores de corrélation obtenus sur toute la partition, de manière à mieux définir les modèles de classe et à les adapter à cette partition ; d'autre part modéliser et intégrer les règles musicales qui définissent les relations entre les symboles, afin d'évaluer la cohérence des symboles dans les différentes configurations d'hypothèses.

Ces deux axes sont tout à fait novateurs par rapport à la bibliographie. A notre connaissance, il n'y a pas d'exemple, dans la littérature, de systèmes qui adaptent leurs modèles de classe à la partition traitée. Fujinaga apporte une réponse au problème de la variabilité des polices, par une voie différente, en proposant un système évolutif capable d'apprendre de nouveaux prototypes

Chapitre 5

[Fujinaga et al. 98] [Sayeed Choudhury et al. 01]. Il faut cependant réaliser un apprentissage hors ligne. En ce qui concerne la modélisation et l'intégration des règles musicales, les méthodes proposées sont généralement fondées sur des grammaires, avec, pour objectifs principaux, la reconstruction des notes et la restitution de la sémantique [Bainbridge, Bell 03] [Baumann 95] [Coüasnon 96a] [Fahmy, Blostein 98]. Les règles modélisées pour la reconnaissance sont essentiellement des règles graphiques, locales, relatives à la structure des symboles, ou au positionnement des attributs des notes par rapport à ces dernières. Les décisions prises sont également très locales, puisqu'elles résultent du test d'un prédicat portant sur des symboles proches. On constate donc généralement les limitations suivantes :

− Toutes les règles musicales ne sont pas modélisées ni intégrées. En particulier, les règles syntaxiques (cohérence des altérations et de la tonalité, organisation rythmique des groupes de notes) ne sont pas testées, la vérification du nombre de temps dans la mesure exceptée. − La décision ne procède pas de l'évaluation globale de tout le contexte, mais de décisions

locales successives.

− L'imprécision et la flexibilité des règles musicales ne sont pas modélisées. Par exemple, la position d'une altération par rapport à une note est déclarée correcte ou incorrecte, alors que l'on constate en pratique des variations notables, voire des positions a priori interdites (chevauchement d'une altération et de la tête de note par exemple).

− L'incertitude sur la classe des primitives est peu prise en compte.

Quelques projets ont tenté de surmonter ces limitations. Watkins propose une grammaire floue, modélisant le caractère graduel des règles graphiques, en remplaçant les prédicats binaires par des fonctions de certitude, et tente de propager l'incertitude jusqu'à la prise de décision [Watkins 96]. Les critères modélisés sont cependant limités à la structure des notes. L'incertitude sur la classe des primitives est prise en compte dans les grammaires, lorsque différentes classes sont proposées pour un même objet [Fahmy, Blostein 98], néanmoins les décisions restent locales et n'intègrent pas tout le contexte. L'incertitude a également été formalisée dans le cadre de la théorie des probabilités par Stückelberg, mais de manière très prospective [Stückelberg, Doerman 99]. Enfin, une architecture bidirectionnelle permet de réviser des résultats obtenus, par détection d'incohérences dans les modules d'interprétation de haut niveau. Mais les systèmes présentés restent également très prospectifs [Stückelberg et al. 97], ou montrent des exemples de corrections locales qui ne font toujours pas intervenir l'ensemble du contexte et n'intègrent pas toutes les règles [McPherson, Bainbridge 01] [Ferrand et al. 99] [Kato, Inokuchi 90].

Les besoins d'approches syntaxiques, pour la réduction de l'ambiguïté, sont maintenant reconnus (e.g. [Kato, Inokuchi 92] [Fahmy, Blostein 98] [Ferrand et al. 99] [McPherson, Bainbridge 01]). Les méthodes proposées jusqu'à présent se heurtent aux difficultés suivantes :

− La difficulté de modéliser l'incertitude relative à l'étiquetage des primitives, et de la propager de bout en bout.

− La difficulté d'aller au-delà de la reconstruction de symboles à partir de primitives, et de proposer des solutions qui intègrent les critères relatifs aux relations entre les symboles. Cette difficulté est liée à la nature des règles musicales (paragraphe 1.2) : leur flexibilité ou leur imprécision, le fait qu'elles peuvent mettre en jeu un grand nombre de symboles proches ou distants, l'hétérogénéité des informations (règles graphiques ou syntaxiques), l'inter- dépendance des règles, dans le sens où plusieurs règles peuvent s'appliquer sur un même

Modélisation floue symbole, tout en impliquant des ensembles de symboles différents.

− La difficulté de fusionner toutes ces informations afin de prendre une décision globale. Nous proposons dans ce chapitre une méthode, fondée sur la théorie des ensembles flous et des possibilités [Dubois, Prade 80], qui tente de répondre à ces questions. L'objectif est de prendre en compte l'imprécision des informations extraites de la partition musicale, l'imprécision et la flexibilité des règles musicales, l'incertitude qui en résulte, de modéliser et d'intégrer l'ensemble des règles musicales afin de prendre une décision globale, par optimisation de tous les critères.

La théorie des ensembles flous et des possibilités offre un formalisme bien adapté à notre problématique. Elle permet en effet de représenter et de traiter l'information spatiale imprécise [Bloch 00] [Bloch, Maître 97] [Krishnapuram, Keller 92], de représenter et de fusionner des informations très hétérogènes, issues directement de l'image ou provenant de connaissances génériques [Dubois et al. 99]. Des fonctions d'appartenance et des distributions de possibilité seront définies pour la représentation des classes et des différentes règles musicales, en prenant en compte l'imprécision des informations extraites (la forme et la position des objets), et en modélisant l'imprécision des règles musicales (comme la position relative des symboles, qui est mal définie) et leur flexibilité (comme le rappel non obligatoire d'altérations).

Un autre point fort de cette théorie est qu'elle permet de représenter dans un même cadre des idées de similarité, de préférence, de plausibilité, d'incertitude [Dubois, Prade 01]. Diverses sémantiques sont utilisées dans notre approche. Une sémantique de similarité permet de modéliser les classes de symboles, par comparaison d'un symbole à un prototype de chaque classe. Une sémantique de plausibilité est utilisée pour la modélisation de la position relative des symboles, ou pour l'évaluation de la cohérence des altérations. Une sémantique de préférence permet de modéliser de façon simple et efficace les contraintes souples telles que le regroupement des notes. Enfin, une sémantique de degré de confiance est utilisée dans la phase de fusion, fournissant l'évaluation d'une hypothèse, exprimée comme une affectation d'un groupe de symboles à des classes. La souplesse et la variété des opérateurs de combinaison permettent en effet de fusionner toutes ces informations hétérogènes, bien qu'elles ne jouent pas le même rôle et n'aient pas nécessairement le même poids [Dubois, Prade 80][Bloch 96] [Bloch 03].

Nous pouvons ainsi proposer un système de reconnaissance qui intègre de bout en bout toutes les sources d'imprécision et d'incertitude, afin d'éviter des décisions locales fondées sur un contexte incomplet, et de ne pas perdre d'information. Une décision globale peut ainsi être prise après fusion de tous les éléments d'information, conduisant à une solution cohérente par rapport à la théorie musicale.

La suite de ce chapitre s'organise en 4 parties. Nous décrirons tout d’abord la modélisation floue des classes de symboles, l'évaluation de la cohérence graphique et syntaxique, la fusion et la décision. Nous terminerons par quelques exemples de décisions élaborées sur des mesures particulières, afin d'illustrer l'ensemble de la méthode proposée. Les résultats complets seront présentés au chapitre 7.

Les mesures suivantes (Figures 5.1 et 5.2), extraites d'une même partition, serviront d’exemples tout au long de ce chapitre. Elles présentent des défauts qui font typiquement échouer

Chapitre 5

les logiciels d'OMR : une variabilité au niveau de la forme et de la position relative des symboles, des connexions parasites entre primitives, des objets dont la signification est ambiguë (les points de staccato qui peuvent être confondus avec des points de durée). Par conséquent, on peut effectivement constater dans le tableau 5.1 une forte ambiguïté des scores de corrélation, d'autant que les modèles génériques (Figure 4.1) ne sont pas très bien adaptés à la fonte de cette partition.

(a) (b) (c)

Figure 5.1 : Image source et hypothèses de reconnaissance

Mesure (a) Mesure (b) Mesure (c)

2 3 8 2 4 9 11 2 5 6 8

H0 (-)

H1 0.67 0.66 0.59 0.62 0.58 0.59 0.59 0.59 0.49 0.56 0.72

H2 0.49 0.40 0.49 0.52 0.52 0.58 0.48 0.38 0.42 0.49 0.53

H3 0.47 0.39 0.50 0.41 0.54 0.36 0.41 0.42 0.45 Tableau 5.1 : Hypothèses et scores de corrélation. L'hypothèse correcte est en gras et en italique.

(d) (e) (f) (g)

Modélisation floue