• Aucun résultat trouvé

C HAPITRE 5 : B RUIT , PAROLE , TEMPS ET MÉMOIRE

5.2/ La parole comme phénomène temporel

5.2.4/ Bruit et musique

Ce paragraphe ne se veut pas polémique envers les musiciens et nous n’aborderons donc pas la musique expérimentale. Nous évoquerons cependant ce type de musique moderne qu’est l’improvisation de jazz qui est exécutée lors de concerts, un artiste ou un band improvisant totalement un morceau en restant cependant à une distance relativement proche d’un morceau de jazz connu. Tout l’art des interprètes est, dans ce cas, de faire preuve d’imagination tout en restant dans des tonalités et dans une mélodie connues.

L’étude des similarités entre un morceau original, qui sert de référence, et une improvisation permet donc de vérifier et/ou de quantifier une distance qui est a priori très difficile à définir mathématiquement. Nous nous retrouvons en quelque sorte devant une tâche consistant à déterminer si un copyright peut restreindre ou non la diffusion d’une œuvre artistique autre que l’original. Le lecteur conviendra, j’en suis sûr, de la difficulté d’une telle tâche.

Ce problème peut être résolu mathématiquement, au moins partiellement, à l’aide d’un réseau auto-associatif récurrent (RAAM, Recursive Auto-Associative Memory). Les problèmes de mesure des similitudes, des substitutions, des élisions et des insertions ont été étudiés sous deux aspects dans [large95a] : test de ressemblance de l’improvisation à l’original (tests of well-formedness) et tests de structure de représentation (tests of representational structure). Ces tests ont bien sûr été faits sur des corpus musicaux limités avec un faible nombre de morceaux originaux. Les résultats sur ces cas restreints sont cependant de bonne qualité et viennent confirmer les hypothèses de représentation

5.2/ La parole comme phénomène temporel

réductionniste de la musique chez l’homme [dowling86]. Cette théorie prône l’idée qu’il existe un codage compact de la musique sous forme de séquences auxquelles un auditeur se réfère lorsqu’il écoute un nouveau morceau, ces représentations compactes servant de base de références à une comparaison et une éventuelle prédiction des séquences musicales auditionnées.

Des conclusions similaires ont été faites dans [mozer94]. Le but des études menées ici est de juger, subjectivement, la qualité des séquences musicales produites par un réseau de neurones récurrent (cf. figure 5.8) effectuant une tâche de prédiction à partir des notes précédentes. L’apprentissage du réseau peut être effectué sur un grand nombre de types musicaux dont un sous-ensemble des œuvres de Bach utilisées par l’auteur. Après apprentissage, le réseau est laissé libre de prédire les notes d’une séquence musicale qu’il compose en fait seul, en prenant en compte les notes prédites lors des pas de temps précédents. L’auteur observe dans ce cas un bon comportement au niveau local mais un piètre comportement au niveau global, les mélodies semblant assez “décousues”.

Figure 5.8 :L’architecture CONCERT (d’après [mozer94])

Pour améliorer le comportement de son réseau, l’auteur a mis en place un mécanisme permettant de prendre en compte la mélodie à une plus grande échelle. L’équation de mise à jour du contexte, qui correspond initialement à l’équation 5.4, est ainsi transformée en l’équation 5.5. Dans cette dernière équation, le facteurτ permet de prendre en compte le contexte précédent de manière directe. Cette prise en compte permet d’obtenir une meilleure vision globale des phénomènes en cours de production ou d’apprentissage.

(Éq. 5.4)

L’utilisation du facteurτ permet d’atténuer la rapidité du changement dans les unités de contexte. Cette rapidité de changement sera d’autant plus atténuée que le coefficient τ sera proche de 1. Ce coefficient doit cependant être déterminé par le concepteur du réseau qui doit donc analyser les séquences musicales par lui-même pour déterminer ce coefficient.

(Éq. 5.5)

Dans le domaine de la composition automatique de musique, le réseau CONCERT est jugé de manière très positive par son concepteur qui le juge supérieur à d’autres méthodes utilisant pourtant des paradigmes similaires, telles que, par exemple, la table des transitions de [lorrain80] qui

prochaine note (local)

prochaine note (global)

contexte note courante Sélecteur de note ci( )n f wijxj( )n j

vijcj(n–1) j

+ = ci( )n τici(n–1) (1–τi)f wijxj( )n j

vijcj(n–1) j

+ + =

Chapitre 5 : Bruit, parole, temps et mémoire

représente, dans une matrice, les probabilités de transition d’une note à l’autre, à la manière d’un automate probabiliste.

Plus généralement, l’audition de séquences musicales appelle quelques remarques sur la psychologie de la perception. [spender93] note que le cerveau est prédisposé à reconnaître les régularités ou l’organisation non aléatoire des structures et, ce, indépendamment de la modalité sensorielle. Un auditeur aura ainsi tendance à chercher une structure, ou une règle, et à l’impliquer inconsciemment au reste du message, une fois la structure établie. La perception sonore est cependant limitée par la mémoire à court terme ce qui rend difficile la compréhension des structures étendues. Ainsi, les palindromes musicaux sont beaucoup plus difficilement discernables alors que leur découverte ne pose généralement aucun problème dans la modalité visuelle. [spender93] voit, dans ces capacités et dans d’autres, le lien possible entre l’audition et la théorie du Gestalt [tenney80], [rock91].

D’autres études sur la perception de la musique laissent à croire que celle-ci est représentée grammaticalement par chaque auditeur en fonction de son expérience musicale propre et que ce codage influe sur l’écoute postérieure d’autres œuvres. Les quatre grandes caractéristiques de la musique, à savoir la puissance, le rythme, la hauteur et le timbre, ne sont cependant pas indépendantes les unes des autres et ne permettent pas, lorsqu’elles sont prises isolément, de définir de telles grammaires. La notion de donnée sensorielle brute, par exemple, qui permettrait de calquer directement les événements physiques du monde extérieur dans les processus cognitifs est un leurre hérité d’un réalisme pythagoricien. C’est pourtant sur cette notion que s’appuie le modèle de l’oreille de Helmholtz qui code chaque hauteur de son qu’il est possible d’observer par une fibre nerveuse différente. Des études, citées dans [spender93], montrent cependant que la perception des intervalles de temps entre les notes est influencée par la différence de fréquences, la différence de temps influant bien évidemment sur le rythme perçu. D’autres études ont montré qu’il était possible d’entendre la fréquence fondamentale malgré l’absence totale d’énergie dans sa propre fréquence, cette présence étant perçue lorsque trois ou quatre harmoniques adjacentes sont présentes.

Toutes ces connaissances ne sont cependant pas encore prises en compte dans les systèmes tentant, aujourd’hui, de modéliser la perception de la musique [carpinteiro96]. Les études en cours tentent plutôt de modéliser la perception de séquences grâce à l’utilisation conjointe des paradigmes supervisés et non supervisés comme cela peut se faire en reconnaissance automatique de la parole [chappell93], [kangas94], [durand95].

Une grammaire de perception musicale est acquise par chacun de nous, même sans aucune formation musicale et, dans ce cas, par une simple écoute d’œuvres plus ou moins classiques. Cette grammaire suppose que chaque note soit, par exemple, codée selon sa hauteur tonale et son niveau harmonique mais également suivant une fonction grammaticale, forgée au fil des expériences, qui, par exemple, permet à chacun de déceler une fausse note dans l’exécution d’une œuvre. Cette fonction grammaticale fait référence à des interactions entre les niveaux rythmiques et tonaux et étend la perception d’une œuvre à un passé et un futur très proche, à la mémoire et à l’anticipation à court terme. “Le présent, pour ainsi dire cognitivé, n’est pas une arête tranchante mais un dôme d’une certaine largeur. Assis sur lui, nous pouvons regarder dans les deux directions au même moment” [james90]. L’écoute d’une œuvre est donc toujours critique, la qualité de cette critique étant en rapport avec notre capacité et notre expérience musicales et avec la grammaire qui en découle. [lashley51] prend ainsi la musique en exemple lorsqu’il insiste sur le fait que toute activité humaine séquentielle (parole, geste, capacités motrices et perceptuelles) est basée sur une grammaire et fondée sur une organisation hiérarchique des décisions, comme cela se retrouvera plus tard dans [neisser67].

5.3/ Le bruit

5.3/ Le bruit

La reconnaissance automatique de la parole doit faire face à de nombreux problèmes. Au rang de ceux qui limitent son applicabilité et sa diffusion se trouve le problème du bruit. L’étude de la résistance des systèmes de RAP au bruit, bien que n’étant pas nouvelle [dersch63], s’est énormément développée durant ces dernières années [gong95], alors même que les systèmes conçus en laboratoire devenaient commercialisables bien qu’étant encore d’une utilisation contraignante.

D’une manière générale, ce problème peut être compris en comparant les conditions de bruit auxquelles sont soumis les systèmes de RAP développés en laboratoire, où les contraintes de bruits étaient initialement presque inexistantes, avec les conditions de bruit qui existent dans les environnements “réels”, conditions qui n’étaient pas initialement reconnues. C’est cette différence qui explique en partie les problèmes de mise en œuvre.

Cette différence est due à deux raisons distinctes. La première est l’éventuelle dégradation de la qualité de la parole, l’environnement pouvant agir négativement sur l’émetteur du message (cf. chapitre 3, figure 3.2). La deuxième et principale raison correspondant à la différence acoustique pouvant exister entre les environnements de mise au point et de mise en œuvre d’un système [stern95]. Les conditions environnementales de développement qui sont prises en compte lors de l’apprentissage peuvent en effet être assez éloignées de celles qui seront rencontrées dans l’environnement effectif d’utilisation. Cet éloignement conduit à la mise en place de techniques qui essaient, majoritairement, de débruiter le signal pour le rendre le plus proche possible d’un signal de parole tel que ceux qui ont été étudiés pendant les premières années de développement de systèmes de RAP. Ces techniques permettent de conserver les acquis des recherches déjà effectuées en laboratoire dans des environnements contrôlés tout en permettant une mise en œuvre rapide de la RAP dans des environnements acoustiquement éloignés de ceux initialement étudiés. [gong95] présente une équation permettant de résumer ces techniques de manière élégante et succincte avec l’équation 5.6. Dans cette équation, un système de RAPq ayant appris à reconnaître des phrases ou des mots d’un corpusS présentés dans un environnementα est adapté à un nouvel environnementβ

grâce à une fonctionf.

(Éq. 5.6) Cette équation est suffisament générale pour laisser la possibilité d’agir de différentes manières. Ainsi, la technique du débruitage dont nous venons de parler correspondra à une application def sur

β de manière à ce queα =f(β). Une autre technique, consistant à adapter les paramètres internes du modèle pour le rendre compatible avec la nouvelle condition de bruit, l’adaptation, peut être décrite comme l’application def surqα de manière à ce queqβ =f(qα).

Mais le débruitage et l’adaptation des modèles initiaux ne sont pas encore des techniques universellement applicables puisqu’elles sont à l’heure actuelle cantonnées au traitement des seuls bruits stationnaires. Il est donc parfois nécessaire de s’appuyer sur des techniques plus rapides et directes pour extraire directement des indices dans le signal bruité.