• Aucun résultat trouvé

Le liage perceptif, base de la formation des objets

1.3 La spécicité de l'analyse de scènes de parole

Les indices primitifs permettant le groupement et la ségrégation auditive sont nombreux dans les signaux de parole. Est-ce qu'une analyse basée sur ces primitives conduit à un groupement exact des signaux de parole ? À cette question, Remez et al. (1994) ont répondu par la négative, dans un article qui présente clairement les arguments en faveur d'une spécicité de l'analyse de scènes de parole . Rappelons-en les principaux élémRappelons-ents.

Considérant des principes primitifs proposés dans le cadre de l'analyse de scènes auditives, il est surprenant que des portions diérentes d'une même source de parole soient perçues comme cohérentes (Arons, 1992). Prenons l'exemple de la phrase Why lie when you know I'm your lawyer ? dont le spectrogramme est présenté sur la gure1.13. Dans cet exemple,Remez et al.(1994) font remarquer la présence des indices primitifs suivants : une continuité du premier formant (F1), la discontinuité dans les fréquences hautes (F2, F3 et les formants nasaux), l'absence de similarité entre les trajectoires des fréquences hautes et l'absence de coïncidence temporelle des variations de ces fréquences. Selon les principes de l'analyse de scènes auditives, F1 serait considéré comme un ux continu, F2 aurait formé un ux discontinu avec des grandes variations fréquentielles et F3 et les formants nasaux seraient également séparés avec des variations fréquentielles moins importantes que celles de F2.

Figure 1.13 : La perception de la parole et les primitives auditives. Le spectro-gramme de Why lie when you know I'm your lawyer ? . Voir le texte pour plus de détails. Figure tirée de Remez et al.(1994).

Dans cet exemple, le groupement de ces formants peut néanmoins être expliqué par le principe du destin commun proposé par Bregman (1990) dans le chapitre

tel-00565893, version 1 - 14 Feb 2011

1.3. La spécicité de l'analyse de scènes de parole 23 consacré à la perception de la parole : ces résonances en eet ont une origine com-mune, celle de la mise en forme par le conduit vocal des vibrations laryngées, ce qui impose des liens harmoniques et une modulation d'amplitude commune entre ces dif-férents formants. Ces deux indices, harmonicité et modulation commune, pourraient permettre le groupement des formants en un seul ux (Remez et al.,1994).

Dans un deuxième exemple illustré sur la gure 1.14, Remez et al. (1994) in-diquent qu'en appliquant le principe de la similarité spectrale et fréquentielle, la phrase The steady drip is worse than a drenching rain serait séparée en 10 ux distincts (voir Remez et al., 1994, pour les détails). Mais cette fois, même en ap-pliquant le principe de destin commun, utilisé dans le premier exemple, les quatre ux apériodiques correspondant aux sons fricatifs non-voisés, aux consonnes ari-quées et aux déclenchements consonantiques (release) seraient séparés du reste du spectrogramme. Cet exemple suggère que les primitives auditives ne peuvent pas expliquer la cohérence perceptive du signal de parole.

Figure 1.14 : La perception de la parole et les primitives auditives. Le spectro-gramme de The steady drip is worse than a drenching rain . Voir le texte pour plus de détails. Figure tirée deRemez et al. (1994).

L'intelligibilité des signaux sinusoïdaux de parole (sine-wave speech,Remez et al., 1981) met également en défaut l'idée de l'organisation perceptive de la parole basée sur les principes de l'analyse de scènes auditives. Les signaux sinusoïdaux de parole sont des signaux acoustiques synthétiques comprenant trois ou quatre signaux si-nusoïdaux qui reproduisent les patterns de fréquence et d'amplitude des formants des signaux naturels de parole (pour un exemple, voir gure 1.15). Remez et al.

(1994) indiquent que ni les primitives auditives ni les schémas à la Bregman ne sont capables d'expliquer l'intelligibilité des signaux sinusoïdaux de parole.

Sur la gure1.15(b), on peut constater que la cohérence temporelle permettrait, dans la plupart des cas, le regroupement des trois premières composantes sinusoï-dales. Cependant, un tel regroupement ne serait pas possible pour les composantes hautes fréquences isolées. De plus, la continuité globale de ce signal ne peut pas être

tel-00565893, version 1 - 14 Feb 2011

(a) Le spectrogramme de l'énoncé naturel Jazz and swing fans like fast music .

(b) Le spectrogramme de l'énoncé sinusoïdal Jazz and swing fans like fast music .

Figure 1.15 : Signal de parole naturel et son équivalant sinusoïdal. Figures tirées de Pardo et Remez(2006).

assurée par les principes de l'analyse de scènes auditives.

Est-ce qu'une analyse basée sur les schémas peut corriger cette prédiction ? L'hy-pothèse de l'implication des schémas dans la perception des signaux sinusoïdaux de parole n'est pas cohérente avec la dénition des schémas. Nous rappelons que les schémas sont les patterns stockés en mémoire dont la formation est basée sur les expériences antérieures des individus. Malgré l'intelligibilité des signaux sinusoïdaux de parole, ces signaux ne ressemblent pas aux signaux de parole et ils ne sont pas per-çus comme de la vraie parole. A l'issue d'une série d'expériences sur les signaux sinusoïdaux de parole,Remez et al.(1994) concluent que la parole est spécique et proposent que d'autres principes que ceux de l'analyse de scènes auditives sont à la base de l'organisation perceptive de la parole et de la construction d'un objet spé-cique de la perception auditive (et d'ailleurs multisensorielle, nous y reviendrons) que l'on peut dénommer objet parole . Nous utiliserons à partir de maintenant à dessein ce terme d'objet parole , pour référer à ce qui est l'unité de traitement de la perception de la parole, et pour bien insister sur un ingrédient essentiel de cette thèse, l'idée que ces unités sont construites dans la perception par des mécanismes de constitution des objets impliquant des processus de liage généraux ou spéciques, que nous cherchons à mettre au net. En retour, et c'est un autre ingrédient essentiel de cette thèse, nous considérons que la nature même de ces objets sera révélée ou en tout cas éclairée par la nature des processus de liage qui leur donnent forme dans la cognition humaine.

L'objet parole a été historiquement considéré soit comme un objet auditif (théo-ries auditives de la perception de la parole) soit comme un objet de nature motrice

tel-00565893, version 1 - 14 Feb 2011

1.4. Conclusion 25 (théories motrices de la perception de la parole). Selon les théories auditives, les connaissances sur la façon dont les sons sont produits par le système articulatoire ne sont pas nécessaires pour la perception des sons. En revanche, les théories mo-trices considèrent que les objets parole sont des gestes articulatoires et non des objets auditifs. Du point de vue théorique, Remez et collègues inscrivent leur article sur la spécicité de l'organisation perceptive de la parole, dans le cadre des théories motrices de la perception de la parole proposant une indépendance entre l'analyse de scènes auditives et l'organisation phonétique (Remez et al., 1994, p.151). Nous étudions les diérentes théories sur la perception de la parole dans la section 2.1.

1.4 Conclusion

Nous avons vu dans ce chapitre les diérents mécanismes, tant neuronaux que cognitifs, qui pourraient être à la base du liage perceptif en vision et en audition, et par là, responsables de la construction de l'objet visuel et l'objet auditif. Quant au liage perceptif en parole, nous avons présenté quelques éléments montrant sa spécicité par rapport aux mécanismes du liage auditif. En eet, nous avons vu que l'objet parole serait basé à la fois sur des principes auditifs généraux (primitives auditives et schémas mémorisés) et des principes phonétiques propres. Utilisant les termes proposés parBregman, ces principes phonétiques spéciques pourraient être considérés soit comme des primitives perceptuo-motrices soit comme des schémas phonétiques. Nous reviendrons sur ce point dans le chapitre 2 en présentant des éléments de réponses théoriques à la question de la nature de l'objet parole et des mécanismes de l'analyse de scène de parole. Mentionnons à ce point de notre parcours théorique que l'on constate bien à ce stade l'intérêt de reposer les questions sur la nature des objets de la perception de la parole à la lumière des paradigmes de structuration perceptive du type de l'analyse de scènes auditives, et d'autres sur lesquels nous reviendrons dans le chapitre 3.

tel-00565893, version 1 - 14 Feb 2011

Chapitre 2