Manipulation de l’intelligibilité

CHAPITRE I. Introduction théorique

D. La parole dégradée

D.2. Manipulation de l’intelligibilité

D.2.1. Intelligibilité et compréhension

Il a été démontré à plusieurs reprises que le langage parlé reste intelligible, dans une certaine mesure, malgré certaines détériorations acoustiques (Moore, 2004). Nous allons en voir plusieurs exemples dans cette partie. Il est possible d’appliquer au signal des dégradations de hauts niveaux : par exemple des dégradations sémantiques ou syntaxiques ; mais on peut également dégrader les composantes de bas niveaux, en modifiant la fréquence de la voix ou les caractéristiques temporelles du signal de parole. L’intelligibilité d’un signal de parole dégradé est mesurable. Il est possible d’avoir accès à cette mesure en enregistrant les réponses d’un auditeur qui effectue une tâche de perception de parole dégradée et qui répète ou transcrit ce qu’il a entendu.

D.2.2. L’illusion de continuité et la restauration phonémique

Les travaux de Warren (1970) montrent que le remplacement d’un phonème par un bruit ne perturbe pas la compréhension du mot détérioré. Il s’agit du phénomène de « l’illusion de continuité ». En situation expérimentale, les auditeurs sont incapables d’identifier quel était le segment perturbé. Plus encore, Warren a montré que les auditeurs ne font aucune différence

entre une séquence de parole dans laquelle un phonème a été remplacé par du bruit d’une séquence de parole dans laquelle on a superposé du bruit au phonème. La perception de ce phonème absent est appelée « phénomène de restauration phonémique ».

Lorsque la détérioration porte sur un phonème ambigu, le contexte phrastique influence la récupération du phonème manquant (Warren & Warren, 1970). Par exemple, si l’auditeur n’entend que le stimulus *eel dont le premier phonème est détérioré, le mot peut être perçu comme étant meel, wheel, heel ou peel, cependant si le contexte phrastique est : « The *eel was on the table », les auditeurs déclarent avoir entendu meel. L’effet attracteur du lexique se manifeste ici par la mise en jeu des connaissances phonologiques et sémantiques. De même, dans une tâche de détection de phonèmes, Cutler, Mehler, Norris & Segui (1987) ont montré qu’un même phonème est détecté plus facilement dans un mot que dans un non-mot. Lorsque le contexte de réalisation du phonème forme un ensemble doté de sens (un mot) le traitement phonémique est plus rapide et la perception du phonème cible est facilitée. Cet effet de

« lexicalité » est plus important lorsque le phonème à détecter se trouve en fin de mot (Frauenfelder, Segui & Dijkstra, 1990). D’autres exemples d’études montrant un effet du contexte sur la perception de phonèmes ont été cités dans le Chapitre I. dans le paragraphe portant sur l’influence du lexique mental sur la perception de la parole, notamment les études de Samuel (1997) et d’Elman & McClelland (1988).

Selon Ellis (1998), les phénomènes tels que l’illusion de continuité ou la restauration phonémique montrent que le cerveau est capable d’utiliser les indices du contexte pour interpréter et décrypter des ensembles sonores complexes. Ces travaux, utilisant une dégradation de petite taille (un phonème seulement), montrent que le système est capable de passer outre la dégradation pour aboutir à la compréhension du message parlé. Il s’agirait en quelque sorte d’un mécanisme de « réparation » de la portion de signal altérée, afin de ne pas gêner l’intelligibilité.

D.2.3. Différentes dégradations artificielles

Il existe de multiples façons de dégrader artificiellement le signal de parole. Ces procédés ont émergé avec l’utilisation courante de l’informatique et notamment des logiciels de manipulation de la parole (Moore, 2004). Aujourd’hui on est capable d’appliquer n’importe quelle distorsion au signal, ou même de créer entièrement artificiellement de la parole. Nous allons présenter ici quelques exemples de dégradations artificielles possibles.

Cette liste ne se veut pas exhaustive, mais à pour but de représenter ici quelques exemples de dégradations utilisées dans les études récentes sur la parole.

En 2003, Davis et Johnsrude ont utilisé trois types de distorsion du signal pour tenter de fractionner le système de compréhension de la parole en différents niveaux de traitement hiérarchisés. Ces trois types de dégradation ont été réalisés grâce au logiciel Praat. À l’intérieur de ces trois distorsions les auteurs ont choisi trois niveaux d’intelligibilité (mesurée par le nombre de mots correctement restitués) de façon à générer un continuum d’intelligibilité. Ils ont également enregistré l’activation des aires cérébrales du langage spécifiquement à chaque type de dégradation en couplant leur étude comportementale à une étude en IRM fonctionnelle. Leurs travaux montrent d’une part la capacité du système langagier à restaurer de la parole dégradée et d’autre part l’existence de structures qui pourraient être impliquées dans la compensation de la distorsion.

D.2.3.1. La parole segmentée

Ce type de détérioration mis au point par Bashford, Warren & Brown (1996) consiste à alterner des portions de signal de parole intactes avec un signal bruité, dit SCN (Signal Correlated Noise), dont l’enveloppe spectrale et l’amplitude sont identiques à ceux du signal de parole initial, mais qui n’est constitué que de bruit. Le SCN ne contenant aucune information linguistique, aucun mécanisme de compréhension n’est sollicité. Des portions de 200 ms de signal de parole intact sont alternées avec des portions de SCN d’une durée de 100, 200 ou 500 ms. Ce type de matériel a permis aux auteurs de mettre en évidence des aires cérébrales spécialisées dans le traitement des changements spectraux rapides.

D.2.3.2. Le vocoded speech

Le « vocoded speech » ou parole « vocodée » (Shannon, Zeng, Kamath, Wygonski &

Ekelid, 1995) est un signal de parole filtré en fréquence grâce à des filtres passe-bande. Les signaux de parole sont tout d’abord divisés en bandes de fréquence. Dans chaque bande de fréquence, l’enveloppe de l’amplitude est extraite et utilisée pour moduler en amplitude un enregistrement de bruit dans la même bande de fréquence. Ensuite, le vocoded speech est synthétisé en combinant ensemble les différentes bandes de fréquence du bruit modulées en amplitude. La parole vocodée a été mise au point par l’équipe de Shannon pour simuler la perception du langage par un implant cochléaire. Ce type de dégradation donne une impression de voix de robot. C’est une situation de perception très complexe.

D.2.3.3. La parole dans le bruit

La parole dans le bruit a été générée en additionnant en bruit de fond un spectre de parole continu à trois niveaux de rapport signal sur bruit (-1, -4 ou -6 dB). L’amplitude globale de chaque stimulus de parole dans le bruit a été contrôlée de façon à correspondre à l’amplitude du signal de parole d’origine.

Grâce à ces trois conditions expérimentales, Davis et Johnsrude mettent en évidence une continuité dans la perte d’intelligibilité sur les trois types de distorsion appliqués au signal et des traitements cognitifs différentiels selon le type de détérioration utilisé. Plus la dégradation est importante, plus l’intelligibilité diminue. De plus, chaque type de détérioration semble activer des zones cérébrales différentes, selon le processus de compréhension qu’elle met en jeu (traitement temporel rapide, reconstruction sémantique, etc.). D’autres types de distorsion ont été mis au point spécifiquement pour répondre à certains critères expérimentaux. C’est le cas par exemple du « rotated speech » (Scott, Blank, Rosen & Wise, 2000).

D.2.3.4. Le rotated speech

Le « rotated speech » (Scott, et al., 2000) consiste à effectuer une inversion spectrale de la parole. Il conserve certains traits phonétiques et l’intonation de la voix. Les auteurs ont créé cette dégradation car ils avaient spécifiquement besoin d’un signal de parole d’intelligibilité variable mais de complexité acoustique équivalente à celle d’un signal de parole original.

Grâce à cette distorsion, ils ont mis en évidence une nouvelle voie dans le lobe temporal pour la compréhension de la parole.

La parole est un signal auditif des plus complexes, dont la compréhension nécessite de multiples traitements. Le cerveau humain consacre une place très importante aux aires dévolues au déchiffrage du message parlé ainsi qu’à la séparation de flux de paroles issus de voix concurrentes. Les travaux de recherche présentés ici, ont pour but d’étudier l’intelligibilité comme indice de la compréhension du message verbal. Nous avons donc détérioré artificiellement des signaux de parole de façon à observer la perte d’intelligibilité, la mesurer, et analyser les mécanismes de résistance que le système langagier met en place face à cette perte d’intelligibilité. Pour nos expériences, nous avons utilisé deux types de dégradations artificielles : la parole inversée et la parole dans la parole.

Nous allons à présent détailler séparément ces deux types de dégradation, exposer plusieurs travaux de la littérature les utilisant et expliquer dans quel but nous les avons choisis parmi l’ensemble des dégradations artificielles possibles.

Dans le document L A RECONSTRUCTION COGNITIVE DE LA PAROLE DÉGRADÉE : (Page 48-52)