• Aucun résultat trouvé

4. Méthodes psychoacoustiques pour l’identification des indices acoustiques de la parole

4.3. L’analyse des matrices de confusion

Dans les expériences décrites précédemment, la compréhension du son de parole dégradé est mesurée uniquement en termes de pourcentages de reconnaissances correctes. Cependant, l’examen des différents types d’erreurs commises par les auditeurs permet une analyse plus fine des mécanismes en jeu. En particulier, le dénombrement des confusions qui peuvent survenir lors de la compréhension de parole bruitée amena à constater que celles-ci ne sont pas équiprobables pour tous les phonèmes (Miller & Nicely, 1955). Le caractère récurrent de certaines erreurs par rapport { d’autres nous renseigne sur les traitements effectués par le système pour différencier ces sons. Une confusion privilégiée entre deux phonèmes traduit le fait que ceux-ci sont « perceptivement proches » et donc partagent probablement des caractéristiques acoustiques primordiales pour l’identification, prêtant ainsi plus aisément à confusion (Allen, 2005).

L’étude des confusions suppose une tâche de compréhension de la parole durant laquelle des enregistrements de nombreux phonèmes sont présentés à des participants qui tentent de les identifier en choix ouvert (c’est-à-dire sans être astreints à choisir parmi un petit nombre de réponses prédéfinies). Par exemple, dans une expérience fondatrice, Miller et Nicely demandèrent à 5 participants de reconnaître différents enregistrements de syllabes CV composées d’une consonne variable (/p/, /t/, /k/, /f/, /θ/, /s/, /∫/, /b/, /d/, /g/, /v/, /δ/, /z/, /ʒ/, /m/ ou /n/) et d’une voyelle fixe (/a/) (Miller & Nicely, 1955). Plusieurs productions de chaque syllabe par différents locuteurs étaient présentées dans un bruit blanc (pour un total de 250 stimuli en moyenne pour chaque phonème). Le même genre de tâche relativement naturelle fut réalisée dans différents types de bruit : bruit blanc (Benkí, 2003; Miller & Nicely, 1955;

Phatak et al., 2008), bruit naturel (Meyer et al., 2010, 2013), bruit de spectre équivalent à celui de la parole (Phatak & Allen, 2007; Trevino & Allen, 2013), ou parole concurrente (Varnet et al., 2012b). Une fois collectées les réponses de tous les participants, il est possible de les représenter sous la forme d’une matrice de confusion, chaque ligne (i) correspondant à un phonème présenté et chaque colonne (j) à un phonème répondu (voir un exemple Figure 16). Chaque coefficient Cij de la matrice correspond alors au nombre de présentations du phonème i ayant donné lieu à la réponse j. Quand les conditions d’écoute sont idéales, la matrice est diagonale (la présentation du phonème i entraînant invariablement la réponse i). Au contraire quand le son est entièrement inaudible, et en l’absence de tout biais intrinsèque de l’auditeur, les réponses deviennent purement aléatoires et la matrice de confusions tend donc vers une matrice constante.

Entre ces deux situations, on observe une répartition particulière des erreurs de reconnaissance. Ainsi dans chacune des études psycholinguistiques ci-dessus, plusieurs niveaux de bruits furent testés, correspondant { différents SNR. L’étude de Miller et Nicely, menée avec des SNRs de (-18 dB, -12 dB, -6 dB, 0 dB, +6 dB et +12 dB) donne donc lieu au tracé de 6 matrices, chacune correspondant aux confusions ayant lieu pour

64

un niveau de bruit spécifique. La Figure 16 présente la matrice correspondant au SNR de -6 dB.

Figure 16 - Exemple de matrice de confusion de consonnes dans un bruit blanc à -6 dB SNR.

Les phonèmes sont organisés par traits phonologiques. Les pointillés marque la séparation entre consonnes non voisées, voisées et nasales, et entre occlusives et fricatives. Adapté de (Miller & Nicely, 1955).

Deux constatations s’imposent { la lecture de cette matrice. D’une part, certains phonèmes sont plus robustes au bruit que d’autres (notamment /f/, /∫/, /m/ et /n/) comme l’indique le nombre de réponses correctes sur la diagonale. D’autre part, certaines confusions sont plus fréquentes, en particulier entre les membres des trois groupes de confusion {/p/, /t/, /k/, /f/, /θ/, /s/, /∫/}, {/b/, /d/, /g/, /v/, /δ/, /z/, /ʒ/}

et {/m/, /n/}, tandis que les confusions entre des phonèmes appartenant à deux groupes différents sont extrêmement rares. On remarque que ces groupes, définis par les confusions, coïncident avec certains traits phonologiques (marqués par des pointillés sur la Figure 16). Ainsi le premier groupe contient-il toutes les consonnes non voisées, le second les consonnes voisées non nasales, et le troisième les consonnes nasales. Qui plus est, on constate l’existence de sous-groupes correspondant à la distinction entre occlusives et fricatives. En résumé, une confusion a plus de chance de se produire entre deux consonnes partageant un grand nombre de traits distinctifs (comme /p/ et /k/ qui diffèrent uniquement par leur point d’articulation) qu’entre deux consonnes opposées sur de nombreux traits (comme /p/ et /n/ qui diffèrent à la fois du point de vue du voisement, de la place et de la nasalité). Cette observation confère donc une validité perceptive aux traits phonétiques, définis { l’origine uniquement sur la base de critères articulatoires. Ils semblent être transmis indépendamment puisque les confusions

65

portent rarement sur plusieurs traits simultanément. Cependant la correspondance entre les traits phonologiques et les groupes apparaissant sur la matrice n’est pas exacte : par exemple, les nasales semblent avoir ici le même statut que les non voisées et les voisées non nasales (Allen, 2006). Cette observation encouragea les chercheurs à délaisser la classification phonologique des phonèmes pour en définir une nouvelle, basée uniquement sur les données de perception rassemblées dans la matrice de catégorisation.

Les régularités observées au sein des erreurs commises par les auditeurs offrent une mesure indirecte de la « distance perceptuelle » entre chaque paire de phonèmes (Johnson, 2011; Mermelstein, 1976) : deux phonèmes proches donneront souvent lieu à des confusions, tandis que deux phonèmes éloignés ne seront confondus qu’{ des niveaux de bruit très élevés. Cette interprétation est assez séduisante car elle conduit naturellement à positionner les phonèmes dans un espace perceptuel. Cependant, les méthodes de regroupement hiérarchique (hierarchical clustering) ou d’Analyse en Composante Principale, employées pour grouper les phonèmes d’après la matrice de confusion, sont complexes et ne garantissent pas une solution unique (Baayen, 2008;

Hastie et al., 2001; Johnson, 2011; Phatak & Allen, 2007). Un autre problème plus fondamental se pose : { la différence d’une matrice de distances, la matrice de confusion n’est pas symétrique. Ainsi un /s/ est plus souvent pris pour /z/ qu’un /z/ pour un /s/

et, de manière générale, on observe un biais des réponses en faveur des consonnes voisées et des voyelles antérieures. Dès lors, il semble plus correct d’interpréter cette matrice dans le cadre de la Théorie de l’information de Shannon, comme proposé par (Allen, 1994). En divisant chaque ligne par le nombre total de présentations de chaque stimulus, nous obtenons une matrice de probabilités conditionnelles (probabilité de la réponse j sachant que le stimulus i a été présenté). Elle est appelée matrice de transition du canal discret, dont la capacité peut ensuite être décrite dans le cadre théorique proposé par Shannon (Palm, 2012).

Un problème subsiste néanmoins. La quantité importante de données collectées (N possibilités de réponse à chacun des N phonèmes présentés, pour chaque participant et chaque niveau de bruit) rend la lecture directe des matrices difficile. D’une part l’ordre arbitraire dans lequel sont représentés les phonèmes au sein de la matrice influe grandement sur la clarté des groupes de confusion : ces derniers, évidents sur la Figure 16, seraient bien moins lisibles avec une organisation différente des consonnes. D’autre part, la répartition des confusions dans la matrice présente une évolution avec le niveau de bruit, certains groupes de confusion étant plus marqués pour des niveaux de bruit faibles, d’autres pour des niveaux de bruit importants. Ce manque de transparence de la matrice de confusion en fait un outil limité pour l’exploration détaillée des erreurs commises par le système auditif lors de la perception.

66