• Aucun résultat trouvé

Représenter des distances perceptives

1.4 Compléments d'analyses (2/2) : modèle de distance auditive

1.4.1 Représenter des distances perceptives

Dans un grand nombre d'études perceptives, l'objectif est de faire la corres-pondance entre deux mesures de distances : celle calculée entre des stimuli, et celle mesurée par des moyens expérimentaux pour évaluer des capacités cogni-tives (e.g. mesures comportementales, mesures cérébrales). Dans le cas du timbre d'instruments de musique par exemple, les auteurs ont débattu sur l'ensemble des meilleurs corrélats acoustiques pouvant expliquer les données perceptives repré-sentées dans des espaces de timbre multidimensionnels (e.g. Grey, 1977).

L'analyse des mesures expérimentales (comportementales, cérébrales) sont gé-néralement l'objet central d'une étude, à travers l'observation de diérences signi-catives entre des données expérimentales quantiées sur des échelles prédénies. En revanche, la caractérisation précise des stimuli est laissée davantage à la guise des expérimentateurs. Il arrive même que les stimuli soient si bien égalisés qu'on ne trouve pas de dimensions acoustiques les séparant, alors qu'on observe pourtant des diérences comportementales ou cérébrales signicatives, ce qui peut seule-ment laisser suggérer un traiteseule-ment auditif complexe (e.g. Murray et al., 2006). Néanmoins, les stimuli restent à l'origine des résultats expérimentaux et doivent nécessairement présenter des diérences acoustiques pour générer ces diérences perceptives (en faisant l'hypothèse que les autres conditions expérimentales sont contrôlées par ailleurs).

expéri-mentaux : la caractérisation des stimuli, et le lien entre cette caractérisation et les données expérimentales. Calculer des distances (qui peuvent s'exprimer en unités arbitraires) entre ces données permet de les comparer indépendamment de leur provenance (voir aussi Kriegeskorte et al., 2008). On décrit ci-dessous plusieurs stratégies pour calculer des distances entre des stimuli, ainsi que pour faire le lien entre des distances de diérentes natures (e.g. entre des stimuli et des données expérimentales ou issues de modélisations).

Calculs de distances entre des stimuli sonores.

Distances entre percepts auditifs dans un espace de timbre multidi-mensionnel. Les études de timbre classiques révèlent des corrélats acoustiques de dimensions d'un espace perceptif multidimensionnel où sont représentés les sons testés, distants les uns des autres en fonction de leur similarité perçue. Mis-dariis et al. (1998) ont proposé de résumer les corrélats acoustiques du timbre dans une seule mesure de distance perceptive. Pour cela, les auteurs ont utilisé le CGS (SC, en Hz), le temps d'attaque logarithmique (LT, en log(s)), l'irrégularité de l'enveloppe spectrale (SI, en dB), et le ux spectral (SF, sans unité). La dis-tance perceptive DIST résulte du calcul de la disdis-tance euclidienne entre les stimuli perçus et répartis dans l'espace multidimensionnel obtenu expérimentalement :

DIST =√

3.5385 · 10−5· SC2+ 15.5236 · LT2+ 0.01188 · SI2+ 2728.7 · SF2.

Elle permet notamment d'observer le poids que prend chaque corrélat acoustique dans la perception de la similarité entre paires de stimuli. Par exemple, le poids du CGS est très faible comparé à celui du ux spectral. Cette mesure semble décou-ler assez naturellement des résultats des études de timbre et pourrait permettre d'estimer la reconnaissabilité d'un ensemble de stimuli auditifs. Elle ne semble pourtant pas avoir été proposée ailleurs, probablement car ces estimations restent fortement dépendantes des stimuli utilisés dans le test perceptif, ainsi que des propositions de corrélats acoustiques qui varient entre les études sur le timbre.

carac-de Kolmogorov-Smirnov entre les paires carac-de bins temps-fréquence (86 Hz×5.8 ms) des spectrogrammes moyens de chacune des deux catégories sonores testées (ob-jets vivants et ob(ob-jets fabriqués). Les seules diérences signicatives sont sur des durées courtes, 125 ms après le début du son, et pour des fréquences supérieures à 4 kHz. Dans leurs analyses acoustiques, les auteurs complètent ce test par un test sur le HNR moyen de chaque catégorie, qui n'est pas signicatif. Selon les auteurs, ces analyses de caractéristiques bas-niveaux ne susent pas à expliquer les diérences de traitements cérébraux de chacune des deux catégories testées. Des analyses comparables ont également été utilisées dans d'autres études (e.g. Charest et al., 2009 ; De Lucia et al., 2010).

Cependant, les conclusions données à partir de tests statistiques comparant des spectrogrammes acoustiques sont parfois quelque peu hâtives, puisque les seuils perceptifs pour diérencier des caractéristiques acoustiques ne relèvent pas de seuils statistiques prédénis (e.g. valeur p < 0.05). D'autant moins que les re-présentations acoustiques utilisées pour réaliser ces tests ne tiennent pas compte des transformations non-linéaires du traitement auditif, susceptibles d'élargir les diérences entre les représentations des sons, qui pourraient dès lors devenir si-gnicatives avec le même critère statistique choisi.

Distances entre représentations auditives. Des mesures de distances auditives, sur des représentations reproduisant des traitements auditifs, devraient permettre d'approcher davantage les résultats perceptifs. Pour identier les méca-nismes cérébraux sous-jacents à la discrimination des sons naturels, Woolley et al. (2005) ont comparé les propriétés d'accord spectro-temporel de neurones auditifs chez une espèce d'oiseaux en fonction du contenu statistique de sons naturels. Les vocalisations, en particulier, permettent de communiquer ecacement et se dis-tinguent des autres sons. Pour faciliter cette discrimination auditive, les neurones auditifs de haut-niveau semblent maximiser les diérences acoustiques entre les sons.

Pour valider cette hypothèse, les auteurs ont quantié la discriminabilité cé-rébrale d'après la répartition des modulations spectro-temporelles sur un spectre de modulation. Ces réponses cérébrales sont obtenues pour des segments de sons de 100 ms en convoluant chaque stimulus avec un ensemble de STRFs et

com-parées entre elles par des distances euclidiennes. Les auteurs ont montré que les distances calculées sont discriminantes entre les réponses cérébrales de diérentes catégories sonores (chants d'oiseaux, parole humaine, sons environnementaux) et aussi entre celles pour diérents sons d'une même catégorie, grâce à un mécanisme d'extension des diérences acoustiques entre les catégories sonores à travers les modulations fréquentielles, tandis que l'information redondante est supprimée.

Dans le cas de la perception auditive humaine et pour modéliser des perfor-mances issues de tâches auditives complexes, certains auteurs préfèrent utiliser des représentations de la périphérie auditive pour lesquelles les résultats de la littérature ont été répliqués et validés. Par exemple, Giordano et al. (2010) ont comparé des jugements de dissemblances entre des sons avec des distances eu-clidiennes calculées entre des spectrogrammes auditifs (30 bandes fréquentielles en tiers d'octaves réparties sur une échelle logarithmique). Les deux mesures cor-rèlent signicativement entre elles, bien que faiblement (environ 0.3), mais plus qu'avec une mesure de distance sémantique, sachant que c'est cette comparaison entre distances acoustique et sémantique qui intéresse les auteurs.

Pour modéliser la perception de sons courts, Bigand et al. (2011) ont réa-lisé une analyse sur les patterns d'excitation (i.e. puissance RMS calculée sur 80 bandes fréquentielles) des stimuli par catégorie sonore (voix, musique, sons envi-ronnementaux). Après quoi, une analyse en composantes principales leur a permis de repérer les bandes fréquentielles contribuant le plus aux diérences auditives calculées (celles centrées sur 247 et 1000 Hz), puis de répartir les sons dans l'es-pace des composantes principales. A la fois les distances entre les sons d'une même catégorie (plutôt faibles) et les distances entre les sons de diérentes catégories (plutôt élevées) contribuent à la modélisation des données perceptives.

Agus et al. (2012) ont également proposé une mesure de distance auditive sur la base d'une représentation auditive périphérique (STEPs ; Moore, 2003). Les stimuli, des sons de voix et d'instruments, sont égalisés pour ne laisser que les indices du timbre pour réaliser la tâche de reconnaissance auditive proposée. Les voix sont reconnues plus rapidement que les instruments. Les auteurs n'en restent pas à l'observation de ces diérences perceptives en fonction des catégories sonores malgré l'égalisation des stimuli. En eet, leur calcul de distance auditive permet de constater que les temps de réaction pour la voix sont toujours rapides, et ce, quelle

que soit la distance auditive par rapport aux distracteurs, tandis que les temps de réaction pour des sons d'instruments dépendent de cette distance. Les conclusions sont plus convaincantes lorsque sont proposées des origines possibles ayant pu induire les diérences perceptives, plutôt que lorsqu'elles suggèrent seulement un traitement auditif complexe.

Correspondance entre diérents types de distances expérimentales. L'intérêt des mesures de distances auditives est particulièrement manifeste dans le cas des études de neuroimagerie ou de neurophysiologie cherchant à faire le lien entre des stimuli ou des mesures comportementales et des mesures d'activité cérébrale (e.g. Halpern et al., 2004 ; Zatorre et al., 2004 ; Formisano et al., 2008 ; Kriegeskorte et al., 2008 ; Staeren et al., 2009 ; Patil et al., 2012 ; Giordano et al., 2013). L'objectif de ces études est généralement de déterminer quelle information est encodée dans les patterns d'activité cérébrale. La tâche des participants se résume généralement à écouter passivement les sons, donc les résultats dépendent principalement des sons (en comparaison à des études mettant en ÷uvre des tâches comportementales plus élaborées).

Kriegeskorte et al. (2008) ont proposé un cadre d'analyse assez général, l'lyse de similarité représentationnelle (RSA, pour representational similarity ana-lysis), pour faire la correspondance entre des mesures d'activité cérébrale, des mesures comportementales, et des modélisations computationnelles. La RSA met donc en commun diérentes modalités de mesures, mais aussi diérents partici-pants ou espèces animales. Elle passe par l'abstraction de l'information d'une re-présentation donnée dans des matrices de dissimilarité rere-présentationnelle (RDM, pour representational dissimilarity matrix).

Les auteurs ont appliqué la RSA à des mesures issues de données IRMf ainsi que de modèles computationnels, et correspondant à des représentations d'objets visuels. Cette technique permet ainsi de comparer des patterns d'activité cérébrale à travers une RDM en fonction des conditions testées (Figure 27). Diérentes matrices peuvent ensuite potentiellement être comparées, par exemple à l'aide de corrélations, pour diérents types de mesures de l'activité du système nerveux central (IRMf, EEG, MEG, etc.) ou issues de modèles computationnels.

l'ap-Figure 27  Calcul de la matrice de dissimilarité représentationnelle (RDM). Pour chaque paire de conditions expérimentales, les patterns d'activité associés (mesurés à partir de l'activité cérébrale ou issus d'un modèle) sont comparés par corrélations spa-tiales. Les mesures de dissimilarités entre toutes les paires sont rassemblées dans la RDM. Un graphique de similarité peut permettre de visualiser la représentation d'un petit nombre de conditions (en haut à droite). Source : Kriegeskorte et al. (2008).

partenance cérébrale de percepts auditifs à des catégories sonores (voir aussi For-misano et al., 2008 ; Staeren et al., 2009). Les auteurs mesurent la diérenciation des représentations corticales en réponse à des catégories sonores en fonction de la diversité des stimuli. L'analyse consiste à associer des RDMs avec des matrices de dissemblance de caractéristiques de stimuli (SDMs, stimulus-feature dissimi-larity matrices). Avec leurs stimuli très hétérogènes, les auteurs ont pu tester 12 SDMs bas-niveaux basées sur le niveau sonore, le CGS, la hauteur, et le HNR, et 12 SDMs catégorielles basées sur le caractère vivant ou non, humain ou non, vocal ou non, des sons. La RSA de la sélectivité corticale a permis de mettre en évidence un encodage de certaines caractéristiques bas-niveaux et un encodage abstrait de certaines catégories sonores. L'utilisation de stimuli naturels riches en composantes spectro-temporelles permet ainsi de tester la sensibilité corticale à des diérences acoustiques bas-niveaux, pouvant impliquer des recouvrements d'activations corticales (Giordano et al., 2013).

1.4.2 Construction du modèle de distance auditive entre catégories