• Aucun résultat trouvé

Esquisses auditives : analogies avec la vision

2.2 L'esquisse auditive

2.2.2 Esquisses auditives : analogies avec la vision

Essence et saillance. Selon Harding et al. (2007), l'essence d'un stimulus cor-respond à l'ensemble des représentations construites pendant la perception per-mettant de déterminer son contenu pour le reconnaître. Le traitement de l'essence serait initial et rapide, permettant de déployer a posteriori l'attention pour une analyse détaillée des parties signiantes avec cette connaissance a priori. En vi-sion comme en audition, le système perceptif capterait une essence globale plutôt que de traiter séparément des caractéristiques physiques bas-niveaux (voir aussi Navon, 1977).

Plusieurs résultats de la littérature semblent appuyer cette hypothèse dans les deux modalités visuelle et auditive. Par exemple, avec des paradigmes de pré-sentation sérielle et rapide de stimuli, des auteurs montrent que des catégories basiques sont reconnues très rapidement en vision (e.g. Buat et al., 2013) ou

en audition (e.g. Suied et al., 2013a)10. L'extraction de l'essence se ferait donc

de façon très rapide et pré-attentive, dans les premières 100 ms du stimulus (cf. Harding et al., 2007). Des phénomènes de surdité au changement, analogue de la cécité au changement en vision, ont été mis en évidence par Vitevitch (2003), qui monte que des participants qui doivent répéter des mots ne remarquent pas que le locuteur change au milieu de la tâche. Des études sur l'eet pop-out (la reconnaissance d'une cible parmi des distracteurs indépendamment du nombre de distracteurs), en vision comme en audition, ont aussi permis de montrer un traitement ecace de l'information avec la détection et la focalisation sur des ca-ractéristiques saillantes, tandis que le reste de l'information n'est pas traité dans le détail (e.g. Klein & Stolz, 2015). Le cas des textures, décrit précédemment, est un autre exemple similaire de traitement de l'invariance globale ignorant les détails visuels ou auditifs (voir aussi King & Nelken, 2009).

L'essence transmet les contours généraux du son pour le reconnaître rapide-ment. On peut donc l'interpréter comme une forme réduite de la saillance auditive,

10. Ces questions sur les capacités de reconnaissance rapide avec peu d'information auditive ont été traitées expérimentalement à l'aide d'un paradigme de présentation auditive séquentielle et rapide (cf. section II.2).

qui doit déterminer les évènements importants d'une scène sonore (Kayser et al., 2005 ; Tsuchida & Cottrell, 2012). Kayser et al. (2005) ont relevé plusieurs ca-ractéristiques bas-niveaux (e.g. intensité, contrastes fréquentiel et temporel) qui seraient susceptibles de biaiser l'attention à un stade précoce du traitement vers ces traits auditifs perçus comme saillants, de la même façon qu'en vision (e.g. orientation, intensité, couleur ; Livingstone & Hubel, 1988 ; Itti et al., 1998). A partir de ces caractéristiques, les auteurs ont créé des cartes temps-fréquence ba-sées sur des modèles auditifs pour mettre en évidence la saillance auditive et prédire la détectabilité d'évènements dans du bruit ou décrire l'importance po-tentielle d'un stimulus sur notre perception. Dans une tâche comportementale, des participants comparent la saillance de scènes auditives complexes. Le modèle prédit bien les notations humaines de la saillance, qui ne s'explique pas unique-ment avec une variation d'intensité sonore. En comparant leurs résultats à ceux en vision, les auteurs en déduisent que les diérents systèmes sensoriels doivent être basés sur des principes communs de détection d'évènements. Ce guidage attention-nel permettrait un traitement spécique des évènements saillants. Inversement, le traitement du détail, non-perçu initialement, nécessiterait de se focaliser dessus par l'attention, voire grâce à un entraînement (Lively et al., 1994). Toutefois, ces résultats en audition concernent des stimuli de longues durées : la saillance conduit un mécanisme attentionnel à détecter un évènement dans une scène auditive. On s'interroge ici sur les composantes primordiales qui ont conduit à la formation d'un même objet auditif et donc à sa reconnaissance.

Saisir l'essence dans une esquisse. De tout temps, les hommes ont capté les traits essentiels de leur environnement pour les reproduire dans des représenta-tions visuelles (Cavanagh, 2005). Malgré la diversité des ÷uvres d'art à travers les âges, Cavanagh (2005) note que même des peintures abstraites récentes peuvent transmettre un sens de l'espace commun avec celui d'÷uvres plus anciennes. En eet, un peintre ne se base pas sur les lois de la physique pour reproduire une scène visuelle mais sur sa compréhension perceptive de cette scène. Cette physique al-ternative, avec des ombres, des couleurs, ou des contours irréels voire impossibles, est plus simple pour comprendre le monde. L'artiste reproduit sa perception du monde. Surtout, cette physique alternative n'interfère pas avec la compréhension

Figure 14  Les lignes permettent de représenter les contours de façon similaire dans ces dessins. A gauche : cheval chinois, vers 15 000 av. JC, grotte de Lascaux, France ; à droite : Le cheval maigre et le cheval gras, Jen Jen-fa, 1300 ap. JC, Musée National, Chine. Source : Cavanagh (2005).

de la scène chez les spectateurs. Il ne s'agit donc pas d'un codage propre à l'artiste

ou partagé par un cercle restreint de connaisseurs11.

Selon Cavanagh (2005), ces raccourcis perceptifs sont des sortes de découvertes de la perception rapide et ecace du système visuel, qui ont été conrmées par des expériences comportementales et physiologiques. Ainsi, des dessins de lignes caractérisent la forme d'objets complexes. Ce type de dessins existe depuis les arts primitifs et sont reconnus par des êtres humains quels que soit leur âge et leur génération (Figure 14). Des peintures présentent quelques fragments, un squelette minimal pour évoquer des images plus complexes, c'est-à-dire suggérer davantage

que détailler12.

Les représentations visuelles artistiques semblent bien reéter le traitement parcimonieux du système visuel, puisque le codage de stimuli naturels passerait par un traitement statistique dépendant de la forme générale (où se concentre l'information selon Attneave (1954)) plutôt que du fond (Redies, 2007). Surtout, la distinction entre une reproduction parfaite (qui reste à dénir) et une

reproduc-11. On pourrait développer une analogie avec les nouveaux langages musicaux : Si la musique n'était perceptible que par les gens qui la connaissent, on n'aurait jamais qu'un auditoire très limité. (Boulez & Archimbaud, 2016).

12. Des méthodes automatiques, utilisant de la synthèse sur des bases de données, permettent de générer des images complexes à partir de propositions d'esquisses (Turmukhambetov et al., 2015). En audition, des auteurs s'intéressent également à la façon de suggérer des sons complexes en utilisant la voix combinée à des gestes (Scurto et al., 2015 ; Rocchesso et al., 2016).

tion dégradée (artistique), mais pertinente pour la perception, permet justement de comprendre qu'il n'est pas nécessaire de tout reproduire, ni de reproduire tou-jours la même chose, en fonction de la tâche perceptive donnée. Ainsi, comme l'ont noté Smith & Lewicki (2006), toute l'information acoustique n'est pas per-tinente pour une tâche auditive donnée. Et une représentation moins exacte de l'onde acoustique pourrait s'avérer plus pertinente biologiquement. A noter que des outils de compression très performants existent pour reproduire un objet per-ceptivement identique à son original, mais il s'agit pour ces outils d'omettre les détails imperceptibles. Dans notre cas, des éléments perceptibles pourront aussi être ignorés parce qu'ils n'entrent pas en compte dans la tâche de reconnaissance de l'objet initial (voir aussi Simoncelli & Olshausen, 2001).

Le concept d'esquisse auditive. A l'instar des ÷uvres d'art que l'on vient d'évoquer, des stimuli simpliés pourraient être nalement plus proches de la perception qu'une représentation réaliste en mettant en évidence l'information pertinente pour une tâche donnée. Des résultats en vision montrent qu'on peut ainsi catégoriser des images dégradées sans que les parties individuelles soient bien dénies (Oliva & Schyns, 1997 ; Oliva & Torralba, 2006). Il existe également en audition des cas de stimuli très dégradés générant de très bonnes performances de reconnaissance. En reconnaissance de la parole par exemple, diérents auteurs ont montré que les caractéristiques acoustiques à court-terme de la parole peuvent être dégradées tout en maintenant une bonne reconnaissance grâce à au moins quatre procédés (cf. Figure 15 ; Remez & Thomas, 2013) : (1) sine-wave speech : seulement trois sinusoïdes sont placées aux fréquences centrales des premiers for-mants (Remez et al., 1981, 2001) ; (2) noiseband vocoded speech : seulement trois bandes de bruit sont modulées temporellement (Shannon et al., 1995) ; (3) avec un contenu spectral uniformément harmonique (Dorman et al., 1997) ; (4) chimères auditives : le contenu fréquentiel est varié arbitrairement (Smith et al., 2002).

Autrement dit, l'information spectro-temporelle dans la parole est très re-dondante (Cooke, 2006 ; Varnet et al., 2013). Des patterns dynamiques temporels susent à transmettre l'information, malgré une transmission minimale de l'infor-mation spectrale. Malgré aussi la perte de la qualité naturelle des sons, ce type de simplications conserve les combinaisons des composantes naturelles complexes,

Figure 15  Représentations spectrographiques de quatre variantes de la phrase "Jazz and swing fans like fast music". (a) Parole naturelle ; (b) sine-wave speech ; (c) parole vocodée par du bruit de bande ; et (d) chimère parole-musique. Source : Remez & Thomas (2013).

nécessaires pour leur reconnaissance. Gygi et al. (2004) ont appliqué la méthode de réduction de l'information spectrale de Shannon et al. (1995) à des sons environne-mentaux an d'identier les régions fréquentielles utiles pour leur reconnaissance. Des sons avec des indices temporels forts, par exemple courts et répétitifs, mais aussi d'autres types de sons environnementaux, peuvent être identiés malgré une information spectrale très limitée. Le système auditif est également très perfor-mant dans le domaine temporel, avec par exemple une bonne reconnaissance de sons très courts, de l'ordre de quelques millisecondes (Gray, 1942 ; Robinson & Patterson, 1995a,b ; Suied et al., 2014).

Cependant, ces approches ne sont pas particulièrement parcimonieuses et ne peuvent donc pas rendre compte des dimensions utilisées dans le processus de re-connaissance (Varnet et al., 2013). C'est pourquoi Suied et al. (2013b) ont proposé le concept d'esquisse auditive, c'est-à-dire une représentation parcimonieuse d'un son naturel, ou pour reprendre les termes précédents, une concentration de l'es-sence du stimulus original. Dans le cadre d'une tâche de reconnaissance, leur objec-tif est de parvenir à isoler les traits parcimonieux contenus dans les sons naturels tout en supprimant le reste de l'information. Nous décrivons dans les paragraphes suivants diérentes méthodes de la littérature permettant de mettre en évidence les traits utiles pour la reconnaissance auditive, y compris celle de Suied et al. (2013b) visant explicitement à construire des esquisses auditives parcimonieuses. En eet, les études en reconnaissance auditive ont permis de grandes avancées dans la compréhension du traitement auditif mais ont aussi montré certaines li-mites (e.g. la dépendance au contexte et aux stimuli). On verra que l'approche de Suied et al. (2013b), basée sur des modèles auditifs, permet d'y apporter des éclairages importants en se rapprochant de façon judicieuse des stratégies poten-tiellement utilisées par le système auditif pour le traitement des indices présents dans le signal auditif.

2.3 Simplication parcimonieuse de sons naturels