• Aucun résultat trouvé

Fig. 3.6 – Matrices de confusion en catégorisation phonémique pour les sujets normo-entendants en conditions auditive seule et visuelle seule. Les stimuli sont affichés en horizontal et les réponses en vertical. La structure par bloc dans la condition visuelle seule apparaît bien, mettant en évidence le peu d’influence du mode d’articulation sur la modalité visuelle. Adapté et traduit de Rouger et coll. (2008) avec autorisation de Elsevier Ltd.

0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100 Rouger et col., 2008 SimBa Perception du mode auditif Perception du mode visuel Perception du lieu auditif Fusion des lieux A et V Combinaison des lieux A et V Perception du mode visuel

Catégorisation du mode Catégorisation du lieu

Stimuli McGurk : Labiale A et Vélaire V

Fig. 3.7 – Résultats du modèle pour les stimuli incongruents du type ga plus /ba/, /pa/ ou /ma/. Les résultats sont comparés avec ceux de Rouger et collaborateurs (2008).

0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100 Rouger et col., 2008 SimBa Perception du mode auditif Perception du mode visuel Perception du lieu auditif Combinaison des lieux A et V Perception du mode visuel

Catégorisation du mode Catégorisation du lieu

Stimuli McGurk : Dentale A et Labiale V

Fig. 3.8 – Résultats du modèle pour les stimuli incongruents du type ba plus /da/, /ta/ ou /na/. Les résultats sont comparés avec ceux de Rouger et collaborateurs (2008).

hybrides comme observés dans les expérimentations. Par exemple, au lieu de ré- pondre «bda» pour un stimulus aba+/ada/, il répond «da». La raison de cela est double. Premièrement, le réseau construit est simple et ne prend pas en compte un grand nombre de mécanismes intervenant en amont de l’intégration. Plus précisé- ment, le traitement visuel est connu pour être plus rapide que le traitement auditif, ce qui introduit un décalage entre les deux modalités. L’information concernant l’articulation visible arrive donc en premier, ce qui devrait temporairement biai- ser l’intégration du côté d’une labiale dans notre exemple. Deuxièmement, le for- malisme SimBa est particulièrement conçu pour reconnaître des patterns spatiaux d’activité neuronale. Or, la prononciation du langage est un processus hautement dynamique. Les valeurs des attributs que nous utilisons (mode et lieu d’articu- lation) ne sont pas instantanées, mais il s’agit plutôt de schémas étalés dans le temps. Ainsi, l’articulation d’une labiale part de lèvres fermées qui s’ouvrent brus- quement, tandis que les dentales et les vélaires sont articulées avec les lèvres ou- vertes tout le long. On peut considérer que le type labiale représente tout le schéma articulatoire d’une manière compacte et le fait que les schémas pour une labiale et une dentale commencent tout à fait différemment pour ensuite être similaires est difficile à capturer avec les similarités de SimBa. En résumé, le formalisme SimBa ne peut pas facilement s’accommoder de patterns spatio-temporels. Il est possible de contourner ce problème en décomposant un pattern spatio-temporel en une séquence de sous-patterns spatiaux qui peuvent être reconnus par des po- pulations successives. Cette solution impose donc un niveau de modélisation bien plus fin que celui qui est proposé pour cette application. Cette limitation illustre

un des aspects fondamentaux de la modélisation par SimBa (et de toute modélisa- tion utilisant des réseaux de populations de neurones) : l’échelle de modélisation impose des restrictions quant à ce qui est modélisable ou non. C’est particulière- ment visible pour l’effet McGurk, dans la mesure où le percept stable et réellement saillant en réponse à un stimulus ba+/da/ est «da», l’apparition de la consonne «b» ne constituant qu’un phénomène transitoire probablement induit par le décalage temporelle entre la vision et l’audition. En revanche, pour un stimulus ga+/ba/, le percept stable est bien «da». C’est ce qui est capturé par le modèle, les phénomènes transitoires étant «lissés» par l’échelle de modélisation choisie. Ce lissage apparaît de manière très «graphique» sur les matrices de confusion, en particulier dans la condition visuelle seule, où les réponses des sujets sont plus dispersées que celles du modèle. Notons cependant qu’il y a plus de stimuli et donc de réponses dans l’expérience de Rouger et coll. (2008) que dans notre modèle, ce qui accentue cette dispersion.

Simuler le handicap. Les données comparées aux résultats du modèle SimBa in-

cluent les informations sur la manière dont des patients ayant reçu un implant cochléaire perçoivent et intègrent le langage parlé. Il aurait donc été intéressant de pouvoir modifier le modèle, en le lésant, pour pouvoir reproduire les mêmes performances que les patients. Pour Rouger et coll. (2008), les performances d’en- codage auditif de la prothèse, inférieures à celles d’une oreille, sont à l’origine des performances dégradées des patients. Une manière de prendre cela en compte serait de dégrader la qualité de l’information auditive. Les patients ayant aussi dé- veloppé leur capacité de discrimination visuelle, ils sont aussi de meilleurs intégra- teurs visuo-auditifs (Rouger et coll. 2007), ce qui suggère en plus une modification des poids en faveur de l’entrée visuelle dans l’intégration. Nous n’avons cependant pas pu reproduire les performances des patients avec ce modèle. Le traitement trop intégré de l’audition en est probablement la raison. La prothèse dégrade le son en enlevant les hautes fréquences. Or celles-ci sont utilisées pour «désambiguiser» des perceptions, en particulier dans un environnement bruité. Un modèle représentant de manière plus détaillée les étapes du traitement auditif pourrait probablement mieux tenir compte des dégradations spécifiques dues à la prothèse.