HAL Id: tel-01178397
https://tel.archives-ouvertes.fr/tel-01178397
Submitted on 19 Jul 2015
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Analyse de scènes de parole multisensorielle : Mise en évidence et caractérisation d’un processus de liage
audiovisuel préalable à la fusion.
Olha Nahorna
To cite this version:
Olha Nahorna. Analyse de scènes de parole multisensorielle : Mise en évidence et caractérisation d’un processus de liage audiovisuel préalable à la fusion.. Sciences cognitives. Université de Grenoble, 2013.
Français. �tel-01178397�
THÈSE
Pour obtenir le grade de
DOCTEUR DE L’UNIVERSITÉ DE GRENOBLE
Spécialité : ISCE / INGENIERIE COGNITION INTERACTION APPRENTISSAGE CREATION
Arrêté ministériel : 7 août 2006
Présentée par
Olha NAHORNA
Thèse dirigée par Jean-Luc SCHWARTZ et Frédéric BERTHOMMIER
préparée au sein du Laboratoire GIPSA-Lab dans l'École Doctorale EDISCE
Analyse de scènes de parole multisensorielle :
Mise en évidence et caractérisation d’un processus de liage audiovisuel préalable à la fusion
Thèse soutenue publiquement le 2 octobre 2013, devant le jury composé de :
Mme Cécile Colin
Assistante professeur à l'Université de Bruxelles (Rapporteur) Mme Virginie van Wassenhove
Chercheuse CEA, HDR (Rapporteur) Mme Sonia Kandel
Professeur UPMF (Examinatrice) Mr Daniel Pressnitzer DR CNRS Paris (Examinateur)
Mr Jean-Luc Schwartz
DR CNRS Grenoble (Directeur de thèse) Mr Frédéric Berthommier
CR CNRS Grenoble (Co-directeur de thèse)
Remerciements
Table des matières
Remerciements ... 2
Introduction ... 8
Partie I - De la parole audiovisuelle à la question du liage : un état de l’art pour une stratégie expérimentale Chapitre 1. La parole audiovisuelle ... 9
1.1 La parole est audiovisuelle ... 9
1.2 Rôle d’un signal visuel ... 13
1.2.1 Redondance et complémentarité ...13
1.2.2 Amélioration de la compréhension du message ... 14
1.2.3 Détection de la parole dans le bruit ... 14
1.2.4 Prédiction du son par l’image... 16
1.3 L’effet McGurk ... 17
1.3.1 Universalité vs. variations à travers les âges, les langues et les sujets ... 17
1.3.2 Variations dépendant des caractéristiques des stimuli ... 18
1.3.3 Automaticité de l’effet McGurk ... 19
1.4 Conclusion ... 19
Chapitre 2. Processus de fusion audiovisuelle en perception de parole ...20
2.1 Les architectures cognitives ... 20
2.1.1 Modèle d’identification directe ...20
2.1.2 Modèle d’identification séparée et modèles de fusion bayésienne ... 21
2.1.3 Modèle de recodage dans la modalité dominante... 22
2.1.4 Modèle de recodage dans la modalité motrice, théories motrices et perceptuo- motrices ... 23
2.2 Les processus de contrôle ... 24
2.3 Les architectures neuroanatomiques sous-jacentes ... 24
2.3.1 Le modèle classique de Wernicke-Lichtheim-Geshwind ...24
2.3.2 Du système miroir au modèle à deux voies ...26
2.3.3 Le réseau neuroanatomique de la perception audiovisuelle de la parole ...28
2.3.4 Le modèle de Skipper ... 30
2.3.5 Les mécanismes d’interaction multisensorielle de Senkowski ...31
2.4 Conclusion ... 31
Chapitre 3. Un mécanisme de liage audiovisuel préalable à la fusion ? ... 33
3.1 Eléments de mise en évidence d’un niveau d’interaction précoce ... 33
3.1.1 Interactions audiovisuelles précoces en électrophysiologie ... 33
3.1.2 Facilitation audiovisuelle de la détection de traits phonétiques induisant un gain de reconnaissance ... 34
3.1.3 Influence réciproque de la modalité auditive sur la perception visuelle... 35
3.2 Analyse des scènes perceptives ...36
3.2.1 La psychologie de la forme (Gestalt)... 36
3.2.2 Bregman et l’analyse des scènes auditives ... 38
3.2.3 Le modèle de Treisman ... 41
3.2.4 Mécanismes neurophysiologiques sous-jacents ... 43
3.3 Corrélations audiovisuelles ... 43
3.3.1 Yehia et collègues ... 44
3.3.2 Barker et Berthommier ... 45
3.3.3 Grant et collègues ... 45
3.3.4 Chandrasekaran et collègues ... 45
3.3.5 Jiang et collègues ... 46
3.3.6 Berthommier ... 46
3.4 Conclusion ...47
Chapitre 4. Stratégie expérimentale et plan du travail ... 48
4.1 Une hypothèse ... 48
4.2 Un paradigme ... 49
4.3 Un programme expérimental...50
Partie II - Mise en évidence comportementale de l’existence d’un processus de liage audiovisuel conditionnant la fusion Chapitre 5. Mise en place de la méthodologie sur une expérience princeps... 51
5.1 Introduction ... 51
5.2 Paradigme expérimental ... 51
5.3 Préparation des matériaux expérimentaux ... 53
5.3.1 Enregistrement ... 53
5.3.2 Analyse et montage des données audio ... 54
5.3.3 Analyse et montage des données vidéo ... 57
5.3.4 Montage audiovisuel... 64
5.4 Passation de l’expérience ... 65
5.4.1 Organisation du test ...65
5.4.2 Consignes et exécution de l’expérience ... 66
5.5 Méthode d’analyse des résultats ... 67
5.5.1 Détermination d’une zone de réponses valides ...67
5.5.2 Analyse des réponses ... 69
5.5.3 Analyse des temps de réaction ... 69
5.6 Conclusion ... 70
Chapitre 6. Expérience 1 : première mise en évidence d’un effet de contexte ... 71
6.1 Objectifs et hypothèses ... 71
6.2 Méthodologie ... 71
6.2.1 Stimuli ... 71
6.2.2 Plan d’expérience ... 71
6.2.3 Sujets ... 72
6.3 Résultats... 72
6.3.1 Scores bruts ... 72
6.3.2 Analyses statistiques des pourcentages de réponse ... 74
6.3.3 Temps de réponse ... 81
6.4 Conclusion ... 81
Chapitre 7. Expérience 2 : est-ce qu’un stimulus d’alerte temporelle influence le liage ? ...82
7.1 Objectifs et hypothèses ... 82
7.2 Méthodologie ... 82
7.2.1 Principe ...82
7.2.2 Stimuli ... 83
7.2.3 Plan d’expérience ... 83
7.2.4 Sujets ... 84
7.3 Résultats... 84
7.3.1 Scores bruts ... 84
7.3.2 Analyses statistiques des pourcentages de réponse ...87
7.4 Discussion ... 90
Chapitre 8. Expérience 3 : évaluation perceptive des cibles isolées ... 91
8.1 Objectifs et hypothèses ... 91
8.2 Méthodologie ... 91
8.2.1 Principe ... 91
8.2.2 Stimuli ... 91
8.2.3 Plan d’expérience ...92
8.2.4 Sujets ...92
8.3 Résultats... 92
8.3.1 Scores bruts ...92
8.3.2 Analyses statistiques des pourcentages de réponse ... 94
8.4 Conclusion ... 97
Chapitre 9. Expérience 4 : Validation de l’effet contexte ... 98
9.1 Objectifs et hypothèses ... 98
9.2 Méthodologie ... 98
9.2.1 Principe ... 98
9.2.2 Stimuli ... 99
9.2.3 Plan d’expérience ... 100
9.2.4 Sujets ... 101
9.3 Résultats... 101
9.3.1 Scores bruts ... 101
9.3.2 Analyses statistiques des pourcentages de réponse ... 103
9.3.3 Analyse des temps de réponses ... 106
9.4 Discussion ... 108
Partie III - Caractérisation du processus du liage Chapitre 10. Expérience 5 : Décomposition de l’incohérence sur les dimensions phonétique et temporelle ... 109
10.1 Objectifs et hypothèses ... 109
10.2 Méthodologie ... 110
10.2.1 Principe ... 110
10.2.2 Stimuli ... 111
10.2.3 Plan d’expérience ... 112
10.2.4 Sujets ... 113
10.3 Résultats... 113
10.3.1 Scores bruts ... 113
10.3.2 Analyses statistiques des pourcentages de réponse ... 115
10.4 Discussion ... 117
Chapitre 11. Expérience 6. Caractérisation de la dynamique temporelle. ... 119
11.1 Objectifs et hypothèses ... 119
11.2 Méthodologie ... 119
11.2.1 Principe ... 119
11.2.2 Stimuli ... 120
11.2.3 Plan d’expérience ... 120
11.2.4 Sujets ... 121
11.3 Résultats... 121
11.3.1 Scores bruts ... 121
11.3.2 Analyses statistiques des pourcentages de réponse ... 123
11.3.3 Temps de réponses ... 126
11.4 Discussion ... 130
Chapitre 12. Expérience 7. Mise en évidence d’un processus de reliage ... 131
12.1 Objectifs et hypothèses ... 131
12.2 Méthodologie ... 131
12.2.1 Principe ... 131
12.2.2 Stimuli ... 132
12.2.3 Plan d’expérience ... 134
12.2.4 Sujets ... 135
12.3 Résultats... 135
12.3.1 Scores bruts ... 135
12.3.2 Analyses statistiques des pourcentages de réponse ... 137
12.3.3 Temps de réponse ... 140
12.4 Discussion ... 142
Partie IV - Synthèse Chapitre 13. Discussion ... 143
13.1 Résumé des principaux résultats ... 143
13.2 Interprétation des résultats... 147
13.2.1 Mise en évidence d’un mécanisme de liage qui module la fusion audiovisuelle 147 13.2.2 Architecture à deux étages ... 148
13.3 Corrélats neuroanatomiques et neurophysiologiques ...155
13.4 Perspectives ...157
13.4.1 Perspectives expérimentales ... 157
13.4.2 Perspectives applicatives ... 160
Liste des publications associées à cette thèse... 161
Travaux cités ... 162
Introduction
La parole est un mode de communication propre à l’homme, apparaissant comme une nouvelle étape dans l’évolution. Les mécanismes de la communication parlée sont complexes et partent des propriétés acoustiques du message sonore, puis mettent en jeu des processus de catégorisation des consonnes, voyelles, syllabes, de compréhension des mots, phrases, à travers des processus lexicaux, syntactiques etc. Finalement le processus converge vers la pensée abstraite, qui est le niveau le plus élevé de l’activité intellectuelle propre à Homo-Sapiens. En s’appuyant sur les théories de l’évolution nous pouvons supposer que la parole peut apparaître comme une superstructure s’appuyant sur les propriétés générales des systèmes de traitement et de production des signaux, que nous pouvons retrouver chez les organismes moins évolués, dans de nombreuses espèces animales disposant de capteurs et d’actionneurs similaires :les yeux, les oreilles, le toucher ; et un système de production sonore. Mais par rapport à ces organismes nous sommes capables d’encoder et de traiter des séquences complexes de ces signaux pour référer aux objets, aux actions, à l’espace, au temps, etc. En autres termes nous sommes capables de décoder ces concepts par un symbole ou une étiquette, et puis de les enchainer dans des structures syntaxiques complexes.
Le rôle majeur de la parole est de passer une information ou message et de transmettre une expérience connue. Elle peut être aussi un instrument du travail intellectuel (pensée, réflexions) ou un outil pour exprimer les sentiments, les émotions, l’état intérieur, les idées, voire pour mentir ou tromper. La parole peut être aussi un instrument pour influencer directement ou indirectement son interlocuteur.
Parler c’est produire des gestes et ainsi des sons qui peuvent être décodés et compris par l’interlocuteur, ainsi que savoir décoder le son et les gestes de l’interlocuteur. La production de la parole nécessite des processus d’articulation qui impliquent des organes multiples : cordes vocales, larynx, trachée, langue, mâchoire, lèvres, velum. Elle dépend aussi du cycle respiratoire, grâce à la passation d’air nécessaire à l’émission du son.
Mais les gestes de la parole produisent aussi des signaux visibles, et la parole est un mode de communication non seulement acoustique mais audiovisuel. Dans le cadre du travail de cette thèse nous nous intéressons essentiellement à la parole audiovisuelle, et plus précisément le but de notre étude est de mieux comprendre les mécanismes qui permettent de lier les signaux auditifs et visuels de la parole.
Nous commençons ce manuscrit par une première partie théorique, avec une revue des questions principales de bibliographie parmi lesquelles nous pourrons passer en revue les faits démontrant que la parole est audiovisuelle, puis décrire les principaux modèles d’intégration des inputs auditif et visuels, et les questions sous-jacentes. Puis nous aborderons la question d’existence d’un niveau précoce d’intégration audio-visuelle qui nous conduira à formuler notre hypothèse principale d’existence d’un processus de« liage audiovisuel », qui constituerait une étape préalable à la fusion audio-visuelle.
En nous basant sur cette hypothèse nous aborderons la phase expérimentale de notre travail, organisée en deux parties. D’abord nous entreprendrons de démontrer l’existence du processus du liage en utilisant et en affinant peu à peu un nouveau paradigme expérimental.
Puis nous traiterons de la caractérisation de ce processus en mettant en place des expériences
qui étudient l’influence de différents paramètres critiques. Nous terminerons ce manuscrit par
une discussion sur nos résultats et leur positionnement dans la littérature actuelle.
Partie I
De la parole audiovisuelle à la question du liage : un état de l’art pour une stratégie expérimentale
Chapitre 1. La parole audiovisuelle 1.1 La parole est audiovisuelle
Bien que la lecture labiale ait de tout temps été étudiée et utilisée dans l’éducation et la communication avec les personnes sourdes, les recherches sur la parole ont longtemps été focalisées sur la parole acoustique. Ce n’est que depuis le XXème siècle que sont apparues des mises en évidence incontestables et multiples que la parole est plutôt de nature audiovisuelle.
Dans la suite de ce chapitre, nous ne détaillerons pas les données sur les sujets malentendants, pour lesquels le rôle de la modalité visuelle est une évidence et une nécessité.
Chacun sait bien que les sourds ou les malentendants peuvent « lire sur les lèvres » pour compenser leur handicap (Bernstein et al, 2000), et on peut également compenser l’information visuelle incomplète en utilisant le « Langage parlé Complété » (Attina, 2005).
Mais nous allons montrer que la lecture labiale est impliquée dans le traitement de la parole chez tous les sujets, dans différents types de conditions et de paradigmes qui font l’objet de cette première section.
Par exemple, c’est le cas de l’effet “Cocktail party”, mentionné par (Cherry, 1953), qui vient d’une situation naturelle que nous pouvons tous observer au cours de notre vie. Lors d’une soirée, où il y a des nombreuses personnes qui parlent simultanément, en créant un bruit environnemental assez fort, nous arrivons à poursuivre la communication et comprendre le message de notre interlocuteur, malgré le bruit. En même temps nous restons sensibles aux signaux extérieurs de notre conversation, par exemple, si quelqu’un prononce notre prénom, nous réagissons très rapidement à ce signal. Parmi des explications possibles à ce phénomène, la lecture labiale semble avoir une place importante.
Le paradigme de mise en évidence est bien illustré par les travaux de Sumby et Pollack, sur l’anglais américain (Sumby & Pollack, 1954). Des vocabulaires de 8, 16, 32, 64, 128 mots bisyllabiques spondaïques
1étaient présentés à 6 sujets sous diverses conditions de bruit. Dans ces résultats l’intelligibilité de la parole diminue avec la diminution du rapport parole à bruit et avec l’augmentation de la taille du vocabulaire (Figure 1, à gauche). Dans la condition audiovisuelle les relations entre la taille du vocabulaire et le rapport parole à bruit sont similaires à celles de la condition auditive, mais la résistance au bruit est plus forte (Figure 1, à droite). Ainsi, la lecture labiale produit un gain d’intelligibilité dans le bruit ou quand la parole
1