• Aucun résultat trouvé

Résolution des fenêtres d’échantillonnage

2. Implication pour l’AST

2.2. Résolution des fenêtres d’échantillonnage

La taille des fenêtres temporelles n’est pas strictement précisée par Poeppel (Poeppel, 2003; Poeppel et al., 2008). Il indique deux échelles bien distinctes, séparées par un facteur 10 environ, correspondant à peu près aux constantes de temps du signal acoustique de parole. Une des inconnues est de savoir si la fenêtre d’échantillonnage s’adapte aux rythmes de l’entrée sensorielle. Si tel est le cas, la taille sera fonction de la vitesse de locution, de la langue parlée, etc. La fenêtre qu’il dénomme syllabique et qui correspond à certaines des indices linguistiques que Rosen regroupe sous le terme prosodique (Rosen, 1992), d’une taille de 150-300 (150-250) ms, correspond à la bande oscillatoire thêta (4-8 Hz) mais pourrait aller jusqu’à 10 Hz (Poeppel, 2003). Il serait intéressant de connaître l’étendue de sa possible implication dans l’analyse d’aspects secondaires du langage (e.g. reconnaissance du locuteur, prosodie) ou du contenu langagier (directement au niveau syllabique), dépendante des demandes attentionnelles ou d’autres facteurs environnementaux (internes ou externes). La fenêtre segmentale est encore plus floue. Sa fréquence centrale est définie par Poeppel à 20 ou

92

40 Hz et pourrait dépendre d’une fenêtre d’une taille de 20 à 80 ms (entre 12 et 50 Hz), correspondant à la bande du gamma lent, voire du béta.

Les analyses présentées dans l’étude 1 avaient une bonne résolution fréquentielle et étaient concordantes avec les estimations décrites ci-dessus. Le cortex auditif droit présentait une activité intrinsèque à 5-6 Hz, ce qui correspond à la fréquence syllabique moyenne (Greenberg, 1998). L’activité induite dans le cortex primaire gauche semblait maximale aux alentours de 33 Hz, ce qui correspond à une période oscillatoire de 33 ms, et semblait présente entre 25 et 45 Hz.

Ces précisions semblent nécessaires du fait qu’un lien fréquence/fonction est souvent opéré pour interpréter les résultats d’études en LFP, et que les fréquences sont divisées en bandes discrètes, i.e. delta, thêta, alpha, béta, gamma, dont les frontières ne sont pas toujours adaptées à la diversité des phénomènes observés. On peut souligner que ces estimations sont cohérentes avec les travaux de Drullman sur l’enveloppe qui suggèrent qu’une rupture a lieu avec un point de brisure aux alentours de 8-10 Hz (Drullman et al., 1994a), frontière qui est probablement le point important à retenir.

ii. Limite neurophysiologique des fenêtres d’intégration

Une approche intéressante pour étudier les caractéristiques de ces fenêtres d’échantillonnage est de faire varier le rythme du signal acoustique afin de comprendre quelles sont les limites comportementales et physiologiques relatives au décodage syllabique ou phonémique. Une étude comportementale a permis de révéler que l’aspect rythmique de la parole jouait un rôle majeur dans la compréhension (Ghitza and Greenberg, 2009).

93

Figure IV.2 1. Influence de la dimension rythmique sur le taux de compréhension.

Un signal sonore compressé par un facteur 3 est découpé en segments de 40 ms qui sont séparés par des segments de silence d’une durée variable. Le taux d’erreur d’une tâche de compréhension verbale diminue maximalement si les périodes de silence ont une durée de 80 ms. D’après (Ghitza and Greenberg, 2009).

Le paradigme consistait à compresser temporellement (tout en conservant la structure spectrale) des phrases qui étaient présentées lors d’une tâche de compréhension. Naturellement, pour une compression d’un facteur 3 la compréhension se dégradait fortement (50 %). Cependant si le signal de parole était découpé de manière arbitraire en segments d’une durée de 40 ms et que des périodes de silence (variables) étaient insérées entre chaque segment, les scores de compréhension s’amélioraient. Les taux d’erreurs présentent une forme en U (Figure IV.2 1). Ceci indique qu’il existe une fréquence préférentielle pour le découpage de l’information acoustique. Si le signal acoustique est plus difficile à comprendre, il semble aussi qu’il existe une durée minimale pour l’intégration d’un bit d’information, et que cette contrainte soit levée par l’ajout régulier de périodes de silence.

Dans cette étude la fréquence préférée est de 120 ms (80 ms de silence + 40 ms de signal sonore), soit environ 8 Hz. Ceci correspond à la fréquence syllabique interne observée dans l’étude 1, qui correspondrait à la fréquence de recombinaison phonémique. Une limitation de cette étude est que les segments d’information ont été fixés à 40 ms, ce qui est un choix

94

arbitraire, et il se peut que l’intervalle de silence préféré varie en fonction de ce paramètre. Un modèle oscillatoire a récemment été décrit pour rendre compte de ces résultats (Ghitza, 2011). L’utilisation d’un signal acoustique compressé s’est aussi faite dans le cadre d’études neurophysiologiques. En 2001, Ahissar et collègues ont ainsi mesuré l’activité oscillatoire de l’hémisphère gauche lors d’une tâche de compréhension verbale, en MEG (Ahissar et al., 2001). Ils ont observé que lorsque le signal était compréhensible, i.e. avec un taux de compression faible ou nul, les fréquences modales (fréquences dominant le spectre, correspondant à la fréquence syllabique) du signal cérébral et acoustique étaient similaires. Lorsque le signal acoustique était fortement compressé, la compréhension se dégradait et la fréquence modale du signal cérébral ne suivait plus (était moins élevée que) celle du signal acoustique. L’activité corticale ne semblait pas capable de suivre le rythme syllabique acoustique lorsque celui-ci était supérieur à 8 Hz. Cependant dans cette étude seules quatre fréquences syllabiques distinctes ont été testées. Il serait intéressant d’investiguer plus en détail la fréquence limite de suivi syllabique (et phonémique). Enfin la synchronie de phase entre les deux signaux était prédictive de ces résultats, et semblait indispensable à la bonne compréhension des phrases présentées, ce qui rejoint les résultats de l’équipe de Poeppel spécifiant que le recalage de phase est une condition préalable à la bonne compréhension du signal de parole (Luo and Poeppel, 2007).

Nourski et collègues ont récemment répliqué ce paradigme lors d’enregistrements iEEG (Nourski et al., 2009). Un de leurs résultats était que l’activité gamma rapide dans le cortex auditif primaire suivait le signal acoustique quel que soit le taux de compression, son activité étant donc indépendante des performances comportementales, ce qui n’était pas le cas pour les fréquences plus lentes. Malheureusement ces dernières étaient étudiées via la mesure du potentiel évoqué, ce qui n’a pas permis d’obtenir des résultats fréquences-spécifiques pour les oscillations les plus lentes (<10 Hz).

La question relative à l’étendue des fenêtres d’intégration est probablement centrale pour la compréhension des mécanismes de traitement du signal de parole. Cela permet d’avoir une approche critique des mécanismes sous-tendant le découpage de l’information, et permet d’inclure les dimensions acoustique, neurophysiologique et comportementale. Cette question est directement liée à la question plus générale qui concerne les oscillateurs corticaux, plus précisément leurs limites fréquentielles. Mieux comprendre les frontières entre différentes

95

bandes de fréquences est une des clefs de la compréhension de l’interaction inter-fréquences. L’équipe de Whittington a récemment proposé sur la base d’études in vitro que les pics fréquentiels correspondant à la fréquence centrale des oscillateurs étaient séparés selon le nombre d’or (~1,6), ce ratio permettant de minimiser les interférences inter-fréquentielles tout en maximisant la capacité informationnelle (Roopun et al., 2008).

2.3. Implication potentielle d’autres rythmes

Documents relatifs