• Aucun résultat trouvé

1. Cadre théorique

1.2. La segmentation d’événements

La segmentation d’événements est le processus qui permet de percevoir le flux continu des activités comme étant constitué d’événements signifiants (Zacks & Swallow, 2007). Deux types d’informations peuvent servir de base pour identifier les frontières entre les événements ou sous-événements signifiants distinct : les caractéristiques sensorielles et les structures de connaissance d’événements (Zacks, 2004).

Si les indices sensoriels peuvent être de différentes natures (i.e., auditifs, visuels, etc.), les mouvements semblent constituer des indicateurs particulièrement saillants. Par exemple, lorsque l’on assiste à une course du 100 mètres, d’importants changements dans la quantité et la qualité du mouvement se produisent lors du départ et lors de l’arrivée, permettant de percevoir la période de la course comme un événement distinct. Ces indices sont suffisants pour la perception d’une frontière, c’est-à-dire il n’est pas obligatoire d’avoir des connaissances préalables sur l’activité observée pour que les changements de mouvements permettent la segmentation. Dans l’exemple ci-dessus, il n’est pas nécessaire d’avoir déjà assisté à une course ni de savoir qu’il s’agit d’un 100 mètres pour percevoir le départ et l’arrivée de la course comme des frontières d’événement. C’est pourquoi ce mode d’identification des frontières est considéré comme bottom-up.

Les structures de connaissance d’événements (ou schémas d’événements) contiennent des informations acquises lors de précédentes occurrences d’une même activité, par l’extraction des traits récurrents de cette activité. Elles permettent de segmenter les événements via la reconnaissance de l’activité en cours et la prise en compte des étapes qui la composent. En particulier, ces structures renferment des informations quant aux intentions et aux buts d’une personne engagée dans une activité donnée. Par exemple, si l’on observe une personne en train de frotter une vitre sale avec un chiffon, on identifiera probablement cette activité comme le nettoyage de la vitre, ayant donc pour but qu’elle soit propre. L’instant où il n’y aura plus de trace de saleté visible sur la vitre sera donc considéré comme la frontière de fin de l’événement, et ce même si des variations dans les mouvements de la personne sont observées durant l’activité (variations dans l’amplitude du mouvement de frottement, ajout de produit nettoyant, etc.). Ce mode d’identification des frontières est dit top-down : il s’agit d’un traitement dépendant de connaissances antérieures et qui module le traitement bottom-up des indices sensoriels (Zacks, 2004).

1.2.1. Théorie de la segmentation d’événements

La segmentation d’événements fait partie intégrante de la perception. Zacks et ses collaborateurs (2007) expliquent que la perception est un processus hiérarchique : les informations sensorielles brutes (en provenance du système nerveux périphérique) sont traitées et transformées en représentations. Puis nous formons également des prédictions dites perceptuelles, sous la forme de représentations du monde tel que l’on s’attend à ce qu’il soit dans un futur proche. Ces représentations nous permettent d’anticiper le futur et de planifier nos actions, plutôt que de simplement réagir à ce qui arrive. Les prédictions perceptuelles apparaissent tard dans la chaîne de traitement de l’information, puisqu’elles ne peuvent être créées qu’une fois que la représentation du monde actuel a été formée. Les auteurs décrivent également la perception comme étant récurrente (les étapes de traitement tardives affectent le flux de traitement des étapes antérieures) et cyclique (les prédictions perceptuelles sont en permanence comparées avec ce qui se produit réellement, et le fruit de ces comparaisons influence le traitement en cours). Basés sur ces caractéristiques de la perception, Zacks et collaborateurs (2007) proposent la théorie de la segmentation d’événements.

Figure 1. Représentation schématique de la théorie de la segmentation d’événements (Event Segmentation Theory – EST ; Zacks et al., 2007). Les flèches grises représentent le flux d’informations entre les étapes de traitement. La flèche discontinue représente le mécanisme de réinitialisation du modèle d’événement. La connexion entre les entrées sensorielles et les modèles d’événements est interrompue par une « porte » car elle n’est effective que durant les phases de réinitialisation du modèle d’événement.

Le processus hiérarchique décrit ci-dessus est représenté par les éléments à gauche du modèle illustré dans la Figure 1. Les entrées sensorielles sont transformées via un traitement perceptif, qui génère des représentations multimodales ayant un contenu sémantique riche, et intégrant des informations telles que l’identité, la localisation ou encore le comportement d’une personne ou d’un objet. Le processus de traitement implique également la formation des prédictions perceptuelles (ou informations futures prédites). Par exemple, la perception à un instant donné d’un mouvement mène à une prédiction sur la future localisation de l’objet en mouvement. De la même manière, une inférence sur les intentions actuelles d’une personne mène à des prédictions quant à son futur comportement, ou à un niveau moins abstrait ses futurs mouvements.

Zacks et ses collaborateurs (2007) proposent que le traitement perceptif est guidé par des représentations, appelées modèles d’événements, qui biaisent le traitement du flux sensoriel (cet effet est illustré par la flèche reliant les modèles d’événements au traitement perceptif). Le modèle d’événement actif à un moment donné est une représentation multimodale de « ce qui est en train de se passer », maintenue en mémoire de travail. Cet élément de la théorie correspond au buffer épisodique proposé par Baddeley (2000). Les modèles d’événements sont formés sur la base de schémas d’événements, qui sont des représentations en mémoire sémantique (et donc à long terme). Ils stockent les informations qui ont été extraites des occurrences précédentes des événements de même nature, particulièrement la structure séquentielle de l’activité, et des informations concernant les buts de l’acteur.

Comme nous l’avons précédemment évoqué, les prédictions perceptuelles servent à anticiper et planifier ses actions afin de ne pas se contenter de réagir « après-coup » aux stimulations de l’environnement. Il est donc fondamental que ces prédictions soient les plus exactes possibles. Le modèle d’événement actif influence la formation des prédictions : s’il n’est pas adéquat, la prédiction sera inexacte. Zacks et ses collaborateurs (2007) postulent l’existence d’un mécanisme de détection d’erreurs, dont le rôle est de comparer les prédictions avec ce qui se produit réellement, et de rectifier la situation en cas de divergence.

Ainsi, durant le déroulement d’un événement, les modèles d’événements guident la formation des prédictions perceptuelles en influençant le traitement perceptif, et cette relation est à sens unique : les entrées sensorielles comme le traitement perceptif n’ont pas d’effet sur le modèle d’événement actif (c’est pourquoi la flèche les reliant est interrompue par une

« porte »). En effet, une fois qu’un modèle d’événement a été sélectionné, il représente généralement bien le déroulement de l’action sur toute la durée de l’activité. En revanche,

lorsque l’on atteint la fin d’une activité, ce qui va suivre devient moins prévisible, les erreurs de prédiction augmentent, jusqu’au point où le mécanisme de détection d’erreurs réagit en réinitialisant le modèle d’événement en cours (celui qui était actif est désactivé puisqu’il n’est plus adéquat) et en permettant aux informations provenant des entrées sensorielles et du traitement perceptif de guider la sélection d’un nouveau modèle d’événement (fermeture de la

« porte » dans le modèle). Selon la théorie de Zacks et collaborateurs (2007), c’est lors de ces phases de changement de modèle actif qu’a lieu la segmentation. En d’autres termes, ce sont ces brèves périodes de changement qui sont perçues comme les frontières entre les événements.

1.2.2. Evaluation de la segmentation

Avant d’évoquer les études ayant examiné le processus de segmentation, il est nécessaire de s’arrêter sur la procédure généralement utilisée pour son évaluation. Newtson a proposé en 1973 un paradigme qui par la suite a été repris et adapté par Zacks et ses collaborateurs dans de nombreuses études (. Il s’agit d’une tâche de segmentation de vidéos.

Concrètement, cette tâche consiste à montrer aux participants sur l’écran d’un ordinateur de courtes vidéos (i.e., d’une durée de quelques minutes), représentant chacune une activité plus ou moins familière (e.g., monter une tente, préparer un repas). Durant le visionnement, il est demandé aux participants d’identifier les frontières d’événements en appuyant sur une touche lorsque, selon eux, un événement porteur de signification se termine et un autre commence.

La segmentation d’événements est un processus résolument subjectif. Il semble donc difficile de déterminer ce qu’est une segmentation correcte. Cependant, étant donné que dans plusieurs études utilisant le paradigme de segmentation de vidéos, les participants montrent un bon accord quant à la position des frontières entre les événements, et qu’un très bon accord est également trouvé lorsqu’on analyse la segmentation effectuée par une même personne à deux temps différents (Speer, Swallow, & Zacks, 2003), le fait de segmenter de la même manière que les autres semble être un indicateur d’une bonne segmentation. Par conséquent, dans les études utilisant la tâche de segmentation de vidéos pour évaluer les capacités de segmentation d’événements, le niveau d’accord de segmentation d’un individu par rapport à l’échantillon total est utilisé comme indice pour ses capacités de segmentation.

1.2.3. Automaticité du processus de segmentation

Le processus de segmentation d’événements se produit automatiquement et en général à un niveau inconscient. Cela a été vérifié par Zacks et ses collaborateurs en 2001 à l’aide d’une mesure indirecte, la neuroimagerie fonctionnelle. Ces auteurs ont présenté à leurs

participants plusieurs vidéos montrant des personnes engagées dans des activités de la vie quotidienne (e.g., faire la vaisselle). Ils ont mesuré l’activité cérébrale des participants durant le visionnement à l’aide d’une IRM fonctionnelle. Après que les participants aient regardé passivement les vidéos, ils les ont à nouveau visionnées mais cette fois avec la consigne de les segmenter en identifiant les frontières entre événements qui leur paraissaient naturelles et signifiantes. Les frontières identifiées explicitement par les participants ont servi ensuite de marqueurs pour l’analyse des données issues de l’imagerie fonctionnelle. Les auteurs ont pu observer que l’activité de certaines régions cérébrales était fortement liée à ces marqueurs.

Plus précisément, ces régions présentaient une augmentation d’activité transitoire débutant quelques secondes avant la limite d’un événement, et culminant quelques secondes après. Le fait que cette mesure ait été effectuée avant qu’il ne soit demandé aux participants de segmenter les vidéos est fondamental : cela exclut un effet spécifique de la tâche et soutient donc fortement l’idée que la segmentation d’événements a lieu automatiquement durant la perception.

1.2.4. Niveaux de segmentation

Un événement donné peut être décomposé en sous-événements. Cela implique que la segmentation puisse se produire à différents niveaux, de manière plus fine ou plus grossière.

Lorsqu’il est explicitement demandé à des participants de segmenter du matériel (des vidéos ou des récits), le niveau de segmentation peut être manipulé en spécifiant la consigne. Pour solliciter une segmentation fine, l’expérimentateur demandera au participant de marquer les frontières entre les plus courts événements qu’il estime naturels et signifiants. A l’inverse, une segmentation grossière résultera de l’identification des événements signifiants les plus longs, représentant généralement un but global composé de plusieurs étapes. La théorie de la segmentation d’événements postule que la segmentation se produit à plusieurs niveaux simultanément (les frontières entre événements sont donc perçues selon plusieurs échelles), mais que les individus ne prêtent attention qu’à un niveau de segmentation à la fois, selon les instructions reçues dans un setting expérimental, et selon d’autres critères dans des situations plus naturelles (Zacks et al., 2007). Les résultats de l’étude en imagerie fonctionnelle de Zacks et collaborateurs (2001) décrite précédemment vont dans le sens de cette hypothèse.

Après le visionnement passif, les participants ont en fait segmenté deux fois les vidéos, une fois avec la consigne de le faire finement, et l’autre fois grossièrement. Les deux niveaux de segmentation ont produit des marqueurs correspondant à des augmentations transitoires d’activation des mêmes régions cérébrales. Ces activations étaient plus fortes au niveau des

marqueurs de segmentation grossière. Ce résultat est également cohérent avec la théorie de la segmentation. En effet, même si l’incertitude et donc les erreurs de prédiction augmentent entre deux sous-événements d’une même activité globale, une part de l’action reste généralement prévisible. À l’inverse, lors d’un changement d’activité, l’observateur ne dispose presque d’aucun indice pour prédire ce qui va suivre, et l’activation résultant de cette incertitude est donc plus forte.

1.2.5. Segmentation et souvenirs

La segmentation d’événements étant un processus automatique faisant partie intégrante de la perception, elle a nécessairement une influence sur l’encodage en mémoire des informations perçues. On peut donc également s’attendre à ce que les représentations récupérées en mémoire reflètent son fonctionnement. Williams, Conway et Baddeley ont mis en évidence ce fait dans une étude de 2008. Ils ont demandé à leurs participants de rappeler, à l’écrit, tout ce qu’ils pouvaient concernant leur trajet en direction de l’université le matin même de la passation. Les participants avaient ensuite pour tâche de diviser ce qu’ils avaient rappelé en unités qu’ils considéraient comme des souvenirs discrets. Les auteurs se sont particulièrement penchés sur la nature des détails composant le début et la fin des événements distincts identifiés par les participants. Ils ont constaté que les détails rapportés par les participants pouvaient être distribués en quatre catégories : les actions (effectuées par le participant ou un tiers), les pensées (réflexions ou opinions que le participant rapporte avoir eu en tête), les sensations (perceptions sensorielles et sensations physiques) et les faits (détails factuels liés au récit). Les auteurs ont observé que les segments identifiés par les participants avaient une forte probabilité de débuter avec un détail de type action, et de se terminer avec un fait. D’après les auteurs, cette structure Action-Fait des souvenirs reflète le fait que l’organisation des détails en mémoire épisodique est largement déterminée par les buts qui ont guidé le traitement de l’expérience vécue. Avant d’aller plus loin dans la description des liens qui existent entre la segmentation d’événements et la mémoire épisodique, nous prendrons le temps de mieux définir cette dernière.