Limites et adaptations - Évaluation du processus de segmentation d'événements : élaboratio

4. Discussion

4.2. Limites et adaptations

Les tâches élaborées dans ce projet ainsi que la procédure d’exploration comportent certaines limites qu’il est important de relever. Nous allons donc les spécifier et tenter de proposer des pistes d’amélioration pour certaines d’entre elles.

Méthodologie de l’exploration

La méthodologie de notre étude exploratoire présente certaines limites. La première que nous pouvons citer est la taille de notre échantillon. Le nombre restreint de sujets (33 participants) inclus dans nos analyses a certainement eu un impact sur nos résultats, en réduisant la puissance des tests statistiques notamment. Certains de nos résultats auraient probablement atteint le seuil de significativité si notre échantillon avait été plus grand. C’est d’ailleurs pourquoi nous avons choisi d’interpréter aussi certains résultats tendanciels.

Nous pouvons également citer la longueur de la procédure. En effet, nous avions prévu que la passation complète durerait environ 1 heure 30. Dans la pratique, certains participants ont complété la procédure en à peine plus d’une heure, mais il a fallu 2 heures voire plus pour d’autres. Notamment, la tâche de reconnaissance d’images, qui s’est révélée particulièrement difficile, a souvent pris bien plus que les 6 minutes que nous avions estimées. La passation a donc eu une durée plus variable que nous l’avions prévu. De ce fait, nous pouvons supposer que des effets de fatigue ont impacté les performances de certains participants, en particulier pour le sous-test Mémoire Logique II qui est administré en fin de passation.

Tâche de segmentation de vidéos

Concernant la tâche de segmentation de vidéos, les deux premières limites que nous avons relevées se rapportent aux vidéos utilisées. En effet, lors de nos passations, nous avons noté que la qualité d’image (malheureusement assez faible) des vidéos a gêné certains participants, qui avaient de la peine à identifier certains objets/éléments durant le visionnement. Par ailleurs, certains participants ont également exprimé un certain ennui, considérant les vidéos un peu trop longues et peu intéressantes. Cela induit une tendance à détourner l’attention de la vidéo chez ces participants. Ces deux limites inhérentes aux vidéos nous font suggérer qu’il serait probablement préférable que de nouvelles vidéos soient filmées, suivant un format similaire mais en meilleure qualité, et éventuellement plus courtes.

Cela impliquerait par contre d’effectuer une nouvelle étude pour assurer qu’une tâche comportant des vidéos plus courtes permette néanmoins une mesure correcte de la segmentation d’événements. Pour rappel, nos vidéos d’intérêt duraient respectivement 329 s et 376 s. Dans les études précédentes utilisant le paradigme de segmentation de vidéos, des vidéos de moindre longueur ont déjà été utilisées : une vidéo de 246 s par Kurby et Zacks

(2011) et une de 249 s par Bailey et collaborateurs (2013). Nous considérons donc que l’utilisation de vidéos d’une durée inférieure de une à deux minutes par rapport à celles que nous avons montrées devrait tout de même permettre une bonne mesure des capacités de segmentation d’événements.

Une autre limite de cette tâche réside dans le calcul permettant d’obtenir le score des participants. En effet, le score obtenu par un participant pour l’accord de segmentation n’est pas indépendant du nombre de fois où il a segmenté la vidéo. Il existe un score maximum pouvant être obtenu pour un nombre de frontières identifiées donné ; plus le nombre de frontières est petit, plus le plafond est bas. D’autre part, une personne ayant appuyé un très grand nombre de fois a plus de probabilité que les frontières qu’elle a identifiées coïncident avec celles que les autres personnes ont marquées et donc son score minimum est plus élevé que celui des participants ayant appuyé plus rarement. Les personnes ayant naturellement segmenté grossièrement, et donc identifié peu de frontières sont donc automatiquement

« désavantagées » par ce calcul. Or d’un point de vue théorique, on ne peut affirmer qu’une segmentation fine des vidéos témoigne de meilleures capacités de segmentation qu’une segmentation grossière. Ce problème est particulièrement saillant dans notre échantillon puisque nous n’avons pas contraint nos participants quant à la manière de segmenter (plutôt finement ou plutôt grossièrement). L’étendue du nombre de frontières identifiées est donc très large. Cette limite est problématique puisqu’elle induit un risque de sous-estimation des capacités de segmentation pour les personnes qui segmentent naturellement grossièrement, et un risque de surestimation pour ceux qui segmentent spontanément de manière fine. Il faudrait donc appliquer au score d’accord de segmentation une correction qui permette de prendre en compte ce phénomène.

Enfin, d’un point de vue plus conceptuel, rappelons que même si nous avons tenté de rendre cette tâche la plus « écologique » possible, elle ne reproduit pas littéralement les conditions du fonctionnement naturel du processus de segmentation dans la vie quotidienne.

La différence la plus évidente tient au fait que l’on demande aux participants d’effectuer la segmentation des vidéos de façon explicite et intentionnelle alors que le processus de segmentation d’événements se produit généralement de manière automatique et à un niveau inconscient. Bien qu’il s’agisse d’une différence notable, l’étude en neuroimagerie fonctionnelle de Zacks et collaborateurs (2001) suggère que les deux « modes » de segmentation conduisent à l’identification de frontières identiques (ou du moins superposées).

La deuxième différence notable tient au fait que lors de la passation de cette tâche, la position du participant est celle d’un observateur passif, dans le sens qu’il ne peut prendre part à

l’activité observée ni interagir avec la personne engagée dans l’activité. Dans la vie quotidienne, cette situation pourrait correspondre au fait de regarder la télévision. La plupart du temps néanmoins, nous sommes actifs et interagissons avec notre environnement. Ainsi, au quotidien, la segmentation d’événements se fait en grande partie en rapport à notre propre activité. Rappelons ici que le processus de segmentation d’événements est en étroite relation avec l’identification des buts. Or, lorsque nous observons l’activité d’une tierce personne, ses buts sont généralement inférés à partir des informations de mouvements, et il arrive que le but ne soit pas identifiable (e.g., dans le cas d’une activité que nous ne connaissons pas). La fin de l’activité est alors perçue grâce aux changements dans les caractéristiques de mouvements.

Dans le cas de notre propre activité, nous en connaissons généralement le but avant même de nous y être engagés. C’est pourquoi il serait intéressant de comparer la tâche de segmentation de vidéos à une évaluation de la segmentation d’événements basée sur l’activité propre de l’individu, telle que l’entretien clinique que nous avons tenté d’élaborer.

Entretien clinique d’évaluation de la segmentation d’événements

Pour ce qui est de l’entretien clinique d’évaluation de la segmentation, nos résultats indiquent que l’indice d’identification claire des frontières ne permet pas d’évaluer les capacités de segmentation d’événements comme nous le souhaitions. Pour autant, la consigne de l’entretien clinique de segmentation remplit ses objectifs puisqu’elle nous a permis de récolter des récits composés d’une série de souvenirs épisodiques. Notre problème se situe donc au niveau de l’évaluation de ces productions en vue d’estimer les capacités de segmentation. Nous avions choisi d’utiliser les marqueurs temporels comme indicateurs des capacités d’identification des frontières des participants. Nous avons cependant constaté que nombre d’entre eux n’en ont utilisé que très peu, malgré un récit fourni et qualitativement bien structuré. À la lecture des retranscriptions, nous pouvions souvent identifier les différents événements qui composaient le récit de façon aisée malgré l’absence de marqueurs temporels les délimitant. Nous avions également décidé de tenir compte du nombre d’événements rappelés. Le problème ici est que le calcul que nous avons effectué a pour conséquence de rendre le score à l’indice d’identification claire des frontières inversement proportionnel au nombre d’événements rappelé. Or un grand nombre d’événements rappelés tendrait plutôt à indiquer que l’activité a bien été segmentée. Il sera donc nécessaire à l’avenir de trouver une autre façon de coter ces récits afin d’estimer les capacités de segmentation des individus.

Tâche de reconnaissance d’images

Concernant la tâche de reconnaissance d’images, elle présente la même limite que la tâche de segmentation de vidéos : la qualité des images est trop faible. Cela rend difficilement

identifiables une partie des objets présents dans les images, notamment ceux avec lesquels les acteurs interagissent. Cela peut donc péjorer les performances des participants.

Par ailleurs, comme nous l’avons déjà évoqué, dans les images leurres l’acteur est souvent engagé dans une activité qu’il a effectivement réalisée dans la vidéo et c’est la présence/absence d’un objet qui constitue « l’erreur ». Or nous avons constaté que beaucoup de nos participants se focalisaient sur l’action montrée dans l’image (exprimant des remarques telles que « ça il l’a fait, mais ça aussi ») et que cela rendait donc la tâche particulièrement difficile pour eux. Les consignes de la tâche n’indiquent pas de quelle nature sont les différences entre les images leurres et les vidéos. Il se peut en revanche que cette tendance observée chez nos participants soit induite par la passation antérieure de la tâche de rappel des vidéos. En effet dans la consigne de celle-ci, il est clairement indiqué que ce sont les actions de la personne qui doivent être rapportées. Cela peut également être renforcé par le fait que durant la tâche de segmentation de vidéos, les participants se focalisent sur les actions réalisées par les acteurs pour segmenter. Il serait peut-être pertinent d’ajouter au début de la tâche de reconnaissance un exemple pour lequel la bonne réponse serait donnée, et qui montrerait aux participants que l’indice permettant de distinguer l’image leurre de l’image correcte peut être indépendant de ce qu’est en train de faire l’acteur.

Enfin, comme cela est illustré dans la Figure 4, les deux images constituant une paire ne représentent la plupart du temps pas le même instant de la vidéo. La résolution d’une paire ne peut donc pas s’effectuer par la comparaison des deux images. Au contraire, chaque image doit être traitée séparément pour déterminer si elle est correcte ou non. On peut donc s’interroger sur la pertinence d’effectuer une reconnaissance en choix forcé plutôt qu’une reconnaissance oui/non.

Dans le document Évaluation du processus de segmentation d'événements : élaboration et exploration d'un canevas d'entretien clinique et d'une tâche psychométrique (Page 53-56)