Auto-annotation : les contraintes d’adaptation pour la personne âgée personne âgée

sciences du langage

3.4. Protocoles expérimentaux

3.4.3. Auto-annotation : les contraintes d’adaptation pour la personne âgée personne âgée

3.4.3.1. Choix et conditions de l’auto-annotation

Le protocole d’une auto-annotation est spécifique à chaque cas de recherche, car elle dépend des hypothèses théoriques à tester qui permettent d’orienter et de contrôler la tâche du sujet. De plus, selon les caractéristiques des sujets, le format du protocole varie pour s’adapter aux personnes. Il essaie de réduire le surplus de charges cognitives associées, car l’annotation en soi demande un effort cognitif non négligeable d’accès à la mémoire et sur des séances relativement longues. De manière générale, elle s’effectue sous forme d’un entretien semi-directif outillé.

Le mode de recueil peut également varier selon l’âge des sujets ou encore la nature ou le degré de finesse attendu sur les étiquettes. Ainsi une réflexion est à mener sur : 1) les informations à recueillir, 2) le moment (c.-à-d. la durée entre le jour de l’expérience et le jour de l’auto-annotation) et le lieu de l’entretien (p. ex. au laboratoire, domicile ou autre environnement d’acquisition de données), 3) les outils à utiliser pour le visionnage (p. ex. taille de l’écran et formats de vidéo à montrer), 4) la modalité de transcription/enregistrement des données (p. ex. nombre d’annotateurs, enregistrement audio/vidéo de la séance, le matériel utilisé) avec d’éventuelles tâches supplémentaires (p. ex. reproduction de certains stimuli, imitation, schématisation, dessin… etc.).

Dans le cadre du corpus EEE, l’auto-annotation s’effectue en moyenne entre un à trois mois après le passage sur la plateforme expérimentale. L’expérience étant un changement notable dans le quotidien de la personne, cet intervalle de temps permet d’une part d’atténuer les émotions directes liées à la situation expérimentale, sujettes à favoriser des interprétations motivées. D’autre part, il favorise l’accès aux souvenirs les plus marquants pour la personne et donc supposés également les plus résistants au temps.

Une séance d’auto-annotation dure en moyenne entre deux et quatre heures pour la plus longue. Cette durée est variable en fonction bien sûr de la durée de l’expérience dans Domus mais aussi de la densité d’informations liée à la richesse des interactions du sujet avec le robot : le nombre d’interactions plus ou moins important, les multiples changements d’état du sujet, la présence d’éléments plus ou moins perturbateurs dans la situation d’interaction sur l’état du sujet (p. ex. pannes, appels téléphoniques… etc.), ou encore des spécificités de perception très personnelles pouvant donner lieu à des différences interpersonnelles marquées. Cette dernière variation est en revanche l’un des enjeux d’uniformisation des annotateurs. La séance s’est effectuée au domicile de la personne, préférentiellement avec deux annotateurs : un interrogateur et un transcripteur, mais nécessairement au moins un interrogateur. Toutes les séances sont enregistrées sur un dictaphone classique.

3.4.3.2. Prétraitement des données

Les sujets s’appuient sur les vidéos de l’expérience afin de pouvoir réaliser une auto-annotation, ce dernier se déplaçant dans l’appartement qui est doté de six caméras, d’angles de vue différents. Il est donc cognitivement lourd de se repérer sur l’ensemble de l’expérience, à travers ces six petits écrans. De plus, la taille de l’image est en soi problématique pour un public qui présente majoritairement une perte d’acuité visuelle, plus ou moins importante. Un premier traitement est donc d’avoir une seule vidéo zoomant sur les angles de vue où le sujet et le robot sont bien visibles, et agrandir les images au maximum sans perdre trop de qualité, pour faciliter le visionnage des données d’expérience.

Par ailleurs, le type des caméras de la plateforme et l’infrastructure technique impliquent que toutes les données des sujets soient capturées sur des canaux d’enregistrement

individuels et séparés. Les vidéos et les sons ne sont donc pas initialement couplés ensemble. Il est alors possible d’associer les éléments de deux manières :

- soit les vidéos sont associées avec les canaux de microphones de l’appartement. Chaque canal audio est alors couplé avec la vidéo de la caméra qui est le plus proche du microphone d’acquisition concerné.

- soit les vidéos sont associées avec le canal du micro-casque que portait le sujet sur lui, qui donne une bonne qualité de ce que la personne dit, en revanche étouffe énormément les bruits ambiants, dont les feedbacks d’Emox, alors qu’ils sont justement supposés être des déclencheurs de comportements interactionnels chez le sujet.

Les deux sont fondamentalement nécessaires pour l’analyse des données par la suite, mais pour l’auto-annotation, ce sont les données sur le premier couplage qui ont été choisies, ces derniers permettant d’entendre plus facilement les bruits environnants, favorisant la réminiscence des souvenirs à l’appui de la mémoire autobiographique des sujets (cf. Annexe 7 pour les détails de paramétrage).

De plus, l’acuité auditive suivant les mêmes contraintes que celles du visuel, il existe deux versions des vidéos associées aux canaux des micros ambiants : d’une part une version originale sans traitement qui pourrait être directement utilisée comme données d’entraînement pour un système de reconnaissance automatique et qui fonctionnerait par ces mêmes micros le cas échéant. D’autre part une version « nettoyée » qui consiste : 1) en un dé-bruitage partiel (p. ex. de bruits de fond de ventilations, grésillements fortuits), et 2) une amplification du son pour faciliter la séance d’auto-annotation (ceci est réalisé avec le logiciel Audacity). Malgré ces modifications, l’ajout d’enceintes et parfois même l’utilisation de casques a été nécessaire pour certains sujets.

D’autre part, une auto-annotation propose un visionnage pas-à-pas de la vidéo et elle nécessite de pouvoir répéter une séquence dans certaines conditions. Ces manipulations doivent donc être facilitées au maximum, sachant qu’il est ergonomiquement impossible de les effectuer sur les lecteurs multimédias classiques. Afin également d’éviter d’oublier des commandes, le prétraitement prévoit un séquençage, initialement arbitraire, d’intervalles qui englobent une commande avec ce qui la précède et ce qui la suit (cf. Chapitre 4, section 4.2). L’enchaînement ininterrompu des séquences permettra ainsi une présentation chronologique, en donnant la possibilité de revoir une même séquence plusieurs fois, tant que la description de cette dernière n’est pas terminée. Le protocole privilégiant le découpage temporel défini par le sujet, le séquençage est à modifier à travers cette procédure et ne représente qu’une aide provisoire. Enfin, la vidéo annotée concerne une partie qui a été nommée « Expé » dans le corpus EEE. À l’appui du scénario d’ensemble tel qu’il est illustré Figure 36, la vidéo commence par quelques minutes introductives (moins de deux minutes) montrant la fin de l’amorçage pour aider les sujets à se remémorer le contexte de l’expérience après leur entrée dans l’appartement, une fois que les accompagnants (AD et E2) sont sortis de l’appartement. En revanche, nous avons la présence de E1 afin de conserver la présentation du robot ainsi que la production de la première commande. Sans aucune coupure, cette vidéo illustre donc la situation dyadique entre le robot Emox et les personnes âgées. Elle se termine par le retour des complices (AD et E2) et s’arrête à l’entrée de E1 qui marque le début du débriefing.

3.4.3.3. Déroulement de la séance

Une feuille de route de séance dédiée aux expérimentateurs est disponible Annexe 7. En voici les points clés :

Le transcripteur se met en arrière-plan lors de la séance et guette les potentiels descripteurs associés aux séquences. Il essaie de transcrire les impressions du sujet avec les mots exacts que ce dernier emploie, en triant les informations utiles ou non. Il suit les séquences prédécoupées qui sont visionnées au pas-à-pas par le sujet sur son propre écran. Il aligne en direct les descriptions sur chaque séquence. La nature des informations fournit par

le sujet ne visant pas à suivre exactement les frontières de séquences, et va même potentiellement se chevaucher entre elles. Le découpage temporel est donc idéalement effectué en direct, comme il est décrit par le sujet, mais cette tâche reste complexe le transcripteur ne peut interrompre intempestivement la séance. Il tente donc de rajouter les informations marquant des événements précis au sein de chaque séquence pour associer les étiquettes aux bons endroits afin de marquer les frontières d’annotations, et cela, les plus précisément possible. Afin qu’il puisse revoir ou vérifier les séquences de son côté, il peut utiliser des écouteurs pour éviter de perturber la séance tout en lui facilitant cette tâche.

L’interrogateur, quant à lui, suit une procédure, quasi-maïeuticienne. Il présente les séquences une par une, en suivant le même écran que le sujet. Sa tâche est de faire émerger les descripteurs permettant de répondre aux questions de recherche de l’étude, sans jamais proposer de valeurs d’étiquettes. De cette manière, le sujet est invité dans une méta-tâche dans

laquelle il essaie de se souvenir des Feelings of Thinking auxquels il a été confronté au

moment même où il réalisait les actions ou non-actions qu’il visionne. L’interrogation n’est cependant jamais explicite quant à la nature ou la valeur du FoT. C’est à l’interrogateur de décider alors si les informations attendues ont été données par le sujet et de le solliciter répétitivement tant que les commentaires du sujet ne contiennent pas des descripteurs concordants à la nature des informations recherchées. L’Annexe 7 donne une feuille de route quant à la manière d’introduire une séance et les exemples types de questions qui peuvent être posées par un interrogateur pour faciliter la démarche.

Les annotateurs utilisent ainsi deux interfaces séparées sur le logiciel d’annotation vidéo Elan (Brugman, Russel, et Nijmegen, 2004). Une première, qui est présentée au sujet est simplifiée au maximum. Elle permet de revoir de manière simple et rapide la séquence en cours (notamment pour réduire le coût cognitif de la tâche). La seconde interface, dédiée à l’annotateur-scripteur, présente les mêmes séquences que celles de l’interface sujet, mais elle est indépendante de la première pour permettre d’afficher des tiers séparés, voire de modifier les frontières de séquence sans que cela ne perturbe le sujet. L’ergonomie de ces interfaces reste toutefois à retravailler. L’avantage de l’outil est qu’il est intuitif et ouvert à de nombreux formats de fichiers. Il présente également l’avantage d’une compatibilité de partage de fichiers avec le logiciel de manipulation de signal audio, Praat (Boersma, 2006).

Pour le cas des personnes âgées, il existe par ailleurs un risque qui est celui de perturber la personne en lui montrant une vidéo qui lui renvoie une image différente de celle qu’elle imaginait, ce qui peut avoir des conséquences importantes en cas de fragilisation. En effet, par l’isolement, sa propre représentation sociale est déjà dégradée vis-à-vis de l’inconsistance de sa place sociale (Bennett, 1973 ; Cornwell et Waite, 2009 ; Pitaud, 2013). Or sa perception peut également être faussée du fait des déformations inhérentes au type de la caméra (c.-à-d. des vues plongeantes du plafond) ou de la qualité de l’enregistrement audio. En tant qu’expérimentateur, la précaution minimale est de pouvoir rassurer la personne âgée. Il lui rappelle que la perception que l’on peut avoir de sa voix et de son corps est toujours en décalage sur les enregistrements numériques. Il peut également effectuer des suivis après séance, en consultant les partenaires sociétaux pour éviter toute perturbation de la personne et les prévenir de cet état. Par ailleurs, les contraintes physiques des personnes sont parfois handicapantes pour une séance de travail longue. Cette dernière peut donc être ponctuée de petites pauses (notamment pour la réhydratation des sujets), qui soient choisies sur des moments avec moins de dynamisme interactionnel, en évitant toutefois de trop s’attarder. Les coupures doivent minimiser la perte du déroulement temporel qui facilite l’accès à la mémoire autobiographique. De plus, cette séance doit être unique et elle est nécessairement réalisée en une seule fois.

Chapitre 4. Corpus EEE : vers une modélisation de

Dans le document Intelligence Socio-Affective pour un Robot : primitives langagières pour une interaction évolutive d'un robot de l’habitat intelligent (Page 176-181)