• Aucun résultat trouvé

L

EStravaux de cette thèse se sont donc placés dans le cadre de l’apprentissage par corpus pour la génération de comportement d’agents conversationnels animés. Ainsi, ils ont suivi le schéma de fonctionnement "classique" qui est illustré dans la figure1.3: des données en entrée aux fichiers de synthèse en passant par les modèles d’analyse. Les contributions de cette thèse reflètent ce processus et correspondent donc à chacune des étapes. Elles peuvent être divisées en deux grandes parties : données et modèles.

Les premières contributions sont donc sur les données :

Élaboration d’un corpus multimodal d’études annoté en attitude interpersonnelles et en prise de parole en public

La mise en place d’un processus de traitement de données extraites automatiquement en vue d’une tâche de synthèse

Elles sont détaillées dans le chapitre2. Avec une analyse des corpus existants, les pre-mières études mettent en avant un certain nombre de limitations. Elles sont en partie liées aux contraintes choisies dans le cadre de cette thèse : l’utilisation d’algorithmes pour ex-traire les signaux sociaux sans intervention humaine nécessite une certaine qualité dans les données à étudier ainsi qu’un certain cadrage des intervenants.

Un corpus dédié a été mis en place. Il fournit ainsi une base de travail contenant des vi-déos de bonne qualité, permettant une extraction automatique des signaux fiable, avec des annotations en attitudes sociales. De plus, il sera enrichi au fil des années à venir. Il offre ainsi à la communauté des vidéos de très bonne qualité, annotées finement en attitudes sociales, pour des allocutions en public.

Ce corpus a mené à l’élaboration d’un processus automatique d’extraction et de traitement de signaux sociaux focalisé sur le but final : une tâche de synthèse sur un agent virtuel. Les recherches ont aussi porté sur la méthodologie de traitement des signaux extraits automatiquement pour cette tâche de synthèse. Passer directement du corpus annoté en comportement aux modèles de génération (sans passer par des annotations manuelles en signaux sociaux) diffère des traitements classiques pour des tâches de classification. De plus, l’extraction automatique comporte des risques d’erreurs qu’il a fallu maîtriser.

CHAPITRE 1 – INTRODUCTION

Deux angles d’analyse ont ensuite été explorés, permettant la construction de deux modèles qui constituent deux autres contributions :

Une méthode d’analyse et de synthèse basée sur de la fouille de données : SMART pour Social Multimodal Association Rules with Timing qui trouve des règles d’associations temporelles entre les signaux sociaux et les lie à l’expression d’attitudes sociales.

Une méthode d’analyse et de synthèse basée sur de l’apprentissage profond : SSN pour Social Separation Network qui cherche dans la dynamique des signaux sociaux des représentations propres à une tâche et des représentations partagées par plusieurs.

Ces solutions sont présentées dans les chapitres 4 et 5. Les deux modèles intègrent la dynamique temporelle des signaux sociaux et l’utilisent pour discriminer différents états affectifs. Les différentes solutions trouvent ainsi des représentations caractéristiques dans les données étudiées qui peuvent ensuite être synthétisées avec un agent virtuel.

Les résultats des deux méthodes sont cependant très différents. Par exemple, les repré-sentations trouvées par la fouille de données sont plus facilement interprétables par un humain. Néanmoins, ils soulignent tous l’intérêt de prendre en compte cette dynamique et la faisabilité d’utiliser des signaux extraits automatiquement. La conclusion de ce manus-crit discute des limites actuelles de ces modèles et propose des pistes pour les dépasser afin de compléter la génération de comportement d’agents conversationnels avec l’expression d’un état affectif choisi.

1.5.1 Liste des publications lors de cette thèse

Cette thèse a donné lieu a plusieurs publications nationales et internationales, listées plus bas, ainsi qu’à des communications comme au GDR-ISIS1. Des échanges ont égale-ment eu lieu lors de l’école d’été ISSAS 20162et lors d’une collaboration au sein de l’ICT3.

Janssoone, T. (2015). Temporal association rules for modelling multimodal social signals. In proceedings of the International Conference on Multimodal Interaction (doctoral consortium)

Janssoone, T., Clavel, C., Bailly, K., and Richard, G. (2016a). Des signaux sociaux aux attitudes : de l´utilisation des règles d´association temporelle. In proceedings of the WACAI 2016, Workshop . Affect . Compagnon Artificiel . Interaction

Janssoone, T., Clavel, C., Bailly, K., and Richard, G. (2016b). Using temporal as-sociation rules for the synthesis of embodied conversational agents with a specific stance. In proceedings of the International Conference on Intelligent Virtual Agents

1. http://www.gdr-isis.fr/index.php?page=reunion&idreunion=323

2. http://affective-sciences.org/home/education/summer-school-issas-2018/

summer-school-issas/

3. http://ict.usc.edu/

1.5. LISTE DES CONTRIBUTIONS

Janssoone, T., Clavel, C., Bailly, K., and Richard, G. (2017). Règles d’associa-tions temporelles de signaux sociaux pour la synthèse de comportements d´agents conversationnels animés : application aux attitudes sociales. Revue d’Intelligence Artificielle

Ce qu’il faut retenir :

Question de recherche :

Comment utiliser des signaux sociaux extraits automatiquement pour modéliser une dynamique propre à l’expression de comportements socio-émotionnels donnés ?

Objectif :

• Intégrer l’information temporelle dans les modèles de phénomènes affectifs. • Adapter cette information aux contraintes de la synthèse d’agent à partir de

signaux extraits automatiquement

• Proposer une méthodologie d’évaluation dans le design de cette approche Application :

Les attitudes sociales au sens d’Argyle, décrites selon deux axes : Dominance et Appréciation

Chapitre 2

État de l’art

Sommaire

2.1 Travail sur les signaux . . . . 22

Documents relatifs