• Aucun résultat trouvé

Prise en compte des émotions

3.2 Proposition d’un module de simulation de mouvements

3.2.6 Prise en compte des émotions

Comme nous l’avons évoqué au début de ce chapitre, les contraintes que doit vérifier un humanoïde sont cinématiques, dynamiques et liées au style. Même si on spécifie des contraintes cinématiques et dynamiques, il reste en effet un grand nombre de mouvements possibles vu la complexité du corps humain. Depuis quelques années, de nombreux tra-vaux ont ainsi cherché à caractériser le style et les émotions dans un mouvement capturé. Sur ce sujet, il existe aussi plusieurs travaux menés dans les neurosciences. Pour les gestes de communication, l’équipe de N. Badler a proposé un modèle cinématique agissant sur les fréquences et les amplitudes de trajectoires articulaires afin de générer des gestes contenant de l’émotion [Chi 00]. Ce type de modèle est inspiré de recherches menées en psycholo-gie [Wallbott 98]. C’est donc clairement un sujet qui peut amener les deux communautés à travailler ensemble.

Dans le cadre d’un projet CNRS ROBEA (projet HuGEx) et d’une thèse financée par le conseil régional de Bretagne (thèse d’Alexis Héloir co-dirigée avec Sylvie Gibet du VA-LORIA de l’Université Bretagne Sud), nous cherchons à définir les outils de base pouvant servir à un tel travail. Ce travail s’effectue dans le cadre de la langue des signes fran-çaises mais pourrait certainement s’appliquer à d’autres gestes. Notre approche s’inspire des travaux cherchant à caractériser la différence entre un mouvement dit "neutre" d’un autre chargé d’émotions ou utilisant un style différent [Amaya 96, Brand 00, Hsu 05]. Les analyses en composantes principales (ACP) et les analyses en composantes indépendantes (ACI) ont été largement étudiées pour animer un mouvement tout en préservant le style contenu dans des données capturées [Cao 03, Glardon 04, Safonova 04]. Cependant, ces approches ne prenant pas le temps en compte ne peuvent pas caractériser les transforma-tions temporelles induites par le style.

Caractériser ces transformations temporelles fait généralement appel à des algorithmes de type Dynamic Time Warping noté DTW (que l’on pourrait appeler algorithmes d’ali-gnement temporel) [Myers 81]. Le principe est de chercher une fonction non-uniforme de déformation de l’axe temporel d’un mouvement pour qu’il corresponde au mieux à un se-cond. L’algorithme revient à calculer une matrice de distances entre toutes les paires de points appartenant à deux séquences. Dans cette matrice, on cherche ensuite un chemin menant de la première donnée à la dernière tel qu’il minimise le cumul de coûts indiqués dans la matrice. La programmation dynamique est généralement utilisée pour résoudre ce dernier problème. Elle consiste à tester tous les chemins possibles et prend donc beaucoup de temps de calcul.

Cette méthode a été utilisée pour aligner des mouvements afin de les rendre compatibles pour un algorithme de mélange [Kovar 03]. On peut aussi obtenir une fonction de déforma-tion du temps faisant passer d’un mouvement dit "neutre" à une autre réalisadéforma-tion contenant un style plus prononcé de manière automatique [Hsu 05] ou semi-assistée [Shapiro 06].

Le principal problème à résoudre est la définition d’une fonction de distance entre des postures de deux mouvements qui soit plus sensible à des changements temporels que spa-tiaux. Dans le cas contraire, deux événements arrivant au même instant mais avec une amplitude différente ont la même distance que deux postures distantes dans le temps mais ayant la même amplitude. Cette confusion conduit à des fonctions de transformation tem-porelle qui n’ont pas de sens.

Pour diminuer l’influence des variations temporelles, nous avons choisi de travailler dans l’espace des principales composantes fournies par une analyse en composantes principales (ACP) des mouvements comme le suggère [Forbes 05]. Ainsi, un mouvement dit "neutre" est décrit comme une matrice Mref de n lignes (autant que d’images) et m colonnes (au-tant que de degrés de liberté). Les principaux vecteurs propres sont extraits de Mref en utilisant une décomposition en valeurs singulières (SVD) :

Mref = UrefΣrefVrefT (3.7) où Urefet Vref sont des matrices unitaires orthogonales issues du processus SVD, et Uref est une base orthonormale décrivant la succession de postures. Ainsi, toute réalisation i du mouvement avec un style différent donne lieu à une matrice Miqui peut se projeter dans cette base pour limiter l’influence des modifications d’amplitudes :

ViT = Σ+refUrefT Mi (3.8) oùΣ+ref la transposée de Σref dans laquelle chaque valeur non nulle est remplacée par sa réciproque, et Viest la projection de Midans la base Uref. Dans cette espace, la dis-tance entre deux postures est donc moins sensible à des modifications d’amplitudes. Nous adaptons ensuite un algorithme DTW rapide qui permet de restreindre la programmation dynamique à une zone plus ou moins large autour de la diagonale. De plus, l’algorithme de DTW rapide adopte une stratégie hiérarchique qui permet de trouver un chemin grossier qui est affiné de manière itérative. En plus d’être accéléré, cet algorithme évite de mettre en cor-respondance des postures trop éloignées dans le temps mais très semblables [Salvador 04]. L’adaptation que nous avons proposée porte sur l’ajout d’une contrainte sur la continuité de la fonction de transformation temporelle pour éviter les artefacts couramment rencontrés avec ces méthodes.

Nous avons appliqué cette méthode à un corpus de mouvements de la langue des signes pour lequel nous avions demandé à un signeur professionnel de répéter plusieurs fois les mêmes bulletins météo en faisant varier le style (colère, fatigue. . .). Un résultat est donné en figure 3.20 où l’on voit une succession de postures d’un bulletin réalisé avec un style "neutre" (en haut), en dilatant uniformément la séquence de style "colère" (milieu) et en appliquant notre méthode sur cette même séquence (en bas). On constate une meilleure correspondance entre les postures du bas et du haut à un même instant qu’en utilisant un alignement temporel uniforme. Ceci montre que l’on a bien capturé les subtilités des transformations temporelles faisant passer d’un style à l’autre.

La figure 3.21 permet de comparer les résultats obtenus grâce à notre approche (en bas) avec des méthodes de DTW classique (deuxième ligne), de DTW contraint (troisième ligne). Ceci a été testé sur les deux réalisations du même bulletin météo présentées dans la première ligne (trait plein et trait avec pointillés). On peut constater que les approches DTW classiques génèrent des lignes horizontales qui n’ont pas de sens et engendrent des discon-tinuités dans le geste. Nous avons aussi tester une autre variante appelée DTW contraint qui permet d’éviter les discontinuités générées par l’algorithme DTW classique. Ces dis-continuités interviennent quand le chemin implique de rester plusieurs pas de temps sur une même posture pour synchroniser deus signaux. Le DTW contraint offre d’ailleurs de meilleurs résultats mais les deux séquences ne sont pas très bien recalées temporellement. Notre méthode offre les meilleurs résultats de ce test.

FIG. 3.20 – Postures décrivant un bulletin météo réalisé avec le style "neutre" (en haut), en appliquant une transformation homogène du temps à partir d’un style "colère" (au milieu) et en appliquant notre méthode sur le même style (en bas).

Notre approche définit donc des fonctions de transformation du temps qui permettent de passer d’un style à un autre dans la synthèse de gestes de la langue des signes. Les méthodes cinématiques qui modifient les caractéristiques (amplitude et fréquence) des gestes de ma-nière homogène quel que soit le geste étudié sont peut-être trop génériques. L’avantage de notre méthode est de proposer une fonction de transformation adaptée à chaque séquence gestuelle. Il serait intéressant de rechercher ensuite s’il existe des éléments communs ou s’il y a, plus probablement, des adaptations liées aux gestes eux-mêmes.

Ce travail est préliminaire et il nous reste un grand nombre d’améliorations à propo-ser. Tout d’abord, il est nécessaire de valider cette approche sur un plus grand nombre d’échantillons et de mener des expérimentations auprès de signeurs pour vérifier qu’ils re-connaissent les signes produits ainsi que le style qu’ils sont supposés contenir. Il faudrait aussi essayer cette méthode sur d’autres types de mouvements. Il subsiste un problème

dans le cas où le style implique des répétitions qui ne sont pas contenues dans la réalisation "neutre". C’est le cas lorsqu’une personne en colère répète rapidement un même mouve-ment vertical de la main alors que ce geste n’est présent qu’une seule fois dans le style "neutre". Il nous faut évidemment aussi gérer les transformations spatiales.