• Aucun résultat trouvé

3.4 Mise en œuvre informatique

3.4.2 Sp´ ecificit´ es du niveau analyse

Au niveau analyse, on note une pr´edominance de travaux ne consid´erant que la partie sup´erieure du corps, et des bras et des mains en particulier. Ces travaux se focalisent g´en´ era-lement sur des situations d’interaction et de communication. Les informations de gestuelles viennent alors suppl´eer les informations ´emotionnelles tir´ees des expressions faciales et de la voix. Ainsi Balomenos et al. [5] consid`erent diverses cat´egories de mouvements des mains (par exemple “applaudissement rapide”, “applaudissement lent”, “lev´e de la main”) pour am´eliorer la reconnaissance par les expressions faciales. Parfois seules quelques caract´eristiques adap-t´ees au contexte d’usage sont utilis´ees pour la reconnaissance. Ainsi, Mota et Picard [102] d´eterminent l’int´erˆet d’un enfant en situation d’apprentissage par ordinateur grˆace `a sa seule position sur une chaise munie de senseurs de pression. Dans cette ´etude, les auteurs choisissent de ne pas restreindre les mouvements de l’enfant dans le protocole exp´erimental. Le syst`eme permet de reconnaˆıtre l’int´erˆet que porte l’enfant `a la tˆache d’apprentissage `a plus de 75%. La connaissance compl`ete de la position et du mouvement n’est donc pas forc´ement n´ecessaire. Pollick et al. [121] montrent que des vid´eos de mouvements ne repr´esentant que des points aux articulations du bras sont suffisantes pour que des observateurs humains, non conscients de ce que repr´esente la vid´eo, puissent ´evaluer la dimension d’activation de l’´emotion jou´ee. Cet exemple montre qu’une repr´esentation mˆeme d´egrad´ee d’un mouvement peut encore v´ehiculer de l’information ´emotionnelle.

Dans le cadre de notre m´emoire, nous nous int´eressons `a l’´etude du corps au complet, sans d´egradation de l’information. Nous n’avons relev´e que peu de travaux en informatique pre-nant cette mˆeme direction, `a l’exception de l’´equipe du laboratoire Infomus de Gˆenes, cr´e´e et dirig´e par Antonio Camurri. Ce laboratoire s’est attach´e depuis ces quelques derni`eres ann´ees `

a ´etudier l’expressivit´e du geste et `a reconnaˆıtre les ´emotions par la gestuelle dans diverses situations. Concernant les caract´eristiques de mouvement `a ´etudier, Castellano distingue dans [25] le “quoi” du “comment”, c’est-`a-dire la distinction entre la reconnaissance par identifica-tion de gestes connus et la reconnaissance par identificaidentifica-tion de la mani`ere dont ces gestes sont r´ealis´es. La diff´erence peut ˆetre mieux appr´ehend´ee en consid´erant le “quoi” comme une expression verbale (“lever la main”, “pencher la tˆete”) et le “comment” comme un adverbe (“rapidement”, “directement”). L’´equipe du laboratoire Infomus s’int´eresse au “comment” l`a o`u les approches modalit´es et fonctionnelles abordent plutˆot le “quoi” (section 3.1 page 51).

Les premiers travaux du laboratoire dans ce domaine datent de 1997 [18]. Camurri et al. y pr´esentent les pr´emisses d’une analyse bas´ee image du mouvement pour extraire l’expressivit´e du mouvement qui s’appuie entre autres sur l’Analyse du Mouvement de Laban (section 3.2). Ces travaux sont poursuivis en 2000 dans [23], o`u Camurri et Trocca introduisent le calcul d’expansion et de contraction du corps, en rapport avec la kin´esph`ere de Laban. Plus tard, en 2004, Volpe identifie dans [143] des caract´eristiques de mouvement relatives `a la danse extraites automatiquement pour la reconnaissance d’´emotions. Le syst`eme cr´e´e extrait des caract´eristiques de s´equences dans´ees. Ce syst`eme est divis´e en cinq processus successifs.

– Le premier processus consiste en la capture du danseur au moyen d’enregistrements vid´eo.

– Le deuxi`eme processus est un traitement bas niveau du signal vid´eo en vue d’extraire la silhouette et de suivre le mouvement. En particulier, Volpe extrait les images de mouvements de silhouettes (Silhouette Motion Images ou SMI) : Ces SMI sont le r´esultat de la juxtaposition des silhouettes des n derni`eres images de la vid´eo, desquelles on a retir´e la silhouette de la derni`ere image (figure 11a). Une SMI ne repr´esente donc plus que le mouvement qui a ´et´e effectu´e dans les n derni`eres images.

– Le troisi`eme processus effectue une analyse du mouvement de plus haut niveau. Tout d’abord, Volpe calcule la quantit´e de mouvement (Quantity of Movement ou QoM) du danseur. Cette quantit´e de mouvement se rapporte directement `a une SMI ; de fait la QoM est ´egal `a l’aire d’une SMI sur les n derni`eres images, divis´ee par l’aire de la silhouette de la derni`ere image. Cette division permet une normalisation par rapport `a la taille du danseur `a l’image (taille r´eelle du danseur et distance `a la cam´era). Volpe calcule ´egalement un index de contraction (Contraction Index ou CI) permettant de savoir si le mouvement est expansif (par exemple bras et jambes ´ecart´es) ou contract´e (danseur repli´e sur lui-mˆeme). Le CI dans une image i est ´egale au rapport entre l’aire de la silhouette dans i et son rectangle englobant (figure 11b). Le CI est donc une mesure comprise entre 0 et 1 ; une valeur proche de 1 indique une position contract´ee (la silhouette remplit le rectangle englobant), une mesure proche de 0 une position expansive (l’expansion agrandit le rectangle englobant sans changer l’aire de la silhouette). Enfin, Volpe consid`ere ´egalement dans ce niveau de traitement la trajectoire du centre de gravit´e au cours du temps.

(a) Exemple d’une SMI sur 4 images.

(b) Calcul du CI par carr´e englobant.

3.4. Mise en œuvre informatique 59

– Le quatri`eme processus se base sur les quantit´es de mouvement pour ´etablir une segmen-tation du geste dans une danse. En dessous d’un certain seuil (trouv´e empiriquement) de QoM, l’auteur consid`ere que le danseur est en phase de pause. Il consid`ere alors un mouvement comme ´etant ce qu’il y a entre deux phases de pause. Volpe obtient ainsi des “cloches de mouvement” (motion bells) (voir figure 12). L’analyse de ces cloches permet d’en tirer la fluidit´e et l’impulsivit´e d’une s´equence dans´ee. Une danse est fluide si elle pr´esente de longues cloches de mouvement. L’impulsivit´e se calcule sur la forme de la cloche. Une cloche en pic montre un mouvement impulsif, une cloche ´ecras´ee un mouvement coul´e.

Fig. 12: Segmentation du mouvement en cloches de mouvement et phases de pause. Figure tir´ee de [143].

– Enfin, le cinqui`eme processus est celui de l’interpr´etation. Volpe utilise des arbres de d´ecision classant les valeurs des diff´erentes caract´eristiques extraites en quatre ´emotions basiques : la col`ere, la peur, la tristesse et la joie. Pour chaque s´equence de l’ensemble d’entraˆınement, on donne comme solution au syst`eme l’´emotion que le danseur a voulu exprimer. Les r´esultats sont ensuite compar´es `a l’´evaluation d’observateurs humains. Globalement le syst`eme reconnaˆıt tr`es bien la col`ere (60% de reconnaissance par le syst`eme contre 60,6% pour l’humain) ; les r´esultats oscillent ensuite, le plus mauvais ´

etant la reconnaissance de la peur (9,15% de reconnaissance correcte pour la machine contre 55% pour le groupe humain).

Castellano, en 2008, poursuit les travaux de Volpe dans [25] et se concentre sur la segmen-tation du geste et sur l’analyse des “cloches de mouvement” obtenues grˆace `a la mesure de la QoM. Elle d´efinit ainsi un mod`ele math´ematique de la dynamique du mouvement expressif. Ce mod`ele comprend seize caract´eristiques calculables sur le mouvement. Ces caract´eristiques sont ´evalu´ees sur plusieurs cas d’´etudes, notamment sur l’expressivit´e gestuelle d’un joueur de piano [27]. Ce mod`ele math´ematique offre un cadre pour une analyse fine du mouvement au niveau du geste.

De ces travaux, nous soulignons tout d’abord la n´ecessit´e de pouvoir traiter des caract´ e-ristiques de fa¸con s´equentielle, c’est-`a-dire une s´erie de caract´eristiques ´elevant `a chaque fois le niveau d’abstraction. Dans le syst`eme de Volpe par exemple, la d´etection des SMI per-met le calcul de la QoM, qui est utilis´ee pour segmenter une danse en phases de pause et de mouvement. Cette segmentation permet ensuite l’´etude de chaque phase de mouvement de mani`ere fine, comme le propose Castellano. Nous retenons donc que les caract´eristiques peuvent se situer `a plusieurs niveaux d’abstraction, et que des caract´eristiques de plus haut niveau (par exemple la fluidit´e d’un geste) peuvent ˆetre calcul´ees non pas sur des signaux de capture (flux vid´eo) mais sur des caract´eristiques de plus bas niveau (calcul de QoM et seg-mentation du geste). Le fait qu’une information de base puisse subir diverses transformations pour en extraire des informations de haut niveau est donc `a prendre en compte dans la suite de ce m´emoire. Nous soulignons ensuite la n´ecessit´e de pouvoir traiter des caract´eristiques bloquantes ou temporis´ees. La m´ethode de segmentation d’une danse en phases de mouve-ment et phases de pause illustre parfaitemouve-ment le probl`eme de ces caract´eristiques temporis´ees. Pour calculer la fluidit´e d’un geste par exemple, il est n´ecessaire d’attendre que le geste soit termin´e afin de disposer de l’information dans son int´egralit´e. La caract´eristique ne peut donc pas ˆetre calcul´ee tant que le geste n’est pas termin´e, ce qui est enti`erement sous le contrˆole du danseur. Il est donc impossible d’obtenir une mesure continue de la fluidit´e. D’un point de vue syst`eme, les QoM calcul´ees `a chaque image sont donc mises en m´emoire jusqu’`a ce que le geste se termine et que le danseur soit en phase de pause. A ce moment seulement, l’extraction de la caract´eristique de fluidit´e peut ˆetre lanc´ee. L’existence et l’utilisation de telles caract´eristiques temporis´ees constitue un requis logiciel que nous traitons au chapitre 5 dans le cadre de notre mod`ele d’architecture.