• Aucun résultat trouvé

4.4 Int´ egration de la reconnaissance d’´ emotions

4.4.1 D´ efinition d’une modalit´ e dans le cadre de la reconnaissance passive

a courte dur´ee. Le parall´elisme au niveau “grappe de tˆache” n’a donc pas de sens dans notre contexte.

4.4.1 D´efinition d’une modalit´e dans le cadre de la reconnaissance passive d’´emotions

Nous avons vu au chapitre 1 que l’homme exprime ses ´emotions par plusieurs canaux : les expressions faciales, les tonalit´es de la voix, la gestuelle et les postures. Les r´eactions du syst`eme nerveux autonome peuvent ´egalement prendre part `a cette expression. Ces diff´erents canaux sont, dans les travaux existants, assimil´es `a des modalit´es. Un syst`eme est alors dit multimodal s’il effectue une reconnaissance selon au moins deux de ces canaux. Dans ce paragraphe, nous appliquons tout d’abord cette d´efinition d’une modalit´e pour en montrer les limites ; nous appliquons ensuite la d´efinition vue au paragraphe 4.2.1.

Limites d’une traduction litt´erale d’une modalit´e au domaine de la reconnaissance d’´emotions

La nature mˆeme de la reconnaissance d’´emotions rend la d´efinition d’une modalit´e difficile `

a ´etablir. Principalement, la d´efinition donn´ee par l’´equation (1) permet d’´evoquer `a la fois les aspects humains (utilisateur) et techniques d’une interaction (voir paragraphe 4.2.1). En adaptant litt´eralement cette d´efinition `a celle donn´e dans l’´equation (1) (page 70), on obtient comme d´efinition d’une modalit´e :

modalit´e =< dispositif, canal de communication ´emotionnelle > (3)

La premi`ere limite de cette d´efinition est que la s´eparation en cinq canaux de communication ´emotionnelle n’est pas forc´ement soutenue. Ainsi Scherer distingue les composants “expression motrice” et “processus neurophysiologiques” (voir partie 1.2.2, page 15), et ne distingue pas les diff´erents canaux. La gestuelle et les expressions faciales se rattachent au composant “ex-pression motrice”, les r´eactions de l’ANS au composant “processus neurophysiologiques”. La voix fait intervenir les deux composants. Les r´eactions de l’ANS sont parfois divis´ees en deux modalit´es distinctes : les r´eactions du syst`eme central (le cerveau) et les r´eactions du syst`eme

4.4. Int´egration de la reconnaissance d’´emotions 83

p´eriph´erique (rythme cardiaque, sudation, etc.). Cette cat´egorisation en quatre canaux n’est donc pas clairement ´etablie et ne semble pas, dans le cadre de l’´emotion, refl´eter la cognition de l’utilisateur.

La deuxi`eme limite est celle de la granularit´e trop grossi`ere au niveau technique. Dans cette d´efinition, le dispositif et le canal de communication ´emotionnelle de la modalit´e consid´er´ee indiquent sans les sp´ecifier les caract´eristiques `a extraire et les dispositifs `a utiliser. Le dis-positif dispose certes d’un format de sortie des donn´ees capt´ees, mais la notion de canal de communication ´emotionnelle est trop floue pour que cette d´efinition d’une modalit´e puisse in-duire une repr´esentation ou un format des donn´ees. La d´efinition (3) offre donc une pr´ecision insuffisante d’un point de vue technique.

Enfin, tout comme la d´efinition d’une modalit´e dans le cadre g´en´eral (´equation (1)), cette d´efinition propose un point de vue utilisateur : quelle modalit´e adopter pour interagir avec la machine ? Cette question, essentielle en interaction, est caduque dans le cadre de la re-connaissance passive des ´emotions. En effet, l’expression de l’´emotion est intrins`equement multimodale et n’implique pas un choix conscient de l’utilisateur de la construction de sa communication ´emotionnelle pour ˆetre compris par la machine.

En conclusion, la d´efinition (3), utilisant la d´efinition d’une modalit´e telle que classiquement vue en reconnaissance d’´emotions, pr´esente des limitations techniques tout en offrant un point de vue utilisateur inutile. Nous avons donc choisi, comme dit au chapitre 2 (voir introduction de la section 2.3 page 36) de nommer “canaux de communication affective” ou “canaux de communication ´emotionnelle” les canaux que sont le visage, la voix, le corps et les ANS, faisant ainsi ´echo `a la notion d’affective channels propos´ee par Picard dans [114].

Sp´ecialisation de la d´efinition d’une modalit´e pour la reconnaissance d’´emotions Dans le contexte de la reconnaissance d’´emotions, nous identifions les niveaux Capture, Analyse et Interpr´etation aux niveaux articulatoire, syntaxique et s´emantique introduits par Vernier dans [142] pour la multimodalit´e en sortie de syst`emes interactifs. Les syst`emes re-pr´esentationnels peuvent appartenir aux niveaux Capture, Analyse ou Interpr´etation. Dans le cadre de ce m´emoire, et contrairement `a la d´efinition classique dans la litt´erature en re-connaissance d’´emotions, nous consid´erons qu’une application de reconnaissance d’´emotions est multimodale si elle met en œuvre plusieurs modalit´es telles que d´efinies par l’´equation (1) (page 70).

Le point de vue utilisateur donn´e par la d´efinition d’une modalit´e dans le cadre g´en´eral est inutile dans notre cadre de recherche. Nous adoptons donc un point de vue syst`eme unique-ment. Dans ce cadre, la d´efinition (1) peut ˆetre ´etendue et pr´ecis´ee. Tout particuli`erement, il est possible de distinguer les trois niveaux de Capture, Analyse et Interpr´etation dans la s´equence des diff´erents syst`emes repr´esentationnels des donn´ees au cours du processus de re-connaissance. Typiquement, la donn´ee est tout d’abord captur´ee du monde r´eel grˆace `a un dispositif. Elle est ensuite susceptible de subir plusieurs transformations dans ce niveau Cap-ture. La donn´ee est ensuite envoy´ee au niveau Analyse, o`u des caract´eristiques sont extraites.

Enfin, cette donn´ee analys´ee passe au niveau Interpr´etation. Une fois encore, elle peut ˆetre su-jette `a une s´equence d’interpr´etations. Nous proposons donc le d´eveloppement de la d´efinition d’une modalit´e de la mani`ere suivante.

Soit modalit´e =< d, sr >| < modalit´e, sr >. On r´e´ecrit alors

< ... << d, srC1 >, sr2C > ...srCn >, sr1A> ... >, srmA >, srI1 > ...srpI> (4)

o`u la s´equence des syst`emes repr´esentationnels explicite les transferts subis par une don-n´ee depuis le dispositif jusqu’`a son interpr´etation finale. On d´efinit ainsi une modalit´e de capture comme une modalit´e dont le dernier syst`eme repr´esentationnel est d´efini au niveau Capture. Une modalit´e d’analyse est une modalit´e dont le dernier syst`eme repr´ esentation-nel est d´efini au niveau Analyse. Une modalit´e d’interpr´etation est une modalit´e dont le dernier syst`eme repr´esentationnel est d´efini au niveau Interpr´etation.

Contrairement `a la d´efinition de la multimodalit´e dans le contexte d’un syst`eme interactif, notre d´efinition ne prend pas en compte l’aspect humain de l’interaction. Cet aspect humain, n´ecessaire dans le cadre d’une interaction active (construire une commande par exemple), devient inutile dans notre cadre de reconnaissance passive des ´emotions. Cette d´efinition d’une modalit´e adopte donc le point de vue de la conception d’un syst`eme de reconnaissance d’´emotions. La pr´ecision de cette d´efinition est n´ecessaire dans ce contexte et sera exploit´ee au chapitre suivant.

Le niveau Capture a pour rˆole de transformer l’information du monde r´eel en donn´ees exploitables par l’ordinateur. Le syst`eme repr´esentationnel utilis´e est d´ependant du capteur utilis´e. Au niveau Analyse, nous consid´erons que chaque caract´eristique extraite et les diff´ e-rentes valeurs qu’elle peut prendre forment un syst`eme repr´esentationnel au niveau Analyse. Nous obtenons donc un syst`eme repr´esentationnel par caract´eristique exploit´ee pour l’in-terpr´etation. Enfin, le syst`eme repr´esentationnel du niveau Interpr´etation d´efinit le format de donn´ees qui encode l’´emotion reconnue. Ce format est totalement d´ependant du mod`ele d’´emotions choisi et donc de son mode de repr´esentation ; nous ne proposons donc pas de format “standard” pour la communication de l’´emotion `a une application interactive.

Syst`emes repr´esentationnels au niveau Capture

Soit sr1..nC la s´equence des syst`emes repr´esentationnels `a l’int´erieur du niveau Capture. Les donn´ees peuvent subir de profondes transformations dans leurs natures et leurs repr´ esenta-tions. Par exemple, consid´erant un syst`eme reconnaissant l’´emotion `a partir de coordonn´ees 3D du corps, on peut imaginer une capture par cam´era de l’information r´eelle. Des algorithmes de suivi seront alors appliqu´es pour obtenir en sortie du niveau Capture des coordonn´ees 3D.

Tout syst`eme contient une s´equence sr1..nC d’au moins un ´el´ement (n = 1). En effet, le premier syst`eme repr´esentationnel est le flux de donn´ees directement fourni par le dispositif.

4.4. Int´egration de la reconnaissance d’´emotions 85

Syst`emes repr´esentationnels au niveau Analyse

Soit sr1..mA la s´equence des syst`emes repr´esentationnels du niveau Analyse. Une caract´ eris-tique peut ˆetre extraite de caract´eristiques de plus bas niveau.

Il est possible que la s´equence sr1..mA soit vide. Cela correspond au cas o`u l’interpr´etation est directement effectu´ee sur un syst`eme repr´esentationnel du niveau Capture. Par exemple, cer-tains appareils photo du commerce sont capables de d´etecter un sourire dans un visage1. Cette information, fournie par le dispositif, peut ˆetre envoy´ee telle quelle au niveau Interpr´etation. Dans le cas g´en´eral cependant, cette s´equence comportera au moins un ´el´ement.

Syst`emes repr´esentationnels au niveau Interpr´etation Soit srI

1..p la s´equence des syst`emes repr´esentationnels du niveau Interpr´etation. D´ epen-damment des besoins de l’application en termes de format de repr´esentation de l’´emotion, les donn´ees li´ees `a l’´emotion reconnue peuvent ˆetre transform´ees par une succession de syst`emes repr´esentationnels.

La s´equence srI1..p des syst`emes repr´esentationnels peut ˆetre vide. Cela correspond au cas d’un hypoth´etique dispositif dont le pilote d´elivrerait directement une ´emotion reconnue. Il n’y a pas de limite sup´erieure au nombre de syst`emes repr´esentationnels successifs dans le niveau Interpr´etation. G´en´eralement cependant ce niveau ne comporte qu’un seul ´el´ement : une unique interpr´etation de caract´eristiques extraites. Une succession de syst`emes repr´ e-sentationnels au niveau Interpr´etation peut se trouver dans le cas d’une fusion au niveau Interpr´etation. Par exemple, Castellano [26] propose un syst`eme multicanaux o`u une inter-pr´etation est faite pour la voix, le visage et la gestuelle. Chacun de ces canaux dispose donc d’un interpr´eteur. Les ´emotions trouv´ees sont fusionn´ees ensuite.