• Aucun résultat trouvé

Détection des émotions, des attitudes et des relations sociales

CHAPITRE 1 ETAT DE L’ART

1.3 Analyse des interactions sociales

1.3.2 Détection des émotions, des attitudes et des relations sociales

Figure 7: Extraction des caractéristiques visuelles utilisées dans le modèle de Zhang et al. (figure reproduite de [48])

1.3.2 Détection des émotions, des attitudes et des relations sociales

La recherche autour de la détection des émotions [49] [50] basiques et individuelles (par ex. la joie, la peur etc.), à partir de données audiovisuelles d'un environnement fermé, est relativement avancée. Quant à la détection des émotions sociales c.-à.-d. les flux affectifs collectifs, les études restent encore limitées et peu matures [10]. La détection de ces émotions est encore plus problématique si les scenarios étudiés sont ouverts et plus naturels (par ex. les consultations médicales, les entretiens d’emplois, les débats télévisés etc.). Pour un seul locuteur, Petridis et Pantic [51] ont présenté une approche audiovisuelle pour distinguer le rire de la parole en montrant sa pertinence par rapport à une approche uni-modale. Les caractéristiques utilisées étaient essentiellement les distances entre 20 points faciaux détectés dans les images (4 points pour les extrémités des sourcils, 8 points pour les deux yeux, 3 points pour le nez, 4 point pour la bouche et 1 point pour le menton) et 26 descripteurs acoustiques de type PLP ("Perceptual Linear Prediction coding features"). Le modèle utilise une combinaison de réseaux de neurones et d’Adaboost (la méthode Adaboost est utilisée ici pour la sélection des caractéristiques). Le modèle a atteint un taux de 86,9% pour le rappel et de 76,7% pour la précision. Kumano et al. [52] ont présenté une méthodologie pour modéliser les émotions sociales pendant les conversations face-à face multi-parties. En mettant l'accent sur l'empathie et l'antipathie partagée entre un couple de personnes, leur approche permet de caractériser les émotions par le biais d’observateurs externes (cf. Figure 8). En traitant les différences perceptuelles de l'état émotionnel comme une distribution de probabilité, le modèle computationnel proposé (basé sur un DBN, cf. Figure 9) a permis de décrire efficacement la relation entre l'émotion perçue et les principaux comportements non verbaux comme le regard (3 motifs: mutuel, à sens unique, et mutuellement évité) et les expressions faciales (plusieurs catégories: neutre, sourire, rire, penser, etc.). L’avantage de la méthode proposée est qu’elle facilite l’évaluation quantitative de plusieurs phénomènes, dont la vérité terrain est difficile à annoter. Le modèle DBN proposé a permis d'avoir un taux de reconnaissance de 64% pour l'empathie et 81% pour l'antipathie [53].

11 Figure 8: Etude de l'empathie et l'antipathie par

des observateurs externes (figure reproduite de [52]) .

Figure 9: Le modèle DBN proposé par Kumano et al. (figure reproduite de [52]) décrit la relation entre l'émotion perçue et les principaux comportements non verbaux comme le regard et les expressions faciales (FE

pour "Facial Expression").

Pour les attitudes sociales étudiées, l’attitude de dominance a été en particulier largement abordée dans la littérature [54]–[58]. Ce concept est bien étudié en psychologie sociale car il a des implications importantes sur la communication au sein des groupes. Il pourrait apporter des avantages dans certains contextes alors que dans d'autres, il pourrait léser la dynamique sociale d'un groupe en impactant négativement sa cohésion, son efficacité et surtout les relations sociales. Afin d’évaluer la domination de chaque personne impliquée dans une interaction multi-parties (dominant/non-dominant), Jayagopi et al. [56] ont développé un classifieur de type SVM (SVM pour "Support Vector Machines", pour une description détaillée voir Chapitre 3) en ayant recours à plusieurs caractéristiques auditives et visuelles. Les principaux résultats ont montré que les caractéristiques extraites de la modalité audio (par ex. l'énergie accumulée le long de la conversation, histogrammes de durée de parole, nombre de prise de tours, interruptions réussis, etc.) sont les plus pertinentes et que les signaux visuels (par ex. positions et mouvements de tête et des mains) contribuent relativement à l'amélioration de la puissance discriminative du classificateur. Le meilleur taux de reconnaissance pour les personnes dominantes était de 91%. Une fois cette identification effectuée, des actions peuvent être engagées hors-ligne par un système de recommandations,

12

soit de manière plus ambitieuse, en ligne par un système de régulation qui signale en temps-réel les recommandations - cf. le "negociation advisor" proposé par Pentland et al. [59]- voire modifie les signaux sociaux échangés.

De manière complémentaire aux attitudes, les relations sociales, et particulièrement les rôles, représentent un élément-clé pour comprendre les interactions humaines au sein des groupes étudiés. Formellement, Hare [60] définit le rôle comme "[...] un statut qui donne à une personne des droits et des devoirs envers une ou plusieurs personnes du groupe", comme par exemple un modérateur dans une réunion ou un animateur dans une émission diffusée par radio/télé, etc. [61]. D’autres rôles informels peuvent émerger au cours des interactions sociales [31]. Ces rôles non définis a priori caractérisent des situations particulières faisant évoluer les relations sociales au cours du temps, par exemple une situation de débat où on aura des supporteurs d’un coté et des opposants d’un autre coté. Plusieurs modèles ont été développées pour traiter cette problématique. Par exemple, un arbre de décision (pour une description détaillée voir Chapitre 3) est utilisé dans [62] pour la détection automatique des rôles. Basé principalement sur les caractéristiques acoustiques, le classificateur assigne des rôles à chaque participant: présentateur, participant de la discussion, fournisseur actuel d'information, récepteur d’information et autre. Les auteurs ont testé plusieurs fenêtres temporelles d'observation glissante et la meilleure avait comme longueur 20 secondes. Dans cette fenêtre temporelle, plusieurs caractéristiques ont été extraites parmi lesquelles on trouve: le nombre de fois où il y a changement de locuteur (différent du nombre de prises de tour car un marqueur phatique est considéré comme un changement), le nombre de personnes qui ont soulevé le même point, le nombre de chevauchements de parole, la durée totale de parole d'un participant et la durée totale de parole d'un participant en chevauchement avec la parole d'un autre. En combinant toutes ces caractéristiques, le modèle a permis d’avoir un taux de reconnaissance relativement modeste de 53%.

Une approche plus récente de Salamin et al. [61] est utilisée également pour la détection des rôles. Comme illustrée dans la Figure 10, elle se déroule en trois étapes: diarisation, extraction des caractéristiques et reconnaissance des rôles. La diarisation consiste à segmenter la conversation en plusieurs prises de parole et à assigner chaque segment de sortie à un interlocuteur particulier. Dans la deuxième étape, deux ensembles de caractéristiques ont été extraits. Le premier ensemble est basé sur l'organisation des prises de parole estimée dans la première étape (par ex. nombre de prises de tour pour le locuteur actuel, durée moyenne d'une prise de tour, durée moyenne de temps entre deux prises de tour etc.). Dans le deuxième ensemble, on trouve des informations sur la prosodie (par ex. la mélodie et l'énergie) et également la longueur de chaque segment parlé et non parlé. Ces différentes caractéristiques sont utilisées dans l'étape de la reconnaissance par un modèle se basant sur les champs aléatoires conditionnels – "Conditionnal Random Fields" (CRF) – pour estimer la séquence des rôles des différents interlocuteurs. Le domaine d'application de cette approche était la détection des rôles dans des émissions diffusées par radio. Le taux de reconnaissance du modèle CRF développé était de 85%.