• Aucun résultat trouvé

Présentation du corpus retenu pour l’entrainement de modèles computationnels

Chapitre 4 Données utilisées et schéma d’annotation proposé

4.4 Présentation du corpus retenu pour l’entrainement de modèles computationnels

4.4.1 Résultat de l’annotation

La tâche d’annotation sur un volume important de données nécessite un investissement en temps et en argent conséquent. Afin d’avoir à disposition un nombre d’instances d’entrainement suffisant en un temps raisonnable, nous avons réduit le nombre d’étiquettes et de dimensions à annoter. Côté étiquettes nous conservons les macro-classes « Neutre », « Négatif », « Positif ». Pour les dimensions la valence et l’activation sont retenues. La tâche d’annotation est réalisée de manière indépendante sur les données obtenues d’après la segmentation automatique et manuelle (voir définition paragraphe 4.2). Les taux d’accord (Kappa) sur chacune de ces deux configurations sont présentés dans le Tableau 4-16 ci-dessous :

Segmentation manuelle Segmentation Automatique

Positif / Neutre 0.47 0.32

Négatif / Neutre 0.77 0.42

Positif / Négatif / Neutre 0.58 0.40

Tableau 4-16 Taux d’accord en fonction du type de segmentation

Les taux d’accords obtenus sont très variables selon i) le type de segmentation considéré et ii) les états émotionnels que nous comparons. Nous remarquons dans un premier temps que le taux d’accord des juges sur la segmentation automatique est dans tous les cas plus bas que celui que nous obtenons sur la segmentation manuelle. Cette différence est la plus marquée lorsque nous cherchons à annoter les émotions négatives. Cette différence peut être expliquée par plusieurs facteurs. D’une part, les segments considérés dans la segmentation automatique sont nettement plus longs que ceux de la segmentation manuelle, ce qui peut amener les annotateurs à se focaliser sur des parties du discours différentes au moment de rendre leur jugement. Un deuxième point à prendre en compte lorsque nous examinons des segments issus du découpage automatique du dialogue est la présence de nombreux segments mettant en jeu plusieurs locuteurs, ce qui complique également la tâche d’annotation. D’une manière générale, dans ce corpus, les émotions négatives semblent être plus discriminantes que les émotions positives, les scores d’accord obtenus sur ces premières sont nettement plus élevés (0.47 vs 0.77) pour la segmentation manuelle et (0.32 vs 0.42) pour la segmentation automatique.

87 Nous présentons dans les figures ci-dessous la répartition des segments pour chacun des deux types de segmentation. Sur chacune de ces deux figures trois types de segments sont considérés : Les segments « non consensuels » qui ont obtenu une annotation avec une valence différente (positif pour un annotateur et neutre pour l’autre par exemple) ; les segments consensuels, ayant obtenu une annotation avec une valence identique pour chacun des deux annotateurs. Les segments « bruités », c'est-à-dire contenant de la parole superposée, un bruit d’arrière plan ou tout évènement sonore pouvant perturber la tâche d’annotation. La Figure 4-8 présente la répartition des segments pour un découpage automatique, la figure 4.9 présente la répartition pour un découpage manuel :

Figure 4-8 Répartition des segments après annotation de segments issus d’un découpage automatique des conversations

Figure 4-9 Répartition des segments après annotation de segments issus d’un découpage manuel des conversations 44%

38% 18%

Répartition des segments après un découpage

automatique

Non consensuel Consensuel Bruité 20% 67% 13%

Répartition des segments après un découpage

manuel

Non consensuel Consensuel Bruité

88 La répartition des données que nous pouvons observer sur les Figure 4-8 et Figure 4-9 sont assez différentes. Nous pouvons ainsi noter une sur-représentation des données non consensuelles lorsque l’on observe la segmentation automatique. Cette tendance est cohérente avec les taux d’accord présentés dans le Tableau 4-16. Les données bruitées sont également plus présentes. Cette différence est due à un nombre important de segments contenant plus de deux locuteurs du fait du découpage automatique.

Toujours dans le but de comparer les deux modes de segmentation nous avons mesuré la différence de durée entre des segments obtenus automatiquement et manuellement. Nous pouvons voir sur la Figure 4-10 ci-dessous la durée moyenne d’un segment selon sa catégorie émotionnelle et son mode de segmentation :

Figure 4-10 Durée moyenne d’un segment selon la catégorie émotionnelle et le type de segmentation

Nous pouvons voir que les durées entre segments manuels et automatiques peuvent avoir des longueurs relativement variables. Ceci est particulièrement vrai dans le cas des segments « émotionnels ». Nous observons ainsi, pour les segments négatifs, une durée moyenne de 3.9 secondes dans le cas d’une segmentation manuelle contre 5.3 secondes pour une segmentation automatique. La différence est encore plus marquée pour les segments positifs. Ces derniers durent en moyenne 2.1 secondes en manuel contre 5.1 seconde en automatique. Les segments neutres ont quant à eux des longueurs proches (2 secondes en moyenne pour les segments manuels, 2.3 secondes pour les segments automatiques).

4.4.2 Contenu du corpus emoVox

Le Tableau 4-17 ci-dessous récapitule le contenu de chacun des corpus. Les chiffres mentionnés ne prennent en compte que les segments ayant été annoté de manière consensuelle, donc potentiellement éligibles à une utilisation dans l’ensemble d’entrainement ou de test des modèles automatiques.

89

Positif Négatif Neutre

Segmentation automatique 263 1173 2246

Segmentation manuelle 1083 2373 5778

Tableau 4-17 Nombres de segments retenus pour la construction des modèles automatiques

D’autres informations complémentaires concernant la nature des locuteurs intervenant dans le corpus peuvent être collectées (fonction de l’interlocuteur i.e. Agent/client, sexe).

Nous pouvons ainsi voir sur la Figure 4-11 la répartition des émotions exprimées en fonction du locuteur (agent ou client).

Figure 4-11 Répartition des émotions exprimées en fonction du rôle du locuteur

Nous voyons que la répartition de l’expression des émotions est différente suivant le locuteur. Comme nous pouvions l’envisager, étant donné le contexte commercial, les expressions négatives sont en très large majorité exprimées par le client (72% des cas). Les expressions positives sont en revanche plus souvent exprimées par l’agent, ce dernier ayant tendance à minimiser une situation négative ou à positiver un certains nombre d’évènements au cours d’une conversation. L’état neutre est quant à lui le plus souvent exprimé par le client mais cette répartition est probablement plus due au fait que nous avons effectué une sous-sélection de segments qu’à une réalité dialogique.

Durant la phase de segmentation manuelle des informations relatives à l’âge du locuteur ont été annotées. Cette information est justifiée par le fait que des différences au niveau acoustique existent entre une voix d’enfant et une voix de personnes plus âgées ou atteintes d’une pathologie particulière (Tahon et al. 2010). Il est de ce fait intéressant que différents types de voix soient représentés dans le corpus afin d’obtenir des modèles ayant un pouvoir de généralisation plus important. Les Figure 4-12 et Figure 4-13 ci-dessous présentent la répartition du type de voix perçue par les annotateurs après écoute des dialogues :

0% 10% 20% 30% 40% 50% 60% 70% 80%

Négatif Positif Neutre

Agent Client

90

Figure 4-12 Répartition par âge et par sexe pour les locuteurs du corpus

Figure 4-13 Répartition des tours de paroles de paroles consensuels par sexe

4.5Conclusion

Ce chapitre a été l’occasion d’expérimenter deux modes d’annotation différente, discrète et continue sur un sous-ensemble du corpus. Si en termes de taux d’accord les résultats restent assez proche les deux méthodes ne se valent pas en termes de facilité d’annotation. La méthode continue ayant été considérée comme difficile par les deux annotateurs, la méthode discrète a été retenue pour l’annotation du reste du corpus. Outre le fait d’être plus simple à mettre en œuvre elle permet une annotation hors contexte (les tours de parole sont alors présentés dans le désordre, ce qui permet aux annotateurs de ne pas être influencés par les éléments contextuels de la conversation tels que de potentiels tours émotionnels intervenant précédemment durant la conversation). En plus des dimensions émotionnelles classiques nous introduisons deux nouvelles dimensions d’implication

0% 10% 20% 30% 40% 50% 60% 70%

Entre 25 et 60 ans Plus de 60 ans

Répartition par âge et par sexe

homme femme

39%

61%

Répartition homme / femme

homme femme

91 affective, qui ont pour but de mesurer l’interaction entre l’agent et le client. Nous avons vu que ces dimensions interactionnelles entretenaient des liens étroits avec l’expression affective (un fort taux sur la dimension d’induction/rétroaction par exemple est très fortement corrélé à une expression négative intense). D’après les tests effectués nous avons également relevé trois situations prototypiques mettant en lumière les stratégies conversationnelles adoptées par l’agent dans une situation conflictuelle. Bien que ce type d’annotation soit difficilement automatisable ces situations nous ont montré que le thème de la satisfaction client devait être abordé d’une manière générale, comme un enchainement de tours de paroles produisant du sens. De ce point de vue nous proposerons dans le chapitre 8 de nouveaux indices obtenus sur l’ensemble du dialogue. Nous émettons l’hypothèse que cette approche nous permettra de sélectionner des éléments pertinents pour l’évaluation des émotions, et par extension de la satisfaction client sur un dialogue complet. Nous avons pour finir retenu un nombre limité d’informations pour l’annotation des 13h de dialogues composant notre corpus final suivant deux modes de segmentation. Le premier, une segmentation des conversations manuelles a donné des taux d’accord nettement plus élevés que le second qui utilise une segmentation automatique. Des différences en terme de taille des tours de parole obtenus ont également été identifiées entre la segmentation manuelle et automatique ce qui peut potentiellement poser problème pour une tâche de détection. Enfin une série de mesures statistiques nous a permis d’observer le contenu de notre corpus (répartition des données suivant le sexe, l’âge) qui semble être composé de données suffisamment variées pour couvrir un large éventail de situations.

93

Chapitre 5 Indices et méthodes de classification pour la détection