Prédiction d’emojis - Recommandation automatique et adaptative d'emojis

Notre première contribution fut la mise en place de systèmes prédictifs d’emo-jis permettant de prendre en compte plusieurs fonctions des emod’emo-jis dans la conversation parmi six possibles (JAKOBSON, 1963) : l’enrichissement méta lin-guistique, l’expression, la fonction référentielle ainsi que la fonction conative. La première approche se fonde sur un modèle génératif pour prendre en compte les fonctions référentielles (l’emoji sert à désigner un objet) et d’expression (l’emoji exprime une idée) de l’emoji. Le mot suivant ou en cours est alors prédit ou complété à partir du contexte proche d’un seul ou de deux mots précédents, il est ensuite comparé avec un lexique agrégé d’associations mots-emoji à l’aide d’une distance d’édition pour permettre d’obtenir l’emoji correspond au mot dé-siré ou au mot que le système pense voulu par l’utilisateur. Ce système part du principe que l’emoji remplace un mot en cours et a été évalué par reproduction du contexte précédant l’utilisation d’un emoji pour remplacer un mot dans un corpus de messages privés. Une telle approche s’est montrée efficace unique-ment pour un nombre restreint d’emojis représentant principaleunique-ment des objets tels qu’un hôpital ou un drapeau, démontrant ainsi qu’une recommandation à partir de cette approche, qui est une amélioration du système industriel présent dans Mood Messenger, ne saurait suffire à obtenir une bonne recommandation.

Afin de prendre en compte les autres fonctions méta-linguistiques (l’emoji enrichit le texte), conatives (l’emoji influence le récepteur) et toujours

expres-sives de l’emoji, une approche fondée sur un modèle discriminant a été mise en place. De tels systèmes permettant la prédiction d’emoji ont récemment émergé (BARBIERI, BALLESTEROS et SAGGION, 2017; HUANG, W. XU et al., 2015; BAR

-BIERI, CAMACHO-COLLADOS et al., 2018). Cependant, les systèmes existants se concentrent sur un ensemble restreint d’emojis en conservant les emojis les plus fréquents. De plus, parce que nous utilisons une classification supervisée multi-étiquettes, notre approche permet de laisser un choix final à l’utilisateur contrai-rement à ce qui se fait actuellement dans l’état de l’art à base uniquement de pré-diction d’un seul emoji par contenu textuel. À l’aide de forêts aléatoires d’arbres de décision nous nous distinguons donc en prédisant plusieurs emojis possibles par phrases, mais aussi en appliquant cette prédiction sur un corpus de messages instantanés privés, contrairement aux tweets. Ce corpus a l’avantage de posséder un indicateur d’humeur de l’utilisateur, motivant une approche par caractéris-tiques discriminantes orientées sur les sentiments. L’approche est finalement ap-pliquée sur deux types de corpus, un avec uniquement 169 emojis sentimentaux extraits à l’aide d’une table de correspondance emoji-sentiment existante (KRALJ

NOVAK, SMAILOVI ´C et al., 2015) et l’autre utilisant les 1 070 emojis possibles, nous distinguant également par le nombre d’emojis considérés. Les résultats ob-tenus ont donné un score global de 76,84% de f-mesure, ce qui est élevé comparé aux résultats actuels sur les tweets. Les résultats ont également montré un rôle majeur de l’indicateur de l’humeur (mood) dans la qualité de la prédiction ainsi qu’une classification plus efficace en prenant en compte les sacs de caractères. Malgré ce fort impact de l’humeur, la prédiction d’emojis sentimentaux est équi-valente à celle appliquée sur les autres emojis, avec une F-mesure de 76,60%, ne rendant pas l’approche particulièrement plus efficace sur les emojis sentimen-taux que sur l’ensemble des emojis.

Catégorisation d’emojis émotionnels

La seconde contribution mise en avant dans ces travaux concerne l’obtention automatique de catégories d’emojis, le but étant dans un second temps d’utiliser ces catégories pour la recommandation d’emojis (Section suivante). L’objectif était d’obtenir automatiquement des classes d’emojis en prenant ici le cas des emojis représentant des expressions des émotions à travers le visage. Une caté-gorisation de 64 emojis sentimentaux répertoriés comme tels par le consortium Unicode4 a ainsi été mise en place à l’aide de plongements lexicaux d’emojis en contexte (MIKOLOV, CHEN et al., 2013; MIKOLOV, SUTSKEVER et al., 2013) tout d’abord, puis à partir de partitionnement automatique. Une comparaison a été faite en utilisant un modèle de plongements lexicaux existant (POHL, DOMIN et al.,2017) avec la constitution de modèles appris sur des tweets. Nous nous

dif-4. http://unicode.org/emoji/charts/full-emoji-list.html

férencions aussi de par notre objectif, avec l’obtention de catégories à réutiliser et non une simple exploration de corpus. De cette manière l’effet néfaste d’une représentation trop précise et prenant en compte les mots rares contrairement à une représentation vectorielle plus en surface a été mise en avant, tandis que la constitution de plongements lexicaux à des fins de classification a des besoins inverses.

En partant de l’hypothèse que l’usage des emojis reflète l’usage des indices faciaux dans une conversation en face-à-face, nous avons comparé la catégorisa-tion obtenue avec une théorie existante des catégories d’émocatégorisa-tions basiques par expression du visage (EKMAN,1999). Les résultats montrent une corrélation glo-bale entre les catégories issues de la théorie et celles obtenues automatiquement, par le biais d’un score de V-mesure de 76,70%. De plus, la granularité des caté-gories obtenues est bien souvent plus fine que la théorie en faisant par exemple la distinction entre différentes intensités de joie.

Recommandation d’emojis par prédiction de leur catégorie

Notre troisième contribution concerne la recommandation d’emojis par le biais de la prédiction de leur catégorie. Nous avons réutilisé les catégories d’emojis vi-sage obtenues automatiquement pour les considérer comme un jeu d’étiquettes pour la classification de messages instantanés privés. Cette recommandation d’emojis consiste donc à prédire un panel de choix à l’utilisateur, en l’occur-rence 18 catégories regroupant au moins un emoji. La tâche est abordée comme une classification mono-étiquette dans laquelle nous comparons plusieurs algo-rithmes avant d’utiliser l’apprentissage profond. En partant initialement du ré-seau de convolution de Kim (KIM,2014), nous l’avons modifié pour notamment y ajouter des couches récurrentes pour la prise en compte de l’ordonnancement des mots dans le message. La méthode est évaluée avec des scores macro de pré-cision, rappel et f-mesure, permettant d’obtenir de bons résultats avec 53,10% en macro F-mesure comparé aux autres algorithmes n’atteignant pas les 50%. Quelques confusions persistent entre les catégories d’emojis à granularité fine.

Cette recommandation est à notre connaissance le premier cas de recomman-dation d’emojis au travers de leur catégorie. Cette approche pallie également aux systèmes de prédiction d’emoji existants qui ne recommandent qu’un seul emoji par classification mono-étiquette. Le fait que notre système soit totalement auto-matisé avec des classes à prédire obtenues automatiquement, en fait un système bout en bout adaptable sans nécessiter d’experts pour la recommandation d’emo-jis.

Dans le document Recommandation automatique et adaptative d'emojis (Page 144-147)