• Aucun résultat trouvé

Enrichissement extra-linguistique par approche discriminante

d’édition Substitution = 2

3.3. Enrichissement extra-linguistique par approche discriminante

Lorsqu’un message est envoyé accompagné d’un emoji, une des raisons d’utili-sation de cet emoji est d’enrichir le contenu textuel par une information externe (voir chapitre 1). L’emoji vient donc ajouter de l’information, contradictoire ou non, vis à vis du message qui, dans des cas simples hors ironie, sarcasme ou in-formation externe, peut se suffire à lui-même. Un tel message pourrait être "Il y a des macarons en vente demain." enrichi par l’emoji qui y ajoute alors un avis venant se greffer au contenu textuel, un enrichissement extra-linguistique. Dans cette partie, cet enrichissement est abordé au travers d’une approche dis-criminante, c’est-à-dire d’une approche visant à dissocier, classifier les contenus textuels contrairement à l’approche générative utilisée précédemment. Pour cela, la tâche de classification par apprentissage supervisé est envisagée et, plus préci-sément, une classification multi-étiquettes considérant plusieurs emojis possibles par contenu textuel (message).

3.3.1. Corpus de messagerie sociale privée

Avant d’aborder la prédiction d’emojis à l’aide de classification supervisée, il convient de définir le corpus que nous utilisons pour construire et appliquer ces modèles de classification. Ces corpus sont constitués de messages informels privés de langue anglaise dont certaines caractéristiques sont illustrées dans le tableau 3.7. Ils proviennent initialement d’un ensemble de 1 300 000 messages confidentiels de l’entreprise Caléa Solutions dont nous avons extrait uniquement les messages contenant des emojis pour permettre au classifieur supervisé d’ap-prendre les corrélations entre les emojis et les caractéristiques de chaque phrase. Ainsi pour le premier corpus (“corpus étendu” dans le Tableau 3.7) nous ne ré-cupérons que les phrases qui contiennent des emojis, et pour le second

unique-ment les phrases qui contiennent des emojis sentiunique-mentaux (“corpus dédié” dans le Tableau 3.7). Par le terme “emojis sentimentaux” nous désignons les emojis représentant des sentiments (amour, joie, tristesse, etc.), et que nous distinguons des emojis d’objets, de concepts ou d’idées tels qu’une voiture, un drapeau ou un café par exemple. Le corpus est segmenté en phrases à l’aide du modèle an-glais d’OpenNLP4 (BALDRIDGE,2005). Notez que cette approche peut présenter quelques limites sur des corpus de données informelles habituellement peu res-pectueuses de la ponctuation.

Le pré-traitement utilisé pour chaque données textuelle du corpus est constitué de plusieurs étapes :

— Suppression des mots vides à l’aide de la liste de mots vide de Scikit-Learn — Lemmatisation et tokenisation : en utilisant les données de WordNet et NLTK. Chaque mot est lemmatisé en utilisant la fonction de variation mor-phologique inclue dans WordNet5).

— Vectorisation du texte à l’aide du TfIdfVectorizer de Scikit-learn dans lequel nous varions ensuite la portée des n-gram (1 à 5) ainsi que l’analyseur prenant en compte les mots ou les caractères

— Ajout des caractéristiques externes à chaque matrice représentant une phrase : identifiant de l’humeur, scores de polarité, nombre de mots, etc. (détaillés par la suite en section3.3.2)

— Transformation des classes en matrices binaires représentant la présence ou l’absence de chaque classe pour chaque phrase afin de pouvoir mettre en place un étiquetage multi-étiquettes

Dans notre corpus, nous représentons chaque phrase par une paire {emojis | texte} permettant ainsi d’obtenir le texte sans les emojis et les emojis associés au message. Le tableau3.6montre un exemple d’une phrase du corpus et de ses emojis associés.

Classe Texte

I heard about the news, it actually is quite depressing

Tableau 3.6. – Exemple factice d’une phrase représentée par la paire emojis|texte Dans le corpus, nous avons identifié 169 emojis sentimentaux6à partir de leur représentation (i.e. son triplet de scores de polarité décrit ci-après), calculés à

par-4. Modèle d’OpenNLP de découpage en phrases disponible ici : http://opennlp. sourceforge.net/models-1.5/

5. Code du lemmatiseur utilisé : https://www.nltk.org/_modules/nltk/stem/wordnet. html

6. https://gguibon.github.io/coria2017_data.html

tir de l’Emoji Sentiment Ranking (ESR) (KRALJ NOVAK, SMAILOVI ´C et al., 2015). L’ESR fournit les scores de polarité négative, neutre et positive pour 751 emojis à partir d’une annotation manuelle par 83 annotateurs de 1,6 million de tweets en contexte effectué pour 13 langues européennes. Ces emojis sentimentaux ont identifiés à l’aide des valeurs de sentiment (sentiment score) et de polarité asso-ciées à 751 emojis dans l’Emoji Sentiment Ranking (ESR) (KRALJ NOVAK, SMAI

-LOVI ´C et al., 2015). Ainsi, l’emoji qui est représenté par le triplet {négatif ; neutre ; positif} suivant {0,532 ; 0,108 ; 0,360}, est porteur de sentiment. Ce qui n’est pas le cas pour l’emoji ({0,052 ; 0,545 ; 0,403}) dont la valeur neutre est supérieure aux autres. Bien entendu cet emoji pourrait être porteur de sentiment dans certains contextes, mais l’utilisation de l’ESR permet d’obtenir la valeur globale moyenne issue de nombreux contextes d’apparition pour chaque emoji.

Corpus étendu Corpus dédié

Nombre de phrases 8 8882 9 700

Mots 607 776 69 930

Emojis 148 928 18 384

Emojis distincts 1 070 164

Taux d’emojis sentimentaux 43.34% 100%

Nombre moyen d’emojis par phrase 1,68 1,90

Longueur moyenne

6 mots 7 mots

des phrases

Phrases positives ssth* 5 832 1 014

Phrases négatives ssth* 0 0

Phrases positives echo** / 1 532

Phrases neutres echo** / 7 040

Phrases négatives echo** / 1 128

Humeurs distinctes utilisées 38 38

Tableau 3.7. – Caractéristiques des deux corpus utilisés (l’un dédié aux emojis sen-timentaux, l’autre étendu à tous les emojis). *valeurs prédites avec SentiStrength (Thelwall, Buckley et al., 2010). **valeurs prédites avec Echo (Hamdan, Bellot et al.,2015) uniquement pour le corpus dédié.

3.3.2. Ensemble des caractéristiques

Nous avons utilisé une représentation vectorielle des phrases du corpus. Cette représentation vectorielle peut varier de dimension en fonction des

caractéris-tiques considérées, nous avons donc évalué les performances des classifieurs en testant plusieurs combinaisons de caractéristiques. L’ensemble des caracté-ristiques disponibles est le suivant :

Sac de mots/caractères et nombre de mots. Le contenu textuel peut être

re-présenté d’au moins deux façons différentes : par un sac de mots ou par un sac de caractères. Le nombre de mots contenus dans une phrase est également ajouté comme caractéristique. Ainsi la phrase "I love you" sera représentée comme {I} {love} {you} en sac de mots, et {I} {l} {o} {v} {e} {y} {o} {u} en sac de carac-tères.