• Aucun résultat trouvé

De la différence entre tweets et messages informels privés

d’édition Substitution = 2

Algorithme 1 Élagage et remplissage utilisés pour normaliser la taille des vec-

5.7. Utilisation du système prédictif pour une recommandation

5.8.2. De la différence entre tweets et messages informels privés

La nature des données peut être considérée comme une seconde limite du sys-tème. Les données utilisées pour l’apprentissage du modèle prédictif sont des données privées dont l’obtention passe par un accord préalable pour une utilisa-tion précise restreinte à l’entreprise. Bien qu’elles soient de nature plus proche aux besoins d’une recommandation d’emojis dans un cadre de conversation ins-tantanée privée et que notre objectif est d’appliquer la recommandation d’emojis dans un tel contexte, la disponibilité de tweets en masse, plus faciles à récolter et à distribuer et sans besoin d’accord préalable, nous amène à comparer le sys-tème également sur ce type de données avec le même pré-traitement. La seule différence étant la suppression de mots dièse propres aux tweets. Pour ce faire, nous avons collecté 387 037 tweets uniquement en anglais avec la même mé-thode que lors de l’obtention automatique des catégories d’emojis (chapitre 4), à ceci près que ces tweets sont uniquement issus de conversations sur Twitter. En effet, les tweets pouvant être de nature différente, nous avons voulu enrichir notre corpus avec des tweets issus de conversations Twitter, des réponses à une discussion en cours, en ignorant automatiquement les tweets promotionnels ou factuels qui ont peu de chance de se retrouver dans le cadre d’une conversation instantanée privée. De tels tweets à éviter sont de type :

Everyone ! ! Concert at @adress this evening ! ! #hashtag #hashtag

Pour éviter de tels tweets nous avons uniquement regroupé les tweets de ré-ponse à un fil existant, puis les avons mélangés avec le corpus de messages pri-vés. Les résultats obtenus avec le réseau CNN-LSTM présenté plus haut ne sont pas satisfaisants : des macro score de 30,15 % en précision et 15,28 % en rappel pour une moyenne harmonique de 18,09 %. Au travers des scores détaillés du tableau 5.6, ces résultats s’expliquent par la sur-représentation de la catégorie , ce qui n’est pas surprenant compte tenu de son fort usage sur twitter7. Toujours est-il que l’ajout de telles données perturbe la capacité du classifieur à trouver les caractéristiques discriminantes nécessaires à une bonne classification. Cette différence entre tweets et messages informels privés mérite d’être ap-profondie en mettant en place un système dédié uniquement à ce type de tweets pour la recommandation d’emojis. Les scores obtenus en mélangeant les sources ne sauraient suffire à considérer de tels tweets comme inadéquats à l’appren-tissage d’un modèle de recommandation d’emojis pour une utilisation dans un contexte informel privé. Ces tweets peuvent alors servir de corpus d’entraîne-ment et de validation, pour ensuite tester sur les données de messages privés.

5.9. Conclusion

Dans ce chapitre nous avons mis en place une comparaison de différents sys-tèmes de classification par apprentissage supervisé afin de prédire les catégo-ries d’emojis précédemment obtenues automatiquement. En montrant l’impact de différentes architectures de réseaux de neurones nous avons montré l’impor-tance de la prise en compte de la temporalité, avec la couche de LSTM, dans la prédiction des catégories d’emojis. Par cette approche nous contribuons en mon-trant comment un système de classification supervisée appliqué à des fins de re-commandations sied à la recommandation d’emojis, qui comporte beaucoup de redondance dans leur manière d’être sélectionnés (Chapitre1). Cette approche permet une recommandation adaptative à de nouveaux éléments et constitue ainsi une solution à un problème connu dans le domaine de la recommandation : le démarrage à froid, c’est-à-dire le lancement initial de la recommandation sans aucune utilisation de référence. Pour orienter notre système vers ce but final, et non uniquement pour obtenir la meilleure prédiction possible, nous avons utilisé des métriques adaptées, comme la macro f-mesure ou encore le taux de MRR, qui focalisent l’évaluation de l’homogénéité de la prédiction, amenant ainsi à conserver plusieurs possibilités.

Le système présente certaines limites comme l’imparfaite prise en compte des nuances entre deux catégories d’une même émotion basique au sens d’Ekman (EKMAN,1999), mais dont l’intensité varie. La dépendance du système à la na-ture des données est également une limite de notre approche. Comme solutions possibles, l’amélioration de la prise en compte des nuances par le système pour-rait ainsi passer par un mécanisme d’attention (K. XU, BA et al., 2015) sur l’in-tensité des mots porteurs de sentiment pour aider le système à distinguer les catégories fines, tandis qu’une amélioration du filtrage de tweets pourrait peut-être permettre d’obtenir des données plus corrélées à la réalité de la messagerie instantanée privée. La quantité de données utilisées étant relativement petite, des algorithmes plus interprétables pourraient alors être favorisés tels que les LGBM, répondant ainsi au besoin de comprendre et de pouvoir interpréter les raisons de chaque recommandation.

Enfin, bien que nous ayons utilisé des métriques pensées pour la recomman-dation, l’évaluation objective par mesures de performances du système ne peut être complètement fiable : des choix possibles et corrects non présents dans le corpus d’entraînement ne peuvent être pris en compte. Il convient alors d’évaluer le système par le biais de l’utilisateur au travers d’une évaluation subjective, ce qui est l’objet du chapitre suivant.

5.10. Synthèse

Objectifs : recommander à l’utilisateur des emojis sous

forme d’un ensemble de choix en prenant en compte l’or-donnancement des mots.

Approche méthodologique : classification par

appren-tissage profond pour la recommandation appris sur des messages instantanés privés. CNN-LSTM choisi en com-paraison avec d’autres algorithmes : régression logistique, boosting d’arbre de décision, etc.

Résultats : les 18 catégories sont prédites avec une macro

f-mesure de 52%, la plupart des catégories étant correc-tement prédites malgré le déséquilibre des données. Le système montre une corrélation entre les différentes gra-nularités : des catégories aux sens proches auront plus de chance d’être confondues.

Limites : les emojis sources proviennent d’un contexte

mixte de suggestion et de sélection d’emojis, ce qui en-traîne une évaluation objective pas entièrement représen-tative. L’approche méthodologique est moins adaptée sur des tweets malgré le filtre préalable.

Contribution : premier système de recommandation

d’emojis fondé sur des groupes d’emojis. Les classes à re-commander sont obtenues automatiquement, ce qui en fait un système end-to-end. La recommandation est direc-tement issue de l’usage dans un contexte conversationnel privé.

6. Évaluation subjective par