Évaluation du système sur le corpus 88milSMS

5.4 Évaluation

5.4.2 Évaluation du système sur le corpus 88milSMS

Pour notre expérimentation, dans le but d’évaluer notre système sur un corpus différent de celui d’alpes4science, nous avons fait appel à l’échantillon de 1 000 SMS bruts anonymisés et transcodés en français standardisé du corpus de 88milSMS¹¹(Panckhurstet al., 2014a,b, Patel

et al., 2013). Le corpus 88milSMS est le fruit du projet sud4science, lui-aussi faisant partie du projet international sms4science autour de la collecte de données SMS. Une initiative pendant laquelle environ 88 000 SMS authentiques en français ont été recueillis provenant de 424 personnes (Panckhurstet al., 2013, Panckhurst et Moïse, 2012). La collecte de SMS a eu lieu dans la région Languedoc-Roussillon en 2011 sur une période de trois mois. Selon Panckhurst

et al. (2013) les messages collectés contiennent en moyenne 55 caractères, sans espaces, 67 caractères, avec espaces et chaque message est d’une longueur moyenne de 13,75 mots.

Afin de pouvoir effectuer l’évaluation nous avons procédé à une harmonisation du texte qui consiste à transformer toutes les formes du corpus SMS brut en minuscules aussi bien qu’à éliminer tous les marqueurs spécifiques provenant du modèle de normalisation, dans le but d’avoir un résultat d’évaluation représentatif.

Nous avons utilisé les mêmes métriques que nous avons employées dans la partie 5.4.1,

11. Disponible après téléchargement : http://88milsms.huma-num.fr/corpus.html et sur le site d’Orto-lang :https://hdl.handle.net/11403/comere/cmr-88milsms

Technique BLEU score NIST score WER score

Approche de référence 0.50 8.96 0.37 Modèle hybride 0.75 11.49 0.15

Gold standard 1 13.83 0

Table^{5.9 – Résultats d’évaluation - corpus 88milSMS}

concernant l’évaluation menée sur l’échantillon de 7 087 SMS bruts du corpus alpes4science.

Les résultats sont assez encourageants, notamment en comparaison avec les résultats de l’évaluation du corpus alpes4science. Il faut souligner le fait que le système n’a pas été entraîné sur ce corpus. En effet, les scores pour le corpus de 88milSMS, en comparaison avec les résultats obtenus pour le corpus alpes4science (tableau 5.6), se montrent meilleurs. Nous remarquons que pour le BLEU score du corpus 88milSMS, il y a un écart de 0,25 points entre l’approche de référence et le modèle hybride quand pour le corpus d’alpes4science l’écart pour ces mêmes techniques est de 0,16 points. Idem, pour le score WER, l’écart est de 0,22 points et pour le corpus alpes4science il est de 0,13 points, ce qui signifie qu’il y a un plus grand taux de correction pour le corpus 88milSMS que pour le corpus alpes4science. Cependant, il ne faut pas négliger le fait que les deux corpus ne sont pas de la même taille. Lopez et al. (2014) ont testé, sur un échantillon de 100 SMS du même corpus, un modèle d’alignement statistique pour la normalisation de SMS. Cependant, les faibles scores de précision (0,59) et rappel (0,55) montrent la nécessité d’améliorer la méthode avec plusieurs heuristiques d’alignement. Tarrade (2017) a aussi réalisé un modèle pour la normalisation de SMS sur le corpus 88milSMS. Les résultats obtenus atteignent le 0,61 pour le BLEU score et le 0,25 pour le WER.

5.5 Conclusion

Dans ce chapitre nous avons décrit l’architecture d’un modèle hybride destiné à la nor-malisation de messages contenant du bruit, tels les SMS. L’approche est fondée sur l’analyse typologique et néographique à l’aide de grammaires locales, couplée avec un système de

tra-N° d’erreurs SMS original SMS normalisé Nbr d’erreurs 6 Tkt tu ne me deranges pas !

Je sais pas du tout, je suis en robe mais bon j’met jamais de pantalon :/ jean tshirt as-sez joli ca le fait je pense ! C :est pas un pyjama ha-haha

T’inquiètes pas tu ne me deranges pas ! je sais pas du tout, je suis en robe mais bon je met jamais de panta-lon ***emoticon*** jean t-shirt assez joli ça le fait je pense ! C :est pas un pyjama hahaha

6 Cc ma chérie ça va ? Dis moi kes ki c passe avc letaf? Un pblm ? Gros bisous <3

coucou ma chérie ça va ? dis moi qu’est ce qui c’est passe avec le travail? un pro-blème ? gros bisous ***emo-ticon***

Table^{5.10 – Exemples de traduction du corpus 88milSMS}

duction automatique.

Les résultats d’évaluation en terme de BLEU score et WER nous montrent que l’approche proposée améliore la qualité, la lisibilité et l’opérationnalité des SMS. Cependant, nous voulons pointer deux problèmes de normalisation : la désambiguïsation de formes polysémiques et la catégorie d’erreurs qui correspond aux mots absents du dictionnaire.

L’amélioration des résultats pourrait, comme nous l’avons constaté, dépendre des res-sources linguistiques fournies (donc le corpus de départ). Des données avec des informations lexicales plus enrichies (par exemple des informations morphosyntaxiques) peuvent être fa-cilement incorporées au système de traduction et générer des règles qui s’appliqueront pour augmenter les performances lors de la phase de normalisation.

Les résultats sont encourageants et suffisants pour procéder dans une étape suivante à l’application d’outil liés au traitement du langage comme les étiqueteurs morphosyntaxiques, la reconnaissance d’entités, la traduction automatiques, la lecture vocale des messages etc. et nous incitent à explorer de nouveaux modes d’hybridation. La conception de systèmes

additionnels pour le traitement des emprunts, la phonétisation, le calcul de distances d’édition et la mémoire de traduction pourraient aussi être ajoutés au système initial et faciliter la tâche de normalisation. Nous estimons que cette approche pourrait être adaptée pour s’appliquer à d’autres types de messages bruités courts (tweets, chats, forums etc.), mais à condition d’avoir des ressources linguistiques adéquates.

L’étape suivante consiste à exploiter les normalisations réalisées afin d’arriver à extraire des informations contenus dans les SMS. Plus précisément, le chapitre suivant est consacré à la présentation des résultats issus d’un analyseur morphosyntaxique et l’illustration d’un modèle dédié à l’extraction d’entités nommées de type nom, prénom, lieu que nous allons appliquer sur les messages déjà normalisés.

Autour de la reconnaissance d’entités

nommées dans les SMS

Sommaire

6.1 Introduction . . . 133 6.2 Les entités nommées . . . 134

6.2.1 Une définition de l’entité nommée . . . . 138 6.2.2 Les catégories . . . . 140 6.2.3 Les difficultés de la catégorisation . . . . 143 6.2.4 Pourquoi extraire des entités nommées ? . . . . 147

6.3 La reconnaissance d’entités nommées dans les SMS . . . 155

6.3.1 Une typologie d’entités nommées pour les SMS . . . . 161

6.4 Conclusion . . . 166

6.1 Introduction

Ce chapitre s’intéresse à l’entité nommée du point de vue théorique, en visant sa défini-tion et son parcours historique. A travers la définidéfini-tion nous découvrirons les catégorisadéfini-tions

existantes pour acquérir une typologie autour de l’annotation d’entités nommées au moyen de la tâche de reconnaissance d’entités nommées. En effet, la reconnaissance d’entités nommées est importante pour de nombreuses applications issues du TAL, notamment pour l’extraction d’informations. Plus précisément, ce chapitre se focalise sur les spécificités des entités nommées du langage SMS et, par extension, aux messages courts et bruités. D’une part, on se concentre sur les travaux réalisés et, d’autre part, sur les applications possibles et l’introduction d’une typologie pour l’extraction d’entités nommées de SMS.

Ce chapitre 6 présente ainsi la définition de l’entité nommée (partie 6.2.1) et expose ses catégorisations (partie 6.2.2). Les différents problèmes de catégorisation dans l’état de l’art de la reconnaissance d’entités (section 6.3) pour les textes courts sont présentés dans la partie 6.2.3. Les applications possibles de la tâche de reconnaissance d’entités nommées dans les SMS sont décrites dans la partie 6.2.4 et la première typologie pour les entités nommées issues des SMS et des messages électroniques en général se trouve dans la partie 6.3.1.

Dans le document Communiquer par SMS : Analyse automatique du langage et extraction de l'information véhiculée (Page 132-137)