Correction grammaticale - Systèmes de correction

3.2 Traitement automatique des altérations

3.2.2 Systèmes de correction

3.2.2.2 Correction grammaticale

Comme nous l’avons expliqué précédemment, les fautes grammaticales produisent des tokens présents dans le dictionnaire. Il peut ainsi aussi bien s’agir de fautes d’accord (par exemple : danse/danses/dansent ) que de fautes qui produiraient un autre token rattaché à un autre lemme que celui attendu tel que les erreurs causées par homophonie ou paronymie (par exemple : conseil/conseille ou pain/bain). Dans cet état de l’art, nous ne nous attarderons pas sur les fautes d’accord, notre travail n’ayant pas pour objectif de traiter ce genre de fautes. Pour détecter et corriger ce second type d’erreurs, s’appuyer sur le contexte est inévitable. En effet, si l’on a la phrase « Enfin un objet qu’ont peut emporter partout avec sois », on ne pourra corriger ont en on et sois en soi qu’à condition de prendre en compte leur environnement.

Ces dernières années, la correction grammaticale a fait l’objet de nombreuses études, et ce, notamment avec les campagnes d’évaluation (shared tasks) qui ont été organisées depuis 2011 : HOO — Helping Our Own — en 2011 et 2012 (Dale et Kilgarriff, 2011; Dale et al., 2012) et à la conférence CoNLL en 2013 et 2014 (Ng et al., 2013, 2014). Il est à noter que la majorité de ces études se concentrent sur les erreurs faites par les apprenants. Nos travaux ne se concentrant pas sur ce type d’altération, nous ne nous y attarderons pas.

Une grande partie des techniques employées pour la correction grammaticale re- posent sur la même logique. Elles tentent dans un premier temps de détecter une erreur puis créent, dans un second temps, une liste de candidats de correction possibles pour enfin choisir la correction la plus probable.

Contrairement à la majorité des travaux réalisés en correction lexicale, on ne peut plus ici se contenter d’une simple vérification dans le dictionnaire pour stipuler qu’un token est erroné. Tous les tokens contenus dans une phrase sont suscep- tibles d’être mal orthographiés. C’est pourquoi il est nécessaire de déterminer tout d’abord quels sont les tokens que l’on veut corriger. Pour ce faire, on peut par exemple passer par la création d’ensembles de confusion20_{prédéfinis (Golding} et Schabes, 1996; Golding et Roth, 1996; Carlson et Fette, 2007; Stehouwer et van Zaanen, 2009; Pedler et Mitton, 2010; Xu et al., 2011). Certaines études se concentrent ainsi sur les erreurs les plus fréquentes (Golding et Schabes, 1996), d’autres encore se limitent à certaines catégories grammaticales. Rozovskaya et Roth (2010) et Cahill et al. (2013), qui sont focalisés sur les prépositions, et Lee et Seneff (2008) et Rozovskaya et al. (2014), qui ont privilégié les verbes, illus- trent ce dernier cas. Théoriquement, il est possible de corriger toutes les erreurs contenues dans un texte. Des ensembles de confusion peuvent, pour cela, être construits à petite ou à grande échelle, manuellement ou non. Mangu et Brill (1997) proposent, par exemple, de se reposer sur un système de règles de transfor- mation tandis que Pedler et Mitton (2010) suggèrent de produire ces ensembles de confusion en appliquant un correcteur, ce dernier s’appuyant notamment sur la distance d’édition. Lorsque la création de ces ensembles est réalisée automati- quement, leur nombre n’est alors plus restreint. Cela permet à certaines études de vérifier l’orthographe de chaque token qui compose une phrase et de déduire pour chacun de ces tokens son ensemble de confusion. C’est par exemple le cas de Islam et Inkpen (2009) ou de Stehouwer et van Zaanen (2009) qui s’appuient sur des modèles n-gramme.

Suite à la sélection des fautes que l’on veut traiter, plusieurs stratégies de correction sont envisageables. On peut mettre en place un système de classification tel que le font Rozovskaya et Roth (2010) ou encore de Seo et al. (2012), qui utilisent un ensemble de classifieurs entraînés sur différents corpus. D’autres approches

20. Nous définissons dans ce travail un ensemble de confusion comme un ensemble de tokens souvent utilisés les uns à la place des autres par erreur (ex : {on, ont } ou {est, ai, et, es}). Cet ensemble représente généralement l’ensemble des candidats de correction possibles pour une faute donnée.

choisissent de mettre en place un système de traduction (Junczys-Dowmunt et Grundkiewicz, 2014)21, d’employer des approches par règles (Mangu et Brill, 1997; Rozovskaya et Roth, 2010), de se servir des modèles de langue n-gramme ainsi que le propose par exemple Golding et Schabes (1996), qui s’aident des catégories grammaticales associées à des paramètres contextuels, ou encore comme Park et Levy (2011) qui accompagnent ce modèle probabiliste d’un modèle de canal bruité. Cette dernière solution souvent combinée à de gros corpus, à des modèles d’erreurs, à différents types de paramètres (fréquence, catégories morphosyntaxiques, informations contextuelles...) ou encore à des mesures de similarité (phonétique, graphique...), est très utilisée (Carlson et Fette, 2007; Islam et Inkpen, 2009; Xu et al., 2011; Nazar et Renau, 2012).

Certaines études proposent aussi la combinaison de différentes approches. C’est le cas de Stehouwer et van Zaanen (2009) qui utilisent un classifieur s’appuyant sur des modèles n-gramme ou de Whitelaw et al. (2009) qui intègrent dans leur système un modèle de langue, un modèle d’erreur et un classifieur. On peut aussi citer les travaux de Gao et al. (2010) qui combinent un classifieur (s’appuyant sur des modèles n-gramme, des informations lexicales et grammaticales) et un système de cooccurrences, de Zesch (2012), qui mêle approche statistique (de type n-gramme) et à base de connaissances, ou encore, de Susanto et al. (2014) qui proposent d’employer un système de classification et de traduction automatique pour procéder à la correction grammaticale d’un texte.

Dans le document Normalisation orthographique de corpus bruités (Page 74-76)