Méthodes stochastiques - Autres techniques de traitement des erreurs

des Langues Assisté par Ordinateur

3.3 Analyse syntaxique et détection d’erreurs

3.3.3 Autres techniques de traitement des erreurs

3.3.3.3 Méthodes stochastiques

Les grammaires indépendantes du contexte probabilistes (Probabilistic Context-Free Grammar, PCFG, Manning et Schütze, 2000) sont des règles indépendantes du contextes (§3.3.2.1), auxquelles on ajoute des probabilités d’occurrence des règles. Chen et al. (2002, §B.4.9) et Chen et al. (2005) décrivent une méthode POST-parsing (part-of-speech tagging) qui se base sur un analyseur écrit en PCFG. Le système compare la phrase de l’apprenant à des modèles de phrases stockée dans sa base de données et trouve la phrase modèle qui s’approche le plus de celle de l’apprenant.

Passons aux méthodes stochastiques appliquées à des textes étiquetés.

Comme travail de diplôme, Naber (2003, §C.23) propose un correcteur gram-matical destiné au logiciel libre de suite bureautiqueOpenOffice³⁷. Il se base sur l’étiqueteur probabilisteQTag(Tufis et Mason, 1998)³⁸basé sur un cor-pus d’entraînement d’un million de mots pour l’anglais et sur un petit corcor-pus de 25 000 mots pour l’allemand. D’autres projets de logiciels libres basés sur un étiqueteur existent commeCoGrOO(§C.7) pour le portugais brésilien ou GRAC (§C.14) pour le français. Le correcteur libre An Gramadóir (§C.2) utilise un système analogue : les règles de désambiguïsation peuvent être soit écrites à la main, soit construites automatiquement par apprentissage à l’aide de l’algorithme de Brill (1995). Enfin, Intégré dans l’environnement d’ap-prentissage du suédoisGrim (§B.2.13), le vérificateur grammatical Granska (Carlberger et al., 2002; Knutsson et al., 2002, 2003b,c, 2007) se sert éga-lement de la sortie d’un étiqueteur basé sur les Modèles de Markov Cachés (HMM, v. p. 49) et sur des règles d’erreurs ainsi que des règles d’aide et des

[eEøœ@], [oO], [uy] ou les voyelles nasales [˜A˜O˜E ˜œ] devraient également être substitués, car ils sont facilement confondus (Hannahs, 2007). D’ailleurs [˜E] et [œ] ont une prononciation˜ identique dans la plupart des régions francophones, sauf notamment en Suisse romande.

37.http://fr.openoffice.org/, dernier accès le 10 août 2006.

38.http://www.english.bham.ac.uk/staff/omason/software/qtag.html, dernier accès le 10 août 2006.

règles d’exception. Le système ESL-WEPS (Yiet al., 2008, §B.5.22) utilise une analyse de surface au moyen d’HMM et des heuristiques pour détecter les erreurs d’apprenants.

Maintenant, nous passons aux méthodes basées sur des trigrammes. Gol-ding et Schabes (1996) proposent un correcteur d’erreurs d’orthographe qui résultent en d’autres mots corrects, comme dans la phrase Can I have a

*peace of cake?, oùpiece devrait être employé au lieu depeace. Ils se basent sur la combinaison de deux techniques : l’emploi de trigrammes de catégories lexicales, entraînés sur un gros corpus, et une méthode probabiliste bayé-sienne³⁹basée sur (i) la présence d’un autre mot dans le voisinage immédiat (± n mots) et (ii) la présence de collocations (de mots particuliers ou cer-taines catégories lexicales). De son côté, Bigert (2004) décrit une méthode stochastique de détection d’erreurs résultant en des mots connus, comme there,their etthey’reen anglais, qui sont souvent confondus. Les fréquences de trigrammes sont une technique ﬁable mais qui peut déboucher sur la sur-détection en cas de suites rares. Dans un autre registre, Liu et al. (2009) présentent un outil de correction d’erreurs lexicales basée sur des corpus de n-grammes hybrides, où les éléments peuvent être soit lexicaux, soit des étiquettes de catégorie lexicale.

Examinons ensuite les méthodes basés sur l’apprentissage. Torlakovic et al. (2004) présentent un système d’apprentissage des adverbes anglais.

Celui-ci retrouve des exemples d’utilisation des adverbes dans certains con-textes en se basant sur un modèle statistique. Le système est capable de corriger les phrases des apprenants : s’il existe plusieurs positions possibles pour placer l’adverbe, il signale la meilleure. Un autre système est proposé par Sunet al. (2007). Han et al. (2004) présentent un système d’apprentis-sage de l’utilisation de l’article en anglais, destiné à des apprenants locuteurs natifs de langues où l’article n’est pas utilisé (russe, chinois etc.). Le sys-tème utilise la théorie de l’entropie maximale⁴⁰. Le système de Izumiet al.

(2003) pour la détection d’erreurs en anglais parlé utilise la même théorie.

C’est aussi le cas de Dapper (Determiner And PrePosition Error Recogni-ser, De Felice et Pulman, 2008, 2009), centré sur les préposition et entraînée sur un gros corpus aﬁn de déterminer les contextes d’emploi des

préposi-39. Une règle bayésienne de probabilités stipule que :P(X|Y) = ^P^(Y^|X)×P(X)_P_(Y₎ , où P(X | Y) est la probabilité que X est le mot correct à la place de Y ; P(Y | X) est la probabilité conditionnelle d’observer Y lorsque X est le mot correct ; enfin, P(X) et P(Y) sont les probabilités de rencontrer X et Y de manière indépendante.

40. Dans le domaine du traitement informatique, l’entropie est une fonction mathématique qui stipule que plus une information est redondante, moins elle est importante ; l’entropie est maximale si tous les symboles de la source ont la même probabilité, autrement dit si l’information est identique. L’entropie est utilisée pour la compression des données, la cryptographie, l’étiquetage syntaxique, l’indexation d’informations, etc.

tions : une fenêtre de ±3 mots est déterminée, et le dictionnaire WordNet (§3.5.3) permet de déﬁnir les classes sémantiques. La précision des résultats est d’environ deux tiers, ce qui est relativement faible. Mentionnons encore les travaux deLentillak (Alegriaet al., 2006, §B.5.9), Nagata et al. (2006) etCOTiG (Quixalet al., 2008).

Foster (2004) présente une méthode stochastique basée sur des corpus parallèles, l’un de phrases agrammaticales et l’autre des phrases corrigées correspondantes. Les phrases agrammaticales sont analysées et reçoivent un score de similarité avec la ou les phrases grammaticales correspondantes.

Elle utilise l’analyseur probabiliste à large couverture de Charniak (2000), basé sur l’entropie maximale.

Brockettet al.(2006) décrivent l’utilisation d’une technique de traduction automatique statistique de syntagmes pour la correction d’erreurs d’appre-nants sinophones de l’anglais pour l’emploi de noms comptables.

Doll et Coulombe (2004) suggèrent d’utiliser les probabilités de la pré-sence d’un mot dans un texte ; bien que les auteurs ne donnent pas de détails sur les techniques possibles, on peut proposer de demander à l’utilisateur de spéciﬁer un style de texte et de considérer comme suspect un mot rarement utilisé dans ce contexte donné.

Pour le logicielCALIS(§B.1.1), Borchardt (1987, 1995) présente succinc-tement une technique basée sur les réseaux neuronaux qui vise à détecter les réponses intentionnellement erronées (bogus inputs) commises par certains apprenants dans le but de connaître la bonne réponse pour ensuite eﬀectuer un parcours sans faute et obtenir une bonne note. Les réseaux neuronaux ont été entraînés sur des phrases authentiques, avec ou sans erreurs inten-tionnelles. Le système ne commet pas de fausse détection mais laisse passer quelques erreurs intentionnelles.

Pour conclure, remarquons que les méthodes stochastiques n’ont qu’une couverture limitée des erreurs, à l’exception de la méthode basée sur les PCFG et des méthodes utilisant des étiqueteurs probabilistes. Dans ces cas, les probabilités ne sont qu’une aide à la désambiguïsation. Ensuite, des règles servent à obtenir un diagnostic. Toutefois, les méthodes stochastiques peuvent s’avérer un complément intéressant aux règles de grammaire pour des diﬃcultés particulières de la langue dont cette section a donné quelques échantillons.

Dans le document Traitement automatique des langues et apprentissage des langues assisté par ordinateur : bilan, résultats et perspectives (Page 132-135)