• Aucun résultat trouvé

des Langues Assisté par Ordinateur

3.2 Traitement des erreurs orthographiques ou ty- ty-pographiquesty-pographiques

3.2.2 Typologies des erreurs d’orthographe

3.2.3.3 Recherche par n-grammes

Les n-grammes sont des groupes den lettres constituant une sous-chaîne de mot. Les plus courants sont les bigrammes, constitués de deux lettres, et les trigrammes de trois lettres. Ainsi, le mottrigramme est constitué des trigrammestri,rig,igr,gra,ram,amm etmme.

Morris et Cherry (1975) normalisent le texte en enlevant les apostrophes et les majuscules du texte et en extraient d’abord les statistiques de di-et trigrammes. Les mots sont ensuite classés dans un fichier di-et recherchés dans un lexique de 2726 mots techniques. Ensuite, le système calcule un score basé sur les fréquences de bi- et trigrammes pour les mots absents du lexique.

Ainsi, on obtient un indice de particularité de la chaîne et l’utilisateur peut déterminer si le mot est correctement orthographié ou non.

Riseman et Hanson (1974) corrigent les mots erronés en se basant sur des matrices de n-grammes binaires. Chaque matriceDij dénote si une paire de lettre est attestée aux positionsi etj dans un mot. Si une paire est attestée, sa probabilité est de 1, sinon, elle est de 0. Ainsi, pour caractériser tous

les mots de 6 lettres, 15 matrices 6×(6−1)2 sont nécessaires. Une erreur est détectée pour un caractère si au moins deux matrices n’attestent pas la paire. Le système propose alors de remplacer le caractère erroné par le ou les caractères attestés par tous les digrammes. La méthode ne détecte pas forcément les erreurs pour des mots courts. En outre, elle ne permet pas de traiter l’omission ou l’insertion.

Peterson (1980) utilise un tableau de fréquences de trigrammes et bi-grammes pour détecter une erreur potentielle. Il propose également d’enle-ver les suffixes et affixes courants comme-ness et de ne garder que la racine dans un dictionnaire. Cependant, de faux mots peuvent être générés et des erreurs morphologiques acceptées (comme *implyed, construit sur imply + -ed, à la place d’implied, alors quewanted est correct).

Pour de Heer (1982, p. 235), les trigrammes sont les plus petites unités qui, combinées entre elles, sont significative de la signification de la langue. Il montre qu’il existe 363trigrammes différents pour l’anglais, soit 46 656. Pour le français, outre les 26 lettres de l’alphabet, on ajouteà, â, ç, é, è, ê, ë, ï, î, ô, ù, ûetü, soit 39 symboles. A cela s’ajoutent les digraphes æ et œ, dont nous ne tiendrons pas compte puisqu’il s’agit de conventions d’imprimerie.

393 donne donc 59 319 trigrammes différents. De Heer (1982) estime que le nombre de trigrammes effectivement utilisés est de moins de 15%. Il estime donc le nombre de trigrammes différents dans un grand corpus de documents à 10 000.

Angell et al. (1983) présentent une méthode basée sur des trigrammes communs entre le mot inconnu et les mots du dictionnaire. Les mots can-didats sont retrouvés grâce à un dictionnaire de trigrammes qui liste tous les mots qui contiennent le même trigramme. Un mot de longueur n sera représenté par un vecteur de longueur n+2, afin de noter aussi les espaces.

Le motunion, de longueur cinq, sera représenté par un vecteurd à 7 dimen-sions contenant les trigrammes ##u, #un, uni, nio, ion, on# etn##, où le signe # représente les espaces. di représente le trigramme commençant en position i dans la chaîne. Un vecteur similaire m, de longueur n’, sera construit pour le mot inconnu. On définitc, le nombre de trigrammes com-muns aux deux chaînes, chaque trigramme ne pouvant être compté qu’une fois. c est donc le nombre de trigrammes pour lesquels di = mi, où ni di, ni mi ne sont déjà apparus lors d’une précédente égalité. Ceci permet de calculer l’indice de similarité, qui est connu sous le nom de coefficient de Dice:

2c

n+n (3.1)

Si un mot est entièrement inclus dans un autre, commesidèreetconsidère, le coefficient de Dice retourne une valeur trop élevée. Si la différence de longueur entre les deux chaînes est supérieure à 1, l’indice de similarité devient alors :

c

max (n,n) (3.2)

Enfin, Vosse (1992, §C.36) utilise également une technique de trigrammes et de triphones pour la partie orthographique de son correcteur grammatical du néerlandais. Les propositions sont ensuite ordonnées selon un système de score.

Passons maintenant à des méthodes statistiques de réaccentuation grâce à des trigrammes. Simard et Deslauriers (2001) présentent une méthode de réaccentuation de textes français. La phrase en (9a) peut être réaccentuée comme (9b) ou comme (9c).

(9) a. Ce chantier ferme a cause des emeutes.

b. Ce chantier fermé a causé des émeutes.

c. Ce chantier ferme à cause des émeutes.

Environ 85% des mots français ne contiennent pas d’accent. Plus de la moitié des éléments restants peut être réaccentuée de manière déterministe.

Ainsi, un peu plus de 5% des mots correspondent à plus d’une forme valide.

La méthode de Simard et Deslauriers (2001) se base sur une désambiguïsa-tion parModèles de Markov Cachés(Hidden Markov Models, HMM, v. 3.1.2 p. 49). Une première phase assigne des étiquettes aux différents mots. La seconde phase procède à la désambiguïsation.

Quant à Yarowsky (1994), pour résoudre le problème de l’accentuation des mots en espagnol et en français, il prône l’utilisation de méthodes géné-rales de désambiguïsation sémantique grâce au contexte environnant. Le pro-blème ne peut être résolu grâce à des techniques simples d’étiquetage lexical par trigrammes. Il est nécessaire de procéder à une analyse syntaxique voire sémantique. L’auteur calcule des listes de décisions basées sur le contexte des mots à ±n mots. Bien qu’il n’aborde la restauration de l’accentuation que dans un contexte de lettres capitales non accentuées, l’algorithme pourrait être utilisé dans un cadre d’apprentissage des langues.