Analyseurs morphologiques, lemmatiseurs, conjugueurs et déclineurset déclineurs

des Langues Assisté par Ordinateur

3.1 Survol des différents domaines du TAL et de leur application à l’ALAO

3.1.1 Outils de base

3.1.1.4 Analyseurs morphologiques, lemmatiseurs, conjugueurs et déclineurset déclineurs

Les analyseurs morphologiques permettent de dériver la construction morphologique d’un mot connu ou de faire des hypothèses sur la nature d’un mot inconnu. Un mot est constitué d’une racine et d’aﬃxes, qui sont de petites unités destinées à marquer un nombre, un temps, une personne, etc. Un analyseur morphologique tentera de restituer la ou les racines pos-sibles d’un mot et d’analyser sa valeur. Le mot suis sera soit la première personne de l’indicatif présent du verbe être, soit les première et deuxième personnes de l’indicatif présent du verbe suivre; va sera la troisième per-sonne de l’indicatif et deuxième perper-sonne de l’impératif du verbealler, etc.

La morphologie est traditionnellement divisée entre formation des mots (morphologie dérivationnelle et compositionnelle) et morphologie flexion-nelle (ten Hacken et Tschichold, 2001; Bouillon et al., 1998; Nazarenko, 2006). La morphologie flexionnelle consiste à décliner un substantif ou un adjectif ou conjuguer un verbe à partir d’un lexème, tandis que la morpho-logie dérivationnelle décrit la composition d’un mot à partir de racines et d’affixes ou la création d’un mot à partir d’un autre (centre → centrer, licencier → licenciement, etc.).

Suivant les besoins, un outil peut soit fournir une forme unique qu’il déter-mine comme correcte, soit toutes les analyses possibles en laissant le choix à l’utilisateur. Un analyseur morphologique peut utiliser deux techniques diﬀérentes : l’approche par règles peut laisser des formes non résolues si au-cune règle ne permet de déterminer un choix, mais commet peu d’erreurs ; en revanche, l’approche stochastique fournit généralement une analyse pour toutes les formes, tout en donnant un taux d’erreur plus élevé. L’approche stochastique nécessite un corpus d’apprentissage, étiqueté ou non par des humains.

Cas particulier d’analyseur morphologique, un lemmatiseur (stemmer, Antoniadis et al., 2004a) est un outil qui détermine le lemme d’un mot, c’est-à-dire sa forme de base comme on la trouve dans un dictionnaire (ainsi que son éventuelle dérivation morphologique à partir de son radical). Un conjugueur permet de donner les tableaux de conjugaison d’un verbe. Un déclineur fait de même pour les noms et adjectifs d’une langue à déclinaisons.

Parfois, les conjugueurs et déclineurs sont couplés à un lemmatiseur pour retrouver la forme de base du verbe et aﬃcher toutes les formes ﬂéchies.

L’analyse morphologique d’un mot peut être aussi utile pour analyser des mots inconnus ou diﬃciles, par exemple pour la recherche dans un

diction-naire. En français, il est courant de pouvoir former des mots nouveaux par l’utilisation d’affixes et de suffixes. Les adjectifs peuvent être modifiés par l’adjonction de préfixes commehyper-,multi-,archi-, etc. Dans cet ouvrage, nous utilisons abondamment le substantifapprenant, venant du vocabulaire spécialisé de la pédagogie et formé sur le participe présent du verbe ap-prendre, bien que la plupart des dictionnaires ne connaissent pas ce terme comme substantif. Il faut toutefois prendre garde de ne pas accepter n’im-porte quelle formation de nouveaux mots.

Passons maintenant aux descriptions de quelques logiciels utilisant des outils morphologiques. Le logiciel FreeText (§4) fournit un conjugueur ca-pable de donner la conjugaison complète d’un verbe français à partir de son inﬁnitif ou d’une forme ﬂéchie. Les temps composés sont générés à partir de la conjugaison des auxiliaires et du participe passé. Le conjugueur gère aussi les verbes essentiellement pronominaux, les verbes défectifs commepleuvoir, choir, etc. Il existe de nombreux exemples pour de nombreuses langues : an-glais (VERBCON, §B.2.37, Compounds §B.4.13, Boucheret al., 1993; Bou-cher et Sébillot, 1993; Danna, 1997), allemand (Greeneet al., 2004), basque (XUXEN, §C.37, Agirre et al., 1992, Díaz de Ilarraza et al., 1998, 1999), japonais (CoCoA, Fenget al., 2000), tchèque (Smrž, 2004), gaélique (Keogh et al., 2004), espagnol (The Spanish Verb, Soria, 1997, §B.2.32), etc.

Pour conclure, nous suggérerons d’analyser les mots pour tenter de re-trouver la racine (ou plusieurs racines potentielles) puis, dans un dialogue avec l’apprenant, de reconstituer la forme correcte.

3.1.1.5 Phonétiseurs

Les phonétiseurs sont des outils qui calculent une ou plusieurs représen-tations phonétiques pour une chaîne de caractères. Ainsi, pour la chaîne portions, un phonétiseur devrait fournir les représentations [pOKsj˜O], qui cor-respond au substantif portion, et [pOKtj˜O], qui correspond à l’indicatif im-parfait première personne du singulier du verbeporter. Un phonétiseur doit pouvoir fournir des résultats pour des mots connus comme pour des noms propres ou des noms inconnus. Nous reviendrons plus en détail sur le pro-blème de la phonétisation des mots inconnus dans la section 3.1.4 consacrée à la synthèse vocale.

Gaudinat et Goldman (1998) et Ndiaye et Vandeventer Faltin (2004) dé-crivent un phonétiseur destiné à un outil de synthèse vocale (§3.1.4), un correcteur orthographique (§§3.2, 6) et un diagnostic d’erreurs grammati-cales (§§3.3.3.2, 5.2.2). Cet outil fonctionne à l’aide d’un système expert qui

utilise des règles déterministes pour traiter des mots inconnus. Il ne fournit par conséquent que la chaîne phonétique la plus plausible. En général, les phonétiseurs utilisent la technique des transducteurs (§3.3.4.1).

Les phonétiseurs peuvent être utiles pour des apprenants dans deux cas de ﬁgure. Tout d’abord, il est utile de disposer de la ou des transcriptions phonétiques d’un mot. Dans le cas de l’exemple deportions, il sera utile de disposer d’un étiqueteur (§3.1.2) pour déterminer la catégorie lexicale du mot (partie du discours). Ensuite, un phonétiseur permettra à l’apprenant de corriger un mot mal orthographié en cherchant dans le lexique avec une clé de recherche phonétique. Nous reviendrons sur cette utilisation dans la partie sur la correction orthographique (§3.2.3.5).

3.1.1.6 Discussion

Bien que les outils de traitement des langues décrits ci-dessus soient som-maires, ils peuvent s’avérer fort utiles à plusieurs titres. Tout d’abord, ils sont une aide à l’apprentissage d’une langue, spécialement pour améliorer l’expression écrite. Les apprenants peuvent gagner du temps en accédant à des outils d’aide qui les aident à combler leurs lacunes en morphologie et en orthographe. Ensuite, ils peuvent également servir à l’élaboration d’exer-cices, en épargnant aux enseignants des tâches fastidieuses. Même si les concepteurs d’exercices doivent souvent réviser ou superviser les résultats des outils de TAL, le gain de temps est appréciable par rapport à un travail manuel. Le logiciel MIRTO (§B.2.21) illustre particulièrement bien tout le parti qu’on peut tirer de tels logiciels.

Ces outils sont assez simples et ont un taux d’erreurs assez bas, comme le relèvent Antoniadis et al.(2004b). Ces technologies sont donc suﬃsamment mûres pour permettre leur utilisation pour des logiciels d’ALAO. Enﬁn, la reconnaissance de patrons permet de pallier le manque de ressources linguis-tiques ou le manque de capacités techniques.

3.1.2 Étiqueteurs

Dans cette section, nous commençons par un survol de la problématique de l’étiquetage. Puis nous décrivons quelques techniques d’étiquetage pro-babiliste. Nous examinons ensuite quelques exemples d’utilisation d’étique-teurs pour des logiciels d’ALAO. Nous terminons par quelques remarques de conclusion.

L’étiquetage consiste à attribuer à chaque mot une étiquette indiquant sa catégorie ainsi que diverses propriétés (genre, nombre, cas, temps, etc.)⁵. L’étiquetage passe par trois phases : (i) segmentation des mots (§3.1.1.2) ; (ii) recherche des mots dans le lexique pour retrouver les catégories pos-sibles ; (iii) désambiguïsation (Paroubek et Rajman, 2000). Ainsi, le mot dorment peut recevoir une étiquette comme VER-IND-SUBJ-PRE-3-PLU, qui indique sa valeur de verbe à la troisième personne du pluriel du présent de l’indicatif ou du subjonctif. La taille du jeu d’étiquettes dépend de la finesse des informations représentées, allant de quelques dizaines à plusieurs centaines d’étiquettes différentes. Dans certains cas, il est difficile de lever totalement l’ambiguïté (Paroubek et Rajman, 2000).

Dans le cas des mots inconnus, des algorithmes permettent de deviner la catégorie du mot (Paroubek et Rajman, 2000). Il est parfois possible de généraliser des règles : un mot ﬁnissant par -ment peut être un adverbe ; un mot commençant par une majuscule au milieu d’une phrase est un nom propre, etc.

Passons maintenant aux descriptions de techniques d’étiquetage. La plu-part des étiqueteurs utilisent des informations statistiques. Selon Manning et Schütze (2000), il y a deux sources possibles d’information pour l’étique-tage. La première source est de regarder les catégories des mots environnants.

Même si ces mots sont ambigus, certaines séquences de catégories, comme dé-terminant + adjectif + nom, ont une probabilité d’occurrence élevée tandis que d’autres sont hautement improbables. La seconde source d’information est la probabilité d’occurrence d’une catégorie lexicale. Une des catégories possibles sera plus employée qu’une autre. Manning et Schütze (2000) pro-posent diﬀérents modèles d’étiqueteurs probabilistes. Tout d’abord, les mots de la phrase sont recherchés dans un lexique, qui retourne les parties du discours (ou catégories lexicales) possibles, ainsi que d’autres informations pertinentes comme les temps verbaux, les personnes etc. On peut calculer des probabilités d’après des bigrammes ou des trigrammes, c’est-à-dire sur les catégories et valeurs de deux ou trois mots. Les trigrammes sont une tech-nique plus eﬃcace car ils permettent de tenir compte davantage du contexte.

Les probabilités sont calculées d’après un corpus d’entraînement où les ca-tégories des mots sont annotées par des experts (apprentissage supervisé, Paroubek et Rajman, 2000), ou d’après un corpus non annoté.

Les Modèles de Markov Cachés (Hidden Markov Models, HMM)⁶ sont une technique très répandue pour l’étiquetage probabiliste. Cette technique

5. La notion de phrase et de mots est fort variable d’un système à un autre (Habert, 2006).

6. Voir aussi la section 3.1.3 pour l’application des HMM à la reconnaissance vocale.

consiste à calculer la probabilité qu’une chaîne appartienne à une certaine catégorie lexicale compte tenu de la catégorie d’un ou plusieurs éléments précédents (probabilités de transition). Ainsi, un modèle sur les bigrammes calculera les probabilités sur un seul élément précédent et un modèle sur des trigrammes sur les deux éléments précédents. Les HMM doivent être entraînés sur un gros corpus de textes, annoté ou non. Le taux d’erreurs rapporté dans la littérature est de 1 à 5%. Pour l’utilisation de HMM pour l’étiquetage, citons notamment les étiqueteurs de Abney (1997), de Brun et al. (2002), ainsi queLOCOLEX de Xerox (Cuttinget al., 1992).

L’algorithme de Viterbi (1967) mesure la probabilité qu’une information a été modiﬁée par une autre en se basant sur des arbres de n-grammes.

L’étiqueteur IMS Tree Tagger (Schmidt, 1994) est basé sur cet algorithme avec un arbre de décisions de trigrammes, pour pallier les problèmes causés par des données trop peu nombreuses pour en tirer des probabilités vraiment ﬁables.

CLAWS (Constituent-Likelihood Automatic Word-Tagging System, Gar-side, 1987; Marshall, 1987) est un étiqueteur probabiliste robuste, qui iden-tiﬁe les unités de mesure, les ordinaux etc. et recherche les expressions idio-matiques (v. p. 66) pour restreindre l’ensemble d’étiquettes. Atwell et Elliott (1987) décrivent l’utilisation de CLAWS pour détecter les erreurs de locu-teurs non natifs, en ajoutant des étiquettes d’erreurs à leur modèle.

L’étiqueteur Net-Tagger (Schmid, 1994) utilise la technique des réseaux de neurones artificiels. Celle-ci est basée sur une simplification du fonctionne-ment du cerveau humain, où les neurones combinent les informations prove-nant de nombreux autres neurones (10 000, selon certaines estimations) pour produire une nouvelle information en sortie. Dans les réseaux de neurones artificiels, une couche de neurones prend les entrées de la couche précédente.

Chaque entrée (ou synapse) est multipliée par un poids synaptique diﬀérent, qui est peu à peu déﬁni lors de la phase d’apprentissage. Ces entrées sont combinées et le résultat de cette combinaison passe ensuite par une fonction d’activation. Le résultat de la fonction d’activation est transmis à la couche suivante s’il dépasse un certain seuil. Les réseaux de neurones sont entraînés sur des corpus et sont ensuite capables, comme le cerveau humain, d’ap-pliquer des règles rencontrées dans des cas similaires à des cas qu’ils n’ont pas encore rencontrés. Net-Tagger tente de déterminer l’étiquette correcte en tenant compte des trois mots précédents et des deux mots suivants.

Pour terminer, certains étiqueteurs n’utilisent pas d’informations statis-tiques. C’est le cas de FipsTag, basé sur l’analyseur Fips (Wehrli, 1997;

Goldman et al., 2000, §5), dont l’analyse syntaxique sert à déterminer des

étiquettes dans un jeu d’environ cinquante étiquettes diﬀérentes. Des éti-queteurs utilisent des jeux de règles de désambiguïsation (Paroubek et Raj-man, 2000), qui comptent un ou plusieurs milliers de règles. D’autres outils étiquettent en deux phases, avec un premier dégrossissage des catégories qui ignore certaines informations comme le genre et le nombre, puis une seconde phase de désambiguïsation à l’aide de règles. D’autres encore ap-prennent des règles sur la base de corpus étiquetés, ce qui permet de déter-miner itérativement un contexte de plus en plus contraint pour déterdéter-miner la bonne étiquette (Brill, 1995). Enﬁn, citons encore la méthodes des auto-mates (§3.3.4.1).

Décrivons maintenant quelques logiciels utilisant des étiqueteurs. Metcalf et Meurers (2006) utilisent l’étiqueteurTnT (Brants, 2000), qui est basé sur les HMM, pour générer des exercices (textes à trou, glisser-déplacer, §2.6.2) à partir de textes authentiques. Par contre,Glosser-RuG (§B.2.11, Dokter et Nerbonne, 1998) utilise Locolex de Xerox Grenoble. Ce logiciel est basé sur des automates (§3.3.4.1) et reconnaît, pour la version française, environ 300 000 formes de 50 000 lemmes. Il utilise un désambiguïsateur stochas-tique. Par ailleurs, Keoghet al.(2004) et Greeneet al.(2004) présentent un système pour l’apprentissage de l’allemand basé sur l’étiqueteur IMS Tree Tagger. Wagner (2004) décrit un logiciel d’exercices autour de faux amis entre l’allemand et l’anglais, également basé sur cet étiqueteur. Enﬁn, Liu et al. (2005) présentent un générateur de textes à trous basé sur un étique-teur.

En conclusion, nous pouvons affirmer que les étiqueteurs offrent des tech-niques suffisamment fiables pour une utilisation en ALAO, en tout cas comme aide à l’élaboration d’exercices. Un enseignant peut utiliser un éti-queteur pour préparer un texte et réviser facilement le résultat pour remé-dier aux erreurs commises par l’étiqueteur. On peut également utiliser les étiqueteurs comme aide à la lecture d’un texte, notamment comme désam-biguïsateur de mots, par exemple pour aider à sélectionner la bonne entrée d’un lexique. L’apprenant devrait également avoir accès aux autres analyses possibles, afin de pallier les erreurs d’étiquetage. Par ailleurs, l’étiquetage, interactif ou non, est intéressant pour l’analyse des corpus, comme nous le verrons à la section 3.1.7.

Dans le document Traitement automatique des langues et apprentissage des langues assisté par ordinateur : bilan, résultats et perspectives (Page 65-70)