• Aucun résultat trouvé

des Langues Assisté par Ordinateur

3.5 Formalismes lexicaux

3.5.2 Théorie Sens-Texte

La Théorie Sens-Texte (TST, Mel’čuk, 1997; Polguère, 1998; Mel’čuk, 2001) est une théorie linguistique complète qui offre un formalisme aux ni-veaux sémantique, syntaxique, morphologique et phonétique. A l’exception du côté sémantique, chacun de ces niveaux est divisé en structures pro-fondes et structures de surface. Des processus permettent le passage d’un niveau à l’autre, du sens au texte, c’est-à-dire de concepts à une phrase écrite ou orale. Le niveau syntaxique de surface est représenté sous forme de grammaire de dépendance assez complexe (§3.3.5). Une représentation sémantique est constituée de trois structures :

– Une structure sémantique qui constitue le sens propositionnel de la phrase, de laquelle dépendent les deux autres structures ;

– Une structure sémantico-communicative, qui reflète le sens communi-catif ;

– Unestructure rhétorique, qui reflète les intentions du locuteur (ironie, pathétique, niveaux de langage...).

La structure sémantique est un graphe orienté dont les nœuds sont for-més d’unités sémantiques ou sémantèmes. Chaque unité est un sens particu-lier (ou lexie) non ambigu. Kahane (2001) montre quecheval (mot simple) pomme de terre (mot composé) etprendre le taureau par les cornes (expres-sion idiomatique, v. p. 66) forment des sémantèmes, et que des parties du discours de catégorie différente peuvent avoir le même sémantème, comme partir / départ,durer / pendant.

Les fonctions lexicales sont un concept clé de la TST. Elles constituent un outil de modélisation des phénomènes collocationnels. Une soixantaine de fonctions modélisent les relations de cooccurrences lexicales. Ces fonctions sont universelles et suffisent à décrire la plupart des collocations dans toutes

les langues. Elles servent à donner la ou les lexies qui permettent d’exprimer une fonction particulière en fonction d’une autre lexie. Les fonctions sont nommées d’après des noms latins. Le tableau (3.3) montre quelques fonctions lexicales.

Fonction Utilisation Exemples

Magn intensification Magn(dormir) = profondément, comme une souche... Magn(blessé) = grave-ment, grièvement. Magn(amour) = ar-dent.Magntemps(amour) = éternel Bon bon, tel que le

locu-teur approuve

Bon(conseil) = bon, précieux.

Bon(temps) = beau. Bon(se porter)

= comme un charme

AntiBon contraire de Bon AntiBon(victoire) = à la Pyrrhus. Anti-Bon(temps) = de chien

Oper verbes support Oper(remarque) = faire.Oper(méfait) = perpétrer. Oper(applaudissements) = re-cueillir

Func autres verbes sup-port

Func(réunion) = est en cours.

Func(responsabilité) = incombe à.

Func(danger) = menace

Labor verbes support Labor(liste) = mettre N sur ART.

Incep début action Caus être cause de

Tab. 3.3 – TST: quelques fonctions lexicales Ces fonctions peuvent être combinées, comme par exemple Magn+Oper(amour) = brûler, se consommer, mourir [d’∼pour N].

Le cœur de la Théorie Sens-Texte est le Dictionnaire Explicatif et Com-binatoire, qui encode les informations lexicales. Le dictionnaire est explicatif car il décompose un mot en un ensemble d’éléments constitutifs et il est com-binatoire car il décrit la sous-catégorisation du mot, ainsi que les fonctions lexicales qui peuvent lui être associées. Le dictionnaires devrait contenir en-viron un million d’entrées pour le français contemporain. Les quatre volumes parus (Mel’čuket al., 1984, 1988, 1992, 1999) comprennent les descriptions de 510 vocables du français et 1583 définitions lexicales (Altman et Polguère, 2003), dont la liste est donnée sur le site de l’Observatoire de Linguistique Sens-Texte48.

48.http://www.olst.umontreal.ca/, consulté le 10 août 2004.

Passons aux réalisations informatiques. LaBDéf est une base de données en cours de construction qui vise à informatiser leDEC (Altman et Polguère, 2003). DiCo(Polguère, 2003) est une base de données dérivée du DEC. Elle décrit les dérivations sémantiques de mots avec d’autres et les collocations de la langue. Il existe une application grand public de DiCo appeléeLexique actif du français (LAF), qui a pour but d’enseigner l’acquisition du lexique.

Citons encore les travaux de Rambow et Korelsky (1992) et Visser (1999).

Passons maintenant aux applications possibles de la TST pour l’ALAO.

Milićević et Hamel (2005) présententDire autrement, un dictionnaire de re-formulation basé sur la TST. Ce dictionnaire est destiné aux apprenants du français de niveau moyen à avancé, afin qu’ils puissent surmonter les difficul-tés d’une utilisation idiomatique de la langue en utilisant des paraphrases.

Pour cela, il est nécessaire de connaître les relations de collocation d’un mot avec un verbe, avec un intensificateur etc. Il est également utile de connaître les relations d’antonymie, synonymie, nominalisation, verbalisation etc.

Avec des dictionnaires complètement implémentés, une telle théorie per-mettrait de vérifier des collocations dans des applications d’analyse. Le degré de grammaticalité d’une phrase pourrait ainsi mieux être évalué et des expressions équivalentes pourraient être admises comme correctes. En tant que dictionnaire d’apprentissage, le DEC ou ses dérivés seraient très utiles. Enfin, pour la traduction automatique ou comme aide à la rédaction, des dictionnaires bilingues indiquant les équivalences de traduction seraient une contribution essentielle. Pour le français, l’étendue du lexique pourrait éventuellement s’avérer suffisante pour une utilisation dans une application d’ALAO.

3.5.3 WordNet

WordNet (Fellbaum, 1998; Fellbaum et Miller, 2003) est la base de don-nées lexicales la plus importante pour l’anglais. Les noms, adjectifs, verbes et adverbes sont organisés en ensemble de synonymes qui représentent des concepts sous-jacents (synsets). Pour les noms, on dénombre 114 648 mots organisés en 79 689 concepts 49.EuroWordnet est un projet dérivé de Word-Netpour le néerlandais, l’italien, l’espagnol, l’allemand, le français, le tchèque et l’estonien, achevé en 1999. Ce projet est géré par un consortium européen centralisé à Amsterdam. Il utilise les mêmessynsets que WordNet. La base française compte 23 000synsets et 49 000 relations entre ces termes.

49. Chiffre disponibles sur le sitehttp://www.cogsci.princeton.edu/~wn/, dernier accès le 5 juillet 2004.

Certains mots sont organisés en collocations. Les concepts sont organisés de manière hiérarchique.WordNet encode de nombreuses relations :

synonymie/antonymie: des sens sont synonymes si la substitution de l’un pour l’autre dans un contexte donné ne change pas la valeur de vérité. Un mot F est antonyme d’un G si non-G signifie F. Cependant, petit etgrand sont antonymes mais quelque chose qui n’est pas petit n’est pas forcément grand.

hyponymie/hyperonymie: ces relations sont aussi connues sous le terme de général/particulier. F est un hyponyme de G si F est une sorte de G. A l’inverse, F sera un hyperonyme de G.

méronymie/holonymie (relation partie/tout) : F est un méronyme de G si F est une partie de G.

enchaînement causal: c’est une relation entre verbes. Une action ré-sulte d’une autre, comme par exemple tuer etmourir.

troponymie: c’est une autre relation entre verbes. Si V1 est une ma-nière de faire V2, alors, V1 est un troponyme de V2.

WordNet est utilisé pour l’extraction automatique de nouveaux concepts et de nouvelles relations entre concepts. Il est également utile pour l’ex-traction de concordances sémantiques, de taxonomies, pour l’indexation de textes etc.Wordnet est aussi utilisé dans le domaine de la correction stylis-tique (Hirst et St-Onge, 1998; Hirst et Budanitsky, 2005) : le système détecte le mauvais emploi de mots en tenant compte du contexte.

L’utilisation de WordNet dans le domaine de l’ALIAO est évoqué par Miller et Fellbaum (1992). Ils relèvent que les mots de deux langues ne se recoupent pas exactement et qu’il est souvent nécessaire de recourir à des adjectifs ou des périphrases pour un concept qui n’existe pas dans la langue cible ou, à l’inverse, que des mots ont plusieurs équivalents. De plus, les mots ne recouvrent parfois pas exactement le même concept ni le même cadre de sous-catégorisation. Pour une aide à l’apprentissage, Miller et Fellbaum (1992) préfèrent l’utilisation d’un réseau sémantique monolingue en langue seconde pour favoriser l’acquisition lexicale. Quant à Agirreet al.(1998), ils utilisent un calcul de proximité de sens pour présenter le meilleur choix en premier dans un correcteur d’orthographe (§C.1).

TAEMA(Traitement Automatique de l’Écriture de Mots Affectifs, Buvet et Issac, 2006) est un outil d’apprentissage des expressions affectives (do-maine de l’amour, de la sympathie etc.) qui nécessitent l’emploi d’expressions figées. Le système est capable de générer une série de phrases représentant la même idée. Zock (2006) propose quant à lui d’utiliser un dictionnaire qui

dispose de liens associatifs pour aider les apprenants à exprimer leurs idées à l’aide d’un outil de génération (§3.1.5). TAGARELA (§B.4.34, Bailey et Meurers, 2006) compare les lemmes de mots qui ne se trouvent pas dans la réponse attendue par le système afin de détecter les synonymes. Enfin, pour le systèmeSigmaStar (§B.2.31) d’enseignement sur téléphones mobiles, Ott et al.(2005) utilisent le dictionnaireGermaNet (Lemnitzer et Kunze, 2002) dérivé deWordNet.

Pour conclure, nous constatons queWordNet, le formalisme lexical le plus répandu et le plus développé, est également le plus utilisé dans le monde de l’ALAO. L’étendue des lexique est essentielle pour une utilisation pédago-gique ; plus il y a de mots dans un lexique, plus il y a de chances de retrouver les mots d’un texte.