Le long chemin de généralisation des structures lexicales

Chapitre 4 Lexiques et formalisation lexicale

4.1 Le long chemin de généralisation des structures lexicales

Tout lexique a une structure lexicale, même si elle n‘est souvent pas explicitée. Le souhait de partager les ressources a mené à des travaux de généralisation de ces structures lexicales afin de diminuer les coûts d‘adaptation. Les différentes normes, recommandations et directives ont toutes une longue histoire.

4.1.1 La tentation d’exploiter l’existant

Si l‘avènement de SGML au milieu des années 80 ouvre la voie au partage et à l‘archivage à long terme de documents textuels dans un monde dominé par des systèmes documentaires aux formats propriétaires, il a aussi des répercussions sur l‘édition des dictionnaires. Afin d‘être exploités par les systèmes d‘impression, les dictionnaires étaient auparavant encodés en texte entrecoupé par des commandes typographiques, et les éditeurs vont progressivement procéder à la conversion de leurs données.

La communauté du TAL s‘est intéressée très tôt à ces grands dictionnaires dont le contenu est le fruit de longues années d‘édition par des lexicographes expérimentés. Comme on peut lire dans [Evens et Smith, 1979], la conception d‘un lexique est entravée d‘un grand nombre de considérations théoriques et philosophiques dont la résolution influe directement sur le codage des données. Le volume des données est tel que tout choix de codage peut être irréversible. Comme la constitution de lexique est un travail de longue haleine, qu‘à cette époque-là, les ordinateurs n‘avaient pas encore leur puissance actuelle et que les grands corpus n‘existaient pas encore, beaucoup de chercheurs se sont lancés dans la recherche pour récupérer les connaissances contenues dans les grands dictionnaires papier. Ils espéraient notamment exploiter les définitions pour créer des bases de connaissances sémantiques complètes. La thèse de [Amsler, 1980] peut être mentionnée ici comme l‘un des travaux précurseurs dans ce domaine.

Environ 15 ans plus tard, les chercheurs en TAL concluent à l‘échec de l‘exploitation automatique de ces connaissances. [Atkins, 1991] appelle human bias le fait que les dictionnaires sont faits pour des lecteurs humains, et non pas pour une utilisation computationnelle, et qu‘ils peuvent de ce fait comporter des incohérences qui ne heurtent pas les lecteurs. En confrontant à la réalité du corpus des entrées tirées de cinq dictionnaires il montre que les dictionnaires peuvent contenir des descriptions sémantiques contradictoires. En conclusion, le titre de [Ide et Véronis, 1993]³⁹ en dit long : Extracting knowledge bases from machine-readable dictionaries: Have we wasted our time? En dépit de quelques travaux comme la construction de Mindnet par [Richardson et al., 1998], il fallait attendre l‘apparition de Wikipedia pour que la communauté se repassionne pour l‘exploitation des connaissances dictionnairiques.

Si l‘exploitation de dictionnaires électroniques40

par les chercheurs en TAL n‘a pas été concluante, ces recherches ont tout de même rapproché la communauté lexicographique de

39 Republié en [Ide et Véronis, 1995a]

Dictionnaires électroniques : traduction de machine readable dictionnaries, qui désigne la version électronique

69 celle du TAL⁴¹. L‘approche plus formalisée de cette dernière mènera à des tentatives de normalisation de l‘encodage des dictionnaires dans la technologie de l‘époque : SGML. [Amsler, 1980] initie le mouvement avec le constat qu‘un grand nombre de chercheurs travaillent sur les mêmes données sans mutualiser les efforts de transcodage et de correction des données. Cette prise de conscience aboutira au début des années 90 à l‘inclusion du chapitre 12 Print Dictionaries, dictionnaires papier, concernant le formatage de dictionnaires dans la TEI/P3⁴². [Ide et Véronis, 1995b] décrivent les principaux problèmes rencontrés dans la définition de cette partie des recommandations.

La Text Encoding Initiative (TEI) est née d‘une réunion internationale à Vassar College en novembre 1987 et est créée officiellement l‘année d‘après. Après des années de réunions d‘experts venant de tous bords et deux ébauches (P1 en 1990 et P2 en 1992), les recommandations sont publiées en mai 1994 sous le nom de Guidelines for Electronic Text Encoding and Interchange, recommandations pour le codage et l‘échange des textes informatisés, connu sous le nom TEI/P3 ([Sperberg-McQueen et Burnard, 1994]). Elles s‘appliquent sur un grand éventail de textes différents. Les textes cibles de la réunion à Vassar College étaient « tout texte destiné au savoir humain » ([Ide et Sperberg-McQueen, 1995]). L‘inclusion des dictionnaires dans la définition de texte était discutable en raison de l‘absence de texte continu, mais la réunion a décidé d‘y inclure ce cas limite. La TEI pourra donc être utilisée pour standardiser l‘encodage de lexiques pour le TAL. [Kilgarriff, 1999] et [Erjavec et al., 2000] illustrent la difficulté d‘un tel encodage : ils décrivent l‘adaptation nécessaire pour faire entrer 6 dictionnaires papier dans la TEI et ensuite créer une seule DTD.

Les recommandations de la TEI vont ensuite évoluer : la TEI/P3 avait adopté SGML comme norme d‘encodage, mais le succès de XML mène à une révision du codage qui se concrétise dans la TEI/P4 ([Burnard, 2001]), publiée en 2002. La dernière version est la TEI/P5 qui est sortie en novembre 2007. Elle apporte des changements sur le contenu, comme par exemple sur l‘annotation des entités nommées (noms de personnes, de dates et de lieux) et l‘annotation de corpus.

Comme nous pouvons lire dans [Ide et al., 1992], la TEI s‘adresse à quatre types d‘utilisateurs : éditeurs et lexicographes, linguistes informaticiens43

, philologues et historiens, et utilisateurs de dictionnaires. D‘après ces auteurs, le but du linguiste informaticien est typiquement de représenter les données du dictionnaire dans une base de données lexicale, et de l‘enrichir avec d‘autres informations linguistiques ; la TEI leur permettrait d‘échanger des informations et faciliterait la fusion. La TEI ne s‘adresse donc pas à eux pour définir le format de lexiques à usage informatique, c‘est-à-dire qui seront directement exploités dans des applications informatiques. Elle a été créée à partir d‘observations sur la structure de dictionnaires électroniques d‘un pendant papier. Le fait qu‘il ne soit pas non plus prévu de coder des ambiguïtés lexicales dans un corpus annoté illustre le même point de vue : ce sont des recommandations documentaires et non pas d‘échange.

La DTD de la TEI est complexe à cause de sa généricité. Pour y pallier, il existe le service PizzaChef sur le site de la TEI⁴⁴ : il permet de sélectionner les éléments qu‘on veut avoir à sa

41 L‘intérêt est réciproque : de leur coté, les maisons d‘édition s‘intéressent à l‘utilisation des techniques venant

du TAL pour enrichir et systématiser le contenu de leurs dictionnaires, comme nous avons pu le constater à une démonstration donnée par Steve Crowdy (de Pearson Longman) le 21 juin 2005 à Barcelone pendant une réunion du projet Lirics.

42 Pour plus d‘informations sur l‘histoire du TEI, voir [Ide et Sperberg-McQueen, 1995], ainsi que le site de la

TEI : http://www.tei-c.org/About/history.xml.

Traduction de computational linguists.

70 disposition. La TEI est en plus adaptable à ces propres besoins. [Tutin et Véronis, 1998] critiquent qu‘on doit restreindre le pouvoir d‘expression de la DTD dans tous les cas, car elle accepte la présence de structures qui n‘existent dans aucun dictionnaire et cela même en prenant en compte que la partie dédiée aux dictionnaires. L‘optionalité est une façon de rendre générique un modèle, mais ne contribue pas à la simplicité. Pour être appliqué il vaut mieux un cadre fixe limité qui reste stable dans toutes les circonstances.

4.1.2 L’époque des projets européens de grande envergure

Fin des années 80 et début des années 90, les grands projets dédiés à la recherche d‘une architecture générique de lexique se succèdent⁴⁵ ou se superposent. Ce n‘est pas une coïncidence que cela arrive dans cette période-là : les premiers grands corpus sont constitués et en partie annotés, et constituent des données que la recherche en étiquetage morphosyntaxique ne tardera pas à exploiter. Cet étiquetage automatique est considéré comme l‘une des étapes fondamentale pour toute application en TAL. Il repose souvent sur des lexiques de grande taille, même si contradictoirement pour quelques étiqueteurs parmi les plus connus comme [Brill, 1992], le lexique appris sur le corpus étiqueté suffit. Cette époque sera aussi l‘apogée de quelques projets de grande envergure de constitution de corpus, de lexiques et de création des outils pour les exploiter. Quelques-uns de ces projets avaient spécifiquement comme but le développement de lexiques de grande taille et ont consacré une partie de leurs travaux à la validation des modèles de données déjà proposés ou bien à la définition du leur.

Le projet européen Genelex (octobre 1989 – 1994), « GENeric LEXicon », et le modèle qu‘il propose sont présentés dans [Antoni-Lay et al., 1994]. Il a rassemblé neuf partenaires industriels et académiques, tous spécialistes dans le lexique pour des applications de TAL, pour définir un modèle d‘encodage qui convenait à l‘ensemble des partenaires et développer des outils pour la gestion des lexiques. Le modèle est exprimé dans une DTD en SGML, et l‘implémentation se fait dans le même langage. Le modèle se veut générique dans le sens où il est neutre par rapport aux théories (on peut coder les informations selon le cadre théorique choisi) et il convient pour le codage des lexiques, aux formats très divers, des partenaires. Dans sa suite, le projet européen CEGLEX⁴⁶ (mars 1995 – mars 1996) étendra le modèle sur trois langues de l‘Europe centrale, en coopération avec EAGLES (voir plus bas).

Le projet Multilex (décembre 1990 – novembre 1993), A Multi-Functional Standardised Lexicon for European Community Languages, était en contact avec les projets européens Genelex et EUROLANG⁴⁷. Dans le rapport final du projet, [Paprotté et Schumacher, 1993] font une proposition de norme internationale, appelé MLEXd, décrit en BNF⁴⁸. Il s‘agit d‘un modèle de données lexical multilingue orienté vers les grammaires d‘unification et implémenté en structures de traits. Il privilégie la description en intension par le lemme, reposant sur l‘héritage et les règles lexicales. Les outils qui ont été développés pour la gestion

Nous n‘entrons pas dans le détail des programmes qui ont financé les projets. La logique de financement de certains de ces projets européens peut être trouvée dans [Rolling, 1993]. Le type de programme et les partenaires sont énumérés dans [Mariani, 1995]. Des informations administratives sur les projets européens

peuvent aussi être retrouvées sur le site de la CE : http://cordis.europa.eu/.

46 CGLEX : Central European Genelex Model.

Le projet européen Eurolang (décembre 1991 - novembre 1994) regroupait 20 partenaires. Le projet est décrit dans [Seite et al., 1992] et visait le développement d‘un système de traduction automatique en 5 langues avec 50.000 entrées dans chaque dictionnaire.

Le Backus Naur Form (BNF) est un metalangage permettant de décrire les règles syntaxiques d‘un langage de programmation.

71 du lexique comprennent : un indexeur, un concordancier, un segmenteur, un tagger, et des outils statistiques pour l‘extraction d‘informations lexicales de corpus.

Le projet ACQUILEX I (juillet 1989 – juin 1992) avait comme but de construire une base de connaissances multilingue à partir des dictionnaires électroniques monolingues (EN, IT, NL) et multilingues (EN-IT et EN-NL). ACQUILEX II (août 1992 – juillet 1995) s‘est fait dans la continuité du premier et a ajouté l‘exploitation de corpus pour l‘acquisition semi-automatique de connaissances. L‘un des buts accessoires du projet était aussi de renforcer les liens entre la communauté lexicographique et celle du TAL.

Les expériences de Genelex et de Multilex trouvent leur suite dans le projet européen EAGLES (janvier 1993 – juillet 1995), Expert Advisory Group on Language Engineering Standards. Un groupe d‘experts européens ayant fait leurs preuves dans des projets impliquant des travaux lexicaux ou faisant partie du réseau de la communauté du TAL s‘est constitué. De nombreux groupes de travail ont édité des recommandations qui sont consultables sur le web⁴⁹ et qui couvrent le domaine entier du TAL. Pour l‘encodage de corpus, on y trouve notamment le CES, Corpus Encoding Standard. Les directives établies par EAGLES seront implémentées par des projets plus appliqués avant d‘être repris par ISLE qui en fera une contribution directe à la norme ISO et dont les travaux commenceront dès 2001.

Les buts affichés du projet européen Multext⁵⁰ (janvier 1994 – mars 1996) tels que décrits dans ([Véronis et Khouri, 1995]) étaient de standardiser des ressources, textes et données linguistiques, et de créer des ressources linguistiques et des outils génériques. Il s‘agit de corpus, de lexiques et d‘outils pour un très grand nombre de langues couvrant la plupart des familles des langues européennes. L‘un des buts affichés est de tester à grande échelle les recommandations de la TEI et de nouer une collaboration proche avec EAGLES. Concernant les corpus, le format CES (Corpus Encoding Standard), a été conçu et mis en œuvre dans les corpus produits. En même temps CES est entré dans les recommandations de EAGLES pour l‘encodage de corpus. Le format des lexiques produits est le suivant : forme, lemme, description au format Multext. Ce format du lexique est intéressant car il ne correspond nulle part aux recommandations existantes de Genelex ou de Multilex, mais ressemble plutôt à un format très pratique pour l‘exploitation de ces données. Les travaux faits sur la façon de décrire des catégories morphosyntaxiques est très remarquable et capitalise ceux de EAGLES et des grands projets précédents. D‘après [Véronis et Khouri, 1995] il est illusoire d‘avoir un jeu d‘étiquettes commun pour les différentes langues car les jeux d‘étiquettes sont incomparables. Les travaux de Multext East⁵¹ ont en plus fait apparaître que les jeux d‘étiquettes de Multext sont incomplets.

Le projet européen PAROLE⁵² (avril 1996 – mars 1997), Preparatory Action for linguistic Resources Organisation for Language Engineering, a produit des corpus (au format CES) et des lexiques correspondants pour toutes les langues européennes. Le format des lexiques et des corpus annotés suit les recommandations EAGLES. Les lexiques comprennent 20 000 entrées par langue et sont codés en SGML au format PAROLE. Ils couvrent des informations morphosyntaxiques et syntaxiques. Dans la suite de PAROLE s‘exécute le projet complémentaire SIMPLE (avril 1998 – mai 2000), Semantic Information for Multifunctional

49 A l‘adresse suivante : http://www.ilc.cnr.it/EAGLES/browse.html.

Multext : Multilingual Text Tools and Corpora. ([Ide et Véronis, 1994]) Voir

http://aune.lpl.univ-aix.fr/projects/MULTEXT/ pour d‘amples informations.

51 Multext East (mars 1995 – février 1997) : Multilingual Text Tools and Corpora for Eastern European

Languages. Voir http://nl.ijs.si/ME/.

72 Plurilingual LExica, qui ajoute 10 000 unités sémantiques à toutes les langues utilisant une structure de qualia⁵³ étendue. [Lenci et al., 2000], l‘article qui présente les aboutissants du projet, le présente comme un cadre général pour le développement de lexiques multilingues. Les spécifications linguistiques sont détaillées dans [SIMPLE Consortium, 2000]) : elles combinent les principes définis dans Genelex, Acquilex et appliquent ceux du lexique génératif tel que définis par [Pustejovsky, 1991] et [Pustejovsky, 1995] dans un cadre mis à jour et publié plus tard dans [Pustejovsky, 2001]. Un outil pour la saisie contrôlée a été développé, mais malheureusement, les archives sur le site le décrivant semblent corrompues. Le développement de WordNet a débuté à Princeton en 1978 sous l‘impulsion de George Miller comme une modélisation du lexique mental. Il a rencontré un franc succès dans le monde du TAL, à tel point qu‘il existe aujourd‘hui des WordNets dans un très grand nombre de langues, recensés sur le site de The Global WordNet Association⁵⁴. En Europe, deux projets européens (mars 1996 – juin 1999) ont développé des WordNets dans 7 langues de l‘Europe occidentale et centrale ([Vossen, 1998] et [Vossen, 2002]), suivant le modèle de Wordnet ([Fellbaum, 1998]).

ISLE (janvier 2000 – décembre 2002), International Standards for Language Engineering, fort d‘une implémentation pratique des directives du projet européen EAGLES, a pris le relais de ce dernier projet et établi des liens avec le comité ISO TC37/SC4, nouant ainsi des liens transatlantiques. L‘accent est mis sur le lexique multilingue avec des spécifications de MILE, Multilingual ISLE Lexical Entry. ISLE a entre autres donné lieu au développement de IMDI, ISLE Metadata Initiative ([IMDI, 2001a]). Il s‘agit d‘un ensemble de métadonnées qui fait concurrence aux métadonnées OLAC (Open Data Archive Community, [Simons et Bird, 2003]) initié par le LDC et SIL International⁵⁵ et compatible avec le DC (Dublin Core). Etabli à peu près en même temps qu‘IMDI au début des années 2000, le but d‘OLAC était de définir un ensemble normalisé de métadonnées pour des ressources langagières, alors que IMDI vise des ressources linguistiques et tout d‘abord des données multimédia. Dans [IMDI, 2001b] les auteurs pointent sur le fait que les initiatives ne s‘adressent pas exactement aux mêmes communautés, et mettent en correspondance les deux propositions. IMDI s‘adresse à un sous-ensemble de la communauté OLAC, qui lui-même s‘adresse à un sous-sous-ensemble de DC. Avec IMDI, le MPI de Nimègue a développé aussi l‘infrastructure et les outils pour éditer les métadonnées et rendre accessibles les ressources décentralisées ([Broeder et al., 2001].

4.1.3 Des projets à plus petite échelle

En dehors du contexte de projets européens quelques projets de création lexicale vont fortement influencer la modélisation des connaissances. S‘il s‘agit de projets à plus petite échelle, leur succès est dû à des résultats tangibles et à un suivi de qualité.

Le EDR, Electronic dictionary Research ([Takebayashi, 1993]), est le résultat d‘un projet japonais de neuf ans (1986 – 1994, avec une mise à jour des dictionnaires en 2007). Dictionnaire électronique pour un usage computationnel revendiqué, il contient des lexiques et des corpus dans le but de fournir tout le nécessaire pour un traitement automatique du japonais, de l‘anglais et de leur traduction. Dans les lexiques, construits à partir des corpus, on

Que l‘on pourrait traduire par « propriété distinctive ». Il s‘agit des quatre rôles suivantes : formal,

constitutive, telic, agentive. Pour pudding, dans l‘ordre : substance, ingrédients, manger, faire. Voir les références de Pustejovski dans le même paragraphe.

http://www.globalwordnet.org/

73 trouve donc des lexiques de formes, de traduction, de concepts, de cooccurrences et de termes techniques, qui sont liés entre eux pour passer par exemple d‘une forme à un concept.

Celex est le centre d‘information lexicale néerlandais créé en 1985 comme une collaboration entre les centres lexicologiques importants des Pays-Bas. L‘une des principales actions de ce centre était la création du CELEX Lexical Database [Baayen et al., 1995], qui contient des lexiques dans trois langues : anglais, allemand et néerlandais. Ils décrivent les formes et les lemmes au niveau orthographique, phonétique, morphologique, syntaxique et fréquentiel. Celex fait aujourd‘hui partie du MPI de Nimègue qui joue un rôle central en termes d‘infrastructure de ressources linguistiques aux Pays-Bas avec notamment le « Browsable Corpus » qui donne un accès unique à des corpus décentralisés à travers les méta-données IMDI.

PolyLex ([Cahill et Gazdar, 1999]) est un lexique multilingue de 3000 mots en trois langues « liées » (anglais, néerlandais, allemand), implémenté en DATR ([Evans et Gazdar, 1989] et [Evans et Gazdar, 1996]), un langage pour le codage de lexique basé sur l‘héritage. Le lexique prend en entrée les lexiques CELEX et construit le lexique multilingue par des techniques d‘importation semi-automatiques. L‘intérêt direct pour le TAL semble réduit d‘après l‘auteur même dans [Cahill, 2001]: « the resulting lexicons themselves are probably not suitable for use in any NLP applications in their present form, due to their rather abstract nature ». L‘idée de mutualiser des informations communes est cependant excellente car l‘absence de répétition limite le risque de l‘erreur.

Le but du programme DoBeS⁵⁶, Dokumentation Bedrohter Sprachen, est de documenter un maximum de langues en voie d‘extinction dans une démarche de linguistique de terrain. Dans le cadre de ce programme, [Wittenburg, 2001] a passé à la loupe les modèles lexicaux de six langues du projet, cinq autres modèles existants et quatre propositions de modèle. Il adopte une approche pragmatique en laissant de côté tous les modèles qui ne sont pas ceux de DoBeS. Il les représente graphiquement et en déduit un schéma générique à des fins de documentation. Ce schéma sera implémenté dans la base de données qui reçoit les données des langues du monde entier. Il s‘approche ainsi un peu de l‘ALM, Abstract Lexicon Model, qu‘il présente au début de l‘article comme la définition générique des catégories d‘objets lexicaux, leurs caractéristiques et leurs relations. Ces catégories sont les briques (complexes) d‘un lexique computationnel et représentent des concepts linguistiques pertinents, leurs attributs et les méthodes qui permettent d‘y accéder. Il n‘y a qu‘un pas de la reprise et d‘une généralisation de ces travaux au modèle qui sera proposé pour les travaux à l‘ISO. [Wittenburg et al., 2002] prépare le terrain et mentionne déjà UML (et RDF) comme le

Dans le document Des ressources aux traitements linguistiques : le rôle d‘une architecture linguistique (Page 69-76)