• Aucun résultat trouvé

Des structures lexicales à une architecture linguistique

Chapitre 4 Lexiques et formalisation lexicale

4.3 Des structures lexicales à une architecture linguistique

La vue adoptée jusqu‘ici est purement lexicale et elle s‘arrête aux frontières du lexique. Le terme d‘architecture linguistique pour désigner un modèle lexical fait son apparition au début des années 90 dans les travaux de EAGLES et dans la thèse de Gilles Sérasset. Ce dernier s‘inspire des modèles de Genelex et de Multilex pour mettre au point un système d‘édition lexicale d‘un dictionnaire multilingue multi-applications. Eagles a écrit ses directives à partir des travaux faits dans les projets Genelex et Multilex.

Ils proposent les définitions suivantes :

[EAGLES, 1993]62 : « L‘architecture linguistique définit les objets élémentaires du modèle et leurs relations. Elle spécifie aussi la terminologie générale commune au standard complet et utilisée pour discuter des dictionnaires, de leurs composants ou de l‘interaction entre eux »

62 ―The linguistic architecture defines the basic objects of the model and their relations. It also specifies the

general terminology which is common to the whole standard and used to talk about the dictionaries, their components and the interaction of these.‖ (http://www.ilc.cnr.it/EAGLES/lexarch/node5.html)

81 [Sérasset, 1994] : « Organisation des informations linguistiques des unités des dictionnaires » (résumé de la thèse) « comment les entrées sont-elles organisées » (p. 51) « L‘architecture linguistique définit les objets de base d‘un dictionnaire et leurs relations. » (p. 52). « L‘architecture linguistique d‘une base lexicale définit la manière dont sont codées les entrées des dictionnaires qu‘elle contient. Elle régit donc, notamment, les structures logiques qui seront utilisées dans le codage des informations linguistiques. » (p. 60)

Ces définitions sont issues de travaux sur la généralisation de structures lexicales et se limitent au lexique. Axées sur les travaux lexicaux, elles laissent totalement de côté l‘existence d‘informations dans les autres ressources. Or une partie des connaissances lexicales peuvent être codées dans des règles pour traiter les mots hors vocabulaire. D‘une part un lexique n‘est jamais exhaustif et d‘autre part, une plus petite taille du lexique facilite la gestion. Au traitement très bas niveau de projection du lexique sur le flux textuel, le lexique s‘articule donc avec des règles lexicales qui font entièrement partie du modèle. Ce modèle n‘est alors plus totalement lexical, mais devient un modèle des informations véhiculées dans un traitement. Ainsi nous replaçons le lexique dans son contexte original de ressource linguistique servant à un traitement. Il est une ressource comme les autres. L‘architecture linguistique doit donc être établie sur l‘ensemble des ressources prises en compte par le traitement, que ce soit des lexiques, des grammaires ou des corpus.

Comme les ressources, le traitement dispose également d‘une architecture linguistique. A ce niveau de description conceptuelle, ressources et traitement doivent partager une partie du modèle de connaissances : les informations dont a besoin le traitement sont un sous-ensemble des informations qui existent dans les ressources. Si le traitement exploite toutes les informations, ils partagent le même modèle avec les ressources.

Nous reprenons donc les définitions mentionnées ci-dessus pour les étendre à l‘ensemble des informations (nommés objets ci-dessus) linguistiques utilisées dans un système, tout en excluant les références à l‘organisation physique des ressources.

Ces informations étant considérées dans le cadre d‘un traitement influant sur le processus en cours, nous pouvons les considérer comme des connaissances.

Une architecture linguistique est un modèle qui représente un ensemble de connaissances linguistiques ainsi que les relations entre ces connaissances.

Ce modèle est abstrait et ne tient pas compte de l‘organisation physique des ressources, que ce soit le type ou la syntaxe d‘encodage.

Une ressource linguistique tout comme un traitement en TAL dispose implicitement d‘une architecture linguistique. L‘architecture linguistique d‘un système est la synthèse des architectures linguistiques de toutes les ressources et de tous les traitements du système. Pour dresser l‘architecture linguistique d‘un système et avoir une vue globale sur toutes les connaissances véhiculées, il faut donc d‘abord définir l‘architecture de chaque traitement et de chaque ressource.

Nous nous sommes servis de la modélisation de l‘architecture linguistique pour obtenir une vision claire de haut niveau sur le fonctionnement du système qui est étudié. Ce modèle était un préalable à la conception d‘un outil de gestion et a servi de modèle de référence pour valider des choix techniques et pour comprendre certains dysfonctionnements. Quand les ressources sont éclatées sur un grand nombre de fichiers, une modélisation au niveau du système est obligatoire pour obtenir la vision nécessaire pour écrire des outils de gestion efficaces.

82 [Bonhomme et Lopez, 2000] ont recouru au même principe pour rassembler dans une seule ressource en XML trois types de ressources dans le cadre de travaux sur le formalisme de grammaire LTAG : un lexique morphosyntaxique, un lexique syntaxique et des schémas d‘arbres. Comme un codage direct en XML n‘était pas satisfaisant, ils ont utilisé un modèle formel de représentation abstraite des informations linguistiques contenues dans les ressources : RROM, Relational Resource Organisation Model. Un RROM est composé d‘un ensemble d‘entités de ressources (RE, Resource Entity) et d‘un ensemble de relations entre ces entités. Une RE est une catégorie de données indépendante et abstraite utilisée en TAL (comme par exemple mot, lemme ou catégorie grammaticale) et est représentée graphiquement par un rectangle. Son instanciation est représentée par un ovale. Les relations (RR, Resource Relation) ont un couple d‘arités qui indiquent l‘arité de la relation en fonction de la direction de cette relation. Après une brève illustration sur le lexique Multext, les auteurs dressent le RROM des trois ressources susmentionnées. Nous reprenons ce modèle dans figure 14 qui, comme les auteurs l‘indiquent, ne contient pas les schémas d‘arbres ni la représentation des traits pour des raisons de compréhensibilité. La partie supérieure du modèle est la partie morphosyntaxique, au milieu se trouve la partie syntaxique et la partie inférieure est la partie sémantique. Verticalement au centre se trouvent les instanciations, par exemple lemma representation pour lemma et inflection pour flexed word. Ces instanciations nous semblent nécessaires pour la conception du format XML qui est déduit directement de cette formalisation. Pour notre modélisation, l‘inclusion de ces instanciations est superflue : toute information recensée peut être instanciée.

Figure 14 : RROM des ressources LTAG

A part une compréhension totale des informations véhiculées, nous voyons au moins deux autres applications directes possibles de la description de l‘architecture linguistique. Elle peut tout d‘abord servir pour normaliser le vocabulaire des API des applications de TAL de manière à faciliter les échanges entre des modules logiciels indépendants ou les

83 enchaînements dans des chaînes de traitement comme par exemple celles respectant le cadre UIMA. Ensuite, dans un monde où l‘échange des ressources est chose commune, les ressources et les traitements devraient expliciter formellement leurs architectures linguistiques pour examiner leur compatibilité. Ainsi, producteur de ressources et utilisateur peuvent se retrouver par l‘intermédiaire d‘une modélisation des connaissances commune.

4.4 Conclusion

Après une longue histoire de travaux de normalisation, une norme ISO a été établie sur l‘encodage des informations linguistiques dans les lexiques pour le TAL. A l‘origine de la normalisation se trouve la volonté de réutiliser les lexiques et de réduire leur coût d‘adaptation. Au cours de ces travaux est apparu le terme d‘architecture linguistique, pour désigner les objets lexicaux et les relations entre eux. Nous avons étendu cette notion à l‘ensemble des connaissances contenues dans les ressources linguistiques : lexiques, corpus et grammaires. L‘architecture linguistique joue un rôle central dans nos travaux. Elle modélise la façon dont les connaissances sont exploitées par les traitements et procure une compréhension profonde du fonctionnement du système. L‘architecture linguistique est indispensable pour façonner les outils de gestion des ressources.

85