• Aucun résultat trouvé

Du besoin d‘un environnement de gestion de ressources linguistiques

Chapitre 3 Les ressources linguistiques et leur gestion

3.5 Des outils aux environnements de gestion

3.5.3 Du besoin d‘un environnement de gestion de ressources linguistiques

Le contexte dans lequel nous nous trouvons est celui d‘une plateforme d‘analyse linguistique, où plusieurs traitements font appel à des informations qui sont codées dans plusieurs ressources. Les traitements et leurs ressources sont organisés de façon analytique : à chaque traitement correspondent des ressources qu‘on ne mélange pas entre elles. Il en découle que les formats des ressources peuvent être d‘une grande simplicité, et donc facilement manipulables. En l‘occurrence, les lexiques sont codés dans un format texte avec une syntaxe particulière qui varie selon la ressource. Le linguiste est donc totalement autonome avec les ressources et ne dépend d‘aucun logiciel pour les manipuler. L‘autre avantage est qu‘il est alors facile d‘ajouter ou d‘enlever un traitement ou une ressource, comme par exemple ajouter un lexique spécialisé pour un client en particulier. Les redondances dans les informations entre les ressources sont le principal inconvénient.

Dans une organisation synthétique, toutes les connaissances sont contenues dans la même ressource, mais cela demande une infrastructure informatique de gestion complexe et donc un investissement important dans la maintenance de cette infrastructure. Dans ce cas, la place du linguiste est plutôt confortable car les tâches de gestion (versioning, sauvegarde, livraison, etc.) sont prises en charge par l‘infrastructure et il peut se concentrer sur l‘analyse linguistique. Mais comme l‘évolution de cette infrastructure dépend de l‘informatique, le linguiste peut se trouver bloqué le temps de la faire évoluer. Cette dépendance ne plaide pas en faveur de ce type d‘organisation, même si elle est conceptuellement la plus simple.

Notre approche se situe entre les deux : ne pouvant toucher à l‘architecture actuelle nous respectons la vision analytique des ressources, mais nous simulons la vision synthétique des ressources par la mise en place notamment d‘un accès unique à toutes les informations lexicales.

Nous cherchons à mettre en place un environnement de gestion de ressources linguistiques plutôt que d‘un système ou d‘une plateforme. Ces deux derniers termes supposent en effet une certaine unité logicielle que nous ne pouvons pas assurer. L‘ensemble des outils nécessaires que nous avons mis en place sont complémentaires, peuvent être déployés en même temps mais ne sont pas toujours liés entre eux, ce qui est un minimum pour parler d‘une plate-forme. Une plateforme est surtout une structure d‘accueil qui permet de combiner des outils à volonté.

L‘environnement de gestion idéal se charge de toutes les opérations de gestion nécessaires sur les ressources, c‘est-à-dire de l‘acquisition et du cycle de la mise à jour qui comprend la validation. Il faut donc combiner les fonctionnalités qu‘on trouve dans les outils existants :

- un éditeur de lexique intégré avec un accès unique non intrusif, c‘est-à-dire qui donne une vue intégrale sur l‘ensemble des informations lexicales et qui n‘impose pas son utilisation pour des modifications massives qui sont plus faciles à faire par script ;

65 - un éditeur de grammaires qui fait le lien avec l‘éditeur de lexique ;

- une visualisation de l‘annotation paramétrable qui distingue les différents niveaux d‘annotation pour ne pas être noyé dans les annotations ;

- des outils d‘étude linguistique pour étudier les faits qui sont à l‘origine des règles et du lexique, comme par exemple un concordancier intelligent ;

- un outil de mise à jour du lexique qui facilite la surveillance de l‘évolution de la langue, particulièrement des néologismes, et aussi l‘ajout dans le lexique.

Les lexiques et grammaires que l‘équipe de Sinequa manipule sont tous au format texte, ce qui a le grand avantage de faciliter l‘accès à ces fichiers et leur manipulation par des langages de script. Cette situation est un choix stratégique fait par la direction de Sinequa pour qui l‘autonomie totale du linguiste est primordiale. Il y a donc deux exigences contradictoires : d‘un côté que le linguiste soit totalement autonome, et de l‘autre que toutes ses opérations soient codifiées par des interfaces avec une structure très contraignante derrière. Même si cela semble impossible, nous allons essayer de concilier les deux et de garder le meilleur des deux mondes.

Notre expérience fait néanmoins apparaître que la méthode d‘acquisition a été assez variable d‘une langue à l‘autre selon les ressources qui sont intégrées. Cela rend difficile la mise en place d‘un environnement unique. Il est bien sûr possible d‘imaginer des outils d‘augmentation lexicale massive et des aides pour accélérer la mise en place des grammaires, mais l‘intégration de cet outillage n‘est nécessaire que si l‘accès à la base de connaissances n‘est pas évident. Dans notre cas, ce n‘est pas une base de données, mais un ensemble de fichiers texte dont l‘accès est particulièrement facile, ce qui n‘exclut pas une connexion entre les outils.

Pour la mise à jour lexicale, le principal outil à disposition est un fléchisseur. Pour la plupart des langues, des classes et des règles de flexion ont été développées pour générer à partir d‘un lemme et de sa classe de flexion toutes les formes et leurs descriptions à ajouter dans le lexique. Là encore, cet outil ne doit pas forcément être intégré dans une interface de saisie lexicale tant que les lexiques sont codés en fichiers texte.

3.6 Conclusion

Les ressources linguistiques fournissent les informations aux traitements mis en œuvre dans une application. Pour assurer la qualité de cette exploitation, il est important de veiller à la cohérence des informations linguistiques pendant les opérations de gestion : dès l‘acquisition et lors de leur mise à jour. Les lexiques qui sont activement gérés – ou qui l‘ont été – ont en général un outil de codage qui tient compte des spécificités de leur format. Or, les besoins vont plus loin dans un environnement applicatif analytique où il existe des ressources pour chaque traitement. Les informations linguistiques se trouvent ainsi dispersées sur plusieurs ressources, avec un risque d‘incohérence accru. Lexiques, corpus et grammaires doivent être concordants à chaque moment de leur cycle de vie. Cela demande la mise en place d‘un environnement de gestion de ressources linguistiques.

67