HAL Id: hal-01113961
https://hal.archives-ouvertes.fr/hal-01113961
Submitted on 6 Feb 2015
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
ORTOLANG 1 : une infrastructure de mutualisation de ressources linguistiques écrites et orales
Jean-Marie Pierrel
To cite this version:
Jean-Marie Pierrel. ORTOLANG 1 : une infrastructure de mutualisation de ressources linguistiques
écrites et orales. Actes de TALN 2014, 2014, Marseille, France. �hal-01113961�
21
èmeTraitement Automatique des Langues Naturelles, Marseille, 2014
ORTOLANG 1 :
une infrastructure de mutualisation de ressources linguistiques écrites et orales
Jean-Marie Pierrel
1, 2(1) Université de Lorraine, ATILF, 44 avenue de la Libération 54063 Nancy Cedex (2) CNRS, ATILF, 44 avenue de la Libération 54063 Nancy Cedex
Jean-Marie.Pierrel@atilf.fr, contact@ortolang.fr
Résumé. Nous proposons une démonstration de la Plateforme de l’Equipex O
RTOLANG(Open Resources and Tools for LANGuage : www.ortolang.fr) en cours de mise en place dans le cadre du programme d’investissements d’avenir (PIA) lancé par le gouvernement français. S’appuyant entre autres sur l’existant des centres de ressources CNRTL (Centre National de Ressources Textuelles et Lexicales : www.cnrtl.fr) et SLDR (Speech and Language Data Repository : http://sldr.org/), cette infrastructure a pour objectif d’assurer la gestion, la mutualisation, la diffusion et la pérennisation de ressources linguistiques de type corpus, dictionnaires, lexiques et outils de traitement de la langue, avec une focalisation particulière sur le français et les langues de France.
Mots-clés : Ortolang, plateforme, mutualisation, corpus, ressources linguistiques
1 Pourquoi une telle infrastructure ?
Une analyse de l’évolution des sciences du langage et du traitement automatique des langues montre que la confrontation avec l’informatique a permis de définir de nouvelles approches. Ainsi au-delà d’une simple linguistique descriptive s’est développée une linguistique formelle qui propose des modèles s’appuyant sur une double validation, explicative d’un point de vue linguistique, opératoire d’un point de vue informatique. Une véritable linguistique de corpus permet aussi au linguiste d’aller au-delà de l’accumulation de faits de langue et de confronter ses théories à l’usage effectif de la langue. Ainsi l’informatique est devenue un outil indispensable pour :
− étudier la langue et ses propriétés grâce à l’exploitation de corpus de grande ampleur ;
− structurer et normaliser les connaissances linguistiques (de l’acoustique, à la sémantique) ;
− valoriser et partager les résultats de la recherche grâce à la production de ressources et d’outils informatiques.
Dans ce cadre, les aspects de ressources informatisées (corpus annotés, lexiques et outils de traitement) sont particulièrement importants et stratégiques pour servir de support à la fois :
− aux travaux de recherche pour lesquels la notion de corpus d’étude et de ressources est incontournable ;
− à la diffusion des résultats de ces travaux grâce à leur disponibilité sur la toile.
Un équipement d’excellence de mutualisation de ressources et d’outils pour le traitement informatisé et la valorisation de notre langue s’impose aujourd’hui pour les raisons suivantes :
− Le coût de définition et de production de ressources linguistiques de qualité ou d’outils d’analyse est important.
Sans une mutualisation de telles ressources, chaque chercheur se verrait dans l’obligation de tout réinventer !
− L’évaluation de nos productions de recherche (modèles, systèmes de traitement) nécessite la disponibilité de ressources de référence (corpus, lexiques, dictionnaires) accessibles, partagées et clairement identifiables.
− Le partage et la patrimonialisation des connaissances sur les langues de France sont nécessaires afin de faciliter des études sociolinguistiques sur les parlers de France et de les faire bénéficier des apports de la recherche.
2 Principales caractéristiques d’O
RTOLANGLe consortium portant le projet O
RTOLANGregroupe des compétences complémentaires en
− sciences du langage à travers l’ATILF, le LPL, MoDyCo et le LLL,
− informatique avec le LORIA et l’INIST, mais aussi en partie l’ATILF et le LPL,
− base de données et accès à de l’information scientifique, à travers l’INIST, et à des ressources linguistiques, à travers les deux centres de ressources que sont le CNRTL et le SLDR.
1