• Aucun résultat trouvé

ISTEX, un projet national d'archives documentaires : au-delà de l'accès au texte intégral, l'enrichissement des données par méthodes de fouille de textes.

N/A
N/A
Protected

Academic year: 2021

Partager "ISTEX, un projet national d'archives documentaires : au-delà de l'accès au texte intégral, l'enrichissement des données par méthodes de fouille de textes."

Copied!
1
0
0

Texte intégral

(1)

ISTEX, un projet national d'archives documentaires :

au-delà de l'accès au texte intégral,

l'enrichissement des données par méthodes de fouille de textes.

Pascal Cuxac

pascal.cuxac@inist.fr

Alain Collignon

alain.collignon@inist.fr

INIST - CNRS 2, allée du parc de Brabois

CS 10310

54519 Vandœuvre lès Nancy Cedex

Le projet ISTEX (initiative d’excellence en Information Scientifique et Technique) a pour objectif de permettre à la communauté scientifique française d’accéder, à une bibliothèque numérique pluridisciplinaire en texte intégral regroupant l’essentiel des publications scientifiques mondiales. Ces dernières sont accessibles à tous les chercheurs, notamment ceux gravitants autour des thématiques de la fouille de texte, du TAL, de la recherche d’Information, etc. Cela se concrétise par des actions R&D à la fois pour enrichir les données brutes et aussi pour développer de nouveaux algorithmes de fouille et d'analyse de textes. A travers quatre axes d’enrichissement (structuration des documents ; indexation automatique ; reconnaissance d’entités nommées ; catégorisation des documents) nous avons répondu aux trois principaux challenges rencontrés :

 Mise au point et intégration d'outils : entraînement, adaptation, mise en production,

 Passage à l’échelle : 20 millions de documents à traiter,

 Reversement des données.

Le résultat d’une ou toute partie de ces travaux a permis de proposer un nouveau processus de diffusion d’ISTEX en construisant des triplets de données alignées et interopérables selon les standards du web sémantique (LOD).

Nous construisons maintenant une plateforme dédiée à la fouille de textes directement connectée aux données ISTEX. Les outils mis à disposition, peuvent être développés en collaboration avec tout laboratoire désireux de faire partager une application.

Références

Documents relatifs

Dans un premier temps, 79 extraits d’ADN (cf. Annexe 2, souches identifiés en bleu) de F. isolées de blé, orge et maïs ont été envoyées au laboratoire de Todd J. Ward pour

• base de données bibliographique avec accès au texte intégral : repérer des références bibliographiques.. d’articles et les

Ce projet a permis de faire évoluer cette fonction de soutien à la recherche pour que ses services soient mieux adap- tés aux besoins des

Les entités nommées du corpus Les entités nommées d’un document avec recherche des documents similaires.. Des exemples de

Ces  outils  sont  pour  l’instant  séparés  et  ne  communiquent pas entre eux. L’un des enjeux pour 

constituera l'Internet scientifique dans dix ans et les discours pessimistes dénonçant la décadence du livre et la perte des valeurs et des repères de l'ère

Projet VisaTM : l’interconnexion OpenMinTeD – AgroPortal – ISTEX, un exemple de service de ​Text et Data Mining​ pour les scientifiques français Fabienne Kettani,​1​

Programmer une m´ ethode de diff´ erences finies pour l’´ equation des ondes coupl´ ee ` a une marche en temps de type ”saute-mouton”.. Valider sur la solution exacte `