• Aucun résultat trouvé

La suite Alvis, plateforme d’analyse de contenu textuel, et son intégration dans OpenMinTeD

N/A
N/A
Protected

Academic year: 2021

Partager "La suite Alvis, plateforme d’analyse de contenu textuel, et son intégration dans OpenMinTeD"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: hal-02785705

https://hal.inrae.fr/hal-02785705

Submitted on 4 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

La suite Alvis, plateforme d’analyse de contenu textuel, et son intégration dans OpenMinTeD

Mouhamadou Ba, Robert Bossy, Claire Nédellec

To cite this version:

Mouhamadou Ba, Robert Bossy, Claire Nédellec. La suite Alvis, plateforme d’analyse de contenu textuel, et son intégration dans OpenMinTeD. JDEV 2017, Jul 2017, Marsaille, France. pp.1, 2017.

�hal-02785705�

(2)

Suite Alvis

Annoter de manière expressive des corpus textuels par des utilisateurs finaux avec utilisation d’ontologies adaptées aux domaines (AlvisAE)

Mouhamadou Ba, Robert Bossy, Claire Nedellec

Équipe Bibliome, Département MaIAGE, INRA – Jouy-en-Josas, France [email protected]

La littérature scientifique constitue un gisement de connaissances scientifiques de grande valeur, mais largement inexploité parce qu’uniquement sous forme textuelle. La croissance très rapide du nombre de publications au niveau mondial rend impossible une veille scientifique manuelle. C’est pour permettre de fouiller ces données que la suite Alvis et le projet OpenMinTeD (H2020 E-INFRA 2016-2018) existent. La suite Alvis offre des méthodes et des technologies pour l’extraction d’information et de connaissances en Sciences de la Vie. Le projet OpenMinTeD vise à faciliter l’utilisation des solutions existantes de fouille de textes et de données (TDM) telles qu’Alvis.

Introduction

La suite Alvis, plateforme d’analyse de contenu textuel, et son intégration dans OpenMinTeD

OpenMinTeD

Pour une infrastructure collaborative de fouille de textes et de données

• Intégration des solutions existantes de fouille de textes et de données (Alvis, UIMA, Gate, Argo, DkPro, Core, OpenAire, etc.).

• Public cible : ingénieurs, chercheurs dans divers domaines

Définition d’un framework pour l’interopérabilité

• les besoins (ressources, licences, description, représentation, implémentation, etc.)

• les guidelines et la documentation

Développement des outils de base et gestion des ressources matérielles

• registre de services

• moteur de workflows

• service d’annotations

• bases de connaissances

• service de gestion des utilisateurs

Intégration : OpenMinTeD propose les règles, les partenaires s’approprient…

Identifier des microbes par leur ADN

?

Alignement avec les génomes connus / de référence

Confirmer Interpréter

Expliquer

TDM

ADN des micro- organismes du

fromage

Exemple d’application de méthodes de fouille de textes avec la suite

Alvis

Exemple d’application, à rendre plus accessible et facilement utilisable par la communauté grâce à

OpenMinTeD

RESEARCH ANALYTICS

(ARC)

SOCIAL SCIENCES (UKP-TUDA) AGRICULTURE

&

BIODIVERSITY (INRA)

LIFE SCIENCES

(CNIO)

COMMUNITY DRIVEN APPLICATIONS Un panel d’outils et de solutions pour l’extraction de connaissances par le TAL

(Traitement Automatique de la Langue) et la fouille de textes

• documents scientifiques textuels

• domaines de l’agriculture et de la biodiversité AlvisNLP/ML : utiliser des

workflows

d’extraction de connaissances

www.openminted.eu www.github.com/openminted www.github.com/Bibliome

Open Min T eD Alvis

Schéma unique et

uniforme de description des ressources

Protocoles et formats d’échange des

données

Spécification

d’interfaces pour les modules (Standalone, Services Web, Docker)

Définition uniforme des workflows

(framework Galaxy)

Registre de

ressources, Moteur de workflows, Service d’annotations, Base de connaissances

Description et déclaration des ressources d’Alvis (corpus, ontologies, modules, etc.)

Prise en charge des formats et protocoles (AERO, RDF, XMI).

Préparation des données

Espaces personnels (Identification,

authentification,

autorisation, partage, accès)

Adoption de la

solution Workfow de Galaxy. Mapping de données avec UIMA

Déploiement des

applications clientes (ex. microbes, blé, arabette)

utilisateurs workflows

modules applications

données méta-données

Prise en main et test avec des partenaires de Bibliome qui sont les développeurs des applications clientes

Docker pour les modules d’

AlvisNLP/ML. Gestion des dépendances par maven et conda

Génétique

Rechercher à travers des corpus annotés en utilisant AlvisIR, un moteur générique d’indexation et de recherche sémantique

extraction de relations normalisation

d’entités construction

de corpus

modèle d’apprentissage

reconnaissance d’entités

nomenclature ontologie terminologie

Références

Documents relatifs

dans un écrit où le contenu d’un écrit”, la règle de la meilleure preuve s’applique.. Excluons tout de suite de notre analyse l’article 2831 C.c.Q., au sens duquel

Dans le but de pousser notre analyse à son apogée, nous avons fait dès le départ (chapitre 2) une analyse liant les théories du développement durable à celles

Analyse détaillée du contenu spectral dans le courant statorique des machines asynchrones sous un défaut de la cassure de barres rotoriques en utilisant

Dans cette initiative les étudiants sont encouragés à utiliser leur téléphone portable pour envoyer des questions à leurs enseignants, de consulter la plateforme, les annonces, les

Nous inscrivons cette étude dans le cadre d'un modèle de communication qui dépasse le caractère informationnel (qui se focalise sur le contenu du message) pour interroger la

La question centrale est de garan- tir une intégration transparente des sources de données et des fonctions dans notre catalogue, que celles-ci soient internes (des services qui

INTERET DANS LE DIAGNOSTIC 156 POSITIF LESIONNEL, TOPOGRAPHIQUE.. ET

À la suite de notre analyse, nous constatons que la typologie de Côté et Duquette a bien résisté à l’examen. En ce qui concerne les dimensions constitutives de l’enseignement