• Aucun résultat trouvé

Les catalogues et GROBID

N/A
N/A
Protected

Academic year: 2021

Partager "Les catalogues et GROBID"

Copied!
62
0
0

Texte intégral

(1)

HAL Id: cel-01951107

https://hal.archives-ouvertes.fr/cel-01951107

Submitted on 11 Dec 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Distributed under a Creative Commons Attribution| 4.0 International License

Les catalogues et GROBID

Simon Gabay, Mohamed Khemakhem, Laurent Romary

To cite this version:

Simon Gabay, Mohamed Khemakhem, Laurent Romary. Les catalogues et GROBID. Doctorat. Du catalogue aux humanités numériques : quelles méthodes pour quels résultats ?, Paris, France. 2018. �cel-01951107�

(2)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Les catalogues et GROBID

Simon Gabay Université de Neuchâtel Mohamed Khemakhem ALMAnaCH Paris 7 Centre Marc Bloch

Laurent Romary ALMAnaCH Centre Marc Bloch

BBAW

15 novembre 2018

(3)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

L’encodage automatique de catalogues de vente en TEI avec GROBID dictionaries

(4)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion GROBID (dictionaries)

(5)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Langages

La famille GROBID I Bibliographie: http://cloud.science-miner.com/grobid I NERD: http://cloud.science-miner.com/nerd I Quantities: http://cloud.science-miner.com/quantity

I le petit nouveau: Dictionaries

(6)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Langages

GROBID dictionaries

I Développé par Mohamed Khemakhem (Paris

VI-CMB/Humboldt)

I Initialement prévu pour les ressources lexicales numérisées (dictionnaires, glossaires, lexiques. . . )

I Détourenement du système pour les sources Encyclopedic-like

I Annuaires, catalogues. . .

(7)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

L’encodage TEI et GROBID dictionaries

(8)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Langages

La TEI de GROBID dictionaries

I Les options d’encodage sont limitées. . .

I . . . et basée sur la TEI pour les ressources lexicographiques

I la structure des dictionnaires et des catalogues est cependant similaire: on peut exploiter cette ressemblance. . .

I . . . ce qui entraîne une utilisation quelque peu «métaphorique» de la TEI

(9)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Le Petit Larousse illustré

(10)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Le Petit Larousse illustré

(11)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Revue des autographes

(12)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Revue des autographes

(13)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Installer GROBID dictionaries

(14)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

container docker

Quelques remarques

I GROBID dicionaries utilise un container docker (qu’il faut télécharger)

I Cela permet de fournir simplement un espace de travail avec toutes les librairies, dépendances et outils nécessaires

I L’installation se fait via le terminal

Ligne de commande

$ docker pull medkhem/grobid-dictionaries

(15)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion Téléchargement du container

(16)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

container docker

On lance docker Ligne de commande

$ docker run -it medkhem/grobid-dictionaries bash

(17)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Données d’entraînement

Principe d’entraînement

I le container doit être synchronisé avec un dossier toydata (disponible sur

https://github.com/MedKhem/grobid-dictionaries)

I C’est dans ce dossier toydata que vont être placées les données d’entraînement

I On exécute la commande1

Ligne de commande

$ docker run -v

PATH_TO_YOUR_TOYDATA/toyData:/grobid/grobid-dictionaries/resources -p 8080:8080 -it medkhem/grobid-dictionaries bash

1

Nous sommes sur mac, pour les commandes sous windows, cf. https://github.com/MedKhem/grobid-dictionaries

(18)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Teaching GROBID dictionaries

(19)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Langages

Sous le capot I Développé en Java

I Utilise des champs aléatoires conditionnels (conditional random fields), des modèles statistiques utilisés en reconnaissance des formes et plus généralement en apprentissage statistique

I Ces champs fonctionnent en cascade

I C’est donc du machine learning . . .

I . . . et ça commence donc par du machine teaching

(20)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Premier niveau d’entraînement Dictionary Segmentation

(21)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion Dictionary Segmentation

(22)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

L’objectif est de séparer le corps du texte du reste (titre courant, numéro de page. . . )

(23)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Entraînement

On crée les données d’entraînement

ligne de commande

$ java -jar

/grobid/grobid-dictionaries/target/grobid-dictionaries-0.4.3-SNAPSHOT.one-jar.jar -dIn resources/dataset/dictionary-segmentation/corpus/pdf/ -dOut resources -exe

createTrainingDictionarySegmentation

(24)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion On annote

(25)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Entraînement

On entraîne à partir des données annotées

ligne de commande

$ mvn generate-resources -P train_dictionary_segmentation -e

(26)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

L’entraînement est lancé

(27)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

On contrôle la qualité de l’entraînement

(28)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Deuxième niveau d’entraînement Body Segmentation

(29)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion Body Segmentation

(30)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

L’objectif est de séparer les différentes entrées

Body Segmentation

(31)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Entraînement

On crée les données d’entraînement

ligne de commande

$ java -jar

/grobid/grobid-dictionaries/target/grobid-dictionaries-0.4.3-SNAPSHOT.one-jar.jar -dIn resources/dataset/dictionary-segmentation/corpus/pdf/ -dOut resources -exe

createTrainingDictionaryBodySegmentation

(32)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion On annote

(33)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Entraînement

On entraîne à partir des données annotées

ligne de commande

$ mvn generate-resources -P train_dictionary_body_segmentation -e

Et on passe au modèle suivant

(34)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Troisième niveau d’entraînement Lexical Entry

(35)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion Lexical Entry

(36)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

L’objectif est de séparer les grandes articulations de chaque entrée du catalogue

Lexical Entry

(37)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Entraînement

On crée les données d’entraînement

ligne de commande

$ java -jar

/grobid/grobid-dictionaries/target/grobid-dictionaries-0.4.3-SNAPSHOT.one-jar.jar -dIn resources/dataset/dictionary-segmentation/corpus/pdf/ -dOut resources -exe

createTrainingLexicalEntry

(38)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion On annote

(39)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Entraînement

On entraîne à partir des données annotées

ligne de commande

$ mvn generate-resources -P train_lexicalEntries -e

Et on passe au modèle suivant

(40)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Quatrième niveau d’entraînement Form

(41)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion Form

(42)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

On va traiter séparement le niveau Form et le niveau Sense, l’un après l’autre

Form

(43)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

L’objectif est de séparer les différentes informations dans <form> (nom et informations biographiques)

Form

(44)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Entraînement

On crée les données d’entraînement

ligne de commande

$ java -jar

/grobid/grobid-dictionaries/target/grobid-dictionaries-0.4.3-SNAPSHOT.one-jar.jar -dIn resources/dataset/dictionary-segmentation/corpus/pdf/ -dOut resources -exe

createTrainingForm

(45)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion On annote

(46)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Entraînement

On entraîne à partir des données annotées

ligne de commande

$ mvn generate-resources -P train_form -e

Et on passe au modèle suivant

(47)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Quatrième niveau d’entraînement bis Sense

(48)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion Sense

(49)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

L’objectif est de séparer la description du manuscrit (<def>) des éventuelles notes additionnelles (<note>)

Sense

(50)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Entraînement

On crée les données d’entraînement

ligne de commande

$ java -jar

/grobid/grobid-dictionaries/target/grobid-dictionaries-0.4.3-SNAPSHOT.one-jar.jar -dIn resources/dataset/dictionary-segmentation/corpus/pdf/ -dOut resources -exe

createTrainingSense

(51)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion On annote

(52)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Entraînement

On entraîne à partir des données annotées

ligne de commande

$ mvn generate-resources -P train_sense -e

Et on passe au modèle suivant

(53)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Cinquième niveau d’entraînement (à construire)

(54)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Revue des autographes

(55)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion Grammatical group

(56)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Visualiser

Une API permet d’utiliser GROBID dictionaries une fois qu’il a été entraîné

I Il faut exécuter le service

ligne de commande

mvn -Dmaven.test.skip=true jetty:run-war

I Et aller à l’adresse http://localhost:8080/ sur son navigateur

(57)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

On utilise GROBID dictionaries via l’API

(58)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion Conclusion

(59)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Problèmes

Quelques problèmes à résoudre

I Grobid s’appuie sur la mise-en-page (gras, italique, retour à la ligne. . . )

I Il s’appuie aussi sur le texte: point, virgule, cadratin. . .

I Cela signifie qu’il lui faut un bon système d’OCR, car la qualité de l’OCRisation du PDF est cruciale

I Mais quel OCR?

I En plus de la question de l’entrée des données se pose celle de la sortie. Étant donnée la simplicité du schéma, cette problème est le moins complexe

I Simplifier l’utilisation au moyen d’un pipeline?

(60)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Aller plus loin

Nos données d’entraînement sont disponibles en ligne

I https://github.com/gabays/grobid Télécharger GROBID I https://github.com/MedKhem/grobid-dictionaries Utiliser GROBID I https://github.com/MedKhem/grobid-dictionaries/ wiki/Docker_Instructions I https://github.com/MedKhem/grobid-dictionaries/ wiki/How-to-Annotate

(61)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Suivez-nous

Suivez-nous I http://editiones-hypotheses.org I https://twitter.com/e_ditiones

(62)

Les catalogues et GROBID Short Name (U ABC) GROBID Encodage TEI Intaller GROBID Machine teaching Visualiser le résultat Conclusion

Bibliographie

Bibliographie

I Mohamed Khemakhem, Luca Foppiano, Laurent Romary, "Automatic Extraction of TEI Structures in Digitized Lexical Resources using Conditional Random Fields", electronic lexicography, eLex 2017, Leiden (Netherlands),

[https://hal.archives-ouvertes.fr/hal-01508868]

I Mohamed Khemakhem, Axel Herold, Laurent Romary, "Enhancing Usability for Automatically Structuring Digitised Dictionaries", GLOBALEX workshop at LREC 2018, Miyazaki (Japan)

[https://hal.archives-ouvertes.fr/hal-01708137]

I Mohamed Khemakhem, Laurent Romary, Simon Gabay, Hervé Bohbot, Francesca Frontini, Giancarlo Luxardo, "Automatically Encoding Encyclopedic-like Resources in TEI", TEI 2018, Tokyo (Japan) [https://hal.inria.fr/hal-01819505]

Références

Documents relatifs

Training and evaluation data for encoding Manuscript Sales Catalogues with GROBID dictionaries, Paris: École nationale des chartes (PSL)/Neuchâtel: université de

Introduction by the curators, statement by Schafer and an enclosed record document an exhibition of musical manuscripts and sound sculpture. Une exposition

ce. Karyn Allen's introduction emphasizes the importance of drawing in Craven's and Klunder's painting, and deals with their formai concerns calling their work

To demonstrate the proposed approach, a web-based modeling platform for network activity was developed based on the container virtualization technology.. Docker containers were used

We present here an ontology and software, Smart Container, that can conceptualize Docker artifacts by and is aligned with other existing vocabularies such as the well known W3C

However, when the available network bandwidth is limited, downloading multiple layers in parallel will delay the down- load completion of the first layer, and therefore will

Mohamed Khemakhem, Laurent Romary, Simon Gabay, Hervé Bohbot, Francesca Frontini, Giancarlo Luxardo.. To cite

Downloading multiple image layers in parallel will delay the download completion time of the first layer because this download must share network resources with other less-urgent