Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

La réécriture de graphes au service de l'annotation de corpus et de l'exploitation de corpus annotés

Partager "La réécriture de graphes au service de l'annotation de corpus et de l'exploitation de corpus annotés"

N/A

N/A

Protected

Année scolaire: 2021

Info

Protected

Academic year: 2021

Partager "La réécriture de graphes au service de l'annotation de corpus et de l'exploitation de corpus annotés"

Copied!

3

0

0

3

0

0

Chargement.... (Voir le texte intégral maintenant)

Télécharger maintenant ( 3 Page )

Texte intégral

(1)

HAL Id: hal-01930651

https://hal.inria.fr/hal-01930651

Submitted on 22 Nov 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

La réécriture de graphes au service de l’annotation de corpus et de l’exploitation de corpus annotés

Bruno Guillaume, Guy Perrier

To cite this version:

Bruno Guillaume, Guy Perrier. La réécriture de graphes au service de l’annotation de corpus et de

l’exploitation de corpus annotés. Grammar and Corpora 2018, Nov 2018, Paris, France. �hal-01930651�

(2)

La réécriture de graphes au service de l’annotation de corpus et de l’exploitation de corpus annotés

Bruno Guillaume Guy Perrier

Université de Lorraine, CNRS, Inria, LORIA, F-54000 Nancy, France

Dans l’annotation linguistique de corpus, il existe de multiple formats d’annotation liés d’une part aux différents niveaux linguistiques existants et d’autre part aux différents choix linguistiques pour un même niveau. Il est utile de disposer d’outils automatiques qui permettent de transformer un corpus annoté à un niveau linguistique donné en un corpus annoté à un niveau voisin, mais il est également utile, à un même niveau linguistique, de pouvoir convertir d’un format à un autre. La construction de tels outils est facilitée par le fait d’inscrire les différents types d’annotation dans un cadre formel commun ; nous pensons que le cadre mathématique des graphes est approprié pour cela. En effet, lorsque l’on travaille au niveau de la syntaxe, les structures manipulées sont des arbres, mais il est souvent utile de considérer un niveau voisin, par exemple le niveau phonologique avec l’ordre des mots. Les graphes permettent de représenter ces deux dimensions (dépendances syntaxiques et relations d’ordre) dans la même structure. Plusieurs théories linguistiques [SHP86, Mel88] conçoivent un niveau intermédiaire (appelé syntaxe profonde) entre la syntaxe (rebaptisée syntaxe de surface) et la sémantique. Dans les structures syntaxiques profondes, on représente des relations qui ne sont pas explicites en surface ; ces nouvelles relations induisent naturellement une structure de graphe. Enfin, les structures sémantiques s’apparentent naturellement à des graphes.

Dans ce cadre commun, les transformations d’annotations, que ce soit d’un niveau linguistique à un autre ou à un même niveau, sont des transformations de graphes. La réécriture de graphes est donc un formalisme naturel pour réaliser cette tâche. Un système de réécriture de graphes est un ensemble de règles de transformations élémentaires locales qui se prêtent bien à la modélisation de phénomènes lin- guistiques. Une règle est formée d’une partie gauche (qui décrit le motif à rechercher dans le graphe) et d’une partie droite (qui décrit comment modifier le graphe). La difficulté est de préciser comment le résultat de l’application de la règle va être connecté au contexte. Il n’y a pas mathématiquement de façon standard de faire, nous avons donc conçu un modèle de la réécriture de graphes spécifiquement adapté au TAL. Nous avons implanté ce modèle sous forme d’une application appelé G

REW¹

, qui prend entrée un système de règles de réécriture écrites et un corpus annoté et retourne le corpus avec l’annotation trans- formée par le système de règles. En pratique, de nombreuses applications de règle sont nécessaires pour une transformation et il est possible de décrire des stratégies d’application pour contrôler l’enchaînement des règles. Nous avons écrit huit systèmes de règles pour des corpus français annotés en syntaxe de sur- face, en syntaxe profonde, en sémantique et même en parties du discours car l’un des systèmes permet de faire de l’analyse syntaxique. Les transformations peuvent poser problème à automatiser quand le format de sortie est plus riche que le format d’entrée ; dans ce cas, une partie des problèmes peut être résolue par appel à des lexiques pour aller y chercher l’information absente de l’annotation d’entrée.

On peut aussi utiliser G

REW

pour faire de la recherche de motifs dans un graphe en ne considérant que la partie gauche des règles. C’est utile pour explorer des corpus à des fins linguistiques mais cela permet également d’aider la construction et la maintenance des corpus annotés : avec la recherche de motifs, on peut détecter des erreurs ou des incohérences dans l’annotation. La syntaxe des motifs de G

REW

permet de représenter des graphes (y compris avec des cycles) tout en ordonnant partiellement

1http://grew.fr

1

(3)

F

IGURE

1 : recherche de dépendances non projectives (en haut le motif recherché, en bas un des exemples trouvés avec le texte puis la structure syntaxique)

les sommets des graphes. Les motifs comportent deux parties : une partie positive qui décrit le motif recherché et une partie négative qui filtre les résultats. En pratique, on commence souvent avec un motif relativement général et on ajoute progressivement de nouveau filtres pour raffiner la recherche. Cette utilisation de G

REW

est accessible directement en ligne sur internet. La figure 1 montre un exemple de recherche de dépendances non projectives dans un corpus annoté en syntaxe de dépendances.

Références

[Mel88] I. Mel’ˇcuk. Dependency Syntax : Theory and Practice. Albany, N.Y. : The SUNY Press, 1988.

[SHP86] Petr Sgall, Eva Hajicová, and Jarmila Panevová. The meaning of the sentence in its semantic and pragmatic aspects. Springer Science & Business Media, 1986.

2

Références

Télécharger maintenant ( PDF - 3 Page - 181.83 KB )

Documents relatifs

Repérage et identification automatiques de noms de lieux avec variations d'écriture dans des corpus

D’autres fois, la façon dont sont annotés les noms de lieux du corpus ne concorde pas avec le type de lieux recensés dans le gazetier (par exemple, un grand nombre de toponymes

L informatique au service de la maintenance

Cela vous garantit la réussite de votre projet de GMAO qui va vous assurer une gestion optimisée de vos ressources humaines, matérielles et budgétaires... vous garantissent des

Corpus et Web : deux alliés pour la construction de l'enrichissement automatique de classes conceptuelles

Pour cette tâche, nous construisons des classes conceptuelles en étudiant la dépendance syntaxique des termes d'un corpus (section 2). Pour cela, nous nous fondons sur

ANalyse et exploitation des données de corpus linguistiques : présentation

Une autre partie des communications a fait l’objet d’une publication dans le numéro XXXVIII/2 d’Histoire Épistémologie Langage, « Corpus et constitution des

Les millennials : formule ou outil marketing ? Le discours au service de la pratique professionnelle de la communication

- À Rome, une nouvelle plateforme internet, qui sort des cerveaux fulminants de la marque italienne Fendi vient aider à cela. Une place transversale de communication

Notions de corpus et la base de données

Dans le vocabulaire des sciences, corpus désigne un recueil large, et quelquefois exhaustif, de documents ou de données : corpus de textes juridiques, corpus

Recueil d’un corpus des pratiques éducatives enseignantes et parentales en Polynésie française.

S’agissant des corpus oraux, avec des éléments majoritairement linguistiques mais également extralinguistiques qui se produisent lors de l’apprentissage, nous avons privilégié

Linguistique de corpus et didactique du F.L.E. Une exploitation du corpus IntUne

L’utilisation d’un corpus pour résoudre des di ffi cultés de la langue française dans le cadre d’un cours de didactique du F.L.E.. Cette expérience a été menée lors d’un

Documents relatifs

Uniformisation de corpus anglais annotés en sens

Uniformisation de corpus anglais annotés en sens

4

0

0

GREW, un outil au service de l'annotation de corpus et de l'exploitation de corpus annotés

GREW, un outil au service de l'annotation de corpus et de l'exploitation de corpus annotés

5

0

0

« Quels corpus et quels outils d’exploitation de corpus pour les études de linguistique et philologie romanes : l’unité de la romanistique »

« Quels corpus et quels outils d’exploitation de corpus pour les études de linguistique et philologie romanes : l’unité de la romanistique »

20

0

0

Le repérage de nominations dans les corpus textuels: de l'exploitation de l'analyse des données textuelles à l'exploration des chaînes de coréférence par le TAL

Le repérage de nominations dans les corpus textuels: de l'exploitation de l'analyse des données textuelles à l'exploration des chaînes de coréférence par le TAL

13

0

0

Constitution de Corpus d'Apprentissage et étiquetage simple sur des blogues interculturels

Constitution de Corpus d'Apprentissage et étiquetage simple sur des blogues interculturels

7

0

0

Annotation de corpus linguistique et TEI

Annotation de corpus linguistique et TEI

13

0

0

Constitution et exploitation des corpus d'ancien et de moyen français

Constitution et exploitation des corpus d'ancien et de moyen français

14

0

0

La transcription perceptuelle au service du corpus de conversations naturelles

La transcription perceptuelle au service du corpus de conversations naturelles

17

0

0