• Aucun résultat trouvé

Base de Français Médiéval. Nouveau Corpus d’Amsterdam. Syntactic Reference Corpus of Medieval French

N/A
N/A
Protected

Academic year: 2021

Partager "Base de Français Médiéval. Nouveau Corpus d’Amsterdam. Syntactic Reference Corpus of Medieval French"

Copied!
45
0
0

Texte intégral

(1)

Base de Français Médiéval

Nouveau Corpus d’Amsterdam

Syntactic Reference Corpus of Medieval French

Nicolas Mazziotta Université de Liège/Universität Stuttgart, ILR

(2)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Plan

Introduction

Plan

Spécificités de l’ancien français

Base de Français Médiéval

Nouveau Corpus d’Amsterdam

(3)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Spécificités de l’ancien français

Exemple

Des Dès lors lors te à toi toli prit li anemis le Diable (sujet) la veue la vue (objet)

« Dès cet instant, le Diable t’a dépouillé de ta vue » (Queste 190a, 1)

Principales caractéristiques

I Ancêtre du français (en simplifiant)

I Ordre des mots exprime informations énonciatives plutôt que

syntaxiques

I Moins synthétique que le latin (vue classique)

(4)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Spécificités de l’ancien français

Exemple

Des Dès lors lors te à toi toli prit li anemis le Diable (sujet) la veue la vue (objet)

« Dès cet instant, le Diable t’a dépouillé de ta vue » (Queste 190a, 1)

Principales caractéristiques

I Ancêtre du français (en simplifiant)

I Ordre des mots exprime informations énonciatives plutôt que

syntaxiques

I Moins synthétique que le latin (vue classique)

(5)

Introduction Plan

Spécificités de l’ancien français

Base de Français Médiéval

Présentation générale Format

Métadonnées Textes

Présentation de l’interface web

Nouveau Corpus d’Amsterdam Présentation générale Format

Métadonnées Textes

Présentation de l’interface web

Syntactic Reference Corpus of Medieval French Présentation générale

Modèle syntaxique dépendanciel Connexions

(6)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

École Normale Supérieure Lyon – Laboratoire ICAR

UMR5191 ENS LSH / CNRS

I Base créée par Christiane Marchello-Nizia (dir. actuelle : Céline

Guillot)

I Serge Heiden, Alexei Lavrentiev, Sophie Prévost

Étendue

I 3.3 mill. occurrences-mots

I de 842 à 1467

I Domain d’oïl, genres variés, prose/vers

Annotations

I Métadonnées fournies

I CATTEX

(7)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

École Normale Supérieure Lyon – Laboratoire ICAR

UMR5191 ENS LSH / CNRS

I Base créée par Christiane Marchello-Nizia (dir. actuelle : Céline

Guillot)

I Serge Heiden, Alexei Lavrentiev, Sophie Prévost

Étendue

I 3.3 mill. occurrences-mots

I de 842 à 1467

I Domain d’oïl, genres variés, prose/vers

Annotations

I Métadonnées fournies

I CATTEX

(8)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

École Normale Supérieure Lyon – Laboratoire ICAR

UMR5191 ENS LSH / CNRS

I Base créée par Christiane Marchello-Nizia (dir. actuelle : Céline

Guillot)

I Serge Heiden, Alexei Lavrentiev, Sophie Prévost

Étendue

I 3.3 mill. occurrences-mots

I de 842 à 1467

I Domain d’oïl, genres variés, prose/vers

Annotations

I Métadonnées fournies

I CATTEX

(9)

Format : Métadonnées

<profileDesc>

<creation>

<name type="author">anonyme</name> <title>Queste del saint Graal</title>

<date type="compo" when="1220-01-01" n="13">vers 1220</date> <date type="compo_periode">ancien</date>

<date type="compo_sous_siecle" n="13_1">début</date> <region type="dialecte_auteur">non_defini</region> </creation>

<langUsage>

<language ident="fr" usage="100">. . .</language> </langUsage> <textDesc n="roman"> <channel mode="w">manuscript</channel> <constitution type="single"/> <derivation type="original"/> <domain type="litteraire"/> . . . <purpose type="narrative"/> </textDesc>

(10)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Format : Textes

<p n="1"> <lb n="1"/>

<s n="1" xml:id="s_fro_1">

<supplied resp="cmn" source="#ms_Z" reason="arraché"> <w type="PRE" xml:id="w_fro_000001">A</w> <w type="DETdef" xml:id="w_fro_000002">la</w> <w type="NOMcom" xml:id="w_fro_000003">veille</w> <w type="PRE" xml:id="w_fro_000004">de</w> <w type="DETdef" xml:id="w_fro_000005">la</w> <w type="NOMpro" xml:id="w_fro_000006">Pentecoste</w> <lb n="2"/> <w type="CONsub" xml:id="w_fro_000007">quant</w> <w type="DETdef" xml:id="w_fro_000008">li</w> <w type="NOMcom" xml:id="w_fro_000009">compaignon</w> <w type="PRE" xml:id="w_fro_000010">de</w> <w type="DETdef" xml:id="w_fro_000011">la</w> <w type="NOMcom" xml:id="w_fro_000012">table</w> <w type="ADJqua" xml:id="w_fro_000013">reonde</w>

(11)

Présentation de l’interface web

Fonctionnalités

I Concordances (mots, parties du discours)

I Recherche syntaxique (données SRCMF)

(12)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

(13)
(14)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

(15)
(16)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

(17)

Introduction Plan

Spécificités de l’ancien français Base de Français Médiéval

Présentation générale Format

Métadonnées Textes

Présentation de l’interface web

Nouveau Corpus d’Amsterdam

Présentation générale Format

Métadonnées Textes

Présentation de l’interface web

Syntactic Reference Corpus of Medieval French Présentation générale

Modèle syntaxique dépendanciel Connexions

(18)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

Universität Stuttgart

I Créateur : Antonijn Dees et Piet Van Reenen

I Enrichi par Achim Stein (dir. actuel), Pierre Kuntsmann and

Martin-Dietrich Gleßgen

Étendue

I ca 3 millions de mots I 11th-14th C. I Domaine d’oïl I Principalement littéraire I Quelques manuscrits

Annotations

I POS Dees I POS TreeTagger

(19)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

Universität Stuttgart

I Créateur : Antonijn Dees et Piet Van Reenen

I Enrichi par Achim Stein (dir. actuel), Pierre Kuntsmann and

Martin-Dietrich Gleßgen

Étendue

I ca 3 millions de mots I 11th-14th C. I Domaine d’oïl I Principalement littéraire I Quelques manuscrits

Annotations

I POS Dees I POS TreeTagger

(20)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

Universität Stuttgart

I Créateur : Antonijn Dees et Piet Van Reenen

I Enrichi par Achim Stein (dir. actuel), Pierre Kuntsmann and

Martin-Dietrich Gleßgen

Étendue

I ca 3 millions de mots I 11th-14th C. I Domaine d’oïl I Principalement littéraire I Quelques manuscrits

Annotations

I POS Dees I POS TreeTagger

(21)

Format : Métadonnées

<subcorpus

id="abe"

deaf="JMeunAbC*" . . .

manuscritDees="Paris, Bibl. Nat., fr. 920" regionDees="Région parisienne"

coefficientRegionDees="84 (Région parisienne)" dateMoyenneDees="1325*" . . . vers="non" ponctuation="non" mots="18183" passage="intégral" commentairePhilologique="ms. Paris, BN fr. 920" qualite="ms3" sourceQualite="XG (éd.)" commentaireForme="243 ff." auteur="Jean de Meun" dateComposition="1280ca" dateManuscrit="1395ca" . . .>

(22)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Format : Textes

(simplifié)

<s line="178">

<word pos="PREDET:a:obj:masc:sg" taggerpos="PREDET:a" lemma="a+le|le" >al</word> <word pos="NOM:obj:masc:sg" taggerpos="NOM" lemma="jor">jor</word>

<word pos="PRE" taggerpos="PRE" lemma="de" >de</word>

<word pos="NOM:obj:femi:sg" taggerpos="NOM" lemma="pentecoste" >pentecouste</word> <word pos="PROCON" taggerpos="PROCON" lemma="ni" >ne</word>

</s>

<s line="179">

<word pos="PREDET:a:obj:femi:pl" taggerpos="PREDET:a" lemma="a+le|le" >as</word> <word pos="NOM:obj:femi:pl" taggerpos="NOM" lemma="fait2|feste|festre" >festes</word> <word pos="ADV" taggerpos="ADV" lemma="plus" >plus</word>

<word pos="ADJ:obj:femi:pl" taggerpos="ADJ" lemma="haut" >hautes</word> </s>

(23)

Présentation de l’interface web

Fonctionnalités

I Concordances (mots, parties du discours)

I GUI en ligne TWIC

(24)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

(25)
(26)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

(27)
(28)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Introduction Plan

Spécificités de l’ancien français Base de Français Médiéval

Présentation générale Format

Métadonnées Textes

Présentation de l’interface web Nouveau Corpus d’Amsterdam

Présentation générale Format

Métadonnées Textes

Présentation de l’interface web

Syntactic Reference Corpus of Medieval French

Présentation générale

Modèle syntaxique dépendanciel Connexions

(29)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

Corpus de base

Enrichissementde la BFM et du NCA

Enrichissements antérieurs

I Ressources similaires mais pas identiques

I Descripteursbibliographiques (titre, auteur, éditeur, etc).

I Métadonnées spécifiques aux textes médiévaux (date de composition, du

manuscrit, lieu de rédaction, etc.)

I annotationsmorphosyntaxiques(POS) des occurrences-mots.

I Ressources spécifiques

I NCA :lemmatisationautomatique (TreeTagger)

I BFM :discours directen cours

Annotation commune

I annotation syntaxique s’ajouteaux informations présentes

I démarcheunifiée(6= idiosyncrasie)

I Note : impossible projeter automatiquement annotations syntaxiques

(30)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

Corpus de base

Enrichissementde la BFM et du NCA

Enrichissements antérieurs

I Ressources similaires mais pas identiques

I Descripteursbibliographiques (titre, auteur, éditeur, etc).

I Métadonnées spécifiques aux textes médiévaux (date de composition, du

manuscrit, lieu de rédaction, etc.)

I annotationsmorphosyntaxiques(POS) des occurrences-mots.

I Ressources spécifiques

I NCA :lemmatisationautomatique (TreeTagger)

I BFM :discours directen cours

Annotation commune

I annotation syntaxique s’ajouteaux informations présentes

I démarcheunifiée(6= idiosyncrasie)

I Note : impossible projeter automatiquement annotations syntaxiques

(31)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

Corpus de base

Enrichissementde la BFM et du NCA

Enrichissements antérieurs

I Ressources similaires mais pas identiques

I Descripteursbibliographiques (titre, auteur, éditeur, etc).

I Métadonnées spécifiques aux textes médiévaux (date de composition, du

manuscrit, lieu de rédaction, etc.)

I annotationsmorphosyntaxiques(POS) des occurrences-mots.

I NCA :lemmatisationautomatique (TreeTagger)

I BFM :discours directen cours

Annotation commune

I annotation syntaxique s’ajouteaux informations présentes

I démarcheunifiée(6= idiosyncrasie)

I Note : impossible projeter automatiquement annotations syntaxiques

(32)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

Corpus de base

Enrichissementde la BFM et du NCA

Enrichissements antérieurs

I Ressources similaires mais pas identiques

I Descripteursbibliographiques (titre, auteur, éditeur, etc).

I Métadonnées spécifiques aux textes médiévaux (date de composition, du

manuscrit, lieu de rédaction, etc.)

I annotationsmorphosyntaxiques(POS) des occurrences-mots.

I Ressources spécifiques

I NCA :lemmatisationautomatique (TreeTagger)

I BFM :discours directen cours

Annotation commune

I annotation syntaxique s’ajouteaux informations présentes

I démarcheunifiée(6= idiosyncrasie)

I Note : impossible projeter automatiquement annotations syntaxiques

(33)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

Corpus de base

Enrichissementde la BFM et du NCA

Enrichissements antérieurs

I Ressources similaires mais pas identiques

I Descripteursbibliographiques (titre, auteur, éditeur, etc).

I Métadonnées spécifiques aux textes médiévaux (date de composition, du

manuscrit, lieu de rédaction, etc.)

I annotationsmorphosyntaxiques(POS) des occurrences-mots.

I Ressources spécifiques

I NCA :lemmatisationautomatique (TreeTagger)

I BFM :discours directen cours

Annotation commune

I démarcheunifiée(6= idiosyncrasie)

I Note : impossible projeter automatiquement annotations syntaxiques

(34)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

Corpus de base

Enrichissementde la BFM et du NCA

Enrichissements antérieurs

I Ressources similaires mais pas identiques

I Descripteursbibliographiques (titre, auteur, éditeur, etc).

I Métadonnées spécifiques aux textes médiévaux (date de composition, du

manuscrit, lieu de rédaction, etc.)

I annotationsmorphosyntaxiques(POS) des occurrences-mots.

I Ressources spécifiques

I NCA :lemmatisationautomatique (TreeTagger)

I BFM :discours directen cours

Annotation commune

I annotation syntaxique s’ajouteaux informations présentes

I démarcheunifiée(6= idiosyncrasie)

I Note : impossible projeter automatiquement annotations syntaxiques

(35)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

Corpus de base

Enrichissementde la BFM et du NCA

Enrichissements antérieurs

I Ressources similaires mais pas identiques

I Descripteursbibliographiques (titre, auteur, éditeur, etc).

I Métadonnées spécifiques aux textes médiévaux (date de composition, du

manuscrit, lieu de rédaction, etc.)

I annotationsmorphosyntaxiques(POS) des occurrences-mots.

I Ressources spécifiques

I NCA :lemmatisationautomatique (TreeTagger)

I BFM :discours directen cours

Annotation commune

I annotation syntaxique s’ajouteaux informations présentes

I démarcheunifiée(6= idiosyncrasie)

(36)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Présentation générale

Corpus de base

Enrichissementde la BFM et du NCA

Enrichissements antérieurs

I Ressources similaires mais pas identiques

I Descripteursbibliographiques (titre, auteur, éditeur, etc).

I Métadonnées spécifiques aux textes médiévaux (date de composition, du

manuscrit, lieu de rédaction, etc.)

I annotationsmorphosyntaxiques(POS) des occurrences-mots.

I Ressources spécifiques

I NCA :lemmatisationautomatique (TreeTagger)

I BFM :discours directen cours

Annotation commune

I annotation syntaxique s’ajouteaux informations présentes

I démarcheunifiée(6= idiosyncrasie)

I Note : impossible projeter automatiquement annotations syntaxiques

(37)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Modèle syntaxique dépendanciel

toli des lors te li anemis la veue CIRC CM PL SU J OBJ M O D MO D M O D

Classes de dépendants pour l’afr.

Relation étiquetée du nom de la fonction représentée

I Principaux dépendants du verbe :

I sujet (abrégé Suj)

I objet (Obj)

I complément régi autre que l’objet (Cmpl)

I attribut du sujet (AtSj)

I circonstant (Circ)

(38)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Modèle syntaxique dépendanciel

toli des lors te li anemis la veue CIRC CM PL SU J OBJ M O D MO D M O D

Classes de dépendants pour l’afr.

Relation étiquetée du nom de la fonction représentée

I Principaux dépendants du verbe :

I sujet (abrégé Suj)

I objet (Obj)

I complément régi autre que l’objet (Cmpl)

I attribut du sujet (AtSj)

I circonstant (Circ)

(39)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Modèle syntaxique dépendanciel

toli des lors te li anemis la veue CIRC CM PL SU J OBJ M O D MO D M O D

Classes de dépendants pour l’afr.

Relation étiquetée du nom de la fonction représentée

I Principaux dépendants du verbe :

I sujet (abrégé Suj)

I objet (Obj)

I complément régi autre que l’objet (Cmpl)

I attribut du sujet (AtSj)

(40)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Modèle syntaxique dépendanciel

toli des lors te li anemis la veue CIRC CM PL SU J OBJ M O D MO D M O D

Classes de dépendants pour l’afr.

Relation étiquetée du nom de la fonction représentée

I Principaux dépendants du verbe :

I sujet (abrégé Suj)

I objet (Obj)

I complément régi autre que l’objet (Cmpl)

I attribut du sujet (AtSj)

I circonstant (Circ)

(41)
(42)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

Textescentraux encodés en XML (NCA et BFM). Avec les annotations et la terminologie SRCMF = ressource primaire produite

(43)

Annotationsans tenir compte des annotations déjà présentes, mais en recou-rant aux éditions qui fondent les bases

(44)

Introduction Base de Français Médiéval Nouveau Corpus d’Amsterdam Syntactic Reference Corpus of Medieval French

(45)

Merci !

Références

Documents relatifs

La principale différence entre les travaux de (Illouz, 1999) et de (Sjöbergh, 2003) et notre système réside dans le fait que nous ne cherchons pas à mettre en place un système de vote

Dans la construction du texte comme de la liste de mots, on a veillé à reprendre les hypothèses anciennes ou plus modernes des phonologues du français, permettant ainsi, dans

Dans ce travail, nous rapportons le cas d’une patiente obèse connue diabétique et hypertendue atteinte du scléroedeme de Buscke, diagnostiqué dans le service de

Ces approches sont éclairantes pour aborder l’évolution des produits numériques des années 1980 aux années 2000. La diffusion des produits numériques des années 1980 et 1990

Head Pose Detector (head_pose_estimation) Intention-for-Interaction Detector (fused_intention) Audio Acquisition (audio_acquis) RGB-D Acquisition (openni_camera) User

This distinguishes the SRCMF project from the first major syntactic resource for medieval French: the corpus Modéliser le changement: les voies du français (MCVF) 4 contains,

On observe par ailleurs que la catégorie « autres », qui regroupe toutes les structures rares, correspond dans les deux textes en vers (et uniquement dans ceux-ci) à la part la

Or étant donné leur forte concentration (chez seulement 3 auteurs, avec en outre 26 des 29 occurrences chez Christine de Pizan), une réduction mal ciblée du corpus