Le Corpus des Chartae Burgundiae Medii Aevi (CBMA)

1.6 La désambiguïsation des entités nommées

2.1.1 Le Corpus des Chartae Burgundiae Medii Aevi (CBMA)

Dans ce panorama, le corpus CBMA - qui correspond en réalité à une collection

éditoriale - est l’une des meilleures éditions numériques d’un ensemble de textes

médiévaux, parfait exemple d’une transformation numérique réussie, avec l’ajout

d’annotations reprenant des aspects rarement formalisés dans ce genre de travail.

L’édition sous forme de tableau que nous avons utilisée dans notre travail de thèse

contient tous les détails disponibles dans l’appareil critique des éditions érudites :

dates, titres, annotations, commentaires, bibliographie, lieux de production, genre,

etc. auxquels d’autres, nouveaux, ont été ajoutés : entités nommées, termes clés, type

documentaire détaillé, coordonnées, qui sont difficiles à obtenir, car ils nécessitent un

long travail manuel et une très bonne capacité de lecture pour être extraits.

128. Un n-gramme est une séquence de N-mots. Ex. "Iulius Caesar" (bigramme), "infandum regina iubes" (trigramme). L’utilisation de ces sous-séquences est assez habituelle dans les études statistiques de langue parce qu’elles permettent d’étudier le contexte immédiat des mots et de prédire les séquences (modèle de langue). Il est bien probable qu’étant donné "Iulius" sa co-ocurrence (les mots intégrant la même sous-séquence) soit "Caesar", mais il l’est encore plus qu’étant donné "infandum regina" elle soit suivi par "iubes" puisque la phrase est exclusive d’Énnée.

Initié il y a plus de 10 ans, le CBMA est une édition encore en construction,

intégrant régulièrement de nouveaux documents ; la dernière mise à jour date de

septembre 2018

129

. Initialement considéré comme un corpus diplomatique formé de

la documentation de Cluny et Cîteaux, le CBMA a progressivement incorporé la

quasi-totalité des documents diplomatiques bourguignons médiévaux dans un vaste

arc temporel allant du IXe siècle à la fin du XIVe siècle

130

. La numérisation continue

des nombreuses éditions de cartulaires produites depuis le XIXe siècle et de collections

des originaux bourguignons, parmi lesquelles figurent quelques recueils célèbres de

l’historiographie médiévale comme les cartulaires de Cluny, Saint Vincent de Mâcon

et le Cartulaire général de l’Yonne, ainsi que certaines éditions de cartulaires mineurs,

constituent la base du corpus.

La base de données diplomatique contient environ 23 000 documents, parmi lesquels

un sous-corpus de 5 300 articles a été l’objet d’une annotation plus complexe. Ce

sous-corpus, que nous mobilisons informatiquement, est principalement composé de

chartes privées produites dans les abbayes clunisiennes et, pour une minorité d’entre

elles, dans les abbayes cisterciennes. Les documents qu’il contient, provenant de près

d’une centaine de petites localités de Bourgogne, sont extraites de dix cartulaires

différents

131

. Cinq ont fait l’objet d’une étude par le passé : les cartulaires A, B et

C de l’abbaye de Cluny (79 % du total), le cartulaire de Saint-Vincent de Mâcon, le

cartulaire du prieuré de Jully-les-Nonnains et le cartulaire de l’abbaye cistercienne de

Vauluisant (voir table 2.1)

Dans une deuxième étape d’extension de l’édition, une fois les actes épuisés, le

corpus accueille et traite également des documents qui apportent une plus grande

hétérogénéité à l’ensemble : chroniques, textes normatifs et hagiographiques, ce qui

porte le nombre à près de trente mille documents

132

. Il s’agit d’un mouvement naturel

et pertinent dans la mesure où les éditions hagiographiques sont parfois beaucoup plus

abondantes que les éditions d’actes et leurs éditions numériques plus disponibles. Les

textes hagiographiques qui constituent une ressource complémentaire à la recherche

historique ajoutent au corpus un niveau pertinent d’hétérogénéité qui peut ainsi offrir

une documentation liée tant à la gestion économique qu’à la vie institutionnelle et

129. http://www.cbma-project.eu/

130. Marie-José Gasse-Grandjean. “Les « Chartae Burgundiae Medii Aevi » (CBMA) et le

numérique”. In : Francia 40 (2011), p. 255-263 ; Magnani, “Un corpus structuré et hétérogène de textes latins médiévaux (Bourgogne, Ve-XVe siècle)”

131. RAGUT M.C., Cartulaire de Saint-Vincent de Mâcon : connu sous le nom de Livre enchaîné, Mâcon, Protat, 1864 ; BERNARD A., BRUEL A., Recueil des chartes de l’abbaye de Cluny. Tome 1 : 802-954, Paris, Imprimerie nationale, 1876 ; CHARMASSE A. de, Chartes de l’abbaye de Corbigny, Autun, 1889 ; GUIGUE M.-C., Cartulaire de l’église collégiale Notre-Dame de Beaujeu, Lyon, 1864 ; DESJARDINS G., Cartulaire de l’abbaye de Conques en Rouergue, Paris, 1879 ; CANAT de CHIZY P., Cartulaire du prieuré de Saint-Marcel-lès-Chalon, Chalon-sur-Saône, Marceau, 1894 ; REY C., L’entreprise archivistique de Jean de Cirey, abbé de Cîteaux (1476-1501). Le dossier documentaire de la seigneurie de Villars en Côte-d’Or, 2009 ; CATEL A., LECOMTE M., Chartes & documents de l’abbaye cistercienne de Preuilly, publiés et mis en ordre avec introduction, notes et tables, Paris, 1927 ; DUBA W. O., The cartulary of Vauluisant : a critical edition, 1994

132. Eliana Magnani. “Les CBMA en corpus structuré. Atelier 2. Le corpus hagiographique

bourguignon. Débats et recherches. LaMOP-Sorbonne, 19 juin 2018”. In :Bulletin du centre d’études médiévales d’Auxerre| BUCEMA(2018)

2.1. Les éditions numériques 59

Éditeur N

chartes pourcentage

Bernard et Bruel 4101 78.8 %

C. Ragut 635 12.2 %

Charmasse 26 0.5 %

Guigue 38 0.7 %

Canat de Chizy 115 2.2 %

Catel et Lecomte 32 0.6 %

C. Rey 43 0.8 %

Desjardins 10 0.2 %

Duba W.O 182 3.5 %

Miscelane 25 0.5 %

Table 2.1 – Nombre de documents par édition dans le corpus CBMA annoté

spirituelle des communautés

133

.

Ces cartulaires et collections ont été édités, aux XIXe et XXe siècles, selon

différentes normes éditoriales diplomatiques et philologiques ; la figure 2.1 montre

comment ces actes sont répartis dans le temps. Les textes dactylographiés numérisés

dans les éditions modernes sont la principale source des collections textuelles

disponibles, où des éléments tels que la capitalisation, la ponctuation et le

développement d’abréviations ont été ajoutés, permettant ainsi de moderniser les

sources originales pour en faciliter la lecture. Le texte brut a été stocké dans une

base de données dynamique et une équipe d’experts historiens et philologues a annoté

manuellement les entités nommées personnelles et géographiques. En raison d’un

manque de temps et de ressources, les entités juridiques et institutionnelles n’ont pas

été identifiées.

Comme mentionné précédemment dans la partie 1.1, les entités nommées sont un

élément fondamental de la structuration du contenu, notamment parce qu’elles ne sont

pas récupérables avec les outils classiques du traitement de texte

134

. Ce n’est donc pas

un hasard si les responsables du CBMA ont passé des mois à annoter manuellement

toutes les entités nommées du corpus de Cluny, car il s’agit d’un corpus suffisamment

complexe, du point de vue de la taille et de l’hétérogénéité pour permettre des pratiques

de recherche panoramiques et massives jusqu’à présent interdites à l’historien. Annoter

les entités nommées est une étape préalable fondamentale qui permet d’appliquer

un ensemble plus large d’outils travaillant à des niveaux plus complexes lors de la

récupération de nouvelles informations sur le contenu

135

.

L’édition réalisée par le CBMA est également un excellent exemple de la

diversité des approches qu’une édition numérique peut adopter. Le corpus, dont le

téléchargement est gratuit, est disponible en trois formats : la version CSV (valeurs

séparées par des virgules) sous la forme d’un tableau, utilisée dans cette thèse, est la

133. À propos du corpus hagiographique clunisien voir les études de PatrickHenriet. “Chronique de quelques morts annoncées : Les saints abbés clunisiens (X e-XII e seècles)”. In :Médiévales(1996), p. 93-108 ; et dans le CBMA :Magnani, “Un corpus structuré et hétérogène de textes latins médiévaux (Bourgogne, Ve-XVe siècle)”

134. Simon, “Approaches to hungarian named entity recognition”

135. SimonOverellet StefanRüger. “Using co-occurrence models for placename disambiguation”. In :International Journal of Geographical Information Science 22.3 (2008), p. 265-287

Figure2.1 – Répartition dans le temps du corpus CBMA par type d’acte

plus facile à manipuler car elle possède la matrice de base en texte brut, une version

au format propriétaire (Filmaker, qui sert de base de données intermédiaire pour la

lecture et le traitement), une version de plate-forme, exploitée par Phylologic qui

permet des recherches en tant que base de données relationnelle et connectée avec

le logiciel TXT, contenant le corpus lemmatisé, dont le but est de permettre des

recherches de type sémantique. Il ne s’agit pas de trois versions du corpus, mais de

trois formats contenant différents niveaux d’informations destinés à différents segments

de la recherche : traitement du langage naturel, édition numérique et textométrie.

Dans le document Un modèle de reconnaissance automatique des entités nommées et des structures textuelles pour les corpus diplomatiques médiolatins. (Page 59-62)