1.6 La désambiguïsation des entités nommées
2.1.1 Le Corpus des Chartae Burgundiae Medii Aevi (CBMA)
Dans ce panorama, le corpus CBMA - qui correspond en réalité à une collection
éditoriale - est l’une des meilleures éditions numériques d’un ensemble de textes
médiévaux, parfait exemple d’une transformation numérique réussie, avec l’ajout
d’annotations reprenant des aspects rarement formalisés dans ce genre de travail.
L’édition sous forme de tableau que nous avons utilisée dans notre travail de thèse
contient tous les détails disponibles dans l’appareil critique des éditions érudites :
dates, titres, annotations, commentaires, bibliographie, lieux de production, genre,
etc. auxquels d’autres, nouveaux, ont été ajoutés : entités nommées, termes clés, type
documentaire détaillé, coordonnées, qui sont difficiles à obtenir, car ils nécessitent un
long travail manuel et une très bonne capacité de lecture pour être extraits.
128. Un n-gramme est une séquence de N-mots. Ex. "Iulius Caesar" (bigramme), "infandum regina iubes" (trigramme). L’utilisation de ces sous-séquences est assez habituelle dans les études statistiques de langue parce qu’elles permettent d’étudier le contexte immédiat des mots et de prédire les séquences (modèle de langue). Il est bien probable qu’étant donné "Iulius" sa co-ocurrence (les mots intégrant la même sous-séquence) soit "Caesar", mais il l’est encore plus qu’étant donné "infandum regina" elle soit suivi par "iubes" puisque la phrase est exclusive d’Énnée.
Initié il y a plus de 10 ans, le CBMA est une édition encore en construction,
intégrant régulièrement de nouveaux documents ; la dernière mise à jour date de
septembre 2018
129. Initialement considéré comme un corpus diplomatique formé de
la documentation de Cluny et Cîteaux, le CBMA a progressivement incorporé la
quasi-totalité des documents diplomatiques bourguignons médiévaux dans un vaste
arc temporel allant du IXe siècle à la fin du XIVe siècle
130. La numérisation continue
des nombreuses éditions de cartulaires produites depuis le XIXe siècle et de collections
des originaux bourguignons, parmi lesquelles figurent quelques recueils célèbres de
l’historiographie médiévale comme les cartulaires de Cluny, Saint Vincent de Mâcon
et le Cartulaire général de l’Yonne, ainsi que certaines éditions de cartulaires mineurs,
constituent la base du corpus.
La base de données diplomatique contient environ 23 000 documents, parmi lesquels
un sous-corpus de 5 300 articles a été l’objet d’une annotation plus complexe. Ce
sous-corpus, que nous mobilisons informatiquement, est principalement composé de
chartes privées produites dans les abbayes clunisiennes et, pour une minorité d’entre
elles, dans les abbayes cisterciennes. Les documents qu’il contient, provenant de près
d’une centaine de petites localités de Bourgogne, sont extraites de dix cartulaires
différents
131. Cinq ont fait l’objet d’une étude par le passé : les cartulaires A, B et
C de l’abbaye de Cluny (79 % du total), le cartulaire de Saint-Vincent de Mâcon, le
cartulaire du prieuré de Jully-les-Nonnains et le cartulaire de l’abbaye cistercienne de
Vauluisant (voir table 2.1)
Dans une deuxième étape d’extension de l’édition, une fois les actes épuisés, le
corpus accueille et traite également des documents qui apportent une plus grande
hétérogénéité à l’ensemble : chroniques, textes normatifs et hagiographiques, ce qui
porte le nombre à près de trente mille documents
132. Il s’agit d’un mouvement naturel
et pertinent dans la mesure où les éditions hagiographiques sont parfois beaucoup plus
abondantes que les éditions d’actes et leurs éditions numériques plus disponibles. Les
textes hagiographiques qui constituent une ressource complémentaire à la recherche
historique ajoutent au corpus un niveau pertinent d’hétérogénéité qui peut ainsi offrir
une documentation liée tant à la gestion économique qu’à la vie institutionnelle et
129. http://www.cbma-project.eu/
130. Marie-José Gasse-Grandjean. “Les « Chartae Burgundiae Medii Aevi » (CBMA) et le
numérique”. In : Francia 40 (2011), p. 255-263 ; Magnani, “Un corpus structuré et hétérogène de textes latins médiévaux (Bourgogne, Ve-XVe siècle)”
131. RAGUT M.C., Cartulaire de Saint-Vincent de Mâcon : connu sous le nom de Livre enchaîné, Mâcon, Protat, 1864 ; BERNARD A., BRUEL A., Recueil des chartes de l’abbaye de Cluny. Tome 1 : 802-954, Paris, Imprimerie nationale, 1876 ; CHARMASSE A. de, Chartes de l’abbaye de Corbigny, Autun, 1889 ; GUIGUE M.-C., Cartulaire de l’église collégiale Notre-Dame de Beaujeu, Lyon, 1864 ; DESJARDINS G., Cartulaire de l’abbaye de Conques en Rouergue, Paris, 1879 ; CANAT de CHIZY P., Cartulaire du prieuré de Saint-Marcel-lès-Chalon, Chalon-sur-Saône, Marceau, 1894 ; REY C., L’entreprise archivistique de Jean de Cirey, abbé de Cîteaux (1476-1501). Le dossier documentaire de la seigneurie de Villars en Côte-d’Or, 2009 ; CATEL A., LECOMTE M., Chartes & documents de l’abbaye cistercienne de Preuilly, publiés et mis en ordre avec introduction, notes et tables, Paris, 1927 ; DUBA W. O., The cartulary of Vauluisant : a critical edition, 1994
132. Eliana Magnani. “Les CBMA en corpus structuré. Atelier 2. Le corpus hagiographique
bourguignon. Débats et recherches. LaMOP-Sorbonne, 19 juin 2018”. In :Bulletin du centre d’études médiévales d’Auxerre| BUCEMA(2018)
2.1. Les éditions numériques 59
Éditeur N
ochartes pourcentage
Bernard et Bruel 4101 78.8 %
C. Ragut 635 12.2 %
Charmasse 26 0.5 %
Guigue 38 0.7 %
Canat de Chizy 115 2.2 %
Catel et Lecomte 32 0.6 %
C. Rey 43 0.8 %
Desjardins 10 0.2 %
Duba W.O 182 3.5 %
Miscelane 25 0.5 %
Table 2.1 – Nombre de documents par édition dans le corpus CBMA annoté
spirituelle des communautés
133.
Ces cartulaires et collections ont été édités, aux XIXe et XXe siècles, selon
différentes normes éditoriales diplomatiques et philologiques ; la figure 2.1 montre
comment ces actes sont répartis dans le temps. Les textes dactylographiés numérisés
dans les éditions modernes sont la principale source des collections textuelles
disponibles, où des éléments tels que la capitalisation, la ponctuation et le
développement d’abréviations ont été ajoutés, permettant ainsi de moderniser les
sources originales pour en faciliter la lecture. Le texte brut a été stocké dans une
base de données dynamique et une équipe d’experts historiens et philologues a annoté
manuellement les entités nommées personnelles et géographiques. En raison d’un
manque de temps et de ressources, les entités juridiques et institutionnelles n’ont pas
été identifiées.
Comme mentionné précédemment dans la partie 1.1, les entités nommées sont un
élément fondamental de la structuration du contenu, notamment parce qu’elles ne sont
pas récupérables avec les outils classiques du traitement de texte
134. Ce n’est donc pas
un hasard si les responsables du CBMA ont passé des mois à annoter manuellement
toutes les entités nommées du corpus de Cluny, car il s’agit d’un corpus suffisamment
complexe, du point de vue de la taille et de l’hétérogénéité pour permettre des pratiques
de recherche panoramiques et massives jusqu’à présent interdites à l’historien. Annoter
les entités nommées est une étape préalable fondamentale qui permet d’appliquer
un ensemble plus large d’outils travaillant à des niveaux plus complexes lors de la
récupération de nouvelles informations sur le contenu
135.
L’édition réalisée par le CBMA est également un excellent exemple de la
diversité des approches qu’une édition numérique peut adopter. Le corpus, dont le
téléchargement est gratuit, est disponible en trois formats : la version CSV (valeurs
séparées par des virgules) sous la forme d’un tableau, utilisée dans cette thèse, est la
133. À propos du corpus hagiographique clunisien voir les études de PatrickHenriet. “Chronique de quelques morts annoncées : Les saints abbés clunisiens (X e-XII e seècles)”. In :Médiévales(1996), p. 93-108 ; et dans le CBMA :Magnani, “Un corpus structuré et hétérogène de textes latins médiévaux (Bourgogne, Ve-XVe siècle)”
134. Simon, “Approaches to hungarian named entity recognition”
135. SimonOverellet StefanRüger. “Using co-occurrence models for placename disambiguation”. In :International Journal of Geographical Information Science 22.3 (2008), p. 265-287