2.2 Phénomènes de corpus
3.1.1 Le pré-traitement du corpus
Modification et extension du corpus
Les modifications, adaptations et ajouts que nous avons effectués sur le corpus
annoté ont donc été motivées par des questions relatives à la définition du corpus qui
visent à réduire l’écart entre quantité et qualité documentaires en tant qu’exemples
des phénomènes linguistiques. Cela implique en définitive de respecter des critères
multiples : la représentativité phénoménologique du corpus, sa concentration et sa
variabilité linguistique. Comptent également la multiplicité des typologies scripturales
et des styles rédactionnels des actes, l’état de la langue et enfin le niveau d’erreurs et
de fausses pistes que produisent les imperfections de la numérisation. Notre objectif
est de développer un modèle basé sur un corpus régional opérant avec robustesse
sur des corpus géographiquement et chronologiquement proches, mais aussi sur des
corpus diplomatiques créés dans des espaces différents et appartenant à des traditions
scripturales éloignées. Exposons donc les problématiques soulevées par le corpus
clunisien.
189. SophiePrévost. “Corpus informatisés de français médiéval : contraintes sur leur constitution et spécificités de leurs apports”. In :Corpus 7 (2008), p. 35-64 ;Kennedy,An introduction to corpus linguistics
190. Prévost, “Corpus informatisés de français médiéval : contraintes sur leur constitution et spécificités de leurs apports” ; Christiane Marchello-Nizia. Grammaticalisation et changement linguistique. De Boeck-Duculot, 2006, p. 304
3.1. Modélisation de la reconnaissance des entités nommées 89
Représentativité
Un corpus de modélisation doit assurer stabilité et cohérence interne ; cela vaut
pour toute recherche mobilisant des corpus. Un corpus très hétérogène ou répondant à
des phénomènes multiples rend l’exploitation assez compliquée dans la mesure où les
conclusions auront nécessairement un impact très nuancé. Dans cet état de la langue
un corpus contient souvent des variations qu’on ne retrouvera pas ailleurs, si le corpus
est suffisamment large ces variations peuvent être bien classées car on peut retrouver
les structures et formules canoniques d’où elles proviennent. À un niveau strictement
technique, cela constitue un atout. Puisque le modèle de reconnaissance généré est
discriminant (voir partie 1.5.1), les règles provenant d’un seul corpus organique peuvent
être plus efficaces que celles provenant d’une séquence de petits corpus variés ou de
corpus divers mal échantillonnés qui pourraient fournir des observations bien plus
variées. Mais, à l’opposé, l’utilisation d’un seul corpus peut affecter la capacité du
modèle à reconnaître des entités dans des chartes externes au corpus, car celui-ci
peut tendre à une uniformisation, conduisant à exclure partiellement voire totalement
certains phénomènes et variations.
Par ailleurs, un corpus régional comme celui de Cluny peut manquer de
représentativité par rapport à une réalité beaucoup plus vaste : en amont, la réalité
de l’écrit diplomatique de la Bourgogne, en aval, une réalité plus large comprenant
les centres producteurs de chartes de l’Europe occidentale. S’il est vrai que l’écriture
formulaire apporte un certain niveau de ressemblance entre les chartes européennes,
elle ne constitue que l’arrière-plan des modèles scripturaux qui sont influencés par des
traditions particulières et par des états régionaux de la langue
191. En revanche, un
corpus provenant d’une institution au centre d’un réseau régional et qui garde de forts
liens suprarégionaux, comme celui établi par les bénédictins, concentrera une pluralité
de phénomènes supérieure à la moyenne du fait de son rôle dans la circulation des
productions intellectuelles et dans la gestion des phénomènes économiques et sociaux.
Concentration
Le deuxième enjeu concerne la concentration documentaire liée au processus de
cartularisation. Le cartulaire clunisien copie et accumule des actes principalement
privés provenant des différentes mains et scriptoria de la Bourgogne. Les actes publics
peuvent avoir une origine hors de la région, mais dans bien des cas ils ont été rédigés
par le requérant et validées par l’autorité. À l’intérieur du corpus annoté, les chartes
copiées proviennent de plus d’une dizaine de cartulaires et recueils factices — 80 %
des actes sont de Cluny —, contenant, naturellement, des transactions juridiques
de plus d’une centaine de petits espaces, se distribuant principalement dans cinq
types d’actes : chartes, notices, diplômes, bulles et lettres et principalement cinq
types d’actions juridiques : donation, vente, échange, confirmation et mise en gage.
191. La question entame directement avec celle de la « Urkundenlandschaft » introduite par H. Fichtenau pour définir l’existence de microrégions dont les actes présentaient des caractéristiques propres, tant du point de vue de la paléographie que de celui de la langue ou de la mobilisation des formulaires. HeinrichFichtenau. “Das Urkundenwesen in Österreich vom 8. bis zum frühen 13”. In :
L’ensemble offre un panorama très ample, impliquant directement presque tout le
sud de la Bourgogne, une partie du pagus Lugdunensis (Beaujolais) et indirectement
tout le réseau monastique et les institutions publiques opérants dans la région. Cette
amplitude géographique est pourtant plus limitée dans le plan diplomatique, car cette
masse documentaire est produite et surveillée intellectuellement par deux institutions :
Cluny et Saint-Vincent
192. Cela ne concerne pas seulement la préférence de certains
modèles formulaires au sein de son réseau, mais aussi un modèle de cartularisation
imposant diverses filtres à la sélection des actes, comme certains distorsions éditoriales :
correction de barbarismes, abréviation de certains actes, solennisation d’autres, etc.
Apparaît donc un double problème de perspective : d’une part, nous avons deux
institutions centrales d’“accumulation” qui produisent et rassemblent les documents
imposant des lignes directrices intellectuelles et éditoriales, tout en autorisant une
certaine variabilité liée à l’origine multiple des documents et aux différentes traditions
opérant dans chaque zone. D’autre part, nous avons une claire surreprésentation de
ces deux institutions en tant que producteurs et récepteurs de documents par rapport
à d’autres producteurs ou à des institutions moins intégrées, voire externes, au réseau
bénédictin, ce qui réduit mécaniquement les styles et les phénomènes scripturaux
mineurs.
Écriture formulaire
La troisième question concerne l’écriture formulaire dont nous avons déjà expliqué
les caractéristiques (voir partie 2.1.5). Il faut ici rappeler qu’il y a dans l’écriture
des chartes une combinaison particulière d’éléments formels – que l’on désigne par
le terme de formulaire – et d’informations spécifiques – dates, entités nommées,
intitulation, signatures. La modélisation statistique s’appuie ainsi sur la reconnaissance
de certains éléments structurels formant un tronc discursif commun associés à des
éléments documentaires variés dont font partie les entités nommées. Les séquences
textuelles sont prises en tant que produits de cette association d’éléments et les
itérations, autrement dit, le calcul répétitif jusqu’à la satisfaction d’une condition,
que l’algorithme opère sur ces séquences textuelles, ont pour objectif d’apprendre la
distribution combinatoire de ces éléments et de générer un classement par probabilité
d’apparition. De ce fait, dans des documents homogènes, le modèle peut proposer
la balise la plus probable pour une combinaison requise, mais ce modèle pourrait
être pris en défaut lors de son application à des documents provenant de traditions
scripturales qui utilisent des formulaires différents et présentent des états de discours
plus atypiques. Ils comportèrent alors nécessairement des distributions déformées par
rapport aux paramètres d’apprentissage du modèle.
192. Voir aussi la question évoqué par N. Perreaux autour de la pénurie de production scripturaire dans le nord de la Bourgogne avant le XIIe siècle. NicolasPerreaux. “L’écriture du monde (I).. Les chartes et les édifices comme vecteurs de la dynamique sociale dans l’Europe médiévale (viie-milieu du xive siècle)”. In :Bulletin du centre d’études médiévales d’Auxerre| BUCEMA 19.2 (2015)