• Aucun résultat trouvé

2.2 Phénomènes de corpus

2.2.4 La production dans les scriptoria

En quatrième et dernier lieu, deux remarques concernent la production des chartes

dans les scriptoria bourguignons. La première concerne la confection des chartriers et

la compilation de cartulaires, nettement dominée, jusqu’àu XIIIe siècle par les centres

religieux du sud de la Bourgogne, notamment Cluny, aux dépends des centres du nord

dont les niveaux de production de chartes similaires à celui de Cluny sont atteints vers

la fin du XIIe siècle. La deuxième concerne l’évolution de la production des chartes à

l’abbaye de Cluny, au sein de laquelle il est possible de distinguer trois périodes, liées

à de profondes transformations de la réalité territoriale, de l’organisation de l’écriture

et de la légalité des actes.

Comme l’ont montré des études assez récentes, la plupart des cartulaires

bourguignons du XIe siècle sont d’origine bénédictine, parce qu’ils sont produits

soit à l’abbaye de Cluny, soit dans l’une de ses dépendances. Cluny impose un fort

contrôle intellectuel sur la dynamique de copie des chartes

184

. Cinq des six éditions

de cartulaires mobilisées dans cette thèse ont cette origine et ils ont été privilégiés

précisément parce qu’ils forment des suppléments du cartulaire clunisien. Le sixième,

le recueil de l’Yonne a été composé à partir de chartriers produits dans lesscriptoria du

nord un siècle plus tard, lorsque d’autres ordres et institutions ont rejoint la deuxième

vague de cartularisation sur la base d’un large réseau institutionnel établi dans le

nord de la Bourgogne. Cette deuxième vague apporte des cartulaires libérés de la

surveillance intellectuelle clunisienne, et comportant des traits plus hétérogènes (voir

partie 3.2) : une diversité d’origine institutionnelle (prieurés, chapitres cathédraux, un

cartulaire épiscopal) ; différents indices d’organisation (chronologique, topographique,

par chancellerie) ; une variété des producteurs d‘actes (aristocrates, ordres religieux,

municipalités). Ce transfert de la production depuis les centres bénédictins vers les

centres cisterciens, du sud au nord de la Bourgogne, ainsi que la participation de

nouvelles institutions à la mise par écrit et en recueil de documents davantage liés à

la gestion, n’est pas très bien cerné car la documentation clunisienne est bien moins

repéré à partir de la deuxième moitié du XIIe siècle. Ainsi, dans la production de notre

modèle une variété de recueils et de collections d’actes relativement large a été utilisée,

bien que les séries les plus denses correspondent à celles produites au sein du réseau

bénédictin, qui domine le panorama jusqu’àu XIIe siècle.

En outre, dans la confection du cartulaire clunisien qui constitue le cœur du modèle,

différentes campagnes de copie et compilation peuvent être distinguées : 1063-1080,

1095, 1120 (cartulaire A, B et C) 1170-90 (cartulaires D et E) au fil desquels les

lignes directrices de compilation semblent changer ainsi que les pratiques concernant

la rédaction d’un acte. En général les chartes datant de la période antérieure à la

fondation de l’abbaye jusqu’à la fin du Xe siècle (cartulaires A et B), concernent

presque entièrement le patrimoine ecclésiastique et sont très attachés aux formulaires

haut médiévaux et au motif juridique de l’acte, les variations et les adaptations étant

faibles.

185

184. DominiqueIogna-Prat. “La geste des origines dans l’historiographie clunisienne des XIe-XIIe siècles”. In :Revue bénédictine 102.1-2 (1992), p. 135-191 ;Rosé, “Panorama de l’écrit diplomatique en Bourgogne : autour des cartulaires (XIe-XVIIIe siècles)”

Ce panorama change à partir la deuxième moitié de XIe siècle. Une crise est

perceptible dans la production des chartes. Le carcan juridique qui compose le

formulaire autour la décennie 1030-1040 se desserre. Les chartes perdent la régularité

qui les caractérisait, produit d’un fort attachement au formulaire, et elles sont en partie

remplacées par des notices qui, comme on l’a vu, correspondent à des documents

rédigés dans un style plus objectif, plus direct. À côté de cela, des changements

profonds affectent le vocabulaire décrivant les réalités sociales et spatiales. Ce

changement ne concerne pas seulement les documents, mais témoignent d’une évolution

dans les structures spatiales et juridiques affectant la rédaction des chartes

186

. Le

caractère général de ces changements en Europe occidentale, liés à la féodalité, a

alimenté un débat historiographique ancien sur la mutation de l’an 1000

187

.

L’acte de donation en fait commence à disparaître du corpus clunisien vers 1040 et

s’éteint définitivement à la fin du siècle. Avec l’introduction des cartulaires D, E et en

partie du C qui reflètent l’intérêt de l’abbaye pour compiler ses actes concernant les

relations avec le pouvoir public, l’expression formulaire des échanges fonciers disparaît

et est remplacée par les cadres rédactionnelles plus libres des lettres qui dominent le

panorama à partir de la deuxième moitié du XIIe siècle.

p. 9-18

186. François Bange. “L’ager et la villa : structures du paysage et du peuplement dans la région mâconnaise à la fin du Haut Moyen Age (IX e-XI e siècles)”. In :Annales. Histoire, Sciences Sociales. T. 39. 3. Cambridge University Press. 1984, p. 529-569

187. DominiqueBarthélemy. “La mutation féodale at-elle eu lieu ?(Note critique)”. In :Annales. Histoire, Sciences Sociales. T. 47. 3. Cambridge University Press. 1992, p. 767-777

Chapitre 3

La modélisation informatique

3.1 Modélisation de la reconnaissance des entités

nommées

En choisissant un corpus permettant d’entraîner l’algorithme à la reconnaissance

d’éléments morpho-syntaxiques, nous devons rester très proches des normes définies

dans la théorie du corpus, spécifiquement de celles relatives aux axes quantitatifs —

quelle extension doit avoir un corpus ? — et qualitatifs — les documents sélectionnés

sont-ils représentatifs ? —, tout en faisant l’appel aux spécificités d’une analyse qui

privilégie les variations statistiques et le contexte immédiat des mots

188

. Le processus

de formation du corpus ne nous concerne pas parce que nous prenons comme corpus

l’ensemble de cartulaires et de recueils d’actes hérité, conçu intellectuellement comme

un seul volume dont nous avons précisé, dans le chapitre 2, l’histoire et la composition.

Néanmoins, le corpus originel et le corpus avec lequel nous avons entamé la construction

du modèle automatique pour la reconnaissance des entités nommées ne coïncident pas

nécessairement. Les problèmes que nous avons pointés exigent une réponse technique

afin de contrôler les risques de surentraînement et de surgénéralisation que le modèle

pourrait encourir. Ces risques sont liés à certaines des caractéristiques du corpus,

notamment la forte dépendance aux institutions bénédictines, sa provenance régionale

unique et le caractère stéréotypé du discours formulaire. Les mesures de contrôle

passent par la formation de sous-corpus où l’on privilégie la présence de certains

éléments homogènes — corpus de caractère spécifique — ainsi que de sous-corpus qui,

par variation des échelles, contiennent des éléments hétérogènes — corpus de caractère

général (voir partie 2.2).

D’ailleurs, s’il est vrai qu’une des questions les plus épineuses lorsqu’on travaille

avec des états d’une langue disparue est le manque de locuteurs natifs et par extension

de compétence linguistique complète de la part de l’analyste, cette compétence peut

être partiellement remplacée par des instruments opérant à partir de dictionnaires,

188. À ce sujet quelques travaux de référence AnneO’Keeffeet MichaelMcCarthy.The Routledge handbook of corpus linguistics. Routledge, 2010, p. 345-359 ; Graeme Kennedy. An introduction to corpus linguistics. Routledge, 2014, p. 201-230 ; Tony McEnery et Andrew Hardie. Corpus linguistics : Method, theory and practice. Cambridge University Press, 2011

grammaires et classificateurs de séquences

189

.

Par ailleurs, notre corpus est par définition une sélection limitée de documents

qui transmet une image forcement incomplète du phénomène d’écriture dans la région

ou même du processus de la rédaction des cartulaires. Essayer de construire un outil

de vocation généraliste pour l’application sur d’autres corpus similaires se transforme

ainsi en un défi important, spécialement si on part d’un ensemble de documents qui

constituent un échantillon représentatif, certes, mais limité.

Finalement, le corpus en tant qu’objet « fermé » peut se révéler un univers

linguistique singulier, puisque certains phénomènes liés à l’état de la langue

n’apparaîtront que là, et feront de lui un référent textuel unique

190

. Ceci considéré,

l’outil que l’on peut entraîner à partir d’un seul corpus n’a pas au premier regard une

vocation généraliste. Cette situation oblige d’un côté à prouver jusqu’à quel point le

corpus est suffisant pour construire la base d’un modèle fournissant un niveau correct

d’adaptabilité et de l’autre côté à annoter des séries supplémentaires qui apportent

soit des éléments détectés dans des corpus proches et mal représentés dans le corpus

principal, soit des textes datés de périodes sans production ou avec une production très

maigre. L’objectif est d’apporter à la machine un répertoire scriptural plus varié afin

de combler certaines lacunes temporelles du corpus principal — Cluny en ce qui nous

concerne —, mais aussi de tester si le modèle entraîné est robuste face à de nouveaux

documents qui ont des caractéristiques un peu différentes.