• Aucun résultat trouvé

2.2 Phénomènes de corpus

3.1.1 Le pré-traitement du corpus

Modification et extension du corpus

Les modifications, adaptations et ajouts que nous avons effectués sur le corpus

annoté ont donc été motivées par des questions relatives à la définition du corpus qui

visent à réduire l’écart entre quantité et qualité documentaires en tant qu’exemples

des phénomènes linguistiques. Cela implique en définitive de respecter des critères

multiples : la représentativité phénoménologique du corpus, sa concentration et sa

variabilité linguistique. Comptent également la multiplicité des typologies scripturales

et des styles rédactionnels des actes, l’état de la langue et enfin le niveau d’erreurs et

de fausses pistes que produisent les imperfections de la numérisation. Notre objectif

est de développer un modèle basé sur un corpus régional opérant avec robustesse

sur des corpus géographiquement et chronologiquement proches, mais aussi sur des

corpus diplomatiques créés dans des espaces différents et appartenant à des traditions

scripturales éloignées. Exposons donc les problématiques soulevées par le corpus

clunisien.

189. SophiePrévost. “Corpus informatisés de français médiéval : contraintes sur leur constitution et spécificités de leurs apports”. In :Corpus 7 (2008), p. 35-64 ;Kennedy,An introduction to corpus linguistics

190. Prévost, “Corpus informatisés de français médiéval : contraintes sur leur constitution et spécificités de leurs apports” ; Christiane Marchello-Nizia. Grammaticalisation et changement linguistique. De Boeck-Duculot, 2006, p. 304

3.1. Modélisation de la reconnaissance des entités nommées 89

Représentativité

Un corpus de modélisation doit assurer stabilité et cohérence interne ; cela vaut

pour toute recherche mobilisant des corpus. Un corpus très hétérogène ou répondant à

des phénomènes multiples rend l’exploitation assez compliquée dans la mesure où les

conclusions auront nécessairement un impact très nuancé. Dans cet état de la langue

un corpus contient souvent des variations qu’on ne retrouvera pas ailleurs, si le corpus

est suffisamment large ces variations peuvent être bien classées car on peut retrouver

les structures et formules canoniques d’où elles proviennent. À un niveau strictement

technique, cela constitue un atout. Puisque le modèle de reconnaissance généré est

discriminant (voir partie 1.5.1), les règles provenant d’un seul corpus organique peuvent

être plus efficaces que celles provenant d’une séquence de petits corpus variés ou de

corpus divers mal échantillonnés qui pourraient fournir des observations bien plus

variées. Mais, à l’opposé, l’utilisation d’un seul corpus peut affecter la capacité du

modèle à reconnaître des entités dans des chartes externes au corpus, car celui-ci

peut tendre à une uniformisation, conduisant à exclure partiellement voire totalement

certains phénomènes et variations.

Par ailleurs, un corpus régional comme celui de Cluny peut manquer de

représentativité par rapport à une réalité beaucoup plus vaste : en amont, la réalité

de l’écrit diplomatique de la Bourgogne, en aval, une réalité plus large comprenant

les centres producteurs de chartes de l’Europe occidentale. S’il est vrai que l’écriture

formulaire apporte un certain niveau de ressemblance entre les chartes européennes,

elle ne constitue que l’arrière-plan des modèles scripturaux qui sont influencés par des

traditions particulières et par des états régionaux de la langue

191

. En revanche, un

corpus provenant d’une institution au centre d’un réseau régional et qui garde de forts

liens suprarégionaux, comme celui établi par les bénédictins, concentrera une pluralité

de phénomènes supérieure à la moyenne du fait de son rôle dans la circulation des

productions intellectuelles et dans la gestion des phénomènes économiques et sociaux.

Concentration

Le deuxième enjeu concerne la concentration documentaire liée au processus de

cartularisation. Le cartulaire clunisien copie et accumule des actes principalement

privés provenant des différentes mains et scriptoria de la Bourgogne. Les actes publics

peuvent avoir une origine hors de la région, mais dans bien des cas ils ont été rédigés

par le requérant et validées par l’autorité. À l’intérieur du corpus annoté, les chartes

copiées proviennent de plus d’une dizaine de cartulaires et recueils factices — 80 %

des actes sont de Cluny —, contenant, naturellement, des transactions juridiques

de plus d’une centaine de petits espaces, se distribuant principalement dans cinq

types d’actes : chartes, notices, diplômes, bulles et lettres et principalement cinq

types d’actions juridiques : donation, vente, échange, confirmation et mise en gage.

191. La question entame directement avec celle de la « Urkundenlandschaft » introduite par H. Fichtenau pour définir l’existence de microrégions dont les actes présentaient des caractéristiques propres, tant du point de vue de la paléographie que de celui de la langue ou de la mobilisation des formulaires. HeinrichFichtenau. “Das Urkundenwesen in Österreich vom 8. bis zum frühen 13”. In :

L’ensemble offre un panorama très ample, impliquant directement presque tout le

sud de la Bourgogne, une partie du pagus Lugdunensis (Beaujolais) et indirectement

tout le réseau monastique et les institutions publiques opérants dans la région. Cette

amplitude géographique est pourtant plus limitée dans le plan diplomatique, car cette

masse documentaire est produite et surveillée intellectuellement par deux institutions :

Cluny et Saint-Vincent

192

. Cela ne concerne pas seulement la préférence de certains

modèles formulaires au sein de son réseau, mais aussi un modèle de cartularisation

imposant diverses filtres à la sélection des actes, comme certains distorsions éditoriales :

correction de barbarismes, abréviation de certains actes, solennisation d’autres, etc.

Apparaît donc un double problème de perspective : d’une part, nous avons deux

institutions centrales d’“accumulation” qui produisent et rassemblent les documents

imposant des lignes directrices intellectuelles et éditoriales, tout en autorisant une

certaine variabilité liée à l’origine multiple des documents et aux différentes traditions

opérant dans chaque zone. D’autre part, nous avons une claire surreprésentation de

ces deux institutions en tant que producteurs et récepteurs de documents par rapport

à d’autres producteurs ou à des institutions moins intégrées, voire externes, au réseau

bénédictin, ce qui réduit mécaniquement les styles et les phénomènes scripturaux

mineurs.

Écriture formulaire

La troisième question concerne l’écriture formulaire dont nous avons déjà expliqué

les caractéristiques (voir partie 2.1.5). Il faut ici rappeler qu’il y a dans l’écriture

des chartes une combinaison particulière d’éléments formels – que l’on désigne par

le terme de formulaire – et d’informations spécifiques – dates, entités nommées,

intitulation, signatures. La modélisation statistique s’appuie ainsi sur la reconnaissance

de certains éléments structurels formant un tronc discursif commun associés à des

éléments documentaires variés dont font partie les entités nommées. Les séquences

textuelles sont prises en tant que produits de cette association d’éléments et les

itérations, autrement dit, le calcul répétitif jusqu’à la satisfaction d’une condition,

que l’algorithme opère sur ces séquences textuelles, ont pour objectif d’apprendre la

distribution combinatoire de ces éléments et de générer un classement par probabilité

d’apparition. De ce fait, dans des documents homogènes, le modèle peut proposer

la balise la plus probable pour une combinaison requise, mais ce modèle pourrait

être pris en défaut lors de son application à des documents provenant de traditions

scripturales qui utilisent des formulaires différents et présentent des états de discours

plus atypiques. Ils comportèrent alors nécessairement des distributions déformées par

rapport aux paramètres d’apprentissage du modèle.

192. Voir aussi la question évoqué par N. Perreaux autour de la pénurie de production scripturaire dans le nord de la Bourgogne avant le XIIe siècle. NicolasPerreaux. “L’écriture du monde (I).. Les chartes et les édifices comme vecteurs de la dynamique sociale dans l’Europe médiévale (viie-milieu du xive siècle)”. In :Bulletin du centre d’études médiévales d’Auxerre| BUCEMA 19.2 (2015)

3.1. Modélisation de la reconnaissance des entités nommées 91

L’état de la langue écrite

La quatrième question concerne l’état de la langue écrite. Dans les études de

traitement automatique de la langue, la « boîte à outils » du latin est très pauvre, ce

qui implique d’effectuer la modélisation à l’aide d’outils de traitement du langage

indépendants de la langue, combinés à l’adaptation de certains outils développés

pour le latin classique. Des études récentes ont porté sur la modélisation du latin,

en produisant lemmatiseurs, dictionnaires et index géographiques, mais ceux-ci sont

encore expérimentaux et demeurent focalisés sur la littérature en latin classique.

Les variantes médiévales, qui résultent des états changeants de la langue imputables

au processus de vernacularisation du latin, n’ont presque pas été abordées. Toute

approche fondée sur un corpus médiéval particulier doit s’effectuer en prêtant une

grande attention aux phénomènes singuliers, car il est fort probable qu’il recèle, pour

certains d’entre eux, les seuls exemples existants. Toutefois, à la différence de ce qui

arrive dans le domaine littéraire, les sources diplomatiques ne subissent pas de brusques

changements dans le style, mais plutôt une lente émergence d’innovations dans laquelle

l’individualité de l’écrivain se trouve entravée par la formule.

Numérisation

La cinquième et dernière question concerne la numérisation de sources.

L’océrisation des éditions érudites, ou à défaut, la saisie manuelle, reste le moyen

principal d’obtenir le texte brut qui constitue la base de travail. Les transcriptions

originelles peuvent varier selon l’intérêt particulier de l’éditeur ; un philologue cherchera

à fournir une grande quantité de détails graphiques trouvés dans le document et à

préserver la forme originelle des mots, faisant plutôt une translitération, alors qu’un

paléographe sera davantage enclin à présenter une version restituée et normalisée du

texte et à fournir un cadre de références historiques. Selon le regard qui est porté sur

lui, le contenu des éditions érudites offre, à travers le texte et l’appareil péri textuel,

toute une série d’éléments de correction syntaxique, graphique et lexicale, comme la

ponctuation, le développement des abréviations, la restitution des oublis du scribe,

l’usage des majuscules, ainsi que des éléments diacritiques et para textuels — signes

conventionnels indiquant les abréviations, les suppressions ou les modifications, les

caractères spéciaux, les commentaires et les titres, etc. La normalisation du texte afin

de faciliter la lecture humaine, facilite aussi la lecture par la machine et est un atout

fondamental pendant la phase de modélisation. En même temps, l’excès de signes

auxiliaires et de marqueurs de hiérarchie syntaxique peut rapidement engendrer un

« bruit de fond », qui empêche un bon séquençage du texte affectant fortement la

reconnaissance.

Afin d’étudier l’impact de toutes ces questions sur la qualité de notre modèle,

nous avons effectué différentes expériences de validation croisée et d’évaluation de

robustesse dont nous allons présenter à continuation les détails. Chacune d’elles s’est

concentrée sur un seul aspect : la taille du corpus, les variations temporelles, les

variations régionales.

3.1.2 Modifications effectuées sur l’annotation originelle et