2.2 Phénomènes de corpus
3.1.2 Modifications effectuées sur l’annotation originelle et génération
Dans plusieurs cas, que nous allons maintenant détailler, l’état de la numérisation
mais surtout de l’annotation originelle limite la performance de notre modèle. Les
corrections que nous avons opérées s’appuient sur l’observation minutieuse de plusieurs
situations inhérentes aux formulations diplomatiques qui nous ont conduit à modifier
ou enlever l’étiquette attachée aux entités.
Cette section décrit les premières étapes de ce processus, celles dédiées au
pré-traitement et à la normalisation appliqués à tous nos corpus.
Suppression des éléments paratextuels
L’une des principales difficultés du travail effectué sur des textes édités par des
érudits est l’excès du susmentionné de « bruit de fond »
193. Les textes courants trouvés
dans les éditions obligent à lister tous les signes diacritiques, à préparer des scripts de
correction des signes spéciaux et des diphtongues, ainsi que d’élimination des gloses,
titres et commentaires qui font partie de l’appareil textuel, tout en étant extérieurs au
texte lui-même.
«Heldevini de Matriolis ([con]cedentis. [Æc]clesia [Vallis lucentis] nunc
pos[sid]eat feodum ».
194«Actum et datum Clun[iaci], anno Domini Mº CCº quadragesimo quinto,
mense decenbri, in crastino beate Lucie. (Trace des trois sceaux.)».
195«Ego denique domna maior qui hanc cartam fieri iussi ; legere audiui. &
manu mea signum [roto]bus. {a} [roto] {b} Domnus aluarus testis, Domnus
Munio testis, Semeno garciez testis / [signo : domna maioris SiGnvM] /
{c}»
196Ces éléments paratextuels transforment les mots et altèrent les séquences, ce qui
rend difficile l’obtention d’un texte segmenté (« tokenisé ») et lemmatisé, dont dépend
l’application de l’algorithme lors de l’entrainement.
D’ailleurs un processus de normalisation de l’orthographe textuelle et du jeu de
caractères est mis en place dans les scripts de tokenisation. On peut se heurter à
un « mur de briques » si on essaie de gérer des données contenant des caractères
extérieurs au jeu intégré à l’outil. Les transformations entre le format de codification
originelle du corpus (Latin-1) et le format plus universel qu’utilisent la plupart des
outils automatiques (UTF-8) n’est pas compliqué, mais dans le cas des caractères
193. Deux travaux qui traitent de questions similaires en corrigeant le “dirty OCR” : TobiasBlanke
et al. “Information Extraction on Noisy Texts for Historical Research”. In :Digital Humanities(2012) ; Thomas LPackeret al. “Extracting person names from diverse and noisy OCR text”. In :Proceedings of the fourth workshop on Analytics for noisy unstructured text data. ACM. 2010, p. 19-26
194. CBMA 18415 195. CBMA 6313 196. CORHEN-0160
3.1. Modélisation de la reconnaissance des entités nommées 93
peu utilisés (æ œ, ô) une transformation dédiée peut être exigée. Cette normalisation
diminue le taux d’erreur et facilite un usage universel du corpus.
Une fois les éléments paratextuels enlevés et les caractères normalisés, l’application
des outils de base montre une amélioration significative des résultats. Le « toilettage »
du texte réduit les taux d’erreur du système et il est facilement automatisable une fois
qu’on a détecté l’ensemble des éléments problématiques. Toutefois, il a le défaut de
souvent simplifier le texte. Les éléments supprimés, partie importante de toute édition
critique, sont difficilement récupérables en raison de la complexité que présente le
fait d’établir un registre de changements précis. Il a donc fallu définir des méthodes
comparatives pour récupérer les données perdues dans le « toilettage » et ainsi
restaurer les textes ayant subi un traitement automatisé.
Normalisation et segmentation
Une deuxième étape indispensable de la normalisation concerne différentes
modifications que nous avons opérées sur l’annotation originelle afin de valider
ou de mieux reconnaître des situations linguistiques qui, au préalable, présentent
une résolution compliquée ou qui nécessitent une annotation plus précise. Les trois
principales sont :
— Les entités imbriquées
— Les entités ayant un rôle « prédicatif »
— Les entités complexes périphrastiques.
En ce qui concerne les premières, l’une des pratiques les plus répandues dans les
actes, et qui correspond à une réalité juridique et spatiale, est l’usage des noms de
saints en tant qu’entités à la fois personnelles, juridiques et territoriales dont nous
avons déjà vu quelques exemples (voir 2.2.2).
« in villa Caucilla manso indominicato cum capella qui est in onore sancti
Mauricii dedicata »
197« Eldegrinus vivit, teneat et possideat, et pos suum discesso Sancti Petri
perveniat »
198« Et dono vobis vercariam unam in ipsa villa, que terminat a mane Sancti
Vincentii et Belmontissa »
199« in pago Matisconensi, in vicaria Sancti Pontii, in villa quae vocatur
Burgundia »
200197. CBMA 1455 198. CBMA 1710 199. CBMA 387 200. CBMA 1994
Le plus cohérent serait d’annoter, dans la plupart des cas, ces entités comme
des noms de institutions ou organisations (ORG), car elles jouent un rôle en tant
qu’entité juridique qui agit sur différentes facettes de la réalité. Mais étant donné
que cette catégorie n’a pas été prise en compte dans l’annotation initiale par le
projet CBMA, elles ont été étiquetées à l’origine comme des personnes. Ici nous
proposons une annotation différente, conforme à leur fonction : nous les avons annotées
comme lieux. Si morphologiquement ces entités sont des noms de personnes, elles
constituent des références génériques dont la valeur n’est pas celle de personnes.
Elles n’ont d’ailleurs pas toujours d’existence historique. De plus, leur fonction de
jalons spatiaux et de référents stables s’apparente davantage à celle d’une villa ou
d’un lieu-dit. En réalité, quand elles font référence à un saint en tant que personne
juridique, elles désignent ordinairement un bâtiment — monastère, église, chapelle,
hôpital —, un espace intérieur ou une parcelle localisable. Si nous acceptions ce genre
d’entités comme noms de personnes, cela conduirait le modèle à considérer un contexte
clairement spatial comme étroitement lié à un contexte personnel, débouchant ainsi
sur de nombreux faux positifs.
En revanche, nous avons totalement ôté la balise dans les cas, peu nombreux, où
il est fait référence explicitement à la figure d‘un saint, lorsqu’elle sert d’inspiration
pour une formule ayant une portée morale ou qu’elle est liée à une citation biblique.
Il en est de même dans les cas où une date est indiquée par la mention de la festivité
d’un saint selon le calendrier
201.
« et per singulos annos, in festivitate Sancti Martini , pro investitura, sextarios
VIII de vino persolvam »
202« secundum regulam Sancti Benedicti de semet ipsis post Odonem »
203« ut pius Dominus, per intercessionem sancti Petri »
204Par ailleurs, dans les chartes foncières, il est assez courant de trouver une
description de la forme, de l’orientation et de la surface des terres, objet de la donation,
de la vente ou de l’échange, qui fait référence à sa place dans le parcellaire local. Il
est compliqué de préciser si cela correspond à un bornage opérant dans le cadastre, ce
qui n’est pas d’ailleurs probablement le cas (voir partie 6.3). Quoi qu’il en soit, il est
évident que les biens fonciers sont décrits après une enquête sur le terrain et l’indication
de leur morphologie se faisait en indiquant les limites avec les propriétés contigües
qui, en l’absence de nom officiel, étaient évoquées par le nom d’un propriétaire
205.
201. On n’a pas modifié en revanche les trois personnages bibliques habituels des clauses de condamnation : Dathan, Abiron, Judas
202. CBMA 1937 203. CBMA 1698 204. CBMA 2046
205. Voir au sujet des cadastres et des techniques de bornage et arpentage : Pierre Portet.
“Les techniques du bornage au moyen âge : de la pratique à la théorie”. In : Sfruttamento tutela e valorizzazione del territorio. dal diritto romano alla regolamentazione europea e internazionale. T. 18. Jovene, Napoli. 2007, p-195 ; MichelLauwerset LaurentRipart. “Représentation et gestion de l’espace dans l’Occident médiéval”. In : Actes du colloque «Rome et l’État moderne européen :
3.1. Modélisation de la reconnaissance des entités nommées 95
Normalement les scripteurs utilisent alors deux types de formules pour indiquer la
mesure (perticatio) et l’orientation / limites (terminatio) :
«...qui habet fines de uno latere/de tres partes/de quatuor partes...»
«...qui terminat a mane...a cercio...a sero..a medio die...»
Le syntagme manifestement locatif peut se développer, selon le scripteur, sous la
forme d’un accusatif de direction — préposition + accusatif — ou d’un ablatif de
séparation sans préposition. Dans les deux cas, l’entité nommée au centre joue le rôle
d’un complément adoptant la forme d’un génitif d’appartenance. Il n’est pas rare, par
contre, de trouver des combinaisons alternant les deux cas. Effectivement dans les
expressions de mouvement et de détermination des limites, le latin classique se sert de
l’accusatif avec in/ad et de l’ablatif introduit par les prépositions ab/ex. Néanmoins,
l’ablatif, en particulier après la période des IIIe au VIe siècles, pouvait être préféré pour
exprimer l’idée locative en supprimant la préposition, comme dans certains usages du
latin classique. Dans le latin médiéval, et en rapport direct avec la formation latine
des scripteurs, on trouve une coexistence des deux formes :
« terminat...de una parte terra Arnaldi, de altera terra sancti Petri, a meridie
rivo currente »
206« unum campum terminat a mane terra Francorum, a medio dia similiter,
a sero Sancti Stephani et silva insimul »
207« ista [vinea] habet fines a mane ad terram Immonis, a medio die ad terram
Sancti Petri »
208« terminat a mane increpito, a medio die et a sero ad terram Sancti Petri,
a cercio ad terram Bernardi »
209Au niveau morphosyntaxique, cet usage ne complique pas la reconnaissance
automatique, mais considéré dans un sens strictement contextuel, il engendre deux
problèmes : d’un côté, la présence d’entités nommées personnelles jouant un rôle locatif
et de l’autre, la présence de cooccurrences typiquement associées à la description
de lieux et bien-fonds (terra, manus, parte, serus, etc.) accompagnant des noms de
personne. Dans l’annotation originelle, ces entités ont été considérées comme des
entités personnelles, puis nous les avons changées en entités de type géographique.
Comme dans le cas précédant de sanctus/Beatus, il s’agit ici d’une accumulation de
une comparaison typologique». In : J.-P. Genêt (dir.), Rome et l’État moderne européen. Rome : Collection de l’École française de Rome. T. 377. 2007, p. 115-171 ; Jean-Loup Abbé. “Arpenter et borner les terroirs de l’Europe méridionale au Moyen Âge : savoir et savoir-faire”. In :Annie Rousselle (éd.), Monde rural et histoire des sciences en Méditerranée. Du bon sens à la logique, Perpignan, Presses universitaires de Perpignan (1998), p. 51-62206. CBMA 2116 207. CBMA 505 208. CBMA 1606 209. CBMA 1526
fonctions assignées à la même entité. Nonobstant, les entités présentes se comportent
comme des références de lieu plutôt que comme des indicateurs de personne, et leur
utilisation n’a de sens qu’à l’intérieur d’une reconstruction parcellaire. Il serait assez
compliqué de les mobiliser pour d’autres réseaux que ceux formés par les distributions
spatiales des terres et de leurs formes d’appropriation. En outre, en changeant la balise,
on s’assure de ne pas apporter de « bruit de fond » supplémentaire au modèle.
Finalement, comme nous l’avons vu, à partir du XIIe siècle, la dénomination
personnelle peut adopter une forme composée, incluant des éléments qui ne sont pas
strictement nominatifs, ce qui constitue un défi important pour le modèle. Dans ces
cas, nombreux à partir de la décennie 1160, le choix le plus pertinent a été de modifier
l’annotation originelle afin d’éviter une mauvaise reconnaissance :
« Joannes nepos ejus et Theobaldus filius ipsius Hugonis »
210« Milo, filius defuncti Henrici Cambellani »
211« Galterus Sapiens filius Renaudi de Plaseto, Jaquetus et Grivellus fratres
ejus »
212« Bernardo qui Parvus cognominatur »
213« Andegauensis Comes Gaufredus, cognomine Martellus »
214« Hildeburga cognomine Martiniana »
215« Iohanne dicto de sancto Symphoriano »
216« silvam Sancta Maria, que vulgo dicitur Boerecia »
217Ce genre d’occurrences, facilement repérables car elles sont introduites par un
nombre réduit de verbes au passif (cognominatur, dicitur, appelatur, nominatur, etc.),
sont une expression de la variété de formes nominatives qui émergent en Europe à
partir de la fin du XIe siècle. Ce phénomène peut être aussi observé dans l’appellation
de certains lieux, notamment de certains lieux-dits. Les compléments dans ces noms
complexes ont surtout une utilité documentaire ; ils permettent de distinguer et de
bien identifier le personnage participant à l’acte ou la localisation du bien objet de
l’acte. Dans le cas des noms de personnes, il peut s’agir d’un deuxième nom familier,
ayant une valeur d’usage, d’un surnom à la manière des cognomina romains, ou d’un
locatif d’origine ou d’appartenance.
210. CBMA 18428 211. CBMA 17897 212. CBMA 18393 213. CBMA 632 214. CBMA 15833 215. CBMA 14547 216. CBMA 830 217. CBMA 1494