• Aucun résultat trouvé

2.2 Phénomènes de corpus

3.1.2 Modifications effectuées sur l’annotation originelle et génération

Dans plusieurs cas, que nous allons maintenant détailler, l’état de la numérisation

mais surtout de l’annotation originelle limite la performance de notre modèle. Les

corrections que nous avons opérées s’appuient sur l’observation minutieuse de plusieurs

situations inhérentes aux formulations diplomatiques qui nous ont conduit à modifier

ou enlever l’étiquette attachée aux entités.

Cette section décrit les premières étapes de ce processus, celles dédiées au

pré-traitement et à la normalisation appliqués à tous nos corpus.

Suppression des éléments paratextuels

L’une des principales difficultés du travail effectué sur des textes édités par des

érudits est l’excès du susmentionné de « bruit de fond »

193

. Les textes courants trouvés

dans les éditions obligent à lister tous les signes diacritiques, à préparer des scripts de

correction des signes spéciaux et des diphtongues, ainsi que d’élimination des gloses,

titres et commentaires qui font partie de l’appareil textuel, tout en étant extérieurs au

texte lui-même.

«Heldevini de Matriolis ([con]cedentis. [Æc]clesia [Vallis lucentis] nunc

pos[sid]eat feodum ».

194

«Actum et datum Clun[iaci], anno Domini Mº CCº quadragesimo quinto,

mense decenbri, in crastino beate Lucie. (Trace des trois sceaux.)».

195

«Ego denique domna maior qui hanc cartam fieri iussi ; legere audiui. &

manu mea signum [roto]bus. {a} [roto] {b} Domnus aluarus testis, Domnus

Munio testis, Semeno garciez testis / [signo : domna maioris SiGnvM] /

{c}»

196

Ces éléments paratextuels transforment les mots et altèrent les séquences, ce qui

rend difficile l’obtention d’un texte segmenté (« tokenisé ») et lemmatisé, dont dépend

l’application de l’algorithme lors de l’entrainement.

D’ailleurs un processus de normalisation de l’orthographe textuelle et du jeu de

caractères est mis en place dans les scripts de tokenisation. On peut se heurter à

un « mur de briques » si on essaie de gérer des données contenant des caractères

extérieurs au jeu intégré à l’outil. Les transformations entre le format de codification

originelle du corpus (Latin-1) et le format plus universel qu’utilisent la plupart des

outils automatiques (UTF-8) n’est pas compliqué, mais dans le cas des caractères

193. Deux travaux qui traitent de questions similaires en corrigeant le “dirty OCR” : TobiasBlanke

et al. “Information Extraction on Noisy Texts for Historical Research”. In :Digital Humanities(2012) ; Thomas LPackeret al. “Extracting person names from diverse and noisy OCR text”. In :Proceedings of the fourth workshop on Analytics for noisy unstructured text data. ACM. 2010, p. 19-26

194. CBMA 18415 195. CBMA 6313 196. CORHEN-0160

3.1. Modélisation de la reconnaissance des entités nommées 93

peu utilisés (æ œ, ô) une transformation dédiée peut être exigée. Cette normalisation

diminue le taux d’erreur et facilite un usage universel du corpus.

Une fois les éléments paratextuels enlevés et les caractères normalisés, l’application

des outils de base montre une amélioration significative des résultats. Le « toilettage »

du texte réduit les taux d’erreur du système et il est facilement automatisable une fois

qu’on a détecté l’ensemble des éléments problématiques. Toutefois, il a le défaut de

souvent simplifier le texte. Les éléments supprimés, partie importante de toute édition

critique, sont difficilement récupérables en raison de la complexité que présente le

fait d’établir un registre de changements précis. Il a donc fallu définir des méthodes

comparatives pour récupérer les données perdues dans le « toilettage » et ainsi

restaurer les textes ayant subi un traitement automatisé.

Normalisation et segmentation

Une deuxième étape indispensable de la normalisation concerne différentes

modifications que nous avons opérées sur l’annotation originelle afin de valider

ou de mieux reconnaître des situations linguistiques qui, au préalable, présentent

une résolution compliquée ou qui nécessitent une annotation plus précise. Les trois

principales sont :

— Les entités imbriquées

— Les entités ayant un rôle « prédicatif »

— Les entités complexes périphrastiques.

En ce qui concerne les premières, l’une des pratiques les plus répandues dans les

actes, et qui correspond à une réalité juridique et spatiale, est l’usage des noms de

saints en tant qu’entités à la fois personnelles, juridiques et territoriales dont nous

avons déjà vu quelques exemples (voir 2.2.2).

« in villa Caucilla manso indominicato cum capella qui est in onore sancti

Mauricii dedicata »

197

« Eldegrinus vivit, teneat et possideat, et pos suum discesso Sancti Petri

perveniat »

198

« Et dono vobis vercariam unam in ipsa villa, que terminat a mane Sancti

Vincentii et Belmontissa »

199

« in pago Matisconensi, in vicaria Sancti Pontii, in villa quae vocatur

Burgundia »

200

197. CBMA 1455 198. CBMA 1710 199. CBMA 387 200. CBMA 1994

Le plus cohérent serait d’annoter, dans la plupart des cas, ces entités comme

des noms de institutions ou organisations (ORG), car elles jouent un rôle en tant

qu’entité juridique qui agit sur différentes facettes de la réalité. Mais étant donné

que cette catégorie n’a pas été prise en compte dans l’annotation initiale par le

projet CBMA, elles ont été étiquetées à l’origine comme des personnes. Ici nous

proposons une annotation différente, conforme à leur fonction : nous les avons annotées

comme lieux. Si morphologiquement ces entités sont des noms de personnes, elles

constituent des références génériques dont la valeur n’est pas celle de personnes.

Elles n’ont d’ailleurs pas toujours d’existence historique. De plus, leur fonction de

jalons spatiaux et de référents stables s’apparente davantage à celle d’une villa ou

d’un lieu-dit. En réalité, quand elles font référence à un saint en tant que personne

juridique, elles désignent ordinairement un bâtiment — monastère, église, chapelle,

hôpital —, un espace intérieur ou une parcelle localisable. Si nous acceptions ce genre

d’entités comme noms de personnes, cela conduirait le modèle à considérer un contexte

clairement spatial comme étroitement lié à un contexte personnel, débouchant ainsi

sur de nombreux faux positifs.

En revanche, nous avons totalement ôté la balise dans les cas, peu nombreux, où

il est fait référence explicitement à la figure d‘un saint, lorsqu’elle sert d’inspiration

pour une formule ayant une portée morale ou qu’elle est liée à une citation biblique.

Il en est de même dans les cas où une date est indiquée par la mention de la festivité

d’un saint selon le calendrier

201

.

« et per singulos annos, in festivitate Sancti Martini , pro investitura, sextarios

VIII de vino persolvam »

202

« secundum regulam Sancti Benedicti de semet ipsis post Odonem »

203

« ut pius Dominus, per intercessionem sancti Petri »

204

Par ailleurs, dans les chartes foncières, il est assez courant de trouver une

description de la forme, de l’orientation et de la surface des terres, objet de la donation,

de la vente ou de l’échange, qui fait référence à sa place dans le parcellaire local. Il

est compliqué de préciser si cela correspond à un bornage opérant dans le cadastre, ce

qui n’est pas d’ailleurs probablement le cas (voir partie 6.3). Quoi qu’il en soit, il est

évident que les biens fonciers sont décrits après une enquête sur le terrain et l’indication

de leur morphologie se faisait en indiquant les limites avec les propriétés contigües

qui, en l’absence de nom officiel, étaient évoquées par le nom d’un propriétaire

205

.

201. On n’a pas modifié en revanche les trois personnages bibliques habituels des clauses de condamnation : Dathan, Abiron, Judas

202. CBMA 1937 203. CBMA 1698 204. CBMA 2046

205. Voir au sujet des cadastres et des techniques de bornage et arpentage : Pierre Portet.

“Les techniques du bornage au moyen âge : de la pratique à la théorie”. In : Sfruttamento tutela e valorizzazione del territorio. dal diritto romano alla regolamentazione europea e internazionale. T. 18. Jovene, Napoli. 2007, p-195 ; MichelLauwerset LaurentRipart. “Représentation et gestion de l’espace dans l’Occident médiéval”. In : Actes du colloque «Rome et l’État moderne européen :

3.1. Modélisation de la reconnaissance des entités nommées 95

Normalement les scripteurs utilisent alors deux types de formules pour indiquer la

mesure (perticatio) et l’orientation / limites (terminatio) :

«...qui habet fines de uno latere/de tres partes/de quatuor partes...»

«...qui terminat a mane...a cercio...a sero..a medio die...»

Le syntagme manifestement locatif peut se développer, selon le scripteur, sous la

forme d’un accusatif de direction — préposition + accusatif — ou d’un ablatif de

séparation sans préposition. Dans les deux cas, l’entité nommée au centre joue le rôle

d’un complément adoptant la forme d’un génitif d’appartenance. Il n’est pas rare, par

contre, de trouver des combinaisons alternant les deux cas. Effectivement dans les

expressions de mouvement et de détermination des limites, le latin classique se sert de

l’accusatif avec in/ad et de l’ablatif introduit par les prépositions ab/ex. Néanmoins,

l’ablatif, en particulier après la période des IIIe au VIe siècles, pouvait être préféré pour

exprimer l’idée locative en supprimant la préposition, comme dans certains usages du

latin classique. Dans le latin médiéval, et en rapport direct avec la formation latine

des scripteurs, on trouve une coexistence des deux formes :

« terminat...de una parte terra Arnaldi, de altera terra sancti Petri, a meridie

rivo currente »

206

« unum campum terminat a mane terra Francorum, a medio dia similiter,

a sero Sancti Stephani et silva insimul »

207

« ista [vinea] habet fines a mane ad terram Immonis, a medio die ad terram

Sancti Petri »

208

« terminat a mane increpito, a medio die et a sero ad terram Sancti Petri,

a cercio ad terram Bernardi »

209

Au niveau morphosyntaxique, cet usage ne complique pas la reconnaissance

automatique, mais considéré dans un sens strictement contextuel, il engendre deux

problèmes : d’un côté, la présence d’entités nommées personnelles jouant un rôle locatif

et de l’autre, la présence de cooccurrences typiquement associées à la description

de lieux et bien-fonds (terra, manus, parte, serus, etc.) accompagnant des noms de

personne. Dans l’annotation originelle, ces entités ont été considérées comme des

entités personnelles, puis nous les avons changées en entités de type géographique.

Comme dans le cas précédant de sanctus/Beatus, il s’agit ici d’une accumulation de

une comparaison typologique». In : J.-P. Genêt (dir.), Rome et l’État moderne européen. Rome : Collection de l’École française de Rome. T. 377. 2007, p. 115-171 ; Jean-Loup Abbé. “Arpenter et borner les terroirs de l’Europe méridionale au Moyen Âge : savoir et savoir-faire”. In :Annie Rousselle (éd.), Monde rural et histoire des sciences en Méditerranée. Du bon sens à la logique, Perpignan, Presses universitaires de Perpignan (1998), p. 51-62

206. CBMA 2116 207. CBMA 505 208. CBMA 1606 209. CBMA 1526

fonctions assignées à la même entité. Nonobstant, les entités présentes se comportent

comme des références de lieu plutôt que comme des indicateurs de personne, et leur

utilisation n’a de sens qu’à l’intérieur d’une reconstruction parcellaire. Il serait assez

compliqué de les mobiliser pour d’autres réseaux que ceux formés par les distributions

spatiales des terres et de leurs formes d’appropriation. En outre, en changeant la balise,

on s’assure de ne pas apporter de « bruit de fond » supplémentaire au modèle.

Finalement, comme nous l’avons vu, à partir du XIIe siècle, la dénomination

personnelle peut adopter une forme composée, incluant des éléments qui ne sont pas

strictement nominatifs, ce qui constitue un défi important pour le modèle. Dans ces

cas, nombreux à partir de la décennie 1160, le choix le plus pertinent a été de modifier

l’annotation originelle afin d’éviter une mauvaise reconnaissance :

« Joannes nepos ejus et Theobaldus filius ipsius Hugonis »

210

« Milo, filius defuncti Henrici Cambellani »

211

« Galterus Sapiens filius Renaudi de Plaseto, Jaquetus et Grivellus fratres

ejus »

212

« Bernardo qui Parvus cognominatur »

213

« Andegauensis Comes Gaufredus, cognomine Martellus »

214

« Hildeburga cognomine Martiniana »

215

« Iohanne dicto de sancto Symphoriano »

216

« silvam Sancta Maria, que vulgo dicitur Boerecia »

217

Ce genre d’occurrences, facilement repérables car elles sont introduites par un

nombre réduit de verbes au passif (cognominatur, dicitur, appelatur, nominatur, etc.),

sont une expression de la variété de formes nominatives qui émergent en Europe à

partir de la fin du XIe siècle. Ce phénomène peut être aussi observé dans l’appellation

de certains lieux, notamment de certains lieux-dits. Les compléments dans ces noms

complexes ont surtout une utilité documentaire ; ils permettent de distinguer et de

bien identifier le personnage participant à l’acte ou la localisation du bien objet de

l’acte. Dans le cas des noms de personnes, il peut s’agir d’un deuxième nom familier,

ayant une valeur d’usage, d’un surnom à la manière des cognomina romains, ou d’un

locatif d’origine ou d’appartenance.

210. CBMA 18428 211. CBMA 17897 212. CBMA 18393 213. CBMA 632 214. CBMA 15833 215. CBMA 14547 216. CBMA 830 217. CBMA 1494

3.2. L’entrainement du modèle 97