quatre sous-corpus formés par de chartes provenant de quatre régions avec une intense
production documentaire (table 3.1), dont les sources sont :
1. le corpus des cartulaires d’Île de France (XIIe-XIIIe siècles) publié par l’École
des Chartes
220;
2. le corpus DEEDS (Xe-XIIIe siècles) réunissant des chartes d’origine
ecclésiastiques des abbayes du sud de l’Angleterre
221;
3. le CDML (Codice diplomatico della Lombardie Medievale, XIe-XIIe siècles)
contenant des chartes lombardes de chancellerie et d’origine ecclésiastique
222;
4. le corpus CODEA (CHARTA, Xe-XVe siècles) composés par des chartes
médiévales castillanes dont un des objectif est de former un corpus pour l’étude
de la formation du castillan médiéval
223.
Ces corpus de petite taille – 70 à 100 chartes – ont été annotés à la main suivant
les mêmes protocoles que le CBMA, après avoir été constitués selon les mêmes critères
chronologiques et typologiques que le corpus principal. Tout cela vise à produire un
cadre de validation de la robustesse de notre modèle, avec des documents similaires
du point de vue typologique, chronologique et diplomatique, mais provenant d’espaces
extérieurs à la Bourgogne.
Siècle/
Corpus ANGLO CASTILE ILEFRANCE LOMBARDY corpus originel corpus modifié ensemble_extra400 docs
10th 10 10 12 10 2292 3230 12 11th 24 11 22 16 1510 2050 27 12th 24 15 53 22 816 860 182 13th 12 14 63 2 638 730 149 Nº Tokens 11110 15616 41608 12441 1096095 1096095 104330 Nº Entities 1326 1841 3594 1222 84752 84752 8263
Table 3.1 – Nombre de chartes par siècle et nombre de « tokens » et d’entités nommées
dans les principaux corpus et les corpus test européens.
3.3 Modèle et algorithme
Sur le plan formel, un texte est une composition relationnelle et séquentielle de
signes interdépendants. De ce point de vue lexical, les entités nommées correspondent
à une catégorie bien distincte du reste des mots. Elles ne sont pas recensées dans les
dictionnaires et en conséquence elles ne sont pas facilement idéntifiables, mais elles
sont un composant à part entière de la phrase et jouent un rôle syntaxiquement très
220. http://elec.enc.sorbonne.fr/cartulaires/
221. https://deeds.library.utoronto.ca/
222. http://www.lombardiabeniculturali.it/cdlm/
similaire aux noms propres. Puisque le défi principal de la reconnaissance des entités
nommées est de diviser un texte entre les mots constitutifs de ces entités et ceux qui
entrent dans une autre catégorie, puis de baliser chaque entité, une analyse qui identifie
un grand nombre d’attributs de chaque mot s’avère fondamentale. La caractérisation
de chaque mot, en tant qu’unité sémantique, permet de construire un index de ses
propriétés intrinsèques (features), ce qui constitue l’un des piliers de l’opération de
classification.
Un autre pilier de l’analyse correspond à la caractérisation des mots en tant
qu’éléments relationnels formant des séquences. Le but ultime des modèles de
reconnaissance automatique est de bien prédire la séquence d’étiquettes adaptée à
la séquence d’observations. La reconnaissance des entités nommées est conditionnée à
une bonne analyse de leurs contextes d’apparition dans la phrase. La fonction remplie
par une entité, comme tous les autres mots de la séquence, est précisée par le rôle que
joue chaque élément dans la séquence.
Cela dit, l’algorithme doit modéliser, en s’appuyant sur des séquences
multidimensionnelles, des données qui contiennent une matrice d’attributs pour chaque
mot et une matrice des différents états relationnels de chaque mot dans la séquence.
Parmi les différentes méthodes qui peuvent être adoptées pour modéliser cela, la
technique des champs aléatoires conditionnels (ou CRF pour Conditional Random
Fields) semble appropriée
224. Celle-ci accepte des modélisations multidimensionnelles,
considérant le poids des attributs dans l’étiquetage de la séquence. De plus, cette
technique modélise directement le problème de prédiction standard et analyse plusieurs
relations de la séquence, sans considérer des dépendances trop strictes — se limiter
aux mots adjacents — ce qui est plus adapté à la réalité linguistique de notre corpus
dans lequel deux mots reliés peuvent ne pas être situés de manière adjacente dans la
séquence.
La modélisation de toutes les relations possibles entre les variables en question,
de tous les états et attributs possibles, peut conduire à des systèmes très complexes.
Mais les modèles CRF font ce travail en conditionnant l’émergence d’une variable à
l’émergence d’un certain nombre d’attributs dans un mot et dans les mots voisins.
Ainsi, le CRF calcule la probabilité de chaque séquence d’étiquettes d’être correcte
selon certaines observations, ce qui est généralement suffisant pour déterminer la classe
d’une entité.
3.3.1 Matrice de données
Pour appliquer cette forme d’apprentissage automatique supervisé, chaque mot
d’une phrase doit être considéré comme un token
225dont il est indispensable
d’expliciter certaines propriétés. L’ensemble du corpus a été converti en un format
tabulaire, fournissant des informations lexicales, syntaxiques et morphologiques de
224. Laffertyet al., “Conditional random fields : Probabilistic models for segmenting and labeling sequence data” ; Hanna MWallach. “Conditional random fields : An introduction”. In : Technical Reports (CIS) (2004), p. 22
225. On parle souvent de « tokens » pour éviter de leur donner une valeur linguistique trop marquée, car « mot » a une définition linguistique et la “tokenisation” ne conduit pas forcément à des mots au sens strict.
3.3. Modèle et algorithme 105
chaque token. Ainsi, le corpus entier devient une base de données dans la mesure où
chaque mot est reproduit dans un tableau à sept colonnes comme suit :
— TOKEN (mot d’origine)
— POS (catégorie morphosyntaxique –Part-of-speech)
— LEMMA (forme sans déclinaison du mot)
— CASE (indique si la première lettre est en majuscule ou en minuscule)
— SUFFIX (trois derniers caractères de chaque mot)
— ENTITÉ (appartenance ou non à la catégorie des entités nommées – une colonne
pour les noms de personnes, une pour les noms de lieux)
Les trois premières colonnes donnent au modèle un premier niveau de catégorisation
car elles ajoutent les informations grammaticales et morphologiques du texte. Ils
contiennent la version segmentée – réduite à des unités indivisibles – de chaque mot,
la catégorie morphosyntaxique (Part-of-speech), obtenue à partir d’une version de
TreeTagger
226développée par le groupe Omnia en 2013
227et le lemme, version sans
flexion de chaque mot. La quatrième colonne indique la présence ou non de majuscules,
un indicateur utile de la présence d’entités nommées comme des limites de la phrase, et
la cinquième colonne ajoute un suffixe figé, formé des trois dernières lettres, où figure
la déclinaison en latin déterminant la fonction grammaticale du mot.
Comme dans la plupart des modèles traitant d’un problème de classification, nous
utilisons le format BIO pour représenter les entités nommées, ce que correspond aux
deux dernières colonnes. Pour rappel (voir partie 2.2) : B, I et O représentent le début
(B-entité,Begin), la poursuite (I-entité,Inside) ou l’absence (O,Outside) d’une entité.
Nous avons considéré le problème en deux étapes : la première étape extrayait les
noms de personne, la seconde étape les noms de lieux. Un seul classificateur extrayant
conjointement les noms de personnes et de lieux personnels n’a pas pu être implémenté,
car le corpus contient de nombreuses entités qui se chevauchent. C’est pourquoi les
dernières colonnes de la table 3.2 répertorient les classes au format BIO. Cependant
étant donné que l’imbrication porte presque toujours sur un nom de personne contenant
un nom de lieu, et non l’inverse, les deux étapes permettent au modèle des personnes
de se servir de l’information prédite sur les lieux.
La conception du modèle passe ensuite par une phase de définition des
caractéristiques que l’algorithme utilisera pour réaliser ses calculs. Comme l’illustre
la table 3.2, nous utilisons, pour chaque token (ligne) :
— La valeur de surface du token lui-même (TOKEN), ainsi que des deux tokens
précédents et des deux tokens suivants, soit une fenêtre glissante de 5 tokens.
— La catégorie morphosyntaxique (POS) et le lemma (LEMMA) du token
— La capitalisation des mots
— L’information concernant l’annotation.
L’algorithme L-BFGS, fourni par Wapiti
228, permet une optimisation de la
sélection des données par CRF et ainsi l’usage de la mémoire vive de l’ordinateur. Il
226. Helmut Schmid. “Treetagger| a language independent part-of-speech tagger”. In : Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart 43 (1995), p. 28
227. http://glossaria.eu/outils/lemmatisation/
TOKEN POS LEMMA CASE SUFFIX ENTITY ENTITY Quod CON quod UPPER uod
ego %x[2,0] PRO Ego LOWER ego
Hugo %x[1,0] NAM - UPPER ugo B-PERS
de %x[0,0] PRE [0,1] de [0,2] LOWER [0,3] de [0,4] I-PERS [0,5] [0,6] Berziaco %[-1,0] NAM - UPPER aco I-PERS B-LOC perpendens %x[-2,0] VBE perpendeo LOWER ens
, PON , LOWER