Modèle et algorithme - Un modèle de reconnaissance automatique des entités nommées et des struc

quatre sous-corpus formés par de chartes provenant de quatre régions avec une intense

production documentaire (table 3.1), dont les sources sont :

1. le corpus des cartulaires d’Île de France (XIIe-XIIIe siècles) publié par l’École

des Chartes

220

;

2. le corpus DEEDS (Xe-XIIIe siècles) réunissant des chartes d’origine

ecclésiastiques des abbayes du sud de l’Angleterre

221

;

3. le CDML (Codice diplomatico della Lombardie Medievale, XIe-XIIe siècles)

contenant des chartes lombardes de chancellerie et d’origine ecclésiastique

222

;

4. le corpus CODEA (CHARTA, Xe-XVe siècles) composés par des chartes

médiévales castillanes dont un des objectif est de former un corpus pour l’étude

de la formation du castillan médiéval

223

.

Ces corpus de petite taille – 70 à 100 chartes – ont été annotés à la main suivant

les mêmes protocoles que le CBMA, après avoir été constitués selon les mêmes critères

chronologiques et typologiques que le corpus principal. Tout cela vise à produire un

cadre de validation de la robustesse de notre modèle, avec des documents similaires

du point de vue typologique, chronologique et diplomatique, mais provenant d’espaces

extérieurs à la Bourgogne.

Siècle/

Corpus ^{ANGLO CASTILE ILEFRANCE LOMBARDY} ^{corpus originel corpus modifié ensemble_extra}400 docs

10th 10 10 12 10 2292 3230 12 11th 24 11 22 16 1510 2050 27 12th 24 15 53 22 816 860 182 13th 12 14 63 2 638 730 149 Nº Tokens 11110 15616 41608 12441 1096095 1096095 104330 Nº Entities 1326 1841 3594 1222 84752 84752 8263

Table 3.1 – Nombre de chartes par siècle et nombre de « tokens » et d’entités nommées

dans les principaux corpus et les corpus test européens.

3.3 Modèle et algorithme

Sur le plan formel, un texte est une composition relationnelle et séquentielle de

signes interdépendants. De ce point de vue lexical, les entités nommées correspondent

à une catégorie bien distincte du reste des mots. Elles ne sont pas recensées dans les

dictionnaires et en conséquence elles ne sont pas facilement idéntifiables, mais elles

sont un composant à part entière de la phrase et jouent un rôle syntaxiquement très

220. http://elec.enc.sorbonne.fr/cartulaires/

221. https://deeds.library.utoronto.ca/

222. http://www.lombardiabeniculturali.it/cdlm/

similaire aux noms propres. Puisque le défi principal de la reconnaissance des entités

nommées est de diviser un texte entre les mots constitutifs de ces entités et ceux qui

entrent dans une autre catégorie, puis de baliser chaque entité, une analyse qui identifie

un grand nombre d’attributs de chaque mot s’avère fondamentale. La caractérisation

de chaque mot, en tant qu’unité sémantique, permet de construire un index de ses

propriétés intrinsèques (features), ce qui constitue l’un des piliers de l’opération de

classification.

Un autre pilier de l’analyse correspond à la caractérisation des mots en tant

qu’éléments relationnels formant des séquences. Le but ultime des modèles de

reconnaissance automatique est de bien prédire la séquence d’étiquettes adaptée à

la séquence d’observations. La reconnaissance des entités nommées est conditionnée à

une bonne analyse de leurs contextes d’apparition dans la phrase. La fonction remplie

par une entité, comme tous les autres mots de la séquence, est précisée par le rôle que

joue chaque élément dans la séquence.

Cela dit, l’algorithme doit modéliser, en s’appuyant sur des séquences

multidimensionnelles, des données qui contiennent une matrice d’attributs pour chaque

mot et une matrice des différents états relationnels de chaque mot dans la séquence.

Parmi les différentes méthodes qui peuvent être adoptées pour modéliser cela, la

technique des champs aléatoires conditionnels (ou CRF pour Conditional Random

Fields) semble appropriée

224

. Celle-ci accepte des modélisations multidimensionnelles,

considérant le poids des attributs dans l’étiquetage de la séquence. De plus, cette

technique modélise directement le problème de prédiction standard et analyse plusieurs

relations de la séquence, sans considérer des dépendances trop strictes — se limiter

aux mots adjacents — ce qui est plus adapté à la réalité linguistique de notre corpus

dans lequel deux mots reliés peuvent ne pas être situés de manière adjacente dans la

séquence.

La modélisation de toutes les relations possibles entre les variables en question,

de tous les états et attributs possibles, peut conduire à des systèmes très complexes.

Mais les modèles CRF font ce travail en conditionnant l’émergence d’une variable à

l’émergence d’un certain nombre d’attributs dans un mot et dans les mots voisins.

Ainsi, le CRF calcule la probabilité de chaque séquence d’étiquettes d’être correcte

selon certaines observations, ce qui est généralement suffisant pour déterminer la classe

d’une entité.

3.3.1 Matrice de données

Pour appliquer cette forme d’apprentissage automatique supervisé, chaque mot

d’une phrase doit être considéré comme un token

225

dont il est indispensable

d’expliciter certaines propriétés. L’ensemble du corpus a été converti en un format

tabulaire, fournissant des informations lexicales, syntaxiques et morphologiques de

224. Laffertyet al., “Conditional random fields : Probabilistic models for segmenting and labeling sequence data” ; Hanna MWallach. “Conditional random fields : An introduction”. In : Technical Reports (CIS) (2004), p. 22

225. On parle souvent de « tokens » pour éviter de leur donner une valeur linguistique trop marquée, car « mot » a une définition linguistique et la “tokenisation” ne conduit pas forcément à des mots au sens strict.

3.3. Modèle et algorithme 105

chaque token. Ainsi, le corpus entier devient une base de données dans la mesure où

chaque mot est reproduit dans un tableau à sept colonnes comme suit :

— TOKEN (mot d’origine)

— POS (catégorie morphosyntaxique –Part-of-speech)

— LEMMA (forme sans déclinaison du mot)

— CASE (indique si la première lettre est en majuscule ou en minuscule)

— SUFFIX (trois derniers caractères de chaque mot)

— ENTITÉ (appartenance ou non à la catégorie des entités nommées – une colonne

pour les noms de personnes, une pour les noms de lieux)

Les trois premières colonnes donnent au modèle un premier niveau de catégorisation

car elles ajoutent les informations grammaticales et morphologiques du texte. Ils

contiennent la version segmentée – réduite à des unités indivisibles – de chaque mot,

la catégorie morphosyntaxique (Part-of-speech), obtenue à partir d’une version de

TreeTagger

226

développée par le groupe Omnia en 2013

227

et le lemme, version sans

flexion de chaque mot. La quatrième colonne indique la présence ou non de majuscules,

un indicateur utile de la présence d’entités nommées comme des limites de la phrase, et

la cinquième colonne ajoute un suffixe figé, formé des trois dernières lettres, où figure

la déclinaison en latin déterminant la fonction grammaticale du mot.

Comme dans la plupart des modèles traitant d’un problème de classification, nous

utilisons le format BIO pour représenter les entités nommées, ce que correspond aux

deux dernières colonnes. Pour rappel (voir partie 2.2) : B, I et O représentent le début

(B-entité,Begin), la poursuite (I-entité,Inside) ou l’absence (O,Outside) d’une entité.

Nous avons considéré le problème en deux étapes : la première étape extrayait les

noms de personne, la seconde étape les noms de lieux. Un seul classificateur extrayant

conjointement les noms de personnes et de lieux personnels n’a pas pu être implémenté,

car le corpus contient de nombreuses entités qui se chevauchent. C’est pourquoi les

dernières colonnes de la table 3.2 répertorient les classes au format BIO. Cependant

étant donné que l’imbrication porte presque toujours sur un nom de personne contenant

un nom de lieu, et non l’inverse, les deux étapes permettent au modèle des personnes

de se servir de l’information prédite sur les lieux.

La conception du modèle passe ensuite par une phase de définition des

caractéristiques que l’algorithme utilisera pour réaliser ses calculs. Comme l’illustre

la table 3.2, nous utilisons, pour chaque token (ligne) :

— La valeur de surface du token lui-même (TOKEN), ainsi que des deux tokens

précédents et des deux tokens suivants, soit une fenêtre glissante de 5 tokens.

— La catégorie morphosyntaxique (POS) et le lemma (LEMMA) du token

— La capitalisation des mots

— L’information concernant l’annotation.

L’algorithme L-BFGS, fourni par Wapiti

228

, permet une optimisation de la

sélection des données par CRF et ainsi l’usage de la mémoire vive de l’ordinateur. Il

226. Helmut Schmid. “Treetagger| a language independent part-of-speech tagger”. In : Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart 43 (1995), p. 28

227. http://glossaria.eu/outils/lemmatisation/

TOKEN POS LEMMA CASE SUFFIX ENTITY ENTITY Quod CON quod UPPER uod

ego %x[2,0] PRO Ego LOWER ego

Hugo %x[1,0] NAM - UPPER ugo B-PERS

de %x[0,0] PRE [0,1] de [0,2] LOWER [0,3] de [0,4] I-PERS [0,5] [0,6] Berziaco %[-1,0] NAM - UPPER aco I-PERS B-LOC perpendens %x[-2,0] VBE perpendeo LOWER ens

, PON , LOWER

-Table 3.2 – Example d’entrainement pour la séquence Quod ego Hugo de Berziaco

perpendens. La zone grise indique une seule observation (concernant le mot "de") qui combine

toutes les caractéristiques de tous les colonnes dans une fenêtre de 5 tokens dans une fenêtre

de 5 tokens (2 tokens avant et deux tokens après le token observé)

s’agit d’un outil d’étiquetage de séquences développée dans le laboratoire Limsi-CNRS

qui est capable de travailler sur des données multi-labélisées avec des millions de

caractéristiques

229

.

L’algorithme - et par extension la méthode CRF - fonctionne alors en formant un

modèle discriminant et en recherchant la meilleure option d’état à partir d’un corpus

d’apprentissage contenant des observations sur des états et des attributs balisés. À

partir d’une série d’observations étiquetées, il construit une interprétation et détermine

l’étiquette la plus probable pour une nouvelle séquence inédite.

Dans le document Un modèle de reconnaissance automatique des entités nommées et des structures textuelles pour les corpus diplomatiques médiolatins. (Page 105-108)