Méthodes pour la reconnaissance automatique des entités nommées

outils d’annotation qui travaillent avec des lexiques tels que TreeTagger

et Lapos. Ils

contribuent à l’intégration de la NER dans les projets de milieu de gamme. Stanford

CoreNLP

, Freeling, Natural Language Toolkit

et Scikit-learn

100

sont parmi les

ensembles d’outils et de bibliothèques les plus utilisés suivant des méthodes telles que

l’entropie maximale, des machines à vecteurs de support (SVM)

101

, les réseaux de

néurones (ANN) ou Champs aléatoires conditionnels (CRF)

102

, la dernière étant la

principale technique utilisée dans cette thèse.

1.5 Méthodes pour la reconnaissance automatique

des entités nommées

1.5.1 Trois concepts clé.

Trois concepts doivent être visités avant de parler des approches classiques

d’automatisation des entités nommées : le style d’annotation, la qualité du corpus

et les mesures de performance :

Le schéma d’annotation

Les entités ENAMEX sont normalement balisées de manière assez simple : pour

chacune on définit s’il s’agit de PERS (person), LOC (location), ORG (organisation),

selon leur définition dans le Conll2002 standard corpus

103

. Mais afin de définir les

frontières d’une entité, c’est-à-dire préciser si un mot fait partie d’une entité, la taille

de cette entité, et, le cas échéant, le chevauchement d’entités, il est fréquent d’utiliser

le style BIO

104

ou une de ses variantes. BIO est une abréviation de début (Beginning),

intérieur (Inside) et extérieur (Outside), qui indique la manière correcte d’interpréter

une entité composée par plus d’un mot (multi-token) comme le début d’une entité (B),

le deuxième membre ou continuation d’une entité (I) et l’absence d’entité (O).

w

=







B-entity si w

est le début d’une entité

I-entity si w

est la continuation d’une entité

O-entity O si il n’y a pas d’entité







(1.1)

Standardisation des corpus

97. https ://www.cis.uni-muenchen.de/ schmid/tools/TreeTagger/ 98. https ://stanfordnlp.github.io/CoreNLP/

99. http ://nlp.lsi.upc.edu/freeling/node/1 100. https ://scikit-learn.org/stable/

101. ThorstenJoachims. “Text categorization with support vector machines : Learning with many relevant features”. In :European conference on machine learning. Springer. 1998, p. 137-142

102. John Lafferty et al. “Conditional random fields : Probabilistic models for segmenting and labeling sequence data”. In : (2001)

103. Conll (conference natural language processing)

104. L. A. Ramshaw et M. P. Marcus. “Text Chunking Using Transformation-Based Learning”.

La littérature la plus récente fait une distinction entre deux types de corpus : le

golden standard corpus et silver standard corpus

105

. Le golden corpus est le corpus de

référence qui porte l’annotation souhaitée qui doit produire un modèle automatique.

Autrement dit, c’est le corpus annoté à la main par plusieurs annotateurs et ensuite

révisé par un spécialiste de la matière. Il s’agit de corpus longs à produire puisqu’ils

demandent un grand investissement d’effort humain, ce qui explique qu’ils soient les

plus demandés pour les approches statistiques.

Le silver corpus est quant à lui produit automatiquement à partir d’un texte sans

annotation. L’annotation proposée est forcément imparfaite (la moyenne des meilleures

modèles REN est autour de 85 %), mais elle est produite automatiquement en quelques

heures. Avec les progrès des modèles REN, dans les étapes d’évaluation des modèles, ils

sont chaque fois plus présents afin des comparer l’écart entre les performances offertes

par les modèles silver et golden ou comme modèle principal qui, combiné avec des

bases de connaissance extérieures, peut offrir des résultats similaires à ceux obtenus

avec un golden corpus

106

.

Mesures d’évaluation

Pour évaluer la performance d’un modèle on utilise les mesures de rappel, précision

et f-mesure. Elles sont introduites dans MUC

107

. Étant donné une série d’entités à

identifier N

_tags

un modèle proposera une série d’étiquettes correctes N

_correct

et une

série d’étiquettes incorrectes N

_wrong

, alors :

recall= ^{N correct}

N tags (1.2)

precision= ^{N correct}

N correct+N wrong (1.3)

Le rappel détermine la capacité de récupération des entités pertinentes et

susceptibles d’être des entités nommées. Le rappel exprime ainsi la sensibilité du

système au moment de fournir des réponses possibles aux recherches. De son côté, la

précision détermine le niveau de correction dans les résultats récupérés. La précision

est ainsi liée au nombre réel d’entités classées complètement.

Puisque les deux mesures évaluent des caractéristiques différentes et parfois

antagonistes (réduction du bruit et du silence), normalement les résultats finaux sont

exprimés par une moyenne harmonique :

F1 = ²·precision·recall

precision+recall (1.4)

105. NingKanget al. “Training text chunkers on a silver standard corpus : can silver replace gold ?” en. In :BMC Bioinformatics13 (jan. 2012), p. 17

106. Michele Filannino et Marilena Di Bari. “Gold standard vs. silver standard : the case of dependency parsing for Italian”. In :Proceedings of the Second Italian Conference on Computational Linguistics CLiC-it 2015

1.5. Méthodes pour la reconnaissance automatique des entités nommées 49

Les résultats individuels de comparaison entre l’annotation à la main et

l’annotation automatique peuvent être exprimés selon une terminologie plus fine :

vrais positifs (tp), vrais négatifs (tn), faux positifs (fp) et faux négatifs (fn). Les termes

positif et négatif font référence à la prédiction du modèle et les termes vrai et faux

indiquent si cette prédiction est correcte ou pas selon l’annotation fournie.

108

1.5.2 Approches supervisées et méthodes symboliques

Les approches classiques des systèmes de reconnaissance des entités nommées

(REN) peuvent s’organiser en deux grandes branches : apprentissage supervisé et

méthodes symboliques.

Dans le cas de l’apprentissage supervisé, on fournit à l’algorithme plusieurs

exemples contenant l’annotation attendue à la sortie. L’algorithme doit modéliser la

valeur de chaque étiquette en ajustant des paramètres à chaque itération, de manière

à ce que le modèle final puisse produire une annotation automatique la plus proche

possible de l’annotation manuelle fournie. Une partie importante de la recherche est

dédiée à générer de modèles capables de réduire l’écart entre la dépendance du modèle

à son corpus d’origine et sa capacité d’être appliqué à d’autres corpus (généralisation).

Par contre, les méthodes symboliques n’utilisent pas de données annotées,

autrement dit, les exemples sont fournis à l’algorithme sans préciser la “sortie”

souhaitée. Mais on fournit à l’algorithme un ensemble de règles, grammaires ou bases de

données, afin de faire émerger des données pertinentes. Il s’agit alors d’une approche

plus facile à mettre en œuvre, mais dont les résultats sont moins performants que

dans le cas de l’apprentissage supervisé. Ce type de modélisation concerne surtout les

approches à partir de règles (rule-based), de dictionnaires (dictionnary-based) et de

statistiques par regroupement (clusterisation).

1.5.3 Méthodes symboliques

L’idée centrale de l’approche par des règles est de définir toutes les conditions

que doit remplir un mot pour être considéré comme entité nommée. Les conditions

varient fortement d’un corpus à l’autre. Il est nécessaire d’avoir une connaissance

très précise des entités afin de couvrir tous les scénarios linguistiques possibles

d’apparition (capitalisation, catégorie morphosyntaxique, ordre dans la phrase,

préfixes, co-occurrences et d’autres régularités) ainsi que de sa structure (simples,

complexes, modificateurs, accidents, fonctions, etc.). Le modèle est ainsi formé par

l’ensemble organisé des règles conditionnelles, normalement construit en utilisant des

expressions régulières.

La modélisation par des dictionnaires permet d’introduire de larges répertoires

contenant des listes d’anthroponymes et des index géographiques, c’est-à-dire, des

formes déjà validées d’entités nommées. Une fois les entités candidates détectées dans

le texte, la classification se fait normalement par similarité avec celles contenues dans

108. Christopher D. Manning et Hinrich Schütze. Foundations of Statistical Natural Language

les dictionnaires. Cette méthode présente une importante limite parce que les formes

qui ne sont pas présentes dans les dictionnaires ne seront inclues dans aucune catégorie

de la taxonomie des entités. Afin de pallier ce défaut, dans les systèmes les plus

performants une combinaison entre ensembles de règles et dictionnaires de formes

peuvent offrir des performances assez acceptables sur de petits corpus.

Les méthodes symboliques statistiques consistent le plus souvent à regrouper

des mots par affinités (clustering). À partir d’un texte prétraité, on programme

l’algorithme pour trouver les tendances cachées (hidden patterns) sur lesquelles

s’organise un texte, c’est-à-dire, les tendances qui règlent sa distribution. La méthode

détermine les balises selon une maximisation des traits contextuels des mots. Des mots

qui statistiquement partagent un même contexte font normalement partie d’un même

groupe. Étant donné que le nombre de catégories n’a pas été préalablement indiqué,

ces modèles peuvent annoter un corpus avec un large nombre de catégories au-delà du

classique ENAMEX.

En général les résultats que l’on peut observer dans la plupart des travaux reposant

sur des approches symboliques nous conduisent à trois conclusions :

1. Les solutions heuristiques privilégiant une approche combinée ruled-based et

dictionnary-based montrent des performances plus élevées que celles reposant

sur l’un seul d’entre eux ;

2. Dans les approches par des dictionnaires, on peut obtenir une précision très

élevée, mais au détriment du rappel. En effet, un système entraîné sur un

dictionnaire est très performant sur les formes identifiées mais il n’est pas bien

formé dans la reconnaissance des formes qui ne sont pas recensés ;

3. En outre, comme les règles sont définies en fonction des spécificités de la langue

et du domaine du texte, les modèles à base de règles sont difficilement exportable

vers un corpus d’une langue ou d’un domaine différent.

Les approches symboliques sont encore très utilisées dans la recherche parce

qu’elles n’ont pas besoin de données annotées. Compte tenu de la pénurie des corpus

annotés et de la relative disponibilité des dictionnaires de noms, index géographiques

et répertoires complexes de règles d’extraction, spécialement dans le domaine des

études littéraires et historiques, ces modèles proposent une solution accessible pour

structurer des textes. En plus, ils s’adaptent bien à la recherche en humanités car

leurs résultats sont plus facilement interprétables par les experts qui peuvent modifier

les règles d’extraction à chaque étage. Ces méthodes ont démontré leur efficacité dans

l’annotation rapide, surtout de corpus très formalisés comme les registres administratifs

ou les rapports médicaux.

1.5.4 L’apprentissage supervisé

Dans les approches statistiques supervisées, l’annotation aborde le problème de

la classification des séquences de mots et sépare les sous-chaînes positives (entités

nommées) de celles négatives (autres catégories). La tâche de l’algorithme sera de

proposer une séparation similaire dans un texte nouveau afin de déterminer quels mots

correspondent à une entité nommée, puis déterminer leurs frontières et leur fournir une

1.5. Méthodes pour la reconnaissance automatique des entités nommées 51

étiquette précisant sa typologie. Ici deux grands types de classificateurs sont utilisés :

les génératifs et les discriminants. Si on considère qu’on a une séquence (X

₁

...X

) à

laquelle on veut assigner un groupe d’étiquettes (Y

₁

...Y

), on a deux façons de le faire :

1. On calcule la séquenceX

qui correspond à chaque étiquetteY

et on parle alors

d’un classificateur génératif ;

2. On prédit l’étiquetteY

pour chaque séquenceX

et on parle d’un classificateur

discriminant.

Les génératifs apprennent la probabilité de distribution conjointe des séquencesX

et d’étiquettesY ouP(X, Y)et ils déterminent ensuite la probabilité deY

étant donné

X

ouP(Y

|X

). Les discriminants par contre calculent directementP(Y|X). Ainsi, les

générativesgénèrent un modèle représentatif de chaque classeY en prenant l’ensemble

des séquences X

, alors que les discriminants doivent discriminer la meilleure classe

Y

pour une séquence X

en calculant les frontières entre les classes.

Le classificateur génératif le plus utilisé est le Hidden Markov Model (HMM).

Un modèle HMM doit détecter le meilleur état pour une séquence, mais un état et

une séquence sont toujours influencées par l’état et la séquence antérieurs (propriété

de Markov). Donc on doit détecter la meilleure séquence d’états pour une séquence

d’observations. HMM désigne alors les catégories Y à partir des observables X.

Parmi les classificateurs discriminants, l’un des plus connus est le Conditional

Random Fields (CRF), qui est utilisé dans cette thèse. À différence des HMM

qui modèlent à la fois la probabilité de la séquence d’états et des étiquettes, les

discriminants doivent modéliser la probabilité conditionnelle P(Y|X) d’une séquence

aléatoire d’étiquettes Y étant donné une autre séquence d’observations X. Les

séquencesXdans le CRF peuvent être des séquences multidimensionnelles (constituées

par n propriétés), ce qui permet d’intégrer d’autres sources d’information disponibles.

CRF désigne alors les catégoriesY à partir des propriétés (features) des séquencesX.

Ces propriétés, comme on l’a déjà vu, correspondent normalement aux traits internes et

contextuels des mots (POS-tag, capitalisation, suffixes, co-occurrences, position dans

la phrase, etc.)

Approches hybrides

Alors que les méthodes utilisant des données annotées montrent des performances

très élevées, mais que la clusterisation sur texte brut des méthodes non supervisées

peut aussi offrir des résultats intéressants, au cours des dernières années quelques

approches hybrides ont gagné en popularité. L’idée de base était de privilégier une

approche non supervisée mais en commençant la modélisation sur un ensemble

représentatif de données annotées. L’algorithme est fourni avec quelques groupes

catégorisés (clusters) comme point de départ à partir desquels on essaye de maximiser

les traits contextuels de tous les intégrants de chaque groupe afin de modéliser la

distribution d’une étiquette et de chercher ensuite des candidats dans le texte qui

apparaissent dans le même contexte. La puissance de cette méthode se trouve dans

l’itération (bootstrapping) ; à chaque visite dans le corpus, le cluster s’est agrandi et

son contexte est renforcé. Comme dans les approches statistiques non supervisées,

le modèle peut construire des catégories autres que celles d’origine et fournir des

sous-catégories.

Les groupes originels, appelés learning seeds dans la littérature, peuvent être

définis à partir des étiquettes, des règles ou des listes liées à un dictionnaire, ce qui

permet d’avoir des données annotées automatiquement selon diverses observations

et caractéristiques en profitant de certains caractères stéréotypés (dont on a vu

l’exploitation dans les méthodes rule-based) des contextes d’apparition des entités

nommées

109

.

Dans le document Un modèle de reconnaissance automatique des entités nommées et des structures textuelles pour les corpus diplomatiques médiolatins. (Page 49-54)