outils d’annotation qui travaillent avec des lexiques tels que TreeTagger
97et Lapos. Ils
contribuent à l’intégration de la NER dans les projets de milieu de gamme. Stanford
CoreNLP
98, Freeling, Natural Language Toolkit
99et Scikit-learn
100sont parmi les
ensembles d’outils et de bibliothèques les plus utilisés suivant des méthodes telles que
l’entropie maximale, des machines à vecteurs de support (SVM)
101, les réseaux de
néurones (ANN) ou Champs aléatoires conditionnels (CRF)
102, la dernière étant la
principale technique utilisée dans cette thèse.
1.5 Méthodes pour la reconnaissance automatique
des entités nommées
1.5.1 Trois concepts clé.
Trois concepts doivent être visités avant de parler des approches classiques
d’automatisation des entités nommées : le style d’annotation, la qualité du corpus
et les mesures de performance :
Le schéma d’annotation
Les entités ENAMEX sont normalement balisées de manière assez simple : pour
chacune on définit s’il s’agit de PERS (person), LOC (location), ORG (organisation),
selon leur définition dans le Conll2002 standard corpus
103. Mais afin de définir les
frontières d’une entité, c’est-à-dire préciser si un mot fait partie d’une entité, la taille
de cette entité, et, le cas échéant, le chevauchement d’entités, il est fréquent d’utiliser
le style BIO
104ou une de ses variantes. BIO est une abréviation de début (Beginning),
intérieur (Inside) et extérieur (Outside), qui indique la manière correcte d’interpréter
une entité composée par plus d’un mot (multi-token) comme le début d’une entité (B),
le deuxième membre ou continuation d’une entité (I) et l’absence d’entité (O).
w
i=
B-entity si w
iest le début d’une entité
I-entity si w
iest la continuation d’une entité
O-entity O si il n’y a pas d’entité
(1.1)
Standardisation des corpus
97. https ://www.cis.uni-muenchen.de/ schmid/tools/TreeTagger/ 98. https ://stanfordnlp.github.io/CoreNLP/
99. http ://nlp.lsi.upc.edu/freeling/node/1 100. https ://scikit-learn.org/stable/
101. ThorstenJoachims. “Text categorization with support vector machines : Learning with many relevant features”. In :European conference on machine learning. Springer. 1998, p. 137-142
102. John Lafferty et al. “Conditional random fields : Probabilistic models for segmenting and labeling sequence data”. In : (2001)
103. Conll (conference natural language processing)
104. L. A. Ramshaw et M. P. Marcus. “Text Chunking Using Transformation-Based Learning”.
La littérature la plus récente fait une distinction entre deux types de corpus : le
golden standard corpus et silver standard corpus
105. Le golden corpus est le corpus de
référence qui porte l’annotation souhaitée qui doit produire un modèle automatique.
Autrement dit, c’est le corpus annoté à la main par plusieurs annotateurs et ensuite
révisé par un spécialiste de la matière. Il s’agit de corpus longs à produire puisqu’ils
demandent un grand investissement d’effort humain, ce qui explique qu’ils soient les
plus demandés pour les approches statistiques.
Le silver corpus est quant à lui produit automatiquement à partir d’un texte sans
annotation. L’annotation proposée est forcément imparfaite (la moyenne des meilleures
modèles REN est autour de 85 %), mais elle est produite automatiquement en quelques
heures. Avec les progrès des modèles REN, dans les étapes d’évaluation des modèles, ils
sont chaque fois plus présents afin des comparer l’écart entre les performances offertes
par les modèles silver et golden ou comme modèle principal qui, combiné avec des
bases de connaissance extérieures, peut offrir des résultats similaires à ceux obtenus
avec un golden corpus
106.
Mesures d’évaluation
Pour évaluer la performance d’un modèle on utilise les mesures de rappel, précision
et f-mesure. Elles sont introduites dans MUC
107. Étant donné une série d’entités à
identifier N
tagsun modèle proposera une série d’étiquettes correctes N
correctet une
série d’étiquettes incorrectes N
wrong, alors :
recall= N correct
N tags (1.2)
precision= N correct
N correct+N wrong (1.3)
Le rappel détermine la capacité de récupération des entités pertinentes et
susceptibles d’être des entités nommées. Le rappel exprime ainsi la sensibilité du
système au moment de fournir des réponses possibles aux recherches. De son côté, la
précision détermine le niveau de correction dans les résultats récupérés. La précision
est ainsi liée au nombre réel d’entités classées complètement.
Puisque les deux mesures évaluent des caractéristiques différentes et parfois
antagonistes (réduction du bruit et du silence), normalement les résultats finaux sont
exprimés par une moyenne harmonique :
F1 = 2·precision·recall
precision+recall (1.4)
105. NingKanget al. “Training text chunkers on a silver standard corpus : can silver replace gold ?” en. In :BMC Bioinformatics13 (jan. 2012), p. 17
106. Michele Filannino et Marilena Di Bari. “Gold standard vs. silver standard : the case of dependency parsing for Italian”. In :Proceedings of the Second Italian Conference on Computational Linguistics CLiC-it 2015
1.5. Méthodes pour la reconnaissance automatique des entités nommées 49
Les résultats individuels de comparaison entre l’annotation à la main et
l’annotation automatique peuvent être exprimés selon une terminologie plus fine :
vrais positifs (tp), vrais négatifs (tn), faux positifs (fp) et faux négatifs (fn). Les termes
positif et négatif font référence à la prédiction du modèle et les termes vrai et faux
indiquent si cette prédiction est correcte ou pas selon l’annotation fournie.
1081.5.2 Approches supervisées et méthodes symboliques
Les approches classiques des systèmes de reconnaissance des entités nommées
(REN) peuvent s’organiser en deux grandes branches : apprentissage supervisé et
méthodes symboliques.
Dans le cas de l’apprentissage supervisé, on fournit à l’algorithme plusieurs
exemples contenant l’annotation attendue à la sortie. L’algorithme doit modéliser la
valeur de chaque étiquette en ajustant des paramètres à chaque itération, de manière
à ce que le modèle final puisse produire une annotation automatique la plus proche
possible de l’annotation manuelle fournie. Une partie importante de la recherche est
dédiée à générer de modèles capables de réduire l’écart entre la dépendance du modèle
à son corpus d’origine et sa capacité d’être appliqué à d’autres corpus (généralisation).
Par contre, les méthodes symboliques n’utilisent pas de données annotées,
autrement dit, les exemples sont fournis à l’algorithme sans préciser la “sortie”
souhaitée. Mais on fournit à l’algorithme un ensemble de règles, grammaires ou bases de
données, afin de faire émerger des données pertinentes. Il s’agit alors d’une approche
plus facile à mettre en œuvre, mais dont les résultats sont moins performants que
dans le cas de l’apprentissage supervisé. Ce type de modélisation concerne surtout les
approches à partir de règles (rule-based), de dictionnaires (dictionnary-based) et de
statistiques par regroupement (clusterisation).
1.5.3 Méthodes symboliques
L’idée centrale de l’approche par des règles est de définir toutes les conditions
que doit remplir un mot pour être considéré comme entité nommée. Les conditions
varient fortement d’un corpus à l’autre. Il est nécessaire d’avoir une connaissance
très précise des entités afin de couvrir tous les scénarios linguistiques possibles
d’apparition (capitalisation, catégorie morphosyntaxique, ordre dans la phrase,
préfixes, co-occurrences et d’autres régularités) ainsi que de sa structure (simples,
complexes, modificateurs, accidents, fonctions, etc.). Le modèle est ainsi formé par
l’ensemble organisé des règles conditionnelles, normalement construit en utilisant des
expressions régulières.
La modélisation par des dictionnaires permet d’introduire de larges répertoires
contenant des listes d’anthroponymes et des index géographiques, c’est-à-dire, des
formes déjà validées d’entités nommées. Une fois les entités candidates détectées dans
le texte, la classification se fait normalement par similarité avec celles contenues dans
108. Christopher D. Manning et Hinrich Schütze. Foundations of Statistical Natural Language