HAL Id: tel-01772268
https://tel.archives-ouvertes.fr/tel-01772268
Submitted on 20 Apr 2018
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
La structuration dans les entités nommées
Yoann Dupont
To cite this version:
Yoann Dupont. La structuration dans les entités nommées. Linguistique. Université Sorbonne Paris Cité, 2017. Français. �NNT : 2017USPCA100�. �tel-01772268�
de
l'Université Sorbonne Paris Cité
préparée à
l'Université Sorbonne Nouvelle - Paris 3
et
Expert System Frane
Éole dotoraleN
◦
268, Langage et Langues
Spéialité du dotorat: Sienes du Langage
La struturation
dans les entités nommées
par Yoann Dupont
sous la diretion de Isabelle TELLIER
ompositiondu jury :
AgataSavary,maîtressedeonférenesHDR (UniversitéFrançoisRabelais Tours,IUTdeBlois),
Rapporteure,
FrançoisYvon,professeurdesuniversités(UniversitéParisSud),herheur(LIMSI/CNRS),Rapporteur,
IsabelleTellier,professeuredesuniversités(UniversitéSorbonneNouvelleParis3), Diretriedethèse,
ChristianLautier,direteurtehnique,ExpertSystemFrane,Enadrantdethèse,
MaroDinarelli, hargédereherhe,LaboratoireLattie,Co-enadrantdethèse,
FrédériLandragin,direteurdereherhe,LaboratoireLattie,Examinateur,
PasaleSebillot,professeurdesuniversités,IRISA/INSAdeRennes,Examinatrie,
PatrikWatrin,logistiiendereherhe,UniversitéatholiquedeLouvain,Examinateur.
À mes nièe.s et neveu.x, né.e.s ou à naître.
La struturation dans les entités nommées
LareonnaissanedesentitésnomméesestunedisiplineruialedudomaineduTAL.
Elle sert à l'extration de relationsentre entités nommées, e qui permet la onstrution
d'unebasedeonnaissanes(Surdeanu and Ji,2014),lerésuméautomatique(Nobata et al.,
2002), et.Nousnous intéressons iiauxphénomènesde struturations qui lesentourent.
Nousdistinguonstoutd'aborddeuxtypesd'élémentsstruturelsdansuneentité nom-
mée. Les premiers sont des sous-haînes réurrentes, que nous appellerons les axes a-
ratéristiques d'uneentité nommée.Leseondtyped'élémentsestlestokensayantunfort
pouvoirdisriminant,appelésdes tokens délenheurs.Nousdétailleronsl'algorithmeque
nous avons misen plae pour extraire les axes aratéristiques, que nous omparerons
à Morfessor (Creutz and Lagus, 2005b). Nous appliquerons ensuite notre méthode pour
extraire lestokens délenheurs, utilisés pour l'extration d'entités nommées du français
et d'adresses postales.
Uneautre formede struturationpour lesentités nommées est de nature syntaxique,
d'imbriationsouarborée.Pour identierautomatiquementettestruturation, nouspro-
posons un type de asade d'étiqueteurs linéaires qui n'avait jusqu'à présent jamais été
utilisé pour la reonnaissane d'entités nommées. Elles généralisent les approhes préé-
dentes qui sont apables de reonnaître uniquement des entités de profondeur limitée ou
qui ne peuvent pas modéliser ertaines partiularitésdes entités nommées struturées.
Tout au long de ette thèse, nous omparons deux méthodes par apprentissage auto-
matique,àsavoirlesCRFetlesréseauxdeneurones,dontnousprésenteronslesavantages
et inonvénients.
mots lés: reonnaissane des entités nommées, entités nommées struturées,
apprentissage automatique, hamps aléatoiresonditionnels,réseaux de neurones
Struturation in Named Entities
Namedentity reognitionis aruial disiplineofNLP. Itis used toextrat relations
betweennamedentities,whihallowstheonstrutionofknowledgebases(Surdeanu and Ji,
2014),automati summary(Nobata etal.,2002)and soon. Ourinterestinthis thesisre-
volvesaround struturingphenomena that surround them.
We distinguish here two kindsof strutural elements in namedentities. The rst one
are réurrent substrings,thatwewillalltheharateristi axes ofanamedentity.The
seond type of element is tokens with a gooddisriminative power, whih we alltrigger
tokens of namedentities. Wewillexplain here the algorithmwe provided toextrat suh
axes, whih we will ompare to Morfessor (Creutz and Lagus, 2005b). We will then
apply the same algorithmto extrat trigger tokens, whih we willuse for Frenh named
entity reognitionand postal addressextration.
Anotherformof struturingfor namedentities isof asyntati nature,whereentities
typiallyhaveatreestruture.Weproposeanovelkindoflineartaggerasadewhihhas
not been used beforeforstrutured namedentity reognition,generalisingother previous
methodsthatareonlyabletoreognisenamedentitiesofaxeddepthorunabletomodel
ertain harateristis of the struture. Ours, however, an doboth.
Throughoutthis thesis, weompare two mahinelearningmethods, CRFs and neural
networks, for whih we willompare respetive advantages and drawbaks.
keywords : named entity reognition, strutured namedentities, mahine learning,
onditional randomelds, neural networks
Je tiens à remerier tout d'abord Éri Brégand et Maro Varone, PDG de respeti-
vement TEMIS et Expert System, ainsi que l'ANRT de m'avoir aordé l'opportunité
d'eetuer ette thèse.Jetiens égalementàremerier Thierry Poibeau, direteurdu Lat-
tie, d'avoiraueilli etsoutenu e projet depuisavant mêmeson ommenement.
Jeremerie égalementAgata Savaryet FrançoisYvon d'avoir aepté d'êtremes rap-
porteurs.MeriégalementàFrédériLandragin,PasaleSebillotetPatrikWatrind'avoir
aepté de faire partiede mon jury.
Je tiens à remerier tout partiulièrement mes direteurs IsabelleTellier etChristian
Lautier, ainsi que mon o-enadrant Maro Dinarellipour leur onane toutau long de
ette thèseetpour leurdisponibilité,toujoursprêtsàmedonneronseilsetintuitions.Je
les remerie grandement pour la releture assidue etrigoureuse de e manusrit.
Un meri aussi au Lattie à l'ensemble de ses membres, aniens et atuels. Meri en
partiulier aux thésards omme Marie-Amélie, Marine, Loï, Pablo ou Tian, ave qui
j'ai pu avoir nombre de disussions qui m'ont beauoup aidé, en partiulier sur la n.
Je remerie aussi les autres étudiants lattiiens.Meri aux dotorants et herheurs des
autres laboratoiresave quij'ai eu leplaisir de onverser.
Je remerie également tous les membres de l'IRT SystemX, partiulièrementBrigitte
Grau, Jérémy Guillemot,OlivierMesnard,Rashedur Rahmanet SophieRosset.
Un meri à tous les utilisateurs de SEM. Partiulièrement Ilaine ave qui j'ai eu le
plaisir de travailleretqui aeu àen supporter les versionsplus arhaïques.
Je remerie également ma famille qui m'a suivi et soutenu tout au long de la thèse.
Meri àtous mes amis, dont lesaniens de lafaulté : Adrien, Anthony, Didier,Étienne,
Fabienne, Guillaume, Justine, Romain. Meri également à tous les autres, notamment :
Athéna, Aurore, Azélie, Bharath, Charline, Françoise, Valérie et Quentin. Un énorme
meri privilégié àAriane, qui m'a soutenu et motivéautant qu'elle le pouvait.
Finalement, je remerie tout le monde que je n'ai pas ité au moment d'érire es
lignes, je pense à vous également.
1 Introdution 15
1.1 Traitement automatique des langues(TAL). . . . . . . . . . . . . . . . . . 15
1.2 L'extration d'information . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Lesentités nommées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4 La struturationdans les entités nommées . . . . . . . . . . . . . . . . . . 21
1.5 Cadre etenjeux industriels . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2 Corpus d'entités nommées 25 2.1 Construtiond'un orpus en entités nommées . . . . . . . . . . . . . . . . 26
2.1.1 Aperçu généraldu proessus d'annotation . . . . . . . . . . . . . . 26
2.1.2 Aord inter-annotateurs . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.3 Partitionnementdes données . . . . . . . . . . . . . . . . . . . . . . 32
2.2 Corpus d'entités nommées . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.1 CHEMDNER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.2 GENIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.3 SEM Eval2007 tâhe 9 . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.4 Frenh Treebank (FTB) . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.5 Le orpusd'adresses de Yu(2007) . . . . . . . . . . . . . . . . . . . 40
2.2.6 Quaero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3 Reonnaissane des entités nommées 47 3.1 Mesures de qualité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.1 La f-mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.2 Le Slot Error Rate (SER) . . . . . . . . . . . . . . . . . . . . . . . 50
3.1.3 Le Entity Tree Error Rate (ETER) . . . . . . . . . . . . . . . . . . 51
3.2 Systèmes àbase de règles. . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.1 Les outils Luxid
R . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.2 ESSEX R (Expert System R) . . . . . . . . . . . . . . . . . . . . 54
3.2.3 CasEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.4 Perspetives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3 Apprentissage automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.1 Modèles génératifset modèles disriminants . . . . . . . . . . . . . 59
3.3.2 Les hamps aléatoiresonditionnels(CRF) . . . . . . . . . . . . . . 60
3.3.3 SEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.3.4 Réseaux de neurones etdeep learning . . . . . . . . . . . . . . . . . 66
3.4 Comparaisonsur leFrenh Treebank . . . . . . . . . . . . . . . . . . . . . 84
3.4.1 Analyse des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.5 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4 Struturation "morphologique" des entités nommées 89 4.1 Extrationde "morphologie". . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.1.1 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.1.2 Séletion et Ordonnanement . . . . . . . . . . . . . . . . . . . . . 96
4.1.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . 98
4.1.4 Analyse des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.1.5 Conlusion intermédiaire . . . . . . . . . . . . . . . . . . . . . . . . 103
4.2 Morphologie par apprentissage automatique . . . . . . . . . . . . . . . . . 103
4.2.1 Morfessor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.2.2 Intégration dans un CRF . . . . . . . . . . . . . . . . . . . . . . . . 107
4.2.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.3 Extrationde tokens délenheurs . . . . . . . . . . . . . . . . . . . . . . . 110
4.3.1 Intégration dans un système par apprentissage . . . . . . . . . . . . 110
4.4 Appliationau FTBpour réer un système état-de-l'art . . . . . . . . . . . 114
4.4.1 Gestion de l'ambigüitédes lexiques . . . . . . . . . . . . . . . . . . 117
4.4.2 Utilisation des tokens inonnus . . . . . . . . . . . . . . . . . . . . 119
4.4.3 Consistane des annotations . . . . . . . . . . . . . . . . . . . . . . 120
4.4.4 Comparaison ave Bi-LSTM-CRF . . . . . . . . . . . . . . . . . . . 121
4.5 Appliationaux adresses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.6 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.1 Campagne d'évaluation Quaero . . . . . . . . . . . . . . . . . . . . . . . . 131
5.1.1 Éventaildes systèmesà base de parsing. . . . . . . . . . . . . . . . 132
5.1.2 Éventaildes systèmespar asade d'étiqueteurs linéaires . . . . . . 137
5.1.3 Conlusion sur l'état de l'art . . . . . . . . . . . . . . . . . . . . . . 139
5.2 Casade d'annotations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
5.2.1 Casade kikstarted (CRF) . . . . . . . . . . . . . . . . . . . . . . . 141
5.2.2 Casade bootstrapped (NN) . . . . . . . . . . . . . . . . . . . . . . . 143
5.2.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.3 Résultats sur Quaerov2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
5.3.1 Analyse des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.3.2 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6 Conlusion et Perspetives 157 6.1 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
6.2 Perspetives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.2.1 SEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.2.2 Apprentissage atif . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
6.2.3 Plus loinqueles entités : relationsetbase de onnaissanes . . . . . 167
6.2.4 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Introdution
Sommaire
1.1 Traitement automatique des langues (TAL) . . . . . . . . . . . 15
1.2 L'extration d'information . . . . . . . . . . . . . . . . . . . . . 16
1.3 Les entités nommées. . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4 La struturation dans les entités nommées . . . . . . . . . . . 21
1.5 Cadre et enjeux industriels. . . . . . . . . . . . . . . . . . . . . 22
Cehapitreprésenteleadregénéraldanslequelsesitueettethèseainsiquelesdéni-
tions lesplus fondamentalessur lesquellesettedernière s'appuie.Nousprésenteronstout
d'abordledomainedutraitementautomatiquedeslangues(TAL),oùs'insritettethèse.
Nous monterons sa relation ave un domaine plus partiulier, l'extration d'information
(EI).Nousdénironsensuitelatâhequinousintéressepartiulièrementii:lareonnais-
sane des entités nommées (REN). Plus préisément, nous avons pour but d'étudier les
phénomènes de struturation au sens large qui entourent les entités nommées, omment
es derniers peuvent aider à leur reonnaissane et dans quelle mesure es éléments sont
identiablesde manièreautomatique.
1.1 Traitement automatique des langues (TAL)
Dansettesetion,nousnousbaseronsessentiellementsurlestravauxdeCori and Léon
(2002) an de dérireledomaine du traitementautomatique des langues(TAL).
Le TAL est un domaine de reherhe ayant quatre prinipaux ples disiplinaires
autour duquel il gravite : - la linguistique; - l'informatique; - les mathématiques [...℄; -
l'intelligene artiielle (Cori and Léon, 2002). Donner une dénition préise etexate
de e qu'est le TAL n'est pas simple, les nombreux termes proposés au l des années
ii ladénition suivante :
Le TAL est l'ensemble des méthodes permettant de traiter de manière au-
tomatique les données exprimées dans une langue (basé sur Cori and Léon
(2002); Fuhsand Habert (2004))
Le TAL ontient entre autres quatre grands domaines de reherhes dans lesquels
peuvent être lasséesles diérentes tâhes :
letraitementdu signal :traite lesdonnées sous leurformat leplus brut, ommele
signal sonore oudes images/sans de textes érits;
la syntaxe : vise à fournir une analyse des données selon les règles de grammaire
de la langue;
l'extration d'information (EI) : les douments traités ontiennent des éléments,
traitent d'un sujetglobal,et. Le but de l'EI est de réupérer es informationsin-
téressantes. MCallum(2005)parlede distillerdes donnéesstruturéesde textes
non-struturés ;
lasémantique: représente l'ensemble des traitementsqui demandent une ompré-
hensiondes données traitées.
Ces quatreaxes prinipauxdu TAL sont illustréssur lagure 1.1, haun de es axes
ayant des exemplesde tâhes en faisant partie.
Figure 1.1 les quatre hamps de reherhe prinipaux atuels du TAL ainsi que des
exemples de tâhes spéiques àhaun de es hamps.
Cettethèse traiteprinipalementde la reonnaissane desentités nommées, quis'ins-
rit dans le domaine de l'extration d'information, que nous détaillons dans la setion
1.2.