La structuration dans les entités nommées

(1)

HAL Id: tel-01772268

https://tel.archives-ouvertes.fr/tel-01772268

Submitted on 20 Apr 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

La structuration dans les entités nommées

Yoann Dupont

To cite this version:

Yoann Dupont. La structuration dans les entités nommées. Linguistique. Université Sorbonne Paris Cité, 2017. Français. �NNT : 2017USPCA100�. �tel-01772268�

(2)

de

l'Université Sorbonne Paris Cité

préparée à

l'Université Sorbonne Nouvelle - Paris 3

et

Expert System Frane

Éole dotoraleN

◦

268, Langage et Langues

Spéialité du dotorat: Sienes du Langage

La struturation

dans les entités nommées

par Yoann Dupont

sous la diretion de Isabelle TELLIER

ompositiondu jury :

AgataSavary,maîtressedeonférenesHDR (UniversitéFrançoisRabelais Tours,IUTdeBlois),

Rapporteure,

FrançoisYvon,professeurdesuniversités(UniversitéParisSud),herheur(LIMSI/CNRS),Rapporteur,

IsabelleTellier,professeuredesuniversités(UniversitéSorbonneNouvelleParis3), Diretriedethèse,

ChristianLautier,direteurtehnique,ExpertSystemFrane,Enadrantdethèse,

MaroDinarelli, hargédereherhe,LaboratoireLattie,Co-enadrantdethèse,

FrédériLandragin,direteurdereherhe,LaboratoireLattie,Examinateur,

PasaleSebillot,professeurdesuniversités,IRISA/INSAdeRennes,Examinatrie,

PatrikWatrin,logistiiendereherhe,UniversitéatholiquedeLouvain,Examinateur.

(3)

(4)

À mes nièe.s et neveu.x, né.e.s ou à naître.

(5)

(6)

La struturation dans les entités nommées

LareonnaissanedesentitésnomméesestunedisiplineruialedudomaineduTAL.

Elle sert à l'extration de relationsentre entités nommées, e qui permet la onstrution

d'unebasedeonnaissanes(Surdeanu and Ji,2014),lerésuméautomatique(Nobata et al.,

2002), et.Nousnous intéressons iiauxphénomènesde struturations qui lesentourent.

Nousdistinguonstoutd'aborddeuxtypesd'élémentsstruturelsdansuneentité nom-

mée. Les premiers sont des sous-haînes réurrentes, que nous appellerons les axes a-

ratéristiques d'uneentité nommée.Leseondtyped'élémentsestlestokensayantunfort

pouvoirdisriminant,appelésdes tokens délenheurs.Nousdétailleronsl'algorithmeque

nous avons misen plae pour extraire les axes aratéristiques, que nous omparerons

à Morfessor (Creutz and Lagus, 2005b). Nous appliquerons ensuite notre méthode pour

extraire lestokens délenheurs, utilisés pour l'extration d'entités nommées du français

et d'adresses postales.

Uneautre formede struturationpour lesentités nommées est de nature syntaxique,

d'imbriationsouarborée.Pour identierautomatiquementettestruturation, nouspro-

posons un type de asade d'étiqueteurs linéaires qui n'avait jusqu'à présent jamais été

utilisé pour la reonnaissane d'entités nommées. Elles généralisent les approhes préé-

dentes qui sont apables de reonnaître uniquement des entités de profondeur limitée ou

qui ne peuvent pas modéliser ertaines partiularitésdes entités nommées struturées.

Tout au long de ette thèse, nous omparons deux méthodes par apprentissage auto-

matique,àsavoirlesCRFetlesréseauxdeneurones,dontnousprésenteronslesavantages

et inonvénients.

mots lés: reonnaissane des entités nommées, entités nommées struturées,

apprentissage automatique, hamps aléatoiresonditionnels,réseaux de neurones

(7)

(8)

Struturation in Named Entities

Namedentity reognitionis aruial disiplineofNLP. Itis used toextrat relations

betweennamedentities,whihallowstheonstrutionofknowledgebases(Surdeanu and Ji,

2014),automati summary(Nobata etal.,2002)and soon. Ourinterestinthis thesisre-

volvesaround struturingphenomena that surround them.

We distinguish here two kindsof strutural elements in namedentities. The rst one

are réurrent substrings,thatwewillalltheharateristi axes ofanamedentity.The

seond type of element is tokens with a gooddisriminative power, whih we alltrigger

tokens of namedentities. Wewillexplain here the algorithmwe provided toextrat suh

axes, whih we will ompare to Morfessor (Creutz and Lagus, 2005b). We will then

apply the same algorithmto extrat trigger tokens, whih we willuse for Frenh named

entity reognitionand postal addressextration.

Anotherformof struturingfor namedentities isof asyntati nature,whereentities

typiallyhaveatreestruture.Weproposeanovelkindoflineartaggerasadewhihhas

not been used beforeforstrutured namedentity reognition,generalisingother previous

methodsthatareonlyabletoreognisenamedentitiesofaxeddepthorunabletomodel

ertain harateristis of the struture. Ours, however, an doboth.

Throughoutthis thesis, weompare two mahinelearningmethods, CRFs and neural

networks, for whih we willompare respetive advantages and drawbaks.

keywords : named entity reognition, strutured namedentities, mahine learning,

onditional randomelds, neural networks

(9)

(10)

Je tiens à remerier tout d'abord Éri Brégand et Maro Varone, PDG de respeti-

vement TEMIS et Expert System, ainsi que l'ANRT de m'avoir aordé l'opportunité

d'eetuer ette thèse.Jetiens égalementàremerier Thierry Poibeau, direteurdu Lat-

tie, d'avoiraueilli etsoutenu e projet depuisavant mêmeson ommenement.

Jeremerie égalementAgata Savaryet FrançoisYvon d'avoir aepté d'êtremes rap-

porteurs.MeriégalementàFrédériLandragin,PasaleSebillotetPatrikWatrind'avoir

aepté de faire partiede mon jury.

Je tiens à remerier tout partiulièrement mes direteurs IsabelleTellier etChristian

Lautier, ainsi que mon o-enadrant Maro Dinarellipour leur onane toutau long de

ette thèseetpour leurdisponibilité,toujoursprêtsàmedonneronseilsetintuitions.Je

les remerie grandement pour la releture assidue etrigoureuse de e manusrit.

Un meri aussi au Lattie à l'ensemble de ses membres, aniens et atuels. Meri en

partiulier aux thésards omme Marie-Amélie, Marine, Loï, Pablo ou Tian, ave qui

j'ai pu avoir nombre de disussions qui m'ont beauoup aidé, en partiulier sur la n.

Je remerie aussi les autres étudiants lattiiens.Meri aux dotorants et herheurs des

autres laboratoiresave quij'ai eu leplaisir de onverser.

Je remerie également tous les membres de l'IRT SystemX, partiulièrementBrigitte

Grau, Jérémy Guillemot,OlivierMesnard,Rashedur Rahmanet SophieRosset.

Un meri à tous les utilisateurs de SEM. Partiulièrement Ilaine ave qui j'ai eu le

plaisir de travailleretqui aeu àen supporter les versionsplus arhaïques.

Je remerie également ma famille qui m'a suivi et soutenu tout au long de la thèse.

Meri àtous mes amis, dont lesaniens de lafaulté : Adrien, Anthony, Didier,Étienne,

Fabienne, Guillaume, Justine, Romain. Meri également à tous les autres, notamment :

Athéna, Aurore, Azélie, Bharath, Charline, Françoise, Valérie et Quentin. Un énorme

meri privilégié àAriane, qui m'a soutenu et motivéautant qu'elle le pouvait.

Finalement, je remerie tout le monde que je n'ai pas ité au moment d'érire es

lignes, je pense à vous également.

(11)

(12)

1 Introdution 15

1.1 Traitement automatique des langues(TAL). . . . . . . . . . . . . . . . . . 15

1.2 L'extration d'information . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.3 Lesentités nommées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.4 La struturationdans les entités nommées . . . . . . . . . . . . . . . . . . 21

1.5 Cadre etenjeux industriels . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 Corpus d'entités nommées 25 2.1 Construtiond'un orpus en entités nommées . . . . . . . . . . . . . . . . 26

2.1.1 Aperçu généraldu proessus d'annotation . . . . . . . . . . . . . . 26

2.1.2 Aord inter-annotateurs . . . . . . . . . . . . . . . . . . . . . . . . 29

2.1.3 Partitionnementdes données . . . . . . . . . . . . . . . . . . . . . . 32

2.2 Corpus d'entités nommées . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2.1 CHEMDNER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2.2 GENIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.2.3 SEM Eval2007 tâhe 9 . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.2.4 Frenh Treebank (FTB) . . . . . . . . . . . . . . . . . . . . . . . . 38

2.2.5 Le orpusd'adresses de Yu(2007) . . . . . . . . . . . . . . . . . . . 40

2.2.6 Quaero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.3 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3 Reonnaissane des entités nommées 47 3.1 Mesures de qualité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.1.1 La f-mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.1.2 Le Slot Error Rate (SER) . . . . . . . . . . . . . . . . . . . . . . . 50

3.1.3 Le Entity Tree Error Rate (ETER) . . . . . . . . . . . . . . . . . . 51

3.2 Systèmes àbase de règles. . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

(13)

3.2.1 Les outils Luxid

R ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ⁵³

3.2.2 ESSEX R ^(Expert ^System ^R⁾ ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ⁵⁴

3.2.3 CasEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.2.4 Perspetives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.3 Apprentissage automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3.1 Modèles génératifset modèles disriminants . . . . . . . . . . . . . 59

3.3.2 Les hamps aléatoiresonditionnels(CRF) . . . . . . . . . . . . . . 60

3.3.3 SEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.3.4 Réseaux de neurones etdeep learning . . . . . . . . . . . . . . . . . 66

3.4 Comparaisonsur leFrenh Treebank . . . . . . . . . . . . . . . . . . . . . 84

3.4.1 Analyse des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.5 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4 Struturation "morphologique" des entités nommées 89 4.1 Extrationde "morphologie". . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.1.1 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

4.1.2 Séletion et Ordonnanement . . . . . . . . . . . . . . . . . . . . . 96

4.1.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . 98

4.1.5 Conlusion intermédiaire . . . . . . . . . . . . . . . . . . . . . . . . 103

4.2 Morphologie par apprentissage automatique . . . . . . . . . . . . . . . . . 103

4.2.1 Morfessor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

4.2.2 Intégration dans un CRF . . . . . . . . . . . . . . . . . . . . . . . . 107

4.2.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

4.3 Extrationde tokens délenheurs . . . . . . . . . . . . . . . . . . . . . . . 110

4.3.1 Intégration dans un système par apprentissage . . . . . . . . . . . . 110

4.4 Appliationau FTBpour réer un système état-de-l'art . . . . . . . . . . . 114

4.4.1 Gestion de l'ambigüitédes lexiques . . . . . . . . . . . . . . . . . . 117

4.4.2 Utilisation des tokens inonnus . . . . . . . . . . . . . . . . . . . . 119

4.4.3 Consistane des annotations . . . . . . . . . . . . . . . . . . . . . . 120

4.4.4 Comparaison ave Bi-LSTM-CRF . . . . . . . . . . . . . . . . . . . 121

4.5 Appliationaux adresses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

4.6 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

(14)

5.1 Campagne d'évaluation Quaero . . . . . . . . . . . . . . . . . . . . . . . . 131

5.1.1 Éventaildes systèmesà base de parsing. . . . . . . . . . . . . . . . 132

5.1.2 Éventaildes systèmespar asade d'étiqueteurs linéaires . . . . . . 137

5.1.3 Conlusion sur l'état de l'art . . . . . . . . . . . . . . . . . . . . . . 139

5.2 Casade d'annotations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

5.2.1 Casade kikstarted (CRF) . . . . . . . . . . . . . . . . . . . . . . . 141

5.2.2 Casade bootstrapped (NN) . . . . . . . . . . . . . . . . . . . . . . . 143

5.2.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

5.3 Résultats sur Quaerov2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

5.3.2 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

6 Conlusion et Perspetives 157 6.1 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

6.2 Perspetives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

6.2.1 SEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

6.2.2 Apprentissage atif . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

6.2.3 Plus loinqueles entités : relationsetbase de onnaissanes . . . . . 167

6.2.4 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

(15)

(16)

Introdution

Sommaire

1.1 Traitement automatique des langues (TAL) . . . . . . . . . . . 15

1.2 L'extration d'information . . . . . . . . . . . . . . . . . . . . . 16

1.3 Les entités nommées. . . . . . . . . . . . . . . . . . . . . . . . . 17

1.4 La struturation dans les entités nommées . . . . . . . . . . . 21

1.5 Cadre et enjeux industriels. . . . . . . . . . . . . . . . . . . . . 22

Cehapitreprésenteleadregénéraldanslequelsesitueettethèseainsiquelesdéni-

tions lesplus fondamentalessur lesquellesettedernière s'appuie.Nousprésenteronstout

d'abordledomainedutraitementautomatiquedeslangues(TAL),oùs'insritettethèse.

Nous monterons sa relation ave un domaine plus partiulier, l'extration d'information

(EI).Nousdénironsensuitelatâhequinousintéressepartiulièrementii:lareonnais-

sane des entités nommées (REN). Plus préisément, nous avons pour but d'étudier les

phénomènes de struturation au sens large qui entourent les entités nommées, omment

es derniers peuvent aider à leur reonnaissane et dans quelle mesure es éléments sont

identiablesde manièreautomatique.

1.1 Traitement automatique des langues (TAL)

Dansettesetion,nousnousbaseronsessentiellementsurlestravauxdeCori and Léon

(2002) an de dérireledomaine du traitementautomatique des langues(TAL).

Le TAL est un domaine de reherhe ayant quatre prinipaux ples disiplinaires

autour duquel il gravite : - la linguistique; - l'informatique; - les mathématiques [...℄; -

l'intelligene artiielle (Cori and Léon, 2002). Donner une dénition préise etexate

de e qu'est le TAL n'est pas simple, les nombreux termes proposés au l des années

(17)

ii ladénition suivante :

Le TAL est l'ensemble des méthodes permettant de traiter de manière au-

tomatique les données exprimées dans une langue (basé sur Cori and Léon

(2002); Fuhsand Habert (2004))

Le TAL ontient entre autres quatre grands domaines de reherhes dans lesquels

peuvent être lasséesles diérentes tâhes :

letraitementdu signal :traite lesdonnées sous leurformat leplus brut, ommele

signal sonore oudes images/sans de textes érits;

la syntaxe : vise à fournir une analyse des données selon les règles de grammaire

de la langue;

l'extration d'information (EI) : les douments traités ontiennent des éléments,

traitent d'un sujetglobal,et. Le but de l'EI est de réupérer es informationsin-

téressantes. MCallum(2005)parlede distillerdes donnéesstruturéesde textes

non-struturés ;

lasémantique: représente l'ensemble des traitementsqui demandent une ompré-

hensiondes données traitées.

Ces quatreaxes prinipauxdu TAL sont illustréssur lagure 1.1, haun de es axes

ayant des exemplesde tâhes en faisant partie.

Figure 1.1 les quatre hamps de reherhe prinipaux atuels du TAL ainsi que des

exemples de tâhes spéiques àhaun de es hamps.

Cettethèse traiteprinipalementde la reonnaissane desentités nommées, quis'ins-

rit dans le domaine de l'extration d'information, que nous détaillons dans la setion

1.2.