APPRENTISSAGE DE REPRÉSENTATION: DE LA DÉCISION NON-LINÉAIRE À LA GÉNÉRATION DE DONNÉES

(1)

APPRENTISSAGE DE REPRÉSENTATION:

DE LA DÉCISION NON-LINÉAIRE À LA GÉNÉRATION DE DONNÉES

17 février 2021

Vincent Guigue

Jury: Massih-Reza Amini Université Grenoble Alpes Rapporteur Patrice Bellot Université Aix-Marseille Rapporteur Gabriella Pasi Université de Milan Rapporteur Mohamed Chetouani Sorbonne Université Examinateur Martin Trepanier Polytechnique Montréal Examinateur Emmanuel Viennet Université Paris 13 Examinateur

(2)

Collaborations & positionnement thématique

A. Rafraﬁ

M. Poussevin

E. Guardia-Sebaoun

L. Tajtelbom C-E. Dias

P. Cribier Delande

C. Gainon de Forsan de Gabriac B. Taillé

Séries temporelles

2010 2012 2014 2016 2018 2020

Proﬁls Recommandation

Trait. Auto. des Langues

E. Tonnelier

Co-encadrements avec P. Gallinari, T. Artières, N. Baskiotis, L. Denoyer Période de mutation du machine learning & impact sociétal important Recherche appliquée / frontière entre modalités

2/30

(3)

(1) Sémantique statique des données

Sémantique = notion diffuse : plusieurs définitions

différentes échelles / diverses modalités de données

pLSA [Hofmann 99]

Factorisation matricielle [Hoyer 02]

Word2Vec [Mikolov 13]

⇒Representation learning [Bengio 13]

homme

femme acteur

actrice

3/30

(4)

(2) Sémantique contextuelle – approches génératives de bout en bout

Sequence 2 sequence [Sutskever 14]

Plasticité des architectures de deep-learning [Antol 15]

VAE/GAN & démêlage [Kingma 14, Goodfellow 14, Chen 16]

Modèles de langue : ELMO, BERT [Peters 18, Devlin 18]

Ce nouveliPhone

?

quelle

affaire arnaque auto-supervision

+

Opinion _

Ancrage image

4/30

(5)

Ce nouveliPhone

?

quelle

+

Opinion _

Ancrage image

4/30

(6)

Ce nouveliPhone

?

quelle

+

Opinion _

Ancrage image

4/30

(7)

Compréhension des données,

sémantique des concepts

(8)

Sémantique : définition(s) et échelles

Différentes définitions à différentes échelles :

Catégoriser des données : Sens = ensemble de données homogène [Dubes 88]

LSA/pLSA (textes) Cluster = Extraction d’un champ lexical [Hofmann 99]

Recommandation Métrique utilisateurs–produits & Affinités [Hoyer 02]

Séries temporelles Séparation des sources, décomposition [Cordoso 97]

Word2Vec (textes) Distance+direction entre les mots [Mikolov 13]

Prod2vec Métrique fine entre les produits [Grbovic 15]

5/30

(9)

Factorisation matricielle

Algorithme versatile, robuste,

débruite les données, compresse et explique Apprentissage par descente de gradient itérative Problème non convexe

Opportunité de biaiser / contraindre l’apprentissage

non-negative, orthogonal d

n n

d z

z

X C

D

5/30

(10)

non-negative, orthogonal Code Sac de mots

Champs lexicaux

Document

Analyse Sémantique Latente ^5/30

(11)

non-negative, orthogonal Matrice de notes

Afﬁnité

Recommandation

5/30

(12)

non-negative, orthogonal Code Matrice de logs

Pattern fréquents

Log station métro

Séparation de sources ^5/30

(13)

Différentes définitions à différentes échelles :

Word2Vec (textes) Distance+direction entre les mots [Mikolov 13]

Prod2vec Métrique fine entre les produits [Grbovic 15]

chat tigré est assis sur la table

chat chien

chats chiens

bien

mauvais meilleur

pire Italie France

Allemagne Rome Paris

Berlin

homme

femme acteur

actrice il

elle sien sienne tu

tien roi

reine

Paradigme Word2Vec ⇒Espace vectoriel sémantique induit

6/30

(14)

Contribution (1) : Analyse de masses d’informations bruitées et parcellaires

Cartes RFID = smart card = AFC Collaboration IdF Mobilités (ex STIF)

+ Nouvelle vision des transports + Evaluation des politiques publiques + Aide à la décision

− Données très bruitées

− Entrées seulement

Données disponibles, par usager :

Objectif : séparer / comprendre les usages

7/30

(15)

Contribution (1) : Vue générale des résultats obtenus [Poussevin 14,16]

1 Extraction des comportements récurrents individuels

2 Différentes échelles fréquentielles (fréquent/rare)

3 Projection des comportements sur une carte

02h 08h 12h 17h 22h Sun Mon Tue Wen Thu Fri Sat

2am6am8am 12am 5pm 10pmSunMonTueWenThu Fri Sat b=high

2am6am8am 12am 5pm 10pmSunMonTueWenThu Fri Sat b=medium

2am6am8am 12am 5pm 10pmSunMonTueWenThu Fri Sat b=low

5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5

lo g( p ( b ) ( a | t ))

gare de lyon marcadet poissonniers

montgallet ranelagh

villejuif louis aragon aubervilliers pantin porte de la chapelle

campo formio billancourt

chardon lagache

pyramides couronnes

danube

volontaires

saint maur telegraphe kleber

monceau gare de l'est

lourmel

reaumur sebastopol ternes

maraichers

creteil pointe du lac charonne

porte de bagnolet

commerce tuileries villiersrome

saint fargeau

vaugirard ecole militaire

buzenval chateau landon

bir hakeim trinite d'estienne d'orves

olympiades bel air gaite

bolivar pyrenees

pont marie rambuteau

sevres lecourbe pont de levallois becon

jacques bonsergent botzaris

porte de vincennes montparnasse

belleville franklin roosevelt

pigalle

reuilly diderot felix faure

convention

picpus

nationale pont de sevres

victor hugo

plaisance jaures pont de neuilly

blanche jules joffrin les agnettes

ourcq

palais royal trocadero

madeleine colonel fabien

le kremlin bicetre richelieu drouot

la chapelle europe

charenton ecoles porte doree saint michel duroc

bourse

varenne

mairie de montreuil

vaneau

creteil universite filles du calvaire

odeon temple wagram

8 mai 1945

porte de charenton sevres babylone

george v

pelleport concorde

malakoff rue etienne dolet

creteil prefecture rennes

porte de pantin

dupleix

michel bizot charles de gaulle etoile

bastille mirabeau

corentin cariou

chaussee d'antin chateau rouge

chevaleret brochant

miromesnil crimee

alexandre dumas avenue emile zola

opera saint philippe du roule

menilmontant place des fetes

edgar quinet chateau d'eau

saint sulpice la defense

mairie de clichy

gare du nord courcelles

glaciere

creteil l'echat porte de vanves

poissonniere

pont neuf notre dame de lorette gabriel peri

quai de la rapee javel

saint marcel corvisart charles michels

maisons alfort stade louis blanc

basilique de saint denis

assemblee nationale

michel ange auteuil les sablons

cambronne malesherbes

goncourt strasbourg saint denis

maisons alfort les juilliottes porte des lilas

les gobelins

pierre et marie curie hoche porte de la villette

place monge argentine

saint sebastien froissartpere lachaise

boulogne pont de saint cloud eglise d'auteuil

gallieni

bibliotheque francois mitterrand place d'italie

bobigny pantin

jourdain laumiere

etienne marcel buttes chaumont place de clichy

bonne nouvelle

villejuif leo lagrange corentin celton

louise michel

rue des boulets falguiere

riquet mairie de saint ouen

iena louvre rivoli

la motte picquet grenelle sully morland

bobigny pablo picasso

berault avron sentier

austerlitz la muette

stalingrad carrefour pleyel

maubert mutualite exelmans

quatre septembre boissiere

maison blanche bercy rue de la pompe

grands boulevards porte de clignancourt

michel ange molitor

fort d'aubervilliers

les halles

segur

saint jacques

ecole veterinaire de maisons alfort

villejuif paul vaillant couturier

saint francois xavier porte de montreuil

porte de versailles

quai de la gare champs elysees clemenceau

saint germain des pres

mairie des lilas

alma marceau

pre saint gervais saint lazare

pereire

porte d'orleans

chatillon montrouge anatole france

lamarck caulaincourt

pasteur raspail pernety

alesia marcel sembat

cardinal lemoine

denfert rochereau republique

mouton duvernet le peletier

eglise de pantin les courtilles asnieres gennevilliers

mabillon

croix de chavaux saint ambroise porte de saint ouen

notre dame des champs breguet sabin

saint mande porte de clichy

invalides

boucicaut havre caumartin

marx dormoy

porte de choisy liege

porte de saint cloud vavin

liberte cour saint emilion saint placide

porte d'ivry mairie d'issy

porte maillot

la tour maubourg

censier daubenton cadet

jasmin

barbes rochechouart

jussieu porte dauphine

richard lenoir ledru rollin arts et metiers

porte d'italie saint georges esplanade de la defense

saint denis universite

mairie d'ivry oberkampf

faidherbe chaligny

balard

saint paul

malakoff plateau de vanves simplon

daumesnil chateau de vincennes saint augustin

guy moquet

robespierre voltaire porte de champerret

garibaldi

hotel de ville gambetta cite rue du bac

saint denis porte de paris

parmentier

solferino chatelet

porte d'auteuil

tolbiac dugommier anvers

nation abbesses

boulogne jean jaures

passy chemin vert

la fourche

philippe auguste

c01c02 c03c04 c05

0.0002 0.0001 0.0000 0.0001 0.0002

0.0006 0.0004 0.0002 0.0000 0.0002 0.0004 0.0006

0.00010 0.00005 0.00000 0.00005 0.00010

0.0004 0.0002 0.0000 0.0002 0.0004

0.00006 0.00004 0.00002 0.00000 0.00002 0.00004 0.00006

0.0010 0.0005 0.0000 0.0005 0.0010

0.0015 0.0010 0.0005 0.0000 0.0005 0.0010 0.0015

0.010 0.005 0.000 0.005 0.010

0.0010 0.0005 0.0000 0.0005 0.0010

0.002 0.001 0.000 0.001 0.002

0.0003 0.0002 0.0001 0.0000 0.0001 0.0002 0.0003

0.004 0.002 0.000 0.002 0.004

0.0006 0.0004 0.0002 0.0000 0.0002 0.0004 0.0006

0.002 0.001 0.000 0.001 0.002

0.0006 0.0004 0.0002 0.0000 0.0002 0.0004 0.0006

0.0015 0.0010 0.0005 0.0000 0.0005 0.0010 0.0015

0.00004 0.00002 0.00000 0.00002 0.00004

0.0005 0.0000 0.0005

0.0010 0.0005 0.0000 0.0005 0.0010

0.006 0.004 0.002 0.000 0.002 0.004 0.006

0.0006 0.0004 0.0002 0.0000 0.0002 0.0004 0.0006

0.0010 0.0005 0.0000 0.0005 0.0010

0.00015 0.00010 0.00005 0.00000 0.00005 0.00010 0.00015

0.002 0.001 0.000 0.001 0.002

0.0015 0.0010 0.0005 0.0000 0.0005 0.0010 0.0015

0.006 0.004 0.002 0.000 0.002 0.004 0.006

0.0015 0.0010 0.0005 0.0000 0.0005 0.0010 0.0015

0.002 0.001 0.000 0.001 0.002

0.00015 0.00010 0.00005 0.00000 0.00005 0.00010 0.00015

0.002 0.001 0.000 0.001 0.002

8/30

(16)

Contribution (1) : Relaxation de la position des motifs caractéristiques

[Tonnelier 16,17,18]NMF invariante en translation : localiser un comportement

Signal Atom Shift

u : usager

w_uz : code, puissance du comportementz pouru φuz : localisation du comportement z pouru d_z : comportement

u =X

z

τu,z(wu,zdz) =wu,zdz(t+φu,z)

= ⊕

(

^×

)

Data matrix (logs) φmatrix Code matrix Dictionary i-th row

Prédiction de comportements / détection d’anomalies / Fact. tensorielle

9/30

(17)

Contribution (2) : Explique le filtrage collaboratif par données textuelles

[Poussevin 14,15]Combiner prédiction d’affinités et génération de résumé personnalisé

Matrice de notes Afﬁnité

+

Mélange d’analyse de sentiments et de recommandation

Détection des phénomènes de surprises

Difficulté pour l’évaluation quantitative

Résultats qualitatifs amusants Un premier pas vers l’xAI

10/30

(18)

Contribution (3) : Projeter le filtrage collaboratif dans un espace textuel

[Dias 16,17]Réconciliation entre filtrage collaboratif & content based Extension de Word2Vec

+ profils utilisateurs/produits

Concepts

11/30

(19)

Contribution (3) : Projeter le filtrage collaboratif dans un espace textuel

[Dias 16,17]Réconciliation entre filtrage collaboratif & content based Extension de Word2Vec

+ profils utilisateurs/produits

Concepts

Espace de représentation multi-modal :

Produit Mots

Utilisateur Espace vectoriel unifié

Prédiction de

notes/mots/revues en plus-proches-voisins Performances quantitative &

qualitative ++

11/30

(20)

Contribution (3) : Projeter le filtrage collaboratif dans un espace textuel [Dias 16,17]Réconciliation entre filtrage collaboratif & content based

Extension de Word2Vec + profils utilisateurs/produits

Concepts

Espace de représentation multi-modal :

Produit Mots

Utilisateur Espace vectoriel unifié

Prédiction de

notes/mots/revues en plus-proches-voisins Performances quantitative &

qualitative ++

Extension pour lecold-start

1 Construction de profil utilisateur à partir de textes

2 Prédiction de notes dans l’espace hybride

11/30

(21)

Contribution (4) : Recommandation et dynamique locale

[Guardia-Sebaoun 15,16]: Word2Vec sur des séquences de produits 1. Représentation de produits :

Session utilisateur = phrase Item 𝑡0 𝑡1 𝑡2 𝑡3 𝑡4

Masque + Prédiction contextuelle

[Chen 12, Grbovic 15]

2. Représentation d’utilisateurs :

𝑡1 𝑡2

prédiction de l'item suivant

12/30

(22)

𝑡1 𝑡2

Similarité produit >> facto. matricielle (idem Word2Vec >> pLSA )

12/30

(23)

𝑡1 𝑡2

Nouvelle tâche :

Prédiction de la prochaine visite

12/30

(24)

𝑡1 𝑡2

Nouvelle tâche :

Prédiction de la prochaine visite Extension projet AMMICO : modélisation des visiteurs dans les musées 12/30

(25)

Contribution (5) : Vers une sémantique contextuelle [Dias 18]: RNN + TAL⇒ % perf. auniveau phrase

Agrégation Mots⇒ Phrases⇒ Documents

Attention = extraire les éléments clés dans la décision Profils reco. pour implémenter l’attention

Sélection personnalisée de mots, phrases, revues

⇒ Explications

% perf. en recommandation (prédiction de notes)

13/30

(26)

Contribution (5) : Vers une sémantique contextuelle [Dias 18]: RNN + TAL⇒ % perf. auniveau phrase

Agrégation Mots⇒ Phrases⇒ Documents

Attention = extraire les éléments clés dans la décision Profils reco. pour implémenter l’attention

Matrice de notes

Lecteur automatique personnalisé

Sélection personnalisée de mots, phrases, revues

⇒ Explications

% perf. en recommandation (prédiction de notes)

13/30

(27)

Introduction Sémantique Architecture de bout en bout Conclusion & perspectives

Conclusions

Focalisation sur les modèles pour expliquer la/les définition(s) de la sémantique.

Les résultats quantitatifs sont dans le mémoire.

Lasémantique, ce n’est pas que du texte...

⇒ Encore mieux encombinant les modalités!

Ethique : un faux débat sémantique sur lesmodèles, un vrai débat sur les usages Meilleure prédiction de notes = factorisation matricielle (6=deep learning)

deep-learning = opportunité de combiner les modalités de données

14/30

(28)

Conclusions

⇒ Encore mieux encombinant les modalités! Produits, Mots... Usagers, Utilisateurs =mêmes algorithmes!

Ethique : un faux débat sémantique sur lesmodèles, un vrai débat sur les usages

6

=

14/30

(29)

Conclusions

⇒ Encore mieux encombinant les modalités! Produits, Mots... Usagers, Utilisateurs =mêmes algorithmes!

Ethique : un faux débat sémantique sur lesmodèles, un vrai débat sur les usages Meilleure prédiction de notes = factorisation matricielle (6=deep learning)

14/30

(30)

Architectures de bout en bout

et démêlage

(31)

Architecture de bout en bout

Retour sur les approches non-supervisées / auto-supervisées

1 Encodage de données de plus en plus complexes

2 Raffinage avec d’autres tâches

(Denoising) Auto-encodeur vectoriel [Erhan 09]

Transformer / BERT [Waswani 17, Devlin 18]

𝑊𝑒 𝑊𝑑

𝑋^□ 𝑋ˆ 𝑋

15/30

(32)

le chat tigré

Appris sur de large corpus

15/30

(33)

le chat tigré

the gray cat

the tiger cat

_ = +

Classiﬁcation thématique

Appris sur de large corpus

Transféré sur d’autres applications Encoderet/ouDecoder Raffiné / modifié / étendu

avec d’autres données

15/30

(34)

Architecture de bout en bout & démêlage / disentanglement

Interpréter l’espace de représentation

Variational AutoEncoder [Kingma 14]

Generative Adversarial Network [Goodfellow 14, Chen 16]

Encodage / Transformation / Génération [Lample 19]

le chat tigré

the tiger cat Représentation intermédiaire

+ Reconstruction des données + Encodage de connaissances - Espace latent non interprétable

Objectif:

16/30

(35)

Contribution (1) : Modèle génératif adversaire entre textes et profils

[Dias 19]La recommandation comme une prédiction de sentiments en aveugle : Prédire une note =

1 Générer la revue pour l’utilisateur

2 Noter cette revue

t

⎯⎯

u t ̂ v ∼ (0, 1) i

C

ae

Adv

D

Generateur Discriminateur

mlpg

mlpae Item 4 - User 6

t

What a great product ! Cheap and Good, nothing to say !

OR modèle de

langue

17/30

(36)

Contribution (1) : Modèle génératif adversaire entre textes et profils

[Dias 19]La recommandation comme une prédiction de sentiments en aveugle : Prédire une note =

1 Générer la revue pour l’utilisateur

2 Noter cette revue

Bonne prédiction notes + textes Espace de représentation ⇔ dimensions explicites en texte Exemple d’axe latent associé à du texte :

++ -- ^17/30

(37)

Contribution (2) : Encodeur-décodeur pour la robustesse et la dynamique [Dias 17]Données bruitées & structurée = CVs & dynamique = prochain job

Job 6=catégorie

(différentes écritures) CV = très bruités

(titres longs,

fautes orthographes)

Encodage Prédiction

A A

0 1 0 0 0 0 0

A

0 0 1 0 0 0 0

A

1 0 0 0 0 0 0

v e n d

...

e u r $ $ z

A A

^ +

1 0 0 0 0 0 0 0 0.1 0.

0.

0.4 0 0

Prédiction de :

z + z + z + z + Concaténation

des représentations

v e $

A

0 0 0 0 1 0 0

h

A

0 1 0 0 0 0 0

h

A

0 0 1 0 0 0 0

h

A

1 0 0 0 0 0 0

h

v e n d

...

e u r $ $ h

1-hot encoding

A

Représentation latente du mot

A

0 0 0 0 0 0 1

h

^

Encodeur Décodeur

B z

unité GRU

unité GRU Alignement avec les

représentations Word2Vec

A A

0 1 0 0 0 0 0

A

0 0 1 0 0 0 0

A

1 0 0 0 0 0 0

v e n d

...

e u r $ $ z

A A

^ +

1 0 0 0 0 0 0 0 0.1 0.

0.

0.4 0 0

Prédiction de :

v e $

A

0 0 0 0 1 0 0

h

A

0 1 0 0 0 0 0

h

A

0 0 1 0 0 0 0

h

A

1 0 0 0 0 0 0

h

v e n d

...

e u r $ $ h

1-hot encoding

A

0 0 0 0 0 0 1

h

^

B z

unité GRU

Archi. char-to-char

18/30

(38)

Contribution (2) : Encodeur-décodeur pour la robustesse et la dynamique [Dias 17]Données bruitées & structurée = CVs & dynamique = prochain job

Job 6=catégorie

(titres longs,

fautes orthographes)

Encodage Prédiction

A A

0 1 0 0 0 0 0

A

0 0 1 0 0 0 0

A

1 0 0 0 0 0 0

v e n d

...

e u r $ $ z

A A

^ +

1 0 0 0 0 0 0 0 0.1 0.

0.

0.4 0 0

Prédiction de :

v e $

A

0 0 0 0 1 0 0

h

A

0 1 0 0 0 0 0

h

A

0 0 1 0 0 0 0

h

A

1 0 0 0 0 0 0

h

v e n d

...

e u r $ $ h

1-hot encoding

A

0 0 0 0 0 0 1

h

^

B z

unité GRU

A A

0 1 0 0 0 0 0

A

0 0 1 0 0 0 0

A

1 0 0 0 0 0 0

v e n d

...

e u r $ $ z

A A

^ +

1 0 0 0 0 0 0 0 0.1 0.

0.

0.4 0 0

Prédiction de :

v e $

A

0 0 0 0 1 0 0

h

A

0 1 0 0 0 0 0

h

A

0 0 1 0 0 0 0

h

A

1 0 0 0 0 0 0

h

v e n d

...

e u r $ $ h

1-hot encoding

A

0 0 0 0 0 0 1

h

^

B z

unité GRU

Archi. char-to-char

18/30

(39)

Contribution (2) : Encodeur-décodeur pour la robustesse et la dynamique

[Dias 17]Données bruitées & structurée = CVs & dynamique = prochain job Job 6=catégorie

(titres longs,

fautes orthographes) Aide au remplissage de formulaire

Prédiction de churn

Caractérisation des carrières

A A

0 1 0 0 0 0 0

A

0 0 1 0 0 0 0

A

1 0 0 0 0 0 0

v e n d

...

e u r $ $ z

A A

^ +

1 0 0 0 0 0 0 0 0.1 0.

0.

0.4 0 0

Prédiction de :

v e $

A

0 0 0 0 1 0 0

h

A

0 1 0 0 0 0 0

h

A

0 0 1 0 0 0 0

h

A

1 0 0 0 0 0 0

h

v e n d

...

e u r $ $ h

1-hot encoding

A

0 0 0 0 0 0 1

h

^

B z

unité GRU

A A

0 1 0 0 0 0 0

A

0 0 1 0 0 0 0

A

1 0 0 0 0 0 0

v e n d

...

e u r $ $ z

A A

^ +

1 0 0 0 0 0 0 0 0.1 0.

0.

0.4 0 0

Prédiction de :

v e $

A

0 0 0 0 1 0 0

h

A

0 1 0 0 0 0 0

h

A

0 0 1 0 0 0 0

h

A

1 0 0 0 0 0 0

h

v e n d

...

e u r $ $ h

1-hot encoding

A

0 0 0 0 0 0 1

h

^

B z

unité GRU

Archi. char-to-char

18/30

(40)

Contribution (3) : De la sémantique aux connaissances

NER : Named Entity Recognition = base de l’extraction de connaissances

HMM puis CRF [Zhou 02, McCallum 03]

Bi-LSTM + CRF + char & word encoding [Lample 16]

ELMO - BERT [Peters 18, Devlin 18]

19/30

(41)

Contribution (3) : Entités nommées, reconnaissance ou extraction ?

[Taillé 19,20]Problème dans la constitution des jeux de données de référence :

JF Kennedy was fatally shot by former U.S. Marine Lee Harvey Oswald

John Fitzgerald Kennedy, the 35th president of the United States, is assassinated by Lee Harvey Oswald while traveling through Dallas

Train Test

Reconnaitre un terme6=Extraire un terme inconnu

20/30

(42)

[Taillé 19,20]Problème dans la constitution des jeux de données de référence :

EM = Exact Match entre train/test PM = Partial Match entre train/test

JF Kennedy was fatally shot by former U.S. Marine Lee Harvey Oswald

John Fitzgerald Kennedy, the 35th president of the United States, is assassinated by Lee Harvey Oswald while traveling through Dallas

Train Test

20/30

(43)

[Taillé 19,20]Problème dans la constitution des jeux de données de référence : EM = Exact Match entre train/test PM = Partial Match entre train/test

CoNLL03 OntoNotes^∗ WNUT^∗

LOC MIS ORG PER ALL LOC MIS ORG PER ALL LOC ORG PER ALL

Self

EM 82% 67% 54% 14% 52% 87% 93% 54% 49% 69% - - - - PM 4% 11% 17% 43% 20% 6% 2% 32% 36% 20% 11% 5% 13% 12%

New 14% 22% 29% 43% 28% 7% 5% 14% 15% 11% 89% 95% 87% 88%

CoNLL

EM - - - - - 70% 78% 18% 16% 42% 26% 8% 1% 7%

PM - - - - - 7% 10% 45% 46% 28% 9% 15% 16% 14%

New - - - - - 23% 12% 38% 38% 30% 65% 77% 83% 78%

20/30

(44)

Contribution (3) : entités nommées, reconnaissance ou extraction ?

[Taillé 19,20]

Modèles de langue récents = principaux vecteurs d’amélioration en NER 4 B. Taill´e et al.

Table 2.In-domain micro-F1 scores of the BiLSTM-CRF. We split mentions by novelty:exact match(EM),partial match(PM) andnew. Average of 5 runs, subscript denotes standard deviation.

CoNLL03 OntoNotes^⇤ WNUT^⇤

Embedding Dim EM PM New All EM PM New All PM New All

BERT 4096 95.7.1 88.8.3 82.2.3 90.5.1 96.9.2 88.6.3 81.1.5 93.5.2 77.04.653.9.9 57.01.0

ELMo 1024 95.9.1 89.2.5 85.8.7 91.8.3 97.1.2 88.0.2 79.9.7 93.4.2 67.73.249.5.9 52.11.0

Flair 4096 95.4.1 88.1.6 83.5.5 90.6.2 96.7.1 85.8.5 75.0.6 92.1.2 64.9.7 48.22.050.41.8

ELMo[0] 1024 95.8.1 87.2.2 83.5.4 90.7.1 96.9.1 85.9.3 75.5.6 92.4.1 72.81.345.42.849.12.3

GloVe + char 350 95.3.3 85.5.7 83.1.7 89.9.5 96.3.1 83.3.2 69.9.6 91.0.1 63.24.633.41.538.01.7

GloVe 300 95.1.4 85.3.5 81.1.5 89.3.4 96.2.2 82.9.2 63.8.5 90.4.2 59.12.928.11.532.91.2

4.1 General Observations

ELMo, BERT and Flair Drawing conclusions from the comparison of ELMo, BERT and Flair is difficult because there is no clear hierarchy accross datasets and they differ in dimensions, tokenization, contextualization levels and pretraining corpora. However, although BERT is particularly effective on the WNUT dataset in-domain, probably due to its subword tokenization, ELMo yields the most stable results in and out-of-domain.

Furthermore, Flair globally underperforms ELMo and BERT, particularly for unseen mentions and out-of-domain. This suggests that LM pretraining at a lexical level (word or subword) is more robust for generalization than at a character level. In fact, Flair only beats the non contextual ELMo[0] baseline with Map-CRF which indicates that character-level contextualization is less beneficial than word-level contextualization with character-level representations.

ELMo[0] vs GloVe+char Overall, ELMo[0] outperforms the GloVe+char baseline, particularly on unseen mentions, out-of-domain and on WNUT^⇤. The main difference is the incorporation of morphological features: in ELMo[0] they are learned jointly with the LM on a huge dataset whereas the char-BiLSTM is only trained on the source NER training set. Yet, morphology is crucial to represent words never encountered during pretraining and in WNUT^⇤ around 20% of words in test mentions are out of GloVe vocabulary against 5% in CoNLL03 and 3% in OntoNotes^⇤. This explains the poor performance of GloVe baselines on WNUT^⇤, all the more out-of-domain, and why a model trained on CoNLL03 with ELMo outperforms one trained on WNUT^⇤with GloVe+char. Thus, ELMo’s improvement over previous state-of-the-art does not only stem from contextualization but also an effective non-contextual word representation.

Seen Mentions Bias In every configuration,F1exact > F1partial > F1new with more than 10 points difference. This gap is wider out-of-domain where the context differs more from training data than in-domain. NER models thus poorly generalize to unseen mentions, and datasets with high lexical overlap only encourage this behavior. However, this generalization gap is reduced by two types of contextualization described hereafter.

21/30

(45)

[Taillé 19,20]

Modèles de langue récents = principaux vecteurs d’amélioration en NER

Modèle de langue = état de l’art sur les benchmarks de référence

21/30

(46)

[Taillé 19,20]

Modèles de langue récents = principaux vecteurs d’amélioration en NER

Le phénomène est encore bien plus fort dans les cas difficiles !

21/30

(47)

Contribution (4) Performances en extraction de relation de bout en bout

[Taillé 20]: Multiplication des métriques ⇒ confusion +optimisation Types des entités

Bornes de entités Types des relations

Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1858–1869, October 25-29, 2014, Doha, Qatar. c 2014 Association for Computational Linguistics

Modeling Joint Entity and Relation Extraction with Table Representation

Makoto Miwa and Yutaka Sasaki Toyota Technological Institute

2-12-1 Hisakata, Tempaku-ku, Nagoya, 468-8511, Japan {makoto-miwa, yutaka.sasaki}@toyota-ti.ac.jp

Abstract

This paper proposes a history-based structured learning approach that jointly ex- tracts entities and relations in a sentence.

We introduce a novel simple and flexible table representation of entities and relations. We investigate several feature set- tings, search orders, and learning methods with inexact search on the table. The experimental results demonstrate that a joint learning approach significantly outperforms a pipeline approach by incorpo- rating global features and by selecting ap- propriate learning methods and search orders.

1 Introduction

Extraction of entities and relations from texts has been traditionally treated as a pipeline of two sep- arate subtasks: entity recognition and relation extraction. This separation makes the task easy to deal with, but it ignores underlying dependencies between and within subtasks. First, since entity recognition is not affected by relation extraction, errors in entity recognition are propagated to relation extraction. Second, relation extraction is often treated as a multi-class classification problem on pairs of entities, so dependencies between pairs are ignored. Examples of these dependencies are illustrated in Figure 1. For dependencies between subtasks, aLive inrelation requiresPER and LOC entities, and vice versa. For in-subtask dependencies, theLive inrelation between “Mrs.

Tsutayama” and “Japan” can be inferred from the two other relations.

Figure 1 also shows that the task has a flexible graph structure. This structure usually does not cover all the words in a sentence differently from other natural language processing (NLP) tasks such as part-of-speech (POS) tagging and depen-

!"#$%&#'"'()*)%+#%,"-*%.'*)*-/-%0"1,12/'"1%+3%4)5)3%$

!"# $%& $%&

!"#$%"& !'()*$+%"&

!"#$%"&

Figure 1: An entity and relation example (Roth and Yih, 2004). Person (PER) and location (LOC) entities are connected by Live in and Located in relations.

dency parsing, so local constraints are considered to be more important in the task.

Joint learning approaches (Yang and Cardie, 2013; Singh et al., 2013) incorporate these dependencies and local constraints in their models;

however most approaches are time-consuming and employ complex structures consisting of multi- ple models. Li and Ji (2014) recently proposed a history-based structured learning approach that is simpler and more computationally efficient than other approaches. While this approach is promis- ing, it still has a complexity in search and restricts the search order partly due to its semi-Markov representation, and thus the potential of the history- based learning is not fully investigated.

In this paper, we introduce an entity and relation table to address the difficulty in representing the task. We propose a joint extraction of entities and relations using a history-based structured learning on the table. This table representation simplifies the task into a table-filling problem, and makes the task flexible enough to incorporate several en- hancements that have not been addressed in the previous history-based approach, such as search orders in decoding, global features from relations to entities, and several learning methods with inexact search.

2 Method

In this section, we first introduce an entity and relation table that is utilized to represent the whole 1858

Analyse des modèles de l’état de l’art dans différentes situations (métriques / ablations)

22/30