APPRENTISSAGE DE REPRÉSENTATION:
DE LA DÉCISION NON-LINÉAIRE À LA GÉNÉRATION DE DONNÉES
17 février 2021
Vincent Guigue
Jury: Massih-Reza Amini Université Grenoble Alpes Rapporteur Patrice Bellot Université Aix-Marseille Rapporteur Gabriella Pasi Université de Milan Rapporteur Mohamed Chetouani Sorbonne Université Examinateur Martin Trepanier Polytechnique Montréal Examinateur Emmanuel Viennet Université Paris 13 Examinateur
Collaborations & positionnement thématique
A. Rafrafi
M. Poussevin
E. Guardia-Sebaoun
L. Tajtelbom C-E. Dias
P. Cribier Delande
C. Gainon de Forsan de Gabriac B. Taillé
Séries temporelles
2010 2012 2014 2016 2018 2020
Profils Recommandation
Trait. Auto. des Langues
E. Tonnelier
Co-encadrements avec P. Gallinari, T. Artières, N. Baskiotis, L. Denoyer Période de mutation du machine learning & impact sociétal important Recherche appliquée / frontière entre modalités
2/30
(1) Sémantique statique des données
Sémantique = notion diffuse : plusieurs définitions
différentes échelles / diverses modalités de données
pLSA [Hofmann 99]
Factorisation matricielle [Hoyer 02]
Word2Vec [Mikolov 13]
⇒Representation learning [Bengio 13]
homme
femme acteur
actrice
3/30
(2) Sémantique contextuelle – approches génératives de bout en bout
Sequence 2 sequence [Sutskever 14]
Plasticité des architectures de deep-learning [Antol 15]
VAE/GAN & démêlage [Kingma 14, Goodfellow 14, Chen 16]
Modèles de langue : ELMO, BERT [Peters 18, Devlin 18]
Ce nouveliPhone
?
quelle
affaire arnaque auto-supervision
+
Opinion _
Ancrage image
4/30
(2) Sémantique contextuelle – approches génératives de bout en bout
Sequence 2 sequence [Sutskever 14]
Plasticité des architectures de deep-learning [Antol 15]
VAE/GAN & démêlage [Kingma 14, Goodfellow 14, Chen 16]
Modèles de langue : ELMO, BERT [Peters 18, Devlin 18]
Ce nouveliPhone
?
quelle
affaire arnaque auto-supervision
+
Opinion _
Ancrage image
4/30
(2) Sémantique contextuelle – approches génératives de bout en bout
Sequence 2 sequence [Sutskever 14]
Plasticité des architectures de deep-learning [Antol 15]
VAE/GAN & démêlage [Kingma 14, Goodfellow 14, Chen 16]
Modèles de langue : ELMO, BERT [Peters 18, Devlin 18]
Ce nouveliPhone
?
quelle
affaire arnaque auto-supervision
+
Opinion _
Ancrage image
4/30
Compréhension des données,
sémantique des concepts
Sémantique : définition(s) et échelles
Différentes définitions à différentes échelles :
Catégoriser des données : Sens = ensemble de données homogène [Dubes 88]
LSA/pLSA (textes) Cluster = Extraction d’un champ lexical [Hofmann 99]
Recommandation Métrique utilisateurs–produits & Affinités [Hoyer 02]
Séries temporelles Séparation des sources, décomposition [Cordoso 97]
Word2Vec (textes) Distance+direction entre les mots [Mikolov 13]
Prod2vec Métrique fine entre les produits [Grbovic 15]
5/30
Sémantique : définition(s) et échelles
LSA/pLSA (textes) Cluster = Extraction d’un champ lexical [Hofmann 99]
Recommandation Métrique utilisateurs–produits & Affinités [Hoyer 02]
Séries temporelles Séparation des sources, décomposition [Cordoso 97]
Factorisation matricielle
Algorithme versatile, robuste,
débruite les données, compresse et explique Apprentissage par descente de gradient itérative Problème non convexe
Opportunité de biaiser / contraindre l’apprentissage
non-negative, orthogonal d
n n
d z
z
X C
D
5/30
Sémantique : définition(s) et échelles
LSA/pLSA (textes) Cluster = Extraction d’un champ lexical [Hofmann 99]
Recommandation Métrique utilisateurs–produits & Affinités [Hoyer 02]
Séries temporelles Séparation des sources, décomposition [Cordoso 97]
Factorisation matricielle
Algorithme versatile, robuste,
débruite les données, compresse et explique Apprentissage par descente de gradient itérative Problème non convexe
Opportunité de biaiser / contraindre l’apprentissage
non-negative, orthogonal Code Sac de mots
Champs lexicaux
Document
Analyse Sémantique Latente 5/30
Sémantique : définition(s) et échelles
LSA/pLSA (textes) Cluster = Extraction d’un champ lexical [Hofmann 99]
Recommandation Métrique utilisateurs–produits & Affinités [Hoyer 02]
Séries temporelles Séparation des sources, décomposition [Cordoso 97]
Factorisation matricielle
Algorithme versatile, robuste,
débruite les données, compresse et explique Apprentissage par descente de gradient itérative Problème non convexe
Opportunité de biaiser / contraindre l’apprentissage
non-negative, orthogonal Matrice de notes
Affinité
Recommandation
5/30
Sémantique : définition(s) et échelles
LSA/pLSA (textes) Cluster = Extraction d’un champ lexical [Hofmann 99]
Recommandation Métrique utilisateurs–produits & Affinités [Hoyer 02]
Séries temporelles Séparation des sources, décomposition [Cordoso 97]
Factorisation matricielle
Algorithme versatile, robuste,
débruite les données, compresse et explique Apprentissage par descente de gradient itérative Problème non convexe
Opportunité de biaiser / contraindre l’apprentissage
non-negative, orthogonal Code Matrice de logs
Pattern fréquents
Log station métro
Séparation de sources 5/30
Sémantique : définition(s) et échelles
Différentes définitions à différentes échelles :
Word2Vec (textes) Distance+direction entre les mots [Mikolov 13]
Prod2vec Métrique fine entre les produits [Grbovic 15]
Factorisation matricielle
chat tigré est assis sur la table
chat chien
chats chiens
bien
mauvais meilleur
pire Italie France
Allemagne Rome Paris
Berlin
homme
femme acteur
actrice il
elle sien sienne tu
tien roi
reine
Paradigme Word2Vec ⇒Espace vectoriel sémantique induit
6/30
Contribution (1) : Analyse de masses d’informations bruitées et parcellaires
Cartes RFID = smart card = AFC Collaboration IdF Mobilités (ex STIF)
+ Nouvelle vision des transports + Evaluation des politiques publiques + Aide à la décision
− Données très bruitées
− Entrées seulement
Données disponibles, par usager :
Objectif : séparer / comprendre les usages
7/30
Contribution (1) : Vue générale des résultats obtenus [Poussevin 14,16]
1 Extraction des comportements récurrents individuels
2 Différentes échelles fréquentielles (fréquent/rare)
3 Projection des comportements sur une carte
02h 08h 12h 17h 22h Sun Mon Tue Wen Thu Fri Sat
2am6am8am 12am 5pm 10pmSunMonTueWenThu Fri Sat b=high
2am6am8am 12am 5pm 10pmSunMonTueWenThu Fri Sat b=medium
2am6am8am 12am 5pm 10pmSunMonTueWenThu Fri Sat b=low
5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5
lo g( p ( b ) ( a | t ))
gare de lyon marcadet poissonniers
montgallet ranelagh
villejuif louis aragon aubervilliers pantin porte de la chapelle
campo formio billancourt
chardon lagache
pyramides couronnes
danube
volontaires
saint maur telegraphe kleber
monceau gare de l'est
lourmel
reaumur sebastopol ternes
maraichers
creteil pointe du lac charonne
porte de bagnolet
commerce tuileries villiersrome
saint fargeau
vaugirard ecole militaire
buzenval chateau landon
bir hakeim trinite d'estienne d'orves
olympiades bel air gaite
bolivar pyrenees
pont marie rambuteau
sevres lecourbe pont de levallois becon
jacques bonsergent botzaris
porte de vincennes montparnasse
belleville franklin roosevelt
pigalle
reuilly diderot felix faure
convention
picpus
nationale pont de sevres
victor hugo
plaisance jaures pont de neuilly
blanche jules joffrin les agnettes
ourcq
palais royal trocadero
madeleine colonel fabien
le kremlin bicetre richelieu drouot
la chapelle europe
charenton ecoles porte doree saint michel duroc
bourse
varenne
mairie de montreuil
vaneau
creteil universite filles du calvaire
odeon temple wagram
8 mai 1945
porte de charenton sevres babylone
george v
pelleport concorde
malakoff rue etienne dolet
creteil prefecture rennes
porte de pantin
dupleix
michel bizot charles de gaulle etoile
bastille mirabeau
corentin cariou
chaussee d'antin chateau rouge
chevaleret brochant
miromesnil crimee
alexandre dumas avenue emile zola
opera saint philippe du roule
menilmontant place des fetes
edgar quinet chateau d'eau
saint sulpice la defense
mairie de clichy
gare du nord courcelles
glaciere
creteil l'echat porte de vanves
poissonniere
pont neuf notre dame de lorette gabriel peri
quai de la rapee javel
saint marcel corvisart charles michels
maisons alfort stade louis blanc
basilique de saint denis
assemblee nationale
michel ange auteuil les sablons
cambronne malesherbes
goncourt strasbourg saint denis
maisons alfort les juilliottes porte des lilas
les gobelins
pierre et marie curie hoche porte de la villette
place monge argentine
saint sebastien froissartpere lachaise
boulogne pont de saint cloud eglise d'auteuil
gallieni
bibliotheque francois mitterrand place d'italie
bobigny pantin
jourdain laumiere
etienne marcel buttes chaumont place de clichy
bonne nouvelle
villejuif leo lagrange corentin celton
louise michel
rue des boulets falguiere
riquet mairie de saint ouen
iena louvre rivoli
la motte picquet grenelle sully morland
bobigny pablo picasso
berault avron sentier
austerlitz la muette
stalingrad carrefour pleyel
maubert mutualite exelmans
quatre septembre boissiere
maison blanche bercy rue de la pompe
grands boulevards porte de clignancourt
michel ange molitor
fort d'aubervilliers
les halles
segur
saint jacques
ecole veterinaire de maisons alfort
villejuif paul vaillant couturier
saint francois xavier porte de montreuil
porte de versailles
quai de la gare champs elysees clemenceau
saint germain des pres
mairie des lilas
alma marceau
pre saint gervais saint lazare
pereire
porte d'orleans
chatillon montrouge anatole france
lamarck caulaincourt
pasteur raspail pernety
alesia marcel sembat
cardinal lemoine
denfert rochereau republique
mouton duvernet le peletier
eglise de pantin les courtilles asnieres gennevilliers
mabillon
croix de chavaux saint ambroise porte de saint ouen
notre dame des champs breguet sabin
saint mande porte de clichy
invalides
boucicaut havre caumartin
marx dormoy
porte de choisy liege
porte de saint cloud vavin
liberte cour saint emilion saint placide
porte d'ivry mairie d'issy
porte maillot
la tour maubourg
censier daubenton cadet
jasmin
barbes rochechouart
jussieu porte dauphine
richard lenoir ledru rollin arts et metiers
porte d'italie saint georges esplanade de la defense
saint denis universite
mairie d'ivry oberkampf
faidherbe chaligny
balard
saint paul
malakoff plateau de vanves simplon
daumesnil chateau de vincennes saint augustin
guy moquet
robespierre voltaire porte de champerret
garibaldi
hotel de ville gambetta cite rue du bac
saint denis porte de paris
parmentier
solferino chatelet
porte d'auteuil
tolbiac dugommier anvers
nation abbesses
boulogne jean jaures
passy chemin vert
la fourche
philippe auguste
c01c02 c03c04 c05
0.0002 0.0001 0.0000 0.0001 0.0002
0.0006 0.0004 0.0002 0.0000 0.0002 0.0004 0.0006
0.00010 0.00005 0.00000 0.00005 0.00010
0.0004 0.0002 0.0000 0.0002 0.0004
0.00006 0.00004 0.00002 0.00000 0.00002 0.00004 0.00006
0.0010 0.0005 0.0000 0.0005 0.0010
0.0015 0.0010 0.0005 0.0000 0.0005 0.0010 0.0015
0.010 0.005 0.000 0.005 0.010
0.0010 0.0005 0.0000 0.0005 0.0010
0.002 0.001 0.000 0.001 0.002
0.0003 0.0002 0.0001 0.0000 0.0001 0.0002 0.0003
0.004 0.002 0.000 0.002 0.004
0.0006 0.0004 0.0002 0.0000 0.0002 0.0004 0.0006
0.002 0.001 0.000 0.001 0.002
0.0006 0.0004 0.0002 0.0000 0.0002 0.0004 0.0006
0.0015 0.0010 0.0005 0.0000 0.0005 0.0010 0.0015
0.00004 0.00002 0.00000 0.00002 0.00004
0.0005 0.0000 0.0005
0.0010 0.0005 0.0000 0.0005 0.0010
0.006 0.004 0.002 0.000 0.002 0.004 0.006
0.0006 0.0004 0.0002 0.0000 0.0002 0.0004 0.0006
0.0010 0.0005 0.0000 0.0005 0.0010
0.00015 0.00010 0.00005 0.00000 0.00005 0.00010 0.00015
0.002 0.001 0.000 0.001 0.002
0.0015 0.0010 0.0005 0.0000 0.0005 0.0010 0.0015
0.006 0.004 0.002 0.000 0.002 0.004 0.006
0.0015 0.0010 0.0005 0.0000 0.0005 0.0010 0.0015
0.002 0.001 0.000 0.001 0.002
0.00015 0.00010 0.00005 0.00000 0.00005 0.00010 0.00015
0.002 0.001 0.000 0.001 0.002
8/30
Contribution (1) : Relaxation de la position des motifs caractéristiques
[Tonnelier 16,17,18]NMF invariante en translation : localiser un comportement
Signal Atom Shift
u : usager
wuz : code, puissance du comportementz pouru φuz : localisation du comportement z pouru dz : comportement
u =X
z
τu,z(wu,zdz) =wu,zdz(t+φu,z)
= ⊕
(
×)
Data matrix (logs) φmatrix Code matrix Dictionary i-th row
Prédiction de comportements / détection d’anomalies / Fact. tensorielle
9/30
Contribution (2) : Explique le filtrage collaboratif par données textuelles
[Poussevin 14,15]Combiner prédiction d’affinités et génération de résumé personnalisé
Matrice de notes Affinité
+
Mélange d’analyse de sentiments et de recommandation
Détection des phénomènes de surprises
Difficulté pour l’évaluation quantitative
Résultats qualitatifs amusants Un premier pas vers l’xAI
10/30
Contribution (3) : Projeter le filtrage collaboratif dans un espace textuel
[Dias 16,17]Réconciliation entre filtrage collaboratif & content based Extension de Word2Vec
+ profils utilisateurs/produits
Concepts
11/30
Contribution (3) : Projeter le filtrage collaboratif dans un espace textuel
[Dias 16,17]Réconciliation entre filtrage collaboratif & content based Extension de Word2Vec
+ profils utilisateurs/produits
Concepts
Espace de représentation multi-modal :
Produit Mots
Utilisateur Espace vectoriel unifié
Prédiction de
notes/mots/revues en plus-proches-voisins Performances quantitative &
qualitative ++
11/30
Contribution (3) : Projeter le filtrage collaboratif dans un espace textuel [Dias 16,17]Réconciliation entre filtrage collaboratif & content based
Extension de Word2Vec + profils utilisateurs/produits
Concepts
Espace de représentation multi-modal :
Produit Mots
Utilisateur Espace vectoriel unifié
Prédiction de
notes/mots/revues en plus-proches-voisins Performances quantitative &
qualitative ++
Extension pour lecold-start
1 Construction de profil utilisateur à partir de textes
2 Prédiction de notes dans l’espace hybride
11/30
Contribution (4) : Recommandation et dynamique locale
[Guardia-Sebaoun 15,16]: Word2Vec sur des séquences de produits 1. Représentation de produits :
Session utilisateur = phrase Item 𝑡0 𝑡1 𝑡2 𝑡3 𝑡4
Masque + Prédiction contextuelle
[Chen 12, Grbovic 15]
2. Représentation d’utilisateurs :
𝑡1 𝑡2
prédiction de l'item suivant
12/30
Contribution (4) : Recommandation et dynamique locale
[Guardia-Sebaoun 15,16]: Word2Vec sur des séquences de produits 1. Représentation de produits :
Session utilisateur = phrase Item 𝑡0 𝑡1 𝑡2 𝑡3 𝑡4
Masque + Prédiction contextuelle
[Chen 12, Grbovic 15]
2. Représentation d’utilisateurs :
𝑡1 𝑡2
prédiction de l'item suivant
Similarité produit >> facto. matricielle (idem Word2Vec >> pLSA )
12/30
Contribution (4) : Recommandation et dynamique locale
[Guardia-Sebaoun 15,16]: Word2Vec sur des séquences de produits 1. Représentation de produits :
Session utilisateur = phrase Item 𝑡0 𝑡1 𝑡2 𝑡3 𝑡4
Masque + Prédiction contextuelle
[Chen 12, Grbovic 15]
2. Représentation d’utilisateurs :
𝑡1 𝑡2
prédiction de l'item suivant
Similarité produit >> facto. matricielle (idem Word2Vec >> pLSA )
Nouvelle tâche :
Prédiction de la prochaine visite
12/30
Contribution (4) : Recommandation et dynamique locale
[Guardia-Sebaoun 15,16]: Word2Vec sur des séquences de produits 1. Représentation de produits :
Session utilisateur = phrase Item 𝑡0 𝑡1 𝑡2 𝑡3 𝑡4
Masque + Prédiction contextuelle
[Chen 12, Grbovic 15]
2. Représentation d’utilisateurs :
𝑡1 𝑡2
prédiction de l'item suivant
Similarité produit >> facto. matricielle (idem Word2Vec >> pLSA )
Nouvelle tâche :
Prédiction de la prochaine visite Extension projet AMMICO : modélisation des visiteurs dans les musées 12/30
Contribution (5) : Vers une sémantique contextuelle [Dias 18]: RNN + TAL⇒ % perf. auniveau phrase
Agrégation Mots⇒ Phrases⇒ Documents
Attention = extraire les éléments clés dans la décision Profils reco. pour implémenter l’attention
Sélection personnalisée de mots, phrases, revues
⇒ Explications
% perf. en recommandation (prédiction de notes)
13/30
Contribution (5) : Vers une sémantique contextuelle [Dias 18]: RNN + TAL⇒ % perf. auniveau phrase
Agrégation Mots⇒ Phrases⇒ Documents
Attention = extraire les éléments clés dans la décision Profils reco. pour implémenter l’attention
Matrice de notes
Lecteur automatique personnalisé
Sélection personnalisée de mots, phrases, revues
⇒ Explications
% perf. en recommandation (prédiction de notes)
13/30
Introduction Sémantique Architecture de bout en bout Conclusion & perspectives
Conclusions
Focalisation sur les modèles pour expliquer la/les définition(s) de la sémantique.
Les résultats quantitatifs sont dans le mémoire.
Lasémantique, ce n’est pas que du texte...
⇒ Encore mieux encombinant les modalités!
Ethique : un faux débat sémantique sur lesmodèles, un vrai débat sur les usages Meilleure prédiction de notes = factorisation matricielle (6=deep learning)
deep-learning = opportunité de combiner les modalités de données
14/30
Introduction Sémantique Architecture de bout en bout Conclusion & perspectives
Conclusions
Focalisation sur les modèles pour expliquer la/les définition(s) de la sémantique.
Les résultats quantitatifs sont dans le mémoire.
Lasémantique, ce n’est pas que du texte...
⇒ Encore mieux encombinant les modalités! Produits, Mots... Usagers, Utilisateurs =mêmes algorithmes!
Ethique : un faux débat sémantique sur lesmodèles, un vrai débat sur les usages
6
=
deep-learning = opportunité de combiner les modalités de données
14/30
Conclusions
Focalisation sur les modèles pour expliquer la/les définition(s) de la sémantique.
Les résultats quantitatifs sont dans le mémoire.
Lasémantique, ce n’est pas que du texte...
⇒ Encore mieux encombinant les modalités! Produits, Mots... Usagers, Utilisateurs =mêmes algorithmes!
Ethique : un faux débat sémantique sur lesmodèles, un vrai débat sur les usages Meilleure prédiction de notes = factorisation matricielle (6=deep learning)
deep-learning = opportunité de combiner les modalités de données
14/30
Architectures de bout en bout
et démêlage
Architecture de bout en bout
Retour sur les approches non-supervisées / auto-supervisées
1 Encodage de données de plus en plus complexes
2 Raffinage avec d’autres tâches
(Denoising) Auto-encodeur vectoriel [Erhan 09]
Word2Vec [Mikolov 13]
Sequence 2 sequence [Sutskever 14]
Transformer / BERT [Waswani 17, Devlin 18]
𝑊𝑒 𝑊𝑑
𝑋□ 𝑋ˆ 𝑋
15/30
Architecture de bout en bout
Retour sur les approches non-supervisées / auto-supervisées
1 Encodage de données de plus en plus complexes
2 Raffinage avec d’autres tâches
(Denoising) Auto-encodeur vectoriel [Erhan 09]
Word2Vec [Mikolov 13]
Sequence 2 sequence [Sutskever 14]
Transformer / BERT [Waswani 17, Devlin 18]
le chat tigré
le chat tigré
Appris sur de large corpus
15/30
Architecture de bout en bout
Retour sur les approches non-supervisées / auto-supervisées
1 Encodage de données de plus en plus complexes
2 Raffinage avec d’autres tâches
(Denoising) Auto-encodeur vectoriel [Erhan 09]
Word2Vec [Mikolov 13]
Sequence 2 sequence [Sutskever 14]
Transformer / BERT [Waswani 17, Devlin 18]
le chat tigré
the gray cat
the tiger cat
_ = +
Classification thématique
Appris sur de large corpus
Transféré sur d’autres applications Encoderet/ouDecoder Raffiné / modifié / étendu
avec d’autres données
15/30
Architecture de bout en bout & démêlage / disentanglement
Interpréter l’espace de représentation
Variational AutoEncoder [Kingma 14]
Generative Adversarial Network [Goodfellow 14, Chen 16]
Encodage / Transformation / Génération [Lample 19]
le chat tigré
the tiger cat Représentation intermédiaire
+ Reconstruction des données + Encodage de connaissances - Espace latent non interprétable
Objectif:
16/30
Contribution (1) : Modèle génératif adversaire entre textes et profils
[Dias 19]La recommandation comme une prédiction de sentiments en aveugle : Prédire une note =
1 Générer la revue pour l’utilisateur
2 Noter cette revue
t
⎯⎯u t ̂ v ∼ (0, 1) i
C
ae
Adv
D
Generateur Discriminateur
mlpg
mlpae Item 4 - User 6
t
What a great product ! Cheap and Good, nothing to say !
OR modèle de
langue
17/30
Contribution (1) : Modèle génératif adversaire entre textes et profils
[Dias 19]La recommandation comme une prédiction de sentiments en aveugle : Prédire une note =
1 Générer la revue pour l’utilisateur
2 Noter cette revue
Bonne prédiction notes + textes Espace de représentation ⇔ dimensions explicites en texte Exemple d’axe latent associé à du texte :
++ -- 17/30
Contribution (2) : Encodeur-décodeur pour la robustesse et la dynamique [Dias 17]Données bruitées & structurée = CVs & dynamique = prochain job
Job 6=catégorie
(différentes écritures) CV = très bruités
(titres longs,
fautes orthographes)
Encodage Prédiction
A A
0 1 0 0 0 0 0
A
0 0 1 0 0 0 0
A
1 0 0 0 0 0 0
v e n d
...
e u r $ $ z
A A
^ +
1 0 0 0 0 0 0 0 0.1 0.
0.
0.4 0 0
Prédiction de :
z + z + z + z + Concaténation
des représentations
v e $
A
0 0 0 0 1 0 0
h
A
0 1 0 0 0 0 0
h
A
0 0 1 0 0 0 0
h
A
1 0 0 0 0 0 0
h
v e n d
...
e u r $ $ h
1-hot encoding
A
Représentation latente du mot
A
0 0 0 0 0 0 1
h
^
Encodeur Décodeur
B z
unité GRU
unité GRU Alignement avec les
représentations Word2Vec
A A
0 1 0 0 0 0 0
A
0 0 1 0 0 0 0
A
1 0 0 0 0 0 0
v e n d
...
e u r $ $ z
A A
^ +
1 0 0 0 0 0 0 0 0.1 0.
0.
0.4 0 0
Prédiction de :
z + z + z + z + Concaténation
des représentations
v e $
A
0 0 0 0 1 0 0
h
A
0 1 0 0 0 0 0
h
A
0 0 1 0 0 0 0
h
A
1 0 0 0 0 0 0
h
v e n d
...
e u r $ $ h
1-hot encoding
A
Représentation latente du mot
A
0 0 0 0 0 0 1
h
^
Encodeur Décodeur
B z
unité GRU
unité GRU Alignement avec les
représentations Word2Vec
Archi. char-to-char
18/30
Contribution (2) : Encodeur-décodeur pour la robustesse et la dynamique [Dias 17]Données bruitées & structurée = CVs & dynamique = prochain job
Job 6=catégorie
(différentes écritures) CV = très bruités
(titres longs,
fautes orthographes)
Encodage Prédiction
A A
0 1 0 0 0 0 0
A
0 0 1 0 0 0 0
A
1 0 0 0 0 0 0
v e n d
...
e u r $ $ z
A A
^ +
1 0 0 0 0 0 0 0 0.1 0.
0.
0.4 0 0
Prédiction de :
z + z + z + z + Concaténation
des représentations
v e $
A
0 0 0 0 1 0 0
h
A
0 1 0 0 0 0 0
h
A
0 0 1 0 0 0 0
h
A
1 0 0 0 0 0 0
h
v e n d
...
e u r $ $ h
1-hot encoding
A
Représentation latente du mot
A
0 0 0 0 0 0 1
h
^
Encodeur Décodeur
B z
unité GRU
unité GRU Alignement avec les
représentations Word2Vec
A A
0 1 0 0 0 0 0
A
0 0 1 0 0 0 0
A
1 0 0 0 0 0 0
v e n d
...
e u r $ $ z
A A
^ +
1 0 0 0 0 0 0 0 0.1 0.
0.
0.4 0 0
Prédiction de :
z + z + z + z + Concaténation
des représentations
v e $
A
0 0 0 0 1 0 0
h
A
0 1 0 0 0 0 0
h
A
0 0 1 0 0 0 0
h
A
1 0 0 0 0 0 0
h
v e n d
...
e u r $ $ h
1-hot encoding
A
Représentation latente du mot
A
0 0 0 0 0 0 1
h
^
Encodeur Décodeur
B z
unité GRU
unité GRU Alignement avec les
représentations Word2Vec
Archi. char-to-char
18/30
Contribution (2) : Encodeur-décodeur pour la robustesse et la dynamique
[Dias 17]Données bruitées & structurée = CVs & dynamique = prochain job Job 6=catégorie
(différentes écritures) CV = très bruités
(titres longs,
fautes orthographes) Aide au remplissage de formulaire
Prédiction de churn
Caractérisation des carrières
A A
0 1 0 0 0 0 0
A
0 0 1 0 0 0 0
A
1 0 0 0 0 0 0
v e n d
...
e u r $ $ z
A A
^ +
1 0 0 0 0 0 0 0 0.1 0.
0.
0.4 0 0
Prédiction de :
z + z + z + z + Concaténation
des représentations
v e $
A
0 0 0 0 1 0 0
h
A
0 1 0 0 0 0 0
h
A
0 0 1 0 0 0 0
h
A
1 0 0 0 0 0 0
h
v e n d
...
e u r $ $ h
1-hot encoding
A
Représentation latente du mot
A
0 0 0 0 0 0 1
h
^
Encodeur Décodeur
B z
unité GRU
unité GRU Alignement avec les
représentations Word2Vec
A A
0 1 0 0 0 0 0
A
0 0 1 0 0 0 0
A
1 0 0 0 0 0 0
v e n d
...
e u r $ $ z
A A
^ +
1 0 0 0 0 0 0 0 0.1 0.
0.
0.4 0 0
Prédiction de :
z + z + z + z + Concaténation
des représentations
v e $
A
0 0 0 0 1 0 0
h
A
0 1 0 0 0 0 0
h
A
0 0 1 0 0 0 0
h
A
1 0 0 0 0 0 0
h
v e n d
...
e u r $ $ h
1-hot encoding
A
Représentation latente du mot
A
0 0 0 0 0 0 1
h
^
Encodeur Décodeur
B z
unité GRU
unité GRU Alignement avec les
représentations Word2Vec
Archi. char-to-char
18/30
Contribution (3) : De la sémantique aux connaissances
NER : Named Entity Recognition = base de l’extraction de connaissances
HMM puis CRF [Zhou 02, McCallum 03]
Bi-LSTM + CRF + char & word encoding [Lample 16]
ELMO - BERT [Peters 18, Devlin 18]
19/30
Contribution (3) : Entités nommées, reconnaissance ou extraction ?
[Taillé 19,20]Problème dans la constitution des jeux de données de référence :
JF Kennedy was fatally shot by former U.S. Marine Lee Harvey Oswald
John Fitzgerald Kennedy, the 35th president of the United States, is assassinated by Lee Harvey Oswald while traveling through Dallas
Train Test
Reconnaitre un terme6=Extraire un terme inconnu
20/30
Contribution (3) : Entités nommées, reconnaissance ou extraction ?
[Taillé 19,20]Problème dans la constitution des jeux de données de référence :
EM = Exact Match entre train/test PM = Partial Match entre train/test
JF Kennedy was fatally shot by former U.S. Marine Lee Harvey Oswald
John Fitzgerald Kennedy, the 35th president of the United States, is assassinated by Lee Harvey Oswald while traveling through Dallas
Train Test
Reconnaitre un terme6=Extraire un terme inconnu
20/30
Contribution (3) : Entités nommées, reconnaissance ou extraction ?
[Taillé 19,20]Problème dans la constitution des jeux de données de référence : EM = Exact Match entre train/test PM = Partial Match entre train/test
CoNLL03 OntoNotes∗ WNUT∗
LOC MIS ORG PER ALL LOC MIS ORG PER ALL LOC ORG PER ALL
Self
EM 82% 67% 54% 14% 52% 87% 93% 54% 49% 69% - - - - PM 4% 11% 17% 43% 20% 6% 2% 32% 36% 20% 11% 5% 13% 12%
New 14% 22% 29% 43% 28% 7% 5% 14% 15% 11% 89% 95% 87% 88%
CoNLL
EM - - - - - 70% 78% 18% 16% 42% 26% 8% 1% 7%
PM - - - - - 7% 10% 45% 46% 28% 9% 15% 16% 14%
New - - - - - 23% 12% 38% 38% 30% 65% 77% 83% 78%
Reconnaitre un terme6=Extraire un terme inconnu
20/30
Contribution (3) : entités nommées, reconnaissance ou extraction ?
[Taillé 19,20]
Modèles de langue récents = principaux vecteurs d’amélioration en NER 4 B. Taill´e et al.
Table 2.In-domain micro-F1 scores of the BiLSTM-CRF. We split mentions by novelty:exact match(EM),partial match(PM) andnew. Average of 5 runs, subscript denotes standard deviation.
CoNLL03 OntoNotes⇤ WNUT⇤
Embedding Dim EM PM New All EM PM New All PM New All
BERT 4096 95.7.1 88.8.3 82.2.3 90.5.1 96.9.2 88.6.3 81.1.5 93.5.2 77.04.653.9.9 57.01.0
ELMo 1024 95.9.1 89.2.5 85.8.7 91.8.3 97.1.2 88.0.2 79.9.7 93.4.2 67.73.249.5.9 52.11.0
Flair 4096 95.4.1 88.1.6 83.5.5 90.6.2 96.7.1 85.8.5 75.0.6 92.1.2 64.9.7 48.22.050.41.8
ELMo[0] 1024 95.8.1 87.2.2 83.5.4 90.7.1 96.9.1 85.9.3 75.5.6 92.4.1 72.81.345.42.849.12.3
GloVe + char 350 95.3.3 85.5.7 83.1.7 89.9.5 96.3.1 83.3.2 69.9.6 91.0.1 63.24.633.41.538.01.7
GloVe 300 95.1.4 85.3.5 81.1.5 89.3.4 96.2.2 82.9.2 63.8.5 90.4.2 59.12.928.11.532.91.2
4.1 General Observations
ELMo, BERT and Flair Drawing conclusions from the comparison of ELMo, BERT and Flair is difficult because there is no clear hierarchy accross datasets and they differ in dimensions, tokenization, contextualization levels and pretraining corpora. However, although BERT is particularly effective on the WNUT dataset in-domain, probably due to its subword tokenization, ELMo yields the most stable results in and out-of-domain.
Furthermore, Flair globally underperforms ELMo and BERT, particularly for unseen mentions and out-of-domain. This suggests that LM pretraining at a lexical level (word or subword) is more robust for generalization than at a character level. In fact, Flair only beats the non contextual ELMo[0] baseline with Map-CRF which indicates that character-level contextualization is less beneficial than word-level contextualization with character-level representations.
ELMo[0] vs GloVe+char Overall, ELMo[0] outperforms the GloVe+char baseline, particularly on unseen mentions, out-of-domain and on WNUT⇤. The main difference is the incorporation of morphological features: in ELMo[0] they are learned jointly with the LM on a huge dataset whereas the char-BiLSTM is only trained on the source NER training set. Yet, morphology is crucial to represent words never encountered during pretraining and in WNUT⇤ around 20% of words in test mentions are out of GloVe vocabulary against 5% in CoNLL03 and 3% in OntoNotes⇤. This explains the poor performance of GloVe baselines on WNUT⇤, all the more out-of-domain, and why a model trained on CoNLL03 with ELMo outperforms one trained on WNUT⇤with GloVe+char. Thus, ELMo’s improvement over previous state-of-the-art does not only stem from contextualization but also an effective non-contextual word representation.
Seen Mentions Bias In every configuration,F1exact > F1partial > F1new with more than 10 points difference. This gap is wider out-of-domain where the context differs more from training data than in-domain. NER models thus poorly generalize to unseen mentions, and datasets with high lexical overlap only encourage this behavior. However, this generalization gap is reduced by two types of contextualization described hereafter.
21/30
Contribution (3) : entités nommées, reconnaissance ou extraction ?
[Taillé 19,20]
Modèles de langue récents = principaux vecteurs d’amélioration en NER
Modèle de langue = état de l’art sur les benchmarks de référence
21/30
Contribution (3) : entités nommées, reconnaissance ou extraction ?
[Taillé 19,20]
Modèles de langue récents = principaux vecteurs d’amélioration en NER
Le phénomène est encore bien plus fort dans les cas difficiles !
21/30
Introduction Sémantique Architecture de bout en bout Conclusion & perspectives
Contribution (4) Performances en extraction de relation de bout en bout
[Taillé 20]: Multiplication des métriques ⇒ confusion +optimisation Types des entités
Bornes de entités Types des relations
Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1858–1869, October 25-29, 2014, Doha, Qatar. c 2014 Association for Computational Linguistics
Modeling Joint Entity and Relation Extraction with Table Representation
Makoto Miwa and Yutaka Sasaki Toyota Technological Institute
2-12-1 Hisakata, Tempaku-ku, Nagoya, 468-8511, Japan {makoto-miwa, yutaka.sasaki}@toyota-ti.ac.jp
Abstract
This paper proposes a history-based struc- tured learning approach that jointly ex- tracts entities and relations in a sentence.
We introduce a novel simple and flexible table representation of entities and rela- tions. We investigate several feature set- tings, search orders, and learning meth- ods with inexact search on the table. The experimental results demonstrate that a joint learning approach significantly out- performs a pipeline approach by incorpo- rating global features and by selecting ap- propriate learning methods and search or- ders.
1 Introduction
Extraction of entities and relations from texts has been traditionally treated as a pipeline of two sep- arate subtasks: entity recognition and relation ex- traction. This separation makes the task easy to deal with, but it ignores underlying dependencies between and within subtasks. First, since entity recognition is not affected by relation extraction, errors in entity recognition are propagated to re- lation extraction. Second, relation extraction is often treated as a multi-class classification prob- lem on pairs of entities, so dependencies between pairs are ignored. Examples of these dependen- cies are illustrated in Figure 1. For dependencies between subtasks, aLive inrelation requiresPER and LOC entities, and vice versa. For in-subtask dependencies, theLive inrelation between “Mrs.
Tsutayama” and “Japan” can be inferred from the two other relations.
Figure 1 also shows that the task has a flexible graph structure. This structure usually does not cover all the words in a sentence differently from other natural language processing (NLP) tasks such as part-of-speech (POS) tagging and depen-
!"#$%&#'"'()*)%+#%,"-*%.'*)*-/-%0"1,12/'"1%+3%4)5)3%$
!"# $%& $%&
!"#$%"& !'()*$+%"&
!"#$%"&
Figure 1: An entity and relation example (Roth and Yih, 2004). Person (PER) and location (LOC) entities are connected by Live in and Located in relations.
dency parsing, so local constraints are considered to be more important in the task.
Joint learning approaches (Yang and Cardie, 2013; Singh et al., 2013) incorporate these de- pendencies and local constraints in their models;
however most approaches are time-consuming and employ complex structures consisting of multi- ple models. Li and Ji (2014) recently proposed a history-based structured learning approach that is simpler and more computationally efficient than other approaches. While this approach is promis- ing, it still has a complexity in search and restricts the search order partly due to its semi-Markov rep- resentation, and thus the potential of the history- based learning is not fully investigated.
In this paper, we introduce an entity and relation table to address the difficulty in representing the task. We propose a joint extraction of entities and relations using a history-based structured learning on the table. This table representation simplifies the task into a table-filling problem, and makes the task flexible enough to incorporate several en- hancements that have not been addressed in the previous history-based approach, such as search orders in decoding, global features from relations to entities, and several learning methods with in- exact search.
2 Method
In this section, we first introduce an entity and re- lation table that is utilized to represent the whole 1858
Analyse des modèles de l’état de l’art dans différentes situations (métriques / ablations)
22/30