DEEP LEARNING
Le futur du text mining ?
#DIXIT
Pierre-Carl Langlais
CELSA/Paris-Sorbonne
Thèse : https://tel.archives-ouvertes.fr/tel-01424740 Twitter : @Dorialexander
Wikipédia : User:Alexander Doria Github : github.com/Dorialexander
Hypotheses : http://scoms.hypotheses.org/
À quoi rêvent les algorithmes ?
L’exemple iconique du deep learning : deep dream.
L’algorithme apprend de lui-même à extrapoler des “formes”
À quoi rêvent les algorithmes ?
Longtemps tenue pour un problème presque insoluble, la reconnaissance des images a fait des progrès considérables
À quoi rêvent les algorithmes ?
Lorsqu’ils sont éveillés, ces nouveaux algorithmes sont champions mondiaux de Go ou de Poker…
À quoi rêvent les algorithmes ?
…et traduisent presque aussi bien que des humains
Les spécificités du Deep (et Shallow) Learning
■ Pas (ou très peu) de règles prédéfinies : l’algorithme doit
reconstituer les “formes” ou les actions optimales (dans un jeu de société) à partir de ses propres observations
■ Rien n’est anticipité : à la différence des échecs, le nombre de
combinaisons possible de Go est incommensurable. L’algorithme doit redéfinir sans cesse sa propre stratégie.
■ Les classifications sont très précises : elles ne portent pas juste sur une familles d’images mais sur des objets spécifiques qu’elles
contiennent.
■ L’algorithme fait un effort d’abstraction (surtout pour le deep
learning) : l’information transite par plusieurs couches de neurones et gagne en généralité.
■ L’algorithme est (un peu) une boîte noire : même pour les spécialistes, difficile de savoir ce qui motive leurs choix.
1.
Le text mining à l’ère du deep learning
Un enjeu de “big text”
Après la numérisation, que faire ?
Un problème commun à l’industrie et à la recherche : tirer le meilleur parti d’un énorme volume de textes
ROBOTS
On peut bénéficier du travail de collaborateurs sympathiques (mais imparfaits) : des
algorithmes
Pas de solution unique…
Il existe un grand nombre d’approches, souvent complémentaires, mais les combiner est coûteux en
ressources et en temps
…jusqu’à maintenant ?
Et si l’on pouvait réduire la résolution d’un texte comme on le fait pour les images ?
“
You shall know the words by the company it keeps. One of the meaning of ass is its habitual
collocation with such words as those above quoted (…) A word in usual collocation stares
you in the face just as it is
John Rupert Firth, Papers on Linguistics, 1957
Connaître les mots par leurs voisins
Deep learning : le terme symbolise la grande espérance l’arrivée du deep learning dans les études textuelles
Le deep learning appliqué au texte reste
je recommande l’excellent Neural Network and Deep Learning
La signification d’un mot est étroitement liée aux mots avec lequel il est associé.
Connaître les mots par leurs voisins
Deep learning
Neural Network Étude Détaillée Espérance Terme
Texte
…
Rien qu’en listant les “voisins” d’un mot on peut savoir où il se situe par rapport à l’ensemble des énoncés possibles
Connaître les mots par leurs voisins
Problème : pour des textes comprenant des millions de mots, il y a des milliards, voire des billons de relations possibles Deep learning : le terme symbolise la grande espérance
Deep learning Connaître les mots par leurs voisins
Problème : pour des textes comprenant des millions de mots, il y a des milliards, voire des billons de relations possibles
le
terme
symbolise
la
grande espérance
WORD EMBEDDINGS
La position des mots “encode” les diverses dimensions du langage (syntaxe, entités, discours) à partir des voisins (et des voisins des voisins) des mots
W
Obtenir les Word Embeddings.
Word2Vec développe un modèle optimal pour prédire pour chaque mot ses “voisins” (Mikolov et al., 2013)
Obtenir les Word Embeddings.
Les millions de relations possibles d’un mot à l’autre sont réduites à un nombre de dimension fixe (100, 200, 1000) Beethoven
Obtenir les Word Embeddings.
Cette condensation préserve un grand nombre de “relations”
contenues dans les textes (masculin-féminin, auteur d’opéras) vec(Beethoven) - vec(Weber) = vec(Fidelio) - vec(Freyschütz)
vec(Man) - vec(King) = vec(Woman) - vec(Queen)
“
You shall know the words by the company it keeps. One of the meaning of ass is its habitual
collocation with such words as those above quoted (…) A word in usual collocation stares
you in the face just as it is
John Rupert Firth, Papers on Linguistics, 1957
Obtenir les Word Embeddings.
…mais il existe aujourd’hui une grande variété de modèles qui ne font pas tous appel aux réseaux de neurones
2.
Une révolution émergente
1 an de publications sur les Word Embeddings…
S’affranchir de la barrière de la langue
Les Word Embeddings
fonctionnent avec n’importe quelle langue même mal documentée (Krupakar et al.,
Acoustic Dialect Decoder, octobre 2016)
S’affranchir de la barrière de la langue
Les mots proches dans deux langues distinctes ont généralement les mêmes vecteurs de mots.
S’affranchir de la barrière de la langue
…il deviendrait possible de
retracer la circulation des discours d’une langue à l’autre (ici
circulation des reprises de textes
de journaux uniquement en anglais par Ryan
Cordell)
Retracer l’évolution des langues (et les anticiper ?)
Evolution de la position des vecteurs de certains mots dans Google Books (Hamilton et al., septembre 2016)
The groundbreaking word of Ryan Cordell
Evolution de l’espace linguistique dans le
Journal des débats
The groundbreaking word of Ryan Cordell
Evolution de l’espace linguistique dans le
Journal des débats
Extraire toutes les entités du monde
Les Word Embeddings ne sont pas limités aux entités “classiques”
et peuvent effectuer des classifications beaucoup plus précises
“
Less flexible data models like topic models lock you into one particular idea of what
Catholicism, or food, or any other topic, might be. WEMs, on the other hand, explicitly enable searching for relations embedded in words. If
there’s a binary, it’s open for exploration.
Ben M. Schmidt, Vector Embeddings for the Humanities
(octobre 2015)
Extraire toutes les entités du monde
Une expérience personnelle : laisser les word embeddings définir eux-même leurs propres entités dans les critiques de Berlioz
Extraire toutes les entités du monde
…l’algorithme distingue notamment le champ lexical des
“sentiments suscités par la musique”
Explorer des corpus immenses
Ryan Heuser (Stanford, septembre 2016) utilise ces entités
souples pour projeter les
principales
“familles” de notions dans la littérature anglaise
du XVIIIe siècle
Explorer des corpus immenses
Cite2Vec vise à faciliter la détection et la consultation de nouvelles publications scientifiques (Berger et al., janvier 2017)
3.
Quelques questions pour
finir…
Les réseaux de neurones sont-ils sexistes ?
Les vecteurs de mot ne reproduisent pas seulement les stéréotypes existants mais tendent à les amplifier (Bolukbasi et al. juillet 2016)
Est-ce la solution définitive… ou un outil de plus ?
XKCD, Standards (CC-By-NC)
Est-ce la solution définitive… ou un outil de plus ?
Des méta-projets, comme PathNet, ambitionnent de rapatrier les données d’un réseau de neurones à l’autre
De nouvelles collaborations entre université et industrie ?
Facebook, Google, Apple mettent une partie de leurs recherches et données en open access (sur ArXiV)
Credits
Un grand merci à ces auteurs de ressources libres :
■ Modèle de présentation par SlidesCarnival
■ Cartoon Robots par Sirrob01
■ Standards par XKCD