DEEP LEARNING

(1)

DEEP LEARNING

Le futur du text mining ?

(2)

#DIXIT

Pierre-Carl Langlais

CELSA/Paris-Sorbonne

Thèse : https://tel.archives-ouvertes.fr/tel-01424740 Twitter : @Dorialexander

Wikipédia : User:Alexander Doria Github : github.com/Dorialexander

Hypotheses : http://scoms.hypotheses.org/

(3)

À quoi rêvent les algorithmes ?

L’exemple iconique du deep learning : deep dream.

L’algorithme apprend de lui-même à extrapoler des “formes”

(4)

Longtemps tenue pour un problème presque insoluble, la reconnaissance des images a fait des progrès considérables

(5)

Lorsqu’ils sont éveillés, ces nouveaux algorithmes sont champions mondiaux de Go ou de Poker…

(6)

…et traduisent presque aussi bien que des humains

(7)

Les spécificités du Deep (et Shallow) Learning

■ Pas (ou très peu) de règles prédéfinies : l’algorithme doit

reconstituer les “formes” ou les actions optimales (dans un jeu de société) à partir de ses propres observations

■ Rien n’est anticipité : à la différence des échecs, le nombre de

combinaisons possible de Go est incommensurable. L’algorithme doit redéfinir sans cesse sa propre stratégie.

■ Les classifications sont très précises : elles ne portent pas juste sur une familles d’images mais sur des objets spécifiques qu’elles

contiennent.

■ L’algorithme fait un effort d’abstraction (surtout pour le deep

learning) : l’information transite par plusieurs couches de neurones et gagne en généralité.

■ L’algorithme est (un peu) une boîte noire : même pour les spécialistes, difficile de savoir ce qui motive leurs choix.

(8)

1. Le text mining à l’ère du deep learning

Un enjeu de “big text”

(9)

Après la numérisation, que faire ?

Un problème commun à l’industrie et à la recherche : tirer le meilleur parti d’un énorme volume de textes

(10)

ROBOTS

On peut bénéficier du travail de collaborateurs sympathiques (mais imparfaits) : des

algorithmes

(11)

Pas de solution unique…

Il existe un grand nombre d’approches, souvent complémentaires, mais les combiner est coûteux en

ressources et en temps

(12)

…jusqu’à maintenant ?

Et si l’on pouvait réduire la résolution d’un texte comme on le fait pour les images ?

(13)

“

You shall know the words by the company it keeps. One of the meaning of ass is its habitual

collocation with such words as those above quoted (…) A word in usual collocation stares

you in the face just as it is

John Rupert Firth, Papers on Linguistics, 1957

(14)

Connaître les mots par leurs voisins

Deep learning : le terme symbolise la grande espérance l’arrivée du deep learning dans les études textuelles

Le deep learning appliqué au texte reste

je recommande l’excellent Neural Network and Deep Learning

La signification d’un mot est étroitement liée aux mots avec lequel il est associé.

(15)

Deep learning

Neural Network Étude Détaillée Espérance Terme

Texte

…

Rien qu’en listant les “voisins” d’un mot on peut savoir où il se situe par rapport à l’ensemble des énoncés possibles

(16)

Problème : pour des textes comprenant des millions de mots, il y a des milliards, voire des billons de relations possibles Deep learning : le terme symbolise la grande espérance

(17)

Deep learning Connaître les mots par leurs voisins

Problème : pour des textes comprenant des millions de mots, il y a des milliards, voire des billons de relations possibles

le

terme

symbolise

la

grande espérance

(18)

WORD EMBEDDINGS

La position des mots “encode” les diverses dimensions du langage (syntaxe, entités, discours) à partir des voisins (et des voisins des voisins) des mots

W

(19)

Obtenir les Word Embeddings.

Word2Vec développe un modèle optimal pour prédire pour chaque mot ses “voisins” (Mikolov et al., 2013)

(20)

Les millions de relations possibles d’un mot à l’autre sont réduites à un nombre de dimension fixe (100, 200, 1000) Beethoven

(21)

Cette condensation préserve un grand nombre de “relations”

contenues dans les textes (masculin-féminin, auteur d’opéras) vec(Beethoven) - vec(Weber) = vec(Fidelio) - vec(Freyschütz)

vec(Man) - vec(King) = vec(Woman) - vec(Queen)

(22)

“

You shall know the words by the company it keeps. One of the meaning of ass is its habitual

collocation with such words as those above quoted (…) A word in usual collocation stares

you in the face just as it is

John Rupert Firth, Papers on Linguistics, 1957

(23)

…mais il existe aujourd’hui une grande variété de modèles qui ne font pas tous appel aux réseaux de neurones

(24)

2. Une révolution émergente

1 an de publications sur les Word Embeddings…

(25)

S’affranchir de la barrière de la langue

Les Word Embeddings

fonctionnent avec n’importe quelle langue même mal documentée (Krupakar et al.,

Acoustic Dialect Decoder, octobre 2016)

(26)

Les mots proches dans deux langues distinctes ont généralement les mêmes vecteurs de mots.

(27)

…il deviendrait possible de

retracer la circulation des discours d’une langue à l’autre (ici

circulation des reprises de textes

de journaux uniquement en anglais par Ryan

Cordell)

(28)

Retracer l’évolution des langues (et les anticiper ?)

Evolution de la position des vecteurs de certains mots dans Google Books (Hamilton et al., septembre 2016)

(29)

The groundbreaking word of Ryan Cordell

Evolution de l’espace linguistique dans le

Journal des débats

(30)

The groundbreaking word of Ryan Cordell

Evolution de l’espace linguistique dans le

Journal des débats

(31)

Extraire toutes les entités du monde

Les Word Embeddings ne sont pas limités aux entités “classiques”

et peuvent effectuer des classifications beaucoup plus précises

(32)

“

Less flexible data models like topic models lock you into one particular idea of what

Catholicism, or food, or any other topic, might be. WEMs, on the other hand, explicitly enable searching for relations embedded in words. If

there’s a binary, it’s open for exploration.

Ben M. Schmidt, Vector Embeddings for the Humanities

(octobre 2015)

(33)

Une expérience personnelle : laisser les word embeddings définir eux-même leurs propres entités dans les critiques de Berlioz

(34)

…l’algorithme distingue notamment le champ lexical des

“sentiments suscités par la musique”

(35)

Explorer des corpus immenses

Ryan Heuser (Stanford, septembre 2016) utilise ces entités

souples pour projeter les

principales

“familles” de notions dans la littérature anglaise

du XVIIIe siècle

(36)

Explorer des corpus immenses

Cite2Vec vise à faciliter la détection et la consultation de nouvelles publications scientifiques (Berger et al., janvier 2017)

(37)

3. Quelques questions pour

finir…

(38)

Les réseaux de neurones sont-ils sexistes ?

Les vecteurs de mot ne reproduisent pas seulement les stéréotypes existants mais tendent à les amplifier (Bolukbasi et al. juillet 2016)

(39)

Est-ce la solution définitive… ou un outil de plus ?

XKCD, Standards (CC-By-NC)

(40)

Est-ce la solution définitive… ou un outil de plus ?

Des méta-projets, comme PathNet, ambitionnent de rapatrier les données d’un réseau de neurones à l’autre

(41)

De nouvelles collaborations entre université et industrie ?

Facebook, Google, Apple mettent une partie de leurs recherches et données en open access (sur ArXiV)

(42)

Credits

Un grand merci à ces auteurs de ressources libres :

■ Modèle de présentation par SlidesCarnival

■ Cartoon Robots par Sirrob01

■ Standards par XKCD