IA et Traitement Automatique des Langues (TAL) Quel panorama ?

Texte intégral

(1)IA et Traitement Automatique des Langues (TAL) Quel panorama ?. Éric de la Clergerie <[email protected]>. Almanach http://alpage.inria.fr. Séminaire DIXIT Paris, 24 Février 2017 INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 1 / 34.

(2) Analyse Linguistique Profonde À Grande Échelle Outils + Ressources linguistiques vers Données + Apprentissage <?xml v e r s i o n = " 1 . 0 " encoding= " ISO−8859−1 " ?> <dependencies i d = " E1 " mode= " f u l l " > < c l u s t e r i d = " E1c_1_2 " l e f t = " 1 " r i g h t = " 2 " token = " soyons " l e x = " E1F2 | soyons " / > < c l u s t e r i d = " E1c_2_3 " l e f t = " 2 " r i g h t = " 3 " token = " i m a g i n a t i f s " Grammaire l e x = " E1F3 | i m a g i n a t i f s " / > <FRMG c l u s t e r i d = " E1c_5_6 " l e f t = " 5 " r i g h t = " 6 " token = " d é c l a r e " l e x = " E1F6 | d é c l a r e " / > <node d e r i v = " E1d10 " x c a t = " comp " i d = " E1n13 " c a t = " a d j " t r e e = " 72 " lemma= " i m a g i n a t i f " c l u s t e r = " E1c_2_3 " form= " i m a g i n a t i f s " / > <node d e r i v = " E1d104 " x c a t = "S" i d = " E1n22 " c a t = " v " t r e e = " 186 " lemma= " d é c l a r e àr "tester c l u sur s t ehttp://alpage.inria.fr/frmgwiki r = " E1c_5_6 " form= " d é c l a r e " / > <node d e r i v = " E1d13 " x c a t = "S" i d = " E1n7 " c a t = " v " t r e e = " 198 " Lexique L EFFF lemma= " ê t r e " c l u s t e r = " E1c_1_2 " form= " soyons " / > <edge i d = " E1e029 " source= " E1n22 " t a r g e t = " E1n18 " t y p e = " l e x i c a l " label=" subject "> < d e r i v names= "WordNet E1d104 " source_op= " E1o5 " t a r g e t _ o p = " E1o20 " span= " 6 7 " / > W OLF FrameNet Entités Nommées treebanks INRIA < / edge> A SFALDA A LEDA <edge i d = " E1e011 " source= " E1n007 " t a r g e t = " E1n013 " t y pe=" subst INRIA Éric de la Clergerie IA & NLP 07/12/15 2 / 34.

(3) Quelles applications ? Extraction d’information & Annotations. http://alpage.inria.fr/sapiens. Acquisition de connaissances (à partir de grands corpus). http://alpage.inria.fr/Lbx INRIA. Éric de la Clergerie. IA & NLP. INRIA. 07/12/15. 3 / 34.

(4) Beaucoup d’applications potentielles . . .. recherche d’information, veille, extraction, questions-réponses accès à l’information : traduction, résumés, annotations/liens sémantiques analyse d’opinion, e-réputation analyse de communautés (tweets, blogs, . . . ) génération (articles journaux, rapports, ...) plagiat, authoring, détection spams & faux commentaires, fact checking aide à la rédaction : correction grammaticale, stylistique ; saisie prédictive aide pédagogique : apprentissage des langues, tutorat, évaluation interaction : agents conversationnels, chatbots, assistants numériques, reconnaissance vocale, synthèse, dictée vocale. INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 4 / 34.

(5) Et déjà de bons résultats en bricolant . . . Générer du non-sens new-age !. Robot journaliste (inquiétudes !). http://goo.gl/0cpFvC. Eliza la thérapiste !. http://sebpearce.com/bullshit/ http://www.eliza.levillage.org/ INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 5 / 34. INRIA.

(6) Mais de réelles difficultés ! Forte ambiguïté du langage (tous niveaux) ⇒ besoin connaissances sur le monde, le contexte, . . . , via ressources et statistiques Diversité (langues, domaines, phénomènes), créativité (néologismes, expressions) et évolutivité ⇒ besoin de robustesse Ellipses (ce qui n’est pas dit/écrit) ⇒ besoin connaissances partagées, aspects culturels Jeux avec le language (métaphores, euphémismes, ironie, . . . ) Omar m’a tuer Je voudrais leur dire qu’on a reçu le coup de pied au derrière mais que c’est pas parce que vous voulez renverser la table que vous descendez de la voiture dont vous vous abstenez de choisir le chauffeur. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 6 / 34. INRIA.

(7) Néanmoins des succès récents et des annonces 2010: Google translate 2011: IBM Watson 2011: Assistants vocaux gagne à Jeopardy Siri, Google Now, Cortana. 2014: Le chatbot Eugene Goostman réussit le test de Turing ? 2015: une IA surveille wikipedia. http://goo.gl/hQSmmf http://goo.gl/zAvbSt INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 7 / 34. INRIA.

(8) IA ? On y est presque :-) Réseaux de Neurones: le retour ! Buzz sur Deep Learning et word embeddings. 2013: Word embeddings analogies ≡ calcul vectoriel. 2014: Analyse d’opinions. Mikolov et al. 2015: Google SmartReply suggérer des réponses. aux. mails. http://goo.gl/d8R2LI Socher et al.. INRIA. Éric de la Clergerie. DeepMind (Google) annonce Neural Turing Machine Labo Facebook Paris Toolkit Google TensorFlow libéré nombreux autres toolkits IA & NLP. 07/12/15. 8 / 34. INRIA.

(9) Une conjonction de bons facteurs Masses de données textuelles (et autres). Des algo d’apprentissage de + en + sophistiqués. Linked Open Data Des ressources structurées (RDF) et en réseau. De la puissance de calcul. INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 9 / 34.

(10) performances. Une chronologie simplifiée. al. Neuron age. iss ent ppr. A. lique. bo Sym. 1950. ∼ 1980. ∼ 2000. ∼ 2010 INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 10 / 34.

(11) Outline. 1. Approches symboliques. 2. Apprentissage supervisé. 3. Approches neuronales. 4. Vers d’autres approches. INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 11 / 34.

(12) Aproches symboliques S’appuyant sur des ressources linguistiques, (semi-) manuellement construites. grammaire FRMG. lexique L EFFF. WordNet WOLF. EN A LEDA. VerbNet V ERBENET. FrameNet A SFALDA. INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 12 / 34.

(13) Vers des ressources sémantiques : ontologies Rapprochement TAL et Web Sémantique. INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 13 / 34.

(14) Évènements et rôles : FrameNet Baker & Fillmore Pour l’extraction d’information : qui fait QUOI, quand, comment, . . . Importance de connaissances sur des scénari d’évenements, avec indications sur les acteurs, leurs rôles, et constructions syntaxiques F RAME N ET (http://framenet.icsi.berkeley.edu/) C OMMERCE _ PAY This frame involves Buyers paying Money for Goods. In this frame the Money is the direct object, and is mapped to the theme of the transfer. C OMMUNICATION A Communicator conveys a Message to an Addressee ; the Topic and Medium of the communication also may be expressed. Relié aux rôles thématiques : agent, patient, theme, . . . Ressources similaires : V ERB N ET, P ROP B ANK, . . . ALPAGE : A SFALDA INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 14 / 34.

(15) Aproches symboliques (pro & cons) Ecosystèmes (complexes) de ressources linguistiques 4 expertise linguistique 4 taille & complexité 4 faible couverture 4 trop fines 4 non probabilisées. X compréhensibles X évolutives X ∼ dev. logiciel. grammaire FRMG. lexique L EFFF. WordNet WOLF. EN A LEDA. FrameNet A SFALDA. VerbNet V ERBENET. INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 15 / 34.


(17) Succès et limites des approches supervisées Courant majoritaire : données annotées et apprentissage supervisé FTB 12Ks. X efficace X découplage. Sequoia Bank 3Ks. Question Bank 2Ks. SocialMedia Bank. Time Bank. Discourse TreeBank. Rhapsodie TreeBank. X robustesse X évaluation X autonome. 4 coût humain 4 fastidieux. 4 peu évolutif. 4 sensibilité domaine 4 expertise traits 4 boite noire. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 17 / 34. INRIA.

(18) Importance des jeux de traits Méthodes (discriminantes) : apprentissage configuration vers décision Les configurations abstraites par des propriétés (trait – features) Tâche d’étiquetage syntaxique : la configuration c Paul/PN pense/V que le chat dort abstraite par f1 f2 f3 f4 f5 .. .. le mot courant est que le mot précedent est pense le mot à -2 est Paul l’étiquette du mot à -1 est v le mot à -2 commence par une majuscule .. .. f93 f100 .. .. les 2 étiquettes précédentes sont pn v les 2 mots précédents sont Paul pense .. .. ; très gros jeux de traits ; très gros modèles et sur-entraînement. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 18 / 34. INRIA.


(20) IA ? On y est presque :-) Réseaux de Neurones: le retour ! Buzz sur Deep Learning et word embeddings. 2013: Word embeddings analogies ≡ calcul vectoriel. 2014: Analyse d’opinions. Mikolov et al. 2015: Google SmartReply suggérer des réponses. Socher et al.. aux. mails. http://goo.gl/d8R2LI DeepMind (Google) annonce Neural Turing Machine Labo Facebook Paris Toolkit Google TensorFlow libéré nombreux autres toolkits: Theano, Keras, Torch, . . . INRIA https://en.wikipedia.org/wiki/Comparison_of_deep_learning_ software. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 20 / 34.

(21) Base Modélisation des neurones biologiques : les neurones portent des vecteurs (de réels) x = [−, · · · , −] de dimension moyenne (d=100 à 500) les vecteurs xi associés à des neurones d’entrées sont combinés pour fournir un vecteur y à un neurone de sortie. Foward. y. x1. x2. x3. x4. y = σ(Σi Ai xi ) avec Ai matrice Fonction d’activation σ : en générale non linéaire σ doit faire basculer l’état du neurone de sortie vers oui ou non INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 21 / 34. INRIA.

(22) Fonctions d’activation Utilisation de fonctions proches d’une bascule oui/non mais dérivables tanh(x) =. ex − e−x tanh0 (x) = 1 − tanh2 (x) ex + e−x. tangente hyperbolique tanh D’autres fonctions sont aussi utilisées (softmax, sigmoïde) INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 22 / 34.

(23) Sorties multiples. On peut avoir plusieurs neurones de sortie. x1. y1. y2. x2. x3. x4. INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 23 / 34.

(24) Couches cachées On peut intercaler des couches cachées intermédiaires ⇒ abstraction progressive des informations des neurones d’entrée ; traits. x1. y1. y2. x2. x3. x4 INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 24 / 34.

(25) Apprentissage : backpropagation y2. x2. x3. Backward. y1. x1. x4. Similaire au perceptron redescente des erreurs des neurones de sortie vers les neurones d’entrée (backpropagation) mise à jour des paramètres Wi par descente de gradient (t+1). Wi. (t). = Wi. −µ∗. ∂y ∂Wi INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 25 / 34.

(26) Réseaux récurrents Pour le TAL, on veut des réseaux adaptés au traitement de séquences (charactères, mots, phrases, . . . ) ⇒ Réseaux récurrents la sortie de la config à i est utilisée comme entrée pour calculer i + 1. INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 26 / 34.

(27) LSTM. Encore mieux : des réseaux récurrents avec mémoire à long terme (et oubli) Long-Short Term Memory – LSTM. INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 27 / 34.

(28) Agencer des briques État de l’art actuellement en TAL : bi-LSTM (lecture gauche-droite + lecture droite-gauche) sur mots et si-besoin caractères + convolution 1D (combine info autour du mot courant). Crédits : Practical Neural Networks for NLP : From Theory to Code. Dyer, Goldberg, and Neubig INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 28 / 34. INRIA.

(29) Pro & Cons X État de l’art en TAL sur de nombreuse tâches, mais proche d’autres méthodes d’apprentissage X ouverture vers d’autres tâches (approches moins supervisées) X4 agencement (+ en + complexe) de réseaux de base mais les premières couches utilisables pour plusieurs tâches 4 besoin de gros volumes de données 4 sensibles aux initialisations 4 entraînements longs 4 interprétation des modèles INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 29 / 34.


(31) Hybridation Mariage symbolique et apprentissage (tenté avec FRMG) 4 expertise forte requise formel x linguistique. X compréhensibilité et adaptabilité. 4 problème couverture (mais FRMG ∼ 90%, et intérêt des erreurs). X développement initial rapide X moins sensible au domaine X possibilité de régler des paramètres par apprentissage (hybridation) et couplage avec outils statistiques. 4X ressources linguistiques requises/exploitables. LAS. 4 gestion des ambiguïtés 90 88 86 84 82. FRMG. Bt. FT. est. ar. rop. Eu. s odi. ann. v -de. a-fr. e em. stat.. e em. a-fr. FRMG +stat.. Divers analyseurs sur corpus SEQUOIA INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 31 / 34. t. -tes. ki. i frw. INRIA.

(32) Approches non supervisées Courant futuriste : emploi encore limité ! Partir de données brutes : ok pour modèles de langue (saisie prédictive) ⇒ Word Embeddings (word2vec) ok pour regroupements (clustering) ; ressources extraction terminologie, champs thématiques, réseaux sémantiques, morphologie, . . . en général besoin de validation. http://stp.lingfil.uu.se/ ~bea/copiale/. pas trop mal pour étiquetage et ségmentation faible sur des décisions complexes (induction de grammaires) INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 32 / 34.

(33) Vers des approches faiblement supervisées Courant prometteur : l’imagination au pouvoir. Exploitation de vues multiples et interactions. traduction : textes alignés transfert multilingue (langue + dotée vers − dotée via textes, wikipedia, . . . ) accès aux logs des moteurs de recherche + liens suivis + bouton chance analyse d’opinion : associer commentaires et notes données par les utilisateurs (Google/Jigsaw Perspective) réseaux sociaux : méta-données associées (threads/discussions, date, . . . ) séquences de mails ; Google SmartReply Photos & légendes ; Films & sous-titres crowdsourcing : payant ou au travers de jeux INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 33 / 34.

(34) Conclusion. Une époque faste (données, puissance, algo, ressources) mais quels acteurs ? Une grande palette de techniques et des mariages possibles De nouvelles approches à explorer pour des supervisions faibles Proche d’IA spécialistes (go, poker,. . . ) mais loin d’IA généralistes pb : agencement/interaction de très nombreux composants Et encore très loin d’une compréhension du langage et du monde apprendre à apprendre, adaptation à l’imprévu, . . .. INRIA. INRIA. Éric de la Clergerie. IA & NLP. 07/12/15. 34 / 34.

(35)