Apprentissage automatique

(1)

Apprentissage automatique

Damien Nouvel

(2)

Principes de l’apprentissage

Plan

1. Principes de l’apprentissage 2. Méthodes non-itératives 3. Méthodes itératives

(3)

Généralités sur l’apprentissage

§ Qu’est-ce que l’apprentissage

‚ Pour l’humain, acquisition

‚ Deconnaissances(cognition, par ex. une langue)

‚ D’unsavoir-faire(tâche, par ex. marcher)

‚ Pour l’intelligence artificielle

‚ Prendre une décisionintelligente

‚ Construire un modèleautomatiquement ñ Difficile à déterminer ex-nihilo

ñ Importance de définirles données et l’objectif

§ Notion d’erreur

‚ Permet de guiderl’apprentissage

‚ Objectif : avoir le moins d’erreurs possible

‚ Lien avec la fonction d’évaluation

(4)

Généralisation vs spécialisation

§ Tendances générales

‚ Généralisation

‚ Prise en compte de données plus diverses

‚ Adaptation aux nouvelles données ñ Perte en précision

ñ Gain en rappel ñ Sous-apprentissage

‚ Spécialisation

‚ Focalisation sur des données spécifiques

‚ Difficulté face aux nouvelles données ñ Gain en précision

ñ Perte en rappel ñ Sur-apprentissage

ñ Plus de données d’entraînement peuvent généraliser ou spécialiser

ñ Attention aux effets de bord (données éparses)

(5)

Degré de supervision

§ Effort sur le coût de conception (ingénierie) des logiciels ñ Degré d’intervention de l’humain dans la conception

§ Schématiquement

‚ Conception manuelle (symbolique, à base de règles) :

Données Modèle Application

‚ Conception automatique (statistique, guidé par les données) :

Données Modèle Application

(6)

Méthodologie supervisée

§ Pour un jeu de données

‚ Entraîner,développer,évaluerle(s) modèle(s)

‚ Attention au sur-apprentissage!

ñ La connaissance du jeu de données biaisela modélisation ñ Par exemple, apprentissagepar cœur

§ Jeux de données pour apprentissage supervisé

‚ Entraînement (train) : stat. pour les modèles (probabilités)

‚ Développement (dev) : amélioration itérative des modèles

‚ Evaluation(test) : test final (idéalement unique) ñ Utilisation de validation croisée (cross-validation)

‚ Diviser le jeu de données Den n sous-ensembles (souvent 10)

‚ Pour chaque sous-ensemble i:

‚ Paramétrer le modèle surD´di

‚ Evaluer le modèle surdi

§ Méthodes non-supervisées : pas de données d’entraînement !

(7)

Exploitation des données

§ Formalisation des données

‚ Ensemble de données enentréeX=tx₁,x₂,x₃. . .x_nu

‚ Généralement non-ordonné

‚ Chaque exemple est unvecteur(structuré)

‚ Caractéristiques,composantes,features xi1. . .xin

ñ Formematricielle: matrice (lignesxi˚ / colonnesx_˚j)

‚ Ensemble de données ensortieY=ty₁,y₂,y₃. . .y_nu

‚ Résultat attendu associé à chaquexi correspond unyi

‚ Généralement une seule valeur (booléenne, entière ou réelle) ñ Prédiction :régression(continu) /classification(discret) ñ Formematricielle: vecteur (une colonne)

§ Tenir compte des données en entrée X

‚ Telles quelles : apprentissage par cœur, KNN

‚ Extraction de statistiques : TF.IDF, Bayes…

‚ Itération sur les données : neurones, logit, SVM, CRF, LSTM…

§ Prise en compte de la sortie Y : degré de supervision

(8)

Noyau, similarité, distance

§ Méthodes à base de noyau (kernel)

§ Similarité [´1,+1]

‚ Valeurs :1 similaires, 0indépendants, ´1contraires)

‚ Calcul interne à l’espace de représentation : kernel trick

§ Distances [0,+8]

‚ Manhattan :D(x_i,z) =ř

j|x_ij´z_j|

‚ Euclidienne :D(x_i,z) =b ř

j(x_ij´z_j)²

‚ Cosinus : D(x_i,z) = x_i¨z

∥x_i∥˚∥z∥ = ř

jx_ij˚z_j bř

jx²_ij˚ bř

jz²_j

‚ Jaccard :D(x_i,z) = 1´|x_iXz|

|x_iYz|

ñ Notions équivalentes : dist= 1´sim (distP [0,2])

(9)

Outils pour l’apprentissage automatique

§ Quelques librairies disponibles

‚ Weka :https://www.cs.waikato.ac.nz/~ml/weka

‚ scikit-learn :http://scikit-learn.org

‚ TensorFlow (Google) : https://www.tensorflow.org

‚ Keras : https://keras.io

‚ pytorch : https://pytorch.org

‚ OpenAI :https://openai.com

‚ Azure (MS) :https://azure.microsoft.com

‚ . . .

(10)

Méthodes non-itératives

Plan

(11)

K plus proches voisins

§ Les données X sont utilisées sans transformations

§ Pour un nouvel exemple z à classifier

‚ Calcul de la distanceentre zet chaque x_i

‚ Distance de Manhattan :D(xi,z) =ř

j|xij´zj|

‚ Distance euclidienne :D(xi,z) =b ř

j(xij´zj)²

‚ Similarité cosinus :D(xi,z) = xi¨z

∥xi∥˚∥z∥ = ř

jxij˚zj

bř

jx²_ij˚ bř

jz²_j

‚ Distance de Jaccard :D(xi,z) = 1´|xiXz|

|xiYz|

‚ Sélection desKexemples x_i les plus proches (distance)

‚ Choix de la classe la plus fréquente parmi les K ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK

§ En anglais : K Nearest Neighbours (KNN)

(12)

TF.IDF

§ Algorithme tourné vers la recherche d’informations

‚ Caractéristiques x_ij :termes dans lesdocuments

‚ Matrice termes / documents (vector space model)

§ Apprentissage du modèle

‚ Poids des termes dans la collection d’exemples X : idf_j=log( |X|

|tx_i|x_iją0u|)

‚ Vecteur représentant chaque exemple x^t_i :x^t_ij=x_ij˚idf_j

§ Pour un nouvel exemple z à classifier

‚ Vecteurz^t représentant le nouvel exemple :z^t_j =z_j˚idf_j

‚ Calcul des distances (similarité cosinus) entre z^t et chaquex^t_i ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents

(13)

Classifieur bayésien naïf : principe

§ Discret : probabilité de P(y_i) dépend des facteurs x_ij

‚ Formulation mathématique :

P(y_i|x_i1. . .x_in)˚P(x_i1. . .x_in) =P(x_i1. . .x_in|y_i)˚P(y_i) P(y_i|x_i1. . .x_in) =P(y_i)˚ P(x_i1. . .x_in|y_i)

P(x_i1. . .x_in)

‚ P(yi|xi1. . .xin): probabilitéa posteriori(postérieure)

‚ P(yi): probabilitéa priori(antérieure)

‚ P(xi1. . .xin|yi):vraisemblance

‚ P(xi1. . .xin):évidence(proba jointe) ñ Trouver le y_i qui maximise ce calcul

‚ La quantitéP(xi1. . .xin)estconstante

‚ Calcul deP(yi)sans difficultés

‚ Comment calculerP(xi1. . .xin|yi)?

(14)

Classifieur bayésien naïf : hypothèse naïve

ñ Données trop éparses pour l’évènement jointx_i1. . .x_in

§ Remarque : si les x_ij étaient indépendants deux à deux :

P(y_i|x_i1. . .x_in) =P(y_i)˚ź

j

P(x_ij|y_i) P(x_ij)

§ Probabilités conditionnelles : P(A,B|C) = P(A|C)˚P(B|C,A) P(x_i1. . .x_in|y_i)

=P(x_i1|y_i)˚P(x_i2. . .x_in|y_i,x_i1)

=P(x_i1|y_i)˚P(x_i2|y_i,x_i1)˚P(x_i3. . .x_in|y_i,x_i1,x_i2)

=P(x_i1|y_i)˚P(x_i2|y_i)˚P(x_i3|y_i). . .P(x_in|y_i)

=ś

jP(x_ij|y_i)

(15)

Classifieur bayésien naïf : facteurs

§ Calcul de la probabilité des classes selon

‚ La probabilité antérieure de la classeP(y_i)

‚ La vraisemblancedes features sachant la classe P(x_ij|y_i)

§ Pour un nouvel exemple z à classifier, pour chaque classe y

‚ Calcul de P(y_i)˚ś

jP(z_j|y_i)

‚ Sélection de la classe y_i qui maximise ce calcul

ñ Avantages : tient compte de nombreuses caractéristiques ñ Inconvénients : ne calcule pas des probabilités

ñ P(yi|xi1. . .xin) = P(y_i)˚ś

jP(z_j|y_i) P(y_i)˚ś

jP(z_j|y_i) +P(y_i)˚ś

jP(z_j|y_i)

(16)

Moindres carrés : formulation

§ Fonction linéairede prédiction

‚ calcul sur les Xpour obtenir les Y

‚ Introduction de poids w

f(x_i,w) =w₁x_i1+w₂x_i2+w₃x_i3¨ ¨ ¨+b

=ř

jw_jx_ij+b

ñ Ajusterw de manière à ce que@i:f(x_i,w)«y_i

§ Fonction d’erreur

‚ Distanceentre f(x_i,w) ety_i

‚ Erreur quadratiquemoindres carrés :E=ř

i(y_i´f(x_i,w))² ñ À minimiser :w^˚,b^˚ =argmin_(w,b)E

§ Pour une seule composante

‚ E=ř

i(y²_i +w²₁x²_i1+b²´2y_iw₁x_i1´2y_ib+ 2w₁x_i1b)

‚ Dérivées

‚ ∇w₁E=ř

i(2w1x²_i1´2yixi1+ 2xi1b)

‚ ∇bE=ř

i(2b´2yi+ 2w1xi1)

(17)

Moindres carrés : résolution

§ Forme matricielledu problème

‚ X est la matrice desx_i

ñ On ajoute à X une colonne telle quex_˚0 = 1

‚ W est la matrice colonne des poids

ñ On ajoute à W une colonne telle que w₀=b

‚ Y est la matrice colonne desy_i

ñ Il faut trouver W^˚ qui minimise ∥Y´X¨W∥² (convexe)

§ Solution

‚ Optimum global :∇∥Y´X¨W^˚∥²= 0

‚ Équations normales :X^tXW^˚ =X^tY ñ W^˚ = (X^tX)^´1X^tY

ñ Avantages : calcul non itératif ñ Inconvénients : calcul coûteux

(18)

Méthodes itératives

Plan

(19)

Réseaux de neurones

§ Inspirés des neurones biologiques

‚ Dendrites : entrées, reçoivent de l’information

‚ Noyau: activé à partir d’un certain potentiel d’activité

‚ Axone: sortie, conduit les informations

‚ Chaque neurone fait le lien entre entrée(s) et sortie(s)

§ Généralités sur les réseaux de neurones

‚ Neuroneartificiel / formel (W. McCulloch, W. Pitts, 1960)

‚ Couche de neurones entre les X et lesY

‚ Combinaison desX par un vecteur de poidsw

‚ Apprentissage itératif sur les données

‚ Notion d’activation

(20)

Perceptron : principe

§ Réseau de neurones simple (F. Rosenblatt, 1957)

‚ Une seule couche

‚ Linéaire x₁₁ x₁₂

x₁₃

… x_n

w₁ w₂

w₃

… w_n

ř Act. a

(21)

Perceptron : activation

§ Combinaison des entrées comme fonction

‚ Pondérationdes variables en entrée ñ z_i=ř

jx_ijw_j+b

ñ Valeur réelle : ´8 ăz_i ă+8

§ Règle d’activation de Heaviside

‚ Sortie attendue du neurone :1 (activé)0(non-activé)

‚ a_i =

"

1 si z_i ě0 0 si z_i ă0

ñ Selon les entrées et les poids, le neurone est activé ou non

(22)

Perceptron : règle d’apprentissage

§ Apprentissage itératif

‚ Prise en compte des exemplesun à un

‚ Calcul de l’erreurδi =y_i´a_i

‚ 0siyi´ai (tous deux à0ou tous deux à1) ñ Pas d’erreur, on ne touche à rien

‚ +1siyi= 1et ai= 0

ñ Erreur, pas activé : il faut augmenterw

‚ ´1siyi= 0et ai= 1

ñ Erreur, activé : il faut diminuerw

‚ Modification de chaque poids :w¹_j=w_j+αδix_ij

‚ α:pas d’apprentissage(entre0 et1, généralement0.1)

‚ δi: l’erreur guide la direction de la modification

‚ xij: présence de la composantejpour chaque exemple

ñ Jusqu’à convergence (ou nombre max. d’itérations)

(23)

Régression logistique : modélisation

§ Modèle exponentiel :maxent, logit, softmax

§ Exemple (Berger, 1996) : quelle traduction pour le mot in?

‚ Liste de traductions :

dans,en,à,au cours de,pendant

‚ Il faut choisir un élément dans la liste :

P(dans) +P(en) +P(a) +P(aucoursde) +P(pendant) = 1 ñ Une infinité de solutions possibles …

‚ Choix arbitraire : P(dans) = 1

‚ Modélisation équiprobable (loi uniforme) :P(X) = 1/5

(24)

Régression logistique : statistiques

§ Introduction de données statistiques

‚ Expert : dansou en30% du temps : P(dans) +P(en) = 3/10

P(dans) +P(en) +P(a) +P(aucoursde) +P(pendant) = 1

‚ Modélisation équiprobable (loi uniforme) : P(dans) =P(en) = 3/20

P(a) =P(aucoursde) =P(pendant) = 7/30

‚ Expert : dansou à50% du temps : P(dans) +P(en) = 3/10

P(dans) +P(en) +P(a) +P(aucoursde) +P(pendant) = 1 P(dans) +P(a) = 1/2

ñ Quelles probabilités uniformes ?!

(25)

Régression logistique : distribution jointe

§ Selon le jeu de données P(x,˜ y)

‚ x: phrases à traduire contenantin

‚ y: traductions possibles de in

ñ P(x,˜ y) =freq(x,y)/N (avecN le nombre d’observations)

§ Fonction d’indicateur (caractéristique, feature)

‚ f(x,y) =

‚ 1siy=enetApril suitindansx

‚ 0sinon

ñ Indique les situation d’un contexte et d’une traduction

‚ Probabilité empirique : P(f) =˜ ř

x,y

P(x,˜ y)f(x,y)

ñ Peut être modélisée pour n’importe quelle feature

‚ Estimation : P(f) =ř

x,y

P(x)P(y|x)f(x,˜ y)

ñ Modélisation deP(f) selon le paramètreP(y|x) ñ On souhaite faire en sorte queP(f) =˜ P(f)

(26)

Régression logistique : entropie conditionnelle

§ Chaque feature f_i donne une contrainte à satisfaire

§ Distribution uniforme : entropie conditionnelle sur P(y|x)

‚ H(P) =´ř

x,y

P(x)P(y|x)log(P(y|x))˜

ñ DéterminerP(y|x) qui maximise cette quantité ñ Modèle le moins arbitraire

§ Problème contraint

‚ P(y|x)ą0

‚ ř

y

P(y|x) = 1 quelque soitx

‚ ř

x,y

P(x)P(y|x)f˜ _i(x,y) =ř

x,y

P(x,˜ y)f_i(x,y) ñ Pas de calcul direct / solution exacte

(27)

Régression logistique : poids du modèle

§ Lien entre maximum d’entropie et maximum de vraisemblance

§ Utilisation du lagrangien pour trouver la dérivée …

‚ Introduction de paramètres (poids) w_i

P(y|x) =

exp(ř

i

w_if_i(x,y))

ř

y

exp(ř

i

w_if_i(x,y))

‚ Itérations (gradient) pour optimiser les poids

w^˚ =argmax_wÿ

x,y

P(x,˜ y)log(P(y|x))

ñ Algorithmes : GIS, IIS, L-BFGS …

(28)

Lexique neuronal

§ À prendre avec pincettes …

‚ Perceptron : réseau à une couche

‚ One-hot: vecteur dans lequel une seule composante est à 1

‚ Negative sampling: prise en compte d’exemple négatifs

‚ Deep learning: réseaux à plusieurs (?) couches

‚ RNN(Recurrent Neural Network) : lien entre les données

‚ LSTM(Long Short Term Memory) : RNN à mémoire

‚ GRU(Gated Recurrent Unit) : variante du LSTM

‚ Convolution: application d’une fenêtre à l’entrée

‚ Dropout: optimisation du réseau de neurones

(29)

Plongements de mots

§ « You shall know a word by the company it keeps » (Firth, 57)

§ Analyse « distributionnelle » des mots en contexte (Harris, 60)

§ Plongements (embeddings) (Collobert, 2011)

§ Word2Vec non-supervisé (Mikolov et. al., 2012)

‚ Prédire un mot selon son contexte : CBOW(vs SkipGram)

‚ Modèle neuronal (poids) avec softmax ñ Poids :dimensions («100-500) ñ Similarités :bicyclette«velo

ñ Analogies :roi´homme+femme«reine

§ Limites de l’algorithme

‚ Niveau token

‚ Pas d’expressions polylexicales

‚ Pas de morphologie : FastText (Bojanowski, 2016)

‚ Similaritéssyntaxique et sémantique?

‚ Quelles représentations pour les phrases / documents ?

(30)

LSTM

…

(31)

Modèles contextuels

BERT, Flair…