Apprentissage automatique

(1)

Apprentissage automatique

Damien Nouvel

Damien Nouvel (Inalco) Apprentissage 1 / 31

(2)

Principes de l’apprentissage

Plan

1. Principes de l’apprentissage 2. Méthodes non-itératives 3. Méthodes itératives

(3)

Généralités sur l’apprentissage

§ Qu’est-ce que l’apprentissage

‚ Pour l’humain, acquisition

‚ Deconnaissances(cognition, par ex. une langue)

‚ D’unsavoir-faire(tâche, par ex. marcher)

‚ Pour l’intelligence artificielle

‚ Prendre une décisionintelligente

‚ Construire un modèleautomatiquement ñ Difficile à déterminer ex-nihilo

ñ Importance de définirles données et l’objectif

§ Notion d’erreur

‚ Permet de guiderl’apprentissage

‚ Objectif : avoir le moins d’erreurs possible

‚ Lien avec la fonction d’évaluation

(4)

Généralités sur l’apprentissage

(5)

Généralités sur l’apprentissage

‚ Construire un modèleautomatiquement

ñ Difficile à déterminer ex-nihilo

(6)

Généralités sur l’apprentissage

(7)

Généralités sur l’apprentissage

(8)

Généralités sur l’apprentissage

(9)

Généralisation vs spécialisation

§ Tendances générales

‚ Généralisation

‚ Prise en compte de données plus diverses

‚ Adaptation aux nouvelles données ñ Perte en précision

ñ Gain en rappel ñ Sous-apprentissage

‚ Spécialisation

‚ Focalisation sur des données spécifiques

‚ Difficulté face aux nouvelles données ñ Gain en précision

ñ Perte en rappel ñ Sur-apprentissage

ñ Plus de données d’entraînement peuvent généraliser ou spécialiser

ñ Attention aux effets de bord (données éparses)

(10)

Généralisation vs spécialisation

§ Tendances générales

‚ Généralisation

‚ Prise en compte de données plus diverses

‚ Adaptation aux nouvelles données ñ Perte en précision

ñ Gain en rappel ñ Sous-apprentissage

‚ Spécialisation

‚ Focalisation sur des données spécifiques

‚ Difficulté face aux nouvelles données ñ Gain en précision

ñ Perte en rappel ñ Sur-apprentissage

ñ Plus de données d’entraînement peuvent généraliser ou spécialiser

ñ Attention aux effets de bord (données éparses)

(11)

Degré de supervision

§ Effort sur le coût de conception (ingénierie) des logiciels ñ Degré d’intervention de l’humain dans la conception

§ Schématiquement

‚ Conception manuelle (symbolique, à base de règles) :

Données Modèle Application

‚ Conception automatique (statistique, guidé par les données) :

(12)

Degré de supervision

§ Schématiquement

(13)

Degré de supervision

§ Schématiquement

(14)

Degré de supervision

§ Schématiquement

(15)

Méthodologie supervisée

§ Pour un jeu de données

‚ Entraîner,développer,évaluerle(s) modèle(s)

‚ Attention au sur-apprentissage!

ñ La connaissance du jeu de données biaisela modélisation ñ Par exemple, apprentissagepar cœur

§ Jeux de données pour apprentissage supervisé

‚ Entraînement (train) : stat. pour les modèles (probabilités)

‚ Développement (dev) : amélioration itérative des modèles

‚ Evaluation(test) : test final (idéalement unique) ñ Utilisation de validation croisée (cross-validation)

‚ Diviser le jeu de données D enn sous-ensembles (souvent 10)

‚ Pour chaque sous-ensemble i:

‚ Paramétrer le modèle surD´di

‚ Evaluer le modèle surdi

§ Méthodes non-supervisées : pas de données d’entraînement !

(16)

Méthodologie supervisée

(17)

Méthodologie supervisée

‚ Evaluation(test) : test final (idéalement unique)

ñ Utilisation de validation croisée (cross-validation)

(18)

Méthodologie supervisée

‚ Diviser le jeu de données Den n sous-ensembles (souvent 10)

(19)

Méthodologie supervisée

‚ Diviser le jeu de données Den n sous-ensembles (souvent 10)

(20)

Exploitation des données

§ Formalisation des données

‚ Ensemble de données enentréeX=tx₁,x₂,x₃. . .x_nu

‚ Généralement non-ordonné

‚ Chaque exemple est unvecteur(structuré)

‚ Caractéristiques,composantes,features xi1. . .xin

ñ Formematricielle: matrice (lignesxi˚ / colonnesx_˚j)

‚ Ensemble de données ensortieY=ty₁,y₂,y₃. . .y_nu

‚ Résultat attendu associé à chaquexi correspond unyi

‚ Généralement une seule valeur (booléenne, entière ou réelle) ñ Prédiction :régression(continu) /classification(discret) ñ Formematricielle: vecteur (une colonne)

§ Tenir compte des données en entrée X

‚ Telles quelles : apprentissage par cœur, KNN

‚ Extraction de statistiques : TF.IDF, Bayes…

‚ Itération sur les données : neurones, logit, SVM, CRF, LSTM…

§ Prise en compte de la sortie Y : degré de supervision

(21)

Exploitation des données

(22)

Exploitation des données

(23)

Exploitation des données

(24)

Exploitation des données

(25)

Noyau, similarité, distance

§ Méthodes à base de noyau (kernel)

§ Similarité [´1,+1]

‚ Valeurs :1 similaires, 0indépendants, ´1contraires)

‚ Calcul interne à l’espace de représentation : kernel trick

§ Distances [0,+8]

‚ Manhattan :D(x_i,z) =ř

j|x_ij´z_j|

‚ Euclidienne : D(x_i,z) =b ř

j(x_ij´z_j)²

‚ Cosinus : D(x_i,z) = x_i¨z

∥x_i∥˚∥z∥ = ř

jx_ij˚z_j bř

jx²_ij˚ bř

jz²_j

‚ Jaccard :D(x_i,z) = 1´|x_iXz|

|x_iYz|

ñ Notions équivalentes : dist= 1´sim (distP [0,2])

(26)

Noyau, similarité, distance

§ Méthodes à base de noyau (kernel)

§ Similarité [´1,+1]

‚ Valeurs :1 similaires, 0indépendants, ´1contraires)

‚ Calcul interne à l’espace de représentation : kernel trick

§ Distances [0,+8]

‚ Manhattan :D(x_i,z) =ř

j|x_ij´z_j|

‚ Euclidienne :D(x_i,z) =b ř

j(x_ij´z_j)²

‚ Cosinus : D(x_i,z) = x_i¨z

∥x_i∥˚∥z∥ = ř

jx_ij˚z_j bř

jx²_ij˚ bř

jz²_j

‚ Jaccard :D(x_i,z) = 1´|x_iXz|

|x_iYz|

ñ Notions équivalentes : dist= 1´sim (distP [0,2])

(27)

Outils pour l’apprentissage automatique

§ Quelques librairies disponibles

‚ Weka :https://www.cs.waikato.ac.nz/~ml/weka

‚ scikit-learn :http://scikit-learn.org

‚ TensorFlow (Google) : https://www.tensorflow.org

‚ Keras : https://keras.io

‚ pytorch : https://pytorch.org

‚ OpenAI :https://openai.com

‚ Azure (MS) :https://azure.microsoft.com

‚ . . .

(28)

Méthodes non-itératives

Plan

1. Principes de l’apprentissage 2. Méthodes non-itératives 3. Méthodes itératives

(29)

K plus proches voisins

§ Les données X sont utilisées sans transformations

§ Pour un nouvel exemple z à classifier

‚ Calcul de la distanceentre zet chaque x_i

‚ Distance de Manhattan :D(xi,z) =ř

j|xij´zj|

‚ Distance euclidienne :D(xi,z) =b ř

j(xij´zj)²

‚ Similarité cosinus :D(xi,z) = xi¨z

∥xi∥˚∥z∥ = ř

jxij˚zj

bř

jx²_ij˚ bř

jz²_j

‚ Distance de Jaccard :D(xi,z) = 1´|xiXz|

|xiYz|

‚ Sélection desKexemples x_i les plus proches (distance)

‚ Choix de la classe la plus fréquente parmi les K ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK

§ En anglais : K Nearest Neighbours (KNN)

(30)

K plus proches voisins

j|xij´zj|

j(xij´zj)²

∥xi∥˚∥z∥ = ř

jxij˚zj

bř

jx²_ij˚ bř

jz²_j

|xiYz|

(31)

K plus proches voisins

j|xij´zj|

j(xij´zj)²

∥xi∥˚∥z∥ = ř

jxij˚zj

bř

jx²_ij˚ bř

jz²_j

|xiYz|

(32)

K plus proches voisins

j|xij´zj|

j(xij´zj)²

∥xi∥˚∥z∥ = ř

jxij˚zj

bř

jx²_ij˚ bř

jz²_j

|xiYz|

(33)

K plus proches voisins

j|xij´zj|

j(xij´zj)²

∥xi∥˚∥z∥ = ř

jxij˚zj

bř

jx²_ij˚ bř

jz²_j

|xiYz|

‚ Choix de la classe la plus fréquente parmi les K

ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK

(34)

K plus proches voisins

j|xij´zj|

j(xij´zj)²

∥xi∥˚∥z∥ = ř

jxij˚zj

bř

jx²_ij˚ bř

jz²_j

|xiYz|

(35)

TF.IDF

§ Algorithme tourné vers la recherche d’informations

‚ Caractéristiques x_ij :termes dans lesdocuments

‚ Matrice termes / documents (vector space model)

§ Apprentissage du modèle

‚ Poids des termes dans la collection d’exemples X : idf_j=log( |X|

|tx_i|x_iją0u|)

‚ Vecteur représentant chaque exemple x^t_i :x^t_ij=x_ij˚idf_j

‚ Vecteurz^t représentant le nouvel exemple :z^t_j =z_j˚idf_j

‚ Calcul des distances (similarité cosinus) entre z^t et chaquex^t_i ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents

(36)

TF.IDF

|tx_i|x_iją0u|)

(37)

TF.IDF

|tx_i|x_iją0u|)

‚ Calcul des distances (similarité cosinus) entre z^t et chaquex^t_i

ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents

(38)

TF.IDF

|tx_i|x_iją0u|)

‚ Calcul des distances (similarité cosinus) entre z^t et chaquex^t_i ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents

ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents

(39)

TF.IDF

|tx_i|x_iją0u|)

(40)

Classifieur bayésien naïf : principe

§ Discret : probabilité de P(y_i) dépend des facteurs x_ij

‚ Formulation mathématique :

P(y_i|x_i1. . .x_in)˚P(x_i1. . .x_in) =P(x_i1. . .x_in|y_i)˚P(y_i) P(y_i|x_i1. . .x_in) =P(y_i)˚ P(x_i1. . .x_in|y_i)

P(x_i1. . .x_in)

‚ P(yi|xi1. . .xin): probabilitéa posteriori(postérieure)

‚ P(yi): probabilitéa priori(antérieure)

‚ P(xi1. . .xin|yi):vraisemblance

‚ P(xi1. . .xin):évidence(proba jointe) ñ Trouver le y_i qui maximise ce calcul

‚ La quantitéP(xi1. . .xin)estconstante

‚ Calcul deP(yi)sans difficultés

‚ Comment calculerP(xi1. . .xin|yi)?

(41)

Classifieur bayésien naïf : principe

P(x_i1. . .x_in)

‚ P(xi1. . .xin):évidence(proba jointe)

ñ Trouver le y_i qui maximise ce calcul

(42)

Classifieur bayésien naïf : principe

P(x_i1. . .x_in)

‚ P(xi1. . .xin):évidence(proba jointe) ñ Trouver le y_i qui maximise ce calcul

(43)

Classifieur bayésien naïf : hypothèse naïve

ñ Données trop éparses pour l’évènement jointx_i1. . .x_in

§ Remarque : si les x_ij étaient indépendants deux à deux :

P(y_i|x_i1. . .x_in) =P(y_i)˚ź

j

P(x_ij|y_i) P(x_ij)

§ Probabilités conditionnelles : P(A,B|C) = P(A|C)˚P(B|C,A) P(x_i1. . .x_in|y_i)

=P(x_i1|y_i)˚P(x_i2. . .x_in|y_i,x_i1)

=P(x_i1|y_i)˚P(x_i2|y_i,x_i1)˚P(x_i3. . .x_in|y_i,x_i1,x_i2)

=P(x_i1|y_i)˚P(x_i2|y_i)˚P(x_i3|y_i). . .P(x_in|y_i)

=ś

jP(x_ij|y_i)

(44)

Classifieur bayésien naïf : hypothèse naïve

P(y_i|x_i1. . .x_in) =P(y_i)˚ź

j

=P(x_i1|y_i)˚P(x_i2|y_i,x_i1)¨ ¨ ¨ ˚P(x_in|y_i,x_i1. . .x_in´1)

ñ Hypothèse naïve :P(x_ij|y_i,x_i1. . .x_ij´1)«P(x_ij|y_i)

=ś

jP(x_ij|y_i)

(45)

Classifieur bayésien naïf : hypothèse naïve

P(y_i|x_i1. . .x_in) =P(y_i)˚ź

j

=ś

jP(x_ij|y_i)