• Aucun résultat trouvé

Apprentissage automatique

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage automatique"

Copied!
27
0
0

Texte intégral

(1)

Apprentissage automatique

Séance 1

Bruno Bouzy

bruno.bouzy@parisdescartes.fr

www.mi.parisdescartes.fr/~bouzy

(2)

Apprentissage automatique

Objectif

• Apercu de l'apprentissage automatique (AA)

• Techniques fondamentales et représentatives

• Problématiques:

– Classification oui surtout – Optimisation oui un peu – Prediction oui un peu

Décision d'un (des) agent(s) situé(s) dans environnement: non (M2)

(3)

Apprentissage automatique

Techniques abordées

• Apprentissage symbolique

• Réseaux bayésiens

• Réseaux de neurones

Machine a vecteurs support

• Arbres de décision

Bagging Boosting

Méthodes des différences temporelles

• Evolution artificielle

• Algorithmes « bandit »

(4)

Apprentissage automatique

Techniques représentatives

• « Machine Learning » top-cited papers (2011):

Quinlan 1986, induction of decision trees (~3000)

Cortes & vapnik 1995, support vector networks (~2000) Sutton 1988, learning to predict by methods of temporal

differences

Breiman 2001, random forests (bagging) (~1000) Aha 1991, instance-based learning algorithms

Cooper Herskovits 1992, a bayesian method for the induction of probabilistic networks from data (~900)

Shapire 1999, improved boosting algo... (~800) etc.

(5)

Apprentissage automatique

Techniques fondamentales

• Mise a niveau

– Approximation polynomiale – Descente de gradient

– Probabilités

• Réseaux de neurones

– Perceptron

• Evolution artificielle

• Apprentissage symbolique

– Induction dans l'espace des versions

(6)

Apprentissage automatique

Guide du cours

Probabilités

Descente de gradient

Approximation polynomiale

Réseaux de neurones

SVN Réseaux bayésiens

Arbres de décision Bagging boosting

Apprentissage symbolique

Différences temporelles Evolution artificielle

Algorithmes « bandit »

(7)

Apprentissage automatique

Apprentissage symbolique

Probabilités

Descente de gradient

Approximation polynomiale

Réseaux de neurones

SVN Réseaux bayésiens

Arbres de décision Bagging boosting

Apprentissage symbolique

Différences temporelles Evolution artificielle

Algorithmes « bandit »

(8)

Apprentissage automatique

Apprentissage numérique

Probabilités

Descente de gradient

Approximation polynomiale

Réseaux de neurones

SVN Réseaux bayésiens

Arbres de décision Bagging boosting

Apprentissage symbolique

Différences temporelles Evolution artificielle

Algorithmes « bandit »

(9)

Apprentissage automatique

Classification

Probabilités

Descente de gradient

Approximation polynomiale

Réseaux de neurones

SVN Réseaux bayésiens

Arbres de décision Bagging boosting

Apprentissage symbolique

Différences temporelles Evolution artificielle

Algorithmes « bandit »

(10)

Apprentissage automatique

Prediction

Probabilités

Descente de gradient

Approximation polynomiale

Réseaux de neurones

SVN Réseaux bayésiens

Arbres de décision Bagging boosting

Apprentissage symbolique

Différences temporelles Evolution artificielle

Algorithmes « bandit »

(11)

Apprentissage automatique

Optimisation

Probabilités

Descente de gradient

Approximation polynomiale

Réseaux de neurones

SVN Réseaux bayésiens

Arbres de décision Bagging boosting

Apprentissage symbolique

Différences temporelles Evolution artificielle

Algorithmes « bandit »

(12)

Apprentissage automatique

Apprentissage supervisé

Probabilités

Descente de gradient

Approximation polynomiale

Réseaux de neurones

SVN Réseaux bayésiens

Arbres de décision Bagging boosting

Apprentissage symbolique

Différences temporelles Evolution artificielle

Algorithmes « bandit »

(13)

Apprentissage automatique

Apprentissage supervisé ou non ?

• Supervisé

– Un oracle classe les exemples

– L'apprenant apprend à classer comme l'oracle

• Non supervisé

– L'apprenant apprend par lui-même

à classer

à décider d'une action

(14)

Apprentissage automatique

Induction

• Langage courant:

– Expliquer

– Prédire, classifier – Faire simple

• Jargon de l'apprentissage automatique:

Engendrer des hypothèses – ...plus ou moins simples

– ...pour classifier, expliquer, décider

(15)

Apprentissage automatique

Induction

Environnement X

(Distrib. de proba DX) Oracle

Apprenant: h(x,α)

x1, x2, ..., xm

x1, x2, ..., xm y1, y2, ..., ym

Sm= (x1,u1), (x2,u2), ..., (xm,um)

(16)

Apprentissage automatique

Induction

• Exemples non classifiés

– x1, x2, ..., xm.

• 1 oracle classifie les exemples

– (x1, u1), (x2, u2), ..., (xm, um).

• L'apprenant apprend (phase d'apprentissage)

– En recherchant une hypothèse h( . , α)

permettant de classifier au mieux les exemples

• L'apprenant classifie (phase de test)

– les exemples nouveaux en utilisant l' hypothèse apprise

(17)

Apprentissage automatique

Les espaces et ensembles

• X: espace des exemples x

• H: espace des hypothèses h

• F: espace des fonctions cibles f

• S: échantillon (sample)

• S+: ensemble des exemples positifs

• S-: ensemble des exemples négatifs S = S+ + S-

• A: ensemble d'apprentissage

• T: ensemble de test S = A + T

(18)

Apprentissage automatique

Biais et variance

• Apprentissage d'une hypothèse h dans H.

• h* : hypothèse optimale dans H.

• h – h* : « variance » ou « erreur d'estimation ».

• Exemples classifiés idéalement avec une fonction cible optimale f* dans F ≠ H.

• h* - f* : « biais » ou « erreur d'approximation ».

• h – f* : erreur totale.

(19)

Apprentissage automatique

Compromis biais-variance

• Erreur totale =

– erreur d'estimation + erreur d'approximation – variance + biais

• Plus H est complexe...

– plus H se rapproche de F, plus le biais diminue.

– plus 2 hypothèses donnent des résultats différents, plus la variance augmente.

• H de complexité intermédiaire pour minimiser

l'erreur totale

(20)

Apprentissage automatique

Compromis biais-variance

erreur

Complexité de H Erreur d'approximation

Erreur d'estimation Erreur totale

(21)

Apprentissage automatique

Compromis biais-variance

• Reconnaitre les hommes et les femmes...

– Modèle simple: la taille pour classifier

Les hommes sont plus grands que les femmes.

biais important: hommes petits et femmes grandes (erreur d'approximation)

variance faible: seuil de taille précisément calculé

– Modèle plus complexe: taille, longueur cheveux, poids, timbre de la voix, pilosité.

biais moins important,

variance plus importante.

(22)

Apprentissage automatique

Induction

• Environnement X:

Engendre des exemples xi tirés indépendamment suivant une distribution DX.

• Oracle:

Pour chaque xi, fournit une étiquette ui dans U

(

avec une distribution de probabilité F(u|x) inconnue)

• Apprenant:

Construit une hypothèse h dans H telle que:

h(xi)= ui pour chaque xi.

(23)

Apprentissage automatique

Induction

Perte (loss) de décider sur x

i

avec h:

L(u

i

,h(x

i

)) coût de la décision h(x

i

).

Risque réel d'une hypothèse h:

Rréel(h) =

X x U L(ui,h(xi)) dF(x,u)

Principe inductif: minimiser R

réel

(h)

• Problème: F est inconnue, R

réel

inconnu

• h* = argmin

h

(R

réel

(h))

(24)

Apprentissage automatique

Induction

Risque empirique d'une hypothèse h sur un échantillon S:

Remp(h,S) = 1/m

i=1,m L(ui,h(xi))

Perte moyenne mesurée sur l'échantillon S

• Minimiser R

emp

(h,S).

• Empirical Risk Minimization (ERM)

• h

^S

= argmin

h

(R

emp

(h,S))

(25)

Apprentissage automatique

Risque empirique et risque réel

Rréel(h) inconnu, f* inconnu, Remp(h,Sm) connu (0) Rréel(f*)=0 (par définition)

(1) Rréel(h*)>0 (biais) (par définition)

(2) Rreel(h*) < Rreel(h^S) (par définition)

(3) Remp(h^S) < Remp(h*)

(4) Remp(h^S) augmente si m->∞ (plus S grand, plus difficile de minimiser)

(5) Rreel(h^S) diminue si m->∞ (plus S grand, plus monde réel couvert)

(6) limm->∞(Remp(h^S)) < Rréel(h*) < limm->∞(Rreel(h^S)) ? (oui si pertinence)

(26)

Apprentissage automatique

Risque empirique et risque réel

m Rreel(h*)

Remp(h^S) Rreel(h^S)

Risque

(27)

Apprentissage automatique

Références

– [1] Antoine Cornuéjols & Laurent Miclet,

« Apprentissage artificiel, concepts et

algorithmes », (préface de Tom Mitchell), Eyrolles.

– [2] Stuart Russell & Peter Norvig, « Artificial Intelligence: a modern approach ».

– [3] Machine Learning.

Références

Documents relatifs

§ Effort sur le coût de conception (ingénierie) des logiciels ñ Degré d’intervention de l’humain dans la conception.

Dans le cadre ` a design fixe, comme on ne cherche pas ` a g´ en´ eraliser ` a de nouvelles valeurs en entr´ ee (mais seulement ` a bien g´ en´ eraliser sur de nouvelles valeurs

Dans cet exercice on consid` ere la r´ egression lin´ eaire des moindres carr´ es p´ enalis´ ee (r´ egression ridge) de R p dans R , connue aussi sous le nom de r´ egression ridge.

Nous nous proposions de déterminer la nature de la relation entre : la taille X mesurée en cm et le poids Y exprimé en kg de ces petits hommes verts.. Nous disposions de

Pour calculer la matrice de confusion → nous avons besoin d’avoir un ensemble de prédictions afin de les comparer aux labels actuels. On peut faire les prédictions sur le test_set

Plan prévisionnel du cours d’ « Apprentissage automatique » donné en Master MI, 1ère année, spécialité Informatique, année 2018-2019.. Séance

• biais important: hommes petits et femmes grandes (erreur d'approximation). • variance faible: seuil de taille

On va s’intéresser dans ce problème à ce que l’on appelle le biais par la taille : il provient du fait que si l’on choisit une personne au hasard dans la population, celle-ci a