• Aucun résultat trouvé

IFT3390/6390Fondements de l’apprentissage machine

N/A
N/A
Protected

Academic year: 2022

Partager "IFT3390/6390Fondements de l’apprentissage machine"

Copied!
10
0
0

Texte intégral

(1)

Département d'informatique et de recherche opérationnelle

Laboratoire d’Informatique des Systèmes d’Apprentissage

IFT3390/6390

Fondements de l’apprentissage machine

Professeur: Pascal Vincent

Deuxième cours:

Terminologie de l’apprentissage supervisé Méthodes à base de voisinage (formalisation)

http://www.iro.umontreal.ca/~vincentp/ift3390

(2)

Au programme aujourd’hui

Bref rappel de points importants du premier cours

Terminologie de l’apprentissage supervisé

Formalisation mathématique des méthodes

à base de voisinage

(3)

Apprendre à partir d’exemples !

“cheval” “cheval” “cheval”

Principe beaucoup plus général que d’écrire à la main, en

partant de zéro, un algorithme pour reconnaître un cheval...

(4)

Les catégories de problêmes (tâches) standards de l’apprentissage automatique

Classification Régression

Estimation de densité

Partitionnement ( clustering ) Réduction de dimensionalité

Apprentissage supervisé

Apprentissage non supervisé

Apprentissage par renforcement

(5)

entrée, observation , input, x cible, target,

sortie désirée,

y

entrée, observation , input, x entrée, observation , input, x 1

2 3

entrée, observation , input, x n

cible, target,

sortie désirée,

y cible, target,

sortie désirée,

y

cible, target,

sortie désirée,

y

etc ...

. . .

1 2 3

n

. . .

1 2 3

n

. . .

Terminologie de l’apprentissage supervisé

Ensemble de données d’entrainement (training set)

point de test

On cherche un algorithme qui produit une sortie (output) qui est une bonne prédiction de la cible.

Cet algorithme trouve une bonne fonction x -> y

? ? ?

taille de

?

l’ensemble, nombre

d’exemples, d’échantilons.

Une entrée est généralement représentée par un vecteur de dimension

d

.

dimensionalité de l’entrée

x R

d

(6)

Terminologie de l’apprentissage supervisé

Lorsque la cible est une étiquette de classe, une variable catégorique (indiquant à quelle classe ou catégorie l’entrée appartient, parmi plusieurs) on dit qu’on a affaire à un problème de CLASSIFICATION.

(on utilise souvent un entier comme étiquette).

Lorsque la cible est une (ou plusieurs) valeur réelle à prédire, on parle de problème de

RÉGRESSION.

Quand on n’a pas de cible explicite, on est

dans le cadre de l’apprentissage non supervisé.

(7)

Point de test:

(nouveau x )

Ex. de problème de classification

2 2 2 2 2 3 3 3 3 3

Ensemble de données d’entrainement

(training set)

2 ou 3?

?

Apprendre n’est pas simplement

mémoriser...

C’est être capable de généraliser à de nouveaux cas!

x R d

x = (0, 0, . . . , 54, 120, . . . , 0, 0)

(représentation vectorielle) entrée x

i

étiquette label y

i

(8)

Représentation des données

x = ( 0, 0, ... , 140, 0, ... )

x vecteur de

?

x [1]

x[2]

x[1] x[2]

R d

(9)

L’algorithme du plus proches voisin

On trouve le plus proche voisin de x parmi l’ensemble d’apprentissage selon une

certaine mesure de distance (ex: distance Euclidienne).

Pour un point test x:

BLEU!

On associe à x la classe de ce plus proche voisin.

Ensemble d’apprentissage

x?

(10)

L’algorithme classique des k plus proches voisins (kNN)

On trouve les k plus proches voisins de x parmi l’ensemble d’apprentissage

(typiquement selon la distance Euclidienne).

On associe à x la classe majoritaire parmi ses k voisins

Pour un point test x:

x?

BLEU!

k=3

Références

Documents relatifs

En fait ce dont il est question ce sont les hales, les talus, les chemins, les cours d'eau, les foss~s, les bois, les landes, le b~ti ; mais le paysage cultiv~ ce sont

g) Progrès en pourcentage des membres du personnel de sexe féminin titulaires d’un engagement de longue durée, par catégorie, de 2015 à 2020 ... Répartition des membres du

Soit f un plongement (resp. un plongement fermé) d’un espace de convergence séparé (resp. complètement régulier) dans un espace de convergence séparé

Méthodes de type histogramme, illustrées pour classification, régression, estimation de densité.. Malédiction de

Rappel des types de problème en apprentissage Méthodes à base de voisinage: k-NN et Parzen.. pour classification binaire, régression, estimation

• Dans le cas de classification multiclasse ( Y indique le numéro d’une classe parmi m classes), on peut effectuer une régression multiple avec une cible codée en “un

• On peut apprendre les paramètres d’une Gaussienne à partir d’un ensemble de données de manière simple:. • Pour μ on calcule la moyenne empirique des

Cette année, des enfants ont suivi exactement le même cheminement pour en arriver à la musique instru- mentale.. Mais, dans le cadre de nos échanges sauvages