• Aucun résultat trouvé

Apprentissage automatique. Introduction à l apprentissage automatique GIF-4101 / GIF-7005 Professeur : Christian Gagné Semaine 1

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage automatique. Introduction à l apprentissage automatique GIF-4101 / GIF-7005 Professeur : Christian Gagné Semaine 1"

Copied!
19
0
0

Texte intégral

(1)

Apprentissage automatique

Introduction `a l’apprentissage automatique – GIF-4101 / GIF-7005 Professeur : Christian Gagn´e

Semaine 1

(2)

Pourquoi l’apprentissage automatique ?

L’apprentissage automatique consiste `a utiliser des ordinateurs pouroptimiser un mod`ele de traitement de l’information selon certainscrit`eres de performance

`

a partir d’observations, que ce soit des donn´ees-exemples ou des exp´eriences pass´ees.

Lorsque l’on connaˆıt le bon mod`ele de traitement `a utiliser, pas besoin de faire de l’apprentissage !

L’apprentissage automatique peut ˆetre utile lorsque :

On n’a pas d’expertise sur le probl`eme (ex. robot navigant sur Mars)

On a une expertise, mais on ne sait pas comment l’expliquer (ex. reconnaissance de visages)

Les solutions au probl`eme changent dans le temps (ex. routage de paquets)

Les solutions doivent ˆetre personnalis´ees (ex. biom´etrie)

1

(3)

Exemple

Une entreprise en cr´edit doit estimer automatiquement le niveau de risque de ses clients

Mesures disponibles : revenus du client (variablex1) et ´epargnes du client (variable x2)

Banque de donn´ees sur des clients pr´e identifi´es comme ´etant `a haut risque (rouge) ou `a faible risque (vert)

(4)

Exemple

0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55

Revenus 0.15

0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55

Epargnes

Haut risque Faible risque

Si x1 >0,32 etx2>0,27 alors faible risque sinon haut risque 3

(5)

Mod`ele et observations

Objectif : inf´erer un mod`ele de traitement g´en´eral `a partir d’observations sp´ecifiques

Le mod`ele inf´er´e doit ˆetre une approximation correcte et utile des observations

Les observations sont peu coˆuteuses et disponibles en quantit´e suffisante ; la connaissance est coˆuteuse et rare

Exemple : relier des transactions de consommateurs `a leurs comportements de consommation

Suggestions d’items similaires sur Amazon (livre, musique), Netflix (cin´ema), etc.

(6)

Vues de l’apprentissage automatique

Optimiser un mod`ele `a partir d’observations selon un crit`ere de performance

Vue statistique : inf´erence `a partir d’´echantillons

Vue informatique: construire des algorithmes et des repr´esentations efficaces pour construire et ´evaluer les mod`eles

Vue ing´enierie: r´esoudre des probl`emes sans devoir sp´ecifier ou sp´ecialiser manuellement les mod`eles

5

(7)

Apprentissage d’associations

Analyse d’un panier d’´epicerie

P(Y|X) est la probabilit´e qu’une personne achetantX ach`ete ´egalementY, o`uX et Y sont des produits ou services

Exemple : P(croustilles|biere) = 0,7

(8)

Apprentissage supervis´e

Apprentissage supervis´e

Objectif : apprendre une projection entre des observationsX en entr´ee et des valeurs associ´eesY en sortie

Mod´elisation math´ematique

y =h(x|θ)

h(·) : fonction g´en´erale du mod`ele

θ: param`etres du mod`ele

7

(9)

Sch´ematisation de l’apprentissage supervis´e

Observations Professeur

Système

supervisé

Σ

x i r i

h(x i )

e(x i )

+ -

(10)

Classement

Y est discret et correspond `a des ´etiquettes de classes

h(·) est une fonction discriminante

0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55

Revenus 0.15

0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55

Epargnes

Haut risque Faible risque

9

(11)

Applications du classement

Reconnaissance des formes

Reconnaissance d’objets : reconnaˆıtre les types d’objets pr´esents dans une image malgr´e les variations des objets et des poses

Reconnaissance de caract`eres manuscrits : reconnaˆıtre malgr´e diff´erents styles d’´ecriture

Reconnaissance de la parole : d´ependance temporelle de l’information, utiliser des dictionnaires de mots/structures valides

Traitement de la langue naturelle

Aide au diagnostic m´edical

ecouverte de m´edicaments

Biom´etrie

Etc.

(12)

Reconnaissance d’objets

Figure 4: (Left)Eight ILSVRC-2010 test images and the five labels considered most probable by our model.

The correct label is written under each image, and the probability assigned to the correct label is also shown with a red bar (if it happens to be in the top 5).(Right)Five ILSVRC-2010 test images in the first column. The remaining columns show the six training images that produce feature vectors in the last hidden layer with the smallest Euclidean distance from the feature vector for the test image.

In the left panel of Figure 4 we qualitatively assess what the network has learned by computing its top-5 predictions on eight test images. Notice that even off-center objects, such as the mite in the top-left, can be recognized by the net. Most of the top-5 labels appear reasonable. For example, only other types of cat are considered plausible labels for the leopard. In some cases (grille, cherry) there is genuine ambiguity about the intended focus of the photograph.

Another way to probe the network’s visual knowledge is to consider the feature activations induced by an image at the last, 4096-dimensional hidden layer. If two images produce feature activation vectors with a small Euclidean separation, we can say that the higher levels of the neural network consider them to be similar. Figure 4 shows five images from the test set and the six images from the training set that are most similar to each of them according to this measure. Notice that at the pixel level, the retrieved training images are generally not close in L2 to the query images in the first column. For example, the retrieved dogs and elephants appear in a variety of poses. We present the results for many more test images in the supplementary material.

Computing similarity by using Euclidean distance between two 4096-dimensional, real-valued vec- tors is inefficient, but it could be made efficient by training an auto-encoder to compress these vectors to short binary codes. This should produce a much better image retrieval method than applying auto- encoders to the raw pixels [14], which does not make use of image labels and hence has a tendency to retrieve images with similar patterns of edges, whether or not they are semantically similar.

7 Discussion

Our results show that a large, deep convolutional neural network is capable of achieving record- breaking results on a highly challenging dataset using purely supervised learning. It is notable that our network’s performance degrades if a single convolutional layer is removed. For example, removing any of the middle layers results in a loss of about 2% for the top-1 performance of the network. So the depth really is important for achieving our results.

To simplify our experiments, we did not use any unsupervised pre-training even though we expect that it will help, especially if we obtain enough computational power to significantly increase the size of the network without obtaining a corresponding increase in the amount of labeled data. Thus far, our results have improved as we have made our network larger and trained it longer but we still have many orders of magnitude to go in order to match the infero-temporal pathway of the human visual system. Ultimately we would like to use very large and deep convolutional nets on video sequences where the temporal structure provides very helpful information that is missing or far less obvious in static images.

8

Tir´e deA. Krizhevsky, I. Sutskever and G.E. Hinton. Imagenet Classification with Deep Convolutional Neural Networks. In Advances in Neural

Information Processing Systems, 2012. 11

(13)

Reconnaissance de caract`eres

(14)

R´egression

Y est une valeur r´eelle

h(·) est la fonction de r´egression

Exemple : pr´ediction du prix de vente d’une voiture usag´ee `a partir du kilom´etrage parcouru

Observations : kilom´etrage parcouru (x)

Pr´ediction : prix de vente (y)

Applications en pr´ediction de valeurs

Finance et assurance

Ph´enom`enes naturels (ex. m´et´eorologie)

Offre et demande

Evaluation du risque et de l’incertitude´

&LW\0LODJHPLOHVJDOORQ

6HOOLQJ3ULFH86

ERG\BVW\OH FRQYHUWLEOH KDWFKEDFN VHGDQ ZDJRQ KDUGWRS

13

(15)

Apprentissage non supervis´e

Contrairement `a l’apprentissage supervis´e, il n’y a pas de valeurs de sortie

Objectif : d´ecouvrir des r´egularit´es dans les observations

Clustering: d´ecouvrir des groupements d’observations similaires

Applications

Segmenter les consommateurs dans les bases de donn´ees d’achats

Bio-informatique : d´ecouvrir des patrons dans l’ADN

Segmentation d’images : d´eterminer r´egions coh´erentes d’images

(16)

Sch´ematisation de l’apprentissage non supervis´e

Observations

x i h(x i )

e(x i )

Mesure d'appariement Système non-

supervisé

15

(17)

Apprentissage par renforcement

Apprendre une politique : s´equences d’actions

L’apprentissage n’est pas supervis´e, mais une r´ecompense avec un d´elai est obtenue

Probl`eme d’assignation du cr´edit : quelles actions ont permis d’obtenir la ecompense ?

Applications

Jeux, avec un ou plusieurs participants

Robotique : navigation dans un environnement

Agents : prises de d´ecisions

(18)

Sch´ematisation de l’apprentissage par renforcement

État Récompense Action

r

t

r

t+1

s

t+1

s

t

a

t

Agent

Environnement

17

(19)

Donn´ees et comp´etitions

UCI Machine Learning Repository : http://archive.ics.uci.edu/ml/

Kaggle

Comp´etitions :https://www.kaggle.com/competitions

Jeux de donn´ees :https://www.kaggle.com/datasets

ImageNet :http://www.image-net.org/

COCO (Common Objects in Context) :http://cocodataset.org/

Donn´ees ouvertes

US :https://www.data.gov/

Europe :http://data.europa.eu/euodp/fr/data/

Canada :http://ouvert.canada.ca/fr/donnees-ouvertes

Qu´ebec :https://www.donneesquebec.ca

Références

Documents relatifs

Por nuestra parte, nos interesa en este recorrido delimitar en la medida de lo posible cómo se dan cita la épica 6 y lo satírico burlesco, dos especies poéticas no

En ce moment c’est nous qui sommes les enfants spartiates et la Russie l’ilote ivre, et que l’on nous pardonne cette comparaison par laquelle nous ne vou­ lons en

In Azerbaijan, Switzerland aims to strengthen economic and financial policies and improve the quality of selected public services through capacity building in key

Les tâches d’apprentissage automatique sont devenues de plus en plus génériques, mais les algorithmes qui les traitent sont, de leur côté, de plus en plus

These issues included the following: challenges related to rebuilding collapsed fisheries and threatened communities; the documentation of regional cod migration patterns;

Pour calculer la matrice de confusion → nous avons besoin d’avoir un ensemble de prédictions afin de les comparer aux labels actuels. On peut faire les prédictions sur le test_set

Plan prévisionnel du cours d’ « Apprentissage automatique » donné en Master MI, 1ère année, spécialité Informatique, année 2018-2019.. Séance

• biais important: hommes petits et femmes grandes (erreur d'approximation). • variance faible: seuil de taille