• Aucun résultat trouvé

Apprentissage, Classification & Pr´evision

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage, Classification & Pr´evision"

Copied!
75
0
0

Texte intégral

(1)

Apprentissage, Classification & Pr´ evision

David Nerini

MIO

premier semestre

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 1 / 30

(2)

Motivation

La description analytique de tous les processus existants et qui interagissent dans le milieu naturel est une tˆache impossible. La construction de mod`eles math´ematiques coh´erents, `a but explicatif, doit ˆetre effectu´ee sous des hypoth`eses souvent ´eloign´ees de la r´ealit´e.

Cependant, leur ´elaboration est indispensable puisqu’ils doivent permettre de mieuxcomprendre et d’expliquer le fonctionnement partiel des ´ecosyst`emes.

Une des grandes tˆaches en statistiques consiste `ad´ecrire le fonctionnement d’un syst`eme `a partir de l’observation de variables

´

echantillonn´ees sur un grand nombre d’individus. L’objectif n’est pas d’´etudier les processus qui interagissent dans le syst`eme mais de pr´evoir ou d’anticiper des modifications de variables cibles li´ees de mani`ere complexe avec des variables exog`enes.

expliquer 6=predire´

(3)

Motivation

La description analytique de tous les processus existants et qui interagissent dans le milieu naturel est une tˆache impossible. La construction de mod`eles math´ematiques coh´erents, `a but explicatif, doit ˆetre effectu´ee sous des hypoth`eses souvent ´eloign´ees de la r´ealit´e.

Cependant, leur ´elaboration est indispensable puisqu’ils doivent permettre de mieuxcomprendre et d’expliquer le fonctionnement partiel des ´ecosyst`emes.

Une des grandes tˆaches en statistiques consiste `ad´ecrire le fonctionnement d’un syst`eme `a partir de l’observation de variables

´

echantillonn´ees sur un grand nombre d’individus. L’objectif n’est pas d’´etudier les processus qui interagissent dans le syst`eme mais de pr´evoir ou d’anticiper des modifications de variables cibles li´ees de mani`ere complexe avec des variables exog`enes.

expliquer 6=predire´

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 2 / 30

(4)

Motivation

La description analytique de tous les processus existants et qui interagissent dans le milieu naturel est une tˆache impossible. La construction de mod`eles math´ematiques coh´erents, `a but explicatif, doit ˆetre effectu´ee sous des hypoth`eses souvent ´eloign´ees de la r´ealit´e.

Cependant, leur ´elaboration est indispensable puisqu’ils doivent permettre de mieuxcomprendre et d’expliquer le fonctionnement partiel des ´ecosyst`emes.

Une des grandes tˆaches en statistiques consiste `ad´ecrire le fonctionnement d’un syst`eme `a partir de l’observation de variables

´

echantillonn´ees sur un grand nombre d’individus. L’objectif n’est pas d’´etudier les processus qui interagissent dans le syst`eme mais de pr´evoir ou d’anticiper des modifications de variables cibles li´ees de mani`ere complexe avec des variables exog`enes.

expliquer 6=predire´

(5)

Position du probl` eme

On dispose d’un ´echantillonE ={(yi,xi),i =1, ...,n}d’une variable

`

a pr´edire Y et de variables de pr´evisions ouexplicatives X= (X1, ...,Xp)0. Cet ´echantillon doit ˆetre repr´esentatif de la

population dans laquelle il a ´et´e pr´elev´e. Cela veut dire que si sa taille n tend vers l’infini, les caract´eristiques des variables ´echantillonn´ees se rapprochent de celles de leur distribution th´eorique.

On cherche `a construire unmod`ele statistique de la forme y =fθ(x) +ε

o`u fθ est une fonction qui d´ecrit les relations liant la variable Y aux variables X1, ...,Xp. Sa forme peut appartenir `a une famille

param´etrique ou ne pas ˆetre connue. La d´etermination de fθ,

directement ou par l’interm´ediaire des param`etres θ, est effectu´ee, la plupart du temps, en minimisant la norme des erreurs ε.

Une fois le mod`ele construit, il est possible d’estimer sa fiabilit´e en utilisant des donn´ees qui n’ont pas servi `a sa construire dans le but de faire de la pr´evision.

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 3 / 30

(6)

Position du probl` eme

On dispose d’un ´echantillonE ={(yi,xi),i =1, ...,n}d’une variable

`

a pr´edire Y et de variables de pr´evisions ouexplicatives X= (X1, ...,Xp)0. Cet ´echantillon doit ˆetre repr´esentatif de la

population dans laquelle il a ´et´e pr´elev´e. Cela veut dire que si sa taille n tend vers l’infini, les caract´eristiques des variables ´echantillonn´ees se rapprochent de celles de leur distribution th´eorique.

On cherche `a construire unmod`ele statistique de la forme y =fθ(x) +ε

o`u fθ est une fonction qui d´ecrit les relations liant la variable Y aux variables X1, ...,Xp. Sa forme peut appartenir `a une famille

param´etrique ou ne pas ˆetre connue. La d´etermination de fθ,

directement ou par l’interm´ediaire des param`etres θ, est effectu´ee, la plupart du temps, en minimisant la norme des erreurs ε.

Une fois le mod`ele construit, il est possible d’estimer sa fiabilit´e en utilisant des donn´ees qui n’ont pas servi `a sa construire dans le but de faire de la pr´evision.

(7)

Position du probl` eme

On dispose d’un ´echantillonE ={(yi,xi),i =1, ...,n}d’une variable

`

a pr´edire Y et de variables de pr´evisions ouexplicatives X= (X1, ...,Xp)0. Cet ´echantillon doit ˆetre repr´esentatif de la

population dans laquelle il a ´et´e pr´elev´e. Cela veut dire que si sa taille n tend vers l’infini, les caract´eristiques des variables ´echantillonn´ees se rapprochent de celles de leur distribution th´eorique.

On cherche `a construire unmod`ele statistique de la forme y =fθ(x) +ε

o`u fθ est une fonction qui d´ecrit les relations liant la variable Y aux variables X1, ...,Xp. Sa forme peut appartenir `a une famille

param´etrique ou ne pas ˆetre connue. La d´etermination de fθ,

directement ou par l’interm´ediaire des param`etres θ, est effectu´ee, la plupart du temps, en minimisant la norme des erreurs ε.

Une fois le mod`ele construit, il est possible d’estimer sa fiabilit´e en utilisant des donn´ees qui n’ont pas servi `a sa construire dans le but de faire de la pr´evision.

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 3 / 30

(8)

Position du probl` eme

Definition

On appelle Apprentissage Machine (Machine Learning) l’ensemble des m´ethodes statistiques relatives `a l’´etude des propri´et´es de E, de l’estimation de fθ et de son utilisation pour effectuer des pr´evisions.

Les techniques math´ematiques utilis´ees pour la construction des mod`eles et la pr´evision utilisent ´enorm´ement de donn´ees.

L’´etude de leurs propri´et´es et leur utilisation dans un cadre

op´erationnel sont souvent bas´ees sur des algorithmes informatiques particuliers (Machine Learning)

Le choix des m´ethodes repose essentiellement sur le type de donn´ees avec lesquelles l’´ecologue travaille.

(9)

Position du probl` eme

Definition

On appelle Apprentissage Machine (Machine Learning) l’ensemble des m´ethodes statistiques relatives `a l’´etude des propri´et´es de E, de l’estimation de fθ et de son utilisation pour effectuer des pr´evisions.

Les techniques math´ematiques utilis´ees pour la construction des mod`eles et la pr´evision utilisent ´enorm´ement de donn´ees.

L’´etude de leurs propri´et´es et leur utilisation dans un cadre

op´erationnel sont souvent bas´ees sur des algorithmes informatiques particuliers (Machine Learning)

Le choix des m´ethodes repose essentiellement sur le type de donn´ees avec lesquelles l’´ecologue travaille.

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 4 / 30

(10)

Position du probl` eme

Definition

On appelle Apprentissage Machine (Machine Learning) l’ensemble des m´ethodes statistiques relatives `a l’´etude des propri´et´es de E, de l’estimation de fθ et de son utilisation pour effectuer des pr´evisions.

Les techniques math´ematiques utilis´ees pour la construction des mod`eles et la pr´evision utilisent ´enorm´ement de donn´ees.

L’´etude de leurs propri´et´es et leur utilisation dans un cadre

op´erationnel sont souvent bas´ees sur des algorithmes informatiques particuliers (Machine Learning)

Le choix des m´ethodes repose essentiellement sur le type de donn´ees avec lesquelles l’´ecologue travaille.

(11)

Exemples : Y et X r´ eels

Example (R´egression lin´eaire multiple)

y =k+ax1+bx2+cx1x2+ε

On cherche `aestimer un mod`ele `a partir de donn´ees, sous-entendu qu’un mod`ele th´eorique est suppos´e existant.

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 5 / 30

(12)

Exemples : Y et X r´ eels

Example (R´egression polynˆomiale )

y =k+ax+bx2+ε

La forme du mod`ele d´epend des caract´eristiques des variables ´etudi´ees

(13)

Exemples : Y et X r´ eels

Example (R´egression non-param´etrique) y =f (x) +ε

L’estimation de la fonction est directement r´ealis´ee `a l’aide des donn´ees sans passer par uneestimation de param`etres

La structure du mod`ele est compl`etement d´ependante de la qualit´e de l’´echantillon

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 7 / 30

(14)

Exemples : Y et X r´ eels

Example (R´egression non-param´etrique) y =f (x) +ε

L’estimation de la fonction est directement r´ealis´ee `a l’aide des donn´ees sans passer par uneestimation de param`etres

La structure du mod`ele est compl`etement d´ependante de la qualit´e de l’´echantillon

(15)

Estimation des MC

Dans les trois cas pr´ec´edents, l’estimation defθ est effectu´ee par moindres carr´es `a l’aide de l’´echantillon d’apprentissage E. On cherche en fait `a minimiser la norme des erreurs ε

kεk2 =RSS(fθ) =

n i=1

K(xi) (yi−fθ(xi))2

La forme de la fonction poids K(xi)d´epend de la m´ethode employ´ee La m´ethode des MC est `a la base de la construction de la plupart des mod`eles

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 8 / 30

(16)

Estimation des MC

Dans les trois cas pr´ec´edents, l’estimation defθ est effectu´ee par moindres carr´es `a l’aide de l’´echantillon d’apprentissage E. On cherche en fait `a minimiser la norme des erreurs ε

kεk2 =RSS(fθ) =

n i=1

K(xi) (yi−fθ(xi))2

La forme de la fonction poids K(xi)d´epend de la m´ethode employ´ee

La m´ethode des MC est `a la base de la construction de la plupart des mod`eles

(17)

Estimation des MC

Dans les trois cas pr´ec´edents, l’estimation defθ est effectu´ee par moindres carr´es `a l’aide de l’´echantillon d’apprentissage E. On cherche en fait `a minimiser la norme des erreurs ε

kεk2 =RSS(fθ) =

n i=1

K(xi) (yi−fθ(xi))2

La forme de la fonction poids K(xi)d´epend de la m´ethode employ´ee La m´ethode des MC est `a la base de la construction de la plupart des mod`eles

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 8 / 30

(18)

Exemples : Y cat´ egorielle et X quelconques

On construit unevariable qualitative Y ∈ {e1, ...,em}qui d´ecrit les

´

etats hydrologiques de l’´etang

Pr´evision des conditions hydrologiques qualitatives en fonction d’un for¸cage externe (vent et d´ebits)

(19)

Exemples : Y cat´ egorielle et X quelconques

On construit unevariable qualitative Y ∈ {e1, ...,em}qui d´ecrit les

´

etats hydrologiques de l’´etang

Pr´evision des conditions hydrologiques qualitatives en fonction d’un for¸cage externe (vent et d´ebits)

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 9 / 30

(20)

Exemples : Y cat´ egorielle et X quelconques

Example (Arbre de classification)

y =fL(x) =

q j=1

cjI(X∈rj)

La classecj ´elue est celle qui a la probabilit´e maximale dans un noeud terminal donn´e

(21)

Exemples : Y cat´ egorielle et X quelconques

Example (Arbre de classification)

y =fL(x) =

q j=1

cjI(X∈rj)

La classecj ´elue est celle qui a la probabilit´e maximale dans un noeud terminal donn´e

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 10 / 30

(22)

Exemples : Y fonctionnelle et X quelconques

Example (Spectres de taille)

Pr´evision du spectre de taille du zooplancton en fonction de variables environnementales

(23)

Exemples : Y fonctionnelle et X quelconques

Example (Arbre de r´egression)

le mod`ele est de la forme y =fL(x) =E(Y/X=x) =

q j=1

fjI(X∈rj)

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 12 / 30

(24)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example (location and shape)

a small piece of calcium carbonate located in the head of Teleostean fishes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

(25)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example (location and shape)

a small piece of calcium carbonate located in the head of Teleostean fishes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 13 / 30

(26)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example (location and shape)

a small piece of calcium carbonate located in the head of Teleostean fishes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

(27)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example (location and shape)

a small piece of calcium carbonate located in the head of Teleostean fishes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs

sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 13 / 30

(28)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example (location and shape)

a small piece of calcium carbonate located in the head of Teleostean fishes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

(29)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example (location and shape)

a small piece of calcium carbonate located in the head of Teleostean fishes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 13 / 30

(30)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example (location and shape)

a small piece of calcium carbonate located in the head of Teleostean fishes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

(31)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example (location and shape)

a small piece of calcium carbonate located in the head of Teleostean fishes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 13 / 30

(32)

What bring otolith studies ?

Fish stocks, populations and species can be studied through the size, composition and shape of their otoliths

Chemical composition and shape provide informations about fish environment (temperature, migration pathways) and dietary pattern Lateral section shows daily growth rings that record age and growth patterns

Example (Otolith and tree rings)

(33)

Shape analysis

We aim to compare shape of a collection of Mullus barbatus otoliths

objective: discriminate individuals belonging to same species but sampled at different places

Example (Sampling location & Mullus barbatus)

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 15 / 30

(34)

Shape analysis

We aim to compare shape of a collection of Mullus barbatus otoliths objective: discriminate individuals belonging to same species but sampled at different places

Example (Sampling location & Mullus barbatus)

(35)

Shape analysis

We aim to compare shape of a collection of Mullus barbatus otoliths objective: discriminate individuals belonging to same species but sampled at different places

Example (Sampling location & Mullus barbatus)

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 15 / 30

(36)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example (Sampling location & Mullus barbatus)

−400 0 200 400

−400−2000200400

x

y

0.0 0.2 0.4 0.6 0.8 1.0

−400−2000200400

time

x

0.0 0.2 0.4 0.6 0.8 1.0

−400−2000200400

time

y

Probl`eme de recalage (analyse Procuste), objets bidimensionnels Peut-on utiliser leurs formes pour connaˆıtre leur provenance ?

(37)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example (Analyse Discriminante)

S´eparer au mieux les k classes a priori sur l’ensemble des individus

´

echantillonn´es `a partir desp pr´edicteurs

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 17 / 30

(38)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

−0.50.00.5

time

x(t)

0.0 0.2 0.4 0.6 0.8 1.0

−0.6−0.20.20.6

time

y(t)

0.0 0.2 0.4 0.6 0.8 1.0

0.020.040.06

time

stand. dev.

0.0 0.2 0.4 0.6 0.8 1.0

0.000.020.04

time

stand. dev.

The average otolith is defined as {(x(t),y(t)),t ∈[0; 1]}

The variance can be computed and allows to identify variability zones

(39)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

−0.50.00.5

time

x(t)

0.0 0.2 0.4 0.6 0.8 1.0

−0.6−0.20.20.6

time

y(t)

0.0 0.2 0.4 0.6 0.8 1.0

0.020.040.06

time

stand. dev.

0.0 0.2 0.4 0.6 0.8 1.0

0.000.020.04

time

stand. dev.

The average otolith is defined as {(x(t),y(t)),t ∈[0; 1]}

The variance can be computed and allows to identify variability zones

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 18 / 30

(40)

Exemples : Y cat´ egorielle et X fonctionnelle bivari´ ee

Example

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

−0.50.00.5

time

x(t)

0.0 0.2 0.4 0.6 0.8 1.0

−0.6−0.20.20.6

time

y(t)

0.0 0.2 0.4 0.6 0.8 1.0

0.020.040.06

time

stand. dev.

0.0 0.2 0.4 0.6 0.8 1.0

0.000.020.04

time

stand. dev.

The average otolith is defined as {(x(t),y(t)),t ∈[0; 1]}

The variance can be computed and allows to identify variability zones

(41)

Apprentissage supervis´ e et non-supervis´ e

Definition

L’ensemble des m´ethodes qui cherchent `a reproduire une variable Y ´etant donn´ees des observations simultan´ees deX font partie des m´ethodes d’apprentissage supervis´e. Il s’agit de construire un mod`ele

y =fθ(x) +ε

`

a partir d’un ´echantillon d’apprentissage E. Et s’il n’y a pas d’information a priori ?

Definition

Lorsqu’on cherche `a regrouper des objets qui se ressemblent sur la base d’un ´echantillon des seules variablesX, on parlera d’apprentissage non supervis´e. On ne connaˆıt pas a priori l’appartenance d’un individus `a une classe qui serait donn´ee par Y : il faut d´eterminer un nombre de classes optimal

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 19 / 30

(42)

Apprentissage supervis´ e et non-supervis´ e

Definition

L’ensemble des m´ethodes qui cherchent `a reproduire une variable Y ´etant donn´ees des observations simultan´ees deX font partie des m´ethodes d’apprentissage supervis´e. Il s’agit de construire un mod`ele

y =fθ(x) +ε

`

a partir d’un ´echantillon d’apprentissage E. Et s’il n’y a pas d’information a priori ? Definition

Lorsqu’on cherche `a regrouper des objets qui se ressemblent sur la base d’un ´echantillon des seules variablesX, on parlera d’apprentissage non supervis´e. On ne connaˆıt pas a priori l’appartenance d’un individus `a une classe qui serait donn´ee par Y : il faut d´eterminer un nombre de classes optimal

(43)

Exemple : X r´ eels

Example (cytom´etrie en flux)

On utilisera dans ce cas desm´ethodes de classification

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 20 / 30

(44)

Exemple : X r´ eels

Example (Hydrologie)

On utilisera dans ce cas desm´ethodes de classification

(45)

Exemple : X r´ eels

Example (Hydrologie)

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 22 / 30

(46)

Exemple : X r´ eels

Example (Hydrologie)

(47)

Exemple : X qualitatifs

Example (Phylognie)

Un arbre de classification ascendante est construit `a partir d’un

´

echantillon de ”mots”

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 24 / 30

(48)

R´ ecapitulatif

L’apprentissage statistique suppose l’existence d’un´echantillon de construction E. Il est constitu´e de p variables explicatives ou pr´edictives not´ees sous la forme d’un vecteurX.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XRΘ un m´elange de qualitatives et quantitatives. La variable `a expliquer (`a pr´edire, cible) peut ˆetre :

1 Y ∈Rquantitative,

2 Z ∈ {0, 1}qualitative `a 2 modalit´es,

3 T ∈ Θqualitative.

4 inexistante

(49)

R´ ecapitulatif

L’apprentissage statistique suppose l’existence d’un´echantillon de construction E. Il est constitu´e de p variables explicatives ou pr´edictives not´ees sous la forme d’un vecteurX.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XRΘ un m´elange de qualitatives et quantitatives. La variable `a expliquer (`a pr´edire, cible) peut ˆetre :

1 Y ∈Rquantitative,

2 Z ∈ {0, 1}qualitative `a 2 modalit´es,

3 T ∈ Θqualitative.

4 inexistante

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 25 / 30

(50)

R´ ecapitulatif

L’apprentissage statistique suppose l’existence d’un´echantillon de construction E. Il est constitu´e de p variables explicatives ou pr´edictives not´ees sous la forme d’un vecteurX.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XRΘ un m´elange de qualitatives et quantitatives. La variable `a expliquer (`a pr´edire, cible) peut ˆetre :

1 Y ∈Rquantitative,

2 Z ∈ {0, 1}qualitative `a 2 modalit´es,

3 T ∈ Θqualitative.

4 inexistante

(51)

R´ ecapitulatif

L’apprentissage statistique suppose l’existence d’un´echantillon de construction E. Il est constitu´e de p variables explicatives ou pr´edictives not´ees sous la forme d’un vecteurX.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XRΘ un m´elange de qualitatives et quantitatives.

La variable `a expliquer (`a pr´edire, cible) peut ˆetre :

1 Y ∈Rquantitative,

2 Z ∈ {0, 1}qualitative `a 2 modalit´es,

3 T ∈ Θqualitative.

4 inexistante

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 25 / 30

(52)

R´ ecapitulatif

L’apprentissage statistique suppose l’existence d’un´echantillon de construction E. Il est constitu´e de p variables explicatives ou pr´edictives not´ees sous la forme d’un vecteurX.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XRΘ un m´elange de qualitatives et quantitatives.

La variable `a expliquer (`a pr´edire, cible) peut ˆetre :

1 Y ∈Rquantitative,

2 Z ∈ {0, 1}qualitative `a 2 modalit´es,

3 T ∈ Θqualitative.

4 inexistante

(53)

R´ ecapitulatif

L’apprentissage statistique suppose l’existence d’un´echantillon de construction E. Il est constitu´e de p variables explicatives ou pr´edictives not´ees sous la forme d’un vecteurX.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XRΘ un m´elange de qualitatives et quantitatives.

La variable `a expliquer (`a pr´edire, cible) peut ˆetre :

1 Y ∈Rquantitative,

2 Z ∈ {0, 1}qualitative `a 2 modalit´es,

3 T ∈ Θqualitative.

4 inexistante

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 25 / 30

(54)

R´ ecapitulatif

L’apprentissage statistique suppose l’existence d’un´echantillon de construction E. Il est constitu´e de p variables explicatives ou pr´edictives not´ees sous la forme d’un vecteurX.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XRΘ un m´elange de qualitatives et quantitatives.

La variable `a expliquer (`a pr´edire, cible) peut ˆetre :

1 Y ∈Rquantitative,

2 Z ∈ {0, 1}qualitative `a 2 modalit´es,

3 T ∈ Θqualitative.

4 inexistante

(55)

R´ ecapitulatif

L’apprentissage statistique suppose l’existence d’un´echantillon de construction E. Il est constitu´e de p variables explicatives ou pr´edictives not´ees sous la forme d’un vecteurX.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XRΘ un m´elange de qualitatives et quantitatives.

La variable `a expliquer (`a pr´edire, cible) peut ˆetre :

1 Y ∈Rquantitative,

2 Z ∈ {0, 1}qualitative `a 2 modalit´es,

3 T ∈Θ qualitative.

4 inexistante

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 25 / 30

(56)

R´ ecapitulatif

L’apprentissage statistique suppose l’existence d’un´echantillon de construction E. Il est constitu´e de p variables explicatives ou pr´edictives not´ees sous la forme d’un vecteurX.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XRΘ un m´elange de qualitatives et quantitatives.

La variable `a expliquer (`a pr´edire, cible) peut ˆetre :

1 Y ∈Rquantitative,

2 Z ∈ {0, 1}qualitative `a 2 modalit´es,

3 T ∈Θ qualitative.

4 inexistante

(57)

R´ ecapitulatif

Trois objectifs principaux sont poursuivis dans les applications classiques d’apprentissage :

1 Exploration multidimensionnelle ou r´eduction de dimension: production de graphes, d’un sous-ensemble de variables

repr´esentatives des donn´ees initiales ou d’un ensemble de

composantes pr´ealable `a l’utilisation d’une autre technique (ex. Berre)

2 Classification (clustering) ou segmentation : production d’une variable qualitative `a partir de donn´ees quantitatives ou qualitatives.

3 Mod´elisation(Y ouZ) ou Discrimination (Z ouT) : production d’unmod`ele de pr´evision deY (resp.Z,T)

Une fois ces ´etapes d´etermin´ees, on peut passer `a las´election et `a l’utilisation des mod`eles construits dans un but pr´evisionnel.

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 26 / 30

(58)

R´ ecapitulatif

Trois objectifs principaux sont poursuivis dans les applications classiques d’apprentissage :

1 Exploration multidimensionnelle ou r´eduction de dimension: production de graphes, d’un sous-ensemble de variables

repr´esentatives des donn´ees initiales ou d’un ensemble de

composantes pr´ealable `a l’utilisation d’une autre technique (ex. Berre)

2 Classification (clustering) ou segmentation : production d’une variable qualitative `a partir de donn´ees quantitatives ou qualitatives.

3 Mod´elisation(Y ouZ) ou Discrimination (Z ouT) : production d’unmod`ele de pr´evision deY (resp.Z,T)

Une fois ces ´etapes d´etermin´ees, on peut passer `a las´election et `a l’utilisation des mod`eles construits dans un but pr´evisionnel.

(59)

R´ ecapitulatif

Trois objectifs principaux sont poursuivis dans les applications classiques d’apprentissage :

1 Exploration multidimensionnelle ou r´eduction de dimension: production de graphes, d’un sous-ensemble de variables

repr´esentatives des donn´ees initiales ou d’un ensemble de

composantes pr´ealable `a l’utilisation d’une autre technique (ex. Berre)

2 Classification (clustering) ou segmentation : production d’une variable qualitative `a partir de donn´ees quantitatives ou qualitatives.

3 Mod´elisation(Y ouZ) ou Discrimination (Z ouT) : production d’unmod`ele de pr´evision deY (resp.Z,T)

Une fois ces ´etapes d´etermin´ees, on peut passer `a las´election et `a l’utilisation des mod`eles construits dans un but pr´evisionnel.

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 26 / 30

(60)

R´ ecapitulatif

Trois objectifs principaux sont poursuivis dans les applications classiques d’apprentissage :

1 Exploration multidimensionnelle ou r´eduction de dimension: production de graphes, d’un sous-ensemble de variables

repr´esentatives des donn´ees initiales ou d’un ensemble de

composantes pr´ealable `a l’utilisation d’une autre technique (ex. Berre)

2 Classification (clustering) ou segmentation : production d’une variable qualitative `a partir de donn´ees quantitatives ou qualitatives.

3 Mod´elisation(Y ouZ) ou Discrimination (Z ouT) : production d’unmod`ele de pr´evision deY (resp.Z,T)

Une fois ces ´etapes d´etermin´ees, on peut passer `a las´election et `a l’utilisation des mod`eles construits dans un but pr´evisionnel.

(61)

R´ ecapitulatif

Trois objectifs principaux sont poursuivis dans les applications classiques d’apprentissage :

1 Exploration multidimensionnelle ou r´eduction de dimension: production de graphes, d’un sous-ensemble de variables

repr´esentatives des donn´ees initiales ou d’un ensemble de

composantes pr´ealable `a l’utilisation d’une autre technique (ex. Berre)

2 Classification (clustering) ou segmentation : production d’une variable qualitative `a partir de donn´ees quantitatives ou qualitatives.

3 Mod´elisation(Y ouZ) ou Discrimination (Z ouT) : production d’unmod`ele de pr´evision deY (resp.Z,T)

Une fois ces ´etapes d´etermin´ees, on peut passer `a las´election et `a l’utilisation des mod`eles construits dans un but pr´evisionnel.

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 26 / 30

(62)

Pr´ evision

L’ensemble des m´ethodes utilis´ees peuvent servir `a faire des pr´evisions Example (Arbre de classification)

Comment estimer le bon comportement du mod`ele ?

(63)

Pr´ evision

L’ensemble des m´ethodes utilis´ees peuvent servir `a faire des pr´evisions Example (Arbre de classification)

Comment estimer le bon comportement du mod`ele ?

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 27 / 30

(64)

Pr´ evision

Les performances d’un mod`ele sont bas´ees sur des crit`eres dequalit´e de pr´evisionqui visent `a rechercher des mod`eles parcimonieux. Ces mod`eles fournissent un compromis entre une complexit´e limit´ee (faible nombre de param`etres ou flexibilit´e) et une bonne capacit´e de g´en´eralisation. L’interpr´etabilit´e passe au deuxi`eme plan

Example

(65)

Pr´ evision

Les performances d’un mod`ele sont bas´ees sur des crit`eres dequalit´e de pr´evisionqui visent `a rechercher des mod`eles parcimonieux. Ces mod`eles fournissent un compromis entre une complexit´e limit´ee (faible nombre de param`etres ou flexibilit´e) et une bonne capacit´e de g´en´eralisation. L’interpr´etabilit´e passe au deuxi`eme plan

Example

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 28 / 30

(66)

Mod` eles agr´ eg´ es (bagging)

Il existe un moyen efficace de tester la capacit´e de pr´evisiond’un mod`ele grˆace `a la technique du Bootstrap

La pr´evision est donn´ee par ϕB(x) =moyi ϕ

x,L(i)

On peut soit utiliserB fois le mˆeme mod`ele soit en utiliser plusieurs : la strat´egie du choix du mod`ele n’est pas fig´ee

(67)

Mod` eles agr´ eg´ es (bagging)

Il existe un moyen efficace de tester la capacit´e de pr´evisiond’un mod`ele grˆace `a la technique du Bootstrap

La pr´evision est donn´ee par ϕB(x) =moyi ϕ

x,L(i)

On peut soit utiliserB fois le mˆeme mod`ele soit en utiliser plusieurs : la strat´egie du choix du mod`ele n’est pas fig´ee

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 29 / 30

(68)

Mod` eles agr´ eg´ es (bagging)

Il existe un moyen efficace de tester la capacit´e de pr´evisiond’un mod`ele grˆace `a la technique du Bootstrap

La pr´evision est donn´ee par ϕB(x) =moyi ϕ

x,L(i)

On peut soit utiliserB fois le mˆeme mod`ele soit en utiliser plusieurs : la strat´egie du choix du mod`ele n’est pas fig´ee

(69)

Finalement

Ce que vous devez savoir faire en sortant de ce cours :

1 Comprendre ce qu’est un tableau de donn´eeset les diff´erentes variablesqui le composent

2 Donner lesbases g´eom´etriquesn´ecessaires `a la construction des mod`eleset `a la compr´ehension de certaines notions en statistiques

3 Aborder quelques m´ethodes de classification,segmentationet d’aide `a la d´ecision(AFD)

4 Donner les bases de la construction de mod`eles agr´eg´es parbootstrap

5 Appliquer quelques unes de ces m´ethodes sur ordinateur

Mon (piˆetre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans effroi !

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 30 / 30

(70)

Finalement

Ce que vous devez savoir faire en sortant de ce cours :

1 Comprendre ce qu’est un tableau de donn´eeset les diff´erentes variablesqui le composent

2 Donner lesbases g´eom´etriquesn´ecessaires `a la construction des mod`eleset `a la compr´ehension de certaines notions en statistiques

3 Aborder quelques m´ethodes de classification,segmentationet d’aide `a la d´ecision(AFD)

4 Donner les bases de la construction de mod`eles agr´eg´es parbootstrap

5 Appliquer quelques unes de ces m´ethodes sur ordinateur

Mon (piˆetre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans effroi !

(71)

Finalement

Ce que vous devez savoir faire en sortant de ce cours :

1 Comprendre ce qu’est un tableau de donn´eeset les diff´erentes variablesqui le composent

2 Donner lesbases g´eom´etriquesn´ecessaires `a la construction des mod`eleset `a la compr´ehension de certaines notions en statistiques

3 Aborder quelques m´ethodes de classification,segmentationet d’aide `a la d´ecision(AFD)

4 Donner les bases de la construction de mod`eles agr´eg´es parbootstrap

5 Appliquer quelques unes de ces m´ethodes sur ordinateur

Mon (piˆetre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans effroi !

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 30 / 30

(72)

Finalement

Ce que vous devez savoir faire en sortant de ce cours :

1 Comprendre ce qu’est un tableau de donn´eeset les diff´erentes variablesqui le composent

2 Donner lesbases g´eom´etriquesn´ecessaires `a la construction des mod`eleset `a la compr´ehension de certaines notions en statistiques

3 Aborder quelques m´ethodes de classification,segmentationet d’aide `a la d´ecision(AFD)

4 Donner les bases de la construction de mod`eles agr´eg´es parbootstrap

5 Appliquer quelques unes de ces m´ethodes sur ordinateur

Mon (piˆetre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans effroi !

(73)

Finalement

Ce que vous devez savoir faire en sortant de ce cours :

1 Comprendre ce qu’est un tableau de donn´eeset les diff´erentes variablesqui le composent

2 Donner lesbases g´eom´etriquesn´ecessaires `a la construction des mod`eleset `a la compr´ehension de certaines notions en statistiques

3 Aborder quelques m´ethodes de classification,segmentationet d’aide `a la d´ecision(AFD)

4 Donner les bases de la construction de mod`eles agr´eg´es parbootstrap

5 Appliquer quelques unes de ces m´ethodes sur ordinateur

Mon (piˆetre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans effroi !

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 30 / 30

(74)

Finalement

Ce que vous devez savoir faire en sortant de ce cours :

1 Comprendre ce qu’est un tableau de donn´eeset les diff´erentes variablesqui le composent

2 Donner lesbases g´eom´etriquesn´ecessaires `a la construction des mod`eleset `a la compr´ehension de certaines notions en statistiques

3 Aborder quelques m´ethodes de classification,segmentationet d’aide `a la d´ecision(AFD)

4 Donner les bases de la construction de mod`eles agr´eg´es parbootstrap

5 Appliquer quelques unes de ces m´ethodes sur ordinateur

Mon (piˆetre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans effroi !

(75)

Finalement

Ce que vous devez savoir faire en sortant de ce cours :

1 Comprendre ce qu’est un tableau de donn´eeset les diff´erentes variablesqui le composent

2 Donner lesbases g´eom´etriquesn´ecessaires `a la construction des mod`eleset `a la compr´ehension de certaines notions en statistiques

3 Aborder quelques m´ethodes de classification,segmentationet d’aide `a la d´ecision(AFD)

4 Donner les bases de la construction de mod`eles agr´eg´es parbootstrap

5 Appliquer quelques unes de ces m´ethodes sur ordinateur

Mon (piˆetre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans effroi !

David Nerini (MIO) Cours M2, 2016-2017 premier semestre 30 / 30

Références

Documents relatifs

Il s’agit donc d’une suite g´ eom´ etrique.... Il s’agit donc d’une suite g´

On l’a d´ej `a fait pour les g´eom´etries `a courbure constante : pour la g´eom´etrie euclidienne, prendre un r´eseau de translations, et pour la g´eom´etrie sph´erique,

2 Cette condition est plus restrictive que celle que l’on peut d´ efinir plus g´ en´ eralement en statistique pour ´ etudier des mod` eles d’analyse de la variance. On peut

Certains de ces objets seront consid´ er´ es comme d´ efinitivement ac- quis (nombres complexes, coniques,. ) et il n’y aura pas lieu de reprendre ensuite leur ´ etude dans le cours

Réciproquement, si deux droites parallèles sont coupées par une sécante en formant deux angles alternes-internes (ou correspondants) égaux, alors elles sont

Selon Einstein, notre univers est de dimension 4 : 3 dimensions d’espace et 1 de temps.. Pourrait-il en

Jean-Pierre Demailly (Grenoble I), 06/05/2010 Curiosit´ es g´ eom´ etriques et physique de l’Univers.. Dimension

[r]